JP3588755B2

JP3588755B2 - コンピュータシステム

Info

Publication number: JP3588755B2
Application number: JP2002312519A
Authority: JP
Inventors: シェリルセンター; ジョハネスワング
Original assignee: Seiko Epson Corp
Current assignee: Seiko Epson Corp
Priority date: 1992-09-29
Filing date: 2002-10-28
Publication date: 2004-11-17
Anticipated expiration: 2019-11-17
Also published as: JP2000148493A; JP2005353091A; JP2005322269A; JP3772901B2; JP3772902B2; JP2005166046A; JP2000148494A; JP2005235233A; JPH08504977A; JP2003177913A; JP2005174364A; JP3874022B2; WO1994008287A1; JP2003131871A; EP0663083B1; JP2000148481A; DE69329778D1; EP0663083A1; JP2005141780A; US5659782A

Description

【０００１】
【発明の属する技術分野】
本発明は一般的にはスーパースカラ・マイクロプロセサの設計に関し、より具体的には、命令をアウト・オブ・オーダで実行するマイクロプロセサに於けるロード及びストア動作を扱うシステム並びに方法に関する。
本出願は、本出願の代理人に譲渡されている下記の出願に関連するものである。すなわち、ニューエン（Ｎｇｕｙｅｎ）その他による１９９１年７月８日出願の米国特許出願香号０７／７２７，０５８（代理人整理番号ＳＰ０２１）、「拡張可能ＲＩＳＣマイクロプロセサ・アーキテクチャ」（ＥＸＴＥＮＳＩＢＬＥＲＩＳＣＭＩＣＲＯＰＲＯＣＥＳＳＯＲＡＲＣＨＩＴＥＣＴＵＲＥ）、及び′０５８出願の継続出願である、１９９２年１月８日出願の出願番号０７／８１７，８０９に関連する。上記出願の開示を参照することによって当該特許出願の明細書の記載内容が本明細書に組み込まれているものとする。
【０００２】
【従来の技術】
スーパースカラ縮小命令セット・コンピュータ（ＲＩＳＣ）に於ける大きな課題は如何にして斯かる命令実行の本質的な問題である依存性によるデータ・エラーの発生を回避しつつ、複数の命令を平行処理的に、アウト・オブ・オーダで実行できるか、という点に関する。ＲＩＳＣプロセサに於ける最も簡単な命令発行方針は命令をプログラムでの順序と同じ順序で発行し（イン・オーダ発行）、結果をまた同じ順序で書き出すことである（イン・オーダ完了）。アウト・オブ・オーダ完了はイン・オーダ完了に比して複雑であるが、同じ種類の動作に対してスーパースカラ・プロセサの性能向上に効果がある。例えば、アウト・オブ・オーダ完了はロード又は浮動小数点演算等の長い待ち時間動作の性能改善のために使用される。機能ユニット内で実行中の命令の数に制限はないが、その最大数は全ての機能ユニット内のパイプライン段階の数である。この場合、命令はアウト・オブ・オーダで完了でき、その理由は結果の計算にひとつの機能ユニットが１サイクル以上のサイクルを費やした場合でも命令の発行に停止がないからである。従って、後続の命令が終了した後、機能ユニットが一つの命令を完了しても構わない。
【０００３】
下記のコードシーケンスを考えて見る。ただし″ｏｐ″はオペレーション、″Ｒｎ″は番号つきレジスタ、″：＝″は代入を表わす。
【０００４】
Ｒ３：＝Ｒ３ｏｐＲ５（１）
Ｒ４：＝Ｒ３＋１（２）
Ｒ３：＝Ｒ５＋１（３）
Ｒ７：＝Ｒ３ｏｐＲ４（４）
この場合、一般的にアウト・オブ・オーダの命令了が可能であっても、第１命令の代入は第３命令の代入の後には完了できない。第１命令と第３命令がアウト・オブ・オーダで実行された場合、異常且つ不正な値がＲ３レジスタに残り、例えば第４命令が不正なオペレランド値を受け取るような事態が生じる。第３命令の結果は第１命令に対して「出力依存性」を有し、このコードシーケンスに於いて正しい出力値を得るためには第３命令は第１命令の後に完了しなければならない。従って、第３命令の結果が、計算にもっと時間の掛かるより古い命令によって上書きされる場合、第３命令の発行は待たなければならない。
【０００５】
アウト・オブ・オーダの完了は性能の向上をもたらすものであるが、より多くのハードウェア、つまりデータ依存性論理、を必要とする。アウト・オブ・オーダの完了の場合、データ依存性論理は複雑になる。その理由は、この論理ではデコードされた命令と、全てのパイプライン段階の全ての命令の間に於けるデータ依存性の検査が行なわれるからである。結果が正しい順序で書き出されることを保証するのもハードウェアの役割である。これに対して、イン・オーダ実行に於いては、データ依存性論理はデコードされた命令と、現在実行中の幾つかの命令の間に於けるデータ依存性のみを検査すればよいから、結果は当然正しい順序で書き出される。アウト・オブ・オーダ完了に於いてはまた、機能ユニットは結果バス及びレジスタ・ファイル書き込みポート間での調停を行なわなければならない。その理由は、同時に完了する全ての命令の必要を満たすために十分な数のバス及びポートが存在しないであろうからである。
【０００６】
更に、アウト・オブ・オーダの完了では命令例外の処理がより困難になる。ある条件下で命令が例外を生成した場合、その命令はハードウェアだけでは正しく実行できない。
デコードされた命令が資源競合を生じた場合、真の依存性を有する場合、あるいは未完了の命令に対して出力依存性を有する場合、イン・オーダ命令発行プロセサは命令のデコードを中止する。従って、後続する一つ又は複数の命令が実行可能であっても、プロセサは競合又は依存性を生じた命令の後に来るものを先読み（ｌｏｏｋａｈｅａｄ）処理できない。従来の解決策はデコーダを実行段階から分離して、命令が直ちに実行可能であるか否かにかかわらず命令のデコードを継続して行なえるようにすることである。この分離はデコード段階と命令段階の間に「命令ウィンドウ」と呼ばれるバッファを配置することによって実施される。
先読みのために、プロセサは命令をデコードし、ウィンドウ中に場所がある限りデコードされた命令を命令ウィンドウに入れ、それと同時に、実行可能な命令（すなわち、資源競合又は依存性を持たない命令）を見出すためにウィンドウ中の命令を検査する。命令ウインドウは命令のプールとしての機能があり、この機能によってプロセサは先読みの能力を得る。この能力はウィンドウのサイズとプロセサの命令フェッチ・ユニット（ＩＦＵ）の性能によって制約されるものである。これによって、各命令の最初のプログラム順序と無関係にウィンドウから発行できるので、命令のアウト・オブ・オーダ発行が可能となる。この場合、命令発行元に対する唯一の制約はプログラムが正常に動作することを保証するのに必要な制約である。
【０００７】
如何なる特定の命令に於いても、発行に関する制約はイン・オーダ発行の場合と殆ど同じである。すなわち、命令は資源競合又は依存性を持たない場合発行されるのである。アウト・オブ・オーダの発行によって、プロセサは発行可能なより大きな命令集合を得ることになり、それによって、同時に実行可能な命令をプロセサが見つけ得る確率が高まる。しかし、命令をアウト・オブ・オーダで発行する能力によって他の発行制約が生じる。これは命令をアウト・オブ・オーダで実行する能力に於いて出力依存性の制約が導入されるのに類似している。
【０００８】
これを理解するために上記のコードシーケンスの例を振り返って見る。第２命令の実行が始まる前には第３命令の代入は完了できない。さもなければ、第３命令が第２命令の第１オペランドを不正に上書きすることがあり得る。第３命令の結果は第２命令の第１入力オペランドに対して「反依存性」を有するといわれる。「反依存性」という用語は、反依存性制約はそれが逆になった以外には真の依存性に関する制約と同様であることを意味する。第２命令が使用する値を第１命令が生成するかわりに、第２命令は第１命令が使用する値を破壊する値を生成する。これを防止するためには、第２命令が始まるまでプロセサは第３命令を発行してはならない。第２命令は第１命令に依存するから、第３命令は他の点では独立していても第１命令が完了するまで待たなければならない。
【０００９】
反依存性が重要なのは主に命令がアウト・オブ・オーダで発行可能な場合である。正常なオペレーション中、停止した命令の入力オペランドは後続する命令によって破壊されることがある。しかし、スカラ・プロセサに於いては、往々にして命令例外は例外条件を修正し、そして問題を生じた命令を再試行することによって処理される。この命令がアウト・オブ・オーダで完了した場合、その命令の再試行が行なわれた時、後続する命令によってその再試行中の命令の入力オペランドが上書きされることがあり得る。この問題は正確な割り込みをサポートするプロセサでは起こり得ない。この問題の解決には、再起動を可能にするためにプロセサが命令オペランドのコピーを維持する必要があるかもしれない。
【００１０】
プログラム命令によって行われるオペレーションの代表的な二つのオペレーションはロード及びストアのオペレーションである。一般的に、ロード及びストア・オペレーションはそれぞれ記憶場所を読み出し、変更する。他のプログラム命令と同様に、ロード及びストアはアウト・オブ・オーダで実行できる。ロード及びストアは同時にデコード可能であるが、従来的には１サイクル当たり一つのロード又はストアのみが発行される。データ・キャッシュの使用に於いては、通常、ロードはストアに優先される。その理由は多くの場合ロードはプロセサが演算を行うのに必要な値を生成するからである。データ・キャッシュの使用に於いて、ストアがロードと競合する場合、ストアの実行が可能になるまで、通常ストアはストア・バッファに保持される。更に、従来的には、ストアは他のストアに対してプログラム順序で実行され、ロードも含めて全ての他の先行の命令が実行された後にのみ実行される。これによって、データ・キャッシュ使用に於いてのプロセサのイン・オーダ状態が保存される。その理由はキャッシュの更新はそれが絶対に正しく行なわれ得るまで行なわれないからである。ストア・バッファの使用によってストアが正しい順序で保持され、先行の命令が完了するまでストアの完了が延期されるのである。
【００１１】
ストアは他の先行の命令が実行されるまで保持され、そしてロードはプロセサ中での計算に必要な値を生成するから、ストアに対してロードをプログラム順序に保持することは性能に対して重大な悪影響を及ぼす。全ての先行のストアが完了するまでロードが待たなければならない場合、そしてそのために最も新しいストアに先行する全ての命令が完了するまでロードが待つ場合、ロード・データに依存した、ロードに後続する全ての命令も待つことになる。この性能上の問題を回避するために、ロードはストア・バッファで待機している、先行のストアをバイパスすることができ、ロード・データは後続の計算に於いて使用できる。
【００１２】
ロードが先行のストアをバイパスすることができる場合、ロードは未だ実行されていない先行のストアからデータを得る必要があるかも知れない。プロセサはロードが先行のストアに対して有する真の依存性を、ロードの仮想記憶アドレスと、全ての未完了の先行ストアの仮想記憶アドレスとを比較することによって検査する（仮想アドレスとは記憶管理ユニットによるアドレス変換が適用される前に、命令によって直接計算されるアドレスである）。ここに於いて、各仮想アドレスに対して一意的なマッピングの存在が仮定される。その理由は２個の異なる仮想アドレスが同じ物理的なアドレスへアクセスすることがないようにするためである。この仮定に基づき、仮想アドレス比較は物理的記憶場所間の全ての依存性を検出する。ロード・アドレスが先行のストアのアドレスと一致する場合、又は先行のストアのアドレスのいずれも未だ計算されていない場合（この場合、依存性は検出不可能なので、依存性の存在が仮定される）、一つのロードは一つのストアに対して真の依存性を有する。ロードがストアに依存する場合、データ・キャッシュは正しい値を持たないので、そのロードはデータ・キャッシュによって満たされない。ストアの有効アドレスが後続するロードのアドレスと一致する場合、そのロードはストアが完了するのを待つ代わりに、ストア・データが有効な場合、ストア・バッファによって直接満たされる。
【００１３】
上述の如く、ロード及びストアは記憶場所に対する反依存性及び出力依存性を回避するような方法で実行される。ロードは先行のストアをバイパスできるが、ストアは先行のロードをバイパスできない。従って、ロードとストアの間には反依存性は存在し得ない。一つのストアは従来他のストアに対して通常プログラム順に発行されるので、ストア間には出力依存性は存在し得ない。
【００１４】
従来的には、データ・キャッシュに於いてロードは他のロードに対してプログラム順に実行される。当業者の意見ではロードをアウト・オブ・オーダで実行することにより性能の点で得られる利点はないとのことである。その理由は、古いロードによってプロセサに供給されるデータは新しいロードによって供給されるデータよりも計算に必要とされることが多いからである。
【００１５】
上記の概念の詳細は幾つかの刊行物で論じられている。例えば、ＪｏｈｎＬ．Ｈｅｎｎｅｓｓｙその他著、「ＣｏｍｐｕｔｅｒＡｒｃｈｉｔｅｃｔｕｒｅ ‐ＡＱｕａｎｔｉｔａｔｉｖｅＡｐｐｒｏａｃｈ」（ＭｏｒｇａｎＫａｕｆｍａｎｎＰｕｂｌｉｓｈｅｒｓ，Ｉｎｃ．，ＳａｎＭａｔｅｏ，Ｃａｌｉｆｏｒｎｉａ，１９９０年発行）及びＭｉｋｅＪｏｈｎｓｏｎ著「ＳｕｐｃｒｓｃａｌａｒＭｉｃｒｏｐｒｏｃｅｓｓｏｒＤｅｓｉｇｎ」（Ｐｒｅｎｔｉｃｅ−Ｈａｌｌ，Ｉｎｃ．，ＥｎｇｌｅｗｏｏｄＣｌｉｆｆｓ，ＮｅｗＪｅｒｓｅｙ，１９９１年発行）（特に第８章、この章の一部分は上に転載されている）。両書とも参照することによって全文が本明細書に組み込まれているものとする。
【００１６】
【発明が解決しようとする課題】
本発明はスーパースカラＲＩＳＣ型マイクロプロセサ・アーキテクチャ環境に於いてメモリからの読み出し及びメモリへの書き込み、或いは入出力に必要なロード及びストア・オペレーションを管理するシステムを提供するものである。
【００１７】
【課題を解決するための手段】
本発明はプログラム・ストリームを実行するマイクロプロセサ・システムを提供するもので、このシステムには命令を命令ストアより取り出し、且つ予め決められた複数の命令を命令バッファに供給する命令フェッチ・ユニットが含まれている。更に、命令フェッチ・ユニットと結合している実行ユニットが含まれ、実行ユニットは命令バッファからの複数の命令をアウト・オブ・オーダで実行するためにある。
実行ユニットにはロード・ストア・ユニットが含まれ、ユニットはアウト・オブ・オーダなロード要求とイン・オーダのストア要求をメモリ・システムに対して行なうように適性化されている。従って、本発明のロード／ストア・ユニットの主な目的は、可能な限り、アウト・オブ・オーダなロード要求を行ない、なるべく速やかにロード・データを命令実行ユニットに返すことである。ロード・オペレーションはアドレス衝突がなく、実行待ちの書き込みオペレーションが存在しない時のみアウト・オブ・オーダで実行できる。アドレス衝突が発生するのは、古い命令がこれから書き込まれる記憶場所に於いて読み出しが要求された時である。実行待ちの書き込みオペレーションとは、古い命令がストア・オペレーションを要求したがストア・アドレスの計算がまだ行なわれていないことである。データ・キャッシュ・ユニットは位置合わせされていない８バイトのデータを返す。ロード／ストア・ユニットはデータが命令実行ユニット（ＩＥＵ）に返される前にデータの正しい位置合せを行う。従って、ロード／ストア・バッファの三つの主要なタスクは（１）アウト・オブ・オーダのキャッシュ要求の処理、（２）アドレス衝突の検出、及び（３）データの位置合わせである。
【００１８】
ロード・ストア・ユニットには現在実行中の複数の命令に対応する複数のアドレスを管理するために適性化されたアドレス・パス、現在実行中の複数の命令の各命令間にアドレス衝突及び実行待ちの書き込みオペレーションが存在するかどうかを検出して知らせるアドレス衝突手段が含まれ、そうすることによって、ロード・ストア・ユニットはアドレス衝突も実行待ちの書き込みオペレーションも検出されなかった場合、ロード要求を実行する。ロード・ストア・ユニットは更にデータ・パスで構成され、データ・パスはロード及び１又はストア・データをメモリ・システム及び命令実行ユニットの間で転送する。データ・パスは記憶システムより返されたデータの位置合わせをし、斯くしてキャッシュの４ワード境界と一致しないデータがメモリ・システムから命令実行ユニットに正しいアライメントで返されるようにする。
【００１９】
【発明の実施の形態】
本発明は添付の特許請求の範囲に具体的に提示されている。本発明の上記の、そして後述の利点の理解を深めるために、次に図面を参照して説明する。すなわち、図１において、本発明の好適な実施例に基づいて、一般的に１００で表わされるマイクロプロセサ・アーキテクチャが配置されている。システム・アーキテクチャ１００にはホスト・プロセサ１０５、キャッシュ制御ユニット及びメモリ（ＣＣＵ）１１０、仮想メモリ・ユニット（ＶＭＵ）１１５、入出力サブシステム１９０、メモリ制御及びインタフェース・ユニツト１２０、及びインタリーブ・オペレーション用に構成されたインタリーブド・メモリ・バンク（１６０ａ、１６０ｂ、１６０Ｃ）（以降、主メモリ１６０と称す）が含まれている。主メモリ１６０は外部データバス１６２を介してＭＣＵｌ２０に接続されている。本発明はマルチプロセサ環境で動作すると予想されるので、その場合、他のプロセサもメモリバス１６２に接続される。
ホストプロセサ１０５は主メモリ１６０に於いて各アドレス又は記憶場所に格納されているソフトウェア命令を実行する。これらのソフトウェア命令はホスト・プロセサ１０５にプログラム・カウンタの制御の下にイン・オーダで転送される。しばしば、命令のうちあるものはホストプロセサ１０５が一つ又は複数の周辺入出力装置１３５をアクセスすることを必要とする。
【００２０】
ＭＣＵ１２０は一つの回路であり、この回路によってデータ及び命令はＣＣＵ１１０（Ｄ＿キャッシュ１１９とＩ＿キャッシュ１１８（読み出し専用））、ＩＯＵ１５０、及び主メモリ１６０の間を転送される（読み出されるか書き込まれる）。ＭＣＵ１２０にはスイッチ・ネットワーク１４５が含まれ、それにはスイッチ・アービトレーション・ユニット１３２、データ・キャッシュ・インタフェース・ユニット１１７、命令キャッシュ・インタフェース回路１１２、Ｉ／Ｏインタフエース回路１５５、及びポートとして知られる一つ又は複数のメモリポート・インタフェース回路１４８が含まれる。各ポート・インタフェース回路１４８にはポート・アービトレーション・ユニット１３４が含まれている。
【００２１】
スイツチ・ネツトワーク１４５はマスタ装置とスレーブ装置間の通信の手段である。スイッチ・ネットワーク１２０に対するマスタ装置になり得るのはＤ− キャッシュ１１９とＩ− キャッシュ１１８、叉はＩ／Ｏコントローラ・ユニット（ＩＯＵ）１５０である。スレーブ装置として機能し得るものは、例えば、メモリ・ポート１４８叉はＩＯＵ１５０である。スイッチ・ネットワーク１４５の機能はＣＣＵ１１０（Ｉ＿キャッシュ１１８及びＤ＿キャッシュ１１９）とＩＯＵ１５０から様々な命令及びデータ要求を受け取ることである。これらのユニットをバス要求者と呼ぶ。これらの要求を受け取った後、スイッチ・アービトレーション・ユニット１３２及びポート・アービトレーション・ユニット１３４は要求を優先度に応じて並べ、適切なメモリポートに渡す（命令アドレスによる）。ポート１４８、或いは場合によっては複数のポート、は次に必要なタイミング信号を生成し、データを外部バス１６２に送り、あるいはデータを外部バス１６２から受け取る。
【００２２】
命令フェッチ・ユニット（ＩＦＵ）１０６及び命令実行ユニット（ＩＥＵ）１０７はホスト・プロセサ１０５の主要な動作構成要素である。ＩＦＵ１０６及びＩＥＵ１０７の機能を直接サポートするためにＶＭＵ１１５、ＣＣＵ１１０、及びＭＣＵ１２０が配置されている。ＩＦＵ１０６の主要な機能は命令の取り出し、ＩＥＵ１０７による実行を待つ命令のバッファリング、そして、一般的に、次の命令の取り出しに使用される次の仮想アドレスの計算、である。各命令は命令バス１０１を介してＩ＿キャッシュ１１８からＩＦＵ１０６によって同時に取り出される。命令は「バケット」或いは４個の命令の集合に入れられる。命令集合の転送は制御バス１０２を介して供給される制御信号によって、ＩＦＵ１０６及びＣＣＵ１１０の間で調整される。取り出される命令の仮想アドレスはＩＦＵ制御及びアドレス・バス１０３を介してＩＦＵ１０６によってＶＭＵ１１５に供給される。ＶＭＵ１１５へのアクセスに関する調停の必要性は、ＩＦＵ１０６及びＩＥＵ１０７の両者ともＶＭＵ１１５を共通の、共有の資源として使用することから生じる。アーキテクチャ１００の好適な実施例に於いて、仮想アドレスの物理ページ内のアドレスを定義する下位ビットはＩＦＵ１０６によって、制御線１０２を介してＣＣＵ１１０に直接転送される。ＩＦＵ１０６によって供給される仮想アドレスの仮想化上位ビットはバス１０３、１０４のアドレス部分によってＶＭＵ１１５に供給され、そこで対応する物理ページ・アドレスに変換される。ＩＦＵ１０６にとっては、この物理アドレスは変換要求がＶＭＵ１１５に出された１／２内部プロセサ・サイクル後、制御線１１１を介してＶＭＵ１１５からＣＣＵ１１０に直接転送される。
【００２３】
一方、ＩＦＵ１０６によって取り出された命令ストリームは命令ストリーム・バス１０８を介してＩＥＵ１０７に供給される。制御信号は制御線１０９を介してＩＦＵ１０６とＩＥＵ１０７の間でやり取りされる。
ＩＥＵ１０７はデータを双方向データ・バス１１２を介してＤ＿キャッシュ２１５に格納し、またそれから検索する。ＩＥＵ１０７によるデータ・アクセスの場合、物理アドレス全体が制御バス１１３のアドレス部分によってＣＣＵ１１０に供給される。ＩＥＵ１０７はＶＭＵ１１５を、仮想データ・アドレスを、ＣＣＵ１１５への送り出しに適切な物理データ・アドレスに変換する資源として利用する。ＩＦＵ１０６に対するオペレーションとは異なり、ＶＭＵ１１５は対応する物理アドレスをバス１０４を介してＩＥＵ１０７に返す。
【００２４】
ＣＣＵ１１０はホスト・プロセサ１０５と主メモリ１６０との間のバッファとして使用される。一般的に、ＣＣＵ１１０は小型の、高速メモリで、ホスト・プロセサ１０５の近傍に位置し、最も最近アクサスされたコード又はデータを保持する。ＣＣＵ１１０は、適切であれば物理アドレスで定義されたデータ要求が命令及びデータ・キャッシュ１１８、１１９から満たされるか否かを決定するという一般的に従来的な高レベルの機能を行なう。命令キャッシュあるいはデータ・キャッシュ１１８、１１９へのアクセスによってアクセス要求が満たせる場合、ＣＣＵ１１０はデータ・バス１０１、１１３を通じてデータ転送を調整し実行する。命令キャッシュ或いはデータ・キャッシュ１１８、１１９へのアクセスによってアクセス要求が満たせない場合、ＣＣＵ１１０は対応する物理アドレスをＭＣＵ１２０に供給する。この場合、物理アドレスの他に、主メモリ１６０への読み出し又は書き込みアクセスが必要であるかを識別するために十分な制御情報、各要求のソース又は行き先キャッシュ１１８、１１９、更に要求されたオペレーションがＩＦＵ１０６又はＩＥＵ１０７によって発行された最終的なデータ要求と関連付けられるための追加の識別情報がＣＣＵ１１０によってＭＣＵ１２０に供給される。
【００２５】
図２にＩＥＵ１０７のデータ・パスの代表的な高レベルのブロック図を示す。ＩＥＵ１０７の目的は最小限の時間で最大数の命令を実行することである。ＩＥＵ１０７にはレジスタ・ファイル２５０、ロード／ストア・ユニツト（ＬＳＵ）２０５、命令バス（ＩＢＵＳ）２２５、一式の機能ユニット２６０、２６２、２３０、イミディエト変位バッファ２５５、セグメント・ベース・ジェネレータ２５７、及び書き込みバス２７０が含まれている。ＬＳＵ２０５はＬＳＵアドレス・パス２２０及びＬＳＵデータ・パス２１０の二つの部分に分かれている。
【００２６】
スーパースカラ制御ブロック（図示せず）はデータ依存性検査を行い、必要な機能ユニット２６０、２６２、及び２３０が使用可能であるかどうかを検査することによって、ある命令が発行可能であるか否かを決定する。一旦スーパースカラ制御ブロックが一つの命令を発行するように決定すると、ＩＢＵＳ２２５は発行される命令が必要とするデータを検索する（検索はレジスタ・ファイル２５０）バイパス・データ２８０、２８２、或いはイミディエト・データ２５８、２５９から行われる）。ＩＢＵＳ２２５は複数のマルチプレクサによって構成され、これらのマルチプレクサが、どのデータが機能ユニット２６０、２６２、２３０に転送されるかを選択する。ＩＢＵＳ２２５はＡバスとＢバスと呼ばれる一対のバスにデータの転送を行なう。選択されたデータは、諸機能ユニット２６０、２６２、２３０のうちどの機能ユニットがその命令によって使用されるか、或いは現在実行中の命令のオペレーションによって必要とされているか、を決定することによって、ＡバスかＢバスのどちらかのバスに入れられる。
【００２７】
ほとんどの命令の入力及び出力は複数のレジスタ・ファイルのうち一つのレジスタ・ファイルから送られる、つまり格納されている。好適な実施例では、各レジスタ・ファイル２５０（例えば、別個の整数、浮動小数点、或いはブール・レジスタ・ファイル）は３２個の実数エントリ２５４及び８個の一時バッファ２５２のグループを有する。一つの命令が完了すると（「完了」とはオペレーションが終了し、オペランドはその行き先レジスタに書き込める状態にあることをいう）、その結果は一時バッファ２５２中の事前に割り当てられた場所に格納される。これらの結果は後に実レジスタ２５４中の適切な場所に移される。このような結果の一時バッファ２５２から実レジスタ２５４への移動は「退避」（ｒｅｔｉｒｅｍｅｎｔ）と呼ばれる。一度に複数の命令が退避できる。退避により、コンピュータのプログラムカウンタを含めて、マシンの「公式な状態」の更新が行なわれる。
【００２８】
命令は「バケット」と呼ばれる４個のグループ毎に命令デコードＦＩＦＯ（ｆｉｒｓｔ−ｉｎ−ｆｉｒｓｔ−ｏｕｔ）先入れ先出し方式）レジスタ・スタック記憶装置（図示せず）（本明細書では命令ウィンドウと呼ぶ）を介してＩＦＵ１０６からＩＥＵ１０７へ送られる。バケツトはロード、ストア、及び２個の実行ユニットで構成される４個のユニットに分解される。バケットがこれら４個のユニットに分解された理由はシステム１００はロード、ストア、実行の各オペレーション又はそれら全ての組み合わせを実行できる命令を使用して動作するからである。従って、本発明はこれら三つの場合の全てを処理できるバケットを供給するものである。
【００２９】
ＩＥＵ１０７は一度に４個のバケットの命令までデコードしスケジュールできる。命令ウィンドウは全部で１６個の命令を４個のバケツトに格納する。ＩＥＵ１０７は命令ウィンドウを検査し、各サイクルごとにＩＥＵ１０７は命令ウィンドウから最大数の命令を発行しようとする。一旦１個のバケット中の全ての命令が実行され、それらの結果がプロセサのレジスタ・ファイル２５０に格納されると、そのバケットは命令ウィンドウからフラッシュされ、次に新しいバケットが命令ウィンドウに格納される。
一旦その命令が発行されると、レジスタ・ファイル２５０中の諸レジスタがアクセス可能となる。一時レジスタ２５２は先行の命令によって生成されたデータに対してデータ依存性を持っていた命令が実行されるとアクセスされる。レジスタ・ファイル２５０からのデータはデータ線２５４を介してＩＢＵＳ２２５に転送される。
【００３０】
ＤＡＦＵ２３０はＬＳＵ２０５によって使用される３２ビットのリニア・アドレスを計算する。ＤＡＦＵ２３０では多数の異なったアドレス指定モードがサポートされている。２サイクルを必要とするデータが４ワード境界を越える場合、そのデータの最初と最後のアドレスはＤＡＦＵ２３０によって計算される。アドレスを形成するために４個までのコンポーネントが加算される。すなわち、セグメント・ベース、ベース・レジスタ、スケールド・インデックス・レジスタ、及び変位値、の４個のコンポーネントである。セグメント・ベースには目的のメモリ・セグメントの開始アドレスが含まれている。
ベース及びインデックス・レジスタはレジスタ・ファイル２５０中のどの３２ビットレジスタであっても構わない。インデックス・レジスタはそれを１、２、４、又は８で乗算することによってスケールされる。変位値は命令中に存在する定数値（イミディエート値）である。これらのフィールドのうちどのフィールドも省略可能であり、斯くしてアドレス演算に於ける最大限の自由度が得られる。
【００３１】
セグメント・ベースはセグメント・レジスタ・ブロック２５７から得られる。セグメント・ベース・ジェネレータ２５７はデータが如何にしてメモリ中で分割されているかを示す一つの値を生成し、この値をデータ線２６６を介してＤＡＦＵ２３０に転送する。変位はイミディエート変位バッファ２５５から得られる。イミディエート変位バッファ２５５はイミディエート・データを線２６５を介してＤＡＦＵ２３０に転送し、またそれぞれデータ線２５８及び２５９を介してＩＢＵＳ２２５に転送する。ＤＡＦＵ２３０及びＶＭＵ１１５はＬＳＵ２０５に全てのロード及び／叉はストア要求を供給する。ＬＳＵ２０５はこれらの要求を処理し、後に全ての要求されたデータを書き込みバス２７０に返す。書き込みバス２７０はマルチプレクサの集合で成り、マルチプレクサは優先度スキームの基づいてどのデータがレジスタ・ファイル２５０にラッチするかを選択する（例えば、ＬＳＵ２０５によって供給されるデータ又は機能ユニット２６０或いは２６２によって供給されるデータ）。そのデータは線２７５、２７６を介して書き込みバス２７０からレジスタ・ファイル２５０に転送される。ロード及び／叉はストアからのデータは常に最高の優先度を与えられる。時折、２個の命令が連続して発行され、それらが相互に依存している場合、ＩＥＵ１０７はそのデータをレジスタ・ファイル２５０に格納することをバイパスし、それを直ちにＩＢＵＳ２２５にラッチしようとする。これはデータ線２８０、２８１を介して達成できる。従って、データを待つ資源は、そのデータがレジスタ・ファイル２５０の中を通過するまで待ってサイクルを浪費しなくてすむ。
【００３２】
データ線２７５、２７６からのデータも又、一つの命令が実行オペレーション及びストア・オペレーションを伴う場合、ＬＳＵデータ・パス２１０に直接供給される。ロード及び実行オペレーションが行なわれた後、ストアを行うためにデータはＬＳＵデータ・パス２１０に直接供給できる。斯くしてストア・データを得るために一時レジスタ・ファイル２５２をアクセスする手間が省け、従って命令の実行時間の増大につながる。
ＬＳＵ２０５の主な目的は可能な限りＣＣＵ１１０にロード要求をアウト・オブ・オーダで行い、ロード・データをなるべく速くＩＥＵ１０７に返すことである。ロード・オペレーションはアドレス衝突がなく、書き込み実行待ちが存在しない時のみ実行できる。アドレス衝突が発生するのは、古い命令がまだ書き込み中の記憶場所に於いて読み出しが要求された時である。書き込み実行待ちとは、古い命令が格納オペレーションを要求したがストア・アドレス計算がまだ行なわれていないことである。ＬＳＵ２０５はデータ・パス２１０とアドレス・パス２２０という二つの部分に分割されている。アドレス・パス２２０はＤＡＦＵ２３０、ＶＭＵ２３２、及びＣＣＵ１１０とインタフェースし、データ・パス２１０は書き込みバス２７０、ＣＣＵ１１０、ＤＡＦＵ２３０、及びＩＢＵＳ２２５とインタフェースする。ＬＳＵの三つの主要なタスクは（１）アウト・オブ・オーダのキャッシュ要求の処理、（２）アドレス衝突の検出、及び（３）データの位置合わせである。
【００３３】
各命令バケットは同一のアドレスに対するロード及びストア（その間に他のオペレーションが含まれることもある）、ロードのみ、ストアのみ含むことができる。或いはロードもストアも含まないこともある。従って、ＬＳＵ２０５は最大４個のロードと最大４個のストアから選択することができる。本発明の好適な実施例で使用される命令セットはＣＩＳＣ型命令セットで、それによって次のような複雑なオペレーションが可能となる。
【００３４】
ａ）Ｒ１＜−Ｒ１＋［Ｒ２＋（Ｒ３＊２）＋３］
ｂ）［Ｒ２］＜−［Ｒ２］ＯＲＲ４
但し、［ｘ］はアドレスｘに存在するメモリ・オペランドである。好適な実施例に於ける命令デコード・ユニット（図示せず）はこれらのＣＩＳＣ型命令を次のようにＲＩＳＣ型シーケンスに分解する。
【００３５】

このどちらの場合でも、ＤＡＦＵ２３０はメモリ・オペランドのアドレスを計算するが、ロード及びストアは同じアドレスを共有しているので１個の命令バケット当たり一つのアドレス計算だけが必要である。ＣＩＳＣ型命令をＲＩＳＣ型命令にデコーディングすることについての説明に関しては１９９２年３月３１日出願の米国特許出願番号０７／８５７，５９９（代理人整理香号ＳＰ０３２）「ＣＩＳＣ型からＲＩＳＣ型命令への変換のためのアライメント並びにデコーディング」（ＣＩＳＣｔｏＲＩＳＣＩｎｓｔｒｕｃｔｉｏｎＴｒａｎｓｌａｔｉｏｎＡｌｉｇｎｍｅｎｔａｎｄＤｅｃｏｄｉｎｇ）を参照されたい。当該出願の開示を参照することによって本出願に含まれているものとする。
【００３６】
図３にＬＳＵ２０５のアドレス・パス２２０の詳細なブロック図を示す。ロード命令は命令ウインドウから発行され、ＩＥＵ１０７によってアウト・オブ・オーダで実行されるが、ストアは常にイン・オーダで発行される。ロード及び／叉はストア用のアドレスは、全てのオペランドが有効で且つＤＡＦＵ２３０がアドレス計算に使用可能になりしだい計算される。ＤＡＦＵ２３０から物理アドレスを受け取る前にＬＳＵ２０５はキャッシュ要求を行うことができるが、次のクロックサイクルまでに物理アドレスがＤＡＦＵ２３０からもＶＭＵ１１５からも来ない場合、キャッシュ要求は取り消される。その場合、キャッシュ要求は後に再発行されねばならない。
【００３７】
各命令バケット当たり１個のアドレスのみが必要で、そのアドレスはロード・アドレスとストア・アドレスの両方として機能する。各命令バケット当たり、２個の３２ビット・アドレスはアドレス・バッファ３１０〜３１３のうち一つに格納される。すなわち、アクセスの最初のバイトが一つのバッファに格納され、アクセスの最後のバイトが別のバッファに格納される。下位１２ビットがＤＡＦＵ１３０で準備されると、これらのビットは一時バッファ３０５にラッチされる。上位２０ビットがＶＭＵ１１５で準備されると、次のサイクルで全ての３２ビットは適切なアドレス・バッファにラッチされる（すなわち、Ａｄｄｒｅｓｓ１叉はＡｄｄｒｃｓｓ２）。アドレス計算は命令の順序で行なわれず、レジスタ依存性が解消した時行なわれる。アドレス変換の後、有効ビット（図示せず）が命令のアドレス・バッファ３１０〜３１３に設定され、アドレスが有効であることを示す。両方のアドレスは二つの理由で保持される。すなわち、アドレス衝突の検出とページ交差用のキャッシュ要求である。
【００３８】
ＩＦＵ１０６によって使用されるアドレスが仮想アドレスであるのに対し、ＬＳＵ２０５によって使用されるアドレスは物理アドレスである。ＩＦＵ１０６は、ＣＣＵ１１０とＶＭＵ１１５間の調整によって物理アドレスが生成されるのに依存しつつ、仮想アドレスに対して動作するのに対し、ＩＥＵ１０７ではＬＳＵ２０５が物理アドレス・モードで直接動作することが必要である。この条件が必要である理由はオーバラップする物理アドレスのデータ・ロード及びストア・オペレーションを伴う、アウト・オブ・オーダで実行される命令が存在する場合、データの保全を保証するためである。データ保全を保証するために、データがストア命令によって供給された場合、ＬＳＵ２０５はストア命令がＩＥＵ１０７によって退避されるまでそのデータをバッファリングする。従って、ＬＳＵ２０５によってバッファリングされたストア・データはＬＳＵ２０５にのみ一意的に存在することがある。同一の物理アドレスを実行済みではあるが未だ退避されていないストア命令として参照する複数のロード命令は、ストア命令が実際に退避されるまで遅らされる。その時点で、ストア・データはＬＳＵ２０５によってＣＣＵ１１０に転送可能となり、次に、ＣＣＵのデータ・ロード・オペレーションの実行によって直ちに再びロードされる。
【００３９】
上述の如く、ＤＡＦＵ２３０によるアドレス計算は１クロック・サイクルで起こり、ＶＭＵ１３２によるアドレス変換は次のクロック・サイクルで起こる。アドレスがロード用のアドレスであるならば、キャッシュ要求が行われる。一方、アドレスがストア用のアドレスであるならば、格納を行う前にＬＳＵ２０５は退避信号が送られて来るのを待つ。ロード要求はＣＣＵ１１０に対してアドレス計算の最初のサイクルでも行なえる。この時点で該アドレスの下位１２ビットがＣＣＵ１１０に送られ、上位２０ビット（ページ番号を表わす）はアドレス変換の後、次のサイクルでＣＣＵ１１０に送られる。ロード・ストア・アドレス・パス２２０が使用可能な場合、線３３０を介してイミディエト要求をキャッシュ１１０に対して行なうことができる。現在、ロード・ストア・アドレス・パス２２０には実行待ちのロード及び／又はストア・アドレスは存在しないので、アドレス衝突の可能性も書き込み実行待ちの可能性も全く存在しない。従って、直ちにキャッシュ１１０に対して要求を行なえる。
【００４０】
ブロック３４０には複数のマルチプレクサが含まれているが、このブロックはアドレス・バッファ３１０〜３１３からキャッシュ要求用のアドレスを選択するために使用される。
ＬＳＵ２０５はキャッシュ１１０に対して要求を行なうためにアドレス・バッファ３１０−３１３（即ち、予約ステーション）を使用する。４個のアドレス・バッファ３１０〜３１３（予約ステーションとも呼ばれる）は中央命令ウィンドウ（図示せず）に含まれる４個のバケットに対応する。ＩＥＵ１０７がデコード・ユニット（図示せず）から新しいバケットを要求すると、アドレス・バッファ３１０〜３１３のうち一つが予約される。アドレス・バッファ３１０〜３１３は命令番号に従って割り当てられる。最も若い（最新の）命令を示すための履歴ポインタが更新される。この時点に於いて、命令がロード、ストア、その両方を伴うものであるか、あるいはそのどちらも伴わないものであるかが判明する。また、ロード及び／又はストアオペレーションで使用されるデータのサイズも判明する。対応する命令がＩＥＵ１０７によって退避された時に、アドレス・バッファ３１０〜３１３は割り当て解除される。割り当て解除の後、新しい命令バケットがデコードユニット（図示せず）から受け取られる。ロード・バイパス及びアウト・オブ・オーダ・ロード実行を使用するためには、ストアに対するロード依存性（アドレス衝突）を検出する必要がある。ロード依存性はアドレス衝突または実行待ちのストア・アドレスのよって示される。ロード依存性が発生するのは、古い命令がストア・オペレーションを要求した記憶場所と同じ記憶場所でロード・オペレーションが要求された時である。アドレス衝突の検出には、ロードの最初のアドレスが各先行ストアの２個のアドレス（最初と最後）と比較される必要がある。アドレスの最後のバイトとのこのような比較が必要なのは、ストアが４ワード・ページ境界を越えたり、位置合わせがなされていなかったりするからである。アドレス・ビットのマスキングは偽の依存性検出を最低限に抑えるためにデータのサイズに応じて行なわれる。ロード・データが４ワード（６４ビット）境界からはみだすと、好適な実施例ではそのロード・データにはロード依存性があると仮定される。その理由は、ロードの第２アドレスを各ストアの二つのアドレスと比較するコンパレータが存在しないからである。一つの衝突が検出されると、ロード・オペレーションはその衝突しているストア・オペレーションがＣＣＵ１１０に送られるまで待たなければならない。実行待ちのストア・アドレスとはストアのアドレスが未だ有効でないということを意味する。従って、そのアドレスが判明するまでロード依存性の存在が仮定されるのである。
【００４１】
図４にＬＳＵ２０５によって使用されるアドレス衝突ブロック４００の概略図を示す。アドレス比較論理による二つのアドレスの比較は最下位ビットのビット０〜４がマスクされた後行なわれる。マスキングの後、アドレスが全く一致するならば、これら二つのアドレスの間に衝突が存在することになる。各比較ごとに、二つのオペレーションの内最大のオペランドがマスキング制御のために使用される。各アドレスから、０〜４個の最下位ビットがマスクされる。その際、回路４００はアドレス・バッファ４１０〜４１３の各バッファごとに１回、つまり合計４回複写される（図４にアドレス・バッファ３１０のアドレス衝突検出ブロックを示す）。
【００４２】
各ロードの最初のアドレス４０５、４０６がアドレス４０７〜４１８のうち１対おきに比較される。２個の比較の結果とその有効ビット４１９〜４２４間でＡＮＤがとられ、その後全部でＯＲがとられ、その結果アドレス・マッチ４３０ａ，４３０ｂ，４３０ｃが生成される。アドレス・マッチ４３０は次に命令番号比較４２５〜４２７及びストア・ビット４３１〜４３３とＡＮＤがとられ、その結果衝突チェック４５０ａ、４５０ｂ、４５０ｃが生成される。命令番号比較４２５〜４２７は二つの命令間の比較的新しさを示す。例えば、命令番号比較４２５はアドレス・バッファ３１０中の最初の命令と、アドレス・バッファ３１１中の最後の命令との間の比較的新しさを示す。第２命令が第１命令よりも古ければ、衝突は存在しない。これら３個の衝突検査はＯＲがとられて、検査を受けている特定のロードのアドレス衝突信号４６０を生成する。
【００４３】
アドレス衝突の検出に於いては、各ロードの開始（第１）アドレスが各ストアの第１及び第２アドレスと比較される。一つのロード又はストア・オペレーションは１〜１０バイトまでのどこかをアクセスするので、衝突が検出されることを保証するためにそれらのアドレスのうち幾つかがマスクされる。このようなマスキングは信号４７０〜４７５で行なわれる。二つのアドレスが相互に比較される前に、最下位ビットのうちビット０、２、３、又は４がマスクされる。マスクされたアドレスが全く一致する場合（等しい比較）、アドレス衝突の可能性がある。マスクされるビットの数（０、２、３、４）はアドレスが比較されているその二つのアドレスのオペランドのサイズ、そして第１アドレスの最下位の２ビットによって異なる。第１アドレスの最下位２ビットが使用されるのは、間違って検出される衝突の数を制限するためである。マスキングに於いて、最大のオペランド・サイズは次のように使用される。
【００４４】

更に、ロード・オペレーションが４ワード境界を越えるたびに、アドレス衝突が発生していることが仮定される。その理由は、ロードの最初のアドレスだけがストア・アドレスと比較されるので、アドレス衝突が検出されないことがあるからである。ハードウェア中で使用されるコンパレータの数を二倍に増やすことにより、この制約は削除できる。ストア・アドレスが４ワード境界を越えることがあれば、アドレス衝突は検出される。
【００４５】
マスキングの必要性を次の幾つかの例で示す。（下記の全ての数字は二進数である）。ロードのアドレス２は衝突検査の目的で使用されないので、アドレス２は省略する。

ロード・アドレス１００１がマスクなしに１０００及び１０１１と比較された場合、ストアがバイト１０００，１００１、１０１０、及び１０１１に書き込んだとしても衝突は検出されない。２個のＬＳＢがマスクされていれば、結果は次のようになる。
【００４６】

３個のＭＳＢがマスクされていれば、下記のアドレスが生成され、アドレス衝突が検出される。
【００４７】

２個のＬＳＢだけがマスクされているならば、下記のアドレスが生成され、アドレス衝突は検出されない。
【００４８】

前述の如く、ＬＳＵ２０５はキャッシュ要求を必要とする最大４個のロード命令と最大４個のストア命令のウィンドウから選択を行なうことができる。これらのロード及びストアはＣＣＵ１１０に対して互いに競合し、競合するロード及びストア間の選択は下記の如く行なわれる。
【００４９】
ストア命令は、単に他のロード及びストアだけではなく、全ての命令に対してプログラム順序で行なわれなければならない。ストア要求はストア命令を退避する信号がＩＥＵ１０７から送られた段階でＣＣＵ１１０に発行される。この信号は、全ての先行命令が終了し、それらの命令では例外も、誤って予測された分岐も無かったことを知らせる。ストア命令をこの信号よりも早く行なうことは不可能である。その理由は、ストアはマシンの状態を非可逆的に変更するので、例外も分岐も発生しなかったことを確認することが重要であるからである。データ・キャッシュ１１９の使用の目的ではストアはロードに優先する。その理由は、ストアの遅延はバケットの退避の遅延をもたらし、従って命令デコード・ユニット（図示せず）からの次のデコード済みバケットの受理を遅らせるからである。
【００５０】
ロードが先行ストアに依存しない限り、ほとんどのロード命令はアウト・オブ・オーダで発行できる。これの例外は、メモリ・マップされたＩ／Ｏからの読み出しのような、副作用を持つロードである。本発明の好適な実施例ではメモリ・マップ入出力（Ｉ／Ｏ）サブシステムが使用される。ある種のＩ／Ｏデバイスは読み出しによってアクセスされるとその状態が変化する。例えば、ある種のＦＩＦＯバッファは次のデータ項目に順香を付けて、その結果ある種のデバイス状態レジスタは自動的にクリアされる。このようなシステムに於いては、ロード・バイパスは危険なオペレーションである。誤って予測された分岐、或いは例外のために、バイパスされたロードが誤って発行されることがある。そのようにバイパスされたロードがシステム状態を不正に変更するような事態が生じてはならない。
【００５１】
この問題を解決する方法はこれらの要求がイン・オーダで行なわれるようにロード／ストア・ユニットを構成することである。ロード／ストア・ユニットでは、キャッシュ要求で要求されたデータがキャッシュ可能であるか否かにかかわらずキャッシュ１１０に通知を行なう機構が用意されている。この機構によって、プロセサはこのデータがライト・スルーである、つまりキャッシュ可能である、とキャッシュ１１０に通知することができ、また直ちにメモリはライト・スルーを行なうべきであると通知する。システムの状態を変更する外部読みだしアクセスはこれらのキャッシュ不能アクセスのサブセットであるが、上記の問題は、このデータはキャッシュ不可能であるとのキャッシュ１１０への通知に関連してイン・オーダの要求を行なうことによって解決される。従って、ロードバイパスを完全に回避するかわりに、プロセサはキャッシュ不可能なロードのバイパスを防止できる。このようにして、ほとんどのロード・オペレーションが、まれに発生するキャッシュ不可能なロードでの不正なオペレーションを生成することなく、バイパスを利用できるようになる。このような機構はまたメモリ変更以前に例外が発生しないことを保証するためにも必要である。一つのロードが一つのストアに対して依存性を持たない場合、「ストアのロード・バイパス」が発生する。
各ロードはページ・キャッシュ使用不可（ｐａｇｅ−ｃａｃｈｅ−ｄｉｓａｂｌｅ）及びページ・ライト・スルー（ｐａｇｃ−ｗｒｉｔｅ−ｔｈｒｏｕｇｈ）という２個のビットと対応している。これらのビットはＶＭＵ１１５又はＩＥＵ１０７から得られるビットである。
【００５２】
ストア・データは二ケ所のうちの一つから生成される。第１に、それは６４ビット整数ストア中に整数データ・バス上でＬＳＵ２０５に直接発行できる。第２の方法は整数及び浮動小数点機能ユニットによる結果を監視（スヌーピング）することによって行なわれる。これは通常の「実行後格納」シーケンスをサポートするために行なわれる。このシーケンスでは一つの命令の実行の結果はその命令のストア・データである。そうすることによって、”［Ｒ２］＜［Ｒ２］ＯＲＲ４”のようなＣＩＳＣ型命令の結果が、その命令が明示的にＬＳＵ２０５に発行されなくても格納されるようになる。
【００５３】
ＬＳＵ２０５はサイクルごとに一つの要求だけをＣＣＵ１１０に対して行なうことができ、その場合ストア・オペレーションが優先される。書き込み制御がＬＳＵ２０５に対し、この命令は退避可能であると通知すると直ちにストア・オペレーションはＣＣＵ１１０に送信される。次の優先度はアドレス・バッファ３１０〜３１３に有効なアドレスを持ち、アドレス衝突も実行待ちの書き込みも持たない、最も古いロード・オペレーションに与えられる。命令間の比較的な新しさはバッファの位置とバッファ・ポインタの値で決定される。最後に、ＤＡＦＵ２３０から送信された新しいロードが優先度を持つ。この最後の場合、アドレス衝突及び実行待ち書き込みは要求が行なわれるまで検査されず、そして必要ならばロード要求は取り消される。
【００５４】
時折、キャッシュ・ミスが起こる。ストアの場合、ＣＣＵ１１０はこのような事態を処理し、その結果ＬＳＵ２０５はキャッシュ・ミスの影響を全然受けずに済む。ロードの場合、ＬＳＵ２０５はキャッシュ・ミスについて通知を受け、データが返される前に遅延が起こる。ＬＳＵ２０５は次にキャッシュ・ミスの発生をＩＥＵ１０７に通知し、その結果このデータを待っている命令は取り消される。
目的のデータがキャッシュ・ライン境界を越えると、ロード・オペレーションに対して２個叉は３個のキャッシュ・アクセスが必要になります。これらの要求は連続して行なわれ、１サイクル当たり一つの要求が行なわれる。好適な実施例に於いて、一つのキャッシュ・ラインの幅は８バイトで、０００で終了するアドレスに位置合わせされている。３個のキャッシュ要求が必要とされるのは１１１で終了するアドレスで始まる８０ビット・データの場合だけである。このデータがデータ・キャッシュ１１９から返される場合、ロード・アライナ５５０（図５、図６を参照して下記に説明する）が配置され、このデータのシフトとラッチが行なわれる。
【００５５】
ほとんどのロード／ストア・ユニットはデータが行き先レジスタに入るようにそのデータをゼロまたはサインで拡張するが、本発明の好適な実施例では、行き先レジスタの初期値が保持され、その一部のみが変更される。勿論、これは８又は１６ビット長の整数ロード・データの場合のみ意味がある。レジスタの初期の内容はアドレス計算の時点でＬＳＵ２０５に送られ、次にデータ・キャッシュ１１９からのロード・データは初期値データとマージされる。
【００５６】
図５、図６にＬＳＵ整数データ・パス２１０の概略図を示す。ＬＳＵデータ・パス２１０はロード及び／叉はストア・データをＣＣＵ１１０及びＩＥＵ１０７間で転送する。ロード・オペレーション中に、データは線２９０を介してデータ・キャッシュ１１９からＬＳＵデータ・パス２１０に入り、ストア・オペレーション中には線２７５、２７６、２７７を介してＩＥＵ１０７から入る。データ線２７５及び２７６は３２ビット・データを書き込みバス２７０を介して機能ユニット２６０及び２６２からＬＳＵデータ・パス２１０に供給し、線２８２は有効アドレス叉ははマージされたデータを供給する。有効データがＬＳＵデータ・パス２１０へ供給されるのは一つの命令の結果が、そのアドレス・ロケーションに存在するデータではなく、アドレスそのものである場合である。ストア・データ線５１６は６４ビット・データをＬＳＵデータ・パス２１０に供給する。データはデータ線２９０または２９２を介してデータ・キャッシュ１１９又はＩＥＵ１０７のいずれかにそれぞれ返される。
【００５７】
データ・バッファ５２０〜５２６は、データ・キャッシュ１１９への或いはデータ・キャッシュ１１９からのデータ転送中、ロード及び／叉はストア・データを保持するために配置されている。各データ・バッファ５２０〜５２６及びアドレス・バッファ３１０〜３１３の間に１対１の対応が存在する（そしてこれらのアドレス・バッファ及び４個の命令バケットとの間にも１対１の対応が存在する）。各アドレス・バッファ３１０〜３１３にはＬＳＵデータ・パス２１０中に２個の対応するデータ・バッファが存在する。すなわち、整数ロード及び整数ストア・データ（８バイト）５２０〜５２６に対して一つのデータ・バッファと、浮動小数点ロード及びストアのデータ（１０バイト）５４０〜５４６に対して一つのデータ・バッファである。本発明に於いては、浮動小数点演算用に一つの別個のＬＳＵデータ・パスが存在する。浮動小数点データ・バッファ５４０〜５４６の動作は整数データ・パスに関して説明された動作と同一である。一つの命令は整数命令或いは浮動小数点命令のいずれかであるので、この二つのユニットは物理的に接続されていなくても構わない。以下に、整数データ・バッファ５２０〜５２６の動作のみを詳しく説明する。
【００５８】
制御線５８１及び５８７はデータ・フローをそれぞれマルチプレクサ５６０及び５６５を介して制御するために配置されている。又、制御線５８２及び５８６はデータ・バッファ５２０、５２２、５２４、及び５２６へのデータ・フロー、そしてデータ・バッファ５２０、５２２、５２４、及び５２６からのデータ・フローを制御するために配置されている。
ロード・オペレーションに於いては、データは線２９０を介してデータ・キャッシュ１１９からＬＳＵデータ・パス２１０に入る。ロード・データはアライン・ブロック５５０に入り、アライン・ブロックはデータの位置合わせを行ない（下記の説明を参照されたい）、位置合わせされたロード・データをマルチプレクサ５３０〜５３６に転送する。位置合わせされたロード・データは次に、どの命令がデータを要求したかにより、データ・バッファ５２０〜５２６の一つにラッチされる。ストア・オペレーション中、ストア・データはデータ線２７５、２７６、２７７を介してＩＥＵ１０７からＬＳＵデータ・パス２１０へ入り、その後、データ・バッファ５２０〜５２６のうち適切なデータ・バッファにラッチされる。
【００５９】
ロード及び／叉はストア・データのうちのどちらかがデータ・バッファ５２０〜５２６にラッチされると、そのデータは線２９０を介してデータ・キャッシュ１１９へ、或いは線２９２を介してＩＥＵへのいずれかに送られる。４個のデータ・バッファ５２０〜５２６はデータをマルチプレクサ５６０、５６５に供給し、次にこれらのマルチプレクサはＬＳＵデータ・パス２１０から転送されるべき適切なデータを選択する。しばしば、ストアを含む命令の結果は主メモリ２６０に格納されなければならない。従って、命令の実行の後、その結果はデータ線２７５、２７６を介してＬＳＵデータ・パス２１０に直接書き込まれる（最初に結果をレジスタ・ファイル２５０に格納するのではなしに）。ＬＳＵデータ・パス２１０は命令の退避信号を受け取るまでデータを適切なデータ・バッファ５２０〜５２６に保持する。
【００６０】
定期的に、一つの特定な命令は一つの行き先レジスタ全体に格納を行なわないようになっている。この場合、「マージ・データ」がデータ線２８２を介してＬＳＵデータ・パス２１０に供給される。例えば、一つの命令が８ビットだけを行き先レジスタに格納したいが、残りの２４ビットをレジスタに保存したい場合、マージ・オぺレーションが行なわれる。従って、データ線２８２は行き先レジスタの初期値（すなわち、マージ・データ）をＬＳＵデータ・パス２１０に供給する。マージ・データ（すなわち、行き先レジスタの内容）は適切なデータ・バッファ５２０−５２６にラツチされる。次に、新しい（ロード）データが線２９０（ａ）を介してキャッシュから戻され、アライン・ブロック５５０に入る。アライン・ブロック５５０はデータの位置合わせを行ない、それをマルチプレクサ５３０〜５３６に供給する。ロード・データは次に、マージ・データを保持している同じデータ・バッファ５２０〜５２６にラッチされる。一旦全てのデータがアセンブルされると、それは適宜な記憶場所（すなわち、データ・キャッシュ１１９又はレジスタ・ファイル２５０）に転送可能となる。
【００６１】
従来のロード・ストア・ユニットでは普通、アドレスが特定の境界に位置合わせされなければならない。例えば、３２ビット・データ・アクセスでは０００で終わるアドレスがなければならない。しかしながら、好適な実施例のコンピュータ・アーキテクチャによって８、１６、３２、６４、叉は８０ビット・データの位置合わせされていないアクセスが可能になる。位置合わせされていないアドレスを有することは次のような影響を及ぼす。つまり、（１）ストアに対するロード依存性検出のためにさらに別のハードウェアが必要である。（２）データがページ境界を越えるとアドレス変換が２回必要になる。（３）１回のロードに対して複数のキャッシュ・アクセスが必要になる。
【００６２】
ＣＣＵ１１０によって返されたロード・データの長さは８バイトであり、それはデータ・バッファ５２０〜５２６中の適切な位置に位置合せして格納される必要がある。時には、完全なロードができあがるまでに２叉は３のデータ集合が返されねばならない（例えば、二つ以上のキャッシュ・アクセスが必要な時）。更に、これらのデータ集合がアウト・オブ・オーダで返される場合があるので、特別な措置が必要である。
整数データの位置合わせは８個の８入力マルチプレクサ（８ビット幅）を使用して処理される。各マルチプレクサはデータ要求の１バイトに対応する。ＣＣＵ１１０からロードされた８バイトのデータのうちどのデータが適切なデータ・バッファ５２０〜５２６にラツチされるべきかを決定するために８ビットの選択線が使用される。
更に、データ・バッファ５２０〜５２６はどのバイトが上書きされるべきかを制御するためにバイト・イネーブルになる。
【００６３】
図７にキャッシュ線交差を持つ位置合わせされていない整数ロードの１例を示す。この例では、アドレスＸＸＸＸＸＸＸ５から４バイトのロードが要求されているが、このロード要求はキャッシュ線からはみだすので、その結果２個のロード要求が必要とされる。最初のキャッシュ要求がデータを返した後、データはロード・アライナ５５０に転送される。ロード・アライナ５５０は最後の３バイトをバイト０までシフトし、その後、最後の３バイトは適切なデータ・バッファ５２０〜５２６にラッチされる。データ・バッファの最後のバイトはストアによって上書きされない。一旦第２のキャッシュ要求のデータが返されると、図示されているようにキャッシュ線の最初のバイトがデータ・バッファの最後のバイトにラッチされる。更に、この例ではキャッシュ線はイン・オーダで返されるが、それはどの順序で返されても構わない。
【００６４】
浮動小数点データ位置合わせは整数位置合わせと同じ働きをするが、浮動小数点データ位置合わせの場合、１０個の８入力マルチプレクサが使用される。
ＬＳＵ２０５ではロード・フォワーディングはサポートされていない。ロードがストアに依存する場合、そのロードはロード要求を行なう前に、ストア・データがキャッシュに書き込まれるまで待たなければならない。しかし、本発明の設計では、本質的にロード・フォワーディング機構の実現を阻止するような制約はない。当業者にとって、ロード・フォワーディングを実現するために必要なハードウェア変更を行なうことは容易であろう。
【００６５】
ＬＳＵ２０５の好適な実施例では多重処理環境がサポートされている。各命令はロード及び／又はストア以外に、ロック或いはアンロック・コマンドを含むことができる。これらの信号はキャッシュに送られ、キャッシュはデータをロックし、メモリ及び入出力サブシステムに同じことをするように通知を送る。ロック又はアンロック・コマンドが命令ウィンドウに存在する場合、ロードはそれらの命令の順序と同じ順序で行なわれなければならない。すなわち、後続のロードは最初にロック／アンロック・コマンドを伴うロードを先ず行なわないと実行できない。
ＬＳＵ２０５のオペレーション例
表ＡにＬＳＵ２０５のオペレーションを示すサンプル・プログラムを示す。プログラムはインテル４８６（Ｉｎｔｅｌ４８６）の表記法で記述されている。３個のレジスタが使用され、それらはｅａｘ、ｅｂｘ、そしてｅｃｘとラベルされている。ロードされ、ロード及び／又はストアされるデータは３２ビット幅のデータであると仮定される。ブラケットにアドレス・ロケーションを示す。
【００６６】

このコードの最初の行では、アドレスｅｃｘに格納されたデータがｅｂｘに移される。従って、この命令は一つのロード・オペレーションである。第２の命令ではレジスタｅｂｘにある値が減少され、この命令ではロードもストアも行なわれない。第３の命令はアドレスｅａｘに格納されたデータ及びデータｅｂｘに対して論理和をとり、結果を［ｅａｘ］に格納する。従って、このオペレーションではロードとストアの両方が行なわれる。最後に第４命令ではアドレスｅａｘ＋３に格納された１６ビットのデータがｅｂｘに移動される。従って、この命令ではロード・オペレーションが行なわれる。
【００６７】
このコードが実行される前に、下記の値（全て１６進法で表記）がレジスタ及びメモリに含まれていると仮定する。
【００６８】

表Ａの命令の実行の結果を表Ｃに示す。
【００６９】

次に、表Ａの命令の実行の結果の詳細を説明する。
【００７０】
図８から図１５において、ＬＳＵ２０５の代表的な例を示す。各図は一つのサイクルを表わす（例えば、図８はサイクル１を表わし、図９はサイクル２を表わす）。４個のアドレス・バッファ３１０〜３１３、及びロード７０１、ストア７０２、及び有効ビット７１７が図示されている。更に、衝突ビット７１０、実行待ちビット７１５、及び要求されたデータのサイズ指定７０５が図示されている。アドレス０１００から０１０７及びアドレス１２００から１２０７のカレント・メモリ内容は参照香号７８０として示されている。ブロック７３０にカレント・キャッシュ要求を示す。ブロック７４０はデータが（そのようなデータが存在するならば）ＣＣＵ１１０から最近返されたことを示す。ブロツク７６０はＶＭＵ１１５から返されているアドレスを示し、ブロック７７０はＤＡＦＵ２３０から返されているアドレスを示す。
ロード及びストア・ビットはイン・オーダで設定されるが、各アドレスはＬＳＵ２０５にアウト・オブ・オーダで供給されても構わない。ブロック７５０に、返されたデータが如何にして物理的に位置合わせされるかを示す。
【００７１】
図８に於いて、最初の命令は「ｍｏｖｅｂｘ，［ｅｃｘ］」である。最初に、ｅｃｘに格納されているデータはＬＳＵアドレス・パス２２０に転送されなければならない。ｅｃｘに格納されているアドレス、つまり１２０１はＤＡＦＵ２３０から一時アドレス・バッファ３０５に転送されるが、このアドレス全体は必要でない。最初の１２ビットと最下位の３ビットが一時バッファ３０５に転送される。その理由は、上位２０ビットはＤＡＦＵ２３０からＶＭＵ１１５に転送されるからである。ｍｏｖオペレーションにはロードが伴うので、バケット０に於けるロード・ビットは１に設定される。要求されたデータは３２ビットである（ブロック７０５の０１１によって示されている）。
これはＬＳＵ２０５中のアドレスの第１集合だから、ブロック７３０に示すように、アドレス情報は識別子（ｉｄ）と共に直ちにＣＣＵ１１０に送られる。ＬＳＵ２０５は識別子に基づいて、返されたデータがどの命令と対応しているかを決定する。ＬＳＵ２０５に転送されるためにアドレスがＶＭＵ１１５によって変換されるのをＬＳＵ２０５が待っている間、一時レジスタ３０５が使用される。
第２命令の「ｄｅｃｅｂｘ」はアドレス・バッファ・キューに入れられる。ｄｅｃオペレーションにはロードもストアも伴わないので、アドレス・バッファ３１１に対応するロード・ビット７０１とストア・ビット７０２の両方が０に設定される。ロードもストアも必要でないので、この命令ではアドレス計算は必要でない。
【００７２】
図９に於いて、ｅｃｘに格納されたアドレスの第１バイトはレジスタ・アドレス１（ａｄｄｒｅｓｓ１）に入れられ、そのアドレスの最後のバイトはアドレス２（ａｄｄｒｃｓｓ２）に入れられる。これらのアドレスは両方とも勿論アドレス・バッファ３１０中に存在する。両方のレジスタ（ａｄｄｒｅｓｓｌ及びａｄｄｒｅｓｓ２）は有効なアドレスを含んでいるので、両方の有効ビットが設定される。ａｄｄｒｅｓｓ１及びａｄｄｒｅｓｓ２が異なった時点でアドレス・バッファ３１０〜３１３にラッチされることも可能である。これが発生するのは、ＶＭＵ１１５からの変換を２回必要とするページ・クロシングが起こった時である。
第３の命令は「ｏｒ［ｅａｘ］，ｅｂｘ」である。第３命令に関する（ＩＥＵ１０７から送られる）情報はアドレス・バッファ３１２に対応する適切なブロックに入れられている。ＯＲ命令はロード及びストア・オペレーションを必要とするので、両方のビットとも適宜に１に設定されている。要求されたデータの長さは３２ビットで、ブロック７０５に示されている。更に、第３命令に対応するロード／ストアのアドレスはブロック７７０に示すようにＤＡＦＵ２３０から供給される。そして、ブロック７３０に示すように、このデータに対してキャッシュ要求が行なわれる。
更に、第２サイクル中に、第１命令用に要求されたデータはキャッシュから検索され、データ・レジスタ５２０に格納されている。しかし、ブロック７３０に示される、返されたデータは位置合わせされていないデータである。ＣＣＵ１２０はアドレス１２００で始まるデータのブロックを返したが、命令が要求したデータは１２０１で始まる３２ビットのデータである。従って、ブロック７５０に示すように、データは位置合わせされなければならない。返されたデータはＬＤ−ＡＬＩＧＮを００００００１０に設定することによって２ビット分シフトされ、最初の３２ビットのデータはＢＹＴＥ−ＳＥＬによって選択される。
【００７３】
図１０に於いて、ブロック７７０に示すように、次のアドレスがＤＡＦＵ２３０によってＬＳＵ２０５に供給される。第３命令に対応するアドレスはアドレス・バッファ３１２にラッチされる。有効ビット７１７の両方のビットが設定される。第１命令がそのオペレーションを完了したので（すなわち、データがＣＣＵ１１０から返され、ＩＥＵ１０７に送られたので）、今や有効ビットがリセットされている。（バケット番号が４にリセットされているのは例示の目的のためである。好適な実施例に於いては、ポインタが命令の比較的新しさを管理するために使用される）。第３命令ではｅａｘに格納されたアドレスの取り出しが必要である。アドレスが一旦ＬＳＵ２０５に入ると、キャッシュ要求が実行可能となる。
更に、第４命令に関する情報、すなわち、その命令はロードで要求されているデータの幅は１６ビットである（０１０によって示されている）が、アドレス・バッファ３１３に対応する適切なブロックで示されているように、この情報がＩＥＵ１０７から送られて来ている。しかし、第４命令より古いストア（すなわち、第３命令）が存在する。ＬＳＵ２０５はポインタを使用して、どのアドレス・バッファが最も古い命令情報を含んでいるかを決定する。このストアが存在するので、アドレス・バッファ３１３に対応する書き込み実行待ちビット７１５が設定される。従って、この場合、第４命令用のキャッシュ要求は生成できない。
ブロック７４０に示すように、ＣＣＵ１１０は第３命令用にデータをＬＳＵ２０５に戻す。要求データはアドレス１００で始まっているので、戻されたデータは位置合わせされる必要がない。最初の３２ビットだけがＢＹＴＥ−ＳＥＬで選択され、そしてデータはデータ・バッファ５２６にラッチされる。
【００７４】
図１１に於いて、第４命令に対応するアドレスはアドレス・バッファ３１３にラッチされ、対応する有効ビットが設定されている。次に、アドレス衝突オペレーションが行なわれる。第４命令からのａｄｄｒｅｓｓ１が第３命令のａｄｄｒｅｓｓ１及びａｄｄｒｅｓｓ２と比較され、その結果アドレス衝突の存在が決定される。従って、アドレス・バッファ３１３に対応する衝突ビット７１０が設定される。衝突が存在するために、サイクル４の期間中キャッシュ要求は生成できない。しかし、キャッシュ要求の実行が不可能であっても、ブロックで示されているように第４命令用のマージ・データがＩＥＵ１０７から到着する。マージ・データとはレジスタｅｂｘからのデータである。マージ・データが必要なのは、第４命令が単に１６ビット・オペレーションであるからである。このマージ・データはデータ・バッファ５２６にラッチされる。
【００７５】
図１２に於いて、書き込みＡデータ（ＷＲＡ−ＤＡＴＡ）がＩＥＵ１０７から到着する。ＷＲＡ−ＤＡＴＡは第３命令に於けるＯＲ演算の結果である。このデータはデータ・バッファ５２４にラツチされる。更に、ブロック７８０に示すように、サイクル５の期間中次のバケット、即ちバケット１、が退避される。具体的には、ｒｅｔｉｒｅｎｅｘｔビットが１に設定され、次の命令が退避可能であることを示し、ｒｅｔｉｒｅｎｕｍビットが１に設定され、バケット１にある命令を退避すべきであることを示す。この場合、第３命令と４命令の間にアドレス衝突がまだ存在する。
【００７６】
図１３に於いて、データ・バッファ５２４中のデータはｅｂｘ中のデータとＯＲがとられ、その結果値８７６５４３２１が生成される。ブロック７８５に示すように、サイクル６の期間中、第３命令が退避される。第３命令の退避によって、ＬＳＵ２０５は第４命令に対応する衝突ビット７１０をリセットできるようになる。ブロック７３０に示すように、ＯＲ演算によって生成された値を記憶場所０００００１００（レジスタｅａｘに格納されているアドレス）に格納するためのキャッシュ要求が行なわれる。ブロック７８０に示すように、データはこのデータ・ロケーションに格納されている。
【００７７】
図１４に於いて、第４命令は記憶場所０１０３（レジスタｅａｘ＋３の最初の１６ビット）に格納されているデータをロードする。従って、ブロック７３０に示すように、第４命令に対応するロード・オペレーション用にキャッシュ要求が行なわれる。
【００７８】
図１５に於いて、ブロック７４０に示すように、要求された（位置合わせされていない）ロード・データがキャッシュから返される。ブロック７５０に示すように、次にデータは３バイト分シフトすることによって位置合わせされる。その理由は、要求されたデータはアドレス０１００でなくアドレス０１０３で始まるからである。最初の１６ビットだけが要求されたので、最初の２バイトだけが位置合わせされたデータから選択される。これら１６ビットは次にデータ・バッファ５２６にラッチされ、このデータ・バッファはＩＥＵ１０７に逆方向に転送されて、レジスタｅｂｘに格納される。
上記に本発明を実施例を参照しつつ説明したが、本発明の精神及び特許請求の範囲から逸脱することなく、形状並びに詳細において様々な変更が可能なことが当業者には理解されるであろう。
【図面の簡単な説明】
【図１】本発明が動作するマイクロプロセサ・アーキテクチャのブロック図である。
【図２】ロード・ストア・ユニットを含む命令実行ユニットを示す一般的なブロック図である。
【図３】ＬＳＵアドレス・パス２２０を示すブロック図である。
【図４】ＬＳＵに位置するアドレス衝突ブロックを示す概略図である。
【図５】ＬＳＵデータ・パスを示す概略図である。
【図６】ＬＳＵデータ・パスを示す概略図である。
【図７】キャッシュ線交差を持つ位置合わせされてない整数ロードの例を示す図である。
【図８】ＬＳＵの動作の一例を示す図である。
【図９】ＬＳＵの動作の一例を示す図である。
【図１０】ＬＳＵの動作の一例を示す図である。
【図１１】ＬＳＵの動作の一例を示す図である。
【図１２】ＬＳＵの動作の一例を示す図である。
【図１３】ＬＳＵの動作の一例を示す図である。
【図１４】ＬＳＵの動作の一例を示す図である。
【図１５】ＬＳＵの動作の一例を示す図である。
【符号の説明】
１００ …マイクロプロセサ・アーキテクチャ、１０５ …ホスト・プロセサ、１１０ …キャッシュ制御ユニット及びメモリ（ＣＣＵ）、１１５ …仮想メモリ・ユニット、１２０ …メモリ制御及びインタフェース・ユニツト、１３５ …周辺入出力装置、１６０ …主メモリ、１６０ａ、１６０ｂ、１６０Ｃ…インタリーブド・メモリ・バンク、１９０ …入出力サブシステム。

Claims

（ａ）非ネイティブ命令およびデータを記憶したメモリシステムと、
（ｂ）ネイティブ命令を実行するプロセッサと
を備えたコンピュータシステムであって、
（１）前記メモリシステムから前記非ネイティブ命令をフェッチする命令フェッチ・ユニットと、
（２）前記命令フェッチ・ユニットに対応する命令復号ユニットと
を含み、
（Ａ）前記非ネイティブ命令をネイティブ命令へと変換するための命令翻訳ユニットであって、非ネイティブ命令は所定数未満のネイティブ命令へと変換される命令翻訳ユニットと、
（Ｂ）前記ネイティブ命令の少なくとも２グループを少なくとも２つの中間バケットに記憶するためのラッチであって、前記少なくとも２つの中間バケットは前記所定数までのネイティブ命令を記憶できるラッチと、
（Ｃ）前記ネイティブ命令の前記少なくとも２グループのサブセットを最終バケットに組入れて、前記最終バケットの前記ネイティブ命令の前記サブセットを命令ウインドウに出力できるようにするセレクタであって、前記最終バケットは前記所定数のネイティブ命令の最大容量を有するセレクタと、
を含み、
（３）前記命令復号ユニットに対応して、アウト・オブ・オーダで前記命令ウインドウからの前記ネイティブ命令を実行するための実行ユニットであって、前記実行ユニットが、
（ｉ）レジスタファイルと、
（ｉｉ）複数の機能ユニットと、
（ｉｉｉ）前記複数の機能ユニットの入力部に接続され、さらに前記レジスタファイルに接続された第１バスと、
（ｉｖ）前記複数の機能ユニットの出力部に接続され、さらに前記レジスタファイルに接続された第２バスと
（ｖ）前記命令ウインドウ内の前記ネイティブ命令に関して、アウト・オブ・オーダで前記メモリシステムへロード要求を行い、前記命令ウインドウ内の前記ネイティブ命令に関して、イン・オーダでストア要求を行うよう適応させたロードストア・ユニットと
を含むコンピュータシステム。
前記第２バスが、データを前記第１バスへ転送することを特徴とする請求項１記載のコンピュータシステム。
前記第２バスが、データを前記ロードストア・ユニットの前記データパスへ転送することを特徴とする請求項１記載のコンピュータシステム。
前記レジスタファイルが、１セットの実レジスタと１セットの一時レジスタとを含み、前記ネイティブ命令の前記１つの実行から得たデータが前記一時レジスタから前記実レジスタへ移されるときは、前記ネイティブ命令の１つが退避されることを特徴とする請求項１記載のコンピュータシステム。
ロードおよび／またはストア命令からのデータが、他の命令からのデータの前に前記第２バスから前記レジスタファイルに記憶されることを特徴とする請求項１記載のコンピュータシステム。
前記アドレスパスが、メモリアクセスに関連あるアドレス情報を記憶するための第１レジスタと、前記メモリアクセスに関連あるアドレス情報を記憶するための第２レジスタとを含むことを特徴とする請求項１記載のコンピュータシステム。
前記少なくとも２つの中間バケットが一時に４つまでのネイティブ命令を記憶できることを特徴とする請求項１記載のコンピュータシステム。
前記所定数のネイティブ命令が４つのネイティブ命令であることを特徴とする請求項１記載のコンピュータシステム。
非ネイティブ命令のストリームが、少なくとも２つの非ネイティブ命令を含むことを特徴とする請求項１記載のコンピュータシステム。
前記最終バケットが、ロード、ストア、および２つの実行部分を含むことを特徴とする請求項１記載のコンピュータシステム。