JPH11282678A

JPH11282678A - ス―パスカラ・プロセッサでストア命令を処理する方法及び装置

Info

Publication number: JPH11282678A
Application number: JP11006240A
Authority: JP
Inventors: Barry D Williamson; バリー・ディ・ウィリアムソン; Jim E Phillips; ジム・イー・フィリップス; D Q Nguyen; ディキュー・ニューイェン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1998-01-30
Filing date: 1999-01-13
Publication date: 1999-10-15
Anticipated expiration: 2019-01-13
Also published as: JP3155519B2; US6192461B1; CN1224871A; KR100309309B1; CN100557562C; EP0933697A2; KR19990066800A; TW408269B

Abstract

(57)【要約】（修正有）【課題】ストア命令完了の不足によるディスパッチ・ユ
ニットの停止の回数を低減し、全体的なプロセッサ性能
を向上させる。【解決手段】装置はストア命令に対応するエントリを有
するポインタ・キューを含み、そのエントリはストア命
令により要求されたデータを含む、アーキテクチャ・レ
ジスタ・ファイル及びリネーム・レジスタ・ファイル内
のエントリを指し示すポインタを含む。そして、アーキ
テクチャ・レジスタ・ファイル及びリネーム・レジスタ
・ファイル上の読出しポートにマルチプレクサが接続さ
れ、データが一方のレジスタ・ファイルから、キャッシ
ュ・メモリに接続されるデータ・キュー内のエントリに
転送される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は一般に処理システム
に関して、特に、処理システムにおいて複数のストア命
令の完了を提供することに関する。

【０００２】

【従来の技術】より高速且つ強力なコンピュータ・シス
テムの継続的な開発において、縮小命令セット・コンピ
ュータ（ＲＩＳＣ）・プロセッサとして知られる、意味
深いマイクロプロセッサが利用されている。ＲＩＳＣプ
ロセッサの分野における進歩が、スーパスカラ・プロセ
ッサの開発を導いた。スーパスカラ・プロセッサは、そ
の名が示すように、従来のスカラ・マイクロプロセッサ
では一般に見いだせない機能を実行する。これらの機能
には、命令を非プログラム順序で実行する能力が含まれ
る。命令は非プログラム順序で発生するが、実行の結果
はプログラム順序で発生したように現れ、適切なデータ
・コヒーレンスが維持される。

【０００３】スーパスカラ・プロセッサ性能の共通のボ
トルネックは、所与の時刻において、プロセッサ内で未
完であり得る命令の数である。通常、命令ユニットは未
完の命令の数を示すキューを含む。キューは通常、最大
数に達すると、命令のそれ以上のディスパッチを延期す
る。

【０００４】完了までに時間がかかり得る命令の１つの
タイプは、ストア命令である。ストア命令は多くの理由
からその完了までに時間がかかり得る。例えば、ストア
命令は、１サイクルにつき完了され得るストアの最大数
により、及び各サイクルにつきキャッシュを更新できる
ストアの数により、その完了までに時間がかかる。従来
のスーパスカラ・プロセッサは通常、１サイクル当たり
１つのストア命令を完了するだけである。このことはし
ばしば、ディスパッチを停止させる。

【０００５】

【発明が解決しようとする課題】従って、こうした問題
を効率的且つ効果的に解決し、ストア命令完了の不足に
よるディスパッチ・ユニットの停止の回数を低減し、全
体的なプロセッサ性能を向上させるシステムが待望され
る。

【０００６】

【課題を解決するための手段】従って、本発明は、１サ
イクルの間に完了され得るストア命令の数を増加するも
のである。停止状態の後、処理システム内で複数のスト
ア命令の完了を処理する方法及びシステムが開示され
る。処理システムは命令ユニットを含み、命令ユニット
がディスパッチ・ユニット、完了ユニット、変換ユニッ
ト及び少なくとも１つの実行ユニットを含む。ロード・
ストア・ユニットが、ディスパッチ・ユニットから複数
の命令を受信する命令キューと、命令キューから複数の
命令を受信する少なくとも１つの有効アドレス（ＥＡ）
・ユニットと、ストア・キューとを含む。ストア・キュ
ーは変換ユニット、少なくとも１つの実行ユニット及び
少なくとも１つのＥＡユニットに接続され、少なくとも
１つの実行ユニットからの複数の命令の各々の完了以前
に、その命令に関連するデータ及び実アドレス情報を受
信する。

【０００７】このようにして、従来システムに関連する
ボトルネック、すなわち、命令ユニットによりディスパ
ッチされ得る命令の最大数が低減される。

【０００８】本発明の実施例に従い、完了テーブル内で
待機しているストア命令の迅速な完了を可能にする、ス
ーパスカラ・プロセッサ内で使用される回路が提供され
る。本発明の実施例によれば、ストア命令のためのデー
タを記憶するデータ・キューが提供される。ストア命令
が実行され、その有効アドレスが使用可能となった後、
回路がストア命令により要求されたデータの位置を汎用
レジスタ（ＧＰＲ）またはリネーム・レジスタから決定
する。ストア命令により要求されたデータを最初に発生
した命令が成功裡に完了された場合、命令が固定小数点
演算か浮動小数点演算かに応じて、データがＧＰＲまた
は浮動小数点レジスタ（ＦＰＲ）内に構成される。本発
明の説明のために、ここでは固定小数点命令を想定する
が、当業者であれば、本発明を浮動小数点命令に適用す
ることは容易であろう。なお、ＧＰＲ及びＦＰＲはプロ
セッサのアーキテクチャ上のレジスタであって、命令で
オペランド・レジスタとして指定することができる。本
明細書では、そのようなレジスタをアーキテクチャ・レ
ジスタと呼ぶ。

【０００９】ストア命令により要求されたデータを生成
した命令がまだ完了していないが、関連する実行ユニッ
トにより最終結果まで処理されている場合、データがリ
ネーム・レジスタに有効として記憶される。命令がスト
ア命令により要求されたデータをまだ生成していない場
合には、データ受信用のリネーム・レジスタがプロセッ
サにより無効とマークされる。

【００１０】ＧＰＲ内か有効リネーム・レジスタ内かに
関わらず、一旦ストア命令により要求されたデータが使
用可能になると、そのデータはデータ・キュー内のエン
トリに渡される。読出しポートがリネーム・レジスタ上
に提供され、この動作を容易にする。本発明の現バージ
ョンでは、完了はプログラム順序で発生しなければなら
ないので、データをデータ・キューに受け渡すステップ
が、完了キュー・ポインタがストア命令を次に完了すべ
き命令として指し示すよりずっと以前に、発生し得る。
これは特に、完了がストア命令以前に発行された命令に
より停止された場合に当てはまる。ストア命令が完了す
る時点において、ストア命令により要求されたデータが
既にデータ・キュー内に存在し、キャッシュに送信され
得るが、その際、従来のプロセッサのようにＧＰＲへの
アクセスは要求されない。このことは、複数のストア命
令が１クロック・サイクル内で完了されることを可能に
する。なぜなら、ストア命令が完了窓内でそれらの順番
を待機している間に、データが"プリロード"されるため
に、ＧＰＲポートにおいてボトルネックが存在しないか
らである。これは勿論、ＧＰＲポート上に１つの読出し
ポートだけを有する従来のプロセッサでは可能でない。
より多くのポートが追加され得るが、これは追加の設
計、チップ領域及び複雑性を要求する。

【００１１】

【発明の実施の形態】本発明は、スーパスカラ・プロセ
ッサ内で完了され得るストア命令の数を増加することに
より、ディスパッチの停止を低減するものである。以下
の説明は、当業者が本発明を実施及び利用するために提
供される。ここで述べられる好適な実施例の様々な変
更、一般的な原理及び特徴が、当業者であれば容易に明
らかとなろう。

【００１２】図１は、本発明に従い情報を処理するプロ
セッサ１０のブロック図である。好適な実施例では、プ
ロセッサ１０は、例えばＩＢＭ社のＰｏｗｅｒＰＣプロ
セッサなどの単一の集積回路スーパスカラ・マイクロプ
ロセッサである。従って、後述のように、プロセッサ１
０は様々なユニット、レジスタ、バッファ、メモリ及び
他のセクションを含み、それらの全てが集積回路により
形成される。更に好適な実施例では、プロセッサ１０は
縮小命令セット・コンピュータ（ＲＩＳＣ）技術に従い
動作する。図１に示されるように、システム・バス１１
がプロセッサ１０のバス・インタフェース・ユニット
（ＢＩＵ）１２に接続される。ＢＩＵ１２は、プロセッ
サ１０とシステム・バス１１との間の情報の転送を制御
する。

【００１３】ＢＩＵ１２は、プロセッサ１０の命令キャ
ッシュ１４及びデータ・キャッシュ１６に接続される。
命令キャッシュ１４は、命令をシーケンサ・ユニット１
８に出力する。命令キャッシュ１４からのこうした命令
に応答して、シーケンサ・ユニット１８は命令を選択的
に、プロセッサ１０の他の実行回路に出力する。

【００１４】ディスパッチ・ユニット４６及び完了ユニ
ット４８の実行ユニットを含むシーケンサ・ユニット１
８に加え、好適な実施例では、プロセッサ１０の実行回
路は複数の実行ユニット、すなわち分岐ユニット２０、
固定小数点ユニットＡ（ＦＸＵＡ）２２、固定小数点ユ
ニットＢ（ＦＸＵＢ）２４、複合固定小数点ユニット
（ＣＦＸＵ）２６、ロード／ストア・ユニット（ＬＳ
Ｕ）２８、及び浮動小数点ユニット（ＦＰＵ）３０を含
む。ＦＸＵＡ２２、ＦＸＵＢ２４、ＣＦＸＵ２６及びＬ
ＳＵ２８は、汎用アーキテクチャ・レジスタ（ＧＰＲ）
３２及び固定小数点リネーム・バッファ３４から、それ
らのソース・オペランド情報を入力する。更に、ＦＸＵ
Ａ２２及びＦＸＵＢ２４は、キャリー・ビット（ＣＡ）
・レジスタ４２から"キャリー・ビット"を入力する。Ｆ
ＸＵＡ２２、ＦＸＵＢ２４、ＣＦＸＵ２６及びＬＳＵ２
８は、それらの演算結果（宛先オペランド情報）を出力
し、固定小数点リネーム・バッファ３４内の選択エント
リに記憶する。更に、ＣＦＸＵ２６は特殊目的レジスタ
（ＳＰＲ）４０に対して、ソース・オペランド情報及び
宛先オペランド情報を入出力する。

【００１５】ＦＰＵ３０はそのソース・オペランド情報
を、浮動小数点アーキテクチャ・レジスタ（ＦＰＲ）３
６及び浮動小数点リネーム・バッファ３８から入力す
る。ＦＰＵ３０はその演算の結果（宛先オペランド情
報）を出力し、浮動小数点リネーム・バッファ３８内の
選択エントリに記憶する。

【００１６】シーケンサ・ユニット１８はＧＰＲ３２及
びＦＰＲ３６に対して、情報を入出力する。分岐ユニッ
ト２０はシーケンサ・ユニット１８から命令及びプロセ
ッサ１０の現状態を示す信号を入力する。こうした命令
及び信号に応答して、分岐ユニット２０はシーケンサ・
ユニット１８に、プロセッサ１０による実行のために命
令シーケンスを記憶する適切なメモリ・アドレスを示す
信号を出力する。分岐ユニット２０からのこうした信号
に応答して、シーケンサ・ユニット１８は命令キャッシ
ュ１４から指示された命令シーケンスを入力する。命令
キャッシュ１４内に指示された命令シーケンスの１つ以
上の命令が記憶されていない場合、命令キャッシュ１４
は、システム・バス１１に接続されるシステム・メモリ
３９から、ＢＩＵ１２及びシステム・バス１１を介し
て、こうした命令を入力する。

【００１７】命令キャッシュ１４から入力された命令に
応答して、シーケンサ・ユニット１８はディスパッチ・
ユニット４６を通じて、命令を実行ユニット２０、２
２、２４、２６、２８及び３０の選択されたものに選択
的にディスパッチする。各実行ユニットは、特定クラス
の命令の１つ以上の命令を実行する。例えば、ＦＸＵＡ
２２及びＦＸＵＢ２４は、ソース・オペランドに対し
て、加算、減算、論理積、論理和及び排他的論理和など
の、第１のクラスの固定小数点演算を実行する。ＣＦＸ
Ｕ２６はソース・オペランドに対して、固定小数点乗算
及び除算などの、第２のクラスの固定小数点演算を実行
する。ＦＰＵ３０はソース・オペランドに対して、浮動
小数点乗算及び除算などの、浮動小数点演算を実行す
る。

【００１８】プロセッサ１０は、実行ユニット２０、２
２、２４、２６、２８及び３０の様々なものにおいて、
複数の命令を同時に処理することにより高性能を達成す
る。従って、各命令は一連のステージとして処理され、
各ステージが他の命令のステージと並列に実行可能であ
る。こうした技術は"パイプライン方式"と呼ばれる。好
適な実施例では、命令は通常６ステージで、すなわちフ
ェッチ、解読、ディスパッチ、実行、完了及び書き戻し
ステージで処理される。

【００１９】好適な実施例では、各命令は命令処理のス
テージの各々を完了するのに、１マシン・サイクルを要
求する。しかしながら、一部の命令（例えばＣＦＸＵ２
６により実行される複合固定小数点命令）は、２サイク
ル以上を要求し得る。従って、先行する命令の完了に要
求される時間の変動に応じて、特定の命令の実行ステー
ジと完了ステージとの間に、可変の遅延が発生し得る。

【００２０】ロード命令に応答して、ＬＳＵ２８はデー
タ・キャッシュ１６から情報を入力し、こうした情報を
リネーム・バッファ３４及び３８の選択されたものにコ
ピーする。こうした情報がデータ・キャッシュ１６内に
記憶されていない場合、データ・キャッシュ１６は、シ
ステム・バス１１に接続されるシステム・メモリ３９か
らＢＩＵ１２及びシステム・バス１１を介して、こうし
た情報を入力する。更にデータ・キャッシュ１６は、Ｂ
ＩＵ１２及びシステム・バス１１を介して、システム・
バス１１に接続されるシステム・メモリ３９に情報を出
力できる。ストア命令に応答して、ＬＳＵ２８はＧＰＲ
３２、ＦＰＲ３６、リネーム・バッファ３４及び３８の
選択されたものから情報を入力し、こうした情報をデー
タ・キャッシュ１６またはメモリ３９にコピーする。

【００２１】実行ユニット、例えばＦＸＵＡ２２、ＦＸ
ＵＢ２４、リネーム・バッファ３４及びディスパッチ・
ユニット４６の間の対話の例として、命令"ａｄｄ
ｃ、ａ、ｂ"がディスパッチ・ユニット４６からＦＸＵ
Ａ２２にディスパッチされる。当業者であれば理解でき
るように、ディスパッチ・ユニット４６はＦＸＵＡ２２
にオペランド"ａ"及び"ｂ"のタグを提供し、ＦＸＵＡ２
２にオペランドのデータを検索する場所を伝える。例え
ば、６個のリネーム・バッファを有するシステムでは、
ディスパッチ・ユニット４６は"ａ"に対するオペランド
がリネーム・バッファ１内で突き止められるとして、６
ビットのタグ"１０００００"によりタグ付けする。タ
グ"０１００００"は、好適には、オペランド"ｂ"がリネ
ーム・バッファ２内に存在することを示すために使用さ
れる。ＦＸＵＡ２２はＧＰＲ３２へ書込まないので、デ
ィスパッチ・ユニット４６は演算のターゲットとして、
００１０００などのリネーム・バッファ・タグを使用し
なければならず、それにより加算命令の結果がリネーム
・バッファ３内に配置される。

【００２２】前述のように、従来システムの１つの問題
は、１サイクル内で１ストア命令だけが完了され得るこ
とである。従来システムにおけるこの問題を示すため
に、図２を参照して述べることにする。

【００２３】図２は、処理システム内でストア命令を完
了する従来のシステムである。この実施例では、命令ユ
ニット１０２はディスパッチ・ユニット１０３及び完了
ユニット１０５を含む。命令ユニット１０２は、命令キ
ャッシュ１０４からディスパッチ・ユニット１０３に命
令を受け取る。ディスパッチ・ユニット１０３は次に、
命令キャッシュから受け取ったストア命令を、ロード／
ストア（ＬＤＳＴ）・ユニット１０６に提供する。ディ
スパッチ・ユニット１０３はまた、ストア命令を完了ユ
ニット１０５に送る。ＬＤＳＴ１０６内に以前の命令が
存在する場合、ストア命令は命令キュー１０８に提供さ
れる。ＬＤＳＴ１０６内に以前の命令が存在しない場合
には、命令キュー１０８がバイパスされて、ストア命令
は直接有効アドレス（ＥＡ）・ユニット１１０に提供さ
れる。いずれの場合にも、ＥＡユニット１１０は次に、
特定の命令のためのアドレス情報を受け取る。

【００２４】有効アドレスの制御命令が、ストア・キュ
ー１３０の終了キュー１１２に提供され、一方、アドレ
スに関する情報が変換ユニット１１４に提供される。変
換ユニット１１４はＥＡ情報を実アドレス（ＲＡ）に変
換し、それを終了キュー１１２に提供する。終了キュー
１１２は、終了有効信号を完了ユニット１０５に提供す
る。すると完了ユニット１０５は、完了有効信号を終了
キュー１１２に提供する。終了キュー１１２はアドレス
を固定小数点ユニット（ＦＸＵ）１１６及び浮動小数点
ユニット（ＦＰＵ）１１８に送る。ＦＸＵ及びＦＰＵ
は、それらのアドレスに関連するデータを完了キュー１
２０に提供する。終了キュー１１２はＲＡ情報を完了キ
ュー１２０に提供する。完了キュー１２０はストア命令
をデータ・キャッシュ１２２に提供する。

【００２５】図３を参照すると、固定小数点実行ユニッ
ト（ＦＸＵ）１１６の複数のストア命令（ＩＮＳＴ）１
乃至４のデータ・フローのタイミング図が示される。こ
の実施例では、一般に２０２で示されるように、命令１
がサイクル１でディスパッチされ、命令２がサイクル２
で、命令３がサイクル３で、命令４がサイクル４でそれ
ぞれディスパッチされる。その後、一般に２０４で示さ
れるように、ＬＤＳＴユニット１０６が命令１の有効ア
ドレス（ＥＡ１）をサイクル２の前半で実行し、命令２
の有効アドレス（ＥＡ２）をサイクル３の前半で、命令
３の有効アドレス（ＥＡ３）をサイクル４の前半で、命
令４の有効アドレス（ＥＡ４）をサイクル５の前半でそ
れぞれ実行する。命令１乃至４の変換されたアドレスの
アクセスが、一般に２０６で示される。命令１のアドレ
スのアクセスは、サイクル２の後半とサイクル３の前半
の間に実行され、命令２のアドレスのアクセスは、サイ
クル３の後半とサイクル４の前半の間に、命令３のアド
レスのアクセスは、サイクル４の後半とサイクル５の前
半の間に、命令４のアドレスのアクセスは、サイクル５
の後半とサイクル６の前半の間に、それぞれ実行され
る。

【００２６】次に、一般に２０８で示されるように、実
アドレスが変換ユニットから提供される。命令１の実ア
ドレス（ＲＡ１）はサイクル３の後半に提供され、命令
２の実アドレス（ＲＡ２）はサイクル４の後半に、命令
３の実アドレス（ＲＡ３）はサイクル５の後半に、命令
４の実アドレス（ＲＡ４）はサイクル６の後半に、それ
ぞれ提供される。

【００２７】この実施例では、一般に２１０で示される
ように、終了キューが前述のように、サイクル４乃至７
の間に、命令１乃至４の実アドレス値によりロードされ
る。命令１乃至４は、一般に２１２で示されるように、
サイクル４乃至７で終了し得る。たとえ命令１乃至４が
完了されても、アーキテクチャ・レジスタ・ファイル上
の単一の読出しポートにより命令間に構造的な依存性が
存在し、これが一般に２１３で示されるように、プロセ
ッサの性能を制限する。すなわち、命令１はサイクル５
で完了され得、命令２は命令１が完了されれば、サイク
ル６で完了され得、命令３は命令１及び２が完了されれ
ば、サイクル７で完了され得る。最後に、命令４は命令
１乃至３が完了されれば、サイクル８で完了され得る。

【００２８】一般に２１４で示される停止状態の後、命
令完了ユニットがフル状態の場合、前述の構造的な依存
性により命令１乃至４が一般に２１６で示されるよう
に、サイクルｎ＋１から開始し、１度に１つずつ完了さ
れる。これは完了ユニット１０５がサイクルｎ＋１乃至
ｎ＋４の間に、命令１乃至４に対する完了信号を起動す
ることにより達成される。それ故、固定小数点ユニット
汎用レジスタ（ＧＰＲ）がアクセスされ、命令１乃至４
に対するデータが、一般に２１８で示されるように、サ
イクルｎ＋１乃至ｎ＋４の間に獲得される。各命令に対
するデータ有効信号が、一般に２２０で示されるよう
に、サイクルｎ＋１乃至ｎ＋４の間に提供される。

【００２９】その後、一般に２２２で示されるように、
完了ストア・キューが命令１乃至４によりロードされ
る。命令１はサイクルｎ＋２で完了ストア・キューにロ
ードされる。命令２はサイクルｎ＋３で完了ストア・キ
ューにロードされ、命令３はサイクルｎ＋４で完了スト
ア・キューにロードされ、命令４はサイクルｎ＋５で完
了ストア・キューにロードされる。次に、一般に２２４
で示されるように、命令１乃至４のデータがサイクルｎ
＋２乃至ｎ＋５の間に、１度に１命令ずつ、データ・キ
ャッシュに送られる。

【００３０】プロセッサが未完の命令の最大数に関する
限界に達すると、サイクルｎ＋２において１命令だけが
ディスパッチされ得る。これはサイクルｎ＋３乃至ｎ＋
６にも当てはまる。従って、完了ユニットがフル状態の
ために、一般に２２６で示される命令５乃至８が、順次
ディスパッチされる必要がある。従って、ディスパッチ
時間におけるこの不利益が、プロセッサの全体性能に影
響する。

【００３１】このデータ・フローに関する問題は、前述
の終了キュー／完了キューの相互作用により、完了ユニ
ット１０５がフル状態でディスパッチ停止が発生する場
合、命令のディスパッチが多大に遅延されることであ
る。この問題を克服する従来のアプローチは、実行ユニ
ット上にポートを追加することである。このアプローチ
は、システムに追加のコスト及び複雑度を課する。従っ
て、ディスパッチ停止が発生した後に、複数のストア命
令を完了することにより、プロセッサの全体性能を改善
するための既知のアプローチよりも単純な方法及びシス
テムが求められる。

【００３２】本発明に従い示されるシステム及び方法
は、停止状態が発生し、完了バッファがフル状態の後
に、複数のストア命令を完了することによりプロセッサ
の性能を実質的に改善する。また、完了バッファは従来
のプロセッサほど高速に充填されない。本発明では、ス
トア・キューは終了キューと完了キューとの組み合わせ
ではなく、単一のキューである。更に、ストア命令に関
連するデータが、命令の完了後にではなく完了以前にア
クセスされる。ストア命令は次の２つの条件のいずれか
が満たされるとき、すなわち、実アドレス（ＲＡ）及び
データがストア・キューにロードされるか、ＲＡがスト
ア・キューにロードされ、データがストア・キューに送
信されているとき終了され得る。データを早期にアクセ
スすることにより、複数のストア命令が実質的に同時に
完了され得る。従って、完了バッファがフル状態時のデ
ィスパッチの停止後、複数の命令がディスパッチされ得
る。そうすることにより、複数のストア命令を同時に完
了し、それにより完了バッファ内のエントリを解放する
ことにより、命令ディスパッチの遅延を実質的に低減す
るシステムが提供される。

【００３３】以下の議論では、本発明についてより詳細
に述べることにする。図４は、本発明に従い、１サイク
ルにつき単一のストア命令の実行を提供するストア命令
データ・フローの第１の実施例である。図２に示される
要素と類似の要素が、複数存在する。これらの要素は図
２と類似の番号を与えられる。しかしながら、幾つかの
大きな違いが存在する。第１は、ロード／ストア・ユニ
ット３０６のストア・キュー３１２が、終了キューと完
了キューとの組み合わせではなく、単一のキューであ
る。この構成では、完了ユニット１０５'がストア命令
を完了し、ストア・キュー３１２が完了時に適切なエン
トリをマークする。好適な実施例では、ストア・キュー
３１２は１６エントリの深さである。すなわち、１６個
のストア命令がストア・キューに記憶され得る。また、
好適な実施例では、各エントリ内のビットは、命令ユニ
ットからの完了信号にもとづき、アクティブにされる。
更に、このデータ・フローの動作は、図２のストア命令
のデータ・フローに関して述べられた動作とは異なる。
前述のように、データはストア命令の完了以前にアクセ
スされる。ストア命令は、以下の２つの条件の１つが満
たされるとき、すなわち、１）実アドレス及びデータが
ストア・キューにロードされるか、２）実アドレスがス
トア・キューにロードされ、データがストア・キューに
送信されているとき終了される。

【００３４】これらの違いについて詳述するために、図
４のデータ・フローの動作を一般に示す図５を参照する
ことにする。

【００３５】最初にステップ４０２で、複数のストア命
令が、ディスパッチ・ユニット１０３'からロード／ス
トア・ユニット３０６内の有効アドレス（ＥＡ）・ユニ
ット３１０に提供される。ステップ４０４で、ＥＡユニ
ット３１０は制御情報をストア・キュー３１２に提供す
る。ステップ４０６で、ＥＡユニット３１０はアドレス
情報を変換ユニット１１４'に提供する。ステップ４０
８で、複数のストア命令に関連する実アドレス（ＲＡ）
が、変換ユニット１１４'から読出され、複数のストア
命令に関連するデータが、ＦＸＵユニット１１６'から
読出される。ステップ４０９で、ディスパッチ停止が発
生した後、完了ユニットはフル状態である。

【００３６】ステップ４１０で、完了ユニット１０５'
は、ストア・キュー３１２から受信される終了有効信号
にもとづき、その完了窓内において複数のストア命令を
完了する。ステップ４１２で、ストア・キューがそのエ
ントリを完了済みとしてマークする。その後、ステップ
４１６で、同一数の新たな命令がディスパッチ・ユニッ
ト１０３'からディスパッチされ、ステップ４１８で完
了ユニット１０５'に提供される。そうすることで、デ
ィスパッチ停止が本発明により多大に低減される。

【００３７】本発明の動作をより詳細に述べるために、
またそれを図２のデータ・フローのタイミング図と対比
するために、図３と一緒に図６を参照することにする。
図６は、図４のデータ・フローのタイミング図である。
図３の２０２と同様に、図６の実施例では、一般に５０
２で示されるように、命令１がサイクル１でディスパッ
チされ、命令２がサイクル２で、命令３がサイクル３
で、命令４がサイクル４で、それぞれディスパッチされ
る。その後、図３の２０４と同様に、ロード／ストア・
ユニットが図６の５０４で一般に示されるように、命令
１の有効アドレス（ＥＡ１）をサイクル２の前半で実行
し、命令２の有効アドレス（ＥＡ２）をサイクル３の前
半で、命令３の有効アドレス（ＥＡ３）をサイクル４の
前半で、命令４の有効アドレス（ＥＡ４）をサイクル５
の前半で、それぞれ実行する。

【００３８】その後、図３の２０６で示されるのと同様
に、命令１乃至４の変換のためのキャッシュ変換アクセ
スが発生する。図６の５０６で一般に示されるように、
命令１の変換アドレスのためのキャッシュ・アクセス
は、サイクル２の後半とサイクル３の前半との間に発生
し、命令２の変換アドレスのためのキャッシュ・アクセ
スは、サイクル３の後半とサイクル４の前半との間に発
生し、命令３の変換アドレスのためのキャッシュ・アク
セスは、サイクル４の後半とサイクル５の前半との間に
発生し、命令４の変換アドレスのためのキャッシュ・ア
クセスは、サイクル５の後半とサイクル６の前半との間
に発生する。

【００３９】しかしながら、図３と異なり、次にデータ
が使用可能な場合、一般に５０８で示されるように、ア
ーキテクチャ・レジスタ・ファイル（ＧＰＲ）がアクセ
スされる。命令１のデータがサイクル３でアクセスさ
れ、次に命令２のデータがサイクル４で、命令３のデー
タがサイクル５で、そして命令４のデータがサイクル６
でそれぞれアクセスされる。

【００４０】次に、一般に５１０及び５１２でそれぞれ
示されるように、実アドレスに対するデータ（ＲＡ１乃
至ＲＡ４）が変換ユニットから提供され、データ有効信
号がＦＸＵ１１６'からストア・キュー３１２に提供さ
れる。この実施例では、命令１に対するデータ有効信号
はサイクル４の間に提供され、命令２に対するデータ有
効信号はサイクル５の間に、命令３に対するデータ有効
信号はサイクル６の間に、そして命令４に対するデータ
有効信号は、サイクル７の間にそれぞれ提供される。Ｒ
Ａ１はサイクル３の後半の間に提供され、ＲＡ２はサイ
クル４の後半の間に、ＲＡ３はサイクル５の後半の間
に、ＲＡ４はサイクル６の後半の間にそれぞれ提供され
る。

【００４１】この実施例では、一般に５１４で示される
ように、ストア・キュー３１２がサイクル４乃至７の間
に、それぞれ命令１乃至４の実アドレス値をロードされ
る。命令１乃至４の各々に対するストア・キュー終了
が、一般に５１８で示されるように、ストア実アドレス
がストア・キューにロードされ且つＦＸＵ１１６'デー
タ有効信号が、一般に５１０で示されるように提供され
るのと同一のサイクルの間に発生する。従って、次の２
つの条件の一方が満足される場合、すなわち、１）命令
１乃至４に対するＲＡ及びデータがストア・キューにロ
ードされるか、２）命令１乃至４に対するＲＡがストア
・キューにロードされ、データがストア・キューに転送
されている場合、ストア・キュー終了が発生し得る。次
に、一般に５１６で示されるように、命令１乃至４に対
するデータが入手可能であれば、それぞれサイクル５乃
至８の間に、ストア・キュー３１２にロードされる。

【００４２】一般に５２１で示される停止状態の後、５
２２で示されるように、４つの命令が同時に完了され得
る。これは、４つの命令が順次完了されなければならな
い図３のシステムとは対照的である。次に、完了ユニッ
ト１０５'がサイクルｎ＋１の間に、命令１乃至４に対
する完了信号を起動する。また、全ての命令が完了済み
としてマークされているので、一般に５２４で示される
ように、ディスパッチ・ユニット１０３'は命令５乃至
８を同時に（サイクルｎ＋２で）ディスパッチできる。

【００４３】プロセッサがサイクルｎ＋２で、１サイク
ル当たりの未完命令の最大数に関する限界に達すると、
この実施例はサイクルｎ＋２において、１サイクルにつ
き最大４命令がディスパッチされることを可能にする。
それに対して、従来技術では、１命令がディスパッチさ
れるだけである。

【００４４】図７は、本発明の好適な実施例のストア命
令のデータ・フローを示す。このデータ・フローは、１
サイクル当たり最大２つの命令をサポートする。要素は
図５のそれと類似である。共通要素は類似の番号で示さ
れるが幾つかの違いが存在する。図示のように、２つの
ＥＡユニット３１０ａ及び３１０ｂが存在する。更に、
ＦＸＵ１１６'のための２つのポートが存在する。ＦＸ
Ｕ１１６'上に２つのポートが存在するので、変換ユニ
ット１１４'は各ポートに対して変換信号を提供し、ス
トア・キュー３１２は各ポートに対して終了有効信号を
提供する。

【００４５】図８を参照すると、この実施例では、１サ
イクルにつき２つの命令が処理され得るので、一般に６
０２で示されるように、命令１及び２がサイクル１の間
にディスパッチされ、命令３及び４がサイクル２の間に
ディスパッチされる。次に、一般に６０４で示されるよ
うに、ＥＡ１及びＥＡ２のロード／ストア生成が、サイ
クル２の前半に発生し、ＥＡ３及びＥＡ４のロード／ス
トア実行が、サイクル３の前半に発生する。次に、一般
に６０６で示されるように、キャッシュが命令１及び２
の変換アドレスのために、サイクル２の後半とサイクル
３の前半の間にアクセスされ、命令３及び４の変換アド
レスのために、サイクル３の後半とサイクル４の前半の
間にアクセスされる。

【００４６】次に、一般に６０８で示されるように、ア
ーキテクチャ・レジスタ・ファイル（ＧＰＲ）がアクセ
スされる。命令１及び２のデータは、サイクル３におい
てアクセスされ、命令３及び４のデータは、サイクル４
においてアクセスされる。

【００４７】次に、一般に６１０及び６１２でそれぞれ
示されるように、実アドレスのデータ（ＲＡ１乃至ＲＡ
４）が変換ユニットから提供され、命令１乃至４のデー
タ有効信号がストア・キュー３１２に提供される。この
実施例では、命令１及び２のデータ有効信号がサイクル
４の間に提供され、命令３及び４のデータ有効信号がサ
イクル５の間に提供される。ＲＡ１及びＲＡ２はサイク
ル３の後半に提供され、ＲＡ３及びＲＡ４はサイクル４
の後半に提供される。

【００４８】この実施例では、一般に６１４で示される
ように、サイクル４及び５の間にストア・キュー３１２
が命令１乃至４の実アドレス値をロードされる。命令１
乃至４の各々に対するストア・キュー終了が、一般に６
１８で示されるように、ストア・キュー実アドレスがロ
ードされるのと同一のサイクルの間に発生する。次に、
一般に６１６で示されるように、命令１乃至４のデータ
が入手可能であれば、それぞれサイクル５及び６の間に
ストア・キュー３１２にロードされる。

【００４９】６２１で示される停止状態の後、６２２で
示されるように、４つの命令が同時に完了され得る。こ
のとき、完了ユニット１０５'はサイクルｎ＋１の間
に、命令１乃至４に対する完了信号を起動する。また、
全ての命令が完了済みとしてマークされているので、６
２４で示されるように、ディスパッチ・ユニット１０
３'は命令５乃至８を同時に（サイクルｎ＋２で）ディ
スパッチできる。

【００５０】プロセッサが１サイクル当たりの未完命令
の最大数に関する限界に達すると、サイクルｎ＋２で、
最大４命令がディスパッチされ得るのに対して、従来技
術では、１命令がディスパッチされるだけである。この
ことは命令８がディスパッチされるときに、３サイクル
を節約することになる。

【００５１】本発明によるシステム及び方法では、複数
のストア命令が一緒に処理されるので、命令が一緒に完
了され得、それによりストア命令を完了するためのサイ
クル数を実質的に低減する。命令ユニットによりディス
パッチされ得る命令の最大数のボトルネックが、従来シ
ステムにより要求される完了キュー・エントリを排除す
ることにより緩和され、それにより命令ユニットが新た
な命令をディスパッチすることを可能にする。

【００５２】図９を参照すると、本発明の別の実施例に
従い、ディスパッチのボトルネックを低減する回路７０
０が示される。この実施例では、ＧＰＲ７１４に加え、
リネーム・レジスタ７１６が読出しポートを提供され、
それによりデータがリネーム・レジスタからマルチプレ
クサ（ＭＵＸ）７１８を介して、データ・キュー（ＤＡ
ＴＡＱ）７２２に転送される。データ・キュー７２２の
エントリを図１０に示す。回路７００はまた、命令タグ
を記憶するタグ・キュー（ＴＡＧＱ）７０４を含む。命
令タグは回路７００により、特定のストア命令に関連付
けられるアドレス及びデータを、様々なキュー内で位置
整合するために使用される。タグ・キュー７０４内の各
フィールドは、好適にはｎビット幅であり、ここでｎ
は、プロセッサ内で保留中の全てのストア命令を一意的
に識別するのに十分な数のタグが割当てられるように選
択される。タグ・キュー内の各フィールドは、タグ・フ
ィールド内に含まれるデータが有効な保留命令か否かを
示す有効ビットにも関連付けられる。有効ビットは、命
令がＬＳＵにより実行され、タグがタグ・キュー内のエ
ントリに転送されるとき、最初に活動化される。有効ビ
ットは、以下で詳述されるように、ストア命令に対応す
るデータがデータ・キュー７２２からキャッシュに転送
された後に非活動化される。有効ビットが非活動化され
ると、そのエントリは続くストア命令による再利用のた
めに使用可能になる。図１１は、タグ・キュー７０４内
の個々のエントリを示す。

【００５３】回路７００はまた、特定のストア命令によ
り要求されたデータを含む、特定のＧＰＲまたはリネー
ム・レジスタ・ファイル・エントリを選択するための情
報を含む、ポインタ・キュー（ＰＴＲＱ）７０６を含
む。図１２は、一般的なポインタ・キュー・エントリに
含まれるフィールドを示す。より詳細には、ストア・ポ
インタ・キュー７０６は、データがストア・データ・キ
ュー７２２の適切なエントリにロードされることを保証
する機構である。データはＦＸＵ実行ユニットまたはＦ
ＰＵ実行ユニットから、非プログラム順序で戻され得る
ので、ストア・ポインタ・キューが必要となる。１実施
例では、ストア・ポインタ・キュー７０６は深さｎのプ
ッシュダウン・キューである。ＦＸＵ実行ユニットまた
はＦＰＵ実行ユニットからのデータ要求を生成するため
に、下位の２つのエントリがＬＳＵ論理７０２によりチ
ェックされる。ＦＸＵ（ＧＰＲ）レジスタ・ファイルま
たはＦＰＵ（ＦＰＲ）レジスタ・ファイルをアドレス指
定するために、アーキテクチャ・レジスタ・ファイル・
ポインタが使用され、ＦＸＵ（リネーム）レジスタ・フ
ァイルまたはＦＰＵ（リネーム）レジスタ・ファイルを
アドレス指定するために、リネーム・レジスタ・ファイ
ル・ポインタが使用される。アーキテクチャ・レジスタ
・ファイル及びリネーム・レジスタ・ファイルの両方
が、並列にアクセスされる。データ・キュー７２２に転
送されるデータは、関連するポインタ・キュー・エント
リ内のリネーム／アーキテクチャ（Ｒ／Ａ）ビットによ
り決定される。Ｒ／Ａビットがセットされている場合、
アーキテクチャ・コピーが使用され、Ｒ／Ａビットがセ
ットされていない場合、リネーム・データがマルチプレ
クサ７１８により選択される。Ｒ／Ａビットの初期値
は、ディスパッチ時にリネーム・ユニットから割当てら
れ、命令と共に、ロード／ストア実行ユニットに転送さ
れる。Ｒ／Ａビットは、ＬＳＵ論理により保持されなけ
ればならない動的ビットである。なぜなら、ストア・ポ
インタがデータをアクセスできる以前に、ストア命令の
ソース・データの位置がリネーム・レジスタ・ファイル
からアーキテクチャ・レジスタ・ファイルに移動し得る
からである。換言すると、当初ストア命令のデータはリ
ネーム・レジスタ・ファイル内に存在すると決定される
が（Ｒ／Ａ＝０）、ストア・ポインタ・キューがデータ
をリネーム・レジスタ・ファイルからアクセスできる以
前に、命令ユニットはストア命令のソースであるＧＰＲ
を変更し得た命令を完了する。この結果、リネーム・デ
ータがアーキテクチャ・レジスタ・ファイルにロードさ
れる。ＬＳＵ論理は、関連ポインタ・キュー・エントリ
のＲ／Ａビットを０から１に変更する。

【００５４】データがリネーム・レジスタ・ファイルま
たはアーキテクチャ・レジスタ・ファイルからアクセス
されると、ストア・ポインタ・タグ・フィールドが、ス
トア・データ・キュー内のデータを、ストア・タグ・キ
ュー内の対応するエントリ（マッチング・タグ値を有す
る）に位置整合するために使用される。有効ビット
（Ｖ）は単に、ストア・ポインタ・キュー・エントリが
有効か否かを示すだけである。

【００５５】毎サイクルごとに、ポインタ・キュー内の
２つの下位エントリが走査され、ＧＰＲレジスタ・ファ
イル及びリネーム・レジスタ・ファイル内のエントリに
含まれるデータが、マルチプレクサ７１８に転送され
る。制御論理が、ＧＰＲレジスタ・ファイル・エントリ
及びリネーム・レジスタ・ファイル・エントリに関連付
けられる有効ビットをチェックする。エントリ内のデー
タが有効でない場合、それはデータ・キューに転送され
ない。データは本質的に"放棄"され、ポインタ・キュー
・エントリが次のサイクルで再走査される。結局、スト
ア命令により要求されたデータがリネーム・レジスタに
書込まれ、その特定のリネーム・レジスタに対応するリ
ネーム有効ビットが活動化される。データがデータ・キ
ューに転送されるとき、制御論理はポインタ・キュー・
エントリ内の有効ビットを非活動化する。このことは続
くストア命令がポインタ・キュー・エントリを再利用す
ることを可能にする。なぜなら、ポインタ・キュー（及
び終了キュー）がタグ・キューにより位置整合されない
からである。

【００５６】回路７００は、ストア終了キュー（ＦＩＮ
Ｑ）７１０を含む。ストア終了キュー７１０は、ストア
命令を終了する役割を担う。これもまたプッシュダウン
・キューである。終了キュー７１０は、アドレス生成サ
イクルの間に生成された固有ストア・タグのうち、各Ｉ
ＩＤで"最終"要求としてマークされたタグを保持する。
ここでＩＩＤは、ディスパッチ時に各命令に割当てら
れ、プロセッサを通じて、命令を追跡するために使用さ
れる命令識別子を表す。より詳細には、本発明の特定の
１実施例では、あらゆる位置不整合の命令（すなわち、
ストア命令により要求されたデータが、キャッシュ境界
上で位置不整合となる）は、各ＩＩＤにつき２つのキャ
ッシュ・アクセス要求を有し、そのうち第２の要求タグ
だけが終了キューに配置される。位置整合された命令の
場合は、各要求が"最終"とマークされ、そのタグが終了
キューに配置される。もちろん、位置不整合の命令の処
理は、本発明と共に使用される特定のアーキテクチャに
大きく依存する。

【００５７】本発明のこのバージョンでは、最も古い２
つのエントリがＬＳＵ論理により走査され、それらが終
了され得るか否かがチェックされる。タイミング上の配
慮から、本発明は各サイクルの間により多くのまたは少
ないエントリを走査するようにも、容易に適応化され得
る。ストア命令は非プログラム順序で終了され得る。す
なわち、最も古いエントリが何らかの理由により終了さ
れ得なかった場合、２番目に古いエントリが終了され得
る。ストア終了キュー７１０内の２つの最も古い命令に
対するタグが、ストア・タグ・キュー７０４内のタグと
比較され、ストアＥＡ／制御キュー７０８内でチェック
されるべきエントリが決定される。ストア命令は、その
実アドレス及びデータが、それぞれ実アドレス・キュー
（ＲＡＱ）７１２及びストア・データ・キュー７２２に
ロードされているか、または実アドレスが実アドレス・
キュー７１２にロードされ、データがデータ・キュー７
２２にロードされようとしている場合、終了され得る。
一旦命令が終了キューにより終了可能になると、ストア
ＥＡ／制御キュー７０８から獲得されるそのＩＩＤ及び
終了信号が、命令完了ユニット（図示せず）に送信され
る。

【００５８】前と同様に、有効ビット（Ｖ）は単に、ス
トア終了キュー・エントリが有効であることを示すだけ
である。終了キューが最初に実行済み命令によりロード
されるとき、有効ビットが活動化される。ストア命令に
対応する実アドレス・キュー及びデータ・キュー内のエ
ントリが有効なとき、終了報告が完了ユニットに送信さ
れ、終了キュー有効ビットが非活動化される。換言する
と、終了キューは、実アドレス及びストア命令により要
求されたデータの両方が、そのストア命令が完了され得
る以前に使用可能なことを保証するように動作する。終
了報告は任意の例外情報の他に、命令に対応する有効ア
ドレス制御キュー・エントリ（図１４）から獲得される
ＩＩＤを含む。

【００５９】回路７００は更に、有効アドレス制御キュ
ー（ＥＡ／ＣＮＴＬＱ）７０８を含む。図１４は、一般
的な有効アドレス制御キュー・エントリを示す。有効ア
ドレス制御キュー７０８は、深さｎのプッシュダウン・
キューであり、メモリを更新するための実アドレス及び
ストア・データと共に、データ・キャッシュに転送され
る有効アドレスを保持する。このキューはまた、ストア
命令を終了するために、ストア・キューにより使用され
るＩＩＤを含む。Ｅビットは、例外が実行の間に発生し
た場合、このエントリがデータ・キャッシュに転送され
ることを阻止する例外ビットである。Ｅビットは設計上
の選択に応じて、プロセッサ上の様々な資源により操作
され得る。例えば、本発明の１実施例では、Ｅビットは
ストア割込みなどの特定の事象に際して、データ・キャ
ッシュ・メモリ管理ユニット（ＤＣＭＭＵ）７２４のア
ドレス変換論理によりセットされる。

【００６０】Ｃビットは、ストア命令が体系的に命令完
了ユニットにより完了され、メモリへのストアが発生す
べきことを意味する完了ビットである。完了されたスト
アだけがデータ・キャッシュに転送され得る。特定の有
効アドレス制御キュー・エントリでＣビットが活動化さ
れるのは、タグ・キュー、データ・キュー及び実アドレ
ス・キュー内の対応するエントリが、問題のストア命令
に対して有効で、完了ユニットがこの命令が完了された
ことを示すときだけである。データがデータ・キューか
らキャッシュに転送された後、対応する有効アドレス制
御キュー・エントリ内の有効ビットは非活動化される。
同時に、タグ・キュー、データ・キュー及び実アドレス
・キュー内の有効ビットも、それらのそれぞれのエント
リに対して非活動化される。

【００６１】この時点で、当業者には本発明の１つの重
要な利点が明らかとなろう。アドレス及びストア命令に
より要求されたデータが、既にアドレス・キュー及びデ
ータ・キュー内に保持されているので、命令が完了され
る時点になると、すなわち命令のＩＩＤが完了テーブル
内で次に完了すべきエントリとなるとき、アーキテクチ
ャ・レジスタ・ファイルまたはリネーム・レジスタ・フ
ァイルからの読出しを実行する必要無しに命令が完了さ
れ得る。代わりに、データが単にデータ・キューからキ
ャッシュに転送される。本発明のこのバージョンでは、
データ・キューが単一の読出しポートだけを具備され、
結果的に、１サイクルにつき１ストア命令だけがそのデ
ータをキャッシュに転送され得るものと仮定する。しか
しながら、レジスタ・ファイルの読出しが要求されない
ので、本発明は１サイクル内で複数のＩＩＤが完了ユニ
ットから有効アドレス制御キューに転送されることを可
能にし、関連するエントリの各々に対して、Ｃビットを
セットする。一旦ＩＩＤが転送されると、完了テーブル
内のエントリが続く命令により再利用され得る。これは
１サイクル内で、完了テーブル内の複数のエントリを解
放し、完了テーブルがフル状態の時に生じ得るディスパ
ッチの停止を阻止する。

【００６２】例えば、データをメモリ・アライメントに
フォーマットするストア・フォーマッタの制御などの、
本発明の体系的な実現に依存する様々な目的で、他の各
種制御ビットが提供され得る。有効ビット（Ｖ）は、有
効アドレス制御キュー・エントリが有効であることを示
し、エントリがロードされるときに活動化され、前述の
ように非活動化される。

【００６３】回路７００により使用される別のキュー
は、実アドレス・キュー（ＲＡＱ）７１２である。この
キューは、完了バッファ（図示せず）内で保留中のスト
ア命令によるキャッシュ・アクセスのための実アドレス
を記憶する。このキュー内のアドレスは、メモリへの実
際の書込みを行うために、対応するストア・データと一
緒にキャッシュに転送される。

【００６４】最後に、回路７００は、完了バッファ（図
示せず）内で保留中の様々なストア命令により要求され
たデータを記憶するデータ・キュー７２２を有する。デ
ータ・キュー７２２は、関連するストア命令が実行され
る時のデータの位置に依存して、ＧＰＲレジスタ・ファ
イルまたはリネーム・レジスタ・ファイルのいずれかか
らデータを受信する。

【００６５】本発明の１バージョンの動作は次のようで
ある。ディスパッチに際して、ストア命令がディスパッ
チ・ユニット（図示せず）から、ロード／ストア・ユニ
ット（ＬＳＵ）論理７０２に転送される。ディスパッチ
・ユニットは命令に識別タグ（ＩＩＤ）を割当て、これ
はプロセッサ全体を通じて命令を追跡するために使用さ
れる。続くクロック・サイクルにおいて、ＬＳＵ７０２
は命令の有効アドレスを計算し、識別のための固有のタ
グを命令に割当てる。ここでＩＩＤはＬＳＵにより生成
されるタグとは区別され、タグ・キュー７０４に記憶さ
れる。この実施例では、タグ識別はＬＳＵ内で内部的に
使用されるだけである。このことは、ディスパッチ・ユ
ニットによりストア命令に割当てられたＩＩＤが、元の
ストアがデータ・キャッシュに送信されるより以前に再
発行される可能性により、論理設計を単純化する。ＩＩ
Ｄを使用してＬＳＵキュー内でデータを位置整合するよ
うにすることも可能であるが、この実施例は設計上の選
択の理由から、別々のタグを採用する。ＬＳＵ論理７０
２は次に、タグをタグ・キュー７０４に転送する。タグ
・キュー７０４は、以下で詳述されるように、回路７０
０内の様々なキュー間のアライメントを保持するために
使用される。

【００６６】同じサイクルの間に、ＬＳＵ論理はまた、
命令及びそのタグをポインタ・キュー７０６に転送す
る。この実施例のポインタ・キュー７０６は、単純なプ
ッシュダウン・キューである。ポインタ・キュー内の各
エントリは、図１２に示されるように、タグ・フィール
ド、ＧＰＲポインタ、リネーム・ポインタ、リネーム／
アーキテクチャ・ビット（Ｒ／Ａ）及び有効ビット
（Ｖ）を含む。タグ・フィールドは、前のサイクルにＬ
ＳＵ論理７０２により割当てられた命令の識別タグを含
む。ＧＰＲフィールドは、ディスパッチされる命令に関
連付けられるＧＰＲポインタを含む。同様に、リネーム
・ポインタは、ディスパッチされる命令に関連付けられ
るリネーム・ポインタを含むが、この情報は命令解読の
一部でないので、リネーム制御論理から到来する。Ｒ／
Ａビットは、命令に関連付けられるデータを含む位置、
すなわち、データがリネーム・レジスタ及びＧＰＲのい
ずれにあるかを識別する。１実施例では、Ｒ／Ａビット
がセットされるとき、命令のデータはＧＰＲエントリに
記憶される。ストア命令のために要求されたデータがＧ
ＰＲ内に存在する場合、Ｒ／Ａビットを更新する必要は
ない。なぜなら、そのデータを要求するストア命令が完
了されるまで、アーキテクチャ・レジスタが変化しない
からである。

【００６７】しかしながら、Ｒ／Ａビットがセットされ
ない場合、データはリネーム・レジスタ・エントリ内で
突き止められる。この場合、Ｒ／Ａビットが後述のよう
に、ポインタ・キュー７０６内で更新されなければなら
ない。ＬＳＵ論理７０２はリネーム・レジスタ制御論理
（図示せず）からＲ／Ａビットを獲得し、それを他の情
報と一緒にポインタ・キュー７０６に同時に転送する。
ストア命令のデータがリネーム・レジスタから獲得され
る場合、リネーム・エントリの有効ビットはリネーム・
データが有効か否か、すなわちデータを生成した命令が
それをリネーム・レジスタに書込んだか否か、またはそ
の命令が依然保留中か否かを示す。Ｒ／Ａビットはリネ
ーム・エントリの有効ビットと共に使用され、ストア命
令のデータが入手可能な場合、各サイクルにおいて、デ
ータ・キュー７２２へのその転送を可能にする。

【００６８】ポインタ・キュー７０６はＬＳＵ論理７０
２により各サイクルで走査される。図１２のポインタ・
キュー・エントリが走査されるとき、その中のリネーム
・ポインタが、完了ユニットの書き戻しベクトル（同様
にリネーム・ポインタ）と比較され、対応するＲ／Ａビ
ットがセットされるべきか否かが決定される。より詳細
には、完了ユニット内の各エントリは、完了する命令の
データが突き止められるリネーム・レジスタに対応する
書き戻しベクトル・フィールドを含む。書き戻しベクト
ルは、プロセッサ上の論理により、リネーム・レジスタ
からのデータをそのデータを生成した命令により目標と
されたレジスタに書込むために使用される。ポインタ・
キュー・エントリ内のリネーム・ポインタと完了テーブ
ル内の書き戻しベクトルとの間で、比較一致が見い出さ
れるとき、これはストア命令により必要とされるデータ
を生成した命令が完了し、現在ＧＰＲエントリ内に構成
されていることを示す。従って、その特定のストア命令
のために要求されたデータは、もはやリネーム・レジス
タ内では見い出されず、ＧＰＲ内にある。従って、ＬＳ
Ｕ論理はポインタ・キュー・エントリ内のＲ／Ａビット
をトグルする。

【００６９】ポインタ・キュー７０６はまた、データ・
キュー７２２への転送準備が整ったデータを有するエン
トリが存在するか否かを決定するために走査される。タ
イミング上の理由から、ポインタ・キュー７０６の一部
だけ、例えば最後の２つのエントリなどを走査すること
が望ましかろう。しかしながら、これは設計上の選択に
よる。ポインタ・キュー７０６の走査は、命令のデータ
がデータ・キュー７２２に非プログラム順序で書込まれ
ることを可能にする。例えば、ポインタ・キュー７０６
内の最後の、それ故最も古いエントリが走査され、その
データがリネーム・レジスタ内に記憶されることが見い
出されるものの、リネーム有効ビットにより、そのデー
タがまだ以前のデータ生成命令から受信されていないこ
とが示される場合、ポインタ・キュー７０６内の最も古
い命令のデータは、データ・キュー７２２に転送され得
ない。この場合、ＬＳＵ論理７０２は次に古いエントリ
を走査する。このエントリに対してＲ／Ａビットがセッ
トされていると、このエントリのデータはＧＰＲに含ま
れる。この場合、ＬＳＵ論理７０２はＲ／Ａビットと共
にＧＰＲポインタを使用することにより、適切なＧＰＲ
エントリを選択し、データをデータ・キュー７２２に記
憶する。ＧＰＲからデータを受信する特定のデータ・キ
ュー・エントリは、前述のようにタグ・キュー７０４の
同じエントリに対応するものである。換言すると、プロ
セッサはポインタ・キュー７０６内のタグを、タグ・キ
ュー７０４内の関連ストア命令のタグと比較する。関連
ストア命令のタグが、タグ・キュー７０４内の第４のエ
ントリに記憶されている場合、ＧＰＲから受信されるデ
ータはデータ・キュー７２２内の第４のエントリに書込
まれる。このように、タグ・キュー７０４は、データ・
キュー７２２、実アドレス・キュー７１２及び有効アド
レス制御キュー７０８間のアライメントを保持する。各
特定のストア命令に対して、これらの各キューのエント
リがその命令に関する情報を有する。

【００７０】選択されたエントリからのデータは、マル
チプレクサ（ＭＵＸ）７１８を介してラッチ７２０に転
送される。ＭＵＸ７１８は、データがＧＰＲエントリま
たはリネーム・レジスタ・エントリのどちらから、ラッ
チ７２０に転送されるかを選択するために使用される。
そのために、ポインタ・キュー・エントリのＲ／Ａビッ
トが、ＭＵＸ７１８選択信号線への入力として提供され
る。このＲ／Ａビットがセットされている場合、ＧＰＲ
データが選択される。Ｒ／Ａビットがリセットされてい
る場合、リネーム・レジスタ・データが選択される。

【００７１】続くクロック・サイクルにて、データがラ
ッチ７２０からデータ・キュー７２２に転送される。適
切なデータ・アライメントを維持するために、タグを用
いて、データを受信するためのデータ・キュー７２２内
の適切なエントリを選択する。データ・キュー７２２内
のこのエントリは更に、実アドレス・キュー７１２内に
記憶される適切な実アドレスに対応する。これは次の例
に関連して詳述される。命令がＬＳＵ７０２によりタグ
識別子"０６"を割当てられると仮定しよう。更に、タグ
がＬＳＵ７０２から転送されるとき、第４のエントリが
タグ・キュー７０４内の次に使用可能なエントリと仮定
しよう。従って、タグ"０６"がＬＳＵ７０２によりタグ
・キュー７０４の第４のエントリに書込まれる。アドレ
ス変換の後、ＤＣＭＭＵ７２４が実アドレス・キュー７
１２にタグと一緒に、ストア命令により目標とされたキ
ャッシュ位置の実アドレスを転送する。ＬＳＵ制御論理
は、この実アドレスのタグを、タグ・キュー７０４に記
憶されるタグと比較する。比較はこの場合、タグ"０６"
が前述のように、タグ・キュー７０４の第４のエントリ
に記憶されていることを示す。従って、ＬＳＵ制御論理
は、タグ"０６"を割当てられたストア命令のための実ア
ドレスを、実アドレス・キュー７１２の第４のエントリ
に書込む。同様に、タグ"０６"を有するストア命令のデ
ータが、データ・キュー７２２に書込まれるとき、ＬＳ
Ｕ制御論理は最初にタグ・キュー７０４を走査し、タ
グ"０６"がその第４のエントリに記憶されていると判断
し、データをラッチ７２０からデータ・キュー７２２の
第４のエントリに書込む。もちろん、当業者であれば、
データ・アライメントを維持する他の技術も、設計上の
選択次第で、容易に適応可能であることが理解できよ
う。

【００７２】この時点で、前述の実施例の回路がパイプ
ライン化され、複数のストア命令のための実アドレス及
びデータが、それぞれ実アドレス・キュー７１２及びデ
ータ・キュー７２２内のエントリに待ち行列化されるこ
とが理解できよう。結果的に、完了時に、ストア命令が
ＧＰＲをアクセスする必要がない。代わりに、完了時、
適切なストア・キュー・エントリが完了とマークされ、
キャッシュにプログラム順序で転送される。要求データ
が適切なデータ・キュー・エントリから、実アドレス・
キュー７１２に記憶される対応するキャッシュ・アドレ
スと共にキャッシュに転送される。

【００７３】図１６及び図１７では、本発明の実施例の
動作を表すフローチャートが示される。ステップ１１０
２で、ストア命令がＬＳＵ論理にディスパッチされる。
解読された命令は、ストア命令に対して要求されるデー
タを有するアーキテクチャ・レジスタをソースとして指
定する。対応するＧＰＲエントリがこのデータに対して
まだ更新されていない場合、対応するリネーム・レジス
タ・ポインタが、前述のように、リネーム論理から獲得
される。フローは次にステップ１１０４に移行し、そこ
で命令が実行され、解読された命令データから有効アド
レスが生成される。同時に、タグもまたＬＳＵ制御論理
により生成される。ステップ１１０６で、有効アドレス
及びタグが、実アドレスの計算のために、データ・キャ
ッシュ・メモリ管理ユニット（ＤＣＭＭＵ）７２４に送
信される。ＤＣＭＭＵにより実アドレスが計算される
と、それがステップ１１０８で、タグと一緒にＬＳＵ制
御論理に戻される。ＬＳＵ制御論理は、ステップ１１１
０で、ＤＣＭＭＵからのタグをタグ・キュー７０４のタ
グと比較し、対応する実アドレス・キュー・エントリに
ＤＣＭＭＵからの実アドレスをロードする。換言する
と、特定のストア命令のタグが、第４のタグ・キュー・
エントリ内に記憶されている場合、ステップ１１１０
で、ＤＣＭＭＵからの実アドレスが、実アドレス・キュ
ー７１２の第４のエントリに記憶される。

【００７４】ステップ１１０４の完了後、プロセッサは
ステップ１１１２にも継続し、そこでタグ・キュー及び
ポインタ・キューに、ステップ１１０４で生成されたタ
グ及びアーキテクチャ／リネーム・ファイル・ポインタ
がそれぞれロードされる。通常、有効アドレス制御キュ
ー及び終了キューが、それぞれステップ１１１６及び１
１１８でロードされる。

【００７５】ステップ１１１４で、ＬＳＵ制御論理が、
関連ストア命令に対するストア・ポインタ・キュー・エ
ントリ内のＲ／Ａビットをチェックし、ストア命令によ
り要求されたデータがＧＰＲエントリ内に記憶されてい
るか否かを判断する。記憶されていない場合、システム
はステップ１１２０に移行し、要求データに対応するリ
ネーム・エントリが有効か否かをチェックする。ストア
命令により要求されたデータがＧＰＲエントリ内に存在
せず、有効でない場合、ステップ１１２２で、プロセッ
サはステップ１１２０にループして戻る。ステップ１１
２０で、リネーム・エントリ内のデータが有効な場合、
フローはステップ１１２４に移行し、ポインタ・キュー
からのリネーム・ポインタを用いて、リネーム・レジス
タ・ファイルが読出される。ステップ１１１４で、スト
ア命令により要求されたデータがＧＰＲエントリ内に存
在する場合、フローはステップ１１２６に移行し、対応
するＧＰＲレジスタ・ファイルが、ポインタ・キューか
らのＧＰＲポインタを用いて読出される。

【００７６】リネーム・レジスタ・ファイルまたはＧＰ
Ｒレジスタ・ファイルのいずれかを読出した後、フロー
はステップ１１２８に移行し、対応するリネーム／ＧＰ
Ｒレジスタ・ファイルが、対応するストア命令に対する
ポインタ・キューからのＲ／Ａビットにもとづき選択さ
れる。ポインタ・キュー及びタグ・キュー内のタグが比
較され、マルチプレクサからデータを受信する対応する
データ・キュー・エントリが決定される。関連ストア命
令のタグがタグ・キューの第４のエントリ内に存在する
場合、リネーム・レジスタ・ファイルまたはＧＰＲレジ
スタ・ファイルから読出されたデータは、データ・キュ
ー内の第４のエントリに書込まれる。同時に、ポインタ
・キュー・エントリがポインタ・キューから除去され
る。

【００７７】ステップ１１３０でデータがデータ・キュ
ー・エントリに書込まれると、プロセッサはステップ１
１３２に移行し、そこでストア命令が終了される準備が
整ったか否かが判断される。この動作のために、ＬＳＵ
論理が終了キュー・タグを走査し、それらのタグをタグ
・キュー内のタグと比較する。本発明の１バージョンで
は、１サイクル内に２つの下位の終了キュー・エントリ
だけが走査される。しかしながら、これは設計上の選択
の問題であり、より多くのまたは少ない終了キュー・エ
ントリが１サイクル内で走査されてもよい。特定の終了
キューからのタグがタグ・キュー内のタグと比較され、
終了キューから検索されたタグに対応するタグ・キュー
・エントリが決定される。終了キューからの特定のタグ
が第４のタグ・キュー・エントリ内で見い出されると、
プロセッサは有効アドレス制御キュー、実アドレス・キ
ュー及びデータ・キュー内の、対応する第４のエントリ
をチェックする。これらの対応するエントリの各々に対
して、プロセッサはステップ１１３４で、有効ビットが
セットされているか否かを判断する。セットされていな
い場合、プロセッサはステップ１１３２にループして戻
り、前述の３つのキューのそれぞれの対応するエントリ
に対して、有効ビットがセットされるまでステップ１１
３２及び１１３４を繰り返す。

【００７８】その後、フローはステップ１１３６に移行
し、有効アドレス制御キューからのＩＩＤを完了ユニッ
ト・キュー内の対応するＩＩＤと比較することにより、
ストア命令が完了される。同時に、対応する終了キュー
・エントリが除去される。ステップ１１３８で、プロセ
ッサは完了ユニットからの完了を待機する。完了時に、
対応するエントリは、プロセッサがデータをデータ・キ
ューからキャッシュ・メモリに転送する準備が整ったこ
とを示す、特定の制御ビットをセットされる。本発明の
この実施例では、データ・キューからキャッシュへのデ
ータの実際の転送は、プロセッサ上で発生し得る様々な
要因により、対応するストア命令が完了としてマークさ
れた後、複数サイクルを要し得る。ステップ１１４０
で、適切な有効アドレス制御キュー・エントリがそのＣ
ビットをセットすることにより、完了とマークされる。

【００７９】ステップ１１４２で、プロセッサはＤＣＭ
ＭＵに、実アドレス、有効アドレス、命令ＩＤ、及びデ
ータをデータ・キューからキャッシュに転送するために
必要とされる他の制御信号を送信する。最後に、ステッ
プ１１４４で、完了されたストア命令に対応するタグ・
キュー・エントリ、有効アドレス制御キュー・エント
リ、実アドレス・キュー・エントリ、データ・キュー・
エントリが、それらのそれぞれのキューから除去され、
続いてディスパッチされるストア命令のために空間を解
放する。

【００８０】図１８は、前述の実施例で述べられた回路
の動作を示すタイミング図である。図１８のタイミング
図について、図１及び図９に示されるプロセッサのブロ
ック図を参照しながら述べることにする。サイクル１
で、ストア命令が命令キャッシュ１４からディスパッチ
され、ディスパッチ・ユニット４６により解読される。
解読された命令は、次にロード／ストア・ユニット（Ｌ
ＳＵ）２８（図９では７０２）に転送される。サイクル
２の前半で、ＬＳＵ２８が命令の有効アドレス（ＥＡ）
を計算する。当業者であれば、メモリ・アドレス指定の
異なるモード、及び有効アドレスと実アドレスとの違い
について精通していることであろう。本発明は多数のメ
モリ・アドレス指定方式に容易に適用可能であり、それ
らのいずれかが設計上の選択により使用され得る。本発
明は、ＩＢＭ社から提供される"ＰｏｗｅｒＰＣ"プロセ
ッサ・ファミリにより採用されるメモリ・アドレス指定
方式に関して述べられる。こうしたメモリ・アドレス指
定モードは、市販の刊行物、例えばＩＢＭ社から提供さ
れる"PowerPC Microprocessor Family: The Programmin
g Environments"（発行番号MPRPPCFPE-01）で詳述され
ている。

【００８１】サイクル２ではまた、命令のタグがＬＳＵ
２８により生成される。有効アドレス及び命令タグがメ
モリ管理ユニット（ＤＣＭＭＵ）に転送され、サイクル
の終了時に実アドレスが計算される。

【００８２】サイクル３では、ポインタ・キュー７０６
及びタグ・キュー７０４が、ＬＳＵ２８により更新され
る。これらのキューに転送される情報については既に述
べた。また実アドレスが、データ・キャッシュ１６内の
メモリ管理ユニットから戻される。サイクル３では更
に、ＧＰＲがアクセスされる（ストア命令のデータがＧ
ＰＲ内に存在すると仮定する）。タイミング上の理由か
ら、このデータをデータ・キューに転送する前に、１サ
イクルの間ラッチすることが望ましい。従って、この実
施例では、ＬＳＵ制御論理がサイクル４でＦＸＵストア
有効信号を生成し、データをラッチ７２０にラッチす
る。

【００８３】サイクル４では、命令終了信号が生成され
る。前述のように、終了キューがストア命令を終了する
ために使用される。これは固有のストア・タグを含む。
終了キュー内の各エントリが走査されて、終了キュー・
エントリのタグがタグ・キュー内のタグと比較される。
対応するタグ・キュー・エントリの有効ビットがセット
されている場合、有効アドレス制御キューからの対応す
るＩＩＤが終了される。１実施例では、終了キューがポ
インタ・キューのように処理され、下位の２つのエント
リが走査される。しかしながら、前述のように、ストア
命令は非プログラム順序で終了され得る。終了信号は完
了ユニットに送信され、ストア命令が次に完了キュー内
で完了される命令となるとき、そのストア命令が完了さ
れ得ることを示す。

【００８４】サイクル５では、ストア命令データがラッ
チ７２０からデータ・キュー７２２に転送される。デー
タをデータ・キュー７２２内の適切なエントリに位置整
合する１つの好適な方法については既に述べた。この時
点すなわちサイクル５で、ストア命令は完了の準備が整
う。なぜなら、データがサイクル４で、すなわち命令が
終了されるサイクルで、マルチプレクサからロードされ
ているからである。

【００８５】完了ユニットは１サイクル内で、複数の命
令を完了できる。前述のように、完了は単に、ストア・
キュー内の４つのエントリを完了としてマークするだけ
であるが、これはこれらがデータ・キューに送信され得
ることを意味する。各エントリの完了ビットは、有効ア
ドレス制御キュー内に保持される。ＬＳＵはキャッシュ
が使用可能になると（すなわち、より高い優先順位の要
求により使用中でなければ）、最も古い完了済みストア
・キュー・エントリをキャッシュに送信する。

【００８６】以上から、当業者であれば、リネーム・レ
ジスタ・ファイル・データをアクセスすることにより、
密結合ループ内の複数のストア命令がより効率的に完了
され、それにより、完了バッファがフル状態であること
により引き起こされるディスパッチ停止の回数が低減さ
れることが明らかであろう。本発明は図示の実施例に従
い述べられたが、当業者であれば、本発明の趣旨及び範
囲内において、これらの実施例の変形が存在し得ること
が理解できよう。従って、本発明は４つのストア命令を
１度に完了する内容について述べられたが、当業者であ
れば、本発明の趣旨及び範囲内において、任意の数のス
トア命令が１度に完了され得ることが理解できよう。従
って、当業者によれば、本発明の趣旨及び範囲から逸脱
すること無しに、多くの変更が可能であろう。

【００８７】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００８８】（１）スーパスカラ・プロセッサでストア
命令を処理する方法であって、ディスパッチ・ユニット
からストア命令をディスパッチするステップと、前記ス
トア命令を実行し、前記ストア命令により目標とされる
データを記憶する実アドレス・メモリ位置、及び前記デ
ータを含むレジスタ・ファイル内のエントリを決定する
ステップと、前記ストア命令が完了する前に、前記デー
タを前記レジスタ・ファイル内の前記エントリからデー
タ・キューに転送するステップと、前記ストア命令の完
了時に、前記データを前記データ・キューからキャッシ
ュ・メモリに転送するステップとを含む、方法。（２）前記プロセッサが１クロック・サイクルの間に、
複数のストア・データを、前記データ・キュー内の複数
のエントリから、前記キャッシュ・メモリ内の対応する
位置に転送する、前記（１）記載の方法。（３）前記レジスタ・ファイルからのデータの転送が、
アーキテクチャ・レジスタ・ファイル及びリネーム・レ
ジスタ・ファイルからのデータを多重化するステップを
含む、前記（１）記載の方法。（４）命令ディスパッチ・ユニット、アーキテクチャ・
レジスタ・ファイル、リネーム・レジスタ・ファイル、
ロード／ストア・ユニット、完了ユニット及びキャッシ
ュ・メモリを有するスーパスカラ・プロセッサで、スト
ア命令を処理する装置であって、前記ストア命令に対応
するエントリを有し、前記エントリが前記ストア命令に
より要求されたデータを含む、前記アーキテクチャ・レ
ジスタ・ファイル及び前記リネーム・レジスタ・ファイ
ル内のエントリを指し示すポインタを含む、ポインタ・
キューと、前記アーキテクチャ・レジスタ・ファイル及
び前記リネーム・レジスタ・ファイル上の読出しポート
に接続され、データを前記レジスタ・ファイルの一方か
ら、前記キャッシュ・メモリに接続されるデータ・キュ
ー内のエントリに転送するマルチプレクサとを含む、装
置。（５）前記ポインタ・キュー内の前記エントリが、前記
ストア命令により要求されたデータが、前記アーキテク
チャ・レジスタ・ファイルまたは前記リネーム・レジス
タ・ファイル内の前記エントリに記憶されているか否か
を示すビットを含む、前記（４）記載の装置。（６）前記マルチプレクサの選択信号線が前記ビットに
応答する、前記（５）記載の装置。（７）前記ストア命令により要求されたデータが、前記
命令が完了される前の該命令の終了時に、前記マルチプ
レクサから前記データ・キュー内のエントリに転送され
る、前記（４）記載の装置。（８）前記ストア命令の完了時、前記命令により要求さ
れたデータが、前記データ・キュー内の前記エントリか
ら前記キャッシュ・メモリに転送される、前記（７）記
載の装置。（９）複数のストア命令からのデータが、１クロック・
サイクルの間に、前記データ・キューに転送される、前
記（８）記載の装置。（１０）前記ストア命令を一意的に識別するタグを含む
タグ・キューを含む、前記（４）記載の装置。

【図面の簡単な説明】

【図１】本発明に従うコンピュータ・システムのブロッ
ク図である。

【図２】処理システム内でストア命令を完了する従来の
システムを示す図である。

【図３】図２のデータ・フローの動作を示すタイミング
図である。

【図４】本発明に従い、単一のＬＳＵがＧＰＲ及びＦＰ
Ｒをアクセスし、複数のストア命令を完了するデータ・
フローの第１の実施例を示す図である。

【図５】本発明に従いストア命令を完了するデータ・フ
ローを示すフローチャートである。

【図６】図４のデータ・フローの動作を示すタイミング
図である。

【図７】本発明に従い、２個のＬＳＵがＧＰＲ及びＦＰ
Ｒをアクセスし、複数のストア命令を完了するデータ・
フローの第２の実施例を示す図である。

【図８】図７のデータ・フローの動作を示すタイミング
図である。

【図９】ＧＰＲ、ＦＰＲ及びリネームをアクセスする、
本発明の実施例に従うプロセッサのブロック図である。

【図１０】図９のプロセッサ内で示される実施例におい
て使用されるデータ・キューの論理内容を示す図であ
る。

【図１１】図９のプロセッサ内で示される実施例におい
て使用されるタグ・キューの論理内容を示す図である。

【図１２】図９のプロセッサ内で示される実施例におい
て使用されるストア・ポインタ・キューの論理内容を示
す図である。

【図１３】図９のプロセッサ内で示される実施例におい
て使用される終了キューの論理内容を示す図である。

【図１４】図９のプロセッサ内で示される実施例におい
て使用される有効アドレス制御キューの論理内容を示す
図である。

【図１５】図９のプロセッサ内で示される実施例におい
て使用される実アドレス（ＲＡ）・キューの論理内容を
示す図である。

【図１６】本発明の実施例に従うプロセッサの動作を示
すフローチャートである。

【図１７】本発明の実施例に従うプロセッサの動作を示
すフローチャートである。

【図１８】本発明の実施例に従うプロセッサのタイミン
グ図である。

【符号の説明】

１０プロセッサ１１システム・バス１２バス・インタフェース・ユニット１４、１０４命令キャッシュ１６、１２２データ・キャッシュ１８シーケンサ・ユニット２０分岐ユニット２２固定小数点ユニットＡ（ＦＸＵＡ）２４固定小数点ユニットＢ（ＦＸＵＢ）２６複合固定小数点ユニット（ＣＦＸＵ）２８ロード／ストア・ユニット（ＬＳＵ）３０浮動小数点ユニット（ＦＰＵ）３２汎用レジスタ（ＧＰＲ）３４固定小数点リネーム・バッファ３６浮動小数点レジスタ（ＦＰＲ）３８浮動小数点リネーム・バッファ３９システム・メモリ４０特殊目的レジスタ（ＳＰＲ）４２キャリー・ビット（ＣＡ）・レジスタ４６ディスパッチ・ユニット４８完了ユニット７０２ロード／ストア・ユニット（ＬＳＵ）７０４タグ・キュー（ＴＡＧＱ）７０６ポインタ・キュー（ＰＴＲＱ）７０８有効アドレス制御キュー（ＥＡ／ＣＮＴＬＱ）７１０終了キュー（ＦＩＮＱ）７１２実アドレス・キュー（ＲＡＱ）７１４ＧＰＲ７１６リネーム・レジスタ・ファイル７１８マルチプレクサ（ＭＵＸ）７２０ラッチ７２２データ・キュー（ＤＡＴＡＱ）

───────────────────────────────────────────────────── フロントページの続き (72)発明者ジム・イー・フィリップスアメリカ合衆国78681、テキサス州ラウンド・ロック、レーン、ピン・オーク 1602 (72)発明者ディキュー・ニューイェンアメリカ合衆国78728、テキサス州オースティン、ウェルドン・レーン 14308

Claims

【特許請求の範囲】

【請求項１】スーパスカラ・プロセッサでストア命令を
処理する方法であって、ディスパッチ・ユニットからストア命令をディスパッチ
するステップと、前記ストア命令を実行し、前記ストア命令により目標と
されるデータを記憶する実アドレス・メモリ位置、及び
前記データを含むレジスタ・ファイル内のエントリを決
定するステップと、前記ストア命令が完了する前に、前記データを前記レジ
スタ・ファイル内の前記エントリからデータ・キューに
転送するステップと、前記ストア命令の完了時に、前記データを前記データ・
キューからキャッシュ・メモリに転送するステップとを
含む、方法。
【請求項２】前記プロセッサが１クロック・サイクルの
間に、複数のストア・データを、前記データ・キュー内
の複数のエントリから、前記キャッシュ・メモリ内の対
応する位置に転送する、請求項１記載の方法。
【請求項３】前記レジスタ・ファイルからのデータの転
送が、アーキテクチャ・レジスタ・ファイル及びリネー
ム・レジスタ・ファイルからのデータを多重化するステ
ップを含む、請求項１記載の方法。
【請求項４】命令ディスパッチ・ユニット、アーキテク
チャ・レジスタ・ファイル、リネーム・レジスタ・ファ
イル、ロード／ストア・ユニット、完了ユニット及びキ
ャッシュ・メモリを有するスーパスカラ・プロセッサ
で、ストア命令を処理する装置であって、前記ストア命令に対応するエントリを有し、前記エント
リが前記ストア命令により要求されたデータを含む、前
記アーキテクチャ・レジスタ・ファイル及び前記リネー
ム・レジスタ・ファイル内のエントリを指し示すポイン
タを含む、ポインタ・キューと、前記アーキテクチャ・レジスタ・ファイル及び前記リネ
ーム・レジスタ・ファイル上の読出しポートに接続さ
れ、データを前記レジスタ・ファイルの一方から、前記
キャッシュ・メモリに接続されるデータ・キュー内のエ
ントリに転送するマルチプレクサとを含む、装置。
【請求項５】前記ポインタ・キュー内の前記エントリ
が、前記ストア命令により要求されたデータが、前記ア
ーキテクチャ・レジスタ・ファイルまたは前記リネーム
・レジスタ・ファイル内の前記エントリに記憶されてい
るか否かを示すビットを含む、請求項４記載の装置。
【請求項６】前記マルチプレクサの選択信号線が前記ビ
ットに応答する、請求項５記載の装置。
【請求項７】前記ストア命令により要求されたデータ
が、前記命令が完了される前の該命令の終了時に、前記
マルチプレクサから前記データ・キュー内のエントリに
転送される、請求項４記載の装置。
【請求項８】前記ストア命令の完了時、前記命令により
要求されたデータが、前記データ・キュー内の前記エン
トリから前記キャッシュ・メモリに転送される、請求項
７記載の装置。
【請求項９】複数のストア命令からのデータが、１クロ
ック・サイクルの間に、前記データ・キューに転送され
る、請求項８記載の装置。
【請求項１０】前記ストア命令を一意的に識別するタグ
を含むタグ・キューを含む、請求項４記載の装置。