JPH10154073A

JPH10154073A - データ依存性を管理する装置及び方法

Info

Publication number: JPH10154073A
Application number: JP9294604A
Authority: JP
Inventors: M Potter Terence; テレンス・エム・ポッター; Y Kikuta Betty; ベティ・ワイ・キクタ
Original assignee: International Business Machines Corp; Motorola Inc
Current assignee: International Business Machines Corp; Motorola Solutions Inc
Priority date: 1996-11-13
Filing date: 1997-10-27
Publication date: 1998-06-09
Also published as: GB2320776A; GB9721646D0; US5872949A; GB2320776B

Abstract

(57)【要約】【課題】プロセッサが非プログラム順序に命令を完了
し、関連データをアーキテクチャ論理レジスタに書込め
るように、データ・フロー依存性を管理する装置及び方
法を提供する。【解決手段】本発明はプロセッサのコミッション帯域
幅を増加し、命令がデータを生成する以前に、完了ステ
ージを通過することを可能にすることにより、より大き
なプロセッサ・スループットを可能にする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明はコンピュータ・シス
テム及び方法に関し、特に、スーパスカラ・マイクロプ
ロセッサにおけるデータ依存性処理の改善に関する。

【０００２】

【従来の技術】単位時間当たり、できるだけ多くの命令
を実行することが、マイクロプロセッサの設計の目標で
ある。この目標は、命令シーケンスから複数の命令を並
列に、非プログラム順序に処理することにより推進さ
れ、スピード効率が獲得される。この能力を有するプロ
セッサは、スーパスカラ・マイクロプロセッサとして知
られる。

【０００３】命令シーケンスは通常、プログラマにより
生成される命令を含み、これらはオペランドに対して実
行される操作を指定し、また結果を記憶するアーキテク
チャ論理レジスタを指定する。オペランド自体は、特定
のアーキテクチャ論理レジスタの内容または定数として
指定され得る。命令シーケンスにとってデータ及び制御
依存性は固有である。例えば、後の命令が前の命令によ
り生成されたデータに依存し得る。従って、命令シーケ
ンスを非プログラム順序に実行するために、データ及び
制御依存性が管理されなければならない。さもないと、
不正な結果が生成され得る。

【０００４】命令シーケンス内の分岐命令、または例外
または割込みを発生する他の命令の場合、プロセッサは
命令シーケンス内の所与の場所において、スーパスカラ
・プロセッサの正しい"マシン状態"を判断できなければ
ならない。マシン状態は、アーキテクチャ論理レジスタ
を含むソフトウェア・プログラマに対して定義される全
てのレジスタの状態である。次にプログラム・シーケン
ス内の例外を表す例を示すことにする。ここでプログラ
ム・シーケンス内において、例外を発生する命令よりも
後に位置する命令が最初に実行され、データをレジスタ
に書込んだものと仮定する。書込まれたデータは有効で
はない。なぜなら、プロセッサのマシン状態が、プログ
ラム・シーケンス内の例外より以前の命令にもとづき、
決定されなければならないからである。従って、例外の
後の全ての命令により生成されたデータが無視されなけ
ればならず、全てのアーキテクチャ論理レジスタの状態
が決定されなければならない。

【０００５】従来のマイクロプロセッサでは、データ及
び命令シーケンスの制御フローの保全性は、命令をプロ
グラム順序に完了することにより、命令の非プログラム
順序の実行の間に維持された。命令からの結果がリネー
ム・レジスタに一時的に記憶され、続いて結果が固定の
アーキテクチャ論理レジスタにプログラム順序に書戻さ
れた。従って、固定のアーキテクチャ論理レジスタが常
にプロセッサの正しいマシン状態を含んだ。

【０００６】命令をプログラム順序に完了しなければな
らない結果、その実行に複数のサイクルを要する命令
が、命令完了ステージにおいてボトルネックを生じるこ
とになる。複数サイクル命令が完了するまで、続く命令
が完了またはデータを書込むことができない。複数サイ
クル命令が実行されるのに要するサイクル数に依存し
て、このボトルネックはプロセッサが新たな命令をフェ
ッチし、処理することを阻み、従ってプロセッサのスル
ープットを低下し得る。

【０００７】命令がプログラム順序に完了することに関
わるボトルネック問題を回避するために、制御フロー依
存性を処理する分散機構が、係属中の米国特許出願第３
７７８１３号（１９９５年１月２５日出願）で開示され
ている。データの依存性がこの開示において明かされて
おり、これは命令結果が非プログラム順序に書込まれる
ことを可能にするために、またプロセッサの正しいマシ
ン状態を維持するためにも、管理されなければならな
い。

【０００８】

【発明が解決しようとする課題】本発明は、プロセッサ
が非プログラム順序に命令を完了し、関連データをアー
キテクチャ論理レジスタに書込むことができるように、
データ・フロー依存性を管理する装置及び方法を紹介す
る。これは命令がデータを生成する以前に、完了ステー
ジを通過することを可能にすることにより、プロセッサ
のコミッション帯域幅を増加し、より大きなプロセッサ
・スループットを可能にする。

【０００９】

【課題を解決するための手段】本発明は、命令列の非プ
ログラム順序の実行に起因するデータ・フロー依存性を
管理する装置及び方法を含む。これは、命令列の実行の
間に生成される結果を記憶する複数の物理リネーム・レ
ジスタを含む。

【００１０】ルックアヘッド状態バッファが、物理リネ
ーム・レジスタのアドレスを記憶するために使用され、
従って、命令列内で指定されるアーキテクチャ論理レジ
スタへの現割当てを示す。

【００１１】状態履歴バッファがルックアヘッド状態バ
ッファに結合され、ルックアヘッド状態バッファ内で、
アーキテクチャ論理レジスタの各々に成功裡に割当てら
れる物理リネーム・レジスタのアドレスの複数のリンク
・リストを記憶する。状態履歴バッファは更に、各物理
リネーム・レジスタ内のデータの状態を示す変更可能な
ステータス・ビットを有する。

【００１２】

【発明の実施の形態】図１は、従来の複数実行ユニット
・プロセッサの全体機能ブロック図を示す。こうしたア
ーキテクチャを有するコンピュータの例は、"パワーＰ
Ｃ（商標）６０３"であり、これについてはIBM Microel
ectronics社及びMotorola社から発行される"PowerPC 60
3 RISC Microprocessor User's Manual"（発行番号ＭＰ
Ｃ６０３ＵＭ／ＡＤ、著作権１９９４）で述べられてい
る。スーパスカラ・プロセッサ１０は命令ユニット部分
を含み、これには順次フェッチャ１７、分岐処理ユニッ
ト１８、命令キュー１９、ディスパッチ・ユニット２
０、及び命令キャッシュ及びメモリ管理ユニット（ＭＭ
Ｕ）１４が含まれる。命令キャッシュ及びＭＭＵ１４は
バス・インタフェース・ユニット１２に結合され、これ
は外部バス１１に結合される。命令ユニット部分は、命
令フローの集中化制御を実行ユニットに提供する。

【００１３】実行ユニットは複数の固定小数点演算ユニ
ット２２、汎用レジスタ・ファイル３２、ロード／スト
ア・ユニット２８、浮動小数点レジスタ・ファイル３
６、及び浮動小数点演算ユニット３０を含む。

【００１４】データ・キャッシュ及びメモリ管理ユニッ
ト（ＭＭＵ）１６がロード／ストア・ユニット２８に結
合され、またバス・インタフェース・ユニット１２にも
結合される。

【００１５】固定小数点演算ユニット２２は整数命令を
並列に実行する。一部の整数命令は１サイクルで実行さ
れるが、他の整数命令はその完了に複数のプロセッサ・
クロック・サイクルを要求する。

【００１６】ＧＰＲリネーム・バッファ３３はＧＰＲフ
ァイル３２に関連して、またＦＰＲリネーム・レジスタ
３７は浮動小数点レジスタ・ファイル３６に関連して、
図１に示される。

【００１７】順次フェッチャ１７は命令キャッシュ１４
から命令をフェッチし、それらを命令キュー１９に配置
する。分岐処理ユニット１８は順次フェッチャ１７から
分岐命令を抽出し、未解決の条件付き分岐命令に対する
静的分岐予測により、予測ターゲット命令ストリームか
ら命令のフェッチを可能にする。その間、条件付き分岐
が評価される。浮動小数点演算ユニット３０、固定小数
点演算ユニット２２、及びロード／ストア・ユニット２
８により実行される命令は、ディスパッチ・ユニット２
０によりディスパッチされる。

【００１８】命令キュー１９は命令を後のディスパッチ
のために保持する。順次フェッチャ１７は、命令キュー
１９内で空間が許容する限り多くの命令を、連続的にロ
ードする。命令はディスパッチ・ユニット２０から、そ
れらのそれぞれの実行ユニットにディスパッチされる。
通常のディスパッチ・レートは、１サイクル当たり２ま
たは４命令である。ディスパッチ・ユニット２０は出所
及び宛先レジスタ依存性チェックを実行し、ディスパッ
チ直列化を決定し、要求時に命令のディスパッチを禁止
する。ほとんどの整数命令は単一サイクル命令である。
ＧＰＲレジスタ３２に対する競合による機能停止が、リ
ネーム・レジスタ３３の自動割当てにより最小化され
る。システムは整数命令が完了ユニット４０により退去
されるとき、リネーム・レジスタ３３の内容を適切なＧ
ＰＲレジスタ３２に書込む。

【００１９】ロード／ストア・ユニット（ＬＳＵ）２８
は、全てのロード／ストア命令を実行し、ＧＰＲ３２、
ＦＰＲ３６、及びキャッシュ／メモリ・サブシステム１
４及び１６の間のデータ転送インタフェースを提供す
る。ロード／ストア・ユニット２８は有効アドレスを計
算し、データ・アライメントを実行し、ロード／ストア
・ストリング及び複数の命令の順序付けを提供する。

【００２０】完了ユニット４０は、ディスパッチ・ユニ
ット２０による命令のディスパッチから、固定小数点演
算ユニット２２などのそれぞれの実行ユニットによる実
行を通じて、命令を追跡する。完了ユニットは次に命令
をプログラム順序に退去するか、それらを完了する。

【００２１】図１に示される複数実行ユニット並列処理
システムは、パイプライン式スーパスカラ・プロセッサ
であり、そこでは命令の処理が別個のステージに低減さ
れる。命令の処理が一連のステージに分解されるので、
命令は浮動小数点演算ユニット２２などの実行ユニット
の資源全体を要求しない。例えば、命令が復号ステージ
を完了後、次のステージに渡され、その間に続く命令が
復号ステージに進行し得る。このことは命令フローのス
ループットを改善する。

【００２２】命令パイプラインは４つの主要なパイプラ
イン・ステージを有する。フェッチ・パイプラインは主
に命令をメモリ・システムから取り出し、次の命令フェ
ッチの位置を決定する。更に、分岐処理ユニットはフェ
ッチ・ステージの間に、分岐を復号する。ディスパッチ
・パイプライン・ステージは、命令フェッチ・ステージ
により供給された命令を復号し、現サイクルにおいてデ
ィスパッチされる資格のある命令を決定する。更に、命
令のソース・オペランドが適切なレジスタ・ファイルか
ら読出され、命令と一緒に実行パイプライン・ステージ
にディスパッチされる。ディスパッチ・パイプライン・
ステージの最後に、ディスパッチ命令及びオペランドが
適切な実行ユニットによりラッチされる。

【００２３】実行パイプライン・ステージの間、実行可
能な命令を有する各実行ユニットは、選択された命令を
実行し、命令の結果を適切なリネーム・レジスタに書込
み、完了ステージ４０に、命令が実行を終了したことを
知らせる。完了／書戻しパイプライン・ステージは、命
令がプログラム順序に退去されるように、リネーム・レ
ジスタの内容をＧＰＲ及びＦＰＲに書戻すことにより、
正しいアーキテクチャ・マシン状態を保持する。

【００２４】図２は、本発明に従うスーパスカラ・マイ
クロプロセッサの機能ブロック図を示す。ディスパッチ
・ユニット２０がルックアヘッド状態バッファ２１に結
合され、後者は状態履歴バッファ２３に結合される。状
態履歴バッファ２３はルックアヘッド状態バッファ２
１、結果バス６６及び完了ユニット４０に結合される。

【００２５】ルックアヘッド状態バッファ２１はルック
アヘッド・レジスタのセットを含み、各レジスタは、コ
ンピュータ・プログラマに定義されるアーキテクチャ論
理レジスタに対応する。ルックアヘッド・レジスタの各
々は、物理リネーム・レジスタ３９のアドレスを記憶
し、これはアーキテクチャ論理レジスタの値の最も現在
の位置を示す。

【００２６】状態履歴バッファ２３は、スーパスカラ・
プロセッサ１０のマシン状態を追跡する。これは状態履
歴レジスタのセットを含み、各状態履歴レジスタは、汎
用レジスタ３２及び浮動小数点レジスタ３６内の物理リ
ネーム・レジスタの１つに対応する。状態履歴バッファ
２３はそのレジスタ・セットを用いて、命令処理の間
に、各アーキテクチャ論理レジスタにされる物理リネー
ム・レジスタの割当てのリンク・リストのセットを記憶
する。更に、状態履歴バッファ２３は、レジスタ・セッ
ト内の各物理リネーム・レジスタのステータスを示すス
テータス・ビットまたはフラグ５２を含む。これらのス
テータス・ビット５２はマイクロプロセッサ１０の他の
ユニットに、物理リネーム・レジスタ３９が"コミット"
値を含むことを示す。コミットは、係属中の米国特許出
願第３７７８１３号（１９９５年１月２５日出願）にお
いて定義され、ここでは命令が実行されることが保証さ
れる前のポイントを意味するように定義される。ステー
タス・ビット５２は更に、物理リネーム・レジスタ３９
がフリー（解放）状態であり、従ってアーキテクチャ論
理レジスタを表すために割当てられ得る時を示す。ステ
ータス・ビット５２はまた、物理リネーム・レジスタ３
９が書込まれ、従って有効な結果を含む時を示す。

【００２７】図１の従来のマイクロプロセッサ１０の場
合同様、ディスパッチ・ユニット２０は命令を使用可能
な実行ユニットにディスパッチする。しかしながら、命
令が結果が記憶されるアーキテクチャ論理レジスタを指
定するとき、ディスパッチ・ユニット２０は状態履歴バ
ッファ２３のステータス・ビット５２をチェックし、ど
の物理リネーム・バッファ３９が割当てのために使用可
能かを判断する。ディスパッチ・ユニット２０は、状態
履歴バッファのステータス・ビット５２を更新すること
により、物理リネーム・バッファ３９を割当て、物理リ
ネーム・レジスタ３９のアドレスをルックアヘッド状態
バッファ２１に記憶することにより、現アーキテクチャ
・レジスタと物理リネーム・レジスタとの対応を示し、
命令を実行のために実行ユニットにディスパッチし、現
物理リネーム・レジスタ３９のアドレスを、同じアーキ
テクチャ論理レジスタの以前の値に対応する以前の物理
リネーム・レジスタ３９の位置に記憶する。この後者の
ステップは、アーキテクチャ論理レジスタの各々に対応
して、状態履歴バッファ内に物理リネーム・レジスタ３
９のリンク・リストのセットを生成する。

【００２８】実行ユニットは、図１の従来のマイクロプ
ロセッサ１０の場合同様、ディスパッチ・ユニット２０
から受信される命令を実行する。しかしながら、実行ユ
ニットが結果を生成する命令の実行を終了するとき、そ
の結果が、ディスパッチ・ユニット２０により命令に割
当てられる物理リネーム・レジスタ３９に書戻される。
更に、実行ユニットは、状態履歴バッファ２３のステー
タス・ビット５２を更新することにより、結果が対応す
る物理リネーム・レジスタ３９に丁度書込まれたことを
示す。

【００２９】図２の完了ユニット４０は、図１に示され
る従来の完了ユニット４０とは大いに異なって振る舞
う。命令をプログラム順序に完了するのではなく、図２
の完了ユニット４０は、前記米国特許出願第３７７８１
３号で詳述されるように、各命令がディスパッチされた
後に、その命令の制御フロー依存性を追跡する。命令が
実行されるように保証され、その全ての制御依存性を認
めると、命令はマシン状態を"コミット"されると言われ
る。命令がコミットされると、完了ユニット４０は状態
履歴バッファ２３のステータス・ビット５２を更新す
る。特に、コミットされた命令からの結果を記憶するた
めに割当てられる物理リネーム・バッファ３９が、デー
タが既に命令から生成されたか否かに関わらず、コミッ
ト済みとマークされる。従って、命令が非プログラム順
序に完了ユニット４０によりコミットされ、実際、一部
のケースでは、データが物理リネーム・レジスタ３９に
書込まれる以前にコミットされる。

【００３０】物理リネーム・レジスタ３９が状態履歴バ
ッファ２３内でコミット済みとマークされると、同一の
アーキテクチャ論理レジスタに対応し、コミット済みの
エントリに先行する全ての物理リネーム・レジスタ３９
が、プロセッサのマシン状態として不要となる。従っ
て、これらの物理リネーム・レジスタ３９は体系的に上
書きされた。

【００３１】物理リネーム・レジスタ３９が陳腐化し、
もはや任意の命令により参照されなくなると、これは割
当て解除され、別の命令にとって使用可能になる。これ
は単純な（高頻度の）制御論理により計算され得る。す
なわち、３ビット状態マシンが、状態履歴バッファ内の
各レジスタのステータス・ビット５２に関連づけられ
る。各状態履歴レジスタは、割当て、陳腐化及び書戻し
ステータス・ビット５２を割当てられる。３つの全ての
ビットがセットされる場合、対応する物理リネーム・レ
ジスタ３９が書込みのために解放されたことを示すよう
に、全３ビットがリセットされるべきである。割当てビ
ットがセットされる場合、対応する物理リネーム・レジ
スタ３９が書込みのために使用可能である。書戻しビッ
トがセットされる場合、対応する物理リネーム・レジス
タ３９が、実行ユニットにより生成された有効データを
含む。状態履歴バッファ２３内のリンク・リストを追跡
することにより決定される、命令の後の例がコミットさ
れた時、及び対応する物理レジスタ３９が任意の他の命
令によりオペランドとして要求されない場合、陳腐化ビ
ットがセットされる。

【００３２】図３乃至図８は、マイクロプロセッサの部
分拡大図であり、ディスパッチ・ユニット２０、汎用レ
ジスタ３２、完了ユニット４０、複数の固定小数点演算
ユニット２２、ルックアヘッド状態バッファ２１、及び
関連制御論理５０の間の対話の例を示す。実施例の目的
上、プロセッサはプログラマにより、整数データを記憶
するために、４つのアーキテクチャ論理レジスタを有す
るように定義されている。これらのアーキテクチャ論理
レジスタはプログラマに、Ｒ０乃至Ｒ３として知られ
る。汎用レジスタ３２はこの機能をＰ０乃至Ｐ７と指定
される８つの物理リネーム・レジスタ３９により実現す
る。物理リネーム・レジスタ３９の４つは、任意の時刻
に、プロセッサのマシン状態、すなわちアーキテクチャ
論理レジスタのコミット値を含む。各タイプのレジスタ
の数の選択は任意である。しかしながら、物理リネーム
・レジスタ３９はアーキテクチャ論理レジスタの数を上
回らなければならない。ルックアヘッド状態バッファ２
１は４つのレジスタのセットを含み、各々は１つのアー
キテクチャ論理レジスタに対応し、物理リネーム・レジ
スタ３９の１つを示すアドレスを記憶する。状態履歴バ
ッファ２３は８つの状態履歴レジスタ、及び対応するス
テータス・ビット５２を含む。８つの状態履歴レジスタ
は、物理リネーム・レジスタ３９のアドレスのリンク・
リストを含み、これは各アーキテクチャ論理レジスタの
リネーム履歴に対応する。

【００３３】図示のように、命令キュー１９内のディス
パッチ・ユニット２０は、マイクロプロセッサにより実
行される６ラインのプログラムである。このプログラム
は命令がディスパッチされ、連続サイクルにおいて実行
される時の、図示の要素間の対話を表すために使用され
る。この例は、浮動小数点演算ユニット３０を含む図示
されない他の実行ユニットにも同様に当てはまる。

【００３４】サイクル０：プロセッサの初期状態図３はこの例におけるサイクル０を示す。プログラム・
シーケンス内の命令は、まだディスパッチされていな
い。プロセッサの初期状態がルックアヘッド状態バッフ
ァ２１により示され、これはアーキテクチャ論理レジス
タＲ０乃至Ｒ３が、それぞれ物理リネーム・レジスタＰ
０乃至Ｐ３のアドレスに記憶される値を有することを示
している。状態履歴バッファはステータス・ビット５２
を介して、物理リネーム・レジスタＰ０乃至Ｐ３が書込
み済みのエントリ、従って有効データを含むことを示
す。

【００３５】サイクル１：ａｄｄｉ命令がディスパッチ
される図４はサイクル１を示す。加算命令がディスパッチ・ユ
ニット２０から実行ユニットにディスパッチされ、Ｒ３
がアーキテクチャ論理レジスタにリネームされる。なぜ
なら、これはこの命令からの結果のターゲットであるか
らである。第１の使用可能な物理リネーム・レジスタＰ
４が、リネーム操作のために使用される。しかしなが
ら、Ｐ４の選択は任意であることに注意されたい。任意
のレジスタＰ４乃至Ｐ７が使用され得る。Ｐ４は状態履
歴バッファ内のＰ４に対応する"フリー"・レジスタを示
すステータス・ビットにもとづき、ディスパッチ・ユニ
ット２０により選択される。ディスパッチ・ユニットは
Ｐ４に対応するステータス・ビット５２を割当て状態に
セットし、以前の有効アドレスＰ３（ルックアヘッド状
態バッファ２１から読出される）を、状態履歴バッファ
２３内の位置Ｐ４のアドレス・フィールドに記憶する。

【００３６】この時、実行ユニットにディスパッチされ
る加算命令のこの例は、元のａｄｄｉＲ３＜＝Ｐ１＋
０ｘ００００にもとづき、ａｄｄｉＰ４＜＝Ｐ１＋０
ｘ００００となる。

【００３７】サイクル２：ｃｍｐ及びａｄｄｉ命令がデ
ィスパッチされる図５はプロセッサのサイクル２を示す。２つの命令ｃｍ
ｐ及びａｄｄｉ命令が、多様な実行ユニットに実行のた
めにディスパッチされる。ｃｍｐ命令をディスパッチす
るとき、ディスパッチ・ユニットはアーキテクチャ論理
レジスタＲ３及びＲ１にそれぞれ割当てられる現物理リ
ネーム・レジスタ３９を割当てる。ディスパッチされる
比較命令は、もとのｃｍｐＣＲ［２］＜＝Ｒ３、Ｒ１
にもとづき、ｃｍｐＣＲ［２］＜＝Ｐ４、Ｐ１とな
る。

【００３８】ａｄｄｉ命令は、命令の結果を記憶するた
めに、再度ターゲットアーキテクチャ論理レジスタＲ３
を指定する。従って、ディスパッチ・ユニット２０は、
アーキテクチャ論理レジスタＲ３に割当てられた現物理
リネーム・レジスタＰ４をリネームする。状態履歴バッ
ファ２３のステータス・ビット５２が、第１のフリーの
物理リネーム・レジスタ３９としてチェックされ、Ｐ５
がこれに相当する。従って、Ｐ５がディスパッチ・ユニ
ット２０により、アーキテクチャ論理レジスタＲ３をリ
ネームするために使用される。Ｐ５がルックアヘッド状
態バッファ２１の位置Ｒ３に記憶され、Ｐ４が状態履歴
バッファ２３の位置Ｐ５に記憶され、アーキテクチャ論
理レジスタＲ３に以前に割当てられた物理リネーム・レ
ジスタ３９のリンク・リストを生成する。更に、ディス
パッチ・ユニット２０はＰ５に対応する状態履歴バッフ
ァ２３内のステータス・ビット５２を更新し、物理リネ
ーム・レジスタＰ５が割当てられたことを示す。この
時、ディスパッチされるａｄｄｉ命令は、もとのａｄｄ
ｉＲ３＜＝Ｒ２＋０ｘ００００にもとづき、ａｄｄｉ
Ｐ５＜＝Ｐ２＋０ｘ００００となる。

【００３９】このサイクルではまた、完了ユニット４０
が、ａｄｄｉが完了し、マシン状態をコミットされ得る
ことを信号で知らせる。ここでａｄｄｉがまだ結果を生
成していない点に注意されたい。

【００４０】サイクル３：ｂｎｅ及びｂｌｔ命令がディ
スパッチされるサイクル３が図６に示される。ｂｎｅ及びｂｌｔ命令
は、ルックアヘッド状態バッファまたは状態履歴バッフ
ァには、直接的な影響を及ぼさない。この例では、分岐
処理ユニット１８がｂｌｔ分岐が位置"START"に戻るよ
うに発生することを予測している。従って、位置START
におけるａｄｄｉ命令及び続く命令が、命令キューに入
力していることが明らかである。単純化のため、ここで
は分岐が正しく予測され、命令キュー１９内の命令シー
ケンスが実行され続けるものと仮定する。しかしなが
ら、位置EXITにおけるｌｗ命令はディスパッチされな
い。なぜなら、プログラム分岐がそれ以前に発生したか
らである。

【００４１】このサイクルの間、状態履歴バッファ２３
に関連付けられる制御論理が、Ｐ４がこのサイクルでコ
ミットされ、従ってアーキテクチャ論理レジスタＲ３の
以前の例が陳腐化したことを検出する。従って、Ｐ４の
ステータス・ビット５２はフリー状態にセットされ、Ｐ
４はもはや有効な前任者を有さない。ａｄｄｉ命令はま
た、その結果をこのサイクルの間に物理リネーム・レジ
スタＰ４に書込む。従って、利用される実行ユニット
が、状態履歴バッファ内のＰ４のステータス・ビット５
２を、書込み済みにセットする。

【００４２】サイクル４：ａｄｄｉ、ｃｍｐ及びａｄｄ
ｉ命令がディスパッチされるサイクル４が図７に示される。このサイクルの間、２つ
のａｄｄｉ命令及び１つのｃｍｐ命令が、同時実行のた
めに多様な実行ユニットに並列にディスパッチされる。
ａｄｄｉ命令の各々は、アーキテクチャ論理レジスタＲ
３の結果を生成し、ｃｍｐ命令はアーキテクチャ論理レ
ジスタＲ３の内容をオペランドとして使用する。ディス
パッチ・ユニット２０は、並列にディスパッチされる命
令間の依存性を説明しなければならない。これに関する
周知の方法が存在する。

【００４３】プルグラム・シーケンス内の第１のａｄｄ
ｉ命令は、ターゲットアーキテクチャ論理レジスタを現
物理リネーム・レジスタＰ５から、フリー状態の第１の
使用可能なリネーム・レジスタＰ３にリネームする。デ
ィスパッチ・ユニットが旧物理リネーム・レジスタ・ア
ドレスＰ５を、状態履歴バッファ内の新たな物理リネー
ム・レジスタＰ３の位置に記憶する。更に、ディスパッ
チ・ユニットは、状態履歴バッファ内の新たな物理リネ
ーム・レジスタ位置のステータス・ビット５２を割当て
状態に更新する。第１のａｄｄｉ命令が実行ユニットに
ディスパッチされ、これはもとのａｄｄｉＲ３＜＝Ｒ
１＋０ｘ００００にもとづき、ａｄｄｉＰ３＜＝Ｐ１＋
０ｘ００００となる。

【００４４】命令シーケンス内の次の命令ｃｍｐは、結
果を記憶するために、アーキテクチャ論理レジスタＲ０
乃至Ｒ３の１つを要求しない。しかしながら、ｃｍｐは
オペランドのためにアーキテクチャ論理レジスタを要求
する。従って、命令内のオペランドが、現在ルックアヘ
ッド状態バッファ２１内に示され必要とされるアーキテ
クチャ論理レジスタを表す、物理リネーム・レジスタに
リネームされる。それ故、ｃｍｐ命令が実行ユニットに
ディスパッチされるとき、これはもとのｃｍｐＣＲ
［２］＜＝Ｒ３、Ｒ１にもとづき、ｃｍｐＣＲ［２］
＜＝Ｐ３、Ｐ１となる。

【００４５】多様な実行ユニットに同時にディスパッチ
される３つの命令のシーケンス内の最後の命令は、ａｄ
ｄｉ命令である。この命令はアーキテクチャ論理レジス
タＲ３が命令結果を記憶することを要求する。ディスパ
ッチ・ユニット２０はアーキテクチャ論理レジスタＲ３
を、第１の使用可能な物理リネーム・レジスタ３９によ
りリネームする。これは状態履歴バッファ２３内のステ
ータス・ビットにもとづきＰ６に決定される。Ｐ６のア
ドレスがルックアヘッド状態バッファ２１に記憶され
る。更に、アーキテクチャ論理レジスタＲ３に割当てら
れた以前の物理リネーム・レジスタのアドレス、すなわ
ちＰ３が状態履歴バッファ２３の位置Ｐ６に記憶され
る。従って、アーキテクチャ論理レジスタＲ３に対応す
る物理リネーム・レジスタ３９のリンク・リストが、状
態履歴バッファ２３に記憶される。ディスパッチ・ユニ
ット２０はまた、状態履歴バッファ２３内のＰ６に対応
するステータス・ビット５２を更新し、物理リネーム・
レジスタＰ６が割当てられたことを示す。

【００４６】ａｄｄｉ命令が実行ユニットにディスパッ
チされるとき、これはもとのａｄｄｉＲ３＜＝Ｒ２＋
０ｘ００００にもとづき、ａｄｄｉＰ６＜＝Ｐ２＋０
ｘ００００となる。

【００４７】ａｄｄｉ命令は完了ユニットによりこのサ
イクルをコミットされ、状態履歴バッファ２３内のステ
ータス・ビットがこのことを反映する。

【００４８】サイクル５：割込みが信号で伝えられ、正
しいマシン状態を生成するために、ルックアヘッド状態
が回復されなければならないサイクル５が図８に示される。状態履歴バッファ２３に
結合される制御論理５０が、物理リネーム・レジスタＰ
５がこのサイクルをコミットされることを、そのステー
タス・ビット５２にもとづき判断する。前任者のＰ４は
陳腐化する。従って、Ｐ４のステータス・ビット５２が
フリー状態にセットされる。Ｐ５はもはや有効な前任者
を有さない。

【００４９】割込みが信号で伝えられるとき、ルックア
ヘッド状態バッファ２１がコミット済みマシン状態にリ
セットされなければならない。これを実行するために、
状態履歴バッファ２３が使用される。Ｒ３は現在、ルッ
クアヘッド状態バッファ２１内でＰ６にセットされてい
る。しかしながら、アーキテクチャ論理レジスタＲ３の
マシン状態を決定するためにＲ３に関連付けられる状態
履歴バッファ２３内のリンク・リストを追跡し、最も早
くコミットされた物理リネーム・レジスタ３９を見い出
さねばならない。Ｒ３に対応する状態履歴バッファ内の
リンク・リストは、Ｒ３＝＞Ｐ６＝＞Ｐ３＝＞Ｐ５であ
る。この進行は、状態履歴バッファ２３の内容から、明
らかである。Ｐ５が状態履歴バッファ内の最早コミット
済みエントリである。従って、Ｒ３は物理リネーム・レ
ジスタＰ５が、アーキテクチャ論理レジスタＲ３のマシ
ン状態のコミット値を含むことを示すように、ルックア
ヘッド状態バッファ２１内でＰ５にセットされるべきで
ある。

【００５０】以上、本発明の特定の実施例について開示
したが、当業者には本発明の趣旨及び範囲から逸脱する
こと無しに、これらの特定の実施例に対する変更が可能
であることが理解されよう。

【００５１】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００５２】（１）命令ソースから入力される命令列
の、実行ユニットによる非プログラム順序の実行に起因
するデータ・フロー依存性を管理する装置であって、前
記実行ユニットに結合され、アドレスを有し、前記命令
列の実行の間に生成される結果を記憶する複数の物理リ
ネーム・レジスタと、前記物理リネーム・レジスタに結
合され、前記命令列内で指定されるアーキテクチャ論理
レジスタへの現割当てを示す、前記物理リネーム・レジ
スタの前記アドレスを記憶する、ルックアヘッド状態バ
ッファと、前記ルックアヘッド状態バッファに結合さ
れ、該ルックアヘッド状態バッファ内で前記アーキテク
チャ論理レジスタの各々に連続的に割当てられる、前記
物理リネーム・レジスタの前記アドレスの複数のリンク
・リストを記憶する状態履歴バッファであって、前記状
態履歴バッファが、前記複数の物理リネーム・レジスタ
の各々内のデータの状態を示す変更可能なステータス・
ビットを有する、状態履歴バッファと、を含む、装置。（２）前記命令ソース、前記状態履歴バッファ、及び前
記ルックアヘッド状態バッファに結合されるディスパッ
チ・ユニットであって、前記ディスパッチ・ユニットが
前記ステータス・ビットにもとづき、フリーの前記物理
リネーム・レジスタを判断し、前記フリーの物理リネー
ム・レジスタを結果の記憶のためにアーキテクチャ論理
レジスタを指定する命令に割当て、前記フリーの物理リ
ネーム・レジスタのアドレスを前記ルックアヘッド状態
バッファに記憶し、命令をディスパッチする、ディスパ
ッチ・ユニットを含む、前記（１）記載の装置。（３）前記実行ユニットが前記ディスパッチ・ユニッ
ト、前記リネーム・レジスタ、及び前記状態履歴バッフ
ァに結合され、前記実行ユニットが前記ディスパッチ・
ユニットから前記命令を受信し、実行し、前記命令から
の結果を前記複数の物理リネーム・レジスタに書込み、
前記ステータス・ビットを更新することにより、前記複
数の物理リネーム・レジスタの各々が書込まれたことを
示す、前記（２）記載の装置。（４）前記状態履歴バッファ及び前記実行ユニットに結
合され、命令により生成された結果が前記複数のアーキ
テクチャ論理レジスタの１つにコミットされ得るときを
判断し、前記データがコミットされるとき、前記ステー
タス・ビットを更新する完了ユニットを含む、前記
（３）記載の装置。（５）前記状態履歴バッファに結合され、前記複数の物
理リネーム・レジスタの１つ内のコミット・データが陳
腐化するとき、前記ステータス・ビットをリセットする
制御論理を含む、前記（４）記載の装置。（６）前記状態履歴バッファに結合され、前記複数の物
理リネーム・レジスタの１つ内のコミット・データが陳
腐化するとき、前記ステータス・ビットをリセットする
制御論理を含む、前記（１）記載の装置。（７）前記ステータス・ビットが、前記複数の物理リネ
ーム・レジスタの各々がフリー、割当て済み、書込み済
み及びコミット済みであることを示す、ステータス・ビ
ットと、前記状態履歴バッファに結合され、コミット済
みを示す前記ステータス・ビットを有する、前記状態履
歴バッファ内の前記複数のリンク・リストの１つへの後
任エントリに応答して、前記物理リネーム・レジスタに
対応する前記ステータス・ビットを前記フリー状態にリ
セットする制御論理と、を含む、前記（１）記載の装
置。（８）前記実行ユニットが前記ディスパッチ・ユニッ
ト、前記物理リネーム・レジスタ、及び前記状態履歴バ
ッファに結合され、前記実行ユニットが前記命令列から
前記命令を受信し、実行し、前記命令からの結果を前記
複数の物理リネーム・レジスタに書込み、前記ステータ
ス・ビットを更新することにより、前記複数の物理リネ
ーム・レジスタの各々が書込まれたことを示す、前記
（１）記載の装置。（９）前記実行ユニットに結合され、前記命令列内の命
令により生成される結果が、前記複数のアーキテクチャ
論理レジスタの１つにコミットされ得るときを判断し、
前記データがコミットされるときに、前記ステータス・
ビットを更新する完了ユニットを含む、前記（１）記載
の装置。（１０）前記フリーの物理リネーム・レジスタの割当て
に応答して、前記ディスパッチ・ユニットが前記ステー
タス・ビットを更新する、前記（２）記載の装置。（１１）命令列の非プログラム順序の実行に起因するデ
ータ・フロー依存性を管理する方法であって、物理リネ
ーム・レジスタを前記命令列内で指定されるアーキテク
チャ論理レジスタに割当てるステップと、前記命令列の
実行の間に生成される結果を前記物理リネーム・レジス
タに記憶するステップと、前記アーキテクチャ論理レジ
スタの各々への前記物理リネーム・レジスタの割当ての
履歴を追跡するステップと、前記複数の物理リネーム・
レジスタの各々内のデータのステータスを示すステップ
と、を含む、方法。（１２）前記ステータス・ビットにもとづき、フリーの
前記物理リネーム・レジスタを判断するステップと、前
記フリーの物理リネーム・レジスタを、結果の記憶のた
めに前記アーキテクチャ論理レジスタの１つを指定する
命令に割当てるステップと、前記フリーの物理リネーム
・レジスタの前記アドレスを、ルックアヘッド状態バッ
ファに記憶するステップと、命令を実行のためにディス
パッチするステップと、を含む、前記（１１）記載の方
法。（１３）命令により生成される結果が、前記複数のアー
キテクチャ論理レジスタの１つにコミットされ得るとき
を判断するステップを含む、前記（１１）記載の方法。（１４）前記複数の物理リネーム・レジスタの各々内の
データの前記ステータスを示すステップが、前記複数の
物理リネーム・レジスタの各々がフリー、割当て済み、
書込み済み及びコミット済みであるときを示すステップ
を含む、前記（１３）記載の方法。（１５）前記結果を記憶するステップが、少なくとも１
つの実行ユニットが命令を実行し、前記命令列から結果
を生成することに応答して発生する、前記（１３）記載
の方法。

【図面の簡単な説明】

【図１】従来の複数実行ユニット・スーパスカラ・プロ
セッサの機能ブロック図である。

【図２】本発明を組み込む複数実行ユニット並列プロセ
ッサの機能ブロック図である。

【図３】単純なプログラム例を実行するマイクロプロセ
ッサのサイクル０における部分拡大図であり、ディスパ
ッチ・ユニット、汎用レジスタ、完了ユニット、複数の
実行ユニット、ルックアヘッド状態バッファ、状態履歴
バッファ、及び関連制御論理の間の対話を示す図であ
る。

【図４】単純なプログラム例を実行するマイクロプロセ
ッサのサイクル１における部分拡大図であり、ディスパ
ッチ・ユニット、汎用レジスタ、完了ユニット、複数の
実行ユニット、ルックアヘッド状態バッファ、状態履歴
バッファ、及び関連制御論理の間の対話を示す図であ
る。

【図５】単純なプログラム例を実行するマイクロプロセ
ッサのサイクル２における部分拡大図であり、ディスパ
ッチ・ユニット、汎用レジスタ、完了ユニット、複数の
実行ユニット、ルックアヘッド状態バッファ、状態履歴
バッファ、及び関連制御論理の間の対話を示す図であ
る。

【図６】単純なプログラム例を実行するマイクロプロセ
ッサのサイクル３における部分拡大図であり、ディスパ
ッチ・ユニット、汎用レジスタ、完了ユニット、複数の
実行ユニット、ルックアヘッド状態バッファ、状態履歴
バッファ、及び関連制御論理の間の対話を示す図であ
る。

【図７】単純なプログラム例を実行するマイクロプロセ
ッサのサイクル４における部分拡大図であり、ディスパ
ッチ・ユニット、汎用レジスタ、完了ユニット、複数の
実行ユニット、ルックアヘッド状態バッファ、状態履歴
バッファ、及び関連制御論理の間の対話を示す図であ
る。

【図８】単純なプログラム例を実行するマイクロプロセ
ッサのサイクル５における部分拡大図であり、ディスパ
ッチ・ユニット、汎用レジスタ、完了ユニット、複数の
実行ユニット、ルックアヘッド状態バッファ、状態履歴
バッファ、及び関連制御論理の間の対話を示す図であ
る。

【符号の説明】

１０スーパスカラ・プロセッサ１１外部バス１２バス・インタフェース・ユニット１４命令キャッシュ及びメモリ管理ユニット（ＭＭ
Ｕ）１６メモリ管理ユニット１７順次フェッチャ１８分岐処理ユニット１９命令キュー２０ディスパッチ・ユニット２１ルックアヘッド状態バッファ２２固定小数点演算ユニット２３状態履歴バッファ２６ＦＰＲ２８ロード／ストア・ユニット３０浮動小数点演算ユニット３２汎用レジスタ・ファイル３３ＧＰＲリネーム・バッファ３６浮動小数点レジスタ・ファイル３７ＦＰＲリネーム・レジスタ３９物理リネーム・レジスタ４０完了ユニット５０関連制御論理５２フラグ６６結果バス

───────────────────────────────────────────────────── フロントページの続き (71)出願人 594083818 モトローラ・インコーポレイテッドアメリカ合衆国60196、イリノイ州シャームバーク、イースト・アルゴンクイン・ロード1303、サ−ド・フロワー (72)発明者テレンス・エム・ポッターアメリカ合衆国78731、テキサス州オースティン、ツイン・レッジ・コーブ 6107 (72)発明者ベティ・ワイ・キクタアメリカ合衆国94040、カリフォルニア州マウンテン・ビュー、ブッシュ・ストリート 546

Claims

【特許請求の範囲】

【請求項１】命令ソースから入力される命令列の、実行
ユニットによる非プログラム順序の実行に起因するデー
タ・フロー依存性を管理する装置であって、前記実行ユニットに結合され、アドレスを有し、前記命
令列の実行の間に生成される結果を記憶する複数の物理
リネーム・レジスタと、前記物理リネーム・レジスタに結合され、前記命令列内
で指定されるアーキテクチャ論理レジスタへの現割当て
を示す、前記物理リネーム・レジスタの前記アドレスを
記憶する、ルックアヘッド状態バッファと、前記ルックアヘッド状態バッファに結合され、該ルック
アヘッド状態バッファ内で前記アーキテクチャ論理レジ
スタの各々に連続的に割当てられる、前記物理リネーム
・レジスタの前記アドレスの複数のリンク・リストを記
憶する状態履歴バッファであって、前記状態履歴バッフ
ァが、前記複数の物理リネーム・レジスタの各々内のデ
ータの状態を示す変更可能なステータス・ビットを有す
る、状態履歴バッファと、を含む、装置。
【請求項２】前記命令ソース、前記状態履歴バッファ、
及び前記ルックアヘッド状態バッファに結合されるディ
スパッチ・ユニットであって、前記ディスパッチ・ユニ
ットが前記ステータス・ビットにもとづき、フリーの前
記物理リネーム・レジスタを判断し、前記フリーの物理
リネーム・レジスタを結果の記憶のためにアーキテクチ
ャ論理レジスタを指定する命令に割当て、前記フリーの
物理リネーム・レジスタのアドレスを前記ルックアヘッ
ド状態バッファに記憶し、命令をディスパッチする、デ
ィスパッチ・ユニットを含む、請求項１記載の装置。
【請求項３】前記実行ユニットが前記ディスパッチ・ユ
ニット、前記リネーム・レジスタ、及び前記状態履歴バ
ッファに結合され、前記実行ユニットが前記ディスパッ
チ・ユニットから前記命令を受信し、実行し、前記命令
からの結果を前記複数の物理リネーム・レジスタに書込
み、前記ステータス・ビットを更新することにより、前
記複数の物理リネーム・レジスタの各々が書込まれたこ
とを示す、請求項２記載の装置。
【請求項４】前記状態履歴バッファ及び前記実行ユニッ
トに結合され、命令により生成された結果が前記複数の
アーキテクチャ論理レジスタの１つにコミットされ得る
ときを判断し、前記データがコミットされるとき、前記
ステータス・ビットを更新する完了ユニットを含む、請
求項３記載の装置。
【請求項５】前記状態履歴バッファに結合され、前記複
数の物理リネーム・レジスタの１つ内のコミット・デー
タが陳腐化するとき、前記ステータス・ビットをリセッ
トする制御論理を含む、請求項４記載の装置。
【請求項６】前記状態履歴バッファに結合され、前記複
数の物理リネーム・レジスタの１つ内のコミット・デー
タが陳腐化するとき、前記ステータス・ビットをリセッ
トする制御論理を含む、請求項１記載の装置。
【請求項７】前記ステータス・ビットが、前記複数の物
理リネーム・レジスタの各々がフリー、割当て済み、書
込み済み及びコミット済みであることを示す、ステータ
ス・ビットと、前記状態履歴バッファに結合され、コミット済みを示す
前記ステータス・ビットを有する、前記状態履歴バッフ
ァ内の前記複数のリンク・リストの１つへの後任エント
リに応答して、前記物理リネーム・レジスタに対応する
前記ステータス・ビットを前記フリー状態にリセットす
る制御論理と、を含む、請求項１記載の装置。
【請求項８】前記実行ユニットが前記ディスパッチ・ユ
ニット、前記物理リネーム・レジスタ、及び前記状態履
歴バッファに結合され、前記実行ユニットが前記命令列
から前記命令を受信し、実行し、前記命令からの結果を
前記複数の物理リネーム・レジスタに書込み、前記ステ
ータス・ビットを更新することにより、前記複数の物理
リネーム・レジスタの各々が書込まれたことを示す、請
求項１記載の装置。
【請求項９】前記実行ユニットに結合され、前記命令列
内の命令により生成される結果が、前記複数のアーキテ
クチャ論理レジスタの１つにコミットされ得るときを判
断し、前記データがコミットされるときに、前記ステー
タス・ビットを更新する完了ユニットを含む、請求項１
記載の装置。
【請求項１０】前記フリーの物理リネーム・レジスタの
割当てに応答して、前記ディスパッチ・ユニットが前記
ステータス・ビットを更新する、請求項２記載の装置。
【請求項１１】命令列の非プログラム順序の実行に起因
するデータ・フロー依存性を管理する方法であって、物理リネーム・レジスタを前記命令列内で指定されるア
ーキテクチャ論理レジスタに割当てるステップと、前記命令列の実行の間に生成される結果を前記物理リネ
ーム・レジスタに記憶するステップと、前記アーキテクチャ論理レジスタの各々への前記物理リ
ネーム・レジスタの割当ての履歴を追跡するステップ
と、前記複数の物理リネーム・レジスタの各々内のデータの
ステータスを示すステップと、を含む、方法。
【請求項１２】前記ステータス・ビットにもとづき、フ
リーの前記物理リネーム・レジスタを判断するステップ
と、前記フリーの物理リネーム・レジスタを、結果の記憶の
ために前記アーキテクチャ論理レジスタの１つを指定す
る命令に割当てるステップと、前記フリーの物理リネーム・レジスタの前記アドレス
を、ルックアヘッド状態バッファに記憶するステップ
と、命令を実行のためにディスパッチするステップと、を含む、請求項１１記載の方法。
【請求項１３】命令により生成される結果が、前記複数
のアーキテクチャ論理レジスタの１つにコミットされ得
るときを判断するステップを含む、請求項１１記載の方
法。
【請求項１４】前記複数の物理リネーム・レジスタの各
々内のデータの前記ステータスを示すステップが、前記
複数の物理リネーム・レジスタの各々がフリー、割当て
済み、書込み済み及びコミット済みであるときを示すス
テップを含む、請求項１３記載の方法。
【請求項１５】前記結果を記憶するステップが、少なく
とも１つの実行ユニットが命令を実行し、前記命令列か
ら結果を生成することに応答して発生する、請求項１３
記載の方法。