JPH09146770A

JPH09146770A - 命令を実行する方法およびマイクロプロセッサ

Info

Publication number: JPH09146770A
Application number: JP8191865A
Authority: JP
Inventors: James A Kahle; ジェームス・エイ・カーレ; Albert J Loper; アルバート・ジェイ・ローパー; Mallick Soummya; ソウンミヤ・マリック; Aubrey D Ogden; オーブリ・ディー・オグデン
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1995-09-11
Filing date: 1996-07-22
Publication date: 1997-06-06
Anticipated expiration: 2016-07-22
Also published as: EP0762270A2; EP0762270A3; DE69636861D1; JP3096427B2; US5694565A; DE69636861T2; KR100234646B1; KR970016945A; EP0762270B1; US5867684A

Abstract

(57)【要約】（修正有）【課題】スーパースカラー・マイクロプロセッサで複
数ロード命令を実行する方法および装置を提供する。【解決手段】複数のレジスタのうちの各レジスタをリ
ストし、実行中の複数ロード命令によって各レジスタに
データがロードされた時期を示すテーブルを管理するス
テップをさらに含む。この方法は、ソース・オペランド
・データがソース・レジスタにロードされたことをテー
ブルが示したときに、複数ロード命令がその実行を完了
する前に、その命令がソース・レジスタとして示した複
数のレジスタのうちの１つのレジスタに複数ロード命令
によってロードされたソース・オペランド・データに依
存する命令を実行することによって終了する。また、本
発明によれば、スーパースカラー・マイクロプロセッサ
で複数ストア命令を実行する方法も提供される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的にはマイク
ロプロセッサ内で命令実行中に行うリソースの割振りに
関し、具体的には本発明は、追加命令の同時実行を可能
にするために逐次化した複数ロード／ストア操作専用の
リソースの早期割振り解除に関する。

【０００２】

【従来の技術】マルチレジスタ・ロード／ストア命令で
は、１つのマイクロプロセッサ内に含まれるすべての汎
用レジスタ（通常は３２個）を変更するかまたは使い果
たすので、完全な逐次化が必要である。ＩＢＭ製のＰｏ
ｗｅｒＰＣ^TM系列のマイクロプロセッサには、整数複数
ロード／ストア命令が収容され、これらの命令がマイク
ロプロセッサの汎用レジスタ（ＧＰＲ）との間でデータ
・ブロックを移動させる。複数レジスタ命令としては、
複数ワード・ロード（ｌｍｗ）命令と、複数ワード・ス
トア（ｓｔｍｗ）命令とが用意されている。

【０００３】先行技術では、このようなマルチレジスタ
・ロード／ストア命令がシステム内のすべての汎用レジ
スタを変更するかまたは使い果たす可能性があるので、
命令シーケンス内の後続命令は、マルチレジスタ命令が
完了するまで命令バッファ内に保持される。したがっ
て、マルチレジスタ命令は命令ストリーム内のこのよう
な命令の完全な逐次化を強要するものであると想定され
ていた。先行技術でこのような逐次化を実現するため
に、マルチレジスタ命令が完了するまで、必要な汎用レ
ジスタがすべてその命令に割り振られる。このようなシ
ステムは、マルチレジスタ命令が完了するまで命令パイ
プラインを保持することによって、パフォーマンスを大
幅に制限することになる。

【０００４】

【発明が解決しようとする課題】必要なものは、マルチ
レジスタ命令が実行されリソースが使用可能になったと
きにこれらの命令からリソースを割振り解除できるよう
にして、後続命令が実行中のマルチレジスタ命令と同時
に実行を開始できるようにするためのメカニズムであ
る。このようなメカニズムは、複数のレジスタを使用す
る命令がＧＰＲを使用する後続命令と並列に実行できる
ようにすることにより、スーパースカラー設計を有する
マイクロプロセッサのパフォーマンスを大幅に改善する
はずである。

【０００５】

【課題を解決するための手段】本発明によれば、スーパ
ースカラー・マイクロプロセッサで複数ロード命令を実
行する方法および装置が提供される。この方法は、ロー
ド／ストア・ユニットに複数ロード命令をディスパッチ
するステップであって、ロード／ストア・ユニットがデ
ィスパッチされた複数ロード命令の実行を開始し、複数
ロード命令がメモリから複数のレジスタにデータをロー
ドするステップを含む。この方法は、複数のレジスタの
うちの各レジスタをリストし、実行中の複数ロード命令
によって各レジスタにデータがロードされた時期を示す
テーブルを管理するステップをさらに含む。この方法
は、ソース・オペランド・データがソース・レジスタに
ロードされたことをテーブルが示したときに、複数ロー
ド命令がその実行を完了する前に、その命令がソース・
レジスタとして示した複数のレジスタのうちの１つのレ
ジスタに複数ロード命令によってロードされたソース・
オペランド・データに依存する命令を実行することによ
って終了する。また、本発明によれば、スーパースカラ
ー・マイクロプロセッサで複数ストア命令を実行する方
法も提供される。この方法は、ロード／ストア・ユニッ
トに複数ストア命令をディスパッチし、その直後にロー
ド／ストア・ユニットが複数ストア命令の実行を開始
し、複数ストア命令が複数のレジスタからメモリにデー
タを格納するステップと、複数ストア命令がその実行を
完了する前に、その固定小数点命令がソース・レジスタ
として示した複数のレジスタのうちの１つのレジスタか
ら複数ストア命令によって格納されるデータに依存する
固定小数点命令を実行するが、複数ストア命令が完了す
る前に実行中の固定小数点命令を複数のレジスタのうち
の１つのレジスタに書き込むことを禁止するステップと
を含む。

【０００６】本発明の上記および追加の目的、特徴、利
点は、以下の詳細な説明において明らかになるだろう。

【０００７】本発明の特色を示すと思われる新規の特徴
については、特許請求の範囲に記載する。しかし、本発
明そのもの、ならびにその好ましい使用態様、追加の目
的および利点については、添付図面に関連して以下の実
施例の詳細な説明を参照することによって最も理解され
るだろう。

【０００８】

【発明の実施の形態】次に添付図面、特に図１を参照す
ると、同図には、本発明の好ましい実施例により情報を
処理するためのプロセッサ（全体を１０で示す）のブロ
ック図が示されている。図示の実施例のプロセッサ１０
は、単一集積回路スーパースカラー・マイクロプロセッ
サを含む。したがって、以下に詳述するように、プロセ
ッサ１０は、様々な実行ユニット、レジスタ、バッフ
ァ、メモリ、その他の機能ユニットを含み、いずれも集
積回路で形成されている。本発明の好ましい実施例のプ
ロセッサ１０は、ＩＢＭ製のＰｏｗｅｒＰＣ^TM系列のマ
イクロプロセッサの１つを含み、これは縮小命令セット
・コンピューティング（ＲＩＳＣ）技法により動作す
る。

【０００９】図１に示すように、プロセッサ１０は、プ
ロセッサ１０内のバス・インタフェース・ユニット（Ｂ
ＩＵ）１２を介してシステム・バス１１に結合されてい
る。ＢＩＵ１２は、メイン・メモリ（図示せず）など、
システム・バス１１に結合されたその他の装置とプロセ
ッサ１０との間の情報転送を制御する。プロセッサ１０
と、システム・バス１１と、システム・バス１１に結合
されたその他装置とはあいまってホスト・データ処理シ
ステムを形成する。ＢＩＵ１２は、プロセッサ１０内の
命令キャッシュ１４およびデータ・キャッシュ１６に接
続されている。命令キャッシュ１４およびデータ・キャ
ッシュ１６などの高速キャッシュにより、プロセッサ１
０はメイン・メモリから高速キャッシュに事前転送され
たデータまたは命令のサブセットに対して比較的高速の
アクセス時間を達成することができ、その結果、ホスト
・データ処理システムの動作速度が改善される。命令キ
ャッシュ１４は順次取出し器１７にさらに結合され、こ
の順次取出し器１７は各実行サイクル中に命令キャッシ
ュ１４から命令を取り出す。順次取出し器１７は、実行
のために分岐処理ユニット（ＢＰＵ）１８に分岐命令を
転送し、プロセッサ１０内のその他の実行回路によって
実行される前の一時記憶のために命令待ち行列１９に順
次命令を転送する。

【００１０】図示の実施例では、プロセッサ１０の実行
回路がＢＰＵ１８以外に、固定小数点ユニット（ＦＸ
Ｕ）２２、ロード／ストア・ユニット（ＬＳＵ）２８、
浮動小数点ユニット（ＦＰＵ）３０を含む、複数の実行
ユニットを含んでいる。コンピュータ分野の当業者には
周知のように、それぞれの実行ユニット２２、２８、３
０は、各プロセッサ・サイクル中に特定クラスの順次命
令内の１つまたは複数の命令を実行する。たとえば、Ｆ
ＸＵ２２は、指定の汎用レジスタ（ＧＰＲ）３２または
ＧＰＲリネーム・バッファ３３から受け取ったソース・
オペランドを使用して、加算、減算、ＡＮＤ、ＯＲ、Ｘ
ＯＲなどの固定小数点数値演算を実行する。固定小数点
命令の実行後、ＦＸＵ２２は、その命令のデータ結果を
ＧＰＲリネーム・バッファ３３に出力し、ＧＰＲリネー
ム・バッファ３３からＧＰＲ３２の１つまたは複数に結
果データを転送することによって命令が完了するまで、
ＧＰＲリネーム・バッファ３３が結果データの一時記憶
を行う。これに対して、ＦＰＵ３０は、浮動小数点レジ
スタ（ＦＰＲ）３６またはＦＰＲリネーム・バッファ３
７から受け取ったソース・オペランドに基づいて、浮動
小数点の乗算や除算などの浮動小数点演算を実行する。
ＦＰＵ３０は、浮動小数点命令を実行した結果得られる
データを指定のＦＰＲリネーム・バッファ３７に出力
し、ＦＰＲリネーム・バッファ３７から指定のＦＰＲ３
６に結果データを転送することによって命令が完了する
まで、ＦＰＲリネーム・バッファ３７が結果データを一
時的に格納する。ＬＳＵ２８は、メモリ（すなわち、デ
ータ・キャッシュ１６またはメイン・メモリのいずれ
か）から指定のＧＰＲ３２またはＦＰＲ３６にデータを
ロードするか、またはＧＰＲ３２、ＧＰＲリネーム・バ
ッファ３３、ＦＰＲ３６、またはＦＰＲリネーム・バッ
ファ３７の指定の１つからのデータをメモリに格納する
ような、浮動小数点命令と固定小数点命令を実行する。

【００１１】プロセッサ１０は、そのスーパースカラー
・アーキテクチャのパフォーマンスをさらに改善するた
めに、命令のパイプライン化と順不同実行の両方を使用
している。したがって、データの従属関係を監視してい
る限り、ＦＸＵ２２、ＬＳＵ２８、ＦＰＵ３０は任意の
順序で命令を実行することができる。さらに、一連のパ
イプライン・ステージでＦＸＵ２２、ＬＳＵ２８、ＦＰ
Ｕ３０のそれぞれが命令を処理する。ハイパフォーマン
ス・プロセッサでは一般的なように、それぞれの命令
は、５通りのパイプライン・ステージ、すなわち、取出
し、デコード／ディスパッチ、実行、終了、完了の各ス
テージで処理される。

【００１２】取出しステージ中に順次取出し器１７は、
命令キャッシュ１４から１つまたは複数のメモリ・アド
レスに関連する１つまたは複数の命令を取り出す。命令
キャッシュ１４から取り出された順次命令は、順次取出
し器１７によって命令待ち行列１９内に格納される。取
り出された分岐命令は、命令ストリームから除去され、
実行のためにＢＰＵ１８に転送される。ＢＰＵ１８は、
分岐が行われるかどうかを予測することによってＢＰＵ
１８が未解決の条件付き分岐命令を推論実行できるよう
にするための、分岐履歴テーブルなどの分岐予測メカニ
ズムを含んでいる。

【００１３】デコード／ディスパッチ・ステージ中にデ
ィスパッチ・ユニット２０は、命令待ち行列１９からの
１つまたは複数の命令をデコードし、実行ユニット２
２、２８、３０のうちの適切なユニットにその命令をデ
ィスパッチする。また、デコード／ディスパッチ・ステ
ージ中にディスパッチ・ユニット２０は、ディスパッチ
された命令の結果データごとに、ＧＰＲリネーム・バッ
ファ３３またはＦＰＲリネーム・バッファ３７内のリネ
ーム・バッファを１つずつ割り振る。本発明の好ましい
実施例によれば、プロセッサ１０は、プログラムの順序
で命令をディスパッチし、固有の命令ＩＤを使用して順
不同実行中にディスパッチされた命令のプログラム順序
を追跡する。プロセッサ１０の実行パイプライン内の各
命令は、命令ＩＤに加え、その命令のＡオペランドおよ
びＢオペランドのソースを示すｒＡタグおよびｒＢタグ
と、その命令の結果データ用のＧＰＲリネーム・バッフ
ァ３３またはＦＰＲリネーム・バッファ３７内の宛先リ
ネーム・バッファを示すｒＤタグとを有する。

【００１４】実行ステージ中に実行ユニット２２、２
８、３０は、示された操作用のオペランドと実行リソー
スが使用可能であるときにディスパッチ・ユニット２０
から受け取った命令を便宜的に実行する。実行の終了
後、実行ユニット２２、２８、３０は、命令タイプに応
じて、ＧＰＲリネーム・バッファ３３またはＦＰＲリネ
ーム・バッファ３７内に結果データを格納する。次に実
行ユニット２２、２８、３０は、どの命令が実行を終了
したかを完了ユニット４０に通知する。最後に、ＧＰＲ
リネーム・バッファ３３およびＦＰＲリネーム・バッフ
ァ３７からＧＰＲ３２およびＦＰＲ３６に結果データを
それぞれ転送することにより、プログラムの順序で完了
ユニット４０が命令を完了する。

【００１５】本発明の好ましい実施例のプロセッサ１０
は、複数の汎用レジスタ内のデータをメモリからロード
したり、メモリに格納する、マルチレジスタ・ロード／
ストア命令を実行することができる。特に、Ｐｏｗｅｒ
ＰＣ^TMマイクロプロセッサの好ましい実施例のマイクロ
プロセッサ１０は、複数のワードをメモリからロードす
る複数ロード命令（ｌｍｗ）と、複数のワードをメモリ
に格納する複数ストア命令（ｓｔｍｗ）とを実行するこ
とになる。

【００１６】このようなマルチレジスタ命令は、順次取
出し器１７によって命令キャッシュ１４から取り出さ
れ、命令待ち行列１９にロードされる。ディスパッチ・
ユニット２０によってマルチレジスタ命令をディスパッ
チすると、ＬＳＵ２８は、そのマルチレジスタ命令の実
行を開始する。また、その命令をディスパッチすると、
マルチレジスタ命令で識別されたＧＰＲ３２内のいくつ
かのレジスタがその命令に割り振られる。

【００１７】好ましい実施例の複数ロード命令では、最
高３２個の連続レジスタに最高３２個の連続ワードをメ
モリからロードする必要がある。たとえば、「lmw r3,
r2,r1」という命令は、メモリ内の位置＜r2 + r1＞で検
出されたデータをレジスタ３〜３１にロードすることに
なる。したがって、この例では、最初にロードすべきレ
ジスタはレジスタ３（ｒ３）になる。次にＬＳＵ２８
は、レジスタ３１を含むすべてのレジスタがロードされ
るまで、レジスタ４、レジスタ５などに順にロードする
作業に移行する。その時点で複数ロード命令は実行を終
了している。これは完了ユニット４０に報告され、完了
ユニット４０はシステム内の設計済みレジスタにそれを
コミットすることによって命令を完了する。

【００１８】図２を参照すると、同図には、複数ロード
命令と後続の固定小数点命令を処理するのに必要なサイ
クルのタイミング図が示されている。複数ロード命令
（LoadMult）は、サイクル１中に順次取出し器１７によ
って命令キャッシュ１４から取り出される（F）。その
命令は、サイクル２中にデコードされ（Dec）、サイク
ル３中にディスパッチ・ユニット２０によってＬＳＵ２
８にディスパッチされる（Disp）。ＬＳＵ２８はサイク
ル４〜７中に複数ロード命令を実行し（E）、命令はサ
イクル８中に完了ユニット４０によって完了する
（C）。

【００１９】この例では、４つの汎用レジスタがロード
される。好ましい実施例の複数ロード命令は、lmw r28,
r2, r1としてフォーマットされるはずである。この命
令はレジスタ２８〜３１にロードするはずなので、図２
に示すように、サイクル４〜７の間にシステム・クロッ
ク・サイクルごとに１つのレジスタがロードされる。

【００２０】先行技術では、複数ロード命令以降のすべ
ての固定小数点命令が逐次化されるので、複数ロード命
令が完了するまでそのような命令は取り出されないはず
である。このため、後続の固定小数点命令が使用するオ
ペランド・データの整合性を維持することができる。し
たがって、図２の例では、先行技術のサイクル９に達す
るまで、後続の固定小数点命令を取り出すことができな
い。

【００２１】本発明によれば、複数ロード命令の完了前
に命令バッファ内で待機中の固定小数点命令をディスパ
ッチできるようにするための割振り解除メカニズムが提
供される。図２に示すように、サイクル４の前にレジス
タ２８〜３１は複数ロード命令に割り振られる。しか
し、たとえば、レジスタ２８が複数ロード命令によって
ロードされると、後続命令用のオペランド・データとし
てその内容を使用できるようにするために、このリソー
スは割振り解除される。その結果、複数ロード命令の完
了前に、複数ロード命令の結果に依存する後続の固定小
数点命令を他の機能ユニットにディスパッチすることが
できる。

【００２２】プロセッサ１０は、それぞれのレジスタを
リストし、複数ロード命令がその関連レジスタにロード
する時期を示す、スコアボードまたはテーブルをすべて
の汎用レジスタ（ＧＰＲ）３２に関して管理している。
ディスパッチ・ユニット２０は、後続命令がディスパッ
チ可能であるかどうかを判定するためにスコアボードに
アクセスするはずである。たとえば、図２に示すよう
に、複数ロード命令（Load Mult）とそれに続く第１お
よび第２の固定小数点命令（FX Inst 1およびFX Inst
2）とを本発明がどのように処理するかについて検討す
る。たとえば、命令シーケンスが次のようになっている
とする。 lmw r28, r2, r1 add r2, r2, r28 add r3, r3, r30 （注：「add」とは、第１のレジスタの内容を第２のレ
ジスタの内容に加算して、その結果オペランドを第１の
レジスタに格納するための固定小数点命令である。）

【００２３】図２に示すように、ロード／ストア・ユニ
ットによってレジスタ２８がスコアボードに解放される
と、ただちにFX Inst 1をディスパッチすることができ
る。サイクル４中にロード／ストア・ユニットがレジス
タ２８用の複数ロード命令を実行したので、このレジス
タはスコアボード上で割振り解除される。次の後続サイ
クルでは、ディスパッチ・ユニット２０がＦＸＵ２２に
FX Inst 1をディスパッチする。というのは、この命令
用のソース・オペランド・データがこの時点で汎用レジ
スタ内で使用可能になっているからである。この命令は
サイクル６中にＦＸＵ２２によって実行されるが、完了
ユニット４０は、レジスタ・データの整合性を保障する
ためにサイクル９になるまで命令を完了しない。図２か
ら分かるように、FX Inst 2は、サイクル３および４中
に取り出され、デコードされる。しかし、複数ロード命
令がサイクル６中にレジスタ３０をロードし、このロー
ドをスコアボード上に示してしまうまで、ディスパッチ
・ユニット２０はこの命令をＦＸＵ２２にディスパッチ
しない。ディスパッチ・ユニット２０は、サイクル７中
にレジスタ３０の割振り解除を読み取り、第２の固定小
数点命令をディスパッチし、ＦＸＵ２２はサイクル８中
にその命令を実行する。すべての固定小数点命令がプロ
グラミング順に完了しなければならないので、完了ユニ
ット４０はサイクル１０になるまでこの命令を完了しな
い。

【００２４】この例に示すように、（単一ポート式レジ
スタ・ファイルとキャッシュを想定すると）後続の固定
小数点命令のディスパッチと実行にとって、最高８クロ
ック・サイクル分の改善が得られている。これは、先行
技術に比べ、プロセッサの効率の大幅上昇である。事
実、所与の例では、最高３２クロック・サイクル分の改
善が実現可能である。お分かりのように、本発明のパフ
ォーマンス強化を制限するものは、複数ロードが完了す
る前に実行パイプラインに入れることができる命令数に
関する完了ユニット内の完了バッファの深さのみであ
る。

【００２５】本発明の他の態様によれば、リソースの早
期割振り解除は複数ストア命令の実行中に実施される。
好ましい実施例の複数ストア動作では、最高３２個の連
続レジスタをメモリ内の最高３２個の連続ワード位置に
格納する必要がある。たとえば、stmw r3, r2, r1とい
う複数ストア命令は、＜r2 + r1＞に位置するメモリに
レジスタ３〜レジスタ３１の内容を格納することにな
る。本発明によれば、複数ストア命令をディスパッチす
ると、マイクロプロセッサ内の他の固定小数点実行ユニ
ットに追加の後続固定小数点命令を無条件でディスパッ
チすることができる。従来通り、このような命令はプロ
グラミング順に完了しなければならないが、その命令を
ディスパッチした直後に実行を開始することができる。

【００２６】本発明では、複数ストア命令を後続の固定
小数点命令と逐次化する必要はないと認識されている。
その結果、複数ストア命令に必要な複数のレジスタから
なる連続セット全体をその命令に排他的に割り振る必要
がなく、むしろ、後続命令用のソース・オペランド・リ
ソースとして使用することができる。しかし、まだ格納
されていないレジスタの書込みを防止するために、複数
ストア命令が完了するまで、後続命令の結果をＧＰＲリ
ネーム・バッファ３３に格納しておかなければならな
い。複数ストア命令が完了すると、ＧＰＲリネーム・バ
ッファ３３からＧＰＲ３２内の設計済みレジスタに結果
オペランドを転送することによって、後続命令を完了す
ることができる。

【００２７】次に図３を参照すると、同図には、本発明
の好ましい実施例によりマイクロプロセッサ内で１つの
複数ストア命令（Store Mult）と２つの固定小数点命令
（FXInst3およびFX Inst4）が処理されるサイクルのタ
イミング図が示されている。一例として、以下の命令シ
ーケンスの処理について検討する。 stmw r28, r2, r1 add r2, r2, r28 add r3, r3, r30

【００２８】図３に示すように、複数ストア命令は、サ
イクル１中に取り出され、サイクル２でデコードされ、
サイクル３でディスパッチされ、サイクル４〜７中にロ
ード／ストア・ユニット２８によって実行され、サイク
ル８で完了する。本発明によれば、前の複数ストア命令
がサイクル３でディスパッチされた後、できるだけ早い
時期にFX Inst1およびFX Inst2がディスパッチされる。
FX Inst1はサイクル４中にディスパッチされ、１つのサ
イクル当たり１つの命令しか取り出すことができないの
で、FX Inst2はサイクル５中にディスパッチされる。こ
れらの固定小数点命令は、サイクル５および６で実行さ
れるようにただちに実行することができる。というの
は、複数ストア命令実行の進捗状況にかかわらず、実行
に必要なオペランド・データがすでにレジスタ２８およ
び３０に存在するからである。事実、サイクル６中にＬ
ＳＵ２８はレジスタ３０からのデータをメモリに格納
し、ＦＸＵ２２はレジスタ３０に収容されているオペラ
ンド・データをレジスタ３に収容されているオペランド
・データに加算する。固定小数点命令１および２の結果
は、それぞれサイクル９および１０になるまでリネーム
・バッファ３３に保持され、その時点で結果オペランド
がレジスタ２および３にそれぞれ格納される。前述のよ
うに、リソースの整合性を維持するために、複数ストア
命令が完了するまで、このような固定小数点命令は完了
しない。

【００２９】要約すると、本発明は、逐次化したロード
およびストアに関連するオーバヘッドの増加という重大
問題を解決するものである。このように操作を逐次化す
るには、逐次化した操作をディスパッチする前にマイク
ロプロセッサのレジスタを完全に空にし、完了するまで
このようなリソースをその逐次化命令に割り振った状態
に維持する必要がある。本発明では、逐次化を不要に
し、複数ロードおよびストア命令と同時に追加の後続命
令を実行できるようにすることによって、マイクロプロ
セッサのパフォーマンスを大幅に上昇させる。マイクロ
プロセッサの完了バッファに応じて、マイクロプロセッ
サはマルチレジスタ命令の実行中に相当な量の追加命令
を実行することができる。たとえば、好ましい実施例で
は、完了バッファの深さが５レジスタである場合、パイ
プラインの停止なしに最高４つの追加命令を完了できる
可能性がある。このような複数ロードおよびストア命令
が完了までに要する時間は最高３６サイクルなので、本
発明により、マイクロプロセッサの速度と効率の強化に
つながる大幅な時間節約が可能である。

【００３０】まとめとして、本発明の構成に関して以下
の事項を開示する。

【００３１】（１）複数のレジスタのうちの複数のレジ
スタにロードする少なくとも１つの複数ロード命令を含
む複数の命令をスーパースカラー・マイクロプロセッサ
で実行する方法において、ロード／ストア・ユニットに
複数ロード命令をディスパッチするステップであって、
ロード／ストア・ユニットがディスパッチされた複数ロ
ード命令の実行を開始し、複数ロード命令がメモリから
複数のレジスタにデータをロードするステップと、複数
のレジスタのうちの各レジスタをリストし、実行中の複
数ロード命令によって各レジスタにデータがロードされ
た時期を示すテーブルを管理するステップと、ソース・
オペランド・データがソース・レジスタにロードされた
ことをテーブルが示したときに、複数ロード命令がその
実行を完了する前に、その命令がソース・レジスタとし
て示した複数のレジスタのうちの１つのレジスタに複数
ロード命令によってロードされたソース・オペランド・
データに依存する命令を実行するステップとを含むこと
を特徴とする方法。（２）複数のレジスタのうちの複数のレジスタからメモ
リにデータを格納する少なくとも１つの複数ストア命令
を含む複数の命令をスーパースカラー・マイクロプロセ
ッサで実行する方法において、ロード／ストア・ユニッ
トに複数ストア命令をディスパッチし、その直後にロー
ド／ストア・ユニットが複数ストア命令の実行を開始
し、複数ストア命令が複数のレジスタからメモリにデー
タを格納するステップと、複数ストア命令がその実行を
完了する前に、その固定小数点命令がソース・レジスタ
として示した複数のレジスタのうちの１つのレジスタか
ら複数ストア命令によって格納されるデータに依存する
固定小数点命令を実行するが、複数ストア命令が完了す
る前に実行中の固定小数点命令を複数のレジスタのうち
の１つのレジスタに書き込むことを禁止するステップと
を含むことを特徴とする方法。（３）複数の命令を同時に実行するための複数の実行ユ
ニットを有し、メモリに接続されるスーパースカラー・
マイクロプロセッサにおいて、実行ユニットによる実行
の結果得られるデータを選択的に格納するための複数の
レジスタと、複数のレジスタからデータをロードする
か、または複数のレジスタにデータを格納するためのロ
ード命令とストア命令を実行するロード／ストア実行ユ
ニットと、複数のレジスタのソース・レジスタに格納さ
れたオペランド・データについて固定小数点演算を実行
するための固定小数点実行ユニットと、複数のレジスタ
のうちの１つまたは複数のレジスタをリストし、ロード
／ストア実行ユニットで実行中の複数ロード命令によっ
て各レジスタにデータがロードされた時期を示すテーブ
ルを管理するディスパッチャとを含み、複数ロード命令
がメモリから複数のレジスタのうちの複数にデータをロ
ードし、ディスパッチャがロード／ストア実行ユニット
および固定小数点実行ユニットを含む複数の実行ユニッ
トに命令をディスパッチし、さらにディスパッチャがロ
ード／ストア・ユニットに複数ロード命令をディスパッ
チし、ロード／ストア・ユニットが複数ロード命令の実
行を開始し、さらにロード／ストア実行ユニットでの複
数ロード命令の実行によってソース・オペランド・デー
タがソース・レジスタにロードされたことをテーブルが
示したときに、複数ロード命令がその実行を終了する前
に、ソース・レジスタとしてその命令によって示された
複数のレジスタのうちの１つのレジスタに複数ロード命
令によってロードされたソース・オペランド・データに
依存する固定小数点命令をディスパッチすることを特徴
とする、スーパースカラー・マイクロプロセッサ。（４）複数の命令を同時に実行するための複数の実行ユ
ニットを有し、メモリに接続されるスーパースカラー・
マイクロプロセッサにおいて、実行ユニットによる実行
の結果得られるデータを選択的に格納するための複数の
レジスタと、複数のレジスタからデータをロードする
か、または複数のレジスタにデータを格納するためのロ
ード命令とストア命令を実行するロード／ストア実行ユ
ニットと、複数のレジスタのソース・レジスタに格納さ
れたオペランド・データについて固定小数点演算を実行
するための固定小数点実行ユニットと、ロード／ストア
実行ユニットと固定小数点実行ユニットとを含む複数の
実行ユニットに命令をディスパッチするディスパッチャ
とを含み、ディスパッチャがロード／ストア・ユニット
に複数ストア命令をディスパッチし、ロード／ストア・
ユニットが複数ストア命令の実行を開始し、複数ストア
命令が複数のレジスタのうちの複数からメモリにデータ
を格納し、さらに複数ストア命令が終了する前に、実行
中の複数ストア命令によってメモリに格納される、複数
のレジスタのうちの１つのレジスタに格納されたソース
・オペランド・データに依存する固定小数点命令を固定
小数点実行ユニットにディスパッチし、複数ストア命令
が終了する前に固定小数点実行ユニットがディスパッチ
された固定小数点命令を実行するが、複数ストア命令が
終了する前に複数のレジスタのうちの１つのレジスタに
実行済み固定小数点命令の結果を格納しないことを特徴
とする、スーパースカラー・マイクロプロセッサ。

【図面の簡単な説明】

【図１】本発明の好ましい実施例により情報を処理する
ためのプロセッサのブロック図である。

【図２】本発明の好ましい実施例により複数ロード命令
と後続の固定小数点命令を処理するのに必要なサイクル
のタイミング図である。

【図３】本発明の好ましい実施例によりマイクロプロセ
ッサ内で１つの複数ストア命令と２つの固定小数点命令
が処理されるサイクルを示すタイミング図である。

【符号の説明】

１０プロセッサ１１システム・バス１２バス・インタフェース・ユニット（ＢＩＵ）１４命令キャッシュおよびＭＭＵ１６データ・キャッシュおよびＭＭＵ１７順次取出し器１８分岐処理ユニット１９命令待ち行列２０ディスパッチ・ユニット２２固定小数点ユニット（ＦＸＵ）２８ロード／ストア・ユニット（ＬＳＵ）３０浮動小数点ユニット（ＦＰＵ）３２汎用レジスタ（ＧＰＲ）３３ＧＰＲリネーム・バッファ３６浮動小数点レジスタ（ＦＰＲ）３７ＦＰＲリネーム・バッファ４０完了ユニット

───────────────────────────────────────────────────── フロントページの続き (72)発明者アルバート・ジェイ・ローパーアメリカ合衆国78613 テキサス州シーダー・パークフォレスト・トレール 1003 (72)発明者ソウンミヤ・マリックアメリカ合衆国78729 テキサス州オースチンパートリッジ・ベンド・ドライブ 13032 (72)発明者オーブリ・ディー・オグデンアメリカ合衆国78681 テキサス州ラウンド・ロックストーンリース・ドライブ 1905

Claims

【特許請求の範囲】

【請求項１】複数のレジスタのうちの複数のレジスタに
ロードする少なくとも１つの複数ロード命令を含む複数
の命令をスーパースカラー・マイクロプロセッサで実行
する方法において、ロード／ストア・ユニットに複数ロード命令をディスパ
ッチするステップであって、ロード／ストア・ユニット
がディスパッチされた複数ロード命令の実行を開始し、
複数ロード命令がメモリから複数のレジスタにデータを
ロードするステップと、複数のレジスタのうちの各レジスタをリストし、実行中
の複数ロード命令によって各レジスタにデータがロード
された時期を示すテーブルを管理するステップと、ソース・オペランド・データがソース・レジスタにロー
ドされたことをテーブルが示したときに、複数ロード命
令がその実行を完了する前に、その命令がソース・レジ
スタとして示した複数のレジスタのうちの１つのレジス
タに複数ロード命令によってロードされたソース・オペ
ランド・データに依存する命令を実行するステップとを
含むことを特徴とする方法。
【請求項２】複数のレジスタのうちの複数のレジスタか
らメモリにデータを格納する少なくとも１つの複数スト
ア命令を含む複数の命令をスーパースカラー・マイクロ
プロセッサで実行する方法において、ロード／ストア・ユニットに複数ストア命令をディスパ
ッチし、その直後にロード／ストア・ユニットが複数ス
トア命令の実行を開始し、複数ストア命令が複数のレジ
スタからメモリにデータを格納するステップと、複数ストア命令がその実行を完了する前に、その固定小
数点命令がソース・レジスタとして示した複数のレジス
タのうちの１つのレジスタから複数ストア命令によって
格納されるデータに依存する固定小数点命令を実行する
が、複数ストア命令が完了する前に実行中の固定小数点
命令を複数のレジスタのうちの１つのレジスタに書き込
むことを禁止するステップとを含むことを特徴とする方
法。
【請求項３】複数の命令を同時に実行するための複数の
実行ユニットを有し、メモリに接続されるスーパースカ
ラー・マイクロプロセッサにおいて、実行ユニットによる実行の結果得られるデータを選択的
に格納するための複数のレジスタと、複数のレジスタからデータをロードするか、または複数
のレジスタにデータを格納するためのロード命令とスト
ア命令を実行するロード／ストア実行ユニットと、複数のレジスタのソース・レジスタに格納されたオペラ
ンド・データについて固定小数点演算を実行するための
固定小数点実行ユニットと、複数のレジスタのうちの１つまたは複数のレジスタをリ
ストし、ロード／ストア実行ユニットで実行中の複数ロ
ード命令によって各レジスタにデータがロードされた時
期を示すテーブルを管理するディスパッチャとを含み、
複数ロード命令がメモリから複数のレジスタのうちの複
数にデータをロードし、ディスパッチャがロード／スト
ア実行ユニットおよび固定小数点実行ユニットを含む複
数の実行ユニットに命令をディスパッチし、さらにディ
スパッチャがロード／ストア・ユニットに複数ロード命
令をディスパッチし、ロード／ストア・ユニットが複数
ロード命令の実行を開始し、さらにロード／ストア実行
ユニットでの複数ロード命令の実行によってソース・オ
ペランド・データがソース・レジスタにロードされたこ
とをテーブルが示したときに、複数ロード命令がその実
行を終了する前に、ソース・レジスタとしてその命令に
よって示された複数のレジスタのうちの１つのレジスタ
に複数ロード命令によってロードされたソース・オペラ
ンド・データに依存する固定小数点命令をディスパッチ
することを特徴とする、スーパースカラー・マイクロプ
ロセッサ。
【請求項４】複数の命令を同時に実行するための複数の
実行ユニットを有し、メモリに接続されるスーパースカ
ラー・マイクロプロセッサにおいて、実行ユニットによる実行の結果得られるデータを選択的
に格納するための複数のレジスタと、複数のレジスタからデータをロードするか、または複数
のレジスタにデータを格納するためのロード命令とスト
ア命令を実行するロード／ストア実行ユニットと、複数のレジスタのソース・レジスタに格納されたオペラ
ンド・データについて固定小数点演算を実行するための
固定小数点実行ユニットと、ロード／ストア実行ユニットと固定小数点実行ユニット
とを含む複数の実行ユニットに命令をディスパッチする
ディスパッチャとを含み、ディスパッチャがロード／ス
トア・ユニットに複数ストア命令をディスパッチし、ロ
ード／ストア・ユニットが複数ストア命令の実行を開始
し、複数ストア命令が複数のレジスタのうちの複数から
メモリにデータを格納し、さらに複数ストア命令が終了
する前に、実行中の複数ストア命令によってメモリに格
納される、複数のレジスタのうちの１つのレジスタに格
納されたソース・オペランド・データに依存する固定小
数点命令を固定小数点実行ユニットにディスパッチし、
複数ストア命令が終了する前に固定小数点実行ユニット
がディスパッチされた固定小数点命令を実行するが、複
数ストア命令が終了する前に複数のレジスタのうちの１
つのレジスタに実行済み固定小数点命令の結果を格納し
ないことを特徴とする、スーパースカラー・マイクロプ
ロセッサ。