JP3096429B2

JP3096429B2 - 複数の命令の非整順完了をサポートする方法およびスーパースカラ・マイクロプロセッサ

Info

Publication number: JP3096429B2
Application number: JP08221086A
Authority: JP
Inventors: アルバート・ジェイ・ローパー; ソウンミヤ・マリック
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1995-09-11
Filing date: 1996-08-22
Publication date: 2000-10-10
Anticipated expiration: 2016-08-22
Also published as: JPH09138748A; KR100260680B1; EP0762271A2; US5850563A; EP0762271A3; KR970016946A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、全般的にはマイク
ロプロセッサで命令を実行する方法およびシステムに関
し、具体的には、ロード多重またはストア多重命令の実
行中に浮動小数点命令を実行し、完了するための方法お
よび装置に関する。

【０００２】

【従来の技術】現代のマイクロプロセッサでは、多重レ
ジスタ・ロード／ストア命令またはロード／ストア多重
命令によって、マイクロプロセッサの汎用レジスタ（Ｇ
ＰＲ）と、キャッシュやＲＡＭなどのメモリとの間でデ
ータのブロックを移動する。従来の技術では、多重レジ
スタ命令でマイクロプロセッサ内に含まれる汎用レジス
タのすべて（通常は３２個）が変更または使用されるの
で、多重レジスタ・ロード／ストア命令は、後続の命令
との完全な直列化を必要とする。複数のレジスタの読み
書きを実行するには複数のサイクルが必要なので、浮動
小数点演算を含む、命令シーケンス内の後続命令は、非
整順（out-of-order）実行によるレジスタ・データの破
壊を防ぐために、多重レジスタ命令が完了するまで命令
バッファに保持される。このようなシステムでは、多重
レジスタ命令が完了するまで命令パイプラインを停止さ
せることによって、実質的にマイクロプロセッサの性能
が制限される。

【０００３】

【発明が解決しようとする課題】多重レジスタ命令を実
行している間に後続の浮動小数点命令の実行を開始で
き、おそらくは実行を完了できるようにする方法および
システムが必要である。このような機構があれば、複数
のレジスタを利用する命令を後続の浮動小数点命令と並
列に実行できるので、スーパースカラ設計を有するマイ
クロプロセッサの性能がかなり改善されるはずである。

【０００４】

【課題を解決するための手段】本発明によれば、先行す
るロード多重命令またはストア多重命令の実行が終了す
る前に浮動小数点命令を早期に完了するためのスーパー
スカラ・マイクロプロセッサ内の方法および装置が提供
される。このマイクロプロセッサのロード／ストア・ユ
ニットは、データを汎用レジスタにロードまたは汎用レ
ジスタからメモリにストアし、このマイクロプロセッサ
のディスパッチ・ユニットは、ロード／ストア・ユニッ
トと浮動小数点実行ユニットを含む複数の実行ユニット
に命令をディスパッチする。この方法は、多重レジスタ
命令をディスパッチ・ユニットからロード／ストア・ユ
ニットにディスパッチして、多重レジスタ命令の実行を
開始することを含んでいる。なお、多重レジスタ命令
は、ストア多重命令やロード多重命令のように、所定数
の汎用レジスタ（たとえば、３２個の汎用レジスタ）の
うちの連続する２つ以上の汎用レジスタからメモリへデ
ータを順次にストアしたり、またはメモリからのデータ
を連続する２つ以上の汎用レジスタに順次にロードする
ための命令である。さらに、ロード／ストア・ユニット
内で多重レジスタ命令が実行を終了する前に、ディスパ
ッチ・ユニットは、所定数の浮動小数点レジスタのうち
の１つ以上の浮動小数点レジスタに格納されたソース・
オペランド・データに依存する浮動小数点命令を浮動小
数点ユニットにディスパッチし、ディスパッチされた浮
動小数点命令は、多重レジスタ命令が実行を終了する前
に実行を完了する。

【０００５】本発明の上記ならびに他の目的、特徴およ
び長所は、以下の詳細な説明で明らかになる。

【０００６】

【発明の実施の形態】図１を参照すると、本発明の好ま
しい実施例に従ったプロセッサ１０のブロック図が示さ
れている。図示の例では、プロセッサ１０は、単一の集
積回路スーパースカラ・マイクロプロセッサから成る。
したがって、後述するように、プロセッサ１０は、種々
の実行ユニット、レジスタ、バッファ、メモリおよび他
の機能ユニットから成り、これらのすべてが集積回路に
よって形成される。本発明の好ましい実施例では、プロ
セッサ１０は、縮小命令セット・コンピュータ（ＲＩＳ
Ｃ）技術によって動作する、ＩＢＭ社製造のＰｏｗｅｒ
ＰＣ（商標）系列のマイクロプロセッサのうちの１つに
相当する。

【０００７】プロセッサ１０は、そのバス・インターフ
ェース・ユニット（ＢＩＵ）１２を介してシステム・バ
ス１１に結合される。ＢＩＵ１２は、主記憶（図示せ
ず）などのシステム・バス１１に結合された他のデバイ
スとプロセッサ１０との間の情報の転送を制御する。プ
ロセッサ１０、システム・バス１１およびシステム・バ
ス１１に結合された他のデバイスが、ホスト・データ処
理システムを形成する。ＢＩＵ１２は、プロセッサ１０
内の命令キャッシュ１４およびデータ・キャッシュ１６
に接続される。命令キャッシュ１４やデータ・キャッシ
ュ１６などの高速キャッシュがあると、以前に主記憶か
ら高速キャッシュに転送されたデータまたは命令のサブ
セットをプロセッサ１０が比較的高速にアクセスできる
ようになり、したがって、ホスト・データ処理システム
の動作速度が向上する。命令キャッシュ１４は、さら
に、シーケンシャル・フェッチャ１７に結合され、この
シーケンシャル・フェッチャ１７は、実行のために各サ
イクルの間に命令キャッシュ１４から命令を取り出す。
シーケンシャル・フェッチャ１７は、実行のために分岐
命令を分岐処理ユニット（ＢＰＵ）１８に転送し、ま
た、プロセッサ１０内の他の実行回路によって実行され
る前の一時的な記憶のために順次命令を命令キュー１９
に転送する。

【０００８】図示の実施例では、ＢＰＵ１８の他に、プ
ロセッサ１０は、固定小数点ユニット（ＦＸＵ）２２、
ロード／ストア・ユニット（ＬＳＵ）２８および浮動小
数点ユニット（ＦＰＵ）３０を含む、複数の実行ユニッ
トを備えている。周知のように、ＦＸＵ２２、ＬＳＵ２
８およびＦＰＵ３０の各々は、各プロセッサ・サイクル
中に特定クラスの順次命令に属する１つ以上の命令を実
行する。たとえば、ＦＸＵ２２は、指定された汎用レジ
スタ（ＧＰＲ）３２またはＧＰＲリネーム・バッファ３
３から受け取るソース・オペランドを利用して、加算、
減算、ＡＮＤ、ＯＲ、ＸＯＲなどの固定小数点演算を実
行する。固定小数点命令の実行に続いて、ＦＸＵ２２
は、その命令の結果データをＧＰＲリネーム・バッファ
３３に出力し、ＧＰＲリネーム・バッファ３３は、当該
バッファから１つ以上のＧＰＲ３２へ結果データを転送
することによって命令が完了するまで、結果データの一
時記憶となる。逆に、ＦＰＵ３０は、浮動小数点レジス
タ（ＦＰＲ）３６またはＦＰＲリネーム・バッファ３７
から受け取るソース・オペランドに対して、浮動小数点
の乗算や除算などの浮動小数点演算を実行する。ＦＰＵ
３０は、浮動小数点命令の実行から生じるデータを、選
択されたＦＰＲリネーム・バッファ３７に出力し、この
ＦＰＲリネーム・バッファ３７は、当該ＦＰＲリネーム
・バッファ３７から選択されたＦＰＲ３６へ結果データ
を転送することによって命令が完了するまで、結果デー
タを一時的に記憶する。ＬＳＵ２８は、特定の浮動小数
点命令および固定小数点命令を実行する。これらの命令
は、メモリ（すなわち、データ・キャッシュ１６または
主記憶のいずれか）から選択されたＧＰＲ３２またはＦ
ＰＲ３６へデータをロードするための命令か、あるいは
ＧＰＲ３２、ＧＰＲリネーム・バッファ３３、ＦＰＲ３
６またはＦＰＲリネーム・バッファ３７のうちの選択さ
れた１つからメモリへデータをストアするための命令で
ある。

【０００９】プロセッサ１０は、命令のパイプライン化
と非整順実行の両方を利用して、スーパースカラ・アー
キテクチャの性能をさらに向上させる。したがって、命
令は、データ依存性が監視されない限り、任意の順序で
ＦＸＵ２２、ＬＳＵ２８およびＦＰＵ３０によって実行
できる。さらに、命令は、一連のパイプライン・ステー
ジでＦＸＵ２２、ＬＳＵ２８およびＦＰＵ３０の各々に
よって処理される。高性能プロセッサで典型的なとお
り、各命令は、５つの別個のパイプライン・ステージ、
すなわち、フェッチ、復号／ディスパッチ、実行、終了
および完了の各ステージで処理される。

【００１０】フェッチ・ステージの間には、シーケンシ
ャル・フェッチャ１７が、１つ以上のメモリ・アドレス
に関連する１つ以上の命令を命令キャッシュ１４から取
り出す。命令キャッシュ１４から取り出された順次命令
は、シーケンシャル・フェッチャ１７によって命令キュ
ー１９に格納される。取り出された分岐命令は、命令ス
トリームから除去され、実行のためＢＰＵ１８に転送さ
れる。ＢＰＵ１８は、分岐履歴テーブルなどの、分岐予
測機構を含んでいる。かかる分岐予測機構は、未解決の
条件分岐命令の分岐が行われるかどうかを予測すること
によって、ＢＰＵ１８がその条件分岐命令を投機実行で
きるようにするものである。

【００１１】復号／ディスパッチ・ステージの間には、
ディスパッチ・ユニット２０が、命令キュー１９からの
１つ以上の命令を復号し、ＦＸＵ２２、ＬＳＵ２８およ
びＦＰＵ３０のうちの適切な１つにディスパッチする。
また、復号／ディスパッチ・ステージの間には、ディス
パッチ・ユニット２０が、ディスパッチされた命令の結
果データの各々ごとに、ＧＰＲリネーム・バッファ３３
またはＦＰＲリネーム・バッファ３７内の１つのリネー
ム・バッファを割り振る。本発明の好ましい実施例によ
れば、プロセッサ１０は、プログラム順で命令をディス
パッチし、ディスパッチされた命令のプログラム順序を
非整順実行中に一意的な命令識別子を使用して追跡す
る。命令識別子のほかに、プロセッサ１０の実行パイプ
ライン内の各命令は、その命令のオペランドＡおよびＢ
のソースを示すｒＡタグおよびｒＢタグと、その命令の
結果データ用のＧＰＲリネーム・バッファ３３またはＦ
ＰＲリネーム・バッファ３７内の宛先リネーム・バッフ
ァを示すｒＤタグを有する。

【００１２】実行ステージの間には、ＦＸＵ２２、ＬＳ
Ｕ２８およびＦＰＵ３０が、指示された演算のオペラン
ドと実行リソースが使用可能である時に、ディスパッチ
・ユニット２０から受け取った命令を実行する。実行が
終了した後に、ＦＸＵ２２、ＬＳＵ２８およびＦＰＵ３
０は、命令のタイプに応じて、ＧＰＲリネーム・バッフ
ァ３３またはＦＰＲリネーム・バッファ３７のいずれか
に結果データを記憶する。その後、ＦＸＵ２２、ＬＳＵ
２８およびＦＰＵ３０は、どの命令の実行を終了したか
を完了ユニット４０に通知する。最後に、命令は、結果
データをＧＰＲリネーム・バッファ３３からＧＰＲ３２
へ、またはＦＰＲリネーム・バッファ３７からＦＰＲ３
６へ転送することによって、完了ユニット４０によって
プログラム順で完了する。

【００１３】本発明の好ましい実施例では、プロセッサ
１０は、複数の汎用レジスタとメモリとの間でデータの
ロードおよびまたはストアを行う、多重レジスタ命令を
実行することができる。具体的に言うと、ＰｏｗｅｒＰ
Ｃ（商標）マイクロプロセッサの好ましい実施例では、
プロセッサ１０は、複数ワードをメモリから汎用レジス
タ（ＧＰＲ）３２にロードするロード多重命令（ｌｍ
ｗ）と、複数ワードをＧＰＲ３２からメモリにストアす
るストア多重命令（ｓｔｍｗ）を実行する。

【００１４】これらの多重レジスタ命令は、シーケンシ
ャル・フェッチャ１７によって命令キャッシュ１４から
取り出され、命令キュー１９にロードされる。ディスパ
ッチ・ユニット２０による多重レジスタ命令のディスパ
ッチの際に、ＬＳＵ２８は、多重レジスタ命令の実行を
開始する。また、その命令のディスパッチの際には、多
重レジスタ命令で識別された、ＧＰＲ３２のうちの複数
の汎用レジスタが、その命令に割り振られる。

【００１５】好ましい実施例では、ロード多重命令また
はストア多重命令が、３２個までの連続した汎用レジス
タとメモリとの間で、３２個までの連続したワードを授
受することを必要とする。たとえば、ストア多重命令
「stmw r3, r2, r1」では、汎用レジスタ３〜３１の内
容が、＜ｒ２＋ｒ１＞によって指定されるメモリ位
置にストアされる。したがって、この例では、その内容
をストアすべき最初の汎用レジスタは、汎用レジスタ３
（ｒ３）である。その後、ＬＳＵ２８は、汎用レジスタ
４から汎用レジスタ３１までのすべての汎用レジスタの
内容がストアされるまで、この処理を続ける。その時点
で、ストア多重命令の実行が終了する。これは、完了ユ
ニット４０に報告され、完了ユニット４０は、システム
内のアーキテクチャ・レジスタにコミットすることによ
ってこの命令を完了する。

【００１６】図２には、従来技術のマイクロプロセッサ
内でストア多重命令と後続の浮動小数点命令を処理する
のに必要なプロセッサ・サイクルのタイミング図が示さ
れている。ストア多重命令（store Mult）は、サイクル
１の間にシーケンシャル・フェッチャ１７によって命令
キャッシュ１４から取り出される（Ｆ）。この命令は、
サイクル２の間に復号（Ｄｅｃ）され、サイクル３の間
にディスパッチ・ユニット２０によってＬＳＵ２８にデ
ィスパッチ（Ｄｉｓｐ）される。ＬＳＵ２８は、サイク
ル４〜７の間にこのストア多重命令を実行（Ｅ）し、こ
の命令は、完了ユニット４０によってサイクル８の間に
完了（Ｃ）する。

【００１７】従来技術では、ロード多重命令またはスト
ア多重命令に続く浮動小数点命令は、必ず直列化され、
その結果、ロード多重命令またはストア多重命令が完了
するまで取り出されないようになる。これによって、格
納されたオペランド・データの保全性が保証される。し
たがって、図２の従来技術の例では、後続の浮動小数点
命令は、サイクル９まで取り出されない。このようなシ
ステムでは、多重レジスタ命令が完了するまで命令パイ
プラインを停止させることによって、実質的にマイクロ
プロセッサの性能が制限される。

【００１８】本発明によれば、ロード多重命令またはス
トア多重命令の実行中に、後続の浮動小数点命令を非整
順に完了することができる。たとえば、好ましい実施例
では、ストア多重動作は、３２個までの連続した汎用レ
ジスタの内容を、３２ワードまでのメモリ内の位置にス
トアすることが必要である。たとえば、ストア多重命令
「stmw r3, r2, r1」では、汎用レジスタ３〜３１の内
容が、＜ｒ２＋ｒ１＞にによって指定されるメモリ位置
にストアされる。本発明によれば、ストア多重命令のデ
ィスパッチの直後に、無条件に後続の浮動小数点命令を
ＦＰＵ３０にディスパッチすることができる。さらに、
これらの浮動小数点命令は、先行するストア多重命令の
実行が終了する前に、非整順に完了することができる。

【００１９】本発明では、浮動小数点演算からの結果デ
ータが浮動小数点レジスタに格納されるのに対して、ロ
ード多重またはストア多重命令は汎用レジスタを使用し
てロードまたはストアを行うので、多重レジスタ命令を
後続の浮動小数点命令と直列化する必要がないことが認
識される。その結果、ロード多重命令またはストア多重
命令に必要な連続した汎用レジスタの内容が、浮動小数
点命令の実行によって破壊される可能性がない。この種
の早期完了は、例外をもたらす命令が整順に完了しない
場合であっても、すべての事象がプログラム順で発生す
るとの見通しをプログラマが有しなければならないとい
う要件に違反しない。もし、多重レジスタ命令がまだ実
行されている間に、浮動小数点演算の実行が例外をもた
らすのであれば、その例外はこの多重レジスタ命令が完
了するまで採用されない。

【００２０】図３には、本発明のマイクロプロセッサ内
で、１つのストア多重命令（StoreMult）と２つの浮動
小数点命令（FP Inst1およびFP Inst2）を処理するサイ
クルのタイミング図が示されている。１例として、下記
の命令シーケンスの処理を検討する。 stmw r28, r2, r1 fp-add r2, r2, r28 fp-add r3, r3, r30

【００２１】図３に示すように、ストア多重命令はサイ
クル１の間に取り出され、サイクル２で復号され、サイ
クル３でディスパッチされ、サイクル４〜７の間にＬＳ
Ｕ２８によって実行され、サイクル８で完了する。本発
明によれば、「FP Inst1」および「FP Inst2」を、スト
ア多重命令のディスパッチの前または後の任意の時刻に
ディスパッチできるようにすることによって、非整順完
了がサポートされる。この例では、これらの浮動小数点
命令は、先行するストア多重命令がサイクル３でディス
パッチされた後、プログラム順にできる限り早くディス
パッチされる。「FP Inst1」はサイクル４の間にディス
パッチされ、１サイクルあたり１命令しか取り出すこと
ができないので、「FP Inst2」はサイクル５の間にディ
スパッチされる。これらの浮動小数点命令は、ストア多
重命令実行の進行状況に無関係に、ＦＰＵ３０内でサイ
クル５および６の間に即座に実行することができる。こ
れらの浮動小数点命令１および２の結果は、それぞれサ
イクル６および７までに、ＦＰＲリネーム・バッファ３
７内に保持され、その時点で、結果のオペランドがそれ
ぞれ浮動小数点レジスタ２および３に格納される。した
がって、前に説明したように、これらの浮動小数点命令
は、プログラム・シーケンス内で先行するストア多重命
令が完了する前に完了することができる。

【００２２】要約すると、本発明は、先行するロード多
重命令またはストア多重命令の実行中に、浮動小数点演
算の早期完了のための方法および装置を提供する。本発
明によれば、ロード多重命令またはストア多重命令と同
時に追加の後続命令を実行できるようになり、したがっ
てかかる命令の直列化が不要になるので、マイクロプロ
セッサの性能が実質的に向上する。マイクロプロセッサ
の完了バッファに応じて、かなりの量の追加命令を、多
重レジスタ命令の実行中にマイクロプロセッサによって
実行し、完了することができる。たとえば、５レジスタ
の完了バッファ深さを有する好ましい実施例では、パイ
プライン・ストールなしで４つまでの追加命令を完了さ
せる潜在能力がある。ロード多重命令またはストア多重
命令の完了には最大３６サイクルを要するので、本発明
は、マイクロプロセッサの速度と効率を強化する実質的
な時間の節約をもたらす。

【図面の簡単な説明】

【図１】本発明の好ましい実施例に従った、プロセッサ
のブロック図である。

【図２】従来技術でロード多重命令またはストア多重命
令と後続の浮動小数点命令を処理するのに必要なサイク
ルのタイミング図である。

【図３】本発明のマイクロプロセッサ内でロード多重命
令またはストア多重命令と後続の２つの浮動小数点命令
を処理するのに必要なサイクルのタイミング図である。

【符号の説明】

１０プロセッサ１１システム・バス１２バス・インターフェース・ユニット（ＢＩＵ）１４命令キャッシュ１６データ・キャッシュ１７シーケンシャル・フェッチャ１８分岐処理ユニット（ＢＰＵ）１９命令キュー２０ディスパッチ・ユニット２２固定小数点ユニット（ＦＸＵ）２８ロード／ストア・ユニット（ＬＳＵ）３０浮動小数点ユニット（ＦＰＵ）３２汎用レジスタ（ＧＰＲ）３３ＧＰＲリネーム・バッファ３６浮動小数点レジスタ（ＦＰＲ）３７ＦＰＲリネーム・バッファ４０完了ユニット

───────────────────────────────────────────────────── フロントページの続き (72)発明者ソウンミヤ・マリックアメリカ合衆国78729 テキサス州オースチンパートリッジ・ベンド・ドライブ 13032 (56)参考文献特開平６−242953（ＪＰ，Ａ) 特開平４−102922（ＪＰ，Ａ) 特開平４−102923（ＪＰ，Ａ) 特開平９−146770（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/38

Claims

(57)【特許請求の範囲】

【請求項１】メモリと、ディスパッチ・ユニットと、所
定数の汎用レジスタと、所定数の浮動小数点レジスタ
と、ロード／ストア・ユニットおよび浮動小数点実行ユ
ニットを含む複数の実行ユニットとを備え、前記メモリ
からのデータを前記所定数の汎用レジスタのうちの連続
する２つ以上の汎用レジスタに順次にロードするか、ま
たは連続する２つ以上の汎用レジスタからのデータを前
記メモリに順次にストアするための多重レジスタ命令を
実行することができるスーパースカラ・マイクロプロセ
ッサにおいて、前記多重レジスタ命令を前記ディスパッチ・ユニットか
ら前記ロード／ストア・ユニットにディスパッチするこ
とにより、前記ロード／ストア・ユニットにおける前記
多重レジスタ命令の実行を開始させるステップと、プログラム順では前記ディスパッチされた多重レジスタ
命令に後続し、且つ前記所定数の浮動小数点レジスタの
うちの１つ以上の浮動小数点レジスタに格納されたソー
ス・オペランド・データに依存する浮動小数点命令を、
前記ディスパッチ・ユニットから前記浮動小数点実行ユ
ニットにディスパッチするステップと、前記多重レジスタ命令が前記ロード／ストア・ユニット
にディスパッチされた後で、且つ前記多重レジスタ命令
の実行が終了する前に、前記浮動小数点命令の実行を完
了するステップとから成り、前記完了するステップが、前記浮動小数点命令の実行結
果データを前記所定数の浮動小数点レジスタのうちの１
つ以上の浮動小数点レジスタに格納するステップを含
む、複数の命令の非整順完了をサポートする方法。
【請求項２】前記多重レジスタ命令が、前記２つ以上の
汎用レジスタからのデータを前記メモリに順次にストア
する多重レジスタ・ストア命令である、請求項１に記載
の方法。
【請求項３】前記多重レジスタ命令が、前記メモリから
のデータを前記２つ以上の汎用レジスタに順次にロード
するための多重レジスタ・ロード命令である、請求項１
に記載の方法。
【請求項４】メモリを備え、プログラム順で先行する多
重レジスタ命令の実行中に、後続の浮動小数点命令を非
整順に完了することができるスーパースカラ・マイクロ
プロセッサであって、整数データを選択的に格納する所定数の汎用レジスタ
と、浮動小数点データを選択的に格納する所定数の浮動小数
点レジスタと、前記メモリからのデータを前記所定数の汎用レジスタの
うちの連続する２つ以上の汎用レジスタに順次にロード
するか、または連続する２つ以上の汎用レジスタからの
データを前記メモリに順次にストアするための前記多重
レジスタ命令を実行するロード／ストア・ユニットと、前記所定数の浮動小数点レジスタのうちの１つ以上の浮
動小数点レジスタに格納されたオペランド・データに対
して浮動小数点演算を実行する浮動小数点実行ユニット
と、前記ロード／ストア・ユニットおよび前記浮動小数点実
行ユニットを含む複数の実行ユニットに命令をディスパ
ッチするディスパッチ・ユニットであって、前記多重レ
ジスタ命令を前記ロード／ストア・ユニットにディスパ
ッチすることにより、前記ロード／ストア・ユニットに
おける前記多重レジスタ命令の実行を開始させるととも
に、前記ロード／ストア・ユニットにおける前記多重レ
ジスタ命令の実行が終了する前に、前記所定数の浮動小
数点レジスタのうちの１つ以上の浮動小数点レジスタに
格納されたソース・オペランド・データに依存する浮動
小数点命令を、前記浮動小数点実行ユニットにディスパ
ッチするディスパッチ・ユニットと、前記浮動小数点命令の実行結果データを前記所定数の浮
動小数点レジスタのうちの１つ以上の浮動小数点レジス
タに格納することにより、前記ロード／ストア・ユニッ
トにおける前記多重レジスタ命令の実行が終了する前
に、前記浮動小数点命令の実行を完了する完了ユニット
を備えたことを特徴とする、前記スーパースカラ・マイクロプロセッサ。