JPH07295813A

JPH07295813A - 複数の型のオペレーションを同時並列で実行するためのプロセッサコア、およびオペレーションに用いられるオペランドデータを処理し通信する方法

Info

Publication number: JPH07295813A
Application number: JP7101147A
Authority: JP
Inventors: Scott A White; スコット・エイ・ホワイト; Michael D Goddard; マイケル・ディー・ゴッダード; William M Johnson; ウィリアム・エム・ジョンソン
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 1994-04-26
Filing date: 1995-04-25
Publication date: 1995-11-10
Anticipated expiration: 2020-02-09
Also published as: JP3618821B2; ATE212454T1; EP0679992A1; DE69525097D1; US5574928A; EP0679992B1; DE69525097T2

Abstract

(57)【要約】【目的】混合型オペレーションを同時並列で実行する
プロセッサコアを提供する。【構成】プロセッサコア１０は、第１のサイズのデー
タ幅を有する第１の機能ユニット２１と、第１のサイズ
より大きい第２のサイズのデータ幅を有する第２の機能
ユニット２２と、第１および第２の機能ユニット２１、
２２のデータ経路に結合され、第２のサイズと等しいか
またはそれより大きいサイズを有するバス３０、３１、
３２とを含む。

Description

【発明の詳細な説明】

【０００１】

【発明の背景】関連出願この出願は、１９９３年１０月２９日出願の米国特許出
願連続番号０８／１４６，３８２の一部係属出願であ
る。

【０００２】発明の分野この発明はプロセッサアーキテクチャに関する。より特
定的にはこの発明は、浮動小数点機能ユニットと非浮動
小数点機能ユニットとを組合せるプロセッサアーキテク
チャに関連する。

【０００３】関連技術の説明プロセッサは一般的に命令セットのうちの１つの命令を
いくつかのステップで処理する。初期の技術によるプロ
セッサはこれらのステップを直列に行なった。技術の進
歩で、スカラプロセッサと呼ばれる、多くの命令の異な
るステップを同時並列で行なうパイプラインアーキテク
チャプロセッサへと至った。「スーパースカラ」プロセ
ッサもまたパイプライン構造を用いて実現されるが、そ
れはスカラ命令を同時並列で実行することによって性能
をさらに向上させる。

【０００４】スーパースカラプロセッサでは、必要なデ
ータまたは資源が利用可能でないために、発行された命
令が実行できないという命令の競合および依存性条件が
生じる。たとえば、発行された命令の入力オペランドが
実行を完了していない他の命令によって計算されるデー
タに依存しているときは、その命令は実行できない。

【０００５】分岐命令の予測実行と、命令を即座に実行
できるかどうかにかかわらず命令デコードを継続するこ
ととによって、スーパースカラプロセッサの性能は向上
される。命令デコードと命令実行との切離しは、プロセ
ッサの命令デコーダと、機能ユニットと呼ばれる、命令
を実行する回路との間にバッファを必要とする。

【０００６】浮動小数点機能はもう何年もの間、非スー
パースカラコンピュータおよびプロセッサにおいて利用
されてきた。マイクロプロセッサは通常は、別個の浮動
小数点回路と整数回路とを活性化することによって、浮
動小数点命令と整数命令とを行なう。浮動小数点演算の
ための標準は、インスティチュート・オブ・エレクトリ
カル・アンド・エレクトロニック・エンジニアーズ（In
stitute of Electrical and Electronic Engineers）に
よって、「２進浮動小数点演算のためのＩＥＥＥ規格
（IEEE Standard For Binary Floating-Point Arithmet
ic）」、ANSI/IEEE 規格754-1985、IEEEインコーポレイ
テッド（IEEE Inc. ）、1985に発表されている。この標
準は広く受入れられており、プロセッサがそのオプショ
ンの拡張浮動小数点フォーマットをサポートするのは有
利なことである。

【０００７】いくつかのコンピュータは、別個の主プロ
セッサチップとコプロセッサチップとを用いる。主プロ
セッサは浮動小数点レジスタスタックを読出しおよびそ
れに書込んで浮動小数点オペレーションを行なう。たと
えば、スカラマイクロプロセッサである８０３８６主プ
ロセッサおよび８０３８７数値計算コプロセッサがさま
ざまな製造業者から入手可能である。数値計算コプロセ
ッサは主プロセッサからの要求で開始される浮動小数点
オペレーションを制御する。主プロセッサは、２倍に拡
張されたフォーマットに記憶される８つまでの浮動小数
点値を保持するための８つのレジスタを含むレジスタス
タックにアクセスする。３２ビットの単精度値または６
４ビットの倍精度値はメモリからロードされ８０ビット
の２倍に拡張されたフォーマットに拡張される。逆に、
メモリに記憶される際には、２倍に拡張された値は短縮
されて単精度値または倍精度値に丸められる。

【０００８】カリフォルニア州（California）、サンタ
・クララ（Santa Clara ）のインテル・コーポレイショ
ン（Intel Corporation ）から入手可能なPentium ^TMマ
イクロプロセッサは、２つの命令パイプラインのオペレ
ーションを制御することによって、混合された浮動小数
点および整数命令を実行する、スーパースカラプロセッ
サである。パイプラインのうちの１つはすべての整数お
よび浮動小数点命令を実行する。第２のパイプラインは
単純な整数命令と浮動小数点交換命令とを実行する。

【０００９】浮動小数点機能ユニットをスーパースカラ
プロセッサにいくつかの整数機能ユニットとともに組入
れることは望ましい。ダブリュー・エム・ジョンソン
（W.M.Johnson ）は、「スーパースカラプロセッサ設計
（Superscalar Processor Design）」、エンゲルウッド
・クリフス（Engelwood Cliffs）、Ｎ．Ｊ．、プレンテ
ィス・ホール（Prentice Hall ）、１９９１、ｐ．４５
で、プロセッサ機能ブロックの２つの組、つまり３２ビ
ットのユニットおよびバス上に構成される整数の組と、
８０ビット構造に編成される浮動小数点の組とを与えて
いる。スーパースカラプロセッサにおいて、浮動小数点
の組および整数の組は、別個のレジスタファイルとリオ
ーダバッファとオペランドバスと結果バスとを各々必要
とする。浮動小数点命令は浮動小数点の組内の命令デコ
ーダによってディスパッチされる。別の命令デコーダは
ユニットの整数の組に設けられる。このジョンソンのア
プローチはスーパースカラアーキテクチャを組込むプロ
セッサにおける浮動小数点演算をサポートして、命令デ
コードおよび命令実行と、分岐予測とを切離す。このア
プローチのかなりの性能上の利点は、資源の重複を省み
ないことによって達成される。さらに、性能におけるい
くぶんかの低下が、機能ブロックの整数の組と浮動小数
点の組との間におけるオペレーションの調整から生ず
る。

【００１０】

【発明の概要】この発明は、スーパースカラアーキテク
チャの利点をよりよく実現して、命令デコードおよび命
令実行と分岐予測とを切離す、整数および浮動小数点デ
ータの改善された処理のための内部マシン編成を有する
プロセッサおよびアーキテクチャである。

【００１１】この発明のスーパースカラプロセッサおよ
びアーキテクチャは、整数およびＩＥＥＥ拡張浮動小数
点フォーマットの標準的演算をサポートしながら、デコ
ーダ、レジスタファイル、リオーダバッファ、ならびに
関連のオペランドバスおよび結果バスのような機能ブロ
ックの重複を有利に回避する。資源重複を避けることに
より、生産コストおよびオペレーティングコストが減少
し、重複する資源間の相互作用から生じる複雑性が回避
され、機能ブロックの異なる組によって行なわれるオペ
レーション間のタイミング関係の制御が容易となる。

【００１２】この発明のアーキテクチャは、整数データ
または浮動小数点データのいずれもが共通の包括的な方
法で共通の制御下において多重データ経路の組の任意の
データ経路に流れるという整数データおよび浮動小数点
データの処理を、パイプラインプロセッサまたはスーパ
ースカラプロセッサに有利に組込む。

【００１３】整数オペレーションおよび浮動小数点オペ
レーションの両方のための依存性およびタグ情報を記憶
するために、１つのリオーダバッファメモリを用いて、
解決されないデータ依存性を処理することは、この発明
のスーパースカラプロセッサの特定的な利点である。リ
オーダバッファの１つの機能は、散在する整数および浮
動小数点オペレーションの順序を含む、ディスパッチさ
れるオペレーションの順序を維持することである。単一
のリオーダバッファはオペレーション順序を単純な態様
で維持する。対照的に、別個の整数リオーダバッファと
浮動小数点リオーダバッファとを有するプロセッサはオ
ペレーション順序を維持するのに広範囲にわたる相互参
照を必要とする。

【００１４】さらに、この発明のスーパースカラプロセ
ッサの性能は、単一のリオーダバッファを実現して、分
岐予測および回復を用いて、混合された整数および浮動
小数点オペレーションの予測実行を処理することによっ
て、有利に強化される。単一のリオーダバッファは、整
数オペレーション、浮動小数点オペレーション、および
分岐オペレーションの順序を維持する。リオーダバッフ
ァにおける他のエントリに関する分岐命令の位置はポイ
ンタによって示される。したがって、命令シーケンスは
１つの分岐ポインタでもってリオーダバッファエントリ
の１つのシーケンスに反映される。分岐の予測誤り後の
予測状態のフラッシングは、記憶されるデータの型に関
係なく、および複雑な制御構造または命令の直列化を要
求することなく、分岐の予測誤りの後の回復の間にわず
か１つのメモリを変えることによって容易に達成される
であろう。

【００１５】この発明のプロセッサおよびアーキテクチ
ャは、第１のサイズのオペランドデータを用いる第１の
機能ユニットと第２のサイズのオペランドデータを用い
る第２の機能ユニットとを含む、混合された整数および
浮動小数点オペレーションを同時並列で実行するための
新しいプロセッサコアを提供することによってこれらの
利点を達成する。データを与えるために、いくつかのオ
ペランドバスが機能ユニットに接続する。オペランドバ
スの幅は第１または第２のサイズのデータのいずれをも
通信するのに十分である。

【００１６】この発明の別の実施例は、混合された命令
セットを実現するためのプロセッサにおいてオペランド
データを通信するための方法である。この命令セット
は、第１のサイズ（たとえば３２ビット）のオペランド
データを用いる第１の型（たとえば整数）の機能ユニッ
トで実行するオペレーションと、第１のサイズより大き
い第２のサイズ（たとえば８０またはそれより大きいビ
ット）のオペランドデータを用いて第２の型（たとえば
浮動小数点）の機能ユニットで実行するオペレーション
とを定義する。この方法は、第２の型のオペレーション
を、第２のサイズに比して小さいサイズ（たとえば４０
またはそれより多いビット）のサブオペランドデータに
各々が関連する複数のサブオペレーションに区分するス
テップを含む。この方法はさらに、第１のサイズまたは
区分された第２のサイズのいずれにも対処する第３のサ
イズ（たとえば４０またはそれより多いビット）のバス
上でサブオペランドデータが通信される状態で、複数の
サブオペランドおよび関連するサブオペランドデータを
第２の型の機能ユニットにディスパッチするステップを
含む。この方法のさらなるステップは、ディスパッチさ
れたサブオペランドデータを第２のサイズのオペランド
データに再び組合せ、その区分されたオペレーションを
実行して、第２のサイズの結果を発生するステップを含
む。

【００１７】この発明のさらなる実施例は、整数オペラ
ンドデータまたは浮動小数点オペランドデータのいずれ
をも用いて、いくつかのオペレーションを並列して実行
するためのプロセッサである。このプロセッサはいくつ
かのオペレーションをデコードしディスパッチするため
のデコーダを含む。デコーダは、並行してディスパッチ
される浮動小数点サブオペランドに各々が関連する複数
の関連サブオペレーションに、各々の浮動小数点オペレ
ーションを区分するための回路を含む。プロセッサは、
ディスパッチされたサブオペレーションを含む制御信号
を受取るためにデコーダに結合される浮動小数点機能ユ
ニットをさらに含む。機能ユニットは、サブオペランド
データを再び組合せてその組合されたデータを用いて１
つのオペレーションで駆動少数点サブオペレーションを
実行するための回路と、その実行結果を複数のサブ結果
に区分するための回路とを含む。

【００１８】同じ参照番号は同じ要素を示す添付の図面
に関連させて以下の説明を参照することにより、この発
明はよりよく理解され、その利点、目的および特徴はよ
り明らかにされるであろう。

【００１９】

【好ましい実施例の詳細な説明】整数および浮動少数点
オペレーションを実行するための命令セットを有するス
ーパースカラプロセッサ１０のアーキテクチャおよび機
能図が図１に示される。６４ビットの内部アドレスおよ
びデータバス１１は、プロセッサ１０のさまざまな機能
ブロックと外部メモリ１４との間で、アドレス、デー
タ、および制御転送を通信する。命令キャッシュ１６は
ＣＩＳＣ命令をパージングしプリデコードする。バイト
待ち行列３５はプリデコードされた命令を命令デコーダ
１８に転送し、命令デコーダ１８はＣＩＳＣ命令をＲＩ
ＳＣ的オペレーション（「ＲＯＰ」）のための命令のそ
れぞれのシーケンスにマッピングする。命令デコーダ１
８は、バイト待ち行列３５にあるプリデコードされたＣ
ＩＳＣ命令に基づいて、すべてのＲＯＰのための型、オ
ペコード、およびポインタ値を発生する。例示の実施例
は記憶された複合命令を受取ってその複合（ＣＩＳＣ）
命令を実行のためにＲＩＳＣ型ＲＯＰに変換するための
プロセッサ１０を示すが、専らＣＩＳＣ命令でまたはＲ
ＩＳＣ型オペレーションのいずれかのみで動作するプロ
セッサ、およびデコード時に命令の形式を変更するプロ
セッサも想定されていることは当然である。

【００２０】好適な命令キャッシュ１６は、１９９３年
１０月２９日出願の米国特許出願連続番号０８／１４
５，９０５（デイビッド・ビー・ウィット（David B.Wi
tt）およびマイケル・ディー・ゴッダード（Michael D.
Goddard ）、「可変バイト長命令に特に好適な、プリデ
コード命令キャッシュおよびそのための方法（Pre-Deco
de Instruction Cache and Method Therefor Particula
rly Suitable for Variable Byte-Length Instruction
s）」）にさらに詳細に記載される。好適なバイト待ち
行列３５は、１９９３年１０月２９日出願の米国特許出
願連続番号０８／１４５，９０２（デイビッド・ビー・
ウィット「可変バイト長命令に特に好適な、予測命令待
ち行列およびそのための方法（Speculative Instructio
n Queue andMethod Therefor Particularly Suitable f
or Variable Byte-Length Instructions ）」）にさら
に詳細に記載される。好適な命令デコーダ１８は、１９
９３年１０月２９日出願の米国特許出願連続番号０８／
１４６，３８３（デイビッド・ビー・ウィットおよびマ
イケル・ディー・ゴッダード「スーパースカラ命令デコ
ーダ（Superscalar Instruction Decoder ）」）にさら
に詳細に記載される。これらの特許出願の各々の全体を
ここに引用により援用する。

【００２１】命令デコーダ１８は、さまざまなバスを介
してプロセッサ１０内の機能ブロックにＲＯＰオペレー
ションをディスパッチする。プロセッサ１０は、４つの
ＲＯＰ発行と、５つのＲＯＰ結果と、１６までの予測し
て実行されるＲＯＰの結果とをサポートする。Ａソース
オペランドおよびＢソースオペランドならびに宛先レジ
スタへのポインタの４つまでの組は、レジスタファイル
２４とリオーダバッファ２６とに、命令デコーダ１８に
よって、それぞれのＡオペランドポインタ３６とＢオペ
ランドポインタ３７と宛先レジスタポインタ４３とを介
して与えられる。レジスタファイル２４およびリオーダ
バッファ２６は次いで、さまざまな機能ユニットへ、４
１ビットのＡオペランドバス３０および４１ビットのＢ
オペランドバス３１の４つの対上で、ＲＩＳＣオペラン
ドＡおよびＢの適当な「予想されて実行される」バージ
ョンを与える。ＡおよびＢオペランドバス３０および３
１に関連するのは、Ａオペランドタグバス４８およびＢ
オペランドタグバス４９の４つの対を含むオペランドタ
グバスである。結果がオペランドバス上に置かれるため
に利用可能になると、結果が利用可能になったときにそ
れを受取るためのリオーダバッファ２６におけるエント
リを識別するタグが、対応するオペランドタグバス上に
ロードされる。オペランドバスおよびオペランドタグバ
スの４つの対は４つのＲＯＰディスパッチ位置に対応す
る。命令デコーダ１８は、リオーダバッファ２６と協働
して、ＲＯＰの実行後に機能ユニットから結果を受取る
リオーダバッファ２６におけるエントリを識別するため
の４つの宛先タグバス４０を特定する。機能ユニット
は、ＲＯＰを実行し、宛先タグを５つの結果タグバス３
９のうちの１つにコピーし、結果が利用可能になるとそ
れを５つの結果バス３２のうちの対応する１つに置く。
結果タグバス３９上に対応するタグが、結果を待つＲＯ
Ｐのオペランドタグと一致すると、機能ユニットは結果
バス３２上の結果に直接アクセスする。

【００２２】命令デコーダ１８は、４つのオペコード／
型バス５０を介して、オペコードおよびオペコードの型
を含む、ＡおよびＢソースオペランド情報に伴うオペコ
ード情報をディスパッチする。

【００２３】プロセッサ１０は、分岐ユニット２０、整
数機能ユニット２１、浮動小数点機能ユニット２２、お
よびロード／ストア機能ユニット８０のような、いくつ
かの機能ユニットを含む。整数機能ユニット２１は、一
般的なものとして示されたものであり、算術論理ユニッ
ト、シフトユニット、および特別なレジスタユニットの
ような、さまざまなタイプのユニットを表わす。分岐ユ
ニット２０は、分岐があるときに適当な命令フェッチ速
度を可能にし、複数の命令発行を伴う動作を達成するの
に必要な技術である、分岐予測オペレーションの妥当性
を検査する。分岐ユニット２０および命令デコーダ１８
を含む好適な分岐予測システムは、米国特許第５，１３
６，６９７号（ウィリアム・エム・ジョンソン（Willia
m M.Johnson ）「キャッシュに命令の各ブロックととも
に記憶されるフェッチ情報を用いて正しく予測される分
岐命令後の実行のための遅延を低減するためのシステム
（System for Reducing Delay for Execution Subseque
nt to Correctly Predicted Branch Instruction Using
Fetch Information Stored with each Block of Instr
uctions in Cache）」）にさらに詳細に記載され、その
全体をここに引用により援用する。

【００２４】プロセッサ１０は過度の複雑さを避けるた
めに、機能ユニットの単純な組を有して示される。機能
ユニットの数および型は、単一の浮動小数点機能ユニッ
ト２２と、一般的には整数データでオペレーションを行
なう複数の機能ユニット２０と２１と８０とを有する、
特定の態様でここに示されるが、整数および浮動少数線
ユニットの他の組合せが所望されるように実現されても
よいことが理解される。各機能ユニット２０、２１、２
２および８０は、オペランドバス３０および３１ならび
にオペコード／型バス５０に入力が接続される、それぞ
れのリザベーションステーション（図示せず）を有す
る。リザベーションステーションは機能ユニットへの予
測ＲＯＰのディスパッチを可能にする。

【００２５】レジスタファイル２４は、整数および浮動
小数点命令のためのマッピングされたＣＩＳＣのレジス
タを含む物理的な記憶メモリである。それは、中間の計
算を保持するための一次的整数および浮動小数点レジス
タをさらに含む。レジスタファイル２４は浮動小数点デ
ータおよび整数データの両方を処理する。整数はレジス
タファイル２４の下位３２ビット〈３１：０〉に位置さ
れる。上位ビット〈４０：３２〉はレジスタファイル２
４の整数レジスタにおいては実現されない。レジスタフ
ァイル２４は整数データまたは浮動小数点データに対し
て同様に機能する。レジスタファイル２４は、結果回収
（リタイア）として公知のプロセスで、リオーダバッフ
ァ２６から４つのライトバックバス３４を介して、実行
された、予測によらないオペレーションの結果を受取
る。

【００２６】リオーダバッファ２６は予測実行されたＲ
ＯＰの相対的な順序を把握するための循環ＦＩＦＯであ
る。リオーダバッファ記憶位置は、レジスタファイル２
４へ回収中の結果を送るために、および機能ユニットか
ら結果を受取るために、動的に割り当てられる。命令が
デコードされると、その結果値にリオーダバッファ２６
にある位置すなわち宛先が割り当てられ、その宛先レジ
スタ番号はこの位置に関連付けされる。次のオペレーシ
ョンが依存性を全く有さない場合には、その関連するＡ
およびＢオペランドバス３０および３１はレジスタファ
イル２４から駆動される。しかしながら、次のオペレー
ションが依存性を有し、そのリネーミングされた宛先レ
ジスタに記憶されると考えられる値を得るためにそれを
参照する場合には、リオーダバッファ内でエントリがア
クセスされる。結果がそこで利用可能である場合には、
それはオペランドバス上に置かれる。結果が利用可能で
ない場合には、このリオーダバッファエントリを識別す
るタグが、ＡおよびＢオペランドタグバス４８および４
９のうちの１つのオペランドタグバス上に与えられる。
この結果またはタグは、機能ユニットに、オペランドバ
ス３０、３１またはオペランドタグバス４８、４９を介
してそれぞれ与えられる。機能ユニット２０、２１、２
２および８０における実行の完了から結果が得られる
と、その結果およびそれらのそれぞれの結果タグは、リ
オーダバッファ２６および機能ユニットのリザベーショ
ンステーションに、５バス幅の結果バス３２および結果
タグバス３９を介して与えられる。

【００２７】機能ユニットによって発生された結果は、
５つの４１ビットの結果バス３２と５つの関連する結果
タグおよび状態バス３９とを用いてリオーダバッファ２
６に通信される。５つの結果バスおよび結果タグバスな
らびに状態バスのうち、４つはリオーダバッファに整数
および浮動小数点結果を転送するための汎用バスであ
る。付加的な第５の結果バスおよび結果タグバスならび
に状態バスは、機能ユニットのいくつかからリオーダバ
ッファへ、転送される結果ではない情報を転送するのに
用いられる。たとえば、ロード／ストア機能ユニット８
０による記憶オペレーションからまたは分岐ユニット２
０による分岐オペレーションから生ずる状態情報はこの
付加的なバス上に置かれる。この付加的なバスは、４つ
の汎用結果バスのバンド幅を保存するために設けられ
る。

【００２８】命令デコーダ１８は機能ユニットにＲＯＰ
を「正順序で」ディスパッチする。順序はリオーダバッ
ファ２６内のエントリの順序で維持される。待ち行列に
合った前のＲＯＰがすべて実行を完了し、すべてのソー
スオペランドがオペランドバスまたは結果バスのいずれ
かを介して利用可能となり、結果バスが結果を受取るの
に利用可能となると、機能ユニットはＲＯＰを発行のた
めに待ち行列に入れる。したがって、機能ユニットは、
ＲＯＰを「順序外」で完了する。この態様で、オペレー
ションのディスパッチは、オペレーションの完了に依存
しないので、リザベーションステーションの待ち行列が
利用できないことまたはリオーダバッファのエントリが
割り当てられないことによってプロセッサがストーリン
グされない限り、命令デコーダ１８は命令が即座に完了
され得るか否かにかかわらず命令をデコードし続ける。

【００２９】ＲＩＳＣコアのための好適なユニットは、
１９９３年１０月２９日出願の米国特許出願連続番号０
８／１４６，３８２（デイビッド・ビー・ウィットおよ
びウィリアム・エム・ジョンソン、「高性能スーパース
カラマイクロプロセッサ（High Performance Superscal
ar Microprocessor ）」）に開示され、その全体を引用
によりここに援用する。命令デコーダ１８は、１つのＡ
オペランドと１つのＢオペランドと１つの宛先レジスタ
とを特定する１つのディスパッチ位置を用いて、整数Ｒ
ＯＰをディスパッチする。例示の命令デコーダ１８は、
２つの関連するＡオペランドおよび２つの関連するＢオ
ペランドが「半オペランド」または「サブオペランド」
として割り当てられるよう、浮動小数点ＲＯＰを２つの
関連する「半ＲＯＰ」またはより一般的には「サブＲＯ
Ｐ」としてディスパッチする。浮動小数点の半オペラン
ドは図２によって模式的に示される。図２に示される完
全浮動小数点レジスタ２５０は、第１および第２の浮動
小数点半オペランド２５６および２５８によって示され
る２つのオペランドの形式で割り当てられる。Ａオペラ
ンドの場合、半オペランドの対のうちの１つ（たとえば
２５６）は、第１の関連する浮動小数点オペコードに対
応するＡオペランド位置に置かれる。半オペランドの対
のうちの第２の半オペランド（たとえば２５８）は、第
２の関連する浮動小数点オペコードに対応するＡオペラ
ンド位置に置かれる。同様に、Ｂ半オペランドの対は、
オペコードの対に対応するＢオペランド位置に置かれ
る。命令デコーダ１８は、レジスタファイル２４および
リオーダバッファ２６へのポインタ３６および３７を介
して、ＡおよびＢオペランドへのアクセスを開始する。
命令デコーダ１８は、４つのオペコード／型バス５０の
うちの２つで「半オペコード」を通信することによっ
て、浮動小数点機能ユニット２２に半ＲＯＰをディスパ
ッチする。浮動小数点命令の場合、デコーダ１８は、４
つのディスパッチ位置のうちのそれぞれ２つからのＡお
よびＢ半オペランドの２つの組を有する２つのＲＯＰ
を、１つのディスパッチウィンドウ内で同時並列でディ
スパッチする。

【００３０】例示の実施例において、２つの浮動小数点
半ＲＯＰのためのオペコードは「ダミー」オペコードお
よび関連する「本当の」オペコードとして指定される。
たとえば、ダミーの浮動小数点オペコード（たとえばＦ
ＰＦＩＬＬ）は、ディスパッチウィンドウの１つのディ
スパッチ位置に、完全な８２ビットの浮動小数点Ａおよ
びＢオペランドビットのビット〈４０：０〉に各々が関
連するＡおよびＢ半オペランドを割り当てられる。ウィ
ンドウのディスパッチ位置の直後に、本当の浮動小数点
オペコードが、完全な浮動小数点ＡおよびＢオペランド
のビット〈８１：４１〉と各々が関連するＡおよびＢ半
オペランドを割り当てられる。浮動小数点機能ユニット
２２はＲＯＰを実行すると、それは半オペコードを併せ
て１つのＲＯＰを実行する。たとえば、浮動小数点加算
命令ＦＡＤＤは次の態様でディスパッチされてもよい。

【００３１】

【表１】

【００３２】他のＲＯＰはウィンドウ位置３および４で
ディスパッチされてもよい。半ＲＯＰの対は１つのウィ
ンドウでディスパッチされる。

【００３３】他の実施例では、プロセッサ１０はオペラ
ンドを２つより多いサブオペランドに分けてもよい。た
とえば、２つの半オペランドにオペランドフィールドを
区分するのではなく、３つまたはそれより多いサブＲＯ
Ｐのディスパッチを介して動作される同じ数のサブオペ
ランドにオペランドを分けてもよい。

【００３４】リオーダバッファ２６と、レジスタファイ
ル２４と、非浮動小数点機能ユニットと、オペランドバ
スとタグバスと結果バスとライトバックバスとを含むさ
まざまなバスとは、浮動小数点半ＲＯＰを２つの独立し
た無関係のＲＯＰとして処理する。しかしながら、半Ｒ
ＯＰを区分する命令デコーダ１８と、半ＲＯＰを実行前
に再び組合せる浮動小数点機能ユニット２２とは、半Ｒ
ＯＰを関連するエンティティとして扱う。この態様で、
浮動小数点オペランドは浮動小数点ユニットおよび他の
機能ブロックの間を整数データ経路上で通信される。

【００３５】レジスタファイル２４の詳細な例は図３に
示される。レジスタファイル２４は、読出デコーダ６
０、レジスタファイルアレイ６２、書込デコーダ６４、
レジスタファイル制御６６、およびレジスタファイルオ
ペランドバスドライバ６８を含む。レジスタファイルア
レイ６２は、プロセッサの機能ユニットで動作されかつ
それにより発生される結果を記憶するための複数のアド
レス指定可能な記憶レジスタを含む。図４は、この実施
例では一次整数レジスタＥＴＭＰ０からＥＴＭＰ１５と
同じ物理上のレジスタ位置にマッピングされる、８つの
３２ビットの整数レジスタ（ＥＡＸ、ＥＰＸ、ＥＣＸ、
ＥＤＸ、ＥＳＰ、ＥＢＰ、ＥＳＩおよびＥＤＩ）と８つ
の８２ビットの浮動少数点レジスタＦＰ０からＦＰ７と
１６の４１ビットの一次整数レジスタＥＴＭＰ０からＥ
ＴＭＰ１５と８つの８２ビットの一次浮動小数点レジス
タＦＴＭＰ０からＦＴＭＰ７とを含む、４０のレジスタ
を有する例示のレジスタファイルアレイ６２を示す。

【００３６】図５を参照すると、リオーダバッファ２６
は、リオーダバッファ（ＲＯＢ）制御および状態ブロッ
ク７０とリオーダバッファ（ＲＯＢ）アレイ７４とリオ
ーダバッファ（ＲＯＢ）オペランドバスドライバ７６と
を含む。ＲＯＢ制御および状態ブロック７０は、ＲＯＰ
のためのソースおよび宛先オペランドを識別する入力を
受取るために、ＡおよびＢオペランドポインタ３６およ
び３７ならびに宛先ポインタ（ＤＥＳＴＲＥＧ）バス
４３に結合される。ＲＯＢアレイ７４は機能ユニットか
らの結果を受取るために結果バス３２に結合される。ヘ
ッド信号とテール信号とＡオペランド選択信号とＢオペ
ランド選択信号と結果選択信号とを含む制御信号は、Ｒ
ＯＢ制御および状態７０からＲＯＢアレイ７４に伝えら
れる。これらの制御信号は結果バス３２データでもって
書込まれ、ライトバックバス３４と書込ポインタ３３と
ＡおよびＢオペランドバス３１および３２とＡおよびＢ
オペランドタグバス４８および４９とに出力される、Ｒ
ＯＢアレイ要素を選択する。Ａオペランド選択信号およ
びＢオペランド選択信号は、オペランドデータがオペラ
ンドバス３０および３１上に置かれるよう指定するべ
く、リオーダバッファアレイ７４に与えられる。データ
がレジスタファイル２４またはリオーダバッファ２６の
いずれにおいても利用可能でない場合には、Ａオペラン
ド選択信号およびＢオペランド選択信号は、ＡおよびＢ
オペランドタグバス４８および４９を駆動するよう、リ
オーダバッファオペランドバスドライバ７６に直接さら
に与えられる。１つが各リオーダバッファアレイ要素の
ためのものである１６の宛先ポインタは、依存性チェッ
クを実現するために、ＲＯＢアレイ７４からＲＯＢ制御
および状態７０へ伝えられる。

【００３７】ＲＯＢアレイ７４はＲＯＢ制御および状態
ブロック７０の制御下にあるメモリアレイである。命令
デコーダ１８はＲＯＰをディスパッチすると、それは４
つの宛先ポインタ（ＤＥＳＴＲＥＧ）バス４３上にポ
インタを置く。ＲＯＢ制御状態７０は次いでＲＯＢアレ
イ７４のエントリを割り当てて、割り当てられたエント
リのＤＥＳＴＰＴＲフィールドに宛先ポインタを書込
む。

【００３８】オペレーションが実行されて結果が結果バ
ス３２上に機能ユニットによって置かれると、ＲＯＢ制
御および状態７０は、結果バス３２からデータを受取る
ように対応するＲＯＢアレイエントリを指定する、結果
タグバス３９からのポインタにアクセスする。ＲＯＢ制
御７０は、４つの結果選択ポインタを用いて、結果バス
３２からＲＯＢアレイ７４への書込みを命ずる。

【００３９】図６は、結果フィールドと宛先ポインタフ
ィールドと制御情報を記憶する他のフィールドとを各々
が含む１６のエントリを含むリオーダバッファアレイ７
４の例を示す。４１ビットの結果フィールドは機能ユニ
ットから受取られた結果を記憶するために与えられる。
２つのリオーダバッファエントリは浮動小数点結果を記
憶するために用いられる。整数結果は４１ビットのうち
の３２ビットで記憶され、残りの９ビットは状態フラグ
を保持するために用いられる。

【００４０】各ＲＯＢアレイ７４エントリの宛先ポイン
タフィールド（ＤＥＳＴ＿ＰＴＲ〈８：０〉）は、レジ
スタファイル２４にある宛先レジスタを指定する。結果
フィールドからのデータは、ＲＯＢアレイ７０のエント
リからレジスタファイル２４へライトバックバス３４の
１つを介して通信され、ライトバック中に、書込ポイン
タ３３の１つに宛先ポインタフィールドを置くことによ
って、指定される宛先レジスタに駆動される。ＲＯＢ制
御および状態７０は命令デコーダ１８からオペランドポ
インタおよび宛先ポインタを、それぞれＡおよびＢオペ
ランドポインタ３６および３７ならびに宛先レジスタ
（ＤＥＳＴＲＥＧ）バス４３を介して受取り、ＲＯＢ
アレイ７４の宛先ポインタ（ＤＥＳＴＰＴＲ〈８：
０〉）フィールドに宛先ポインタを書込む。ＲＯＰがデ
ィスパッチされると、リオーダバッファ２６は、リオー
ダバッファアレイ７４の１６の要素すべての宛先ポイン
タ（ＤＥＳＴＰＴＲ〈８：０〉）フィールドをＡおよ
びＢオペランドポインタ３６および３７に対して同時に
テストして、データ依存性を識別する一致が宛先ポイン
タとＡまたはＢオペランドポインタとの間に存在するか
どうかを判断することによって、依存性チェックを達成
する。

【００４１】ＲＯＢ制御および状態７０はディスパッチ
でデータ依存性を検知すると、レジスタファイルオペラ
ンドバスドライバ６８に与えられる、Ａオペランド無効
化バス５７およびＢオペランド無効化バス５８のビット
をセットすることによって、レジスタファイルアレイ６
２にある任意の依存オペランドの読出しに無効化する。
無効化バス５７および５８は各オペランドバスのための
無効化信号を含む。ソースオペランドがレジスタファイ
ル２４またはリオーダバッファ２６のいずれもでも利用
可能であることを、ＲＯＢ制御および状態７０が判断し
た場合には、ソースオペランドは、機能ユニットによる
アクセスのために、オペランドバス３０または３１のう
ちの１つのバスの上に置かれる。

【００４２】ライトバックバス３４のうちの１つの上に
ＲＯＢアレイ７４要素の結果フィールドを置き、ライト
バックバスに対応する書込ポインタ３３を宛先ポインタ
で駆動することによって、ＲＯＢ制御および状態７０は
ＲＯＰを回収する。回収された結果を受取るよう、書込
ポインタ３３はレジスタファイル２４内のレジスタアド
レスを指定する。整数データのライトバックでは、結果
の下位３２ビット〈３１：０〉は整数データを保持し、
上位ビット〈３７：３２〉は状態フラグ２５を更新する
のに用いられるエラーフラグＥＦＬＧＳ７１である。浮
動小数点データでは、別々の状態バス３８がリオーダバ
ッファ２６にフラグを通信し、そこで、フラグは、浮動
小数点ＲＯＰが回収されるときに浮動小数点状態レジス
タ（図示せず）に伝えられるまで記憶される。

【００４３】図７（ａ）に示される、各リオーダバッフ
ァアレイ７４の要素２２０は、４１ビットの結果フィー
ルド１０１と、９ビットの宛先ポインタフィールド１０
２と、４ビットのデルタＰＣフィールド１０３と、１１
ビットの浮動小数点オペコードフィールド１０４と、１
１ビットの浮動小数点フラグレジスタフィールド１０５
と、２４ビットの状態／制御フィールド１０６とを含
む。浮動小数点オペランドでは、図７（ｂ）に示される
結果フィールド２２２は浮動小数点オペレーションの４
１ビットの「半分の結果」を保持する。整数オペレーシ
ョンでは、４１ビットの結果フィールドのビット〈４
０：３２〉は、図７（ｃ）、図７（ｄ）、および図７
（ｅ）の結果フィールド２２４、２２６および２２８に
それぞれ示されるように、整数フラグレジスタを保持す
る。８または１６ビットの幅を有する結果をもたらす整
数オペレーションでは、図７（ｄ）および図７（ｅ）の
結果フィールド２２８および２２６にそれぞれ示される
形式で結果を生ずる機能ユニットによって、付加的なビ
ットはクリアされる。

【００４４】分岐オペレーションでは、図７（ｆ）に示
される結果フィールド２３０が、分岐ユニット２０によ
る分岐ＲＯＰの実行によって判断されるように、プログ
ラムカウンタの論理アドレスを保持する。

【００４５】図７（ａ）を参照すると、宛先ポインタフ
ィールド１０２はレジスタファイル２４の宛先レジスタ
を特定する。浮動小数点オペコードフィールド１０４
は、リオーダバッファエントリに割り当てられる浮動小
数点オペコードのビットのサブセットにセットされる。
浮動小数点フラグレジスタフィールド１０５は、浮動小
数点オペレーションから生ずる浮動小数点フラグの状態
を保持する。浮動小数点フラグは、浮動小数点機能ユニ
ット２２によって検知される、精度、アンダーフロー、
オーバーフロー、ゼロ除算、非正規化オペランド、およ
び無効オペランドエラーに関する情報を保持する。整数
オペランドでは、整数オペレーションから生ずるフラグ
は４１ビットの結果フィールド１０１のビット〈４０：
３２〉に保持されるため、対応するフラグフィールドは
不要である。状態／制御フィールド１０６は、たとえ
ば、ＲＯＢエントリは割り当てられているか、分岐が間
違って予測されているか、またはオペレーションの実行
が例外またはエラー条件を引起こしたか、といったオペ
ランドの状態を示す。

【００４６】図８は、レジスタファイル２４とリオーダ
バッファ２６と浮動小数点機能ユニット２２とを通る４
１ビットのデータ経路を有する、混合された浮動小数点
／整数コアの概略的なレイアウト図を示す。このデータ
経路は、ＡおよびＢオペランドバス３０および３１と、
結果バス３２と、ライトバックバス３４とを含む。Ａお
よびＢオペランドバス３０および３１のビット〈３１：
０〉のみが、ユニット２１のような整数機能ユニットと
相互接続される。データ経路が、他の機能ブロックのバ
スおよびメモリのデータラインのための、ビットごとの
対応を有することを示すために、バスのラインはレジス
タファイル２４とリオーダバッファ２６と整数ユニット
１１０との上に重ねられるようにして図示される。バス
のビット構造は浮動小数点リザベーションステーション
および結果ドライバにのみ延びることを示すために、バ
スのラインは浮動小数点機能ユニット２２に部分的にの
み延びるように図示される。浮動小数点機能ユニット２
２の動作内部では、４１ビットのオペランドの対は、処
理のための８２ビットの拡張形式に組合せられる。

【００４７】４１ビットのＡおよびＢオペランドバス３
０および３１の４つのそれぞれの対は、機能ユニットと
リオーダバッファ２６とレジスタファイル２４との間を
相互接続し、浮動小数点機能ユニット２２のリザベーシ
ョンステーションから整数ユニットとリオーダバッファ
２６とを通り実質的にレジスタファイル２４を通って延
びる。整数ユニットを含みかつオペランドバスのビット
〈３１：０〉の下部にあるコア領域は、オペランドデー
タを保持するためのリザベーションステーションレジス
タを含む。ＡおよびＢオペランドバス３０および３１の
ビット〈４１：３２〉は整数ユニットと相互接続するこ
となくそのユニットを通過する。

【００４８】５つの４１ビットの結果バス３２は、機能
ユニットとリオーダバッファ２６との間を相互接続し、
かつ浮動小数点機能ユニット２２の結果バスドライバか
ら整数ユニットを通り実質的にリオーダバッファ２６を
通って延びる。結果バス３２の４１ビットの実質的にす
べてが整数ユニットと相互接続するので、結果データは
ビット〈３１：０〉で通信され、整数状態フラグはビッ
ト〈４１：３２〉で通信される。マイクロプロセッサの
この例示的な実施例においては、定義される状態ビット
の数は結果バス３２のビット〈３７：３２〉のみを利用
する。

【００４９】４つの４１ビットのライトバックバス３４
は、リオーダバッファ２６からレジスタファイル２４へ
結果データを通信し、実質的にリオーダバッファ２６の
一方の側から実質的にレジスタファイル２４の反対側へ
と延びる。

【００５０】わずかな例外はあるが（たとえばオペラン
ドビット〈４１：３２〉および結果バスビット〈４１：
３８〉）、データ経路の各バスの各ビットが、相互接続
する機能ブロックのみを通過するということは有利なこ
とである。

【００５１】このレイアウトは、データ経路のすべての
バスが整数および浮動小数点機能ユニットの全体を通し
て実質的に一定である、混合された浮動小数点および整
数コアを表わす。

【００５２】図８に示されるレイアウトの実施例は、高
密度のコアをもたらすため有利である。浮動小数点機能
ユニット２２とレジスタファイル２４とは好ましくはコ
アの端部に位置される。浮動小数点機能ユニット２２は
それ自体の内部バス構造を有するため、Ａオペランドバ
ス３０とＢオペランドバス３１と結果バス３２とはそれ
を通過する必要はない。さらに、浮動小数点機能ユニッ
ト２２は大きく、コアの約２０％を占める。したがっ
て、Ａオペランドバス３０とＢオペランドバス３１と結
果バス３２とが浮動小数点機能ユニット２２を通過して
経路付けられるような、浮動小数点機能ユニット２２の
位置決めは、ダイスペースを不必要に占めてしまうであ
ろう。同様に、レジスタファイル２４は結果バス３２を
使用しないため、結果バス２４はそれを通過する必要は
ない。さらに、レジスタファイル２４は大きく、コアの
約３０％を占める。したがって、結果バス３２がレジス
タファイル２４を通って経路付けられるような、レジス
タファイル２４の位置決めは、ダイスペースを不必要に
占有するであろう。コアの約２５％を占めるロード／ス
トア機能ユニット８０は、ＡおよびＢオペランドバス３
０および３１と結果バス３２とによって通過されるた
め、浮動小数点機能ユニット２２とリオーダバッファ２
６との間に位置される。分岐ユニット２０を含む整数ユ
ニット１１０は、結果バス３２と、ＡおよびＢオペラン
ドバス３０および３１のビット〈３１：０〉とによって
通過されるため、浮動小数点機能ユニット２２とリオー
ダバッファ２６との間に位置される。オペランドバス３
０および３１のビット〈４０：３２〉は整数ユニット１
１０をバイパスするが、整数ユニット１１０は比較的小
さく、コアの約１０％しか占有しないため、コア密度へ
の悪影響は小さい。

【００５３】図８は、整数ユニット１１０をバイパスし
てリオーダバッファ２６に到達する浮動小数点フラグバ
ス３８をさらに示す。バス３８は１１ビットの１つのバ
スにすぎないため、コア密度におけるバス３８の悪影響
はわずかなものである。整数フラグは浮動小数点データ
転送のためにも用いられるさまざまな４１ビットのバス
上で通信されるため、このようにしない場合であれば８
つのオペランドバス３０および３１ならびに５つの結果
バスと関連するであろう１３の別個の６ビットの整数フ
ラグバスを設けることを回避できる効果があることに注
目されたい。

【００５４】図８は、一定の４１ビット幅のデータ経路
が浮動小数点機能ユニット２２と整数ユニット１１０と
ロード／ストア機能ユニット８０とリオーダバッファ２
６とレジスタファイル２４とを通過するコアを示すが、
他のコアのレイアウトは全体にわたって一定のデータ経
路幅を有さず、それでいて、浮動小数点データと整数デ
ータおよび整数フラグの組合せとの両方に対処するのに
十分な幅のバス構造を有することにより利益を得てもよ
い。たとえば、整数ユニットがレジスタファイルよりも
大きい代替実施例（図示せず）においては、レジスタフ
ァイルはコア内に位置され、整数ユニットはコアの一方
の端部に位置されるかもしれない。この場合、結果バス
３２の４１ビットのピッチは拡張されるであろうが、Ａ
およびＢオペランドバスのビット〈３１：０〉のみが拡
張される必要があるだけである。この代替レイアウトに
おいては、ＡおよびＢオペランドバス３０および３１な
らびに結果バス３２はレジスタファイルを通過するかま
たはバイパスする必要があるだろう。しかしながら、再
配置された整数ユニットへの、結果バス３２のビット
〈４０：０〉の拡張が、浮動小数点データと整数データ
および整数フラグの組合せとの両方に有利に対処するで
あろう。

【００５５】図９は、データ経路幅が浮動小数点機能ユ
ニット２２の内部データ経路幅よりも小さい、プロセッ
サ実施例の浮動小数点接続を示すブロック図である。好
ましくは、浮動小数点機能ユニット２２の内部データ経
路幅はデータバス幅の整数倍である。

【００５６】例示のアーキテクチャでは、オペランドバ
ス３０および３１、結果バス３２、ならびにライトバッ
クバス３４は、８２ビットの拡張された精度の浮動小数
点変数の半分に対処するために、３２ビットデータ経路
から４１ビットデータ経路に拡張される。データ経路が
拡張されると、整数ＲＯＰは、同じ態様で、純粋に整数
用の方式としてディスパッチされる。しかしながら、Ｒ
ＯＰに関連するオペランドは、ＡおよびＢオペランドバ
ス３０および３１の４つの対のビット〈３１：０〉に割
り当てられる。整数オペランドがバス上にロードされる
と、上位９ビット〈４０：３２〉は整数データを通信す
るのには用いられず、下位３２ビット〈３１：０〉が整
数データをエンコードしてそれを整数機能ユニットに通
信する。浮動小数点ＲＯＰがディスパッチされると、４
１ビット全部が浮動小数点リザベーションステーション
４４にデータを通信し、それは２つの半ＲＯＰを組合
せ、４１ビットのオペランドを局所的に併せて、８２ビ
ットのオペランドを形成する。８２ビットのオペランド
は、内部で浮動小数点演算回路１００へ２つの８２ビッ
トの浮動小数点オペランドバス９０および９１を介して
送られ、演算回路１００から浮動小数点結果ドライバ４
５へ８２ビットの浮動小数点結果バス９２上で通信され
る。標準的な拡張精度数は８０ビット幅であるが、指数
部にある予備の２ビットを与えて内部浮動小数点数のよ
り大きなデータ範囲に対処してもよい。

【００５７】浮動小数点フラグはＦＰフラグバス１１２
上で通信する。プロセッサ１０内には浮動小数点機能ユ
ニット２２は１つしかないので、１つのＦＰフラグバス
１１２で十分であり、浮動小数点機能ユニット２２およ
び浮動小数点フラグバス１１２の経路付けおよび配置は
改善される。整数機能ユニット１１０もフラグをさらに
発生するが、他の場合には利用されないであろう結果バ
ス３２のビット〈４０：３２〉が整数フラグを通信する
のに用いられるため、対応する整数フラグバスは不要で
ある。４１ビットのバスを介して整数フラグを通信する
ことは、プロセッサのレイアウトを複雑にしかつダイス
ペースを使用する付加的な専用整数フラグバスを含むこ
とを回避するのに有利である。

【００５８】ソースオペランドが利用可能になり、２つ
の結果バスが利用可能になると、リザベーションステー
ション４４は、浮動小数点乗算、除算、またはＲＯＰで
特定される他のオペレーションのようなＲＯＰを発行
し、演算回路１００は８２ビットの結果を計算する。浮
動小数点結果ドライバ４５は８２ビットの結果を４１ビ
ットのセグメントに分け、そのセグメントを４つの汎用
結果バス３２のうちの２つに置き、状態バス３８上にフ
ラグをセットする。浮動小数点機能ユニットは、浮動小
数点結果の上位ビット〈４０：３２〉を、上位のビット
位置に番号付けられてはいるが、浮動小数点数の最下位
の９ビットに対応するよう割り当てる。これが行なわれ
るのは、この態様でのデータフィールドのシフトによっ
て、浮動小数点データの上位４１ビットの符号および指
数が３２ビットの整数データアクセスにおいて読まれる
ことが可能になるからである。

【００５９】整数ユニット１１０として組合せて示され
るさまざまな整数機能ユニットは３２ビットのデータで
動作する。整数ユニット１１０は、結果バス３２のビッ
ト〈３１：０〉に結果を書込むことに加えて、結果バス
３２のビット〈４０：３２〉に結果フラグを書込む。結
果バス３２はリオーダバッファ２６に接続され、それは
結果データを一時的に記憶する。リオーダバッファ２６
は、データが浮動小数点であるかまたは整数であるかに
かかわらず、レジスタファイル２４への４１ビットの結
果を回収する。

【００６０】図１０は、標準的な８２ビットの浮動小数
点数のビットフィールドを示す。最上位ビット〈８１：
４２〉は、符号ビット２４１と、１９ビットの指数部２
４２と６２ビットの仮数部の上位２１ビットとを表わ
す。浮動小数点数の仮数部は、指数部で指定される２の
べき乗によって乗算される整数を表わす。好ましい実施
例のプロセッサ１０は、８２ビットのフィールド２５０
が２つの４１ビットのフィールドに分けられる図１１に
示される態様で浮動小数点数を構成する。上位４１ビッ
トフィールドでは、仮数ビット〈５９：４１〉のうちの
９つの最下位ビットは仮数部〈８１：７３〉２５４にシ
フトされる。符号部２５１および指数部２５２は、重み
において９ビット下位にシフトされる。浮動小数点ビッ
ト２５０の下位４１ビットフィールドでは、仮数部
〈８：０〉は４１ビットフィールドの上位ビット〈４
０：３２〉にシフトされ、仮数部〈４０：９〉は下位ビ
ット〈３１：０〉にシフトされる。

【００６１】８２ビットの浮動小数点レジスタ２５０
は、第１の浮動小数点半オペランド２５６および第２の
浮動小数点半オペランド２５８に区分される。第２の浮
動小数点半オペランド２５８は右に９ビット分シフトさ
れ、仮数ビット〈４９：４１〉２５４は最上位ビット位
置に転送される。したがって、符号２５１および指数
〈１６：０〉２５２は、３２ビットの整数アクセスにお
いて読出および書込が可能となる。

【００６２】ロード／ストア機能ユニット８０は、整数
および浮動小数点ロードおよび記憶オペレーションを制
御する。ロード／ストアユニット８０は、データキャッ
シュ８６からのデータにアクセスしそのデータを結果バ
ス３２へ転送するための、２つまでのロードオペレーシ
ョンを同時に実行することができる。図１２を参照する
と、ロード／ストア機能ユニット８０は、リザベーショ
ンステーション８２と記憶バッファ８４とロード／スト
ア制御８７とを含む。ロード／ストアリザベーションス
テーション８２はデュアルポートである。各ポートは、
記憶バッファ８４およびデータキャッシュ８６に、４１
ビットのデータと好適な数のアドレスビットとを含むチ
ャネルによって接続される。ロード／ストアリザベーシ
ョンステーション８２は、ロード／ストア要求を待ち行
列に入れるＦＩＦＯバッファである。それは、オペコー
ド／型バス５０からオペレーションコードを受取り、ロ
ード／ストアリザベーションステーション８２への入力
で多重化されるＡおよびＢオペランドバス３０および３
１上の結果で動作する。

【００６３】整数と浮動小数点との混合構造により、プ
ロセッサは、整数データおよび浮動小数点データの両方
のためのロードおよび記憶オペレーションを、同じロー
ド／ストア機能ユニット８０を用いて行なうことが可能
となる。ロード／ストア機能ユニット内において、デー
タオペランドは４１ビットであり、整数、１つの精度
数、倍精度数の一部、または拡張精度数の一部を表わ
す。整数データでは、最上位の８ビットは使用されな
い。ロード／ストア機能ユニット８０は、整数オペラン
ドおよび浮動小数点オペランドの両方に対し同じ態様で
機能する。ゆえに、整数データ経路と浮動小数点データ
経路とを混合することによって、１つのロード／ストア
機能ユニット８０のみを使用して、プロセッサ回路の量
および複雑性を低減する。好適なロード／ストアユニッ
トは１９９３年１０月２９日出願の米国特許出願連続番
号０８／１４６，３７６（ウィリアム・エム・ジョンソ
ンら、「高性能ロード／ストア機能ユニットおよびデー
タキャッシュ（High PerformanceLoad/Store Functiona
l Unit and Data Cache）」）に開示され、その全体を
引用によりここに援用する。

【００６４】この発明は特定の実施例を参照して記載さ
れてきたが、その実施例は例示的なものであって、発明
の範囲はそのように限定されるものではないと理解され
る。多くの変形、修正、追加および改良が、記載される
実施例に対して可能である。たとえば、オペランドフィ
ールドを２つの半オペランドに区分するのではなく、実
行前に１つのオペレーションに統合される、３つまたは
それより多いサブオペレーションのディスパッチを介し
て操作される同数のサブオペランドに、オペランドを分
割してもよい。さらに、さまざまな構造およびバスにお
けるビット数は例示的なものであり、変更されてもよ
い。レジスタファイルおよびリオーダバッファのサイ
ズ、オペランドバスおよびオペランドタグバスの数、結
果バスの数、ライトバックバスの数、ならびに浮動小数
点機能ユニットの数のような機能ユニットの型および数
は、例示的なものであり、変更されてもよい。これらの
および他の変形、修正、追加および改良は、前掲の特許
請求の範囲に定義されるようなこの発明の範囲内に入る
であろう。

【図面の簡単な説明】

【図１】混合された整数／浮動小数点コアを実現するた
めのプロセッサのアーキテクチャレベルのブロック図で
ある。

【図２】拡張精度数、および半オペランドに区分された
拡張精度数のフォーマットをそれぞれ示す模式図であ
る。

【図３】図１のプロセッサ内のレジスタファイルのアー
キテクチャレベルのブロック図である。

【図４】図３に示されるレジスタファイルにあるメモリ
フォーマットを示す模式図である。

【図５】図１のプロセッサ内にあるリオーダバッファの
アーキテクチャレベルのブロック図である。

【図６】図５のリオーダバッファ内にあるメモリフォー
マットを示す模式図である。

【図７】（ａ）は図５のリオーダバッファ内にある複数
のリオーダバッファアレイ要素の１つのリオーダバッフ
ァアレイ要素内の多重ビットフィールドを示す模式図で
ある。（ｂ）、（ｃ）、（ｄ）、（ｅ）、および（ｆ）
は、半オペランドの拡張精度浮動小数点数、倍長語整
数、語整数、バイト整数、および分岐命令のためのアド
レスのためのフォーマットをそれぞれ含む、（ａ）のリ
オーダバッファアレイ要素の結果ビットフィールドのフ
ォーマットを示す模式図である。

【図８】混合された小数点／整数プロセッサコアのレイ
アウトの概略図である。

【図９】図１のプロセッサ内のデータ経路の、データの
流れおよび幅を示す、概略ブロック図である。

【図１０】図１のプロセッサの機能ユニットによって動
作される、拡張精度数のフォーマットを示す模式図であ
る。

【図１１】図１のプロセッサの機能ユニットによって動
作される、半オペランドに分解された、拡張精度数のフ
ォーマットと、下位の半オペランド内のビットフィール
ドとを示す模式図である。

【図１２】図１のプロセッサのロード／ストア機能ユニ
ットのアーキテクチャレベルのブロック図である。

【符号の説明】

１８命令デコーダ２０分岐ユニット２１整数機能ユニット２２浮動小数点機能ユニット２４レジスタファイル２６リオーダバッファ３０オペランドバス３１オペランドバス３２結果バス８０ロード／ストア機能ユニット

フロントページの続き (72)発明者マイケル・ディー・ゴッダードアメリカ合衆国、78739 テキサス州、オースティン、オールド・ハーバー・レーン、6434 (72)発明者ウィリアム・エム・ジョンソンアメリカ合衆国、78746 テキサス州、オースティン、クリスティー・ドライブ、 102

Claims

【特許請求の範囲】

【請求項１】複数の型のオペレーションを同時並列で
実行するためのプロセッサコアであって、第１のサイズのデータ経路を有する第１の機能ユニット
と、第１のサイズよりも大きい第２のサイズのデータ経路を
有する第２の機能ユニットと、第１の機能ユニットのデータ経路と第２の機能ユニット
のデータ経路とに結合され、かつ第２のサイズと等しい
かまたはそれより大きいサイズを有するバスとを備え
る、複数の型のオペレーションを同時並列で実行するた
めのプロセッサコア。
【請求項２】バスは複数のオペランドバスを含み、第２の機能ユニットは、第２のサイズの倍数である第３
のサイズのデータで動作可能であり、第３のサイズのデータは、第２の機能ユニットに、複数
のオペランドバスの多重バス上で同時並列で与えられ
る、請求項１に記載のプロセッサコア。
【請求項３】バスは第１および第２の機能ユニットか
ら結果情報を通信する結果バスを含み、第１の機能ユニットは複数の状態フラグを発生し、第１のサイズを超過する結果バスの容量は、状態フラグ
を通信するのに用いられる、請求項１に記載のプロセッ
サコア。
【請求項４】第１の機能ユニットは整数機能ユニット
であり、第２の機能ユニットは、バスが浮動小数点データの半分
のビットの容量を有するよう第２のサイズの２倍である
第３のサイズの浮動小数点データで動作可能な浮動小数
点機能ユニットである、請求項１に記載のプロセッサコ
ア。
【請求項５】第１の機能ユニットは、３２ビットの第
１のデータサイズの整数で動作可能な整数機能ユニット
であり、第２の機能ユニットは、第２のデータサイズの２倍であ
る８０またはそれより多いビットの浮動小数点データサ
イズの浮動小数点数で動作可能な浮動小数点機能ユニッ
トである、請求項１に記載のプロセッサコア。
【請求項６】プロセッサにおいてオペレーションに用
いられるオペランドデータを処理するための方法であっ
て、オペレーションを複数のサブオペレーションに区分する
ステップを含み、各々はオペランドデータのサブセット
に関連し、前記方法はさらに、機能ユニットに複数のサブオペレーションおよび関連の
オペランドデータのサブセットをディスパッチするステ
ップを含み、オペランドデータのサブセットはそれを収
容可能な第１のサイズのバス上で通信され、前記方法は
さらに、ディスパッチされたオペランドデータのサブセットを第
２のサイズのデータに再び組合せるステップと、再び組合されたオペランドデータのサブセットを用いて
オペレーションを実行して結果を発生するステップとを
含む、オペレーションに用いられるオペランドデータを
処理するための方法。
【請求項７】結果を複数の結果のサブセットに区分す
るステップと、結果のサブセットを第１のサイズのバス上でメモリへ通
信するステップとをさらに含む、請求項６に記載の方
法。
【請求項８】プロセッサでオペレーションに用いられ
るオペランドデータを通信するための方法であって、オ
ペレーションは第１の型の機能ユニットにおいて第１の
サイズのオペランドデータを用いて実行し、オペレーシ
ョンは第２の型の機能ユニットにおいて第１のサイズよ
りも大きい第２のサイズのオペランドデータを用いて実
行し、前記方法はさらに、第２の型の機能ユニット上で実行可能なオペレーション
を複数のサブオペレーションに区分するステップを含
み、各々はオペランドデータのサブセットと関連し、前
記方法はさらに、機能ユニットにオペレーションと関連のオペランドデー
タとをディスパッチするステップを含み、第２の型の機能ユニットにディスパッチされるオペレー
ションは、複数のサブオペレーションおよび関連するオ
ペランドデータのサブセットでディスパッチされ、オペランドデータは、第１のサイズのオペランドデータ
およびオペランドデータのサブセットのいずれも収容可
能な第３のサイズのバス上で通信され、前記方法はさら
に、第２のタイプの機能ユニットにディスパッチされたオペ
ランドデータのサブセットを再び組合せるステップと、オペランドデータを用いてオペレーションを実行して結
果を発生するステップとを含み、第２の型の機能ユニッ
トは再び組合されたオペランドデータのサブセットを用
いる、オペレーションに用いられるオペランドデータを
通信するための方法。
【請求項９】第２の型の機能ユニットによって発生さ
れる結果を複数の結果のサブセットに区分するステップ
と、結果をメモリに、第１のサイズの結果および結果のサブ
セットのいずれも収容可能な第４のバス上で通信するス
テップとをさらに含む、請求項８に記載の方法。
【請求項１０】第１の型のオペレーションを実行する
ステップは、第１のサイズの結果と複数の状態フラグと
を発生し、メモリに結果を通信するステップは、第１のサイズの結
果および複数の状態フラグの両方を、第４のサイズのバ
ス上でメモリに通信する、請求項９に記載の方法。
【請求項１１】第１の型の機能ユニットは整数機能ユ
ニットであり、第１のサイズのオペランドデータは３２
ビットの整数データであり、第２の型の機能ユニットは浮動小数点機能ユニットであ
り、第２のサイズのオペランドデータは８０またはそれ
より多いビット数の浮動小数点データであり、第３のサイズのバスおよび第４のサイズの結果バスは第
２のサイズの半分の容量を有する、請求項８に記載の方
法。
【請求項１２】オペランドデータを用いかつ整数およ
び浮動小数点型であるオペレーションを実行するための
プロセッサコアであって、複数のｎ₁ビットのオペランドバスとｎ₁ビットの結果
バスとを備え、ｎ₁は正の整数であり、前記プロセッサ
コアはさらに、オペランドバスにそれぞれのｎ₂ビットの入力を介して
結合されかつ結果バスにｎ₂ビットの出力を介して結合
される整数機能ユニットを備え、ｎ₂はｎ₁より小さい
かまたは等しい正の整数であり、前記プロセッサコアは
さらに、ｎ₁ビットオペランドバスにそれぞれのｎ₁ビット入力
を介して結合されかつ結果バスにｎ₁ビットの出力を介
して結合される浮動小数点機能ユニットを備え、浮動小
数点機能ユニットは、浮動小数点機能ユニットの入力からのｎ₁ビットのオペ
ランドデータをｎ₃ビットのオペランドデータに組合せ
るための手段と、ｎ₃ビットのオペランドデータを用いて浮動小数点オペ
レーションを実行するための手段と、ｎ₃ビットの結果を発生するための手段と、ｎ₃ビットの結果を複数のｎ₁ビットの部分的結果に区
分するための手段と、部分的結果を浮動小数点機能ユニットの出力に送るため
の手段とを含み、ビットｎ₃の数はビットｎ₁の数より
も大きい、オペランドデータを用いかつ整数および浮動
小数点型であるオペレーションを実行するためのプロセ
ッサコア。
【請求項１３】出力がｎ₁ビットのオペランドバスに
結合されかつ入力が結果バスに結合されるメモリをさら
に含む、請求項１２に記載のプロセッサコア。
【請求項１４】ｎ₁ビットのライトバックバスと、出力がｎ₁ビットのオペランドバスとｎ₁ビットのライ
トバックバスとに結合され、かつ入力が結果バスに結合
される、リオーダバッファと、出力がｎ₁ビットのオペランドバスに結合されかつ入力
がｎ₁ビットのライトバックバスに結合されるレジスタ
ファイルとをさらに含む、請求項１２に記載のプロセッ
サコア。
【請求項１５】プロセッサコアは実質的に長方形のセ
グメントの概して平面的な配列で配置され、各セグメン
トは第１の次元内に延びており、セグメントは第２の次
元内に実質的に積み重ねられ、オペランドバスと結果バ
スとライトバックバスとは複数のセグメントにわたって
第２の次元内に延び、レジスタファイルは第１のセグメントにおいて平面配列
の一方の端部に順序付けられ、リオーダバッファは第１のセグメントに隣接した第２の
セグメントに順序付けられ、複数の整数機能ユニットは第２のセグメントに隣接した
第３のセグメントに順序付けられ、浮動小数点機能ユニットは第３のセグメントに隣接した
第４のセグメントに順序付けられる、請求項１４に記載
のプロセッサコア。
【請求項１６】オペランドバスは第２の次元内で、レ
ジスタファイルを実質的に通過し、かつリオーダバッフ
ァと整数機能ユニットとを完全に通過し、かつ浮動小数
点機能ユニットを部分的に通過して延び、結果バスは第２の次元内で、リオーダバッファを実質的
に通過し、かつ整数機能ユニットを完全に通過し、かつ
浮動小数点機能ユニットを部分的に通過して延び、ライトバックバスは第２の次元内で、リオーダバッファ
を実質的に通過し、かつレジスタファイルを実質的に通
過して延びる、請求項１５に記載のプロセッサコア。
【請求項１７】整数ビットｎ₂の数は３２であり、浮
動小数点ビットｎ₃の数は８０またはそれより大きく、
バスのビットｎ₁の数は４０またはそれより大きい、請
求項１２に記載のプロセッサコア。
【請求項１８】複数のオペレーションを並行して実行
するためのプロセッサであって、関連する浮動小数点サブオペランドを各々が有する複数
の関連サブオペレーションに各々の浮動小数点オペレー
ションを区分するための手段と、サブオペレーションを
ディスパッチするための手段とを含むデコーダと、デコーダに結合される浮動小数点機能ユニットとを備
え、浮動小数点機能ユニットは、サブオペランドデータを再び組合せるための手段と、再び組合せられたデータを用いて浮動小数点サブオペレ
ーションを１つのオペレーションで実行するための手段
と、実行結果を多重サブ結果に区分するための手段とを含
む、複数のオペレーションを並行して実行するためのプ
ロセッサ。
【請求項１９】デコーダは、整数オペレーションおよ
び関連する整数オペランドをディスパッチするための手
段をさらに含み、前記プロセッサはさらに、デコーダに結合され、オペランドを用いて整数オペレー
ションを実行して整数結果を発生するための手段を含む
整数機能ユニットをさらに含む、請求項１８に記載のプ
ロセッサ。
【請求項２０】浮動小数点機能ユニットと整数機能ユ
ニットとはデコーダに複数のオペランドバスによって結
合され、オペランドバスはｎ₁ビットの幅を有し、整数
オペランドデータはｎ₂ビットの幅を有し、浮動小数点
オペランドデータはｎ₃ビットの幅を有し、ｎ₂はｎ₁
よりも小さいかまたは等しくかつｎ₃はｎ₁よりも大き
い、請求項１９に記載のプロセッサ。
【請求項２１】整数機能ユニットと浮動小数点機能ユ
ニットとに結合されるｎ₁ビットの結果バスと、入力で結果バスに結合されかつ出力でオペランドバスに
結合される結果記憶メモリとをさらに含む、請求項２０
に記載のプロセッサ。
【請求項２２】浮動小数点数の符号部および指数部が
結果の最下位のｎ₂ビットに位置されるよう、浮動小数
点機能ユニットは結果バス上に浮動小数点数を置く、請
求項２１に記載のプロセッサ。
【請求項２３】整数ビットｎ₂の数は３２であり、浮
動小数点ビットｎ₃の数は８０またはそれより大きく、
バスのビットｎ₁の数は４０またはそれより大きい、請
求項２０に記載のプロセッサ。
【請求項２４】複数のオペレーションを並列して実行
するプロセッサであって、オペレーションはオペランド
データで動作可能であり、オペレーションのうち選択さ
れるオペレーションは整数オペレーションであり、オペ
レーションのうち選択される他のオペレーションは浮動
小数点オペレーションであり、プロセッサはさらに、プロセッサコアを備え、前記プロセッサコアは、複数の共通のオペランドデータバスと、複数の共通の結果データバスと、オペランドデータバスに結合される浮動小数点オペラン
ドデータ入力と、結果データバスに結合される浮動小数
点オペランドデータ出力とを用いて、浮動小数点オペレ
ーションを実行する浮動小数点機能ユニットと、オペランドデータバスに結合される整数オペランドデー
タ入力と、結果データバスに結合される整数オペランド
データ出力とを用いて、整数オペレーションを実行する
複数の整数機能ユニットと、結果データバスに結合されるオペランドメモリ入力と、
オペランドデータバスに結合されるオペランドメモリ出
力とを含み、プロセッサはさらに、メモリならびにプロセッサコアの整数機能ユニットおよ
び浮動小数点機能ユニットに結合される命令供給回路を
備え、前記命令要求回路は、複数のオペレーションをディスパッチし、オペレーショ
ンに関連するオペランドデータを選択される機能ユニッ
トに並行して分配するための手段と、浮動小数点オペレーションを、同じ数の複数のサブオペ
ランドで動作可能な複数のサブオペレーションに区分す
るための手段とを含み、浮動小数点機能ユニットは、サブオペレーションを１つ
のオペレーションで実行するために、サブオペランドを
再び組合せるための手段を含む、複数のオペレーション
を並行して実行するプロセッサ。
【請求項２５】プロセッサコアは実質的に長方形のセ
グメントの概して平面的な配列で配置され、各セグメン
トは第１の次元内に延びており、セグメントは第２の次
元内に実質的に積み重ねられ、共通のバスは第２の次元
内に複数のセグメントにわたって延び、メモリは第１のセグメントにおいて平面配列の一方の端
部に順序付けられ、複数の整数機能ユニットは第第１のセグメントに隣接し
た第２のセグメントに順序付けられ、浮動小数点機能ユニットは第２のセグメントに隣接した
第３のセグメントに順序付けられる、請求項２４に記載
のプロセッサ。
【請求項２６】オペランドバスは第２の次元内で、メ
モリを実質的に通過し、かつ整数機能ユニットを完全に
通過し、かつ浮動小数点機能ユニットを部分的に通過し
て延び、結果バスは第２の次元内で、メモリを通過し、かつ整数
機能ユニットを完全に通過し、かつ浮動小数点機能ユニ
ットを部分的に通過して延びる、請求項２５に記載のプ
ロセッサ。