JP2001027945A

JP2001027945A - Ｓｉｍｄ演算を実行するために標準ｍａｃユニットを利用する浮動小数点ユニット

Info

Publication number: JP2001027945A
Application number: JP2000149271A
Authority: JP
Inventors: Preston J Renstrom; プレストン・ジェイ・レンストローム
Original assignee: Hewlett Packard Co
Current assignee: HP Inc
Priority date: 1999-05-21
Filing date: 2000-05-22
Publication date: 2001-01-30
Anticipated expiration: 2020-05-22
Also published as: JP3683773B2; US6493817B1; EP1055997A1

Abstract

(57)【要約】【課題】異なるテ゛ータ型フォーマットの各々に専用のハート゛ウェアを
必要としない浮動小数点ユニットを提供する。【解決手段】本発明の装置は、複数のテ゛ータ型フォーマット(15,
16)に対して乗算累算演算を実行できる標準乗算累算ユニッ
ト(MAC)(51,52)を含む浮動小数点ユニット(50)を含む。標準M
ACは、在来のテ゛ータ型フォーマット(50)と単一命令多重テ゛ータ(SIM
D)型フォーマット(16)とに対して演算するよう構成される。従
って専用のSIMD用MACユニットが必要ないので、タ゛イの面積を
大幅に節約する。SIMD命令がMACユニット(51,52)の1つによ
り演算される場合、テ゛ータは64ヒ゛ットワート゛として、上位と下
位のMACユニット(51,52)に与えられる。また、各MACユニット(5
1,52)は、64ヒ゛ットワート゛の上位半分又は下位半分の何れか
を選択させる1つ以上のヒ゛ットを受取る。各MACユニット(51,5
2)は各々の32ヒ゛ットワート゛に対して演算を行う。その演算の
結果は、浮動小数点ユニット(50)のハ゛イハ゜スフ゛ロック(54,55)によ
り64ヒ゛ットワート゛に合体される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、浮動小数点ユニッ
トに関し、特に、在来のデータ型フォーマットとＳＩＭ
Ｄデータ型フォーマットとに対する演算を実行するため
に標準ＭＡＣユニットを利用することができる浮動小数
点ユニットに関する。

【０００２】

【従来の技術】プロセッサ速度が向上しデータサイズが
増大することにより、浮動小数点ユニットにもたらすこ
とができるデータの量に関して、浮動小数点演算の計算
性能に重大な妨げが常時存在する。プロセッサアーキテ
クチャが６４ビット以上のアーキテクチャに発展するこ
とで、より多くのデータロードポート、ひいてはより広
いロード帯域幅を利用することによるか、あるいは、６
４ビットデータをより小さい複数のデータ片に分割して
これら小さい複数のデータ片に多重演算を実行すること
によってのみ、この妨げの影響を低減することができ
る。この後者の技術は、特に、１つの６４ビットの浮動
小数点数ほど高い精度を要求しない多くの小さい演算を
実行する場合に有用である。なお、この６４ビットの浮
動小数点数は、米国電気電子学会（ＩＥＥＥ）の浮動小
数点形式規格においてダブルワード（倍長語）と呼ばれ
る。例えば、一般的なグラフィクス表示演算において、
浮動小数点演算は計算集約的であるが、６４ビット数が
表すことができる範囲は必要でない。従って、データを
より小さいデータ片に分割してこれら小さいデータ片に
対して演算を行うという後者の方法は、この種の環境に
おいて有利に使用することができる。

【０００３】この技術を実現するよう設計された周知の
アーキテクチャには、一般に単一命令多重データ（ＳＩ
ＭＤ）演算と呼ばれるものを利用するものがある。ＳＩ
ＭＤ命令により、複数のデータに対してまったく同じ演
算が同時に、すなわち並列に実行される。１つの大きい
レジスタに複数の小さいデータ片を格納すると、複数の
小さいレジスタに複数の小さいデータ片を格納するより
も、より効率よくダイの面積を使用することができる。
従って、ＳＩＭＤ演算は、通常、単一の大きいレジスタ
にある複数の小さいデータ片に対して同時に実行され
る。また、ＳＩＭＤ演算の要件を満たすために、複数の
小さいデータ片に対して同時にＳＩＭＤ演算を実行する
ことが必要である。

【０００４】目下、プロセッサアーキテクチャは、在来
のデータ型フォーマットとＳＩＭＤ型データ型フォーマ
ットとの両方をサポートするよう設計されている。在来
のデータ型フォーマットは、一般に、ＳＩＭＤデータ型
フォーマットよりビットサイズが大きい。これら両タイ
プの演算をサポートする手段として、これらアーキテク
チャにおいて、在来のデータ型フォーマットおよびＳＩ
ＭＤデータ型フォーマットを処理するために、ＳＩＭＤ
機能ユニットおよび標準機能ユニットが実装されてい
る。これら機能ユニットのうちの１つのタイプは、一般
に乗算累算（ＭＡＣ）ブロックと呼ばれているが、それ
ら機能ユニットは、供給されるデータに対し例えば加
算、減算および乗算等のあらゆる種類の算術機能を実行
する。ＳＩＭＤ演算を処理するために専用のＭＡＣを利
用する主な理由は、これら専用のＭＡＣが２つのＳＩＭ
Ｄ演算を同時に実行することができる、ということであ
る。しかしながら、浮動小数点ユニットにこれら専用の
ＳＩＭＤ用ＭＡＣを実装することは、ＳＩＭＤ用ＭＡＣ
によって消費される追加のダイの面積の量という点でコ
ストがかかる。更に、一般にＳＩＭＤ演算は、浮動小数
点ユニットが実行するすべての演算のおよそ５％未満に
相当するにすぎないため、処理スループットに対するダ
イの面積の妥協は高くつくことになる。

【０００５】

【発明が解決しようとする課題】従って、複数のデータ
型フォーマットに対して演算することができ、且つ異な
るデータ型フォーマットの各々について専用のハードウ
ェアを必要としない浮動小数点ユニットが必要とされて
いる。

【０００６】

【課題を解決するための手段】本発明は、浮動小数点演
算を実行するための方法および装置を提供する。本発明
の装置は、複数のデータ型フォーマットに対して乗算累
算演算を実行することができる２つの標準乗算累算ユニ
ット（ＭＡＣ）を含む浮動小数点ユニットを含む。この
標準ＭＡＣは、在来のデータ型フォーマットと単一命令
多重データ（ＳＩＭＤ）型フォーマットとに対して演算
するように構成されている。従って、専用のＳＩＭＤ用
ＭＡＣユニットが必要でないため、ダイの面積の大幅な
節約を実現することができる。

【０００７】本発明によれば、ＳＩＭＤ命令に対しＭＡ
Ｃユニットの１つによって演算が行われる時、データ
は、６４ビットワードとして上位および下位のＭＡＣユ
ニットに対して与えられる。また、各ＭＡＣユニット
は、１つまたは複数のビットを受取る。そのビットは、
ＭＡＣユニットの各々に対し、各ＭＡＣユニットに応じ
て６４ビットワードの上位半分または下位半分のいずれ
かを選択させるものである。例えば、下位３２ビットワ
ードは、上位ＭＡＣユニットによって処理され、上位３
２ビットワードは、下位ＭＡＣユニットによって処理さ
れる。

【０００８】各ＭＡＣユニットは、各々の３２ビットワ
ードに対して演算を行う。そして、ＭＡＣユニットが実
行した演算の結果は、浮動小数点ユニットのバイパスブ
ロックによって合体されて６４ビットワードになる。こ
れらの結果は、その結果が専用のＳＩＭＤハードウェア
を利用する浮動小数点ユニットにおいて得られる結果と
まったく同じに見えるように合体される。

【０００９】本発明のこれらのおよび他の特長と利点と
は、以下の説明、図面および特許請求の範囲から明らか
となろう。

【００１０】

【発明の実施の形態】図１は、在来のデータ型フォーマ
ットとＳＩＭＤデータ型フォーマットとに対して演算を
行うことができる浮動小数点ユニット１の機能ブロック
図である。この浮動小数点ユニット１は、２つのＳＩＭ
Ｄ用ＭＡＣユニット３、４と、２つの標準ＭＡＣユニッ
ト６、７と、２つのバイパスブロック８、９と、レジス
タファイルブロック１１と、を含む。標準ＭＡＣユニッ
ト６、７は、在来のデータ型フォーマットに対して浮動
小数点演算を実行する。ＳＩＭＤ用ＭＡＣユニット３、
４は、ＳＩＭＤデータ型フォーマットに対して算術演算
を実行する。従って、図１に示す浮動小数点ユニット１
は、ＳＩＭＤ演算を実行する専用のＳＩＭＤ用ＭＡＣユ
ニット３、４と、標準、すなわち在来のデータ型フォー
マットに対する演算を実行する標準ＭＡＣユニット６、
７と、を有している。これら２つのデータ型フォーマッ
トが、図３に示されている。演算が行われる一般的なデ
ータ型フォーマット１５は、６４ビットの仮数値、１７
ビットの指数値および１ビットの符号値を含む。対照的
に、ＳＩＭＤデータ型フォーマット１６は、２つの２３
ビット仮数値、２つの８ビット指数値（すなわち、各仮
数値に１つが関連付けられている）および２つの符号ビ
ット（すなわち、各仮数値およびその指数値に１ビット
が関連付けられている）を含む。ＳＩＭＤデータ型フォ
ーマットは、本技術分野において周知であり、浮動小数
点演算に対するＩＥＥＥ規格において文書化されてい
る。これらデータ型フォーマットに対して演算が実行さ
れる方法もまた、本技術分野において周知である。従っ
て、本明細書では、簡潔にするために、これら浮動小数
点データ型演算について詳述しない。

【００１１】図１に示す浮動小数点ユニット１におい
て、標準ＭＡＣユニット６、７の各々は、乗算累算演算
を実行することができる。図３に示す一般的なデータ型
フォーマット１５に対して乗算累算演算が実行される場
合、オペランドＡ、Ｂ、Ｃは、バイパスブロック８、９
に受渡される。浮動小数点ユニット１が２つの標準ＭＡ
Ｃユニット６、７を含むため、２つの乗算累算演算を同
時に実行することができる（すなわち、標準ＭＡＣユニ
ット６において一方の乗算累算演算が実行され、標準Ｍ
ＡＣユニット７において他方の乗算累算演算が実行され
る。）

【００１２】標準ＭＡＣユニット６、７は、各々、１つ
の８２ビット加算器と１つの８２ビット乗算器とを含
む。演算されるオペランドは、プロセッサアーキテクチ
ャによって構成された命令デコーダ（図示せず）からレ
ジスタファイルブロック１１によって受取られる。命令
デコーダは、それらオペランドと共に制御ビットをレジ
スタファイルブロック１１に供給し、これら制御ビット
は、ＭＡＣユニットによってオペランドに対して実行さ
れる算術演算、例えば加算、減算、乗算等の種類を決定
するために使用される。レジスタファイルブロック１１
は、自身が受取るオペランドが格納される複数のレジス
タを含む。

【００１３】レジスタファイルブロック１１によって受
取られる制御ビットは、オペランドの読出しおよび書込
みのためにレジスタファイルブロック１１のいずれのレ
ジスタが使用されるべきかを示す。バイパスブロック
８、９の各々は、オペランドの１つのセットを処理す
る。バイパスブロック８、９はまた、それらに供給され
る制御ビットを利用して、浮動小数点ユニット１の特定
の宛先にいずれのレジスタの内容を経路指定すべきかを
決定する。バイパスブロック８、９は、プロセッサアー
キテクチャの技術分野において周知の機能を実行する。
従って、本明細書では、バイパスブロック８、９が実行
する機能について詳述しない。

【００１４】オペランドがレジスタファイルブロック１
１の適切なレジスタにロードされた後、レジスタファイ
ルブロック１１は、適切なレジスタからオペランドを読
み出し、レジスタファイルブロック１１からバイパスブ
ロック８に向けられたライン２０、２１、２２上の矢印
によって示されるように、それらを適切なバイパスブロ
ックに経路指定する。ライン２０、２１、２２は、浮動
小数点ユニット１内に構成されたバスに対応し、ライン
２０、２１、２２の各々は、マルチビットオペランド
Ａ、Ｂ、Ｃの移送に必要な複数のラインに対応してい
る。図１の円は、それらが位置するブロックへのバス入
力を示すことが意図されている。レジスタファイルブロ
ック１１は、レジスタファイルブロック１１の適切なレ
ジスタからオペランドＡ、Ｂ、Ｃの第２のセットを読出
し、バイパスブロック９は、ライン２４、２５、２６上
の矢印によって示されるように、それらを適切なＭＡＣ
ユニットに経路指定する。これらラインもまた、複数の
バスラインを表している。

【００１５】バイパスブロック８は、レジスタファイル
ブロック１１から読出されたそのオペランドのセット
を、バス入力２８、２９、３０を介して標準ＭＡＣユニ
ット６に、またはバス入力３２、３３、３４を介してＳ
ＩＭＤ用ＭＡＣユニット４に受渡す。同様に、バイパス
ブロック９は、そのオペランドのセットを、バス入力３
６、３７、３８を介して標準ＭＡＣユニット７に、また
はバス入力４１、４２、４３を介してＳＩＭＤ用ＭＡＣ
ユニット３に受渡す。

【００１６】図３に示すデータ型フォーマット１５の場
合、バイパスブロック８、９は、各々標準ＭＡＣユニッ
ト６、７にオペランドを供給する。一旦標準ＭＡＣユニ
ット６、７が各々の算術演算を実行すると、その結果
は、標準ＭＡＣユニット６、７によってバイパスブロッ
ク８、９に受渡される。バイパスブロック８、９は、そ
の算術演算の結果をバス５１、５２を介してレジスタフ
ァイルブロック１１に渡し、レジスタファイルブロック
１１は、その結果をレジスタファイルブロック１１の１
つまたは複数のレジスタに格納する。

【００１７】浮動小数点ユニット１により演算が実行さ
れる時はいつでも、レジスタファイルブロック１１が受
取る制御ビットは、いったん演算が実行されると関連す
る演算の結果がいずれのレジスタに格納されるべきかを
示す。また、バイパスブロック８、９は、制御ビットを
受取り、その制御ビットを利用して、演算の結果を格納
すべきレジスタを決定する。

【００１８】ＳＩＭＤ用ＭＡＣユニット３、４の各々
は、２つの３２ビット加算器および２つの３２ビット乗
算器を含む。各ＳＩＭＤ用ＭＡＣユニット３、４は、命
令デコーダによって示される算術演算を実行するために
３つのオペランドＡ、Ｂ、Ｃを処理することができる。
ＳＩＭＤ用ＭＡＣユニット３、４および標準ＭＡＣユニ
ット６、７が図３に示すデータ型フォーマット１５、１
６に対して演算を行う態様は、当業者には周知である。
従って、本明細書では、これらのユニットがそれらの乗
算累算演算（すなわち、Ａ＋Ｂ×Ｃ）を実行する態様に
ついて詳述しない。

【００１９】浮動小数点ユニット１は在来のデータ型フ
ォーマットとＳＩＭＤデータ型フォーマットとを処理す
ることができるが、ＳＩＭＤ用ＭＡＣユニット３、４を
実装することはそれらの実装に必要なダイの面積の量と
いう点でコストがかかる。更に、ＳＩＭＤ演算はめった
に実行されず、標準ＭＡＣ６、７によって在来のデータ
型フォーマットが処理されている時はいつでもＳＩＭＤ
用ＭＡＣユニット３、４は休止状態である。同様に、Ｓ
ＩＭＤ用ＭＡＣユニット３、４によってＳＩＭＤ演算が
実行されている時はいつでも、標準ＭＡＣユニット６、
７は休止状態である。従って、ＳＩＭＤ用ＭＡＣユニッ
ト３、４および標準ＭＡＣユニット６、７は、すべての
演算のために利用されない場合であっても、比較的大き
い量のダイの面積を消費する。

【００２０】本発明によれば、ＳＩＭＤデータ型フォー
マットに対して実行される演算を含むすべての算術演算
を実行するために標準ＭＡＣユニット５１、５２を利用
する浮動小数点ユニット５０（図２）が提供される。従
って、図１に示す専用のＳＩＭＤ用ＭＡＣユニット３、
４の必要が無くなり、浮動小数点ユニット５０に必要な
ダイの面積の量を大幅に節約することができる。標準Ｍ
ＡＣユニット５１、５２は、好ましくは図１に示す標準
ＭＡＣユニット６、７と非常に類似している。従って、
標準ＭＡＣユニット５１、５２は、好ましくは各々１つ
の８２ビット加算器と１つの８２ビット乗算器（図示せ
ず）を含む。しかしながら、標準ＭＡＣユニット５１、
５２は各々、後に詳述するように、特定のビットを受取
り、このビットを利用して６４ビットワードの適切な半
分を選択するよう構成されている。

【００２１】浮動小数点ユニット５０が在来のデータ型
フォーマット１５を処理する場合、標準ＭＡＣユニット
５１、５２は、それらの通常の演算を実行する。一方、
浮動小数点ユニット５０がＳＩＭＤデータ型フォーマッ
ト１６を処理する場合、ＳＩＭＤビットフィールドが２
つの３２ビットワードに分割され、そのＳＩＭＤワード
の下位３２ビットは、標準ＭＡＣユニット５１によって
処理され、ＳＩＭＤワードの上位３２ビットは、標準Ｍ
ＡＣユニット５２によって処理される。６４ビットワー
ド全体が標準ＭＡＣユニット５１、５２の両方に供給さ
れるが、標準ＭＡＣユニット５１、５２が受取る上述し
たビットにより、標準ＭＡＣユニット５１、５２は適切
な３２ビットワードを選択する。そして、標準ＭＡＣユ
ニット５１、５２は、これら３２ビットワードに対して
各々の演算を実行する。

【００２２】上述したように、標準ＭＡＣユニット５
１、５２は、通常、８２ビットワードを処理する。ＳＩ
ＭＤワードを処理する場合、標準ＭＡＣユニット５１、
５２は下位６４ビットのみを使用する。上位１８ビット
は定数値にセットされ概して無視される。標準ＭＡＣユ
ニット５１、５２が６４ビットＳＩＭＤワードの各部分
を処理すると、バイパスブロック５４、５５は３２ビッ
トの結果を合体させて６４ビットのＳＩＭＤ結果とす
る。バイパスブロック５４、５５は、下位および上位の
３２ビットワードを各々レジスタファイルブロック５６
に書込む。この書込みは、レジスタファイルブロック５
６に書込まれた６４ビット結果が、図１に示すＳＩＭＤ
用ＭＡＣユニット３または４等のＳＩＭＤ用ＭＡＣユニ
ットによって処理された場合と同様の結果となるような
態様で、レジスタファイルブロック５６の隣接するビッ
トフィールドにビットを書込むことによって行われる。

【００２３】図２の浮動小数点ユニット５０内に示すラ
インは、図１においてそれらがバスを示すために使用さ
れたのと同様に使用されている。矢印は、データの流れ
の方向を示すために使用されており、円はバス入力を示
すために使用されている。６１、６２、６３で示される
ラインは、ＳＩＭＤワードの下位３２ビットを表してい
る。従って、ＳＩＭＤモードにおいて、バス６１、６
２、６３の各々は、３２ビットのオペランド（すなわ
ち、Ａ、Ｂ、Ｃ）を移送する。ＳＩＭＤワードが浮動小
数点ユニット５０に受渡されると、レジスタファイルブ
ロック５６が、受取った制御ビットに従ってＳＩＭＤビ
ットをレジスタファイルブロック５６の適切なレジスタ
にロードする。バイパスブロック５４は、ＳＩＭＤワー
ドの下位３２ビット部分を選択して、その３２ビットワ
ードをバス６１、６２、６３を介してレジスタファイル
ブロック５６から標準ＭＡＣユニット５１に経路指定す
る。同時に、バイパスブロック５５は、バスライン６
５、６６、６７を介してＳＩＭＤワードの上位３２ビッ
ト部分を標準ＭＡＣユニット５２に経路指定する。

【００２４】標準ＭＡＣユニット５１および標準ＭＡＣ
ユニット５２は、ＳＩＭＤワードの各部分に対し同時に
乗算累算演算を実行する。ＳＩＭＤモードにおいて、標
準ＭＡＣユニット５１、５２は共に、３２ビットの結果
を生成し、それらは各々バスライン７１、７２を介して
バイパスブロック５４、５５に経路指定される。そし
て、その結果はバイパスブロック５４、５５によって合
体されて６４ビットのＳＩＭＤ結果となり、レジスタフ
ァイルブロック５６の適切なレジスタに書込まれる。

【００２５】なお、図１に示す浮動小数点ユニット１
は、２つのＳＩＭＤ演算を同時に実行することによっ
て、２つずつペアになった４つのＳＩＭＤ結果を生成す
ることができる。図２に示す浮動小数点ユニット５０で
は、一度に１つのＳＩＭＤ演算しか実行することができ
ない。従って、ＳＩＭＤ演算の性能に関して、概して図
２に示す浮動小数点ユニット５０のスループットは、図
１に示す浮動小数点ユニット１のスループットの半分と
なる。ＳＩＭＤ演算が頻繁に実行された場合、浮動小数
点ユニット５０の全スループットが浮動小数点ユニット
１の全スループットよりかなり低下する。しかしなが
ら、一般にＳＩＭＤ演算は、浮動小数点ユニットによっ
て実行される全演算の５％未満しか相当しない。従っ
て、標準ＭＡＣユニット５１、５２におけるＳＩＭＤ演
算の性能に起因する浮動小数点ユニット５０のスループ
ットの低下は、大して重要ではない。

【００２６】更に、浮動小数点ユニット１と比較した浮
動小数点ユニット５０のスループットの低下は、図１に
示す専用のＳＩＭＤ用ＭＡＣユニット３、４を取除いた
結果として実現されるダイの面積の大幅な節約という点
で、正当であると考えられる。更に、浮動小数点ユニッ
ト５０は、図４および図５に関して後に詳述するよう
に、ＳＩＭＤ用ＭＡＣユニット３、４の除去に起因する
スループットの低下の影響を更に低減するよう設計され
ている。

【００２７】図４は、キャッシュメモリコンポーネント
８１から浮動小数点ユニット５０への命令およびデータ
のロードと、浮動小数点ユニット５０からのデータの格
納およびキャッシュメモリコンポーネント８１へのデー
タの格納を制御するプロセッサアーキテクチャの回路８
０を示している。回路８０は、キャッシュメモリコンポ
ーネント８１からのデータの検索およびキャッシュメモ
リコンポーネント８１へのデータの格納と、浮動小数点
ユニット５０へのデータのロードおよび浮動小数点ユニ
ット５０からのデータの検索と、を制御する命令デコー
ダ８３を含む。回路８０は、メモリコンポーネント８５
と通信するが、このメモリコンポーネント８５は、好ま
しくはオフチップであって、キャッシュメモリコンポー
ネント８１に存在していない命令およびデータを格納す
る。当業者には、メモリコンポーネント８５をオンチッ
プメモリコンポーネントとすることができる、というこ
とが理解されよう。しかしながら、メモリコンポーネン
ト８５をオンチップで実装することは、ダイの面積とい
う点では費用がかかる。従って、好ましくは、オフチッ
プコンポーネントとして実装される。

【００２８】回路８０の外部にあるコンパイラ８７は、
キャッシュメモリコンポーネント８１にいずれの命令お
よびデータを存在させるか、および、いずれをメモリエ
レメント（メモリコンポーネント）８５に存在させる
か、を制御する。当業者により理解されるように、コン
パイラ８７は一般に、例えばコードの再順序付け（code
reordering）等の各種最適化技術を利用することにより
プログラム実行を最適化するソフトウェアコンポーネン
トである。コンパイラ８７は、これら最適化技術を利用
し、特定のコードおよびデータをメモリエレメント８５
からキャッシュメモリコンポーネント８１へ、およびそ
の逆に移動させる。

【００２９】命令デコーダ８３は、キャッシュメモリコ
ンポーネント８１から命令およびデータを読出し、その
データに対して実行される演算の種類を決定する。そし
て、命令デコーダ８３は、そのデータが、浮動小数点ユ
ニット５０のレジスタファイルブロック５６の適切なレ
ジスタにロードされるようにする。命令デコーダ８３
は、浮動小数点ユニット５０に、データが格納されるレ
ジスタとそれらレジスタに格納されたデータが処理され
る態様とをレジスタファイルブロック５６に対して命令
する制御ビットを供給する。命令デコーダ８３により、
浮動小数点ユニット５０は処理された後のデータを格納
すると共に、メモリエレメント８５またはキャッシュメ
モリコンポーネント８１のいずれかにそれを供給する。
命令デコーダ８３は、コンパイラ８７からの情報を利用
して、メモリエレメント８５またはキャッシュコンポー
ネント８１のいずれにデータを格納すべきかを決定す
る。

【００３０】図５は、命令デコーダ８３がＳＩＭＤ命令
をデコードする時点から、合体した６４ビットＳＩＭＤ
結果がレジスタファイルブロック５６のレジスタに書戻
された時点までの、ＳＩＭＤ演算の実行の高レベルタイ
ミング図を示している。なお、時間間隔Ｔ０〜Ｔ７は、
このプロセッサアーキテクチャで発生する周期を必ずし
も表しているものではなく、単に、互いに対する様々な
タスクの実行の相対的なタイミングを説明することを意
図したものである。浮動小数点ユニット５０および命令
デコーダ８３は、演算が実行される速度を最大化するよ
うに設計されている。

【００３１】ＳＩＭＤ演算は、命令デコーダ８３がキャ
ッシュメモリコンポーネント８１から読出された命令を
デコードし、レジスタファイルブロック５６のいずれの
レジスタがＳＩＭＤ演算のオペランドとして使用される
かを決定した時に開始する。このステップは、図５のタ
イミング図におけるブロック９１によって示されてい
る。このデコードステップは、ブロック９１で表されて
おり、時間Ｔ０〜Ｔ１の第１のユニットにおいて発生す
る。第２の時間Ｔ１〜Ｔ２において、命令デコーダ８３
により、ＳＩＭＤワードのオペランドがレジスタファイ
ルブロック５６の適切なレジスタからダンプされる。こ
のオペランドダンプステップは、ブロック９２によって
表されている。

【００３２】時間Ｔ２〜Ｔ３の間、ＳＩＭＤワードは下
位部分と上位部分とに分割され、その下位部分および上
位部分は、それぞれバイパスブロック５４、５５によっ
て標準ＭＡＣユニット５１、５２に供給され、標準ＭＡ
Ｃユニット５１、５２において算術演算が実行される。
この一連のステップは、ブロック９３によって表されて
いる。時間Ｔ４〜Ｔ５の間、ＳＩＭＤ結果（バス７１、
７２（図２））は、標準ＭＡＣユニット５１、５２によ
ってバイパスブロック５４、５５に渡される。時間Ｔ５
〜Ｔ６の間、結果（バス７１、７２）は、バイパスブロ
ック５４、５５において合体されて単一の６４ビットの
ＳＩＭＤ結果となり、この６４ビットのＳＩＭＤ結果
は、レジスタファイルブロック５６の適切なレジスタに
書込まれる。

【００３３】上述したように、場合によっては、浮動小
数点ユニット５０は、後続する演算の実行を開始するこ
とができる前に、演算の結果がレジスタファイルブロッ
ク５６の適切なレジスタに書戻されるのを待たなければ
ならない。例えば、浮動小数点ユニット５０によって実
行される第１の演算において、オペランドＡ、Ｂ、Ｃが
レジスタＲ４、Ｒ６、Ｒ８にそれぞれ格納され、演算の
結果がレジスタＲ１１に格納される。第２の演算は、演
算を実行するためにレジスタＲ１１、Ｒ１４、Ｒ１９の
内容を利用しなければならず、その結果はレジスタＲ６
０に格納されることとなる。この場合、浮動小数点ユニ
ット５０は、第２の演算の実行を開始することができる
前に、第１の演算の結果がレジスタＲ１１に書込まれる
まで待たなければならない。それは、第２の演算におい
てレジスタＲ１１の内容を利用しなければならないこと
による。

【００３４】逆に、浮動小数点ユニット５０は、次の演
算の実行前に先行する演算の結果を待つ必要がない場
合、標準ＭＡＣユニット５１、５２がパイプライン設計
を採用しているため、時間Ｔ１までには第２の演算を開
始することができる。

【００３５】先行する演算の結果がレジスタファイルブ
ロック５６に書戻されると、第２の演算のデコードステ
ップ９６を開始することができる。従って、先行する演
算において書戻しステップ９５が発生する前にデコード
ステップ９６を開始することができる。第２の演算のオ
ペランドダンプステップ９７は、先行する演算の書戻し
ステップ９５中に発生し、それによって、ブロック９８
の処理ステップに対して先行する演算の結果と次の演算
のオペランドとを同時に得ることができる。

【００３６】命令デコーダ８３は、これらのタイプの演
算の依存性を追跡し、浮動小数点ユニット５０によって
実行される演算のデータの完全性を保持しながら、浮動
小数点ユニット５０のスループットが最大化されるよう
に、適切な時間に命令を送出する。従って、浮動小数点
ユニット５０は、専用のＳＩＭＤ用ＭＡＣユニットを利
用しないことにより性能の犠牲を被るが、この性能の犠
牲の重要度は、浮動小数点ユニット５０の実装に必要な
ダイの面積の量という点の大幅な節約を実現する場合最
小である。

【００３７】当業者には、本発明が好ましい実施態様に
関連して説明されており、本発明がこの実施態様に限定
されない、ということが理解されよう。また、当業者に
は、上述した実施態様に対し、修正を行うことが可能で
あり、これが本発明の範囲内にあるということも理解さ
れよう。更に、当業者には、ハードウェアにおいてのみ
実施されているように説明された本発明のいくつかのコ
ンポーネントが、ハードウェア、ソフトウェアまたはハ
ードウェアとソフトウェアの組合せにおいて実施され得
る、ということが理解されよう。また、当業者には、本
発明が特定のデータ型フォーマットおよびビットワード
長に関して説明されたが、いかなる特定のデータ型フォ
ーマットまたはビットワード長に限定されるものではな
く、本発明の概念があらゆるデータ型フォーマットおよ
びビットワード長に適用が可能であるということが理解
されよう。

【００３８】以下においては、本発明の種々の構成要件
の組み合わせからなる例示的な実施態様を示す。１．データに対して算術演算を実行するための浮動小数
点ユニット（５０）であって、複数のレジスタを含み、
それらのレジスタにデータの格納およびそれらのレジス
タからデータの読出しを行うことができるレジスタファ
イル（５６）と、複数のデータ型フォーマット（１５、
１６）に対して算術演算を実行するよう構成された第１
の乗算累算ユニット（５１）と、複数のデータ型フォー
マット（１５、１６）に対して算術演算を実行するよう
構成された第２の乗算累算ユニット（５２）と、第１の
乗算累算ユニット（５１）およびレジスタファイル（５
６）に電気的に結合され、レジスタファイル（５６）の
レジスタから読出されたデータを受取ると共に、その読
出されたデータを第１の乗算累算ユニット（５１）に渡
すよう構成され、また、第１の乗算累算ユニット（５
１）から第１の乗算累算ユニット（５１）によって実行
された算術演算の結果を受取ると共に、その結果を第１
の乗算累算ユニット（５１）からレジスタファイル（５
６）に渡すよう構成される第１のバイパスコンポーネン
ト（５４）であって、前記結果がレジスタファイル（５
６）の１つまたは複数のレジスタに格納される、第１の
バイパスコンポーネント（５４）と、及びレジスタファ
イル（５６）の１つまたは複数のレジスタから読出され
たデータを受取ると共に、その受取ったデータをレジス
タファイル（５６）から第２の乗算累算ユニット（５
２）に渡すよう構成され、第２の乗算累算ユニット（５
２）によって実行された算術演算の結果を受取ると共
に、第２の乗算累算ユニット（５２）によって実行され
た前記算術演算の結果をレジスタファイル（５６）に渡
すよう構成される第２のバイパスコンポーネント（５
５）であって、第２の乗算累算ユニット（５２）によっ
て実行された前記演算の結果がレジスタファイル（５
６）の１つまたは複数のレジスタに格納される、第２の
バイパスコンポーネント（５５）とを含む、装置。２．乗算累算ユニット（５１、５２）が演算できる第１
のデータ型フォーマット（１５）は、６４ビット仮数
値、１７ビット指数値および１ビット符号値からなる８
２ビットワードであり、前記乗算累算ユニットが演算で
きる第２のデータ型フォーマット（１６）は、２つの３
２ビットワードからなり、それぞれの３２ビットワード
は、２３ビット仮数値、８ビット指数値および１ビット
符号値からなる、上記１記載の装置。３．第２のデータ型フォーマット（１６）に従ってフォ
ーマットされた６４ビットワードに対して演算される場
合に、その６４ビットワードの上位３２ビットに対して
は、第１の乗算累算ユニット（５１）によって演算さ
れ、また、その６４ビットワードの下位３２ビットに対
しては、第２の乗算累算ユニット（５２）によって演算
され、各乗算累算ユニットは、３２ビットの結果を生成
し、第１の乗算累算ユニット（５１）において生成され
た結果と第２の乗算累算ユニット（５２）において生成
された結果とが、レジスタファイル（５６）において前
記バイパスコンポーネントによって合体されることによ
り、レジスタファイル（５６）の１つまたは複数のレジ
スタに格納される６４ビットワードを生成する、上記２
記載の装置。４．乗算累算ユニット（５１、５２）の各々は、６４ビ
ットワードを受取り、第１の乗算累算ユニット（５１）
は、前記６４ビットワードのうちの演算すべき上位３２
ビットを選択し、第２の乗算累算ユニット（５２）は、
前記６４ビットワードのうちの演算すべき下位３２ビッ
トを選択し、前記乗算累算ユニットの各々に、前記６４
ビットワードのうちのいずれの３２ビット部分が各乗算
累算ユニットより演算されるべきかを決定するために、
それら乗算累算ユニットが使用する１つまたは複数のビ
ットが供給される、上記３記載の装置。５．３つのオペランドバス（６１、６２、６３）が、レ
ジスタファイル（５６）から第１の乗算累算ユニットに
３２ビットワードを移送し、各オペランドバス（６１、
６２、６３）が、３２ビットオペランドを移送すること
ができ、３つの３２ビットバス（６５、６６、６７）
が、レジスタファイル（５６）から前記第２の乗算累算
ユニットにデータを移送し、各バス（６５、６６、６
７）が、レジスタファイル（５６）から前記第２の乗算
累算ユニットに３２ビットオペランドを移送することが
でき、３２ビットバス（７１、７３）が、第１の乗算累
算ユニット（５１）からレジスタファイル（５６）に演
算結果を移送し、３２ビットバスが、第２の乗算累算ユ
ニット（５２）からレジスタファイル（５６）に演算結
果を移送し、前記３２ビットバスで前記第１および第２
の乗算累算ユニットからレジスタファイル（５６）に移
送された前記３２ビットの結果が、合体され、レジスタ
ファイル（５６）の１つまたは複数のレジスタに６４ビ
ットワードとして格納される、上記４記載の装置。６．レジスタファイル（５６）から第１の乗算累算ユニ
ット（５１）にデータを移送する３つの３２ビットオペ
ランドバス（６１、６２、６３）は、第１のバイパスコ
ンポーネント（５４）に接続されており、レジスタファ
イル（５６）から第２の乗算累算ユニット（５２）にデ
ータを移送する３つの３２ビットバス（６５、６６、６
７）は、第２のバイパスコンポーネント（５５）に接続
されており、第１および第２のバイパスコンポーネント
（５４、５５）に供給される１つまたは複数の制御ビッ
トは、前記第１および第２のバイパスコンポーネントに
より、レジスタファイル（５６）の特定のレジスタに格
納されたデータがレジスタファイル（５６）から第１お
よび第２の乗算累算ユニット（５１、５２）に移送され
る時に、そのデータが前記３２ビットオペランドバスに
出力されるようにするために使用され、第１および第２
のバイパスコンポーネント（５４、５５）に受渡される
１つまたは複数の制御ビットが、第１および第２のバイ
パスコンポーネント（５４、５５）によって、乗算累算
ユニット（５１、５２）からレジスタファイル（５６）
に移送中のデータがレジスタファイル（５６）の１つま
たは複数の特定のレジスタに格納されるようにするため
に利用される、上記５記載の装置。７．第１および第２の乗算累算ユニットを含む浮動小数
点ユニット（５０）において、単一命令多重データ（Ｓ
ＩＭＤ）に対して算術演算を実行するための方法であっ
て、予め決められた数のビットからなる複数のワード
を、第１および第２の乗算累算ユニット（５１、５２）
に供給するステップであって、そのワードの各々が、オ
ペランドに対応する、ステップと、第１の乗算累算ユニ
ット（５１）において、前記ワードの各々の特定の部分
を選択するステップと、第２の乗算累算ユニット（５
２）において、第１の乗算累算ユニット（５１）によっ
て選択されたワードの部分とは異なる前記ワードの各々
の特定の部分を選択するステップと、第１の乗算累算ユ
ニット（５１）において、第１の乗算累算ユニット（５
１）によって選択された前記ワードの部分に対して乗算
累算演算を実行するステップと、第２の乗算累算ユニッ
ト（５２）において、第２の乗算累算ユニット（５２）
によって選択された前記ワードの部分に対して乗算累算
演算を実行するステップと、第１および第２の乗算累算
ユニット（５１、５２）において実行された前記演算の
結果を合体して単一のＳＩＭＤ結果のワードにするステ
ップと、を含む、方法。８．第１および第２の乗算累算ユニット（５１、５２）
に供給される前記ワードの各々は、６４ビットワードで
あり、それぞれの６４ビットワードは２つの３２ビット
ワードからなり、それぞれの３２ビットワードは、２３
ビット仮数値、８ビット指数値および１ビット符号値か
らなり、第１の乗算累算ユニット（５１）は、前記６４
ビットワードの上位３２ビットワードを選択し、第２の
乗算累算ユニット（５２）は、前記６４ビットワードの
下位３２ビットワードを選択し、第１および第２の乗算
累算ユニット（５１、５２）によって実行された演算の
結果は、合体されて６４ビットワードとなり、その合体
された６４ビットワードはそれぞれ、２つの３２ビット
ワードからなり、それぞれの３２ビットワードは、２３
ビット仮数値、８ビット指数値および１ビット符合値か
らなる、上記７記載の方法。９．乗算累算ユニット（５１、５２）の各々は、１つの
８２ビット加算器と１つの８２ビット乗算器とを含み、
各乗算累算ユニット（５１、５２）は、その内部に含め
られた前記８２ビット加算器と前記８２ビット乗算器と
を利用して前記３２ビットワードに対する演算を実行す
る、上記８記載の方法。１０．各乗算累算ユニット（５１、５２）は、Ａ＋Ｂ×
Ｃで定義される算術演算を実行し、Ａ、Ｂ、Ｃは各々、
乗算累算ユニット（５１、５２）によって演算される３
２ビットオペランドの１つに対応しており、前記乗算累
算ユニットに含められた前記乗算器は、前記オペランド
ＢおよびＣに対して演算し、前記乗算累算ユニットに含
められた前記加算器は、前記オペランドＡと前記乗算器
からの結果とに対して演算することにより、後に合体さ
れる結果を生成し、その合体された結果を、浮動小数点
ユニット（５０）のレジスタファイル（５６）の１つま
たは複数のレジスタに格納する、上記９記載の方法。

【００３９】

【発明の効果】本発明により、複数のデータ型フォーマ
ットに対して演算することができ、且つ異なるデータ型
フォーマットの各々について専用のハードウェアを必要
としない浮動小数点ユニットが提供される。

【図面の簡単な説明】

【図１】ＳＩＭＤ演算を実行するための２つの専用のＳ
ＩＭＤ用ＭＡＣユニットを利用する浮動小数点ユニット
の機能ブロック図である。

【図２】ＳＩＭＤ演算を実行するために専用のＳＩＭＤ
用ＭＡＣユニットを利用しないが、浮動小数点ユニット
が実行する必要のあるＳＩＭＤ演算を含むすべての演算
を実行するために標準ＭＡＣユニットを利用する、本発
明の浮動小数点ユニットの機能ブロック図である。

【図３】図２に示す本発明の浮動小数点ユニットによっ
て演算を行うことができる２つの異なるデータ型フォー
マットのビットフィールドを示す。

【図４】浮動小数点ユニットを含む本発明のプロセッサ
アーキテクチャの一部の機能ブロック図であり、浮動小
数点ユニットとプロセッサアーキテクチャの他のコンポ
ーネントとの間の相互作用を説明するために使用され
る。

【図５】図２の浮動小数点ユニットにおいて発生するい
くつかの演算のタイミングを示すタイミング図である。

【符号の説明】 15 データ型フォーマット 16 ＳＩＭＤデータ型フォーマット 50 浮動小数点ユニット 51，52 標準ＭＡＣユニット 54，55 バイパスユニット 56 レジスタファイルブロック 61−63，65−67，71−74 バス

Claims

【特許請求の範囲】

【請求項１】データに対して算術演算を実行するため
の浮動小数点ユニット（５０）であって、複数のレジスタを含み、それらのレジスタにデータの格
納およびそれらのレジスタからデータの読出しを行うこ
とができるレジスタファイル（５６）と、複数のデータ型フォーマット（１５、１６）に対して算
術演算を実行するよう構成された第１の乗算累算ユニッ
ト（５１）と、複数のデータ型フォーマット（１５、１６）に対して算
術演算を実行するよう構成された第２の乗算累算ユニッ
ト（５２）と、第１の乗算累算ユニット（５１）およびレジスタファイ
ル（５６）に電気的に結合され、レジスタファイル（５
６）のレジスタから読出されたデータを受取ると共に、
その読出されたデータを第１の乗算累算ユニット（５
１）に渡すよう構成され、また、第１の乗算累算ユニッ
ト（５１）から第１の乗算累算ユニット（５１）によっ
て実行された算術演算の結果を受取ると共に、その結果
を第１の乗算累算ユニット（５１）からレジスタファイ
ル（５６）に渡すよう構成される第１のバイパスコンポ
ーネント（５４）であって、前記結果がレジスタファイ
ル（５６）の１つまたは複数のレジスタに格納される、
第１のバイパスコンポーネント（５４）と、及びレジス
タファイル（５６）の１つまたは複数のレジスタから読
出されたデータを受取ると共に、その受取ったデータを
レジスタファイル（５６）から第２の乗算累算ユニット
（５２）に渡すよう構成され、第２の乗算累算ユニット
（５２）によって実行された算術演算の結果を受取ると
共に、第２の乗算累算ユニット（５２）によって実行さ
れた前記算術演算の結果をレジスタファイル（５６）に
渡すよう構成される第２のバイパスコンポーネント（５
５）であって、第２の乗算累算ユニット（５２）によっ
て実行された前記演算の結果がレジスタファイル（５
６）の１つまたは複数のレジスタに格納される、第２の
バイパスコンポーネント（５５）とを含む、装置。