JPH09212362A

JPH09212362A - マイクロプロセッサ

Info

Publication number: JPH09212362A
Application number: JP8336647A
Authority: JP
Inventors: Bisuwasu Purasenjitsuto; ビスワスプラセンジット; Shunpei Kawasaki; 俊平河崎; Norio Nakagawa; 典夫中川; Osamu Nishii; 修西井; Kunio Uchiyama; 邦男内山
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1996-01-31
Filing date: 1996-12-17
Publication date: 1997-08-15
Also published as: US6012139A

Abstract

(57)【要約】【課題】１６ビット固定長浮動小数点命令セットを採
用する場合に浮動小数点命令の種類が少なくなることに
よる浮動小数点処理の制限を極力減らす。【解決手段】ＣＰＵ（２１８）とＦＰＵ（２１０）を
含むマイクロプロセッサに１６ビット固定長の浮動小数
点命令セットを採用する。このとき、ＣＰＵがＦＰＵの
ためのアドレシング処理を行うことによって浮動小数点
ユニットは中央処理装置と同様に強力なアドレシングモ
ードをサポートしなくても済む。ＣＰＵとＦＰＵとの間
でのデータ転送をコミュニケーションレジスタ（４１
８）を介して行うことにより、ＣＰＵとＦＰＵとの間で
データ転送を行うための浮動小数点命令の種類を減らす
ことができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、浮動小数点ユニッ
ト及び中央処理装置を含んだマイクロプロセッサ、特
に、１６ビット固定長浮動小数点命令セットを有するコ
ンピュータアーキテクチャに係り、例えば機器組み込み
制御用途のＲＩＳＣ型マイクロプロセッサに適用して有
効な技術に関するものである。

【０００２】

【従来の技術】あるＲＩＳＣ（縮小命令セットコンピュ
ータ）マイクロプロセッサはＦＰＵ（浮動小数点ユニッ
ト）を持つ。浮動小数点ユニットは浮動小数点演算を実
行する回路である。ＲＩＳＣは、マイクロプロセッサの
複雑さを低減するために相対的に単純で固定サイズの命
令を用いる、コンピュータアーキテクチャである。ＲＩ
ＳＣアーキテクチャにおける殆どの命令は、汎用レジス
タを利用してオペランドを処理し、その結果を汎用レジ
スタに格納する。これらのレジスタはメモリからロード
される。典型的には、レジスタの内容は、プログラムの
実行の間再利用される。殆どのＲＩＳＣアーキテクチャ
は１６個以上の汎用レジスタを有する。典型的なＲＩＳ
Ｃアーキテクチャにおける浮動小数点命令は、少なくと
も３２ビットの長さ（ビット数）を有する。そのような
ＲＩＳＣマイクロプロセッサの例としてはパワーＰＣが
ある。パワーＰＣはＩＢＭ及びモトローラによって広め
られた。同様に、ＭＩＰＳ、その他のＲＩＳＣベースの
マイクロプロセッサもまた、夫々の浮動小数点命令に３
２ビットを要求する。ＭＩＰＳマイクロプロセッサは、
カリフォルニア、サンニバルのＭＩＰＳ・コンピュータ
・システム・インコーポレーテッドによって製造されて
いる。

【０００３】図１はパワーＰＣのための典型的な３２ビ
ット長浮動小数点命令１１０を示す。命令１１０の１７
ビットはオペレーションコード１１４に割り当てられ
る。浮動小数点命令１１０の１５ビット１１８はアドレ
スレジスタ（address registers）に利用される。浮動
小数点命令１１０のオペレーションコード１１４は、浮
動小数点命令１１０を実行するために、１５ビット１１
８を利用してアドレス指定されたレジスタの内容を処理
する。

【０００４】ＲＩＳＣアーキテクチャが一般に少なくと
も３２ビット長の浮動小数点命令を要求する理由は、そ
のような命令は一般に３２個の浮動小数点レジスタのバ
ンクから選択された複数個のレジスタで３個のオペラン
ドを利用するからである。３２個のレジスタをアドレス
指定するには５ビット必要である。それ故、３２個のレ
ジスタから夫々のオペランドを選択するには１５ビット
要求される。明かではあるが、残りの複数ビットはオペ
レーションコード１１４のために要求される。

【０００５】

【発明が解決しようとする課題】ＲＩＳＣマイクロプロ
セッサのＣＰＵ（中央処理装置）のレジスタとＦＰＵの
レジスタとの間でのデータの転送に関する問題がある。
レジスタは例えばラッチのアレイである。一般に浮動小
数点ユニットは浮動小数点フォーマットでデータを格納
するためのレジスタを持つ。同様に、ＣＰＵは整数フォ
ーマットでデータを格納する整数レジスタを持つ。整数
レジスタと浮動小数点レジスタとの間でのデータ転送は
しばしば、ＲＩＳＣマクロプロセッサのキャッシュメモ
リのようなメモリを介して起こる。例えば、ＦＰＵがＣ
ＰＵにデータを転送する必要があるとき、ＦＰＵは最
初、浮動小数点レジスタからキャッシュメモリにデータ
を転送する。次に、ＣＰＵはキャッシュメモリに格納さ
れているこのデータをＣＰＵレジスタの記憶領域に獲得
する。しかしながら、データの格納又は獲得のためにキ
ャッシュメモリにアクセスするのは、格納又は獲得のた
めにレジスタからデータをアクセスするのに比べて一般
に遅い。更に、メモリをアクセスできるということは、
メモリアクセス回路によって費やされるチップ面積をＣ
ＰＵ及びＦＰＵに要求するということである。しかしな
がら、そのようなチップ面積の増大は、例えばエンベデ
ッド・アプリケーション（組み込み機器制御）への応用
にとっては重大である。エンベデッド・アプリケーショ
ンは、例えばプロセッサをゲームのような特定機能の制
御に割り当てる。より複雑なＲＩＳＣプロセッサにはＣ
ＰＵとＦＰＵレジスタとの間のデータ転送のために特別
な直結パスが割り当てられているものいがある。しかし
ながら、この追加されたパスは前記チップ面積の増加を
要求する。

【０００６】本発明者は、１６ビット固定長浮動小数点
命令セットを採用することについて検討した。浮動小数
点命令のビット数を減らせば、浮動小数点命令を格納す
るメモリサイズを小さくできるなどの利点がある反面、
浮動小数点命令の種類が少なくなり、浮動小数点演算に
利用するデータをフェッチするためのアドレシングモー
ド、浮動小数点演算に利用し或いは浮動小数点演算され
たデータを転送する処理、イミディエイトデータを利用
する浮動小数点処理などに関して制限を受けることが明
らかにされた。

【０００７】本発明の目的は、１６ビット固定長浮動小
数点命令セットを採用する場合に浮動小数点命令の種類
が少なくなることによる制限を極力減らすことができる
マイクロプロセッサを提供することにある。

【０００８】本発明の別の目的は、ＣＰＵとＦＰＵとの
間のデータ転送を高速化することができるマイクロプロ
セッサを提供することにある。

【０００９】本発明の更に別の目的は、ＣＰＵとＦＰＵ
との間でデータ転送を行うための浮動小数点命令の種類
を減らすことができるマイクロプロセッサを提供するこ
とにある。

【００１０】本発明のその他の目的は、１６ビット固定
長浮動小数点命令セットを採用する場合にもイミディエ
イト値をオペランドとして浮動小数点処理を行えるマイ
クロプロセッサを提供することにある。

【００１１】更に本発明は、浮動小数点ユニットを含み
機器組み込み制御用途に最適なマイクロプロセッサを提
供することにある。

【００１２】本発明の前記並びにその他の目的と新規な
特徴は本明細書の記述及び添付図面から明らかになるで
あろう。

【００１３】

【課題を解決するための手段】本願において開示される
発明のうち代表的なものの概要を簡単に説明すれば下記
の通りである。

【００１４】本発明は、１６ビット固定長浮動小数点命
令を有する３２ビットＲＩＳＣアーキテクチャに関す
る。浮動小数点命令長を１６ビットに減少させるとコン
ピュータプログラムを格納するためのメモリ領域を節約
出来る。例えば、浮動小数点命令長を３２ビットから１
６ビットに減少すると、それら命令を格納するために必
要なメモリを半減出来る。命令サイズの減少はキャッシ
ュミス率を減少させ、なぜなら、多くの命令をキャッシ
ュメモリに格納出来るからである。さらに、浮動小数点
命令長を短くすることは、命令フェッチの待ち時間（la
tency）を改善する。１６ビット命令は３２ビットブロ
ックでフェッチされる。したがって、メモリからの１回
のフェッチで２命令を獲得することができ、それに対し
て３２ビット命令の場合には１回のメモリアクセスで１
命令をフェッチ出来るだけである。浮動小数点命令長を
短くすることは、浮動小数点命令を格納するために要求
されるメモリサイズの減少を可能にし、それ故に、オン
チップキャッシュメモリのために利用されるチップ面積
を減少する。

【００１５】浮動小数点命令を１６ビットにすると上述
の利点がある反面、浮動小数点命令の種類が少なくなる
ことによる制限を受けることになる。その制限を極力減
らすという意味において以下の手段を採用する。

【００１６】先ず第１に、中央処理装置がマイクロプロ
セッサのための全てのアドレシング処理を行う。すなわ
ち、アドレスバス及びデータバスに結合された中央処理
装置と、前記データバスに結合された浮動小数点ユニッ
トとを含むマイクロプロセッサに関し、前記浮動小数点
ユニットは１６ビット固定長浮動小数点命令セットを用
いて浮動小数点処理を実行するが、このとき、前記中央
処理装置は前記浮動小数点ユニットが浮動小数点処理を
実行するための命令とデータを得るのに必要なアドレシ
ング処理を行う。浮動小数点ユニットはレジスタ相対な
どの強力なアドレシングモードをサポートしなくてもよ
く、これによって、浮動小数点命令の種類が少なくて
も、浮動小数点処理には支障ない。

【００１７】第２に、ＣＰＵとＦＰＵとの間のデータは
コミュニケーションレジスタを介して転送される。すな
わち、前記浮動小数点ユニットは、浮動小数点ユニット
とプロセッサとの間でのデータ交換を行うためにデータ
バスを介して中央処理装置に接続されるコミュニケーシ
ョンレジスタを含む。前記浮動小数点ユニットは、前記
中央処理装置によってコミュニケーションレジスタにロ
ードされたデータを用いて浮動小数点命令に従った浮動
小数点処理を行う。このように、コミュニケーションレ
ジスタへのデータ転送はレジスタ相対などの強力なアド
レシングモードを有する中央処理装置が行い、浮動小数
点ユニットは強力なアドレシングモードをサポートしな
くても、浮動小数点処理に必要などのようなデータもコ
ミュニケーションレジスタから高速に得ることができ
る。

【００１８】第３に、１６ビット固定長命令のグループ
は、浮動小数点数０又は１のイミディエイト値をロード
する特別な命令を持つ。すなわち、記浮動小数点ユニッ
トは、複数個の浮動小数点レジスタを有し、前記１６ビ
ット固定長浮動小数点命令セットは、所定の前記浮動小
数点レジスタに、命令のデコード結果に従って浮動小数
点数０をロードする第１のイミディエイト値ロード命令
を含む。同様に、前記１６ビット固定長浮動小数点命令
セットは、所定の前記浮動小数点レジスタに、命令のデ
コード結果に従って浮動小数点数１をロードする第２の
イミディエイト値ロード命令を含む。前記イミディエイ
ト値ロード命令は、それ自体がイミディエイトデータを
有する必要はなく、そのオペレーションコードのデコー
ド結果に従って０又は１の浮動小数点数イミディエイト
データを浮動小数点レジスタにロードさせるから、１６
ビットの命令長であっても、イミディエイトデータを用
いた浮動小数点処理を可能にする。イミディエイト値１
又は０だけをサポートする理由は、グラフィック制御な
どを企図した機器組み込み制御用途において多用される
イミディエイト値１又は０を専らサポートして、マイク
ロプロセッサのチップ面積の増大を極力押させるためで
ある。

【００１９】また、データプロセッサは、ＩＥＥＥ浮動
小数点標準Ｎｏ．７５４の例外の全てをサポートしな
い。また、ＩＥＥＥ丸めモードの全てがサポートされる
ことを必要としない。同様に、値を生成する浮動小数点
処理の結果が正規化された数でないなら、それをゼロと
みなす。すなわち、浮動小数点ユニットは、第１及び第
２の浮動小数点数に基づいて第３の浮動小数点数を形成
する加算手段と、前記加算手段の出力、第１の浮動小数
点数、第２の浮動小数点数及び浮動小数点数０を入力
し、選択制御信号に従って前記入力の一つを選択して出
力する選択手段と、前記第１の浮動小数点数と第２の浮
動小数点数が非正規化数であるかを検出する検出手段
と、前記検出手段の出力を受け、前記第１の浮動小数点
数と第２の浮動小数点数の双方が正規化数であるときは
前記加算手段の出力を前記選択手段に選択させ、前記第
１の浮動小数点数と第２の浮動小数点数の内の何れか非
正規化数であるときは正規化数としての第１の浮動小数
点数又は第２の浮動小数点数を前記選択手段に選択さ
せ、前記第１の浮動小数点数と第２の浮動小数点数の双
方が非正規化数であるときは浮動小数点数０を前記選択
手段に選択させる、選択制御信号を生成する選択信号回
路とを含む。乗算手段に対しては、前記検出手段の出力
を受け、前記第１の浮動小数点数と第２の浮動小数点数
の双方が正規化数であるときは前記乗算手段の出力を前
記選択手段に選択させ、前記第１の浮動小数点数と第２
の浮動小数点数の内の少なくとも何れか一方が非正規化
数であるときは浮動小数点数０を前記選択手段に選択さ
せる、選択制御信号を生成する選択信号回路を採用す
る。上記ＩＥＥＥ浮動小数点標準から逸脱した上記内容
は、マイクロプロセッサのチップ面積と実行サイクル時
間を節約する。

【００２０】

【発明の実施の形態】本発明の好適な実施の態様は３２
ビットＲＩＳＣアーキテクチャであり、１６ビット固定
長浮動小数点命令を有する。浮動小数点命令長を１６ビ
ットに縮小することはコンピュータプログラムを格納す
るメモリスペースを節約する。例えば、浮動小数点命令
長を３２ビットから１６ビットに縮小することは、それ
ら命令を格納するのに要求されるメモリを半減する。命
令サイズの縮小はキャッシュミス率を低減し、なぜな
ら、より多くの命令をキャッシュメモリに格納出来るか
らである。さらに、浮動小数点命令長を縮小すること
は、命令フェッチの待ち時間を改善する。フェッチの待
ち時間は、メモリから命令をフェッチするのに要求され
る時間に関係する。１６ビット命令は３２ビットブロッ
クでフェッチされる。したがって、メモリからの１回の
フェッチで２個の命令を獲得することができ、３２ビッ
ト命令ではメモリシーケンス毎に１個の命令をフェッチ
できるに過ぎない。浮動小数点命令長を縮小すること
は、浮動小数点命令を格納するのに要求されるメモリサ
イズを縮小することができ、これによって、オンチップ
キャッシュメモリに費やされるチップ面積を縮小するこ
とができる。

【００２１】この実施の態様は特に３次元グラフィック
スを十分にサポートする必要を持つエンベデッド・アプ
リケーション（例えばビデオ・ゲーム）への応用に有効
である。一般に、単精度浮動小数点を表現するデータは
ＩＥＥＥ浮動小数点標準に従う。しかしながら、効率化
のために、この実施の態様はＩＥＥＥ浮動小数点標準の
すべての例外をサポートしない。また、ＩＥＥＥ丸めモ
ードの全てについてもサポートされない。同様に、値を
生成する浮動小数点処理の結果が正規化された数でない
なら、それはゼロに一括消去される。即ち、浮動小数点
演算において最下位ビットを順次シフトして落としてい
く過程で、正規化された浮動小数点数の最小値よりも小
さく０よりも大きな数が発する。これを非正規化数（de
normalized number）と呼ぶ。非正規化数は指数が０で
あるが、仮数は０よりも大きい数である。このように、
非正規化数は正規化数に比べて小さく、そのような非正
規化数は実質的に無視し得るほど小さいものとして取り
扱うということになる。この取り扱いは、科学技術計算
のような高い演算精度を要求する応用分野では適さない
が、3次元グラフィック若しくはゲームなどの機器組み
込み制御への応用に対しては、実害なはない。ＩＥＥＥ
浮動小数点標準からのそのような逸脱は、むしろ、チッ
プ面積と実行サイクル時間を節約する上において好まし
い。ＩＥＥＥ浮動小数点標準からの逸脱に関しては以下
の更に詳細な説明によって論ぜられる。

【００２２】図２は本発明の実施の態様に係るプロセッ
サのダイヤグラムを示す。マイクロプロセッサ（単にプ
ロセッサとも記す）２１０は浮動小数点ユニット（ＦＰ
Ｕ）２１４を有する。さらに、前記プロセッサ２１０は
中央処理装置（ＣＰＵ）２１８を有し、このＣＰＵ２１
８は整数を処理する能力を持つ。ＣＰＵ２１８にとって
１６ビット固定長命令を利用する有利な点と詳細は、文
献“ＳＨ３：高いコード効率、ローパワー、ＩＥＥＥ
Ｍｉｃｒｏ，PP. 11-19, １２月１９９５年（SH3: Hi
gh Code Density, Low Power, IEEE Micro, pp. 11-19,
December 1995）”で論ぜられている。前記ＣＰＵ２１
８は３２ビットデータバス２２２を介して前記ＦＰＵ２
１４に結合されている。整数累積乗算ユニット（ＩＭＡ
Ｃ）２２０がデータバス２２２に結合されている。図２
に示される回路間のインタフェース信号はＣＰＵ２１８
とＦＰＵ２１４との間のインタフェース信号２２４及び
２２５を除いて示されていない。前記ＣＰＵ１８は３２
ビット論理アドレスバス２２６を介してメモリマネージ
メント装置（ＴＬＢコントローラ）２３４５に結合され
る。ＴＬＢはアドレス変換バッファを意味する。前記Ｔ
ＬＢコントローラ２３４は命令とデータに共用されるＴ
ＬＢ２３８を制御する。ＴＬＢ２３８は３２ビット物理
アドレスバス２３０を介してキャッシュコントローラ２
４２に接続される。キャッシュコントローラ２４２は命
令とデータに共用されるキャッシュメモリ２４６を制御
する。キャッシュメモリ２４６は３２ビットデータバス
２２２を介してＣＰＵ２１８とＦＰＵ２１４に結合され
る。

【００２３】マイクロプロセッサ２１０は更に、周辺デ
ータバス２５０及び周辺アドレスバス２５１に接続され
たシリアルコミュニケーションインタフェース２５２、
タイマ２５３等を備え、それら周辺データバス２５０及
び周辺アドレスバス２５１はバスステートコントローラ
２５４を介して前記データバス２２２及び物理アドレス
バス２３０にインタフェースされる。内外からの割込み
要求の調停等は割り込みコントローラ２５５が行う。チ
ップ外部とのバスインタフェースは外部バスインタフェ
ース回路２５６によって行われる。この説明と図２に示
された名称に基づけば、図２に示されているその他の回
路の機能は当業者にとっては自ずと理解されるであろ
う。

【００２４】プロセッサ２１０の機能は次の例によって
理解されるであろう。ＦＰＵ２１４は浮動小数点処理の
ためにメモリからデータ又は命令を要求することにな
る。この実施の態様において、前記ＦＰＵ２１４はキャ
ッシュメモリ２４６にデータをストアし又はキャッシュ
メモリ２４６からデータを獲得するためにメモリをアド
レシングする能力を持っていない。これは、ＦＰＵのメ
モリ・アドレシング回路の必要性を取り除くことによっ
てチップ面積を節約する。それに代え、ＣＰＵ２１８は
ＦＰＵ２１４に代わってキャッシュメモリなどををアド
レシングする機能を有する。したがって、ＦＰＵ２１４
若しくは浮動小数点命令は、ＣＰＵ２１０と同様の強力
なアドレシングモードをサポートする必要はなく、その
機能を全てＣＰＵ２１０が負担する。ＣＰＵ２１８はＦ
ＰＵ２１４のためにメモリからデータのフェッチを行う
だけでなく、ＣＰＵ２１８はまたＦＰＵ２１４のために
浮動小数点命令を含む全ての命令をメモリからフェッチ
する。更に、以下に詳述されるように、ＦＰＵ２１４と
ＣＰＵ２１８との間でのデータ転送はメモリアクセスを
伴わずに行われ、それに代えて、より速いレジスタアク
セスを通して行われる。

【００２５】データと命令を獲得するために、ＣＰＵ２
１８は、演算を行って、３２ビット論理アドレスバス２
２６を介してメモリマネージメント装置２３４に論理ア
ドレス（即ち仮想アドレス）を送って、メモリ２４６か
らのデータ又は命令を要求する。もしも対応する物理ア
ドレスがＴＬＢ２３８に格納されていないなら、ＴＬＢ
ミスを生じ、ＴＬＢコントローラ２３４はマッピング情
報を利用して論理アドレスを物理アドレスに変換するプ
ログラムシーケンスを行う。メモリマネージメント装置
２３４はそのときＴＬＢ２３８にその物理アドレスを格
納する。ＴＬＢ２３８は将来の利用、即ちＣＰＵ２１８
がそれと同じアドレス範囲のデータを要求するとき、の
ために、その物理アドレスを格納する。ＴＬＢ２３８は
３２ビット物理アドレスバス２３０を介してキャッシュ
コントローラ２４２にその物理アドレスを送る。キャッ
シュコントローラ２４２は命令とデータに共用されるキ
ャッシュメモリ２４６を操作して、３２ビットデータバ
ス２２２にデータ又は命令を置く。もしも、要求された
アドレスがキャッシュメモリ２４６上で有効でないな
ら、キャッシュミスを生じ、要求された情報が外部メモ
リからキャッシュメモリにフェッチされるまで、ＣＰＵ
２１８とＦＰＵ２１４の処理はキャッシュミス信号の適
用によってフリーズされる。ここで、フリーズとは、命
令それ事態の配列に起因して生ずるようなメモリコンフ
リクトやレジスタコンフリクトのような状態に応じてパ
イプラインを止めるストールとは異なる概念を一般に持
つ。すなわち、フリーズとは、命令の配列（命令の実行
順序）に起因しない要因、例えば、キャッシュミスやＴ
ＬＢミスなどによってパイプラインをある期間止めるこ
とを意味する。ストールもフリーズも、ハザード（障
害）に対処する一つの手段であることには変わりない。

【００２６】命令はＣＰＵ２１８とＦＰＵ１４の双方に
よるデコードのためにピックアップされる。命令及びデ
ータはＣＰＵ２１８とＦＰＵ２１４によって共有される
３２ビットの共通データバス上４で利用可能である。Ｆ
ＰＵ２１４はデータや命令をフェッチするためにメモリ
をアドレシングすることはできない。

【００２７】ＣＰＵ２１８がキャッシュメモリ２４６か
らフェッチする浮動小数点データは、標準的なＩＥＥＥ
単精度フォーマットで格納される。しかしながら、マイ
クロプロセッサ２１０における浮動小数点処理は、先に
述べたように、ＩＥＥＥ浮動小数点標準に絶対的に固執
するものではない。その逸脱はマイクロプロセッサ２１
０のチップ面積を縮小し、プロセッサ２１０の実行サイ
クル数を縮小する。この逸脱はエンベデッド・アプリケ
ーションに妥協を許す。例えば、正規化されていない浮
動小数点数（単に非正規化数とも記す）は、値を生成す
る浮動小数点処理によってゼロに一括消去される（即
ち、ゼロにセットされる）。正規化されていない浮動小
数点数は値がゼロの基底付き指数を持つ。非正規化数は
正規化数に比べて小さく、そのような非正規化数は実質
的に無視し得るほど小さいものとして取り扱うというこ
とになる。値を生成する浮動小数点処理の例は、浮動小
数点加算、浮動小数点減算、浮動小数点乗算、浮動小数
点除算である。しかしながら、コピー命令のような、値
を生成しない浮動小数点処理は、正規化されていない浮
動小数点数をゼロに一括消去しない。

【００２８】非正規化数をゼロに一括消去（フラッシン
グ）する回路３１０は図３に示される。この回路３１０
はキャリー伝達加算器（ＣＰＡ）３２２への浮動小数点
数の入力３１４，３１８を持つ。加算器３２２は浮動小
数点数ＡとＢを加算して、その結果３２６を選択回路３
３０に供給する。データパス３３４，３３８は入力３１
４，３１８に結合され、直接選択回路３３０に至る。入
力３１４，３１８はまた、非正規化数検出器３４２に結
合される。また、選択回路３３０には値ゼロの浮動小数
点数３４４の入力が結合される。信号経路３４６は選択
信号回路３５０に前記非正規化数検出器３４２を接続す
る。選択信号パス３５４は選択回路３３０に選択信号回
路３３０を結合する。前記選択回路３３０は出力３５８
を供給することができる。

【００２９】回路３１０は以下のようにして、非正規化
数をゼロにフラッシングする。非正規化数検出器３４２
は、浮動小数点数Ａ，Ｂの少なくとも一つが非正規化数
であるかを検出する。非正規化数検出器３４２はその検
出情報を信号パス３４６を介して選択信号回路３５０に
送る。浮動小数点数Ａ又はＢのどれか一つが非正規化数
なら、そのとき、選択信号回路３５０は選択パス３５４
を介して正規化されている数３１４又は３１８を直接選
択するように選択回路３３０を制御する。もしも、浮動
小数点数Ａ，Ｂのどちらも非正規化数で無いならば、選
択信号回路３５０は選択回路３３０を制御して選択回路
３３０の出力３５８のために演算結果３２６を選択す
る。

【００３０】しかしながら、双方の浮動小数点数Ａ，Ｂ
が非正規化数であるなら、そのときは、選択信号回路３
５０は選択回路３３０を制御して、選択回路３３０の出
力３５８のためにゼロ３４４を選択する。

【００３１】この記述に基づけば、当業者は、他の浮動
小数点処理のために非正規化数Ａ又は／及びＢを処理す
るのに、どのように回路３１０を変更すればよいかを、
理解するであろう。例えば、明らかなように、加算器３
２２は浮動小数点数Ａ，Ｂの互いの減算にも利用でき
る。同様に、加算器３２２の代わりに、乗算器が浮動小
数点数Ａ，Ｂを乗算することがもできる。しかし、乗算
の場合、浮動小数点数Ａ，Ｂの一方だけが非正規化数で
あったとしても、選択信号回路３５０は選択回路３３０
を制御して値ゼロ３４４を選択することが望ましい。

【００３２】また、当業者であれば、加算器３２２が除
算器に変更されたとしても、選択信号回路３５０はセレ
クタ３３０を制御して値ゼロ３４４又は浮動小数点数の
無限標記の一方を選択するであろうことを、上記記述に
基づいて認識するであろう。特別な選択は、浮動小数点
数Ａ，Ｂのどちらが非正規仮数であるかに依存するであ
ろう。

【００３３】上述のように、ＦＰＵ２１４の複雑なハー
ドウェアを更に単純化するには、浮動小数点数はゼロに
丸められる。即ち切り捨てられる。ゼロへの丸めによっ
てハードウェアの複雑さが縮小されるだけでなく、加え
るに、クロックサイクル数が節約される。

【００３４】図１５は浮動小数点数をゼロに丸めるため
の回路１４０８を示す。図１５において、レジスタＦＲ
ｍ１４１０とＦＲｎ１４１４の内容が操作される。双方
の内容１４１０，１４１４は浮動小数点数である。正規
化器１４１８は浮動小数点数１４１０，１４１４を正規
化し、例えば、これら二つの数１４１０，１４１４の加
算が要求されるかもしれいない。浮動小数点数１４１
０，１４１４に対する浮動小数点処理が例えば加算であ
るとき、２ｍビットＣＰＡのような加算器１４２２が浮
動小数点数１４１０，１４１４を加算する。

【００３５】もちろん、加算に代えて、加算器１４２２
によって実行される処理が減算であってもよい。加算器
１４２２の出力１４２４は先行１検出器（leading one
detector）及び正規化回路１４２５に入力される。回路
１４２５による２ｍビットの加算結果は中間レジスタ１
４２５に供給される。中間レジスタ１４２６の下位側の
ｍビット１４３０は無視される。それに対して、レジス
タ１４２６の上位側ｍビット１４４６は丸めの結果１４
５０として通過される。だから、回路１４０８の処理結
果としての、数値１４１０と１４１４に対する浮動小数
点処理結果の下位側ｍビットは、ゼロに設定される。

【００３６】回路１４０８が浮動小数点数１４１０，１
４１４を加算する間、その他の回路は浮動小数点数１４
１０，１４１４を互いに乗算又は除算するであろう。回
路１４０８の記述に基づけば、回路１４０８に示された
浮動小数点数の加算に代えて、他の回路が浮動小数点数
１４１０，１４１４を乗算又は除算できることは、当業
者にとって明らかであり、その場合に、丸めの結果１４
５０を達成するには、回路１４０８の一部分１４５４が
変更される必要はないであろう。前記一部分１４５４は
加算器の出力１４２４に代えて他のどんな出力も採るこ
とことができ、下位側ｍビット１４３０をゼロにセット
することができる。

【００３７】浮動小数点命令と浮動小数点命令に関係す
るＣＰＵ命令の完全なリストは図１６に示される。これ
ら命令は図１７〜図４８にその詳細が記述され、それに
は命令のＣ言語標記が含まれている。図１７〜図４８に
列挙されたこれら命令は、命令の意味に関して重要性の
無いアンダーラインを示している。

【００３８】ＣＰＵ２１８とＦＰＵ２１４との間でのデ
ータ転送（交換）は、それに割り当てられたコミュニケ
ーションレジスタ（ＦＰＵＬ）４１８（図４参照）を介
して行われる。上述のように、従来のＲＩＳＣプロセッ
サにおけるＣＰＵ２１８とＦＰＵ２１４との間のデータ
交換はキャッシュメモリ２４６のようなメモリを経由し
て行われる。キャッシュメモリ２４６を介するデータ転
送は、ＦＰＵＬレジスタ４１８のようなレジスタを介す
るデータ転送に比べて一般に遅い。

【００３９】図４はＦＰＵ２１４からそしてＦＰＵ２１
４へのデータ転送のための回路のブロックダイヤグラム
を示す。そのようなデータ転送は、ＦＰＵ２１４とＣＰ
Ｕ２１８との間のデータ転送を含むだけでなく、ＦＰＵ
２１４がデータフェッチのために間接的にキャッシュメ
モリ２４６をアクセスする機構も含む。図４において、
ＣＰＵ２１８はレジスタファイル４１０、即ち、Ｒ０〜
Ｒ１５の範囲に複数のレジスタを有する。同様に、ＦＰ
Ｕ２１４はレジスタファイル、即ちＦＲ０〜ＦＲ１５の
範囲に複数のレジスタを有する。さらに、ＦＰＵ１４は
コミュニケーションレジスタ（ＦＰＵＬ）４１８を有す
る。ＣＰＵ１８はデータパス４２２を介してＦＰＵ２
１４に結合される。データパス４２２はＣＰＵ２１８
をデータバス２２２に結合するセグメント４２６を含
む。データパス４２２はまたデータバス２２２を（Ｆ
ＰＵＬ）４１８に結合するセグメント４３０を含む。Ｆ
ＰＵ２１４のレジスタファイル４１４はデータパス４
３４を介してコミュニケーションレジスタ（ＦＰＵＬ）
４１８に結合される。ＦＰＵレジスタ４１４はまた、デ
ータパス４３８を介してキャッシュメモリ２４６に結
合される。データパスはＦＰＵレジスタ４１４をデー
タバス２２２に結合するパスセグメント４２２を含む。
データパスはまた、データバス２２２をキャッシュメ
モリ２４６に結合するセグメント４４６を含む。更に、
データパスはそれに関連するアドレスリンク４５０を
持つ。アドレスリンク４５０はアドレシングを目的とし
てＣＰＵ２１８をデータバス２２２に結合する。そし
て、データパス４５４はＦＰＵデータレジスタ４１４
を互いに結合する。

【００４０】特定のデータパスに沿ったデータ転送に利
用されるＣＰＵ命令又はＦＰＵ命令群がある。データパ
ス４２２、４３４、４３８、４５４は命令グル
ープ４５８、４６２、４６４及び４６８に夫々関係す
る。

【００４１】図５は図１６に示される浮動小数点命令の
一つ、すなわち１６ビット浮動小数点命令４６８、特に
データパス４５４に関係するものを示す。命令４６８
は、フローティングポイントレジスタ（浮動小数点レジ
スタ）ＦＲｍの内容を、浮動小数点レジスタＦＲｎに転
送する命令であって、それは図１６のニーモニック（mn
emonic）の欄にアッセンブルコードで示され、図４７に
示されており、サフィックス“ｍ”と“ｎ”は０〜１５
の値を取るものと考えられる。このムーブ命令（move i
nstruction）４６８は夫々４ビットの長さを有する４個
の領域を備える。ムーブ命令４６８の２個の領域５１
４，５１４はオペレーションコード（図１６のop code
の欄を参照）を構成する。図５（及び図１６のop code
の欄）では１６進数フォーマットで示されている残りの
２個の領域５１８，５２２はオペランドを表し、例えば
レジスタはＦＲｎとＦＲｍを夫々識別している。オペレ
ーションコード５１４は、浮動小数点ムーブ命令を達成
するために５１８と５２２によって識別されるレジスタ
を操作する。

【００４２】データパスに関係するもう一つの命令と図
４の回路のオペレーションを示すために、データパス
４２２に関連する命令グループ４５８に含まれる、ＣＰ
Ｕ・ロード・コミュニケーションレジスタ・命令（ＣＰ
ＵがコミュニケーションレジスタＦＰＵＬにロードする
命令）を次に説明する。命令“ＬＤＳＲｍ，ＦＰＵ
Ｌ”、すなわちＣＰＵ・ロード・コミュニケーションレ
ジスタ・命令は、図４０に示されているように、ＣＰＵ
の汎用レジスタＲｍの内容を浮動小数点コミュニケーシ
ョンレジスタ（ＦＰＵＬ）４１８にコピーする。ＣＰＵ
・ロード・コミュニケーションレジスタ・命令を実行す
るために、ＣＰＵはレジスタＲｍの内容をデータバス２
２２に転送する。レジスタ指定“Ｒｍ”において、ｍは
ＣＰＵ２１８の汎用レジスタ４１０のどれかを識別する
ために０〜１５の値を採る。そのときＣＰＵ２１８は、
データバス４３０から転送されたデータをＦＰＵ２１４
がＦＰＵＬレジスタ４１８に格納するのに十分な時間だ
け、データバス２２２上のデータを有効（利用可能）に
する。この命令“ＬＤＳＲｍ，ＦＰＵＬ”により、Ｆ
ＰＵ２１４は、ＣＰＵ２１８がＦＰＵＬレジスタ４１８
にロードしたデータを利用して浮動少数点演算を行うこ
とができる。このデータロードに際して、そのためのア
ドレシング（メモリアクセス）はＣＰＵ２１８が行う。
ＣＰＵ２１８はレジスタ相対などの各種アドレシングモ
ードをサポートしているので、ＦＰＵ２１４それ自体は
そのような強力なアドレシングモードを一切サポートし
なくてもよい。１６ビット固定長浮動小数点命令セット
を採用することによって浮動小数点命令の種類が少なく
なっても、ＣＰＵとＦＰＵとの間ので^他転送には一切
不自由はない。

【００４３】図６には、ＣＰＵ２１８とＦＰＵ２１４が
命令を実行するために利用するパイプラインを示す。Ｆ
ＰＵパイプライン６１０とＣＰＵパイプライン６１４は
単一の命令フェッチステージ６１８を共有する。更に、
ＦＰＵパイプライン６１０は４個のパイプラインステー
ジ、すなわち、デコードステージ（Ｄｆ）６２２、第１
実行ステージ（Ｅ１）６２６、第２実行ステージ（Ｅ
２）６３０及びライトバックステージ（Ｓｆ）６３４を
持つ。同様に、ＣＰＵパイプライン６１４は更に４個の
ステージ、すなわち、デコードステージ（Ｄｉ）６３
８、実行ステージ（Ｅ）６４２、メモリアクセスステー
ジ（Ａ）６４６及びライトバックステージ（Ｂｉ）６５
０を持つ。Ｄｉステージ６３８は、図６の矢印６５５で
示されるように、ＦＰＵパイプラインステージのために
バイパス、ストール及びキャンセルのための信号を生成
する。Ｄｉステージ６３８は、信号パス６５５を経由し
て、Ｅ１ステージ６２６とＥ２ステージ６３０へのバイ
パス信号を供給し、そして、ＦＰＵステージ６２２，６
２６，６３０，６３４並び共有されたＩステージ６１８
にキャンセル信号を供給し、更に、ストールに関連され
る信号をＤｆステージ６２２に供給し、並びに、Ｅ１ス
テージ６２６にストール信号を供給する。それらの信号
については更に次に説明する。

【００４４】データバス２２２上で利用可能な命令は、
最初命令フェッチステージ６１８によって獲得される。
命令フェッチステージ６１８でフェッチされた命令は双
方のデコードステージＤｆ６２２，Ｄｉ６３８がデコー
ドする。デコードステージの第１段階は、その命令がＣ
ＰＵ命令かＦＰＵ命令かを識別する処理を含む。ＦＰＵ
命令は、命令の上位４ビットにおけるＦ（１６進数）に
よって識別される。もしも命令が浮動小数点タイプでな
いなら、Ｄｆステージ６２２は命令を更にデコードしな
い。同様に、Ｄｉステージは浮動小数点命令を完全にデ
コードしない。Ｄｉステージ６３８は、実行されるべき
浮動小数点処理を識別するための浮動小数点命令のデコ
ードを行なわない。これによって、ハードウェアの複雑
化に対して大きな縮小をもたらす。もしもシングルデコ
ードステージを利用するとすれば、ＦＰＵデータパスを
制御するために要求される全ての信号は、ＣＰＵ２１８
からＦＰＵ２１４に交差されてチップエリアの増大をも
たらすことになるであろう。フェッチされた命令が浮動
小数点命令のときは、ＦＰＵパイプライン６１０のＥ１
ステージ６２６が命令を実行し始める。ＦＰＵパイプラ
イン６１０のＥ２ステージ６３０は、そのとき、この浮
動小数点命令の実行を完了する。命令の要求に応じて、
ＦＰＵパイプライン６１０のＳｆステージ６３４が命令
の実行結果を浮動小数点レジスタに格納する。

【００４５】同様に、フェッチされた命令が、整数を処
理するようなＣＰＵ命令である場合、ＣＰＵパイプライ
ン６１４のＥステージ６４２は、その命令を実行する。
特定の命令が実行されることによって呼ばれたとき、Ｃ
ＰＵパイプライン６１４のＡステージ６４６がキャッシ
ュメモリ２４６をアクセスする。最後に、ＣＰＵパイプ
ライン６１４のＳｉステージ６５０は、命令実行結果を
例えばＣＰＵレジスタ４１０の一つに書き込むことがで
きる。ＦＰＵパイプライン６１０とＣＰＵパイプライン
６１４の一方の利用だけを要求する命令は、利用されて
いないパイプラインに関してはそれを単に通過して実質
的なオペレーションを行わずに終わる。例えば、命令フ
ェッチステージ６１８が整数加算命令をフェッチしたと
き、ＣＰＵパイプライン６１４はこの整数加算命令を実
行ステージ（Ｅ１）６４２で実行し、そして実行結果を
Ｓｉステージ６５０でレジスタに格納する。しかしなが
ら、整数加算命令がデコードされたとき、ＦＰＵパイプ
ライン６１０のＤｆステージ６２２は整数加算命令をＥ
１ステージ６２６を単に通過させる。そして整数加算命
令は続けてその後のクロックサイクルの期間にＦＰＵパ
イプライン６１０の残りのステージを通過する。同様
に、フェッチされた命令が純粋な浮動小数点命令である
ときは、Ｄｉステージ６３８は浮動小数点命令をＥステ
ージ６４２に通過させ、その後のサイクルの期間にはＣ
ＰＵパイプライン６１４の残りのステージに通過させ
る。ここでいう“通過”とは、表裏の関係にあるＣＰＵ
パイプラインとＦＰＵパイプラインの何れか一方におい
て実質的なオペレーションを伴わないパイプラインステ
ージが単に形式的に通過していくということを意味する
に過ぎない。

【００４６】ここで、ＣＰＵパイプラインとＦＰＵパイ
プラインとを図６に例示されるように構成することの意
義を説明する。すなわち、ＦＰＵパイプライン６１０と
ＣＰＵパイプライン６１４のパイプライン段数（パイプ
ラインのステージ数）を相互に等しくしてある。ストー
ルを行う期間、パイプラインステージ間のバイパスをど
のステージからどのステージに対して行うかという制御
は、パイプラインステージの長さ（段数）に依存する。
通常、ストールの制御はストールされるべきパイプライ
ン側で制御し、また、バイパス制御はバイパスされるデ
ータの受け側で制御する。そうすると、ＦＰＵパイプラ
インとＣＰＵパイプラインの段数が相違する場合には、
バイパスに代表されるようなパイプライン間でのデータ
交換、ストール、フリーズ、及びキャンセル等のための
制御を行うリソース、即ち、パイプラインのフロー制御
などを行うためのロジック回路やバイパスのための制御
線などを、ＣＰＵパイプラインとＦＰＵパイプラインと
の間で殆ど個別化しなければならなくなる。図６に例示
されるように、ＦＰＵパイプライン６１０とＣＰＵパイ
プライン６１４のパイプライン段数を相互に等しくする
と、ＣＰＵパイプライン６１４とＦＰＵパイプライン６
１０とのフロー制御等のためのパイプライン制御用のリ
ソースをＦＰＵパイプラインとＣＰＵパイプラインで殆
ど共有させることができ、このパイプラインリソースの
共有によってパイプライン制御のための物理的な回路規
模を縮小することができる。しかもＣＰＵパイプライン
６１４とＦＰＵパイプライン６１０との同期化も容易に
なる。

【００４７】ある命令はＦＰＵパイプライン６１０とＣ
ＰＵパイプライン６１４との間のデータ転送をコールす
る。そのような命令の例としては、データパスを利用
するＣＰＵ・ロード・コミュニケーション・レジスタ命
令４７２“ＬＤＳＲｍ，ＦＰＵＬ”がある。図７はＦ
ＰＵパイプライン６１０、ＣＰＵパイプライン６１４及
び双方のパイプライン６１０、６１４の間におけるデー
タ転送のためのタイミングを示す。パイプラインの構成
は図６に示される通りである。パイプラインの夫々のス
テージは、単一クロックサイクル例えば位相１のクロッ
ク７０８（位相２のクロックは示されていない）に相当
することに着目すべきである。前記ＣＰＵロード・コミ
ュニケーション・レジスタ命令４７２はＣＰＵ２１８の
命令である。しかしながら、上述のように、全ての命令
はＦＰＵパイプライン６１０とＣＰＵパイプライン６１
４の双方のデコードステージ６２２、６３８によってデ
コードされる。だから、ＣＰＵロード・コミュニケーシ
ョン・レジスタ命令４７２をデコードすると、Ｄｆステ
ージ６２２は、ＦＰＵパイプライン６１０で必要な処理
が含まれるであろうことを認識し、それによって、ＦＰ
Ｕ２１４はＦＰＵＬレジスタ４１８へのアクセスを制御
する。最初、ＣＰＵロード・コミュニケーション・レジ
スタ命令４７２はＣＰＵパイプライン６１４によってＥ
ステージ６４２で実行される。同時に、ＦＰＵパイプラ
イン６１０のＥ１ステージ６２６は何ら動作することな
く文字Ｔによって示されるように命令を通過させる。言
い換えれば、ＣＰＵロード・コミュニケーション・レジ
スタ命令４７２は単にＥ１ステージを通される。

【００４８】ここで、Ｅ１ステージに関連する別の説明
を行う。一般的に、パイプライン６１０，６１４の夫々
のステージは実行に１サイクルを要する。しかしなが
ら、パイプラインステージにおいて１サイクル以上を費
やす特別な命令がある。その場合、命令は特定のパイプ
ラインステージが繰り返される。例えば、図２４及び図
２５に示されるような浮動小数点除算命令“ＦＤＩＶ”
は、１３サイクルの待ち時間を有する。ここで、待ち時
間とは、例えばＦＰＵパイプライン６１０の実行ステー
ジ６２６，６３０で命令が費やす全サイクル数を意味す
る尺度である。浮動小数点命令はＥ２ステージ６３０で
１サイクル費やす。これによって明らかなように、浮動
小数点除算命令はＥ１ステージ６２６で１２サイクルを
費やす。図２４には浮動小数点除算命令のピッチ（pitc
h）が示されており、このピッチは、現在の命令の次の
命令がパイプラインで実行開始できる前のクロックサイ
クルによる尺度である。例えば、浮動小数点除算命令の
後に続く次の命令は１２サイクル後に実行を始めること
ができ、浮動小数点除算命令のピッチは１２サイクルに
等しい。数値１２のピッチは、浮動小数点除算命令がＥ
１ステージ６２６で１２サイクルを費やすということを
示す。したがって、次の浮動小数点命令はＥ１ステージ
６２６に入る前に１２サイクル待たなければならない。

【００４９】ロード・コミュニケーション・レジスタ命
令４７２の説明に戻ると、前述の通り、同じ命令がＦＰ
Ｕパイプライン６１０とＣＰＵパイプライン６１４の双
方を流れるから、Ｅ１ステージ６２６のリソース（例え
ばレジスタＦＰＵＬ）は、ＣＰＵパイプライン６１４の
Ｅステージ６４２が実行するサイクル数と同じ量だけ保
持されるであろう。次に、ＣＰＵパイプライン６１４の
Ａステージ６４６は、ＬＤＳＣＰＵロード・コミュニ
ケーション・レジスタ命令４７２における“Ｒｍ”で参
照されたレジスタの内容をソースとしてデータバスに与
える。これはキャッシュメモリアクセスを要求しない命
令であるから、Ａステージ６４６はＣＰＵレジスタファ
イル４１０からデータバスにロードするだけである。Ａ
（Ｔ’）７１４はメモリアクセスが生じないことを示し
ている。

【００５０】ＣＰＵパイプラインがレジスタ“Ｒｍ”の
内容をデータバス２２２に置いている間、ＦＰＵパイプ
ライン６１０のＥ２ステージ６３０は、文字“Ｔ”によ
って示されるように何ら動作を伴うことなく命令を通過
させる。ＣＰＵステージＡ６４６はレジスタＲｍの内容
を、限られた期間、即ちデータ・レディー時間７１８の
間、データバス２２２上で利用可能にする。前記“デー
タ・レディー時間”は、ＣＰＵロード・コミュニケーシ
ョン・レジスタ命令４７２に関係するデータ転送によっ
てデータバスがビジー状態である時間とされる。データ
バス２２２上のデータが利用可能な７１８の期間、ＦＰ
Ｕパイプライン６１０のライトバックステージ６３４が
データバス２２２のデータを獲得し、そのデータをＦＰ
ＵＬレジスタに格納する。

【００５１】この例からも明らかなように、ＣＰＵパイ
プライン２１４とＦＰＵパイプライン２１０とのパイプ
ラインステージの段数は同じであり、双方は並行して流
れるから、ＣＰＵ１１８にとってはメモリへの書込みと
同様のシーケンスを採れば（実際にはメモリアクセスは
行われない）、ＦＰＵパイプライン２１０はステージＳ
ｆでそのデータをＦＰＵＬレジスタに取り込むことがで
きる。このようにして、ＦＰＵはＣＰＵがレジスタＦＰ
ＵＬにロードしたデータを利用して浮動小数点処理を行
うことができる。浮動小数点命令が１６ビット固定長で
あっても、ＦＰＵそれ自体は豊富な種類のデータ転送命
令を持たなくてもよく、また、データフェッチもＣＰＵ
がやるからＦＰＵは強力なアドレシングモードを持つ必
要もない。

【００５２】ＣＰＵストア命令“ＳＴＳＦＰＵＬ、Ｒ
ｎ”は、図７の（ｂ）に示されるように、同様に二つの
パイプライン６１０，６１４によって実行される。ＣＰ
Ｕストア命令４７６はＦＰＵＬレジスタの内容をＣＰＵ
汎用レジスタＲｎにコピーする。しかし、ＣＰＵストア
命令４７６の場合、ＦＰＵ２１４はＦＰＵＬレジスタの
内容がデータバス２２２の上で利用可能な期間７２２を
制御する。すなわちＦＰＵパイプラインはＦＰＵＬレジ
スタの内容を３２２の期間だけデータバスに載せ、ＣＰ
Ｕパイプライン２１４はこのデータをステージＳｉでレ
ジスタＲｎに取り込む。

【００５３】図９はＦＰＵパイプライン６１０の更に詳
細な回路８０６を示す。図９の回路には、ＦＰＵパイプ
ラインステージ６２２，６２６，６３０及び６３４に夫
々含まれるラッチ８１４，８１８，８２２及び８２６が
示される。ＦＰＵパイプラインステージ６２２，６２
６，６３０及び６３４はそれらに対応されるラッチ８１
４，８１８，８２２及び８２６の出力を、１相目クロッ
ク８０８，７０８の立ち下がりエッジ又は２相目クロッ
ク８１０の立ち下がりエッジでストアする。また、更に
以下で詳述するバイパス信号８２８が示されている。Ｆ
ＰＵパイプライン回路８０６の機能は、すぐにそして更
に以下で記述される例によって示される。ＣＰＵロード
・コミュニケーション・レジスタ命令４７２の例では、
ＦＰＵデコードステージ（Ｄｆ）６２２は、マルチプレ
クサ８３４の選択信号経路８３０上の選択信号をアサー
トすることによって、データバス２２２からレジスタＲ
ｍの内容を取得するのを制御し、それによって、データ
はＦＰＵＬレジスタ４１８にロードされる。

【００５４】一方、図４に示される浮動小数点命令のグ
ループ４５８，４６２，４６４及び４６８（図１６に列
挙されている）は、上述のように、データ転送命令であ
る。特に、図１６は、浮動小数点積和演算（ＦＭＡＣ）
命令“ＦＭＡＣＦＲ０，ＦＲｍ，ＦＲｎ”を示してい
る。図１０は基本的なＦＭＡＣ回路９１０であり、ＦＭ
ＡＣ命令を実行する。図１０において浮動小数点乗算器
９１４は浮動小数点レジスタ（ＦＲ０）９１８の内容を
浮動小数点レジスタ（ＦＲｍ）９２２の内容によって乗
算する。浮動小数点レジスタ（ＦＲｎ）９２６の内容
は、前正規化器９３０に結合される。文字“ｍ”と
“ｎ”は図４の浮動小数点レジスタ４１４のどれかを指
定する。乗算器９１４と共に前正規化器９３０は、キャ
リー伝達加算器のような加算器９３４に結合される。加
算器９３４の出力は正規化器９３８に結合され、この正
規化器９３８は先行する“１”の検出器（先行１検出器
とも称する）９４０に結合される。正規化器９３８の出
力９４２は浮動小数点レジスタ（ＦＲｎ）９４６に結合
される。

【００５５】ＦＭＡＣ９１０は浮動小数点レジスタ（Ｆ
Ｒｎ）９４６にＦＭＡＣ９１０の出力を積算することに
よって機能する。例えば、幾つかの連続的なＦＭＡＣの
命令が実行されるかもしれない。複数の連続的なＦＭＡ
Ｃ命令を実行する必要性は、３次元グラフィックスやビ
デオゲームのアプリケーションなどにある。夫々のＦＭ
ＡＣ命令はそのときＦＭＡＣオペレーションの結果を異
なる浮動小数点レジスタ９４６に積算することができ
る。これは、連続的に実行されるＦＭＡＣ命令の間にお
けるパイプラインストールを防止する。あるパイプライ
ンステージにおけるストールは、パイプラインにおける
他のステージにおける動作を停止しない。代わりにＮＯ
Ｐ（ノー・オペレーション）命令が、ストールを持つパ
イプラインのステージに挿入される。このとき、ＮＯＰ
はパイプラインの通過が許容される。従属的なストール
は連続的にＦＭＡＣ命令が同じ浮動小数点レジスタに積
算するときに発生する。しかしながら、この実施の態様
では、連続的なＦＭＡＣオペレーションは、異なる浮動
小数点レジスタに積算することができる。これは、連続
するＦＭＡＣ命令の間で従属的に発生するストールを防
止する。

【００５６】図１６に列挙された他の命令は、イミディ
エイトデータ（即値）“０”と“１”をロードする浮動
小数点命令である。ＲＩＳＣマイクロプロセッサは、通
常そのような浮動小数点命令を持っていない。これら命
令を持つ代わりに、他のＲＩＳＣ浮動小数点命令セット
は、浮動小数点の値“０”又は“１”を浮動小数点レジ
スタにロードする命令シーケンスを要求している。換言
すれば、浮動小数点処理のためにイミディエイト値をロ
ードする命令のビット数は通常１６ビットでは間に合わ
ない。この好適な実施の形態例では、１６ビット固定長
命令であっても、浮動小数点処理のためにイミディエイ
ト値を浮動小数点レジスタにロードする命令と実質的に
同じオペレーションを実現するための前記浮動小数点命
令（ロード・イミディエイト命令）を持つ。この場合、
当該ロード・イミディエイト命令はグラフィック制御等
に多用されるイミディエイト値“１”，“０”だけをサ
ポートする。他のＲＩＳＣマイクロプロセッサは、浮動
小数点レジスタ（例えば３２個のレジスタ以外の７個）
を定数“０”と“１”の保持に割り当てるものがある。
この実施の形態におけるような命令セットでは、レジス
タの割り当ては、コンパイラによるスケジューリングに
対して浮動小数点レジスタの利用を厳格に規定するであ
ろう。浮動小数点数“０”の即値をロードし、或いは浮
動小数点数“１”の即値をロードする命令を実行するた
めの回路ブロック図は図１１に示される。

【００５７】図１１は浮動小数点数の即値１又は０をロ
ードするための回路１００８を示す。回路１００８はフ
ェッチステージ（Ｉ）６１８（図６参照）から、浮動小
数点の即値１又は０のロード命令（ロード・イミディエ
イト命令）を受け取る。命令がデコードされると、ＦＰ
Ｕパイプライン６１０のデコードステージ（Ｄｆ）６２
２はロード・イミディエイト命令１０１０を次のステー
ジ（Ｅ１）６２６に移動させる。次にＥ１ステージ６２
６は、文字“Ｔ”７１０で示されるようにロード・イミ
ディエイト命令１０１０を通過させる。同様に、Ｅ２ス
テージ６３０の相１の部分（phase one part）１０１４
はロード・イミディエイト命令１０１０を通過させる。
Ｅ２ステージ６３０の相２の部分１０１８は、キャリー
伝達加算器（ＣＰＡ）１０２２のような加算器を含み、
そのキャリー伝達加算器１０２２は、Ｅ２ステージの相
１の部分１０１４４に結合されると共に、マルチプレク
サ１０３０の出力１０２６に結合されている。マルチプ
レクサ１０３０は幾つかの入力を持つ。マルチプレクサ
の入力の一つは、０信号１０３４である。もう一つの信
号は１信号１０３８である。デコードステージ（Ｄｆ）
６２２はマルチプレクサ１０３０の選択信号１０４２に
定数選択信号を適用することができる。Ｄｆステージ６
２２が０信号１０３４を選択するか１信号１０３８を選
択するかは、Ｄｆステージ６２２がフェッチステージ６
１８から受け取ったのはどちらのロード・イミディエイ
ト命令であるかに依存する。加算器１０２２の出力１０
４６は浮動小数点レジスタファイル４１４に結合され、
レジスタファイル４１４はＳｆステージ６３４の相１の
部分１０５０の一部分である。

【００５８】図１２はＦＰＵパイプライン６１０のデコ
ードステージ（Ｄｆ）６２２のブロック図である。デコ
ードステージ（Ｄｆ）６２２の機能は、ストール信号１
２１０（図１３参照）に依存する。このストール信号１
２１０はＣＰＵパイプライン２１８のデコードステージ
（Ｄｉ）６３８によって生成される。このストール信号
１２１０は、Ｅ１ステージ６２６でＮＯＰ１２１４を生
成するためにＦＰＵパイプライン６１０の実行ステージ
（Ｅ１）６２６で利用される。Ｄｆステージ６２２がス
トール状態を検出したとき、図１２のＤｆステージ６２
２はＤｆステージ６２２でデコードされた命令をＤｆス
テージの出力１１１４から帰還する。帰還経路１１１８
を介する帰還はＤｉ６３８からの制御信号１１１０がマ
ルチプレクサ１１０８の入力１１０６を選択（制御信号
＝１）することによって達成される。

【００５９】図１２はまた、フリーズ信号の選択経路１
１２２を示す。上述のように、フリーズ信号は、全体の
パイプラインにおいて全ての実行を停止させる。ストー
ル信号と同様に、フリーズ信号はＦＰＵパイプラインと
ＣＰＵパイプラインの双方に適用される。フリーズ信号
１１２２はラッチ１１２４をディスエーブルにする。ま
た、図１２はキャンセル信号の選択パス１１２６を示
す。キャンセル信号選択パス１１２６は、ＮＯＰ１１３
０を挿入することによってパイプラインのその地点でど
んな命令もキャンセルすることができる。１１３４で示
される部分には、ＦＰＵパイプライン６１０のデコード
ステージ６２２に適用される信号を更に記述する。シン
ボルで示された信号（信号ＡやＢ）の説明はＣ言語標記
である。１１３４で示される部分において、信号名の定
義中に含まれる垂直線は論理的なＯＲ（論理和）を示
し、“＆”は論理的なＡＮＤ（論理積）を示す。“〜”
は論理的な反転を示す。

【００６０】図１３にはＦＰＵパイプライン６１０の最
初の実行ステージＥ１のブロック図が示される。ストー
ルが第１の実行ステージ（Ｅ１）６２６で生ずると、Ｃ
ＰＵのデコードステージ６３８は、上述のようにストー
ル信号パス１２１０にストール信号を適用する。これ
は、ＦＰＵデコードステージ６２２の出力１１３８がＥ
１ステージに渡されるのを妨げる。代わりに、パス１２
１０でストール信号をアサートすることにより、Ｅ１ス
テージ６２６に挿入されるべきＮＯＰが生成させる。図
１３においてフリーズとキャンセル信号の適用は、図１
２のそれと同様である。夫々の信号については１２１４
で示される部分に更に説明されている。

【００６１】図１４はＦＰＵパイプライン６１０のＤｆ
ステージ６２２、Ｅ１ステージ６２６、Ｅ２ステージ６
３０及びＳｆステージ６３４のブロックダイヤグラムの
一例を示す。ＦＰＵパイプライン回路１３０８は幾つか
の入力を示している。入力１３１０はＣＰＵ又はＦＰＵ
命令の第１オペランドのためにあり、入力１３１４はＣ
ＰＵ又はＦＰＵ命令の第２オペランドのためにある。入
力１３１８はＥ２ステージ６３０の出力をＥ１ステージ
の入力に帰還させるためのバイパスデータを受け取る。
入力１３２２はデータバス（Ｓ２＿Ｄ）の内容をＥ１ス
テージの入力にバイパスさせるためにある。入力１３２
６はレジスタファイル４１４のレジスタＦＲ０からの入
力である。夫々部分的にハッチングが付されている複数
のラッチは、クロック信号の２相目に同期して動作され
る。上記説明並びに図１４に記述された名称に基づけ
ば、当業者は回路１３０８のその他の部分を理解するこ
とができるであろう。

【００６２】以上本発明者によってなされた発明を実施
形態に基づいて具体的に説明したが、本発明はそれに限
定されるものではなく、その要旨を逸脱しない範囲にお
いて種々変更可能であることは言うまでもない。

【００６３】例えば、ＣＰＵとＦＰＵのパイプライン段
数は夫々５段に限定されず適宜変更可能である。また、
本発明はＲＩＳＣプロセッサに限定されずＣＩＳＣプロ
セッサなど、その他のアーキテクチャを有するマイクロ
プロセッサに適用可能である。また、この明細書におい
てマイクロプロセッサは、マイクロコンピュータ、シン
グルチップマイクロコンピュータ、データプロセッサを
含む概念として用いている。

【００６４】

【発明の効果】本願において開示される発明のうち代表
的なものによって得られる効果を簡単に説明すれば下記
の通りである。

【００６５】すなわち、１６ビット固定長の浮動小数点
命令セットを採用すれば、３２ビット固定長の場合に比
べて、浮動小数点命令を格納するメモリサイズを小さく
できるなどの利点がある。

【００６６】このとき、中央処理装置が浮動小数点ユニ
ットのためのアドレシング処理を行うことによって浮動
小数点ユニットは中央処理装置と同様に強力なアドレシ
ングモードをサポートしなくても済む。

【００６７】中央処理装置と浮動小数点ユニットとの間
でのデータ転送をコミュニケーションレジスタを介して
行うことにより、浮動小数点ユニットは強力なアドレシ
ングモードをサポートしなくても、浮動小数点処理に必
要などのようなデータをコミュニケーションレジスタか
ら高速に得ることができる。中央処理装置と浮動小数点
ユニットとの間でデータ転送を行うための浮動小数点命
令の種類を減らすことができる。

【００６８】１６ビット固定長命令セットは、それ自体
がイミディエイトデータを持たなくても、デコード結果
に従って浮動小数点数１又は０のイミディエイトデータ
を浮動小数点レジスタにロードする特別な命令を持つ。
これによって、１６ビット固定長浮動小数点命令セット
を採用する場合にもイミディエイト値をオペランドとし
て浮動小数点処理を行える。

【００６９】上記により、１６ビット固定長浮動小数点
命令セットを採用する場合に浮動小数点命令の種類が少
なくなることによる浮動小数点処理の制限を極力減らす
ことができる。

【００７０】浮動小数点演算処理に際して演算対象が非
正規化数か否かに応じて演算結果を０とみなしたりする
処理を行う浮動小数点ユニットを採用することにより、
機器組み込み制御用途に対して過不足のない機能とチッ
プ面積の低減とを達成できる。

【００７１】それらにより、機器組み込み制御用途に最
適なマイクロプロセッサを実現できる。

【図面の簡単な説明】

【図１】パワーＰＣのための典型的な３２ビット長浮動
小数点命令を例示する命令フォーマット図である。

【図２】本発明に係るマイクロプロセッサの一例ブロッ
ク図である。

【図３】正規化されていない浮動小数点数をゼロに一括
消去する回路を例示するブロック図である。

【図４】ＦＰＵへそしてＦＰＵからデータを転送するた
めの回路構成の一例を示すブロック図である。

【図５】本発明の一例に係るマイクロプロセッサによる
１６ビット浮動小数点命令の一例フォーマット図であ
る。

【図６】ＦＰＵとＣＰＵのパイプラインの関係を示す説
明図である。

【図７】命令“ＬＤＳＲｍ，ＦＰＵＬ”の実行に際し
てのＦＰＵパイプライン及びＣＰＵのパイプライン、そ
して双方のパイプライン間でのデータ交換のタイミング
を示す説明図である。

【図８】命令“ＳＴＳＦＰＵＬ，Ｒｎ”の実行に際し
てのＦＰＵパイプライン及びＣＰＵのパイプライン、そ
して双方のパイプライン間でのデータ交換のタイミング
を示す説明図である。

【図９】ＦＰＵパイプラインの更に詳細な一例を示すブ
ロック図である。

【図１０】ＦＭＡＣ命令を実行する基本的なＦＭＡＣ回
路を示すブロック図である。

【図１１】ロード・イミディエイト・フローティング・
ポイント“１”又はロード・イミディエイト・フローテ
ィング・ポイント“０”命令を実行する回路を示すブロ
ック図である。

【図１２】浮動小数点パイプラインのデコードステージ
を示す一例ブロック図である。

【図１３】ＦＰＵパイプラインの第１の実行ステージＥ
１を例示するブロック図である。

【図１４】ＦＰＵパイプラインの詳細な一例ブロック図
である。

【図１５】浮動小数点数をゼロに丸めるための回路を例
示するブロック図である。

【図１６】図１のマイクロプロセッサがサポートする命
令セットの内、浮動小数点命令と浮動小数点命令に関連
するＣＰＵ命令とを列挙した説明図である。

【図１７】浮動小数点命令“ＦＡＢＳ”の説明図であ
る。

【図１８】浮動小数点命令“ＦＡＤＤ”の説明図であ
る。

【図１９】図１８に続く浮動小数点命令“ＦＡＤＤ”の
説明図である。

【図２０】図１９に続く浮動小数点命令“ＦＡＤＤ”の
説明図である。

【図２１】浮動小数点命令“ＦＣＭＰ”の説明図であ
る。

【図２２】図２１に続く浮動小数点命令“ＦＣＭＰ”の
説明図である。

【図２３】図２２に続く浮動小数点命令“ＦＣＭＰ”の
説明図である。

【図２４】浮動小数点命令“ＦＤＩＶ”の説明図であ
る。

【図２５】図２４に続く浮動小数点命令“ＦＤＩＶ”の
説明図である。

【図２６】浮動小数点命令“ＦＬＤＩ０”の説明図であ
る。

【図２７】浮動小数点命令“ＦＬＤＩ１”の説明図であ
る。

【図２８】浮動小数点命令“ＦＬＤＳ”の説明図であ
る。

【図２９】浮動小数点命令“ＦＭＵＬ”の説明図であ
る。

【図３０】図２９に続く浮動小数点命令“ＦＭＵＬ”の
説明図である。

【図３１】浮動小数点命令“ＦＮＥＧ”の説明図であ
る。

【図３２】浮動小数点命令“ＦＳＱＲＴ”の説明図であ
る。

【図３３】浮動小数点命令“ＦＳＴＳ”の説明図であ
る。

【図３４】浮動小数点命令“ＦＳＵＢ”の説明図であ
る。

【図３５】図３４に続く浮動小数点命令“ＦＳＵＢ”の
説明図である。

【図３６】図３５に続く浮動小数点命令“ＦＳＵＢ”の
説明図である。

【図３７】浮動小数点命令“ＦＴＲＣ”の説明図であ
る。

【図３８】図３７に続く浮動小数点命令“ＦＴＲＣ”の
説明図である。

【図３９】浮動小数点命令“ＦＴＳＴ”の説明図であ
る。

【図４０】ＣＰＵ命令“ＬＤＳ”の説明図である。

【図４１】図４０に続くＣＰＵ命令“ＬＤＳ”の説明図
である。

【図４２】ＣＰＵ命令“ＳＴＳ”の説明図である。

【図４３】図４２に続くＣＰＵ命令“ＳＴＳ”の説明図
である。

【図４４】浮動小数点命令“ＦＬＯＡＴ”の説明図であ
る。

【図４５】浮動小数点命令“ＦＭＡＣ”の説明図であ
る。

【図４６】図４５に続く浮動小数点命令“ＦＭＡＣ”の
説明図である。

【図４７】浮動小数点命令“ＦＭＯＶの説明図である。

【図４８】図４７に続く浮動小数点命令“ＦＭＯＶの説
明図である。

【符号の説明】

２１０マクロプロセッサ２１４ＦＰＵ２１８ＣＰＵ２２２３２ビットデータバス２２６３２ビット論理アドレスバス２４６キャッシュメモリ３２２キャリー伝達加算器３４２非正規化数検出器３５０選択信号回路３３０選択回路４１０汎用レジスタ４１４浮動小数点レジスタ４１８コミュニケーションレジスタ（ＦＰＵＬ）

───────────────────────────────────────────────────── フロントページの続き (72)発明者中川典夫東京都小平市上水本町五丁目20番１号株式会社日立製作所半導体事業部内 (72)発明者西井修東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内 (72)発明者内山邦男東京都国分寺市東恋ケ窪一丁目280番地株式会社日立製作所中央研究所内

Claims

【特許請求の範囲】

【請求項１】アドレスバス及びデータバスに結合され
た中央処理装置と、前記データバスに結合された浮動小
数点ユニットとを含むマイクロプロセッサであって、前記浮動小数点ユニットは１６ビット固定長浮動小数点
命令セットを用いて浮動小数点処理を実行し、前記中央処理装置は前記浮動小数点ユニットが浮動小数
点処理を実行するための命令とデータを得るのに必要な
アドレシング処理を行うものであることを特徴とするマ
イクロプロセッサ。
【請求項２】前記浮動小数点ユニットは、浮動小数点
ユニットとプロセッサとの間でのデータ交換を行うため
にデータバスを介して中央処理装置に接続されるコミュ
ニケーションレジスタを含むものであることを特徴とす
る請求項１記載のマイクロプロセッサ。
【請求項３】前記浮動小数点ユニットは、前記中央処
理装置によってコミュニケーションレジスタにロードさ
れたデータを用いて浮動小数点命令に従った浮動小数点
処理を行うものであることを特徴とする請求項２記載の
マイクロプロセッサ。
【請求項４】前記浮動小数点ユニットは、複数個の浮
動小数点レジスタを有し、前記１６ビット固定長浮動小
数点命令セットは、所定の前記浮動小数点レジスタに、
命令のデコード結果に従って浮動小数点数０をロードす
る第１のイミディエイト値ロード命令を含んで成るもの
であることを特徴とする請求項１記載のマイクロプロセ
ッサ。
【請求項５】前記浮動小数点ユニットは、複数個の浮
動小数点レジスタを有し、前記１６ビット固定長浮動小
数点命令セットは、所定の前記浮動小数点レジスタに、
命令のデコード結果に従って浮動小数点数１をロードす
る第２のイミディエイト値ロード命令を含んで成るもの
であることを特徴とする請求項１又は４記載のマイクロ
プロセッサ。
【請求項６】汎用レジスタを含む中央処理装置と、デ
ータバスを介して前記中央処理装置に結合された浮動小
数点ユニットと、前記浮動小数点ユニットに含まれ前記
データバスに接続されたコミュニケーションレジスタ
と、前記中央処理装置にアドレスバスと前記データバス
を介して結合されたメモリとを含み、前記中央処理装置は、前記浮動小数点ユニットとの間で
のデータ交換のために前記汎用レジスタにフェッチした
データをデータバスに出力し、これに同期して前記浮動
小数点ユニットはデータバスのデータをコミュニケーシ
ョンレジスタに取り込むものであることを特徴とするマ
イクロプロセッサ。
【請求項７】前記中央処理装置は前記浮動小数点ユニ
ットが浮動小数点処理を実行するための命令とデータを
得るのに必要なアドレシング処理を行うものであること
を特徴とする請求項６記載のマイクロプロセッサ。
【請求項８】アドレスバス及びデータバスに結合され
た中央処理装置と、前記データバスに結合された浮動小
数点ユニットとを含むマイクロプロセッサであって、第１及び第２の浮動小数点数に基づいて第３の浮動小数
点数を形成する加算手段と、前記加算手段の出力、第１の浮動小数点数、第２の浮動
小数点数及び浮動小数点数０を入力し、選択制御信号に
従って前記入力の一つを選択して出力する選択手段と、前記第１の浮動小数点数と第２の浮動小数点数が非正規
化数であるかを検出する検出手段と、前記検出手段の出力を受け、前記第１の浮動小数点数と
第２の浮動小数点数の双方が正規化数であるときは前記
加算手段の出力を前記選択手段に選択させ、前記第１の
浮動小数点数と第２の浮動小数点数の内の何れか一方が
非正規化数であるときは正規化数としての第１の浮動小
数点数又は第２の浮動小数点数を前記選択手段に選択さ
せ、前記第１の浮動小数点数と第２の浮動小数点数の双
方が非正規化数であるときは浮動小数点数０を前記選択
手段に選択させる、選択制御信号を生成する選択信号回
路と、を前記浮動小数点ユニットが含むことを特徴とす
るマイクロプロセッサ。
【請求項９】アドレスバス及びデータバスに結合され
た中央処理装置と、前記データバスに結合された浮動小
数点ユニットとを含むマイクロプロセッサであって、第１及び第２の浮動小数点数に基づいて第３の浮動小数
点数を形成する乗算手段と、前記乗算手段の出力及び浮動小数点数０を入力し、選択
制御信号に従って前記入力の一つを選択して出力する選
択手段と、前記第１の浮動小数点数と第２の浮動小数点数が非正規
化数であるかを検出する検出手段と、前記検出手段の出力を受け、前記第１の浮動小数点数と
第２の浮動小数点数の双方が正規化数であるときは前記
乗算手段の出力を前記選択手段に選択させ、前記第１の
浮動小数点数と第２の浮動小数点数の内の少なくとも一
方が非正規化数であるときは浮動小数点数０を前記選択
手段に選択させる、選択制御信号を生成する選択信号回
路と、を前記浮動小数点ユニットが含むことを特徴とす
るマイクロプロセッサ。