JPH10207863A

JPH10207863A - 演算処理装置

Info

Publication number: JPH10207863A
Application number: JP832397A
Authority: JP
Inventors: Yukihiro Ide; 進博井出; Atsushi Kunimatsu; 敦国松
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-01-21
Filing date: 1997-01-21
Publication date: 1998-08-07

Abstract

(57)【要約】【課題】累積命令を毎サイクル発行可能にする。【解決手段】ＸＹステージで第１の乗算を行い、Ｚ，
Ｃステージをスルーして、累積レジスタ１１０に記憶す
る。ＸＹステージでの第２の乗算を行い、Ｚ，Ｃステー
ジをスルーして、累積レジスタ１１１に記憶する。ＸＹ
ステージで第３の乗算を行い、Ｚ，Ｃステージに送る。
累積レジスタ１１０から第１の乗算結果を読み出し、
Ｚ，Ｃステージで第３の乗算結果と加算し、レジスタ１
１０に記憶する。ＸＹステージで第４の乗算を行い、
Ｚ，Ｃステージに送る。累積レジスタ１１１から第２の
乗算結果を読み出し、Ｚ，Ｃステージで第４の乗算結果
と加算し、レジスタ１１１に記憶する。レジスタ１１
０、１１１から第１と第３の乗算結果の和、第２と第４
の乗算結果の和を読み出し、Ｚ，Ｃステージで両者の和
を取る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は演算処理装置に関す
る。例えば浮動小数点積和演算の演算処理装置に関す
る。

【０００２】

【従来の技術】近年、マルチメディアの急速な普及、高
度なＧＵＩ（Graphic User Interface ）、またグラ
フィックを用いたＴＶゲームの普及などにより、コンピ
ュータ・グラフィック（ＣＧ）が大変重要になってきて
いる。

【０００３】特にパソコンの家庭への急激な普及、ＴＶ
ゲーム機の普及により、高性能プロセッサ上で走らせる
アプリケーションとして3 次元コンピュータ・グラフィ
ックス（３Ｄ−ＣＧ）、特に高い品位の動画の要求が高
まっている。動画を処理するには、１フレームを３０分
の１秒〜６０分の１秒で処理する必要があり、この処理
には膨大な計算量、計算能力が要求される。CGに於ける
ジオメトリカル処理は、座標変換、視点変換などの幾何
学的なグラフィックモデルの変換処理や照光処理を行う
フェイズである。

【０００４】そのため、これらの処理には、行列演算、
ベクトル演算、が行われるため、内積の演算が多く用い
られる。また、以上のような３Ｄ−ＣＧ処理以外にも、
従来からの科学技術計算に於ける数値計算に於いても同
様に、内積の計算は多用される。

【０００５】以上のような要求により高速な積和演算の
演算処理装置の実現が望まれている。以下に従来の浮動
小数点積和演算の演算処理装置の構成に関して、具体的
に説明する。積和演算の演算処理装置の構成の方法に
は、大きく分けて２つの方法がある。

【０００６】第１の構成方法は、独立した乗算器、およ
び加減算器を実装し、積和演算はこれらの演算器を縦列
接続、あるいは演算結果をオペランドとしてバイパスす
ることにより実現する方法である。専用の積和命令を持
つ場合、バイパスを用いて乗算、加算によって実現する
方法がある。

【０００７】図６に、仮数部演算の演算処理装置のブロ
ック図を示す。乗算器は、第１、第２のオペランドの積
を求める乗算ツリー５０１、５０２、部分積の最終加算
を行う加算器５０５、正規化回路５０７、先行０検出回
路５０６から構成される。

【０００８】加算器は、オペランドの桁合わせを行うシ
フタ５０３と、和を求める加算器５０５’、正規化回路
５０７’、先行０検出回路５０６’から構成される。

【０００９】このような方法では、積和演算の結果を得
るまでに第１の構成方法より多くの時間を要する。一般
的なＭＰＵに実装された浮動小数点演算の演算処理装置
では、乗算、加減算を行うのに２ないし５サイクルを必
要とするように設計されている。例えば、乗算、加減算
が共に２クロックで実行できたとすると、２サイクル毎
に命令の発行はできるが、積和の結果を求めるには４ク
ロックが必要になる。

【００１０】図８と図９に、内積演算の命令シーケンス
と実行タイミングを示す。ここで、Ｍ：命令フェッチ、
Ｔ：デコード、レジスタ読み出し、Ｘ，Ｙ：演算実行ス
テージ、Ｂ：書き戻し、を行う。

【００１１】第２の構成方法は、積和演算の演算処理装
置を直接構成する方法である。図７に、仮数部演算ユニ
ットおよび指数部演算ユニットからなる演算処理装置の
ブロック図を示す。

【００１２】仮数部演算ユニットは、第１、第２のオペ
ランドの積を求める乗算ツリー６０１、６０２と、第３
のオペランドの桁合わせを行う双方向シフタ６０３と、
前記乗算結果および桁合わせ結果の和（積和）を求める
加算器６０４、６０５と、加算器６０４、６０５による
積和演算結果の正規化を行う正規化回路６０７、先行０
検出回路６０６とから構成される。

【００１３】また、指数部演算ユニットは、第１、第２
のオペランドの積の指数部の値（指数部同士の和）を計
算する加算器６０８、第３のオペランドと前記第１、第
２のオペランドの積との和（積和）の指数部（第３のオ
ペランドの指数部と前記第１、第２のオペランドの積の
指数部の内、大きい方の値）を求める選択回路６１０
と、桁合わせの桁数（第３のオペランドの指数部と前記
第１、第２のオペランドの積の指数部の差）を求める減
算器６０９と、正規化を行う減算器６１１とから構成さ
れる。

【００１４】本演算処理装置は、３ソース・オペラン
ド、１ディスティネーション、計４オペランドの演算処
理装置である。

【００１５】積和演算は、次のように実行される。すな
わち、第１、第２のオペランドは、第１、第２のオペラ
ンドの積を求める乗算ツリー６０１、６０２に入力さ
れ、乗算が行われる。この処理と並行して、第３のオペ
ランドの桁合わせが双方向シフタ６０３により行われ
る。

【００１６】左右どちらに、何ビットシフトされるか
は、第１と第２のオペランドの指数の和と第３のオペラ
ンドの指数の差として求められる。

【００１７】第１、第２のオペランドの積と第３のオペ
ランドの桁合わせ結果の和（積和）は、加算器６０４、
６０５によって求められる。加算器６０４、６０５によ
る積和演算結果は、正規化回路６０７で正規化が行われ
る。

【００１８】これら、一連の処理は２ステージのパイプ
ライン処理によって実行される。したがって、あるオペ
ランドの演算結果は、２クロック後にならないと次の演
算のオペランドとして用いることができない。すなわち
依存関係のある演算は、２クロック毎にしか実行するこ
とができない。図１０に、内積の計算を求める命令シー
ケンスと実行タイミングを示す。

【００１９】内積の実行には依存関係のある積和演算が
必要である。図８、図９、図１０は、前述の第１と第２
の構成方法で内積を求める命令シーケンスを実行した場
合のタイミング図である。

【００２０】図８、図９、図１０に示すように、依存関
係のある積和演算は連続に実行できない。このような場
合、一般には命令のスケジューリング技術によって独立
な命令を実行し、演算のレイテンシを隠蔽するが、独立
に実行できる命令が無い場合には演算処理装置は演算結
果の終了を待たなければならない。特に前述の第２の構
成方法のようにレイテンシが大きい場合には、この傾向
が大きくなる。

【００２１】このように依存関係のある積和演算が連続
実行できない場合、（１）連続する依存関係のある積和
演算の間に実行可能な演算がない場合には、オーバヘッ
ドを隠蔽できない、（２）スケジューリングなどの技術
が必要で、プログラミングが難しい、などの問題点があ
った。

【００２２】

【発明が解決しようとする課題】以上のように従来の浮
動小数点積和演算の演算処理装置は、整数積和演算の演
算処理装置と異なり、レイテンシが多く、依存のある積
和演算を毎クロックごとに実行することができないとい
う問題点があった。

【００２３】そこで本発明は、累積命令を毎サイクル発
行可能な演算処理装置を提供することを目的とする。

【００２４】

【課題を解決するための手段】

（第１の構成例）第１の演算と第２の演算とを組み合わ
せた第３の演算を１サイクル乃至複数のサイクルを用い
て行うことのできる演算処理装置において、前記第１の
演算を行う第１の演算手段と、前記第２の演算を行う第
２の演算手段と、前記第１の演算手段の演算と前記第２
の演算手段の演算とを組み合わせた前記第３の演算を行
う第３の演算手段と、前記第１の演算の演算結果、ある
いは前記第２の演算の演算結果、あるいは前記第３の演
算の演算結果を保持する１つ以上の記憶手段と、先行実
行され前記複数の記憶手段に記憶された複数の演算結果
のうち何れか１つを選択し，前記第１の演算結果と前記
第３の演算を行うべく、前記第３の演算手段に入力する
選択手段とを具備したことを特徴とする。

【００２５】（第２の構成例）第１の演算と第２の演算
とを組み合わせた第３の演算を１サイクル乃至複数のサ
イクルを用いて行うことのできる演算処理装置におい
て、ｍ( ｍ≧１) サイクルを用いて前記第１の演算を行
う第１の演算手段と、ｎ( ｎ≧１) サイクルを用いて前
記第２の演算を行う第２の演算手段と、( ｍ＋ｎ) サイ
クルを用いて前記第１の演算手段の演算と前記第２の演
算手段の演算を組み合わせた第３の演算を行う第３の演
算手段と、前記第１の演算の演算結果、あるいは前記第
２の演算の演算結果、あるいは前記第３の演算の演算結
果を記憶する少なくともｎ個の記憶手段と、先行実行さ
れ前記ｎ個の記憶手段に記憶されたｎ個の演算の結果の
うち何れか１つを選択し，前記第１の演算結果と前記第
３の演算を行うべく、前記第３の演算手段に入力する選
択手段とを具備したことを特徴とする。

【００２６】（第３の構成例）２以上の記憶手段を有す
る演算処理装置において、１つの記憶手段のみ使用する
と仮定した場合の演算命令を含む第一の演算命令セット
と、２以上の記憶手段を用いて演算を行う命令を含む第
二の命令セットとを具備し、前記第一の命令セットの
実行時に動的に、あるいは実行前に静的に、前記第一の
演算命令セットの命令を前記第二の演算命令セットに対
応する命令に置き換え、前記置き換えられた演算命令に
従い演算を実行することを特徴とする。

【００２７】

【発明の実施の形態】図１は、本発明の演算処理装置の
構成を示す概念図である。また、図２は、図１の詳細を
示す本発明の演算処理装置の発明の実施の形態の構成を
示すブロック図である。

【００２８】図２は、具体的には３２ビット単精度浮動
小数点積和演算の演算処理装置の仮数部演算ユニット、
指数部演算ユニットを示している。ここで３２ビット単
精度の数値フォーマットは、ＩＥＥＥ７５４−８５浮動
小数点演算規格に準ずる事とする。

【００２９】この実施の形態では、演算処理装置は、７
ステージ（Ｍ，Ｔ，Ｘ，Ｙ，Ｚ，Ｃ，Ｓ）のパイプライ
ンで構成される。

【００３０】演算は、Ｘ，Ｙ，Ｚ、Ｃの４つのステージ
で実行される。パイプラインの実行タイミング図を、図
３に示す。始めの２ステージで乗算、続く２ステージで
加算あるいは積和演算を行なう。

【００３１】まず、図２を参照して、本演算処理装置の
構成を簡単に説明する。

【００３２】構成部材１００〜１０９、１３０〜１３７
は、それぞれ仮数部演算ユニットおよび指数部演算ユニ
ットのパイプライン・レジスタである。レジスタ１１０
と１３８、１１１と１３９は、２セットの累積レジスタ
である。

【００３３】構成部材１５０はブースのエンコーダであ
り、入力オペランドＳ（０００）をエンコードして、乗
算アレイ１５１に入力する。

【００３４】乗算アレイ１５１では、ワラスのツリーを
用いて部分積の加算を行ない、オペランドＳ（０００）
とオペランドＴ（００１）の積を和成分（００２）、キ
ャリー成分（００３）として求める。

【００３５】構成部材１５２，１５３は、オペランドＳ
（０００），Ｔ（００１）をスルーさせるセレクタであ
る。

【００３６】加算器１５４は、積の和成分（００２）、
キャリー成分（００３）を加算し、積を求める。

【００３７】セレクタ１５６は、オペランドＴ（００
６）をスルーさせる。

【００３８】セレクタ１５７は、積和演算を行なう時は
累積レジスタ１１０あるいは１１１の値を、加・減算を
行なう場合はオペランドＳ（００９）を選択する。

【００３９】同様にセレクタ１５８は、累積レジスタか
らの読み出し演算を行なう場合は、累積レジスタ１１０
の値を、加・減算を行なう場合はオペランドＴ（０１
０）を選択する。

【００４０】スワッパ１５９は、指数部の比較を行なっ
た結果、小さい方のオペランドを桁合わせシフタ１６０
に入力する。桁合わせシフタ１６０は、仮数部の桁合わ
せを行なうシフタである。

【００４１】セレクタ１６１、１６２は加減算、積和演
算を行なわない場合、乗算結果、オペランドをスルーさ
せる。

【００４２】ＬＺＡ（ＬｅａｄｉｎｇＺｅｒｏＡｎ
ｔｉｃｉｐａｔｏｒ（先行０検出回路））１６３は２つ
のオペランドの加算を行なった結果を正規化するために
最上位のデジット１の位置を検索し、先行するデジット
０の数をカウントする。

【００４３】加算器１６４は、桁合わせしたオペランド
の加算を行なう。正規化シフタ１６５は、加算結果（０
２１）をＬＺＡ１６３の結果にしたがって正規化処理を
行なう。

【００４４】累積レジスタ１１０、１１１は演算結果
（０２３）を記憶する。累積レジスタ１１０、１１１は
交互に用いられる。たとえば、初めて有効な値を記憶す
るのに累積レジスタ１１０を用いた場合、次は累積レジ
スタ１１１を用いる。以後は、累積レジスタの内容を読
みだし破棄するまで、累積レジスタ１１０、１１１が利
用されるごとに交互に用られる。以上が、仮数部演算ユ
ニットの構成である。

【００４５】加算器１７１は、積の指数部を求める。具
体的には、( 信号（０３０）＋信号（０３１）―１２
７) を実行する。

【００４６】セレクタ１７２は、加算を行う場合、オペ
ランドＳ（０３０）をスルーさせるためのものである。

【００４７】加算器１７３は、積の正規化を行うための
インクリメンタである。セレクタ１７４は、加算を行う
場合にオペランドＴ（０３５）をスルーさせる。セレク
タ１７５は、積和演算を行なう時は累積レジスタ１３８
あるいは１３９の値を、加・減算を行なう場合はオペラ
ンドＳ（０３９）を選択する。

【００４８】同様にセレクタ１７６は、累積レジスタか
らの読み出し演算を行なう場合は累積レジスタ１３８の
値を、加・減算を行なう場合はオペランドＴ（０３８）
を選択する。

【００４９】減算器１７８は、指数の差を求め、桁合わ
せ用のシフト数を求める。また、指数の大小比較を行
い、セレクタ１７９によって大きい方の指数を選択す
る。セレクタ１８０は、積の指数をスルーさせるもので
ある。

【００５０】減算器１８１は、ＬＺＡ１６３の出力を指
数部の中間結果（０４４）から引くことにより、正規化
を行う。

【００５１】累積レジスタ１３８、１３９は、演算結果
（０４６）を記憶する。累積レジスタ１３８、１３９
は、交互に用いられる。たとえば、初めて有効な値を記
憶するのに累積レジスタ１３８を用いた場合、次は累積
レジスタ１３９を用いる。以後は、累積レジスタの内容
を読みだし破棄するまで、累積レジスタ１３８、１３９
が利用されるごとに交互に用いられる。以上が、指数部
演算ユニットの構成である。

【００５２】本実施の形態では、加算にＺ，Ｃの２サイ
クルを要するため、依存関係（先行する積和演算の結果
Ａを次の積和演算において加算する、すなわちＡ’←Ａ
＋Ｂ×Ｃ）のある積和演算は、２サイクルおきに実行で
きる。

【００５３】従って２つ以上の累積レジスタを実装すれ
ば、矛盾の無い演算が可能である。本実施の形態では、
最低限必要な２セットの累積レジスタを実装し、これら
を交互に利用していることに注目されたい。

【００５４】次に本発明の実施の形態の動作例に関して
説明する。本演算処理装置は、２つのプログラミングモ
デルを有する。すなわち、（１）ユーザが記述する命令
であるexternal 命令と、（２）external 命令が置き
換えられて、演算処理装置内部で実際に動作する命令in
ternal 命令である。

【００５５】external 命令を用いる事により、ユーザ
ーは累積レジスタの数、またいずれの累積レジスタが現
在用いられるかなどプログラム記述上のわずらわしい問
題を一切考慮する必要がない。以後の説明のため、ここ
では簡単に以下の命令を定義する。

【００５６】以下は、ユーザーが用いるexternal 命令
の例である。ＡＣＣは累積レジスタ、ｒｅｇ１，ｒｅｇ
２は汎用レジスタ、記号‘←’は代入をあらわす。

【００５７】加算命令：汎用レジスタ同士の和を、累積
レジスタに格納する。

【００５８】ＡＤＤＡＣＣ，ｒｅｇ１，ｒｅｇ２：
ＡＣＣ←ｒｅｇ１＋ｒｅｇ２乗算命令：汎用レジスタ同士の積を、累積レジスタに格
納する。

【００５９】ＭＵＬＡＡＣＣ，ｒｅｇ１，ｒｅｇ２：
ＡＣＣ←ｒｅｇ１×ｒｅｇ２積和演算命令：汎用レジスタ同士の積と累積レジスタの
値を加算し、累積レジスタに格納する。

【００６０】ＭＡＤＤＡＡＣＣ，ｒｅｇ１，ｒｅｇ
２：ＡＣＣ←ＡＣＣ＋ｒｅｇ１×ｒｅｇ２累積レジスタ読み出し命令：累積レジスタの内容を、読
み出す。

【００６１】ＭＦＡＣＣｒｅｇ，ＡＣＣ：ｒｅｇ←ＡＣＣ非演算実行命令：何も実行しない。

【００６２】ＮＯＰ： no operation 以下は、external 命令が置き換えられ、演算処理装置
で実行されるinternal命令の例である。

【００６３】加算命令：汎用レジスタ同士の和を、累積
レジスタＡＣＣ０に格納する。

【００６４】ＡＤＤＡ０ＡＣＣ０，ｒｅｇ１，ｒｅｇ
２：ＡＣＣ０←ｒｅｇ１＋ｒｅｇ２加算命令：汎用レジスタ同士の和を、累積レジスタＡＣ
Ｃ１に格納する。

【００６５】ＡＤＤＡ１ＡＣＣ１，ｒｅｇ１，ｒｅｇ
２：: ＡＣＣ１←ｒｅｇ１＋ｒｅｇ２乗算命令：汎用レジスタ同士の積を、累積レジスタＡＣ
Ｃ０に格納する。

【００６６】ＭＵＬＡ０ＡＣＣ０，ｒｅｇ１，ｒｅｇ
２：ＡＣＣ０←ｒｅｇ１×ｒｅｇ２乗算命令：汎用レジスタ同士の積を、累積レジスタＡＣ
Ｃ１に格納する。

【００６７】ＭＵＬＡ１ＡＣＣ１，ｒｅｇ１，ｒｅｇ
２：ＡＣＣ１←ｒｅｇ１×ｒｅｇ２積和演算命令：汎用レジスタ同士の積と累積レジスタＡ
ＣＣ０の値を加算し、累積レジスタＡＣＣ０に格納す
る。

【００６８】ＭＡＤＤＡ０ＡＣＣ０，ｒｅｇ１，ｒｅ
ｇ２：ＡＣＣ０←ＡＣＣ０＋ｒｅｇ１×ｒｅｇ２積和演算命令：汎用レジスタ同士の積と累積レジスタＡ
ＣＣ１の値を加算し、累積レジスタＡＣＣ１に格納す
る。

【００６９】ＭＡＤＤＡ１ＡＣＣ１，ｒｅｇ１，ｒｅ
ｇ２：ＡＣＣ１←ＡＣＣ１＋ｒｅｇ１×ｒｅｇ２累積レジスタ読み出し命令：ＭＦＣ０１ｒｅｇ，ＡＣＣ０，ＡＣＣ１：ｒｅｇ←
ＡＣＣ０＋ＡＣＣ１非演算実行命令： NOP ：no operation 次に各演算の動作について説明する。

【００７０】本演算処理装置では、external 命令は、
internal 命令に置き換えられるので、internal 命令
の動作に関してのみ説明する。

【００７１】また、ここでは浮動小数点の演算を行なう
アルゴリズムの詳細は重要ではないので、一般的、標準
的なアルゴリズムを示している。演算の結果生じる例外
についての処理に関しては記述を省略した。本発明の内
容は、これらの詳細とは独立の物である。

【００７２】すべての命令は、Ｘ，Ｙ，Ｚ，Ｃの４ステ
ージで実行される。

【００７３】加算命令：加算は、演算器のＺ，Ｃステー
ジで実行される。セレクタ１５２，１５３，１５６によ
って、入力されたオペランドＳ（０００），オペランド
Ｔ（００１）はステージＸ，Ｙをスルーし、ステージＺ
に入力される。

【００７４】ステージZ では、桁合わせまでを行なう。
セレクタ１５７、１５８は、入力されたオペランドＳ
（００９）、オペランドＴ（０１０）を選択する。

【００７５】指数部演算ユニットは、指数部減算器１７
８で減算され、大小の比較を行なうとともに、その差の
絶対値を求める。

【００７６】スワッパ１５９では、指数部を比較した結
果により、指数部が小さい方の仮数部が桁合わせシフタ
１６０に入力されるように必要ならばスワップが行われ
る。

【００７７】桁合わせシフタ１６０では、指数部減算器
１７８で求めた指数部の差の分だけ右にシフトし、桁合
わせを行なう。セレクタ１６１、１６２は演算結果（０
１３），（０１６）を選択し、ステージＣに送る。

【００７８】ステージＣでは、加算、正規化、および累
積レジスタへの書き込みを行なう。まず加算器１６４に
よって桁合わせの結果（０１８）、（０１９）の加算を
行なう。また平行して、ＬＺＡ１６３では（０１８）、
（０１９）の加算の結果生じる桁落ちの桁数を予測す
る。

【００７９】すなわち、先行する０の数をカウントし、
正規化シフタ１６５、指数部減算器（正規化回路）１８
１に入力する。

【００８０】正規化シフタ１６５は、和（０２１）をＬ
ＺＡ１６３で求めた正規化シフト数（０２０）にしたが
って左シフトする事により正規化を行なう。

【００８１】セレクタ１６６は、演算結果（０２２）を
選択し、ＡＤＤＡ０では累積レジスタ１１０に、ＡＤＤ
Ａ１では累積レジスタ１１１に演算結果（０２３）が書
き込まれる。

【００８２】乗算命令：乗算は、演算器のＸ，Ｙステー
ジで実行される。Ｘステージでは、積をキャリー成分
（００２）、和成分（００３）に分けて求める。オペラ
ンドＳ（０００）は、ブースデコーダ１５０に入力さ
れ、デコード結果を乗算アレイ１５１に入力する。

【００８３】乗算アレイ１５１では、デコード結果にし
たがってオペランドＴ（００１）から部分積を選択し、
ワラスツリー状に接続されたＣＳＡ（ＣａｒｒｙＳａ
ｖｅＡｄｄｅｒ）によりキャリー成分（００２）、和成
分（００３）を求める。

【００８４】Ｙステージでは、積のキャリー成分（００
２）、和成分（００３）を加算器１５４で加算し、積を
二進数の形で求める。

【００８５】Ｚステージでは、有効な演算は行われな
い。セレクタ１６２によって、乗算結果（０１０）がＣ
ステージに送られる。

【００８６】Ｃステージでは、サイクルの最後に累積レ
ジスタへの書き込みを行なう。セレクタ１５６、１６
２、１６６は、乗算結果（００７）を選択する。ＭＵＬ
Ａ０では累積レジスタ１１０に、ＭＵＬＡ１では累積レ
ジスタ１１１に乗算結果（０２３）が書き込まれる。

【００８７】積和演算命令：Ｘ，Ｙステージで乗算、
Ｚ、Ｃステージで加算を実行する。Ｘ，Ｙステージの乗
算の過程は、乗算命令と同様である。

【００８８】Ｘステージでは、積をキャリー成分（００
２）、和成分（００３）に分けて求める。Ｙステージで
は、積のキャリー成分（００２）、和成分（００３）を
加算器１５４で加算し、積を二進数の形で求める。

【００８９】セレクタ１５６は乗算結果（００７）を選
択し、Ｚ，Ｃステージの加算器に乗算結果をオペランド
Ｔ（０１０）として入力する。

【００９０】Ｚ，Ｃステージでは、累積レジスタ１１
０、１１１の値（０２４）、（０２５）と乗算結果（０
１０）を加算する事により、積和演算を行なう。

【００９１】セレクタ１５７は、累積レジスタ１１０、
１１１の値（０２４）、（０２５）の何れかを選択す
る。すなわちＭＡＤＤＡ０では、累積レジスタ１１０の
値（０２４）、ＭＡＤＤＡ１ではＡＣＣ１の値（０２
５）を選択する。セレクタ１５８は乗算結果（０１０）
を選択する。以下は前述の加算命令同様に加算を行な
う。

【００９２】すなわち、Ｚステージでは、仮数部桁合わ
せ、Ｃステージでは、加算、正規化、および累積レジス
タへの書き込みを行なう。セレクタ１６６は演算結果
（０２２）を選択し、ＭＡＤＤＡ０では累積レジスタ１
１０に、ＭＡＤＤＡ１は累積レジスタ１１１に積和演算
結果を書き戻す。

【００９３】累積レジスタ読み出し命令：演算器のＺ，
Ｃステージで実行される。セレクタ１５７は累積レジス
タ１１１の値（０２５）、セレクタ１５８は累積レジス
タ１１０の値（０２４）を選択する。

【００９４】以下、加算演算と同様に累積レジスタの値
を加算する。

【００９５】セレクタ１６６は演算結果（０２２）を選
択し、パイプラインレジスタ１０９に書き込む。この値
は、Ｓステージで汎用レジスタに書き戻される。

【００９６】つぎに実際のプログラムを例にして本発明
の演算処理装置の動作を説明する。以下に示すのは、内積Ｒ３０←Ｒ１０×Ｒ２０＋Ｒ１１×Ｒ２１＋Ｒ１２
×Ｒ２２＋Ｒ１３×Ｒ２３を求めるプログラム例である。ここで、Ｒ３０などは、
汎用レジスタの番号、および、そこに格納された値を示
す。

【００９７】また、プログラムでは簡単のためＮＯＰ命
令により演算のタイミングを同期させている。レジスタ
のコンフリクトなどをハードウエアで自動的に回避する
ような実装では必要がない場合がある。

【００９８】例に示すように、external 命令による記
述では、実際の累積レジスタの数、使われている累積レ
ジスタの番号を考慮することなく、あたかも累積レジス
タが１つしかないかのように自然な記述を行なう事が出
来る。

【００９９】この事により、プログラム設計上の煩わし
さがなくなり、またバグの発生を抑制する事が出来る。

【０１００】これらの記述は、実行前あるは実行直前に
ソフトウエアあるいはハードウエアによって、internal
命令に変換され実行される。この例では、ＭＵＬＡ，
ＭＡＤＤＡが、ＭＵＬＡ０、ＭＵＬＡ１、ＭＡＤＤＡ
０、ＭＡＤＤＡ１に変換されている。

【０１０１】この変換のルールは、簡単である。すなわ
ち、本実施例では２セットの累積レジスタを実装してお
り、何れの累積レジスタが使用可能かによって決定され
る。具体的なルールは、以下の通りである。

【０１０２】external 命令の internal 命令への置
き換え規則 MULA→ＭＵＬＡ０ｏｒＭＵＬＡ１ＡＣＣ０が、利用可能ならばＭＵＬＡ０ ACC0が利用不可能ならばＭＵＬＡ１ＭＡＤＤＡ→ＭＵＬＡ０ｏｒＭＵＬＡ１ｏｒＭ
ＡＤＤＡ０ｏｒＭＡＤＤＡ１ＡＣＣ０が利用可能ならばＭＡＤＤＡ０ただし、ＭＵＬＡが実行された後、最初のＭＡＤＤＡ０
になるならばＭＵＬＡ０（ＡＣＣ０の初期化）ＡＣＣ０が利用不可能ならばＭＡＤＤＡ１ただし、ＭＵＬＡが実行された後、最初のＭＡＤＤＡ１
になるならばＭＵＬＡ１（ＡＣＣ１の初期化）上記の規則は、累積レジスタが２セットの場合である
が、一般にｎ個の累積レジスタを実装している場合でも
容易に拡張することができる。

【０１０３】すなわち、累積レジスタに割り当てられた
シーケンシャルな番号に対し、（１）累積レジスタ割り
当て：使用可能な最小番号の累積レジスタを割り当て
る、また、（２）累積レジスタ初期化：累積レジスタの
初期化が必要な場合は、ＭＡＤＤＡをＭＵＬＡに変更す
る処理を行えばよい。

【０１０４】タイミングを示す図４、図５を参照して、
本プログラム例の動作を説明する。まず、ＭＵＬＡ（Ｍ
ＵＬＡ０）によって、Ｒ１０×Ｒ２０が実行され、累積
レジスタＡＣＣ０に格納される。

【０１０５】次にＲ１１×Ｒ２１を計算し、先に計算し
ているＲ１０×Ｒ２０との加算を行ないたいが、累積レ
ジスタＡＣＣ０は先行する命令すなわちＭＵＬＡ０によ
り使用され使用が不可能なため、ＭＡＤＤＡはＭＵＬＡ
１に変換され、Ｒ１１×Ｒ２１をＡＣＣ１に格納する。

【０１０６】つぎにＲ１２×Ｒ２２を行い、先行する演
算結果との累積を求める。

【０１０７】累積レジスタＡＣＣ１は、直前の命令で使
用しているため、累積レジスタＡＣＣ０を用いる。

【０１０８】したがって、２つめのＭＡＤＤＡは、ＭＡ
ＤＤＡ０に変換され、ＭＵＬＡ０で求めたＲ１０×Ｒ２
０との累積Ｒ１０×Ｒ２０＋Ｒ１２×Ｒ２２を計算し、
累積レジスタＡＣＣ０に格納する。

【０１０９】３つめのＭＡＤＤＡは、同様に直前の命令
で累積レジスタＡＣＣ０を用いられているため、ＭＡＤ
ＤＡ１に変換され累積Ｒ１１×Ｒ２１+ Ｒ１３×Ｒ２３
を求め、累積レジスタＡＣＣ１に格納する。

【０１１０】続くＮＯＰは、タイミングを取るためのダ
ミー命令である。

【０１１１】累積結果を読み出すためにＭＦＡＣＣを行
なう。この際、ＡＣＣ１（Ｒ１０×Ｒ２０＋Ｒ１２×Ｒ
２２），ＡＣＣ１（Ｒ１１×Ｒ２１＋Ｒ１３×Ｒ２３）
の値が加算され、Ｒ１０×Ｒ２０＋Ｒ１１×Ｒ２１＋Ｒ
１２×Ｒ２２＋Ｒ１３×Ｒ２３として読み出される。

【０１１２】以上のように累積レジスタを複数実装する
事により、複数のサイクルを必要とする演算の命令を毎
サイクル発行する事が可能になる。

【０１１３】また、累積レジスタからの読み出しの際、
累積レジスタの和を求める事により、あたかも単一の累
積レジスタが実装されているが如く振る舞い、擬似的に
スループット１の演算処理装置として動作させる事が可
能になる。

【０１１４】つぎに上記の内積演算を2 回連続した場合
の例を示す。external 命令による記述では、ＮＯＰの
部分に次の乗算命令を挿入し、無駄のない記述となって
いる。

【０１１５】これらは先の例のように、前述の規則にし
たがって累積レジスタが割り当てられ、internal 命令
に変換され、実行される。

【０１１６】２回目の内積の計算における始めのＭＵＬ
Ａが、累積レジスタＡＣＣ０が使用不可能な事により、
ＭＵＬＡ１に変換されている事に注意してほしい。この
ように、連続して用いる場合でも、本発明は矛盾なく、
効率よく実行される。

【０１１７】以上、本発明では、累積レジスタを複数実
装することによって、従来複数サイクル毎にしか発行で
きなかった累積命令を毎サイクル発行する事が出来る。

【０１１８】また、累積レジスタ読み出し命令を設け、
読み出しの際、複数の累積レジスタの値を加算すること
によって、あたかも単一の累積レジスタが存在するかの
如く動作する。

【０１１９】さらに、ユーザの用いる命令と実装する命
令とを分け、累積レジスタの割付を自動化する事によ
り、複数のレジスタの使い分け、割付の煩わしさからユ
ーザを開放するとともに、バグの発生を抑制する事が出
来る。

【０１２０】

【発明の効果】以上本発明によれば、累積命令を毎サイ
クル発行する事が出来る。

【図面の簡単な説明】

【図１】本発明の演算処理装置の構成を示す概念図であ
る。

【図２】図１の詳細を示す本発明の演算処理装置の発明
の実施の形態の構成を示すブロック図である。

【図３】本発明の演算処理装置の実行タイミングを示す
図である。

【図４】本発明の演算処理装置で実施するプログラム例
と実行タイミングを示す図である。

【図５】本発明の演算処理装置で実施するプログラム例
と実行タイミングを示す図である。

【図６】従来の仮数部演算の演算処理装置のブロック図
である。

【図７】仮数部演算ユニットおよび指数部演算ユニット
からなる従来の演算処理装置のブロック図を示す。

【図８】図６の仮数部演算の演算処理装置の内積演算の
命令シーケンスと実行タイミングを示す図である。

【図９】図６の仮数部演算の演算処理装置の内積演算の
命令シーケンスと実行タイミングを示す図である。

【図１０】図７の演算処理装置の内積演算の命令シーケ
ンスと実行タイミングを示す図である。

【符号の説明】

ＸＹ・・・第１の演算器、Ｚ，Ｃ・・・第二の演算器、
ＸＹ，Ｚ，Ｃ・・・第三の演算器、１００〜１１１、１
３０〜１３７・・・パイプラインレジスタ、１１０、１
１１、１３８、１３９・・・累積レジスタ、１５７、１
５８、１６１、１６２、１６６、１７５、１７６、１８
０、１８２・・・セレクタ、１５０・・・ブースデコー
ダ、１５１・・・乗算アレイ、１５４、・・・加算器、
１６０・・・桁合わせシフタ、１６３・・・ＬＺＡ（先
行０検出回路）、１６４・・・加算器、１６５・・・正
規化シフタ、１７１、１７３・・・加算器、１７８、１
８１・・・減算器。

Claims

【特許請求の範囲】

【請求項１】第１の演算と第２の演算とを組み合わせ
た第３の演算を１サイクル乃至複数のサイクルを用いて
行うことのできる演算処理装置において、前記第１の演算を行う第１の演算手段と、前記第２の演算を行う第２の演算手段と、前記第１の演算手段の演算と前記第２の演算手段の演算
とを組み合わせた前記第３の演算を行う第３の演算手段
と、前記第１の演算の演算結果、あるいは前記第２の演算の
演算結果、あるいは前記第３の演算の演算結果を保持す
る１つ以上の記憶手段と、先行実行され前記複数の記憶手段に記憶された複数の演
算結果のうち何れか１つを選択し，前記第１の演算結果
と前記第３の演算を行うべく、前記第３の演算手段に入
力する選択手段とを具備したことを特徴とする演算装
置。
【請求項２】第１の演算と第２の演算とを組み合わせ
た第３の演算を１サイクル乃至複数のサイクルを用いて
行うことのできる演算処理装置において、ｍ( ｍ≧１) サイクルを用いて前記第１の演算を行う第
１の演算手段と、ｎ( ｎ≧１) サイクルを用いて前記第２の演算を行う第
２の演算手段と、 ( ｍ＋ｎ) サイクルを用いて前記第１の演算手段の演算
と前記第２の演算手段の演算を組み合わせた第３の演算
を行う第３の演算手段と、前記第１の演算の演算結果、あるいは前記第２の演算の
演算結果、あるいは前記第３の演算の演算結果を記憶す
る少なくともｎ個の記憶手段と、先行実行され前記ｎ個の記憶手段に記憶されたｎ個の演
算の結果のうち何れか１つを選択し，前記第１の演算結
果と前記第３の演算を行うべく、前記第３の演算手段に
入力する選択手段とを具備したことを特徴とする演算処
理装置。
【請求項３】前記第１の演算として乗算を行い、前記
第２の演算として加算を行い、前記第３の演算として積
和演算を行うことを特徴とする請求項１又は２に記載の
演算処理装置。
【請求項４】前記複数の記憶手段から演算結果を読み
出す際、おのおの記憶手段の値を読み出すと同時に、そ
の和を求めて出力する第４の演算命令を有することを特
徴とする請求項１乃至３の何れかに記載の演算処理装
置。
【請求項５】浮動小数点数をオペランドとする請求項１
乃至３の何れかに記載の演算処理装置。
【請求項６】前記第３の演算は複数サイクルの実行レ
イテンシを有し、前記記憶手段は、その記憶手段を使用
して第３の演算命令を実行している使用不可能状態の第
一の状態とそれ以外の使用可能状態の第二の状態の二つ
の状態を持ち、前記第３の演算命令の実行時に前記第二
の状態である記憶手段のうち、最小あるいは最大の番号
を持つ前記記憶手段を割り当てることを特徴とする請求
項１又は２に記載の演算処理装置。
【請求項７】２以上の記憶手段を有する演算処理装置
において、１つの記憶手段のみ使用すると仮定した場合の演算命令
を含む第一の演算命令セットと、２以上の記憶手段を用いて演算を行う命令を含む第二の
命令セットとを具備し、前記第一の命令セットの実行
時に動的に、あるいは実行前に静的に、前記第一の演算
命令セットの命令を前記第二の演算命令セットに対応す
る命令に置き換え、前記置き換えられた演算命令に従い
演算を実行することを特徴とする演算処理装置。