JPH06180649A

JPH06180649A - マイクロプロセッサ

Info

Publication number: JPH06180649A
Application number: JP33271592A
Authority: JP
Inventors: Ichiro Kushima; 伊知郎久島; Masahiro Uminaga; 正博海永
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1992-12-14
Filing date: 1992-12-14
Publication date: 1994-06-28

Abstract

(57)【要約】【目的】ソフトウェアパイプライニングにより並列化
されたプログラムを実行するのに好適な命令を備えるス
ーパースカラプロセッサを提供する。【構成】加算・乗算複合命令７００は、ｒｍ１、ｒｍ
２、ｔｍ、ｒａ、ｔａの５つのレジスタを指定するフィ
ールドをもつ。命令が実行されると、ｒｍ１、ｒｍ２、
ｔｍ、ｒａで指定されるレジスタの値がレジスタファイ
ル６から読み出され、データ線１３を通って乗算器８
（前者２つ）および加減算器７（後者２つ）へ送られ
る。そして、乗算器８から出た演算結果データはｔｍで
指定されるレジスタへ、加減算器７から出た演算結果デ
ータはｔａで指定されるレジスタへ、それぞれデータ線
１３を通って格納される。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明はマイクロプロセッサに係
り、特に、ソフトウェアパイプライニングにより並列化
されたプログラムの高速実行に好適なスーパースカラプ
ロセッサに関する。

【０００２】

【従来の技術】スーパースカラプロセッサは、連続する
複数の命令を同時にフェッチ・デコードし、その中から
並列に実行できる命令を選択して実行するプロセッサで
ある。そのため、複数の実行ユニットを備えているが、
現状では同一種類の実行ユニットを複数実装するより
も、整数演算ユニット（ＡＬＵ）、浮動小数点加減算ユ
ニット、浮動小数点乗算ユニット、分岐ユニット、ロー
ド／ストアユニットなどの異なった種類の実行ユニット
のみを実装している場合が多い。なお、並列に実行可能
な命令の数（命令多重度）により、２−スカラ、３−ス
カラ、などと呼ぶことがある。命令多重度が増えるほ
ど、それを実現するハードウェアが複雑になり、コスト
がかかることはいうまでもない。

【０００３】命令多重度が２、３、…となれば、実行速
度も２倍、３倍、…になるかといえば、そうではない。
スーパースカラプロセッサはあくまで並列に実行可能な
命令だけを（可能かどうかはデコード時にハードウェア
により判定される）並列に実行するからである。したが
って、スーパースカラプロセッサが有効であるために
は、実行されるプログラム（機械語）内にそれだけの並
列性が存在することが必要である。並列性が存在してい
なければ単なるスカラプロセッサと同じ実行速度しか出
ない。

【０００４】ＦＯＲＴＲＡＮやＣのような高級言語で書
かれたプログラムをコンパイルして、スーパースカラプ
ロセッサで実行しようとする場合、ソースプログラムに
並列性が陽に現れていない場合は、コンパイラが、ソー
スプログラムを機械語に翻訳する際に、並列性を引き出
さすような最適化を行うことが普通である。

【０００５】例えば、以下のＦＯＲＴＲＡＮプログラム
（の一部）を考えてみる。（これはＳＰＥＣｆｐと呼ば
れるベンチマークプログラムの一部である。配列要素は
すべて倍精度浮動小数点型である。） DO 8 I=1,256 …(1) RMATRX(I,I) = 1.D0 / RMATRX(I,I) …(2) DO 8 J = I+1, 256 …(3) RMATRX(J,I) = RMATRX(J,I) * RMATRX(I,I) …(4) DO 8 K = I+1, 256 …(5) RMATRX(J,K) = RMATRX(J,K) - RMATRX(J,I) * RMATRX(I,K) …(6) 8 CONTINUE …(7) このプログラムの実行で、最も時間がかかる（実行回数
が多い）のは、最も内側のループ、すなわち(5)から(7)
内の部分である。従って、このプログラムの高速化（並
列化）を考える時は、この部分に対応する命令に着目す
るのがよい。このループ内のステートメント(6)は、配
列のアドレス計算を無視すると、次の５つの命令によっ
て実行される。

【０００６】 RMATRX(J,K)のロード RMATRX(I,K)のロード RMATRX(J,I) * RMATRX(I,K) RMATRX(J,K) - の結果の結果をRMATRX(J,K)へストア上記のプログラムに、RMATRX(J,K)のロードが含まれて
いないのは、この式がループ不変式であり、ループ内で
実行する必要がないためである。（ループ外で一度ロー
ドしておけば、最も内側のループ内ではロードする必要
がない。）これらの５つの命令のうち、並列に実行でき
るのはとだけである。その他の命令はいずれもそれ
以前の命令の結果を使っている（フロー依存が存在す
る）ため、並列には実行できない。このようなプログラ
ムの演算構造を図にしたのが図３である。図３では、枠
で囲った部分が演算を示し、囲ってない部分がデータを
示し、矢印がデータの流れを示している。１０３の
「＊」は乗算を、１０４の「−」は減算を表す。Ｔ１，
Ｔ２などは、一時的なデータ領域（レジスタと考えてよ
い）を示す。からの命令はそれぞれ図３の１０１、
１０２、１０３、１０４、１０５の演算に相当する。そ
して、二つの演算が矢印で繋がっている場合は、矢印の
元の演算が終ってから、矢印の先の演算が始まらなけれ
ばならない。

【０００７】図４は、以下に述べるような構成を有する
想定プロセッサで、図４の１０３から１０５の各命令が
どのタイミングで発行され、命令が完了するかを示した
タイミングチャートである。想定プロセッサは、ロード
・ストアユニット１個、浮動小数点乗算器１個、浮動小
数点加減算器１個およびその他の実行ユニットを持ち、
各ユニットを最大４個まで並列実行できる、即ち、４−
スカラのスーパースカラプロセッサとしている。命令の
レイテンシィ、即ち、命令を発行してから完了するまで
にかかるサイクル数は、ロード・ストア命令は２、浮動
小数点の乗算・加減算は４としている。

【０００８】さらに、個々の実行ユニットはパイプライ
ン実行できる、即ち、各サイクルごとに新たな命令を発
行できるものとしている。ただし、ロードとストアは同
じ実行ユニットを使用するので、同時には命令発行でき
ない。図４では、実行ユニットごとに命令の発行と完了
のタイミングを横線で示している。横線の上の数字は、
図３の演算の番号を示す。図４により、０サイクル目に
実行を開始すると、１３サイクル目にすべての演算が完
了することがわかる。

【０００９】図４から判るように、並列に（オーバーラ
ップして）実行されている命令は４つのロード命令だけ
であって、その他の命令は前の命令が終るのを待って発
行されている。従って、同時に４命令を発行できるとい
う４−スカラのスーパースカラプロセッサの特性はほと
んど活かされてないことになる。

【００１０】このようなプログラムから並列性を引き出
す手法の１つが、ループ展開である。ループ展開とは、
ループ内部を複数コピーして展開し、ループ反復を減ら
すと共に、ループ内部の独立した命令を増やすことによ
り並列実行の可能性を増加させるような最適化である。
例えば、さきほどのプログラムでは、最も内側のループ
を４倍に展開することにより、次のように変型できる
（Ｋの値は４ずつ増えることに注意）。

【００１１】 DO 8 K = I+1, 256, 4 …(8) RMATRX(J,K) = RMATRX(J,K) - RMATRX(J,I) * RMATRX(I,K) …(9) RMATRX(J,K+1) = RMATRX(J,K+1) - RMATRX(J,I) * RMATRX(I,K+1) …(10) RMATRX(J,K+2) = RMATRX(J,K+2) - RMATRX(J,I) * RMATRX(I,K+2) …(11) RMATRX(J,K+3) = RMATRX(J,K+3) - RMATRX(J,I) * RMATRX(I,K+3) …(12) 8 CONTINE …(13) ここでループ中のステートメント(9)-(12)は互いに独立
であるので、並列に実行可能である。ループ展開した場
合の、ループ内側のステートメント（(9)-(12)）の演算
構造を、図１と同様に図に示したものが図５である。

【００１２】図５で、単に「（Ｉ，Ｋ）」等とあるのは
「ＲＭＡＴＲＸ（Ｉ，Ｋ）」を略したものである。図５
によれば、８つロード、４つの乗算、４つの減算はフロ
ー依存がないので、それぞれ並列に実行可能である。従
って、プログラムの並列度が大幅に増す。

【００１３】図６は、図５の演算を、想定プロセッサで
実行した場合のタイミングチャートを、図４と同様に示
したものである。図６では、各演算器が並列に動作する
部分が図４に比べて増加することがわかる。

【００１４】図６によると、ループ展開したプログラム
では、繰り返しの始めで、必要とするデータをまとめて
ロードするが、その間、他の演算器が遊んでしまう。例
えば図６では、乗算器は始めの２サイクル、加減算器は
始めの６サイクルは動いていない。これは繰り返しの終
わりのストアの時も同様である。このような演算器の空
きをなくすため、さらにソフトウェアパイプライニング
というプログラム並列化の手法を使うことができる。

【００１５】ソフトウェアパイプライニングは、ループ
内部をいくつかの処理部分（これをパイプラインステー
ジ、または以降単にステージと呼ぶ）に分解し、異なる
繰り返しの異なるステージを並列に実行するような変換
である。例えば、さきほど展開したループの内部を、ロ
ード、乗算、減算、及びストアの４つのステージに分け
ることにより、それらを並列に実行することが可能とな
る。すなわち、ループのｉ回目の（繰り返しに属する）
ロードと、（ｉ−１）回目の乗算と、（ｉ−２）回目の
減算と、（ｉ−３）回目のストアは並列に動作可能であ
る。ただし、さきほど想定したプロセッサでは、ロード
とストアは同一の実行ユニットを使用するので、ロード
とストアは同時には命令発行できない。このようなソフ
トウェアパイプライニングを施した場合のタイミングチ
ャートを図７に示す。図７では、ストア、乗算および減
算が並列に実行されるので、図６に比べてさらに実行サ
イクル数が減る。

【００１６】図７では、０から３サイクル目で、ストア
命令、乗算命令および減算命令の３命令を同時に発行し
いるが、これは原則的には３−スカラ以上の命令多重度
をもつスーパースカラプロセッサでのみ可能である。し
かし、たとえば１つの命令で乗算と減算を並列に実行す
るような命令があれば、２−スカラでも３つの演算を並
列に実行できる。すなわち、この命令（乗算・減算複合
命令）とストア命令の２つの命令を同時に発行すればよ
い。

【００１７】１つの命令で乗算と減算または加算を並列
に実行する命令については、例えばピーエーリスク１．
１アーキテクチャアンドインストゥラクション
セットリファレンスマニュアル（１９９０）６-６
０頁から６-６１頁(PA-RISC1.1 Architecture and
Instruction Set Reference Manual(1990),pp.6-60-
6-61)に記載がある。この中の、ＦＭＰＹＡＤＤ命令は
浮動小数点データの乗算と加算を、ＦＭＰＹＳＵＢ命令
は浮動小数点データの乗算と減算を同時に行う命令であ
る。

【００１８】なお、補足として付け加えると、乗算をし
た後で加減算を行う式（ａｘ±ｂｙ±ｃｚ±…）や、加
減算を行った後乗算を行う式（（ａ＋ｂ）＊ｘ等）は、
上記の例に挙げたプログラムに限らず、科学技術計算プ
ログラム（ＦＯＲＴＲＡＮで書かれることが多い）に頻
繁に現れる計算であり（ａ，ｂ，ｃ，ｘ，ｙ，ｚ，…は
配列要素であることが多い）、このような演算の組み合
わせだけを特別に取り扱うことは無意味なことではな
い。

【００１９】

【発明が解決しようとする課題】上記従来技術で述べ
た、加算または減算と乗算を同時に実行する命令は、行
う加算（減算）と乗算が全く独立である。具体的には、
この命令はＦＭＰＹＡＤＤｒｍ１，ｒｍ２，ｔｍ，ｒａ，ｔａという命令フォーマット（ニモニック）を持ち（ｒｍ
１、ｒｍ２、ｔｍ、ｒａ、ｔａはそれぞれレジスタを表
す）、ｔｍ←ｒｍ１＊ｒｍ２ｔａ←ｔａ＋ｒａの２つの演算を並列に実行する。ただし、ｒａとｔｍ、
ｔａとｔｍ、ｔａとｒｍ１、ｔａとｒｍ２はそれぞれ異
なるレジスタでなければならないという制約がある。言
い換えれば、乗算と加算とで共通のレジスタを使用して
はならない、すなわち、加算と乗算は独立である。

【００２０】しかしこの命令は、上記従来技術で述べた
ような、ソフトウェアパイプライニングによる並列実行
を考慮していない。ソフトウェアパイプライニングで乗
算と加算（減算）を並列に実行する場合は、乗算で使用
するレジスタと加算（減算）で使用するレジスタが一部
重なる。すなわち、乗算のデスティネーションレジスタ
が、次のパイプラインステージ、すなわち加算（減算）
のソースレジスタとなる。例えば、図７で、０サイクル
めで行われる乗算３０９は「Ｔ２＊Ｔ３→Ｔ１０」を行
い、減算３１３は「Ｔ１−Ｔ１０→Ｔ１４」を行うた
め、Ｔ１０が重なっている。従って、上記命令はそのま
までは使えない。

【００２１】本発明の目的は、このようなソフトウェア
パイプライニングに適した、使用するレジスタが一部重
なっているような乗算と加減算をも１命令で並列に実行
する処理装置を提供することにある。

【００２２】また、逆に加減算と乗算で任意のレジスタ
を指定できるとすると、今度は命令語が長くなりすぎる
という問題が起こる。通常、３オペランドマシンでの加
減算命令は、２つのソースレジスタと１つのデスティネ
ーションレジスタの計３つのレジスタを命令語で指定す
る。乗算も同様である。従って、１命令で加減算と乗算
の２つの演算を任意に行うには６つのレジスタの指定が
必要となる。しかし、レジスタが３２個用意されている
と、１つのレジスタの指定に５ビット必要であり（２⁵
＝３２）、６つのレジスタでは５×６＝３０ビット必要
である。世の中の多くのプロセッサ、特に、ＲＩＳＣ
（Reduced Instruction Set Computer）と呼ばれるプロ
セッサは命令語が３２ビットの固定長であり、ここに６
つのレジスタ指定とオペコード指定や演算精度指定を収
めるのは殆ど不可能となる。

【００２３】本発明の別の目的は、加減算と乗算を１命
令で並列に行い、しかも命令語をコンパクトな（３２ビ
ット長）ままで実行できる処理装置を提供することにあ
る。

【００２４】

【課題を解決するための手段】上記目的は、一つの命令
で加算または減算と乗算を並列に実行でき、しかも一方
の演算のデスティネーションレジスタが他方の演算のソ
ースレジスタの一つと一致するような命令を、スーパー
スカラプロセッサに備えることにより達成される。具体
的には、ｒ１、ｒ２、ｒ３、ｒ４、ｒ５をレジスタとし
て、ｒ３←ｒ１＊ｒ２ ‥‥（ａ）ｒ５←ｒ４±ｒ３ ‥‥（ｂ）という二つの操作を並列に行うような命令を備えればよ
い。さらに、乗算と加減算を逆にした場合も同様であ
る。ここで、並列とは、代入（←）の右辺の演算を
（ａ）と（ｂ）で同時に行い、その後で、（ａ）と
（ｂ）の代入を同時に行うことを意味する。上記の
（ａ）、（ｂ）の演算は、配列内のそれぞれ異なる要素
に対して並列に実行される。従って、（ａ）の乗算の結
果値が（ｂ）の加減算のオペランドとして使われるわけ
ではない。

【００２５】

【作用】加減算と乗算を並列に実行でき、しかもその２
つの演算で共通のレジスタを指定することができれば、
図７で示したような乗算と減算は１命令で実行できる。
例えば、図７の０サイクル目は「Ｔ２＊Ｔ３→Ｔ１０」
と「Ｔ１−Ｔ１０→Ｔ１４」の二つの命令を同時に発行
するが、このためには、課題を解決するための手段の項
で述べた命令で、ｒ１、ｒ２、ｒ３、ｒ４、ｒ５にそれ
ぞれＴ２、Ｔ３、Ｔ１０、Ｔ１、Ｔ１４を用いればよ
い。

【００２６】この命令ではレジスタを５つしか指定しな
いので、５⁵＝２５ビットしか必要とせず、３２ビット
長命令語の中に十分収めることができる。

【００２７】

【実施例】以下、本発明の１実施例を説明する。図２
は、本発明を適用した２−スカラ方式のスーパースカラ
プロセッサの構成を示すブロック図である。プロセッサ
１はアドレス線１４および外部データ線１５、１６によ
ってメインメモリ２と接続されている。命令レジスタ４
は、次に実行する命令を保持する。ただし、これは２−
スカラ方式のスーパースカラプロセッサであるので、連
続する二つの命令が保持されている。二つの命令はデコ
ーダ５で解読され、解読結果は制御信号として、デコー
ダ５から制御線１２ａを介して各実行ユニット７〜１１
へ送られる。

【００２８】レジスタファイル６は３２本の浮動小数点
レジスタの集まりである。レジスタファイル６のデータ
はデータ線１３ｂを通って各実行ユニット７〜１１へ送
られる。実行ユニットは、浮動小数点加減算器７、浮動
小数点乗算器８、ロードユニット９、ストアユニット１
０、その他のユニット１１から成る。整数演算ユニット
や分岐ユニットなどはその他のユニットに含まれる。加
減算器７や乗算器８で行われた演算の結果はデータ線１
３ａを通って再びレジスタファイル６へ送られる。ロー
ドユニット９からはアドレス線バス１４を通してロード
するデータのアドレスがメインメモリ２へ送られる。メ
インメモリ２から読み出されたデータは外部データ線１
６およびデータ線１３ａを通ってレジスタファイル６へ
送られる。ストアユニット１０からはアドレス線１４と
外部データ線１５を通して、ストアするデータのアドレ
スと、ストアするデータがメインメモリ２へ送られる。

【００２９】レジスタファイル６は６つのリード（読み
だし）ポートを持つ。本プロセッサでは最高３個の実行
ユニットを一度に駆動することができ（加減算・乗算複
合命令と、その他の命令で計３個）、さらに各演算器は
最高２つのデータを入力とするので、計３×２＝６個の
データを一度にレジスタファイル６から読み出す必要が
あるからである。また、レジスタファイル６は３つのラ
イト（書き込み）ポートを持つ。本プロセッサでは最高
３個の実行ユニットを一度に駆動することができ、各演
算器はそれぞれ１つのデータを出力するので、計３×１
＝３個のデータを一度にレジスタファイル６へ書き込む
必要があるからである。

【００３０】図１は、本プロセッサの特徴となる、加算
・乗算複合命令の命令フォーマットおよびその動作を示
す図である。加算・乗算複合命令７００は、オペコード
部７０１、演算精度指定部７０２、レジスタ指定部７０
３〜７０７から成る。オペコード部７０１は命令の種類
を６ビットで表す。演算指定部７０２は演算の精度（単
精度か倍精度）を１ビットで表す。レジスタ指定部は演
算に使用する５つのレジスタ番号をそれぞれ５ビットで
表わす（レジスタは３２個であるので、指定には５ビッ
ト必要）。７０３から７０７で指定されるレジスタの意
味は次の通りである。

【００３１】ｒｍ１…乗算のソースレジスタｒｍ２…乗算のソースレジスタｔｍ …加算のソースレジスタかつ、乗算のデスティネ
ーションレジスタｒａ …加算のソースレジスタｔａ …加算のデスティネーションレジスタｒｍ１、ｒｍ２、ｔｍ、ｒａで指定されるレジスタは、
レジスタファイルから読み出されるレジスタ（ソースレ
ジスタ）である。従って、これらのフィールドから出た
制御信号は、制御線１２ｂを通ってレジスタファイル６
の呼出しポートへ送られ、どのレジスタを読み出すかを
制御する。読み出されたデータ（レジスタの値）は、デ
ータ線１３ｂを通って加減算器７および乗算器８への入
力となる。すなわち、ｒｍ１とｒｍ２で指定されるレジ
スタの値が乗算器８へ、ｔｍとｔａで指定されるレジス
タの値が加減算器７への入力となる。

【００３２】一方、ｔｍとｔａで指定されるのは、レジ
スタファイル６へ書き込むレジスタ（デスティネーショ
ンレジスタ）であるので、これらのフィールドから出た
制御信号は、制御線１２ｂを通ってレジスタファイル６
の書き込みポートへ送られ、どのレジスタに書き込むか
を制御する。従って、ｔｍフィールドからでた制御信号
は読み出しポートと書き込みポートの両方に送られる。
乗算器８の出力データがｔｍで指定されるレジスタへ書
き込まれ、加減算器７の出力データがｔａで指定される
レジスタへ書き込まれる。

【００３３】すなわち、この命令は、ｔｍ←ｒｍ１＊ｒｍ２ｔａ←ｒａ＋ｔｍの二つの操作を並列に行う。

【００３４】次に、図２を用いて図１の命令の動作を説
明する。命令レジスタ４に保持された命令が、デコーダ
５で解読され、それが加算・乗算複合命令であると判断
されると、ｒｍ１で指定されるレジスタとｒｍ２で指定
されるレジスタの値がデータ線１３ｂを通って浮動小数
点乗算器８へ送られると同時に、ｒａで指定されるレジ
スタとｔｍで指定されるレジスタの値がデータ線１３ｂ
を通って浮動小数点加減算器７へ送られる。そして、乗
算器８から出た演算結果データはｔｍで指定されるレジ
スタへ、加減算器７から出た演算結果データはｔａで指
定されるレジスタへ、それぞれデータ線１３ａを通って
格納される。以上のように、これらの演算器およびレジ
スタファイルは、デコーダ５から出される制御信号によ
り制御される。

【００３５】図１では加算と乗算の複合命令について述
べたが、これは減算と乗算の複合命令でも同様である。
上記の説明で「加算」という部分を「減算」に置き換え
ればよい。

【００３６】また、図１では、乗算のデスティネーショ
ンレジスタと、加算のソースレジスタの一つが一致して
いるが、これを逆にして、加算のデスティネーションレ
ジスタと乗算ソースレジスタの一つとを一致させてもよ
い。すなわち、ｔｍ←ｒｍ１＋ｒｍ２ｔａ←ｒａ＊ｔｍという二つの操作を並列に行う命令についても同様に実
現できる。

【００３７】

【発明の効果】本発明のプロセッサでは、一つの命令で
加算または減算と乗算を並列に実行でき、しかも一方の
演算のデスティネーションレジスタが他方の演算のソー
スレジスタの一つと一致している。これにより、ソフト
ウェアパイプライニングによるプログラムの並列化が簡
単に実現できる、すなわち、ソフトウェアパイプライニ
ングによって生じる、異なるステージに演算の並列実行
が１命令でできる、という効果がある。

【００３８】またこの複合命令は、レジスタを５つしか
指定しないので、レジスタを６つ指定する場合に比べ
て、命令語をコンパクトにできるという効果もある。

【図面の簡単な説明】

【図１】加算乗算複合命令の命令フォーマット及び動作
を示す図である。

【図２】本発明を適用したスーパースカラプロセッサの
ブロック構成図である。

【図３】プログラムの演算構造を表した図である。

【図４】図３の演算の実行タイミングチャートである。

【図５】ループ展開後のプログラムの演算構造を表した
図である。

【図６】図５の演算の実行タイミングチャートである。

【図７】図５の演算にソフトウェアパイプライニングを
施した場合の実行タイミングチャートである。

【符号の説明】

１‥‥プロセッサ、４‥‥命令レジスタ、５‥‥デコー
ダ、７‥‥浮動小数点加減算器、８‥‥浮動小数点乗算
器、１３‥‥データ線。

Claims

【特許請求の範囲】

【請求項１】複数のレジスタと、乗算器および加減算器
を具備するマイクロプロセッサであって、前記マイクロ
プロセッサは、乗算と加減算を一つの命令で並列に実行
する命令を備え、さらに前記命令は、乗算結果を格納す
るレジスタと、加減算のオペランドの一つを格納するレ
ジスタが、一致していることを特徴とするマイクロプロ
セッサ。
【請求項２】請求項１記載のマイクロプロセッサであっ
て、前記マイクロプロセッサは、連続する二つの命令を
一度にフェッチ・デコードし、その二つの命令が並列に
実行可能ならば並列に実行する、スーパースカラプロセ
ッサであるマイクロプロセッサ。
【請求項３】請求項１記載のマイクロプロセッサであっ
て、前記レジスタは、浮動小数点データを格納するレジ
スタであって、前記命令の乗算および加減算は、浮動小
数点データを対象とする、マイクロプロセッサ。
【請求項４】請求項１記載のマイクロプロセッサであっ
て、前記命令は、五つのレジスタ（ｒ１，ｒ２，ｒ３，
ｒ４，ｒ５とする）をオペランドとして指定し、ｒ１と
ｒ２の乗算と、ｒ３とｒ４の加算または減算を並列に行
い、さらに乗算結果をｒ３に格納し、加算または減算結
果をｒ５に格納する、マイクロプロセッサ。
【請求項５】請求項１記載のマイクロプロセッサであっ
て、前記命令は、五つのレジスタ（ｒ１，ｒ２，ｒ３，
ｒ４，ｒ５とする）をオペランドとして指定し、ｒ１と
ｒ２の加算または減算と、ｒ３とｒ４の乗算を並列に行
い、さらに加算または減算結果をｒ３に格納し、乗算結
果をｒ５に格納する、マイクロプロセッサ。