JP2000010780A

JP2000010780A - マイクロプロセッサ

Info

Publication number: JP2000010780A
Application number: JP10171234A
Authority: JP
Inventors: Atsushi Kiuchi; 淳木内; Haruo Kamimaki; 春雄上牧; Yoshiki Noguchi; 孝樹野口
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1998-06-18
Filing date: 1998-06-18
Publication date: 2000-01-14
Anticipated expiration: 2018-06-18
Also published as: JP3669841B2

Abstract

(57)【要約】【課題】乗算や積和演算処理を繰り返し実行する度
に、ソ−スデ−タのロ−ドと積和演算動作（又は乗算動
作）との間にオ−バヘッドが生じないようにできるマイ
クロプロセッサを提供する。【解決手段】ＩＦ、ＩＤ、ＥＸ、ＭＡ、ＷＢと称され
る５ステージから成るパイプライン構造を備えたマイク
ロプロセッサにおいて、積和演算若しくは乗算演算をＭ
Ａステ−ジから開始させる。あるいはＷＢステ−ジで演
算開始から演算結果のライトバックまで、全てを完了さ
せるようにする。これにより、積和演算処理等のデ−タ
演算動作と、それに必要なソ−スデ−タの読み出し動作
との間のオ−バヘッドサイクルを解消することができ
る。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、パイプラインで乗
算若しくは積和演算を実行可能なマイクロプロセッサに
係り、例えばディジタル信号処理等を実行可能なＲＩＳ
Ｃプロセッサ、マイクロコンピュータ、若しくはデータ
プロセッサ等に適用して有効な技術に関するものであ
る。

【０００２】

【従来の技術】従来よりディジタル信号処理を実現する
のに適したプログラマブルコントロ−ラとしてディジタ
ル・シグナル・プロセッサ（ＤＳＰ）が用いられてきた
が、近年コンパイル効率が高く、性能向上が容易でかつ
安価な組み込み用途向けのＲＩＳＣ型マイクロコントロ
−ラが登場した。このＲＩＳＣ型マイクロコントローラ
は、プログラムコ−ド効率を性能でカバ−することによ
って、換言すれば、処理の実行ステップ数は多くても動
作速度を速くすることによって、従来はＤＳＰでしか実
現できなかったディジタル信号処理の分野にも適用され
るようになってきている。このＲＩＳＣ型マイクロコン
トローラにおいて、ディジタル信号処理を汎用の算術論
理演算器を用いて行う場合には処理速度に限界が有る。
この処理効率の点において、ＤＳＰと同様に乗算器や積
和演算器をハ−ドウェアで搭載することにより、飛躍的
に改善された例も出てきている。その具体例としては、
日経エレクトロニクス１９９５年５月８日号（第１１１
〜１２１ペ−ジ）記載のプロセッサがある。通常の算術
論理演算器と同じように、乗算器または積和演算器を備
えることにより、ディジタル信号処理の基本であるフィ
ルタリング処理の積和動作を、ＤＳＰに匹敵する効率及
び性能で実現することができる。

【０００３】フィルタリング処理を実行する場合、積和
演算を実行する毎に乗数、被乗数デ−タをメモリから供
給する必要がある。図１３にＲＩＳＣ型マイクロコント
ロ−ラの代表的なパイプライン構造を概略的に示す。図
中、ＩＦは命令フェッチステ−ジ、ＩＤは命令デコ−ド
ステージ、ＥＸは演算実行ステ−ジ、ＭＡはメモリアク
セス（データフェッチ）ステ−ジ、ＷＢはデ−タのライ
トバックステ−ジを表している。ＩＦステ−ジでは、プ
ログラムカウンタで指定されたアドレスから命令コ−ド
デ−タを読み出し、フェッチする。ＩＤステ−ジでは、
フェッチした命令コ−ドをデコ−ド（解読）し、動作に
必要な制御信号を生成する。ＥＸステ−ジでは、制御信
号によって指示された内容に基づいて、演算動作を実行
する。制御信号によって指示された動作がメモリの読み
出し又は書き込動作の場合は、アドレス生成及びアドレ
スバスへのアドレス出力動作を行う。ＭＡステ−ジで
は、制御信号によって指示された動作がメモリの読み出
し又は書き込動作の場合に、メモリアクセス動作を行
う。ＷＢステ−ジでは、動作結果を指定されたデスティ
ネ−ションに入力する動作を行う。演算動作の場合は、
ＷＢステージで演算結果を格納し、メモリからのデ−タ
読み出しやレジスタ間のデ−タ転送動作では、転送され
てきたデ−タをＷＢステージで格納する。

【０００４】上記従来技術では、乗算や積和演算を２．
５サイクルのレイテンシ−で実行することができる。即
ち、乗数と被乗数が入力された後、乗算結果を得るの
に、マイクロプロセッサの動作基準クロック信号の２．
５サイクル後に演算結果を得ることができる。更に、パ
イプライン構造若しくはパイプライン処理を利用するこ
とによって、１回の乗算又は積和演算を１サイクルのス
ループットで実行可能になっている。すなわち、積和演
算をＥＸステージとＭＡステージで行うように、積和演
算器を配置する。換言すれば、図１４に示すように積和
演算器をＥＸとＭＡステ−ジの２段のパイプライン構成
にして、サイクルＭ１及びＭ２で１回の積和演算を行
う。ディジタル信号処理などにおける積和演算は繰返し
行なわれ、前のパイプラインによるＭ１，Ｍ２の演算結
果を次のパイプラインによる演算処理のソ−スデータと
して使用する。そのためには、所謂フォワーディング若
しくはバイパシング技術を利用すればよい。換言すれ
ば、ＭＡステージのサイクルＭ２の演算結果がＷＢステ
ージでレジスタファイルに書き戻されるのを待たずに、
バイパス経路からマルチプレクサを介して次のパイプラ
インのＥＸステージにフィ−ドバックすればよい。これ
によって、１回の乗算又は積和演算を見かけ上、１サイ
クルのスループットで実行可能になる。

【０００５】

【発明が解決しようとする課題】しかしながら、ＲＩＳ
Ｃ型マイクロコントロ−ラは、データ処理動作動作を上
記５段パイプラインを一単位として逐次実行していく
が、１回の積和演算処理を行うためにはただ単に積和演
算を繰り返せばいいわけではなく、〔１〕被乗数デ−タ
をフェッチ、〔２〕乗数デ−タをフェッチ、〔３〕積和
演算を実行、という３ステップの動作が必要となる。図
１５に必要なデ−タの供給も考慮した場合の１回の積和
演算処理の動作を示す。上記従来技術の１サイクル・ス
ループット性能は、全てのソ−スデ−タがあらかじめレ
ジスタファイルに格納されていて、初めて実現出来る。
しかし実際にはソ−スデ−タをレジスタファイルにフェ
ッチする動作も１デ−タ毎に有限のサイクル数が必要に
なるため、フォワ−ディング機能を利用しても結局図１
５に示すように実行終了まで８サイクルのレイテンシ−
と、４サイクルのスル−プットとなる。即ち、図１５に
従えば、第１ステップのＭＡステージでメモリアクセス
を行って乗数データを読み出し、読み出した乗数データ
をＷＢステージでレジスタファイルに書き込む。このＷ
Ｂステージに並行して、第２ステップでは、被乗数デー
タがメモリから読み出される。第３ステップのＥＸステ
ージには、前記第２ステップのＭＡステージで読み出さ
れた被乗数データがバイパス（フォワーディング）さ
れ、且つ、第１ステップで得られた乗数データがレジス
タファイルから与えられる。これによって第３ステップ
のＥＸステージ（Ｍ１サイクル）及びＭＡステージ（Ｍ
２サイクル）にて一つの積和演算が行なわれ、演算結果
は、第３ステップのＷＢステージでレジスタファイルに
書き戻される。

【０００６】図１５から明らかな様に、第３ステップに
おけるＩＤステージの後、乗算若しくは積和演算に必要
な２つのソースデータを取得するには、フォワーディン
グ構造を用いても２サイクル必要になる。しかも、乗算
若しくは積和演算は、ＥＸステージとＭＡステージで行
なわれる。このため、第３ステップに代表的に示される
ように、ＩＤステージの後、ＥＸステージに２つのソー
スデータがロードされるまでに、１サイクルのオ−バヘ
ッド（ｎｏｐサイクル）が生じてしまう。即ち、パイプ
ラインストールを生じてしまう。その結果、積和演算処
理のスル−プットは、積和演算を繰り返し実行させるた
めのル−プ制御に要するオ−バヘッドを考慮しないとし
ても、１回当たり命令ステップ数（３ステップ）を上回
る４サイクル必要になってしまうことが本発明者によっ
て明らかにされた。

【０００７】また、図１５の例ではフォワーディング機
能により、前の命令の実行結果に依存する演算命令の実
行に際しても、前の命令がＷＢステ−ジまで完全に終了
していなくてもソ−スオペランドとして利用可能になる
ため、図１５の第３ステップではオ−バヘッドが１サイ
クルだけで済んでいるが、フォワ−ディング機能を簡略
化すると、ソ−スデ−タは必ず前もってＷＢステ−ジま
で実行を完了していなければならないため、オ−バヘッ
ドは図１６に示すように２サイクルになる。しかしどの
ように強力なフォワ−ディング機構を用意しても、ＥＸ
ステージ及びＭＡステージで積和演算若しくは乗算を行
う従来のパイプライン構造では、図１５に示されている
１サイクルのオ−バヘッド（ｎｏｐサイクル）を解消す
ることは不可能である。これがＲＩＳＣ型プロセッサに
おけるディジタル信号処理性能の向上に大きな障害にな
っていることが本発明者によって明らかにされた。

【０００８】また、本発明者の検討によれば、見掛け
上、１サイクルのオ−バヘッドを解消する方法として、
図１７に示すように２回分の処理をインライン展開して
読み出したデ−タが直ちに演算命令のソ−スに使われな
いようにする方法がある。しかしこの手法では２回分の
デ−タを保持する必要があるため、２倍のレジスタが必
要になるという別の問題が生じていた。

【０００９】本発明の目的は、デ−タメモリからデ−タ
を読み出す動作が完了するステ−ジ、もしくは動作が完
了した直後のステ−ジから、そのデ−タをソ−スオペラ
ンドとして使用する演算動作を開始するようなパイプラ
イン構造を採用したマイクロプロセッサを提供すること
にある。

【００１０】本発明の更に詳しい目的は、乗算や積和演
算処理を繰り返し実行する度に、ソ−スデ−タのロ−ド
と積和演算動作（又は乗算動作）との間にオ−バヘッド
が生じないようにできるマイクロプロセッサを提供する
ことにある。

【００１１】本発明の別の目的は、データレジスタなど
のハードウェアの増大を極力抑えて、積和演算処理等の
デ−タ演算動作と、それに必要なソ−スデ−タの読み出
し動作との間のオ−バヘッドサイクルを解消することが
できるマイクロプロセッサを提供することにある。

【００１２】本発明の前記並びにその他の目的と新規な
特徴は本明細書の記述及び添付図面から明らかになるで
あろう。

【００１３】

【課題を解決するための手段】《１》本願において開示
される発明のうち代表的なものの概要を簡単に説明すれ
ば下記の通りである。すなわち、命令フェッチ（Ｉ
Ｆ）、命令デコード（ＩＤ）、演算実行（ＥＸ）、メモ
リアクセス（ＭＡ）、ライトバック（ＷＢ）と称される
ような５個のステージから成るパイプライン構造を備え
たマイクロプロセッサにおいて、積和演算若しくは乗算
演算をＭＡステ−ジから開始させ、或いはＷＢステ−ジ
で演算開始から演算結果のライトバックまで全てを完了
させるようにする。これにより、積和演算処理等のデ−
タ演算動作と、それに必要なソ−スデ−タの読み出し動
作との間のオ−バヘッドサイクルを解消することができ
る。

【００１４】《２》上記手段を更に詳しく説明する。第
１に、マイクロプロセッサは、図１、図３、図５、図６
に例示されるように、命令をフェッチする第１ステージ
（ＩＦ）、フェッチした命令を解読すると共にレジスタ
ファイルのデータを選択可能な第２ステージ（ＩＤ）、
メモリアドレスの演算が可能な第３ステージ（ＥＸ）、
第３ステージで演算されたメモリアドレスを基にメモリ
アクセスが可能な第４ステージ（ＭＡ）、及び前記第４
ステージで得られたデータを前記レジスタファイルに書
き戻し可能な第５ステージ（ＷＢ）を、パイプラインに
よるデータ処理ステージとして有する。このとき、前記
レジスタファイルから読み出したデータと前記データメ
モリから読み出したデータとに対する乗算を前記第４ス
テージ及び第５ステージの内から選ばれた一方又は双方
のステージで行う乗算手段を有する。

【００１５】これによれば、図２に例示されるように、
乗算演算のパイプラインにｎｏｐサイクルを挿入する必
要はなく、乗数と被乗数を取得して乗算演算若しくは積
和演算を行うときのスループットを３サイクルに短縮す
ることができる。従って、乗数と被乗数の乗算結果若し
くは積和演算結果を３サイクルに１回の割合で得ること
ができる。

【００１６】前記乗算手段は、図１に例示されるよう
に、前記レジスタファイルから読み出したデータと前記
データメモリから読み出したデータとに対する乗算の中
間データを前記第４ステージで演算する第１乗算手段
（ＭＵ１）と、前記第５ステージで前記乗算の中間デー
タを用いて前記乗算を完結する第２乗算手段（ＭＵ２）
とによって構成することができる。これは、マイクロプ
ロセッサの動作基準クロック信号の周波数が高い場合
に、１サイクルで乗算を行うことができない場合に適用
される構成である。

【００１７】前記乗算手段は、図３、図６に例示される
ように、前記レジスタファイルから読み出したデータと
前記データメモリから読み出したデータとに対する乗算
を前記第４ステージで完結するものとすることができ
る。また、前記乗算手段は、図５に例示されるように、
前記レジスタファイルから読み出したデータと前記デー
タメモリから読み出したデータとに対する乗算を前記第
５ステージで完結するもとすることができる。これら
は、マイクロプロセッサの動作基準クロック信号周波数
が左程高くない場合に適用される例である。

【００１８】第２に、マイクロプロセッサは、図７に例
示されるように、命令をフェッチする第１ステージ、フ
ェッチした命令を解読すると共にレジスタファイルのデ
ータを選択可能な第２ステージ、第１メモリと第２メモ
リのアクセスアドレスを並列的に演算可能な第３ステー
ジ、第３ステージで演算されたアクセスアドレスを基に
第１メモリ及び第２メモリを並列的にアクセス可能な第
４ステージ、並びに前記第４ステージで得られたデータ
を前記レジスタファイルに書き戻し可能な第５ステージ
を、パイプラインによるデータ処理ステージとして有す
る。このとき、前記第１メモリから読み出したデータと
第２メモリから読み出したデータとに対する乗算を前記
第４ステージ及び第５ステージの内から選ばれた一方又
は双方のステージで行う乗算手段を有する。

【００１９】前記乗算手段は、前記第１メモリから読み
出したデータと第２メモリから読み出したデータとに対
する乗算の中間データを前記第４ステージで演算する第
１乗算手段と、前記第５ステージで前記乗算の中間デー
タを用いて前記乗算を完結する第２乗算手段とによって
構成することができる。

【００２０】前記第２乗算手段の出力に前記第５ステー
ジで選択されたデータを加算して出力する累算手段を更
に設けて、積和演算に対処できる。

【００２１】これによれば、図８に例示されるように、
乗数データと被乗数データを並列アクセスし、双方のデ
ータを乗算演算ステージにバイパスさせれば、乗数と被
乗数を取得して乗算更には積和演算を行うときのスルー
プットを２サイクルまで短縮することができる。従っ
て、乗数と被乗数の乗算結果若しくは積和演算結果を２
サイクルに１回の割合で得ることができる。

【００２２】第３に、マイクロプロセッサは、図９に例
示されるように、例命令をフェッチする第１ステージ、
フェッチした命令を解読すると共に第１レジスタファイ
ルから乗数データと被乗数データとを読み出し可能な第
２ステージ、第１メモリ及び第２メモリのアクセスアド
レスを並列的に演算可能な第３ステージ、第３ステージ
で演算されたアクセスアドレスを基に第１メモリ及び第
２メモリを並列的にアクセス可能な第４ステージ、並び
に前記第４ステージで得られたデータを第１レジスタフ
ァイルに書き戻し又は第２レジスタファイルに書き込み
可能な第５ステージを、パイプラインによるデータ処理
ステージとして有する。このとき、前記第２レジスタフ
ァイルから読み出された乗数データと被乗数データとに
対する乗算を前記第４ステージ及び第５ステージの内か
ら選ばれた一方又は双方のステージで行う乗算手段を有
する。

【００２３】前記乗算手段は、前記第２レジスタファイ
ルから読み出された乗数データと被乗数データとに対す
る乗算の中間データを前記第４ステージで演算する第１
乗算手段と、前記第５ステージで前記乗算の中間データ
を用いて前記乗算を完結する第２乗算手段とによって構
成することができる。

【００２４】前記第２乗算手段の出力に前記第５ステー
ジで選択されたデータを加算して出力する累算手段を更
に設けて、積和演算に対処する。

【００２５】上記によれば、図１０に例示されるよう
に、乗数データと被乗数データを並列アクセスでき、し
かも、そのとき乗算演算若しくは積和演算も並列化する
ことができる。したがって、乗数データと被乗数データ
を並列アクセスしているとき、前回のステップで取得さ
れてバイパス（フォワーディング）された乗数及び被乗
数データを用いた乗算演算若しくは積和演算を行うこと
ができるから、乗数と被乗数を取得して乗算演算若しく
は積和演算を行うときのスループットを１サイクルまで
短縮することができる。乗数と被乗数の乗算結果若しく
は積和演算結果を１サイクルに１回の割合で得ることが
できる。

【００２６】第４に、マイクロプロセッサは、図１１に
例示されるように、命令をフェッチする第１ステージ、
フェッチした命令を解読すると共に第１レジスタファイ
ルから乗数データと被乗数データとを読み出し可能な第
２ステージ、第１メモリ及び第２メモリのアクセスアド
レスを並列的に演算可能な第３ステージ、第３ステージ
で演算されたアクセスアドレスを基に第１メモリ及び第
２のメモリを並列的にアクセス可能な第４ステージ、並
びに前記第４ステージで得られたデータを第１レジスタ
ファイルに書き戻し又は第２レジスタファイルに書き込
み可能な第５ステージを、パイプラインによるデータ処
理ステージとして有する。このとき、前記第２レジスタ
ファイルから読み出された乗数データと被乗数データと
に対して第５ステージで乗算を行って当該乗算結果を第
２レジスタファイルに出力する乗算手段と、前記第５ス
テージで第２レジスタファイルから読み出された乗算結
果に第５ステージで選択されたデータを加算して出力す
る加算手段とを有する。

【００２７】上記によれば、図１２に例示されるよう
に、乗数データと被乗数データを並列アクセスでき、し
かも、そのとき乗算演算と加算演算も並列化することが
できる。したがって、乗数データと被乗数データを並列
アクセスしているとき、前回のステップで取得されてバ
イパスされた乗数及び被乗数データを用いた乗算演算を
行い、更に前回のステップで取得された乗算結果の加算
演算を並行して行うことができるから、乗数と被乗数を
取得して乗算更には積和演算を行うときのスループット
を１サイクルまで短縮することができる。

【００２８】《３》更に別の観点に立って上記手段を更
に詳しく説明する。第１に、マイクロプロセッサは、図
１に例示されるように、レジスタファイル（ＣＲＧ）、
演算器（ＡＬＵ，ＳＦＴ）、メモリ（ＤＭＥＭ）、及び
積和演算器（ＭＵ１，ＭＵ２，ＡＣＣ）を少なくとも具
備し、複数のパイプラインステージによって命令を実行
し、パイプラインステージの境界を構成する第１乃至第
３ラッチ回路（ＬＣＨ１，ＬＣＨ２，ＬＣＨ３）を有す
る。前記積和演算器は２つのパイプラインステ−ジにま
たがって演算動作を実行する前半回路（ＭＵ１）及び後
半回路（ＭＵ２，ＡＣＣ）を有する。前記第１ラッチ回
路（ＬＣＨ１）は、前記レジスタファイルからの出力を
ラッチ可能にされ、且つラッチしたデータを前記演算器
又は第２ラッチ回路に出力可能にされる。前記第２ラッ
チ回路（ＬＣＨ２）は、前記演算器の出力、第１ラッチ
回路の出力、前記後半回路からのバイパス出力、又は前
記第２ラッチ回路若しくは第３ラッチ回路からのバイパ
ス出力を入力可能にされ、且つラッチしたデータを前記
メモリ、前記前半回路、又は前記第３ラッチ回路に出力
可能にされる。前記第３ラッチ回路（ＬＣＨ３）は、前
記メモリの出力、前記第２ラッチ回路の出力、前記前半
回路の出力又は第３ラッチ回路からのバイパス出力を入
力可能にされ、且つラッチしたデータをレジスタファイ
ル又は前記後半回路に出力可能にされ、前記後半回路の
出力は前記レジスタファイルに入力可能にされる。

【００２９】第２に、マイクロプロセッサは、図３に例
示されるように、レジスタファイル、演算器、メモリ、
及び積和演算器（ＭＵ３，ＡＣＣ）を少なくとも具備
し、複数のパイプラインステージによって命令を実行
し、パイプラインステージの境界を構成する第１乃至第
３ラッチ回路を有する。前記積和演算器は１つのパイプ
ラインステ−ジで演算動作を完結するものである。前記
第１ラッチ回路は、前記レジスタファイルからの出力を
ラッチ可能にされ、且つラッチしたデータを前記演算器
又は前記第２ラッチ回路に出力可能にされる。前記第２
ラッチ回路は、前記演算器の出力、第１ラッチ回路の出
力又は第２ラッチ回路若しくは第３ラッチ回路からのバ
イパス出力を入力可能にされ、且つラッチしたデータを
前記メモリ、前記積和演算器、又は前記第３ラッチ回路
に出力可能にされる。前記第３ラッチ回路は、前記メモ
リの出力、前記第２ラッチ回路の出力、前記積和演算器
の出力又は第３ラッチ回路からのバイパス出力を入力可
能にされ、且つラッチしたデータを前記レジスタファイ
ルに出力可能にされる。

【００３０】第３に、マイクロプロセッサは、図５に例
示されるように、レジスタファイル、演算器、メモリ、
及び積和演算器（ＭＵ３，ＡＣＣ）を少なくとも具備
し、複数のパイプラインステージによって命令を実行
し、パイプラインステージの境界を構成する第１乃至第
３ラッチ回路を有する。このとき、前記積和演算器は１
つのパイプラインステ−ジで演算動作を完結するもので
ある。前記第１ラッチ回路は、前記レジスタファイルか
らの出力をラッチ可能にされ、且つラッチしたデータを
前記演算器又は第２ラッチ回路に出力可能にされる。前
記第２ラッチ回路は、前記演算器の出力、第１ラッチ回
路の出力、前記積和演算器からのバイパス出力又は第２
ラッチ回路若しくは第３ラッチ回路からのバイパス出力
を入力可能にされ、且つラッチしたデータを前記メモリ
又は前記第３ラッチ回路に出力可能にされる。前記第３
ラッチ回路は、前記メモリの出力、前記第２ラッチ回路
の出力、前記積和演算器からのバイパス出力又は第３ラ
ッチ回路からのバイパス出力を入力可能にされ、且つラ
ッチしたデータを前記レジスタファイル又は積和演算器
に出力可能にされ、前記積和演算器の出力は前記レジス
タファイルに入力可能にされる。

【００３１】第４に、マイクロプロセッサは、図６に例
示されるように、レジスタファイル、第１演算器（Ａ
Ｕ）、第２演算器（ＡＬＵ，ＳＦＴ）、メモリ、及び積
和演算器（ＭＵ３，ＡＣＣ）を少なくとも具備し、複数
のパイプラインステージによって命令を実行し、パイプ
ラインステージの境界を構成する第１乃至第３ラッチ回
路を有する。このとき、前記積和演算器は１つのパイプ
ラインステ−ジで演算動作を完結するものである。前記
第１ラッチ回路は、レジスタファイルからの出力をラッ
チ可能にされ、且つラッチしたデータを前記第１演算器
又は第２ラッチ回路に出力可能にされる。前記第２ラッ
チ回路は、前記第１演算器の出力、第１ラッチ回路の出
力又は第２ラッチ回路若しくは第３ラッチ回路からのバ
イパス出力を入力可能にされ、且つラッチしたデータを
前記メモリ、前記積和演算器、前記第２演算器又は前記
第３ラッチ回路に出力可能にされる。前記第３ラッチ回
路は、前記メモリの出力、前記第２演算器の出力、前記
第２ラッチ回路の出力、前記前積和演算器の出力又は第
３ラッチ回路からのバイパス出力を入力可能にされ、且
つラッチしたデータを前記レジスタファイルに出力可能
にされる。

【００３２】第５に、マイクロプロセッサは、図７に例
示されるように、レジスタファイル（ＧＲＧ２）、第１
演算器（ＡＵ）、第２演算器（ＡＬＵ，ＳＦＴ）、第１
メモリ（ＤＭＹ）、第２メモリ（ＤＭＸ）、及び積和演
算器（ＭＵ１，ＭＵ３，ＡＣＣ）を少なくとも具備し、
複数のパイプラインステージによって命令を実行し、パ
イプラインステージの境界を構成する第１乃至第３ラッ
チ回路を有する。このとき、前記積和演算器は２つのパ
イプラインステ−ジにまたがって演算動作を実行する前
半回路（ＭＵ１）及び後半回路（ＭＵ３，ＡＣＣ）を有
する。前記第１ラッチ回路は、レジスタファイルからの
出力をラッチ可能にされ、且つラッチしたデータを前記
第１演算器と第２演算器又は第２ラッチ回路に出力可能
にされる。前記第２ラッチ回路は、前記第１演算器と第
２演算器の出力をラッチして第１メモリと第２メモリに
出力し、又は第１ラッチ回路の出力をラッチして前記前
半回路に出力可能にされる。前記第３ラッチ回路は、前
記第１メモリと第２メモリの出力、前記第２ラッチ回路
の出力、前記前半回路の出力又は第３ラッチ回路からの
バイパス出力を入力可能にされ、且つラッチしたデータ
をレジスタファイル又は前記後半回路に出力可能にさ
れ、前記後半回路の出力は前記レジスタファイルに入力
可能にされる。

【００３３】第６に、マイクロプロセッサは、図９に例
示されるように、第１レジスタファイル（ＧＲＧ３）、
第２レジスタファイル（ＧＲＧ４）、第１演算器（Ａ
Ｕ）、第２演算器（ＡＬＵ，ＳＦＴ）、第１メモリ（Ｄ
ＭＹ２）、第２メモリ（ＤＭＸ２）、及び積和演算器
（ＭＵ１，ＭＵ２，ＡＣＣ）を少なくとも具備し、複数
のパイプラインステージによって命令を実行し、パイプ
ラインステージの境界を構成する第１乃至第３ラッチ回
路を有する。このとき、前記積和演算器は２つのパイプ
ラインステ−ジにまたがって演算動作を実行する前半回
路及び後半回路を有する。前記第１ラッチ回路は、第１
レジスタファイルからの出力をラッチ可能にされ、且つ
ラッチしたデータを前記第１演算器及び第２演算器に出
力可能にされる。前記第２ラッチ回路は、前記第１演算
器及び第２演算器の出力をラッチして第１メモリ及び第
２メモリに出力し、且つ、第２レジスタファイルの出力
をラッチして前記前半回路に出力可能にされる。前記第
３ラッチ回路は、前記第１メモリ及び第２メモリの出力
をラッチして前記第２レジスタファイルに出力し、且
つ、前記前半回路の出力をラッチして前記後半回路に出
力可能にされ、前記後半回路の出力と第３ラッチ回路を
介して第１及び第２メモリから入力したデータとは前記
第２レジスタファイルに入力可能にされる。

【００３４】第７に、マイクロプロセッサは、図１１に
例示されるように、第１レジスタファイル（ＧＲＧ
３）、第２レジスタファイル（ＧＲＧ４）、第１演算器
（ＡＵ）、第２演算器（ＡＬＵ）、第３演算器（ＡＬＵ
２，ＳＦＴ２）、第１メモリ（ＤＭＹ２）、第２メモリ
（ＤＭＸ２）、及び乗算回路（ＭＵ３）を少なくとも具
備し、複数のパイプラインステージによって命令を実行
し、パイプラインステージの境界を構成する第１乃至第
３ラッチ回路を有する。このとき、前記第１ラッチ回路
は、第１レジスタファイルからの出力をラッチ可能にさ
れ、且つラッチしたデータを前記第１演算器及び第２演
算器に出力可能にされる。前記第２ラッチ回路は、前記
第１及び第２演算器の出力をラッチして第１及び第２メ
モリに供給し、且つ第２レジスタファイルの出力を入力
して前記第３ラッチ回路に出力可能にされる。前記第３
ラッチ回路は、前記第１及び第２メモリの出力、及び前
記第２レジスタファイルの出力を入力可能にされ、且つ
ラッチしたデータを第２レジスタファイル、第３演算
器、及び前記乗算器に出力可能にされ、前記第３演算器
及び前記乗算器の出力が前記第２レジスタファイルに入
力可能にされる。

【００３５】

【発明の実施の形態】図１には本発明に係るマイクロプ
ロセッサＭＰＵの一例が示される。同図に示されるマイ
クロプロセッサＭＰＵは、命令実行手順を制御する制御
系回路部ＣＴとデータ及びアドレス演算などを行うデー
タパス部ＤＰ２に大別される。同図に示されるマイクロ
プロセッサＭＰＵの基本的なパイプラインステージは、
図１３で説明した通りのＩＦ，ＩＤ，ＥＸ，ＭＡ，ＷＢ
の各ステージから成る５段パイプラインを基本とする。

【００３６】図１において、プログラムアドレス生成回
路ＰＡＤＲはプログラムアドレスを生成するための回
路、プログラムアドレスレジスタＰＣはプログラムアド
レス生成回路ＰＡＤＲで生成されたアドレスをラッチし
て命令アドレスバスＩＡＢにアドレスを出力するための
レジスタである。ＩＡＢは命令アドレスバス、ＰＭＥＭ
はプログラムメモリ、ＩＤＢはプログラムメモリＰＭＥ
Ｍから読み出された命令コ−ドを出力する命令バス、Ｆ
ＲＥＧは命令バスＩＤＢに出力された命令コ−ドをフェ
ッチする命令フェッチレジスタである。ＩＤＥＣは命令
フェッチレジスタＦＲＥＧでフェッチされた命令コ−ド
を解読して、実行に必要な制御信号を生成する命令デコ
−ダである。ＬＣＨ１、ＬＣＨ２、ＬＣＨ３はクロック
信号に同期して入力イネーブル状態になる直前の入力信
号の状態を取り込んで保持し、同時にその内容を出力す
るエッジトリガ型のラッチ回路（エッジトリガラッチ）
である。ＣＮＴ１、ＣＮＴ２、ＣＮＴ３は所定のパイプ
ラインステ−ジでの処理に必要な制御信号を生成するた
めの制御信号生成回路である。ＧＲＧはレジスタファイ
ルであり、ＭＸ１、ＭＸ２、ＭＸ３、ＭＸ４、ＭＸ７、
ＭＸ８、ＭＸ９、ＭＸ１０はセレクタであり、ＡＬＵは
算術論理演算器であり、ＳＦＴはシフタである。ＭＵ１
は２段のパイプライン構造の乗算器の１段目の乗算回路
であり、ＭＵ２は上記乗算器の２段目の乗算回路であ
り、ＡＣＣが積和演算の内の加算動作を行うための累算
器である。ＤＡＢはデ−タメモリをアクセスするための
アドレスを出力するアドレスバス、ＤＭＥＭはデータメ
モリ、ＤＤＢはデ−タメモリへのデ−タの入出力を行う
ためのデ−タバスである。Ｓ１はセレクタＭＸ４からラ
ッチ回路ＬＣＨ２を経て出力される信号、Ｓ２はセレク
タＭＸ９の出力信号、Ｓ３はデータバスＤＤＢからラッ
チ回路ＬＣＨ３を経て出力される信号である。なお、こ
の例ではプログラム用のバスやメモリとデ−タ用のバス
やメモリを別々に構成するハ−バ−ド・ア−キテクチャ
型を採用している。上記マイクロプロセッサＭＰＵは、
単結晶シリコンのような１個の半導体基板（半導体チッ
プ）に形成されている。

【００３７】前記信号Ｓ１、Ｓ２、Ｓ３及びセレクタＭ
Ｘ１〜ＭＸ３、ＭＸ７、ＭＸ１０によって形成される経
路は、フォワーディング（バイパシング）のための信号
フィードバック経路である。フォワーディングとは、Ａ
ＬＵやＭＵ１のような演算器の入力をその前段の回路か
ら入力するだけでなく、後段のパイプラインステージ等
任意のパイプラインステージから入力できるようにし
て、パイプラインをストールせずに処理を続行可能にす
る技術である。換言すれば、ＷＢステージで演算結果を
レジスタファイルに書き込むのを待たずに中間結果を利
用する技がフォワーディング技術である。

【００３８】図１から明らかなように、乗算回路ＭＵ
１、ＭＵ２及び累算器ＡＣＣを用いて行なわれる積和演
算は、パイプラインのＭＡステージとＷＢステージで行
なわれる。

【００３９】ここで、マイクロプロセッサＭＰＵの機能
を前記ステージＩＦ，ＩＤ，ＥＸ，ＭＡ，ＷＢ毎に詳述
する。

【００４０】〔ＩＦステージ：〕ＩＦステージにおい
て、制御系回路部ＣＴでは、プログラムアドレスレジス
タＰＣからアドレスが命令アドレスバスＩＡＢに出力さ
れ、プログラムメモリＰＭＥＭ内の指定されたアドレス
領域から命令コ−ドが読み出されて命令バスＩＤＢに出
力される。同時に、プログラムアドレス生成回路ＰＡＤ
Ｒでは次の命令読み出しに必要なアドレスを生成する。

【００４１】〔ＩＤステ−ジ：〕ＩＤステ−ジにおい
て、制御系回路部ＣＴでは、命令バスＩＤＢに出力され
た命令コ−ドが命令フェッチレジスタＦＲＥＧに取り込
まれ、その出力が命令デコ−ダＩＤＥＣに入力されて必
要な制御信号を生成する。なお、次段ステ−ジ以降に必
要な制御信号は命令デコーダＩＤＥＣで最終的な制御信
号として生成する必要は必ずしもなく、命令コ−ドのま
まか、あるいは一部デコ−ドした形で次段以降の制御信
号生成回路ＣＮＴ１、ＣＮＴ２、ＣＮＴ３に送り、各段
で最終的な制御信号を生成しても構わない。

【００４２】デ−タパス部ＤＰ１では、命令で指定され
たソ−スオペランドがレジスタファイルＧＲＧから選択
され、ラッチ回路ＬＣＨ１に出力される。命令の内容に
よって、出力されるオペランド数は、特に制限されない
が、１、２又は３である。

【００４３】〔ＥＸステ−ジ：〕ＥＸステ−ジにおい
て、デ−タパス部ＤＰ２では、前段でレジスタファイル
ＧＲＧから選択されたソ−スオペランドがラッチ回路Ｌ
ＣＨ１を経てセレクタＭＸ１、ＭＸ２、ＭＸ３に入力さ
れる。これらのセレクタＭＸ１〜ＭＸ３は、フォワ−デ
ィング機構の構成要素であり、他のラッチ回路ＬＣＨ２
の出力信号Ｓ１、セレクタＭＸ９の出力信号Ｓ２、他の
ラッチ回路ＬＣＨ３の出力信号Ｓ３も入力され、１また
は２サイクル前に実行された命令に依存して適当な信号
を選択する。命令で指定されたソ−スオペランドが１ま
たは２サイクル前に実行された命令の演算結果を格納す
るデスティネ−ションオペランドと異なる場合は、レジ
スタファイルＧＲＧから出力されてきた信号が選択され
る。命令で指定されたソ−スオペランドが１サイクル前
に実行された命令の演算結果を格納するデスティネ−シ
ョンオペランドと一致する場合、１サイクル前に実行さ
れた命令の演算結果はまだレジスタファイルＧＲＧに格
納されておらず、次段のＭＡステ−ジにソ−スオペラン
ドが存在するので、フォワ−ディング機能が働いてラッ
チ回路ＬＣＨ２から出力されてきた信号Ｓ１がセレクタ
ＭＸ１、ＭＸ２、ＭＸ３で選択される。命令で指定され
たソ−スオペランドが２サイクル前に実行された命令の
演算結果を格納するデスティネ−ションオペランドと一
致する場合、同様に２サイクル前に実行された命令の演
算結果はまだＧＲＧに格納されておらず、次々段のＷＢ
ステ−ジにソ−スオペランドが存在するので、フォワ−
ディング機能が働いてセレクタＭＸ９から出力されてき
た信号Ｓ２又はラッチ回路ＬＣＨ３の出力信号Ｓ３がセ
レクタＭＸ１、ＭＸ２、ＭＸ３で選択される。Ｓ２は２
サイクル前に実行された命令の算術論理演算器ＡＬＵ、
シフタＳＦＴ又は累算器ＡＣＣの出力結果がソ−スオペ
ランドになる場合に選択され、Ｓ３は２サイクル前に実
行された命令がデ−タ読み出しで、読み出されたデ−タ
がソ−スオペランドになる場合に選択される。

【００４４】実行命令が加減算、論理演算、アドレス演
算或いはシフト命令の場合、算術論理演算器ＡＬＵ又は
シフタＳＦＴが動作し、セレクタＭＸ２及びＭＸ３で選
択されて出力されたデ−タを使って演算を実行する。演
算動作自体はこのステ−ジで終了する。セレクタＭＸ４
では実行された演算の内容によって算術論理演算器ＡＬ
Ｕ、シフタＳＦＴの演算結果のどちらか一方が選択され
てラッチ回路ＬＣＨ２へ送られる。算術論理演算器ＡＬ
Ｕ、シフタＳＦＴのどちらの演算でもない命令の場合
は、セレクタＭＸ４の出力は意味が無いのでデフォルト
としてどちらかを選択しておいても良いし、前回の動作
時に選択した方をそのまま引き続き選択したままでも良
い。

【００４５】実行命令が乗算又は積和演算の場合は、こ
のステ−ジではまだ演算を開始せず、セレクタＭＸ１、
ＭＸ２、ＭＸ３で選択された信号はそのまま次段に送ら
れる。デ−タメモリＤＭＥＭへのデ−タ書き込みの場合
は、セレクタＭＸ１で選択されたデータが次段での累算
又はデ−タ書き込み動作のために送られる。なお、デ−
タメモリＤＥＭＥＭへのデ−タ書き込みに関しては、レ
ジスタファイルＧＲＧからメモリＤＭＥＭへの書き込み
動作として、例えばセレクタＭＸ１とは別の経路を設け
てもよい。

【００４６】〔ＭＡステ−ジ：〕ＭＡステ−ジにおい
て、デ−タパス部ＤＰ２では、５種類の動作に分かれ
る。

【００４７】（１）デ−タメモリＤＭＥＭからのデ−タ
読み出し命令の場合は、前段で生成されたアドレスがラ
ッチ回路ＬＣＨ２、信号Ｓ１を経てアドレスバスＤＡＢ
に出力され、デ−タメモリＤＭＥＭをアクセスする。指
定されたアドレスから読み出されたデ−タは、データメ
モリＤＭＥＭからデ−タバスＤＤＢに出力され、ラッチ
回路ＬＣＨ３に送られる。信号Ｓ１は、アドレスポイン
タ更新のため、ラッチ回路ＬＣＨ３にも送られるか、又
は次に実行される命令がこの演算結果をソ−スオペラン
ドとしている場合は前段ステ−ジのセレクタＭＸ１、Ｍ
Ｘ２又はＭＸ３へ送られる。

【００４８】（２）デ−タメモリへのデ−タ書き込み命
令の場合は、前段で生成されたアドレスがラッチ回路Ｌ
ＣＨ２を経てアドレスバスＤＡＢに出力され、デ−タメ
モリＤＭＥＭをアクセスする。同時にセレクタＭＸ１、
ラッチ回路ＬＣＨ２を経てセレクタＭＸ１０に入力され
たレジスタファイルＧＲＧからのデ−タが選択されてデ
ータバスＤＤＢに出力され、データメモリＤＭＥＭに送
られて書き込まれる。信号Ｓ１は、アドレスポインタ更
新のため、ラッチ回路ＬＣＨ３にも送られるか、又は次
に実行される命令がこの演算結果をソ−スオペランドと
している場合は前段ステ−ジのセレクタＭＸ１、ＭＸ２
又はＭＸ３へ送られる。

【００４９】（３）実行命令が加減算、論理演算或いは
シフト命令の場合は、セレクタＭＸ４、ラッチ回路ＬＣ
Ｈ２を経た演算結果が、そのまま次のラッチ回路ＬＣＨ
３へ送られるか、又は次に実行される命令がこの演算結
果をソ−スオペランドとしている場合は前段ステ−ジの
セレクタＭＸ１、ＭＸ２又はＭＸ３へ送られる。

【００５０】（４）実行命令が乗算の場合、乗算回路Ｍ
Ｕ１が動作し、ラッチ回路ＬＣＨ２及びセレクタＭＸ７
から送られてきたデ−タを使って演算を実行する。演算
はこのステ−ジでは終了せず、次段で引き続き演算を続
行する。

【００５１】前段のセレクタＭＸ２で選択されたソ−ス
オペランドがラッチ回路ＬＣＨ２を経てセレクタＭＸ７
に入力される。セレクタＭＸ７はフォワ−ディング機構
の構成要素であり、他のラッチ回路ＬＣＨ３の出力信号
Ｓ３、セレクタＭＸ９の出力信号Ｓ２も入力され、１サ
イクル前に実行された命令に依存して適当な信号を選択
する。なお、図１の例では乗算回路ＭＵ１の一方の入力
にはセレクタが付いていないが、これはフォワーディン
グするのがどちらか一方の入力だけで演算のバリエ−シ
ョンとしては充分であるためであるが、双方の入力オペ
ランドの選択の幅が異なっていたり、制御回路を単純に
したいときには、両方にセレクタを設けても良い。セレ
クタＭＸ７では、命令で指定されたソ−スオペランドが
１サイクル前に実行された命令の演算結果を格納するデ
スティネ−ションオペランドと異なる場合は、セレクタ
ＬＣＨ２から出力されてきた信号が選択される。命令で
指定されたソ−スオペランドが１サイクル前に実行され
た命令の演算結果を格納するデスティネ−ションオペラ
ンドと一致する場合、１サイクル前に実行された命令の
演算結果はまだレジスタファイルＧＲＧに格納されてお
らず、次段のＷＢステ−ジにソ−スオペランドが存在す
るので、フォワ−ディング機能が働いてラッチ回路ＬＣ
Ｈ３又はセレクタＭＸ９から出力されてきた信号が選択
される。ラッチ回路ＬＣＨ３の出力が選択されるのは、
前の命令でデータメモリＤＭＥＭから読み出されたデ−
タをソ−スオペランドとする場合であり、セレクタＭＸ
９の出力が選択されるのは、前の命令の演算結果（デ−
タ転送命令のアドレス演算を含む）をソ−スオペランド
とする場合である。

【００５２】（５）実行命令が積和演算の場合、乗算部
分は先の（４）と同じである。同時にセレクタＭＸ１０
で選択されたデータが次段での累算動作のために送られ
る。セレクタＭＸ１０もフォワ−ディング機構の構成要
素であり、ラッチ回路ＬＣＨ２からの入力の他にセレク
タＭＸ９及びラッチ回路ＬＣＨ３の出力信号も入力さ
れ、１サイクル前に実行された命令に依存して適当な信
号を選択する。命令で指定されたソ−スオペランドが１
サイクル前に実行された命令の演算結果を格納するデス
ティネ−ションオペランドと異なる場合は、ラッチ回路
ＬＣＨ２から出力されてきた信号が選択される。命令で
指定されたソ−スオペランドが１サイクル前に実行され
た命令の演算結果を格納するデスティネ−ションオペラ
ンドと一致する場合、１サイクル前に実行された命令の
演算結果はまだレジスタファイルＧＲＧに格納されてお
らず、次段のＷＢステ−ジにソ−スオペランドが存在す
るので、フォワ−ディング機能が働いてラッチ回路ＬＣ
Ｈ３又はセレクタＭＸ９から出力されてきた信号が選択
される。ラッチ回路ＬＣＨ３の出力が選択されるのは、
前の命令でデータメモリＤＭＥＭから読み出されたデ−
タをソ−スオペランドとする場合であり、セレクタＭＸ
９の出力が選択されるのは、前の命令の演算結果（デ−
タ転送命令のアドレス演算を含む）をソ−スオペランド
とする場合である。

【００５３】〔ＷＢステ−ジ：〕ＷＢステ−ジにおい
て、デ−タパス部ＤＰ２では、４種類の動作に分かれ
る。

【００５４】（１）デ−タメモリＤＭＥＭからのデ−タ
読み出し命令の場合、前段のＭＡステ−ジでデータメモ
リＤＭＥＭから読み出されたデ−タがデータバスＤＤＢ
及びラッチ回路ＬＣＨ３を経て信号Ｓ３が出力され、レ
ジスタファイルＧＲＧ及び各フォワ−ディング機能のセ
レクタに送られる。

【００５５】（２）実行命令が加減算、論理演算或いは
シフト命令の場合、セレクタＭＸ４、ラッチ回路ＬＣＨ
２及びＬＣＨ３を経てセレクタＭＸ９で選択されて信号
Ｓ２が出力され、レジスタファイルＧＲＧ及び各フォワ
−ディング機能のセレクタに送られる。

【００５６】（３）実行命令が乗算の場合、乗算回路Ｍ
Ｕ１からラッチ回路ＬＣＨ３を経て送られてきた乗算動
作の中間デ−タを用いて、残りの演算動作を乗算回路Ｍ
Ｕ２で続行する。一方セレクタＭＸ８ではゼロが選択さ
れ、その結果累算器ＡＣＣでは乗算回路ＭＵ２の演算結
果がそのまま通過してセレクタＭＸ９で選択されて信号
Ｓ２が出力され、レジスタファイルＧＲＧ及び各フォワ
−ディング機能のセレクタに送られる。

【００５７】（４）実行命令が積和演算の場合、まず乗
算と同様に乗算回路１（ＭＵ１）からラッチ回路ＬＣＨ
３を経て送られてきた乗算動作の中間デ−タを用いて、
残りの演算動作を乗算回路ＭＵ２で続行する。一方セレ
クタＭＸ８では第３のソ−スオペランドが選択され、累
算器ＡＣＣで乗算回路ＭＵ２の乗算結果に加算されてセ
レクタＭＸ９で選択され選択されて信号Ｓ２が出力さ
れ、レジスタファイルＧＲＧ及び各フォワ−ディング機
能のセレクタに送られる。

【００５８】図１の例では、パイプライン化された乗算
又は積和演算の実行開始を他の演算の実行開始ステ−ジ
であるＥＸステ−ジではなく、ＭＡステ−ジから開始し
ている。この結果、図２に示すように乗算や積和演算に
必要なソ−スデ−タの読み出し動作を演算動作の直前に
置いても、フォワ−ディング機構が有効に働いて、１サ
イクルのオ−バヘッドもなく演算が実行可能になる。

【００５９】本発明者が検討した図１８の比較例（公知
ではない）では、従来技術で説明したように、パイプラ
イン化された乗算又は積和演算の実行開始を他の演算の
実行開始ステ−ジであるＥＸステ−ジから開始してい
る。前述のように図１８の構成では、図１５に代表され
るように、乗数と被乗数を取得して乗算演算若しくは積
和演算を行うときのスループットが４サイクルになる。
これに対して、図１のパイプライン構成では、図２に示
されるように、乗算演算のパイプラインにｎｏｐサイク
ルを挿入する必要はなく、乗数と被乗数を取得して乗算
演算若しくは積和演算を行うときのスループットを３サ
イクルに短縮することができる。従って、乗数と被乗数
の乗算結果若しくは積和演算結果を３サイクルに１回の
割合で得ることができる。

【００６０】フォワ−ディング機構が備えられている場
合、前述のように、ＭＡステ−ジ以降から演算を開始可
能な構成になっていれば、乗算や積和演算動作を必要な
ソ−スデ−タのロ−ド動作と組み合わせてもオ−バヘッ
ド無しに実行可能となる。従って、例えば乗算や積和演
算器の動作速度が他の動作の実行速度に比べてシステム
全体の動作速度性能のボトルネックにならない場合は、
乗算に対してパイプライン構造を採用しなくても構わな
い。但し、その場合でも、他の演算器と同じＥＸステ−
ジから乗算や積和演算を開始すべきではなく、ＭＡステ
ージ以降で行わなければならない。

【００６１】図３には乗算をパイプライン構造にしない
場合のデータバス部の例が示される。図中、ＭＵ３はパ
イプライン構成無しで乗算動作を実行する乗算回路であ
る。他の構成要素については、図１と同じであり、同一
機能を有する回路要素には同一符号を付してその詳細な
説明を省略する。

【００６２】図３の例は、乗算及び積和演算動作がＭＡ
ステ−ジのみで実行される他は、図１の実施例と同じで
ある。従って、ＷＢステ−ジの構造は図１８の比較例と
同じ構造に戻っている。図３の例では、セレクタＭＸ１
０、ＭＸ７がフォワ−ディング機能を備えているので、
乗算又は積和演算命令の実行直前のステップで演算に必
要なデ−タをロ−ドする動作が指定されていても、図４
に示すようにやはりオ−バヘッド無しで乗算動作を実行
することができる。更に図３の構成によれば、次のステ
ップで演算結果をメモリに書き込む命令を実行する場合
も、図１８の比較例と同じようにオ−バヘッド無しで実
行することが可能である。即ち、演算実行直後にそのデ
−タをデ−タメモリＤＭＥＭに格納する場合、演算結果
は未だレジスタファイルＧＲＧに格納されておらず、次
段のＷＢステ−ジにソ−スオペランドが存在するので、
フォワ−ディング機能が働いてセレクタＭＸ６から出力
されてきた信号がセレクタＭＸ１０で選択され、データ
バスＤＤＢに出力されてデータメモリＤＭＥＭに送られ
る。

【００６３】図５には本発明の第３の例が示されてい
る。図中の各構成要素は全て今まで述べてきたものの組
み合わせになっている。図５の例は、図３の例で述べた
１ステ−ジで演算実行可能な乗算／積和演算器をＷＢス
テ−ジに構成したものである。この例によれば、図３の
ようにデ−タをメモリＤＭＥＭに格納する場合のオ−バ
ヘッドは生じるが、図１の実施例と同様、デ−タロ−ド
直後の演算実行時のオ−バヘッドは解消される。

【００６４】ここまでの例では、ディジタル信号処理で
重要な乗算又は積和演算実行時のオ−バヘッドの問題だ
けを解決しようとした。次に示す例は、乗算又は積和演
算以外の汎用的な演算例えば算術論理演算などに対して
もオーバヘッドを解決しようとするものである。

【００６５】図６は一般的な演算である算術論理演算及
びシフト演算実行時のオ−バヘッドをも解消する例であ
る。図中、ＡＵはデ−タ転送動作に必要なアドレスを生
成する演算器、ＭＸ１１はフォワ−ディング機能を備え
たセレクタ、ＬＣＨ４はエッジトリガ型のラッチ回路、
ＭＸ１２はセレクタである。図６の例では、デ−タ演算
を行う演算器ＡＬＵ、ＳＦＴとアドレス演算を行う演算
器ＡＵとを分離し、デ−タ演算を行う演算回路ＡＬＵ、
ＳＦＴは全て演算開始をＭＡステ−ジに移動させてい
る。その結果、乗算や積和演算動作と同様、他の演算で
も必要なソ−スデータの読み出し命令の直後に演算命令
を置いても、オ−バヘッド無しで実行することが可能と
なる。なお、この例は積和演算をＭＡステ−ジだけで完
了する場合を示しているが、図５のようにＷＢステ−ジ
だけで完了させたり、図１のように両方のステ−ジにま
たがって動作させる場合でも良いことは言うまでもな
い。

【００６６】以上説明した例では、あくまでもＲＩＳＣ
プロセッサの基本である１命令で１動作を前提としてい
たが、汎用のディジタルシグナルプロセッサ（ＤＳＰ）
のように複数の動作を並列に実行可能にした構造のプロ
セッサでも、本発明を適用できる。

【００６７】図７にそのような一つの例を挙げる。図
中、ＬＣＨ５、ＬＣＨ６、ＬＣＨ７はエッジトリガ型の
ラッチ回路であり、ＧＲＧ２はレジスタファイルであ
り、ＭＸ１３、ＭＸ１４、ＭＸ１５、ＭＸ１６、ＭＸ１
７、ＭＸ１８、ＭＸ１９、ＭＸ２０はセレクタである。
ＤＭＸ、ＤＭＹはデ−タメモリであり、ＤＡＢＸ、ＤＡ
ＢＹはデ−タ用のアドレスバスであり、ＤＤＢＸ、ＤＤ
ＢＹはデ−タバスであり、Ｓ４はラッチ回路ＬＣＨ６か
らのフォワ−ディング信号であり、Ｓ５、Ｓ６はラッチ
回路ＬＣＨ７からのフォワ−ディング信号である。その
他の回路要素は図１と同様である。

【００６８】図７の例では、ＥＸステ−ジに従来の算術
論理演算器ＡＬＵに加えて加算器ＡＵが備えられてお
り、算術論理演算器ＡＬＵと加算器ＡＵは同時並列に動
作可能になっている。また、ＭＡステ−ジにはデ−タメ
モリ、アドレスバス、デ−タバスも各々２つずつ備えら
れているので、同時に２つのデ−タ読み出し動作が実行
出来るようになっている。その結果、図８に示すように
第１ステップと第２ステップが同時に処理され、積和演
算のスル−プットは２サイクルになっている。この時も
積和演算はＭＡステ−ジから開始するようになっている
ので、デ−タ読み出し動作と積和演算動作との間にはオ
−バヘッドサイクルは生じない。

【００６９】なお、この例ではデ−タメモリＤＭＹには
アドレスバスＤＡＢＸ、ＤＡＢＹのどちらからでもアク
セス可能な構造にしているが、これは単独デ−タアクセ
スの場合には常時算術論理演算器ＡＬＵでアドレス生成
を行うようにすることを想定したものであるが、アドレ
スでデータメモリＤＭＸ、ＤＭＹを識別し、データメモ
リＤＭＹをアクセスする場合はいつでも加算器ＡＵにて
アドレスを生成するように制御すれば、データメモリＤ
ＭＹもＤＭＸと同じような構造にしてもいいことは言う
までもない。また、この例では積和演算回路をＭＡ、Ｗ
Ｂの２ステ−ジにまたがって動作するような構成にして
いるが、図３や図５のように、どちらか１つのステ−ジ
のみで動作を完了するような演算器を用いても良いこと
は明らかである。さらに、図６のように、一般的な演算
である算術論理演算及びシフト演算を実行する時のオ−
バヘッドをも解消するために、アドレス演算器を別に設
け、これらの演算器は積和演算器と同様にＭＡまたはＷ
Ｂステ−ジに移しても良いことも明らかである。

【００７０】図９はさらに並列度を高めたマイクロプロ
セッサの例である。図中、ＧＲＧ３、４はレジスタファ
イルであり、ＬＣＨ８、ＬＣＨ９、ＬＣＨ１０はエッジ
トリガ型のラッチ回路であり、ＭＸ２１、ＭＸ２２、Ｍ
Ｘ２３、ＭＸ２４、ＭＸ２５、ＭＸ２６、ＭＸ２７はセ
レクタである。Ｓ７、Ｓ８、Ｓ９、Ｓ１０、Ｓ１１はラ
ッチ回路からの出力信号であり、Ｓ１２、Ｓ１３、Ｓ１
４、Ｓ１５はレジスタファイルＧＲＧ４からの出力信号
である。ＡＬＵ２は第２の算術論理演算器、ＳＦＴ２は
第２のバレルシフタである。今まで説明した回路要素と
同一機能を有するものには同一符号を付してその詳細な
説明は省略する。

【００７１】図９の例は、ディジタル信号処理向けのハ
−ドウェアを完全に汎用演算モジュ−ルから切り離し、
独立の演算器及びレジスタファイルを設けた例を示して
いる。積和演算器ＭＵ１，ＭＵ２，ＡＣＣはディジタル
信号処理向けのハ−ドウェアとして扱う。この結果、レ
ジスタファイルＧＲＧ３、算術論理演算器ＡＬＵ、シフ
タＳＦＴ、加算器ＡＵから成るＥＸステ−ジで演算を実
行する演算回路は、積和演算処理以外の算術論理演算等
の処理と、積和演算等のディジタル信号処理動作に必要
なデ−タアクセス動作のためのアドレス演算動作とに専
ら用いられる。積和演算器ＭＵ１，ＭＵ２，ＡＣＣと新
たに設けたレジスタファイルＧＲＧ４、算術論理演算器
ＡＬＵ２及びシフタＳＦＴ２は、ＭＡ及びＷＢステ−ジ
で動作を実行する。なお、図９の例では算術論理演算器
ＡＬＵとシフタＳＦＴは同時には動作せず、セレクタＭ
Ｘ２７によって毎サイクルどちらか一方のみ動作可能な
構造になっているが、積和演算器と同様に、レジスタフ
ァイルＧＲＧ４と独立したソ−ス及びデスティネ−ショ
ンオペランドを転送可能にしても良いことは言うまでも
ない。

【００７２】図９の例によれば、図１０に示すように、
最初と最後に合計１ル−プ分のインライン展開が必要に
なるが、１回の積和演算動作のスル−プットを、必要な
ソ−スデ−タのロ−ド動作を含めて１サイクルで実現で
きる。この時も積和演算はＭＡステ−ジから開始するよ
うになっているので、デ−タ読み出し動作と積和演算動
作との間にはオ−バヘッドサイクルは生じない。なお、
本実施例では２つのデ−タメモリＤＭＸ、ＤＭＹに対し
て３つ目のアドレスバスＤＡＢ及びデ−タバスＤＤＢを
設けている。これは、レジスタファイルＧＲＧ３との間
のデ−タ転送時にはアドレスバスＤＡＢ及びデータバス
ＤＤＢを使って図１８の構成と等価な動作を実現させ、
レジスタファイルＧＲＧ４に対しては積和演算処理のス
ル−プットが１サイクルになるために２つのデ−タ転送
動作が同時に実行可能になるようにしたものである。

【００７３】なお、図９の例では積和演算器をＭＡ、Ｗ
Ｂ両方のステ−ジにまたがって動作する構成にしている
が、今迄の例と同様、どちらか一方のステ−ジのみで動
作する回路で構成しても良いし、算術論理演算器ＡＬＵ
２やシフタＳＦＴ２をＭＡステ−ジに移しても良いこと
は言うまでもない。

【００７４】図１１の例は積和演算動作のスル−プット
は図９の例と同様に１サイクルで実現可能であるが、図
９に比べて回路規模を低減させている。図１１におい
て、ＬＣＨ１１、ＬＣＨ１２、ＬＣＨ１３はエッジトリ
ガ型ラッチ回路であり、ＭＸ２１、ＭＸ２２、ＭＸ２
３、ＭＸ２４、ＭＸ２５、ＭＸ２６はセレクタであり、
ＤＭＸ２，ＤＭＹ２はデ−タメモリである。Ｓ１６，Ｓ
１７はレジスタファイルＧＲＧ４からの出力信号であ
る。

【００７５】図１１の例は積和演算回路を乗算回路ＭＵ
３のみの構成とし、同時並列に動作可能な算術論理演算
器ＡＬＵ２との連携動作により、積和演算処理を実現さ
せるものである。また、乗算回路は図５の実施例と同様
にＷＢステ−ジ１段で演算を実行できる例を示している
が、図９のように２段のパイプライン構成にしてもよい
ことは言うまでもない。

【００７６】図１１の例では、乗算回路の１サイクル化
とレジスタファイルＧＲＧ４により、積和演算機能に関
するフォワ−ディング機構が不要になり、ハ−ドウェア
構造が簡略化できている。また、レジスタファイルＧＲ
Ｇ３、算術論理演算器ＡＬＵ、加算器ＡＵから成る部分
の演算パイプライン構造をＥＸステ−ジで終了とし、算
術論理演算器ＡＬＵ、加算器ＡＵの出力信号Ｓ８、Ｓ９
をフォワーディングさせずに、直ちにレジスタファイル
ＧＲＧ３へライトバックさせることにより、フォワ−デ
ィング機構も大幅に簡略化し、残りはデ−タメモリＤＭ
ＥＭ読み出し動作時のＷＢステ−ジからのフォワ−ディ
ング回路のみとしている。また、シフト処理を全てＳＦ
Ｔ２で行うことで問題ないので、この例のように、ＥＸ
ステ−ジでのシフト処理用のシフタ（図１のＳＦＴ）を
省略しても構わない。

【００７７】図１１の例によれば、図１２に示すよう
に、１回の積和演算処理にかかるレイテンシ−は１サイ
クル延び、２回分のインライン展開が必要であるが、積
和演算器を乗算器にしてハ−ドウェア規模を節約しても
積和演算のスル−プットは依然として１サイクルを実現
できる。

【００７８】以上本発明者によってなされた発明を実施
形態に基づいて具体的に説明したが、本発明はそれに限
定されるものではなく、その要旨を逸脱しない範囲にお
いて種々変更可能であることは言うまでもない。例え
ば、マイクロプロセッサは、Ｉ／Ｏポート、バスコント
ローラ、ＤＭＡＣなど、その他の回路ブロックを同一の
半導体チップに含んでもよい。また、各パイプラインス
テージは１サイクルに限定されず、一部のステージ又は
全部のステージを夫々２サイクル以上にしてもよい。

【００７９】

【発明の効果】本願において開示される発明のうち代表
的なものによって得られる効果を簡単に説明すれば下記
の通りである。

【００８０】すなわち、ＩＦ、ＩＤ、ＥＸ、ＭＡ、ＷＢ
のような５ステージから成るパイプライン構造を備えた
マイクロプロセッサにおいて、積和演算若しくは乗算演
算をＭＡステ−ジから開始させ、或いはＷＢステ−ジで
演算開始から演算結果のライトバックまで全てを完了さ
せるようにする。これにより、積和演算処理等のデ−タ
演算動作と、それに必要なソ−スデ−タの読み出し動作
との間のオ−バヘッドサイクルを解消することができ
る。したがって、デ−タメモリからデ−タを読み出す動
作が完了するステ−ジ、もしくは動作が完了した直後の
ステ−ジから、そのデ−タをソ−スオペランドとして使
用する演算動作を開始することができる。

【図面の簡単な説明】

【図１】本発明に係るマイクロプロセッサの一例を示す
ブロック図である。

【図２】図１のマイクロコンピュータにおける積和演算
のパイプライン処理の一例が示されるタイミングチャー
トである。

【図３】乗算を一つのＭＡステージで行うようにしたデ
ータパス部の一例を示すブロック図である。

【図４】図３のデータパス部を採用したマイクロプロセ
ッサにおける積和演算のパイプライン処理の一例が示さ
れるタイミングチャートである。

【図５】乗算を一つのＷＢステージで行うようにしたデ
ータパス部の一例を示すブロック図である。

【図６】積和演算や乗算以外の一般的な演算時のオ−バ
ヘッドも解消するようにしたデータパス部の一例を示す
ブロック図である。

【図７】汎用のディジタルシグナルプロセッサのように
複数の動作を並列に実行可能にした構造を採用したデー
タパス部のブロック図である。

【図８】図７のデータパス部を採用したマイクロプロセ
ッサにおける積和演算のパイプライン処理の一例が示さ
れるタイミングチャートである。

【図９】図７に対して更に演算処理の並列度を高めた構
造を持つデータパス部のブロック図である。

【図１０】図９のデータパス部を採用したマイクロプロ
セッサにおける積和演算のパイプライン処理の一例が示
されるタイミングチャートである。

【図１１】積和演算動作のスル−プットを図９と同等に
維持しつつ図９に比べて回路規模を小さくしたデータパ
ス部のブロック図である。

【図１２】図１１のデータパス部を採用したマイクロプ
ロセッサにおける積和演算のパイプライン処理の一例が
示されるタイミングチャートである。

【図１３】ＲＩＳＣ型マイクロプロセッサのパイプライ
ン構造の概略説明図である。

【図１４】ソースデータの供給については考慮せず積和
演算だけを単に連続実行するとしたときのパイプライン
処理のタイミングチャートである。

【図１５】ソ−スデ−タの供給を考慮した場合の積和演
算連続動作時におけるパイプライン処理のタイミングチ
ャートである。

【図１６】図１５に対してフォワ−ディングを用いずに
積和演算連続動作を行ったときのパイプライン処理のタ
イミングチャートである。

【図１７】２回分の処理をインライン展開して積和演算
を行うようにしたときのパイプライン処理のタイミング
チャートである。

【図１８】本発明者が検討したパイプライン構造とフォ
ワ−ディング機構を持つ比較例としてのマイクロプロセ
ッサのブロック図である。

【符号の説明】

ＩＦ命令フェッチステ−ジＩＤ命令デコ−ドステージＥＸ演算実行ステ−ジＭＡメモリアクセスステ−ジＷＢデ−タのライトバックステ−ジＰＡＤＲプログラムアドレスを生成するための回路ＰＣ命令アドレスバスにアドレスを出力するためのレ
ジスタＩＡＢ命令アドレスバスＰＭＥＭプログラムメモリＩＤＢ命令バスＦＲＥＧ命令フェッチレジスタＩＤＥＣ命令デコ−ダＬＣＨ１〜ＬＣＨ１３エッジトリガ型のラッチＣＮＴ１〜ＣＮＴ３制御信号生成回路ＧＲＧ、ＧＲＧ２〜ＧＲＧ４レジスタファイルＭＸ１〜ＭＸ２６セレクタＡＬＵ、ＡＬＵ２算術論理演算器ＳＦＴ、ＳＦＴ２シフタＭＵ１２段のパイプライン構造の乗算器の１段目の回
路ＭＵ２２段のパイプライン構造の乗算器の２段目の回
路ＭＵ３乗算器ＡＣＣ累算器ＤＡＢ、ＤＡＢＸ、ＤＡＢＹアドレスバスＤＭＥＭデータメモリＤＤＢ、ＤＤＢＸ、ＤＤＢＹデ−タバス

フロントページの続き (72)発明者野口孝樹東京都小平市上水本町五丁目20番１号株式会社日立製作所半導体事業部内Ｆターム(参考） 5B013 AA00 AA11 AA18 5B056 AA05 BB71 DD12 FF01 FF05 FF07 FF08 FF16 5B057 CH04 CH05 CH09

Claims

【特許請求の範囲】

【請求項１】命令をフェッチする第１ステージ、フェ
ッチした命令を解読すると共にレジスタファイルのデー
タを選択可能な第２ステージ、メモリアドレスの演算が
可能な第３ステージ、第３ステージで演算されたメモリ
アドレスを基にメモリアクセスが可能な第４ステージ、
及び前記第４ステージで得られたデータを前記レジスタ
ファイルに書き戻し可能な第５ステージを、パイプライ
ンによるデータ処理ステージとして有するマイクロプロ
セッサであって、前記レジスタファイルから読み出したデータと前記デー
タメモリから読み出したデータとに対する乗算を前記第
４ステージ及び第５ステージの内から選ばれた一方又は
双方のステージで行う乗算手段を有して成るものである
マイクロプロセッサ。
【請求項２】前記乗算手段は、前記レジスタファイル
から読み出したデータと前記データメモリから読み出し
たデータとに対する乗算の中間データを前記第４ステー
ジで演算する第１乗算手段と、前記第５ステージで前記
乗算の中間データを用いて前記乗算を完結する第２乗算
手段とから成るものである請求項１記載のマイクロプロ
セッサ。
【請求項３】前記第２乗算手段の出力に前記第５ステ
ージで選択されたデータを加算して出力する累算手段を
更に設けて成るものである請求項２記載のマイクロプロ
セッサ。
【請求項４】前記乗算手段は、前記レジスタファイル
から読み出したデータと前記データメモリから読み出し
たデータとに対する乗算を前記第４ステージで完結する
ものである請求項１記載のマイクロプロセッサ。
【請求項５】前記乗算手段の出力に前記第４ステージ
で選択されたデータを加算して出力する累算手段を更に
設けて成るものである請求項４記載のマイクロプロセッ
サ。
【請求項６】前記乗算手段は、前記レジスタファイル
から読み出したデータと前記データメモリから読み出し
たデータとに対する乗算を前記第５ステージで完結する
ものである請求項１記載のマイクロプロセッサ。
【請求項７】前記乗算手段の出力に前記第５ステージ
で選択されたデータを加算して出力する累算手段を更に
設けて成るものである請求項６記載のマイクロプロセッ
サ。
【請求項８】命令をフェッチする第１ステージ、フェ
ッチした命令を解読すると共にレジスタファイルのデー
タを選択可能な第２ステージ、第１メモリと第２メモリ
のアクセスアドレスを並列的に演算可能な第３ステー
ジ、第３ステージで演算されたアクセスアドレスを基に
第１メモリ及び第２メモリを並列的にアクセス可能な第
４ステージ、並びに前記第４ステージで得られたデータ
を前記レジスタファイルに書き戻し可能な第５ステージ
を、パイプラインによるデータ処理ステージとして有す
るマイクロプロセッサであって、前記第１メモリから読み出したデータと第２メモリから
読み出したデータとに対する乗算を前記第４ステージ及
び第５ステージの内から選ばれた一方又は双方のステー
ジで行う乗算手段を有して成るものであるマイクロプロ
セッサ。
【請求項９】前記乗算手段は、前記第１メモリから読
み出したデータと第２メモリから読み出したデータとに
対する乗算の中間データを前記第４ステージで演算する
第１乗算手段と、前記第５ステージで前記乗算の中間デ
ータを用いて前記乗算を完結する第２乗算手段とから成
るものである請求項８記載のマイクロプロセッサ。
【請求項１０】前記第２乗算手段の出力に前記第５ス
テージで選択されたデータを加算して出力する累算手段
を更に設けて成るものである請求項９記載のマイクロプ
ロセッサ。
【請求項１１】命令をフェッチする第１ステージ、フ
ェッチした命令を解読すると共に第１レジスタファイル
から乗数データと被乗数データとを読み出し可能な第２
ステージ、第１メモリ及び第２メモリのアクセスアドレ
スを並列的に演算可能な第３ステージ、第３ステージで
演算されたアクセスアドレスを基に第１メモリ及び第２
メモリを並列的にアクセス可能な第４ステージ、並びに
前記第４ステージで得られたデータを第１レジスタファ
イルに書き戻し又は第２レジスタファイルに書き込み可
能な第５ステージを、パイプラインによるデータ処理ス
テージとして有するマイクロプロセッサであって、前記第２レジスタファイルから読み出された乗数データ
と被乗数データとに対する乗算を前記第４ステージ及び
第５ステージの内から選ばれた一方又は双方のステージ
で行う乗算手段を有して成るものであるマイクロプロセ
ッサ。
【請求項１２】前記乗算手段は、前記第２レジスタフ
ァイルから読み出された乗数データと被乗数データとに
対する乗算の中間データを前記第４ステージで演算する
第１乗算手段と、前記第５ステージで前記乗算の中間デ
ータを用いて前記乗算を完結する第２乗算手段とから成
るものである請求項１１記載のマイクロプロセッサ。
【請求項１３】前記第２乗算手段の出力に前記第５ス
テージで選択されたデータを加算して出力する累算手段
を更に設けて成るものである請求項１２記載のマイクロ
プロセッサ。
【請求項１４】命令をフェッチする第１ステージ、フ
ェッチした命令を解読すると共に第１レジスタファイル
から乗数データと被乗数データとを読み出し可能な第２
ステージ、第１メモリ及び第２メモリのアクセスアドレ
スを並列的に演算可能な第３ステージ、第３ステージで
演算されたアクセスアドレスを基に第１メモリ及び第２
のメモリを並列的にアクセス可能な第４ステージ、並び
に前記第４ステージで得られたデータを第１レジスタフ
ァイルに書き戻し又は第２レジスタファイルに書き込み
可能な第５ステージを、パイプラインによるデータ処理
ステージとして有するマイクロプロセッサであって、前記第２レジスタファイルから読み出された乗数データ
と被乗数データとに対して第５ステージで乗算を行って
当該乗算結果を第２レジスタファイルに出力する乗算手
段と、前記第５ステージで第２レジスタファイルから読
み出された乗算結果に第５ステージで選択されたデータ
を加算して出力する加算手段とを有して成るものである
マイクロプロセッサ。
【請求項１５】レジスタファイル、演算器、メモリ、
及び積和演算器を少なくとも具備し、複数のパイプライ
ンステージによって命令を実行し、パイプラインステー
ジの境界を構成する第１乃至第３ラッチ回路を有するマ
イクロプロセッサであって、前記積和演算器は２つのパイプラインステ−ジにまたが
って演算動作を実行する前半回路及び後半回路を有し、前記第１ラッチ回路は、前記レジスタファイルからの出
力をラッチ可能にされ、且つラッチしたデータを前記演
算器又は第２ラッチ回路に出力可能にされ、前記第２ラッチ回路は、前記演算器の出力、第１ラッチ
回路の出力、前記後半回路からのバイパス出力、又は前
記第２ラッチ回路若しくは第３ラッチ回路からのバイパ
ス出力を入力可能にされ、且つラッチしたデータを前記
メモリ、前記前半回路、又は前記第３ラッチ回路に出力
可能にされ、前記第３ラッチ回路は、前記メモリの出力、前記第２ラ
ッチ回路の出力、前記前半回路の出力又は第３ラッチ回
路からのバイパス出力を入力可能にされ、且つラッチし
たデータをレジスタファイル又は前記後半回路に出力可
能にされ、前記後半回路の出力は前記レジスタファイル
に入力可能にされて成るものであるマイクロプロセッ
サ。
【請求項１６】レジスタファイル、演算器、メモリ、
及び積和演算器を少なくとも具備し、複数のパイプライ
ンステージによって命令を実行し、パイプラインステー
ジの境界を構成する第１乃至第３ラッチ回路を有するマ
イクロプロセッサであって、前記積和演算器は１つのパイプラインステ−ジで演算動
作を完結するものであり、前記第１ラッチ回路は、前記レジスタファイルからの出
力をラッチ可能にされ、且つラッチしたデータを前記演
算器又は前記第２ラッチ回路に出力可能にされ、前記第２ラッチ回路は、前記演算器の出力、第１ラッチ
回路の出力又は第２ラッチ回路若しくは第３ラッチ回路
からのバイパス出力を入力可能にされ、且つラッチした
データを前記メモリ、前記積和演算器、又は前記第３ラ
ッチ回路に出力可能にされ、前記第３ラッチ回路は、前記メモリの出力、前記第２ラ
ッチ回路の出力、前記前積和演算器の出力又は第３ラッ
チ回路からのバイパス出力を入力可能にされ、且つラッ
チしたデータを前記レジスタファイルに出力可能にされ
て成るものであるマイクロプロセッサ。
【請求項１７】レジスタファイル、演算器、メモリ、
及び積和演算器を少なくとも具備し、複数のパイプライ
ンステージによって命令を実行し、パイプラインステー
ジの境界を構成する第１乃至第３ラッチ回路を有するマ
イクロプロセッサであって、前記積和演算器は１つのパイプラインステ−ジで演算動
作を完結するものであり、前記第１ラッチ回路は、前記レジスタファイルからの出
力をラッチ可能にされ、且つラッチしたデータを前記演
算器又は第２ラッチ回路に出力可能にされ、前記第２ラッチ回路は、前記演算器の出力、第１ラッチ
回路の出力、前記積和演算器からのバイパス出力又は第
２ラッチ回路若しくは第３ラッチ回路からのバイパス出
力を入力可能にされ、且つラッチしたデータを前記メモ
リ又は前記第３ラッチ回路に出力可能にされ、前記第３ラッチ回路は、前記メモリの出力、前記第２ラ
ッチ回路の出力、前記積和演算器からのバイパス出力又
は第３ラッチ回路からのバイパス出力を入力可能にさ
れ、且つラッチしたデータを前記レジスタファイル又は
積和演算器に出力可能にされ、前記積和演算器の出力は
前記レジスタファイルに入力可能にされて成るものであ
るマイクロプロセッサ。
【請求項１８】レジスタファイル、第１演算器、第２
演算器、メモリ、及び積和演算器を少なくとも具備し、
複数のパイプラインステージによって命令を実行し、パ
イプラインステージの境界を構成する第１乃至第３ラッ
チ回路を有するマイクロプロセッサであって、前記積和演算器は１つのパイプラインステ−ジで演算動
作を完結するものであり、前記第１ラッチ回路は、レジスタファイルからの出力を
ラッチ可能にされ、且つラッチしたデータを前記第１演
算器又は第２ラッチ回路に出力可能にされ、前記第２ラッチ回路は、前記第１演算器の出力、第１ラ
ッチ回路の出力又は第２ラッチ回路若しくは第３ラッチ
回路からのバイパス出力を入力可能にされ、且つラッチ
したデータを前記メモリ、前記積和演算器、前記第２演
算器又は前記第３ラッチ回路に出力可能にされ、前記第３ラッチ回路は、前記メモリの出力、前記第２演
算器の出力、前記第２ラッチ回路の出力、前記前積和演
算器の出力又は第３ラッチ回路からのバイパス出力を入
力可能にされ、且つラッチしたデータを前記レジスタフ
ァイルに出力可能にされて成るものであるマイクロプロ
セッサ。
【請求項１９】前記第１の演算器は前記メモリをアク
セスするためのアドレス演算用とされ、前記第２演算器
はデータ演算用とされるものである請求項１８記載のマ
イクロプロセッサ。
【請求項２０】レジスタファイル、第１演算器、第２
演算器、第１メモリ、第２メモリ、及び積和演算器を少
なくとも具備し、複数のパイプラインステージによって
命令を実行し、パイプラインステージの境界を構成する
第１乃至第３ラッチ回路を有するマイクロプロセッサで
あって、前記積和演算器は２つのパイプラインステ−ジにまたが
って演算動作を実行する前半回路及び後半回路を有し、前記第１ラッチ回路は、レジスタファイルからの出力を
ラッチ可能にされ、且つラッチしたデータを前記第１演
算器と第２演算器又は第２ラッチ回路に出力可能にさ
れ、前記第２ラッチ回路は、前記第１演算器と第２演算器の
出力をラッチして第１メモリと第２メモリに出力し、又
は第１ラッチ回路の出力をラッチして前記前半回路に出
力可能にされ、前記第３ラッチ回路は、前記第１メモリと第２メモリの
出力、前記第２ラッチ回路の出力、前記前半回路の出力
又は第３ラッチ回路からのバイパス出力を入力可能にさ
れ、且つラッチしたデータをレジスタファイル又は前記
後半回路に出力可能にされ、前記後半回路の出力は前記
レジスタファイルに入力可能にされて成るものであるマ
イクロプロセッサ。
【請求項２１】第１レジスタファイル、第２レジスタ
ファイル、第１演算器、第２演算器、第１メモリ、第２
メモリ、及び積和演算器を少なくとも具備し、複数のパ
イプラインステージによって命令を実行し、パイプライ
ンステージの境界を構成する第１乃至第３ラッチ回路を
有するマイクロプロセッサであって、前記積和演算器は２つのパイプラインステ−ジにまたが
って演算動作を実行する前半回路及び後半回路を有し、前記第１ラッチ回路は、第１レジスタファイルからの出
力をラッチ可能にされ、且つラッチしたデータを前記第
１演算器及び第２演算器に出力可能にされ、前記第２ラッチ回路は、前記第１演算器及び第２演算器
の出力をラッチして第１メモリ及び第２メモリに出力
し、且つ、第２レジスタファイルの出力をラッチして前
記前半回路に出力可能にされ、前記第３ラッチ回路は、前記第１メモリ及び第２メモリ
の出力をラッチして前記第２レジスタファイルに出力
し、且つ、前記前半回路の出力をラッチして前記後半回
路に出力可能にされ、前記後半回路の出力と第３ラッチ
回路を介して第１及び第２メモリから入力したデータと
は前記第２レジスタファイルに入力可能にされて成るも
のであるマイクロプロセッサ。
【請求項２２】第１レジスタファイル、第２レジスタ
ファイル、第１演算器、第２演算器、第３演算器、第１
メモリ、第２メモリ、及び乗算回路を少なくとも具備
し、複数のパイプラインステージによって命令を実行
し、パイプラインステージの境界を構成する第１乃至第
３ラッチ回路を有するマイクロプロセッサであって、前記第１ラッチ回路は、第１レジスタファイルからの出
力をラッチ可能にされ、且つラッチしたデータを前記第
１演算器及び第２演算器に出力可能にされ、前記第２ラッチ回路は、前記第１及び第２演算器の出力
をラッチして第１及び第２メモリに供給し、且つ第２レ
ジスタファイルの出力を入力して前記第３ラッチ回路に
出力可能にされ、前記第３ラッチ回路は、前記第１及び第２メモリの出
力、及び前記第２レジスタファイルの出力を入力可能に
され、且つラッチしたデータを第２レジスタファイル、
第３演算器、及び前記乗算器に出力可能にされ、前記第
３演算器及び前記乗算器の出力が前記第２レジスタファ
イルに入力可能にされて成るものであるマイクロプロセ
ッサ。