JP3182591B2

JP3182591B2 - マイクロプロセッサ

Info

Publication number: JP3182591B2
Application number: JP00779593A
Authority: JP
Inventors: 成弥田中; 多加志堀田; 昌司吉田; 健治神; 拡二斉藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-01-20
Filing date: 1993-01-20
Publication date: 2001-07-03
Anticipated expiration: 2016-07-03
Also published as: JPH06214785A; GB2274527A; GB2274527B; US5713012A; GB9401050D0

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、マイクロプロセッサに
係り、特に、複数命令を並列処理する時に所定命令を所
定演算器に割り当て、複数命令を全体として高速処理す
る手段を備えたマイクロプロセッサに関する。

【０００２】

【従来の技術】最近、複数命令を並列に読み出しそれら
の命令を並列に解読して実行するいわゆるスーパースカ
ラ型マイクロプロセッサが注目されている。スーパース
カラ型マイクロプロセッサの代表的な例としては、２命
令並列処理装置がある。２命令並列処理装置では、各マ
シンサイクルごとに２命令ずつ処理されるので、ＣＰＩ
(cycle per instruction)は０.５となる。これに対
し、スーパースカラ型でない従来のマイクロプロセッサ
では、最大１サイクルに１命令ずつ処理されるために、
ＣＰＩは１となる。すなわち、２命令並列処理のスーパ
ースカラ型マイクロプロセッサにおいては、従来のプロ
セッサに比べ、最大２倍の性能が期待されている。

【０００３】しかし、実際のプログラムには、スーパー
スカラ型マイクロプロセッサを用いても、並列に実行で
きない場合が存在する。ｎ番目の命令とｎ＋１番目の命
令を並列処理できない場合について、より具体的に説明
する。ｎ番目の命令のターゲットレジスタとｎ＋１番目
の命令のソースレジスタとが、同一のレジスタである場
合は、ｎ番目の命令を実行した後に、ｎ＋１番目の命令
を実行しなければならない。なぜなら、ｎ＋１番目の命
令が取り込むデータは、ｎ番目の命令の実行結果でなけ
ればならないからである。さらに、ｎ番目の命令が生成
したキャリー情報をｎ＋１番目の命令で使う場合も同様
である。すなわち、並列処理しようとする最初の命令の
結果を並列処理しようとする後続の命令が使用する場合
は、並列処理を実行できない。

【０００４】このように命令を並列実行できないこと
を、命令間の競合と呼ぶ。競合が生じた場合、ハードウ
エアは、これらの競合命令を逐次処理するように制御す
る。

【０００５】具体的な例としては、ISSCC '91においてN
ational Semiconductor社が発表したスーパースカラ型
のマイクロプロセッサがある( Ran talmudi et al.“A
100MIPS，64b Superscalar Microprocessor with DSP E
nhancements”,in ISSCCDig. Tech. Papers, pp100-101
(Feb.1991))。

【０００６】また、特公平02-130634号公報は、１命令
を１マシンサイクルで実行できる命令セットを対象に処
理能力を向上させる目的で、複数の演算器を並列に動作
させる例を示している。

【０００７】一般に、ハードウエアの物量と命令の並列
処理とは、トレードオフの関係にある。ハードウエア，
特に現在主流のマイクロプロセッサは、ワンチップで構
成されている。理想的には、２つの命令がそれぞれ実行
できるハードウエアをすべて盛り込むことができればよ
い。しかし、ハードウエアの複雑さが増すと、チップサ
イズが大きくなり、それに伴って消費電力が増加し、コ
ストがアップする。

【０００８】そこで、前記特公平02-130634号公報は、
演算命令とハードウエアのトレードオフとの関係につい
て配慮し、シフト命令に関するハードウエアを一部省略
するなどの対策を示している。

【０００９】

【発明が解決しようとする課題】マイクロプロセッサで
用いられる命令セットのうち、上述の競合を生じる命令
としては、分岐に関する命令がある。この命令は、プロ
グラムの中で必ず用いられる命令であり、一般のプログ
ラムにおいて、その出現頻度は、約２０〜２５％程度と
高い。そこで、並列処理をより効率良く実行するには、
ハードウエア，特に演算器の制限を考慮して、分岐に関
する命令の処理を実行することが要求される。

【００１０】しかし、上記従来技術では、分岐命令と他
の命令との順序，および，各演算器の内部構成と並列に
命令を実行する演算器の位置とについての配慮が足りな
いという問題があった。

【００１１】また、分岐ではない命令についても、１サ
イクルで実行される命令と複数サイクルで実行される命
令とを合わせ持つ命令セットにおいて、１サイクルで実
行される命令と複数サイクルで実行される命令との順
序，および，演算器の内部構成と並列に命令を実行する
演算器の位置とについての配慮がほとんど無いという欠
点があった。

【００１２】本発明の目的は、分岐命令と他の命令との
並列処理または１サイクルで実行される命令と複数サイ
クルで実行される命令との並列処理を少ないハードウエ
アで効率的に実行する機能を備えたマイクロプロセッサ
を提供することである。

【００１３】

【課題を解決するための手段】本発明は、上記目的を達
成するために、連続するＮ個の命令を読み出す命令読み
出し手段と、読み出されたＮ個の命令を並列処理可能か
否かを検出する並列処理検出手段と、読み出されたＮ個
の命令を並列に実行するＮ個の演算器とを含むマイクロ
プロセッサにおいて、命令の順番に対応してＮ番目の演
算器のみが分岐命令および後続命令とは並列処理できな
い命令を実行する機能論理を持ち、読み出されたＮ個の
命令順序中の最初の分岐命令または最初の後続命令とは
並列処理できない命令(ｋ番目)を並列処理可否の検出と
並行して検出する命令検出手段と、読み出されたＮ個の
命令が並列処理可能な場合、Ｎ個の命令を１からＮ番目
までの演算器で並列に実行するように実行順序を制御
し、読み出されたＮ個の命令のｋ番目に分岐命令または
後続命令とは並列処理できない命令を含む場合、１から
ｋまでの命令を(Ｎ−ｋ＋１)からＮ番目までの演算器で
並列に実行するように実行順序を変更する機能論理手段
とを備えたマイクロプロセッサを提案する。

【００１４】読み出された前記Ｎ個の命令に分岐命令が
含まれる場合、前記Ｎ番目の演算器の演算結果を次に読
み出すべき命令のアドレスとして切換える手段を設け
る。

【００１５】本発明は、より具体的には、連続する２個
の命令を読み出す命令読み出し手段と、読み出された２
個の命令を並列処理可能か否かを検出する並列処理検出
手段と、読み出された２個の命令を並列に実行する２個
の演算器とを含むマイクロプロセッサにおいて、２番目
の演算器のみが分岐命令および後続命令とは並列処理で
きない命令を実行する機能論理を持ち、読み出された２
個の命令順序中の第１命令が分岐命令または後続命令と
は並列処理できない命令か否かを並列処理可否の検出と
並行して検出する命令検出手段と、読み出された２個の
命令が並列処理可能な場合、２個の命令を１，２番目の
演算器で並列に実行するように実行順序を制御し、読み
出された２個の命令のｋ(ｋ＝１，２)番目に分岐命令ま
たは後続命令とは並列処理できない命令を含む場合、当
該分岐命令または後続命令とは並列処理できない命令を
２番目の演算器で実行するように実行順序を変更する機
能論理手段とを備えたマイクロプロセッサを提案する。

【００１６】読み出された前記２個の命令に分岐命令が
含まれる場合、２番目の演算器の演算結果を次に読み出
すべき命令のアドレスとして切換える手段を設ける。

【００１７】本発明は、また、上記目的を達成するため
に、連続するＮ個の命令を読み出す命令読み出し手段
と、読み出されたＮ個の命令を並列処理可能か否かを検
出する並列処理検出手段と、読み出されたＮ個の命令を
並列に実行するＮ個の演算器とを含むマイクロプロセッ
サにおいて、命令の順番に対応してＮ番目の演算器のみ
が複数サイクルで実行される命令を実行する機能論理を
持ち、読み出されたＮ個の命令順序中の最初の複数サイ
クルで実行される命令(ｐ番目)を並列処理可否の検出と
並行して検出する複数サイクル実行命令検出手段と、読
み出されたＮ個の命令が並列処理可能な場合、Ｎ個の命
令を１からＮ番目までの演算器で並列に実行するように
実行順序を制御し、読み出されたＮ個の命令のｐ番目に
複数サイクルで実行される命令を含む場合、１からｐま
での命令を(Ｎ−ｐ＋１)からＮ番目までの演算器で並列
に実行するように実行順序を変更する機能論理手段とを
備えたマイクロプロセッサを提案する。

【００１８】本発明は、より具体的には、連続する２個
の命令を読み出す命令読み出し手段と、読み出された２
個の命令を並列処理可能か否かを検出する並列処理検出
手段と、読み出された２個の命令を並列に実行する２個
の演算器とを含むマイクロプロセッサにおいて、２番目
の演算器のみが複数サイクルで実行される命令を実行す
る機能論理を持ち、読み出された１個の命令順序中の第
１の命令が最初の複数サイクルで実行される命令か否か
を並列処理可否の検出と並行して検出する複数サイクル
実行命令検出手段と、読み出された２個の命令が並列処
理可能な場合、２個の命令を１，２番目の演算器で並列
に実行するように実行順序を制御し、読み出された２個
の命令のｐ(ｐ＝１，２)番目に複数サイクルで実行され
る命令を含む場合、当該命令を２番目の演算器で実行す
るように実行順序を変更する機能論理手段とを備えたマ
イクロプロセッサを提案する。

【００１９】本発明は、さらに、上記目的を達成するた
めに、連続するＮ個の命令を読み出す命令読み出し手段
と、読み出されたＮ個の命令を並列処理可能か否かを検
出する並列処理検出手段と、読み出されたＮ個の命令を
並列に実行するＮ個の演算器とを含むマイクロプロセッ
サにおいて、命令の順番に対応してＮ番目の演算器のみ
が分岐命令および後続命令とは並列処理できない命令お
よび複数サイクルで実行される命令を実行する機能論理
を持ち、読み出されたＮ個の命令順序中の最初の分岐命
令(ｋ番目)または最初の後続命令とは並列処理できない
命令(ｋ番目)または最初の複数サイクルで実行される命
令(ｐ番目)を並列処理可否の検出と並行して検出する命
令検出手段と、読み出されたＮ個の命令が並列処理可能
な場合、Ｎ個の命令を１からＮ番目までの演算器で並列
に実行するように実行順序を制御し、読み出されたＮ個
の命令のｋ番目に分岐命令または後続命令とは並列処理
できない命令を含み、かつ、読み出されたＮ個の命令の
ｐ番目に複数サイクルで実行される命令をも含む時はｋ
＜ｐの場合、１からｋまでの命令を(Ｎ−ｋ＋１)からＮ
番目までの演算器で並列に実行するように実行順序を制
御し、読み出されたＮ個の命令のｐ番目に複数サイクル
で実行される命令を含み、かつ、読み出されたＮ個の命
令のｋ番目に分岐命令または後続命令とは並列処理でき
ない命令をも含む時はｐ＜ｋの場合、１からｐまでの命
令を(Ｎ−ｐ＋１)からＮ番目までの演算器で並列に実行
するように実行順序を変更する機能論理手段とを備えた
マイクロプロセッサを提案する。

【００２０】本発明は、より具体的には、連続する２個
の命令を読み出す命令読み出し手段と、読み出された２
個の命令を並列処理可能か否かを検出する並列処理検出
手段と、読み出された２個の命令を並列に実行する２個
の演算器とを含むマイクロプロセッサにおいて、２番目
の演算器のみが分岐命令および後続命令とは並列処理で
きない命令および複数サイクルで実行される命令を実行
する機能論理を持ち、読み出された２個の命令順序中の
第１命令が分岐命令または後続命令とは並列処理できな
い命令か否かまたは最初の複数サイクルで実行される命
令か否かを並列処理可否の検出と並行して検出する命令
検出手段と、読み出された２個の命令が並列処理可能な
場合、２個の命令を１，２番目の演算器で並列に実行す
るように実行順序を制御し、読み出された２個の命令の
ｋ(ｋ＝１，２)番目に分岐命令または後続命令とは並列
処理できない命令を含み、かつ、読み出されたＮ個の命
令のｐ番目に複数サイクルで実行される命令をも含む時
はｋ＜ｐの場合、当該分岐命令を２番目の演算器で実行
するように実行順序を制御し、読み出された２個の命令
のｐ(ｐ＝１，２)番目に複数サイクルで実行される命令
を含み、かつ、読み出されたＮ個の命令のｋ番目に分岐
命令または後続命令とは並列処理できない命令をも含む
時はｐ＜ｋの場合、当該命令を２番目の演算器で実行す
るように実行順序を変更する機能論理手段とを備えたマ
イクロプロセッサを提案する。

【００２１】後続命令とは並列処理できない命令等を処
理する機能論理は、最後の演算器のほかに、それよりも
前の演算器が備えてもよい。

【００２２】したがって、本発明は、上記目的を達成す
るために、連続するＮ個の命令を読み出す命令読み出し
手段と、読み出されたＮ個の命令を並列処理可能か否か
を検出する並列処理検出手段と、読み出されたＮ個の命
令を並列に実行するＮ個の演算器とを含むマイクロプロ
セッサにおいて、命令の順番に対応してｎ(ｎ≠１)番目
からＮ番目までの演算器が分岐命令および後続命令とは
並列処理できない命令を実行する機能論理を持ち、読み
出されたＮ個の命令順序中の最初の分岐命令(ｋ番目)ま
たは最初の後続命令とは並列処理できない命令(ｋ番目)
を並列処理可否の検出と並行して検出する命令検出手段
と、読み出されたＮ個の命令が並列処理可能な場合、Ｎ
個の命令を１からＮ番目までの演算器で並列に実行する
ように実行順序を制御し、読み出されたＮ個の命令のｋ
番目に分岐命令または後続命令とは並列処理できない命
令を含む場合、１からｋ−１番目の命令は順序通りの演
算器で実行しｋ番目の命令をｎ番目以降の演算器で並列
に実行するように実行順序を変更する機能論理手段とを
備えたマイクロプロセッサを提案する。

【００２３】本発明は、さらに、上記目的を達成するた
めに、連続するＮ個の命令を読み出す命令読み出し手段
と、読み出されたＮ個の命令を並列処理可能か否かを検
出する並列処理検出手段と、読み出されたＮ個の命令を
並列に実行するＮ個の演算器とを含むマイクロプロセッ
サにおいて、命令の順番に対応してｎ(ｎ≠１)番目から
Ｎ番目までの演算器が複数サイクルで実行される命令を
実行する機能論理を持ち、読み出されたＮ個の命令順序
中の最初の複数サイクルで実行される命令(ｐ番目)を並
列処理可否の検出と並行して検出する複数サイクル実行
命令検出手段と、読み出されたＮ個の命令が並列処理可
能な場合、Ｎ個の命令を１からＮ番目までの演算器で並
列に実行するように実行順序を制御し、読み出されたＮ
個の命令のｐ番目に複数サイクルで実行される命令を含
む場合、１からｐ−１番目の命令は順序通りの演算器で
実行しｐ番目の命令をｎ番目以降の演算器で並列に実行
するように実行順序を変更する機能論理手段とを備えた
マイクロプロセッサを提案する。

【００２４】本発明は、上記目的を達成するために、連
続するＮ個の命令を読み出す命令読み出し手段と、読み
出されたＮ個の命令を並列処理可能か否かを検出する並
列処理検出手段と、読み出されたＮ個の命令を並列に実
行するＮ個の演算器とを含むマイクロプロセッサにおい
て、命令の順番に対応してｎ(ｎ≠１)番目からＮ番目ま
での演算器が分岐命令および後続命令とは並列処理でき
ない命令および複数サイクルで実行される命令を実行す
る機能論理を持ち、読み出されたＮ個の命令順序中の最
初の分岐命令(ｋ番目)または最初の後続命令とは並列処
理できない命令(ｋ番目)または最初の複数サイクルで実
行される命令(ｐ番目)を並列処理可否の検出と並行して
検出する命令検出手段と、読み出されたＮ個の命令が並
列処理可能な場合、Ｎ個の命令を１からＮ番目までの演
算器で並列に実行するように実行順序を制御し、読み出
されたＮ個の命令のｋ番目に分岐命令または後続命令と
は並列処理できない命令を含み、かつ、読み出されたＮ
個の命令のｐ番目に複数サイクルで実行される命令をも
含む時はｋ＜ｐの場合、１からｋ−１番目の命令は順序
通りの演算器で実行しｋ番目の命令をｎ番目以降の演算
器で並列に実行するように実行順序を変更し、読み出さ
れたＮ個の命令のｐ番目に複数サイクルで実行される命
令を含み、かつ、読み出されたＮ個の命令のｋ番目に分
岐命令または後続命令とは並列処理できない命令をも含
む時はｐ＜ｋの場合、１からｐ−１番目の命令は順序通
りの演算器で実行しｐ番目の命令をｎ番目以降の演算器
で並列に実行するように実行順序を変更する機能論理手
段とを備えたマイクロプロセッサを提案する。

【００２５】

【作用】本発明においては、並列処理検出手段により並
列処理が可能と判断した場合、１からＮまでの命令実行
順序に従い、それぞれ対応する第１から第Ｎまでの演算
器で実行するように機能論理手段を制御する。並列処理
検出手段が同時に読み出されたＮ個の命令順序の中で最
初の分岐命令(ｋ番目)を検出すると、１からｋまでの命
令を(Ｎ−ｋ＋１)からＮまでの演算器で並列に実行する
ように機能論理手段を制御する。

【００２６】この場合、第Ｎ番目の演算器のみにｋ番目
の分岐命令を実行する機能論理手段を備え、その演算結
果を新たな命令アドレスとして切換えできるように接続
する切換え手段を持たせると、ハ−ドウエアをほとんど
増加させないで、分岐命令を含む１からｋまでの命令を
効率良く並列処理できる。

【００２７】また、並列処理検出手段が同時に読み出さ
れたＮ個の命令順序中の最初の複数サイクルで実行され
る命令(ｐ番目)を検出すると、１からｐまでの命令を
(Ｎ−ｐ＋１)からＮまでの演算器で並列に実行するよう
に機能論理手段を制御する。この場合も、第Ｎ番目の演
算器のみに複数サイクルで実行される命令を実行する機
能論理手段を持たせると、ハ−ドウエアをほとんど増加
させないで、複数サイクルで実行される命令を含む１か
らｐまでの命令を効率良く並列処理できる。

【実施例】次に、図１〜図３９を参照して、本発明によ
る複数命令並列処理機構を有するマイクロプロセッサの
実施例を説明する。

【００２８】図１は、２命令を並列処理する本発明によ
るスーパースカラ型マイクロプロセッサの全体構成およ
び外部装置との接続関係を示すブロック図である。スー
パースカラ型マイクロプロセッサ１００は、命令フェッ
チユニット１０１と、プログラムカウンタ制御ユニット
１０２と、ＥＰ(element processor)１制御ユニット１
０３と、ステータス制御ユニット１０４と、ＥＰ２制御
ユニット１０５と、パイプライン制御ユニット１０６
と、フローティング加算制御ユニット１０７と、フロー
ティング乗算制御ユニット１０８と、オペランドフェッ
チユニット１０９と、整数演算データ処理ユニット１１
６と、フローティングデータ処理ユニット１１７とから
なる。

【００２９】さらに、整数演算データ処理ユニット１１
６は、ＥＰ１演算器１１０と、整数レジスタユニット１
１１と、ＥＰ２演算器１１２とからなり、フローティン
グデータ処理ユニット１１７は、フローティングレジス
タユニット１１３と、フローティング加算器１１４と、
フローティング乗算器１１５とからなる。

【００３０】各ブロックを結ぶ主要なバスは、命令アド
レスバスＢＣＡ１５０と、並列に処理される２命令のう
ち第１命令を各制御ユニットに送るＥＰ１オペコードバ
ス１５１と、並列に処理される２命令のうちの第２命令
を各制御ユニットに送るＥＰ２オペコードバス１５２
と、オペランドフェッチアドレスバスＢＤＡ１６９と、
オペランドデータを各データ処理ユニットに送るバスＢ
ＭＷ１７０と、オペランドフェッチユニット１０９と外
部とをインタフェースするバス１７１と、命令フェッチ
ユニット１０１と外部とをインタフェースするバス１７
１とからなる。

【００３１】プロセッサ１００は、バス１９４を介し
て、２次キャッシュメモり１９０，主メモリ１９１，デ
ィスク１９２，各種Ｉ／Ｏ１９３等に接続されている。

【００３２】図２は、本実施例のスーパースカラ型マイ
クロプロセッサで実行される命令セットの一例を示す図
表である。この命令セットは、すべて固定長３２ビット
の命令長を持ち、４バイトバウンダリに配置されてい
る。この命令セットは、大きく分類すると、ＬＯＡＤ系
命令と、ＳＴＯＲＥ系命令と、整数演算系命令と、分岐
系命令と、システム制御系命令と、ＦＡＤＤ(floating
add)系命令と、ＦＭＵＬ(floating multiply)系命令
と、積和系命令とに分けられる。ＬＯＡＤ系命令，ＳＴ
ＯＲＥ系命令，分岐系命令を除く命令は、すべてレジス
タ間命令である。なお、この命令セットは、実施例の説
明のためにのみ例示されており、本発明は、この命令セ
ットには限定されない。

【００３３】図３は、図１のスーパースカラ型マイクロ
プロセッサの単体命令の動作を示す図表である。図３の
場合、スーパースカラ型マイクロプロセッサ１００のフ
ローティング演算を除くすべての命令は、６段のパイプ
ラインで構成する。本明細書においては、図３に示して
あるように、各ステージをＩＦ(instruction fetch)，
Ｄ(decode)，Ｅ(execute)，Ｔ(test)，Ｎ(null)，Ｗ(wr
ite)と呼ぶ。

【００３４】再び図１に戻り、本実施例の最も基本的な
整数演算命令の実行について説明する。

【００３５】ＩＦステージにおいて、命令フェッチユニ
ット１０１は、プログラムカウンタ制御ユニット１０２
により指定されたアドレスの２つの命令を読み出す。プ
ログラムカウンタ制御ユニット１０２は、ＰＣ＋２→Ｐ
Ｃのように、毎サイクル２カウントずつカウントをイン
クリメントし、アドレスを命令アドレスバス１５０に出
力する。命令フェッチユニット１０１は、命令アドレス
バス１５０のアドレスから偶数命令とそれに続く奇数命
令とを読み出し、偶数命令を第１命令レジスタに格納
し、奇数命令を第２命令レジスタに格納する。なお、各
レジスタの詳細については、後ほど、図１０を参照して
説明する。

【００３６】分岐時には、プログラムカウンタ制御ユニ
ット１０２は、分岐アドレスを計算し、命令アドレスバ
ス１５０に出力する。命令フェッチユニット１０１は、
分岐先アドレスが偶数アドレスでも奇数アドレスでも、
命令アドレスバス１５０の下位１ビットを無視して、８
バイトバウンダリの２つの命令を読み出す。

【００３７】Ｄステージにおいて、ＩＦステージで読み
出された２つの命令のうち第１命令は、ＥＰ１オペラン
ドバス１５１を通して、ＥＰ１制御ユニット１０３に転
送され、第２命令は、ＥＰ２オペランドバス１５２を通
して、ＥＰ２制御ユニット１０５に転送される。ＥＰ１
制御ユニット１０３は、ＥＰ１オペランドバス１５１に
出力された第１命令を解読し、信号線１６０を通して、
整数レジスタユニット１１１に必要なレジスタの読み出
し指示を送る。この指示に従って、必要なレジスタの内
容が、ＥＰ１演算器１１０に送られる。この動作と並行
して、ＥＰ２制御ユニットは、ＥＰ２オペランドバス１
５２に出力された第２命令を解読し、信号線１６１を通
して、整数レジスタユニット１１１に必要なレジスタの
読み出し指示を送る。この指示に従って、必要なレジス
タの内容は、ＥＰ２演算器１１２に送られる。これらの
動作は、同一サイクルで同時にそれぞれ独立になされ
る。

【００３８】Ｅステージにおいて、ＥＰ１演算器１１０
は、ＥＰ１制御ユニットに読み出されたデータを用いて
演算を実行する。この動作と並行して、ＥＰ２演算器１
１２は、ＥＰ２制御ユニットに読み出されたデータを用
いて演算を実行する。

【００３９】Ｔ，Ｎステージにおいては、ＬＯＡＤの命
令とＳＴＯＲＥ系の命令とが有効であるが、整数系演算
命令は無効である。したがって、整数系演算命令は、何
もせず、パイプライン動作だけを実行する。すなわち、
整数系演算命令は、すべて次のＷステージで書き込みで
き、例外処理の制御を簡単化できる。

【００４０】最後に、Ｗステージにおいて、ＥＰ１制御
ユニット１０３は、第１命令により指示された書き込み
レジスタに、ＥＰ１演算器１１０の結果を書くように指
示する。この指示に従って、レジスタユニット１１１
は、ＥＰ１演算器１１０の演算結果をレジスタに書く。
この動作と並行して、ＥＰ２制御ユニット１１１は、第
２命令により指示された書き込みレジスタに、ＥＰ２演
算器１０５の結果を書くように指示する。この指示に従
って、レジスタユニット１１２は、ＥＰ２演算器１１２
の演算結果をレジスタに書く。

【００４１】図４は、整数演算データ処理ユニット１１
６の構成の一例を示すブロック図である。Ｄステージに
おいて、信号線１６０に送られて来る第１命令制御信号
に応じて、ＥＰ１命令レジスタの中に指定されたソース
レジスタのデータを、バスＢ１，Ｘ１を通して、ＥＰ１
演算ユニット内のＡＬＵ１に送る。ＥＰ１演算ユニット
内のＡＬＵ１は、Ｅステージにおいて、そのデータを演
算する。演算結果は、Ｔ，Ｎステージにおいて、パイプ
ラインタイミング調整のテンポラリラッチＴ１１，Ｔ２
１，Ｎ１１，Ｎ２１を通して、送り出され、Ｗステージ
において、レジスタユニット１１１に書き込まれる。

【００４２】同様に、整数レジスタユニット１１１は、
Ｄステージにおいて、信号線１６１に送られて来る第２
命令制御信号に応じて、ＥＰ２命令レジスタの中に指定
されたソースレジスタのデータを、バスＢ２，Ｘ２を通
して、ＥＰ２演算ユニット内のＡＬＵ２に送る。ＥＰ２
演算ユニット内のＡＬＵ２は、Ｅステージにおいて、そ
のデータを演算する。演算結果は、Ｔ，Ｎステージにお
いて、パイプラインタイミング調整のテンポラリラッチ
Ｔ１２，Ｔ２２，Ｎ１２，Ｎ２２を通して、送り出さ
れ、Ｗステージにおいて、レジスタユニット１１１に書
き込まれる。

【００４３】これらをすべてパイプライン処理するた
め、レジスタユニット１１１は、読み出し４ポート，書
き込み３ポートの構成を採用している。

【００４４】図４の整数演算データ処理ユニット１１６
おいて、バイパス回路は、例えば演算結果を次のサイク
ルで使いたいとき、演算結果がＥステージに存在するた
め、そのデータを入力バスにバイパスし処理高速化する
ために備えられている。このような場合以外でも、レジ
スタユニット１１１に書き込むまでの間にその結果を使
うときには、同様にバイパスできるように、種々のバイ
パス回路を用意することも可能である。

【００４５】図５は、２つの命令のペアが並列処理され
る例のタイムチャートである。ここでは、Ｎ番目とＮ＋
１番目との演算が、同時に実行されていることがわか
る。また、２つの命令のペアが、１マシンサイクルごと
に、パイプライン処理して実行される。本実施例のスー
パースカラ型マイクロプロセッサ１００は、２つの命令
を並列に読み出して、第１命令をＥＰ１演算ユニットで
演算処理するとともに、第２命令をＥＰ２演算ユニット
で並列に演算処理し、同時に書き込む。

【００４６】図６は、整数演算系命令を連続して処理す
る図５のタイムチャートを書き直した簡単なパイプライ
ンフローである。この場合は、１マシンサイクルに２命
令ずつ処理される。図６において、２命令ずつ処理され
るうちの上のほうがＥＰ１制御ユニットの処理を示し、
下方がＥＰ２制御ユニットの処理を示している。今後
は、この簡単なパイプラインフローチャートで説明する
が、それらの簡単なパイプラインフローチャートから論
理の構成を類推することは、当業者であれば容易である
から、詳細なタイムチャートを省略する。

【００４７】図７は、第１命令としてＬＯＡＤ命令，Ｓ
ＴＯＲＥ命令、第２命令として整数演算命令を連続して
処理する場合のパイプラインフローチャートである。図
３に示したように、ＬＯＡＤ命令は、Ｅステージにおい
て、アドレスを計算する。具体的には、図４のＡＬＵ１
でオペランドフェッチするためのアドレスを計算し、こ
の結果をオペランドフェッチアドレスバス１６９に出力
する。オペランドフェッチユニット１０９は、Ｔステー
ジにおいて、アドレスで指示されたオペランドをフェッ
チし、オペランドデータデータバス１７０を通して、オ
ペランドデータを出力する。

【００４８】最近のマイクロプロセッサは，データキャ
ッシュメモリを内蔵可能であるために、このようなパイ
プラインを構成できる。Ｎステージにおいては、オペラ
ンドフェッチが正しく行われたかどうかのヒット判定を
実行する。もし、ＬＯＡＤ命令がバイト単位に処理する
必要があるとき、図４に示すように、このＮステージで
バイト処理する。Ｗステージにおいては、ＬＯＡＤ命令
内に示されているレジスタ番号をレジスタユニット１１
１に指示する。レジスタユニット１１１は、指示された
レジスタにデータを書き込む。ヒット判定の結果、ミス
した場合、通常のマイクロプロセッサと同様に、システ
ムクロックを止めるなどして、正しい値が来るまでパイ
プラインの動作を止める。なお、ミス時の動作の詳細
は、本発明の主題から外れるので、ここでは省略する。

【００４９】図７は、ＬＯＡＤ命令がいずれも、ＥＰ１
制御ユニット１０３で実行される場合のパイプラインフ
ローチャートであるが、本実施例では、ＥＰ２制御ユニ
ット１０５で実行することもできる。その場合は、図４
のＡＬＵ２でオペランドフェッチするためのアドレスを
計算し、この結果をオペランドフェッチアドレスバス１
６９に出力する。これ以降の処理は、ＥＰ１制御ユニッ
ト１０３の場合と同様である。

【００５０】なお、第１命令と第２命令とが、ともにＬ
ＯＡＤ命令である場合や、ＬＯＡＤ命令とＳＴＯＲＥ命
令とである場合は、並列処理できない。図１のオペラン
ドフェッチユニット１０９が、第１命令か第２命令のど
ちらか１つしか処理できないからである。言い替えれ
ば、この制約は、１ポートしか備えていないために生じ
る。しかし、１ポートしかないオペランドフェッチユニ
ット１０９は、その機能を簡単化し、小型化できる。ま
た、命令の出現頻度等を考慮すると、１ポートでも、充
分な性能が得られるので、性能とハードウエア物量との
トレードオフの問題よりもコストパフォーマンスを重視
する場合には、図１の構成は良い解決策である。

【００５１】本実施例の改良としては、図４のオペラン
ドフェッチアドレスバス１６９をＡＬＵ１，ＡＬＵ２と
は独立に、オペランドフェッチユニット１０９にも２本
独立に接続し、オペランドデータバス１７０をそれぞれ
のアドレスに対応して２本接続し、それぞれをレジスタ
ユニット１１１に書き込む構成が考えられる。

【００５２】このような構成を採用すると、オペランド
フェッチユニット１０９が、複雑になり、レジスタユニ
ット１１１も、１ポート増えて８ポートになる。しか
し、２ポート独立のオペランドフェッチユニット１０９
があれば、ＬＯＡＤ命令同士，ＬＯＡＤとＳＴＯＲＥ命
令，ＳＴＯＲＥ命令同士の並列処理が可能になり、ある
種のプログラムでは、演算性能が向上する。

【００５３】さらに、本実施例の別の改良としては、コ
ンパイラにより命令順序をスケジューリングし、ＬＯＡ
Ｄ命令またはＳＴＯＲＥ命令と別の命令とを並列処理す
るとき、必ず２命令中の第１命令か第２命令だけに配置
するようにする。このようにすると、ＥＰ１制御ユニッ
ト１０３またはＥＰ２制御ユニット１０５のどちらか一
方だけを通してのみ、ＬＯＡＤ命令またはＳＴＯＲＥ命
令を実行でき、残りの制御ユニットでは、ＬＯＡＤ命令
またはＳＴＯＲＥ命令を処理しなくなる分、ハードウエ
アを小型化できる。例えば、並列処理できる命令の組合
せにおいて、第２命令だけにＬＯＡＤ命令またはＳＴＯ
ＲＥ命令をスケジューリングできれば、図４中のＡＬＵ
１からオペランドフェッチアドレスバス１６９への出力
や、ＥＰ１制御ユニット１０３内のＬＯＡＤ命令，ＳＴ
ＯＲＥ命令に関する制御が不要となり、プロセッサの構
成を簡単化できる。

【００５４】図８は、図１の実施例のＬＯＡＤ(1)，Ａ
ＤＤ(2)，ＡＤＤ(3)，ＬＯＡＤ(4)，ＡＤＤ(5)，ＡＤＤ
(6)というプログラムの処理を示すパイプラインフロー
チャートである。初めのＬＯＡＤ(1)，ＡＤＤ(2)と次の
ＡＤＤ(3)，ＬＯＡＤ(4)とは、並列処理できる。しか
し、ＡＤＤ(5)とＡＤＤＣ(6)とは、並列処理できない。
なぜなら、ＡＤＤ(5)の演算結果のキャリー情報が、次
のＡＤＤＣ(6)で入力データとして使用されるからであ
る。この例は、ＰＳＷ(program status word)内のキャ
リー情報である。別の例として、第１命令の書き込みレ
ジスタと第２命令の読み出しレジスタとが、同一のレジ
スタである場合も、並列処理できない。

【００５５】このように、本質的に並列処理が不可能な
場合、本実施例のマイクロプロセッサは、図８におい
て、初めにＡＤＤ(5)をＥＰ２制御ユニットで実行し、
次のサイクルでＡＤＤ(6)をＥＰ２制御ユニットで実行
する。このように、１マシンサイクルに１命令ずつ処理
することを、シーケンシャル処理と呼ぶ。

【００５６】図９は、図８において、各マシンサイクル
ごとに、命令がどの演算器で実行されたかを簡単に表わ
した図表である。

【００５７】以上のように、効率的に演算を実行するに
は、命令の組合せにより並列処理可能か否かの判定機能
や、どちらの演算器で実行させるかを決定する機能が、
命令フェッチユニット１０１に必要である。本実施例の
スーパースカラ型マイクロプロセッサにおいて、本質的
に後続命令とは並列処理できない命令の実行スケジュー
リングを担当する命令フェッチユニット１０１の構成お
よび動作を説明する。

【００５８】図１０は、本実施例における命令フェッチ
ユニット１０１の構成の一例を示すブロック図である。
命令フェッチユニット１０１は、命令キャッシュメモリ
８０１と、２命令並列処理可能か否かを検出するＭＤＰ
８０５と、ＥＰ１命令レジスタ８０８と、ＥＰ２命令レ
ジスタ８０９と、命令の実行をスケジューリングするシ
ーケンサ８１０と、第１命令または第２命令を選択する
機能論理８１１と、命令キャッシュコントローラ８１２
とからなる。命令キャッシュメモリ８０１は、アドレス
レジスタ８０２と、キャッシュメモリ８０３と、２つの
命令の組にそれぞれ付加された情報ＴＡＧ８０４と、キ
ャッシュメモリの出力レジスタである第１命令レジスタ
８０６および第２命令レジスタ８０７とを含んでいる。
主な制御信号としては、命令とともに読み出される競合
ビットＳＱＦ(sequential flag)８５０と、シーケンサ
８１０からの制御信号でありキャッシュメモリ８０１か
ら読み出されたＳＱＦ８５０をマスクする制御信号ＴＡ
Ｏ８５１と、キャッシュメモリ８０１の出力レジスタで
ある第１命令レジスタ８０６および第２命令レジスタ８
０７をホールドする制御信号ＭＣＣＲＥ８５２とがあ
る。

【００５９】本実施例のスーパースカラ型マイクロプロ
セッサは、８バイトバウンダリの固定ペアリング方式を
採る２命令並列処理である。８バイトバウンダリの固定
ペアリング方式は、２命令並列処理の対象を、８バイト
バウンダリ内の２命令に限定している。この限定を設け
ることにより、以下の効果が得られる。

【００６０】並列処理可能か否かを表す競合の発生原因
には、命令の組合せによる原因とレジスタ等の競合によ
る原因とがある。レジスタ等の競合による原因は、ハー
ドウエアに依存しており、ハードウエアを小型化するた
めに生じる。命令の組合せによる競合の発生原因は、並
列処理の本質的問題であり、これは避けられない。並列
処理を８バイトバウンダリ内の２命令に限定すると、プ
ログラム命令を格納した時点で、２命令間の競合条件を
判断可能である。この固定ペアリングの特徴を生かし
て、主記憶から命令キャッシュに命令を転送するとき
に、命令の組合せによる競合情報を検出する。２命令間
の競合関係を検出して、２命令ごとに別のフィールドを
用意し、並列処理可能な時には０を格納し、シーケンシ
ャル処理の時には１を格納する。したがって、命令キャ
ッシュが読み出されるとき、その競合情報も同時に読み
出される。

【００６１】この方式の特徴は、命令キャッシュに命令
が存在している間、常に２命令の競合関係の情報が正し
く存在することであり、毎回チェックする必要が無く、
高速処理できることである。

【００６２】初めに、命令キャッシュ内に命令の組が存
在している場合の動作を説明する。命令アドレスに指示
されたメモリから読み出され命令実行順序を持つ第１命
令と第２命令およびＳＱＦ情報は、第１命令レジスタ８
０６，第２命令レジスタ８０７に格納される。シーケン
サ８１０は、命令とともに読み出されたＳＱＦ８５０情
報とシーケンサからの情報ＴＡＯ８５１により、ＥＰ１
命令レジスタ８０８，ＥＰ２命令レジスタ８０９への格
納を制御する。ＥＰ１命令レジスタ８０８に格納された
命令は、ＥＰ１演算ユニット１１０で実行され、ＥＰ２
命令レジスタ８０９に格納された命令は、ＥＰ２演算ユ
ニット１１２で常に実行される。〈並列処理できるケース〉ＳＱＦ＝０である。第１命令は、ＥＰ１命令レジスタ８
０８に格納され、第２命令は、ＥＰ２命令レジスタ８０
９に格納される。〈並列処理できないケース〉ＳＱＦ＝１である。初めのサイクルでは、第１命令は、
ＥＰ１命令レジスタ８０８に格納され、ＥＰ２命令レジ
スタ８０９に格納されるように命令を選択する機能論理
８１１を制御する。第２命令は消失してしまうので、命
令キャッシュの出力ラッチの制御信号ＭＣＣＲＥをネゲ
ートし、ここに第１命令および第２命令を一時記憶す
る。この時、ＥＰ１命令レジスタ８０８に格納された命
令は、ハードウエアで無効化し、ＥＰ２命令レジスタ８
０９に格納された命令だけを有効とする。

【００６３】続くサイクルで、シーケンサ８０１は、Ｔ
ＡＯ＝１とし、ＳＱＦの情報を無効化させる。これに従
い、第１命令は、ＥＰ１命令レジスタ８０８に格納さ
れ、第２命令は、ＥＰ２命令レジスタ８０９に格納され
る。ＥＰ１命令レジスタ８０８に格納された命令は、ハ
ードウエアで無効化し、ＥＰ２命令レジスタ８０９に格
納された命令だけを有効とする。また、命令アドレス
は、次の命令を指示し直す必要があり、制御信号よりプ
ログラム制御ユニットは、同じアドレスをもう一度出力
するように制御する。

【００６４】図１１は、ＳＱＦ８５０とこれをマスクす
る制御信号ＴＡＯとの関係、ＥＰ１命令レジスタ８０８
およびＥＰ２命令レジスタ８０９への命令の振り分け、
それぞれの命令の有効無効をまとめてに示す図表であ
る。

【００６５】シーケンシャル処理は、最初のサイクルで
第１命令をＥＰ２命令レジスタ８０９に格納し、続くサ
イクルで第２命令をＥＰ２命令レジスタ８０９に格納す
る。すなわち、第１命令も第２命令もともに、ＥＰ２命
令レジスタ８０９を通してＥＰ２演算ユニット１１２で
実行する。命令フェッチユニット１０１が、上記のよう
な制御を実行すると、図８および９のＡＤＤ(5)，ＡＤ
Ｄ(6)のような命令をシーケンシャルに処理できる。

【００６６】命令フェッチユニット１０１でもう一つ重
要なことは、分岐命令での動作である。分岐命令は、ジ
ャンプ先が８バイトバンダリに対して、第１命令へも第
２命令へもジャンプできる。ジャンプ先アドレスと上記
の並列処理制御とが重なるケースについて説明する。

【００６７】第１命令側にジャンプしたとき、シーケン
サはＴＡＯ＝０という制御とする。この動作は、連続ア
ドレスにあるプログラムの処理と同じ処理でよい。

【００６８】第２命令側にジャンプしたとき、ＴＡＯ＝
１という制御とする。こうすると、図１１で示した通
り、ＳＱＦに無関係に、第１命令はＥＰ１命令レジスタ
８０８に格納され、第２命令はＥＰ２命令レジスタ８０
９に格納される。ＥＰ１命令レジスタ８０８に格納され
た命令は、ハードウエアで無効化される。したがって、
分岐命令の飛び先制御も含めた命令フェッチユニット１
１１は、分岐によるペナルティを生じず、常に正しく動
作できる。

【００６９】図１２は、実際のＥＰ１命令とＥＰ２命令
とがどのように処理されるかを示す図である。命令キャ
ッシュメモリ８０１から出力される第１命令レジスタ８
０６の内容と第２命令レジスタ８０７の内容と競合ビッ
トＳＱＦ８５０とが、図１２の上段に記載のような場合
に、実際のＥＰ１命令，ＥＰ２命令は、図１２の下段に
記載のように処理される。なお、記号×は、命令が無効
化されることを表している。

【００７０】命令１と命令２とは、競合ビットＳＱＦ＝
０のため、並列に処理される。命令３と命令４とは、競
合ビットＳＱＦ＝１のため、シーケンシャルに処理され
る。すなわち、ＥＰ２演算器１１２が、最初に命令３を
実行し、続くサイクルで命令４を実行する。命令５と命
令６とは、競合ビットＳＱＦ＝０のため、並列に処理さ
れる。命令７と命令８とは、競合ビットＳＱＦ＝１のた
め、シーケンシャルに処理される。すなわち、ＥＰ２演
算器１１２が、最初に命令７を実行し、続くサイクルで
命令８を実行する。このように、８バイトバウンダリ内
の並列処理が可能か否かを各命令の組ごとに独立にチェ
ックした情報を持てば、効率的な実行スケジューリング
を簡単に作成できる。

【００７１】続いて、キャッシュミスの場合すなわち命
令キャッシュメモリ８０１内に命令の組が存在しない場
合の動作を説明する。

【００７２】一般に、スーパースカラ型マイクロプロセ
ッサの動作初期(電源スイッチオン後，リセット後，タ
スクが切換わった後など)には、命令キャッシュメモリ
内に命令の組が存在しない。ＩＦステージにおいて、プ
ログラムのスタートアドレスが格納されている命令アド
レスから命令をフェッチするが、キャッシュメモリ内に
命令が存在しない。そこで、スーパースカラ型マイクロ
プロセッサは、主メモリから数バイト〜数十バイトの命
令列を転送して命令キャッシュメモリに格納して、その
後の処理を再開する。

【００７３】本実施例のスーパースカラ型マイクロプロ
セッサ１００も、命令列を主メモリ１９１からキャッシ
ュメモリ８０１に転送するところまでは、従来と同じ処
理を実行する。しかし、一般のスーパースカラ型マイク
ロプロセッサと異なるのは、８バイトバウンダリにある
２命令の組が並列処理可能か否かをチェックする機能Ｍ
ＤＰ８０５があることである。

【００７４】図１３は、並列処理可能か否かをチェック
する機能ＭＤＰ８０５が判定する命令の依存関係の一例
を示す図表である。図１３は、８バイトバウンダリ内の
２つの命令を第１命令，第２命令としたとき、縦軸，横
軸に図２の命令分類を取り、そのすべての組合せについ
て、○は並列に処理可能であることを示し、×はシーケ
ンシャルに処理しなければならないことを示している。

【００７５】特に、並列処理できないケースについてま
とめると、ＬＯＡＤ系命令Ａ−ＬＯＡＤ系命令Ａ，ＬＯ
ＡＤ系命令Ａ−ＳＴＯＲＥ系命令Ｂ，ＳＴＯＲＥ系命令
Ｂ−ＬＯＡＤ系命令Ａ，ＳＴＯＲＥ系命令Ｂ−ＳＴＯＲ
Ｅ系命令Ｂの第１命令と第２命令との組合せは、オペラ
ンドフェッチユニット１０９が１ポートのため、並列処
理できない。

【００７６】整数演算系ＡＤＤ命令Ｄ−整数演算系ＡＤ
ＤＣ命令Ｅ，整数演算系ＡＤＤＣ命令Ｅ−整数演算系Ａ
ＤＤＣ命令Ｅの第１命令と第２命令との組合せは、第１
命令がＰＳＷ(processor status word)を設定する命令
で、第２命令がそのＰＳＷを使う命令である組合せのた
め、本質的に並列処理できない。

【００７７】ＳＴＯＲＥ系命令Ｂ−積和系命令Ｊ，積和
系命令Ｊ−ＳＴＯＲＥ系命令Ｂの第１命令と第２命令と
の組合せは、フローテングレジスタユニット１１３の読
み出しポートが４ポートのために、積和命令とＦＳＴＯ
ＲＥ命令とを並列処理できない。整数のＳＴＯＲＥ命令
と積和命令との並列処理は可能である。

【００７８】ＦＡＤＤ系命令Ｈ−ＦＡＤＤ系命令Ｈ，Ｆ
ＭＵＬ系命令Ｉ−ＦＭＵＬ系命令Ｉ，積和系命令Ｊ−積
和系命令Ｊの第１命令と第２命令との組合せは、フロー
テング加算の演算器と乗算の演算器とがそれぞれ１つし
かないため、並列処理できない。ハードウエア的に２つ
持つことができれば、この制限は無くなり、並列処理が
可能になる。

【００７９】第１命令が分岐命令Ｆの場合、すべての第
２命令との組合せは、並列処理できない。分岐命令Ｆと
その前の命令との並列処理は有効であるが、分岐命令Ｆ
とディレイドスロットとの間の並列処理は、性能が上が
らない。詳細については、後述する。このため、第１命
令が分岐命令Ｆの場合は、シーケンシャル処理とし、第
２命令が分岐命令Ｆの場合は、並列処理可能とする。

【００８０】その結果、ＥＰ２演算器ユニットのみ演算
結果を命令アドレスに切換えできるように接続すれば、
ＥＰ１演算器ユニットは，分岐命令処理のハードウエア
部分を省略できることになる。この切換え手段は、図１
の命令アドレスバス１５０である。このように、ＥＰ１
演算器ユニットから分岐命令処理のハードウエア部分を
削除すると、スーパースカラ型マイクロプロセッサを小
型化できる。

【００８１】第１命令または第２命令にシステム制御命
令Ｇがあると、並列処理できない。システム制御命令Ｇ
は、命令の出現頻度が小さく、しかも、プロセッサのス
テートを変える場合もあり、並列処理できる可能性も少
ない。そこで、システム制御命令Ｇは、シーケンシャル
処理とする。システム制御命令Ｇの性能を向上させるに
は、分岐命令Ｆのように第２命令にあるときのみ並列処
理するよに、改良してもよい。

【００８２】続いて、並列処理可能か否かをチェックす
る機能ＭＤＰ８０５の１つである命令のレジスタ競合に
ついて述べる。この機能は、整数演算でもフローテング
演算でも同様である。具体的には、第１条件：第１命令のすべてのターゲット＝第２命令のすべてのソース第２条件：第１命令のすべてのターゲット＝第２命令のすべてのターゲット第１条件および／または第２条件が成立したときは、シ
ーケンシャル処理とし、両方が成立しなっかたときは、
並列処理可能とする。本実施例では、第２条件を入れる
ことにより、割込み処理制御を簡単化できる。

【００８３】第２条件では、ＮＯＰ(no operation)命令
同士の並列処理ができなくなる。その場合は、本実施例
の改良として、ＮＯＰ命令同士の並列処理を第２条件か
ら例外的に外すことも可能である。

【００８４】並列処理可能か否かをチェックする機能Ｍ
ＤＰ８０５の条件をすべて検出し、並列処理できない場
合、各命令の組ごとにＴＡＧ８０４に１をセットする。
その後、再開したときのプロセッサの動作は、命令が存
在したときと同様であり、既に説明した通りである。

【００８５】本実施例の命令フェッチユニット１０１の
大きな特徴は、シーケンシャル処理の時、実行すべき命
令をすべてＥＰ２演算ユニットに実行させることであ
る。ハードウエアの物量と性能向上とのトレードオフを
考慮し、ハードウエアを削減するには、ＥＰ１演算ユニ
ットの省略できるハードウエアを削減すればよい。ハー
ドウエアを削減されたＥＰ１演算ユニットで実行できな
いような命令，例えば分岐命令があるか否かをチェック
機能ＭＤＰ８０５でチェックし、もしこのような命令が
生じたときは、チェック機能ＭＤＰ８０５で競合ビット
ＳＱＦ＝１と設定し、それらの命令をすべてＥＰ２演算
ユニットに実行させればよい。

【００８６】また、チェック機能ＭＤＰ８０５に、外部
ピンまたは診断レジスタからの指示を入力したときに、
その出力を常に１にするハードウエアを設けると、命令
を常にシーケンシャル処理するスーパースカラ型マイク
ロプロセッサが得られる。この機能は、スーパースカラ
型マイクロプロセッサ自体の診断，デバック等に有効で
ある。

【００８７】なお、本実施例の命令フェッチユニット１
０１は、論理アドレスでキャッシュメモリ８０３をフェ
ッチするが、アドレス変換ユニットを設けた物理アドレ
スでフェッチする構成であっても、本発明を適用可能で
ある。また、キャッシュメモリ８０３の構成について
も、ダイレクトマップ，２ウエイセットアソシアティブ
などの方式が提案されているが、それらのすべてに本発
明を適応可能である。

【００８８】１次キャッシュメモリ８０３と２次キャッ
シュメモリ１９０とを階層化したシステムにおいて、１
次キャッシュメモリ８０３と２次キャッシュメモリ１９
０との転送間にチェック機能ＭＤＰ８０５を入れて、１
次キャッシュメモリ８０３のみにＴＡＧ８０４をつけて
もよいし、２次キャッシュメモリ１９０と主メモリ１９
１との間にチェック機能ＭＤＰ８０５を入れて、１次キ
ャッシュメモリ８０３と２次キャッシュ１９０との両方
にＴＡＧ８０４をつけてもよい。さらに、このＴＡＧ８
０４は主メモリ１９１においてもよく、主メモリ１９１
にプログラムをインストールするときに、チェック機能
ＭＤＰ８０５を通して、主メモリ１９１にＴＡＧ８０４
を持ってもよい。

【００８９】キャッシュミス時の高速処理方式として、
ミスした命令をキャッシュメモリ８０３に書きながらバ
イパスして、命令フェッチユニット１０１に供給するス
トリーム方式が考えられるが、チェック機能ＭＤＰ８０
５は、このバイパス回路にも必要になる。

【００９０】性能を多少犠牲にすれば、ミスした命令が
バイパス回路を通してくるときのみＴＡＧ８０４を無条
件に１にセットすることもできる。このようにすると、
バイパス回路でチェック機能ＭＤＰ８０５を通ることを
回避できる。

【００９１】さて、本実施例のスーパースカラ型マイク
ロプロセッサ１００の動作に戻り、図１４から図２２を
参照し、分岐命令が検出された場合の動作を説明する。

【００９２】分岐命令は、ＲＩＳＣでは一般的である遅
延分岐機能を持つ。遅延分岐とは、分岐命令実行後、分
岐命令の次の命令を実行し、その後、分岐先命令を実行
する方式である。遅延分岐は、パイプラインの乱れを押
さえる１手法である。分岐命令の次の命令を実行するス
ロットを遅延スロットと呼ぶ。

【００９３】図１４は、分岐命令ＢＡ(branch and pipi
ng)のパイプラインフローチャートである。この場合、
第１命令がＡＤＤ(1)であり、第２命令がＢＡ(2)であ
り、並列処理される。ＡＤＤ(3)は、遅延スロットで処
理する命令である。ＢＡ命令は、図３に示す通り、Ｄス
テージでアドレス計算を実行する。このため、図１４に
示すように、遅延スロットの次のサイクルで、分岐先の
命令であるＳＵＢ(4)とＡＤＤ(5)とを並列に実行する。
したがって、無駄なサイクル無しに分岐命令を実行でき
る。ここでは、遅延スロットは１つであるが、本実施例
の場合、並列に命令を処理するハードウエアが２つある
ため、遅延スロットを２つとし、より効率的な分岐を実
行することも可能である。

【００９４】図１５および図１６は、第１命令に分岐命
令ＢＡがある場合の動作を示すパイプラインフローチャ
ートである。図１５は、ＢＡ(1)と遅延スロットに入る
命令ＡＤＤ(2)とを並列処理する場合を示し、図１６
は、それらの命令をシーケンシャルに処理する場合を示
している。これらは、ＡＤＤ(3)まで両方とも３サイク
ル必要としている。本実施例の命令フェッチユニット１
０１は、図１６に示すように、第１命令側に分岐命令を
含む命令の組合せは、シーケンシャルに処理するように
動作する。したがって、分岐命令は、必ずＥＰ２制御ユ
ニット１０５のみ制御すればよく、ＥＰ１制御ユニット
１０３の分岐命令に対するハードウエアを削減できる。
なお、図１５のように制御すると、ＥＰ１制御ユニット
１０３にも分岐命令を処理するハードウエアが必要にな
るが、遅延スロットを３つまで持つこともできる。

【００９５】図１７および図１８は、第２命令および第
１命令に分岐命令がある場合の動作を示すパイプライン
フローチャートである。分岐命令は、図３に示す通り、
Ｄステージでレジスタを読み出し、ＥＰ２演算器でアド
レス計算する。計算したアドレスは、アドレスバス１５
０に出力される。このため、ＢＲ命令のＴステージで分
岐先のアドレスの命令をフェッチする。ＢＲ命令の次の
サイクルで遅延スロットを実行し、次のサイクルは何も
せず、さらに次のサイクルで分岐先の命令を実行する。
したがって、ＢＲ命令は、図１７に示すように、１サイ
クルペナルティとなる。図１８は、図１６の場合と同様
に、第１命令に分岐命令があるために、シーケンシャル
処理となる。なお、ＢＲ(1)とＡＤＤ(2)とを並列処理し
ても、ＡＤＤ(4)までの実行サイクルは、同じである。

【００９６】図１９は、条件分岐命令を含むプログラム
である。このプログラムを用いて、条件分岐命令とパイ
プライン動作との関係について説明する。一般に、条件
分岐命令は、ある条件が成立(ＴＡＫＥＮ)したときに、
分岐を実行して、条件が不成立(ＮＯＴＴＡＫＥＮ)のと
きに、続く連続アドレスの命令を実行する。

【００９７】条件分岐命令を高速化するため、分岐命令
で条件判定するまでの間、どちらかを予測して実行して
おき、予測が外れたとき、その予測した命令を無効化す
る方式をとる。本実施例では、分岐先アドレスが自分自
身より先に飛ぶか否かにより、予測を切換える。具体的
には、自分より先にジャンプするときＮＯＴＴＡＫＥＮ
予測制御を実行し、自分より前にジャンプするときＴＡ
ＫＥＮ予測制御を実行する。

【００９８】図２０は、分岐命令でＴＡＫＥＮを予測し
た場合の動作を示すパイプラインフローチャートであ
る。ＡＤＤＢcc(21)は、条件分岐命令であり、ＡＤＤ(2
2)は、遅延スロットで実行される命令である。この条件
分岐は、ＴＡＫＥＮを予測したため、ＢＡ命令と同様
に、次の次のサイクルで分岐先の命令(50)を実行する。
条件分岐命令の実際の条件判定は、Ｔステージであるた
め、(50)から(53)までの命令を予測して実行を開始す
る。Ｔステージで真の判定が行われて実際に予測が当た
った場合、続くステージで(54)および(55)を実行する。
このとき、ＡＤＤ(55)までの９命令を５サイクルで実行
する。一方、予測が外れた場合、予測して実行を開始し
た(50),(51),(52),(53)の命令を無効化し、続くステー
ジでＡＤＤ(23)を実行する。このとき、ＡＤＤ(23)まで
の４命令を５サイクルで実行する。

【００９９】図２１は、分岐命令でＮＯＴＴＡＫＥＮを
予測した場合の動作を示すパイプラインフローチャート
である。この条件分岐では、ＮＯＴＴＡＫＥＮを予測し
たため、連続するアドレスの命令を予測して実行を開始
する。Ｔステージで真の判定が行われて実際に予測が当
たった場合、続くステージで(28)および(29)を実行す
る。このとき、ＡＤＤ(29)までの１０命令を５サイクル
で実行する。一方、予測が外れた場合、予測して実行を
開始した(23),(24),(25),(26),(27)の命令を無効化し、
続くステージでＡＤＤ(50)を実行する。このとき、ＡＤ
Ｄ(51)までの５命令を５サイクルで実行する。

【０１００】図２２は、予測と実際の動作との関係を示
す図である。予測ＴＡＫＥＮのケースで、実際にＴＡＫ
ＥＮの時すなわち予測が当ったときは、無効化によるペ
ナルティは０となり、実際にＮＯＴＴＡＫＥＮの時すな
わち予測外れのときは、無効化によるペナルティは２と
なる。さらに、予測ＮＯＴＴＡＫＥＮのケースで、実際
はＴＡＫＥＮの時すなわち予測外れのときは、無効化に
よるペナルティは２となり、実際はＮＯＴＴＡＫＥＮの
時すなわち予測当たりのときは、無効化によるペナルテ
ィは０となる。

【０１０１】なお、図２０，２１はともに、第２命令に
条件分岐命令がきた場合について述べたが、第１命令に
条件分岐がきた場合は、無条件分岐命令と同様にシーケ
ンシャルな処理となる。この処理については、無条件分
岐命令の制御を簡単に拡張して考えることができるた
め、その説明を省略する。

【０１０２】以上、遅延分岐機能を有する分岐命令につ
いて述べたが、遅延分岐機能を持たない分岐命令につい
ても、上記のような制御を実行すると、より効率的に分
岐を実行可能である。

【０１０３】本実施例のプロセッサの動作に戻って、図
１，図３，図２３，図２４，図２５によりフローティン
グ命令の動作を説明する。

【０１０４】ＦＡＤＤ命令は、ＩＦステージにより読み
出され、Ｄステージで、ＥＰ１オペランドバス１５１ま
たはＥＰ２オペランドバス１５２を通して、フローティ
ング加算制御ユニット１０７に転送される。フローティ
ング加算制御ユニット１０７は、その命令を解読し、制
御線１６４を通して、フローティングレジスタユニット
１１３に必要なレジスタの読み出し指示を送る。必要な
レジスタの内容は、フローティング加算器１１４へ送ら
れる。次に、Ｅ，Ｔ，Ｎ，Ｗの４ステージで，演算を実
行する。フローティング加算制御ユニット１０７は、最
後のＺステージで、フローティングレジスタユニット１
１３に、ＦＡＤＤ命令により指示されるレジスタにフロ
ーティング加算結果を書き込むことを指示する。なお、
後で述べるレジスタ競合が無ければ、ＦＡＤＤ命令は１
サイクルピッチで命令を実行できる。

【０１０５】続いて、ＦＭＵＬ命令の動作について説明
する。ＦＭＵＬ命令は、ＩＦステージで、読み出され、
Ｄステージで、ＥＰ１オペランドバス１５１またはＥＰ
２オペランドバス１５２を通して、フローティング乗算
制御ユニット１０８に転送される。フローティング乗算
制御ユニット１０８は、命令を解読し、制御線１６５に
を通して、フローティングレジスタユニット１１３に必
要なレジスタの読み出し指示を送る。必要なレジスタの
内容は、フローティング乗算器１１５に送られる。次
に、Ｅ，Ｔ，Ｎ，Ｗの４ステージで演算を実行する。こ
れは、ＦＡＤＤ命令と同様である。フローティング乗算
制御ユニット１０８は、最後のＺステージで、フローテ
ィングレジスタユニット１１３に、フＦＭＵＬ命令によ
り指示される書き込みレジスタにフローティング乗算結
果を書くことを指示する。なお、後で述べるレジスタ競
合が無ければ、ＦＭＵＬ命令は１サイクルピッチで命令
を実行できる。

【０１０６】これらのＦＡＤＤ命令およびＦＭＵＬ命令
は、ＩＥＥＥの基準に従い、データの型をチェックされ
る。このため、フローティング加算器１１４，フローテ
ィング乗算器１１５から、信号線１６６，１６７を通し
て、それぞれの制御ユニット１０７，１０８に情報が渡
される。

【０１０７】フローティング演算器は、現在の技術で
は、チップに占めるハードウエアの割合が大きく、一セ
ットの演算しか持てない。しかし、他の命令と並列処理
するために、ＥＰ１命令レジスタからでもＥＰ２命令レ
ジスタからでも命令が実行できる構成にした。

【０１０８】図２３は、ＥＰ１命令レジスタ８０８およ
びＥＰ２命令レジスタ８０９とフローティングデータ処
理部分との関係について示す図である。

【０１０９】ＥＰ１命令レジスタ８０８にＦＡＤＤ命令
がきた場合、ＥＰ１命令レジスタ８０８は、レジスタ３
８０２からＦＡＤＤ命令の演算入力データをバスＢ１，
Ｘ１に読み出す。命例解読器３８０１は、ＥＰ１命令レ
ジスタ８０８に有効なＦＡＤＤ命令があることを検出
し、加算器３８０３の前にあるバス選択論理３８０５を
バスＢ１，Ｘ１からデータを読めるように切換える。加
算器３８０３は、バスＢ１，Ｘ１からデータを読み込
み、ＥＰ１命令レジスタ８０８のＦＡＤＤ命令を実行す
る。

【０１１０】ＥＰ２命令レジスタ８０９にＦＡＤＤ命令
がきた場合、ＥＰ２命令レジスタ８０９は、レジスタ３
８０２からＦＡＤＤ命令の演算入力データをバスＢ２，
Ｘ２に読み出す。命例解読器３８０１は、ＥＰ２命令レ
ジスタ８０９に有効なＦＡＤＤ命令があることを検出
し、加算器３８０４の前にあるバス選択論理３８０６を
バスＢ２，Ｘ２からデータを読めるように切換える。加
算器３８０４は、バスＢ２，Ｘ２からデータを読み込
み、ＥＰ２命令レジスタ８０９のＦＡＤＤ命令を実行す
る。

【０１１１】ＦＭＵＬ命令についても、同様であるか
ら、その説明を省略する。

【０１１２】フローティング演算器における本発明のこ
のような動作は、チップに占めるハードウエアの割合が
大きく少数セットの演算器しか持てない場合に、特に有
利である。

【０１１３】図２４は、ＦＡＤＤ命令とＦＭＵＬ命令と
を並列かつ連続的に処理する例を示すパイプラインフロ
ーチャートである。なお、ＦＡＤＤ命令やＦＭＵＬ命令
と整数演算命令とも、図１３の命令の組合せで示したよ
うに、並列処理できる。

【０１１４】図２５は、ＦＡＤＤ命令，ＦＡＤＤ命令，
ＦＭＵＬ命令，ＦＭＵＬ命令列を実行するときの動作を
示すパイプラインフローチャートである。ＦＡＤＤ同士
またはＦＭＵＬ同士は、本実施例では演算器が１つしか
ないため、シーケンシャルな処理となり、命令フェッチ
ユニット１０１の制御により、図２５のように処理され
る。

【０１１５】なお、ＦＡＤＤ命令およびＦＭＵＬ命令に
ついての処理系が２つずつあれば、問題なく並列処理で
きる。しかし、ＦＡＤＤ命令およびＦＭＵＬ命令の処理
系の場合、ハードウエア増加が著しいため、本実施例で
はＦＡＤＤ命令およびＦＭＵＬ命令の処理系を１つしか
持たない構成とした。このために、シーケンシャル処理
になってしまうが、これは本実施例特有の問題である。

【０１１６】図２６は、複数サイクル実行命令を含む命
令セットを持つスーパースカラ型マイクロプロセッサの
並列処理を示すパイプラインフローチャートである。上
記各本実施例では、１サイクルピッチで実行する命令を
対象としたが、図２６の複数サイクル実行命令は、その
命令を実行しているサイクル時間が長く、その間に次の
命令を待たせる必要がある命令であり、ＣＩＳＣタイプ
のプロセッサに多い。この種の命令としては、マイクロ
プログラムで実行するような命令，整数の乗算命令，整
数の割算命令等、あるハードウエアをｎ回繰り返して動
作させると正しい値が求められる命令等がある。

【０１１７】図２６(ａ),(ｂ)は、１サイクルで実行可
能な命令Ａ，Ｂの並列処理と割込みとを示している。
(ａ)の場合、命令実行順序の早い命令Ａが割込みを起こ
したために、自分の命令と次の命令である命令Ｂの実行
とを抑止する。(ｂ)の場合、命令実行順序の遅い命令Ｂ
が割込みを起こしたため、前の命令である命令Ａは実行
させ、自分の命令のみ抑止する。

【０１１８】図２６(ｄ)は、命令ＢのＥステージに３サ
イクル必要とする複数サイクル実行命令を含む並列処理
の例を示している。命令ＡとＢとは、並列処理を実行す
る。命令Ｂが割込みを起こすと、命令Ａは実行順序がＢ
に比べ前の命令であるから命令Ａは実行され、命令Ｂは
実行を抑止される。

【０１１９】図２６(ｅ)は、命令Ａが複数サイクル実行
命令であり、命令Ｂに比べて先行する命令である場合を
示している。本実施例のように、複数サイクル実行命令
が第１命令にあるとき、並列処理を禁止する。すなわ
ち、競合ビットＳＱＦ８５０＝１として処理する。命令
Ａと命令Ｂとは、シーケンシャルな処理となる。ＥＰ２
演算器は、命令Ａを実行し、次のサイクル以降命令Ａが
演算終了するまで、Ｄステージで待たされる。

【０１２０】なお、本実施例のように並列処理しない
と、図２６(ｃ)に示すように、命令Ｂが先に終了した
り、命令Ｂを命令Ａに合わせて待たせたりして、制御が
複雑になる。

【０１２１】複数サイクル実行命令が第１命令にあると
きにシーケンシャル処理とすると、複数サイクル実行命
令を含む命令セットの実行，割込み制御が簡単になる。
また、複数サイクル実行命令は、ＥＰ２のみで実行する
ので、少ないハードウエアで効率的に性能を向上でき
る。

【０１２２】さらに、複数サイクル実行命令のハードウ
エアサポートの別の方法は、複数サイクルで実行した命
令を１サイクル実行可能ないくつかの命令に分解し、そ
の命令の組合せで、複数サイクル命令の実行機能を実現
することである。

【０１２３】例えば、Hewlett Packard社の命令セット
では、Divide Step 命令や DecimalCorrect命令等の命
令がある。これらの命令をいくつか繰り返したり他の命
令と組合せると、整数の割算や１０進演算が可能にな
る。なお、これらの命令は、このような特殊な演算の時
のみ出現し、しかも、前後の命令との間に依存関係があ
る。このため、これらの命令と並列処理との関係は、シ
ーケンシャル処理とし、第２演算器にのみこれらの命令
を実行する機能論理を持たせ、スーパースカラ型マイク
ロプロセッサを小型化する。

【０１２４】次に、図２７から図３４を参照して、本実
施例のスーパースカラ型マイクロプロセッサにおける命
令競合のパイプライン制御を説明する。

【０１２５】図２７は、ＦＭＵＬ(2)の演算結果をＦＡ
ＤＤ(3)で入力情報として使用する場合を示している。
このプログラムにおいて、ＦＭＵＬ(2)は、レジスタ１
２とレジスタ１３の内容をフローティング乗算し、レジ
スタ１４に格納する。一方、次の命令であるＦＡＤＤ
(3)は、レジスタ１４とレジスタ１５との内容をフロー
ティング加算し、レジスタ１６に格納する。この時のレ
ジスタ１４には、ＦＭＵＬ命令実行後の結果が格納され
なければならない。ＦＭＵＬ命令は、それ自身の演算に
４サイクルかかる。ＷステージからＤステージへのバイ
パスは、ハードウエアが担当する構成となっているのに
対して、次のプログラムのＦＡＤＤ(3)は、ＦＭＵＬ(2)
の４サイクル目まで待たせなければならない。

【０１２６】図２８は、この様子をマシンサイクルごと
にわかりやすく示す図である。なお、ＦＭＵＬ(2)とＦ
ＡＤＤ(3)とが８バイトバウンダリ内に在る場合は、シ
ーケンシャルな処理となり、さらに、ＦＡＤＤ(3)がＦ
ＭＵＬ(2)の４サイクル目まで待たれる。

【０１２７】図２９は、ＬＯＡＤ命令でロードしたデー
タをすぐ次の命令が取り込む例を示す図である。本実施
例のスーパースカラ型マイクロプロセッサにおいては、
整数レジスタユニット１１１が、図３０に示すようなデ
ータバイパスを持っている。また、１命令を１マシンサ
イクル実行する。一般に整数演算においては、命令間の
パイプライン処理は、シーケンシャル処理で充分であ
り、更なるパイプライン制御は不要である。しかし、こ
の場合、ＬＯＡＤ命令のデータがＴステージでＢＭＷ１
７０を通して読み出されるため、ＥステージからＤステ
ージへのバイパスが不可能である。そこで、Ｔステージ
からＤステージへのバイパスを用いることになる。そこ
で、パイプライン制御ユニット１０６は、次のＡＤＤ
(3)との間でサイクル間のレジスタの競合があるか否か
をチェックし、競合がある場合だけ、１サイクル待たせ
て実行する。

【０１２８】図３１は、パイプライン制御ユニット１０
６を更に詳細に示すブロック図である。パイプライン制
御ユニット１０６は、Ｅステージ，Ｔステージ，Ｎステ
ージについて、それぞれＥＰ１，ＥＰ２の実行命令の情
報を残しておき、それぞれの情報とＤステージのＥＰ
１，ＥＰ２の命令の情報とをサイクル間のレジスタ競合
検出回路で常に比較する。パイプラインを開けなければ
ならない条件のとき、Ｄステージの命令は、Ｄステージ
のラッチに一時記憶され、次のサイクルもＤステージに
残る。Ｅステージには、無効化命令が入る。Ｔ，Ｎステ
ージには、有効な命令が１つずつ進む。したがって、Ｄ
ステージに残った命令とＴ，Ｎで進んだ命令との間に１
つの無効化された部分(Ｅステージ)が残る。この動作を
繰り返すと、図３１に示すように、最大３つの無効サイ
クルが生み出される。

【０１２９】図２７の例について具体的に説明すると、
最初はＥステージに(1),(2)の命令が存在し、Ｄステー
ジに(3),(4)の命令が存在する。これは、連続する命令
を処理する場合と同じである。パイプライン制御ユニッ
ト１０６は、ＤステージのＥＰ２側の命令のレジスタと
ＥステージのＥＰ１側の命令のレジスタとの競合が生じ
ていることを判断し、Ｄステージのイネーブル信号をネ
ゲートする。次のサイクルでは、Ｔステージに(1),(2)
の命令が存在し、Ｄステージに(3),(4)の命令が存在す
る。このとき、Ｅステージは、無効化される。

【０１３０】パイプライン制御ユニット１０６は、Ｄス
テージのＥＰ２側の命令のレジスタとＴステージのＥＰ
１側の命令のレジスタとの競合が生じていることを判断
し、Ｄステージのイネーブル信号をネゲートする。次の
サイクルでは、Ｎステージに(1),(2)の命令が存在し、
Ｄステージに(3),(4)の命令が存在する。このとき、
Ｅ，Ｔステージは,無効化される。

【０１３１】また、パイプライン制御ユニット１０６
は、ＤステージのＥＰ２側の命令のレジスタとＮステー
ジのＥＰ１側との命令のレジスタとの競合が生じている
ことを判断し、Ｄステージのイネーブル信号をネゲート
する。次のサイクルでは、Ｗステージに(1)(2)の命令
が、Ｄステージに(3)(4)の命令が存在する。このとき、
Ｅ，Ｔ，Ｎステージは、無効化される。

【０１３２】さらに、次のサイクルで、パイプライン制
御ユニット１０６は、レジスタ競合が生じていないこと
を確認し、Ｄステージのイネーブル信号をアサートす
る。次のサイクルでは、Ｚステージに(1),(2)の命令が
存在し、Ｅステージに(3),(4)の命令が進んで存在す
る。

【０１３３】本実施例のスーパースカラ型マイクロプロ
セッサは、このような動作により、３サイクルの無効サ
イクルを作り出す。

【０１３４】同様に、図２９の場合も、パイプライン制
御ユニット１０６が、ロード命令について各ステージの
情報を残しておき、毎サイクルチェックすると、１サイ
クルの無効サイクルを作り出すことができる。

【０１３５】図３２は、さらに別のパイプライン制御の
具体的な例を示す図である。この例は、ＦＡＤＤ(1)の
書き込みレジスタとＦＭＵＬ(4)の読み出しレジスタが
競合し、ＦＡＤＤ(3)の書き込みレジスタとＦＭＵＬ(5)
の読み出しレジスタが競合しているパターンである。

【０１３６】図３３は、このプログラムを先程の制御方
式に合わせた動作として簡単に記述した図である。本実
施例では、Ｄステージの同一サイクルにある２命令と異
なるステージにある命令のうち１つとでも競合が生じれ
ば、Ｄステージにある命令が待たされる。したがって、
ＦＡＤＤ(1)とＦＭＵＬ(4)との間に３つの無効サイクル
が入り込み、ＦＡＤＤ(3)とＦＡＤＤ(5)との間にも３つ
の無効サイクルが入り込む。この結果、６つの命令は、
９サイクルかけて実行される。

【０１３７】本実施例の改良として、Ｄステージの同一
サイクルにある命令について、ＥＰ１側の命令とＥＰ２
側の命令とが、先に流れた命令(Ｅステージ，Ｆステー
ジ，Ｇステージ)と競合しているか否かを別々に検出す
る構成を採用する。ＥＰ１側の命令が競合しているとき
は、本実施例と同様に、Ｄステージにいる２命令を両方
待たせるが、ＥＰ２側の命令のみが競合しているとき
は、ＥＰ２側の命令だけを待たせるように、きめ細かい
制御を実現できる。

【０１３８】図３４は、図３２のプログラムを例に採
り、その具体的な動作を説明する図である。ＦＡＤＤ
(1)とＦＭＵＬ(2)とは並列処理する。次のサイクルで
は、ＦＡＤＤ(3)とＦＭＵＬ(4)とがＤステージに入って
くるが、ＥＰ１の命令であるＦＡＤＤ(3)にはレジスタ
競合がなく、ＥＰ２の命令であるＦＭＵＬ(4)にはレジ
スタ競合がある。ＦＡＤＤ(3)は次のサイクルで実行さ
れ、ＦＭＵＬ(4)だけがＦＡＤＤ(1)との関係で４サイク
ル待たされる。続いて、ＦＡＤＤ(5)とＦＭＵＬ(6)がＤ
ステージに入ってくるが、ＦＡＤＤ(3)とＦＡＤＤ(5)と
は、既に３サイクル開いているので、レジスタ競合が起
こらない。また、ＦＭＵＬ(6)もレジスタ競合が生じな
いために並列処理できる。このように、きめ細かい制御
をすることで、図３２の６つの命令は、６サイクルの実
行時間で処理できることになる。

【０１３９】図３５および３６は、積和命令と並列処理
とを説明する図である。図３５は、３２ビット固定長命
令のフォーマットを示す。整数命令レジスタを使う命令
は、図２に示す通り、ＯＰコードフィールドのほかにソ
ースフィールドを指すＳ１，Ｓ２と、ターゲットレジス
タを示すｔとがある。これらのフィールドは、各命令が
すべて共通ビットに固定されたフィールドとして定義さ
れている。フローティングレジスタを使う命令も同様
に、各命令がすべて共通ビットに固定されたフィールド
として定義されている。このように共通に固定されてい
ると、命令によるソースフィールドの選択無しに、レジ
スタの内容を高速に読み出すことができる。

【０１４０】しかし、積和命令は、図３５に示してある
ように、それ自身の命令で４つのソースフィールドＳ
１，Ｓ２，Ｓ３，Ｓ４を持ち、ＦＭＵＬ，ＦＡＤＤを実
行し、それぞれのターゲットレジスタＴ１，Ｔ２に格納
する。このため、積和命令の実行においては、ソースフ
ィールドの選択が必要になる。

【０１４１】図３６は、図１０の命令フェッチユニット
１０１の一部を示す図である。キャッシュメモリ８０
３，第１命令レジスタ８６６，第２命令レジスタ８０
７，ＥＰ１命令レジスタ８０８，ＥＰ２命令レジスタ８
０９，ＥＰ１オペコードバス１５１，ＥＰ２オペコード
バス１５２は、図１０と共通であり、その動作も同じで
ある。フローテングレジスタ３２０１は、選択論理生成
回路３２０２により制御される。本実施例のスーパース
カラ型プロセッサ１０１は、フローテングレジスタ３２
０１の読み出しポートを４ポート備えている。アドレス
レジスタ３２０３，３２０４，３２０５，３２０６は、
それぞれフローテングレジスタのアドレスを示す。そこ
に格納されたアドレスにあるフローテングレジスタ３２
０１から図２３のＢ１，Ｘ１，Ｂ２，Ｘ２バスに対応し
てデータが読み出され、フローティングデータ処理ユニ
ット１１７内の演算器に転送される。

【０１４２】続いて、図３５の積和命令の動作を説明す
る。第１命令レジスタ８０６にフローティング命令がく
ると、その命令のＳ１，Ｓ２フィールドは、アドレスレ
ジスタ３２０３，３２０４に格納される。同様に、第２
命令レジスタ８０７にフローティング命令がくると、そ
の命令のＳ１，Ｓ２フィールドは、アドレスレジスタ３
２０５，３２０６に格納される。

【０１４３】並列処理できる場合は、第１命令レジスタ
８０６，第２命令レジスタ８０７にフローテング命令が
並列に格納され、それぞれのＳ１，Ｓ２フィールドは、
アドレスレジスタ３２０３〜３２０６に格納される。第
１命令レジスタ８０６に積和命令がくると、オペコード
が、信号線３２１０を通して、選択論理生成回路３２０
２に積和命令であることを知らせる。

【０１４４】選択論理生成回路３２０２は、競合ビット
ＳＱＦ８５０とそれをマスクする制御信号ＴＡＯ８５１
との関係により第１命令レジスタが有効である場合、図
３５のＳ１，Ｓ２フィールドをアドレスレジスタ３２０
３，３２０４に格納し、Ｓ３，Ｓ４フィールドをアドレ
スレジスタ３２０５，３２０６に格納するように制御す
る。

【０１４５】また、第２命令レジスタ８０７に積和命令
がくると、競合ビットＳＱＦ８５０とそれをマスクする
制御信号ＴＡＯ８５１との関係により第２命令レジスタ
が有効である場合、図３５のＳ１，Ｓ２フィールドをア
ドレスレジスタ３２０５，３２０６に格納し、Ｓ３，Ｓ
４フィールドをアドレスレジスタ３２０３，３２０４に
格納するように制御する。

【０１４６】このように、積和命令のときのみ、４つの
アドレスレジスタ３２０３〜３２０６にフィールドが同
時にセットされる。なお、４つのフローテングソースバ
スを使ってしまうため、本実施例の構成では、積和命令
とＦＡＤＤおよびＦＭＵＬの命令との並列処理はできな
い。このため、その組合せの時、並列処理可否を示す信
号ＭＤＰにより、競合ビットＳＱＦ＝１としなければな
らない。さらに、ＦＳＴＯＲＥとの並列処理も、レジス
タファイルのポート数がネックとなるため、並列処理で
きないが、これは、本実施例に特有の問題であり、レジ
スタファイルのポート数を増やせば、処理可能である。

【０１４７】本実施例では、信号線３２１１，３２１０
を通して得られる信号を選択論理生成回路３２０２でデ
コードし積和命令を判定していたが、より高速に判定し
たければ、競合ビットＳＱＦと同様に、キャッシュメモ
リ８０３に命令を格納するときに、それぞれの命令に積
和命令のＴＡＧをつけて格納するように改良し、選択論
理生成回路３２０２でのデコード無しに、高速に判定す
ることもできる。

【０１４８】図３８は、４命令を並列処理するスーパー
スカラ型マイクロプロセッサの実施例の構成を示すブロ
ック図である。このスーパースカラ型マイクロプロセッ
サは、命令キャッシュメモリ３６０１と、４命令間の競
合情報(複数)を持つＴＡＧ３６０２と、第１〜第４命令
レジスタ３６０４〜３６０７と、ＥＰ１〜４命令レジス
タ３６０８〜３６１１と、これらＥＰ１〜４命令レジス
タ３６０８〜３６１１に対応するＥＰ１〜４演算ユニッ
ト３６１２〜３６１５と、命令を選択する機能論理３６
１６と、ＴＡＧ３６０２の情報により命令選択機能論理
３６１６を制御するシーケンサ３６０３とを備えてい
る。

【０１４９】４つの命令を並列処理できる場合、第１〜
第４命令レジスタ３６０４〜３６０７から、ＥＰ１〜４
命令レジスタ３６０８〜３６１１を通して、ＥＰ１〜４
演算ユニット３６１２〜３６１５で、それら４つの命令
の処理を実行する。

【０１５０】４つの命令の中に分岐命令があるとき、分
岐命令がＥＰ４演算ユニットに来るように、命令選択機
能論理３６１６を制御する。

【０１５１】図３９は、命令順序中の分岐命令の位置と
演算器との関係を示す図である。この図３９で示すよう
に、分岐命令の位置が第４命令に来ると、最も効率的に
並列処理できる。命令を実行する前にコンパイラ等によ
り分岐命令の位置が第４命令に来るように命令コードを
スケジューリングすると、効率的に並列処理でき性能が
向上する。

【０１５２】４つの命令の中に複数サイクルで実行され
る命令があるときも、分岐命令と同様に制御する。

【０１５３】以上の処理により、分岐命令や複数サイク
ルで実行される命令を実行する機能論理は、ＥＰ４演算
ユニットにだけ構成すればよく、ハードウエアをほとん
ど増加させないで、効率良く並列処理できるスーパース
カラ型マイクロプロセッサが得られる。

【０１５４】より一般的に述べれば、４つの演算器の機
能構成の関係は以下のように表現される。

【０１５５】ＥＰ１＜ＥＰ２≦ＥＰ３≦ＥＰ４つまり、ＥＰ１はＥＰ２の機能論理の一部であり、ＥＰ２はＥＰ３の機能論理の一部または全部であり、ＥＰ３はＥＰ４の機能論理の一部または全部である。

【０１５６】このような関係を作ると、命令を選択する
機能論理の制御が簡単になる。

【０１５７】

【発明の効果】本発明によれば、複数命令を並列に処理
するマイクロプロセッサにおいて、分岐命令や複数サイ
クルで実行される命令が出現する命令順序と実行する演
算器の位置とを調整する手段を備えたことにより、ハー
ドウエアをほとんど増加させないで、分岐命令や複数サ
イクルで実行される命令を含むプログラムを効率良く並
列処理できるスーパースカラ型マイクロプロセッサが得
られる。

【図面の簡単な説明】

【図１】２命令を並列処理する本発明によるスーパース
カラ型マイクロプロセッサの全体構成および外部装置と
の接続関係を示すブロック図である。

【図２】本実施例のスーパースカラ型マイクロプロセッ
サで実行される命令セットの一例を示す図表である。

【図３】図１のスーパースカラ型マイクロプロセッサの
単体命令の動作を示す図表である。

【図４】整数演算データ処理ユニット１１６の構成の一
例を示すブロック図である。

【図５】２つの命令のペアが並列処理される例のタイム
チャートである。

【図６】整数演算系命令を連続して処理する図５のタイ
ムチャートを書き直した簡単なパイプラインフローであ
る。

【図７】第１命令としてＬＯＡＤ命令，ＳＴＯＲＥ命
令、第２命令として整数演算命令を連続して処理する場
合のパイプラインフローチャートである。

【図８】図１の実施例のＬＯＡＤ(1)，ＡＤＤ(2)，ＡＤ
Ｄ(3)，ＬＯＡＤ(4)，ＡＤＤ(5)，ＡＤＤ(6)というプロ
グラムの処理を示すパイプラインフローチャートであ
る。

【図９】図８において、各マシンサイクルごとに、命令
がどの演算器で実行されたかを簡単に表わした図表であ
る。

【図１０】本実施例における命令フェッチユニット１０
１の構成の一例を示すブロック図である。

【図１１】ＳＱＦ８５０とこれをマスクする制御信号Ｔ
ＡＯとの関係、ＥＰ１命令レジスタ８０８およびＥＰ２
命令レジスタ８０９への命令の振り分け、それぞれの命
令の有効無効をまとめてに示す図表である。

【図１２】並列処理とシーケンシャル処理の混在したプ
ログラムのＥＰ１命令とＥＰ２命令とがどのように処理
されるかを示す図である。

【図１３】並列処理可能か否かをチェックする機能ＭＤ
Ｐ８０５が判定する命令の依存関係の一例を示す図表で
ある。

【図１４】分岐命令のパイプラインフローチャートであ
る。

【図１５】第１命令に分岐命令ＢＡがある場合の動作を
示すパイプラインフローチャートである。

【図１６】第１命令に分岐命令ＢＡがある場合の動作を
示すパイプラインフローチャートである。

【図１７】第２命令および第１命令に分岐命令がある場
合の動作を示すパイプラインフローチャートである。

【図１８】第２命令および第１命令に分岐命令がある場
合の動作を示すパイプラインフローチャートである。

【図１９】条件分岐命令を含むプログラムである。

【図２０】分岐命令でＴＡＫＥＮを予測した場合の動作
を示すパイプラインフローチャートである。

【図２１】分岐命令でＴＡＫＥＮを予測した場合の動作
を示すパイプラインフローチャートである。

【図２２】分岐命令でＮＯＴＴＡＫＥＮを予測した場合
の動作を示すパイプラインフローチャートである。

【図２３】ＥＰ１命令レジスタ８０８およびＥＰ２命令
レジスタ８０９とフローティングデータ処理部分との関
係について示す図である。

【図２４】ＦＡＤＤ命令とＦＭＵＬ命令とを並列かつ連
続的に処理する例を示すパイプラインフローチャートで
ある。

【図２５】フローテング演算命令列を実行するときの動
作を示すパイプラインフローチャートである。

【図２６】複数サイクル実行命令を含む命令セットを持
つスーパースカラ型マイクロプロセッサの並列処理を示
すパイプラインフローチャートである。

【図２７】ＦＭＵＬ(2)の演算結果をＦＡＤＤ(3)で入力
情報として使用する場合を示している。

【図２８】図２７の処理の様子をマシンサイクルごとに
わかりやすく示す図である。

【図２９】ＬＯＡＤ命令でロードしたデータをすぐ次の
命令が取り込む例を示す図である。

【図３０】本実施例のスーパースカラ型マイクロプロセ
ッサの整数レジスタユニット１１１が持っているデータ
バイパスを示す図である。

【図３１】パイプライン制御ユニット１０６を更に詳細
に示すブロック図である。

【図３２】さらに別のパイプライン制御の具体的な例を
示す図である。

【図３３】このプログラムを先程の制御方式に合わせた
動作として簡単に記述した図である。

【図３４】別のサイクル間のレジスタ競合ケースのパイ
プラインフローおよびその動作を説明するための図を示
す。図３２のプログラムを例に採り、その具体的な動作
を説明する図である。

【図３５】積和命令と並列処理とを説明する図である。
代表的な命令の命令フォーマットを示す。

【図３６】図１０の命令フェッチユニット１０１の一部
を示す図である。

【図３７】命令フェッチユニット内のソースフィールド
選択機能のブロック図を示す。

【図３８】４命令を並列処理するスーパースカラ型マイ
クロプロセッサの実施例の構成を示すブロック図であ
る。

【図３９】命令順序中の分岐命令の位置と演算器との関
係を示す図である。

【符号の説明】

１０１命令フェッチユニット１０２プログラムカウンタ制御ユニット１０３ＥＰ１制御ユニット１０５ＥＰ２制御ユニット１０４ステータス制御ユニット１０７フローティング加算制御ユニット１０８フローティング乗算制御ユニット１０６パイプライン制御ユニット１１６整数演算データ処理ユニット１１７フローティングデータ処理ユニット１０９オペランドフェッチユニット１１６整数演算データ処理ユニット１１０ＥＰ１演算器１１２ＥＰ２演算器１１１整数レジスタユニット１１７フローティングデータ処理ユニット１１４フローティング加算器１１５フローティング乗算器１１３フローティングレジスタユニット１５０命令アドレスのバスであるＢＣＡ１５１２命令を並列に処理する初めの命令である第１
命令を各制御ユニットに送るＥＰ１オペコードバス１５２２命令を並列に処理する後の命令である第２命
令を各制御ユニットに送るＥＰ２オペコードバス１６９オペランドッフェッチアドレスのバスであるＢ
ＤＡ１７０オペランドデータを各データ処理ユニットに送
るためのバスであるＢＭＷ８０１命令キャッシュメモリ８０６命令キャッシュコントローラ８０５２命令並列処理可能か否かを検出するＭＤＰ８０８ＥＰ１命令レジスタ８０９ＥＰ２命令レジスタ８１０命令の実行をスケジューリングするシーケンサ８０２アドレスレジスタ８０３キャッシュメモリ８０４それぞれの２つの命令の組に付加された情報Ｔ
ＡＧ８０６キャッシュメモリの出力レジスタである第１命
令レジスタ８０７キャッシュメモリの出力レジスタである第２命
令レジスタ８５０命令とともに読み出されるＳＱＦ８５１シーケンサからの制御信号であるＴＡＯ８５２キャッシュの出力レジスタを制御するＭＣＣＲ

───────────────────────────────────────────────────── フロントページの続き (72)発明者神健治神奈川県秦野市堀山下１番地株式会社日立製作所神奈川工場内 (72)発明者斉藤拡二神奈川県秦野市堀山下１番地株式会社日立製作所神奈川工場内 (56)参考文献特開平４−238537（ＪＰ，Ａ) 特開平３−34024（ＪＰ，Ａ) 特開平４−205625（ＪＰ，Ａ) 特開平４−328636（ＪＰ，Ａ) 特開平３−141429（ＪＰ，Ａ) 特開平４−308930（ＪＰ，Ａ) 特開平４−96132（ＪＰ，Ａ) 特開平３−282958（ＪＰ，Ａ) 特開平４−54638（ＪＰ，Ａ) 特開平３−263127（ＪＰ，Ａ) 特開平５−341995（ＪＰ，Ａ) 特開平５−20067（ＪＰ，Ａ) 特開平２−130635（ＪＰ，Ａ) 特開平２−103634（ＪＰ，Ａ) (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/38

Claims

(57)【特許請求の範囲】

【請求項１】連続するＮ個の命令を読み出す命令読み
出し手段と、読み出された前記Ｎ個の命令を並列処理可
能か否かを検出する並列処理検出手段と、読み出された
前記Ｎ個の命令を並列に実行するＮ個の演算器とを含む
マイクロプロセッサにおいて、命令の順番に対応してＮ番目の前記演算器のみが分岐命
令および後続命令とは並列処理できない命令を実行する
機能論理を持ち、読み出された前記Ｎ個の命令順序中の最初の分岐命令ま
たは最初の後続命令とは並列処理できない命令(ｋ番目)
を前記並列処理可否の検出と並行して検出する命令検出
手段と、読み出された前記Ｎ個の命令が並列処理可能な場合、前
記Ｎ個の命令を１からＮ番目までの演算器で並列に実行
するように実行順序を制御し、読み出された前記Ｎ個の
命令のｋ番目に分岐命令または後続命令とは並列処理で
きない命令を含む場合、１からｋまでの命令を(Ｎ−ｋ
＋１)からＮ番目までの演算器で並列に実行するように
実行順序を変更する機能論理手段とを備えたことを特徴
とするマイクロプロセッサ。
【請求項２】請求項１に記載のマイクロプロセッサに
おいて、読み出された前記Ｎ個の命令に分岐命令が含まれる場
合、前記Ｎ番目の演算器の演算結果を次に読み出すべき
命令のアドレスとして切換える手段を設けたことを特徴
とするマイクロプロセッサ。
【請求項３】連続する２個の命令を読み出す命令読み
出し手段と、読み出された前記２個の命令を並列処理可
能か否かを検出する並列処理検出手段と、読み出された
前記２個の命令を並列に実行する２個の演算器とを含む
マイクロプロセッサにおいて、２番目の前記演算器のみが分岐命令および後続命令とは
並列処理できない命令を実行する機能論理を持ち、読み出された前記２個の命令順序中の第１命令が分岐命
令または後続命令とは並列処理できない命令か否かを前
記並列処理可否の検出と並行して検出する命令検出手段
と、読み出された前記２個の命令が並列処理可能な場合、前
記２個の命令を１，２番目の演算器で並列に実行するよ
うに実行順序を制御し、読み出された前記２個の命令の
ｋ(ｋ＝１，２)番目に分岐命令または後続命令とは並列
処理できない命令を含む場合、当該分岐命令または後続
命令とは並列処理できない命令を２番目の演算器で実行
するように実行順序を変更する機能論理手段とを備えた
ことを特徴とするマイクロプロセッサ。
【請求項４】請求項３に記載のマイクロプロセッサに
おいて、読み出された前記２個の命令に分岐命令が含まれる場
合、前記２番目の演算器の演算結果を次に読み出すべき
命令のアドレスとして切換える手段を設けたことを特徴
とするマイクロプロセッサ。
【請求項５】連続するＮ個の命令を読み出す命令読み
出し手段と、読み出された前記Ｎ個の命令を並列処理可
能か否かを検出する並列処理検出手段と、読み出された
前記Ｎ個の命令を並列に実行するＮ個の演算器とを含む
マイクロプロセッサにおいて、命令の順番に対応してＮ番目の前記演算器のみが複数サ
イクルで実行される命令を実行する機能論理を持ち、読み出された前記Ｎ個の命令順序中の最初の複数サイク
ルで実行される命令(ｐ番目)を前記並列処理可否の検出
と並行して検出する複数サイクル実行命令検出手段と、読み出された前記Ｎ個の命令が並列処理可能な場合、前
記Ｎ個の命令を１からＮ番目までの演算器で並列に実行
するように実行順序を制御し、読み出された前記Ｎ個の
命令のｐ番目に複数サイクルで実行される命令を含む場
合、１からｐまでの命令を(Ｎ−ｐ＋１)からＮ番目まで
の演算器で並列に実行するように実行順序を変更する機
能論理手段とを備えたことを特徴とするマイクロプロセ
ッサ。
【請求項６】連続する２個の命令を読み出す命令読み
出し手段と、読み出された前記２個の命令を並列処理可
能か否かを検出する並列処理検出手段と、読み出された
前記２個の命令を並列に実行する２個の演算器とを含む
マイクロプロセッサにおいて、２番目の前記演算器のみが複数サイクルで実行される命
令を実行する機能論理を持ち、読み出された前記１個の命令順序中の第１の命令が最初
の複数サイクルで実行される命令か否かを前記並列処理
可否の検出と並行して検出する複数サイクル実行命令検
出手段と、読み出された前記２個の命令が並列処理可能な場合、前
記２個の命令を１，２番目の演算器で並列に実行するよ
うに実行順序を制御し、読み出された前記２個の命令の
ｐ(ｐ＝１，２)番目に複数サイクルで実行される命令を
含む場合、当該命令を２番目の演算器で実行するように
実行順序を変更する機能論理手段とを備えたことを特徴
とするマイクロプロセッサ。
【請求項７】連続するＮ個の命令を読み出す命令読み
出し手段と、読み出された前記Ｎ個の命令を並列処理可
能か否かを検出する並列処理検出手段と、読み出された
前記Ｎ個の命令を並列に実行するＮ個の演算器とを含む
マイクロプロセッサにおいて、命令の順番に対応してＮ番目の前記演算器のみが分岐命
令および後続命令とは並列処理できない命令および複数
サイクルで実行される命令を実行する機能論理を持ち、読み出された前記Ｎ個の命令順序中の最初の分岐命令
(ｋ番目)または最初の後続命令とは並列処理できない命
令(ｋ番目)または最初の複数サイクルで実行される命令
(ｐ番目)を前記並列処理可否の検出と並行して検出する
命令検出手段と、読み出された前記Ｎ個の命令が並列処理可能な場合、前
記Ｎ個の命令を１からＮ番目までの演算器で並列に実行
するように実行順序を制御し、読み出された前記Ｎ個の
命令のｋ番目に分岐命令または後続命令とは並列処理で
きない命令を含み、かつ、読み出された前記Ｎ個の命令
のｐ番目に複数サイクルで実行される命令をも含む時は
ｋ＜ｐの場合、１からｋまでの命令を(Ｎ−ｋ＋１)から
Ｎ番目までの演算器で並列に実行するように実行順序を
制御し、読み出された前記Ｎ個の命令のｐ番目に複数サ
イクルで実行される命令を含み、かつ、読み出された前
記Ｎ個の命令のｋ番目に分岐命令または後続命令とは並
列処理できない命令をも含む時はｐ＜ｋの場合、１から
ｐまでの命令を(Ｎ−ｐ＋１)からＮ番目までの演算器で
並列に実行するように実行順序を変更する機能論理手段
とを備えたことを特徴とするマイクロプロセッサ。
【請求項８】連続する２個の命令を読み出す命令読み
出し手段と、読み出された前記２個の命令を並列処理可
能か否かを検出する並列処理検出手段と、読み出された
前記２個の命令を並列に実行する２個の演算器とを含む
マイクロプロセッサにおいて、２番目の前記演算器のみが分岐命令および後続命令とは
並列処理できない命令および複数サイクルで実行される
命令を実行する機能論理を持ち、読み出された前記２個の命令順序中の第１命令が分岐命
令または後続命令とは並列処理できない命令か否かまた
は最初の複数サイクルで実行される命令か否かを前記並
列処理可否の検出と並行して検出する命令検出手段と、読み出された前記２個の命令が並列処理可能な場合、前
記２個の命令を１，２番目の演算器で並列に実行するよ
うに実行順序を制御し、読み出された前記２個の命令の
ｋ(ｋ＝１，２)番目に分岐命令または後続命令とは並列
処理できない命令を含み、かつ、読み出された前記Ｎ個
の命令のｐ番目に複数サイクルで実行される命令をも含
む時はｋ＜ｐの場合、当該分岐命令を２番目の演算器で
実行するように実行順序を制御し、読み出された前記２
個の命令のｐ(ｐ＝１，２)番目に複数サイクルで実行さ
れる命令を含み、かつ、読み出された前記Ｎ個の命令の
ｋ番目に分岐命令または後続命令とは並列処理できない
命令をも含む時はｐ＜ｋの場合、当該命令を２番目の演
算器で実行するように実行順序を変更する機能論理手段
とを備えたことを特徴とするマイクロプロセッサ。
【請求項９】連続するＮ個の命令を読み出す命令読み
出し手段と、読み出された前記Ｎ個の命令を並列処理可
能か否かを検出する並列処理検出手段と、読み出された
前記Ｎ個の命令を並列に実行するＮ個の演算器とを含む
マイクロプロセッサにおいて、命令の順番に対応してｎ(ｎ≠１)番目からＮ番目までの
演算器が分岐命令および後続命令とは並列処理できない
命令を実行する機能論理を持ち、読み出された前記Ｎ個の命令順序中の最初の分岐命令
(ｋ番目)または最初の後続命令とは並列処理できない命
令(ｋ番目)を前記並列処理可否の検出と並行して検出す
る命令検出手段と、読み出された前記Ｎ個の命令が並列処理可能な場合、前
記Ｎ個の命令を１からＮ番目までの演算器で並列に実行
するように実行順序を制御し、読み出された前記Ｎ個の
命令のｋ番目に分岐命令または後続命令とは並列処理で
きない命令を含む場合、１からｋ−１番目の命令は順序
通りの演算器で実行しｋ番目の命令をｎ番目以降の演算
器で並列に実行するように実行順序を変更する機能論理
手段とを備えたことを特徴とするマイクロプロセッサ。
【請求項１０】連続するＮ個の命令を読み出す命令読
み出し手段と、読み出された前記Ｎ個の命令を並列処理
可能か否かを検出する並列処理検出手段と、読み出され
た前記Ｎ個の命令を並列に実行するＮ個の演算器とを含
むマイクロプロセッサにおいて、命令の順番に対応してｎ(ｎ≠１)番目からＮ番目までの
演算器が複数サイクルで実行される命令を実行する機能
論理を持ち、読み出された前記Ｎ個の命令順序中の最初の複数サイク
ルで実行される命令(ｐ番目)を前記並列処理可否の検出
と並行して検出する複数サイクル実行命令検出手段と、読み出された前記Ｎ個の命令が並列処理可能な場合、前
記Ｎ個の命令を１からＮ番目までの演算器で並列に実行
するように実行順序を制御し、読み出された前記Ｎ個の
命令のｐ番目に複数サイクルで実行される命令を含む場
合、１からｐ−１番目の命令は順序通りの演算器で実行
しｐ番目の命令をｎ番目以降の演算器で並列に実行する
ように実行順序を変更する機能論理手段とを備えたこと
を特徴とするマイクロプロセッサ。
【請求項１１】連続するＮ個の命令を読み出す命令読
み出し手段と、読み出された前記Ｎ個の命令を並列処理
可能か否かを検出する並列処理検出手段と、読み出され
た前記Ｎ個の命令を並列に実行するＮ個の演算器とを含
むマイクロプロセッサにおいて、命令の順番に対応してｎ(ｎ≠１)番目からＮ番目までの
演算器が分岐命令および後続命令とは並列処理できない
命令および複数サイクルで実行される命令を実行する機
能論理を持ち、読み出された前記Ｎ個の命令順序中の最初の分岐命令
(ｋ番目)または最初の後続命令とは並列処理できない命
令(ｋ番目)または最初の複数サイクルで実行される命令
(ｐ番目)を前記並列処理可否の検出と並行して検出する
命令検出手段と、読み出された前記Ｎ個の命令が並列処理可能な場合、前
記Ｎ個の命令を１からＮ番目までの演算器で並列に実行
するように実行順序を制御し、読み出された前記Ｎ個の
命令のｋ番目に分岐命令または後続命令とは並列処理で
きない命令を含み、かつ、読み出された前記Ｎ個の命令
のｐ番目に複数サイクルで実行される命令をも含む時は
ｋ＜ｐの場合、１からｋ−１番目の命令は順序通りの演
算器で実行しｋ番目の命令をｎ番目以降の演算器で並列
に実行するように実行順序を変更し、読み出された前記
Ｎ個の命令のｐ番目に複数サイクルで実行される命令を
含み、かつ、読み出された前記Ｎ個の命令のｋ番目に分
岐命令または後続命令とは並列処理できない命令をも含
む時はｐ＜ｋの場合、１からｐ−１番目の命令は順序通
りの演算器で実行しｐ番目の命令をｎ番目以降の演算器
で並列に実行するように実行順序を変更する機能論理手
段とを備えたことを特徴とするマイクロプロセッサ。