JP3199035B2

JP3199035B2 - プロセッサ及びその実行制御方法

Info

Publication number: JP3199035B2
Application number: JP27067798A
Authority: JP
Inventors: 淳鳥居
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1998-09-25
Filing date: 1998-09-25
Publication date: 2001-08-13
Anticipated expiration: 2018-09-25
Also published as: JP2000099328A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、情報処理装置に関
し、特にパイプライン構造を採用しているマイクロプロ
セッサに関する。

【０００２】

【従来の技術】プロセッサにおいて、その処理速度を高
めるために、パイプライン構造が広く用いられている。
パイプライン構造のプロセッサでは、一つの命令の処理
を複数のサイクルに分割しておこなう。例えば、MIPS社
のR3000 プロセッサでは、命令フェッチ(ＩＦ)、命令デ
コード(ＲＤ)、実行(ＡＬＵ)、メモリアクセス(ＭＥ
Ｍ)、レジスタへの書き戻し(ＷＢ)の５段から構成され
ており、図６に示すように、１サイクルに複数の命令が
跨って処理を行う。

【０００３】このようなパイプライン方式のプロセッサ
では、命令を重畳して処理を行うため、後続の命令が、
先行命令の実行結果を参照する場合には、先行命令が後
続命令の完了を待ち合わせる必要がある。このため、命
令が発行できないサイクル(空きスロット) が生じ、性
能低下の要因となっている。これを、「レジスタハザー
ド」と呼ぶ。

【０００４】図７は、５段構成のパイプライン構造の従
来のプロセッサを構成の一例を示すブロック図である。
図７を参照すると、このプロセッサは、命令キャッシュ
１、分岐予測ユニット２、命令デコード発行ユニット
３、レジスタファイル４、ＡＬＵ (Arithmetic Logic
Unit)５、データキャッシュ６、分岐検証ユニット７、
パイプラインレジスタ８ａ〜８ｄ、フォワーディングパ
ス９、トライステートバッファ１０ａ〜１０ｄ、マルチ
プレクサ１１ａ〜１１ｄ、レジスタ読み出しバス１２、
レジスタ書き戻しバス１３、即値バス１４等を備えて構
成されている。他に制御系の信号等が必要となるが、説
明に直接関係しないので、図７では省略されている。

【０００５】このプロセッサでは、R3000に規定されて
いるような分岐遅延スロットは規定されていず、分岐予
測ユニット２を備え、分岐命令を命令キャッシュ１から
フェッチした際に、分岐命令の結果を予測して分岐側、
非分岐側のいずれかの後続命令をフェッチして実行を続
ける。

【０００６】分岐予測の成否は、分岐検証ユニット７に
よって検証され、予測が誤りだった場合には、正しい命
令のフェッチからやり直すと共に、分岐予測ユニット２
内の分岐予測テーブルを書換える。

【０００７】また、計算が終った値は、レジスタに書き
戻す前に、フォワーディングパス９を用いて、後続命令
に供給可能である。

【０００８】図８は、命令デコード発行ユニット３か
ら、レジスタハザードおよびフォワーディングパス９の
設定の制御を行う部分を示したブロック図である。

【０００９】図８において、命令コード２１は、命令キ
ャッシュ１からフェッチした命令を示している。

【００１０】この命令コード２１から、レジスタアクセ
ス／命令完了デコーダ２２によって、第１の読み出しレ
ジスタアドレス（rreg１）２８、第２の読み出しレジス
タアドレス（rreg２）２９、書き込みレジスタアドレス
（wreg）３０の有効／無効を示す書き込み有効フラグ３
１、及び、命令完了ステージフラグ３２(ALUステージも
しくはMEMステージ)をデコードする。

【００１１】このうち、書き込みレジスタアドレス（wr
eg）の有効フラグ（Ｖ）３１および命令完了ステージフ
ラグ（Ｄ）３２は、書き込みレジスタアドレス（wreg）
３０と共に、パイプラインレジスタ２６に格納され、１
サイクル毎にレジスタ２６ａ、レジスタ２６ｂと進めら
れる。

【００１２】これによって、先行命令、すなわちＡＬＵ
ステージおよびＭＥＭステージに位置する命令の書き込
みレジスタアドレス３０と、ＲＤステージに位置する命
令の第１、第２の読み出しレジスタアドレス２８、２９
の内容と、パイプラインレジスタ２６に保持される書き
込みアドレスレジスタの内容をレジスタアドレス比較器
２３を用いて比較する。

【００１３】ＡＬＵステージに位置する命令の完了が、
ＭＥＭステージ、且つ、パイプラインレジスタ２６ａの
書き込みレジスタアドレスと、RDステージに位置する命
令の第１、第２の読み出しレジスタアドレス２８、２９
の少なくとも一方と一致した場合には、レジスタハザー
ド検出論理２４によってレジスタハザードとなり、後続
命令の発行が遅れることになる。RDステージに位置する
命令の第１、第２の読み出しレジスタアドレス２８、２
９と、パイプラインレジスタ２６ａの書き込みレジスタ
アドレスを比較するレジスタアドレス比較器２３ａ、２
３ｃの一致出力信号は、パイプラインレジスタ２６ａの
有効（Ｖ）フラグ３１とそれぞれＡＮＤゲートで論理積
演算され、その出力は命令完了ステージフラグ（Ｄ）３
２及び命令完了ステージフラグ３２の反転信号と、ＡＮ
Ｄゲートで論理積演算されレジスタハザード検出論理２
４に入力されており、これら２つの入力の少なくとも一
方がオンであれば、レジスタハザード検出論理２４によ
ってレジスタハザードとなる。

【００１４】また、ＡＬＵステージに位置する命令の完
了が、ＡＬＵステージ、且つ、書き込みレジスタアドレ
スとＲＤステージに位置する命令の読み出しレジスタア
ドレスとが一致した場合、および、ＭＥＭステージに位
置する命令の書き込みレジスタアドレスとＲＤステージ
に位置する命令の読み出しレジスタアドレスが一致した
場合には、フォワーディングパス設定論理２５によっ
て、レジスタハザードとなる。すなわち、ＲＤステージ
に位置する命令の第１、第２の読み出しレジスタアドレ
ス２８、２９と、パイプラインレジスタ２６ｂの書き込
みレジスタアドレスを比較するレジスタアドレス比較器
２３ｂ、２３ｄの一致出力信号は、パイプラインレジス
タ２６ｂの有効フラグ３１とそれぞれＡＮＤゲートで論
理積演算され、前段のレジスタアドレス比較器２３ａ、
２３ｂの一致信号の論理演算結果とともに、フォワーデ
ィングパス設定論理２５ａ、２５ｂに入力される。

【００１５】ALU、MEMステージの両者がＲＤステージの
読み出しレジスタアドレスと一致した場合には、ALU側
がフォワードの送信元となる。これらのフォワーディン
グパス設定情報は、マルチプレクサ１１、トライステー
トバッファ１０に送られ、フォワーディングパス９を適
切に設定する。

【００１６】例えば、表１に示すようなプログラムコー
ドが与えられた場合を考える。

【００１７】

【表１】（１）ＡＤＤＲ２，Ｒ３，Ｒ４；Ｒ２＋Ｒ３→Ｒ４（２）ＬＯＡＤＲ１，Ｘ；主記憶のＸ番地の内容→ Ｒ１（３）ＢＥＱＲ１，Ｒ４，１００；Ｒ１とＲ４の内容が等しければ、100番地へ（４）ＡＤＤＲ１，１，Ｒ１；Ｒ１＋１→Ｒ１（５）１００ＳＴＯＲＥＲ１，Ｘ；Ｒ１→主記憶のＸ番地

【００１８】このようなプログラムコードを実行した場
合、図９に示すようなパイプライン実行図に示すような
タイミングで処理される。

【００１９】但し、図９では、BEQ命令(3)の条件が成立
しないことを予測しており、実際に予測が成立した場合
を示している。

【００２０】この時、(3)の分岐命令（レジスタR1とR4
の内容が等しい場合100番地へ分岐）は、(2)のロード命
令の結果（主記憶のX番地の内容をレジスタR1にロー
ド）を参照する必要があるため、Ｔ４サイクルでRDステ
ージが実行できず、レジスタハザードとなり、１サイク
ル実行が遅れさせられてしまう。

【００２１】この問題を解決するために、従来よりいく
つかの手法が提案されている。

【００２２】このうち一番単純な方法は、(1)と(2)の命
令順序をコンパイラもしくはアセンブラ等で入れ換える
ことである。

【００２３】図１０に示したように、この場合、(2)の
ロード命令と、(3)の分岐命令との間に(1)ADD 命令が挿
入されているため、空きスロットを生じさせることな
く、命令が実行可能になる。

【００２４】また、このようなin-order（イン・オー
ダ）実行型ではなく、out-of-order（オウト・オブ・オ
ーダ）実行方式のマイクロプロセッサにおいては、実行
できる命令から順に実行を行うので、プログラムコード
を変更すること無く、このような空きスロットを極力減
らすことが可能である。

【００２５】

【発明が解決しようとする課題】しかしながら、コンパ
イラやout-of-order実行によっても解決できないコード
も存在し得る。例えば、図９において、(1)の命令がLOA
D 命令であり、レジスタR4をメモリから読み出す場合に
は、(1)と(2)の命令を入れ替えても、同じように空きス
ロットが生じてしまう。

【００２６】また、out-of-order実行は特別なハードウ
ェアを用意する必要がある。このような空きスロット
は、同時に複数の命令を実行可能なスーパースカラ(sup
er scalar) 構造のプロセッサでは、相互に依存の無い
命令を同時に発行しながら処理を進めるので、パイプラ
インステージ間の命令には依存が増加し、空きスロット
が、従来にも増して、多く生じる問題があった。

【００２７】また、out-of-order 実行方式のマイクロ
プロセッサでは、例えば文献(MikeJohson, “Super-sca
lar Processor Design”,Prentice-Hall, 1991) にも
示されているように、リオーダバッファ、リザベーショ
ンステーションなどの、複雑なユニットを追加する必要
があった。

【００２８】したがって本発明は、上記問題点に鑑みて
なされたものであって、その目的は、ハードウェア構成
が簡易なin-order 実行型のマイクロプロセッサにおい
て、プログラムコードを書き替えることなく、命令完了
を待ち合わせるためのパイプライン空きスロットを低減
する、プロセッサ及びその実行制御方法を提供すること
にある。

【００２９】

【課題を解決するための手段】上記目的を達成する本発
明は、命令発行ステージと実行ステージの間に待機ステ
ージを用意し、先行命令と依存が存在し命令完了のタイ
ミングが、発行しようとする命令のデータ供給に間に合
わない場合に、該命令を待機ステージで待機させて前記
先行命令の命令完了を待ち合わせるように制御するもの
である。これにより、命令発行の空きスロットを生じさ
せること無くパイプラインを動作させることが可能にな
り、性能を向上させることが可能になる。

【００３０】

【発明の実施の形態】本発明の実施の形態について説明
する。本発明のプロセッサは、その好ましい実施の形態
として、プロセッサのパイプラインステージに、命令発
行ステージと実行ステージの間に待機ステージ（ＳＴＢ
Ｙ）を備え、命令間のレジスタハザードを検出した時
に、待機ステージ（ＳＴＢＹ）を用いて、依存が検出さ
れた命令が、実行ステージに進むのを遅れさせることに
よって、依存を解消すると共に、後続命令を同時に実行
するように制御し（図３参照）、これによってレジスタ
ハザードの発生を低減するようにしたものである。

【００３１】

【実施例】本発明の実施例について説明する。図１は、
図７に示した従来プロセッサの構成に対して、本発明を
適用したプロセッサの基本的な構成を示したブロック図
である。

【００３２】図１を参照すると、本発明の一実施例は、
分岐検証に関して、待機ステージ５７を備えている。待
機ステージ５７を設けたため、マルチプレクサ５１e、
５１f、５１g、５１h、パイプラインレジスタ４８g、４
８h、４８i、４８jを、レジスタファイル４４と分岐検
証ユニット４７との間に付加している。

【００３３】また、命令デコード発行ユニット４３にお
いて、レジスタハザードおよびフォワーディングパス４
９の設定部は、図２に示したように、待機ステージ５７
を設けたことによる拡張を行う。具体的には、図８に示
した構成に、待機ステージ使用状態有無フラグ７１、分
岐検証用フォワーディングパス設定論理７３が追加さ
れ、図８のハザード検出論理２４は、ハザード検出以外
に待機ステージの使用有無を決定すべく、ハザード検出
／待機ステージ使用決定論理７２に拡張されている。

【００３４】また、待機ステージの使用の有無を判断す
るため、RDステージ（命令デコードと命令発行を行うス
テージ）に位置する命令が分岐命令か否かを検出する分
岐命令検出ユニット７４を備え、検出結果をハザード検
出／待機ステージ使用決定論理７２が受け取る。

【００３５】図３は、本発明の一実施例によるパイプラ
イン実行の様子を模式的に示す図である。上記した表１
のコードの実行を順に説明する。

【００３６】まず、図３を参照すると、サイクルＴ１
〜Ｔ３は、図９と同じ動作を行う。

【００３７】次に、サイクルＴ４において、(3)の分岐
命令は、(2)のロード命令の結果を参照する必要があ
り、サイクルＴ５において値を読むことができないと判
断する。

【００３８】この判断は、レジスタアドレス比較器６３
による比較結果によって、ハザード検出／待機ステージ
使用決定論理７２が行う。すなわち、ハザード検出／待
機ステージ使用決定論理７２は、パイプラインレジスタ
６６ａに格納された（２）のロード命令レジスタ書き込
みアドレスが、（３）の分岐命令の参照レジスタアドレ
スと同一であることをレジスタアドレス比較器６３ａで
確認され、かつ（２）のロード命令の完了ステージがＭ
ＥＭステージ終了時点であることをパイプラインレジス
タ６６ａの命令完了ステージフラグを読み出すことによ
って行われる。

【００３９】この時、命令コード６１が、分岐命令であ
ることを分岐命令検出ユニット７４で検出しており、そ
の情報も併せてハザード検出／待機ステージ使用決定論
理７２に送られる。

【００４０】また、現在、待機ステージを、先行する命
令が使用していないことは、待機ステージ使用有無フラ
グ７１に示されている。もし、先行する命令が待機ステ
ージを使用している場合には、該当命令は待機ステージ
に格納することは出来ないので、１サイクルのストール
（次のサイクルでもＩＤステージ留まる）が生じ、後続
命令もすべてストールされる。

【００４１】これらの情報から、ハザード検出／待機ス
テージ使用決定論理７２は、待機ステージを使用するこ
とを決定する。この際、サイクルＴ６で使用するため
の、フォワーディングパス４９の設定情報を、分岐検証
フォワーディングパス設定論理７３によって決定する。

【００４２】また、フォワーディングパス設定論理６５
によって、(1)の加算命令で生成されたレジスタＲ４の
値を、待機ステージ５７にフォワーディングする。

【００４３】また、待機ステージ使用有無フラグ７１を
待機ステージ使用中にセットする。これによって、後続
の命令が待機ステージを使用できなくなる。

【００４４】さらに、レジスタファイル４４からレジス
タの値を読み出す場合もあり得る。これは、例えば、分
岐命令（３）がＢＥＱＲ１、Ｒ２，１００；Ｒ１とＲ
２の内容が等しければ、100番地へといった場合のよう
に、Ｒ１のレジスタの値をフォワーディングによって、
Ｒ２の値をレジスタファイルから直接読み出す場合に行
われる。この場合、サイクルＴ４でレジスタＲ２の値を
読んでしまうことによって、サイクルＴ５では、（４）
のＡＤＤ命令のみがレジスタファイル４４をアクセスす
るだけで済むため、レジスタボート数を増やす必要はな
い。

【００４５】サイクルＴ５では、(3)の分岐命令は待機
ステージ５７に格納される（図３のSTBY）。したがっ
て、サイクルＴ５では、ＡＬＵステージに位置する命令
は存在しない。

【００４６】サイクルＴ５において、後続の(4)の加算
命令は、ＲＤステージに位置し、レジスタＲ１の値をフ
ォワーディングによって(2)のロード命令から供給でき
るようフォワーディングパス設定論理６５によって設定
を行う。

【００４７】同時にサイクルＴ４で設定された分岐検証
ユニット４７に対するフォワーディングパス４９も設定
される。

【００４８】ALUステージに命令が配置されていないた
め、ＡＬＵステージからのフォワードデータ出力の必要
は無く、ＡＬＵ４５と分岐検証ユニット４７へのフォワ
ーディングパスは共用することが可能である。

【００４９】また、このサイクルＴ５で、待機ステージ
５７は使用を終えるので、待機ステージ使用有無フラグ
７１をリセットする。これによって、後続命令が待機ス
テージを使用することが可能になる。

【００５０】これによって、サイクルＴ６で、(3)の分
岐命令の検証と、(4)のＡＬＵ命令の加算実行を同時に
行うことが可能となり、レジスタファイル４４のリード
ポート数を増やすことなく、レジスタハザードを生じな
くすることができる。

【００５１】但し、分岐命令が２命令続いて、先行する
分岐命令が待機ステージ５７に入った場合には、後続の
分岐命令は、１サイクル発行が遅れさせられる。先行す
る命令が、待機ステージ５７に格納されていることは、
待機ステージ使用有無フラグ７１によって示される。

【００５２】次に図４を参照して、本発明の第２の実施
例について説明する。

【００５３】図４を参照すると、本発明の第２の実施例
は、図１に示した前記実施例の構成と異なり、状態フラ
グ用バス部９６が、演算結果用バス部９７と分離されて
設けられている。状態フラグは、レジスタに値を格納す
る際に生成される。例えば、レジスタファイルに書き込
む値の符号を示すＳｉｇｎフラグや、ゼロか否かを示す
Ｚｅｒｏフラグ、演算中のキャリーの有無を示すＣａｒ
ｒｙフラグ、オーバフローの有無を示すＯｖｅｒｆｌｏ
ｗフラグなどがフラグの例としてあげることができる。
これらは、ＡＬＵ８５およびデータキャッシュ８６でレ
ジスタファイルに書き込む値や演算過程によって生成さ
れ、状態フラグレジスタ９８に格納される。

【００５４】また、状態検証ユニット９９によって、状
態フラグを調べて分岐命令の成否を決定し、結果を分岐
予測ユニット８２に通知する。

【００５５】待機ステージ９５は、状態フラグレジスタ
９８を読み出す前の位置に存在している。これは、状態
フラグを調べる命令のみが、状態フラグレジスタ９８を
アクセスするためである。これによって、アクセスする
前に１ステージ命令を待機させることにより、図６に示
した構成と比べて、フォワーディングパス８８が簡単化
可能である。

【００５６】このプロセッサでは、分岐命令は、フラグ
を参照して成否を決定するため、分岐命令の表記が、表
１とは異なる。

【００５７】表２に、本発明の第２の実施例のプロセッ
サでのコードの一例を示す。

【００５８】

【表２】（１）ＬＯＡＤＲ１，Ｘ；Ｘ番地の内容→Ｒ１（２）ＢＺ１００；Ｚｅｒｏフラグがセットされている（Ｒ１が０）ならば、１００番地へ（３）ＡＤＤＲ１，１，Ｒ１；Ｒ１＋１→Ｒ１（４）１００ＳＴＯＲＥＲ１，Ｘ；Ｒ１→主記憶のＸ番地

【００５９】このコードにおいて、ＢＺ命令(2)は、状
態フラグのうち、直前のレジスタ書き込み命令によって
設定された値が０か否かを示すゼロフラグを参照し、０
か否かを判断して、ジャンプする分岐命令である。

【００６０】このプログラムの場合では、（２）の分岐
命令を実行する際のＺｅｒｏフラグは、直前レジスタへ
の書き込み命令、すなわちＬＯＡＤ命令(1)によって設
定される。

【００６１】図５は、本発明の第２の実施例によるパイ
プライン実行の様子を模式的に示す図である。図５を参
照して、表２のコードの実行を順に説明する。

【００６２】まず、サイクルＴ１において、ロード命令
(1)がフェッチされ実行が開始される。サイクルＴ２で
は分岐命令(2)でフェッチされ、サイクルＴ３の前半で
発行可否をチェックする。この時、命令発行ユニット８
３は、状態フラグに対するハザードを検出し、当該命令
を待機ステージ９５に格納する。

【００６３】本実施例によれば、待機ステージ９５に格
納する命令は、ＲＤステージの前半の命令デコードのみ
を行い、状態フラグレジスタ９８の読み出しを行う前に
格納される。

【００６４】次に、サイクルＴ４において分岐命令(2)
は待機ステージからＲＤステージの後半に位置する状態
フラグレジスタ９８を読み出すことになる。

【００６５】但し、本実施例では直前の命令が書き込む
状態フラグのみを参照するので、ここでは状態フラグは
読み出されない。

【００６６】もし、(1)のロード命令では設定しない状
態フラグと、設定する状態フラグの両者の値を合わせた
状態で検証を行う場合には、ここで読み出しを行う必要
が生じる。

【００６７】同一のサイクル、すなわちサイクルＴ４に
おいて、(3)の加算命令は、ＲＤステージで(1)の結果を
フォワーディングするための検出を行う。

【００６８】次のサイクルＴ５で状態フラグ用バス９６
を用いて(1)のロード命令のフラグ結果を(2) の分岐命
令へフォワーディングすると共に、演算結果用バス９７
を用いてロード結果を(3)の加算命令に送出する。

【００６９】これによって、状態フラグの確定に２サイ
クルかかる命令直後にフラグを参照する命令が配置され
ても、レジスタハザードが生じること無く、命令を実行
することが可能になる。

【００７０】さらに、図４に示したプロセッサを拡張
し、同時に複数指令をフェッチ、デコードできるように
して、ＡＬＵ８５やデータキャッシュ８６へのアクセス
ポート、フォワーディングバス８８等を複数持たせるこ
とによって、複数命令を同時に実行可能にしたスーパー
スカラ型プロセッサについて考える。この場合において
も、待機ステージを設けることによってプログラム順序
を保ちながら、レジスタハザードの発生頻度を低減する
ことが可能になる。特に、スーパースカラプロセッサに
おいてプログラム順序に従って実行する構造を採用した
場合、同時に命令を実行することによってレジスタハザ
ードの発生頻度は高まるので、本発明の効果が顕著にな
る。

【００７１】

【発明の効果】以上説明したように本発明によれば、命
令を複数のパイプラインステージに分けて段階的に処理
を行うマイクロプロセッサにおいて、先行する命令の結
果が後続の命令の参照に間に合わない時に生じるレジス
タハザード、フラグハザードの発生頻度を、out-of-ord
er発行といった複雑なハードウェアを用いること無く、
in-order発行を用い、またレジスタポート数を増やすこ
と無く、待機ステージを用いて実行ステージをずらすこ
とによって、低減することが可能になり、性能向上に寄
与するという効果を奏する。

【図面の簡単な説明】

【図１】本発明の一実施例のプロセッサの構成を示すブ
ロック図である。

【図２】本発明の一実施例のプロセッサにおけるレジス
タハザードチェック／フォワード制御部の構成を示す図
である。

【図３】本発明の一実施例のプロセッサによる実行タイ
ミングを示す図である。

【図４】本発明の第２の実施例のプロセッサの構成を示
すブロック図である。

【図５】本発明の第２の実施例のプロセッサによる実行
タイミングを示す図である。

【図６】R3000プロセッサのパイプライン実行イメージ
を示す図である。

【図７】従来パイプラインプロセッサの構成を示すブロ
ック図である。

【図８】従来プロセッサにおけるレジスタハザードチェ
ック／フォワード制御部の構成を示す図である。

【図９】従来パイプラインプロセッサによる実行タイミ
ングを示す図である。

【図１０】従来パイプラインプロセッサによる命令入れ
替えに後の実行タイミングを示す図である。

【符号の説明】

１命令キャッシュ２分岐予測ユニット３命令デコード発行ユニット４レジスタファイル 5 ALU(Arithmetic Logic Unit) ６データキャッシュ７分岐検証ユニット８パイプラインレジスタ９フォワーディングパス１０トライステートバッファ１１マルチプレクサ１２レジスタ読み出しバス１３レジスタ書き戻しバス１４即値バス１５分岐結果バス２１命令コード２２レジスタアクセス／命令完了ステージデコーダ２３レジスタアドレス比較器２４レジスタハザード検出論理２５フォワーディングパス設定論理２６パイプラインレジスタ２７オペコード２８読み出しレジスタアドレス１２９読み出しレジスタアドレス２３０書き込みレジスタアドレス３１書き込み有効フラグ３２命令完了ステージフラグ４１命令キャッシュ４２分岐予測ユニット４３命令デコード発行ユニット４４レジスタファイル４５ ALU(Arithmetic Logic Unit) ４６データキャッシュ４７分岐検証ユニット４８パイプラインレジスタ４９フォワーディングパス５０トライステートバッファ５１マルチプレクサ５２レジスタ読み出しバス５３レジスタ書き戻しバス５４即値バス５５分岐結果バス５６待機ステージ６１命令コード６２レジスタアクセス／命令完了ステージデコーダ６３レジスタアドレス比較器６４レジスタハザード検出論理６５フォワーディングパス設定論理６６パイプラインレジスタ６７オペコード６８読み出しレジスタアドレス１６９読み出しレジスタアドレス２７０書き込みレジスタアドレス７１待機ステージ使用有無フラグ７２ハザード検出／待機ステージ使用決定論理７３分岐検証用フォワーディングパス設定論理７４分岐命令検出ユニット７５書き込み有効フラグ７６命令完了ステージフラグ８１命令キャッシュ８２分岐予測ユニット８３命令デコード発行ユニット８４レジスタファイル８５ ALU(Arithmetic Logic Unit) ８６データキャッシュ８７パイプラインレジスタ８８フォワーディングパス８９トライステートバッファ９０マルチプレクサ９１レジスタ読み出しバス９２レジスタ書き戻しバス９３即値バス９４分岐結果バス９５待機ステージ９６状態フラグ用バス部９７演算結果用バス部９８状態フラグレジスタ９９状態検証ユニット１００フラグ読み出しバス１０１フラグ書き戻しバス

───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 9/38

Claims

(57)【特許請求の範囲】

【請求項１】命令の処理を複数のステージに分けてパイ
プライン実行を行い、命令をプログラムで指定された順
序に従って実行するプロセッサ装置において、先行する命令と後続の命令との間の依存を検出する依存
検出手段と、パイプラインステージの命令発行ステージと実行ステー
ジの間に、先行する命令との依存が検出された後続の命
令を待機させる待機ステージと、を備え、前記依存検出手段で先行する命令との依存が検出された
後続の命令を、前記命令発行ステージから前記待機ステ
ージに格納して前記実行ステージに進むのを遅らせて依
存を解消するとともに、前記待機ステージから実行ステ
ージに進んだ前記後続の命令と、前記後続の命令に後続
する命令の実行ステージを、同一サイクルに実行できる
構成とされている、ことを特徴とするプロセッサ装置。
【請求項２】前記プロセッサが、予め定められた特定の
命令に限って前記待機ステージに格納することを特徴と
する請求項１記載のプロセッサ装置。
【請求項３】命令の処理を複数のステージに分けてパイ
プライン実行を行い、命令をプログラムで指定された順
序に従って実行するプロセッサ装置において、複数のプログラムの実行状態を示すフラグを保持し、前記フラグの値の組合せに従って、次のサイクルで実行
する命令の格納番地を変更できる分岐命令と、前記フラグを生成する手段と、前記フラグを調べ、分岐命令の成立／不成立を決定する
検証手段と、前記フラグの生成と参照の関係の依存を検出する依存検
出手段と、パイプラインステージの命令デコードステージの命令デ
コードを行う前半部と、フラグ読み出しを行う前記命令
デコードステージの後半部の間において、先行する命令
との間で、前記依存が検出された後続の命令を待機させ
る待機ステージと、を備え、先行する命令に後続の前記分岐命令について、前記依存
検出手段によって検出されたフラグ依存によって、前記
分岐命令が直ちに実行できないと判断された場合、前記
分岐命令を、前記命令デコードステージから、前記待機
ステージに格納して前記依存の解消を待ち合わせ、その
後、前記命令デコードステージの後半部でフラグの値を
読み出し、前記分岐命令の成立／不成立を決定する検証の実行と、
前記分岐命令の後続命令の実行ステージを同一サイクル
に実行できる構成とされている、ことを特徴とするプロ
セッサ装置。
【請求項４】前記プロセッサが、複数の命令を同時に実
行することが可能なスーパースカラ型のプロセッサであ
る、ことを特徴とする請求項３記載のプロセッサ装置。
【請求項５】命令の処理を複数のステージに分けてパイ
プライン実行を行い、命令をプログラムで指定された順
序に従って実行するプロセッサ装置において、パイプラインステージの命令発行ステージと、実行ステ
ージの分岐検証ユニットの間に、先行命令との依存が検
出された分岐命令を待機させるための待機ステージを設
け、先行命令と間の依存を検出する手段を備え、ある分岐命令について先行命令との依存が検出された時
に、前記依存が検出された前記分岐命令を、前記命令発
行ステージから前記待機ステージに進ませ、前記分岐命
令が、前記実行ステージに進むのを遅らさせることによ
って、前記依存を解消するとともに、前記分岐命令の分
岐検証の実行と該分岐命令に後続する命令の実行ステー
ジを同一サイクルに実行することができる構成とされて
なる、ことを特徴とするプロセッサ装置。
【請求項６】命令の処理を複数のステージに分けてパイ
プライン実行を行い、命令をプログラムで指定された順
序に従って実行するプロセッサ装置において、パイプラインステージの命令発行ステージと実行ステー
ジの間に待機ステージを設け、ある命令と先行命令との依存が検出された時に、前記依
存が検出された前記ある命令を、一時的に前記待機ステ
ージで待機させ、前記依存が検出された前記ある命令
が、前記実行ステージに進むのを遅れさせることによっ
て、依存を解消するとともに、前記ある命令と前記ある
命令に後続する命令の実行ステージを同一サイクルに実
行する、ように制御することを特徴とするプロセッサの
実行制御方法。
【請求項７】命令の処理を複数のステージに分けてパイ
プライン実行を行い、命令をプログラムで指定された順
序に従って実行するプロセッサ装置において、命令発行ステージと実行ステージの間に待機ステージを
用意し、ある命令が先行命令と依存が存在し前記先行命
令の命令完了のタイミングが、発行しようとする前記命
令のデータ供給に間に合わない場合に、前記ある命令
を、一旦、前記待機ステージで待機させて前記先行命令
の命令完了を待ち合わせ、前記待機ステージから実行ス
テージに進んだ前記ある命令と、前記ある命令に後続す
る命令の実行ステージを同一サイクルに実行するように
し、これにより、命令発行の空きスロットを生じさせる
こと無く、パイプラインを動作させることを可能とした
ことを特徴とするプロセッサの実行制御方法。