JP2003263313A

JP2003263313A - デジタルプロセッサおよび命令の選択方法

Info

Publication number: JP2003263313A
Application number: JP2002352041A
Authority: JP
Inventors: Sivaram Krishnan; シバラム・クリシュナン
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2002-03-08
Filing date: 2002-12-04
Publication date: 2003-09-19
Also published as: US7003649B2; US20030172258A1

Abstract

(57)【要約】【課題】複雑な分岐予測を利用せずに分岐ペナルティ
を低減するための技術。【解決手段】データプロセッサは、分岐命令を有する
命令ストリームを実行するための命令パイプラインを少
なくとも１つ備えている。分岐命令の選択、すなわちネ
クストインライン命令またはターゲット命令の選択は、
分岐命令をデコードする間に生成される制御バイパス信
号による選択に役立てられている。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、一般的にはデジタ
ルプロセッサアーキテクチャに関し、更に詳細にはパイ
プライン型のデジタルプロセッサ内で分岐ペナルティを
低減するメカニズムに関する。

【０００２】

【従来の技術】デジタルプロセッサの性能を増大するに
は様々な技術および設計が伴う。そのような技術の一例
は、メインメモリアクセスから生じるボトルネックを緩
和するための小さくて速いメモリ（すなわちキャッシ
ュ）の使用である。もう一つは、並列処理のコンセプト
を使った命令実行ユニットを設計して、命令実行タスク
をオーバーラップすることである。そのような命令実行
ユニットの設計は、一般的には「パイプライン」設計と
呼ばれ、通常少なくともフェッチ、デコード、および、
実行ステージを含んでいる。パイプライン設計によっ
て、命令が、メモリ内で現れる順番に実行可能となる
が、初期命令がフェッチ、デコード、および実行段階を
終了する前に、新しい命令がこれらの段階を開始可能と
なる。並列処理におけるこのような形式により性能はほ
ぼ向上可能となるが、ある困難さなくして向上不可能で
ある。

【０００３】パイプライン設計を含むデジタルプロセッ
サの最適性能は、そのパイプラインが十分に保持される
ことを必要とする。入力ステージが特定サイクルで使用
されていない場合には、この未使用が全てのパイプライ
ンを通して最終的に広まってパイプライン効率を損なう
だろう。命令が、命令シーケンス内で全体的に十分近く
に生じる先行命令のデータまたはオペランドに依存し
て、矛盾する結果の可能性を上げる時に、パイプライン
型のデジタルプロセッサの最適性能に対する１つの障害
が起こる。このような障害を回避する一つのアプローチ
は「データバイパス」、「データ転送」、または「オペ
ランド転送」と呼ばれ、「データバイパス」、「データ
転送」または「オペランド転送」がプロセッサの通常デ
ータパスを通して利用可能になる前に、最後のユーザに
データを送ることを伴う。

【０００４】最適性能に対する別の障害は、パイプライ
ン設計の悩みの種である条件付き分岐である。なぜなら
ば、分岐ターゲットが決定されるまで、条件付き分岐が
一時的にパイプラインを停止させることができるからで
ある。この問題を軽減するためによく利用されるアプロ
ーチは遅延分岐および分岐予測を伴っている。要する
に、遅延分岐の背後にあるコンセプトは、パイプライン
に分岐命令を導入することであり、そのパイプライン
は、分岐が選ばれる前に命令ストリーム用に実行される
ネクストインライン命令に続く。これにより、ブロック
の最終命令が実行されている間に、分岐命令が、分岐を
決定する手順を設定開始可能となる。

【０００５】分岐予測は、どの分岐経路を選ぶのかとい
う見積もりである。その見積もりに基づいて、見積もら
れた命令ストリームに対して分岐がなされる。その見積
もりが正しくない場合には、見積もられた命令ストリー
ムが、正しい命令ストリームを選んで除去されなければ
ならない。そのような見積もりが大部分正しいと、分岐
予測は非常に効率的になることがある。

【０００６】

【発明が解決しようとする課題】一般的に、分岐命令は
２つの異なったタイプ：単純または複雑なタイプからな
る。単純な分岐命令は、通常、分岐を決定する条件がデ
コードの直ぐ前に、または、デコード中に知られる命令
である。比較命令の何らかの形式によって先行される分
岐命令のとおり、無条件の分岐がこのタイプから成る。
複雑な分岐命令は、分岐命令が実際に実行されるまで、
分岐を選ぶ条件が知らされない命令である。より速いク
ロックスピードでデジタルプロセッサを動かすためにパ
イプラインの奥行きが増大されると、複雑な分岐命令に
よって課されるペナルティをもたらすことになるが、分
岐予測によってそのペナルティをある程度まで緩和でき
る。

【０００７】分岐予測は複雑であり、そして設計および
検査に対して高価になることがある。分岐予測によって
達成される性能利益は、予測アルゴリズムの効率に依存
し、その予測アルゴリズムの多くは、相対的に大容量の
記憶装置と、非常に高価で複雑なハードウェアとを利用
している。

【０００８】従って、複雑な分岐予測を利用せずに分岐
ペナルティを低減するための技術が、パイプライン設計
技術を使用した高速デジタルプロセッサの設計および動
作に対して顕著な利点になる。

【０００９】

【課題を解決するための手段】パイプライン設計におけ
る並列処理を利用した実行ユニットを備えたデジタルプ
ロセッサに関連して記述される。通常、１つの分岐命令
は、何らかの条件に基づいて２つ（時にはそれ以上）の
命令のうち１つに移す。２つの命令の間で選択する分岐
が選ばれる前に、１つの分岐に従う２つの命令の位置
（すなわちアドレス）が知らされることを、本発明は利
用している。それ故に、分岐命令によって示された分岐
決定を表示する制御信号が最も速く可能な瞬間に転送さ
れて、分岐に適用するための２つの命令の何れかを選択
して分岐を達成する。

【００１０】本発明は、データバイパス内で使用される
技術と類似の技術に適用する。２つの命令の間の依存
性、すなわち、命令ストリーム内の先行命令と後続命令
との間の依存性が、後続命令をデコードし続けている時
に知らされることに、データバイパスの技術は頼ってい
る。レジストされたデータと、先行命令によって利用可
能なデータとは、たとえば、マルチプレクシング機能に
適用される。次の命令がレジストされたデータを使用で
きる場合には、そのデータはマルチプレクシング機能に
よって選択および提供される。しかしながら、レジスタ
を使用することが、おそらく正しいデータでまだ書き込
まれていなかったために矛盾した結果を引き起こす場合
には、先行命令によって作り出されたデータがマルチプ
レクシング機能により選択され、レジスタを「バイパス
する」ために使用され、そして利用可能になる。データ
バイパス技術は、データ値が時間の前に知らされること
に頼っている。

【００１１】それ故に、本発明は、分岐が選択した命令
が時間の前に知らされること、すなわち、分岐条件が計
算されて初めて知らされるのが選択であることを利用し
ている。このように、本発明によれば、分岐が決定しな
ければならない２つの命令がマルチプレクサに適用され
る。マルチプレクサによってなされた選択は、分岐命令
に基づく条件が知らされる時に作り出されるバイパス制
御信号により制御される。単純な分岐命令に対して、そ
の条件は、パイプラインのデコードステージの間で知ら
され、それ故に、パイプラインに適用するための適切な
命令を選択するために使用される。複雑な分岐命令に対
して、バイパス制御信号は、遅延の少なくとも１サイク
ルを必要とするので、第１の実行ステージにより作り出
されるだろう。遅延における少なくとも１サイクルを必
要とする。

【００１２】代わりの態様では、複雑な命令によって作
り出される１サイクル遅延は、２つの命令における部分
的なデコードを提供し、パイプラインの入力に対して部
分的にデコードされた命令をマルチプレクシングするこ
とにより最小化され得る。

【００１３】本発明によって達成される利点のうちの１
つは、これまでに出くわした分岐ペナルティが緩和され
得ることである。さらに、ターゲット命令のプリデコー
ドまたは部分的なデコードが必要である場合には、この
ことが回路系における最小数の付加物だけをもたらし得
る。第２のデコーダが何らかの複雑さをハードウェアに
加え、そして一方、オリジナルなデコードロジックのレ
プリカを伴うことがもっともありそうに思われる。分岐
プレディクターの使用は完全に新しい設計を必要とす
る。

【００１４】本発明におけるこれらおよび他の利点は、
発明の詳細に記述され、添付図面に関して選ばれた以下
を読めば、当業者にとって明らかになるだろう。

【００１５】

【発明の実施の形態】次に、本発明における実施の形態
を説明する前に、専門用語の説明が、本発明における以
下の記載を理解する際に役立つだろう。第１に、分岐が
選ばれた場合には「ターゲット」命令、または、分岐が
選ばれなかった場合には「ネクストインライン」命令の
何れかによって、分岐命令が続けられる。第２に、分岐
命令は、「単純な」分岐命令または「複雑な」分岐命令
の何れかになる。単純な分岐命令は、以前に決定された
条件（たとえば比較命令によって）に、または、分岐命
令に潜在する条件（たとえば無条件命令）に分岐の決定
が依存するものである。複雑な分岐命令は、分岐命令の
実行の間に分岐決定が行われる（たとえば、比較命令が
分岐命令の一部分である）ものである。そこで、頭の中
でこのような専門用語を使って、本発明の実施の形態が
記述される。

【００１６】さて、図１を参照すると、ブロック図の形
式で、規定されたインタフェースに繋がるプロセッサ、
モジュール、または機能ユニットの集合体として記述さ
れることもあるデジタルプロセッサシステム１０が例示
されている。機能ユニットのそれぞれは、回路系の大き
な集合体から成ることもあり、そして、サイズまたは構
成の点で顕著に変わることもある。その回路系の特性は
幾分大ざっぱに規定されている。以下で非常に詳細に説
明されるこれらの機能ユニットは、メモリからの命令お
よびデータをフェッチし、フェッチされた命令を予備的
に処理し、実行されるべき命令をスケジューリングし、
その命令を実行し、メモリ処理を管理し、および、外部
回路系およびデバイス（図示せず）にインタフェースす
る機能を実行する。

【００１７】図１が示すように、デジタルプロセッサシ
ステム１０はバスインタフェースユニット（ＢＩＵ）１
２を備え、バスインタフェースユニット１２は、メイン
メモリ（図示せず）に接続するシステムバス１４へのリ
クエスト、および、システムバス１４からのリクエスト
を処理するように動作する。命令フローユニット（ＩＦ
Ｕ）１６はプロセッサシステムのパイプラインの前端に
あり、そして、フェッチ、プリデコーダ（使用された場
合）、デコーダ、イシュー、および、分岐動作を制御す
る。実行ユニット（ＥＵ）１８は、浮動小数点および／
または整数の計算のような演算と、ビットシフトおよび
シャッフル操作と、他のデータ動作、および、整数およ
びマルチメディア命令を処理するために必要な操作とを
行う。メインプロセッサのデータパスは命令キャッシュ
ユニット（ＩＣＵ）２０を備えている。

【００１８】さらに、ロード／ストアユニット（ＬＳ
Ｕ）２２は全てのメモリ命令を処理し、データキャッシ
ュ制御ユニット（ＤＣＵ）２４はデータキャッシュ（図
示せず）とデータ・トランスレーション・ルッカサイド
・バッファ（図示せず）とを管理する。一般的な実施の
形態では、特定の構成成分および集積密度は、特別なア
プリケーションの要求を満たすように選択された設計選
択の問題であるけれども、図１で示される機能ユニット
が単一の集積回路内に集積されることもある。

【００１９】簡略化されたブロック図を例示する図２
は、外部インタフェーシングユニットのみならず内部ブ
ロックを含めて、ＩＦＵ１６を実行するハードウェアリ
ソースを示す。図２が示すように、動作に従ってＩＦＵ
１６を次の機能ブロックに分割できる：命令キャッシュ
制御ユニット（ＩＣＣ）３０，フェッチユニット（Ｆ
Ｅ）３２，分岐ユニット（ＢＲ）３４，デコーダ３６，
パイプライン制御ユニット３８，レジスタファイル４
０，およびパイプファイル４２。

【００２０】ＩＦＵ１６は、プロセッサシステム１０の
範囲内で命令およびデータのフローを調整するように動
作する。その主要な動作は、フェッチユニット３２を使
ってＩＣＵ２０からの命令をフェッチし、デコーダ３６
内で命令をデコードすることである。ＩＦＵ１６は命令
の入力依存性をチェックし、レジスタファイル４０から
オペランドを読み出し、デコードされた命令とそのオペ
ランドとを実行ユニット（たとえばＥＵ１８とＬＳＵ２
２）に送る。さらに、キャッシュミスの場合にはＩＣＵ
２０内の命令キャッシュをより多くの命令で満たすため
に、ＩＦＵ１６は、システムバス１４（図１）を介して
外部またはメインメモリ（図示せず）へのアクセス用
に、ＢＩＵ１２に接続されている。

【００２１】デジタルプロセッサシステム１０内での順
序付け役割のため、ＩＦＵ１６は、殆ど全ての他の機能
ユニットに接続するだろう。ＩＦＵ１６とＢＩＵ１２と
の間のインタフェースは、命令キャッシュにロードする
命令を初期化するだろう。以下説明されるように、ＩＦ
Ｕ１６とＥＵ１８とＬＳＵ２２との間のインタフェース
は、本発明に関連されるものを含めて、命令、オペラン
ド、結果、および制御信号を送ると共に受け取るための
パスを提供して命令の実行を可能にする。これらのイン
タフェースに加えて、適切なハンドラーを起動するため
に、ＩＦＵ１６はまた、受け取られた外部割込の間で何
らかの内部的例外を伴ってサンプリングすると共にアー
ビトレートする割込コントローラ（図示せず）から様々
な外部割込信号を受け取ることもある。

【００２２】パイプファイル４２は、実行ユニットから
結果を収集するように動作し、その結果をレジスタファ
イル４０に戻して書き込む。ひとたび命令がデコードさ
れると、パイプライン制御ユニット３８は、パイプライ
ンへの命令の適用に注意し、残ったパイプラインステー
ジを通して命令の実行を監視する。パイプライン制御ユ
ニット３８の主要な機能は、命令がスムーズかつ正確に
実行されていることを確保し、そして、(i) ソースオペ
ランドが準備できるまで、または、必要とされる時にソ
ースオペランドが準備可能になるまで、命令がデコーダ
３６内で保持されること、(ii)内部／外部イベントのみ
ならず命令によって課されるシンクロナイゼイションお
よびシリアライゼイション要件が観測されること、およ
び、(iii) データオペランド／テンポラリ結果が正確に
転送されることを確保する。

【００２３】好適には、デジタルプロセッサシステム１
０は「準備ターゲット」（ＰＴ）命令を使ってターゲッ
ト命令のアドレスを計算する。ＰＴ命令がデコードされ
ると、ＢＲ３４は、プログラムカウンタ（図示せず）の
内容を、ターゲットアドレスを計算するためのＥＵ１８
に送る。その結果が、ＢＲ３４のインラインバッファ領
域（ＩＢＡ）３５内に格納される。その後、ＢＲ３４が
別の方法で動いていない時に、ターゲットアドレスは、
ＦＥ３２に送られ、ＦＥ３２はターゲットアドレスを使
ってターゲット命令バッファ（ＩＡＲ．Ｔ）３３をター
ゲット命令にプリロードする。ＢＲ３４は、デコードさ
れた分岐命令をデコーダ３６から処理し、ＥＵ１８から
分岐条件を検索し、異なったフェッチアドレスにＦＥ３
２を向けることによって命令実行の場所を変更する。Ｂ
Ｒ３４はまた、プログラムカウンタ（図示せず）および
ＩＣＣ３０へのアクセスを必要とする命令を処理する。

【００２４】さて、図３Ａおよび図３Ｂを参照して、本
発明を組み込んだ実行パイプライン構造の一例が示され
ている。個々の例は、スカラー（すなわち単一パイプラ
イン）、単一イシューアーキテクチャーである。そのイ
ンプリメンテーション（実施例）は３つの実行ステージ
（ＥＸＥ＿１、ＥＸＥ＿２、およびＥＸＥ＿３）を示す
が、３つより多くのまたは３つより少ない実行ステージ
が利用されることもある。多くの命令は単一サイクルで
実行される。本発明は、分岐命令制御の包括的な促進が
高い命令効率を達成可能にする特徴を提供する。

【００２５】図３Ａが示すように、符号５０で一般的に
示されたパイプラインは７つのステージを備えている：
フェッチステージ５２、デコードステージ５６、３つの
実行ステージ５８，６０，６２、および、ライトバック
ステージ６４。フェッチステージ５２は、ＦＵ３２（図
２）を介してフェッチ動作を実行して順次ＩＣＵ２０か
ら命令をリクエストすると共に、パイプライン５０の第
１ステージへの適用、すなわちデコードステージ５６へ
の適用のためにその命令を決定するように動作する（命
令をプリデコードすることは有益であることもあり、も
し有益ならば、パイプライン５０の第１ステージはプリ
デコードステージを含むこともある。）。

【００２６】デコードステージ５６は、オペランド依存
性のチェック、レジストファイル読み出し、および、実
行ユニットへの命令イシューだけでなく、完全な命令デ
コード（プリデコーディングが実行されない場合）を処
理する。また、ある分岐命令（すなわち、以下もっと完
全に説明される「単純な」分岐命令）が検出されて、Ｆ
Ｕ３２（図２）に繋げられ本発明（ＳＥＬ＿１）に従う
バイパス制御信号を発生させるのは、デコードステージ
内である。それから、ＦＵ３２は、以下に記載される方
法でターゲットアドレスまたはネクストインラインアド
レスを分岐命令に提供する準備を行うことができる。

【００２７】第１の実行ステージ５８は、メモリ用のア
ドレス計算および分岐命令だけでなく全ての単一サイク
ル整数命令の実行を行う。第２の実行ステージ６０は、
全ての多数サイクル整数／マルチメディア命令用の実行
のうち第２サイクルを実行する。さらに、それはロード
命令用の第２サイクルに対応している。第３の実行ステ
ージ６２は、全ての多数サイクル整数／マルチメディア
命令用の実行のうち第３サイクルを実行し、ロード命令
用の完成ステージになる。ライトバックステージ６４
は、命令によって変形される全てのアーキテクチャ状態
（たとえば、汎用レジスタまたはプログラムカウンタな
ど）が更新される場所である。何らかの例外のうち、こ
のステージに達する命令の例外状態はこのステージ内の
更新を防止できる。

【００２８】上記の分岐命令を説明したように、さしあ
たり脱線するのは一般的に２つタイプである：単純また
は複雑。単純な分岐命令は、予め構築されまたは予め設
定された条件に基づいて、どのフローパスを選ぶべきか
の決定を作り上げる。これらの命令は、使用可能性のあ
る条件を構築する比較命令の何らかの形式で、一般的に
先行される。他方、複雑な命令は一般的に比較動作を備
えている。単純な分岐命令によってどのフローパスが選
択されるかの決定を、デコードステージで行うことがで
きる。しかしながら、複雑な分岐命令は、分岐条件が実
行の第１の（または、もっと後の）ステージで決定され
ることを必要とする。図３Ａは、命令選択用のＦＵ３２
に繋げられた必要なバイパス制御信号（「ＳＥＬ＿
２」）を作り出すために、第１の実行ステージＥＸＥ＿
１５８により決定されるべき分岐命令を示す。これは
図４で例示され、発明の機能的な特徴を概略的に表示し
ている。

【００２９】図４を参照すると、信号ライン７０はバイ
パス制御信号（ＳＥＬ＿１）をデコードステージ５６か
ら、ＦＵ３２内に収容されたＯＲゲート７２の入力に運
ぶ。同様に、第２のバイパス制御信号（ＳＥＬ＿２）は
信号ライン７４によって、ＥＸＥ＿１ステージ５８から
ＯＲゲート７２の第２入力に運ばれる。ＯＲゲート７２
の出力は、入力としてＩＡＲ．Ｔレジスタ３３（ターゲ
ット命令）も受け取るマルチプレクサ７６と、インライ
ンバッファエリア（ＩＢＡ）３５（ネクストインライン
命令を含む）との制御（Ｃ）に適用される制御バイパス
信号である。ＳＥＬ＿１またはＳＥＬ＿２信号の何れか
がアサートされると、ＯＲゲート７２が制御バイパス信
号を作り出して、マルチプレクサ７６に、ＩＡＲ．Ｔレ
ジスタ３３内に収容されたターゲット命令を選択させる
だろう。ＳＥＬ＿１またはＳＥＬ＿２信号の何れもがア
サートされない場合には、制御バイパス信号はアサート
されず、マルチプレクサ７６は、ＩＢＡ３５内に収容さ
れたネクストインライン命令を選択するだろう。こうし
て、分岐命令の結果を使って２つの利用可能な命令のう
ち１つを選択する：ターゲット命令またはネクストイン
ライン命令。

【００３０】単純な命令に対して、本発明の動作を例示
するタイミング図が図５に示されている。図５が示すよ
うに、分岐命令（ＢＲ）のフェッチより前のある時間
で、比較命令（ＣＭＰ）がフェッチされ（サイクル
ｎ）、デコードされ（サイクルｎ＋１）、そして、サイ
クルｎ＋２の間に実行される。ＣＭＰ命令の結果はバイ
パスを通してサイクルｎ＋２内で利用可能になる。

【００３１】ＣＭＰ命令がデコードされ続けている間
に、または、その後に続いて、ＢＲ命令がフェッチされ
（サイクルｎ＋１）、次のサイクル（ｎ＋２）の間にデ
コードステージに適用される。これが単純な命令である
ので、分岐命令がデコードステージ内に存在する時に、
分岐結果が知らされる。それ故に、ＳＥＬ＿１信号がア
サートされて（テスト状態がそのように指示する場合）
ＩＡＲ．Ｔレジスタ３３からのターゲット命令を選択す
ることもある。ＳＥＬ＿１信号がアサートされない場合
には、インラインバッファエリア３５の内容、すなわ
ち、ネクストインライン命令が選択される。それから、
選択されたターゲットまたはネクストインライン命令は
デコードステージ５６に適用される。分岐におけるこれ
らのタイプに対して、分岐予測は必要ではない。

【００３２】複雑な分岐命令は少し難しい。なぜなら
ば、命令が第１のＥＸＥ＿１ステージ５８（図３Ａ）内
に存在する時のみ、分岐結果が知らされるからである。
こうして、たとえターゲット命令が利用可能であって
も、少なくとも１サイクルの遅延が必要とされることも
ある。図６Ａおよび図６Ｂはそれぞれ、正しい予測（図
６Ａ）と正しくない予測（図６Ｂ）とを備えた複雑な分
岐命令を例示している。複雑な分岐（ＢＲ．Ｃ）は、動
きのない分岐命令、または、動きのある分岐命令の何れ
かを使用することもある。図６Ａを参照すると、ＢＲ．
Ｃ命令はサイクルｎでフェッチされ、サイクルｎ＋１で
デコードされている。必要な条件（すなわち比較動作）
が分岐命令内に含まれているから、分岐命令が、通常、
第１の（ＥＸＥ＿１）ステージ内のみで実行されるま
で、必要な条件は決定され得ない。しかしながら、サイ
クルｎ＋１の間でＢＲ．Ｃがデコードされているうち
に、デコードステージが予測を検出でき、予測されたネ
クスト命令（すなわち、ネクストインライン命令または
ターゲット命令）をフェッチでき、ＩＡＲ．Ｔレジスタ
３３またはインラインバッファエリア３５内でそれらを
それぞれロードできる。

【００３３】サイクルｎ＋２では、ＢＲ．Ｃ命令は、Ｅ
ＸＥ＿１パイプラインステージ５８内で実行されてフロ
ーパスを決定し、この例では予測は正しく、ＳＥＬ＿２
信号がアサートされて（または、予測が命令すると、Ｓ
ＥＬ＿２信号がアサートされず）ＭＵＸ７６を介して予
測されたネクスト命令を選択する。

【００３４】万一予測が正しくない場合には、図６Ｂが
例示するように、１サイクルの遅延が存在するだろう。
図６Ｂは、パイプライン内に挿入されたバブル（動作を
しない、すなわちＮＯＰ命令）を示し、ＢＲ．Ｃ命令に
従ってどのフローパスを選ぶべきかを決定するための時
間を与える。それから、その決定がなされ、ＥＸＥ＿１
パイプラインステージ５８の間でＳＥＬ＿２信号がアサ
ートされ、または、アサートされないだろう。再び、そ
の決定により、ネクスト命令またはターゲット命令とし
てフェッチするためにＩＡＲ．Ｔレジスタ３３またはイ
ンラインバッファエリア３５の一方が、すなわち、その
時にサイクルｎ＋３の間でデコードステージに適用され
るＩＡＲ．Ｔレジスタ３３またはインラインバッファエ
リア３５の一方が選択されるだろう。

【００３５】理解されるように、最悪の場合でさえ、た
った１つのバブルが存在する。すなわち、誤った予測の
下での分岐ペナルティは１つだけである。だから、たと
え分岐予測が存在しなかった場合でも、ペナルティは１
サイクルより悪くなることはない。

【００３６】しかしながら、分岐予測を使って、分岐予
測が選ばれると、ターゲットデコードは１サイクル速く
起こることができる。

【００３７】単純な分岐命令、すなわちＳＥＬ＿１用の
制御信号がパイプライン５０のデコードステージ５６内
に遅れてアサートされるように、デジタルプロセッサシ
ステム１０が特別に設計されることもある。もしそうな
らば、分岐命令のデコードに従うサイクルを備えたネク
スト命令（インラインまたはターゲット）をデコードす
るのに十分な利用可能時間がないこともある。そのよう
な場合には、一方で、プリデコード回路がＩＡＲ．Ｔレ
ジスタ３３とインラインバッファエリア３５との間での
パスの中に加えられることもあり、他方で、マルチプレ
クサ７６が加えられてインライン命令およびターゲット
命令の両方を部分的にまたは完全にデコードすることも
ある。このような付加物を加えることがハードウェアの
複雑さを増大させ、そして一方、分岐プレディクター用
に必要とされるハードウェアよりも実質上簡単そうに思
われる。さらに、分岐プレディクターが全く新しい設計
を必要とするのに対して第２のデコーダは、オリジナル
なデコードロジックのレプリカを伴うだろう。しかし、
制御バイパスを処理するための付加的なロジックは必要
とされるだろう。そして、実行される特別なプレデコー
ド設計が様々に変更できるうちに、特別な要求に従っ
て、プレデコードの２つの例が図７および図８によって
例示される。

【００３８】最初に、図７を参照すると、デコーダ８０
（ターゲット命令用）とデコーダ８２（ネクストインラ
イン命令用）とによって実行されるプレデコードが例示
されている。デコーダ８０，８２はそれぞれＩＡＲ．Ｔ
３３とＩＢＡ３５との内容を受け取って、それぞれに対
応する命令からソースレジスタの識別（ＳＲＣ１，ＳＲ
Ｃ２）を抜き取る。ソースレジスタは、実行用のオペラ
ンドコード（ＯＰＣＯＤＥ）と共に、そのような命令に
よって使用されるオペランドを備えている。この例のプ
レデコーダ設計を調整するために、マルチプレクサ７６
は、３つの二入力マルチプレクサ７６Ａ，・・・，７６
Ｃを含むように再構成されている。マルチプレクサの入
力選択は、前述のように、ＯＲゲート７２によって生成
される制御バイパス信号の状態により制御される。制御
バイパス信号の状態は、分岐の条件に依存して、ターゲ
ット命令またはネクストインライン命令の何れかのソー
スアドレスとＯＰＣＯＤＥとを選択するだろう。

【００３９】図７はまた、映像的に付加的なマルチプレ
クサ７６Ｉを示して、望まれるまたは必要とされる付加
的なプリデコード値の選択を表示している。

【００４０】さて、図８を参照すると、デコードバイパ
ス転送用でプリデコードの幾分異なったタイプが示され
ている。図８Ａは、４つの命令（Ｉ１，Ｉ２，・・・，
Ｉ４）から成る命令ストリームの一部分を例示してい
る。また、図８Ａでは、各命令がサイクルｎ，ｎ＋１，
・・・，ｎ＋７の間で通過する実行パイプラインのステ
ージが示されている。簡単のために、図３Ｂ、図５及び
図６で示された６つのステージに対抗されるように、図
８Ａは、５つのステージだけ：Ｉ（命令フェッチ）、Ｄ
（命令デコード）、Ｅ（実行）、Ａ（メモリアクセ
ス）、および、Ｓ（セーブまたはライトバック）を有す
る実行パイプラインを示している。しかしながら、当業
者にとって、本発明を使用することが実行パイプライン
のステージ数に必ずしも依存しないことは明らかであ
る。

【００４１】第１の命令Ｉ１は、ＡＤＤ動作用のソース
オペランドを含んだレジスタ（Ｒ１，Ｒ２）のアドレス
を備えたＡＤＤ命令として示されている。ＡＤＤ命令は
また、その結果が格納されるレジスタアドレス（Ｒ３）
を備えている。同様に、第２の命令Ｉ２、すなわち減算
（ＳＵＢ）命令は、ソースオペランド用のレジスタアド
レス（Ｒ１０，Ｒ２０）と、その結果用のレジスタアド
レス（Ｒ３０）とを備えている。

【００４２】命令Ｉ３は、選択された分岐パスにおける
第１の命令によって従われる分岐命令であり、分岐が選
ばれた場合にはターゲット命令になり、分岐が選ばれな
かった場合にはネクストインライン命令になる。ターゲ
ット命令は、レジスタＲ３およびレジスタＲ４のコンテ
ンツの間でＡＮＤ動作として示されている。ＡＮＤ動作
の結果は、アドレスＲ５によって識別されるレジスタ内
に格納されるだろう。あるいはまた、ネクストインライ
ン命令は、アドレスＲ３０，Ｒ４０によって識別される
レジスタのコンテンツ上で実行されるＯＲ動作であり、
その動作の結果はレジスタアドレスＲ５０内に配置され
るだろう。

【００４３】コンパレータ（９０，９２，・・・，９
６）のバンクは、分岐命令（Ｉ３）に従う選択された命
令が、すなわち、ターゲット命令またはネクストインラ
イン命令がデータパスを必要とするか否かを決定する。
コンパレータ９０，９２，９４，９６は、（１）２つの
命令のうち一方が選択され、デコード（Ｄ）ステージ内
に存在する時にターゲット命令およびネクストインライ
ン命令によって使用されるオペランドのレジスタアドレ
スと、（２）同じサイクルのメモリアクセスステージの
間に書き込まれるレジスタアドレスとを比較することに
よりプリデコードを実行するように動作する。こうし
て、図８Ａが示すように、分岐によって選択された命
令、すなわちターゲット命令またはネクストインライン
命令の何れかは、サイクルｎ＋４の間にパイプラインの
デコード（Ｄ）ステージに適用され、そして同時に、Ｓ
ＵＢ命令（命令Ｉ２）はメモリアクセスステージ（Ａ）
内に存在して、Ｒ３０のアドレスを備えたメモリレジス
タにアクセスする。このように、コンパレータ９０，９
２は、ターゲット命令（Ｒ３，Ｒ４）用のオペランドを
含んだレジスタアドレスと、アクセスステージ（レジス
タＲ３０）によってアクセスされるレジスタのアドレス
とを比較する。同様に、コンパレータ９４，９６は、同
じ比較を実行する。なお、ターゲット命令と、レジスタ
Ｒ３，Ｒ４を使ったＡＮＤ命令とが選択された場合に
は、整合性がない。すなわち、ターゲット命令（Ｒ３，
Ｒ４）によって使用されるソースレジスタは、命令Ｉ２
用のアクセスステージの間に書き込まれ続けない。しか
しながら、インライン命令が選択された場合には、ＯＲ
機能用に必要とされるオペランドの１つを含んだレジス
タ、すなわちレジスタＲ３０が命令Ｉ２のＡステージ実
行内でサイクルｎ＋４の間に書き込まれることを、コン
パレータ９４が検出する。従って、分岐命令がマルチプ
レクサ１００，１０２を動作させてソースレジスタＲ３
０用のデータバイパス信号を形成して、それをデコード
Ｄまたは実行ステージＥ内のＯＲ命令に転送する。

【００４４】

【発明の効果】分岐命令によって作り出される分岐決定
を表示する制御信号が最も速く可能な瞬間に転送され
て、分岐に適用するための２つの命令の何れかを選択
し、分岐を達成する。

【００４５】本発明は、分岐が選択した命令が時間の前
に知らされること、すなわち、分岐条件が計算されて初
めて知らされるのが選択であることを利用している。こ
のように、本発明によれば、分岐が決定しなければなら
ない２つの命令がマルチプレクサに適用される。マルチ
プレクサによってなされた選択は、分岐命令に基づく条
件が知らされる時に作り出されるバイパス制御信号によ
り制御される。単純な分岐命令に対して、その条件は、
パイプラインのデコードステージの間で知らされ、それ
故に、パイプラインに適用するための適切な命令を選択
するために使用される。複雑な分岐命令に対して、バイ
パス制御信号は、遅延における少なくとも１サイクルを
必要とするので、第１の実行ステージにより作り出され
るだろう。

【００４６】本発明によって達成される利点のうちの１
つは、これまでに出くわした分岐ペナルティが緩和され
得ることである。さらに、ターゲット命令のプリデコー
ドまたは部分的なデコードが必要である場合には、この
ことが回路系における最小数の付加物だけをもたらし得
る。

【００４７】本発明は、分岐命令制御の包括的な促進が
高い命令効率を達成可能にする特徴を提供する。

【図面の簡単な説明】

【図１】本発明を使用するためのデジタルプロセッサの
アーキテクチャを概略的に例示するブロック図である。

【図２】図１の命令フローユニットを示すブロック図で
ある。

【図３Ａ】図１のデジタルプロセッサで使用されるパイ
プライン設計の概念的な図である。

【図３Ｂ】図３Ａで示されたパイプライン設計の動作を
例示するタイミング図である。

【図４】単一デコーダを使って、本発明による分岐予測
を選択するために使用される転送構造の図解的な表示の
図である。

【図５】単純な分岐命令に応答して、本発明による経路
選択を例示するパイプラインのタイミング図の一例であ
る。

【図６Ａ】分岐予測を使った複雑な折返し分岐命令に基
づいて、本発明による分岐経路の選択をそれぞれ示す代
表的なパイプラインのタイミング図である。

【図６Ｂ】分岐予測を使った複雑な折返し分岐命令に基
づいて、本発明による分岐経路の選択をそれぞれ示す代
表的なパイプラインのタイミング図である。

【図７】一つのプリデコード例を示す図である。

【図８Ａ】各命令に対して実行ダイアグラムと共に命令
ストリームを示す図である。

【図８Ｂ】図８Ａの命令用にチェックされ、データ転送
を提供するプリデコーダの一例を示す図である。

【符号の説明】

１０デジタルプロセッサシステム１２バスインタフェースユニット１４システムバス１６命令フローユニット１８実行ユニット２０命令キャッシュユニット２２ロード／ストアユニット２４データキャッシュ制御ユニット３０命令キャッシュ制御ユニット３２フェッチユニット３４分岐ユニット３６デコーダ３８パイプライン制御ユニット４０レジスタファイル４２パイプファイル５０パイプライン５２フェッチステージ５６デコードステージ６４ライトバックステージ７０信号ライン７２ＯＲゲート７６マルチプレクサ８０デコーダ１８２デコーダ２９０コンパレータ９２コンパレータ９４コンパレータ９６コンパレータ１００マルチプレクサ１０２マルチプレクサ

Claims

【特許請求の範囲】

【請求項１】比較命令および分岐命令を含む命令をデ
コードおよび実行するように動作するデジタルプロセッ
サであって、ターゲット命令を保持するための第１記憶装置と、ネクストインライン命令を保持するための第２記憶装置
と、前記第１および第２記憶装置を受け取るための入力を有
するマルチプレクサと、前記比較命令を受け取りデコードし、前記比較命令によ
って識別される少なくとも２つの値を比較し、比較がう
まくいった場合には適正な条件を作り出し、それから、
前記分岐命令を受け取り、前記マルチプレクサに結合さ
れたバイパス制御信号をアサートし、前記条件が真の時
にパイプラインへの入力用に前記ターゲット命令を選択
する実行ユニットとを備えることを特徴とするデジタル
プロセッサ。
【請求項２】請求項１に記載のデジタルプロセッサに
おいて、前記実行ユニットが、前記命令をデコードするためのデ
コードステージを有する複数のパイプラインステージか
ら成ることを特徴とするデジタルプロセッサ。
【請求項３】請求項２に記載のデジタルプロセッサに
おいて、第１条件の分岐命令が、前記デコードステージに適用さ
れた時に、前記バイパス制御信号をアサートさせること
を特徴とするデジタルプロセッサ。
【請求項４】請求項１に記載のデジタルプロセッサに
おいて、前記バイパス制御信号がアサートされない時に、前記マ
ルチプレクサが前記ネクストインライン命令を選択する
ことを特徴とするデジタルプロセッサ。
【請求項５】請求項４に記載のデジタルプロセッサに
おいて、前記実行ユニットが第２の分岐命令を受け取るように動
作し、パイプラインステージが、前記第２の分岐命令を
受け取って、前記条件が真の時に前記制御信号をアサー
トする実行ステージを備えることを特徴とするデジタル
プロセッサ。
【請求項６】請求項１に記載のデジタルプロセッサに
おいて、前記第１および第２記憶装置を前記マルチプレクサに結
合して前記ターゲット命令および前記ネクストインライ
ン命令の上でプリデコードを実行するためのプリデコー
ドユニットを備えることを特徴とするデジタルプロセッ
サ。
【請求項７】分岐命令に応答してデジタルプロセッサ
の実行ユニットを適用するために、一方および他方が第
１命令としてターゲット命令およびネクストインライン
命令をそれぞれ有する２つの分岐命令パスのうち１つを
選択する方法であって、前記ターゲット命令および前記ネクストインライン命令
を格納する工程と、分岐命令のデコードから選択信号を作り出す工程と、前記選択信号を使って前記ターゲット命令または前記ネ
クストインライン命令を選択する工程と、前記選択されたターゲット命令またはネクストインライ
ン命令を前記実行ユニットに適用する工程とを有するこ
とを特徴とする分岐命令の選択方法。
【請求項８】請求項７に記載の方法において、前記格納工程が、少なくとも部分的にデコードしたター
ゲット命令を含むことを特徴とする分岐命令の選択方
法。
【請求項９】請求項７に記載の方法において、前記格納工程が、少なくとも部分的にデコードしたネク
ストインライン命令を含むことを特徴とする分岐命令の
選択方法。
【請求項１０】請求項７に記載の方法において、前記格納工程が、少なくとも部分的にデコードしたター
ゲットおよびネクストインライン命令を含むことを特徴
とする分岐命令の選択方法。
【請求項１１】請求項１０に記載の方法において、前記適用工程が、選択されて部分的にデコードされた前
記ターゲット命令またはネクストインライン命令を前記
実行ユニットに適用することを含むことを特徴とする分
岐命令の選択方法。
【請求項１２】分岐命令に応答してデジタルプロセッ
サの実行ユニットに適用するためにネクストインライン
命令またはターゲット命令の何れかを選択する方法であ
って、前記ターゲット命令および前記ネクストインライン命令
を格納する工程と、前記分岐命令を少なくとも部分的にデコードすることに
適用して、前記ターゲット命令または前記ネクストイン
ライン命令の選択を示すデジタル状態を備える選択信号
を作り出す工程と、前記選択信号を使って、前記実行ユニットに適用するた
めに前記ターゲット命令または前記ネクストインライン
命令を選択する工程とを有することを特徴とする命令の
選択方法。
【請求項１３】請求項１２に記載の方法において、ターゲット命令を少なくとも部分的にデコードする工程
を備えることを特徴とする命令の選択方法。
【請求項１４】請求項１３に記載の方法において、ターゲット命令を少なくとも部分的にデコードする工程
を備えることを特徴とする命令の選択方法。
【請求項１５】比較命令および分岐命令を含む命令を
デコードおよび実行するように動作するデジタルプロセ
ッサであって、ターゲット命令およびネクストインライン命令を保持す
るための記憶装置と、前記記憶装置に結合されて前記タ
ーゲット命令および前記ネクストインライン命令を受け
取る選択エレメントと、デコードステージを有する実行パイプラインとを備え、前記デコードステージが、前記比較命令を受け取りデコ
ードして分岐条件を作り出し、それから、前記分岐命令
を受け取り少なくとも部分的にデコードして、マルチプ
レクサに結合されたバイパス制御信号をアサートして前
記条件が真である時に入力用に前記ターゲット命令また
は前記ネクストインライン命令を選択することを特徴と
するデジタルプロセッサ。