JP2001209535A

JP2001209535A - プロセッサの命令スケジューリング装置

Info

Publication number: JP2001209535A
Application number: JP2000018291A
Authority: JP
Inventors: Hisatomo Satou; 寿倫佐藤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2000-01-27
Filing date: 2000-01-27
Publication date: 2001-08-03
Also published as: US6643767B1

Abstract

(57)【要約】（修正有）【課題】データ依存関係にある命令を投機的に実行す
るプロセッサにおいて、動的な命令スケジューリングの
効率を向上させる。【解決手段】命令をデコードし、演算するプロセッサ
の動的な命令スケジューリング装置であって、スケジュ
ーリングウインドウ２７１と命令バッファ２７２とを有
し、それらが分割して構成される。そして、各命令は計
算器にディスバッチされると直ちに命令スケジューリン
グ機構を解放するため、命令スケジューリング機構の実
効容量低下を引き起こさない。その結果、プロセッサ性
能の低下を抑えることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、プロセッサに関
し、特にプロセッサの命令スケジューリング装置に関す
る。

【０００２】

【従来の技術】プロセッサの性能向上を妨げる要因の一
つに命令間の依存関係の問題がある。依存関係には制御
依存関係（control dependence）、資源依存関係（name
dependence）、そしてデータ依存関係（data dependen
ce）がある。制御依存関係には多くの研究があり、分岐
予測や投機的実行により依存関係の解消が試みられてい
る。資源依存関係はレジスタの数というハードウエア資
源の不足により生じる。これはレジスタリネーミング
（R.M.Keller, Look-Ahead Processors, ACM Computing
Surveys, vol.7, no.4, pp.177-195, 1975)を施すこと
により解消可能である。しかしデータ依存関係は、「真
の依存関係」とも称されるように、解消できる方法は未
だない。つまりデータ依存関係は、命令レベル並列度
（instructionlevel parallelism）を向上する妨げとな
る非常に深刻な問題である。

【０００３】例えば図８に示す命令シーケンスを考え
る。理解を容易にするために、ｆ_１からｆ_４までの各オ
ペレーションのソースオペランドは１つに限定する。実
行レイテンシは、命令Ｉ１を除いて１と仮定する。命令
Ｉ１は、例えばデータキャッシュミスを発生したロード
命令であり、そのレイテンシを４と仮定する。図８の命
令シーケンスには２つのデータ依存関係が存在する。一
つは命令Ｉ１と命令Ｉ３の間であり、もう一つは命令Ｉ
３と命令Ｉ４の間である。データ依存関係が存在する場
合には、後続の命令は先行する命令の終了を待たなけれ
ば演算を実行できない。この例では、命令Ｉ３は命令Ｉ
１が終了しなければ演算を開始できないし、命令Ｉ４は
命令Ｉ３が終了しなければ演算を開始できない。したが
って従来は、データ依存のために演算が停止している命
令を追い越して、データ依存の関係にない命令を実行し
ている。この操作は動的な命令スケジューリングと呼ば
れており、リザベーションステーション（R.M.Tomasul
o, An Effect Algorithm forExploiting Multiple Arit
hmetic Units, IBM Journal, vol.11, pp.25-33, 196
7）などを用いて構成される命令ウインドウによって実
現される。

【０００４】図９にレジスタアップデイトユニット（G.
S.Sohi, Instruction Issue Logicfor High-Performanc
e, Interruptible, Multiple Functional Unit, Pipeli
nedComputers, IEEE Trans. on Computer, vol.39, no.
3, pp.349-359, 1990）を用いて構成される命令ウイン
ドウの１エントリを示す。命令ウインドウの各エントリ
は、２つのソースオペランドフィールド（Source Opera
nd）１００（又は１１０）、デスティネーションフィー
ルド（Destination）１２０、ディスパッチドビット（D
ispatched）１３０、ファンクションユニットフィール
ド（Functional Unit）１４０、実行（Executed）ビッ
ト１５０、そしてプログラムカウンタフィールド（Prog
ram Counter）１８０から構成される。もしソースオペ
ランドが未だ得られない時には、レディビット（Read
y）１０１（又は１１１）がリセットされソースオペラ
ンドが利用不可能であることを示す。同時に、そのオペ
ランドを示すタグ（Tag）１０２（又は１１２）がセッ
トされる。オペランドが利用可能になると、ソースレジ
スタの値がコンテント(Content)フィールド１０３（又
は１１３）にセットされ、レディビット１０１（又は１
１１）がセットされる。タグ（Tag）情報を伴ったデス
ティネーションレジスタ番号はデスティネーション(Des
tination)フィールド１２０のレジスタ(Register)フィ
ールド１２１に保持され、命令の実行結果はコンテント
(Content)フィールド１２２に保存される。ディスパッ
チドビット１３０はファンクションユニットフィールド
１４０で指定されるファンクションユニットに命令がデ
ィスパッチされているかどうかを示す。実行ビット１５
０は命令が完了するとセットされる。実行ビット１５０
がセットされていると、この命令とデータ依存関係にあ
る後続命令はディスパッチ可能になる。最後にプログラ
ムカウンタ(Program Counter)フィールド１８０は、予
測失敗からのプロセッサ状態の回復と、正確な例外を実
現するために用いられる。

【０００５】レジスタアップデイトユニット(RUU)には
命令がプログラムに現れた順に登録される。先行する命
令が演算を終了すると、演算結果１２２とデスティネー
ションレジスタ番号１２１が放送される。後続の命令は
デスティネーションレジスタ番号１２１を観測し、ソー
スオペランドタグ１０２（又は１１２）と一致した場合
にはその演算結果をソースオペランド１０３（又は１１
３）として取り込む。命令は、全てのソースオペランド
が揃うと実行可能になる。先行する全ての命令が実行を
終えていなくても、追い越して実行可能となる。

【０００６】図１０に従来のプロセッサのブロック図を
示す。同図に示すように従来のプロセッサは、命令キャ
ッシュ２００、命令デコーダ２６０、レジスタファイル
２１０、命令ウインドウ２２０、ファンクションユニッ
ト２４０〜２４３、そしてデータキャッシュ２５０から
構成されている。プロセッサは命令キャッシュ２００か
らフェッチした命令を、命令デコーダ２６０で解読し、
命令ウインドウ２２０に登録する。ソースオペランドは
レジスタファイル２１０から読み出される。レジスタフ
ァイル２１０から獲得できない場合には、先行する命令
の終了を待って、ファンクションユニット２４０〜２４
３の結果を取り込む。ソースオペランドの揃った命令は
ファンクションユニット２４０〜２４３に発行される。
演算結果は命令ウインドウ２２０を通じて、レジスタフ
ァイル２１０に書き込まれる。

【０００７】図１１に図８の命令シーケンスを実行した
場合の命令スケジューリングの例を示す。理解を容易に
するために以下の設定をしている。プロセッサのフェッ
チ幅とディスパッチ幅は、ともに１とする。命令のコミ
ットは省略する。また、タグ情報を含んだデスティネー
ションレジスタ番号は、アーキテクチャレジスタ番号と
同じであると仮定する。レジスタｒ１とレジスタｒ２
は、すでに利用可能になっているとする。以上の仮定に
基づいて、命令スケジューリングを説明する。まず最初
のサイクル（図１１Ａ）で、命令Ｉ１がイシューされ
る。ソースオペランドタグｒ１とデスティネーションレ
ジスタタグｒ１１が、該当するフィールドに保持され
る。ｒ１は利用可能であるのでレディビット（ｒ）がセ
ットされる。さらに命令Ｉ１はディスパッチされ、ディ
スパッチドビット（ｄ）もセットされる。次のサイクル
（図１１Ｂ）で、命令Ｉ２がフェッチおよびディスパッ
チされる。次のサイクル（図１１Ｃ）で、命令Ｉ３がイ
シューされる。命令Ｉ３のソースオペランドｒ１１を生
成する命令Ｉ１の実行ビットがセットされていないの
で、命令Ｉ３をディスパッチ不可能である。同じサイク
ル（図１１Ｃ）で、命令Ｉ２はｒ１２に演算結果を書き
戻し、実行ビット（ｅ）をセットする。ｒ１２は命令Ｉ
３が必要としているｒ１１に一致しないので利用されな
い。図１１Ｃで点線で表した矢印は、命令Ｉ３のソース
オペランドタグと命令Ｉ２のデスティネーションタグが
一致しなかったことを表している。次のサイクル（図１
１Ｄ）では命令Ｉ４がイシューされる。ｒ１３は未だ利
用できないのでディスパッチされない。次のサイクル
（図１１Ｅ）で命令Ｉ１が演算を終了し、ｒ１１に演算
結果を書き戻して実行ビットをセットする。ｒ１１は命
令Ｉ３が必要としているソースオペランドなので、命令
Ｉ３はディスパッチされる。図で太線で表した矢印は、
命令Ｉ３のソースオペランドタグと命令Ｉ１のデスティ
ネーションタグが一致したことを表している。次のサイ
クル（図１１Ｆ）で、命令Ｉ３が演算を終了しｒ１３が
利用可能になっているので、命令Ｉ４はディスパッチさ
れる。最後のサイクル（図１１Ｇ）で命令Ｉ４の実行が
終わり、命令シーケンスが終了する。

【０００８】データ依存関係の問題を解決するために、
ガベイ(Gabbay)は演算結果を予測し、データ依存関係を
投機的に解消する方法を提案している（F.Gabbay: Spec
ulative execution based on value prediction, Techn
ical Report #1080, Department of Electrical Engine
ering, Technion, 1996）。データ依存の投機実行(spec
ulative execution)を用いるためには、投機失敗時にプ
ロセッサ状態を回復する必要がある。そのための機構と
して、以下に説明する命令再発行を可能にする命令ウイ
ンドウが考案されている。

【０００９】命令ウインドウには投機実行に用いた予測
データも保存される。投機実行された命令が演算を終了
すると、その結果の値と予測データの比較が行なわれ
る。もし両者が一致していれば投機実行は成功である。
一致しなかった場合には、プロセッサの状態を投機前の
状態に戻す必要がある。間違った予測をしたロード命令
と依存関係にある命令は再実行されなければならない。

【００１０】

【発明が解決しようとする課題】しかし、従来の命令再
発行機構を実装すると、以下の問題をひき起こす可能性
がある。全ての命令はコミットされるまで命令ウインド
ウ中に保持されなければならないため、実効的な容量が
低下してしまい命令スケジューリングの自由度も低下し
てしまう。プロセッサの性能を維持するにはウインドウ
の容量を増やせば良いが、その容量はプロセッサのサイ
クルタイムと密接に関連しており、容易には増やすこと
ができない。容量を増やすためには、プロセッサのサイ
クルタイムを維持するために、命令ウインドウをパイプ
ライン化し、レイテンシを増やす必要がある。このレイ
テンシ増加はプロセッサ性能低下を引き起こしてしま
う。つまり、命令発行から演算結果出力までの時間が長
くなってしまう。

【００１１】本発明は、データ依存関係にある命令を投
機的に実行するプロセッサにおいて、動的な命令スケジ
ューリングの効率を向上させることを目的とする。従来
のプロセッサにおいては、投機に失敗した時のプロセッ
サ状態を回復する方法として、命令スケジューリング装
置を用いて、投機に失敗した命令とデータ依存の関係に
ある命令を検出し、その命令を再発行させる方法を採用
している。しかし、この方法では命令スケジューリング
の効率を低下させる可能性があった。

【００１２】本発明は、命令スケジューリングと命令再
発行の機能を分割することで、命令のスケジューリング
の効率を低下することなく、命令再発行を実現してい
る。

【００１３】

【課題を解決するための手段】本発明は、命令をデコー
ドし、演算するプロセッサの動的な命令スケジューリン
グ装置であって、命令スケジューリング機構と命令再発
行機構とを有し、それらが分割して構成されることを特
徴とする。

【００１４】この発明によれば、命令スケジューリング
機構と命令再発行機構を分割することにより、命令スケ
ジューリング機構は小容量であっても、実効的な容量の
低下を回避することができる。命令スケジューリング機
構は小容量であるから、プロセッサのサイクルタイムに
悪影響を及ぼすことはない。一方、データ投機実行の効
果を得るためには、命令再発行機構を大容量とせざるを
得ない。この大容量化は、プロセッサのサイクルタイム
に悪影響を及ぼしうる。しかし、命令再発行機構はデー
タ投機実行が失敗したときだけに必要となるので、プロ
セッサ性能に大きな影響を及ぼすことはない。

【００１５】

【発明の実施の形態】以下、図面を用いてこの発明の実
施形態を説明する。命令スケジューリングのための機構
と命令再発行のための機能とに分割された命令ウインド
ウをデカップル命令ウインドウと呼ぶ。

【００１６】（第１実施形態）まず、図１〜５に基づい
て第１実施形態を説明する。

【００１７】図１は、第１実施形態のデカップル命令ウ
インドウを用いるプロセッサのブロック図である。同図
に示すように第１実施形態のプロセッサは、命令キャッ
シュ２００、命令デコーダ２６０、レジスタファイル２
１０、デカップル命令ウインドウ２７０、データ予測装
置２３０、ファンクションユニット２４０〜２４３、そ
してデータキャッシュ２５０から構成されている。デカ
ップル命令ウインドウ２７０は、命令スケジューリング
のための小さなスケジューリング用命令ウインドウ２７
１と、命令再発行のための大きな命令再発行用命令ウイ
ンドウ２７２とから構成されている。以降では、スケジ
ューリング用命令ウインドウ２７１をスケジューリング
ウインドウ２７１、命令再発行用命令ウインドウ２７２
を命令バッファ２７２と呼び替えることがある。

【００１８】スケジューリングウインドウ２７１は上述
のリザベーションステーションで構成される。図２にリ
ザベーションステーションの１エントリを示す。各エン
トリは、２つのソースオペランド（Source Operand）フ
ィールド１００（又は１１０）、デスティネーション
（Destination）フィールド１２０から構成される。た
だし、ＲＵＵ（レジスタアップディトユニット）と異な
りデスティネーションフィールド１２０はタグを示すレ
ジスタフィールド１２１のみから成る。

【００１９】命令バッファ２７２は図３で説明する命令
再発行可能なＲＵＵで構成される。ＲＵＵを拡張して命
令再発行を可能にした命令バッファを図３に示す。各エ
ントリには予測（Predicted）ビット１６０と再発行（R
eissued）ビット１７０が付加されている。予測ビット
１６０は、デスティネーションフィールド１２０のコン
テント１２２に保持されている値が予測された値か否か
を示している。実行ビット１５０か予測ビット１６０の
どちらか一方がセットされていると、この命令とデータ
依存関係にある後続命令はディスパッチ可能になる。予
測されたデータ値はデスティネーションコンテントフィ
ールド１２２に保持される。

【００２０】実際の演算結果が得られると、予測された
値と実際の値は比較され、投機実行の成功／失敗が判定
される。そして、実際の値がデスティネーションフィー
ルド１２０のコンテントフィールド１２２に保存され、
予測ビット１６０はリセットされる。

【００２１】再発行ビット１７０は、投機実行が失敗と
判定され、命令が再発行されたことを表している。

【００２２】命令が終了し結果が得られると、従来の命
令スケジューリングと同様にデスティネーションタグと
実行結果が放送される。同時に予測の成功／失敗を表す
信号も放送される。以後この信号を再発行信号と呼ぶこ
とにする。

【００２３】予測に成功した場合は従来のスケジューリ
ングと同様に、予測に成功した命令のデスティネーショ
ンタグ１２１とソースオペランドタグ１０１（又は１１
１）が一致する後続の命令がディスパッチ可能となる。

【００２４】一方予測に失敗した時には、予測に失敗し
た命令のデスティネーションタグ１２１とソースオペラ
ンドタグ１０１（又は１１１）が一致する後続の命令は
再発行の候補となる。タグが一致した命令のディスパッ
チドビット１３０がすでにセットされている場合には、
その命令は誤ったソースオペランドを用いて演算を実行
しているため、再発行されなければならない。そして、
ディスパッチドビット１３０と実行ビット１５０はリセ
ットされ、再発行ビット１７０がセットされる。再発行
された命令の実行が終了した場合にも再発行信号が放送
される。したがって再発行信号は、データ値予測に失敗
した命令あるいは再発行された命令が実行を終了したこ
とを表している。以降は上述の説明と同様に、再発行さ
れた命令のデスティネーションタグ１２１とソースオペ
ランドタグ１０１（又は１１１）が一致し且つディスパ
ッチドビット１３０のセットされたさらなる後続命令が
再発行される。つまり、データ値予測に失敗した命令に
対しデータ依存関係にある後続命令が再発行され、この
再発行された後続命令に対しデータ依存関係にあるさら
なる後続命令が再発行される。こうして、再発行されな
ければならない命令が順に検出される。本機構は従来の
命令ウインドウと比較して再発行信号が一本増えただけ
であり、ハードウエアの増大とサイクルタイムの延長を
防いでいる。

【００２５】図４に拡張されたＲＵＵを用いた命令再発
行の例を示す。命令１だけがロードデータ値を予測でき
るとする。

【００２６】まず最初のサイクル（図４Ａ）で、命令Ｉ
１がイシューされる。ソースオペランドタグｒ１とデス
ティネーションレジスタタグｒ１１が、該当するフィー
ルドに保持される。ｒ１は利用可能であるのでレディビ
ット（ｒ）がセットされる。さらに命令Ｉ１はディスパ
ッチされ、ディスパッチドビット（ｄ）もセットされ
る。命令Ｉ１はｒ１１の値を予測し、予測ビット（ｐ）
をセットする。

【００２７】次のサイクル（図４Ｂ）で、命令Ｉ２がフ
ェッチおよびディスパッチされる。次のサイクル（図４
Ｃ）で、命令Ｉ３がイシューされる。命令Ｉ３のソース
オペランドｒ１１を生成する命令Ｉ１に予測ビットがセ
ットされているので、命令Ｉ３をディスパッチ可能であ
る。同じサイクルで、命令Ｉ２はｒ１２に演算結果を書
き戻し、実行ビット（ｅ）をセットする。命令Ｉ２のデ
スティネーションタグｒ１２と命令Ｉ３のソースオペラ
ンドタグｒ１１が一致しないので、命令Ｉ２の結果は命
令Ｉ３では利用されない。

【００２８】次のサイクル（図４Ｄ）では、命令Ｉ４が
イシューされる。命令Ｉ３が演算を終了しｒ１３が利用
可能になっているので、命令Ｉ４はディスパッチされ
る。

【００２９】次のサイクルには２通りの場合が考えられ
る。命令Ｉ１の予測が成功した場合と、失敗した場合で
ある。

【００３０】命令Ｉ１での予測に成功した場合（図４
Ｅ）、命令Ｉ１は予測ビットをリセットし、実行ビット
をセットする。同じサイクルで命令Ｉ４が演算を終了
し、やはり実行ビットをセットする。以上でシーケンス
は終了する。

【００３１】一方予測に失敗した場合（図４Ｆ）には、
命令の再発行が開始される。再発行シグナルが放送さ
れ、予測が失敗した命令Ｉ１のデスティネーションタグ
とソースオペランドタグの一致した命令Ｉ３は間違った
ソースオペランドを用いてすでにディスパッチされてい
るので、再発行の対象となり再発行ビット（ｉ）がセッ
トされる。命令Ｉ３は発行されディスパッチドビットが
セットされる。

【００３２】次のサイクル（図４Ｇ）で命令Ｉ３は終了
し、実行ビットをセットして、再発行ビットをリセット
する。同時に再発行シグナルが放送される。前のサイク
ルと同様にして命令Ｉ４が再発行の対象として検出され
る。

【００３３】次のサイクル（図４Ｈ）で命令Ｉ４は終了
し、この命令シーケンスは７サイクルで完了する。

【００３４】したがって、データ値の予測に失敗した場
合に必要なサイクル数は、データ依存の投機実行を行な
わない場合に必要なサイクル数と同じである。すなわち
投機に失敗してもペナルティを生じない。

【００３５】以上のように、命令の再発行は規模の小さ
なハードウエア（予測値と実際の値を比較するユニッ
ト、再発行信号を生成するユニット）を用いて、且つサ
イクルタイムに影響を及ぼさないで実現可能である。

【００３６】図１に示すように、第１実施形態において
は、ある命令が命令キャッシュ２００からフェッチさ
れ、命令デコーダ２６０でデコードされると、命令はス
ケジューリングウインドウ２７１と命令バッファ２７２
に発行される。命令がファンクションユニット２４０〜
２４３にディスパッチされると、命令はスケジューリン
グウインドウ２７１中のエントリを直ちに解放する。し
かし、命令バッファ２７２中のエントリは待機し続け
る。命令がコミットされると、ようやく命令バッファ２
７２中のエントリが解放される。スケジューリングウイ
ンドウ２７１あるいは命令バッファ２７２が一杯になっ
た時には、命令発行が停止する。

【００３７】スケジューリングウインドウ２７１が命令
スケジューリングを担当する。つまり、ほとんどの場合
はスケジューリングウインドウ２７１から命令がファン
クションユニット２４０〜２４３にディスパッチされ
る。ディスパッチされると命令はスケジューリングウイ
ンドウ２７１のエントリを解放するので、上述した従来
の命令ウインドウの実効的な容量低下の問題は解決され
ている。さらに、容量が小さいためにプロセッサのサイ
クルタイムに悪影響を与える心配もない。しかし、デー
タ投機実行に失敗した場合、このスケジューリングウイ
ンドウ２７１内部では命令を再発行できない。そのため
のバックアップとして、命令バッファ２７２が用意され
ている。

【００３８】命令バッファ２７２が命令再発行を担当す
る。全ての命令はコミットされるまで命令バッファ２７
２に待機している。データ投機実行に失敗すると、再発
行すべき命令は命令バッファ２７２から獲得されディス
パッチされる。大きなデータ投機実行の効果を得るため
に、命令バッファ２７２を非常に大きくする必要があ
る。そのような大きな命令バッファはプロセッサのサイ
クルタイムに影響するため、この悪影響を回避するため
に、命令バッファ２７２をパイプライン化する。命令バ
ッファ２７２は投機失敗時だけに必要なので、このパイ
プライン化はプロセッサ性能に甚大な影響は与えない。

【００３９】スケジューリングウインドウ２７１と命令
バッファ２７２から得られる二つの同じ命令から選択す
る方法は容易である。もしある命令が投機に失敗した時
には、再発行すべき命令は命令バッファ２７２からしか
得られない。したがって選択する必要はない。データ依
存が存在して、いまだディスパッチされていない命令は
スケジューリングウインドウ２７１と命令バッファ２７
２の両方から供給される。しかし、命令バッファ２７２
はパイプライン化されているため、スケジューリングウ
インドウ２７１よりも同じ命令の供給が遅れる。したが
って、ファンクションユニットにディスパッチされるの
はスケジューリングウインドウ２７１から供給される命
令であり、命令バッファ２７２から得られた同じ命令の
ディスパッチは抑制できる。

【００４０】上記のように、デカップル命令ウインドウ
２７０は命令再発行機構の実装により生ずる可能性のあ
る問題を、プロセッサ性能を維持したまま解決できる。

【００４１】続いて、第１実施形態のデカップル命令ウ
インドウをシミュレーションにより評価する。シミュレ
ータは現実的なアウトオブオーダー実行を行なう８並列
のスーパースカラプロセッサをモデル化している。動的
スケジューリングはＲＵＵに基づいて行なわれる。ＲＵ
Ｕのエントリは１２８である。二種類のＲＵＵを評価す
る。一つは通常のレイテンシが１サイクルであるＲＵＵ
で、もう一つはパイプライン化されレイテンシが２サイ
クルであるＲＵＵである。各ファンクションユニットは
あらゆる命令を１サイクルで実行できる。ただし、乗算
と除算のレイテンシはそれぞれ４サイクルと１２サイク
ルである。データの供給には４ポート、ノンブロッキン
グ、容量１２８ＫＢ、ラインサイズ３２Ｂ、２ウエイセ
ットアソシアティブのＬ１データキャッシュを用意す
る。Ｌ１データキャッシュのアクセスには、データアド
レス生成後１サイクルを要する。キャッシュミス時のレ
イテンシは６サイクルである。Ｌ１データキャッシュ
は、容量８ＭＢ、ラインサイズ６４Ｂ、ダイレクトマッ
プのＬ２キャッシュがバックアップしている。Ｌ２キャ
ッシュのキャッシュミス時のレイテンシは、最初のワー
ドが得られるまでに１８サイクル、それに続くワードに
はそれぞれ２サイクルである。全てのメモリ参照命令
は、先行するストア命令が完了しなければ実行できな
い。命令供給には、容量１２８ＫＢ、ラインサイズ３２
Ｂ、２ウエイセットアソシアティブのＬ１命令キャッシ
ュを用意する。Ｌ１命令キャッシュはＬ１データキャッ
シュとＬ２キャッシュを共有している。

【００４２】分岐予測には、エントリ数１Ｋ、４ウエイ
セットアソシアティブの分岐先バッファ、エントリ数４
Ｋ、ジシェア(gshare)タイプの２レベル適応型分岐予測
器、エントリ数８のリターンアドレススタックを用い
る。分岐予測器の更新は、命令がコミットされた時に行
なうこととした。

【００４３】データ値予測器は、ガベイ等のストライド
型予測器を用いる。エントリ数は４Ｋでダイレクトマッ
プとした。

【００４４】第１実施形態のデカップル命令ウインドウ
は、エントリ数６４の集中型リザベーションステーショ
ンと命令再発行機能を持つエントリ数１２８のＲＵＵか
ら構成される。このＲＵＵはパイプライン化されてお
り、レイテンシは２サイクルである。

【００４５】ベンチマークプログラムにはＳＰＥＣint
９５ベンチマークを用いた。ＳＰＥＣ協会が提供してい
るテストファイルを入力ファイルとして用いている。ベ
ンチマークプログラムと入力ファイルは以下の通りであ
る。

【００４６】

【表１】各プログラムはＧＮＵＧＣＣ（version２．６．３）
を用いて最適化オプション−０３でコンパイルした。各
プログラムが終了するまで、あるいは最初の１億命令を
シミュレーションした。命令はコミットされたものだけ
を数えた。

【００４７】図５は第１実施形態のデカップル命令ウイ
ンドウを採用した時のプロセッサ性能向上率である。各
３本のグラフのうち、左はレイテンシが１サイクルのＲ
ＵＵを用いたモデルの性能向上率、中央はレイテンシが
２のパイプライン化ＲＵＵを用いたモデルの性能向上
率、右が第１実施形態のデカップル命令ウインドウを用
いたモデルの性能向上率である。性能向上率は１サイク
ルあたりの完了命令数（committed instructions per c
ycle:ＩＰＣ）で評価した。レイテンシ１のＲＵＵでは
プロセッサのサイクルタイムが遅くなるので、それを防
ぐためにパイプライン化したものがレイテンシ２のＲＵ
Ｕである。レイテンシ２のＲＵＵを使用すると、ＩＰＣ
が著しく低下している。これをプロセッサの高速化だけ
で補うには２５％以上の高速化が必要である（１３２．
ｉｊｐｅｇの場合）。これは実現困難である。したがっ
て、レイテンシ２のＲＵＵを使用するプロセッサはレイ
テンシ１のＲＵＵを使用するプロセッサよりも性能が低
下してしまう。一方、第１実施形態のデカップル命令ウ
インドウを使用すると、レイテンシ１の命令ウインドウ
の場合とほぼ同じＩＰＣが得られている。詳しく比較す
ると性能向上率はやや小さいが、第１実施形態のデカッ
プル命令ウインドウを用いるプロセッサは、１サイクル
レイテンシＲＵＵを用いるプロセッサよりも動作速度を
速くできる。５％以上の高速化が実現可能なので、レイ
テンシ１のＲＵＵの場合よりも性能向上が大きくなる。
したがって、第１実施形態のデカップル命令ウインドウ
を使用したプロセッサの方が性能向上率が勝っている。

【００４８】（第２実施形態）図６は、第２実施形態の
デカップル命令ウインドウを用いるプロセッサのブロッ
ク図である。命令キャッシュ２００、命令デコーダ２６
０、レジスタファイル２１０、データ予測装置２３０、
デカップル命令ウインドウ３７０、ファンクションユニ
ット２４０〜２４３、そしてデータキャッシュ２５０か
ら構成されている。デカップル命令ウインドウ３７０
は、命令スケジューリングのための小さなスケジューリ
ング用命令ウインドウ３７１と、命令再発行のための大
きな命令再発行用命令ウインドウ３７２とから構成され
ている。以降では、スケジューリング用命令ウインドウ
３７１をスケジューリングウインドウ３７１、命令再発
行用命令ウインドウ３７２を命令バッファ３７２と呼び
替えることがある。

【００４９】図７に第２実施形態のデカップル命令ウイ
ンドウ３７０の構成を詳細に示す。図７では、図６で省
略したフリーリスト３００、レジスタマッピング表３１
０、アクティブリスト３２０、そしてビジービット表３
３０も表記されている。

【００５０】図１に示す第１実施形態では、スケジュー
リングウインドウ２７１と命令バッファ２７２は並列に
接続されているので、デコーダ２６０によってデコード
された命令は、デコーダ２６０からスケジューリングウ
インドウ２７１と命令バッファ２７２の両方に出力され
る。

【００５１】一方、図６に示す第２実施形態では、スケ
ジューリングウインドウ３７１と命令バッファ３７２は
直列に接続されているので、デコーダ２６０によってデ
コードされた命令は、デコーダ２６０からスケジューリ
ングウインドウ３７１に出力されるが、デコーダ２６０
から命令バッファ３７２へは出力されない。命令バッフ
ァ３７２への命令の供給は、スケジューリングウインド
ウ３７１によって行われる。

【００５２】図１に示す第１実施形態のデカップル命令
ウインドウ２７０内にも、スケジューリングウインドウ
２７１と命令バッファ２７２のみならず、フリーリスト
３００、レジスタマッピング表３１０、アクティブリス
ト３２０、そしてビジービット表３３０も設けられる。
ただし、スケジューリングウインドウ２７１と命令バッ
ファ２７２は並列に接続される。

【００５３】第１及び第２実施形態において、フリーリ
スト３００、レジスタマッピング表３１０、そしてアク
ティブリスト３２０はレジスタリネーミングを実施す
る。ある命令がデコードされると、そのデスティネーシ
ョンレジスタ番号がレジスタリネーミングされる。リネ
ーミング後のレジスタ番号はフリーリスト３００から与
えられる。元のレジスタ番号（論理レジスタ番号）とリ
ネーミング後のレジスタ番号（物理レジスタ番号）との
対応はレジスタマッピング表３１０に登録される。この
とき、同じ論理レジスタ番号のマッピングが存在してい
る時には、古い方の物理レジスタ番号がアクティブリス
ト３２０に追い出される。アクティブリスト３２０に追
い出された物理レジスタ番号をオペランドとする命令が
コミットされると、物理レジスタ番号はアクティブリス
ト３２０から解放され、フリーリスト３００にプールさ
れる。

【００５４】データ値予測器２３０によって予測された
データは、スケジューリングウインドウ３７１の該当す
るフィールドに保持されると同時に、レジスタファイル
２１０にも書き込まれる。同時に、スケジューリングウ
インドウ３７１の予測ビットがセットされる。この予測
ビットの情報はビジービット表３３０にも与えられてい
る。

【００５５】ビジービット表３３０は、レジスタファイ
ルの各レジスタの値が利用可能になっているかを観測し
ている。状態には次の３つがある。レディ(ready)、投
機(speculative)、ビジー(busy)である。状態がビジー
の時は、まだレジスタの値が利用できない。残りの二つ
の状態の場合には利用可能であるが、投機状態の場合に
は、レジスタ値が間違っている可能性がある。したがっ
て、投機状態のレジスタ値を用いてディスパッチされる
命令は、命令バッファ３７２に保持されなければならな
い。

【００５６】スケジューリングウインドウ３７１の残り
のフィールドは以下の情報を保持している。Br mskフィ
ールドは分岐命令の情報を保持している。Unitフィール
ドはディスパッチされるべきファンクションユニットを
示している。Functionフィールドで演算の種類が保持さ
れている。rs/rt/rdフィールドはソースレジスタ及びデ
スティネーションレジスタ番号を保持している。最後に
Tagフィールドはアクティブリスト３２０中のエントリ
との対応づけを行なうためのタグが保持されている。

【００５７】ある命令が命令キャッシュ２００からフェ
ッチされ、命令デコーダ２６０でデコードされると、命
令はスケジューリングウインドウ３７１に発行される。
命令がファンクションユニット２４０〜２４３にディス
パッチされると、命令はスケジューリングウインドウ３
７１中のエントリを直ちに解放する。この時、ディスパ
ッチされた命令が投機状態にある場合には、その命令は
命令バッファ３７２に格納される。この命令はコミット
されるまで命令バッファ３７２中に溜まり、コミット時
にようやく命令バッファ３７２中のエントリが解放され
る。スケジューリングウインドウ３７１あるいは命令バ
ッファ３７２が一杯になった時には、命令発行が停止す
る。

【００５８】スケジューリングウインドウ３７１が命令
スケジューリングを担当する。つまり、ほとんどの場合
はスケジューリングウインドウ３７１から命令がファン
クションユニット２４０〜２４３にディスパッチされ
る。ディスパッチされると命令はスケジューリングウイ
ンドウ３７１のエントリを解放するので、上述した命令
ウインドウの実効的な容量低下の問題は解決されてい
る。さらに、容量が小さいためにプロセッサのサイクル
タイムに悪影響を与える心配もない。しかし、データ投
機実行に失敗した場合、このスケジューリングウインド
ウ３７１内部では命令を再発行できない。そのためのバ
ックアップとして、命令バッファ３７２が用意されてい
る。

【００５９】命令バッファ３７２が命令再発行を担当す
る。投機状態にある命令だけがコミットされるまで命令
バッファ３７２に待機している。データ投機実行に失敗
すると、再発行すべき命令は命令バッファ３７２から獲
得されディスパッチされる。投機状態にある命令だけを
保持しておけば良いので、命令バッファ３７２の容量は
スケジューリングウインドウ３７１の容量と同程度で良
い。したがって第１実施形態と異なり、命令バッファ３
７２をパイプライン化する必要はない。

【００６０】第２実施形態のデカップル命令ウインドウ
では、第１実施形態と異なり命令はスケジューリングウ
インドウ３７１と命令バッファ３７２のどちらか一方か
らのみ供給される。したがって、ファンクションユニッ
トの状況に応じて、いずれかのウインドウから命令を選
択すれば良い。このとき、命令バッファ３７２から再発
行される命令に高い優先度を設けることも可能である。

【００６１】上記のように、デカップル命令ウインドウ
３７０は命令再発行機構の実装により生ずる可能性のあ
る問題を、プロセッサ性能を維持したまま解決できる。

【００６２】

【発明の効果】本発明により、各命令は計算器にディス
パッチされると直ちに命令スケジューリング機構を解放
するため、命令スケジューリング機構の実効容量低下を
引き起こさない。その結果、プロセッサ性能の低下を抑
えることができる。

【図面の簡単な説明】

【図１】本発明の第１実施形態のデカップル命令ウイン
ドウを使用するプロセッサのブロック図である。

【図２】図１に示すスケジューリングウインドウ（リザ
ベーションステーション）のエントリを示す図である。

【図３】図１に示す命令再発行可能な命令バッファのエ
ントリを示す図である。

【図４】図１に示すデカップル命令ウインドウを用いて
図１の命令シーケンスを実行した場合の命令スケジュー
リングの例を示す図である。

【図５】図１に示すデカップル命令ウインドウを用いた
際のプロセッサ性能向上率を示す図である。

【図６】本発明の第２実施形態のデカップル命令ウイン
ドウを使用するプロセッサのブロック図である。

【図７】図６に示すデカップル命令ウインドウの構成を
示す図である。

【図８】命令シーケンスの例を示す図である。

【図９】従来の命令ウインドウのエントリを示す図であ
る。

【図１０】従来のプロセッサのブロック図である。

【図１１】従来の命令ウインドウを用いて図１の命令シ
ーケンスを実行した場合の命令スケジューリングの例を
示す図である。

【符号の説明】

１００，１１０ソースオペランドフィールド１０１，１１１レディビット１０２，１１２タグフィールド１０３，１１３オペランドフィールド１２０デスティネーションフィールド１２１デスティネーションレジスタフィールド１２２演算結果フィールド１３０ディスパッチビット１４０ファンクションユニットフィールド１５０実行ビット１６０予測ビット１７０再発行ビット１８０プログラムカウンタフィールド２００命令キャッシュ２１０レジスタファイル２２０命令ウインドウ２３０データ値予測装置２４０，２４１，２４２，２４３ファンクションユニ
ット２５０データキャッシュ２６０命令デコーダ２７０デカップルウインドウ２７１スケジューリングウインドウ２７２命令バッファ３００フリーリスト３１０レジスタマッピング表３２０アクティブリスト３３０ビジービット表３７０デカップルウインドウ３７１スケジューリングウインドウ３７２命令バッファ

Claims

【特許請求の範囲】

【請求項１】命令をデコードし、演算するプロセッサ
の動的な命令スケジューリング装置であって、命令スケ
ジューリング機構と命令再発行機構とを有し、それらが
分割して構成されることを特徴とする命令スケジューリ
ング装置。
【請求項２】前記命令スケジューリング機構は、命令
がファンクションユニットにディスパッチされると、そ
の命令のエントリを直ちに解放することを特徴とする請
求項１記載の命令スケジューリング装置。
【請求項３】前記命令再発行機構は、命令がファンク
ションユニットにディスパッチされても、その命令のエ
ントリを直ちに解放せず、その命令がコミットされた時
にその命令のエントリを解放することを特徴とする請求
項２記載の命令スケジューリング装置。
【請求項４】前記命令スケジューリング機構から前記
ファンクションユニットにディスパッチされた命令が、
そのディスパッチと同時に前記命令再発行機構にも保持
されることを特徴とする請求項２記載の命令スケジュー
リング装置。
【請求項５】前記命令再発行機構に保持される前記命
令は、投機状態にあるものに限定されることを特徴とす
る請求項４記載の命令スケジューリング装置。
【請求項６】前記命令スケジューリング機構及び前記
命令再発行機構から供給される同一命令の内、前記命令
スケジューリング機構から供給される命令を優先的に選
択し、前記ファンクションユニットにディスパッチする
ことを特徴とする請求項３乃至５のいずれか一つに記載
の命令スケジューリング装置。
【請求項７】前記命令スケジューリング機構及び前記
命令再発行機構から供給される同一命令の内、前記命令
再発行機構から供給される命令を優先的に選択し、前記
ファンクションユニットにディスパッチすることを特徴
とする請求項３乃至５のいずれか一つに記載の命令スケ
ジューリング装置。
【請求項８】前記命令スケジューリング機構の命令エ
ントリー数が、前記命令再発行機構のそれと比較して小
さいことを特徴とする請求項１記載の命令スケジューリ
ング装置。
【請求項９】前記命令再発行機構はパイプライン動作
することを特徴とする請求項８記載の命令スケジューリ
ング装置。