JP2002508567A

JP2002508567A - 誤推論後の命令再実施のためのアウトオブパイプライン・トレース・バッファ

Info

Publication number: JP2002508567A
Application number: JP2000539419A
Authority: JP
Inventors: アッカリイ，ヘイザム
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 1997-12-16
Filing date: 1998-12-11
Publication date: 2002-03-19
Anticipated expiration: 2018-12-11
Also published as: HK1029194A1; EP1040421A4; DE69829778D1; KR20010024750A; BR9814290A; TW388811B; US6240509B1; CN1286771A; AU1911099A; EP1040421B1; EP1040421A1; DE69829778T2; WO1999031589A1; CN100342349C; KR100382126B1; JP3971893B2

Abstract

(57)【要約】本発明の一実施形態では、プロセッサ（１０）は命令を実行するための実行パイプラインを含み、その命令のうちの少なくとも一部が推論実行される。また、プロセッサは命令を保持するために実行パイプラインの外にトレース・バッファ（１１４）を含み、推論エラーに関連する命令が命令を実行するために実行パイプライン内で再実施され、その命令のうちの少なくとも一部が推論実行される。また、プロセッサは命令と命令の実行結果を保持するためにも実行パイプラインの外にトレース・バッファを含み、その命令のうちの少なくとも一部はパイプライン内での実行後に初期リタイヤされるが、最終リタイヤ（１３４）までトレース・バッファ内に存続する。

Description

【発明の詳細な説明】

【０００１】関連出願：本出願ならびに本出願と同時に出願され、「Ｐｒｏｃｅｓｓｏｒ
ＨａｖｉｎｇＭｕｌｔｉｐｌｅＰｒｏｇｒａｍＣｏｕｎｔｅｒｓａｎｄ
ＴｒａｃｅＢｕｆｆｅｒｓＯｕｔｓｉｄｅａｎＥｘｅｃｕｔｉｏｎ
Ｐｉｐｅｌｉｎｅ」という名称の特許出願第号（整理番号４２３９
０．Ｐ４６６２）および「ＭｅｍｏｒｙＳｙｓｔｅｍｆｏｒＯｒｄｅｒｉ
ｎｇＬｏａｄａｎｄＳｔｏｒｅＩｎｓｔｒｕｃｔｉｏｎｓｉｎａ
ＰｒｏｃｅｓｓｏｒＴｈａｔＰｅｒｆｏｒｍｓＯｕｔ−Ｏｆ−Ｏｒｄｅｒ
ＭｕｌｔｉｔｈｒｅａｄＥｘｅｃｕｔｉｏｎ」という名称の特許出願第
号（整理番号４２３９０．Ｐ４６６５）は、実質的に共通の明細を有す
る。

【０００２】（発明の背景）発明の技術分野：本発明は、プロセッサに関し、より詳細には、１つまたは複
数のトレース・バッファを有するプロセッサに関する。

【０００３】背景技術：マイクロプロセッサなど、現行のスーパスカラ・プロセッサは、パ
フォーマンスを強化するために分岐予測および不適正順序実行（out of order e
xecution）などの技法を実行する。不適正順序実行パイプラインを有するプロセ
ッサは、所与の命令がフェッチされデコードされた順序とは異なる順序でその命
令を実行する。命令は、それに関する依存関係が存在しない命令に対して不適正
順序で実行することができる。不適正順序実行では、単にプログラム命令順序の
ために実行ユニットがアイドル状態にならないようにすることにより、プロセッ
サのパフォーマンスが向上する。命令結果は、実行後にリオーダされる。

【０００４】データの依存関係を処理する作業は、命令でコードを適正順序であることに制
限することによって簡略化される。その場合、プロセッサは、データがレジスタ
によりある命令から後続命令にどのように流れるかを識別することができる。プ
ログラムの正確さを保証するため、レジスタはリネームされ、命令はその入力オ
ペランドが生成されるまで予約ステーションで待機し、生成された時点で実行の
ために適切な機能ユニットに発行される。レジスタ・リネーマ、予約ステーショ
ン、および関連機構は、従属命令が依存している命令より先に実行されないよう
に、依存関係を有する複数の命令をまとめてリンクする。したがって、このよう
なプロセッサは、適正順序のフェッチおよびデコードによって制限される。

【０００５】命令キャッシュからの命令がミスするかまたは分岐予測が間違っている場合、
プロセッサは、より高レベルのキャッシュまたはメモリから命令ブロックがフェ
ッチされるまで、または予測が間違っている分岐が解決されるまで、待機しなけ
ればならず、間違った経路の実行はリセットされる。このような挙動の結果とし
て、命令キャッシュのミスおよび予測が間違っている分岐の前後の独立命令は並
列実行することができないが、そのようにすることは正しいことである可能性が
ある。

【０００６】様々な推論は推論エラーに至る可能性がある。プロセッサが推論エラーから回
復できるようにする改良された機構をプロセッサ内に設ける必要がある。

【０００７】（発明の概要）本発明の一実施態様では、プロセッサは命令を実行するための実行パイプライ
ンを含み、その命令のうちの少なくとも一部が推論実行される。また、プロセッ
サは命令を保持するために実行パイプラインの外部にあるトレース・バッファも
含み、推論エラーに関連する命令がトレース・バッファから実行パイプライン内
で再実施される。

【０００８】他の実施態様では、プロセッサは命令を実行するための実行パイプラインを含
み、その命令のうちの少なくとも一部が推論実行される。また、プロセッサは命
令と命令の実行結果を保持するために実行パイプラインの外部にあるトレース・
バッファも含み、その命令のうちの少なくとも一部はパイプライン内での実行後
に初期リタイヤされるが、最終リタイヤまでトレース・バッファ内に存続する。

【０００９】本発明は、以下に示す詳細な説明ならびに本発明の実施形態の添付図面により
より完全に理解されるだろうが、添付図面は、記載した特定の実施形態に本発明
を限定するものと解釈すべきではなく、説明および理解のみを目的とするもので
ある。

【００１０】（好ましい実施形態の詳細な説明）Ａ．スレッドの作成およびパイプライン１０８の概要Ｂ．トレース・バッファ１１４に関する詳細１．トレース・バッファ１１４Ａａ．命令待ち行列アレイ２０２Ａｂ．ＤＡＤアレイ２０６Ａおよび依存関係生成回路２１２Ａｃ．出力レジスタ・ファイル２１０Ａと入力レジスタ・ファイル２０８Ａ２．トレース・バッファ１１４’ Ｃ．再実施シーケンス・アルゴリズムＤ．第２レベルまたは最終リタイヤＥ．メモリ・システム１．ストア・バッファおよびロード・バッファ２．ロード・アドレスとストア・アドレスの比較ａ．ロード命令の実行ｂ．ストア命令の実行ｃ．リセット３．ストア命令の再実施４．複数ロード命令の再実施５．ロード命令とストア命令の最終リタイヤＦ．スレッド管理ロジックおよび最終リタイヤ・ロジックに関する追加情報Ｇ．マルチスレッド化を含まない実施形態Ｈ．追加情報および実施形態

【００１１】図１は、プロセッサ１０の所与の構成要素を示している。プロセッサ１０は、
実行パイプライン１２と、実行パイプライン１２の外部にあるトレース・バッフ
ァ１４とを含む。実行パイプライン１２は、メモリ・オーダ・バッファを含む場
合もある。導体１８上の命令は、実行のために実行パイプライン１２に供給され
る。また、命令は、導体２２を介してトレース・バッファ１４にも供給される。
命令は、実行パイプライン１２内で推論実行することができる。推論の例として
は、データ推論および依存関係推論を含む。多種多様の推論のいずれも含むこと
ができる。プロセッサ１０は、推論エラー（誤推論）を検出し、それから回復す
るための機構をトレース・バッファ１４に含む。

【００１２】誤推論が検出されると、誤推論された命令は、トレース・バッファ１４から導
体２４を介して実行パイプライン１２に供給され、実行パイプライン１２内で再
実施される。命令が「再実施」される場合、その命令とその命令に依存するすべ
ての命令は再実行されるが、必ずしも同時に行われるわけではない。命令が「完
全再実施」される場合、その命令とプログラム順序でその命令に続くすべての命
令が再実行される。プログラム順序とは、複数の命令が適正順序プロセッサ内で
実行されると思われる順序である。命令は、完全にプログラム順序でまたはプロ
グラム順序以外の何らかの順序で導体１８を通過することができる。プロセッサ
１０は、適正順序プロセッサである場合もあれば、不適正順序プロセッサである
場合もある。従属命令の再実行の結果、従属命令に依存する命令が再実施される
場合もある。命令の再実行の回数は、再実施をトリガする事象を制御することに
よって制御することができる。一般に、実行という用語は、最初の実行と、再実
行を含むことができる。命令の少なくとも一部の結果は、導体２６を介してトレ
ース・バッファに供給される。最終リタイヤ・ロジック３４は、命令が初めから
または再実行時に正しく実行されたことが保証された後で、トレース・バッファ
１４内の命令を最終的にリタイヤする。

【００１３】実行パイプライン１２は、多種多様の実行パイプラインのいずれでもよく、よ
り大きいパイプラインの一セクションにすることもできる。実行パイプライン１
２は、多種多様のプロセッサとともに使用することができる。図２と図３に例を
示すが、図２は実行パイプライン１０８を有するプロセッサ５０の構成要素を示
し、図３は実行パイプライン３０８を有するプロセッサ１０８を示している。図
２の本発明の実施形態の実行パイプライン１０８はレジスタ・リネームを含む。
他の実施形態の実行パイプラインはレジスタ・リネームを含まない。プロセッサ
は、（図２のプロセッサ５０の場合のように）複数のスレッドを同時に処理する
場合もあれば、（図３のプロセッサ１００の場合のように）複数のスレッドを同
時に処理しない場合もある。プロセッサ５０について、まず説明する。

【００１４】本明細書において「一実施の形態」または「一実施形態」に言及する場合、そ
の実施形態に関して記載した特定の特徴、構造、または特性が本発明の少なくと
も１つの実施形態に含まれることを意味する。本明細書の様々な箇所に「一実施
形態では」という句が現れても、必ずしもすべて同じ実施形態について言及して
いるわけではない。

【００１５】Ａ．スレッドの作成およびパイプライン１０８の概要命令は、導体１０２を介して命令キャッシュ（Ｉキャッシュ）１０４に供給さ
れる。デコーダ１０６は、Ｉキャッシュ１０４から命令を受け取るものとして示
されているが、命令がＩキャッシュ１０４に到達する前にその命令をデコードす
ることもできる。選択したコンテキストおよび実施によっては、「命令」という
用語は、マクロ演算（マクロｏｐ）、マイクロ演算（μｏｐ）、またはその他の
形式の命令を含むことができる。縮小命令セット・コンピューティング（ＲＩＳ
Ｃ）命令または複雑命令セット・コンピューティング（ＣＩＳＣ）命令を含むが
これに限定されない様々な命令セットのいずれでも使用することができる。さら
に、デコーダ１０６は、ＣＩＳＣ命令をＲＩＳＣ命令にデコードすることができ
る。Ｉキャッシュ１０４からの命令は、ＭＵＸ１１０を介してパイプライン１０
８に供給され、かつ、導体１１８を介してトレース・バッファ１１４に供給され
る。

【００１６】トレースとは１組の命令セットである。スレッドは、そのトレースと、レジス
タ値およびプログラム・カウンタ値などの関連信号とを含む。

【００１７】スレッド管理ロジック１２４は、導体１３０を介してプログラム・カウンタ１
１２Ａ、１１２Ｂ、・・・、１１２Ｘに開始計数値を供給することにより（Ｘは
プログラム・カウンタの数を表す）、Ｉキャッシュ１０４内のプログラムまたは
プロセスから様々なスレッドを作成する。一例として、Ｘは４またはそれ以上あ
るいはそれ以下にすることができる。スレッド管理ロジック１２４は、関連のプ
ログラム・カウンタを停止することにより、スレッドを終了する。その後、スレ
ッド管理ロジック１２４は、プログラム・カウンタに他のスレッドを開始させる
こともできる。様々なスレッドの一部分はＩキャッシュ１０４から同時に読み取
られる。

【００１８】プログラムまたはプロセス内のどこでスレッドを作成すべきかを判定するため
に、スレッド管理ロジック１２４は、導体１２８を介してデコーダ１０６から命
令を読み取ることができる。スレッドは、プログラマまたはコンパイラによって
挿入され、スレッドの開始および終了を明示的に決定する命令を含むことができ
る。あるいは、スレッド管理ロジック１２４は、プログラムまたはプロセスの命
令を分析し、Ｉキャッシュ１０４に供給されたプログラムまたはプロセスを様々
なスレッドに分解することができる。たとえば、分岐、ループ、逆方向分岐、復
帰、ジャンプ、手続き呼出し、関数呼出しは、スレッドを分離するために適当な
ポイントである場合もある。スレッド管理ロジック１２４は、潜在的なスレッド
の長さ、含まれる変数の数、連続するスレッド間に共通する変数の数、ならびに
どこでスレッドを開始するかを考慮する際のその他の要因を考慮することができ
る。スレッド管理ロジック１２４は、スレッドの境界を決定する際にプログラム
順序を考慮することができる。プログラム順序とは、スレッドとスレッド内の命
令が適正順序プロセッサ上で実行されると思われる順序である。スレッド内の命
令は、（プログラム順序とは反対の）不適正順序で実行することができる。スレ
ッドは、本質的には、パイプライン１０８によって独立して処理することができ
る。スレッド管理ロジック１２４は、最適とは言えない選択を回避するために履
歴テーブルを含む予測機構を含むことができる。たとえば、スレッド管理ロジッ
ク１２４は、スレッドを作成し、次に、そのスレッドが実際にはプログラム順序
の一部ではなかったと後で判定する場合がある。その場合同じコードがもう一度
検出された場合、予測機構を使用して、同じスレッドをもう一度作成すべきかど
うかを判定することができるだろう。スレッド管理ロジック１２４は、スレッド
の動的作成と、コンパイラまたはプログラマからの明示的な命令ヒントの使用と
の組合せを使用して、命令内のどこでスレッドを作成すべきかを判定することが
できる。

【００１９】スレッドを動的に作成することは、マルチスレッド化のために特に作成または
コンパイルされたわけではないプログラムからスレッドを作成することであり、
スレッドの少なくとも１つは他のスレッドに依存する。プログラムは、実行パイ
プライン１０８およびスレッド管理ロジック１２４を含むチップから離れて作成
することができる。スレッドを動的に作成し、スレッドを実行し、実行時に推論
エラーを検出して訂正することを、動的マルチスレッド化と呼ぶ。

【００２０】図４は、条件付き分岐命令を含むスレッドＴ１を示している。プログラム順序
では、スレッドＴ２は条件付き分岐命令の次に実行される。時間順序では、スレ
ッドＴ２は、スレッドＴ１が最初に条件付き分岐命令に到達した時点から推論実
行される。したがって、スレッドＴ１およびＴ２の一部分は同時に実行される。
スレッドＴ２が誤推論を含む場合、スレッドＴ２の実施済み命令が再実施される
。

【００２１】スレッド管理ロジック１２４は、導体１３０を介してプログラム・カウンタの
計数値をモニタすることができる。計数値をモニタする目的は、スレッドがいつ
終了すべきかを判定することである。たとえば、条件付き分岐の条件が満たされ
ないときに、スレッドＴ１のプログラム・カウンタが続行可能になっている場合
、それはスレッドＴ２の第１の命令まで進むことになるだろう。したがって、ス
レッド管理ロジック１２４は、条件が満たされないときにスレッドＴ１のプログ
ラム・カウンタを停止する。

【００２２】図５は、関数呼出し命令を含むスレッドＴ１を示している。プログラム順序で
は、呼出し命令に到達したときに、プログラム・カウンタはその関数の位置まで
ジャンプして復帰命令まで実行し、復帰命令の時点でプログラム・カウンタは呼
出し後の命令に復帰する。プログラム順序では、スレッドＴ２は復帰後の命令か
ら始まる。時間順序では、スレッドＴ２は、スレッドＴ１が最初に呼出しに到達
した時点から推論実行される。スレッドＴ２が誤推論を含む場合、スレッドＴ２
の実施済み命令が再実施される。スレッドＴ１は、そのプログラム・カウンタが
スレッドＴ２の第１の命令に到達したときに終了する。図５のロードＭＸ命令お
よびストアＭＸ命令について以下に説明する。

【００２３】図６は、あるプログラムの一セクションの一部であるスレッドＴ１、Ｔ２、Ｔ
３、Ｔ４を示している。様々なプログラム・カウンタがスレッドＴ１、Ｔ２、Ｔ
３、Ｔ４を生成する。スレッドＴ１は、ポイントＡ（関数呼出し命令）までの命
令を含み、次にポイントＢからポイントＣ（条件付き逆方向分岐命令）、ポイン
トＤまで、さらにもう一度ポイントＣまでの命令を含む（このループは数回繰り
返すことができる）。スレッドＴ２は、プログラム順序でポイントＡで呼び出さ
れた関数の復帰命令の直後にある命令から始まる。スレッドＴ３は、プログラム
順序でポイントＣの条件付き逆方向分岐の直後にある命令から始まり、ポイント
Ｅ、ポイントＦ、ポイントＧ、ポイントＨ、さらにポイントＩまで継続し、ポイ
ントＩはスレッドＴ２が始まるポイントＡの直後の命令への復帰命令である。素
レットＴ４は、プログラム順序でポイントＥの条件付き逆方向分岐の直後にある
命令から始まる。

【００２４】図７に示すように、スレッドＴ１、Ｔ２、Ｔ３、Ｔ４の一部分は同時にフェッ
チされ、デコードされ、実行される。プログラム順序に従わないので、これらの
スレッドは不適正順序でフェッチされ、デコードされ、実行される。時間順序で
は、スレッドＴ２、Ｔ３、Ｔ４の実行はポイントＡ、Ｃ、Ｅの命令の直後にそれ
ぞれ始まる。垂直破線は親子関係を示している。スレッドＴ２、Ｔ３、Ｔ４は、
レジスタまたはメモリ位置にあるデータが正確であることが確実になる前にその
データを頼りにすることにより、推論実行される。プロセッサ１００は、誤推論
を検出し、誤推論した命令を再実施させるための機構を有する。スレッドＴ４が
プログラム順序の一部ではないことが判明する。スレッドＴ４は、スレッドＴ４
がプログラム順序の一部ではないことをスレッド管理ロジック１２４が判定する
まで実行することができる。その時点でスレッドＴ４はリセットすることができ
、プロセッサ１００内のスレッドＴ４を保持または処理する資源は、割振り解除
し、次に他のスレッドのために割り振ることができる。プログラム順序では、ス
レッドＴ１、Ｔ２、Ｔ３は、まずスレッドＴ１、次にスレッドＴ３、次にスレッ
ドＴ２という順序で実行されることになる。

【００２５】図２を参照すると、ＭＵＸ１１０からの命令はリネーム／割振りユニット１
５０によって受け取られ、そのユニットはレジスタ・ファイル１５２内のリネー
ムした物理レジスタの物理レジスタ識別子（ＰＲＩＤ）を供給する。このＰＲＩ
Ｄはバイパス導体１２６を介してトレース・バッファ１１４に供給される。割振
りは、命令にレジスタを割り当てることと、スケジュール／発行ユニット１５６
の予約ステーションの項目を割り当てることを含む。予約ステーション内の特定
の命令のためにオペランドの準備ができると、実行ユニット１５８のうちの１つ
の実行ユニット（たとえば、整数、浮動小数点）またはアドレス生成ユニット（
ＡＧＵ）１７２と、メモリ・オーダ・バッファ（ＭＯＢ）１７８と、データ・キ
ャッシュ１７６とを含むメモリ実行パイプラインにその命令が発行される。命令
によっては、オペランドは導体１６８を介してレジスタ・ファイル１５２から供
給される場合もある。本発明の一実施形態では、１つのスレッド内の従属命令は
、不適正順序で実行されないようにリンクすることができる。しかし、様々なス
レッドからの従属命令は、同時にフェッチし、デコードし、不適正順序で実行す
ることができる。所与のスレッドの実行は推論実行にすることができる。

【００２６】高いパフォーマンスのため、予約ステーションおよび関連機構は、低待ち時間
と高帯域幅命令発行の両方を有するように設計されている。この待ち時間と帯域
幅の要件は、予約ステーション内で待機できる命令の数に制限を加えるものであ
る。トレース・バッファ１１４をパイプライン１０８の外部に位置決めすること
により、パイプライン１０８のスループットを大幅に低下させることなく、多数
の命令を実行／再実施に使用イネーブルにすることができる。実行パイプライン
１０８とトレース・バッファ１１４との間の待ち時間の影響はパイプライン化に
より低減することができる。

【００２７】実行の結果と関連情報は、ライトバック・ユニット１６２から導体１２２（レ
ジスタの場合）を介し、さらにＭＵＸ１９２と導体１９６を介してトレース・
バッファ１１４に書き込まれる。この結果と関連情報は、レジスタ・ファイル１
５２と関連リオーダ・バッファ（ＲＯＢ）１６４に書き込むこともできる。ある
命令の結果と情報がレジスタ・ファイル１５２およびＲＯＢ１６４に書き込まれ
ると、その命令は、パイプライン１０８に関する限り、適正順序でリタイヤされ
る。このリタイヤは第１レベルまたは初期リタイヤと呼ばれる。第１レベル・リ
タイヤ時またはその前に、予約ステーション、レジスタ・ファイル１５２、ＲＯ
Ｂ１６４を含む、スケジュール／発行ユニット１５６内のリタイヤした命令用の
資源の割振りが解除される。しかし、その命令に関して必要なすべての詳細は、
後述する最終的なリタイヤまでトレース・バッファ１１４およびＭＯＢ１７８内
に維持される。

【００２８】プログラム順序で後のスレッドで使用するデータが前のスレッドで生成される
場合、後のスレッドと前のスレッドとの間に依存関係が存在する。このデータは
、メモリ命令または非メモリ命令によって前のスレッドで生成された可能性があ
る。たとえば、後のスレッド内のロード命令が前のスレッド内のストア命令と同
じアドレスを有する場合、後のスレッドは前のスレッドに依存する可能性がある
。また、後のスレッド内のある命令が前のスレッドで変更されたレジスタを必要
とする場合も、後のスレッドは前のスレッドに依存する可能性がある。同様に、
プログラム順序で後の命令が前の命令によって生成されたデータを使用する場合
、後の命令は前の命令に依存する。「依存関係」という用語は「依存関係推論」
という句でも使用する。依存関係推論の一例は、ロード命令と前のストア命令と
の間に依存関係がまったくないと推論することである。アドレスの突合せは、依
存関係推論エラーをチェックするための技法の一例である。データ推論の一例は
、レジスタ内のデータが正しいデータであると推論することである。レジスタの
突合せは、データ推論エラーをチェックするための技法の一例である。

【００２９】Ｂ．トレース・バッファ１１４に関する詳細図８を参照すると、トレース・バッファ１１４はトレース・バッファ１１４Ａ
、１１４Ｂ、１１４Ｃ、・・・、１１４Ｙを含む。Ｙはトレース・バッファの数
を表す。たとえば、Ｙ＝４（すなわち、Ｙ＝Ｄ）である場合、４つのトレース・
バッファが存在する。Ｙが３未満である場合、トレース・バッファ１１４は図８
に示すトレース・バッファをすべて含むわけではなくなる。ＹはＸ（プログラム
・カウンタの数）と同じかまたはＸとは異なるものにすることができる。トレー
ス・バッファ１１４は、個別トレース・バッファに分割された単一メモリにする
か、物理的に別々のトレース・バッファにするか、あるいは両者の組合せにする
ことができる。

【００３０】図９を参照すると、一実施形態では、スレッド管理ロジック１２４は、スレッ
ドＩＤのプログラム順序（リタイヤ順序でもある）を指定するアレイ１９８を含
む。この例では、各トレース・バッファは固有のスレッドＩＤを有するかまたは
スレッドＩＤに対する１対１のマッピングを有する。たとえば、トレース・バッ
ファ１１４ＡにはスレッドＩＤ１が割り当てられ、トレース・バッファ１１４Ｂ
にはスレッドＩＤ２割り当てられ、以下同様である。スレッドＩＤはハードワイ
ヤードにするかまたはプログラミングすることができる。一実施形態では、各プ
ログラム・カウンタは特定のスレッドＩＤおよびトレース・バッファに関連付け
られる。（あるいは、このような制限された関係が存在しない。）

【００３１】図９は、時点ｔ１と時点ｔ２におけるスレッドのリタイヤ順序の一例を示して
いる。この例では、４つのトレース・バッファと４つのスレッドＩＤのみが存在
する。関連スレッド番号は括弧内に示す。実施によっては、括弧内のスレッド番
号は実際にはアレイ１９８に含まれなくなる。時点ｔ１では、図６の例のように
、プログラムおよびリタイヤ順序はスレッドＴ１、Ｔ３、Ｔ２、Ｔ４になる。時
点ｔ１と時点ｔ２との間には、スレッドＴ４がプログラム順序内にないことが判
定される。したがって、スレッドＴ４はリセットされ、トレース・バッファ１１
４Ｄ内にスレッドＴ５（図５には図示せず）のためのスペースができる。スレッ
ドＴ５はスレッドＩＤ４に関連付けられる。スレッドＴ１はリタイヤし、トレー
ス・バッファ１１４Ａ内にスレッドＴ６のためのスペースができる。スレッドＴ
６はスレッドＩＤ１に関連付けられる。時点ｔ２では、プログラムおよびリタイ
ヤ順序はＴ３、Ｔ２、Ｔ５、Ｔ６になる。（スレッドＴ４がリセットされる前に
スレッドＴ１がリタイヤした場合、スレッドＴ５およびＴ６は異なるスレッドＩ
Ｄを有することになるが、プログラムおよびリタイヤ順序は変わらないだろう。
）使用するアルゴリズムによっては、スレッドＴ２は最初はアレイ１９８内のス
レッドＴ３より前にあった可能性があるが、プログラムおよびリタイヤ順序は時
点ｔ１におけるアレイ１９８のように訂正されることになるだろう。

【００３２】前述のように、スレッドのプログラム順序は、スレッドが適正順序プロセッサ
で実行されると思われる順序である。また、命令のプログラム順序は、命令が適
正順序プロセッサで実行されると思われる順序である。スレッド管理ロジック１
２４は必ずしも最初にそのスレッド用の真のプログラム順序を決定するわけでは
ない。しかし、スレッド管理ロジック１２４は結局、真のプログラム順序を決定
する。

【００３３】図８を参照すると、トレース・バッファ１１４Ａ、１１４Ｂ、・・・、１１４
Ｙは、導体１１８に接続された導体１１８Ａ、１１８Ｂ、・・・、１１８Ｙを介
して命令を受け取る。導体１１８Ａ、１１８Ｂ、・・・、１１８Ｙの間にはデマ
ルチプレクシング回路が存在する場合もある。あるいは、どのトレース・バッフ
ァが活動化されるかをイネーブル信号によって制御することもできる。さらに、
並列トランザクションを処理するために十分な並列導体が存在する場合もある。
トレース・バッファ１１４Ａ、１１４Ｂ、・・・、１１４Ｙは、導体１２０に接
続された導体１２０Ａ、１２０Ｂ、・・・、１２０Ｙを介してパイプライン１０
８に対して再実施のために命令および関連情報を供給する。ただし、トレース・
バッファ１１４からの複数の命令が再実行のために導体１２０およびＭＵＸ１
１０を同時に通過する場合もあることに留意されたい。同時に、デコーダ１０６
からの複数の命令も初めてＭＵＸ１１０を通過することができる。スレッドＩ
Ｄおよび命令ＩＤ（ｉｎｓｔｒＩＤ）はパイプラインにより各命令に付随する。
また、再実施計数値もその命令に付随する場合がある。ロード命令およびストア
命令の場合、ロード・バッファＩＤ（ＬＢＩＤ）とストア・バッファＩＤ（ＳＢ
ＩＤ）もその命令に付随する場合がある。一実施形態では、ＬＢＩＤとＳＢＩＤ
がどの命令にも付随するが、ロードまたはストアではない命令の場合、ＬＢＩＤ
値とＳＢＩＤ値は無意味なものになる可能性がある。以下に説明するように、Ｐ
ＲＩＤまたは値が再実行中の命令に付随する場合もある。

【００３４】トレース・バッファ１１４Ａ、１１４Ｂ、・・・、１１４Ｙは、導体１２６に
接続されたバイパス導体１２６Ａ、１２６Ｂ、・・・、１２６Ｙを介してリネー
ム／割振りユニット１５０からＰＲＩＤ値、ＬＢＩＤ値、ＳＢＩＤ値を受け取る
。また、トレース・バッファ１１４Ａ、１１４Ｂ、・・・、１１４Ｙは、導体１
２２に接続された導体１２２Ａ、１２２Ｂ、・・・、１２２Ｙと、導体１９６に
接続された導体１９６Ａ、１９６Ｂ、・・・、１９６Ｙを介してライトバック結
果情報と関連信号を受け取る。再実施信号は、導体１９４に接続された導体１９
４Ａ、１９４Ｂ、・・・、１９４Ｙを介して供給される。導体１２０、１２６、
１２２、１９４、１９６では、多重化またはイネーブル回路あるいは相当な数の
並列導体を使用することができる。トレース・バッファは同一またはいくらか異
なるものにすることができる。

【００３５】図１０のトレース・バッファ１１４Ａは、トレース・バッファの第１の実施形
態を示している。図１１のトレース・バッファ１１４Ａ’は、トレース・バッフ
ァの第２の実施形態を示している。トレース・バッファの他の実施形態は、トレ
ース・バッファ１１４Ａおよび１１４Ａ’の変形形態あるいはまったく異なるア
ーキテクチャを含むことができるだろう。

【００３６】１．トレース・バッファ１１４Ａ図１０を参照すると、トレース・バッファ１１４Ａは、命令待ち行列アレイ２
０２Ａと、データ及び依存関係（ＤＡＤ）アレイ２０６Ａと、入力レジスタ・フ
ァイル２０８Ａと、出力レジスタ・ファイル２１０Ａと、依存関係生成回路２１
２Ａと、制御回路２２４Ａとを含む。「アレイ」という用語は、特定の形式に制
限せず、広い意味で複数方向の情報を含むためのものである。

【００３７】ａ．命令待ち行列アレイ２０２Ａ図１２に関連して、本発明の一実施形態による命令待ち行列アレイ２０２Ａの
構造と、それと他の構成要素との対話について、以下に説明する。命令待ち行列
アレイ２０２Ａは、特定のスレッドの一部であるＩキャッシュ１０４からフェッ
チされた命令を受け取る。１つのスレッド内の命令は、適正順序でフェッチされ
、命令待ち行列アレイ２０２Ａに書き込まれる。他のスレッドの一部である命令
は、異なるトレース・バッファの命令待ち行列内に書き込まれるか、または異な
る時点で命令待ち行列アレイ２０２Ａによって書き込まれる。命令待ち行列アレ
イ２０２Ａは、各命令識別子（ｉｎｓｔｒＩＤ）に関する様々な情報フィールド
を含む。様々な実施形態は、いくらか異なるフィールドと、異なる数の行を含む
ことができるだろう。命令待ち行列アレイ２０２Ａのこの実施形態では、プログ
ラム・カウンタ値は考慮されないが、他の実施形態では考慮される可能性がある
。命令待ち行列アレイ２０２Ａと添付図面に示す他のすべての構成要素は、図示
していない様々なフィールド、信号、および構造を含むことができる。このよう
なフィールド、信号、構造は図示していない。というのは、これらは実施に応じ
て変化するものであり、当業者によって理解されており、本明細書を非常に複雑
にし、本発明を不明確にする傾向があるからである。

【００３８】命令は、（たとえば、そのスレッドがプログラムの適正順序実行の一部ではな
いと判定されたという理由で）最終的にリタイヤまたは廃棄されるまで、トレー
ス・バッファ１１４Ａ内で待機する。まだ実行されていない命令が依然としてト
レース内に存在する間に命令待ち行列アレイ２０２Ａがいっぱいになった場合、
１つの命令が最終的に命令待ち行列アレイ２０２Ａからリタイヤされ、１つの行
の割振りが解除されるまで、トレース内の命令はトレース・バッファ１１４また
はリネーム／割振りユニット１５０によって受け取られない。システム１００内
の様々なアレイの項目は、先頭ポインタおよび末尾ポインタの移動によって割振
りおよび割振り解除を行うことができる。

【００３９】以下のコード行に関連して、命令待ち行列アレイ２０２Ａについて説明する。Ｉ０：ｍｕｌＲ１，Ｒ２→Ｒ１Ｉ１：ｍｕｌＲ３，Ｒ４→Ｒ２Ｉ２：ａｄｄＲ１，Ｒ２→Ｒ１Ｉ３：ａｄｄ１０，Ｒ１→Ｒ４Ｉ４：ｓｔｏｒｅＲ２→ＭｘＩ５：ｓｔｏｒｅＲ１→Ｍｙこれらは、１つのスレッド内の最初の６つの命令である。トレース・バッファ１
１４Ａ以外のトレース・バッファはプログラム順序でトレース・バッファ１１４
Ａより前にあることは明らかになるだろう。

【００４０】「命令コード」フィールドは、特定の命令に関連する命令コードを含む。「宛
先」、「ソース１」、「ソース２」の各フィールドは、命令の宛先、ソース１、
ソース２を識別する。「ソース１のインデックス」は、そのソースを含むトレー
ス・バッファ１１４Ａ内の命令項目を識別する。たとえば、ｉｎｓｔｒＩＤ０の
宛先はｉｎｓｔｒＩＤ２のソース１に使用される。したがって、ｉｎｓｔｒＩＤ
２の「ソース１のインデックス」フィールドには０が入る。ｉｎｓｔｒＩＤ２の
宛先はｉｎｓｔｒＩＤ３のソース２に使用される。したがって、ｉｎｓｔｒＩＤ
３の「ソース２のインデックス」フィールドには２が入る。×は指定なしを意味
する。

【００４１】「有効１」と「有効２」のフィールドは、トレース・バッファ１１４Ａ内のス
レッドの外部からの命令によってあるｉｎｓｔｒＩＤの対応するソース・オペラ
ンドが事前に生成されたときに第１の値（たとえば、論理０）にセットされ、そ
のスレッド内の命令によってあるｉｎｓｔｒＩＤのソース・オペランドが事前に
生成されたときに第２の値（たとえば、論理１）にセットされるビットである。
ｉｎｓｔｒＩＤ０のソース１（Ｒ１）は、命令待ち行列アレイ２０２Ａ内のトレ
ースの外部で生成される。したがって、ｉｎｓｔｒＩＤ０の有効１は論理０にな
る。ｉｎｓｔｒＩＤ３のソース２はｉｎｓｔｒＩＤ２の宛先から得られる。した
がって、ｉｎｓｔｒＩＤ３の有効２は論理１になる。

【００４２】命令Ｉ３は、定数「１０」にＲ１を加算することを含む。この定数は、命令と
ともに、特殊レジスタ（図示せず）に、ソース１フィールドに、または他の何ら
かの機構により格納することができる。図１２では、ｉｎｓｔｒＩＤ３のソース
１フィールドに×（指定なし）が示されている。あるいは、ソース１フィールド
に何らかのインジケータを入れることができるだろう。

【００４３】ストア・バッファＩＤ（ＳＢＩＤ）フィールドは、後述するストア・バッファ
内のストア命令に関連するＳＢＩＤを保持する。ロード・バッファ（ＬＢＩＤ）
フィールドは、後述するロード・バッファ内のロード命令に関連するＬＢＩＤ項
目を保持する。ＳＢＩＤ値とＬＢＩＤ値は、リネーム／割振りユニット１５０に
よって割り当てられ、バイパス導体１２６を介して命令待ち行列アレイに書き込
まれる。スレッドＩＤ番号フィールドは命令待ち行列アレイ２０２Ａに含めるこ
とができるだろうが、暗黙のものなのでその必要はない。

【００４４】ｂ．ＤＡＤアレイ２０６Ａおよび依存関係生成回路２１２Ａ図１３を参照すると、ＤＡＤアレイ２０６Ａの一実施形態は、１対１方式で命
令待ち行列アレイ２０２ＡのｉｎｓｔｒＩＤ項目に対応する「ｉｎｓｔｒＩＤ」
項目（行）を含む。実際に、命令待ち行列アレイ２０２ＡとＤＡＤアレイ２０６
Ａは同じアレイの異なる部分にすることもできるだろう。しかし、一部の実施形
態では、命令待ち行列アレイ２０２ＡとＤＡＤアレイ２０６Ａに関連する別々の
読取りポートが存在する。

【００４５】ＤＡＤアレイ２０６Ａは、命令によって生成された値またはレジスタ・ファイ
ル１５２内のＰＲＩＤのいずれかを含む「値またはＰＲＩＤ」フィールドを含む
。この値は、ライトバック・ユニット１６２とライトバック・バス１２２および
１９６を介して実行ユニットからトレース・バッファ１１４Ａにライトバックさ
れる。「状況」フィールドは、２ビットにすることができるものであり、「値ま
たはＰＲＩＤ」フィールドが「値」を含むか「ＰＲＩＤ」を含むかを示す。一実
施形態では、「値またはＰＲＩＤ」が有効な「値」または有効な「ＰＲＩＤ」の
いずれも保持しないことが可能である。「再実施計数値」フィールドは、命令デ
ィスパッチを明確に識別するものであり、同じｉｎｓｔｒＩＤの命令がパイプラ
イン１０８で再実施されるたびに増分される。一実施形態では、パイプライン１
０８内で１つの命令を複数回同時に再実施することも可能である。この場合、一
実施形態では、最高「再実施計数値」に関連する情報だけがＤＡＤアレイ２０６
Ａにライトバックされる。

【００４６】「依存関係フィールド」は、各論理レジスタに関するビットを含む。図１３で
は、簡略化のため、４つの論理レジスタ（Ｒ１、Ｒ２、Ｒ３、Ｒ４）だけが表さ
れている。しかし、この数ははるかに大きいものにすることもできる。この例で
は、依存関係フィールド項目は、トレースへの入力値と命令項目との間にデータ
依存関係連鎖が存在することを示すために１にセットされ、依存関係がまったく
ない場合に０にセットされる。依存関係フィールド項目は、入力値が受け取られ
た場合に（値の誤推論が検出されたときなどに）トレース内のどの命令を実行す
る必要があるかを識別する。

【００４７】命令がフェッチされ、デコードされ、トレース・バッファ１１４Ａに書き込ま
れると、依存関係ビットが順次計算され、ＤＡＤアレイ２０６Ａに書き込まれる
。依存関係ビットは、命令を再実施すべきかどうかが判定される前に生成するこ
とができる。図１３の依存関係ビットは、Ｂ．１．ａ項に前述したように６つの
命令Ｉ１〜Ｉ５に関するものである。

【００４８】依存関係フィールドは、機械的手法により作成することができる。このような
手法の１つを説明する前に、より直観的なレベルでの作成について説明する。

【００４９】ｉ．直観レベル命令Ｉ０の結果はレジスタＲ１およびＲ２のみに依存する。したがって、ｉｎ
ｓｔｒＩＤ０のＲ１列とＲ２列には１が入り、Ｒ３列とＲ４列は０のままになる
（命令Ｉ０に関する情報を保持する）。

【００５０】命令Ｉ１の結果はレジスタＲ３およびＲ４のみに依存する。したがって、ｉｎ
ｓｔｒＩＤ１のＲ１列とＲ２列には０が入り、Ｒ３列とＲ４列には１が入る。

【００５１】命令Ｉ２の結果は、命令Ｉ０およびＩ１で生成されたレジスタＲ１およびＲ２
にそれぞれ直接依存する。命令Ｉ０では、Ｒ１はトレースの先頭にあるＲ１値と
Ｒ２値に依存する。命令Ｉ２では、Ｒ２はトレースの先頭にあるＲ２値とＲ４値
に依存する。したがって、命令Ｉ２はトレースの先頭にあるＲ１〜Ｒ４値に間接
的に依存し、ｉｎｓｔｒＩＤ２のＲ１〜Ｒ４列には１が入る。

【００５２】命令Ｉ３の結果は、命令Ｉ２で生成されたレジスタＲ１に直接依存する。した
がって、命令Ｉ２がトレースの先頭にあるＲ１〜Ｒ４値に依存するので、命令Ｉ
３はこれらの値に間接的に依存し、ｉｎｓｔｒＩＤ３のＲ１〜Ｒ４列には１が入
る。

【００５３】命令Ｉ４の結果は、命令Ｉ１で生成されたレジスタＲ２に直接依存する。Ｒ２
はトレースの先頭にあるレジスタＲ３値とＲ４値に依存する。したがって、ｉｎ
ｓｔｒＩＤ４のＲ１列とＲ２列には０が入り、Ｒ３列とＲ４列には１が入る。

【００５４】命令Ｉ５の結果は、命令Ｉ２で生成されたレジスタＲ１に直接依存し、これは
トレースの先頭にあるレジスタＲ１〜Ｒ４に依存する。したがって、ｉｎｓｔｒ
ＩＤ５のＲ１〜Ｒ４列には１が入る。

【００５５】ｉｉ．機械的手法本発明の一実施形態による依存関係フィールドを生成するために使用できるレ
ジスタおよびアルゴリズムについて以下に説明する。図１４を参照すると、依存
関係生成回路２１２Ａは、各論理レジスタごとに１つずつの一時レジスタ２３０
、２３２、２３４、２３６と、追加の一時レジスタ２４０とを含む。一時レジス
タ２３０、２３２、２３４、２３６は、論理レジスタＲ１、Ｒ２、Ｒ３、Ｒ４用
の修飾子を含む。変更レジスタ２４０は、トレース内の命令によってどの論理レ
ジスタを変更すべきかを示す１組のビットを含む。レジスタ２３０、２３２、２
３４、２３６、２４０は、新しい命令がトレース・バッファに書き込まれるたび
に更新される。レジスタ間の境界はいくらか任意のものである。たとえば、これ
らはすべて１つの結合レジスタ内に入れることができる。

【００５６】各論理レジスタごとにトレース・バッファ・アドレス・レジスタが設けられ、
それが論理レジスタを変更するためのトレース・バッファ１１４Ａ内の最後の命
令を指し示す。変更ビットおよび最後の修飾子アドレスは、トレース・バッファ
１１４Ａに書き込むべき次の命令に関する依存関係ビットを計算するために使用
する。

【００５７】ただし、ここで使用するレジスタの変更とは、そのレジスタの値を書き込むこ
とを意味するだけであることに留意されたい。そのレジスタの内容が命令の結果
として異なるものになることを必ずしも意味するわけではない。たとえば、（命
令Ｉ０内のように）Ｒ１およびＲ２の内容が乗算され、その結果がレジスタＲ１
に書き込まれる場合、Ｒ１の内容は必ずしも命令Ｉ０の結果として異なるものに
なるわけではない。たとえば、命令前にＲ１の内容が「０」であるかまたはＲ２
が「１」である場合、命令後のＲ１の内容は異なるものにはならないだろう。

【００５８】図１６の流れ図２５０は、ＤＡＤアレイ２０６Ａの依存関係フィールドを作成
するためにある命令の各ソース・オペランド（たとえば、ソース１とソース２）
ごとに実行されるアルゴリズムを表している。ステップ２５２では、レジスタ２
４０に関連ビットがセットされているかどうかが判定される。ステップ２５４に
記載するように、レジスタ２４０内のビットがセットされていない場合、そのレ
ジスタに関連する依存関係フィールドのビットは論理１にセットされる。ステッ
プ２５８に記載するように、レジスタ２４０内のビットがセットされている場合
、関連レジスタ用の指標レジスタ（２３０、２３２、２３４、または２３６）か
ら作成されたインデックスを使用してソース依存関係フィールドが読み取られる
。次に、ステップ２６２に記載するように、論理ＯＲ演算を使用してソース依存
関係ビットが現行命令の依存関係ビットとマージされる。このような論理ＯＲ演
算は図１５のＯＲゲート２４４に示す（同図では複数のビットが入力側に表され
ている）。図１６のアルゴリズムを実行する際に参照される変更レジスタおよび
修飾子は、ある命令を実行する直前に存在したものである。

【００５９】Ｉ０に関して説明すると、命令Ｉ０の前にレジスタ２４０はＲ１、Ｒ２、Ｒ３
、Ｒ４用として論理０を有し、レジスタ２３０、２３２、２３４、２３６の値は
×（指定なし）になる。ステップ２５２では、Ｒ１およびＲ２用のレジスタ２４
０内の変更ビットはそれぞれ０になる。したがって、ステップ２５４では、Ｒ１
およびＲ２用の依存関係フィールド・ビットは、ＤＡＤアレイ２０６Ａのｉｎｓ
ｔｒＩＤ０行でそれぞれ１にセットされる。レジスタＲ３およびＲ４は含まれな
いので、ｉｎｓｔｒＩＤ０の行は０のままになる。命令Ｉ０はレジスタＲ１を変
更するものである。したがって、レジスタ２３０には０が入り、命令Ｉ０がレジ
スタＲ１を変更するための最も最新の命令であることを示す。レジスタ２３２、
２３４、２３６内の値は×（指定なし）のままになる。レジスタ２４０のＲ１ビ
ットは１にセットされ、そのトレース内の命令によってＲ１が変更されたことを
示す。

【００６０】命令Ｉ１の依存関係フィールドは、命令Ｉ０のものと同様に生成される。変更
レジスタ２４０のＲ１論理レジスタ列は１にセットされたままになる。変更レジ
スタ２４０のＲ２列には論理１が入る。レジスタ２３２内の１は命令Ｉ１を表す
。

【００６１】Ｉ２に関して説明すると、命令Ｉ２の前にステップ２５２では、Ｒ１およびＲ
２用のレジスタ２４０内の変更ビットはそれぞれ論理１になる（すなわち、セッ
トされる）。ステップ２５８では、命令Ｉ２の直前のＲ１（２３０）およびＲ２
（２３２）用の指標レジスタがインデックスとして使用される。レジスタ２３０
は命令Ｉ０に関する０を含む。ＤＡＤアレイ２０６ＡのｉｎｓｔｒＩＤ０の命令
Ｉ０用の依存関係フィールドは００１１になる。レジスタ２３２は命令Ｉ１に関
する１を含む。ｉｎｓｔｒＩＤ１の命令Ｉ１用の依存関係フィールドは１１００
になる。ステップ２６２では、００１１と１１００の論理ＯＲが１１１１になる
。したがって、ｉｎｓｔｒＩＤ２用のＤＡＤアレイ２０６Ａの依存関係フィール
ドには１１１１が入る。Ｒ１は命令Ｉ２によって変更される。しかし、レジスタ
Ｒ１用のレジスタ２４０にはすでに１が入っている。レジスタ２３０にはＡ２が
入り、命令Ｉ２が命令Ｒ１を変更するための最も最新の命令であることを示す。

【００６２】命令Ｉ３の依存関係フィールドは、命令Ｉ２のものと同様に生成される。変更
レジスタ２４０のＲ４列には論理１が加算され、レジスタ２３６には命令Ｉ３を
表す３が入る。論理ＯＲは１１１１を生成する。

【００６３】Ｉ４に関して説明すると、命令Ｉ４の前にステップ２５２では、Ｒ２用のレジ
スタ２４０内の変更ビットは１にセットされる。ステップ２５８では、命令Ｉ４
の直前のＲ２（２３２）用の指標レジスタがインデックスとして使用される。レ
ジスタ２３２は命令Ｉ１に関する１を含む。ＤＡＤアレイ２０６Ａのｉｎｓｔｒ
ＩＤ１の命令Ｉ１用の依存関係フィールドは１１００になる。ステップ２６２で
は、１１００（ｉｎｓｔｒＩＤ１からのソース１）と００００（ソース２がまっ
たくない）の論理ＯＲが１１００になる。したがって、ｉｎｓｔｒＩＤ４行用の
ＤＡＤアレイ２０６Ａの依存関係フィールドには１１００が入る。

【００６４】命令Ｉ５の依存関係フィールドは、命令Ｉ４のものと同様に生成される。命令
Ｉ５およびＩ６は外部メモリ位置を変更するものであり、レジスタ２３０、２３
２、２３４、２３６、２４０内の変更は行わない。

【００６５】この依存関係情報がスケジュール／発行ユニット１５６によって使用される場
合もあれば、スケジュール／発行ユニット１５６がそれ専用の依存関係情報を導
出するだけの場合もある。

【００６６】再実施時に一連の命令シーケンスまたは命令ストリングをトレース・バッファ
１１４Ａから発行できる方法は様々である。１つの方法は、トレース・バッファ
を順次読み取って、依存関係ビットがセットされた命令を抽出し、それを再実施
のために送信する方法である。しかし、ゼロはパイプライン内にバブルを作り出
す効果を有する可能性がある。もう１つの手法は、実行／再実施のために命令を
送信する前に論理をパックすることによりバブルを除去させる方法である。図１
７を参照すると、もう１つの手法は、各論理レジスタごとにアレイ２６８を含む
追加のハードウェアを必要とする。アレイ２６８は、レジスタＲ１に依存する命
令のｉｎｓｔｒＩＤ値を含む。アレイ２６８内の値は、命令待ち行列アレイ２０
２Ａ内のｉｎｓｔｒＩＤ項目全体を指すポインタとして動作する。このため、命
令バッファからの非常に高速な読取りが可能になる。１ブロック分の命令（おそ
らく、２つまたは４つ）が一度に読み取られる。トレース・バッファ１１４Ａは
、マルチポート化し、４つのデコーダを有し、レジスタ・アレイから得られたイ
ンデックスのそれぞれ１つをデコーダ内に渡すことができるので、命令Ｉ０、Ｉ
２、Ｉ３、Ｉ５は１サイクルで読み取ることができる。レジスタＲ１アレイは、
再実施が始まる前に依存関係フィールドを作成したときにアセンブルすることが
できるだろう。

【００６７】ｃ．出力レジスタ・ファイル２１０Ａおよび入力レジスタ・ファイル２０８Ａトレース・バッファ１１４は、所与の推論エラーを検出するための検出回路を
含む。本発明の一実施形態により、各トレース・バッファは、関連スレッドのレ
ジスタ・コンテキストを保持する出力レジスタ・ファイルと、プログラム順序で
直前のスレッドのレジスタ・コンテキストを受け取るための入力レジスタ・ファ
イルとを有する。レジスタ・コンテキストは、論理レジスタの内容または状態で
ある。出力レジスタ・ファイル変更の内容はしばしば更新され、おそらく、レジ
スタ内で変更が行われるたびに更新される。入力レジスタ・ファイルの内容は、
後述する比較の後でのみ更新される。

【００６８】図１８および図１９は、出力レジスタ・ファイル２０８Ａ（トレース・バッフ
ァ１１４Ａ内）と入力レジスタ・ファイル２０８Ｂ（トレース・バッファ１１４
Ｂ内）の実施形態を示すが、他の実施形態も使用できる。出力レジスタ・ファイ
ル２０８Ａおよび入力レジスタ・ファイル２１０Ｂは、値またはＰＲＩＤフィー
ルドと状況フィールドとを含む。状況フィールドは、有効な値または有効なＰＲ
ＩＤが値またはＰＲＩＤフィールド内に保持されているかどうかを示す。一実施
形態では、有効な値または有効なＰＲＩＤのいずれかが存在する。他の実施形態
では、どちらも存在しないことがあり、その場合は、入力レジスタ・ファイルに
依存する命令が一方が存在するまで待機することがある。

【００６９】ただし、上記の例の命令Ｉ０はレジスタＲ１およびＲ２を含み、そのいずれも
以前は命令Ｉ０を含むスレッド内の命令の宛先ではなかったことに留意されたい
。しかし、レジスタＲ１およびＲ２の値またはＰＲＩＤは入力レジスタ・ファイ
ル２０８Ａから入手可能であり、命令Ｉ０の実行時に使用されるだろう。

【００７０】図２０を参照すると、比較器２８０Ｂは、現行スレッドに関する入力レジスタ
・ファイル２０８Ｂ（トレース・バッファ１１４Ｂ内）の内容と、プログラム順
序で直前のスレッドに関する出力レジスタ・ファイル２１０Ａ（トレース・バッ
ファ１１４Ａ内）の内容を比較する。この比較は、直前のスレッドの実行終了時
または先行スレッドの最初の実行中に行うことができる。また、この比較は、先
行スレッドのリタイヤ終了時にも行われる。一実施形態では、この比較は、先行
スレッドのリタイヤ終了時のみに行われる。

【００７１】比較器２８０Ｂによる比較は、様々な事象によってトリガされる可能性がある
。この比較は推論エラーを検出するために行われる。入力レジスタ・ファイルと
出力レジスタ・ファイルとの間に違いがある場合、直前のスレッドの出力レジス
タのうちの１つまたは複数の値が変更されている。これに応答して、入力レジス
タ・ファイル２０８Ｂが更新され、再実施トリガ・ロジック２８４Ｂにより変更
されたレジスタ値とともに実施済み命令が再実施される。依存関係フィールドは
再実施トリガ・ロジック２８４Ｂによって使用できる。変更された値が結局正し
い値（すなわち、純粋に適正順序プロセッサ内で生成されたと思われるレジスタ
値）であるという保証はまったくない。その命令は、もう一度、おそらく数回再
実施する必要がある場合もある。

【００７２】一実施形態では、スレッド用の検出回路は、出力レジスタ・ファイルと、入力
レジスタ・ファイルと、比較器と、その入力レジスタ・ファイルを含むトレース
・バッファ内に保持された命令内の所与の推論エラーを検出するための関連制御
回路とを含む。他の実施形態では、検出回路は多少異なる回路を含む可能性があ
る。

【００７３】一例として、図２１を参照すると、スレッドＴ２は現行スレッドであり、トレ
ース・バッファ１１４Ｂに関連付けられている。スレッドＴ１はスレッドＴ２の
直前のスレッドであり、トレース・バッファ１１４Ａに関連付けられている。ス
レッドＴ１は、関数呼出しと、その関数と、関数呼出しからの復帰とを含む。ス
レッドＴ２の実行は関数呼出しの直後に始まる。関数呼出し時に存在した出力レ
ジスタ２１０Ａの内容は、入力レジスタ・ファイル２０８Ｂ内にコピーされる。
スレッドＴ２の命令は、入力レジスタ・ファイル２０８Ｂ内のレジスタ・コンテ
キストに基づいて推論実行される。復帰命令の時点で入力レジスタ・ファイル２
０８Ｂの内容は、比較器２８０Ｂによって出力レジスタ・ファイル２１０Ａの内
容と比較される。違いがある場合、入力レジスタ・ファイル２０８Ｂは更新され
、スレッドＴ２内の実施済み命令が再実施される。この比較は、１つまたは複数
の中間時点で行うこともできる。これは、命令の再実施をより均一に分散するこ
とによりボトルネックを防止するのに役立つことがあるが、たとえば、出力レジ
スタ・ファイルの内容がその関数中に複数回変更された場合に追加の再実施を引
き起こす可能性がある。出力レジスタ・ファイルは絶えず変化しているので、出
力レジスタ・ファイル２１０Ａの内容を受け取る中間バッファを備えていること
が望ましいであろう。その場合、比較は中間バッファと入力レジスタ・ファイル
２０８Ｂの内容同士で行われることがある。

【００７４】図８および図１０に示すように、レジスタ・コンテキストは導体２１６により
出力レジスタ・ファイルと入力レジスタ・ファイルとの間で渡される。導体２１
６は、直前のスレッド用のトレースを保持することができる各トレース・バッフ
ァの出力レジスタ・ファイルと各入力レジスタ・ファイルとを接続する。プログ
ラム順序がいつでも特定のトレース・バッファ順序に従うことが保証できる場合
、導体２１６のレイアウトはかなり単純なものになる可能性がある。出力レジス
タ・ファイルと入力レジスタ・ファイルは、図１０および図１１に示す制御回路
２２４Ａによって制御することができる。

【００７５】出力レジスタ・ファイルと入力レジスタ・ファイルは値またはＰＲＩＤのいず
れかを供給することになるので、入力レジスタ・ファイル内の内容を受け取って
から、ソース・オペランドとして入力レジスタからのレジスタを使用して命令を
実行できるようになるまでに非常に小さい待ち時間が存在する可能性がある。値
が入手できない場合、パイプライン１０８内での実行のためにレジスタ・ファイ
ル１５２へのＰＲＩＤを使用することができる。

【００７６】正しいソース・オペランドが様々なスレッドのレジスタ・ファイルを通過する
ときに多くの命令が複数回再実施されることが予想される。しかし、多くのプロ
グラムでは、大量の命令をまったく再実施しないか、あるいは比較的少数回再実
施することが必要になり、その結果、単位時間あたりに正しく実行される命令が
大幅に増加し、１つのプログラムを実行するのに必要な全時間が減少することも
予想される。

【００７７】２．トレース・バッファ１１４’ 図１１を参照すると、トレース・バッファ１１４Ａ’はトレース・バッファ（
図１０）と同様のものである。しかし、トレース・バッファ１１４Ａ’内の依存
関係フィールドは、ある命令を再実施すべきであると決定された後で、依存関係
生成デコード回路２１８Ａ内で生成される。これにより再実施時に何らかの初期
待ち時間が発生する可能性があるが、再実施用の命令の発行と依存関係の判定が
パイプライン方式で実行される場合、いったんプロセスが開始されると、追加の
待ち時間はほとんど発生しない可能性がある。

【００７８】一実施形態では、依存関係生成デコード回路２１８Ａは依存関係情報用のフィ
ールドを１つだけ保持する。（図１３では、４つのフィールドが存在する。）こ
の同一フィールドは再使用可能である。たとえば、レジスタＲ１に依存する命令
の再実施中に、このフィールドを使用してレジスタＲ１に依存する命令をリスト
することができるだろう。また、レジスタＲ２に依存する命令の再実施中に、同
じフィールドを使用してレジスタＲ２に依存する命令をリストすることができ、
以下同様である。依存関係生成デコード回路２１８Ａは、唯一の修飾子フィール
ドと１つの変更レジスタとを含むことができるだろう。（図１４では、４つ存在
する。）あるいは、依存関係生成デコード回路２１８Ａは複数の依存関係フィー
ルドとレジスタとを含むことができるだろう。依存関係生成デコード回路２１８
Ａは、一度に数個の命令のみの依存関係を判定することができる。

【００７９】データ・アレイ２１４Ａは、（図１０および図１３のＤＡＤアレイ２０６Ａと
同様に）各ｉｎｓｔｒＩＤ項目ごとの値またはＰＲＩＤフィールドと、状況ビッ
ト・フィールドと、再実施計数値フィールドとを含む。あるいは、データ・アレ
イ２１４Ａの内容を依存関係生成デコード回路２１８Ａに入れて、データ・アレ
イ２１４Ａを不要にすることができるだろう。データ・アレイ２１４Ａと依存関
係生成デコード回路２１８Ａを別々のものとして維持することが有利になりうる
理由は２つある。第１に、それらは異なる読取りポートを含む可能性があること
である。第２に、一実施形態では、依存関係生成デコード回路２１８Ａは、命令
待ち行列アレイ２０２Ａおよびデータ・アレイ２１４Ａと同じ数の行を有してい
ないことである。換言すれば、一実施形態では、依存関係デコード回路２１８Ａ
は、それが依存関係フィールドを再使用できるのと同様に、行を再使用する。当
然のことながら、多くの可能性が存在する。

【００８０】以下に詳述するように、ＭＯＢ１７８は、導体１９４を介してロード命令を
いつ再実施すべきかを通知する。依存関係フィールド（図１３のＲ１用のものと
同様）を有するアレイを生成して、再実施すべきロード命令に依存する命令をリ
ストすることができる。しかし、ロード命令の場合、従属命令のリストは、レジ
スタの場合のようにトレース内の最初の命令ではなく、そのロード命令から始ま
る。ロード命令用の依存関係フィールドは、依存関係生成デコード回路２１８Ａ
（図１１）内にある可能性がある。（当然のことながら、他のトレース用のロー
ド命令は他のトレース・バッファから再実施されるだろう。）一実施形態では、
依存関係生成デコード回路２１８Ａは、ロード命令とレジスタの両方のための依
存関係フィールドに使用する。この同一フィールドは両方に使用することができ
る。他の実施形態では、レジスタ用の依存関係フィールドはＤＡＤアレイ２０６
Ａ内にあり、ロード用の依存関係フィールドは依存関係生成デコード回路２１８
Ａ内にある。

【００８１】他の実施形態では、依存関係フィールドが不要になるように、ロード命令は完
全に再実施される（すなわち、ロード後のすべての命令が再実行される）。

【００８２】Ｃ．再実施シーケンス・アルゴリズムソース・オペランド（またはその他の入力値）の予測が間違っていると再実施
トリガ・ロジック（再実施トリガ・ロジック２８４Ｂなど）が判定すると、その
ロジックは対応するトレース・バッファ（トレース・バッファ１１４Ｂなど）を
トリガして、予測が間違っているソース・オペランドに直接的または間接的に依
存する、パイプライン１０８で再実施すべき命令をディスパッチする。直接的ま
たは間接的に依存する命令は、トレース・バッファ内のＤＡＤアレイの依存関係
フィールドからまたは図１３のように他のアレイにより識別することができる。

【００８３】識別された命令は、その命令がトレース・バッファ内に存在する順序（プログ
ラム順序である）で実行するようにトレース・バッファからディスパッチされる
。たとえば、ｉｎｓｔｒＩＤ０項目内の命令は、ｉｎｓｔｒＩＤ１項目内の命令
より前にまたはその命令と同時にディスパッチされる。しかし、命令は、不適正
順序プロセッサの場合のように、スケジュール／発行ユニット１５６の制御下で
不適正順序で実行することができる。トレース・バッファからディスパッチされ
る命令には制御ビットが付加され、（１）レジスタ・リネームを実行すべきか、
（２）リネーム／割振りユニット１５０内のリネーム別名（alias）テーブル・ルックアップをバイパスし、代わりに対応するトレース・バッファからのＰＲＩ
Ｄを使用すべきか、（３）リネームを完全にバイパスし、それが命令内の定数オ
ペランドである場合と同様にＤＡＤアレイからの値を使用すべきかをリネーム／
割振りユニット１５０に示す。

【００８４】図８に関連して説明したように、「有効１」フィールドと「有効２」フィール
ドは、ｉｎｓｔｒＩＤの対応するソース・オペランドがトレース・バッファ１１
４Ａ内のスレッド外部からの命令（たとえば、その宛先）によって生成されたと
きに第１の値（たとえば、論理０）にセットされ、ｉｎｓｔｒＩＤ用のソース・
オペランドがスレッド内の命令によって生成されたときに第２の値（たとえば、
論理１）にセットされるビットである。トレース・バッファ１１４Ａからディス
パッチされる再実施された命令は以下のように決定されたソース・オペランドを
持つであろう。

【００８５】（１）有効ビット１。命令待ち行列アレイ２０２Ａ内の有効ビットが論理１に
セットされた場合、ソース・オペランドを使用して、ＤＡＤアレイ２０６Ａ内の
対応する値またはＰＲＩＤを読み取る。ＤＡＤアレイ状況フィールドの値ビット
またはＰＲＩＤビットのいずれも有効ではない場合、ソース・オペランド・レジ
スタがまだリネームされていないことを意味する。この場合、導体１２０および
ＭＵＸ１１０により論理０値を有する値およびＰＲＩＤ状況ビットとともにそ
の命令がディスパッチされ、リネーム／割振りユニット１５０はそれが通常行う
ように別名テーブル・ルックアップ（レジスタ・リネーム）を実行することがで
きる。ＰＲＩＤまたは値が有効である場合、それは導体１２０およびＭＵＸ１
１０により命令とともにリネーム／割振りユニット１５０に渡され、それに応答
してそのユニットはリネーム・ステージをバイパスする。

【００８６】（２）有効ビット０。ソース・オペランド用の有効ビットが論理０にセットさ
れた場合、入力オペランドはトレース外部から得られる。ソース・レジスタ名を
使用して入力レジスタ・ファイル２０８Ａにアクセスする。入力レジスタ・ファ
イル２０８Ａからの値またはＰＲＩＤは命令とともにリネーム／割振りユニット
１５０に渡され、それに応答してそのユニットはリネーム・ステージをバイパス
する。

【００８７】有効ビットが０であろうが１であろうが、各ディスパッチ済み命令ごとにＤＡ
Ｄアレイ２０６Ａ内の値およびＰＲＩＤ状況フィールド・ビットが論理０にリセ
ットされるか、または論理０のままになる。これにより２つの目的が達成される
。第１に、ＰＲＩＤの前にディスパッチされたその後の従属命令がリネーム・ス
テージからその項目にコピーされ、リネーム別名テーブルからリネームできるこ
とが保証され、トレース・バッファ１１４Ａからの古くなったＰＲＩＤの使用が
回避される。第２に、最後の実行インスタンスがライトバックされるまで命令が
リタイヤしないことが保証され、したがって、すべてのデータ予測間違いが訂正
された場合のみ命令がリタイヤ可能になる。

【００８８】Ｄ．第２レベルまたは最終リタイヤすべての先行スレッド用のすべての命令がリタイヤし、ある命令に属すすべて
の再実施事象が処理されると、その命令はトレース・バッファ１１４から最終的
にリタイヤされる。言い換えると、ある命令が正しいソース・オペランドととも
に実行されたことを保証できる場合に、その命令は最終的にリタイヤされる。ス
レッドは適正順序でリタイヤされる。たとえば、スレッドＸ内の命令は、すべて
の先行スレッドがリタイヤされる（すなわち、すべての先行スレッドの命令がリ
タイヤされる）まで、リタイヤすることができない。あるスレッド内の命令は適
正順序でリタイヤされるが、リタイヤの準備ができているすべての命令は同時に
リタイヤすることができる。

【００８９】最終的なリタイヤは最終リタイヤ・ロジック１３４によって制御される。本発
明の一実施形態では、最終リタイヤは、（１）適正順序レジスタ・ファイルへの
結果のコミットメントと、（２）サービス割込み、例外、および／または分岐予
測間違いと、（３）トレース・バッファおよびＭＯＢ１７８の資源項目の割振
り解除と、（４）リタイヤ済みとしてストアにマークを付け、それをメモリに対
して発行するようＭＯＢに通知することを含む。項目の割振り解除は、ヘッド・
ポインタの移動を含むことができる。後述するように、ＭＯＢ１７８内のスト
ア命令は、関連データがデータ・キャッシュ１７６または他のメモリにコピーさ
れたことが確実になるまで割振り解除されない。ＭＯＢ１７８内のロード命令
およびストア命令の最終リタイヤに関する詳細については以下に説明する。

【００９０】Ｅ．メモリ・システム図２２は、図２のＭＯＢ１７８の一実施形態がＭＯＢ１７８Ａ、１７８Ｂ
、・・・、１７８Ｙを含み、ＹがＭＯＢの数を表し、トレース・バッファ１１４
の数と一致することを示している。ＭＯＢ１７８Ａ、１７８Ｂ、・・・、１７
８Ｙは、トレース・バッファ１１４Ａ、１１４Ｂ、・・・、１１４Ｙ内のトレー
スのロード命令およびストア命令のコピーをそれぞれ保持する。ロード命令はロ
ード・バッファ１８２Ａ、１８２Ｂ、・・・、１８２Ｙ内に保持される。ストア
命令はストア・バッファ１８４Ａ、１８４Ｂ、・・・、１８４Ｙ内に保持される
。導体２９２は、ＭＯＢ１７８との間で信号を伝達する様々な導体を表してい
る。再実施導体１９４は、ロード命令を再実施すべきであることをトレース・バ
ッファ１１４に警告する信号をＭＯＢ１７８からトレース・バッファ１１４に
供給する。制御回路３０２は様々な制御機能を実行する。

【００９１】１．ストア・バッファおよびロード・バッファ図２３はストア・バッファ１８４Ａの一実施形態を示しているが、これはスト
ア・バッファ１８４Ｂ、・・・、１８４Ｙを代表するものである。他の様々な実
施形態も使用できるだろう。ストア・バッファ１８４Ａは、ストア・バッファ項
目の行に関する様々なフィールドを含む。各項目はストア・バッファＩＤ（ＳＢ
ＩＤ）によって識別される。リネーム／割振りユニット１５０は、各ストア命令
が再実施時ではなく最初にフェッチされ実行されたときに、その命令にＳＢＩＤ
項目を割り振る。このストア命令は、最終リタイヤまで同じＳＢＩＤ値を有する
。たとえば、図２３では、ストア０という命令の場合に項目ＳＢＩＤ０が割り振
られる。ストア１という命令の場合に項目ＳＢＩＤ１が割り振られ、以下同様で
ある。後述する「ストアＬＢＩＤ」値を保持するＬＢＩＤフィールドが図２３に
示されている。一実施形態では、命令待ち行列アレイ２０２Ａ（図１２）の項目
がストア命令を保持する場合、命令待ち行列アレイ２０２ＡのＳＢＩＤフィール
ドはストア命令を保持するストア・バッファ１８４Ａ内の項目を識別するＳＢＩ
Ｄを保持し、ＬＢＩＤフィールドはそのストア命令用として１つ存在する場合に
そのストアＬＢＩＤを保持する。ＳＢＩＤおよびストアＬＢＩＤはパイプライン
１０８によりストア命令に付随する。その実施形態では、ＬＢＩＤフィールドは
ストア・バッファ１８４Ａに含まれない可能性もある。

【００９２】ｉｎｓｔｒＩＤフィールドは、命令待ち行列アレイ２０２Ａ内のストア命令の
命令ＩＤを保持する。スレッド・バッファＩＤは、ストア・バッファ１８４Ａと
トレース・バッファ１１４Ａのどちらでも暗黙のものである。命令コード・フィ
ールドはストア命令の命令コードを保持する。ストア・アドレス・フィールドは
それに対してストア命令が向けられるアドレスを保持する。図示の実施形態では
、アドレスはＡＧＵ１７２によって生成される。ＳＢアドレス有効フィールド
は、ストア・アドレスが有効アドレスであるかどうかを示すビットを含む。デー
タ・フィールドは記憶すべきデータを保持する。データ有効フィールドは、その
データが有効であるかどうかを示すビットを含む。有効アドレスは有効データと
は異なる時点に到着する可能性があるので、アドレス有効ビットとデータ有効ビ
ットとして別々のビットを使用することができる。アドレスとデータはどちらも
ストア命令が実行される前に到着する。一実施形態では、データは命令の一部と
して含まれる。リタイヤ済みフィールドは、ストア命令がリタイヤすべきである
ことを最終リタイヤ・ロジック１３４が示すときにセットされ、メモリへのスト
アが完了したという確認をメモリから受け取ったときにリセットされるビットを
含む。ロードおよびストアのリタイヤについては後述する。再実施計数値フィー
ルドは再実施計数値数を含む（図１３のＤＡＤアレイ２０６Ａの再実施計数値フ
ィールドと同様のものである）。再実施計数値フィールドは必須のものではない
。一実施形態では、ストア命令は一度に１回しか再実施できないので、再実施計
数値フィールドはまったく存在しない。

【００９３】図２４はロード・バッファ１８２Ａの一実施形態を示しているが、これはロー
ド・バッファ１８２Ｂ、・・・、１８２Ｙを代表するものである。他の様々な実
施形態も使用できるだろう。ロード・バッファ１８２Ａは、ロード・バッファ項
目の行に関する様々なフィールドを含む。各項目はロード・バッファＩＤ（ＬＢ
ＩＤ）によって識別される。リネーム／割振りユニット１５０は、各ロード命令
が再実施時ではなく最初にフェッチされ実行されたときに、その命令にＬＢＩＤ
項目を割り振る。このロード命令は、最終リタイヤまで同じＬＢＩＤ値を有する
。たとえば、図２４では、ロード０という命令の場合に項目ＬＢＩＤ０が割り振
られる。ロード１という命令の場合に項目ＬＢＩＤ１が割り振られ、以下同様で
ある。（ＬＢＩＤ項目番号とＳＢＩＤフィールドはＭＯＢＩＤと呼ぶことがで
きる。）後述する「ロードＳＢＩＤ」値を保持するＳＢＩＤフィールドについて
は図２４に示す。一実施形態では、命令待ち行列アレイ２０２Ａ（図１２）の項
目がロード命令を保持する場合、命令待ち行列アレイ２０２ＡのＬＢＩＤフィー
ルドはロード命令を保持するロード・バッファ１８２Ａ内の項目を識別するＬＢ
ＩＤを保持し、ＳＢＩＤフィールドはそのロード命令用として１つ存在する場合
にそのロードＳＢＩＤを保持する。ＬＢＩＤおよびロードＳＢＩＤはパイプライ
ン１０８によりロード命令に付随する。その実施形態では、ＳＢＩＤフィールド
はロード・バッファ１８２Ａに含まれない可能性もある。

【００９４】ｉｎｓｔｒＩＤフィールドは、命令待ち行列アレイ２０２Ａ内のロード命令の
命令ＩＤを保持する。スレッド・バッファＩＤは、ロード・バッファ１８２Ａと
トレース・バッファ１１４Ａのどちらでも暗黙のものである。命令コード・フィ
ールドはロード命令の命令コードを保持する。ロード・アドレス・フィールドは
それからロード命令がロードされるアドレスを保持する。項目有効フィールドは
有効ロード命令によってその項目が占有されることを示すビットを含む。図示の
実施形態では、アドレスはＡＧＵ１７２によってすでに生成されているので、
アドレス有効フィールドは含まれない。ＰＲＩＤフィールドは、レジスタ・ファ
イル１５２内のロード命令の宛先を示す、リネーム／割振りユニット１５２から
のＰＲＩＤを保持する。ＳＢヒット、ＳＢＩＤ、スレッドＩＤ、再実施計数値フ
ィールド（１つ存在する場合）は、状況フィールドの一部と見ることができ、ス
トア命令の実行に関連して後述する。

【００９５】ストア命令およびロード命令がリネーム／割振りユニット１５０によって最初
に受け取られた時点で、ストア命令およびロード命令用の項目がストア・バッフ
ァ１８４およびロード・バッファ１８２内に割り振られ、ロードした値を受け取
るためのレジスタ用の項目はレジスタ・ファイル１５０およびＲＯＢ１６４内
に割り振られる。これらの項目は第１レベル・リタイヤの対象にはならないが、
トレース・バッファ１１４内の同様の項目は最終リタイヤまで割り振られたまま
になる。したがって、再実施時に項目の再割当ては行われない。ストア・バッフ
ァまたはロード・バッファがいっぱいである場合、それぞれＩキャッシュ１０４
からのストア命令またはロード命令は、ある項目が解放されるまでリネーム／割
振りユニット１５０を通過することはない。しかし、トレース・バッファから再
実行中のロード命令またはストア命令はリネーム／割振りユニット１５０を通過
することになる。

【００９６】２．ロード・アドレスとストア・アドレスの比較図５を参照すると、プログラム順序では、ロードＭＸがスレッドＴ２で実行さ
れる前にスレッドＴ１内のストアＭＸが実行される。しかし、同時実行であるの
で、時間順序では、ロードＭＸの前または後にストアＭＸを実行することができ
る。時間順序でロードＭＸの前にストアＭＸが実行される場合、ロードＭＸの推
論実行はストアＭＸに関して正しい順序で行われることになる。プログラム順序
でストアＭＸの前にあるすべての命令がリタイヤされた場合、ロードＭＸがメモ
リ位置ＭＸから正しい値をロードすることが確実になる。この正しい値は、適正
順序プロセッサによってスレッドが実行された場合にロードされたと思われる値
である。プログラム順序でストアＭＸの前にあるすべての命令がリタイヤされた
わけではない場合、ストアＭＸ用のデータが間違っている可能性が常にある。

【００９７】対照してみると、時間順序でロードＭＸの後にストアＭＸが実行される場合、
ロードＭＸの推論実行はストアＭＸに関して正しい順序で行われず、ロードＭＸ
が正しい値をロードするという保証はまったくない。正しい値がたまたまメモリ
位置ＭＸ（またはストアＭＸが最終リタイヤされるまでストアＭＸを保持するス
トア・バッファ項目のデータ・フィールド）にあるのは単に偶然にすぎないだろ
う。実行の最終的な正確さを保証するため、ＭＯＢ１７８は、スレッド間のメ
モリ・データの一貫性を保証するための様々な機構を含む。

【００９８】ａ．ロード命令の実行ロード命令が実行される前に、そのアドレスとストア命令のアドレスが比較さ
れ、ストア命令がある場合にどのストア命令が最接近先行一致ストア命令（ＣＥ
ＭＳＩ）であるかを判定する。「一致」とは、ロード命令と同じアドレスを有す
ることを意味する。「先行」とは、ＣＥＭＳＩがプログラム順序でロード命令よ
り前であることを意味する。「最接近」とは、ＣＥＭＳＩと実行すべきロード命
令との間に他の一致ストア命令がまったくないことを意味する。先行一致ストア
命令が１つだけ存在する場合、それがＣＥＭＳＩになる。

【００９９】ＣＥＭＳＩが存在する場合、ロード命令はＣＥＭＳＩのデータ・フィールドか
らそのデータを読み取る。ＣＥＭＳＩが存在しない場合、ロード命令はデータ・
キャッシュ１７６、Ｌ２キャッシュ、メイン・メモリなどのメモリからそのデー
タを取る。ストア・バッファ１８４またはメモリからのデータはＭＵＸ１９２を
通過し、スレッドＩＤおよびｉｎｓｔｒＩＤによって指定されたトレース・バッ
ファ１１４内の項目に書き込まれる。また、このデータは、ＰＲＩＤによって指
定されたレジスタ・ファイル１５２内のレジスタにも書き込むことができる。ま
た、このデータは、キャッシュ規則（たとえば、ライトバック、ライトスルーな
ど）に応じてデータ・キャッシュ１７６に記憶することもできる。ＭＵＸ１９
２は、データ・キャッシュ１７６、Ｌ２キャッシュ、メイン・メモリなどのメモ
リをバイパスすることができるので、バイパスになる。

【０１００】一実施形態では、実行すべきロードのアドレスとストア命令のアドレスとの比
較を行うために、各ストア・バッファ１８４の各項目に異なる比較器が関連付け
られている。図２５の比較器３２０は一例であり、ストア・バッファ１８４Ａ内
の項目ＳＢＩＤ１のストア・アドレスとロード命令アドレスを受け取る。導体３
２２ならびに他の比較器からの出力導体はＭＯＢ制御回路３０２に接続される。

【０１０１】ロードＳＢＩＤは、実行すべきロード命令に関する最接近先行ストア命令（Ｃ
ＥＳＩ）のＬＢＩＤを指し示す。ＣＥＳＩは、ロード命令と同じスレッドＩＤを
有するストア・バッファ内にある。ＣＥＭＳＩが存在する場合、それは、ＣＥＳ
Ｉになるかまたはプログラム順序でＣＥＳＩより前になる。リネーム／割振りユ
ニット１５０は、プログラム内のストア命令およびロード命令の順序を追跡し、
ＳＢＩＤ値およびＬＢＩＤ値を供給する。これらは、導体１２６を介してトレー
ス・バッファ１１４に書き込むことができる。一実施形態では、ロード命令に関
するＣＥＳＩがまったく存在しない場合、その命令に関連するロードＳＢＩＤは
まったく存在しない。これは、トレース内の第１のメモリ命令がロードである場
合に発生する。有効ロードＳＢＩＤがまったく存在しないことを示すためにリネ
ーム／割振りユニット１５０が所与の信号を送信することを含み、このような状
況を処理するために様々な技法を使用することができる。後述するアレイ・ラッ
プアラウンド・ビットはこの目的に使用することができる。

【０１０２】以下のプログラム順序のストア命令およびロード命令について検討する。ストア０ストア１ロード０ストア２ロード１ストア３ストア４ロード２ＬＢＩＤフィールド内のストアＬＢＩＤ値はストア・バッファ１８２Ａ内に示さ
れている。ＳＢＩＤフィールド内のロードＳＢＩＤ値はロード・バッファ１８４
Ａ内に示されている。たとえば、ＬＢＩＤ項目１のＳＢＩＤフィールド内の２は
、ストア・バッファ１８４Ａ内の項目ＳＢＩＤ２にあるストア命令がＬＢＩＤ項
目１内のロード命令に関するＣＥＳＩを保持することを示している。ストア０、
ストア１、ストア２、ロード０という命令はロード１より古い、すなわち前のも
のである。ストア３、ストア４、ロード２という命令はロード１より新しい、す
なわち後のものである。

【０１０３】ストア命令がある場合にどのストア命令がＣＥＭＳＩであるかを制御回路３０
２が判定するための様々な方法がある。この方法の例については図２７に関連し
て説明するが、同図ではストア・バッファ１８４Ａ、１８４Ｂ、１８４Ｃ、１８
４ＤだけがＭＯＢ１７８内のストア・バッファであり、スレッドＡ、Ｂ、Ｃ、
Ｄにそれぞれ関連付けられている。プログラム順序がスレッドＡ、スレッドＢ、
スレッドＣ、スレッドＤであると想定する。この例では、実行すべきロード命令
はロード・バッファ１８２Ｃ内にある。ＣＥＳＩが存在し、ストア・バッファ１
８４Ｃ内にある。

【０１０４】導体３４２、３４４、３４６、３４８は様々な比較器の出力導体である。導体
３６２、３６４、３６６、３６８は、比較器が比較を実行できるようにする制御
信号を供給する。様々な実施形態では、制御回路３０２は、（１）各ストア・バ
ッファ内のすべての項目用の比較器をイネーブルにするか、（２）プログラム順
序でロード命令のスレッドＩＤと同じであるかまたはそれより前のスレッドＩＤ
を有するストア・バッファ内にある比較器のみをイネーブルにするか、あるいは
（３）プログラム順序でロード命令より前の項目に関連する比較器のみをイネー
ブルにする。

【０１０５】一致判定ロジック３５６は、ストア命令がある場合にそのうちのどれがＣＥＭ
ＳＩであるかを判定する。図２７では、ストア・バッファ１８４Ｃの上部部分内
のストアＭＸ命令がＣＥＭＳＩになる。ストアＭＸ命令がストア・バッファ１８
４Ｃ内にない場合、ＣＥＭＳＩは、ストア・バッファ１８４Ｂ内のストアＭＸ命
令になるだろう。比較器および一致判定ロジック３５６がＣＥＭＳＩが存在する
かどうかを判定する間に、ＣＥＭＳＩが存在しない場合に用意すべきデータ・キ
ャッシュ１７６（および他のメモリ）内でルックアップが行われる可能性がある
。一致判定ロジック３５６はデータ経路制御ロジック３９０を含み、これはＭＵ
Ｘ１９２がメモリまたはストア・バッファからのデータを渡すかどうかを制御
するための信号を導体３７０で供給する。

【０１０６】１つの手法では、ＭＯＢ制御回路３０２によって２通りの優先順位判定が行わ
れる。一方は、ストア・バッファ内のストア命令の優先順位を判定するためのも
のである。もう一方は、ストア・バッファの優先順位を判定するためのものであ
る。これらの判定はいずれの順序で行うこともできる。桁上げ連鎖構造は、スト
ア・バッファ内の優先順位の判定の際に使用することができる。たとえば、一実
施形態では、ロード命令と同じスレッドＩＤを有するもの以外の各ストア・バッ
ファごとに、一致ストア命令がある場合にどの一致ストア命令がプログラム順序
で最も新しいかが判定される。ロード命令と同じスレッドＩＤを有するストア・
バッファの場合、一致命令がある場合にどの一致命令がプログラム順序でＣＥＳ
Ｉに最も近い（等しいものを含む）かが判定される。次に、一致命令を有するス
トア・バッファのうち、どのストア・バッファがプログラム順序でロード命令の
スレッドＩＤに最も近いスレッドＩＤを有するかが判定される。

【０１０７】ストア・バッファ１８４は、それぞれ先頭と末尾を有する循環アレイでよい。
最初は、ＳＢＩＤ値が大きいストア命令の方が新しい。しかし、ストア命令が割
振り解除され、割り振られるにつれて、末尾は結局、折り返すことになり、先頭
は末尾より大きいＳＢＩＤ項目を指し示すことになる。一実施形態では、末尾が
最高値から最低ＳＢＩＤ値へ移行すると、ラップアラウンド・ビットが切り替え
られ、最接近一致判定ロジック３５６に供給される。

【０１０８】ｂ．ストア命令の実行ストア命令が実行されると、そのアドレスがロード命令のアドレスと比較され
、（同じスレッドまたはそれより新しいスレッドから）プログラム順序でそれよ
り後のロード命令がある場合に、どのロード命令がストア命令と同じアドレスを
有するかを判定する。ストアＳＢＩＤによって指し示された最接近後続ロード命
令（ＣＬＬＩ）は、考慮可能な最も早いロード命令を示す。

【０１０９】一実施形態では、このような比較を行うために各ロード・バッファ１８２の各
項目ごとに異なる比較器が関連付けられている。比較器の１つは図２６に示す比
較器３２４である。単に一例にすぎないが、比較器３２４はロード・バッファ１
８２Ａの項目ＬＢＩＤ１に関連付けられている。比較器３２４は、一方の入力で
ストア命令のアドレスを受け取り、もう一方の入力でロード・バッファ１８２Ａ
内の項目ＬＢＩＤ１のロード・アドレス・フィールド内のアドレスを受け取る。
出力導体３２６上の信号は、両方のアドレスが同じであるかどうかを通知する。
導体３２６ならびに他の比較器からの出力導体はＭＯＢ制御回路３０２に接続さ
れている。比較器（比較器３２４など）は、後述するように、ストア命令の状況
ビットとロード・バッファ内の状況ビットとの比較も行うことができる。

【０１１０】図２８は図２７と同様のものである。しかし、図２８では、ロード・バッファ
１８２Ａ〜１８２Ｄ内のロード命令アドレスが実行すべきスト命令のアドレスと
比較され、一致判定ロジック３５６は、ロード命令を再実施すべきかどうかを判
定する。一実施形態では、一致判定ロジックは、どのロード命令を再実施すべき
かをトレース・バッファに示すための信号を導体１９４上に供給する再実施トリ
ガ・ロジック３９４を含む。一実施形態では、一致判定ロジック３５６は、ＣＬ
ＬＩから始めて、ストア命令とロード命令との一致について考慮する。様々なア
ルゴリズムを使用することができる。スレッド管理ロジック１２４は、プログラ
ム順序で実行中のストア命令のスレッドＩＤより後のスレッドＩＤを示す。一実
施形態では、すべての比較器が使用可能になっている。他の実施形態では、プロ
グラム順序でロード命令のスレッドＩＤと等しいかまたはそれより後のスレッド
ＩＤを有するロード・バッファ内の導体だけが使用可能になる。さらに他の実施
形態では、ＣＬＬＩおよびその後の命令に関連するロード・バッファ内の導体だ
けが使用可能になる。考慮すべきスレッドは、ロード・バッファ内のロード命令
がプログラム順序でストア命令より後になっているかに関する判定前、判定後、
あるいは判定中に決定することができる。

【０１１１】一実施形態では、ロード命令の実行時に所与の推論エラーを検出するための検
出回路は、ロード・バッファに関連する比較器と、一致判定ロジック３５６の一
部分と、関連の制御回路とを含む。他の実施形態では、この検出回路は多少異な
る回路を含むことができるだろう。推論エラーを検出するための検出回路が実行
パイプライン内にあることは必須ではない。データ経路制御ロジックおよび再実
施トリガ・ロジックに関連して異なる一致判定ロジックを使用することができる
だろう。

【０１１２】ｉ．アドレス一致が存在するケース再実施すべきかどうかを判定する際に、アドレス一致が存在する新しい命令に
関する状況フィールド（ＳＢヒット、ＳＢＩＤ、スレッドＩＤ、再実施計数値（
使用する場合））が考慮される。状況フィールドは、ロード命令がそのデータを
メモリ（たとえば、データ・キャッシュ１７６）から獲得したかまたはストア・
バッファのデータ・フィールドから獲得したかを示す。ＳＢヒット・フィールド
は、たとえば、データがメモリから得られた場合に０を有し、データがストア・
バッファから得られた場合に１を有する。ＳＢＩＤフィールドとスレッドＩＤフ
ィールドは、そこからデータが得られたストア命令のＳＢＩＤとスレッドＩＤを
保持する。ストア命令のスレッドＩＤは、必ずしも、アドレス一致が存在するロ
ード命令のスレッドＩＤではない。ロード命令のスレッドＩＤはロード・バッフ
ァ内では暗黙のものである。再実施計数値フィールド（使用する場合）は、どの
再実施が含まれるかを示す。（ＳＢヒットが０である場合、ＳＢＩＤフィールド
、スレッドＩＤフィールド、再実施計数値フィールド内のデータは無意味なもの
になる。）

【０１１３】ＳＢヒット＝０（メモリからの前のデータ）である場合、再実施事象は導体１
９４によりロード・バッファからロード命令のスレッドＩＤによって識別される
トレース・バッファに通知され、そのロード命令とすべての従属命令はそのトレ
ース・バッファから再実施される。ｉｎｓｔｒＩＤとスレッドＩＤは、どの命令
が再実施されるかを示すために導体１９４を通して渡される。

【０１１４】ＳＢヒット＝１（ストア・バッファからの前のデータ）である場合、ＳＢＩＤ
フィールド、スレッドＩＤフィールド、再実施計数値フィールド（使用する場合
）の値は、再実施をトリガするかどうかを制御する。第１のケースでは、特定の
ロード命令に関する状況フィールドのスレッドＩＤはストア命令のスレッドＩＤ
と等しく、特定のロード命令の状況フィールド内のＳＢＩＤはストア命令のＳＢ
ＩＤと一致する。この第１のケースでは、ロード命令の再実施計数値が状況フィ
ールド内の再実施計数値より大きい場合にそのロード命令が再実施される。再実
施計数値が存在しない場合（ストア命令は一度に１回しか再実施できないため）
、ロード命令は再実施される。

【０１１５】第２のケースでは、状況フィールド内のスレッドＩＤはストア命令のスレッド
ＩＤと等しいが、状況フィールド内のＳＢＩＤはストア命令のＳＢＩＤと一致し
ない。この第２のケースでは、状況フィールド内のＳＢＩＤがストア命令のＳＢ
ＩＤより小さい場合にそのロード命令が再実施され、状況フィールド内のＳＢＩ
Ｄがストア命令のＳＢＩＤより大きい場合にそのロード命令は再実施されない。

【０１１６】第３のケースでは、状況フィールドとストア命令のスレッドＩＤは一致しない
。これはまれなケースであると予想される。単純にするため、一実施形態では、
（プログラム順序に反する可能性がある場合でも）ロード命令が再実施される。
これは間違った再実施である可能性がある。ロード命令は、再実施されると、正
しいストア・データを受け取ることになる。他の手法を使用することもできるが
、このようなまれなケースに妥当なものよりかなり複雑なものである可能性があ
る。

【０１１７】ｉｉ．アドレス一致が存在しないケースアドレスが一致しない場合、以下に示すまれなケースを除き、再実施は一切ト
リガされない。ＳＢヒット＝１である場合、状況フィールドのスレッドＩＤはス
トア命令のスレッドＩＤと一致し、状況フィールドのＳＢＩＤはストア命令のＳ
ＢＩＤと一致する。このケースでは、再実施が行われ、再実施したロード命令は
そのデータを新しい項目またはメモリから受け取る。

【０１１８】ｃ．リセットスレッドがプログラム順序になっていないと判定されると、そのスレッドはリ
セットされる。しかし、他のスレッドからのロードによって、そのスレッド内の
ストア命令に関連するデータ・フィールドからデータが取られている可能性があ
る。スレッド管理ロジック１２４は制御回路３０２に信号を送信する。一実施形
態では、スレッドがリセットされると、リセットされたスレッドのスレッドＩＤ
が（おそらくリセットされたスレッドに対応するロード・バッファは除く）すべ
てのロード・バッファ内のすべてのロードと比較される。状況フィールド内のス
レッドＩＤがリセットされたスレッドのスレッドＩＤと一致する場合、ロード命
令に関する再実施がトリガされる。ロード命令は適切なトレース・バッファから
再実施される。

【０１１９】３．ストア命令の再実施前述のように、ストア命令の実行に応答してロード命令が再実施される。一実
施形態では、レジスタ値が変更されたことを示すトレース・バッファ内のレジス
タ比較に応答してストア命令が再実施される。たとえば、図１２および図１３を
参照すると、トレース・バッファ１１４Ａ内のｉｎｓｔｒＩＤ４およびｉｎｓｔ
ｒＩＤ５はストア命令であり、レジスタＲ１〜ｒ４に依存するものとして示され
ている。

【０１２０】４．複数ロード命令の再実施ロード・バッファ内の複数のロード命令がストア命令との状況フィールド一致
を有することは可能である。複雑なロジックを回避するための１つの手法では、
制御回路３０２が複数のロード・アドレス一致が存在する場合を検出し、トレー
ス内で最も早いロード以降のすべての命令を再実行させる。

【０１２１】５．ロード命令とストア命令の最終リタイヤロード命令またはストア命令を最終リタイヤすべき場合、最終リタイヤ・ロジ
ック１３４は、命令を最終リタイヤすべきであることを示す信号をトレース・バ
ッファ１１４およびＭＯＢ１８４に供給する。（ｉｎｓｔｒＩＤおよびスレッド
ＩＤによって識別される）トレース・バッファ内の項目の割振りが解除される。
ロード命令の場合には、（スレッドＩＤおよびＬＢＩＤによって識別される）ロ
ード・バッファ内の項目の割振りが解除される。ロード命令の場合には、最終リ
タイヤが完了する。ストア命令の場合には、割振り解除の前にデータ・フィール
ド内のデータをメモリにコミットしなければならない。ストア・バッファ内の項
目の割振り解除と、それ故の最終リタイヤは、そのストアが完了したという確認
を受け取るまで行われない。あるいは、確認前にその項目の最終リタイヤを行う
ことができるが、確認を受け取るまでその項目の再割振りを行うことができない
。導体２００上の信号は、ストアの最終リタイヤが完了し、次のスレッドを開始
することができる時期をスレッド管理ロジック１２４に示すことができる。

【０１２２】ＳＢリタイヤ済みは、命令がリタイヤされたことを示す。命令をリタイヤすべ
きであることを最終リタイヤ・ロジック１３４が示した時点で、ＳＢリタイヤ済
みフィールド内のビットがアサートされる。ＳＢリタイヤ済みフィールドがアサ
ートされると、関連命令が適正順序でメモリに書き込まれる。命令がメモリに書
き込まれたことをＭＯＢ１８４Ａが知ると直ちにＳＢリタイヤ済みフィールド
がアサート解除され、その命令の割振りが解除される。

【０１２３】ロード・バッファ１８２Ａおよびストア・バッファ１８４Ａは、先頭と末尾を
備えた待ち行列にすることができる。命令の割振りが解除されると、先頭は移動
する。ロード・バッファ１８４Ａおよびトレース・バッファ１１４では、リタイ
ヤと割振り解除が同時に行われる場合もある。最終リタイヤ・ロジック１３４は
、導体１３６および１４０を介して信号を供給する。デマルチプレクサ１８８は
、ロード・バッファ１８２またはストア・バッファ１８４のうちの一方がリタイ
ヤ信号を受け取ることになることを選択する。デマルチプレクサ１８８は任意選
択のものであり、ロード・バッファ１８２およびストア・バッファ１８４内のイ
ネーブル・ポートで置き換えることができるだろう。

【０１２４】Ｆ．スレッド管理ロジックおよび最終リタイヤ・ロジックに関する追加情報一実施形態では、スレッド管理ロジック１２４は、スレッド順序を追跡するた
めにツリー構造を使用する。このツリー構造では、プログラム順序（リタイヤ順
序でもある）は上から下に流れ、右側のノードはプログラム順序で左側のノード
より早い。ルートはプログラム順序で最初のものである。ツリーとは抽象概念で
あり、ツリー構造はそのツリーを実施する回路である。

【０１２５】スレッドは、逆方向分岐または関数呼出し後の命令から始まる。すなわち、（
図４および図５のスレッドＴ２が示すように）逆方向分岐が行われなかったかま
たは関数が呼び出されなかったと想定して、スレッドは次の命令から始まる。こ
のように行う場合、スレッド（ノード）の見地によると、そのスレッドの子ノー
ドのプログラム順序は、スレッドが開始（作成）された順序の逆になる。たとえ
ば、図６では、時間順序ではスレッドＴ２の実行がスレッドＴ３の実行前に始ま
るが、プログラム順序ではスレッドＴ３がスレッドＴ２の前に行われる。

【０１２６】一実施形態では、３通りの事象によりスレッドがツリーから除去される場合が
ある。すなわち、（１）ツリーのルートにあるスレッドは、そのスレッドがリタ
イヤされると除去される。ルートにあるスレッドがリタイヤされると、プログラ
ム順序で次のスレッド（ノード）がルートになり、それに応じてノードの再割当
てが行われる。（２）プログラム順序で最後のスレッドはツリーから除去され、
プログラム順序でより上位にあり、ツリーに追加すべきスレッドのためのスペー
スができる。これに関して、ツリーは後入れ先出し法（ＬＩＦＯ）スタックとし
て動作する。（３）その親スレッドのプログラム・カウンタが開始計数値から終
了計数値までの範囲の外にあることが発見されると、スレッドはリセットされ、
それによりツリーから除去することができる。逆方向分岐で子スレッド（たとえ
ば、図６および図２９のスレッドＴ４）が作成される場合、開始計数値は逆方向
分岐のターゲットになり、終了計数値は逆方向分岐命令におけるプログラム・カ
ウンタ値になる。関数呼出し後に開始されたスレッドもリセットすることができ
る。というのは、このようなことが起こるのは極めてまれなことであるが、関数
からの復帰がまったく存在しないからである。関数からの復帰がまったく存在し
ない可能性を処理するための手法の１つは、この可能性を無視し、事象（２）の
ようにそれがプログラム順序の最下位になると結局、システムにツリーからスレ
ッドを除去させることである。スレッドがツリーから除去されると、そのスレッ
ドに割り振られた資源（トレース・バッファ、ストア・バッファ、ロード・バッ
ファなど）の割振りが解除される。

【０１２７】事象（１）および（３）は図２９に示されているが、同図は図６の例のスレッ
ドを含み、スレッドＴ５およびＴ６が追加されている。スレッドＴ５はポイント
Ｊの逆方向分岐命令に続いて開始され、スレッドＴ６はポイントＫの関数呼出し
に続いて開始される。トレース・バッファは４つだけであると想定する。図３０
は時点ｔ１におけるツリー構造を示している。スレッドＴ２は、スレッドＴ３が
ツリーに追加される前にツリーに追加される。スレッドＴ４は、スレッドＴ３が
ツリーに追加された後でツリーに追加される。スレッドＴ２およびＴ２はスレッ
ドＴ１の子である。スレッドＴ４はスレッドＴ３の子である。上から下へ、右か
ら左へという規則に従うと、プログラム順序およびリタイヤ順序はスレッドＴ１
、Ｔ３、Ｔ４、Ｔ２になる。図３１は、スレッドＴ１がリタイヤする前にスレッ
ドＴ４がリセットされると想定した時点ｔ２におけるツリー構造を示している。
プログラム順序およびリタイヤ順序はスレッドＴ１、Ｔ３、Ｔ２、Ｔ５になる。
図３２は、スレッドＴ４がリセットされる前にスレッドＴ１がリタイヤすると想
定した時点ｔ２におけるツリー構造を示している。プログラム順序およびリタイ
ヤ順序はスレッドＴ３、Ｔ４、Ｔ２、Ｔ５になる。図３３は、時点ｔ３における
ツリー構造を示しているが、これはスレッドＴ１がリタイヤし、スレッドＴ４が
リセットされた後である。プログラム順序およびリタイヤ順序はＴ３、Ｔ２、Ｔ
５、Ｔ６になる。

【０１２８】事象（２）は図３４に示されているが、同図はネストされた関数を含む。時間
順序では、スレッドはＴ１、Ｔ２、Ｔ３、Ｔ４、Ｔ５の順序で作成（開始）され
る。しかし、プログラム順序はＴ１、Ｔ５、Ｔ４、Ｔ３、Ｔ２である。この例で
は、トレース・バッファは４つだけである。したがって、５つのスレッドがすべ
て同時に存在するわけではない。図３５は、時点ｔ１におけるツリー構造を示し
ているが、これはスレッドＴ５が開始される前である。プログラム順序およびリ
タイヤ順序はスレッドＴ１、Ｔ４、Ｔ３、Ｔ２になる。スレッドＴ５はまだツリ
ー構造の一部になっていない。図３６は、時点ｔ２におけるツリー構造を示して
いるが、これはスレッドＴ５が開始された後である。スレッドＴ２はプログラム
順序で最下位であり、スレッドＴ５のためのスペースを作るためにツリー構造か
ら除去される。ツリーから除去されたスレッドは、後で再開することができる。
あるいは、他のスレッドでは、ツリーから除去されたスレッドの命令の全部また
は一部を実行することができる。一実施形態では、リセットの場合、スレッドは
リセットされたスレッドではなく、次に続くスレッドを結合しようとする可能性
がある。あるいは、そのスレッドはその他の方法で終了されるまで続行される可
能性がある。アレイ１９８の関数はツリーのノードで実行することができる。

【０１２９】子スレッドのスレッドＩＤは、ツリー構造内のプログラム順序に応じて適切に
位置決めされる。（ただし、スレッド管理ロジック１２４によって決定されたプ
ログラム順序は変わらない可能性がある。）あるスレッドは、プログラム順序で
ツリー内の次のスレッドを結合するかまたはそのプログラム計数値と一致する場
合に終了する。スレッドの子が１つだけである場合、それはプログラム順序で次
のスレッドになる。たとえば、図３３では、スレッドＴ２はプログラム順序でツ
リー内の次のスレッドになる。

【０１３０】最終リタイヤ・ロジック１３４は、アレイ１９８をアセンブルするためにツリ
ー構造からまたはツリー構造の回路から直接に、情報を獲得する。ツリー構造と
、スレッド管理ロジック１２４の他のロジックおよび最終リタイヤ・ロジック１
３４のロジックとの間にデコード回路が存在する可能性がある。アレイ１９８は
必須ではない場合がある。

【０１３１】要約すると、このツリー構造は、少なくとも以下に示す目的のために情報を提
供する。すなわち、（１）ツリーはリタイヤ順序を指定し、（２）ツリーは前述
のようにたとえばＭＯＢ１７８が使用するプログラム順序を指定し、（３）ツ
リーは他のスレッドの開始命令を示すことによりスレッドの終了点を指定し、（
４）ツリーはどの資源が使用可能であり、どの資源が割振り解除されているかを
示すことによりスレッド資源割振りの際に使用する。

【０１３２】Ｇ．マルチスレッド化を含まない実施形態図３は、パイプライン３０８を含むプロセッサ１００を示している。プロセッ
サ１００はプロセッサ５０と同様のものである。しかし、トレース・バッファ３
００は唯一のトレース・バッファであり、ＭＯＢ３１０は唯一のＭＯＢである
。プロセッサ５０は、複数スレッドを処理するように設計されていない。したが
って、プロセッサ１００にはスレッド管理ロジックは不要である。トレース・バ
ッファ３００は、たとえばトレース・バッファ１１４Ａと同様のものにすること
ができるが、マルチスレッド特有の構成要素は不要である。たとえば、導体２１
６および出力レジスタ・ファイル２１０は不要になるだろう。周知の回路を含む
様々な回路を使用して推論エラーを検出することができる。ＭＯＢ３１０はた
とえばＭＯＢ１７８Ａと同様のものにすることができるが、マルチスレッド特
有の特徴は不要である。たとえば、ロード・バッファではスレッドＩＤフィール
ドは不要になるだろう。プロセッサ１００の他の構成要素は、マルチスレッド化
関連の特徴を除去するためにプロセッサ５０内のそれぞれの構成に関して多少変
更される可能性がある。トレース・バッファ３００およびＭＯＢ３１０は様々
な推論ならびにその際のエラーからの回復に関連して使用することができる。ト
レース・バッファにより、最終リタイヤ前に可能な再実施のために、多数の命令
をパイプライン外部に保持することができる。

【０１３３】プロセッサ５０は非マルチスレッド・プログラムに関連して使用することがで
きるだろう。その場合、スレッド管理ロジック１２４は必ず同じスレッドＩＤを
プログラム順序で維持することができるだろう。あるいは、スレッド管理ロジッ
ク１２４は使用不能にすることができるだろう。非マルチスレッドの場合、唯一
のトレース・バッファ１１４と唯一のＭＯＢ１７８が使用される。あるいは、
複数のトレース・バッファを結合してより大きいトレース・バッファにすること
ができ、複数のＭＯＢを結合してより大きいＭＯＢにすることができるだろう。

【０１３４】Ｈ．追加情報および実施形態図３７を参照すると、プロセッサ４００は、マルチパイプライン・ユニット４
０２を含むマルチプロセッサ（ＭＰ）チップである。マルチパイプライン・ユニ
ット４００は、パイプライン全体（たとえば、各パイプラインごとに別々のリネ
ーム／割振りユニット）がマルチパイプライン・ユニット４０２の各パイプライ
ン０、１、・・・、Ｗとともに含まれるという点で図２の共用資源パイプライン
１０８とは異なる。（ＷはＸと等しいかあるいはそれより大きいかまたは小さい
ものにすることができる。）そうではない場合、プロセッサ４００はプロセッサ
５０と本質的に同じであるかまたはプロセッサ５０とは非常に異なる可能性があ
る。他のプロセッサは、マルチパイプライン・ユニット４０２の何らかの特徴と
、パイプライン１０８の何らかの特徴を含むことができる。

【０１３５】ここで言及する各プロセッサは、様々なコンピュータ・システムの一部に含め
ることができる。図３８を参照すると、単に一例にすぎないが、プロセッサ５０
はコンピュータ・システム４３０の一部にすることができる。システム４３０は
第２のプロセッサ４３４も含むことができる。オンチップの第２レベル（Ｌ２）
キャッシュはプロセッサ５０内に含まれていてもよい。プロセッサ５０は、プロ
セッサ・バス４４２を介してメモリ・コントローラ４４０とやりとりすることが
できる。メモリ・コントローラ４４０はバス４５２および４５４を介してメイン
・メモリ４４６および周辺装置４４８とやりとりすることができる。

【０１３６】パイプライン１０８または３０８（図２および図３）と同様のパイプラインは
、レジスタ・リネームを使用しないプロセッサで使用することができるだろう。
このような場合、レジスタ・リネームに含まれる構成要素（たとえば、リネーム
／割振りユニット１５０）は、リネーム関連特徴を除去するために変更すること
ができるだろう。

【０１３７】ここに記載し例示した回路および詳細は例示的なものにすぎない。その代わり
に様々な他の回路および詳細を使用することができるだろう。さらに、サイズ、
待ち時間などの点で、様々な設計上の兼ね合いが存在する可能性がある。たとえ
ば、（たとえば、予約ステーション、レジスタ・ファイル、ＲＯＢ内など）実行
経路内のバッファが大きすぎる場合、最大動作クロック周波数は低減しなければ
ならない可能性がある。ここに例示する構成要素は、様々な技法に応じて設計し
構築することができる。

【０１３８】例示した２通りの構造の間に中間構造（バッファなど）または信号が存在する
可能性がある。導体によっては、例示したように連続的なものではなく、むしろ
中間構造によって分割することができる。図中のボックスの枠は例示のためのも
のである。実際の装置はこのように定義された境界を備えた構成要素を含まなけ
ればならないわけではないだろう。例示した構成要素の相対サイズは実際の相対
サイズを示唆するためのものではない。矢印は、所与の実施形態における所与の
データ・フローを示すが、データ要求など、すべての信号を示すわけではない。
論理ハイ信号が前述されている場合には論理ロー信号によって置き換えることが
でき、その逆も可能である。

【０１３９】プロセッサ内に示した構成要素はすべて同じプロセッサ・チップ上に置くこと
ができる。あるいは、たとえば、トレース・バッファは実行パイプラインとは異
なるチップ上に置くことができるだろう。

【０１４０】「接続」「結合」という用語、ならびに関連用語は直接接続または直接結合に
限定されないが、間接接続または間接結合を含むことができる。「応答」という
用語および関連用語は、１つの信号または事象がある程度他の信号または事象の
影響を受けるが、必ずしも完全または直接的に影響を受けるわけではないことを
意味する。ある構成要素を含む「可能性がある」、含む「ことができるだろう」
、あるいは含む「ことが好ましい」と本明細書に記載されている場合、その特定
の構成要素を含むことが必須であるわけではない。

【０１４１】ＭＯＢは、予測間違いを検出するためにアドレスの突合せではなくデータの突
合せを使用できるだろう。

【０１４２】本開示の恩恵を受ける当業者は、本発明の範囲内で上記の説明および添付図面
から他の多くの変形形態が可能であることが分かるだろう。したがって、本発明
の範囲を定義するものは、それに対する補正を含む、特許請求の範囲である。

【図面の簡単な説明】

【図１】プロセッサの一実施形態における所与の構成要素の高レベル・ブロック図表現
である。

【図２】本発明の一実施形態によるプロセッサのブロック図である。

【図３】本発明の他の実施形態によるプロセッサのブロック図である。

【図４】２つのスレッドの一例を示す流れ図である。

【図５】２つのスレッドの他の例を示す流れ図である。

【図６】４つのスレッドの一例を示す流れ図である。

【図７】図６のスレッドのオーバラップ実行を示すグラフである。

【図８】本発明の一実施形態による個別トレース・バッファを示すブロック図である。

【図９】２通りの時点におけるプログラムおよびリタイヤ順序を示すアレイを示す図で
ある。

【図１０】図８のトレース・バッファの一実施形態における所与の構成要素のブロック図
表現である。

【図１１】図８のトレース・バッファの他の実施形態における所与の構成要素のブロック
図表現である。

【図１２】図１０のトレース・バッファの命令待ち行列アレイの一実施形態の一部分を示
す図表表現である。

【図１３】図１０のトレース・バッファのデータおよび依存関係アレイの一実施形態の一
部分を示す図表表現である。

【図１４】図１０のアレイの依存関係フィールドを作成する際に使用する指標レジスタお
よび変更レジスタの一実施形態を示す図である。

【図１５】図１３のアレイの依存関係フィールドを作成する際に使用する論理ＯＲゲート
を示す図である。

【図１６】図１３のアレイの依存関係フィールドを作成するために使用する操作の一実施
形態を示す流れ図である。

【図１７】本発明の一実施形態によりそれに対する依存関係を有するトレース・バッファ
内の位置および特定のレジスタを示す図表表現である。

【図１８】図１０のトレース・バッファの出力レジスタ・ファイルの一実施形態の一部分
を示す図表表現である。

【図１９】図１０のトレース・バッファの入力レジスタ・ファイルの一実施形態の一部分
を示す図表表現である。

【図２０】本発明の一実施形態による図１８の出力レジスタ・ファイルおよび図１９の入
力レジスタ・ファイルとともに使用する比較器および再実施トリガ・ロジックの
ブロック図である。

【図２１】出力レジスタ・ファイルの内容を使用できる時点を示す流れ図である。

【図２２】本発明の一実施形態による図２のメモリ・オーダ・バッファ（ＭＯＢ）内の個
別ＭＯＢを示すブロック図である。

【図２３】図２２のＭＯＢの１つのストア・バッファの一実施形態の一部分を示す図表表
現である。

【図２４】図２２のＭＯＢの１つのロード・バッファの一実施形態の一部分を示す図表表
現である。

【図２５】ロード命令とストア命令のアドレスを比較する比較器を示す図である。

【図２６】ストア命令とロード命令のアドレスを比較する比較器を示す図である。

【図２７】本発明の一実施形態によるＭＯＢ制御回路およびストア・バッファを示すブロ
ック図表現である。

【図２８】本発明の一実施形態によるＭＯＢ制御回路およびロード・バッファを示すブロ
ック図表現である。

【図２９】６つのスレッドの一例を示す流れ図である。

【図３０】時点ｔ１における図２９のスレッド内の関係を示すツリーである。

【図３１】スレッドＴ１がリタイヤする前にスレッドＴ４がリセットされると想定し、時
点ｔ２における図２９のスレッド内の関係を示すツリーである。

【図３２】スレッドＴ４がリセットされる前にスレッドＴ１がリタイヤすると想定し、時
点ｔ２における図２９のスレッド内の関係を示すツリーである。

【図３３】時点ｔ３における図２９のスレッド内の関係を示すツリーである。

【図３４】５つのスレッドを含む一例を示す流れ図である。

【図３５】時点ｔ１における図３４のスレッド内の関係を示すツリーである。

【図３６】時点ｔ２における図３４のスレッド内の関係を示すツリーである。

【図３７】図２のものに代わる実施形態によるプロセッサのブロック図表現である。

【図３８】図２のプロセッサを含むコンピュータ・システムである。

【手続補正書】

【提出日】平成１２年７月２７日（２０００．７．２７）

【手続補正１】

【補正対象書類名】図面

【補正対象項目名】全図

【補正方法】変更

【補正内容】

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【図１９】

【図２０】

【図２１】

【図２２】

【図２３】

【図２４】

【図２５】

【図２６】

【図２７】

【図２８】

【図２９】

【図３０】

【図３１】

【図３２】

【図３３】

【図３４】

【図３５】

【図３６】

【図３７】

【図３８】

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＣＹ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＧＷ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＧＨ，ＧＭ，ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ，ＺＷ)，ＥＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ) ，ＡＬ，ＡＭ，ＡＴ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＤ，ＧＥ，ＧＨ，ＧＭ，ＨＲ，ＨＵ，ＩＤ，ＩＬ，ＩＮ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＳＬ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＳ，ＵＺ，ＶＮ，ＹＵ，ＺＷ

Claims

【特許請求の範囲】

【請求項１】命令を実行するための実行パイプラインであって、その命令
のうちの少なくとも一部が推論実行される実行パイプラインと、前記命令を保持するために前記実行パイプラインの外部にあるトレース・バッ
ファとを含み、推論エラーに関連する命令はそのトレース・バッファから実行パ
イプライン内で再実施されることを特徴とするプロセッサ。
【請求項２】前記命令のうちの一部は前記実行パイプライン内でのその実
行の終わりに初期リタイヤされるが、その命令は最終リタイヤまで前記トレース
・バッファ内に存続する請求項１に記載のプロセッサ。
【請求項３】最終リタイヤを行うべき命令を保持する項目の割振り解除を
行うよう前記トレース・バッファに信号送出するための最終リタイヤ・ロジック
をさらに含む請求項１に記載のプロセッサ。
【請求項４】共用資源のマルチスレッド化の際に前記実行パイプラインを
使用できる請求項１に記載のプロセッサ。
【請求項５】前記トレース・バッファが第１のトレース・バッファであり
、前記プロセッサが追加のトレース・バッファをさらに含み、前記第１および追
加のトレース・バッファが異なるスレッドからのトレースを保持する請求項１に
記載のプロセッサ。
【請求項６】実行ユニットがレジスタ・リネーム・ユニットを含み、前記
トレース・バッファが再実施中の前記命令に付随する制御ビットを提供する請求
項１に記載のプロセッサ。
【請求項７】再実施中の前記命令および前記制御ビットの状態に応じて、
前記レジスタ・リネーム・ユニットが前記命令に関連するレジスタのリネームを
バイパスする請求項６に記載のプロセッサ。
【請求項８】再実施中の前記命令および前記制御ビットの状態に応じて、
前記レジスタ・リネーム・ユニットが（１）レジスタのリネームを行うか、（２
）リネームをバイパスし、その代わりに前記トレース・バッファからの物理レジ
スタ識別番号を使用するか、（３）前記トレース・バッファからの値を定数とし
て使用する請求項６に記載のプロセッサ。
【請求項９】前記実行パイプラインが、ストア・バッファとロード・バッ
ファとを含むメモリ・オーダ・バッファ（ＭＯＢ）を含む請求項１に記載のプロ
セッサ。
【請求項１０】命令を実行するための実行パイプラインであって、その命
令のうちの少なくとも一部が推論実行される実行パイプラインと、前記命令と前記命令の実行結果を保持するために前記実行パイプラインの外部
にあるトレース・バッファとを含み、前記命令のうちの少なくとも一部は前記パ
イプライン内での実行後に初期リタイヤされるが、最終リタイヤまで前記トレー
ス・バッファ内に存続することを特徴とするプロセッサ。
【請求項１１】前記命令の実行の際に推論エラーを検出するための検出回
路をさらに含む請求項１０に記載のプロセッサ。
【請求項１２】前記検出回路の少なくとも一部が前記トレース・バッファ
内に含まれる請求項１０に記載のプロセッサ。
【請求項１３】前記命令の実行の際に推論エラーを検出するための検出回
路と、推論エラーに関連する命令の再実施をトリガするための再実施トリガ回路
とをさらに含む請求項１０に記載のプロセッサ。
【請求項１４】前記実行パイプラインがロード命令とストア命令を保持す
るメモリ・オーダ・バッファを含み、前記ロード命令とストア命令が初期リタイ
ヤされず、最終リタイヤまで前記メモリ・オーダ・バッファ内に存続する請求項
１０に記載のプロセッサ。
【請求項１５】ロード命令とストア命令を保持するためのメモリ・オーダ
・バッファ（ＭＯＢ）をさらに含み、誤推論を訂正するために前記トレース・バ
ッファ内の命令を再実施することができ、前記ロード命令またはストア命令が前
記パイプラインを初めて通過したときに前記ＭＯＢ内の項目の割振りを行うが、
前記命令が再実施されたときに前記項目の再割振りを行わないリネーム割振りユ
ニットを実行ユニットが含む請求項１０に記載のプロセッサ。
【請求項１６】前記トレース・バッファが、複数スレッドのトレースを保
持するために前記実行パイプラインの外部にある複数のトレース・バッファのう
ちの１つであり、前記実行パイプラインが複数スレッドの少なくとも一部分を同
時に実行し、前記複数スレッドのうちの少なくとも１つが前記複数スレッドのう
ちの他の少なくとも１つに依存する請求項１０に記載のプロセッサ。
【請求項１７】最終リタイヤ・ロジックをさらに含み、前記トレース・バ
ッファ内の前記命令が前記最終リタイヤ・ロジックの制御下で最終リタイヤされ
るが、前記実行パイプライン内での実行後に前記命令の一部を初期リタイヤする
ことができる請求項１０に記載のプロセッサ。
【請求項１８】前記トレース・バッファが命令待ち行列アレイを含む請求
項１０に記載のプロセッサ。
【請求項１９】デコーダをさらに含み、前記実行パイプラインと前記トレ
ース・バッファが前記デコーダから同時に命令を受け取る請求項１に記載のプロ
セッサ。
【請求項２０】命令を実行するための実行パイプラインであって、その命
令のうちの少なくとも一部が推論実行される実行パイプラインと、前記命令を保持するために前記実行パイプラインの外部にあるトレース・バッ
ファとを含み、検出された誤推論に応答して前記トレース・バッファから前記命
令を再実施することができ、前記命令が正しく実行されたことが保証されるまで
前記命令が前記トレース・バッファ内に存続することを特徴とするプロセッサ。