JP2020536308A

JP2020536308A - 単一のｃａｍポートを使用する分割された順序変更キューを備える読み込み／格納ユニット

Info

Publication number: JP2020536308A
Application number: JP2020517847A
Authority: JP
Inventors: シンハロイ、バララム; ロイド、ブライアン; ゴンザレス、クリストファー
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2017-10-06
Filing date: 2018-10-03
Publication date: 2020-12-10
Anticipated expiration: 2038-10-03
Also published as: CN111133421A; CN111133421B; GB2579757B; DE112018004004T5; DE112018004006T5; GB2579757A; CN111133413B; DE112018004006B4; JP7064273B2; CN111133413A; WO2019069256A1; GB202006344D0; GB202006338D0; JP2020536310A; JP7025100B2; WO2019069255A1; GB2579534A; GB2579534B

Abstract

【課題】読み込み／格納ユニット（ＬＳＵ）のための技術的解決策を提供する。【解決手段】ＬＳＵは、複数のＬＳＵパイプを使用してアウトオブオーダー（ＯｏＯ）ウィンドウ内の複数の命令を実行する。この実行は、ＯｏＯウィンドウから命令を選択することであって、命令が実効アドレスを使用する、選択することと、命令が読み込み命令である場合、処理ユニットがシングルスレッド・モードで動作しているとき、命令が第１の読み込みパイプ上で発行される時に、読み込み順序変更キュー（ＬＲＱ）の第１のパーティションにエントリを作成することと、命令が第２の読み込みパイプ上で発行される時に、ＬＲＱの第２のパーティションにエントリを作成することとを含む。さらに、マルチスレッド・モードで処理ユニットが動作しているとき、命令が第１の読み込みパイプ上で発行される時に、処理ユニットの第１のスレッドによって、ＬＲＱの第１のパーティションの第１の所定の部分にエントリを作成する。【選択図】図１

Description

本発明の実施形態は、一般に、アウトオブオーダー（ＯｏＯ：out-of-order）プロセッサに関し、より詳細には、ＯｏＯプロセッサにおける命令のアウトオブオーダー実行を効率的にサポートするために、単一の連想メモリ（ＣＡＭ：content address memory）ポートと共に分割された読み込み順序変更キューおよび格納順序変更キュー（load and store reorder queues）を実装する読み込み／格納ユニット（ＬＳＵ：load-store unit）に関する。

ＯｏＯプロセッサでは、命令順序付けユニット（ＩＳＵ：instruction sequencingunit）が、命令をさまざまな発行キューにディスパッチし、ＯｏＯ実行のサポートにおいてレジスタ名を変更し、さまざまな発行キューから実行パイプラインに命令を発行し、実行された命令を完了し、例外条件を処理する。レジスタ名の変更は、通常、命令が各発行キューに配置される前に、ＩＳＵ内のマッパー論理によって実行される。ＩＳＵは、命令間の依存関係を追跡するための依存関係行列を含んでいる１つまたは複数の発行キューを含む。依存関係行列は、通常、発行キュー内の命令ごとに１行および１列を含む。

単一のＣＡＭポートを使用する分割された順序変更キューを備える読み込み／格納ユニットを提供する。

本発明の実施形態は、アウトオブオーダー・プロセッサにおいて実効アドレスに基づく読み込み／格納ユニットを実装するための方法、システム、およびコンピュータ・プログラム製品を含む。１つまたは複数の命令を実行するための処理ユニットの非限定的な例としては、読み込み／格納ユニット（ＬＳＵ）が挙げられ、ＬＳＵは、複数のＬＳＵパイプを使用してアウトオブオーダー（ＯｏＯ）ウィンドウ内の複数の命令を実行する。この実行は、ＯｏＯウィンドウから命令を選択することであって、命令が実効アドレスを使用する、選択することと、命令が読み込み命令であることに応答して、処理ユニットがシングルスレッド・モードで動作することに応答して、命令が第１の読み込みパイプ上で発行されているということに基づいて読み込み順序変更キューの第１のパーティションにエントリを作成することと、命令が第２の読み込みパイプ上で発行されているということに基づいて、読み込み順序変更キューの第２のパーティションにエントリを作成することとを含む。この実行は、複数のスレッドが同時に処理されるマルチスレッド・モードで処理ユニットが動作することに応答して、命令が第１の読み込みパイプ上で発行されているということに基づいて、処理ユニットの第１のスレッドによって、読み込み順序変更キューの第１のパーティションの第１の所定の部分にエントリを作成することも含む。

１つまたは複数の実施形態によれば、処理ユニットによる１つまたは複数の命令のアウトオブオーダー実行のためのコンピュータ実装方法が、処理ユニットの読み込み／格納ユニット（ＬＳＵ）によって、順序に従わずに実行される複数の命令を含んでいる命令のアウトオブオーダー・ウィンドウを受信することと、ＬＳＵによって、ＯｏＯウィンドウから命令を発行することとを含む。命令の発行は、ＯｏＯウィンドウから命令を選択することであって、命令が実効アドレスを使用する、選択することと、命令が読み込み命令であることに応答して、処理ユニットがシングルスレッド・モードで動作することに応答して、命令が第１の読み込みパイプ上で発行されているということに基づいて読み込み順序変更キューの第１のパーティションにエントリを作成することと、命令が第２の読み込みパイプ上で発行されているということに基づいて、読み込み順序変更キューの第２のパーティションにエントリを作成することとを含む。この実行は、複数のスレッドが同時に処理されるマルチスレッド・モードで処理ユニットが動作することに応答して、命令が第１の読み込みパイプ上で発行されているということに基づいて、処理ユニットの第１のスレッドによって、読み込み順序変更キューの第１のパーティションの第１の所定の部分にエントリを作成することも含む。

１つまたは複数の実施形態によれば、コンピュータ・プログラム製品が、プログラム命令が具現化されているコンピュータ可読記憶媒体を含み、それらのプログラム命令は、処理ユニットに動作を実行させるために、処理ユニットによって実行可能である。それらの動作は、処理ユニットの読み込み／格納ユニット（ＬＳＵ）によって、順序に従わずに実行される複数の命令を含んでいる命令のアウトオブオーダー・ウィンドウを受信することと、ＬＳＵによって、ＯｏＯウィンドウから命令を発行することとを含む。命令の発行は、ＯｏＯウィンドウから命令を選択することであって、命令が実効アドレスを使用する、選択することと、命令が読み込み命令であることに応答して、処理ユニットがシングルスレッド・モードで動作することに応答して、命令が第１の読み込みパイプ上で発行されているということに基づいて読み込み順序変更キューの第１のパーティションにエントリを作成することと、命令が第２の読み込みパイプ上で発行されているということに基づいて、読み込み順序変更キューの第２のパーティションにエントリを作成することとを含む。この実行は、複数のスレッドが同時に処理されるマルチスレッド・モードで処理ユニットが動作することに応答して、命令が第１の読み込みパイプ上で発行されているということに基づいて、処理ユニットの第１のスレッドによって、読み込み順序変更キューの第１のパーティションの第１の所定の部分にエントリを作成することも含む。

その他の特徴および利点が、本発明の手法によって実現される。本発明のその他の実施形態および態様は、本明細書において詳細に説明され、請求される発明の一部と見なされる。本発明を利点および特徴と共によく理解するために、説明および図面を参照されたい。

本明細書に記載された専有権の詳細は、本明細書の最後にある特許請求の範囲において具体的に指摘され、明確に請求される。本発明の各実施形態の前述およびその他の特徴と利点は、添付の図面と共に行われる以下の詳細な説明から明らかになる。

本発明の１つまたは複数の実施形態に従う、アウトオブオーダー・プロセッサ内に実効アドレスに基づく読み込み／格納ユニットを含んでいるシステムのブロック図である。本発明の１つまたは複数の実施形態に従う、実効アドレス・ディレクトリ（ＥＡＤ：effectiveaddress directory）およびこのＥＡＤを利用するための関連するメカニズムが実装される、ＯｏＯプロセッサのプロセッサ・アーキテクチャの例示的なブロック図である。本発明の１つまたは複数の実施形態に従うプロセッシング・コアの読み込み／格納ユニット（ＬＳＵ）を示す図である。１つの実施形態例に従う実効アドレス・ディレクトリ（ＥＡＤ）構造（Ｌ１キャッシュ）の例示的なブロックである。１つの実施形態例に従う実効実変換（ＥＲＴ：effective real translation）テーブル構造の例示的なブロックである。本発明の１つまたは複数の実施形態に従う、ＬＳＵによって命令を実行するためにメモリにアクセスするための例示的な方法のフローチャートである。本発明の１つまたは複数の実施形態に従う、ＥＲＴを再度読み込むための方法のフローチャートである。本発明の１つまたは複数の実施形態に従うシノニム検出テーブル（ＳＤＴ：synonymdetection table）の例示的な構造を示す図である。本発明の１つまたは複数の実施形態に従う、ＥＲＴおよびＳＤＴＥＡの交換を実行するための方法のフローチャートである。本発明の１つまたは複数の実施形態に従うＥＲＴ削除（ＥＲＴＥ：ERTeviction）テーブルを示す図である。本発明の１つまたは複数の実施形態に従う、エントリをＥＲＴＥテーブルに追加するための例示的な方法のフローチャートである。本発明の１つまたは複数の実施形態に従って開始される例示的な命令のセットの例示的なシーケンス図である。本発明の１つまたは複数の実施形態に従う、プロセッサがシングルスレッド（ＳＴ：singlethread）モードまたはマルチスレッド（ＭＴ：multi-threaded）モードのどちらで動作しているかに応じて、マルチパイプ・モードで、およびＯｏＯの方法で、ＬＳＵによって命令を発行するための例示的な方法のフローチャートである。本発明の１つまたは複数の実施形態の一部または全部の態様を実装するためのコンピュータ・システムのブロック図である。

本明細書において示される図は、実例である。本発明の思想から逸脱することなく、本明細書に記載された図または動作の多くの変形が存在することが可能である。例えば、動作は異なる順序で実行されることが可能であり、あるいは動作は追加、削除、または変更されることが可能である。また、「結合される」という用語およびその変形は、２つの要素間に通信経路が存在することを表しており、それらの要素間に要素／接続が介在しない要素間の直接的接続を意味していない。これらのすべての変形は、本明細書の一部であると見なされる。

本明細書に記載された本発明の１つまたは複数の実施形態は、ＯｏＯプロセッサ内の実効実アドレス・テーブルのエントリの動的削除によって、実効アドレス（ＥＡ：effective address）に基づく読み込み／格納ユニット（ＬＳＵ）をアウトオブオーダー（ＯｏＯ）プロセッサに提供する。本明細書に記載された技術的解決策は、チップ面積の削減を促進するために、およびさらに、ＯｏＯプロセッサのタイミングを改善するために、コンポーネントの中でも特に、実効実テーブル（ＥＲＴ：effective real table）およびシノニム検出テーブル（ＳＤＴ：synonymdetection table）と共に実効アドレス・ディレクトリ（ＥＡＤ）を使用する。さらに、本明細書に記載された技術的解決策は、ＯｏＯＬＳＵが順序に従わない方法で読み込み／格納命令を実行するのを容易にする。ＯｏＯＬＳＵは、複数のパイプを使用して読み込み／格納命令を実行し、性能を改善する。ＬＳＵのマルチパイプの実装は、本明細書において説明されているように、分割されたＥＲＴ、読み込み順序変更キュー（ＬＲＱ：load reorder queue）、および格納順序変更キュー（ＳＲＱ：storereorder queue）に基づく。

ほとんどの最新のコンピューティング・デバイスは、仮想メモリをサポートする。仮想メモリは、実際には物理メモリが断片化しているときに、および物理メモリがディスク・ストレージにあふれているときにも、連続的な作業メモリまたはアドレス空間が存在するという印象をアプリケーション・プログラムに与える技術である。基本的に、コンピューティング・デバイスのメモリの見え方がアプリケーション・プログラムに提供され、アプリケーションは、アプリケーションから見える実効アドレス空間内の実効アドレスを使用して、連続的に見えるメモリにアクセスし、その後、この実効アドレスが、アクセス動作を実際に実行するために、実際の物理メモリまたはストレージ・デバイスの物理アドレスに変換される。実効アドレスは、動作を発行する実体（例えば、アプリケーション、プロセス、スレッド、割り込みハンドラ、カーネル・コンポーネントなど）の視点から動作によってアクセスされるメモリ位置を指定するために使用される値である。

すなわち、コンピューティング・デバイスが仮想メモリの概念をサポートしない場合、実効アドレスおよび物理アドレスは１つであり、同じである。しかし、コンピューティング・デバイスが仮想メモリをサポートする場合、アプリケーションによってサブミットされる特定の動作の実効アドレスは、コンピューティング・デバイスのメモリ・マッピング・ユニットによって、動作が実行される物理メモリまたはストレージ・デバイス内の位置を指定する物理アドレスに変換される。

さらに、最新のコンピューティング・デバイスでは、コンピューティング・デバイスのプロセッサが、一連のデータ処理要素を含んでいるプロセッサ命令パイプラインを使用して、実体（例えば、アプリケーション、プロセスなど）によってサブミットされた命令（動作）を処理する。命令パイプラインは、コンピュータ命令の処理を、各ステップの最後でストレージを使用する一連のステップに分割することによって、命令スループットを増加させる技術である。命令パイプラインは、コンピューティング・デバイスの制御回路が、最も遅いステップの処理速度で命令をプロセッサ命令パイプラインに発行するのを容易にし、この処理速度は、すべてのステップを同時に実行するために必要な時間よりも非常に高速である。命令パイプラインを使用するプロセッサ（すなわち、パイプライン型プロセッサ）は、別々のジョブに対して半ば独立して動作できる段に内部で構造化される。各段は、パイプラインの最後の段まで各段の出力が別の段に供給されるように構造化され、一連のチェーン内の次の段に接続される。

そのようなパイプライン型プロセッサは、インオーダー・パイプライン型プロセッサまたはアウトオブオーダー・パイプライン型プロセッサの形態を取ってよい。インオーダー・パイプライン型プロセッサの場合、データが、パイプラインの特定の段で処理される命令に使用されない場合に、そのデータが使用可能になるまで、パイプラインを介した命令の実行が停止されるように、命令が順序通りに実行される。一方、アウトオブオーダー・パイプライン型プロセッサは、動作を実行するために必要なデータを使用できないときに発生する停止をプロセッサが回避できるようにする。アウトオブオーダー・プロセッサの命令パイプラインは、処理される準備ができている他の命令で時間の「スロット」を埋め、その後、パイプラインの最後で結果を並べ替え、命令が順序通りに実行されたように見えるようにすることによって、それらの停止を防ぐ。元のコンピュータ・コード内で命令が順序付けられる方法はプログラム順序と呼ばれ、一方、プロセッサでは、命令がデータ順序（すなわち、データおよびオペランドがプロセッサのレジスタ内で使用可能になる順序）で処理される。

最新のプロセッサ命令パイプラインは、命令が命令パイプラインを通って流れるときに、命令の実効アドレスを追跡する。命令の処理が例外の取得をもたらすか、命令が前の状態をフラッシュするか、命令が現在のメモリ位置と相対的な新しいメモリ位置に分岐するか、または命令の実行が完了するときに、常にこの実効アドレスが利用されるため、命令の実効アドレスを追跡することは重要である。

命令の実効アドレスを追跡することは、プロセッサのチップ面積、電力消費などの観点で、費用がかかる。これは、これらの実効アドレスが大きいサイズ（例えば、６４ビット）を有しており、最新のプロセッサ命令パイプラインが深く（すなわち、多くの段を含んでおり）、プロセッサ命令パイプラインの命令フェッチ段からプロセッサ命令パイプラインの完了段までの命令の存続期間が非常に長くなることを引き起こすためである。高度にマルチスレッド化されたアウトオブオーダー・プロセッサ（すなわち、順序に従わない方法で複数のスレッドから命令を実行するプロセッサ）では、異なるアドレス範囲からの膨大な数の命令が同時に処理することができる（すなわち、「インフライト」である）ため、この費用がさらに増えることがある。

１つまたは複数の例では、コンピューティング・デバイスは、パイプライン・ラッチ、分岐情報キュー（ＢＩＱ：branch information queue）、およびグローバル完了テーブル（ＧＣＴ：global completion table）の組み合わせを使用して、命令の実効アドレスを追跡する。命令のグループのベース実効アドレス（ＥＡ）が、命令シーケンサ・ユニット（ＩＳＵ：instruction sequencer unit）のＧＣＴ内に蓄積されて追跡できるようになるまで、ラッチを使用してパイプラインの前端から転送される。このデータを格納するために必要なラッチの数は、おおよそ、パイプラインのフェッチ段とディスパッチ段の間のパイプラインの段数になる。これらのラッチは、これらの段の間に通常はＥＡが不要であるため、無駄である。このデータは、命令がパイプラインを通って流れるときに命令グループと共に「付き合いで参加している」単なるペイロード・データである。加えて、この方法は、分岐命令がＢＩＱとＧＣＴの両方にＥＡを含むため、二重の格納につながる。

したがって、ＧＣＴのみにおいてＥＡを追跡することによって、そのような非効率性を取り除くコンピューティング・デバイスが開発された。例えば、それらの新しいコンピューティング・デバイス（命令シーケンサ・ユニット）は、フェッチ時にエントリをＧＣＴに作成する。ＥＡは、この時点でＧＣＴに読み込まれ、その後、命令が完了したときに削除される。これによって、装置全体で、多くのパイプライン・ラッチを取り除く。アドレス線の数と同じくらいの長さの完全なＥＡ（例えば、６４ビットＥＡ）の代わりに、小さいタグが、パイプラインを通る命令グループと共に運ばれる。このタグは、この命令グループのベースＥＡを保持するＧＣＴ内のエントリを指し示す。分岐が、発行されたときに、ＥＡをＧＣＴから直接取得できるため、ＢＩＱ内のアドレスの格納が不要になる。そのような手法は、面積効率を改善するが、アウトオブオーダー・プロセッサには適用できない。さらに、それらの手法は、プログラム順序に従わないで着信するアドレス要求を処理するための十分な情報を欠いている。加えて、それらの手法は、複数のまとまりのないアドレス範囲から形成されていることがある命令グループを追跡する能力を欠いているため、アウトオブオーダー実行に必要なディスパッチおよび完了の帯域幅をサポートできない。従来、そのようなメカニズムは、単一のアドレス範囲からの命令グループのみをサポートしていたため、順序に従わずに実行するために使用できる命令の数が著しく減少する可能性がある。さらに、ＥＡに対応するＲＡ（またはその逆）などの、対応するアドレスを検索するために、連想メモリ（ＣＡＭ：content addressable memory）が使用される。ＣＡＭは、専用比較回路を使用して、単一クロック・サイクルでのルックアップ・テーブル機能を実装する。ＣＡＭの機能全体は、検索語を受け取って、一致するメモリ位置を返すことである。しかし、そのようなＣＡＭは、チップ面積を必要とし、そのような検索のための電力を消費する。

本明細書に記載された技術的解決策の実施形態例は、前述したＧＣＴの解決策の面積効率を有するだけでなく、性能を抑制せずに発行幅の広いアウトオブオーダー・パイプラインもサポートできる、実効アドレス・ディレクトリ（ＥＡＤ）、実効実テーブル（ＥＲＴ）、およびシノニム検出テーブル（ＳＤＴ：synonym detection table）を提供することによって、これらの手法を改善する。本明細書に記載された技術的解決策は、プロセッサがアウトオブオーダー（ＯｏＯ）ウィンドウ内でＥＡのシノニムを避けることができる限り、プロセッサがＥＡのみを使用して実行するのをさらに容易にする。ＯｏＯウィンドウは、プロセッサの命令パイプライン内の命令のセットである。ＯｏＯウィンドウ内のＥＡのシノニムを防ぐことによって、プロセッサがＯｏＯウィンドウ内のＥＡの変換を回避することができるため、プロセッサは、アドレス変換のためのチップ面積および電力消費を削減する。これは、ＯｏＯウィンドウ内にＥＡのシノニムが存在しなくなって、インフライトの命令に関してロード・ヒット・ストア（ＬＨＳ：load-hit-store）条件、ストア・ヒット・ロード（ＳＨＬ：store-hit-load）条件、およびロード・ヒット・ロード（ＬＨＬ：load-hit-load）条件が検出されなくなるためである。

言い換えると、本明細書に記載された技術的解決策は、ＯｏＯウィンドウ内のＥＡの別名化を規制し、読み込み／格納ポートに関する変換データ構造およびハードウェアを縮小することによって、技術的問題に対処する。したがって、本明細書に記載された技術的解決策は、１つのアドレス（ＥＡ）のみを追跡することによって、チップ面積の削減を促進する。さらに、これらの技術的解決策は、ＯｏＯプロセッサが分割された読み込み／格納キューを使用して２読み込み／２格納モード（2 load and 2 store mode）で実行することを容易にし、通常はアドレス変換に使用されるＣＡＭポートをさらに削減する。

加えて、ＯｏＯプロセッサがマルチスレッド（ＭＴ）動作をサポートする場合、ＯｏＯプロセッサは、順序に従わない方法でのスレッド動作ごとに、ＥＡをＲＡに変換するためおよびＲＡをＥＡに変換するために、読み込み／格納ユニット内の読み込み／格納キューごとに複数のＣＡＭポートを容易にする必要がある。例えば、ＭＴモードで４つのスレッドを実行するＯｏＯプロセッサについて考える。各スレッドは、独立した命令を実行することによって、同時に実行している。この場合、ＯｏＯプロセッサの読み込み／格納ユニット（ＬＳＵ）は、実効アドレスを実アドレスに変換するためおよび実アドレスを実効アドレスに変換するために、通常、読み込み／格納キューごとに４つ以上のＣＡＭポートを使用する。アドレス変換用のそのような複数のＣＡＭポートは、かなりのチップ面積を占有し、さらに電力を消費する。本明細書に記載された技術的解決策は、複数のスレッドのための複数のＣＡＭポートのそのような技術的課題に対処する。

本明細書に記載された発明の１つまたは複数の実施形態例は、単一のＣＡＭポートを読み込み／格納キューに使用することによって、本明細書に記載された技術的課題の態様に対処し、このようにして、アドレス変換に使用されるチップ面積および電力を削減する。例えば、本明細書に記載された本発明の実施形態例は、ＬＳＵが、分割された読み込み／格納キューを含む複数読み込み／複数格納ＬＳＵ（multi-load and multi-store LSU）になることを容易にすることができ、アドレス変換用のＣＡＭポートの数の削減を促進する。「複数読み込みＬＳＵ」は、読み込み命令ごとに別々のパイプ上で、複数の読み込み命令を同時に発行するＬＳＵである。例えば、「２読み込みＬＳＵ」は、２つの別々のパイプ（ＬＤ０およびＬＤ１）上で、２つの読み込み命令を同時に発行するＬＳＵである。同様に、「複数格納ＬＳＵ」は、格納命令ごとに別々のパイプ上で、複数の格納命令を同時に発行するＬＳＵである。例えば、「２格納ＬＳＵ」は、２つの別々のパイプ（ＳＴ０およびＳＴ１）上で、２つの格納命令を同時に発行するＬＳＵである。

ここで図１を参照すると、本発明の１つまたは複数の実施形態に従って、ＯｏＯ命令ウィンドウ内でＥＡのシノニムを防ぐための技術的解決策を実装するアウトオブオーダー（ＯｏＯ）プロセッサの命令順序付けユニット（ＩＳＵ）を含んでいるシステム１００のブロック図が、概して示されている。図１に示されているシステム１００は、ＩＳＵのマッパー１１０に入力するためのデコードされた命令を準備する設定ブロック１０８に入力するための命令をフェッチしてデコードする、命令フェッチ・ユニット／命令デコード・ユニット（ＩＦＵ／ＩＤＵ：instruction fetch unit/instruction decode unit）１０６を含んでいる。本発明の１つまたは複数の実施形態に従って、ＩＦＵ／ＩＤＵ１０６によって、スレッドからの一度に６つの命令がフェッチされ、デコードされ得る。本発明の１つまたは複数の実施形態に従って、設定ブロック１０８に送信される６つの命令は、６つの非分岐命令、５つの非分岐命令および１つの分岐命令、または４つの非分岐命令および２つの分岐命令を含むことができる。本発明の１つまたは複数の実施形態に従って、設定ブロック１０８は、フェッチされた命令をＩＳＵ内のそれらのブロックに送信する前に、発行キュー内のエントリ、完了テーブル、マッパー、およびレジスタ・ファイルなどの十分なリソースが存在することをチェックする。

図１に示されたマッパー１１０は、プログラマの命令（例えば、論理レジスタ名）をプロセッサの物理リソース（例えば、物理レジスタ・アドレス）にマッピングする。図１には、条件レジスタ（ＣＲ：condition register）マッパー、リンク／カウント（ＬＮＫ／ＣＮＴ：link/count）レジスタ・マッパー、整数例外レジスタ（ＸＥＲ：exception register）マッパー、汎用レジスタ（ＧＰＲ：general purposeregisters）およびベクトル−スカラ・レジスタ（ＶＳＲ：vector-scalar register）をマッピングするための統合マッパー（Ｕマッパー：UMapper）、ＧＰＲおよびＶＳＲをマッピングするための設計済みマッパー（ＡＲＣＨマッパー：architected mapper）、および浮動小数点状態および制御レジスタ（ＦＰＳＣＲ：floating point status and control register）マッパーを含む、さまざまなマッパー１１０が示されている。

設定ブロック１０８からの出力が、現在のＩＳＵ内のすべての命令を追跡するためのグローバル完了テーブル（ＧＣＴ：global completion table）１１２にも入力される。設定ブロック１０８からの出力が、命令を発行キューにディスパッチするためのディスパッチ・ユニット１１４にも入力される。図１に示されているＩＳＵの実施形態は、ＣＲ発行キュー（ＣＲＩＳＱ：CR issue queue）１１６を含んでおり、ＣＲ発行キュー１１６は、ＣＲマッパーからの命令を受信して追跡し、それらの命令を命令フェッチ・ユニット（ＩＦＵ）１２４に発行（１２０）して、ＣＲ論理命令および移動命令を実行する。図１には分岐発行キュー（分岐ＩＳＱ：branch issue queue）１１８も示されており、分岐発行キュー１１８は、分岐命令およびＬＮＫ／ＣＮＴ物理アドレスをＬＮＫ／ＣＮＴマッパーから受信して追跡する。分岐ＩＳＱ１１８は、予測された分岐アドレスまたは方向あるいはその両方が正しくなかった場合、命令をＩＦＵ１２４に発行して、命令フェッチをリダイレクトすることができる。

ディスパッチ論理およびＬＮＫ／ＣＮＴマッパーから名前が変更されたレジスタ、ＸＥＲマッパー、ＵＭａｐｐｅｒ（ＧＰＲ／ＶＳＲ）、ＡＲＣＨマッパー（ＧＰＲ／ＶＳＲ）、ならびにＦＰＳＣＲマッパーから出力された命令が、発行キュー１０２に入力される。図１に示されているように、発行キュー１０２は、ディスパッチされた固定小数点命令（Ｆｘ：fixed point instructions）、読み込み命令（Ｌ：loadinstructions）、格納命令（Ｓ：store instructions）、およびベクトルおよびスカラ・ユニット（ＶＳＵ：vector-and-scaler unit）命令を追跡する。図１の実施形態に示されているように、発行キュー１０２は、２つの部分ＩＳＱ０１０２０およびＩＳＱ１１０２１に分割されており、各部分がＮ／２個の命令を保持する。プロセッサがシングルスレッド（ＳＴ）モードで実行している場合、発行キュー１０２が、単一のスレッドのすべての命令（この例では、Ｎ個すべての命令）を処理するために、ＩＳＱ０１０２０およびＩＳＱ１１０２１の両方を含んでいる単一論理の発行キューとして使用され得る。

プロセッサがマルチスレッド（ＭＴ）モードで実行している場合、ＩＳＱ０１０２０が、第１のスレッドからのＮ／２個の命令を処理するために使用可能であり、ＩＳＱ１１０２１が、第２のスレッドＩＳＱ１１０２１からのＮ／２個の命令を処理するために使用される。

図１に示されているように、発行キュー１０２は、実行ユニットの２つのグループ（１０４０および１０４１）に分割されている実行ユニット１０４に、命令を発行する。図１に示されている実行ユニットの両方のグループ（１０４０および１０４１）は、完全固定小数点実行ユニット（full fixed point execution unit）（完全ＦＸ０、完全ＦＸ１）、読み込み実行ユニット（ＬＵ０、ＬＵ１）、簡易固定小数点、格納データ、および格納アドレス実行ユニット（簡易ＦＸ０／ＳＴＤ０／ＳＴＡ０、簡易ＦＸ１／ＳＴＤ１／ＳＴＡ１）、ならびに浮動小数点、ベクトル・マルチメディア実行、１０進浮動小数点、および格納データ実行ユニット（ＦＰ／ＶＭＸ／ＤＦＰ／ＳＴＤ０、ＦＰ／ＶＭＸ／ＤＦＰ／ＳＴＤ１）を含んでいる。ＬＵ０、簡易ＦＸ０／ＳＴＤ０／ＳＴＡ０、およびＦＰ／ＶＭＸ／ＤＦＰ／ＳＴＤ０は、集合的に、読み込み／格納ユニット（ＬＳＵ）１０４２を形成する。同様に、ＬＵ１、簡易ＦＸ１／ＳＴＤ１／ＳＴＡ１、およびＦＰ／ＶＭＸ／ＤＦＰ／ＳＴＤ１は、読み込み／格納ユニット（ＬＳＵ）１０４３を形成する。２つのＬＳＵ１０４２および１０４３は、まとめて、システム１００のＬＳＵと呼ばれる。

図１に示されているように、プロセッサがＳＴモードで実行している場合、実行ユニットの第１のグループ１０４０が、ＩＳＱ０１０２０から発行された命令を実行し、実行ユニットの第２のグループ１０４１が、ＩＳＱ１１０２１から発行された命令を実行する。プロセッサがＳＴモードで実行している場合の本発明の代替の実施形態では、発行キュー１０２内のＩＳＱ０１０２０およびＩＳＱ１１０２１の両方から発行された命令が、実行ユニットの第１のグループ１０４０および実行ユニットの第２のグループ１０４１内の実行ユニット１０４０のいずれかに含まれる実行ユニットに発行され得る。

本発明の１つまたは複数の実施形態に従って、プロセッサがＭＴモードで実行している場合、実行ユニットの第１のグループ１０４０が、ＩＳＱ０１０２０から発行された第１のスレッドの命令を実行し、実行ユニットの第２のグループ１０４１が、ＩＳＱ１１０２１から発行された第２のスレッドの命令を実行する。

本発明の実施形態が、さまざまな異なるサイズの発行キューおよびその他の要素に関して実装され得るため、図１に示されている発行キュー１０２内のエントリの数およびその他の要素のサイズ（例えば、バス幅、キュー・サイズ）は、実際は例示的であるよう意図されている。本発明の１つまたは複数の実施形態に従って、サイズが選択可能であるか、またはプログラム可能である。

１つまたは複数の例では、システム１００は、実施形態例に従って、ＯｏＯプロセッサである。図２は、本発明の１つまたは複数の実施形態に従う、実効アドレス・ディレクトリ（ＥＡＤ）およびこのＥＡＤを利用するための関連するメカニズムが実装される、ＯｏＯプロセッサのプロセッサ・アーキテクチャの例示的なブロック図である。図２に示されているように、このプロセッサ・アーキテクチャは、命令キャッシュ２０２、命令フェッチ・バッファ２０４、命令デコード・ユニット２０６、および命令ディスパッチ・ユニット２０８を含んでいる。命令が、命令フェッチ・バッファ２０４によって命令キャッシュ２０２からフェッチされ、命令デコード・ユニット２０６に提供される。命令デコード・ユニット２０６は、命令をデコードし、デコードされた命令を命令ディスパッチ・ユニット２０８に提供する。命令ディスパッチ・ユニット２０８の出力が、命令の種類に応じて、グローバル完了テーブル２１０、ならびに分岐発行キュー２１２、条件レジスタ発行キュー２１４、統合発行キュー（unified issue queue）２１６、読み込み順序変更キュー２１８、または格納順序変更キュー２２０あるいはその組み合わせのうちの１つまたは複数に提供される。命令の種類は、命令デコード・ユニット２０６のデコーディングおよびマッピングによって決定される。発行キュー２１２〜２２０は、実行ユニット２２２〜２４０のうちのさまざまな実行ユニットに、入力を提供する。データ・キャッシュ２５０および各ユニットと共に含まれているレジスタ・ファイルは、命令で使用するためのデータを提供する。

命令キャッシュ２０２は、第２のレベルの変換ユニット２６２およびプリデコード・ユニット２７０を介してＬ２キャッシュ２６０から命令を受信する。第２のレベルの変換ユニット２６２は、アソシエート・セグメント・ルックアサイド・バッファ（associate segment look-aside buffer）２６４およびトランスレーション・ルックアサイド・バッファ２６６を使用して、フェッチされた命令のアドレスを実効アドレスからシステム・メモリ・アドレスに変換する。プリデコード・ユニットは、Ｌ２キャッシュから着信する命令を部分的にデコードし、一意の識別情報でそれらの命令を拡大して、下流の命令デコーダの作業を簡略化する。

命令フェッチ・バッファ２０４にフェッチされる命令は、命令が分岐命令である場合、分岐予測ユニット２８０にも提供される。分岐予測ユニット２８０は、分岐履歴テーブル２８２、復帰スタック２８４、およびカウント・キャッシュ２８６を含んでいる。これらの要素は、次に命令キャッシュからフェッチされるべき実効アドレス（ＥＡ）を予測する。分岐命令は、制御の流れが変更されるコンピュータ・プログラム内の位置である。分岐命令は、ｉｆ−ｔｈｅｎ−ｅｌｓｅステートメントまたはｄｏ−ｗｈｉｌｅステートメントなどの、コンピュータ・プログラム内の制御構造から生成される低レベルの機械命令である。分岐が選択されないことがあり、その場合、制御の流れが変化せず、次に実行される命令はメモリ内のその分岐の直後の命令であり、または分岐が選択されることがあり、その場合、次に実行される命令はメモリ内のどこか他の場所にある命令である。分岐が選択される場合、新しいＥＡが命令キャッシュに提示される必要がある。

分岐予測ユニットからのＥＡおよび関連する予測情報が、実効アドレス・ディレクトリ２９０に書き込まれる。後で、分岐実行ユニット２２２によって、このＥＡが確認される。このＥＡが正しい場合、このＥＡは、このアドレス領域からのすべての命令が実行を完了するまで、ディレクトリ内に残る。このＥＡが正しくない場合、分岐実行ユニットがアドレスをフラッシュし、修正されたアドレスがその場所に書き込まれる。ＥＡＤ２９０は、ＣＡＭとしてのディレクトリの使用を容易にする論理ユニットも含んでいる。

メモリから読み取る命令またはメモリに書き込む命令（読み込み命令または格納命令など）が、ＬＳ／ＥＸ実行ユニット２３８、２４０に発行される。ＬＳ／ＥＸ実行ユニットは、命令によって指定されたメモリ・アドレスを使用して、データ・キャッシュ２５０からデータを取得する。このアドレスは、実効アドレスであり、使用される前に、まず第２のレベルの変換ユニットを介してシステム・メモリ・アドレスに変換される必要がある。アドレスがデータ・キャッシュ内に見つからない場合、Ｌ２キャッシュに対する失敗した要求を管理するために、読み込み失敗キュー（load miss queue）が使用される。そのようなキャッシュ・ミスの不利益を減らすために、高度なデータ・プリフェッチ・エンジンが、近い将来に命令によって使用される可能性が高いアドレスを予測する。このようにして、命令がデータを必要とするときに、そのデータがデータ・キャッシュ内にすでに存在する可能性が高くなり、それによって、Ｌ２キャッシュに対する失敗した要求の長い待ち時間を防ぐ。

ＬＳ／ＥＸ実行ユニット２３８、２４０は、読み込み順序変更キュー２１８および格納順序変更キュー２２０内の命令の古さおよびメモリの依存関係を追跡することによって、プログラム順序に従わずに命令を実行する。これらのキューは、アウトオブオーダー実行が同じプログラムのインオーダー実行と一致しない結果を生成したときに、それを検出するために使用される。そのような場合、現在のプログラム・フローがフラッシュされ、再実行される。

プロセッサ・アーキテクチャは、実効アドレス・ディレクトリ（ＥＡＤ）２９０をさらに含んでおり、実効アドレス・ディレクトリ（ＥＡＤ）２９０は、実効アドレスが必要とされるがパイプラインを通る必要がない場合に、実効アドレスを使用できるように、集中化された方法で、命令のグループの実効アドレスを維持する。さらに、ＥＡＤ２９０は、アウトオブオーダー処理をサポートするための回路または論理あるいはその両方を含んでいる。図２は、分岐予測ユニット２８０を介してアクセスされているＥＡＤ２９０を示しているが、図２に示されたユニットのうちのさまざまなユニットが、分岐予測ユニット２８０を通る必要なしにＥＡＤ２９０にアクセスできるようにするための回路が提供されてよいということが、理解されるべきである。

当業者は、図１〜２のハードウェアが実装に応じて変わってよいということを、理解するであろう。フラッシュ・メモリ、同等の不揮発性メモリ、または光ディスク・ドライブなどの、その他の内部ハードウェアまたは周辺機器が、図１〜２に示されているハードウェアに加えて、またはそれらのハードウェアの代わりに、使用されてよい。加えて、実施形態例のプロセスは、本発明の思想および範囲を逸脱することなく、前述したＳＭＰシステム以外のマルチプロセッサ・データ処理システムに適用されてよい。

さらに、データ処理システム１００は、クライアント・コンピューティング・デバイス、サーバ・コンピューティング・デバイス、タブレット・コンピュータ、ラップトップ・コンピュータ、電話またはその他の通信デバイス、パーソナル・デジタル・アシスタント（ＰＤＡ：personal digital assistant）などを含む、複数の異なるデータ処理システムのいずれかの形態を取ってよい。一部の例では、データ処理システム１００は、例えばオペレーティング・システム・ファイルまたはユーザによって生成されたデータあるいはその両方を格納するために、不揮発性メモリを提供するようにフラッシュ・メモリを使用して構成された、ポータブル・コンピューティング・デバイスであってよい。基本的に、データ処理システム１００は、アーキテクチャの制限なしで、任意の既知のデータ処理システムまたは後で開発されるデータ処理システムであってよい。

当業者によって理解されるであろうように、本発明は、システム、装置、または方法として具現化されてよい。１つの実施形態例では、メカニズムが、ハードウェア（例えば、プロセッサの回路、ハードウェア・モジュール、またはユニットなど）において全体的に提供される。しかし、他の実施形態例では、ソフトウェアおよびハードウェアの組み合わせが、実施形態例の特徴およびメカニズムを提供または実装するために利用されてよい。例えば、ソフトウェアは、ファームウェア、常駐ソフトウェア、マイクロコードなどで提供されてよい。以下で示されるさまざまなフローチャートは、ハードウェア、またはハードウェアとソフトウェアの組み合わせ、あるいはその両方によって実行されてよい動作の概要を提供する。

実施形態例のメカニズムが少なくとも部分的にソフトウェアにおいて実装される実施形態例では、このソフトウェアを格納する１つまたは複数のコンピュータ使用可能媒体またはコンピュータ可読媒体の任意の組み合わせが、利用されてよい。例えば、コンピュータ使用可能媒体またはコンピュータ可読媒体は、電子、磁気、光、電磁気、赤外線、または半導体のシステム、装置、またはデバイスであってよいが、これらに限定されない。コンピュータ可読媒体のさらに具体的な例（非網羅的リスト）としては、ランダム・アクセス・メモリ（ＲＡＭ：random access memory）、読み取り専用メモリ（ＲＯＭ：read-onlymemory）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ：erasableprogrammable read-only memoryまたはフラッシュ・メモリ）などが挙げられる。

通常は、すべての読み込み命令および格納命令について、ＥＡが対応するＲＡに変換される。そのようなＥＡからＲＡへの変換は、命令フェッチ（Ｉ−フェッチ）の場合にも実行される。低次メモリからの命令の取得の場合、そのような変換は、通常、実効アドレスから実アドレスへのテーブル（ＥＡＲＴ：effective to real address table）を必要とした。本明細書に記載された技術的解決策では、ＥＡからＲＡへの変換が、すべての読み込み命令および格納命令について実行されるのではなく、読み込み失敗、Ｉ−フェッチ失敗、およびすべての格納の場合にのみ、実行される。

これらの技術的解決策は、ＥＡのみを動作に使用することによって、ＥＡディレクトリ（Ｌ１ディレクトリとも呼ばれる）、ＬＲＱＦエントリ、ＬＭＱエントリなどの、１つまたは複数のデータ構造からのＲＡビット（例えば、ビット８：５１）の除去を容易にする。さらに、ＥＡのみが使用されている場合、ＳＲＱＬＨＳＲＡ比較論理が実行されない。そのような要素を除去することによって、使用されるプロセッサのチップ面積を削減し、したがって、通常のプロセッサを超えるチップ面積の削減を促進する。

さらに、本明細書における技術的解決策は、ＥＡのみを使用することによって、すべての読み込みアドレスおよび格納アドレスの生成時のＥＲＡＴの検索を除去する。これらの技術的解決策は、ユニット全体のＲＡバスの切り替えをさらに除去し、高速なＳＲＱＬＨＳＲＡｃａｍも回避する。したがって、これらの技術的解決策は、上記の動作を実行しないことによって、プロセッサが、通常のプロセッサと比較して少ない電力を消費するのを促進する。

さらに、本明細書における技術的解決策は、Ｌ１の待ち時間の改善も促進する。例えば、本明細書における技術的解決策は、除去によって、「最終的なｄｖａｌ」を決定することにおいて、アドレス変換が、ＥＡからＲＡへの変換を実行する通常のプロセッサと比較して少なくとも１サイクル速くなる。ＥＡのみを使用する（ＲＡ変換を行わない）ことによって、設定テーブルの複数のヒット、設定テーブルのヒット／ＲＡの失敗などの、「悪いｄｖａｌ」条件を除去するため、待ち時間も改善される。同様の方法で、本明細書における技術的解決策は、Ｌ２の待ち時間の改善を促進する。

ＥＡに基づくＬＳＵのみを使用することの技術的課題は、Ｌ２からのスヌープを処理できることを含む。例えば、ＬＳＵは、ＲＡからＥＡへの逆変換を含むことができる必要がある。したがって、本明細書における技術的解決策は、Ｌ２からのＲＡに基づくスヌープを、ＬＳＵのサブユニットへのＥＡに基づくスヌープに変換することを容易にする。

さらに、ＥＡのみに基づくＬＳＵには、同じスレッドのシノニム（すなわち、１つのスレッドからの２つの異なるＥＡが、同じＲＡにマッピングされる）を処理するという技術的課題がある。これらの技術的解決策は、本明細書に記載されたシノニム検出テーブル（ＳＤＴ）またはＥＲＴ削除（ＥＲＴＥ）テーブルのいずれかを使用して、そのような技術的課題に対処する。例えば、ＬＨＳ、ＳＨＬ、およびＬＨＬにわたる、シノニムが次のように定義される場合のＬ１のアクセスである。
Ｔｉｄ＝ｗ、ＥＡ（０：５１）＝ｘ＝＞ＲＡ（８：５１）＝ｚ
Ｔｉｄ＝ｗ、ＥＡ（０：５１）＝ｙ＝＞ＲＡ（８：５１）＝ｚ
このようにして、異なるＥＡが同じＲＡに対応する。本明細書に記載された技術的解決策は、ＥＡのシノニムを拒否すること、および対応する一次ＥＡを使用して再開することを容易にする。

再び図を参照すると、図３は、本発明の１つまたは複数の実施形態に従うプロセッシング・コアの読み込み／格納ユニット（ＬＳＵ）１０４を示している。示されているＬＳＵ１０４は、２読み込み／２格納モードでの実行を容易にするが、本明細書に記載された技術的解決策がそのようなＬＳＵに限定されないということに、注意するべきである。以下では、ＬＳＵの実行の流れが説明される。読み込み命令または格納命令から、ＥＡ（コンピュータ・プログラム内でプログラマによって使用される実効アドレス）が生成される。同様に、命令フェッチの場合にもＥＡが生成される。通常は、すべての命令について、ＥＡがＲＡ（ＥＡからＲＡへの変換後にハードウェアによって使用される実アドレス）に変換され、技術的課題の中でも特に、より大きいチップ面積および頻繁な変換が必要だった。本明細書に記載された技術的解決策は、ＥＡのみを使用し（ＲＡへの変換を行わずに）、読み込み失敗時、Ｉ−フェッチ失敗時、および格納時にのみ、実効実テーブル（ＥＲＴ）２５５を使用してＲＡを生成することによって、そのような技術的課題に対処する。

ＬＳＵ１０４は、読み込み順序変更キュー（ＬＲＱＦ）２１８を含んでおり、読み込み順序変更キュー（ＬＲＱＦ）２１８では、通常のＬＳＵ設計におけるＬＲＱ２１８と同様に、ディスパッチから完了までのすべての読み込み動作が追跡される。ＬＳＵ１０４は、第２の読み込み順序変更キューＬＲＱＥ２２５をさらに含んでいる。読み込みが（キャッシュ・ミスまたは変換失敗のため、あるいは読み込みが依存する前の命令が拒否されたために）拒否された場合、発行キューから読み込みが取り出され、ＬＲＱＥエントリに配置され、このＬＲＱＥエントリから読み込みが再発行される。示されているＬＲＱＥ２２５は、１２個のエントリをそれぞれ含む（合計で２４個のエントリ）、２つの読み込みモード用の２つのインスタンス（ＬＲＱＥ０およびＬＲＱＥ１）に分割される。ＳＴモードでは、スレッド／パイプに基づくパーティションが存在しない。ＭＴモードでは、Ｔ０、Ｔ２の動作がパイプＬＤ０で開始しており、Ｔ１、Ｔ３の動作が、再開のためのパイプＬＤ１で開始している。ここで、Ｔｘはスレッドｘであり、例えば、Ｔ０はスレッド０、Ｔ１はスレッド１、Ｔ２はスレッド２、Ｔ３はスレッド３である。本明細書では、各例がＭＴモードで４つのスレッドを使用しているが、他の例では、ＭＴモードが異なる数（８、１６、または任意のその他の数など）のスレッドの実行を同時に含んでよいということに、注意するべきである。１つまたは複数の例では、ＭＴモードでのスレッドの数は構成可能である。さらに、本明細書における例では、ＬＳＵ１０４が２つの読み込みパイプ（ＬＤ０およびＬＤ１）を使用しているが、他の例では、パイプの数が異なっていてよい（例えば、３、４、８など）。１つまたは複数の例では、ＬＲＱＦ２１８が、パイプの数と同じ数のパーティションに分割される。

示されているように、ＬＲＱＦ２１８は、４０個のエントリを（インスタンスごとに）含む、２つの読み込みモード用の２つのインスタンス（ＬＲＱＦ０およびＬＲＱＦ１）に分割される。ＬＲＱＦ２１８は、循環する順序通りのエントリの割り当て、循環する順序通りのエントリの排出、および循環する順序通りのエントリの割り当て解除である。さらに、ＭＴモードでは、Ｔ０、Ｔ２の動作がパイプＬＤ０、ＳＴ０で開始しており、Ｔ１、Ｔ３の動作が、パイプＬＤ１、ＳＴ１で開始している。ＳＴモードでは、ＬＲＱＦがどのパイプ／スレッドも含まない。

１つまたは複数の例では、ＳＭＴ４モードの場合、ＬＲＱＦ２１８（および本明細書に記載されたその他の構造）が、Ｔ０：ＬＲＱＦ０［０：１９］循環キュー、Ｔ１：ＬＲＱＦ１［０：１９］循環キュー、およびＴ２：ＬＲＱＦ０［２０：３９］循環キュー、Ｔ３：ＬＲＱＦ１［２０：３９］循環キューとして分割される。

１つまたは複数の例では、ＳＭＴ２モードの場合、ＬＲＱＦ２１８（および本明細書に記載されたその他の構造）が、Ｔ：ＬＲＱＦ０［０：３９］循環キューおよびＴ１：ＬＲＱＦ１［０：３９］循環キューとして分割される。さらに、１つまたは複数の例では、ＳＴモードの場合、ＬＲＱＦ０［０：３９］循環キューであり、ＬＲＱＦ１がＬＲＱＦ０のコピーである。他のデータ構造の場合、ＳＴモードで類似するパーティション・パターンが使用され、第２のインスタンスが第１のインスタンスコピーである。

相互無効化フラッシュ（ＸＩフラッシュ：cross invalidationflush）の場合、ＬＲＱＦに関して、ＮＴＣ＋１が、別のスレッドからのＸＩまたは格納排出がヒットするスレッドをフラッシュし、ＸＩフラッシュの場合に、同期時の明示的なＬ／Ｌの順序付けのフラッシュがＬＳＵ１０４によって実行されないようにする。

すべての格納が、ＳＨＬ検出に関してＬＲＱＦ２１８に対してチェックし、ＳＨＬの検出時に、ＬＲＱＦ２１８が、格納の後の読み込みまたはすべてのもの（命令／動作）のフラッシュを開始する。さらに、ＤＣＢ命令が、ＳＨＬのケースに関してＬＲＱＦ２１８に対してチェックし、ＳＨＬのケースの発生時に、ＬＲＱＦ２１８が、ＤＣＢの後の読み込みまたはすべてのもののフラッシュを引き起こす。さらに、すべての読み込みが、ＬＨＬ検出に関してＬＲＱＦ２１８に対してチェックし（逐次読み込みの一貫性）、ＬＨＬの検出時に、ＬＲＱＦ２１８が、より古い読み込みの後のより新しい読み込みまたはすべてのもののフラッシュを引き起こす。１つまたは複数の例では、ＬＲＱＦ２１８が、クワッドワードのアトミック性を提供し、ＬＱがクワッドのアトミック性に関してＬＲＱＦ２１８に対してチェックし、アトミックでない場合に、ＬＱをフラッシュする。さらに、ＬＡＲＸ命令の場合、ＬＳＵ１０４がｌａｒｘヒットｌａｒｘのケースに関してＬＲＱＦ２１８に対してチェックし、それに応じて、より古いｌａｒｘ命令の後のより新しいＬＡＲＸまたはすべてのものをフラッシュする。

このようにして、ＬＲＱＦ２１８は、発行から完了までのすべての読み込み動作の追跡を容易にする。ＬＲＱＦ２１８内のエントリは、キュー構造内の物理的位置であるＲｅａｌ＿Ｌｔａｇ（ｒｌｔａｇ）でインデックス付けされる。ＬＲＱＦ２１８内の読み込み動作／エントリの古さが、順序通りであるＶｉｒｔｕａｌ＿Ｌｔａｇ（ｖｌｔａｇ）を使用して決定される。ＬＲＱＦは、ＧＭＡＳＫを使用して読み込みをフラッシュし、一部のグループは、ＧＴＡＧおよびＩＭＡＳＫを使用してフラッシュする。ＬＲＱＦ論理は、現在のｉタグまたはｉタグ＋１あるいは正確な読み込みのｉタグからフラッシュできる。

さらに、ＬＲＱＦは、通常使用されるＲＡ（８：５１）フィールドを含まず、代わりにＥＡに基づき、ＥＲＴＩＤ（０：６）およびＥＡ（４０：５１）を含む（２４ビットの節約）。ＳＨＬ、ＬＨＬでのＬＲＱＦのページの一致は、ＥＲＴＩＤの一致に基づく。さらに、各ＬＲＱエントリは、「ページ一致強制（Force Page Match）」ビットを含んでいる。ＬＲＱエントリのＥＲＴＩＤに一致するＥＲＴＩＤが無効化された場合、ページ一致強制ビットが設定される。ＬＲＱがＬＨＬ、ＳＨＬを検出し、格納の順序付けが、ページ一致強制＝１であるエントリを含めてフラッシュする。

このようにして、ＬＲＱＦ２１８は、分割された読み込み要求キューを維持することによって、チップ面積を占有し、アドレス変換に電力を消費する複数のＣＡＭポートの技術的課題に対処し、読み込み要求キューは、ＯｏＯプロセッサが同時に実行できる所定の数の命令および所定の数のスレッドのために分割される。

ＬＳＵ１０４のＳＲＱ２２０は、４０個のエントリ（インスタンスごと）の２つのインスタンスＳＲＱＲ０およびＳＲＱＲ１を含む、ＬＲＱＦ２１８に類似する構造を有し、ＳＲＱＲ０およびＳＲＱＲ１は、循環する順序通りのエントリの割り当て、循環する順序通りのエントリの排出、および循環する順序通りのエントリの割り当て解除である。さらに、ＳＲＱ２２０は、ＬＲＱＦ２１８と同様に分割される（例えば、パイプＬＤ０、ＳＴ０上で開始されるＴ０、Ｔ２の動作、パイプＬＤ１、ＳＴ１上で開始されるＴ１、Ｔ３の動作、ＳＴモードではパイプ／スレッドのパーティションがない）。ＳＴモードでは、両方のコピーが同一の値を含み、ＭＴモードでは、各コピーが異なっている。ＳＭＴ４モードでは、両方のインスタンスがさらに分割され、各スレッドに、ＳＲＱ２２０から２０個のエントリが割り当てられる（本明細書に記載されたＬＲＱＦの例示的なパーティションを参照）。１つまたは複数の例では、格納排出調停（store drain arbitration）の場合、ＳＭＴ４モードで、ＳＲＱ内の読み取りポインタの多重化が実行される。代替または追加として、ＳＭＴ２モードおよびＳＭＴ４モードで、ＳＲＱ０／１間の多重化が実行される。ＳＴモードでは、ＳＲＱ０に対してのみ、排出が実行される。

ここで、Ｔｘはスレッドｘであり、例えば、Ｔ０はスレッド０、Ｔ１はスレッド１、Ｔ２はスレッド２、Ｔ３はスレッド３である。本明細書では、各例がＭＴモードで４つのスレッドを使用しているが、他の例では、ＭＴモードが異なる数（８、１６、または任意のその他の数など）のスレッドの実行を同時に含んでよいということに、注意するべきである。１つまたは複数の例では、ＭＴモードでのスレッドの数は構成可能である。さらに、本明細書における例では、ＬＳＵ１０４が２つの格納パイプ（ＳＴ０およびＳＴ１）を使用しているが、他の例では、格納パイプの数が異なっていてよい（例えば、３、４、８など）。１つまたは複数の例では、ＳＲＱＲ２２０が、格納パイプの数と同じ数のパーティションに分割される。

ＳＲＱ２２０の各エントリは、格納のＴＩＤ（０：１）、ＥＲＴＩＤ（０：６）、ＥＡ（４４：６３）、およびＲＡ（８：５１）を含む。ＬＨＳを検出するために、ＬＳＵは｛格納のＴｉｄ，ＥＡ（４４：６３）｝を使用し、このようにしてＲＡＬＨＳの別名チェックを取り除く。ＥＲＴＩＤは、ＥＡ（４４：６３）の部分的一致の投機失敗を「捕らえる」ために使用される。ＳＱＲエントリはＲＡ（８：５１）を含み、ＲＡ（８：５１）は格納時に再び変換され、格納要求をＬ２に送信する（格納命令が排出され、発行されない）ときにのみ使用される。各ＳＲＱエントリも、「ページ一致強制」ビットを含んでいる。ページ一致強制ビットは、ＳＲＱエントリのＥＲＴＩＤに一致するＥＲＴＩＤが無効化されたときに、設定される。ＳＲＱは、ページ一致強制＝１であるエントリを伴うＬＨＳを検出できる。例えば、ページ一致強制＝１であるエントリに反するＬＨＳは、読み込み命令の拒否を引き起こす。さらに、格納排出は、ＳＱＲエントリに関してページ一致強制＝１の場合に、Ｌ１キャッシュにおける失敗を強制する。これは、「拡張ストア・ヒット・リロード（Extended store hit reload）」ＬＭＱ動作と並行して動作する。

例えば、ＬＭＱの場合、ＬＭＱアドレス一致＝｛ＥＲＴＩＤ，ＥＡページ・オフセット（ｘｘ：５１），ＥＡ（５２：５６）｝が一致する。さらに、各ＬＭＱエントリの「ページ一致強制」ビットは、ＬＭＱエントリのＥＲＴＩＤに一致するＥＲＴＩＤが無効化されたときに、設定される（＝１）。ＬＭＱは、有効なＬＭＱエントリ［ｘ］のページ一致強制＝１および読み込み失敗のＥＡ［５２：５６］＝ＬＭＱエントリ［Ｘ］のＥＡ（５２：５６）である場合に、読み込み失敗を拒否する。さらに、ＬＭＱは拡張ストア・ヒット・リロードを含む。例えば、ＬＭＱは、再読み込みのＥＡ（５２：５６）＝ＳＲＱエントリ［Ｘ］のＥＡ（５２：５６）およびＳＲＱエントリ［Ｘ］のページ一致強制＝１である場合に、再読み込みの有効化を抑制する。代替または追加として、ＬＭＱは、ＬＭＱエントリ［Ｘ］のＥＡ（５２：５６）＝格納排出のＥＡ（５２：５６）および格納排出のページ一致強制＝１である場合に、再読み込みの有効化を抑制する。

示されたＬＳＵ１０４は、チップ面積をさらに節約するために、格納データ・キュー（ＳＤＱ：Store Data Queue）をＳＲＱ２２０自体の一部として折りたたむ。オペランドのサイズがＳＲＱエントリのサイズより小さい（例えば、８バイトである）場合、オペランドがＳＲＱ自体のエントリに格納される。ベクトル・オペランドなどの、さらに広いオペランド（例えば、１６バイト幅）の場合、ＭＴモードでは、ＳＲＱ２２０内の２つの連続するエントリを使用して、ＳＲＱがそれらのオペランドを格納する。ＳＴモードでは、さらに広いオペランドがＳＲＱ０およびＳＲＱ１（例えば、それぞれ８バイト）に格納される。

ＳＲＱ２２０は、格納、バリア、ＤＣＢ、ＩＣＢＩ、またはＴＬＢのタイプの動作をキューに入れる。単一のｓタグが、ｓｔｏｒｅ＿ａｇｅｎおよびｓｔｏｒｅ＿ｄａｔａの両方に使用される。ＳＲＱ２２０は、ロード・ヒット・ストア（ＬＨＳ）のケース（同じスレッドのみ）を処理する。例えば、データ競合を伴う古い格納が存在しないことを保証するために、発行されたすべての読み込みがＳＲＱ２２０によってチェックされる。例えば、ＳＲＱＥＡアレイ内の古い格納に対して読み込みのＥＡおよびデータ・バイト・フラグを比較することによって、データ競合が検出される。

ディスパッチでＳＲＱエントリが割り当てられ、ディスパッチされた命令タグ（ｉタグ：instructiontags）が正しい行に入力される。さらに、格納排出の発生時に、ＳＲＱエントリが割り当て解除される。１つまたは複数の例では、ｉタグ・アレイが「オーバーフロー」のディスパッチを保持する。例えば、望ましいＳＲＱ内の行（例えば、ＳＲＱエントリｘ）がまだ使用中である場合、ディスパッチで情報がｉタグ・アレイに書き込まれる。ＳＲＱエントリｘが割り当て解除されるときに、ＳＲＱのオーバーフローのｉタグ構造内の対応する行が読み出され、メインＳＲＱのｉタグ・アレイ構造にコピーされる（オーバーフローのｉタグ構造の読み取りは、特定のスレッド／領域に関して、オーバーフローのｉタグ・アレイ内に有効なエントリが存在するかどうかによって制御される）。メインＳＲＱ０／１のｉタグ・アレイがＣＡＭポートによって処理され（またはＳＭＴ４内で１／２検索され）、ＩＳＵがｉタグに基づいて格納を発行するように、格納の発行時にどの物理的行に書き込むかを決定する。ＳＲＱ２２０は、格納排出および割り当て解除の発生時に、ｉタグをＩＳＵに送信する。

図４は、１つの実施形態例に従う実効アドレス・ディレクトリ構造（Ｌ１キャッシュ）２９０の例示的なブロックである。１つまたは複数の例では、ＥＡＤがＬＳＵ１０４の一部である。図３に示されているように、ＥＡＤ２９０は、１つまたは複数のエントリ（例えば、エントリ０〜Ｎ）から成り、各エントリが、１つまたは複数の命令のグループに関する情報の複数のフィールドを含んでいる。例えば、１つの実施形態例では、ＥＡＤ２９０内の各エントリが１個〜３２個の命令を表してよい。ＥＡＤ２９０内のエントリは、プロセッサのキャッシュ（例えば、図２のＬ２キャッシュ２６０）の新しいキャッシュ・ライン内にある命令のフェッチに応答して作成される。ＥＡＤ２９０内のエントリは、追加の命令がキャッシュ・ラインからフェッチされるときに、更新される。ＥＡＤ２９０内の各エントリは、選択された分岐（すなわち、キャッシュからフェッチされた分岐命令が「選択された」として解決される）、キャッシュ・ラインの横断（すなわち、次にフェッチされた命令が、現在のキャッシュ・ラインと異なるキャッシュ・ラインである）、またはプロセッサのパイプラインのフラッシュ（分岐予測ミスが発生した場合など）で、終了する。

図３に示されているように、ＥＡＤ２９０のエントリのフィールドは、ベース実効アドレス３１０、第１の命令識別子３２０、最後の命令識別子３３０、終了識別子３４０、グローバル履歴ベクトル・フィールド（global history vector field）３５０、リンク・スタック・ポインタ・フィールド３６０、分岐選択識別子３７０、および分岐情報フィールド３８０を含んでいる。ＥＡＤ２９０は、Ｌ１データ・キャッシュと同様に構造化される。連想構造を設定する。例えば、１つまたは複数の例では、連想構造は、８ウェイでＥＡ（５２：５６）によってアドレス指定され、ＥＡ（０：５１）を使用して選択される、３２個のインデックスである。

ベース実効アドレス３１０は、命令のグループの開始実効アドレス（ＥＡ）である。命令のグループ内の各命令は、同じベースＥＡおよびベースＥＡからのオフセットを有する。例えば、１つの実施形態例では、ＥＡは、ビット０：６３を含んでいる６４ビットのアドレスである。１つの実施形態例では、ベースＥＡは、このＥＡのビット０：５６を含んでよく、ビット５７：６１が、命令のグループ内の特定の命令に関する、ベースＥＡからのオフセットを表す。ビット６２および６３は、各命令の特定のバイトを指す。実施形態例では、各アドレスが３２ビット長（すなわち、４バイト）の命令を参照し、メモリ内の各バイトがアドレス指定可能である。命令を、アドレス指定可能なサブコンポーネントにさらに分割することはできず、したがって、命令アドレスのビット６２および６３が常にゼロに設定される。したがって、ビット６２および６３は、格納する必要がなく、ＥＡＤによって、ゼロであるということが常に仮定され得る。

第１の命令識別子フィールド３２０は、ＥＡＤ２９０のエントリに対応する命令のグループ内の第１の命令に関して、実効アドレスのオフセット・ビット（例えば、ＥＡのビット５７：６１）を格納する。フィールド３１０からのベースＥＡおよび第１の命令識別子フィールド３２０内の実効アドレスのオフセット・ビットの組み合わせは、ＥＡＤ２９０のエントリによって表された命令のグループ内の第１の命令にＥＡを提供する。この第１のフィールド３２０は、後で説明されるように、例えばパイプラインがフラッシュされた場合に、再フェッチ・アドレスおよび分岐予測情報を回復するために使用されてよい。

最後の命令識別子フィールド３３０は、ＥＡＤ２９０のエントリに対応する命令のグループ内の最後の命令に関して、実効アドレスのオフセット・ビット（例えば、ＥＡのビット５７：６１）を格納する。ＥＡＤ２９０のエントリによって表された命令のグループ内の追加の命令がフェッチされるときに、ＥＡＤの論理がこのフィールドを更新する。ＥＡＤの論理は、キャッシュ・ラインの横断または選択された分岐が検出されたときに、ＥＡＤ２９０のエントリが終了することに応答して、特定のＥＡＤ２９０のエントリ内のこのフィールド３３０の更新を中断する。パイプラインのフラッシュが発生してＥＡＤのエントリの一部を消去しない限り、このフィールドは元の状態のままである。そのような場合、ＥＡＤの論理が、フラッシュの結果としてエントリ内の新しい最後の命令に現在なっている命令の実効アドレスのオフセット・ビットを格納するように、このフィールドを更新する。このフィールドは、後で説明されるように、ＥＡＤ２９０内のエントリの解放するために、最終的に完了に使用される。

終了識別子フィールド３４０は、ＥＡＤ２９０のエントリが終了しており、ＥＡＤ２９０のエントリに対応する命令グループの命令をフェッチするために、それ以上、命令フェッチが行われないということを示すために、使用される。ＥＡＤ２９０のエントリは、キャッシュ・ラインの横断、分岐が選択されること、またはパイプラインのフラッシュを含む、さまざまな異なる理由のために終了してよい。これらの条件のいずれかが、ＥＡＤのエントリが終了したことを示すように終了フィールド３４０内の値が設定される（例えば、「１」の値に設定される）ことを引き起こしてよい。このフィールド３４０は、後で詳細に説明されるように、ＥＡＤ２９０内のエントリを解放するために、完了時に使用される。

グローバル履歴ベクトル・フィールド３５０は、ＥＡＤ２９０内のエントリを作成した第１の命令フェッチ・グループのグローバル履歴ベクトルを識別する。グローバル履歴ベクトルは、後で詳細に説明されるように、分岐が選択されたかどうかの履歴を識別するために使用される。グローバル履歴ベクトルは、分岐予測の目的に使用され、分岐が選択されたかどうかの最近の履歴に基づいて、現在の分岐が選択される可能性が高いかどうかを判定するのに役立つ。

リンク・スタック・ポインタ・フィールド３６０は、ＥＡＤ２９０内のエントリを作成した第１の命令フェッチ・グループのリンク・スタック・ポインタを識別する。リンク・スタック・ポインタは、後で詳細に説明される別の分岐予測メカニズムである。

分岐選択フィールド３７０は、ＥＡＤ２９０のエントリに対応する命令のグループが、分岐が選択された分岐命令を含んでいたかどうかを示す。分岐選択フィールド３７０内の値は、ＥＡＤ２９０のエントリによって表された命令グループの分岐命令が選択されると予測されることに応答して、更新される。加えて、ＥＡＤ２９０のエントリの命令内の分岐が選択された後に、終了フィールド３４０に適切な値を書き込むことによって、ＥＡＤ２９０のエントリも終了される。予測時に分岐選択フィールドが投機的に書き込まれるため、分岐が実際に実行されるときに、分岐選択フィールドの値を正しい値に置き換える必要があることがある。例えば、分岐が選択されないと予測されることがあり、その場合、「０」が分岐選択フィールドに書き込まれる。しかし、後の実行において、分岐が選択されたことが検出されることがあり、その場合、「１」の値を書き込むことによって、このフィールドが修正されなければならない。分岐が誤って予測された場合にのみ、第２の書き込みが発生する。

分岐情報フィールド３８０は、分岐が解決したときに分岐予測構造を更新するために使用される種々雑多な分岐情報、または分岐命令が完了したときの設計されたＥＡの状態を格納する。

ＥＲＴ＿ＩＤフィールド３８５は、対応するＥＲＴエントリを識別する、ＥＲＴテーブル（さらに説明される）へのインデックスを格納する。ＥＲＴエントリが無効化された場合、関連付けられたＥＲＴ＿ＩＤが無効化され、Ｌ１キャッシュおよびＬ１Ｄキャッシュ内の関連付けられたすべてのエントリも無効化される。

ベースｅａｔａｇおよびｅａｔａｇオフセットという少なくとも２つの部分を含んでいる実効アドレス・タグ（ｅａｔａｇ：effective address tag）を使用して、ＥＡＤ２９０内のエントリがアクセスされる。１つの実施形態例では、このｅａｔａｇは１０ビットの値であり、６４ビットの実効アドレスより相対的に非常に小さい。１つの実装例では、１０ビットのｅａｔａｇの値および１４個のエントリというサイズを有するＥＡＤ２９０を使用する場合、ｅａｔａｇは、ＥＡＤ２９０内のエントリを識別するための、ベースｅａｔａｇと呼ばれる第１の５ビット、およびＥＡＤ２９０内のエントリによって表される命令のグループ内の特定の命令のオフセットを提供するための、ｅａｔａｇオフセットと呼ばれる第２の５ビットから成る。ＥＡＤ２９０内のエントリを識別する５ビット内の第１のビットは、ＥＡＤ２９０の最上位のエントリから最下位のエントリに移動するときに、循環が発生したかどうかを示すために、循環ビットとして使用されてよい。このビットは、古さの検出に使用されてよい。ＥＡＤ２９０内のエントリを識別する５ビットのうちの第２〜第５のビットは、ＥＡＤのインデックスを指して、命令のベースＥＡ（すなわち、ＥＡ（０：５６））を識別するために使用されてよい。５ビットのオフセット値は、例えば、特定の命令の実効アドレスのビット５７：６１を提供するために使用されてよい。この例示的なｅａｔａｇが、以下に示される。
ｅａｔａｇ（０：９）＝ｒｏｗ（０：４）｜｜ｏｆｆｓｅｔ（０：４）
ｒｏｗ（０）：ＥＡＤの最上位のエントリから最下位のエントリへの移動時に循環が発生したかどうかを示すＥＡＤの循環ビット。
ｒｏｗ（１：４）：命令のＥＡ（０：５６）を決定するために使用される１４エントリのＥＡＤへのインデックス。
ｏｆｆｓｅｔ（０：４）：命令のＥＡのビット５７：６１。

図５は、本発明の１つまたは複数の実施形態に従う例示的な実効実テーブル（ＥＲＴ）構造を示している。１つまたは複数の例では、ＥＲＴ２５５が合計で１２８個のエントリを含んでいるが、他の例では、エントリの総数が異なることができるということ、およびさらに、エントリの数が選択可能またはプログラム可能であってよいということに注意するべきである。さらに、ＬＳＵ１０４が複数のパイプを使用する場合、各パイプが、個別のパーティションをＥＲＴ２５５内で有する。１つまたは複数の例では、ＥＲＴ２５５内のエントリの所定の最大数が、パイプ間で均等に分割される。例えば、２つのパイプ（すなわち、別々に並列な２つの命令）の場合、ＬＳＵは、それぞれ６４個（半分）のエントリを含む、ＥＲＴ２５５の２つのパーティション（例えば、ＥＲＴ０およびＥＲＴ１）を維持する。例えば、ＬＤ０およびＳＴ０はＥＲＴ０を使用し、ＬＤ１およびＳＴ１はＥＲＴ１を使用する。ＳＴモードでは、ＥＲＴ２５５の第１のパーティションが、第１のパーティションのコピーである他のパーティションと共に使用され、例えば、ＥＲＴ０が、ＥＲＴ０のコピーであるＥＲＴ１と共に使用される。代替として、１つまたは複数の例では、ＬＳＵが単一の読み込みパイプおよび単一の格納パイプを使用する場合、ＥＲＴ２５５全体が単一のパーティションとして使用される。以下では、特に指定されない限り、ＥＲＴ２５５のいずれか１つのパーティションについて説明する。

ＥＲＴ２５５は、有効なＥＲＴエントリを含み、一般に、Ｌ１Ｉ−キャッシュもしくはＤ−キャッシュ・ディレクトリ（ＥＡＤ２９０）、あるいはＳＲＱエントリまたはＬＲＱＦエントリまたはＬＭＱエントリ内のアクティブなページに対して存在する。言い換えると、ＥＲＴ２５５は、ＬＳＵおよびＩＦＵ（Ｌ１ＤＣ、ＳＲＱ、ＬＲＱＥ、ＬＲＱＦ、ＬＭＱ、ＩＣ）内のアクティブなすべてのＲＰＮのテーブルである。１つまたは複数の例では、プロセッサ１０６がＳＴモードで動作している場合、ＥＲＴ２５５内のすべてのエントリが、実行されている単一のスレッドに使用される。代替として１つまたは複数の例では、ＥＲＴ２５５内のエントリが複数のセットに分割され、ＳＴモードでは、各セットが同じ内容を含む。例えば、ＥＲＴ２５５が合計で１２８個のエントリを含んでおり、最大２つのスレッドをサポートする場合、プロセッサがＳＴモードで動作しているときに、ＥＲＴ２５５は、それぞれ６４個のエントリの２つのセットを含み、それら２つのセットは同じ内容を含む。

代替として、プロセッサ１０６がＭＴモードで動作している場合、ＥＲＴエントリが、実行されているスレッド間で分割される。例えば、２つのスレッドの場合、ＥＲＴエントリが２つの等しいセットに分割され、エントリの第１のセットが第１のスレッドに関連付けられ、エントリの第２のセットが第２のスレッドに関連付けられる。例えば、ＬＤ０パイプのＬ１の１つのコピーが失敗し、ＳＴ０パイプが、Ｔ０／Ｔ２Ｉ−フェッチ：ＥＲＴ０を開始して、ＳＭＴ２モードでＴ０を処理し、ＳＭＴ４モードでＴ０／Ｔ２を処理し、ＬＤ１パイプのＬ１の１つのコピーが失敗し、ＳＴ１パイプが、Ｔ１／Ｔ３Ｉ−フェッチ：ＥＲＴ１を開始して、ＳＭＴ２モードでＴ１を処理し、ＳＭＴ４モードでＴ１／Ｔ３を処理する。

１つまたは複数の例では、各ＥＲＴエントリが、少なくとも、ＥＲＴ＿ＩＤ（０：６）、Ｔｉｄ＿ｅｎ（０：１）、ページ・サイズ（０：１）、ＥＡ（０：５１）、およびＲＡ（８：５１）というＥＲＴフィールドを含む。ＥＲＴ＿ＩＤフィールドは、ＥＲＴエントリごとの一意のインデックスである。例えば、ＥＲＴ＿ＩＤは、ＥＲＴエントリを識別する連続的番号を含んでよい。ＥＲＴ＿ＩＤは、ＥＡＤ２９０のＥＲＴ＿ＩＤフィールド２８５、およびＬＳＵによって使用される他のデータ構造に格納される。ＴＩＤ＿ｅｎフィールドは、エントリが、ＭＴモードで使用されることに対して有効化されているかどうかを示し、１つまたは複数の例では、ＥＲＴエントリを使用している命令のスレッド識別子を示す。さらに、ページ・サイズは、ＥＲＴエントリが参照するメモリのページ・サイズを示す。ＲＡは、ＥＲＴエントリに関連付けられた実アドレスを含む。

ＲＡが命令の実行を完了するために使用される場合、ＬＳＵはＥＲＴ２５５のみを参照する。本明細書において説明されているように、ＥＲＴ２５５は、１．Ｉフェッチ、読み込み、または格納がＬ１キャッシュに失敗する、２．コア内の別のスレッドからの格納、３．別のコアからのスヌープ（ＸＩ）、ならびに４．ＴＬＢおよびＳＬＢの無効化という４つの機能に関して、ＬＳＵによって参照される。

Ｉフェッチ、読み込み、または格納がＬ１キャッシュに失敗する第１のケースでは、ＥＡおよびｔｈｒｅａｄ＿ｉｄが、ＥＲＴ２５５のインデックスを指すために使用され、有効なＥＲＴエントリが存在する場合、対応するＥＲＴエントリからのＲＡがＬ２キャッシュに送信される。ＥＲＴの失敗、すなわち、ＥＡおよびｔｈｒｅａｄ＿ｉｄの有効なＥＲＴエントリが存在しない場合、ＳＬＢ／ＴＬＢが使用される。

コア内の別のスレッドからの格納の第２のケースでは、ＳＲＱから排出された格納が、別のスレッドからのヒットに関して、ＥＲＴ２５５およびＥＲＴＥテーブル（さらに説明される）をチェックする。異なるスレッドからのヒットが存在しない場合、同じＲＡを使用している別のスレッドからの読み込みが存在しない。同じＲＡを使用している異なるスレッドからのヒットが存在する場合、ＬＳＵがＬＲＱをチェックする。まれではあるが、別のスレッドによってＲＡが使用される場合、別のスレッドからのヒットが存在する。それに応じて、ＬＳＵが、共通のＲＡに関連するＥＡを検出するために、ＥＲＴテーブル４００を検索する。次にＥＡが、一致に関してＬＲＱを調べるために使用される（そのサイクル内の格納の発行を拒否する）。ＬＲＱがスレッドごとに分割されるため、ＬＳＵは関連するスレッドのＬＲＱのみを調べる。一致する読み込みがＬＲＱ内に存在する場合、ＬＳＵが、一致する読み込みのうちの最も古い読み込みをフラッシュする。

プロセッサの別のコアからのスヌープの第３のケースでは、ＬＳＵが第２のケースと同様に動作し、実行されている他のスレッドのいずれかからのヒットに関してチェックする。ＴＬＢ／ＳＬＢが無効化されるケースでは、ＥＲＴ２５５も無効化される。

図６は、本発明の１つまたは複数の実施形態に従う、ＬＳＵによって命令を実行するためにメモリにアクセスするための例示的な方法のフローチャートを示している。この命令は、ＯｏＯプロセッサ１０６の読み込み、格納、または命令フェッチであってよい。５０５および５１０に示されているように、命令の受信時に、ＬＳＵが、命令のパラメータを使用して、ＥＡＤ２９０がその命令に対応するエントリを含んでいるかどうかをチェックする。１つまたは複数の例では、チェックに使用されるパラメータは、特に、スレッド識別子、ページ・サイズ、ＥＡを含む。

ＬＳＵで、ＥＡＤ２９０内のＥＡＤヒットが発生した（すなわち、命令のＥＡがＥＡＤテーブル３００内のエントリに一致する）場合、５２０に示されているように、ＬＳＵが、一致するＥＡＤエントリの内容を読み取り、対応するＥＲＴエントリを決定する。各ＥＡＤエントリは、ＥＲＴ＿ＩＤ（０：６）フィールド２８５を含んでいる。前述したように、ＥＲＴエントリが無効化された場合、関連付けられたＥＲＴ＿ＩＤが無効化され、ＥＡＤテーブル３００内の関連付けられたすべてのエントリも無効化される。したがって、ＥＲＴ＿ＩＤフィールド２８５を使用して、読み込み／格納命令のＥＲＴエントリを検出できるため、ＥＡＤヒットはＥＲＴヒットを意味する。したがって、ＥＡＤヒットの場合、対応するＥＡＤエントリの識別後に、ＬＳＵがＥＡＤエントリからＥＲＴ＿ＩＤを読み出し、５３０に示されているように、ＳＲＱ、ＬＭＱ、またはＬＲＱＦ、あるいはその組み合わせに送信する。ＳＲＱ、ＬＭＱ、またはＬＲＱＦ、あるいはその組み合わせは、識別されたＥＡＤエントリからのＥＡを使用する。ＲＡを使用する格納命令の場合、５４０および５４５に示されているように、ＥＲＴエントリからのＲＡが、Ｌ２にアクセスするために読み出される。したがって、格納命令以外のどの場所でもＲＡが使用されないため、本明細書における技術的解決策を実装するコアは、ＥＡ専用コアと呼ばれる。

ここで、命令がＥＡＤ２９０において失敗するケース、すなわち、命令のＥＡに一致するエントリがＥＡＤテーブル３００内に存在しないケースについて検討する。５５０に示されているように、ｔｈｒｅａｄ＿ｉｄおよびＥＡが、ＥＲＴ２５５からの各エントリに対して比較される。５５５および５３０に示されているように、ＥＲＴヒットが発生した場合、すなわち、ＥＲＴエントリがパラメータに一致する場合、ＬＳＵがＲＡ（８：５１）をＥＲＴエントリから読み出す。読み込み要求の場合、ＬＳＵが、アクセスするためにＲＡをＬ２キャッシュに送信する（５３０）。５４０〜５４５に示されているように、格納命令の場合、ＬＳＵがＲＡをＳＲＱに格納し、その後、格納がＬ２キャッシュに排出されるときに、ＲＡをＬ２キャッシュに送信する。

５５５および５６０に示されているように、ＥＲＴの失敗が発生した場合、ＬＳＵがＥＲＴ２５５の再読み込みを開始する。さらに、ＥＲＴエントリの置き換えが開始される。ＥＲＴエントリの置き換えはＬＲＵに基づき、ＬＳＵは、このプロセスの間に、アウトオブオーダー・ウィンドウ内のシノニムを確実に追跡する。

このようにして、読み込みに関して上記の方法を実装することによって、ＥＡに基づくＬ１ディレクトリ内にＥＡヒットが存在する場合、アドレス変換が実行されない。これによって、Ｌ１ディレクトリがＲＡに基づく通常のプロセッサを改良し、Ｌ１ディレクトリでの読み込みの失敗の場合に、Ｌ２ディレクトリおよびその先に送信されるＲＡを取得する変換のために、ＥＡをＥＡＲＴテーブルに送信することを引き起こす。

さらに、格納の場合、本明細書に記載された方法では、ＬＳＵが、ＥＲＴテーブルを調べてＲＡを決定する必要があり、その後、このＲＡは、格納がＳＲＱから排出されるときにキャッシュ（Ｌ１、Ｌ２、メモリ）まで排出するために、ＳＲＱＲに格納される。ＳＲＱＲは、すべてのＲＡを格納のために保持する。ＲＡは、ネスト（すなわち、Ｌ２、メモリ、およびメモリ・サブシステムのその他のユニット）に排出するためにのみ格納される。ＲＡは、通常の解決策で使用されているように、ロード・ヒット・ストア、ストア・ヒット・ロード、ロード・ヒット・ロードのいずれのタイプのアウトオブオーダー実行のハザード検出にも、使用されることがない。格納のためのＲＡ計算は、格納の完了後にＬＳＵが格納に関する割り込みを処理できないため、格納が完了する前に発生する（格納は、アドレス変換に関連する割り込みを生成することがあり、この割り込みは、格納が完了する前に処理される）。ここで、格納が（ＳＲＱＲから）発行されるときにＲＡ計算が実行され、このようにして、ＬＳＵがアドレス変換を実行する必要がないようにする。このようにして、格納が発行され、順序に従わずに実行されてから、順序通りに完了し、その後、格納がＳＲＱから順序通りに排出される。格納が排出されるまで、他のスレッドまたはコアは、その格納について知らない（現在のスレッドのみが知っている）。格納がＳＲＱから排出された後に、その格納がＬ１（ラインがＬ１内にすでに存在する場合）およびＬ２キャッシュ（キャッシングが有効化されている場合）に書き込まれ、その時点で格納が、システム１００内の他のすべてのスレッドおよびコアに知られる。

ＥＡに基づくＬ１Ｉ−キャッシュに失敗した命令フェッチの場合、ＥＲＴ２５５を使用してＥＡがＲＡに変換され、Ｉ−キャッシュ・ラインをフェッチするためにＲＡがネストに送信される。ここで、ＬＨＳ（ロード・ヒット・ストア）、ＳＨＬ（ストア・ヒット・ロード）、およびＬＨＬ（ロード・ヒット・ロード）が、ＥＡに基づくＬ１キャッシュ（ＥＡＤ２９０）内のディレクトリ・エントリに格納されたＥＡおよびＥＲＴインデックスに基づいて、すべて決定される。ＥＡＤテーブル３００内のすべてのエントリは、ＥＲＴテーブル４００において有効な変換を有しており、ＬＨＳ、ＳＨＬ、およびＬＨＬが決定された後に、その変換が使用され得る。ＥＲＴエントリが無効化された場合、対応するＬ１キャッシュ・エントリが無効化される。

読み込み順序変更キューであるＬＲＱＦは、ディスパッチから完了までのすべての読み込み動作が追跡されることを保証する。読み込みが（キャッシュ・ミスまたは変換失敗のため、あるいは読み込みが依存する前の命令が拒否されたために）拒否された場合、発行キューから読み込みが取り出され、ＬＲＱＥに配置され、このＬＲＱＥから読み込みが再発行される。

図７は、本発明の１つまたは複数の実施形態に従う、ＥＲＴを再度読み込むための方法のフローチャートを示している。ＥＲＴの再読み込みは、ＥＲＴの失敗に応答して、ＥＲＴの失敗に基づいてＥＲＴ内のエントリの作成または更新を引き起こす。ＥＲＴは、ＥＲＴ２５５に追加されるＲＡを受信し、６０５に示されているように、そのＲＡをＥＲＴ０およびＥＲＴ１内の各エントリと比較する。６１０および６１５に示されているように、そのＲＡがＥＲＴ２５５内に存在せず、新しいエントリを作成できる場合、そのＲＡを格納するために、ＥＲＴ２５５が新しいＥＲＴ＿ＩＤを含む新しいエントリを作成する。新しいエントリは、実行中のスレッドが第１のスレッドまたは第２のスレッドであることに基づいて、それぞれＥＲＴ０またはＥＲＴ１のいずれかに作成される。プロセッサがＳＴモードで動作している場合、ＥＲＴ０が更新される。ＥＲＴ２５５が新しいエントリのための空いているスロットを含んでいない場合、６１５に示されているように、最長時間未使用またはその他の手法に基づいて、既存のエントリが置き換えられる。

受信されたＲＡ（再読み込み中のＲＡ）と同じＲＡを含むＥＲＴ２５５内の既存のエントリが検出された場合、６２０に示されているように、ＥＲＴ２５５が、既存のエントリのページ・サイズ（０：１）を受信されたＲＡのページ・サイズと比較する。既存のエントリのページ・サイズが再読み込み中のＲＡのページ・サイズより小さい場合、６２５に示されているように、そのＲＡの既存のエントリがＥＲＴ２５５から除去され、より大きいページ・サイズを有するＲＡのために、新しいＥＲＴ＿ＩＤを含む新しいエントリが追加される。既存のエントリが同じページ・サイズまたはより大きいページ・サイズを有しており、実装がＳＤＴを使用している場合、６２７に示されているように、再読み込み中のＲＡのためのエントリがＳＤＴ内に作成される。ＬＳＵがＥＲＴＥを使用している場合、この動作が実行されなくてよいということに注意するべきである。

既存のエントリのページ・サイズが再読み込み中のＲＡと同じサイズである場合、６３０に示されているように、ＥＲＴ２５５は、既存のエントリが実行中のスレッドのローカルＥＲＴ上にあるかどうかをチェックする。この場合、ローカルＥＲＴとは、実行されているスレッドに関連付けられているＥＲＴ（例えば、第１のスレッドの場合はＥＲＴ０、第２のスレッドの場合はＥＲＴ１）のことを指す。６３２に示されているように、ＲＡのヒットが他のＥＲＴ（すなわち、ローカルＥＲＴでないＥＲＴ）内に存在する場合、ＥＲＴ２５５が、非ローカルＥＲＴ内のＥＲＴ＿ＩＤに一致するＥＲＴ＿ＩＤを含む新しいエントリをローカルＥＲＴ内に作成する。例えば、ＲＡのヒットが、スレッド０によって実行されている命令のＥＲＴ１内に存在する場合、ＥＲＴ１内のエントリに一致するＥＲＴ＿ＩＤを含むエントリがＥＲＴ０内に作成される。

ＲＡのヒットがローカルＥＲＴインスタンス上に存在し、ＥＡも一致する場合、ＥＡとＲＡの両方が既存のエントリと一致したが、このスレッドに関してＥＲＴの再読み込みを引き起こすＥＲＴの失敗が存在したため、ＥＲＴは、そのことが、２つのスレッドが同じＥＡ−ＲＡ間のマッピング（同じページ・サイズを有する）を共有しているということを示していると見なす。したがって、６３４に示されているように、再読み込みスレッドに対応するビットに関する既存の一致するエントリ内のｔｉｄ＿ｅｎ（０）ビットまたはｔｉｄ＿ｅｎ（１）ビットがオンになって、このケースを示す。

６３６に示されているように、ＲＡのヒットがローカルＥＲＴインスタンス上に存在し、ＥＡが既存のエントリに一致せず、既存のエントリが、再読み込み中のＲＡと同じスレッド用である場合、ＥＲＴは、２つの異なるＥＡが同じスレッドからの同じＲＡにマッピングされる、別名化のケースを識別する。プロセッサがＳＤＴに基づく実装を使用している場合、既存の一致するエントリのＥＲＴ＿ＩＤ、ＥＡオフセット（４０：５１）にマッピングされるシノニムのエントリが、ＳＤＴに導入される。プロセッサがＥＲＴＥに基づく実装を使用する場合、ＬＳＵは、命令が非投機的になるまで、その命令を拒否し、そのとき、ＥＲＴからエントリを削除し、エントリをＥＲＴＥに追加する。

６３８に示されているように、ＲＡのヒットがローカルＥＲＴインスタンス上に存在し、ＥＡが既存のエントリに一致せず、既存のエントリが、異なるスレッド用である場合、ＥＲＴは、２つのＥＡが異なるスレッドからの同じＲＡにマッピングされる、別名化のケースを識別する。プロセッサがＳＤＴに基づく実装を使用している場合、既存の一致するエントリのＥＲＴ＿ＩＤ、ＥＡオフセット（４０：５１）にマッピングされるシノニムのエントリが、ＳＤＴに導入される。プロセッサがＥＲＴＥに基づく実装を使用している場合、新しいＥＲＴ＿ＩＤを使用して、ＥＲＴの失敗が発生したスレッドのみに有効なｔｉｄ＿ｅｎを含む新しいローカルＥＲＴエントリが追加される。

上記の方法は、ＥＲＴＥに基づく実装において、同じＲＡを有しているが異なるＥＡを有している２つのスレッドが、２つの異なるＥＲＴエントリを使用し、ＳＤＴに基づく実装において、２つのスレッドが同じＲＡを有しているが異なるＥＡを有している場合に、変換のうちの１つがＥＲＴエントリを使用し、他の変換がＳＤＴエントリを使用するということを、容易にする。したがって、ＥＲＴエントリは、ｔｉｄ＿ｅｎフィールドをＥＲＴエントリ内に含むことによって、同じＥＡおよび同じＲＡが異なるスレッドにわたって使用されるというケースを容易にする。例えば、ＥＲＴ０インスタンスではＴｉｄ＿ｅｎ（０：１）＝｛ｔｉｄ０ｅｎ，ｔｉｄ１ｅｎ｝、ＥＲＴ１インスタンスではＴｉｄ＿ｅｎ（０：１）＝｛ｔｉｄ１ｅｎ，ｔｉｄ１ｅｎ｝というようになる。さらに、ＥＲＴエントリは、複数のエントリを各スレッド識別子と共にＥＲＴ０およびＥＲＴ１内に含むことによって、同じＥＡが異なるスレッドにわたって異なるＲＡに対応するというケースを容易にする。ＥＲＴエントリは、同じＲＡに対応する異なるＥＡを伴うケース（同じスレッドまたは異なるスレッドのケース）もサポートする。ここで、実装がＥＲＴＥまたはＳＤＴのいずれを使用するかに基づいて、２つのケースがさらに説明される。

ＬＳＵが、ＳＤＴ（シノニム検出テーブル）を使用する実装を使用している場合、ＥＲＴの再読み込み時に、同じＲＡに対応する異なるＥＡを含む新しい命令が検出されたときに、ＬＳＵは、ＥＲＴ２５５の代わりにＳＤＴにエントリを導入する。元の（前の）ＥＲＴエントリのＥＡを使用してＳＤＴのヒットが再開する。新しいシノニムのページ・サイズが、一致するＲＡを含む既存のＥＲＴエントリ内のページ・サイズより大きい場合、シノニムをＳＤＴに導入する代わりに、既存のＥＲＴエントリが（より大きいページ・サイズを有する）新しいシノニムに置き換えられる。古いＥＲＴエントリは、最終的にシノニムとしてＳＤＴに再導入される。

代替として、ＬＳＵが、ＥＲＴＥを使用する実装を使用しており、同じＲＡに対応する異なるＥＡを含む命令が、異なるスレッドである場合、ＬＳＵは、適切なＴｉｄ＿ｅｎが有効化された新しいエントリをＥＲＴテーブルに導入する。命令が同じスレッドである場合、ＬＳＵは、読み込み／格納が非投機的になるまで、読み込み／格納を拒否する。その後、ＬＳＵは、既存のＥＲＴエントリを削除し、スレッドからのインフライトの最も新しい命令のＩタグでタグ付けされたＥＲＴエントリをＥＲＴＥテーブル内に配置する。ＬＳＵは、新しいＥＡ−ＲＡ対をＥＲＴテーブル４００にさらに導入する。これによって、２つの異なるＥＡが同じスレッドからの同じＲＡにマッピングされる状況が発生しないことを保証する。

さらに、ＥＲＴのケースを再び参照し、ＬＳＵがプロセッサ１０６の別のコアからスヌープを受信する場合について考える。スヌープは、システム内の異なるコアから来る可能性がある（スヌープは、別のコアまたはスレッドを示し、同じ実アドレスでデータを変更している）。ＬＳＵは、コア内の他のスレッドへの可能性のあるスヌープとして、コア内のスレッドからのからの格納もチェックする。すべての（他のコアからの）スヌープまたは（コア内の他のスレッドからのからの）格納は、ＲＡを伴う。そのような場合、ＬＳＵは、ＲＡを逆変換し、ＥＲＴ２５５に基づいて、対応するＥＡ、ＥＲＴ＿ＩＤ、およびページ・サイズを決定する。ＬＳＵは、この情報を、次の構造の各々に格納されたＥＲＴ＿ＩＤ、ＰＳ、ＥＡ（４０：５６）と比較して、スヌープのヒットを検出し、適切な動作を実行する。例えば、ＬＲＱＦエントリにおいてスヌープのヒットが検出された場合、ＬＳＵは、可能性のあるロード・ヒット・ロードのアウトオブオーダーのハザードを示す。ＥＡＤ２９０においてスヌープのヒットが検出され、スヌープが異なるコアからである場合、ＬＳＵがＬ１の無効化を開始する。格納が共有ラインに対する別のスレッドからである場合、ラインが新しい格納を自動的に取得し、更新される。

したがって、本明細書に記載された技術的解決策は、１つのアドレス（ＥＡ）のみを追跡することによって、ＬＳＵのチップ面積の削減を促進する。さらに、これらの技術的解決策は、プロセッサ・コアが分割された読み込み／格納キューを使用して２読み込み／２格納モードで実行できるようにし、変換用のＣＡＭポートをさらに削減し、変換の電力消費も削減する。さらに、これらの技術的解決策は、ＥＡのみを使用することによって、ＥＡＤの失敗が発生しない限り、ＲＡへの変換が読み込み／格納経路において実行されないようにするという利点を有する。さらに、ＬＨＬ、ＳＨＬ、ＬＨＳなどのハザードを検出すること、および時間においてＤＶＡＬを抑制することは、タイミング問題を引き起こさない。ＬＳＵがＥＡのみを使用するため、２つの異なるＥＡが同じＲＡにマッピングされた場合、ＬＨＳ、ＳＨＬ、ＬＨＬの検出が失敗する可能性がある。本明細書に記載された技術的解決策は、ＥＡＤからのＥＡおよびＥＲＴのインデックスを使用することによって、そのような技術的課題に対処する。さらに、ＥＡのシノニムの検出時に、ＬＳＵが、ＳＤＴまたはＥＲＴＥテーブルをＯｏＯウィンドウ内の命令に使用することによって、命令を処理する。

（ＥＲＴＥとは対照的に）ＬＳＵがＳＤＴを使用し、スヌープのヒットがＬＭＱに存在する場合、ＬＳＵは、Ｌ１Ｄキャッシュに格納しないようにＬＭＱエントリも更新し、ＳＲＱエントリがＳＲＱ内のスヌープに使用されず、ＬＨＳのＥＡがＲＡのヒットに失敗する形式のチェックのみに使用され、新しいＳＤＴエントリがスヌープのヒットに対して作成される。

図８は、本発明の１つまたは複数の実施形態に従うシノニム検出テーブル（ＳＤＴ）７００の例示的な構造を示している。描かれた例は、１６個のエントリを含む場合を示しているが、他の例では、ＳＤＴ７００がこの例とは異なる数のエントリを含んでよいということに、注意するべきである。ＳＤＴ７００は、ＬＳＵ１０４の複数のスレッドおよびパイプにわたって共通である。例えば、ＬＤ０、ＬＤ１、ＳＴ０、およびＳＴ１は、すべてＳＤＴ７００内のエントリにアクセスし、ＳＤＴ７００は、各々に対して別々のパーティションを含まない。

ＳＤＴ７００内のエントリは、少なくとも、発行アドレス｛発行Ｔｉｄ（０：１），発行ＥＡ（０：５１）｝、ページ・サイズ（０：１）（例えば、４ｋ、６４ｋ、２ＭＢ、１６ＭＢ）、および再開アドレス｛ＥＡ（４０：５１），ＥＲＴＩＤ（０：６）｝のフィールドを含む。Ｔｉｄ（thread-identifier：スレッド識別子）フィールドは、ＯｏＯプロセッサからのどのスレッドが、ＳＤＴ７００内のエントリに関連付けられた命令を実行しているかを示す。開始がＬ１に失敗する命令の場合、ＬＳＵは、命令をＳＤＴ７００に対して比較する。開始された命令が、元のアドレスの比較でＳＤＴにヒットした場合、ＬＳＵが命令を拒否し、ＳＤＴエントリからの対応する置換アドレスを使用して命令を再開する。例えば、ＬＳＵは、置換アドレス（４０：５１）をＳＲＱＬＨＳに使用し、実行パイプライン内のＥＲＴＩＤを「強制的に一致させる」。

本明細書において説明されているように、ＥＲＴの再読み込み中に、エントリがＳＤＴ７００に追加される。例えば、ＥＲＴの再読み込み中に、再読み込みＲＡが、有効なＥＲＴエントリに対して比較される。一致するＲＡを含むＥＲＴエントリがすでに存在し、追加のｔｉｄ＿ｅｎビットのみが元のＥＲＴエントリに設定されているＥＡのヒットのケースでない場合、既存のＥＲＴエントリからＥＡ（３２：５１）が読み取られ、エントリをＥＲＴ２５５に追加する代わりに、エントリがＳＤＴ７００に導入される。

ＳＤＴ７００はエントリ数が制限されているため、エントリが置き換えられる。１つまたは複数の例では、最長時間未使用（ＬＲＵ：least recently used）手法または任意のその他の手法に基づいて、エントリが置き換えられる。１つまたは複数の例では、ＳＤＴエントリが置き換えられる場合、二次アドレスを使用するその後の開始が、ＳＤＴエントリの導入シーケンスを再トリガーする。さらに、ＣＡＭは、無効化されたＥＲＴエントリに一致するＥＲＴＩＤを含むＳＤＴエントリを消去する。

図９は、本発明の１つまたは複数の実施形態に従う、ＥＲＴおよびＳＤＴＥＡの交換を実行するための方法のフローチャートを示している。１つまたは複数の例では、ＥＲＴエントリおよびＳＤＴエントリが同じページ・サイズを有している場合に、ＬＳＵが交換を実行する。この交換によって、同じスレッドまたは異なるスレッドの異なる命令で、異なるＥＡが同じＲＡに対応する場合に、プロセッサ１０６の効率を改善する。例えば、ＥＡｘ＝＞ＲＡｚ、およびＥＡｙ＝＞ＲＡｚとなるような２つの命令ｘおよびｙについて考える。最初に、ＥＡｘがＥＲＴに失敗した場合、すなわち、ＥＡｙの前に、本明細書において説明されているように、ＬＳＵが、ＲＡｚへのＥＡｘのマッピングを含むＥＲＴエントリを導入する。その後、ＥＡｙがＥＲＴに失敗した場合、ＬＳＵが、ＲＡｚを使用してＥＲＴを検索し、ＲＡにヒットし、元のアドレス＝ＥＡｙ、置換アドレス＝ＥＡｘを含むエントリをＳＤＴ７００に導入する。

ここで、その後のほとんどのＲＡｚへのアクセスがＥＡｙを伴う場合、ＬＳＵは、ＥＡＤ自体を使用するよりも頻繁にＳＤＴを使用する必要がある。１つまたは複数の例では、そのような頻繁なＳＤＴへの参照を減らすことによってＬＳＵの効率を改善するための技術的解決策は、各ＳＤＴエントリ内のカウンタをインクリメントすることを含む。図８の８１０に示されているように、ＬＳＵは、ＳＤＴエントリからのＥＲＴＩＤに一致するＥＲＴＩＤを含む命令を開始する。ＳＤＴエントリのＥＲＴＩＤが一致する場合、８２０に示されているように、ＬＳＵは、開始された命令のＥＡをＳＤＴエントリ内の元のＥＡとさらに比較する。８３０および８３５に示されているように、ＳＤＴエントリが、命令からのＥＡに一致する元のアドレス値を含んでいる場合、ＳＤＴエントリのカウンタがインクリメントされる。８４０に示されているように、開始された命令が、ＳＤＴエントリの元のアドレスと異なるＥＡを含んでいる場合、ＳＤＴエントリのカウンタがリセットされる。

１つまたは複数の例では、カウンタが４ビットのフィールドであり、１５の最大値を意味する。他の例では、しきい値として使用されるフィールドが異なる長さであるか、または異なる最大値を有するか、あるいはその両方であるということが、理解されるべきである。例えば、８４５および８５０に示されているように、命令が開始された後に、カウンタ値がしきい値と比較される。カウンタがしきい値未満である場合、説明されたように、ＬＳＵが動作を続行する。カウンタがしきい値を超えたか、または場合によっては、しきい値に等しい場合、８６０に示されているように、ＬＳＵがＳＤＴエントリに対応するＥＲＴエントリを無効化する。例えば、ＳＤＴエントリからのＥＲＴＩＤを含むＥＲＴエントリが無効化される。ＥＲＴエントリの無効化は、ＥＡディレクトリ、ＬＲＱＦ、ＬＭＱ、およびＳＲＱからの対応するエントリの無効化を引き起こす。

さらに、ＬＳＵは、以下の方法で、終了するために元のＥＡを必要とする開始された命令における例外の技術的課題に対処する。例えば、開始された命令がＳＤＴにヒットし、元の開始アドレスの代わりにＳＤＴエントリからの置換アドレスを使用して再開したいが、終了するために元のＥＡを必要とする例外が選択された場合について考える。そのような条件は、ＤＡＷＲ／ＳＤＡＲなどの場合に発生することがある。

本明細書に記載された技術的解決策を実装するＬＳＵは、元のアドレスをＬＲＱＥ内のキューに維持することによって、そのような技術的課題に対処する。ＬＲＱＥは、ＬＲＱＥエントリごとに、ＳＤＴヒット・フラグ（ビット）、ＳＤＴインデックス（０：３）も維持する。再開時に、置換アドレスを取得するために、１サイクル早くＳＤＴインデックスが読み取られる。ＬＲＱＥは、再開の前に、ＬＲＱＥエントリのアドレス（元のアドレス）とＳＤＴの（ＳＤＴから読み取られた）置換アドレスとの間で、さらに多重化する。終了するために元のアドレスが必要になる、上記のような例外ケースの場合、ＬＲＱＥは、ＤＡＷＲの部分一致などで設定されたエントリごとに、追加のＳＤＴヒット・オーバーライド・フラグ（ビット）を含む。ＬＲＱＥは、例外と共に終了するＳＤＴのヒットが存在したケースを再開し、元のアドレスを強制的に開始する。ＳＲＱの再開は、本明細書において説明されているＬＲＱＥの再開と同様であり、再開の前に例外と共に終了することが決定された場合、ＳＤＴヒット・オーバーライド・フラグが使用される。

図１０は、本発明の１つまたは複数の実施形態に従うＥＲＴ削除（ＥＲＴＥ）テーブル９００を示している。ＥＲＴＥテーブル９００は、ＬＳＵがＥＲＴ２５５から削除された（または無効化された）行を追跡するのを容易にする。ＥＲＴＥテーブル９００は、ＥＲＴ２５５にエントリが作成されているときに、同じスレッドに、同じＲＡに対する異なるＥＡが存在するかどうかをチェックするのをさらに容易にする。ＥＲＴＥテーブル９００は、すべての同時スレッドによって共有される。１つまたは複数の例では、ＥＲＴＥテーブル９００の一部が、ＮＴＣエントリのために予約される。ＥＲＴＥテーブル９００内のエントリは、スレッドＩＤ、Ｉタグ、ＥＡ、およびＲＡのフィールドを含む。１つまたは複数の例では、ＥＲＴＥテーブル・エントリが追加のフィールドを含んでよい。１つまたは複数の例では、スレッドＩＤが４ビットのフィールドであってよい。

ＥＲＴＥテーブル９００は、１対１の対応関係のある２つのテーブル（ＥＲＴ＿ＥＡおよびＥＲＴ＿ＲＡ）の組み合わせと見なされ得る。ＥＲＴ＿ＥＡテーブルは、検索するためにＥＡを使用し、ＥＲＴ＿ＲＡテーブルは、検索するためにＲＡを使用する。１つまたは複数の例では、各テーブルは６４個のエントリを含むが、他の例では、エントリの数が可変／プログラム可能であってよい。ＥＡ−ＲＡ間の変換がＥＲＴＥテーブル９００から除去された場合、ＥＡＤテーブル３００からの関連するキャッシュ・ラインも無効化される。そのようにして、ＥＲＴ２５５は、プロセッサ・コア内のすべての変換（ＴＬＢ、ＳＬＢを除く）の上位セットになる。

ＥＲＴＥテーブル９００は、ＥＲＴ２５５内にないがインフライトの命令によって使用されるすべての変換を追跡する。ＥＲＴＥテーブル・エントリは、削除されたエントリを使用していた可能性のある最も新しい命令でタグ付けされる。読み込み／格納のＯｏＯ発行に起因して、ＯｏＯウィンドウ内のアクティブなすべての命令のうちの最も新しいＩタグが、ＥＲＴＥテーブル９００に格納される。フラッシュ時に、残っている最後の命令のＩタグが、有効なすべてのエントリに格納される。完了時に、同じＩタグまたはより古いＩタグを含むすべてのエントリが解放される。ＥＲＴＥテーブル９００は、満杯である場合、ディスパッチを阻止して、命令が完了するのを（またはフラッシュされるのを、あるいはその両方を）待ち、最終的にテーブルが完全に解放される。本明細書に記載された例は、開始された命令の古さを追跡するためにＩタグを使用するが、他の例では、単調に増加して循環する別のタグ（ＥＡタグ、ＬＳタグなど）が代わりに使用されてよいということに注意するべきである。

ＥＲＴ２５５またはＥＡＤ２９０内の変換が削除／無効化された場合、削除されたエントリからの最後の所定のビット数（例えば、最後の１２ビット）を含まずに、削除されたエントリのＥＡ−ＲＡがＥＲＴＥテーブル９００に追加される。さらに、削除された変換が属する同じスレッドの最も新しい有効なＩタグを含むＥＲＴＥテーブル９００内のエントリが、例えばフラグ（ビット）を使用して、マーク付けされる。

新しいアドレス変換（ＥＡからＲＡへ）が実行されるときに、ＬＳＵが、ＲＡをＥＲＴ２５５に対して比較し、同じスレッドからのＲＡに対する異なるＥＡがすでにＥＲＴ２５５に存在するかどうかをチェックする。存在する場合、ＬＳＵが、新しい変換をシノニムとしてＥＲＴ２５５に導入する。このようにして、ＥＲＴ２５５（ＥＲＴＥを使用する場合）は、同じスレッドの同じＲＡを指す異なるＥＡを含む２つのエントリを含むことができる。インフライトの命令のシノニムが許可されないため、１つまたは複数の例では、ＬＳＵが、ＮＴＣ＋１のフラッシュをのみを開始して、前進を保証する。

バランス・フラッシュ（balance flush）は、停止したか、またはリソースを消費するか、あるいはその両方の対象のスレッドを、システムから全体的にフラッシュし、リソース使用の公平性またはバランスを回復する、スレッド制御メカニズムである。バランス・フラッシュは、選択されたスレッド上の、次に実行するべき命令グループに続くすべての命令グループをフラッシュする、次に実行するべき命令のフラッシュ（ＮＴＣ＋１）を含む。ＮＴＣ＋１バランス・フラッシュは、選択されたスレッドに関する実行ユニット、グローバル完了テーブル、およびＥＡＤをフラッシュする。スレッドがディスパッチで停止した場合にのみ、スレッドに対してバランス・フラッシュが実行される。スレッド切り替え制御レジスタ内の＜ｂｆ：１＞フィールドを使用して、バランス・フラッシュが有効化または無効化されてよい。

１つまたは複数の例では、ＯｏＯウィンドウの実行が完了した後に、ＥＲＴＥ内のエントリが無効としてマーク付けされる。ＥＲＴテーブル２５５から削除されている新しいＥＡ−ＲＡ変換対を使用してＥＲＴＥエントリが書き込まれているときに、ＥＲＴＥエントリが有効としてマーク付けされるということに、注意するべきである。

図１１は、本発明の１つまたは複数の実施形態に従う、エントリをＥＲＴＥテーブル９００に追加するための例示的な方法のフローチャートを示している。本明細書において説明されているように、新しいエントリがＥＲＴ２５５に追加されるときに、ＬＳＵは、１０１０に示されているように、新しい変換のＥＡおよびＲＡの両方を、ＬＲＵによって管理されてよい特定の行に書き込む。１０１２に示されているように、ＥＲＴＥテーブル９００は、ＲＡを使用して検索し、ＲＡが、別のＥＡに対応するＥＲＴＥテーブル９００内のエントリにすでに存在するかどうかをチェックし、導入での同じスレッドで、複数のヒットの可能性のあるケースについてチェックする。ＲＡがＥＲＴＥテーブル９００にすでに存在する場合、１０１５に示されているように、ＥＲＴテーブルは、ＮＴＣまでＥＡ−ＲＡのエントリの作成を拒否し、ＮＴＣが検出されたときに導入する。

１０２０に示されているように、ＬＳＵは、ＥＲＴ２５５内のエントリを上書きする前に、新しいエントリによって上書きされるＥＲＴ内の既存のエントリのＥＡおよびＲＡを読み取り、１０３０に示されているように、読み出されたエントリをＥＲＴＥテーブル９００にさらに格納する。さらに、１０４０および１０５０に示されているように、プロセッサの別のコアからのスヌープまたは格納排出が存在する場合、ＥＲＴＥテーブル９００がＥＡを検索して読み取る。

図１２は、本発明の１つまたは複数の実施形態に従って開始される例示的な命令のセットの例示的なシーケンス図を示している。各命令は、左側にプログラム順序で示されており、ＯｏＯで開始され、命令のシーケンスとは異なる動作のシーケンスを引き起こす。例えば、以下のイベントが時系列で発生することを考える。１．命令Ｍが、ＯｏＯで発行され、変換「ｅａ１、ｒａ１」を使用した。２．命令Ｋが、ＯｏＯで発行され、ＥＲＴに失敗し、新しいエントリを導入し、「ｒａ２ｅａ２」をＥＲＴから削除した。この時点で、使用中の最後のＩタグ＝Ｎ（同じスレッドから削除されたすべてのライン）、すなわち、Ｎまでの命令は、「ｒａ２ｅａ２」を使用することができており、Ｎの後に、命令は「ｒａ２ｅａ２」を使用できなくなる。３．命令Ｈが、ＯｏＯで発行され、ＥＲＴに失敗し、「ｒａ１ｅａ１」をＥＲＴから削除した。この時点で、使用中の最後のＩタグ＝Ｑである。４．フラッシュされたパイプラインおよび残された最後の命令がＩタグ＝Ｅを有しており、さらに、フェッチされる次の命令が、Ｒ、Ｓである。５．命令Ｅ〜Ｒが所与の１サイクルで完了し、ＥＲＴＥ内のすべてのエントリを解放する。

本明細書に記載された技術的解決策は、このようにして、ＥＡのみを使用することを容易にし、読み込み／格納経路においてＥＡＲＴ（通常はプロセッサによって使用されていた）が参照されず、さらに、ＳＨＬの検出および時間におけるＤＶＡＬの抑制がタイミング問題を引き起こさないように、技術的優位性を実現する。さらに、本明細書に記載された技術的解決策は、ＥＡのみを使用することに伴う技術的問題、例えば、２つの異なるＥＡが同じＲＡにマッピングされた場合に、ＬＨＳ、ＳＨＬ、ＬＨＬの検出が失敗することがあるなどの問題に対処する。本明細書に記載された技術的解決策は、シノニム検出テーブル（ＳＤＴ）またはＥＲＴ削除テーブルのいずれかをＯｏＯウィンドウ内の命令に使用することによって、そのような技術的問題に対処する。これらの技術的解決策は、特に、チップ面積の削減（ＲＡを格納しないことによる）、電力消費の削減（ＥＡ−ＲＡを変換しないことによる）、および待ち時間の改善を含む、さまざまな技術的優位性を実現する。

さらに、これらの技術的解決策は、すべての読み込みおよび格納のアドレス生成においてＥＡに対してＲＡを決定するための検索を取り除くことによって、電力消費の節減を促進する。代わりに、ＥＡＤの失敗およびＥＲＴの失敗が発生するまで、ＥＡが使用される。さらに、これらの技術的解決策は、単一のＣＡＭポートのみが使用されるようになるため、ユニット全体でのＲＡバスの切り替えの除去を容易にする。

図１３は、本発明の１つまたは複数の実施形態に従う、プロセッサがＳＴモードまたはＭＴモードのどちらで動作しているかに応じて、マルチパイプ・モードで、およびＯｏＯの方法で、ＬＳＵ１０４によって命令を発行するための例示的な方法のフローチャートを示している。例えば、ＬＳＵは、２読み込み／２格納モード（マルチパイプ・モード）で動作していてよい。ブロック１３１０に示されているように、ＬＳＵ１０４が、発行される命令をＯｏＯウィンドウから選択する。選択された命令は、読み込み命令、格納命令、またはＬＳＵ１０４が発行するそのような命令から派生した任意の命令（例えば、ＬＡＲＸ命令）であってよい。

ブロック１３２０に示されているように、ＬＳＵ１０４が、ＯｏＯプロセッサがＳＴモードまたはＭＴモードのいずれで動作しているかを判定する。ＳＴモードが使用されている場合、プロセッサが単一のスレッドを使用しており、ブロック１３３０に示されているように、ＬＳＵ１０４が、命令に関連付けられたＬＳＵパイプのみを決定する。例えば、命令が読み込み命令である場合、ＬＳＵ１０４は、その読み込み命令を、ＬＤ０パイプ、ＬＤ１パイプ、または任意のその他の読み込みパイプのいずれかに関連付けてよい。代替として、命令が格納命令である場合、ＬＳＵ１０４は、その格納命令を、ＳＴ０パイプ、ＳＴ１パイプ、または任意のその他の格納パイプのいずれかに関連付けてよい。

さらに、ブロック１３４０に示されているように、ＬＳＵ１０４は、パイプに関連付けられたＬＲＱＦ２１８、ＳＲＱＲ２２０、ＬＲＱＥ２２２、およびＥＲＴ２５５内のパーティションを使用してエントリを作成／エントリにアクセスし、命令を発行する。例えば、命令が読み込み命令であり、関連付けられたパイプがＬＤ０である場合、その命令は、パーティションＬＲＱＦ０、ＬＲＱＥ０、およびＥＲＴ０からのエントリを使用する。同様に、パイプＳＴ０での格納命令の場合、パーティションＳＲＱＲ０およびＥＲＴ０が使用される。ＬＤ１パイプまたはＳＴ１パイプの場合、ＬＲＱＦ１、ＬＲＱＥ１、ＥＲＴ１、およびＳＲＱＲ１パーティションが使用される。エントリは、先入れ先出しに基づいてパーティション内に作成される。

代替として、プロセッサがＭＴモードで動作している、すなわち、同時に複数のスレッドが実行されている場合、ブロック１３５０に示されているように、ＬＳＵ１０４は、選択された命令に関連付けられたスレッドのスレッド識別子を決定する。ブロック１３６０に示されているように、ＬＳＵ１０４は、命令に関連付けられたＬＳＵパイプをさらに決定する。さらに、ブロック１３７０に示されているように、ＬＳＵ１０４は、ＬＲＱＦ２１８、ＳＲＱＲ２２０、ＬＲＱＥ２２２、およびＥＲＴ２５５のパーティションおよびパーティション内の位置を識別して、エントリを作成／エントリにアクセスし、｛スレッドｉｄおよびパイプ｝の組み合わせに基づいて命令を発行する。例えば、ＬＳＵは、特定のスレッドを特定のパイプに制限し、例えば、偶数番号が付けられたスレッドをＬＤ０およびＳＴ０に制限し、奇数番号が付けられたスレッドをＬＤ１およびＳＴ１に制限する。スレッドおよびパイプの分類が他の例において異なってよいということに、注意するべきである。ＬＤ０パイプおよびＳＴ０パイプは、「０」の接尾辞が付けられたパーティションに関連付けられ、ＬＤ１パイプおよびＳＴ１パイプは、「１」の接尾辞が付けられたパーティションに関連付けられる（または、その逆に関連付けられる）。

本発明の１つまたは複数の実施形態例では、プロセッサがＭＴモードで実行しているスレッドの数に従って、各パーティションが部分にさらに分割される。例えば、プロセッサが４つのスレッドを実行している場合、ＬＳＵ内の２つのパーティションが、それぞれ２つの部分（第１のスレッド用の第１のパーティションおよび第２のスレッド用の第２の部分）にさらに分割され、各パーティション分がスレッドの対に関連付けられる。ＭＴモードでのスレッドの数が４つとは異なる１つまたは複数の他の実施形態例では、各パーティションに関連付けられたスレッドの数に基づいて、パーティションが異なる数の部分に分割される。スレッドの対が各パーティションに関連付けられており、各パーティションが等しい部分にさらに分割される上記の例では、対の第１のスレッドが第１の部分を使用し、第２のスレッドが第２の部分を使用する。したがって、ＬＤ０／ＳＴ０のＴ０で実行さている命令は、ＬＲＱＦ０、ＬＲＱＥ０、ＳＲＱＲ０、およびＥＲＴ０のパーティションの第１の部分に関連付けられ、ＬＤ０／ＳＴ０のＴ２で実行されている命令は、ＬＲＱＦ０、ＬＲＱＥ０、ＳＲＱＲ０、およびＥＲＴ０のパーティションの第２の部分に関連付けられる。さらに、ＬＤ１／ＳＴ１のＴ１で実行さている命令は、ＬＲＱＦ１、ＬＲＱＥ１、ＳＲＱＲ１、およびＥＲＴ１のパーティションの第１の部分に関連付けられ、ＬＤ１／ＳＴ１のＴ３で実行されている命令は、ＬＲＱＦ１、ＬＲＱＥ１、ＳＲＱＲ１、およびＥＲＴ１のパーティションの第２の部分に関連付けられる。

ここで、本発明の１つまたは複数の実施形態の一部または全部の態様を実装するためのコンピュータ・システム１４００のブロック図である図１４を参照する。本明細書に記載された処理は、ハードウェア、ソフトウェア（例えば、ファームウェア）、またはハードウェアとソフトウェアの組み合わせにおいて実装されてよい。実施形態例では、記載された方法は、少なくとも一部においてハードウェアに実装されてよく、モバイル・デバイス、パーソナル・コンピュータ、ワークステーション、マイクロコンピュータ、またはメインフレーム・コンピュータなどの、専用または汎用コンピュータ・システム１４００のマイクロプロセッサの一部であってよい。

実施形態例では、図１４に示されているように、コンピュータ・システム１４００は、プロセッサ１４０５、メモリ・コントローラ１４１５に結合されたメモリ１４１２、および１つまたは複数の入力デバイス１４４５、またはローカルＩ／Ｏコントローラ１４３５を介して通信によって結合された周辺機器などの出力デバイス１４４７、あるいはその組み合わせを含む。これらのデバイス１４４７および１４４５は、例えば、プリンタ、スキャナ、マイクロホンなどを含んでよい。従来のキーボード１４５０およびマウス１４５５は、Ｉ／Ｏコントローラ１４３５に結合されてよい。Ｉ／Ｏコントローラ１４３５は、例えば、１つまたは複数のバスあるいは従来技術において知られたその他の有線接続または無線接続であってよい。Ｉ／Ｏコントローラ１４３５は、簡単にするために省略されている、通信を可能にするためのコントローラ、バッファ（キャッシュ）、ドライバ、リピータ、およびレシーバなどの追加の要素を含んでよい。

Ｉ／Ｏデバイス１４４７、１４４５は、例えばディスク・ストレージおよびテープ・ストレージ、ネットワーク・インターフェイス・カード（ＮＩＣ：network interface card）または変調器／復調器（他のファイル、デバイス、システム、またはネットワークにアクセスするため）、無線周波（ＲＦ：radio frequency）またはその他のトランシーバ、電話インターフェイス、ブリッジ、ルータなどの、入力および出力の両方と通信するデバイスをさらに含んでよい。

プロセッサ１４０５は、ハードウェア命令またはソフトウェア、具体的には、メモリ１４１２に格納されたソフトウェアを実行するためのハードウェア・デバイスである。プロセッサ１４０５は、カスタムメイドであるか、または市販されたプロセッサ、中央処理装置（ＣＰＵ：central processing unit）、コンピュータ・システム１４００に関連付けられた複数のプロセッサ間の補助プロセッサ、（マイクロチップまたはチップ・セットの形態での）半導体ベースのマイクロプロセッサ、マクロプロセッサ、または命令を実行するためのその他のデバイスであってよい。プロセッサ１４０５は、実行可能命令のフェッチを高速化するための命令キャッシュ、データのフェッチおよび格納を高速化するためのデータ・キャッシュ、および実行可能命令とデータの両方の仮想アドレスから物理アドレスへの変換を高速化するために使用されるトランスレーション・ルックアサイド・バッファ（ＴＬＢ：translation look-aside buffer）などのキャッシュを含むことができるが、これらに限定されない。キャッシュは、さらに多くのキャッシュ・レベル（Ｌ１、Ｌ２など）の階層として構造化されてよい。

メモリ１４１２は、揮発性メモリ素子（例えば、ＤＲＡＭ、ＳＲＡＭ、ＳＤＲＡＭなどのランダム・アクセス・メモリ（ＲＡＭ：random access memory））および不揮発性メモリ素子（例えば、ＲＯＭ、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ：erasable programmable read only memory）、電子的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ：electronically erasable programmable read only memory）、プログラマブル読み取り専用メモリ（ＰＲＯＭ：programmable read only memory）、テープ、コンパクト・ディスク読み取り専用メモリ（ＣＤ−ＲＯＭ：compact disc read only memory）、ディスク、フロッピー（Ｒ）・ディスク、カートリッジ、カセットなど）のうちの１つまたは組み合わせを含んでよい。さらに、メモリ１４１２は電子、磁気、光、またはその他の種類のストレージ媒体を組み込んでよい。メモリ１４１２が、さまざまなコンポーネントが互いに遠く離れた位置にあるが、プロセッサ１４０５によってアクセスされてよい、分散アーキテクチャを含むことができるということに注意する。

メモリ１４１２内の命令は、１つまたは複数の別々のプログラムを含んでよく、それらのプログラムの各々は、論理的機能を実装するための実行可能命令の順序付けられたリストを含む。図１４の例では、メモリ１４１２内の命令は、適切なオペレーティング・システム（ＯＳ：operating system）１４１１を含む。オペレーティング・システム１４１１は、基本的に他のコンピュータ・プログラムの実行を制御することができ、スケジューリング、入出力制御、ファイルおよびデータの管理、メモリ管理、ならびに通信制御および関連するサービスを提供する。

例えば、プロセッサ１４０５の命令またはその他の取り出し可能な情報を含む追加データが、ストレージ１４２７に格納されてよく、ストレージ１４２７はハード・ディスク・ドライブまたは半導体ドライブなどのストレージ・デバイスであってよい。メモリ１４１２またはストレージ１４２７に格納される命令は、プロセッサ１４０５が本開示のディスパッチ・システムおよび方法の１つまたは複数の態様を実行できるようにする命令を含んでよい。

コンピュータ・システム１４００は、ディスプレイ１４３０に結合されたディスプレイ・コントローラ１４２５をさらに含んでよい。実施形態例では、コンピュータ・システム１４００は、ネットワーク１４６５に結合するためのネットワーク・インターフェイス１４６０をさらに含んでよい。ネットワーク１４６５は、コンピュータ・システム１４００と、外部サーバ、クライアントなどとの間での、ブロードバンド接続を介した通信用のＩＰベースのネットワークであってよい。ネットワーク１４６５は、コンピュータ・システム１４００と外部システムの間で、データを送受信する。実施形態例では、ネットワーク１４６５は、サービス・プロバイダによって管理された管理ＩＰネットワークであってよい。ネットワーク１４６５は、例えば、ＷｉＦｉ、ＷｉｎＭａｘなどの無線プロトコルおよび無線技術を使用して、無線方式で実装されてよい。ネットワーク１４６５は、ローカル・エリア・ネットワーク、広域ネットワーク、メトロポリタン・エリア・ネットワーク、インターネット、またはその他の類似する種類のネットワーク環境などの、パケット交換ネットワークであってもよい。ネットワーク１４６５は、固定無線ネットワーク、無線ローカル・エリア・ネットワーク（ＬＡＮ：local area network）、無線広域ネットワーク（ＷＡＮ：wide areanetwork）、パーソナル・エリア・ネットワーク（ＰＡＮ：personal area network）、仮想プライベート・ネットワーク（ＶＰＮ：virtual private network）、インターネット、またはその他の適切なネットワーク・システムであってよく、信号を送受信するための機器を含むことができる。

分割された読み込み要求キューおよび格納要求キューを提供するためのシステムおよび方法が、コンピュータ・プログラム製品において、または図１４に示されているようなコンピュータ・システム１４００において、全体的または部分的に具現化され得る。

本明細書では、関連する図面を参照して、本発明のさまざまな実施形態が説明される。本発明の範囲を逸脱することなく、本発明の代替の実施形態が考案され得る。以下の説明および図面において、要素間のさまざまな接続および位置関係（例えば、上、下、隣接など）が示される。それらの接続または位置関係あるいはその両方は、特に規定されない限り、直接的または間接的であることができ、本発明はこの点において限定するよう意図されていない。したがって、各実体の結合は、直接的結合または間接的結合を指すことができ、各実体間の位置関係は、直接的位置関係または間接的位置関係であることができる。さらに、本明細書に記載されたさまざまな作業および工程段階は、本明細書に詳細に記載されない追加の段階または機能を含んでいるさらに包括的な手順または工程に組み込まれ得る。

以下の定義および略称が、特許請求の範囲および本明細書の解釈に使用される。本明細書において使用されているように、「備える」、「備えている」、「含む」、「含んでいる」、「有する」、「有している」、「含有する」、「含有している」という用語、またはこれらの任意のその他の変形は、非排他的包含をカバーするよう意図されている。例えば、要素のリストを含んでいる組成、混合、工程、方法、製品、または装置は、それらの要素のみに必ずしも限定されず、明示されていないか、またはそのような組成、混合、工程、方法、製品、または装置に固有の、その他の要素を含むことができる。

さらに、「例示的」という用語は、本明細書では「例、事例、または実例としての役割を果たす」ことを意味するために使用される。「例示的」として本明細書に記載された実施形態または設計は、必ずしも他の実施形態または設計よりも好ましいか、または有利であると解釈されるべきではない。「少なくとも１つ」および「１つまたは複数」という用語は、１以上の任意の整数（すなわち、１、２、３、４など）を含んでいると理解されてよい。「複数」という用語は、２以上の任意の整数（すなわち、２、３、４、５など）を含んでいると理解されてよい。「接続」という用語は、間接的「接続」および直接的「接続」の両方を含んでよい。

「約」、「実質的に」、「近似的に」、およびこれらの変形の用語は、本願書の出願時に使用できる機器に基づいて、特定の量の測定に関連付けられた誤差の程度を含むよう意図されている。例えば、「約」は、特定の値の±８％または５％、あるいは２％の範囲を含むことができる。

簡潔さの目的で、本発明の態様の作成および使用に関連する従来手法は、本明細書に詳細に記載されることもあれば、記載されないこともある。具体的には、本明細書に記載されたさまざまな技術的特徴を実装するためのコンピューティング・システムおよび特定のコンピュータ・プログラムのさまざまな態様は、よく知られている。したがって、簡潔さのために、多くの従来の実装に関する詳細は、本明細書では、既知のシステムまたは工程あるいはその両方の詳細を提供することなく、簡潔にのみ述べられるか、または全体的に省略される。

本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはその組み合わせであってよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を含んでいるコンピュータ可読記憶媒体を含んでよい。

コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持および格納できる有形のデバイスであることができる。コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組み合わせであってよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例の非網羅的リストは、ポータブル・フロッピー（Ｒ）・ディスク、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ：random access memory）、読み取り専用メモリ（ＲＯＭ：read-onlymemory）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ：erasableprogrammable read-only memoryまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ：static random access memory）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ−ＲＯＭ：compact disc read-only memory）、デジタル多用途ディスク（ＤＶＤ：digital versatile disk）、メモリ・スティック、フロッピー（Ｒ）・ディスク、パンチカードまたは命令が記録されている溝の中の隆起構造などの機械的にエンコードされるデバイス、およびこれらの任意の適切な組み合わせを含む。本明細書において使用されるとき、コンピュータ可読記憶媒体は、それ自体が、電波またはその他の自由に伝搬する電磁波、導波管またはその他の送信媒体を伝搬する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、あるいはワイヤを介して送信される電気信号などの一過性の信号であると解釈されるべきではない。

本明細書に記載されたコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティング・デバイス／処理デバイスへ、またはネットワーク（例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワーク、または無線ネットワーク、あるいはその組み合わせ）を介して外部コンピュータまたは外部ストレージ・デバイスへダウンロードされ得る。このネットワークは、銅伝送ケーブル、光伝送ファイバ、無線送信、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組み合わせを備えてよい。各コンピューティング・デバイス／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェイスは、コンピュータ可読プログラム命令をネットワークから受信し、それらのコンピュータ可読プログラム命令を各コンピューティング・デバイス／処理デバイス内のコンピュータ可読記憶媒体に格納するために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ：instruction-set-architecture）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいは、Ｊａｖａ（Ｒ）、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む１つまたは複数のプログラミング言語の任意の組み合わせで記述されたソース・コードまたはオブジェクト・コードであってよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で全体的に実行すること、ユーザのコンピュータ上でスタンドアロン・ソフトウェア・パッケージとして部分的に実行すること、ユーザのコンピュータ上およびリモート・コンピュータ上でそれぞれ部分的に実行すること、あるいはリモート・コンピュータ上またはサーバ上で全体的に実行することができる。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ：local area network）または広域ネットワーク（ＷＡＮ：wide areanetwork）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されてよく、または接続は、（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに対して行われてよい。一部の実施形態では、本発明の態様を実行するために、例えばプログラマブル論理回路、フィールドプログラマブル・ゲート・アレイ（ＦＰＧＡ：field-programmable gate arrays）、またはプログラマブル・ロジック・アレイ（ＰＬＡ：programmable logic arrays）を含む電子回路は、コンピュータ可読プログラム命令の状態情報を利用することによって、電子回路をカスタマイズするためのコンピュータ可読プログラム命令を実行してよい。

本発明の態様は、本明細書において、本発明の実施形態に従って、方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して説明される。フローチャート図またはブロック図あるいはその両方の各ブロック、ならびにフローチャート図またはブロック図あるいはその両方に含まれるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装され得るということが理解されるであろう。

これらのコンピュータ可読プログラム命令は、コンピュータまたはその他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方のブロックに指定される機能／動作を実施する手段を作り出すべく、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令は、命令が格納されたコンピュータ可読記憶媒体がフローチャートまたはブロック図あるいはその両方のブロックに指定される機能／動作の態様を実施する命令を含んでいる製品を備えるように、コンピュータ可読記憶媒体に格納され、コンピュータ、プログラム可能なデータ処理装置、または他のデバイス、あるいはその組み合わせに特定の方式で機能するように指示できるものであってもよい。

コンピュータ可読プログラム命令は、コンピュータ上、その他のプログラム可能な装置上、またはその他のデバイス上で実行される命令が、フローチャートまたはブロック図あるいはその両方のブロックに指定される機能／動作を実施するように、コンピュータ実装プロセスを生成するべく、コンピュータ、その他のプログラム可能なデータ処理装置、またはその他のデバイスに読み込まれてもよく、それによって、一連の動作可能なステップを、コンピュータ上、その他のプログラム可能な装置上、またはその他のデバイス上で実行させるものであってもよい。

図内のフローチャートおよびブロック図は、本発明のさまざまな実施形態に従って、システム、方法、およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能、および動作を示す。これに関連して、フローチャートまたはブロック図内の各ブロックは、規定された論理機能を実装するための１つまたは複数の実行可能な命令を備える、命令のモジュール、セグメント、または部分を表してよい。一部の代替の実装では、ブロックに示された機能は、図に示された順序とは異なる順序で発生してよい。例えば、連続して示された２つのブロックは、実際には、含まれている機能に応じて、実質的に同時に実行されるか、または場合によっては逆の順序で実行されてよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、ならびにブロック図またはフローチャート図あるいはその両方に含まれるブロックの組み合わせは、規定された機能または動作を実行するか、または専用ハードウェアとコンピュータ命令の組み合わせを実行する専用ハードウェアベースのシステムによって実装され得るということにも注意する。

本発明のさまざまな実施形態の説明は、例示の目的で提示されているが、網羅的であることは意図されておらず、開示された実施形態に制限されない。記載された実施形態の範囲および思想を逸脱することなく多くの変更および変形が可能であることは、当業者にとって明らかであろう。本明細書で使用された用語は、実施形態の原理、実際の適用、または市場で見られる技術を超える技術的改良を最も適切に説明するため、または他の当業者が本明細書で開示された実施形態を理解できるようにするために選択されている。

Claims

１つまたは複数の命令を実行するための処理ユニットであって、前記処理ユニットは、
読み込み／格納ユニット（ＬＳＵ）を備えており、前記ＬＳＵは、複数のＬＳＵパイプを使用してアウトオブオーダー（ＯｏＯ）ウィンドウ内の複数の命令を実行するように構成されており、前記命令は、
前記ＯｏＯウィンドウから命令を選択することであって、前記命令が実効アドレスを使用する、前記選択することと、
前記命令が読み込み命令であることに応答して、
前記処理ユニットがシングルスレッド・モードで動作することに応答して、前記命令が第１の読み込みパイプ上で発行されているということに基づいて読み込み順序変更キューの第１のパーティションにエントリを作成することと、前記命令が第２の読み込みパイプ上で発行されているということに基づいて、前記読み込み順序変更キューの第２のパーティションに前記エントリを作成することと、
複数のスレッドが同時に処理されるマルチスレッド・モードで前記処理ユニットが動作することに応答して、前記命令が前記第１の読み込みパイプ上で発行されているということに基づいて、前記処理ユニットの第１のスレッドによって、前記読み込み順序変更キューの前記第１のパーティションの第１の所定の部分に前記エントリを作成することと
によって実行される、処理ユニット。
前記マルチスレッド・モードにおいて、前記読み込み順序変更キューの前記第１のパーティションの前記第１の所定の部分が、前記第１の読み込みパイプを使用して前記処理ユニットの前記第１のスレッドによって発行された読み込み命令に固有である、請求項１に記載の処理ユニット。
前記読み込み／格納ユニットが、
前記命令が格納命令であることに応答して、
前記処理ユニットが前記シングルスレッド・モードで動作することに応答して、前記格納命令が第１の格納パイプ上で発行されているということに基づいて格納順序変更キューの第１のパーティションに格納エントリを作成することと、前記格納命令が第２の格納パイプ上で発行されているということに基づいて、前記格納順序変更キューの第２のパーティションに前記格納エントリを作成することと、
前記マルチスレッド・モードで前記処理ユニットが動作することに応答して、前記格納命令が前記第１の格納パイプ上で発行されているということに基づいて、前記処理ユニットの前記第１のスレッドによって、前記格納順序変更キューの前記第１のパーティションの第１の所定の部分に前記格納エントリを作成することと
を実行するようにさらに構成されている、請求項１に記載の処理ユニット。
前記読み込み順序変更キューが、前記ＬＳＵの読み込みパイプごとに１つのパーティションを含んでいる、請求項１に記載の処理ユニット。
前記ＬＳＵが複数の読み込み命令を同時に動作させ、１つの読み込み命令が各読み込みパイプを使用する、請求項４に記載の処理ユニット。
前記格納順序変更キューが、前記ＬＳＵの格納パイプごとに１つのパーティションを含んでいる、請求項１に記載の処理ユニット。
前記ＬＳＵが複数の格納命令を同時に動作させ、１つの格納命令が各読み込みパイプを使用する、請求項６に記載の処理ユニット。
処理ユニットによる１つまたは複数の命令のアウトオブオーダー実行のためのコンピュータ実装方法であって、前記方法は、
前記処理ユニットの読み込み／格納ユニット（ＬＳＵ）によって、順序に従わずに実行される複数の命令を含んでいる命令のアウトオブオーダー（ＯｏＯ）ウィンドウを受信することと、
前記ＬＳＵによって、前記ＯｏＯウィンドウから命令を発行することと
を含んでおり、前記命令は、
前記ＯｏＯウィンドウから命令を選択することであって、前記命令が実効アドレスを使用する、前記選択することと、
前記命令が読み込み命令であることに応答して、
前記処理ユニットがシングルスレッド・モードで動作することに応答して、前記命令が第１の読み込みパイプ上で発行されているということに基づいて読み込み順序変更キューの第１のパーティションにエントリを作成することと、前記命令が第２の読み込みパイプ上で発行されているということに基づいて、前記読み込み順序変更キューの第２のパーティションに前記エントリを作成することと、
マルチスレッド・モードで前記処理ユニットが動作することに応答して、前記命令が前記第１の読み込みパイプ上で発行されているということに基づいて、前記処理ユニットの第１のスレッドによって、前記読み込み順序変更キューの前記第１のパーティションの第１の所定の部分に前記エントリを作成することと
によって発行される、コンピュータ実装方法。
前記マルチスレッド・モードにおいて、前記読み込み順序変更キューの前記第１のパーティションの前記第１の所定の部分が、前記第１の読み込みパイプを使用して前記処理ユニットの前記第１のスレッドによって発行された読み込み命令に固有である、請求項８に記載のコンピュータ実装方法。
前記命令が格納命令であることに応答して、
前記処理ユニットが前記シングルスレッド・モードで動作することに応答して、前記格納命令が第１の格納パイプ上で発行されているということに基づいて格納順序変更キューの第１のパーティションに格納エントリを作成することと、前記格納命令が第２の格納パイプ上で発行されているということに基づいて、前記格納順序変更キューの第２のパーティションに前記格納エントリを作成することと、
前記マルチスレッド・モードで前記処理ユニットが動作することに応答して、前記格納命令が前記第１の格納パイプ上で発行されているということに基づいて、前記処理ユニットの前記第１のスレッドによって、前記格納順序変更キューの前記第１のパーティションの第１の所定の部分に前記格納エントリを作成することと
をさらに含んでいる、請求項８に記載のコンピュータ実装方法。
前記読み込み順序変更キューが、前記ＬＳＵの読み込みパイプごとに１つのパーティションを含んでいる、請求項８に記載のコンピュータ実装方法。
前記ＬＳＵが複数の読み込み命令を同時に動作させ、１つの読み込み命令が各読み込みパイプを使用する、請求項１１に記載のコンピュータ実装方法。
前記格納順序変更キューが、前記ＬＳＵの格納パイプごとに１つのパーティションを含んでいる、請求項８に記載のコンピュータ実装方法。
前記ＬＳＵが複数の格納命令を同時に動作させ、１つの格納命令が各読み込みパイプを使用する、請求項１３に記載のコンピュータ実装方法。
プログラム命令が具現化されているコンピュータ可読記憶媒体を備えているコンピュータ・プログラム製品であって、前記プログラム命令は、処理ユニットに、
前記処理ユニットの読み込み／格納ユニット（ＬＳＵ）によって、順序に従わずに実行される複数の命令を含んでいる命令のアウトオブオーダー（ＯｏＯ）ウィンドウを受信することと、
前記ＬＳＵによって、前記ＯｏＯウィンドウから命令を発行することと
を含む動作を実行させるように前記処理ユニットによって実行可能であり、前記命令は、
前記ＯｏＯウィンドウから命令を選択することであって、前記命令が実効アドレスを使用する、前記選択することと、
前記命令が読み込み命令であることに応答して、
前記処理ユニットがシングルスレッド・モードで動作することに応答して、前記命令が第１の読み込みパイプ上で発行されているということに基づいて読み込み順序変更キューの第１のパーティションにエントリを作成することと、前記命令が第２の読み込みパイプ上で発行されているということに基づいて、前記読み込み順序変更キューの第２のパーティションに前記エントリを作成することと、
マルチスレッド・モードで前記処理ユニットが動作することに応答して、前記命令が前記第１の読み込みパイプ上で発行されているということに基づいて、前記処理ユニットの第１のスレッドによって、前記読み込み順序変更キューの前記第１のパーティションの第１の所定の部分に前記エントリを作成することと
によって発行される、コンピュータ・プログラム製品。
前記マルチスレッド・モードにおいて、前記読み込み順序変更キューの前記第１のパーティションの前記第１の所定の部分が、前記第１の読み込みパイプを使用して前記処理ユニットの前記第１のスレッドによって発行された読み込み命令に固有である、請求項１５に記載のコンピュータ・プログラム製品。
前記命令が格納命令であることに応答して、
前記処理ユニットが前記シングルスレッド・モードで動作することに応答して、前記格納命令が第１の格納パイプ上で発行されているということに基づいて格納順序変更キューの第１のパーティションに格納エントリを作成することと、前記格納命令が第２の格納パイプ上で発行されているということに基づいて、前記格納順序変更キューの第２のパーティションに前記格納エントリを作成することと、
前記マルチスレッド・モードで前記処理ユニットが動作することに応答して、前記格納命令が前記第１の格納パイプ上で発行されているということに基づいて、前記処理ユニットの前記第１のスレッドによって、前記格納順序変更キューの前記第１のパーティションの第１の所定の部分に前記格納エントリを作成することと
を含んでいる、請求項１５に記載のコンピュータ・プログラム製品。
前記読み込み順序変更キューが、前記ＬＳＵの読み込みパイプごとに１つのパーティションを含んでいる、請求項１５に記載のコンピュータ・プログラム製品。
前記ＬＳＵが複数の読み込み命令を同時に動作させ、１つの読み込み命令が各読み込みパイプを使用する、請求項１８に記載のコンピュータ・プログラム製品。
前記格納順序変更キューが、前記ＬＳＵの格納パイプごとに１つのパーティションを含んでおり、前記ＬＳＵが複数の格納命令を同時に動作させ、１つの格納命令が各読み込みパイプを使用する、請求項１５に記載のコンピュータ・プログラム製品。