JP2023047283A

JP2023047283A - クラスタ化されたデコードパイプラインのためのスケーラブルなトグル点制御回路

Info

Publication number: JP2023047283A
Application number: JP2022110794A
Authority: JP
Inventors: ラマクリシュナンサンダララジャン; Ramakrishnan Sundararajan; コムズジョナサン; Combs Jonathan; ジェイ．リヒトマーティン; J Licht Martin; スリナスサントシュ; Srinath Santhosh
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2021-09-24
Filing date: 2022-07-08
Publication date: 2023-04-05
Also published as: EP4155915A1; CN115858022A; EP4155915B1; US20230099989A1

Abstract

【課題】クラスタ化されたデコードパイプラインのためのスケーラブルなトグル点制御回路を有する装置及び方法を提供する。【解決手段】ハードウェアプロセッサコア１００は、複数のデコーダ回路１１４Ａ～１１６Ａを含む第１のデコードクラスタ１０８Ａと、複数のデコーダ回路１１４Ｂ～１１６Ｂを含む第２のデコードクラスタ１０８Ｂと、第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求された命令の送信をトグルするトグル点制御回路１２０と、を含む。トグル点制御回路は、第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求された命令の送信を切り替えるために、命令ストリーム内の位置を候補トグル点として決定し、命令ストリームの複数の以前のデコードの特性が位置について存在する回数を追跡し、デコードの特性回数に基づいて、決定した候補トグル点位置にトグル点を挿入させる。【選択図】図１

Description

本開示は、一般に、電子機器に関し、より具体的には、本開示の一例は、クラスタ化されたデコードパイプラインのためのトグル点挿入を実施するための回路に関する。

プロセッサ、またはプロセッサのセットは、命令セット、例えば、命令セットアーキテクチャ（ＩＳＡ）からの命令を実行する。命令セットは、プログラミングに関連するコンピュータアーキテクチャの一部であり、一般に、ネイティブデータタイプ、命令、レジスタアーキテクチャ、アドレシングモード、メモリアーキテクチャ、割り込みおよび例外処理、ならびに外部入出力（Ｉ／Ｏ）を含む。本明細書における命令という用語は、マクロ命令、例えば、実行のためにプロセッサに提供される命令、またはマイクロ命令、例えば、マクロ命令をデコードするプロセッサのデコーダから生じる命令を指すことができることに留意されたい。

本開示は、添付の図面の図に限定ではなく例として示されており、同様の参照符号は同様の要素を示している。

本開示の例による、複数のデコードクラスタおよびトグル点制御回路を有するプロセッサコアを示す。

本開示の例による、例示的なクラスタ化されたデコードプログラムフローを示す。

本開示の例による、トグル点追跡データ構造の例示的なフォーマットを示す。

本開示の例による、動的負荷分散のフロー図を示す。

本開示の例による、有限状態機械を保持する無効化のフロー図を示す。

本開示の例による、複数のデコードクラスタ間で命令ストリームのデコーディングを切り替えるためにトグル点を挿入するための動作を示すフロー図である。

本開示の例による、例示的なインオーダパイプライン、および例示的なレジスタリネーミング用のアウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。

本開示の例によるプロセッサに含まれる、インオーダアーキテクチャコアの例示的な例、および例示的なレジスタリネーミング用のアウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。

本開示の例による、オンダイインターコネクトネットワークへのその接続およびレベル２（Ｌ２）キャッシュのそのローカルサブセットを伴う、単一のプロセッサコアのブロック図である。

本開示の例による、図８Ａのプロセッサコアの一部の拡大図である。

本開示の例による、１つよりも多くのコアを有することができ、統合メモリコントローラを有することができ、統合グラフィックスを有することができるプロセッサのブロック図である。

本開示の一例による、システムのブロック図である。

本開示の一例による、より具体的な例示的なシステムのブロック図である。

本開示の一例による、第２のより具体的な例示的なシステムのブロック図を示す。

本開示の一例による、システムオンチップ（ＳｏＣ）のブロック図を示す。

本開示の例による、ソース命令セットにおけるバイナリ命令をターゲット命令セットにおけるバイナリ命令に変換するためのソフトウェア命令コンバータの使用を対比するブロック図である。

以下の説明では、多数の具体的な詳細が記載される。しかしながら、本開示の例は、これらの具体的な詳細なしで実施することができることが理解される。他の例では、この説明の理解を不明瞭にしないように、周知の回路、構造、および技術は詳細に示されていない。

本明細書における「一例」「例」などへの言及は、説明された当該例が、特定の特徴、構造、または特性を含み得ることを示すが、全ての例が、必ずしも当該特定の特徴、構造、または特性を含まなくてもよい。さらに、そのような語句は、必ずしも同じ例に言及するわけではない。さらに、ある一例に関連して特定の特徴、構造または特性が説明されている場合、明示の説明の有無に関わらず、他の例に関連して、そのような特徴、構造または特性に影響が及ぶことは、当業者の知識の範囲内であると考えられる。

（例えば、ハードウェア）プロセッサ（例えば、１つまたは複数のコアを有する）は、（例えば、ユーザレベル）命令（例えば、命令のスレッド）を実行して、データを操作し、例えば、算術、論理、または他の関数を実行することができる。例えば、ソフトウェアは、対応する動作を実行するために複数の命令を実行する（例えば、デコードして実行する）プロセッサ（例えば、コアまたはそのコア）に提供される複数の命令（例えば、マクロ命令）を含むことができる。特定の例では、プロセッサは、命令を１つまたは複数のマイクロ演算（μｏｐｓまたはｍｉｃｒｏ－ｏｐｓ）に変換（例えば、デコード）するための回路（例えば、１つまたは複数のデコーダ回路）を含み、例えば、これらのマイクロ演算はハードウェアによって（例えば、実行回路によって）直接実行される。命令（例えば、マクロ命令）に対応する１つまたは複数のマイクロ演算は、その命令のマイクロコードフローと称され得る。マイクロ演算は、マイクロ命令、例えば、プロセッサによるマクロ命令のデコーディングから生じるマイクロ命令と称され得る。一例では、命令は、命令セットアーキテクチャ（ＩＳＡ）の６４ビットおよび／または３２ビット命令である。一例では、命令は、Ｉｎｔｅｌ（登録商標）命令セットアーキテクチャ（ＩＳＡ）の（例えば、６４ビットおよび／または３２ビット）命令である。特定の例では、１つまたは複数のマイクロ演算への命令の変換は、プロセッサのパイプラインの命令フェッチおよび／またはデコード部分に関連付けられる。

特定のプロセッサ（例えば、特定のコア）は、例えば、デコード帯域幅を効率的に増加させる方法として、複数のデコードクラスタ（例えば、各クラスタは、それ自体の複数のデコーダ回路を有する）を実装する。特定の例では、デコーダ回路は、（例えば、マクロ）命令を、実行回路によって（例えば、プリミティブとして）実行される１つまたは複数のマイクロ演算のセットにデコードする。

しかしながら、特定の例では（例えば、フロントエンドフェッチユニットなどのフロントエンド回路において）、多数のデコードされる命令は複数のデコードクラスタで並列化されている。特定のプロセッサ（例えば、特定のコア）が複数の（例えば、プログラム順不同）デコードクラスタを実装するときに生じる問題は、デコード対象命令の割り当てを第１のデコードクラスタから第２の（または第３などの）デコードクラスタに切り替えるときを決定する（例えば、割り当てる）方法である。特定の例では、複数のデコードクラスタに作業を割り当てるには、デコード（例えば、およびフェッチ）（例えば、分岐予測器による）のために生成されている一連の命令（例えば、命令ポインタ）をデコード（例えば、フェッチおよびデコード）のための開始領域および終了領域に変換するための回路（例えば、論理回路）が必要である。特定の例では、分岐命令（例えば、分岐予測器による実行された分岐の予測）は、例えば、各デコードクラスタがそのそれぞれのデコーディングタスクで並列に動作する機会を提供するために、ストリーム内の以前の前の命令を第１のデコードクラスタに送信することから、次にストリーム内の以下の命令を第２のデコードクラスタに送信することへの命令ストリームのトグルをトリガするために使用される。特定の例では、分岐の最後のバイト（例えば、分岐命令）は現在の領域（例えば、第１のデコードクラスタによってデコードされているブロック）を終了し、実行された分岐のターゲットは次の領域（例えば、第２のデコードクラスタによるデコーディングのために割り当てられているブロック）を開始する。

残念ながら、分岐（例えば、実行された分岐）は、全てのコードシーケンス内に均一に分布しているわけではない。これは、制御フロー命令が非常に少ない場合に、計算集中コードの長いシーケンスにとって特に問題である。特定の命令ストリーム（例えば、ＳｔａｎｄａｒｄＰｅｒｆｏｒｍａｎｃｅＥｖａｌｕａｔｉｏｎＣｏｒｐｏｒａｔｉｏｎ（ＳＰＥＣ）浮動小数点（ＦＰ）ベンチマークコード）内の浮動小数点シーケンスは、単一の実行された分岐なしで数百の命令を処理することができる。トグル形式のないこのような長いシーケンスは、クラスタ化されたフロントエンドを効果的に狭める。これに対処するために、本明細書の特定の例は、特定の（例えば、長い連続）コード領域内にトグル点を挿入することによって動的負荷分散を利用する。

特定の例では、プロセッサ（例えば、コア）は、フロントエンド（例えば、デコード）クラスタ間をトグルするためにコード内の既存の実行された分岐に依存し、したがって、（例えば、ロングシーケンシャル）コードシーケンス内に追加のトグルを挿入する最も便利な方法は、選択された非分岐命令が実行された分岐であったかのように長いシーケンス内で処理することである（例えば、フロントエンド内でそのようにのみ処理される）。これらのトグル点は、「偽の分岐」と称され得る。したがって、特定の例は、コアの分岐予測器（例えば、分岐ターゲットバッファ（ＢＴＢ））のデータ構造を使用して、これらの偽の分岐の指示を有し（例えば、格納し）、デコードクラスタのトグル、したがって改善された負荷分散を可能にする。

本明細書の例は、例えば、本明細書に開示されたトグル点（例えば、偽の分岐）制御（例えば、挿入）回路および方法を介して、クラスタ化されたフロントエンドにおける動的負荷分散を提供する。本明細書の例は、トグル点の挿入および／または除去の濾過を介して最適化された動的負荷分散を提供する。特定の例では、本明細書で開示される動的負荷分散は、以前に見られた候補トグル点のデータ構造（例えば、テーブル）と共に、有限状態機械（ＦＳＭ）を利用することによる最適なトグル点（例えば、偽の分岐）の挿入の両方を処理する。本明細書の例は、例えばコード経路の変更に起因して、非最適に配置された（例えば、コードの命令ストリームにおいて）挿入されたトグル点を割り当て解除するための無効化スキームを提供する。したがって、本明細書の例は、例えば、動的コード（例えば、動的に変化するコード）の複雑な性質を全て処理しながら、クラスタ化されたデコーダにわたるデコーディング並列性を増加させ、分岐予測器における汚染を最小化し、および／またはフェッチ待ち時間を最適化する。

本明細書の例は、クラスタ化されたデコードマイクロアーキテクチャを提供し、デコードクラスタは、デコードするためにシーケンシャル（例えば、「生」）命令バイトのブロックが割り当てられる。特定の例では、シーケンスストリームのブレーク（例えば、実行された分岐）は、デコードクラスタ間で命令ストリームをトグルするために使用される。しかしながら、（例えば、シーケンシャル命令の非常に長いシーケンスに起因する）トグル点の欠如は、特定の例では並列性を制限する。本明細書の例は、例えば、長い命令ストリームを分割することによってこの問題を解決するトグル点挿入ハードウェアおよび方法について開示する。

特定の例では、トグル点制御回路（例えば、フィルタリング制御ロジック）（例えば、および対応するデータ構造（例えば、テーブル））は、動的負荷分散、例えば、クラスタ化されたフロントエンドの性能を展開するために重要である。本明細書の特定の例は、スケーラブルなトグル挿入フィルタのための回路および方法に関する。以下では、複数のデコードクラスタを有するプロセッサ（例えば、コア）のためのトグル点（例えば、偽の分岐）をどのように追加し、どのように除去するかを制御する回路（例えば、論理回路）およびデータ構造（例えば、テーブル）の例について説明する。本明細書の特定の例は、プログラマが実際に実行されたジャンプ（例えば、それは単に、例えば、非常に長いシーケンス内で、次のシーケンシャル命令にジャンプする）またはトグルをトリガするための別の指示を挿入することを必要とせず、例えば、これらの例は、代わりに、トグル点、例えば、実際に実行された分岐ではないトグル点の挿入によって（例えば、「偽の分岐」であるトグル点を挿入することによって）トグルをトリガするハードウェアを含む。本明細書の例は、例えば、人間の心ならびに／またはペンおよび紙を利用することなく、例えば、人間の心ならびに／またはペンおよび紙を利用して、（ｉ）第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求される命令の送信を切り替えるために、命令ストリーム内の位置を候補トグル点として決定することなく、（ｉｉ）命令ストリームの複数の以前のデコードの特性が位置について存在する回数を追跡することなく、または（ｉｉｉ）第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求された命令の送信を切り替えるために、回数に基づいて、位置にトグル点を挿入させることなく、例えば、トグル点を挿入するために人間（例えば、プログラマ）を必要とする代わりに、ハードウェア（例えば、本明細書に開示されるトグル点制御回路）を利用する。特定の例では、２つよりも多くのデコードクラスタが存在し、したがって、「第１の」クラスタから「第２の」クラスタへの切り替えは、任意のデコードクラスタから他のデコードクラスタのいずれか、例えば、次の論理的に連続したデコードクラスタへの切り替えであってもよいことを理解されたい。

図１は、本開示の例による、複数のデコードクラスタ１０８Ａ～１０８Ｂおよびトグル点制御回路１２０を有するプロセッサコア１００を示す。
プロセッサコア１００は、例えばシステムのプロセッサの複数のコアのうちの１つであってもよい。図示されているプロセッサコア１００は、（例えば、プロセッサコア１００によって実行されるできコード（例えば、命令）の１つまたは複数の分岐を予測するための）分岐予測器１０２を含む。

特定の例では、分岐動作（例えば、命令）は、例えば、無条件（例えば、分岐は、命令が実行されるたびに実行される）または条件付き（例えば、分岐の実行される方向は、条件に依存する）のいずれかであり、例えば、条件付き分岐（例えば、条件付きジャンプ）に続いて実行される命令は、分岐が依存する条件が解決されるまで確実に知られない。ここで、条件が解決されるまで待つのではなく、プロセッサの分岐予測器１０２（例えば、分岐予測器回路）は、分岐が実行されるか否かを予測するために分岐予測を実行する（例えば、投機的実行）ことができ、および／または（例えば、実行されると予測される場合）分岐のターゲット命令（例えば、ターゲットアドレス）を予測することができる。特定の例では、分岐が実行されると予測される場合、プロセッサコア１００は、分岐の実行された方向（例えば、経路）の命令、例えば、予測された分岐ターゲットアドレスで見つかった命令をフェッチして投機的に実行する。分岐予測に続いて実行される命令は、プロセッサが予測が正しいかどうかをまだ判定していない特定の例では投機的である。特定の例では、プロセッサコア１００は、パイプライン回路のバックエンド（例えば、実行回路１３６、および／またはリタイアメント（ライトバック）回路１３４において）で分岐命令を解決する。特定の例では、分岐命令がプロセッサによって（例えば、バックエンドによって）実行されないと判定された場合、実行された分岐命令の背後のパイプライン回路に現在ある全ての命令（例えば、およびそれらのデータ）がフラッシュされる（例えば、廃棄される）。特定の例では、分岐予測器１０２（例えば、分岐予測器回路）は、次の（例えば、入力）分岐を予測するために分岐の過去の挙動から学習する。特定の例では、分岐予測器１０２は、（例えば、元のプログラム順序で連続している）命令の適切なサブセットをコードのブロック（例えば、分岐命令で終了する）として予測する。一例として、プロセッサコア１００は、実行するためのコードを受信する段階ができ、それに応答して、コードをブロックに分割することができる。

特定の例では、分岐予測器１０２は、例えば、予測された分岐、例えば、予測された実行された分岐に関する（例えば、本物および偽）情報を格納するために、分岐ターゲットバッファ（ＢＴＢ）１１２を含む。特定の例では、分岐予測器１０２は、分岐命令（例えば、実行される可能性が高い分岐命令（例えば、予め選択された分岐命令））のターゲット命令を予測する。特定の例では、分岐予測器１０２（例えば、そのＢＴＢ１１２）は、その後、分岐命令のターゲット命令で更新される。特定の例では、ソフトウェアはハードウェアＢＴＢを管理し、例えば、ソフトウェアは予測モードを指定し、またはＢＴＢを書き込む命令のモードによって暗黙的に定義される予測モードを使用して、エントリにモードビットも設定する。特定の例では、分岐予測器１０２の各エントリ（例えば、そのＢＴＢ１１２において）は、タグフィールドおよびターゲットフィールドを含む。特定の例では、ＢＴＢ内の各エントリのタグフィールドは、分岐命令を識別する命令ポインタ（例えば、メモリアドレス）の少なくとも一部を格納する。特定の例では、ＢＴＢ内の各エントリのタグフィールドは、コード内の分岐命令を識別する命令ポインタ（例えば、メモリアドレス）を格納する。特定の例では、ターゲットフィールドは、同じエントリのタグフィールドで識別された分岐命令のターゲットの命令ポインタの少なくとも一部を格納する。特定の例では、分岐予測器１０２のエントリ（例えば、そのＢＴＢ１１２内）は、１つまたは複数の他のフィールドを含む。特定の例では、エントリは、分岐命令が実行されるかどうかの予測を支援するための別個のフィールドを含まず（または含み）、例えば、分岐命令が存在する場合（例えば、ＢＴＢ内）、実行されると見なされる。

特定の例では、異なるタイプのハードウェア回路（例えば、論理回路）がアウトオブオーダクラスタリングデコーディングにおける負荷分散のために実装される。例えば、いくつかの例では、クラスタバランス回路は、正しく機能するためにプロセッサコアの実行パイプライン全体の十分な待ち行列に依存するバックプレッシャヒューリスティックを実装する。他の例では、クラスタバランス回路は、分岐予測器ハードウェアを使用して、または利用して、デコードされていない命令を特定のデコードクラスタへ割り当てる。これらの割り当ては、デコードクラスタのワークロードのバランスをとるように、および／またはデコードクラスタの全てがフルまたはほぼフルの入力キュー（例えば、命令キュー１１０Ａ～１１０Ｂ）で動作するように試みる方法で行うことができる。特定の例では、クラスタバランス回路（例えば、トグル点制御回路１２０）は、デコード並列性を強制または増加させるために、追加のデータ（例えば、メタデータ）を有する予測された実行された分岐の分岐ターゲットバッファ（ＢＴＢ）１１２エントリを拡張する。特定の例では、クラスタバランス回路（例えば、トグル点制御回路１２０）は、「偽の予測された実行された分岐」を表すエントリを挿入し、例えば、デコード並列性を強制または増加させるためにこれらのエントリをメタデータで拡張することができる。

特定の例では、分岐ターゲットバッファ１１２は、デコードクラスタ間の負荷分散アクションをトリガするために使用可能な情報を含むエントリを含む。特定の例では、分岐ターゲットバッファ１１２は、実際のおよび偽の予測された実行された分岐に関する情報を格納するように構成される。特定の例では、分岐ターゲットバッファ１１２は、複数のエントリを含む。特定の例では、分岐ターゲットバッファ１１２内のエントリは、以下のうちの１つまたは任意の組み合わせを含む：（ｉ）分岐命令アドレスを表すデータを格納するための各エントリのフィールド（例えば、エントリにアクセスするために使用される）、（ｉｉ）そのアドレスがエントリの第１のフィールド内のデータによって表される分岐命令の予測されたターゲットアドレスを表すデータを格納するための各エントリのフィールド、例えば、偽の予測された分岐に対応するエントリの場合、データは予測された分岐アドレスではなくプログラム順序の次の命令のアドレスを表す、（ｉｉｉ）負荷分散重み値を表すデータを格納するための各エントリのフィールド（例えば、このフィールドにおける値は、プロセッサコアバックエンドもしくはその実行回路に配信されたマイクロ演算（ｕｏｐ）の数を示す実行パイプラインのダウンストリーム構成要素から受信したデータの相対値、各デコードクラスタによる、もしくは各ブロックについての、１つもしくは複数の閾値と比較した場合の各クラスタもしくはブロックのデコード待ち時間、および／もしくは各ブロックの実行待ち時間を示すことができ、特定の例では、このフィールドの「高い」値は、取得されたデータが特定の負荷分散アクション（クラスタ切り替えの強制もしくはクラスタ切り替えの抑制など）を実行するための閾値を超えていることを示し、このフィールドの「低い」値は、取得された値が閾値未満であることを示し、それを下回ると別の負荷分散アクションが実行される場合があり、および／もしくはこのフィールドの「中程度の」値は、実行パイプラインのダウンストリーム構成要素から取得したデータに基づいて、負荷分散アクションを実行する必要がないことを示す）、ならびに／または（ｉｖ）対応する予測された実行された分岐に関連付けられた１つもしくは複数の他のタグを表すデータ、例えば、対応するエントリが実際の予測された実行された分岐（例えば、「ＲＥＡＬ」）を表すか、もしくは偽の予測された実行された分岐（例えば、「ＦＡＫＥ」）を表すかを示すデータを格納するための各エントリのフィールド。

特定の例では、分岐ターゲットバッファ１１２などの分岐ターゲットバッファ内のエントリは、クラスタを切り替えるかどうかおよびいつ切り替えるかを決定し、そうでなければ行われるはずのクラスタ切り替えを抑制し、ならびに／またはクラスタを切り替えるかどうかおよびいつ切り替えるか、もしくはそうでなければ行われるはずのクラスタ切り替えを抑制するかどうかおよびいつ抑制するかに関する決定を偏らせるために使用可能な任意のタイプの情報で注釈付けされる。特定の例では、ターゲットバッファ１１２内の異なるエントリ内に異なる数のフィールドが入力されてもよい。例えば、いくつかのフィールドは、特定の分岐命令エンコーディングに適用できない場合がある。特定の例では、分岐ターゲットバッファ１１２などの分岐ターゲットバッファの各エントリに含まれる情報のタイプは、ｕｏｐカウントを表す数値データ、待ち時間値、命令キャッシュミス、命令ＴＬＢミス、および／または複数のデコードクラスタ間の不均衡なワークロードを示すことができる任意の他の情報を含む。特定の例では、１つまたは複数のフィールド内のデータは、実行パイプラインのダウンストリーム構成要素、分岐予測器、リタイアメントパイプライン（例えば、リタイアメントユニット）、命令キャッシュ、命令ＴＬＢ、または他の場所から取得された２つ以上の情報の関数であるヒューリスティックに基づいて、クラスタバランサ、フェッチ回路（例えば、フェッチ回路１０４の命令ポインタ（ＩＰ）発生器）、または分岐予測器によって計算された重み値を表すことができる。次いで、これらの重み値を１つまたは複数の閾値重み値と比較して、特定の負荷分散アクションを行うかどうか、およびいつ行うかを決定することができる。特定の例では、命令ミスが発生すると（例えば、命令変換索引バッファ（ＴＬＢ）によるルックアップの場合）、フェッチ回路１０４は、同じページ内の命令ポインタ値を同じデコードクラスタによって全てデコードされるように指示するために、クラスタ切り替えを強制する。

特定の例では、分岐ターゲットバッファ１１２などの分岐ターゲットバッファの各エントリに含まれる１つのフィールド内のデータは、対応する分岐命令に遭遇したときにクラスタ切り替えが実行されるべきであることを明示的に示す。特定の条件下で、このフィールドに値を書き込んで（例えば、フェッチ回路１０４またはトグル点制御回路１２０によって）、クラスタを強制的に切り替えることができる。別の例では、分岐ターゲットバッファ１１２などの分岐ターゲットバッファの各エントリに含まれる１つのフィールド内のデータは、対応する分岐命令に遭遇したときにそうでなければ実行されるはずのクラスタ切り替えが代わりに抑制されるべきであることを明示的に示す。特定の条件下で、このフィールドに値を書き込んで（例えば、フェッチ回路１０４またはトグル点制御回路１２０によって）、クラスタ切り替えの抑制を強制することができる。

特定の例では、第１のクラスタによるデコーディングのための命令を送信することから、代わりに第２のクラスタによるデコーディングのための命令を送信することへのトグルが望まれる場合（例えば、ブロック内で配信されたｕｏｐの数が閾値、例えば、３２未満であり、および／またはプログラム可能である閾値を超えたとき、ならびに場合）、「偽」実行された分岐がＢＴＢに挿入される。この偽の分岐には、本物ではない分岐挙動をトリガしないように、偽の分岐に固有のＢＴＢ内の分岐タイプエンコーディングが与えられ得る。ここで、用語「本物ではない分岐」は、通常、ＢＴＢ１１２のエイリアス問題に起因して発生する可能性がある、非分岐で予測された実行された分岐を指すことができる。特定の例では、本物ではない分岐が検出された場合、ＢＴＢにおける予測は無効化される。対照的に、特定の例では、「偽の分岐」指示がデコードパイプラインを渡され、予測された実行された分岐更新で行われるように、ＢＴＢ１１２内の偽の分岐エントリは、最終ｕｏｐカウント（例えば、または最終ｕｏｐカウントが閾値を超える場合は０ｘ０の値）で注釈付けされ、ターゲットアドレスとして次のシーケンシャル命令ポインタを含むことができる。通常の（「実際の」）予測された実行された分岐のエントリとは異なり、偽の分岐の割り当てポイントは命令実行前で（例えば、いくつかの例では、分岐アドレス計算ポイントで）あり得る。特定の例では、この第２のクラスタバランス手法の変形では、偽の分岐挿入は命令キャッシュ１０６内でヒットするブロックに制限される。そのような例では、別の状態は、予測時間からデコードパイプラインの最後までブロックと共に搬送され得る。さらに別の変形例では、このクラスタバランス手法は、最近の命令キャッシュミスがあったことを単に追跡することによって近似され得る。

いくつかの例では、長い基本ブロック（例えば、およびマイクロコードフロー）を含むワークロードをバランスするときに偽の分岐を使用することによって、およびトグル点を示すためのＢＴＢ１１２内の追加されたフィールドを使用することによって、プロセッサコア１００は、ＢＴＢ１１２に（例えば、完全に）依存して、ほぼ最適なバランスでクラスタ負荷分散を実行するために必要な情報を提供する。

追加的または代替的に、本明細書の特定の例は、例えば、本明細書に開示されたトグル点（例えば、偽の分岐）制御（例えば、挿入）回路および方法を介して、クラスタ化されたフロントエンドにおける動的負荷分散を提供する。本明細書の特定の例は、例えば、追加的または代替的に、閾値を超えるブロック内で配信されているｕｏｐの数に基づいてデコードクラスタ間のトグルを制御するために、トグル点挿入および／または除去の濾過を介して最適化された動的負荷分散を提供する。特定の例では、本明細書で開示される動的負荷分散アルゴリズムは、例えば、追加的または代替的に、閾値を超えるブロック内で配信されているｕｏｐの数に基づいてデコードクラスタ間のトグルを制御するために、以前に見られた候補トグル点のデータ構造（例えば、テーブル）と共に有限状態機械（ＦＳＭ）を利用することによって、最適なトグル点（例えば、偽の分岐）の挿入の両方を処理する。

図２は、本開示の例による、例示的なクラスタ化されたデコードプログラムフロー２００を示す。例えば、クラスタ０は図１のデコードクラスタ１０８Ａであり、クラスタ１は図１のデコードクラスタ１０８Ｂである。プログラムフロー２００は、コードブロックＡ～Ｆ（例えば、Ａはプログラム順で「最も古い」コードブロックであり、Ｆはプログラム順で「最も若い」コードブロックである）に分割された（例えば、プログラム）コード（例えば、命令）を示し、各コードブロックは、デコーディングのためにデコードクラスタ０またはデコーダクラスタ１のいずれかに割り当てられる。

再び図１を参照すると、プロセッサコア１００（例えば、フェッチ回路１０４および／または分岐予測器１０２を介して）は、例えば、デコードクラスタ０１０８Ａに送信された第１の命令ブロックＡ、デコードクラスタＮ１０８Ｂに送信された（プログラム順で次に、例えばより若い）第２の命令ブロックＢなど、デコードクラスタに命令ブロック（例えば、図２のブロックＡ～Ｆ）を送信することができる。２クラスタの例では、第３の（プログラム順で次に、例えばより若い）命令ブロックＣが、次に利用可能なデコードクラスタに（例えば、それがその現在の命令ブロックのデコードを終了した後で）送信され得る。２クラスタの例では、第３の（プログラム順で次に、例えばより若い）命令ブロックＣが、次のデコードクラスタに（例えば、この例ではデコーダクラスタ１０８Ａに）送信され得る。２つのデコードクラスタ１０８Ａ～１０８Ｂが示されているが、３つ以上のクラスタが利用されてもよい（例えば、「Ｎ」は１より大きい正の整数である）ことを理解されたい。本明細書の例は、例えば、人間（例えば、プログラマ）がトグル点を命令ストリームに挿入することなく、トグル点制御回路１２０がトグル点（例えば、ＢＴＢ１１２への偽の分岐）を決定して、デコード対象命令のストリームに挿入することを可能にする。例えば、次のコードブロックＢを示すコードブロックＡの最後のトグルが始まる。

特定の例では、各デコードクラスタは、例えば、第１のデコーダ回路１１４Ａ（例えば、デコーダ）および第２のデコーダ回路１１６Ａ（例えば、デコーダ）を含むデコードクラスタ１０８Ａと、第１のデコーダ回路１１４Ｂ（例えば、デコーダ）および第２のデコーダ回路１１６Ｂ（例えば、デコーダ）を含むデコードクラスタ１０８Ｂとを用いて、相互にアウトオブオーダでコードの異なる基本ブロックをデコードできる２つ以上（例えば、スーパースカラｘ８６）の命令デコーダを含む。特定の例では、デコードクラスタのうちの１つまたは複数は、それぞれ３つ（またはそれ以上）のデコーダ回路を有し、例えば、３つのデコードクラスタは、それぞれ９幅デコード全体に対して３つのデコーダ回路を有する。

特定の例では、プロセッサコア１００の分岐予測器１０２は、例えば、１つまたは複数のトグル点に基づいて、コードを個々のブロック（例えば、プログラムからの連続した命令のセット）に分割する。特定の例では、プロセッサコア１００のフェッチ回路１０４は、例えば、本開示による１つまたは複数のトグル点に基づいて、コードを個々のブロック（例えば、プログラムからの連続した命令のセット）に分割する。次いで、個々のコードブロックは、デコーディングのためにそれぞれのデコードクラスタに送信され得る。

任意に、プロセッサコア１００は、例えば、メモリからロードする必要なしに１つまたは複数の命令をキャッシュするための（例えば、レベル１）命令キャッシュ１０６を含む。特定の例では、フェッチ回路１０４は、命令キャッシュ１０６を介してそれぞれのデコードクラスタにコードブロックを送信する。命令キャッシュ１０６は、命令キャッシュタグおよび／または命令変換索引バッファ（ＴＬＢ）を含むことができる。

特定の例では、コードブロックがそれらの対応するデコードクラスタ１０８Ａ～１０８Ｂに送信されると、各デコードクラスタは並列にコードブロックのデコードを開始する（例えば、その中の並列デコーダ回路を介して）。特定の例では、デコーダおよび／またはデコードクラスタは互いに独立して動作するため、コードブロックはアウトオブオーダでデコードされ得る（例えば、プログラムの順序外）。特定の例では、割り当て回路１３４は、適切なプログラム順序で動作（例えば、マイクロ演算）を実行回路１３６（例えば、実行ユニット）に割り当てる役割を果たす。

プロセッサコアは、第１のセット１１２Ａ内の複数のデコーダ回路１１４Ａ～１１６Ａを有する第１のデコードクラスタ１０８Ａと、第２のセット１１２Ｂ内の複数のデコーダ回路１１４Ｂ～１１６Ｂを有する第２のデコードクラスタ１０８Ｂとを示す。特定の例では、（例えば、各）デコーダ回路（１１４Ａ、１１６Ａ、１１４Ｂ、１１６Ｂ）は、（例えば、マクロ）命令を、実行回路１３６によって（例えば、プリミティブとして）実行される１つまたは複数のマイクロ演算のセットにデコードする。特定の例では、デコーダ回路（１１４Ａ、１１６Ａ、１１４Ｂ、１１６Ｂ）は、マイクロコードシーケンサ１４２（例えば、任意のデコードクラスタおよび／またはデコーダ回路から分離されたマイクロコードシーケンサ）を利用することなく、特定の（例えば、マクロ）命令を１つもしくは複数のマイクロ演算の対応するセットにデコードし、および／またはマイクロコードシーケンサ１４２（例えば、任意のデコードクラスタおよび／またはデコーダ回路から分離されたマイクロコードシーケンサ）を利用することによって、他の（例えば、マクロ）命令（例えば、複合命令セットコンピュータ（ＣＩＳＣ）命令）を１つもしくは複数のマイクロ演算の対応するセットにデコードする。一例では、デコーダ回路（１１４Ａ、１１６Ａ、１１４Ｂ、１１６Ｂ）は、サイクルごとに特定の数のマイクロ演算（例えば、サイクルあたり１つのマイクロ演算および／またはサイクルあたり１～４つのマイクロ演算）を出力する。特定の例では、「マイクロコーディングされた」命令は、一般に、例えば、デコーダ回路によって直接その命令の１つまたは複数のマイクロ演算のセットを生成する代わりに、デコードクラスタ（例えば、デコーダのセット）が、マイクロコードシーケンサメモリ１３２（例えば、リードオンリメモリ（ＲＯＭ））からデコードパイプラインに（例えば、対応する命令デコードキューに）１つまたは複数の（例えば、複数の）マイクロ演算（μｏｐｓ）の対応するセットをロードするようにマイクロコードシーケンサ１４２に要求する命令を指す。例えば、いくつかの（例えば、複合）（例えば、ｘ８６）命令を実装するために、マイクロコードシーケンサ１４２を使用して、命令を一連のより小さい（例えば、マイクロ）演算（ｍｉｃｒｏ－ｏｐｓまたはμｏｐｓとも称される）に分割する。

特定の例（例えば、デコーディング／実行のために要求されているコードについて）では、ハードウェア回路（例えば、フェッチ回路１０４または命令キャッシュ１０６論理回路）は、デコード対象命令をデコードクラスタ（例えば、そのキュー）１０８Ａ～１０８Ｂに送信する。特定の例では、プロセッサコア１００内のハードウェア回路（例えば、フェッチ回路１０４）は、プログラム順に命令ブロック内のデコードされていない命令のストリーム（例えば、デコードされていない命令を表す命令ポインタ値）の生成を開始し、例えば、複数のデコードクラスタ１０８Ａ～１０８Ｂのうちの異なるものにトグルするためのトグル点に達するまで、それらをプロセッサ内の複数のデコードクラスタ１０８Ａ～１０８Ｂのうちの所与のものに向ける。

特定の例では、トグル点制御回路１２０は、（例えば、命令キャッシュ１０６内でトグルを引き起こす命令を挿入するなど、命令ストリームへの命令の挿入を引き起こすことによって）トグル点を追加および／または除去する。特定の例では、トグル点制御回路１２０は、トグル点（例えば、「偽の分岐」としてマークされた命令）を挿入して、それにより、（例えば、プログラム順に）命令ストリーム内でそのポイント（例えば、偽の分岐）に遭遇すると、複数のデコードクラスタ１０８Ａ～１０８Ｂのうちの１つによるトグル点の直前（例えば、またはそこで）の命令のための命令ストリームデコーディングが、トグル点の直後（例えば、またはそこで）の命令のために複数のデコードクラスタ１０８Ａ～１０８Ｂのうちの異なる１つに転送される。特定の例では、トグル点は、命令ストリーム内の既存の命令を「偽の分岐」としてマークすることによって挿入される。特定の例では、「偽の分岐」としてマークされた追加の（例えば、新しい）命令を命令ストリームに挿入することによって、トグル点が挿入される。

特定の例では、トグル点制御回路１２０は、分岐予測器１０２、例えば、そのＢＴＢ１１２内のトグル点を追加および／または除去する。特定の例では、トグル点制御回路１２０は、例えば、本明細書の開示に従って、分岐予測器１０２内の偽の分岐命令、例えば、そのＢＴＢ１１２が、トグル点として使用されるように追加する。特定の例では、トグル点制御回路１２０は、例えば、トグルを示す指示（例えば、メタデータデータ）を使用して、予測された実行された分岐に（例えば、トグル点制御回路１２０と分岐予測器１０２（例えば、ＢＴＢ１１２）との間の結合１２４を介して）指示を追加することによって、デコードクラスタを切り替えるための指示を（例えば、ＢＴＢ１１２のエントリに）追加する。特定の例では、トグル点制御回路１２０は、（ｉ）第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求された命令の送信を切り替えるために、命令ストリーム内の位置を候補トグル点として決定し、（ｉｉ）命令ストリームの複数の以前のデコードの特性が位置について存在する回数を追跡し、および／または（ｉｉｉ）第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求された命令の送信を切り替えるために、回数に基づいて、位置にトグル点を挿入させる。特定の例では、クラスタ間のトグルは、純粋に命令バイト（例えば、命令バイトのキャッシュラインが複数の命令を含み得る場合）に基づいており、例えば、分岐に基づいておらず、命令に基づいておらず、ｕｏｐなどに基づいていない。特定の例では、クラスタ間のトグルは、純粋に命令バイト（例えば、命令バイトのキャッシュラインが複数の命令を含み得る場合）に基づいておらず、例えば、分岐、命令、ｕｏｐなどに基づく。特定の例では、プロセッサコア（または他の構成要素）は、命令バイトを（例えば、複数のキャッシュラインにまたがる可変長命令）命令に再アセンブルするように構成された分割デコードユニットを含まない。特定の例では、ハードウェアプロセッサコア（例えば、トグル点制御回路１２０）は、例えば、命令キャッシュの読み出しに基づいて単にトグルするのとは対照的に、本開示による予測器および／またはトグル点追跡データ構造を使用する。特定の例では、コード（例えば、命令）ストリームのトグルは、コード（例えば、命令）ストリームの以前のデコードに基づいて挿入（または除去）される。

特定の例では、トグル点制御回路１２０は、例えば、第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求された命令の送信を切り替えるために、命令ストリーム内の位置を候補トグル点として決定し、および／または命令ストリームの複数の以前のデコードの特性が位置について存在する回数を追跡するために、追跡データ構造１２６を維持する（例えば、および含む）。特定の例では、特性は、ｕｏｐ、命令、バイト、または（例えば、複数回デコードされる）命令ストリームの任意の他の特性の１つまたは任意の組み合わせを含む。特定の例では、特性は、ｕｏｐ数、命令数、バイト数、または（例えば、複数回デコードされる）命令ストリームの任意の他の特性の１つまたは任意の組み合わせを含む。

特定の例では、トグル点制御回路１２０は、１つまたは複数のカウンタ１２８（例えば、本明細書で説明されるタイムアウトカウンタ）を維持する（例えば、および含む）。特定の例では、追跡データ構造１２６は図３のフォーマットに従っている。

特定の例では、トグル点制御回路１２０は、各デコードクラスタ内の（例えば、単一）命令デコードキューへの結合、例えば、トグル点制御回路１２０と命令デコードキュー１１８Ａとの間の結合１２２Ａ、およびトグル点制御回路１２０と命令デコードキュー１１８Ｂとの間の結合１２２Ｂを含む。

特定の例では、トグル点制御回路１２０は、例えば、以下および／または図４で説明するように、１つまたは複数の閾値１３０を読み取る（例えば、および含む）。特定の例では、閾値１３０は、閾値条件、例えば、ｕｏｐ、命令、バイト、または命令ストリームの任意の他の特性の閾値数を示す値である。

命令をそのそれぞれのマイクロ演算（例えば、デコーダ回路またはマイクロコードシーケンサによる）にデコードした後、特定の例では、マイクロ演算は命令デコードキューに格納される。図１に（例えば、デコード段階の終わりに）おいて、デコードクラスタ１０８Ａは、デコーダ回路１１４Ａ～１１６Ａから（例えば、およびマイクロコードシーケンサから）それぞれのマイクロ演算を受信する命令デコードキュー１１８Ａ（例えば、命令キュー）を含み、デコードクラスタ１０８Ｂは、デコーダ回路１１４Ｂ～１１６Ｂから（例えば、およびマイクロコードシーケンサから）からそれぞれのマイクロ演算を受信する命令デコードキュー１１８Ｂ（例えば、命令キュー）を含む。任意に、スイッチ１３２は、命令デコードキュー１１８Ａ～１１８Ｂの出力を割り当て回路１３４の入力に結合するために含まれる。特定の例では、割り当て回路１３４は、命令デコードキュー１１８Ａ～１１８Ｂ（例えば、プログラム順に）から実行回路１３６の実行回路（例えば、マイクロ演算のタイプおよび実行回路のタイプ、例えば、整数、ベクトル、浮動小数点などに基づく）にマイクロ演算を送信する。一例では、１つまたは複数の命令デコードキューはプログラム順序から外れてロードされるが、プログラム順序で読み取られる。実行回路１３６は、例えば、レジスタ１３８および／またはデータキャッシュ１４０（例えば、キャッシュ階層の１つまたは複数のレベル）などのストレージにアクセスすることができる。結果が実行回路１３６によって生成されると、リタイアメント回路１３４は、対応する命令をリタイアすることができる。

図３は、本開示の例による、トグル点追跡データ構造（例えば、図１のトグル点追跡データ構造１２６）の例示的なフォーマット３００を示す。特定の例では、トグル点制御回路は、フォーマット３００に従って追跡データ構造を維持する（例えば、および含む）。特定の例では、追跡データ構造は、テーブル（例えば、偽の分岐挿入（ＦＢＩ）テーブル）である。特定の例では、単一の追跡データ構造が、全てのクラスタ化されたデコーダにわたって共有される。特定の例では、追跡データ構造は、完全に関連付けられている。フォーマット３００は、１つまたは複数のエントリを含み、例えば、Ｎは１より大きい任意の正の整数である。一例では、Ｎ＝８である。

特定の例では、各エントリのフォーマット３００は、トグル点（例えば、偽の分岐）を挿入する候補点（例えば、命令）を示すタグフィールドを含む。特定の例では、各タグは、例えば、図４を参照して以下で説明するように、マイクロ演算閾値を超えるマイクロ演算（例えば、命令が複数のマイクロ演算にデコードされる場合）を含む命令を識別する。特定の例では、例えば、ＢＴＢ１１２内で、候補点が使用されると判定されると、実際のトグル点（例えば、偽の分岐命令）が候補トグル点に、または候補トグル点の直後に挿入される。

特定の例では、各エントリのフォーマット３００は、エントリが有効または無効であることを示す有効フィールドを含み、例えば、トグル点追跡データ構造内の無効なエントリ（例えば、エントリの第２の列に無効な指示でマークされている）が割り当てのために最初に選択される。特定の例では、全てのエントリが有効である場合、ｌｅａｓｔ－ｒｅｃｅｎｔｌｙ－ｕｓｅｄ（ＬＲＵ）ポリシーに従って最長未使用時間（例えば、そのエントリのタイマに基づいて）のエントリが置き換えられ、例えば、「一回使用割り当て解除ポリシー」と共にＬＲＵポリシーが置き換えられるエントリを選択する。

特定の例では、各エントリのフォーマット３００は、任意の命令ストリームの以前のデコード中に候補トグル点（例えば、候補命令）に遭遇した回数を示すヒットカウントフィールドを含む。ヒットカウントフィールドの使用例は、図４を参照してさらに詳細に説明される。

特定の例では、候補点がトグル点として使用されると判定されると、トグル点制御回路１２０は、例えば、対応する偽の分岐（例えば、トグルを引き起こす）をＢＴＢ１１２に挿入することによって、トグル点の指示をアクティブ化させる。

図４は、本開示の例による、動的負荷分散のフロー図４００を示す。図４では偽の分岐挿入（ＦＢＩ）テーブルという用語が使用されているが、例えば、トグル点追跡データ構造など、他のデータ構造が利用されてもよいことを理解されたい。特定の例では、トグル点制御回路１２０は、フロー図４００に従って動作する。

特定の例では、フロー図４００（例えば、アルゴリズム）は、シーケンシャル（例えば、ｘ８６）命令のブロックを含むｕｏｐの数をカウントすることに基づく。これは現在の「ｕｏｐ＿ｃｎｔ」と称され得る。特定の例では、マイクロ演算カウント（ｕｏｐ＿ｃｎｔ）は、最後の実際のトグルまたはトグル候補に遭遇してからデコードされたマイクロ演算の数である。特定の例では、フロー図（例えば、アルゴリズム）は、現在のマイクロ演算カウント（ｕｏｐ＿ｃｎｔ）と比較し、特定の閾値は調整可能であり（例えば、変更可能であり）、例えば、閾値１、閾値２、閾値３、および閾値４（例えば、図１の閾値１３０に格納されているように）である。

特定の例では、閾値１は、トグル点（例えば、偽の分岐）、例えば、まだ命令ストリーム内にないトグル点（例えば、実際の分岐）を挿入するための候補位置を決定するために閾値１が使用されるように、トグル以降に見られたデコードされたマイクロ演算の閾値数（例えば、２４）を示す。

特定の例では、閾値２は、例えば、トグルが閾値２のｕｏｐ数内で発生した場合、候補はドロップされ、トグル点追跡データ構造に割り当てられないなど、例えば、将来のマイクロ演算数においてコードストリームが既に別のトグルを有する場合に、閾値２がトグル（例えば、偽の分岐）の挿入を回避するために使用されるように、トグルの後に見られたデコードされたマイクロ演算の異なる閾値数（例えば、３２）を示す。

特定の例では、閾値３は、例えば、以前に挿入された偽の分岐がいつ無効にされるべきか（例えば、予測構造（例えば、ＢＴＢ）において無効化される）を判定するために閾値３が使用されるように、デコードされたマイクロ演算の閾値数（例えば、１６）を示す。例えば、偽の分岐につながるマイクロ演算カウント（ｕｏｐ＿ｃｎｔ）が閾値２と閾値１との差（例えば、上記の例では８）を下回っているかどうかをチェックし、下回っている場合、偽の分岐は直ちに除去することができ（例えば、予測構造（例えば、ＢＴＢ）から）、この差を上回るが閾値３を下回る場合、除去することができる。

特定の例では、既に予測構造内にある偽の分岐（例えば、ＢＴＢ内の偽の分岐として）は、それがもはや効率的でないようにコード経路が変化した場合、例えば、この経路上のトグル点追跡データ構造（例えば、ＦＢＩ）との相互作用がない場合、無効化される。特定の例では、追跡エントリ（例えば、「ＦＢＩ」エントリ）は、そのコードセクションにトグル点がなく、システム（例えば、コア）が新しい偽の分岐を挿入することが望ましい十分なｕｏｐをデコードした場合にのみ割り当てられる（または、割り当て解除される（例えば、無効化される））。特定の例では、トグル点追跡データ構造（例えば、ＦＢＩ）は、偽の分岐を追加することが負荷分散に役立つはずの候補位置を追跡するための保持領域であるが、その候補がトグル点追跡データ構造（例えば、ＦＢＩ）から予測構造（例えば、ＢＴＢ）に割り当てることを可能にする前に、同じ／類似の状況がデコーダで複数回（一実装形態では、倍数はバイパスの場合が１でなければ２倍であるが、任意の値とすることができる）発生することを確認したい。特定の例において、候補（例えば、分岐）がトグル点追跡データ構造（例えば、ＦＢＩ）においてヒットし、複数の要件が満たされる場合、その候補（例えば、位置）は、例えば、予測構造（例えば、ＢＴＢ）に挿入され、対応するエントリは、もはや保持される必要がないため（例えば、これは実際のトグルであり、候補トグルではない）、トグル点追跡データ構造（例えば、ＦＢＩ）から割り当て解除される。

特定の例では、閾値４は、例えば、候補位置が偽の分岐としてＢＴＢに昇格される場合に、候補位置からトグル点の実際の位置に昇格されるトグル点追跡データ構造内のエントリのヒットの閾値数（例えば、１または２）を示す。

特定の例では、グローバルリセットは、全ての追跡データをクリアする、例えば、トグル点追跡データ構造（例えば、だが閾値ではない）をクリアする。

特定の例では、「ｍｕｌｔｉｐｌｅ」値は、トグルなしで見られるトグル候補の総数である。特定の例では、識別されたトグル候補の数が「ｍｕｌｔｉｐｌｅ」の閾値（例えば、図４では、これは４であるように示されており、これは、閾値１＝２４である例を想定して、４＊閾値１または４＊２４を超えるトグルなしで見られる命令の総数を意味する）を超えると、トグル点追跡データ構造（例えば、ＦＢＩ）挿入をスキップすることができ（例えば、「ＦＢＩバイパス」）、トグル候補は、例えば、予測構造（例えば、ＢＴＢ）に挿入されるなど、トグル点（例えば、偽の分岐）であるように直接昇格される。

特定の例では、「ｍｕｌｔｉｐｌｅ」値は、トグルなしで見られるマイクロ演算の総数（例えば、「閾値１」値によって示される数）である。例の「閾値１」値は２４であるが、他の例では任意の数とすることができる。

特定の例では、フロー図４００の動作は、例えば、マイクロ演算（ｕｏｐ）がデコードされるのを待つための（例えば、命令デコードキューに現れるための）４０２での待機状態、マイクロ演算が既にトグル原因命令であるかどうかを判定し、（ｉ）トグル原因命令であり、かつ「実際の」トグル（例えば、実際の「実行された」分岐マイクロ演算または対応するマクロ命令）であれば、ｕｏｐ＿ｃｎｔおよび複数のカウンタをクリアし、待機状態４０２に戻り、（ｉｉ）トグル原因命令であり、かつ「偽の」トグル（例えば、偽の「実行された」分岐マイクロ演算または対応するマクロ命令）であれば、比較４２４に進み、図示された閾値が比較され、ＢＴＢから４３０で偽の分岐を無効にするか、または比較４２６に進むかのいずれかに進み（例えば、図５に示すように、図示された条件が満たされた場合、４２８で有限状態機械（ＦＳＭ）を保持する無効化を開始する）、および（ｉｉｉ）トグル誘発命令（例えば、そのマイクロ演算）でなければ、４０６での閾値１の比較に進むための４０４でのトグルチェック（例えば、そのマイクロ演算）、４０８での候補保持（例えば、デコードされた追加のマイクロ演算をチェックするため）、４１０での候補トグルチェックの保持（例えば、追加のマイクロ演算がトグルであるかどうかをチェックするため）、４１２での閾値２の比較、４１４でのトグル点追跡データ構造（例えば、ＦＢＩ）バイパスのチェック、４１６でのトグル点追跡データ構造（例えば、ＦＢＩ）エントリの比較、ならびに４１８でのトグル点追跡データ構造（例えば、ＦＢＩ）におけるエントリの割り当てを含む。特定の例では、４２０で偽の分岐が割り当てられる。特定の例では、ヒットカウントの比較（例えば、図３に示すように）は、４２２でエントリに対して実行される。

特定の例では（例えば、通常の状況下では）、マイクロ演算カウント（ｕｏｐ＿ｃｎｔ）が閾値１に達すると、トグル（例えば、偽の分岐）の挿入の候補位置が選択される。特定の例では、この候補位置は完全に静的ではない可能性があるが、命令タイプ、長いマイクロコード（例えば、リードオンリメモリ）フロー（例えば、マイクロコードシーケンサから）の存在に基づく制限、または正確に閾値１にある命令（例えば、マイクロ演算）が候補であることを許可されないことを必要とする可能性がある他のハードウェアベースの制限があり得るためである。これに対処するために、特定の例では、最終候補は、命令ポインタ（ＩＰ）情報、およびトグル点追跡データ構造（例えば、テーブル）に格納されるマイクロ演算カウント（ｕｏｐ＿ｃｎｔ）を取り込む。いくつかの例では、このテーブルは偽の分岐挿入テーブル（「ＦＢＩ」）と称される。特定の例では、一致タグ（例えば、ハッシュ化ＩＰビット）およびマイクロ演算カウント（ｕｏｐ＿ｃｎｔ）を有するｕｏｐ（例えば、トグル点の候補）が再び見られる場合、それはトグル点追跡データ構造（例えば、ＦＢＩテーブル）にヒットする。特定の例では、トグル点追跡データ構造（例えば、ＦＢＩテーブル）における候補のエントリが十分な回数ヒットした場合（例えば、ヒットカウントは閾値４以上である）、エントリは、トグル点追跡データ構造（例えば、ＦＢＩテーブル）から割り当て解除され、候補位置は、実際のトグル点として昇格される（例えば、そのエントリを偽の分岐としてＢＴＢに昇格させることによる）。特定の例では、ヒットカウント閾値４は、異なる値に選択可能である。コードストリームが（例えば、非常に近く）将来において既に別のトグルを有する場合に偽の分岐を挿入することを回避するために、特定の例では、トグルが閾値２のｕｏｐ数内で検出された場合、候補はドロップされ、トグル点追跡データ構造（例えば、ＦＢＩテーブル）に割り当てられない。

特定の例では、より小さいサイズのトグル点追跡データ構造（例えば、ＦＢＩテーブル）を実装することが望ましい場合があり、例えば、実行された分岐間に２０００ｕｏｐの非常に長いシーケンスがある場合、２０ｕｏｐごとにトグル点を挿入することが望ましい場合があるが、これは、少なくとも２０００／２０の深さ、すなわち１００エントリであるトグル点追跡データ構造（例えば、ＦＢＩテーブル）を利用することができ、それよりも小さいと、容量追い出しにより、トグルが全く挿入されない可能性がある。

長いシーケンスを処理しながら小さい／密なトグル点追跡データ構造（例えば、ＦＢＩテーブル）を可能にするために、本明細書の特定の例は、命令のシーケンスに分岐が全くない状況では、例えば、トグル点追跡データ構造（例えば、ＦＢＩテーブル）からのエントリの機会、候補トグル点から実際のトグル点に昇格する（例えば、トグル点追跡データ構造から偽の分岐としてＢＴＢに昇格する）機会を可能にするために、トグル点追跡データ構造（例えば、ＦＢＩテーブル）バイパス（例えば、「ＦＢＩバイパス」）を利用する。例えば、特定の長い展開された単一命令複数データ（ＳＩＭＤ）および／または浮動小数点（ＦＰ）計算に見られるように。特定の例では、現在のマイクロ演算カウント（ｕｏｐ＿ｃｎｔ）がトグルなしに閾値１の倍数を超える場合、トグル点追跡データ構造（例えば、ＦＢＩテーブル）はバイパスされる。図４では、これは４として示されているが、他の値（例えば、ハードウェア内で構成可能）が利用されてもよいことを理解されたい。特定の例では、トグル点追跡データ構造（例えば、ＦＢＩテーブル）バイパスも有効になる他の条件（例えば、特定の長複合命令セットコンピュータ（ＣＩＳＣ）フロー）がある。特定の例では、トグル点追跡データ構造（例えば、ＦＢＩテーブル）バイパスモードは、真のトグルが再び見られた後、またはリセット条件が発生した後に無効にされる。

特定の例では、トグル点追跡データ構造（例えば、ＦＢＩテーブル）バイパスは、非常に大きなテーブルの必要性をトリガするケースの大部分を解決するが、任意の有限トグル点追跡データ構造（例えば、ＦＢＩテーブル）を圧倒する可能性がある容量追い出しケースがまだあり得る。トグル点追跡データ構造（例えば、ＦＢＩテーブル）バイパスを拡張し、より小さいトグル点追跡データ構造（例えば、ＦＢＩテーブル）を有効にするために、トグル点追跡データ構造（例えば、ＦＢＩテーブル）の特定の（例えば、全てではないが）（例えば、２）エントリは、特定の例では、例えば、それらのエントリについて、「有効」である場合、タイマ（例えば、タイムアウトカウンタ）がオーバーフローするか、またはトグル（例えば、偽の分岐）の挿入に起因して割り当て解除されるまで上書きすることができないように、「一回使用割り当て解除ポリシー」を有する。特定の例では、このタイムアウトメカニズムは、複数（例えば、６）ビットカウンタ追跡総トグル点追跡データ構造（例えば、ＦＢＩテーブル）エントリ割り当てを介して構築される。特定の例では、カウンタがオーバーフローすると（例えば、６３から０）、それらの「特別な」エントリは再びＬＲＵで置き換えることができる。

特定の例では、非常に予測可能で静的な経路長を有する単純なコードストリームは、以前のトグル点から閾値１の距離に位置する全ての偽の分岐で停止するためのものである。しかしながら、コードは動的であることが多く、したがって、デコードおよび／または実行の１つのフェーズ中に挿入されるトグル（例えば、偽の分岐）は、後続のフェーズ中にうまく位置決めされない場合がある。この状況のために、本明細書の特定の例は、以前に挿入されたトグル（例えば、偽の分岐）が、例えば、ＢＴＢにおいて無効化されるべきであるときを検出するロジックを利用する。特定の例では、これは、閾値２マイナス閾値１未満でトグル（例えば、偽の分岐）が見つかるときはいつでも検出する（または検出しない）ことである。

特定の例では、挿入されたトグル（例えば、偽の分岐位置）の多数（例えば、一定）の調整が検出された場合、代わりに、トグル点制御回路は、そうでなければ正しく配置されたトグル（例えば、偽の分岐）の長いストリームにおいて単一の（例えば、位置が悪い）トグル（例えば、偽の分岐）を保持する。特定の例では、これは、偽の分岐につながるマイクロ演算カウント（ｕｏｐ＿ｃｎｔ）が閾値２と閾値１との間の差（例えば、８ｕｏｐ）を下回っているかどうかをチェックすることを含む。特定の例では、そうであれば、すぐに除去することができる。特定の例では、この差を上回るが閾値３を下回る場合（例えば、１６ｕｏｐ）、除去することができる。特定の例では、後続のトグルも挿入されたトグル（例えば、「偽」の分岐）である場合、トグル（例えば、偽の分岐）は除去されない。無効化の一例（例えば、トグル点制御回路によって実行されるように）を図５に示す。

図５は、本開示の例による、有限状態機械を保持する無効化のフロー図５００を示す。図示されたフロー図５００は、無効化保持要求５０２を待機することと、（例えば、図４の４２８で）受信されると、５０４で無効化要求を保持して、遭遇した次のトグルが実際（例えば、実分岐）であるかどうかをチェックして、そうである場合、５０８でその偽の分岐を予測構造（例えば、ＢＴＢ）から無効化し、そうでない場合、予測構造（例えば、ＢＴＢ）内の偽の分岐を無効化しない（５０２で待機に戻る）こととを含む。

図６は、本開示の例による、複数のデコードクラスタ間で命令ストリームのデコーディングを切り替えるためにトグル点を挿入するための動作６００を示すフロー図である。動作６００（または本明細書に記載の他のプロセス、またはそれらの変形および／もしくは組み合わせ）の一部または全部は、トグル点制御回路１２０（例えば、プロセッサコア１００）の制御下で実行される。

動作６００は、ブロック６０２において、複数のデコーダ回路を有する第１のデコードクラスタと複数のデコーダ回路を有する第２のデコードクラスタとを備えるハードウェアプロセッサコアによってデコーディングのために要求された命令ストリームを受信する段階を含む。動作６００は、ブロック６０４において、第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求された命令の送信を切り替えるために、ハードウェアプロセッサコアのトグル点制御回路によって、候補トグル点として命令ストリーム内の位置を決定することをさらに含む。動作６００は、ブロック６０６において、トグル点制御回路によって、命令ストリームの複数の以前のデコードの特性がその位置に存在する回数を追跡することをさらに含む。動作６００は、ブロック６０８において、第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求された命令の送信を切り替えるために、回数に基づいて、位置にトグル点を挿入することをさらに含む。

上記で使用され得る例示的なアーキテクチャ、システムなどを以下に詳細に説明する。

開示された技術の少なくともいくつかの例は、以下を考慮して説明することができる。
例１．複数のデコーダ回路を含む第１のデコードクラスタと、
複数のデコーダ回路を含む第２のデコードクラスタと、
第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求された命令の送信をトグルするトグル点制御回路とを備え、トグル点制御回路は、
第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求された命令の送信を切り替えるために、命令ストリーム内の位置を候補トグル点として決定し、
命令ストリームの複数の以前のデコードの特性が位置について存在する回数を追跡し、
第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求された命令の送信を切り替えるために、回数に基づいて、位置にトグル点を挿入させる、
ハードウェアプロセッサコア。
例２．特性は、位置の前および第１のデコードクラスタと第２のデコードクラスタとの間での命令ストリームのデコーディングの直前の切り替えの後に命令ストリームからデコードされたマイクロ演算の数である、例１に記載のハードウェアプロセッサコア。
例３．特性は、位置の前および第１のデコードクラスタと第２のデコードクラスタとの間での命令ストリームのデコーディングの直前の切り替えの後に命令ストリームからデコードされたマクロ命令の数である、例１に記載のハードウェアプロセッサコア。
例４．トグル点の挿入は、ハードウェアプロセッサコアの分岐ターゲットバッファへの分岐命令の挿入を含む、例１に記載のハードウェアプロセッサコア。
例５．トグル点制御回路は、命令ストリームの後続のデコードにおける位置の後に閾値数の命令内で既存のトグル点に遭遇した場合に、位置を候補トグル点としてさらに除去する、例１に記載のハードウェアプロセッサコア。
例６．特性は、位置の前に命令ストリームからデコードされたマイクロ演算の数である、例１に記載のハードウェアプロセッサコア。さらなる例として、特定の例では、マイクロ演算の数がトグルなしに特定の閾値（例えば、図４に４１４で示すように、４の値に設定される）を超えると、それは次にＦＢＩをバイパスし始める（例えば、偽の分岐がＢＴＢに割り当てられる）。
例７．トグル点制御回路は、タイマを有し、タイマからの追跡時間が閾値時間を超えた後、命令ストリームの複数の以前のデコードの特性が位置について存在する回数の追跡を停止する、例１に記載のハードウェアプロセッサコア。
例８．トグル点制御回路は、複数の候補トグル点を決定し、命令ストリームの複数の以前のデコードのそれぞれの特性がそれぞれの位置に対して存在する対応する回数を追跡する、例１に記載のハードウェアプロセッサコア。
例９．複数のデコーダ回路を有する第１のデコードクラスタと複数のデコーダ回路を有する第２のデコードクラスタとを含むハードウェアプロセッサコアによってデコーディングのために要求された命令ストリームを受信する段階と、
ハードウェアプロセッサコアのトグル点制御回路が、第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求された命令の送信を切り替えるために、命令ストリーム内の位置を候補トグル点として決定する段階と、
トグル点制御回路が、命令ストリームの複数の以前のデコードの特性が位置について存在する回数を追跡する段階と、
第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求された命令の送信を切り替えるために、回数に基づいて、位置にトグル点を挿入する段階と
を備える、方法。
例１０．特性は、位置の前および第１のデコードクラスタと第２のデコードクラスタとの間での命令ストリームのデコーディングの直前の切り替えの後に命令ストリームからデコードされたマイクロ演算の数である、例９に記載の方法。
例１１．特性は、位置の前および第１のデコードクラスタと第２のデコードクラスタとの間での命令ストリームのデコーディングの直前の切り替えの後に命令ストリームからデコードされたマクロ命令の数である、例９に記載の方法。
例１２．トグル点の挿入は、ハードウェアプロセッサコアの分岐ターゲットバッファへの分岐命令を挿入する段階を含む、例９に記載の方法。
例１３．命令ストリームの後続のデコードにおける位置の後に閾値数の命令内で既存のトグル点に遭遇した場合に、位置を候補トグル点として除去する段階をさらに備える、例９に記載の方法。
例１４．特性は、位置の前に命令ストリームからデコードされたマイクロ演算の数である、例９に記載の方法。
例１５．追跡時間が閾値時間を超えた後、命令ストリームの複数の以前のデコードの特性が位置について存在する回数の追跡を停止する段階をさらに備える、例９に記載の方法。
例１６．決定する段階は、複数の候補トグル点を決定する段階を含み、追跡する段階は、命令ストリームの複数の以前のデコードのそれぞれの特性がそれぞれの位置に対して存在する対応する回数を追跡する段階を含む、例９に記載の方法。
例１７．命令を格納するメモリと、
複数のデコーダ回路を含む第１のデコードクラスタと、
複数のデコーダ回路を含む第２のデコードクラスタと、
第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求された命令の送信をトグルするトグル点制御回路とを備え、トグル点制御回路は、
第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求された命令の送信を切り替えるために、命令ストリーム内の位置を候補トグル点として決定し、
命令ストリームの複数の以前のデコードの特性が位置について存在する回数を追跡し、
第１のデコードクラスタと第２のデコードクラスタとの間でデコーディングのために要求された命令の送信を切り替えるために、回数に基づいて、位置にトグル点を挿入させる、
装置。
例１８．特性は、位置の前および第１のデコードクラスタと第２のデコードクラスタとの間での命令ストリームのデコーディングの直前の切り替えの後に命令ストリームからデコードされたマイクロ演算の数である、例１７に記載の装置。
例１９．特性は、位置の前および第１のデコードクラスタと第２のデコードクラスタとの間での命令ストリームのデコーディングの直前の切り替えの後に命令ストリームからデコードされたマクロ命令の数である、例１７に記載の装置。
例２０．トグル点の挿入は、分岐ターゲットバッファへの分岐命令の挿入を含む、例１７に記載の装置。
例２１．トグル点制御回路は、命令ストリームの後続のデコードにおける位置の後に閾値数の命令内で既存のトグル点に遭遇した場合に、位置を候補トグル点としてさらに除去する、例１７に記載の装置。
例２２．特性は、位置の前に命令ストリームからデコードされたマイクロ演算の数である、例１７に記載の装置。
例２３．トグル点制御回路は、タイマを有し、タイマからの追跡時間が閾値時間を超えた後、命令ストリームの複数の以前のデコードの特性が位置について存在する回数の追跡を停止する、例１７に記載の装置。
例２４．トグル点制御回路は、複数の候補トグル点を決定し、命令ストリームの複数の以前のデコードのそれぞれの特性がそれぞれの位置に対して存在する対応する回数を追跡する、例１７に記載の装置。

さらに別の例では、装置は、ハードウェアプロセッサによって実行されると、ハードウェアプロセッサに本明細書で開示される任意の方法を実行させるコードを格納するデータストレージデバイスを備える。装置は、詳細な説明に記載されているようなものであってもよい。方法は、詳細な説明に記載されているようなものであってもよい。

命令セットは、１つまたは複数の命令フォーマットを含み得る。所与の命令フォーマットは、とりわけ、実行されるべき演算（例えば、オペコード）およびその演算が実行されるべきオペランドを指定する様々なフィールド（例えば、ビットの数、ビットの位置）、ならびに／または他のデータフィールド（例えば、マスク）を定義してよい。いくつかの命令フォーマットは、さらに、命令テンプレート（またはサブフォーマット）の定義を介して分解される。例えば、所与の命令フォーマットの命令テンプレートは、命令フォーマットのフィールドの異なるサブセットを有するように定義され（含まれるフィールドは通常同じ順序であるが、含まれるフィールドがより少ないため少なくともいくつかは異なるビット位置を有する）、および／または所与のフィールドが異なって解釈されるように定義されてもよい。したがって、ＩＳＡの各命令は、所与の命令フォーマット（および定義されている場合、その命令フォーマットの命令テンプレートのうちの所与の１つ）を使用して表現され、演算およびオペランドを指定するためのフィールドを含む。例えば、例示的なＡＤＤ命令は、特定のオペコード、ならびに当該オペコードを指定するオペコードフィールドおよびオペランド（ソース１／デスティネーション、およびソース２）を選択するオペランドフィールドを含む命令フォーマットを有し、命令ストリームにおけるこのＡＤＤ命令が生じることにより、特定オペランドを選択するオペランドフィールドに具体的な内容を有する。高度ベクトル拡張（ＡＶＸ）（ＡＶＸ１およびＡＶＸ２）と称され、ベクトル拡張（ＶＥＸ）コーディングスキームを使用するＳＩＭＤ拡張のセットが、リリースおよび／または公開されている（例えば、Ｉｎｔｅｌ（登録商標）６４およびＩＡ－３２アーキテクチャソフトウェア開発者マニュアル、２０１８年１１月を参照すること、およびＩｎｔｅｌ（登録商標）アーキテクチャ命令セット拡張プログラミングリファレンス、２０１８年１０月を参照すること）。
例示的なコアアーキテクチャ、プロセッサ、およびコンピュータアーキテクチャ

プロセッサコアは、異なる態様で、異なる目的のために、異なるプロセッサにおいて実装され得る。例えば、そのようなコアの実装は、１）汎用コンピューティングを意図する汎用インオーダコア、２）汎用コンピューティングを意図する高性能汎用アウトオブオーダコア、３）主にグラフィックおよび／またはサイエンティフィック（スループット）コンピューティングを意図する専用コアを含み得る。異なるプロセッサの実装は、１）汎用コンピューティングを意図する１つまたは複数の汎用インオーダコア、および／または汎用コンピューティングを意図する１つまたは複数の汎用アウトオブオーダコアを含むＣＰＵ、ならびに２）主にグラフィックおよび／またはサイエンティフィック（スループット）を意図する１つまたは複数の専用コアを含むコプロセッサを含み得る。そのような異なるプロセッサは、異なるコンピュータシステムアーキテクチャをもたらし、異なるコンピュータシステムアーキテクチャは、１）ＣＰＵとは別個のチップ上のコプロセッサ、２）ＣＰＵと同一のパッケージにおける別個のダイ上のコプロセッサ、３）ＣＰＵと同じダイ上のコプロセッサ（この場合、そのようなコプロセッサは、場合によっては統合グラフィックスおよび／またはサイエンティフィック（スループット）ロジックなどの専用ロジック、または専用コアと称される）、および４）説明されたＣＰＵ（場合によっては、アプリケーションコアもしくはアプリケーションプロセッサと称される）と同じダイ上に、上述のコプロセッサ、および追加の機能性を含み得るシステムオンチップを含み得る。次に、例示的なグラフィックスプロセッサについて説明する。続いて、例示的なコアアーキテクチャ、例示的なプロセッサおよびコンピュータアーキテクチャの説明が続く。
例示的なコアアーキテクチャ
インオーダおよびアウトオブオーダコアのブロック図

図７Ａは、本開示の例による、例示的なインオーダパイプライン、および例示的なレジスタリネーミング用のアウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。図７Ｂは、本開示の例によるプロセッサに含まれる、インオーダアーキテクチャコアの例示的な例、および例示的なレジスタリネーミング用のアウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。図７Ａ～図７Ｂにおける実線のボックスは、インオーダパイプラインおよびインオーダコアを示す一方、任意選択的な点線のボックスの追加は、レジスタリネーミング用のアウトオブオーダ発行／実行パイプラインとコアとを示す。インオーダの態様がアウトオブオーダの態様のサブセットであると仮定して、アウトオブオーダの態様が説明される。

図７Ａにおいて、プロセッサパイプライン７００は、フェッチ段階７０２、レングスデコード段階７０４、デコード段階７０６、割り当て段階７０８、リネーミング段階７１０、スケジューリング（ディスパッチまたは発行としてもまた知られる）段階７１２、レジスタ読み出し／メモリ読み出し段階７１４、実行段階７１６、ライトバック／メモリ書き込み段階７１８、例外処理段階７２２、およびコミット段階７２４を含む。

図７Ｂは、実行エンジンユニット７５０に結合されたフロントエンドユニット７３０を含むプロセッサコア７９０を示し、両方がメモリユニット７７０に結合されている。コア７９０は、縮小命令セットコンピューティング（ＲＩＳＣ）コア、複合命令セットコンピューティング（ＣＩＳＣ）コア、超長命令語（ＶＬＩＷ）コア、またはハイブリッドもしくは代替的なコアタイプであってもよい。さらに別の選択肢として、コア７９０は、例えば、ネットワークまたは通信コア、圧縮エンジン、コプロセッサコア、汎用コンピューティンググラフィックス処理ユニット（ＧＰＧＰＵ）コア、グラフィックスコアなどの専用コアであってよい。

フロントエンドユニット７３０は、命令キャッシュユニット７３４に結合された分岐予測ユニット７３２を含み、命令キャッシュユニット７３４は、命令変換索引バッファ（ＴＬＢ）７３６に結合され、ＴＬＢ７３６は、命令フェッチユニット７３８に結合され、命令フェッチユニット７３８は、デコードユニット７４０（例えば、特定の例では、複数のデコードクラスタ）に結合される。デコードユニット７４０（またはデコーダまたはデコーダユニット）は、命令（例えば、マクロ命令）をデコードし、元の命令からデコード、もしくは別様にそれらを反映する、もしくはそれらから導出される、１つまたは複数のマイクロ演算、マイクロコードエントリポイント、マイクロ命令、他の命令、または他の制御信号を出力として生成してよい。デコードユニット７４０は、様々な異なるメカニズムを使用して実装されてもよい。好適なメカニズムの例には、ルックアップテーブル、ハードウェア実装、プログラマブルロジックアレイ（ＰＬＡ）、マイクロコードリードオンリメモリ（ＲＯＭ）などが含まれるが、それらに限定されない。一例では、コア７９０は、特定のマクロ命令のマイクロコードを（例えば、デコードユニット７４０内に、またはそうでなければフロントエンドユニット７３０内に）格納するマイクロコードＲＯＭまたは他の媒体を含む。デコードユニット７４０は、実行エンジンユニット７５０内のリネーミング／割り当てユニット７５２に結合されている。

実行エンジンユニット７５０は、リタイアメントユニット７５４および１つまたは複数のスケジューラユニット７５６のセットに結合されたリネーミング／割り当てユニット７５２を含む。スケジューラユニット７５６は、複数のリザベーションステーション、中央命令ウィンドウなどを含む任意の数の異なるスケジューラを表す。スケジューラユニット７５６は、物理レジスタファイルユニット７５８に結合される。物理レジスタファイルユニット７５８のそれぞれは、１つまたは複数の物理レジスタファイルを表し、それらの異なるものは、スカラ整数、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点、ステータス（例えば、実行される次の命令のアドレスである命令ポインタ）などの、１つまたは複数の異なるデータタイプを格納する。一例では、物理レジスタファイルユニット７５８は、ベクトルレジスタユニット、ライトマスクレジスタユニット、およびスカラレジスタユニットを備える。これらのレジスタユニットは、アーキテクチャベクトルレジスタ、ベクトルマスクレジスタ、および汎用レジスタを提供し得る。物理レジスタファイルユニット７５８は、リタイアメントユニット７５４とオーバーラップしており、（例えば、リオーダバッファおよびリタイアメントレジスタファイルを使用する、将来のファイル、履歴バッファ、およびリタイアメントレジスタファイルを使用する、レジスタマップおよびレジスタのプールを使用するなど）レジスタリネーミングおよびアウトオブオーダ実行が実装され得る様々なやり方を示す。リタイアメントユニット７５４および物理レジスタファイルユニット７５８は、実行クラスタ７６０に結合される。実行クラスタ７６０は、１つまたは複数の実行ユニット７６２のセットおよび１つまたは複数のメモリアクセスユニット７６４のセットを含む。実行ユニット７６２は、様々な演算（例えば、シフト、加算、減算、乗算）を様々なタイプのデータ（例えば、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点）について実行してよい。いくつかの例は、特定の機能または機能のセットに専用の複数の実行ユニットを含み得る一方、他の例は、１つのみの実行ユニット、または全ての機能を全て実行する複数の実行ユニットを含み得る。特定の例は、特定のタイプのデータ／演算に対する別個のパイプラインを形成するので（例えば、それら自体のスケジューラユニット、物理レジスタファイルユニット、および／または実行クラスタをそれぞれ有するスカラ整数パイプライン、スカラ浮動小数点／パックド整数／パックド浮動小数点／ベクトル整数／ベクトル浮動小数点パイプライン、および／またはメモリアクセスパイプラインであり、別個のメモリアクセスパイプラインの場合、特定の例は、このパイプラインの実行クラスタのみがメモリアクセスユニット７６４を有するように実装される）、スケジューラユニット７５６、物理レジスタファイルユニット７５８、および実行クラスタ７６０は、場合によっては複数あるように示される。別個のパイプラインが使用される場合、これらのパイプラインのうちの１つまたは複数はアウトオブオーダ発行／実行であってよく、残りはインオーダであってよいこともまた理解されたい。

メモリアクセスユニット７６４のセットは、メモリユニット７７０に結合され、メモリユニット７７０は、レベル２（Ｌ２）キャッシュユニット７７６に結合されたデータキャッシュユニット７７４に結合されたデータＴＬＢユニット７７２を含む。１つの例示的な例では、メモリアクセスユニット７６４は、ロードユニット、ストアアドレスユニット、およびストアデータユニットを含み得、これらのそれぞれは、メモリユニット７７０内のデータＴＬＢユニット７７２に結合される。命令キャッシュユニット７３４は、さらに、メモリユニット７７０内のレベル２（Ｌ２）キャッシュユニット７７６に結合される。Ｌ２キャッシュユニット７７６は、１つまたは複数の他のレベルのキャッシュ、および最終的にはメインメモリに結合される。

特定の例では、プリフェッチ回路７７８は、例えば、アクセスアドレスを予測し、それらのアドレスのデータを１つまたは複数のキャッシュに（例えば、メモリ７８０から）取り込むために、データをプリフェッチするために含まれる。

例として、例示的なレジスタリネーミング用のアウトオブオーダ発行／実行コアアーキテクチャは、次のようにパイプライン７００を実装してよい。１）命令フェッチ７３８が、フェッチおよびレングスデコード段階７０２および７０４を実行する。２）デコードユニット７４０が、デコード段階７０６を実行する。３）リネーミング／割り当てユニット７５２が、割り当て段階７０８およびリネーミング段階７１０を実行する。４）スケジューラユニット７５６が、スケジュール段階７１２を実行する。５）物理レジスタファイルユニット７５８およびメモリユニット７７０が、レジスタ読み出し／メモリ読み出し段階７１４を実行し、実行クラスタ７６０が、実行段階７１６を実行する。６）メモリユニット７７０および物理レジスタファイルユニット７５８が、ライトバック／メモリ書き込み段階７１８を実行する。７）様々なユニットが、例外処理段階７２２に関与してよい。８）リタイアメントユニット７５４および物理レジスタファイルユニット７５８が、コミット段階７２４を実行する。

コア７９０は、本明細書において説明される命令を含む、１つまたは複数の命令セット（例えば、ｘ８６命令セット（より新しいバージョンを追加された、いくつかの拡張を伴う）、ＭＩＰＳ命令セット（ＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓｏｆＳｕｎｎｙｖａｌｅ，ＣＡ）、ＡＲＭ命令セット（ＮＥＯＮなどの任意選択の追加拡張を伴う）（ＡＲＭＨｏｌｄｉｎｇｓｏｆＳｕｎｎｙｖａｌｅ，ＣＡ）をサポートし得る。一例では、コア７９０は、パックドデータ命令セット拡張（例えば、ＡＶＸ１、ＡＶＸ２）をサポートするロジックを含み、それにより、多くのマルチメディアアプリケーションにより使用される演算がパックドデータを使用して実行されることを可能にする。

コアは、マルチスレッディング（演算またはスレッドの２つ以上の並列セットを実行する）をサポートすることができ、タイムスライスマルチスレッディング、同時マルチスレッディング（単一の物理コアが、物理コアが同時マルチスレッディングであるスレッドのそれぞれに対して論理コアを提供する）、またはそれらの組み合わせ（例えば、Ｉｎｔｅｌ（登録商標）ハイパースレッディング技術におけるような、タイムスライスされたフェッチおよびデコードならびにその後の同時マルチスレッディング）を含む様々な方法でサポートすることができることを理解されたい。

レジスタリネーミングはアウトオブオーダ実行の文脈で説明されているが、レジスタリネーミングはインオーダアーキテクチャで使用されてもよいことを理解されたい。プロセッサの図示の例はまた、別個の命令およびデータキャッシュユニット７３４／７７４および共有Ｌ２キャッシュユニット７７６を含むが、代替例は、例えば、レベル１（Ｌ１）内部キャッシュ、または複数レベルの内部キャッシュなど、命令およびデータの両方のための単一の内部キャッシュを有してもよい。いくつかの例では、システムは、内部キャッシュと、コアおよび／またはプロセッサの外部にある外部キャッシュとの組み合わせを含み得る。あるいは、キャッシュの全てがコアおよび／またはプロセッサの外部にあってもよい。
特定の例示的なインオーダコアアーキテクチャ

図８Ａ～図８Ｂは、より具体的な例示的なインオーダコアアーキテクチャのブロック図を示し、このコアは、チップ内のいくつかの論理ブロック（同じタイプおよび／または異なるタイプの他のコアを含む）のうちの１つである。論理ブロックは、用途に応じて、高帯域幅インターコネクトネットワーク（例えば、リングネットワーク）を介して、いくつかの固定関数論理、メモリＩ／Ｏインタフェース、および他の必要なＩ／Ｏ論理と通信する。

図８Ａは、本開示の例による、オンダイインターコネクトネットワークへ８０２のその接続およびレベル２（Ｌ２）キャッシュのそのローカルサブセット８０４を伴う、単一のプロセッサコアのブロック図である。一例では、命令デコードユニット８００は、パックドデータ命令セット拡張を有するｘ８６命令セットをサポートする。Ｌ１キャッシュ８０６は、スカラおよびベクトルユニットへのキャッシュメモリの低待ち時間アクセスを可能にする。（設計を簡単にするために）一例では、スカラユニット８０８およびベクトルユニット８１０は別々のレジスタセット（それぞれ、スカラレジスタ８１２およびベクトルレジスタ８１４）を使用し、それらの間で転送されたデータはメモリに書き込まれ、次にレベル１（Ｌ１）キャッシュ８０６から読み出されるが、本開示の代替例は異なる手法（例えば、単一のレジスタセットを使用するか、または書き込みおよび読み出しなしに２つのレジスタファイル間でデータを転送することを可能にする通信経路を含む）を使用してもよい。

Ｌ２キャッシュのローカルサブセット８０４は、プロセッサコアごとに別々のローカルサブセットに分割されたグローバルＬ２キャッシュの一部である。各プロセッサコアは、Ｌ２キャッシュのそれ自体のローカルサブセット８０４への直接アクセス経路を有する。プロセッサコアによって読み取られたデータは、そのＬ２キャッシュサブセット８０４に格納され、それら自体のローカルＬ２キャッシュサブセットにアクセスする他のプロセッサコアと並列に、迅速にアクセスすることができる。プロセッサコアによって書き込まれたデータは、それ自体のＬ２キャッシュサブセット８０４に格納され、必要に応じて他のサブセットからフラッシュされる。リングネットワークは、共有データのコヒーレンシを保証する。リングネットワークは、プロセッサコア、Ｌ２キャッシュ、および他の論理ブロックなどのエージェントがチップ内で互いに通信することを可能にするために双方向である。各リングデータ経路は、方向ごとに１０１２ビット幅である。

図８Ｂは、本開示の例による、図８Ａのプロセッサコアの一部の拡大図である。図８Ｂは、Ｌ１キャッシュ８０４のＬ１データキャッシュ８０６Ａ部分、ならびにベクトルユニット８１０およびベクトルレジスタ８１４に関するさらなる詳細を含む。具体的には、ベクトルユニット８１０は、整数、単精度浮動小数点、および倍精度浮動小数点の命令のうちの１つまたは複数を実行する１６幅ベクトル処理ユニット（ＶＰＵ）（１６幅ＡＬＵ８２８を参照）である。ＶＰＵは、スウィズルユニット８２０によるレジスタ入力のスウィズル、数値変換ユニット８２２Ａ～Ｂによる数値変換、およびメモリ入力上の複製ユニット８２４による複製をサポートする。ライトマスクレジスタ８２６は、結果として生じるベクトル書き込みの予測を可能にする。

図９は、本開示の例による、１つよりも多くのコアを有することができ、統合メモリコントローラを有することができ、統合グラフィックスを有することができるプロセッサ９００のブロック図である。図９における実線のボックスは、単一のコア９０２Ａと、システムエージェント９１０と、１つまたは複数のバスコントローラユニット９１６のセットとを有するプロセッサ９００を示す一方、任意選択的な点線のボックスの追加は、複数のコア９０２Ａ～Ｎと、システムエージェントユニット９１０における１つまたは複数の統合メモリコントローラユニット９１４のセットと、専用ロジック９０８とを有する代替的なプロセッサ９００を示す。

したがって、プロセッサ９００の異なる実装は、１）統合グラフィックスおよび／またはサイエンティフィック（スループット）ロジックである専用ロジック９０８（１つまたは複数のコアを含んでよい）と、１つまたは複数の汎用コアであるコア９０２Ａ～Ｎ（例えば、汎用インオーダコア、汎用アウトオブオーダコア、２つの組み合わせ）とを有するＣＰＵ、２）グラフィックおよび／またはサイエンティフィック（スループット）を主に意図する多数の専用コアであるコア９０２Ａ～Ｎを有するコプロセッサ、ならびに３）多数の汎用インオーダコアであるコア９０２Ａ～Ｎを有するコプロセッサを含んでよい。したがって、プロセッサ９００は、例えば、ネットワークまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ（汎用グラフィックス処理ユニット）、高スループット多集積コア（ＭＩＣ）コプロセッサ（３０以上のコアを含む）、組み込みプロセッサなどの、汎用プロセッサ、コプロセッサ、または専用プロセッサであってよい。プロセッサは、１つまたは複数のチップ上に実装され得る。プロセッサ９００は、例えば、ＢｉＣＭＯＳ、ＣＭＯＳ、またはＮＭＯＳなどのいくつかのプロセス技術のいずれかを使用して、１つまたは複数の基板の一部であってもよく、および／または１つまたは複数の基板上に実装されてもよい。

メモリ階層は、コア内のキャッシュ、１つまたは複数の共有キャッシュユニット９０６のセット、および、統合メモリコントローラユニット９１４のセットに結合された外部メモリ（図示せず）の１つまたは複数のレベルを含む。共有キャッシュユニット９０６のセットは、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）などの１つまたは複数の中間レベルキャッシュ、または他のレベルのキャッシュ、ラストレベルキャッシュ（ＬＬＣ）、および／またはそれらの組み合わせを含んでよい。一実施形態では、リングベースのインターコネクトユニット９１２が、統合グラフィックスロジック９０８、共有キャッシュユニット９０６のセット、およびシステムエージェントユニット９１０／統合メモリコントローラユニット９１４をインターコネクトする一方、代替例は、そのようなユニットをインターコネクトするために任意の数の周知技術を使用する。一例では、１つまたは複数のキャッシュユニット９０６とコア９０２Ａ～Ｎとの間でコヒーレンシが保持される。

いくつかの例では、コア９０２Ａ～Ｎのうちの１つまたは複数は、マルチスレッディングすることが可能である。システムエージェント９１０は、コア９０２Ａ～Ｎを調整および動作させるこれらの構成要素を含む。システムエージェントユニット９１０は、例えば、電力制御ユニット（ＰＣＵ）およびディスプレイユニットを含むことができる。ＰＣＵは、コア９０２Ａ－Ｎおよび統合グラフィックスロジック９０８の電力状態を調節するのに必要なロジックおよび構成要素であってもよく、または含む。ディスプレイユニットは、１つまたは複数の外部接続されたディスプレイを駆動する。

コア９０２Ａ～Ｎは、アーキテクチャ命令セットに関して同種であっても異種であってもよい。すなわち、コア９０２Ａ～Ｎのうちの２つ以上が同じ命令セットを実行することができる一方で、他はその命令セットのサブセットまたは異なる命令セットのみを実行することができる。
例示的なコンピュータアーキテクチャ

図１０～図１３は、例示的なコンピュータアーキテクチャのブロック図である。ラップトップ、デスクトップ、およびハンドヘルドＰＣ、携帯用情報端末、エンジニアリングワークステーション、サーバ、ネットワークデバイス、ネットワークハブ、スイッチ、組み込みプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、グラフィックスデバイス、ビデオゲームデバイス、セットトップボックス、マイクロコントローラ、携帯電話、携帯型メディアプレーヤ、ハンドヘルドデバイス、ならびに様々な他の電子デバイスのための、当技術分野において既知の他のシステム設計および構成も好適である。一般に、本明細書に開示されるプロセッサおよび／または他の実行ロジックを組み込むことができる多種多様なシステムまたは電子デバイスが概して好適である。

ここで図１０を参照すると、本開示の一例による、システム１０００のブロック図が示されている。システム１０００は、１つまたは複数のプロセッサ１０１０、１０１５を含むことができ、これらは、コントローラハブ１０２０に結合される。一例では、コントローラハブ１０２０は、グラフィックスメモリコントローラハブ（ＧＭＣＨ）１０９０および入力／出力ハブ（ＩＯＨ）１０５０（別々のチップ上にあってもよい）を含み、ＧＭＣＨ１０９０は、メモリ１０４０およびコプロセッサ１０４５が結合されるメモリおよびグラフィックスコントローラを含み、ＩＯＨ１０５０は、入力／出力（Ｉ／Ｏ）デバイス１０６０をＧＭＣＨ１０９０に結合する。あるいは、メモリおよびグラフィックスコントローラの一方または両方が（本明細書に記載されるように）プロセッサ内に統合され、メモリ１０４０およびコプロセッサ１０４５は、プロセッサ１０１０、およびＩＯＨ１０５０を有する単一チップ内のコントローラハブ１０２０に直接結合される。メモリ１０４０は、例えば、実行されるとプロセッサに本開示の任意の方法を実行させるコードを格納するためのコード１０４０Ａを含むことができる。

追加のプロセッサ１０１５の任意の性質は、破線で図１０に示されている。各プロセッサ１０１０、１０１５は、本明細書に記載の処理コアのうちの１つまたは複数を含むことができ、プロセッサ９００の何らかのバージョンであり得る。

メモリ１０４０は、例えば、動的ランダムアクセスメモリ（ＤＲＡＭ）、相変化メモリ（ＰＣＭ）、またはこの２つの組み合わせであってもよい。少なくとも一例では、コントローラハブ１０２０は、フロントサイドバス（ＦＳＢ）などのマルチドロップバス、Ｑｕｉｃｋｐａｔｈインターコネクト（ＱＰＩ）などのポイントツーポイントインタフェース、または同様の接続１０９５を介してプロセッサ１０１０、１０１５と通信する。

一例では、コプロセッサ１０４５は、例えば、高スループットＭＩＣプロセッサ、ネットワークもしくは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、組み込みプロセッサなどの専用プロセッサである。一例では、コントローラハブ１０２０は、統合グラフィックスアクセラレータを含むことができる。

建築、マイクロ建築、熱、電力消費特性などを含むメリットの測定基準のスペクトルに関して、物理リソース１０１０、１０１５の間には様々な違いがあり得る。

一例では、プロセッサ１０１０は、一般的なタイプのデータ処理動作を制御する命令を実行する。命令内に組み込まれているのはコプロセッサ命令であってもよい。プロセッサ１０１０は、これらのコプロセッサ命令を、取り付けられたコプロセッサ１０４５によって実行されるべきタイプのものであると認識する。したがって、プロセッサ１０１０は、コプロセッサバスまたは他のインターコネクト上でこれらのコプロセッサ命令（またはコプロセッサ命令を表す制御信号）をコプロセッサ１０４５に発行する。コプロセッサ１０４５は、受信したコプロセッサ命令を受け入れて実行する。

ここで図１１を参照すると、本開示の一例による、第１のより具体的な例示的なシステム１１００のブロック図が示されている。図１１に示されるように、マルチプロセッサシステム１１００は、ポイントツーポイントインターコネクトシステムであり、ポイントツーポイントインターコネクト１１５０を介して結合された第１のプロセッサ１１７０および第２のプロセッサ１１８０を含む。プロセッサ１１７０および１１８０の各々は、プロセッサ９００の何らかのバージョンであり得る。本開示の一例では、プロセッサ１１７０および１１８０はそれぞれプロセッサ１０１０および１０１５であり、一方、コプロセッサ１１３８はコプロセッサ１０４５である。別の例では、プロセッサ１１７０および１１８０は、それぞれプロセッサ１０１０、コプロセッサ１０４５である。

プロセッサ１１７０および１１８０は、それぞれが統合メモリコントローラ（ＩＭＣ）ユニット１１７２および１１８２を含んで示されている。プロセッサ１１７０はまた、そのバスコントローラユニットの一部として、ポイントツーポイント（Ｐ－Ｐ）インタフェース１１７６および１１７８を含み、様に、第２のプロセッサ１１８０は、Ｐ－Ｐインタフェース１１８６および１１８８を含む。プロセッサ１１７０、１１８０は、Ｐ－Ｐインタフェース回路１１７８、１１８８を使用してポイントツーポイント（Ｐ－Ｐ）インタフェース１１５０を介して情報を交換することができる。図１１に示されるように、ＩＭＣの１１７２および１１８２は、プロセッサをそれぞれのメモリ、すなわち、メモリ１１３２およびメモリ１１３４に結合し、これらは、それぞれのプロセッサにローカルに取り付けられたメインメモリの一部であり得る。

プロセッサ１１７０、１１８０は各々、ポイントツーポイントインタフェース回路１１７６、１１９４、１１８６、１１９８を使用して個々のＰ－Ｐインタフェース１１５２、１１５４を介してチップセット１１９０と情報を交換することができる。チップセット１１９０は、任意に、高性能インタフェース１１３９を介してコプロセッサ１１３８と情報を交換することができる。一例では、コプロセッサ１１３８は、例えば、高スループットＭＩＣプロセッサ、ネットワークもしくは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、組み込みプロセッサなどの専用プロセッサである。

プロセッサが低電力モードに置かれると、いずれかまたは両方のプロセッサのローカルキャッシュ情報が共有キャッシュ内に格納され得るように、共有キャッシュ（図示せず）は、プロセッサのいずれかの中、または両方のプロセッサの外部に含まれ得、さらにＰ－Ｐインターコネクトを介して複数のプロセッサに接続される。

チップセット１１９０は、インタフェース１１９６を介して第１のバス１１１６に結合することができる。一例では、第１のバス１１１６は、周辺構成要素インターコネクト（ＰＣＩ）バス、またはＰＣＩＥｘｐｒｅｓｓバスもしくは別の第３世代Ｉ／Ｏインターコネクトバスなどのバスであり得るが、本開示の範囲はそのように限定されない。

図１１に示されるように、様々なＩ／Ｏデバイス１１１４は、第１のバス１１１６を第２のバス１１２０に結合するバスブリッジ１１１８と共に、第１のバス１１１６に結合されてもよい。一例では、コプロセッサ、高スループットＭＩＣプロセッサ、ＧＰＧＰＵ、アクセラレータ（例えば、グラフィックスアクセラレータもしくはデジタル信号処理（ＤＳＰ）ユニットなど）、フィールドプログラマブルゲートアレイ、または任意の他のプロセッサなどの１つまたは複数の追加のプロセッサ１１１５が第１のバス１１１６に結合される。一例では、第２のバス１１２０は、低ピンカウント（ＬＰＣ）バスであり得る。一例では、例えば、キーボードおよび／またはマウス１１２２、通信デバイス１１２７、ならびに命令／コードおよびデータ１１３０を含み得るディスクドライブまたは他の大容量記憶デバイスなどの記憶ユニット１１２８を含む様々なデバイスを第２のバス１１２０に結合することができる。さらに、オーディオＩ／Ｏ１１２４が第２のバス１１２０に結合され得る。他のアーキテクチャも可能であることに留意されたい。例えば、図１１のポイントツーポイントアーキテクチャの代わりに、システムは、マルチドロップバスまたは他のそのようなアーキテクチャを実装し得る。

ここで図１２を参照すると、本開示の一例による、第２のより具体的な例示的なシステム１２００のブロック図が示されている。図１１および図１２の同様の要素には同様の参照番号が付されており、図１２の他の態様を不明瞭にすることを避けるために、図１２では図１１の特定の態様が省略されている。

図１２は、プロセッサ１１７０、１１８０が、それぞれ統合メモリおよびＩ／Ｏ制御ロジック（「ＣＬ」）１１７２および１１８２を含むことができることを示している。したがって、ＣＬ１１７２、１１８２は、統合メモリコントローラユニットを含み、Ｉ／Ｏ制御ロジックを含む。図１２は、メモリ１１３２、１１３４がＣＬ１１７２、１１８２に結合されているだけでなく、Ｉ／Ｏデバイス１２１４も制御ロジック１１７２、１１８２に結合されていることを示している。レガシＩ／Ｏデバイス１２１５はチップセット１１９０に結合されている。

ここで図１３を参照すると、本開示の一例による、ＳｏＣ１３００のブロック図が示されている。図９の同様の要素は、同様の参照番号が付される。また、点線のボックスは、より高度なＳｏＣのオプション機能である。図１３では、インターコネクトユニット１３０２は、（それぞれのキャッシュユニット９０４Ａ～９０４Ｎを有する）１つまたは複数のコア９０２Ａ～Ｎのセットと共有キャッシュユニット９０６とを含むアプリケーションプロセッサ１３１０と、システムエージェントユニット９１０と、バスコントローラユニット９１６と、統合メモリコントローラユニット９１４と、統合グラフィックスロジック、画像プロセッサ、オーディオプロセッサ、およびビデオプロセッサを含むことができる一組または１つもしくは複数のコプロセッサ１３２０と、静的ランダムアクセスメモリ（ＳＲＡＭ）ユニット１３３０と、直接メモリアクセス（ＤＭＡ）ユニット１３３２と、１つまたは複数の外部ディスプレイに結合するためのディスプレイユニット１３４０と、に結合されている。一例では、コプロセッサ１３２０は、例えば、ネットワークもしくは通信プロセッサ、圧縮エンジン、ＧＰＧＰＵ、高スループットＭＩＣプロセッサ、組み込みプロセッサなどの専用プロセッサを含む。

本明細書に開示される（例えば、メカニズムの）例は、ハードウェア、ソフトウェア、ファームウェア、またはそのような実装手法の組み合わせで実装されてもよい。本開示の例は、少なくとも１つのプロセッサと、（揮発性および不揮発性メモリおよび／または記憶要素を含む）ストレージシステムと、少なくとも１つの入力デバイスと、少なくとも１つの出力デバイスとを備えるプログラム可能なシステム上で実行されるコンピュータプログラムまたはプログラムコードとして実装されてもよい。

図１１に示されるコード１１３０などのプログラムコードは、本明細書で説明される機能を実行し、出力情報を生成するために、入力命令に適用されてよい。出力情報は、１つまたは複数の出力デバイスに既知の様式で適用されてよい。この適用の目的のために、処理システムは、例えば、デジタル信号プロセッサ（ＤＳＰ）、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、またはマイクロプロセッサなどのプロセッサを有する任意のシステムを含む。

プログラムコードは、処理システムと通信するために、高水準手続き型またはオブジェクト指向型プログラミング言語において実装されてよい。プログラムコードはまた、所望の場合、アセンブリ言語または機械言語で実装されてもよい。実際には、本明細書で説明されたメカニズムは、いかなる特定のプログラミング言語にも範囲が限定されるものではない。いずれの場合でも、言語は、コンパイル型言語またはインタープリタ型言語であってよい。

少なくとも１つの例の１つまたは複数の態様は、プロセッサ内の様々なロジックを表す、機械可読媒体上に格納された代表的な命令により実装され得、命令は、機械により読み出されると、当該機械に本明細書で説明される技術を実行させるためのロジックを生成させる。「ＩＰコア」として知られるそのような表現は、有形の機械可読媒体に格納され、ロジックまたはプロセッサを実際に作成する製造機械にロードするために、様々な顧客または製造設備に供給されてもよい。

そのような機械可読記憶媒体は、限定するものではないが、機械またはデバイスにより製造または形成される、非一時的で有形な構造の物品を含み得、これには、ハードディスク、フロッピーディスク、光ディスク、コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、書き換え可能コンパクトディスク（ＣＤ－ＲＷ）、および光磁気ディスクなどの他のタイプのディスクを含む記憶媒体、リードオンリメモリ（ＲＯＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）などのランダムアクセスメモリ（ＲＡＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、フラッシュメモリ、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、相変化メモリ（ＰＣＭ）などの半導体デバイス、磁気もしくは光カード、または電子命令を格納するのに好適な他のタイプの媒体が含まれる。

したがって、本開示の例はまた、本明細書に説明される構造体、回路、装置、プロセッサ、および／またはシステム機能を定義するハードウェア記述言語（ＨＤＬ）などの命令を含むか、または設計データを含む非一時的有形機械可読媒体も含む。そのような例も、プログラム製品と称され得る。
エミュレーション（バイナリ変換、コードモーフィングなどを含む）

いくつかの場合では、ソース命令セットからターゲット命令セットへと命令を変換するために、命令コンバータ使用され得る。例えば、命令コンバータは、命令を、コアによって処理されるべき１つまたは複数の他の命令へと変換し（例えば、静的バイナリ変換、動的コンパイルを含む動的バイナリ変換を使用して）、モーフィングし、エミュレートし、または別様に変換することができる。命令コンバータは、ソフトウェア、ハードウェア、ファームウェア、またはそれらの組み合わせで実装されてもよい。命令コンバータは、オンプロセッサ、オフプロセッサ、または一部がオンプロセッサで一部がオフプロセッサであってよい。
図１４は、本開示の例による、ソース命令セットにおけるバイナリ命令をターゲット命令セットにおけるバイナリ命令に変換するためのソフトウェア命令コンバータの使用を対比するブロック図である。示された例では、命令コンバータはソフトウェア命令コンバータであるが、代替的には、命令コンバータは、ソフトウェア、ファームウェア、ハードウェア、またはこれらの様々な組み合わせで実装されてもよい。図１４は、高水準言語１４０２におけるプログラムが、ｘ８６コンパイラ１４０４を使用してコンパイルされて、少なくとも１つのｘ８６命令セットコア１４１６を有するプロセッサによりネイティブに実行され得るｘ８６バイナリコード１４０６を生成し得ることを示す。少なくとも１つのｘ８６命令セットコアを有するプロセッサ１４１６は、少なくとも１つのｘ８６命令セットコアを有するＩｎｔｅｌ（登録商標）プロセッサと実質的に同じ結果を実現するために、（１）Ｉｎｔｅｌ（登録商標）ｘ８６命令セットコアの命令セットの実質的部分、または（２）少なくとも１つのｘ８６命令セットコアを有するＩｎｔｅｌ（登録商標）プロセッサ上で実行することを目標とされたアプリケーションもしくは他のソフトウェアのオブジェクトコードのバージョンを互換的に実行する、または別様に処理することにより、少なくとも１つのｘ８６命令セットコアを有するＩｎｔｅｌ（登録商標）プロセッサと実質的に同じ機能を実行できる任意のプロセッサを表す。ｘ８６コンパイラ１４０４は、追加のリンケージ処理を用いてまたは用いないで、少なくとも１つのｘ８６命令セットコアを有するプロセッサ１４１６上で実行され得るｘ８６バイナリコード１４０６（例えば、オブジェクトコード）を生成するように動作可能なコンパイラを表す。同様に、図１４は、少なくとも１つのｘ８６命令セットコア１４１４のないプロセッサ（例えば、ＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓ（Ｓｕｎｎｙｖａｌｅ，ＣＡ）のＭＩＰＳ命令セットを実行する、および／またはＡＲＭＨｏｌｄｉｎｇｓ（Ｓｕｎｎｙｖａｌｅ，ＣＡ）のＡＲＭ命令セットを実行するコアを有するプロセッサ）によってネイティブに実行され得る代替の命令セットバイナリコード１４１０を生成するために代替の命令セットコンパイラ１４０８を使用して高水準言語１４０２のプログラムをコンパイルすることができることを示す。命令コンバータ１４１２は、ｘ８６バイナリコード１４０６を、ｘ８６命令セットコアなしのプロセッサ１４１４によってネイティブに実行され得るコードに変換するために使用される。この変換済みコードは、これを可能にする命令コンバータを作成することは困難であるため、代替の命令セットバイナリコード１４１０と同じである可能性は低いが、しかしながら、変換済みコードは一般的な演算を実現し、代替的な命令セットからの命令で構成される。したがって、命令コンバータ１４１２は、エミュレーション、シミュレーション、または任意の他のプロセスを通じて、ｘ８６命令セットプロセッサもしくはコアを有さない、プロセッサまたは他の電子デバイスがｘ８６バイナリコード１４０６を実行することを可能にするソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせを表す。
［他の可能な項目］
［項目１］
複数のデコーダ回路を含む第１のデコードクラスタと、
複数のデコーダ回路を含む第２のデコードクラスタと、
前記第１のデコードクラスタと前記第２のデコードクラスタとの間でデコーディングのために要求された命令の送信をトグルするトグル点制御回路とを備え、前記トグル点制御回路は、
前記第１のデコードクラスタと前記第２のデコードクラスタとの間でデコーディングのために要求された前記命令の前記送信を切り替えるために、命令ストリーム内の位置を候補トグル点として決定し、
前記命令ストリームの複数の以前のデコードの特性が前記位置について存在する回数を追跡し、
前記第１のデコードクラスタと前記第２のデコードクラスタとの間でデコーディングのために要求された前記命令の前記送信を切り替えるために、前記回数に基づいて、前記位置にトグル点を挿入させる、
ハードウェアプロセッサコア。
［項目２］
前記特性は、前記位置の前および前記第１のデコードクラスタと前記第２のデコードクラスタとの間での前記命令ストリームのデコーディングの直前の切り替えの後に前記命令ストリームからデコードされたマイクロ演算の数である、項目１に記載のハードウェアプロセッサコア。
［項目３］
前記特性は、前記位置の前および前記第１のデコードクラスタと前記第２のデコードクラスタとの間での前記命令ストリームのデコーディングの直前の切り替えの後に前記命令ストリームからデコードされたマクロ命令の数である、項目１に記載のハードウェアプロセッサコア。
［項目４］
前記トグル点の前記挿入は、前記ハードウェアプロセッサコアの分岐ターゲットバッファへの分岐命令の挿入を含む、項目１に記載のハードウェアプロセッサコア。
［項目５］
前記トグル点制御回路は、前記命令ストリームの後続のデコードにおける前記位置の後に閾値数の命令内で既存のトグル点に遭遇した場合に、前記位置を前記候補トグル点としてさらに除去する、項目１に記載のハードウェアプロセッサコア。
［項目６］
前記特性は、前記位置の前に前記命令ストリームからデコードされたマイクロ演算の数である、項目１に記載のハードウェアプロセッサコア。
［項目７］
前記トグル点制御回路は、タイマを有し、前記タイマからの追跡時間が閾値時間を超えた後、前記命令ストリームの前記複数の以前のデコードの特性が前記位置について存在する前記回数の追跡を停止する、項目１に記載のハードウェアプロセッサコア。
［項目８］
前記トグル点制御回路は、複数の候補トグル点を決定し、前記命令ストリームの複数の以前のデコードのそれぞれの特性がそれぞれの位置に対して存在する対応する回数を追跡する、項目１に記載のハードウェアプロセッサコア。
［項目９］
複数のデコーダ回路を有する第１のデコードクラスタと複数のデコーダ回路を有する第２のデコードクラスタとを含むハードウェアプロセッサコアによってデコーディングのために要求された命令ストリームを受信する段階と、
前記ハードウェアプロセッサコアのトグル点制御回路が、前記第１のデコードクラスタと前記第２のデコードクラスタとの間でデコーディングのために要求された前記命令の送信を切り替えるために、前記命令ストリーム内の位置を候補トグル点として決定する段階と、
前記トグル点制御回路が、前記命令ストリームの複数の以前のデコードの特性が前記位置について存在する回数を追跡する段階と、
前記第１のデコードクラスタと前記第２のデコードクラスタとの間でデコーディングのために要求された前記命令の前記送信を切り替えるために、前記回数に基づいて、前記位置にトグル点を挿入する段階と
を備える、方法。
［項目１０］
前記特性は、前記位置の前および前記第１のデコードクラスタと前記第２のデコードクラスタとの間での前記命令ストリームのデコーディングの直前の切り替えの後に前記命令ストリームからデコードされたマイクロ演算の数である、項目９に記載の方法。
［項目１１］
前記特性は、前記位置の前および前記第１のデコードクラスタと前記第２のデコードクラスタとの間での前記命令ストリームのデコーディングの直前の切り替えの後に前記命令ストリームからデコードされたマクロ命令の数である、項目９に記載の方法。
［項目１２］
前記トグル点の前記挿入は、前記ハードウェアプロセッサコアの分岐ターゲットバッファへの分岐命令を挿入する段階を含む、項目９に記載の方法。
［項目１３］
前記命令ストリームの後続のデコードにおける前記位置の後に閾値数の命令内で既存のトグル点に遭遇した場合に、前記位置を前記候補トグル点として除去する段階をさらに備える、項目９に記載の方法。
［項目１４］
前記特性は、前記位置の前に前記命令ストリームからデコードされたマイクロ演算の数である、項目９に記載の方法。
［項目１５］
追跡時間が閾値時間を超えた後、前記命令ストリームの前記複数の以前のデコードの特性が前記位置について存在する前記回数の前記追跡を停止することをさらに備える、項目９に記載の方法。
［項目１６］
前記決定する段階は、複数の候補トグル点を決定する段階を含み、前記追跡する段階は、前記命令ストリームの複数の以前のデコードのそれぞれの特性がそれぞれの位置に対して存在する対応する回数を追跡する段階を含む、項目９に記載の方法。
［項目１７］
命令を格納するメモリと、
複数のデコーダ回路を含む第１のデコードクラスタと、
複数のデコーダ回路を含む第２のデコードクラスタと、
前記第１のデコードクラスタと前記第２のデコードクラスタとの間でデコーディングのために要求された前記命令の送信をトグルするトグル点制御回路とを備え、前記トグル点制御回路は、
前記第１のデコードクラスタと前記第２のデコードクラスタとの間でデコーディングのために要求された前記命令の前記送信を切り替えるために、命令ストリーム内の位置を候補トグル点として決定し、
前記命令ストリームの複数の以前のデコードの特性が前記位置について存在する回数を追跡し、
前記第１のデコードクラスタと前記第２のデコードクラスタとの間でデコーディングのために要求された前記命令の前記送信を切り替えるために、前記回数に基づいて、前記位置にトグル点を挿入させる、
装置。
［項目１８］
前記特性は、前記位置の前および前記第１のデコードクラスタと前記第２のデコードクラスタとの間での前記命令ストリームのデコーディングの直前の切り替えの後に前記命令ストリームからデコードされたマイクロ演算の数である、項目１７に記載の装置。
［項目１９］
前記特性は、前記位置の前および前記第１のデコードクラスタと前記第２のデコードクラスタとの間での前記命令ストリームのデコーディングの直前の切り替えの後に前記命令ストリームからデコードされたマクロ命令の数である、項目１７に記載の装置。
［項目２０］
前記トグル点の前記挿入は、分岐ターゲットバッファへの分岐命令の挿入を含む、項目１７に記載の装置。
［項目２１］
前記トグル点制御回路は、前記命令ストリームの後続のデコードにおける前記位置の後に閾値数の命令内で既存のトグル点に遭遇した場合に、前記位置を前記候補トグル点としてさらに除去する、項目１７に記載の装置。
［項目２２］
前記特性は、前記位置の前に前記命令ストリームからデコードされたマイクロ演算の数である、項目１７に記載の装置。
［項目２３］
前記トグル点制御回路は、タイマを有し、前記タイマからの追跡時間が閾値時間を超えた後、前記命令ストリームの前記複数の以前のデコードの特性が前記位置について存在する前記回数の追跡を停止する、項目１７に記載の装置。
［項目２４］
前記トグル点制御回路は、複数の候補トグル点を決定し、前記命令ストリームの複数の以前のデコードのそれぞれの特性がそれぞれの位置に対して存在する対応する回数を追跡する、項目１７に記載の装置。

Claims

複数のデコーダ回路を含む第１のデコードクラスタと、
複数のデコーダ回路を含む第２のデコードクラスタと、
前記第１のデコードクラスタと前記第２のデコードクラスタとの間でデコーディングのために要求された命令の送信をトグルするトグル点制御回路と
を備え、前記トグル点制御回路は、
前記第１のデコードクラスタと前記第２のデコードクラスタとの間でデコーディングのために要求された前記命令の前記送信を切り替えるために、命令ストリーム内の位置を候補トグル点として決定し、
前記命令ストリームの複数の以前のデコードの特性が前記位置について存在する回数を追跡し、
前記第１のデコードクラスタと前記第２のデコードクラスタとの間でデコーディングのために要求された前記命令の前記送信を切り替えるために、前記回数に基づいて、前記位置にトグル点を挿入させる、
ハードウェアプロセッサコア。
前記特性は、前記位置の前におよび前記第１のデコードクラスタと前記第２のデコードクラスタとの間での前記命令ストリームのデコーディングの直前の切り替えの後に前記命令ストリームからデコードされたマイクロ演算の数である、請求項１に記載のハードウェアプロセッサコア。
前記特性は、前記位置の前および前記第１のデコードクラスタと前記第２のデコードクラスタとの間での前記命令ストリームのデコーディングの直前の切り替えの後に前記命令ストリームからデコードされたマクロ命令の数である、請求項１に記載のハードウェアプロセッサコア。
前記トグル点の前記挿入は、前記ハードウェアプロセッサコアの分岐ターゲットバッファへの分岐命令の挿入を含む、請求項１に記載のハードウェアプロセッサコア。
前記トグル点制御回路は、前記命令ストリームの後続のデコードにおける前記位置の後に閾値数の命令内で既存のトグル点に遭遇した場合に、前記位置を前記候補トグル点としてさらに除去する、請求項１に記載のハードウェアプロセッサコア。
前記特性は、前記位置の前に前記命令ストリームからデコードされたマイクロ演算の数である、請求項１に記載のハードウェアプロセッサコア。
前記トグル点制御回路は、タイマを有し、前記タイマからの追跡時間が閾値時間を超えた後、前記命令ストリームの前記複数の以前のデコードの特性が前記位置について存在する前記回数の追跡を停止する、請求項１に記載のハードウェアプロセッサコア。
前記トグル点制御回路は、複数の候補トグル点を決定し、前記命令ストリームの複数の以前のデコードのそれぞれの特性がそれぞれの位置に対して存在する対応する回数を追跡する、請求項１～７のいずれか一項に記載のハードウェアプロセッサコア。
複数のデコーダ回路を有する第１のデコードクラスタと複数のデコーダ回路を有する第２のデコードクラスタとを含むハードウェアプロセッサコアによってデコーディングのために要求された命令ストリームを受信する段階と、
前記ハードウェアプロセッサコアのトグル点制御回路が、前記第１のデコードクラスタと前記第２のデコードクラスタとの間でデコーディングのために要求された命令の送信を切り替えるために、前記命令ストリーム内の位置を候補トグル点として決定する段階と、
前記トグル点制御回路が、前記命令ストリームの複数の以前のデコードの特性が前記位置について存在する回数を追跡する段階と、
前記第１のデコードクラスタと前記第２のデコードクラスタとの間でデコーディングのために要求された前記命令の前記送信を切り替えるために、前記回数に基づいて、前記位置にトグル点を挿入する段階と
を備える、方法。
前記特性は、前記位置の前および前記第１のデコードクラスタと前記第２のデコードクラスタとの間での前記命令ストリームのデコーディングの直前の切り替えの後に前記命令ストリームからデコードされたマイクロ演算の数である、請求項９に記載の方法。
前記特性は、前記位置の前および前記第１のデコードクラスタと前記第２のデコードクラスタとの間での前記命令ストリームのデコーディングの直前の切り替えの後に前記命令ストリームからデコードされたマクロ命令の数である、請求項９に記載の方法。
前記トグル点の前記挿入は、前記ハードウェアプロセッサコアの分岐ターゲットバッファへの分岐命令を挿入する段階を含む、請求項９に記載の方法。
前記命令ストリームの後続のデコードにおける前記位置の後に閾値数の命令内で既存のトグル点に遭遇した場合に、前記位置を前記候補トグル点として除去する段階をさらに備える、請求項９に記載の方法。
前記特性は、前記位置の前に前記命令ストリームからデコードされたマイクロ演算の数である、請求項９に記載の方法。
追跡時間が閾値時間を超えた後、前記命令ストリームの前記複数の以前のデコードの特性が前記位置について存在する前記回数の前記追跡を停止する段階をさらに備える、請求項９に記載の方法。
前記決定する段階は、複数の候補トグル点を決定する段階を含み、前記追跡する段階は、前記命令ストリームの複数の以前のデコードのそれぞれの特性がそれぞれの位置に対して存在する対応する回数を追跡する段階を含む、請求項９～１５のいずれか一項に記載の方法。
命令を格納するメモリと、
複数のデコーダ回路を含む第１のデコードクラスタと、
複数のデコーダ回路を含む第２のデコードクラスタと、
前記第１のデコードクラスタと前記第２のデコードクラスタとの間でデコードすることのために要求された前記命令の送信をトグルするトグル点制御回路と
を備え、前記トグル点制御回路は、
前記第１のデコードクラスタと前記第２のデコードクラスタとの間でデコーディングのために要求された前記命令の前記送信を切り替えるために、命令ストリーム内の位置を候補トグル点として決定し、
前記命令ストリームの複数の以前のデコードの特性が前記位置について存在する回数を追跡し、
前記第１のデコードクラスタと前記第２のデコードクラスタとの間でデコーディングのために要求された前記命令の前記送信を切り替えるために、前記回数に基づいて、前記位置にトグル点を挿入させる、
装置。
前記特性は、前記位置の前および前記第１のデコードクラスタと前記第２のデコードクラスタとの間での前記命令ストリームのデコーディングの直前の切り替えの後に前記命令ストリームからデコードされたマイクロ演算の数である、請求項１７に記載の装置。
前記特性は、前記位置の前および前記第１のデコードクラスタと前記第２のデコードクラスタとの間での前記命令ストリームのデコーディングの直前の切り替えの後に前記命令ストリームからデコードされたマクロ命令の数である、請求項１７に記載の装置。
前記トグル点の前記挿入は、分岐ターゲットバッファへの分岐命令の挿入を含む、請求項１７に記載の装置。
前記トグル点制御回路は、前記命令ストリームの後続のデコードにおける前記位置の後に閾値数の命令内で既存のトグル点に遭遇した場合に、前記位置を前記候補トグル点としてさらに除去する、請求項１７に記載の装置。
前記特性は、前記位置の前に前記命令ストリームからデコードされたマイクロ演算の数である、請求項１７に記載の装置。
前記トグル点制御回路は、タイマを有し、前記タイマからの追跡時間が閾値時間を超えた後、前記命令ストリームの前記複数の以前のデコードの特性が前記位置について存在する前記回数の追跡を停止する、請求項１７に記載の装置。
前記トグル点制御回路は、複数の候補トグル点を決定し、前記命令ストリームの複数の以前のデコードのそれぞれの特性がそれぞれの位置に対して存在する対応する回数を追跡する、請求項１７～２３のいずれか一項に記載の装置。