JP2021057005A

JP2021057005A - プロセッサのノンライトバック機能のための装置、方法、およびシステム

Info

Publication number: JP2021057005A
Application number: JP2020103679A
Authority: JP
Inventors: シャフィヒスハム; Shafi Hisham; シャンボーグヴェドビヤス; Shanbhogue Vedvyas; ネイガーギルバート; Neiger Gilbert; エー．コールマンジェームス; A Coleman James
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-09-27
Filing date: 2020-06-16
Publication date: 2021-04-08
Also published as: CN112579158A; EP3798854A1; US11301309B2; EP3798854B1; US20210096930A1; TWI830927B; TW202113608A

Abstract

【課題】ソフトウェアがノンライトバックロックアクセスを選択的に無効にすることを可能にする方法を提供する。【解決手段】ハードウェアプロセッサ１００は、複数の論理プロセッサと、ノンライトバックロック無効化ビットを備える制御レジスタ１１０と、複数の論理プロセッサによって共有されるキャッシュ１２８と、ノンライトバックロック無効化ビットが第１の値に設定されている場合に、複数の論理プロセッサのうちの論理プロセッサによって発行されたメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを無効にし、ノンライトバックロック無効化ビットが第２の値に設定されている場合に、メモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを実装するメモリコントローラ１３０と、を備える。【選択図】図１

Description

本開示は、一般に電子機器に関し、より具体的には、本開示の実施形態は、ノンライトバック機能を備えたプロセッサに関する。

プロセッサまたはプロセッサのセットは、例えば命令セットアーキテクチャ（ＩＳＡ）などの命令セットからの命令を実行する。命令セットは、プログラミングに関連するコンピュータアーキテクチャの一部であり、通常、ネイティブデータタイプ、命令、レジスタアーキテクチャ、アドレッシングモード、メモリアーキテクチャ、割り込みと例外処理、および外部入出力（Ｉ／Ｏ）を含む。本明細書における命令という用語は、マクロ命令、例えば、実行のためにプロセッサに提供される命令、またはマイクロ命令、例えば、プロセッサのデコーダがマクロ命令をデコードすることから生じる結果の命令を示してもよいことに留意されたい。

本開示は、添付の図面の図に限定されず例として示されている。図面では、同様の参照は同様の要素を示す。

本開示の複数の実施形態による、メモリに結合されたハードウェアプロセッサを示す。

本開示の複数の実施形態による、メモリ制御レジスタの例示フォーマットを示す。

本開示の複数の実施形態による、機能レジスタの例示フォーマットを示す。

本開示の複数の実施形態による、制御レジスタ（例えば、ＣＲ４からＣＲ０）の例示フォーマットを示す。

本開示の複数の実施形態による、フロー図である。

本開示の複数の実施形態による、汎用ベクトル向け命令フォーマットおよびそのクラスＡ命令テンプレートを示すブロック図である。

本開示の複数の実施形態による、汎用ベクトル向け命令フォーマットおよびそのクラスＢ命令テンプレートを示すブロック図である。

本開示の複数の実施形態による、図６Ａおよび６Ｂの汎用ベクトル向け命令フォーマットのためのフィールドを示すブロック図である。

本開示の一実施形態による、フルオペコードフィールドを構成する、図７Ａの特定ベクトル向け命令フォーマットのフィールドを示すブロック図である。

本開示の一実施形態による、レジスタインデックスフィールドを構成する、図７Ａの特定ベクトル向け命令フォーマットのフィールドを示すブロック図である。

本開示の一実施形態による、拡張演算フィールド６５０を構成する、図７Ａの特定ベクトル向け命令フォーマットのフィールドを示すブロック図である。

本開示の一実施形態による、レジスタアーキテクチャのブロック図である。

本開示の複数の実施形態による、例示的なインオーダパイプラインおよび例示的なレジスタリネーミング、アウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。

本開示の複数の実施形態による、インオーダアーキテクチャコアの例示的な実施形態と、プロセッサに含まれるべき例示的なレジスタリネーミングアウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。

本開示の複数の実施形態による、オンダイ相互接続ネットワークへのその接続およびレベル２（Ｌ２）キャッシュのそのローカルサブセットを伴う、単一のプロセッサコアのブロック図である。

本開示の複数の実施形態による、図１０Ａのプロセッサコアの一部の拡大図である。

本開示の複数の実施形態による、１つより多くのコアを有し得、統合メモリコントローラを有し得、統合グラフィックを有し得るプロセッサのブロック図である。

本開示の一実施形態による、システムのブロック図である。

本開示の実施形態による、より具体的な例示的システムのブロック図である。

本開示の実施形態による、第２のより具体的な例示的システムのブロック図である。

本開示の実施形態による、システムオンチップ（ＳｏＣ）のブロック図である。

本開示の複数の実施形態による、ソース命令セット内のバイナリ命令をターゲット命令セット内のバイナリ命令に変換するためのソフトウェア命令コンバータの使用を対比するブロック図である。

以下の説明では、多くの具体的な詳細が示されている。しかしながら、本開示の複数の実施形態は、これらの具体的な詳細なしで実施されてもよいことが理解される。他の例では、この説明の理解を曖昧にしないために、周知の回路、構造、および技術は詳細には示されていない。

本明細書における「一実施形態」、「実施形態」、「例示的な一実施形態」などへの言及は、記載された実施形態が特定の特徴、構造、または特性を含み得るが、すべての実施形態が必ずしも特定の特徴、構造、または特性を含み得ないことを示す。さらに、そのような語句は、必ずしも同じ実施形態を参照するわけではない。さらに、特定の特徴、構造、または特性が一実施形態と関連して説明される場合、明示的に記載されているか否かにかかわらず、他の実施形態と関連してそのような特徴、構造、または特性に影響を与えることは、当業者の知識の範囲内であるといえる。

（例えば、ハードウェア）プロセッサ（例えば、１つまたは複数のコアを有する）は、命令（例えば、命令のスレッド）を実行して、例えば、演算、ロジック、または他の機能を実行するためにデータを操作することができる。例えば、ソフトウェアは、演算を要求することができ、ハードウェアプロセッサ（例えば、そのコアまたは複数のコア）は、要求に応答して演算を実行することができる。特定の実施形態では、（例えば、中央処理装置（ＣＰＵ）の）１つまたは複数の論理プロセッサが、要求に応答して演算を実行する。論理プロセッサがコアであってもよい。複数の論理プロセッサを単一のコアに実装でき、例えば、コアのコンポーネントがマルチスレッディング（例えば、２つ以上の演算またはスレッドの並列セットの実行）をサポートし、時分割のマルチスレッディング、同時マルチスレッディング（単一の物理コアが、物理コアが同時にマルチスレッディングするスレッドのそれぞれに論理コアを提供する）、またはそれらの組み合わせ（例えば、時分割のフェッチとデコード、およびその後のインテルハイパースレッディング・テクノロジーなどの同時マルチスレッディング）を含む様々な態様で実行できる。

特定の実施形態では、複数の論理プロセッサが演算を実行する。少なくとも１つの論理プロセッサが、固定の読み取り、変更、書き込み（ＲＭＷ）演算を実行し得る。ＲＭＷ演算中は、読み取られ、次に変更され、変更状態で書き戻されるデータのストレージが他の論理プロセッサからロックされる。一例として、データ（例えば、データのキャッシュライン）を変更する第１の論理プロセッサは、そのデータのストレージに対してロックをアサートし、データ（例えば、その１つまたは複数のビット）を変更してから、変更されたバージョンのデータをストレージ（例えば、読み取られたのと同じ場所）に書き戻し、ロックをデアサートして、例えば、別の論理プロセッサが第１の論理プロセッサによる読み取りと書き込みの間に書き込みを実行することを防止する。ロック（例えば、バスロックなど）を実装するメモリ要求の読み取り−変更−書き込みタイプの非限定的な例は、特定のロック命令とフロー（例えば、ロックプレフィックス付きのＡＤＤ、セグメントアクセスビットの更新、またはページテーブルアクセス／ダーティビット）である。

特定の実施形態では、ロックされたＲＭＷ演算は、複数の論理プロセッサによって共有されるキャッシュ（例えば、Ｌ１キャッシュ）に格納されるデータに対するものであり、このキャッシュを共有する同じ論理プロセッサ上で実行されるソフトウェアにのみ影響を与える。しかしながら、他の実施形態において、読み取りおよび変更されるデータを格納するストレージへのＲＭＷタイプのメモリ要求に対して、ノンライトバックロックが実装される。一実施形態において、読み取りおよび変更されるデータは、ＲＭＷ演算を実行するための論理プロセッサの（例えば、内部）キャッシュ内に格納されないため、ノンライトバックロックが実装されるが、ノンライトバックロックによって他のアクセスからロックされるキャッシュとは別個のメモリに格納される。例えば、複数の論理プロセッサをメモリに結合するバスをロックする。

しかしながら、特定の実施形態では、ノンライトバックロックは、ＲＭＷ演算が完了するまで、すべての論理プロセッサ（例えば、ロックされているバスを介してメモリに結合されている）がメモリにアクセスするのをブロックする。これらの実施形態では、論理プロセッサの１つによるバスロックのバーストを有することにより、残りの論理プロセッサへのデータ枯渇が引き起こされる。リアルタイムソフトウェア（例えば、リアルタイムオペレーティングシステム（ＲＴＯＳ））および汎用ソフトウェア（例えば、汎用オペレーティングシステム（ＧＰＯＳ））を実行しているプロセッサでは、ノンライトバックロックの発行を引き起こす汎用ソフトウェアからのメモリ要求は、リアルタイムソフトウェアがメモリにアクセスすることを防ぎ、したがって、これらの実施形態においてリアルタイムソフトウェアが進行することを防ぐ。一実施形態において、これは、ＲＴＯＳとＧＰＯＳの両方を含むシステムで起こり、ＧＰＯＳは、ソフトウェアへのノンライトバック（非ＷＢ）アクセスを可能にするようにページテーブルを構成する。開示されるように、本明細書の実施形態は、実装の選択的制御またはノンライトバックロックの無効化を可能にすることによる、プロセッサ（例えば、コンピュータ）自体の機能の改善である。この機能を使用すると、モノのインターネット（ＩｏＴ）システムでこれらのバスロックがなくなり得、プロセッサ（例えば、ＣＰＵ）上の他のソフトウェアからの干渉なしにリアルタイムソフトウェアを実行できる。

本明細書の特定の実施形態は、ソフトウェア（例えば、オペレーティングシステム）がノンライトバックロックアクセスを選択的に無効にする（例えば、ノンライトバックロックを引き起こすことになったメモリ要求へのサービスを無効にする）ことを可能にする新しいアーキテクチャを提供し、例えば、すべてのタイプのロックを無効にするだけとは対照的である。一実施形態において、新しいモデル固有レジスタ（ＭＳＲ）ビットが追加され、「オン」値に設定されると、プロセッサ（例えば、ＣＰＵ）にノンライトバックロックアクセスを無効にさせることになり、例えば、このＭＳＲビットが「オン」の値に設定されているときにソフトウェアが非ＷＢロックアクセスを発行すると、一般保護（ＧＰ）違反が発生する。

図１は、本開示の複数の実施形態による、メモリ１０２に結合されたハードウェアプロセッサ１００を示す。メモリ１０２は、例えば、キャッシュとは別個のシステムメモリであり得る。ハードウェアプロセッサ１００は、１つまたは複数のコア（例えば、コア１０４−１から１０４−Ｎ、ここでＮは１より大きい任意の整数）を含むことができる。各コアには、１または複数の論理プロセッサが含まれる場合がある。単一の論理プロセッサは単一のコアである場合がある。複数の論理プロセッサを単一のコアに実装でき、例えば、コアのコンポーネントがマルチスレッディング（例えば、２つ以上の演算またはスレッドの並列セットの実行）をサポートし、時分割のマルチスレッディング、同時マルチスレッディング（単一の物理コアが、物理コアが同時にマルチスレッディングするスレッドのそれぞれに論理コアを提供する）、またはそれらの組み合わせ（例えば、時分割のフェッチとデコード、およびその後のインテルハイパースレッディング・テクノロジーなどの同時マルチスレッディング）を含む様々な態様で実装できる。論理プロセッサは、例えば、キャッシュやメモリなどの特定のコンポーネントへのアクセスを共有できる。

図１に示すように、ハードウェアプロセッサ１００は、より高いレベルのキャッシュ１２８へのアクセスを共有する２つのコア、コア１０４−１およびコア１０４−Ｎを含む。各コアは、複数のハードウェアスレッドを実行できる。例えば、各コアによって２つの論理プロセッサが実装される一実施形態では、オペレーティングシステムなどのソフトウェアエンティティは、プロセッサ１００を４つの別個の論理プロセッサとして見ることができ、プロセッサ１００は４つのソフトウェアスレッドを実行することができる。コア１０４−Ａから１０４−Ｎは、図示のように対称コアであってもよく、非対称コア、例えば、異なる構成、実行ユニットなどを備えたコアであってもよい。

特定の実施形態では、コア１０４−１は、データレジスタまたは複数のレジスタ１０６−１、制御レジスタまたは複数のレジスタ１１０−１、および機能レジスタまたは複数のレジスタ１０８−１の任意の組み合わせを含む。一実施形態では、データレジスタ１０６−１は、操作されるデータを格納するために使用される。一実施形態では、機能レジスタ１０８−１は、コア（またはすべてのコア）が、例えば図３に示され、本明細書で説明するノンライトバックロック無効化をサポートするかどうかを例えば示すために、それぞれが特定のコアの機能を表す１つまたは複数のビットを格納する。一実施形態では、制御レジスタ１１０−１は、特定の機能がそのコアに対して有効かをそれぞれ制御する１つまたは複数のビットを格納し、例えば、本明細書で論じるようにノンライトバックロック無効化をオンまたはオフにする。一実施形態では、制御レジスタ１１０−１は、例えば図２に示されるように、メモリ制御レジスタ１１２−１を含む。一実施形態では、制御レジスタ１１０−１は、例えば図４に示されるように、他の１つまたは複数の制御レジスタ１１４−１を含む。

図示されたコア１０４−１は、分岐目標バッファ（ＢＴＢ）、命令キャッシュ（Ｉ−キャッシュ）、および／または命令トランスレーションルックアサイドバッファ（Ｉ−ＴＬＢ）１１６−１を含み、例えば、ＢＴＢは、実行される／取得される分岐を予測し、命令キャッシュは、命令（例えば、より高いレベルのキャッシュおよび／またはメモリ１０２からの命令）をキャッシュし、および／またはＩ−ＴＬＢは、命令のアドレス変換エントリを（例えば、線形から物理へ）格納する。特定の実施形態では、投機的実行が可能なプロセッサ１００は、予測された分岐をプリフェッチおよび投機的に実行する。

デコーダ１１８−１（例えば、デコード回路）は、命令（例えば、命令のフェッチから受信された）をデコードされた命令へデコードする。一実施形態では、プロセッサ１００は、プロセッサ１００上でデコード可能／実行可能である命令を定義および指定する命令セットアーキテクチャ（ＩＳＡ）をサポートする。

図示されたコア１０４−１は、リネーム／アロケータ／スケジューラ１２０−１を含む。一実施形態では、リネーム回路は、プログラム／命令参照レジスタをプロセッサ１００内部の他のレジスタにリネームするレジスタリネーマーである。一実施形態では、アロケータ回路は、命令結果を追跡するために、実行ユニットおよび／またはリオーダバッファなどのプロセッサリソースを割り当てる（例えば、予約する）。一実施形態では、スケジューラ回路は、プロセッサリソース（例えば、実行ユニット（複数可）１２２−１）上での命令（例えば、命令に対応するマイクロコード）の実行をスケジュールする。

特定の実施形態では、命令（例えば、マイクロコード）は、それらのタイプおよび／または利用可能性に従って実行ユニット（例えば、実行回路）上でスケジュールされる。例えば、浮動小数点命令は、使用可能な浮動小数点実行ユニットを有する実行ユニットのポート上でスケジュールされる。実行ユニットに関連する複数のレジスタファイルもまた、情報命令処理結果を格納するために含めることができる。例示的な実行ユニットは、浮動小数点実行ユニット、整数実行ユニット、ジャンプ実行ユニット、ロード実行ユニット、ストア実行ユニット、または他の実行ユニットを含む。

図示されたコア１０４−１は、リオーダ／リタイヤユニット１２４−１を含む。一実施形態では、リオーダ／リタイヤユニット１２４−１は、上述のリオーダバッファ、ロードバッファ、およびストアバッファなどのコンポーネントを含み、アウトオブオーダ実行およびアウトオブオーダで実行される命令の後でインオーダーリタイアメントをサポートし、例えば、アロケータおよびリネーム回路は、命令結果を追跡するためのリオーダバッファなどの他のリソースも予約する。

特定の実施形態では、コア１０４−Ｎは、データレジスタまたは複数のレジスタ１０６−Ｎ、制御レジスタまたは複数のレジスタ１１０−Ｎ、および機能レジスタまたは複数のレジスタ１０８−Ｎの任意の組み合わせを含む。一実施形態では、データレジスタ１０６−Ｎは、操作されるデータを格納するために使用される。一実施形態では、機能レジスタ１０８−Ｎは、それぞれがその特定のコアの機能を表す１つまたは複数のビットを格納して、例えば、コア（またはすべてのコア）が例えば図３に示す本明細書で論じるようにノンライトバックロック無効化をサポートするかを示す。一実施形態では、制御レジスタ１１０−Ｎは、特定の機能がそのコアに対して有効かをそれぞれ制御する１つまたは複数のビットを格納し、例えば、本明細書で論じるようにノンライトバックロック無効化をオンまたはオフにする。一実施形態では、制御レジスタ１１０−Ｎは、例えば図２に示されるように、メモリ制御レジスタ１１２−Ｎを含む。一実施形態では、制御レジスタ１１０−Ｎは、例えば図４に示されるように、他の１つまたは複数の制御レジスタ１１４−Ｎを含む。

図示されたコア１０４−Ｎは、分岐目標バッファ（ＢＴＢ）、命令キャッシュ（Ｉ−キャッシュ）、および／または命令トランスレーションルックアサイドバッファ（Ｉ−ＴＬＢ）１１６−Ｎを含み、例えば、ＢＴＢは、実行される／取得される分岐を予測し、命令キャッシュ（Ｉ−キャッシュ）は、命令（例えば、より高いレベルのキャッシュおよび／またはメモリ１０２からの命令）をキャッシュし、および／またはＩ−ＴＬＢは、命令のアドレス変換エントリを（例えば、線形から物理へ）格納する。特定の実施形態では、投機的実行が可能なプロセッサ１００は、予測された分岐をプリフェッチおよび投機的に実行する。

デコーダ１１８−Ｎ（例えば、デコード回路）は、（例えば、命令のフェッチから受信された）命令をデコードされた命令にデコードする。一実施形態では、プロセッサ１００は、プロセッサ１００上でデコード可能／実行可能である命令を定義および指定する命令セットアーキテクチャ（ＩＳＡ）をサポートする。

図示されたコア１０４−Ｎは、リネーム／アロケータ／スケジューラ１２０−Ｎを含む。一実施形態では、リネーム回路は、プログラム／命令参照レジスタをプロセッサ１００内部の他のレジスタにリネームするレジスタリネーマーである。一実施形態では、アロケータ回路は、命令結果を追跡するために、実行ユニットおよび／またはリオーダバッファなどのプロセッサリソースを割り当てる（例えば、予約する）。一実施形態では、スケジューラ回路は、プロセッサリソース（例えば、実行ユニット（複数可）１２２−Ｎ）上での命令（例えば、命令に対応するマイクロコード）の実行をスケジュールする。

特定の実施形態では、命令（例えば、マイクロコード）は、それらのタイプおよび／または利用可能性に従って実行ユニット（例えば、実行回路）上でスケジュールされる。例えば、浮動小数点命令は、使用可能な浮動小数点実行ユニットを持つ実行ユニットのポートでスケジュールされる。実行ユニットに関連する複数のレジスタファイルもまた、情報命令処理結果を格納するために含めることができる。例示的な実行ユニットは、浮動小数点実行ユニット、整数実行ユニット、ジャンプ実行ユニット、ロード実行ユニット、ストア実行ユニット、または他の実行ユニットを含む。

図示されたコア１０４−Ｎは、リオーダ／リタイヤユニット１２４−Ｎを含む。一実施形態では、リオーダ／リタイヤユニット１２４−Ｎは、上述のリオーダバッファ、ロードバッファ、およびストアバッファなどのコンポーネントを含み、アウトオブオーダ実行およびアウトオブオーダで実行される命令の後でインオーダーリタイアメントをサポートし、例えば、アロケータおよびリネーム回路は、命令結果を追跡するためのリオーダバッファなどの他のリソースも予約する。

図示されたコア１０４−１は、より低いレベルのデータキャッシュ（ｄ−キャッシュ）および／またはデータ変換ルックアサイドバッファ（Ｄ−ＴＬＢ）、例えば、データ（例えば、より高いレベルのキャッシュおよび／またはメモリ１０２からのデータ）をキャッシュするデータキャッシュ、および／または、例えば、それぞれの実行ユニットまたは複数のユニットに結合された、格納されたデータのためのアドレス変換エントリを格納（例えば、線形から物理への）するＤ−ＴＬＢを含む。図示されたプロセッサ１００は、より高いレベル（例えば、Ｌ２またはＬ３）のキャッシュ１２８を含む。キャッシュは、最近フェッチおよび／または操作された要素をキャッシュする特定の実施形態に含まれている。より高いレベルは、実行ユニットからさらに離れたキャッシュレベルを示す場合があることに留意されたい。一実施形態では、より高いレベルのキャッシュ１２８は、第２レベル（Ｌ２）のデータキャッシュである。一実施形態では、各データキャッシュは、変更された、排他的、共有、無効（ＭＥＳＩ）などの状態であってこれに限定されない状態であるキャッシュコヒーレンシ状態で保持される可能性のあるデータオペランドなどの要素で最近使用／操作された要素を格納する。Ｄ−ＴＬＢは、最近の仮想（または線形）から物理へのアドレス変換を保存できる。具体的な例として、プロセッサは、物理メモリを複数の仮想ページへと分割するためのページテーブル構造を含むことができる。データキャッシュは、トランザクションの実行中に一時的なアクセスを追跡するトランザクションメモリまたは他のメモリとして利用できる。一実施形態では、ページテーブル１３６および／またはセグメント記述子テーブルは、メモリ１０２に格納され、例えば、１または複数のキャッシュにキャッシュされる。

プロセッサ１００は、メモリコントローラ１３０を含み得る（またはプロセッサ１００を有するシステムオンチップ（ＳｏＣ）は、メモリコントローラを含み得る）。一実施形態では、メモリコントローラ１３０は、例えば、より高いレベルのキャッシュおよび／またはメモリ１０２を検索することにより、キャッシュ内のデータのミスを処理するために、メモリアクセスを制御する。一実施形態では、より高いレベルのキャッシュ１２８（例えば、およびメモリコントローラ１３０）がバス１３２に結合される。図１では、バス１３２は、メモリ１０２へのポート１３４を含む。バス１３２は、メモリ１０２、チップセット、または他の回路など、プロセッサ１００の外部のデバイスと通信するための他のポートを含み得る。メモリ１０２は、プロセッサ１００専用であっても、システム内の他のデバイスと共有されていてもよい。メモリ１０２の例には、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、静的ＲＡＭ（ＳＲＡＭ）、不揮発性メモリ（ＮＶメモリ）などが含まれる。バス１３２は、バス上でバス信号を送受信するための入出力（Ｉ／Ｏ）バッファを含むことができる。バスは相互接続であってもよい。

特定の実施形態では、複数の論理プロセッサ（例えば、単一のコア１０４−１または１０４−Ｎの、複数のコア１０４−１から１０４−Ｎ上の）が演算を実行している。少なくとも１つの論理プロセッサが、ストレージの読み取りデータに対する固定の読み取り、変更、書き込み（ＲＭＷ）演算を実行し得、次に変更すると、変更状態で書き戻され、ＲＭＷ演算中に、そのストレージを変更する他の論理プロセッサからロックされる。一例として、データ（例えば、データのキャッシュライン）を変更する第１の論理プロセッサ（例えば、コア１０４−１の）は、そのデータのストレージに対してロックをアサートし、データ（例えば、その１つまたは複数のビット）を変更してから、変更されたバージョンのデータをストレージ（例えば、読み取られたのと同じ場所）へ書き戻し、ロックをデアサートして、例えば、別の論理プロセッサ（例えば、コア１０４−１またはコア１０４−Ｎの）が第１の論理プロセッサによる読み取りと書き込みの間に書き込みを実行することを防止する。ロック（例えば、バスロックなど）を実装するメモリ要求の読み取り−変更−書き込みタイプの非限定的な例は、特定のロック命令とフロー（例えば、ロックプレフィックス付きのＡＤＤ、セグメントアクセスビットの更新、またはページテーブルアクセス／ダーティビット）である。

特定の実施形態では、ロックされたＲＭＷ演算は、複数の論理プロセッサによって共有されるキャッシュ（例えば、コア１０４−１のＬ１キャッシュ）に格納されるデータに対するものであり、このキャッシュを共有する同じ論理プロセッサ（例えば、コア１０４−１のＬ１キャッシュ）上で実行されるソフトウェアにのみ影響を与える。しかしながら、他の実施形態において、読み取りおよび変更されるデータを格納するストレージへのＲＭＷタイプのメモリ要求に対して、ノンライトバックロックが実装される。一実施形態において、読み取りおよび変更されるデータは、ＲＭＷ演算を実行するための論理プロセッサの（例えば、内部）キャッシュ内に格納されないため、ノンライトバックロックが実装されるが、ノンライトバックロックによって他のアクセスからロックされるキャッシュとは別個のメモリ１０２に格納される。例えば、複数の論理プロセッサをメモリに結合するバス１３２をロックする。

一実施形態では、ロックされたＲＭＷ演算は、コア１０４−１またはコア１０４−Ｎの複数の論理プロセッサによって共有されるコア１０４−１またはコア１０４−Ｎ（例えば、より高いレベルのキャッシュ１２８）のキャッシュ、およびバス１３２のノンライトバックロックによって他のアクセスからロックされるキャッシュに格納されるデータ対するものである。したがって、この実施形態では、ノンライトバックロックは、ＲＭＷ演算が完了するまで、すべての論理プロセッサまたはコア１０４−１またはコア１０４−Ｎがメモリにアクセスすることをブロックする。例えば、第１の論理プロセッサがリアルタイムコードを実行し、第２の論理プロセッサが汎用コードを実行しており、ノンライトバックロックの発行を引き起こす汎用ソフトウェアからのメモリ要求により、リアルライムソフトウェアがメモリにアクセスすることを妨げられ、したがって、特定の実施形態では、リアルタイムソフトウェアが進行するのを防ぐ。

本明細書の特定の実施形態は、ソフトウェア（例えば、オペレーティングシステム）がノンライトバックロックアクセスを選択的に無効にする（例えば、ノンライトバックロックを引き起こすことになったメモリ要求へのサービスを無効にする）ことを可能にする新しいアーキテクチャを提供し、例えば、すべてのタイプのロックを無効にするだけとは対照的である。一実施形態では、新しいビットが制御レジスタ１１０−１および／または制御レジスタ１１０−Ｎ（例えば、メモリ制御レジスタ１１２−１および／またはメモリ制御レジスタ１１２−Ｎ）に追加され、「オフ」値ではなく「オン」値に設定するとき、プロセッサ（例えば、ＣＰＵ）に、ノンライトバックロックアクセスを無効化させ、例えば、このＭＳＲビットが「オン」の値に設定されているときにソフトウェアが非ＷＢロックアクセスを発行すると、一般保護（ＧＰ）違反が発生する。一実施形態では、各コアは、その制御レジスタ（例えば、メモリ制御レジスタ）にそれ自体のビットを含み、「オフ」値の代わりに「オン」値に設定されるとき、コアに、そのコア（例えば、そのコアに実装されている各論理プロセッサ）に対するノンライトバックロックアクセスを無効にさせる。一実施形態では、複数のコアの各コアは、共有制御レジスタ（例えば、メモリ制御レジスタ）内のビット（または複数ビットの単一のフィールド）を共有し、「オフ」値できはなく「オン」値に設定されるとき、コアに、これらのコア（例えば、これらのコアに実装されている各論理プロセッサ）に対するノンライトバックロックアクセスを無効にさせる。

特定の実施形態では、メモリ要求は要求エンティティによって送信され、例えば、実行ユニットはロード要求またはストア要求を送信する。メモリ要求は読み取り−変更−書き込みタイプであってよく、例えば、ストレージから実行ユニットに値を読み取り、その値を実行ユニットで変更し、その変更された値をストレージ（例えば、同じストレージの場所）に書き戻す。一実施形態では、メモリ要求は、（例えば、メモリ１０２にアクセスするために）メモリコントローラ１３０によって受信され、メモリコントローラは、制御レジスタ（例えば、メモリ制御レジスタ）に、その制御レジスタ（例えば、メモリ要求を生成したコアのメモリ制御レジスタ）内にビットを有すること、すなわち「オフ」値の代わりに「オン」値に設定されているかどうかをチェックし、したがって、メモリコントローラ１３０は、（例えば、そのメモリ要求に対してバス１３２のバスロックを許可しないことにより）メモリ１０２に対するノンライトバック（例えば、非キャッシュ）ロックアクセスを無効にする。一実施形態では、ノンライトバックメモリアクセスは、キャッシュからは処理可能でない（例えば、キャッシュできない）が、メモリ１０２からは処理可能であるメモリアクセスである。

特定の実施形態では、ページテーブル１３６および／またはセグメント記述子テーブル１３８に対するメモリ要求は、読み取り−変更−書き込みタイプのメモリ要求であり、したがって、バス１３２のロッキングアクセス（例えば、ノンライトバックロックアクセス）を引き起こし得る。特定の実施形態において、ページテーブル１３６は、コンピュータ（例えば、オペレーティングシステム）内の仮想メモリシステムによって使用されるデータ構造を格納し、物理メモリを複数の仮想ページに分割するための仮想アドレスと物理アドレスとの間のマップを示す。一実施形態では、現在のページディレクトリの物理アドレスは、レジスタＣＲ３（例えば、図４）に格納され、ページディレクトリベースレジスタ（ＰＤＢＲ）と呼ばれることもある。特定の実施形態では、セグメント記述子テーブル１３８は、仮想（例えば、論理）アドレスを物理（例えば、線形）アドレスにマップするために仮想メモリシステムによってコンピュータ（例えば、オペレーティングシステム）内で使用されるデータ構造を格納する。

複数のレジスタは、プロセッサの演算モードと現在実行中のタスクの特性を決定する（例えば、いかなる組み合わせの）制御レジスタ（例えば、ＣＲ０からＣＲ４）と、１つまたは複数のメモリ管理レジスタ（例えば、グローバル記述子テーブルレジスタ（ＧＤＴＲ）を含むメモリ制御レジスタと、割り込み記述子テーブルレジスタ（ＩＤＴＲ）と、タスクレジスタと、プロテクトモードのメモリ管理で使用されるデータ構造の場所を指定するローカル記述子テーブルレジスタ（ＬＤＴＲ）と、プロセッサのデバッグ操作を制御およびモニタリングするためのデバッグレジスタ（例えば、ＤＲ０からＤＲ７）と、メモリタイプをメモリ領域に割り当てるために使用されるメモリタイプ範囲レジスタ（ＭＴＲＲｓ）と、プロセッサ（例えば、コアごと）の性能（例えば、タイムスタンプカウンタ以外のＭＳＲがシステム関連の機能を処理するためのものであり、アプリケーションプログラムからアクセスできない場合）を制御および報告するために使用されるマシン（例えば、モデル）固有のレジスタ（ＭＳＲ）と、のうちの１つまたは複数を含んでよい。図２−４は、利用可能である様々なレジスタフォーマットを示す。

一実施形態では、プロセッサ１００は、例えば、論理プロセッサごとまたはコアごとに、違反（例えば、割り込み）（例えば、バスのロックの要求の実行を停止し、オペレーティングシステムによって読み取られるなどの割り込みを送信する一般保護違反）を生成することにより、バスのノンライトバックロックアクセスを無効にする。

特定の実施形態では、バス（例えば、ロックされたＲＭＷアクセス）のノンライトバックロック（例えば、ロックアクセス）が検出され、ノンライトバックロック無効化ビットが設定される（例えば、ＭＥＭＯＲＹ＿ＣＯＮＴＲＯＬ［Ｎｏｎ＿ＷＢ＿ＬＯＣＫ＿ＤＩＳＡＢＬＥ］ビットが設定される）場合であっても、プロセッサ（例えば、ＣＰＵ）が一般保護違反を作成しないことが好ましい場合がある。１．ハードウェアおよび／またはソフトウェアがキャッシュを無効にして（例えば、レジスタＣＲ０のビットＣＤを「オン」に設定することにより）、すべてのアクセスがキャッシュ不可になる場合、２．保護されたコンテナ（例えば、エンクレーブ）のメモリがノンライトバックメモリタイプのメモリ暗号化回路１４０によって使用される場合、例えば、インテルソフトウェアガードエクステンション（ＳＧＸ）で使用される保存メモリは、ノンライトバックメモリタイプでプログラミングされ、３．仮想マシンモニタ（ＶＭＭ）対応の拡張ページテーブル（ＥＰＴ）およびＥＰＴアクセス／ダーティ（Ａ／Ｄ）およびＥＰＴメモリタイプ（ＭＥＭＴＹＰＥ）がノンライトバックであり（非ＷＢ）、または４．ノンライトバックメモリにマップされている場合は、割り込み記述子を通知する。

特定の実施形態では、ハードウェアおよび／またはソフトウェアは、（ノンライトバックロックされたアクセスの結果として）バスロックが決して取得されないことを保証する。１．ノンライトバックロック無効化ビット（例えば、ＴＥＳＴ＿ＣＴＲＬ［ＮＯＮ−ＷＲＩＴＥ−ＢＡＣＫＬＯＣＫＤＩＳＡＢＬＥ］）を「オン」に設定し、２．キャッシュを無効にせず（例えば、ＣＲ０．ＣＤを「オン」に設定しない）、３．プロセッサの予約済みメモリ範囲レジスタ（ＰＲＭＲＲ）を常に「ライトバック」に構成（例えば、オペレーティングシステムソフトウェアにプロセッサによるメモリ範囲へのアクセスのキャッシュ方法の制御を提供する制御レジスタを設定することにより）４．ＥＰＴを使用し、ＥＰＴＡ／Ｄビットを有効にする場合、ＥＰＴページング構造をライトバックメモリに配置し、５．通知された割り込みを使用する場合、通知された割り込み記述子をノンライトバックメモリではなく、ライトバックメモリに配置する。

以下の表１は、バスロックがバスのノンライトバックロックアクセスから来る可能性がある場合の例を示す（例えば、読み取り−変更−書き込みタイプのメモリ要求）。以下でさらに論じる場合には、下記には、命令の例と、可能な命令フォーマットが含まれていることに留意されたい。

［表１：バスロックを引き起こす可能性のあるフロー／命令の例］

特定の実施形態では、ノンライトバックロックの有効および無効を制御するために制御ビットが追加される（例えば、ＭＳＲ（ＲＤＭＳＲ）の内容を読み取るためのＭＳＲの読み取り命令の後に、ＭＳＲ（ＷＲＭＳＲ）の書き込み命令を実行するなど）（例えば、図２のＴＥＳＴ＿ＣＴＲＬＭＳＲ（アドレス０３３Ｈ）ビット＃２８など）。

特定の実施形態では、機能ビットが追加されて、（例えば、図３のＩＡ３２＿コア＿機能ＭＳＲ（アドレス０ＣＦＨ）ビット＃４において）ノンライトバックロック無効化機能の存在を列挙する。

図２は、本開示の複数の実施形態による、メモリ制御レジスタ（例えば、ＴＥＳＴ＿ＣＴＲＬ）の例示フォーマット２００を示す。図示されたフォーマット２００は、１６進数３３Ｈ（１０進数５１）のレジスタアドレス２０２を含む。フォーマット２００には、ノンライトバックロックの有効化（例えば、ゼロに設定されている場合）および無効化（例えば、１に設定されている場合）を制御するためのビット２８が含まれている。図示されたフォーマット２００は、予約された（例えば、未使用の）ビット０から２７、ビット２９をさらに含み、分割ロックアクセスのアライメントチェック（＃ＡＣ（０））を有効にし、例えば、ＥＦＬＡＧＳ.ＡＣのＣＲ０.ＡＭに拘わらず（例えば、ビット２９と３１が設定されている場合、ビット２９が優先される）、現在のすべての特権レベル（ＣＰＬｓ）で分割ロックアクセスのアライメントチェックの例外を引き起こし、ビット３０が予約され、ビット３１は分割ロックアクセスのバスロック（ＬＯＣＫ＃信号など）のアサートを無効にする。一実施形態では、分割ロックは、２つのキャッシュラインがアクセスされている間にバスロックを引き起こす２つのキャッシュラインにアクセスするアトミック演算である。本明細書で論じられるバスのノンライトバックロックは、単一またはそれ以下のデータのキャッシュラインへのアクセスに利用され得る（例えば、分割ロックではない）。

数は例であり、他のフォーマットが使用されてもよいことを理解されたい（例えば、３２ビットレジスタの代わりに６４ビットレジスタ）。

図３は、本開示の複数の実施形態による、機能レジスタの例示フォーマット３００を示す。図示されたフォーマット３００は、１６進数ＣＦＨ（１０進数２０７）のレジスタアドレス３０２を含む。フォーマット３００にはビット４が含まれ、対応するコンポーネント（コアなど）にノンライトバックロック無効化機能（例えば、１に設定されている場合）が含まれている場合、またはノンライトバックロックの無効化のノンライトバックロック無効化機能が含まれていない場合（例えば、ゼロに設定されている場合）を示す。機能ビットは、製造中にプログラミングすることができ、例えば、ユーザが変更可能ではない。

図示されたフォーマット３００は、予約された（例えば、未使用の）ビット０から３、ビット５をさらに含み、コンポーネント（例えば、コア）が分割ロックアクセスのアライメントチェックの例外（例えば、＃ＡＣ（０））をサポートし、ビット６から３１が予約されていることを示す（例えば、１に設定されている場合）。

図４は、本開示の複数の実施形態による、制御レジスタ（例えば、ＣＲ４からＣＲ０）の例示フォーマットを示す。

レジスタＣＲ４のフォーマットには、表２の以下のフィールドのうちの１または複数が含まれる場合がある。

［表２：ＣＲ４の例示フォーマット］

レジスタＣＲ３のフォーマットには、以下のうちの１または複数が含まれる。仮想アドレス指定が有効になっている場合（例えば、ＰＧビットがＣＲ０に設定されている場合）、ＣＲ３は、プロセッサが現在のタスクのページディレクトリとページテーブルを配置して線形アドレスを物理アドレスに変換できるようにする。一例として、ＣＲ３の上位２０ビットは、最初のページディレクトリエントリの物理アドレスを格納するページディレクトリベースレジスタ（ＰＤＢＲ）である。ＣＲ４のＰＣＩＤＥビットが設定されている場合、最下位１２ビットがプロセスコンテキスト識別子（ＰＣＩＤ）に使用される。ビット４は、ページレベルキャッシュ無効化（ＰＣＤ）を格納して、現在のページング構造階層の最初のページング構造にアクセスするために使用されるメモリタイプを制御できる（例えば、物理アドレス拡張（ＰＡＥ）ページングでページングが無効になっている場合、または４レベルのページングでＣＲ４.ＰＣＩＤＥ＝１の場合、このビット４は使用されない）。ビット３は、ページレベルのライトスルー（ＰＷＴ）を格納して、現在のページング構造階層の最初のページング構造にアクセスするために使用されるメモリタイプを制御できる（例えば、物理アドレス拡張（ＰＡＥ）ページングでページングが無効になっている場合、または４レベルのページングでＣＲ４.ＰＣＩＤＥ＝１の場合は、このビット４は使用されない）。

レジスタＣＲ２のフォーマットは、ページフォルトリニアアドレス（ＰＦＬＡ）のストレージである場合があり、例えば、ページフォルトが発生すると、プログラムがアクセスしようとしたアドレスがＣＲ２レジスタに格納される。

レジスタＣＲ１のフォーマットは予約されている場合があり、例えば、プロセッサ（例えば、ＣＰＵ）は、アクセスしようとするとき例外を投げる（＃ＵＤなどの）。

レジスタＣＲ０のフォーマットには、表３の以下のフィールドのうちの１または複数が含まれる場合がある。

［表３：ＣＲ０例示フォーマット］

図５は、本開示の複数の実施形態による、フロー図である。図示のフロー５００は、プロセッサ５０２の複数の論理プロセッサの制御レジスタにノンライトバックロック無効化ビットを設定する段階と、バス５０４を介してメモリに結合されたキャッシュを共有するプロセッサの複数の論理プロセッサのそれぞれでそれぞれの動作を実行する段階と、メモリコントローラ５０６を用いて、複数の論理プロセッサのうちの１つの論理プロセッサからメモリに対するメモリ要求を受信する段階と、ノンライトバックロック無効化ビットが第１の値５０８に設定されている場合に、メモリコントローラで複数の論理プロセッサのうちの１つの論理プロセッサによって発行されたメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを無効にする段階と、ノンライトバックロック無効化ビットが第２の値５１０に設定されている場合、メモリコントローラでメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを実装する段階と、を含む。

上記で使用され得る例示的なアーキテクチャ、システムなどを以下で詳細に説明する。

開示される技術の少なくともいくつかの実施形態は、以下の例を参照して説明することができる。

例１。複数の論理プロセッサと、ノンライトバックロック無効化ビットを備える制御レジスタと、複数の論理プロセッサによって共有されるキャッシュと、キャッシュをメモリに結合して、複数の論理プロセッサからメモリに対するメモリ要求を処理するバスと、ノンライトバックロック無効化ビットが第１の値に設定されている場合に、複数の論理プロセッサのうちの論理プロセッサによって発行されたメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを無効にし、ノンライトバックロック無効化ビットが第２の値に設定されている場合に、メモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを実装するメモリコントローラと、を備える装置。

例２。メモリコントローラは、ノンライトバックロックアクセスを無効にするために一般保護違反を生成する、例１に記載の装置。

例３。制御レジスタは、メモリ制御レジスタである、例１に記載の装置。

例４。メモリ制御レジスタのアドレスは１６進数３３である、例３に記載の装置。

例５。第１の値に設定されると、複数の論理プロセッサがノンライトバックロックアクセス無効化機能をサポートすることを示し、第２の値に設定されると、複数の論理プロセッサがノンライトバックロックアクセス無効化機能をサポートしていないことを示す、機能ビットを含む機能レジスタをさらに備える、例１に記載の装置。

例６。メモリコントローラは、キャッシュ無効化ビットが第２の制御レジスタ内の値に設定されてキャッシュを無効化する場合、ノンライトバックロック無効化ビットが第１の値に設定されている場合に、複数の論理プロセッサのうちの論理プロセッサによって発行されたメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを無効化しない、例１に記載の装置。

例７。メモリコントローラは、拡張ページテーブルが有効であり、メモリタイプがノンライトバックに設定されている場合、ノンライトバックロック無効化ビットが第１の値に設定されている場合に、複数の論理プロセッサのうちの論理プロセッサによって発行されたメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを無効化しない、例１に記載の装置。

例８。複数の論理プロセッサは、複数のプロセッサコアである、例１に記載の装置。

例９。プロセッサの複数の論理プロセッサの制御レジスタにノンライトバックロック無効化ビットを設定する段階と、バスを介してメモリに結合されたキャッシュを共有するプロセッサの複数の論理プロセッサのそれぞれとそれぞれの動作を実行する段階と、メモリコントローラを備えたメモリのために複数の論理プロセッサのうちの論理プロセッサからメモリ要求を受信する段階と、ノンライトバックロック無効化ビットが第１の値に設定されている場合に、メモリコントローラで複数の論理プロセッサのうちの論理プロセッサによって発行されたメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを無効にする段階と、ノンライトバックロック無効化ビットが第２の値に設定されている場合に、メモリコントローラでメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを実装する段階と、を備える方法。

例１０。ノンライトバックロックアクセスを無効にすることは、一般保護違反を生成することを含む、例９に記載の方法。

例１１。制御レジスタは、メモリ制御レジスタである、例９に記載の方法。

例１２。メモリ制御レジスタのアドレスは、１６進数３３である、例１１に記載の方法。

例１３。プロセッサの機能レジスタの機能ビットを設定する段階であって、第１の値に設定して複数の論理プロセッサがノンライトバックロックアクセス無効化機能をサポートすることを示し、機能ビットを第２の値に設定して、複数の論理プロセッサがノンライトバックロックアクセス無効化機能をサポートしていないことを示す、設定する段階をさらに備える、例９に記載の方法。

例１４。第２の制御レジスタ内のキャッシュ無効化ビットをキャッシュを無効化する値に設定する段階であって、メモリコントローラは、ノンライトバックロック無効化ビットが第１の値に設定されている場合に、複数の論理プロセッサのうちの論理プロセッサによって発行されたメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを無効化しない段階をさらに備える、例９に記載の方法。

例１５。複数の論理プロセッサのための拡張ページテーブルを有効化し、メモリタイプをノンライトバックに設定する段階であって、メモリコントローラは、ノンライトバックロック無効化ビットが第１の値に設定されている場合に、複数の論理プロセッサのうちの論理プロセッサによって発行されたメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを無効化しない段階をさらに備える、例９に記載の方法。

例１６。複数の論理プロセッサは、複数のプロセッサコアである、例９に記載の方法。

例１７。機械によって実行されたときに、機械に、プロセッサの複数の論理プロセッサの制御レジスタにノンライトバックロック無効化ビットを設定する段階と、バスを介してメモリに結合されたキャッシュを共有するプロセッサの複数の論理プロセッサのそれぞれとそれぞれの動作を実行する段階と、メモリコントローラを備えたメモリのために複数の論理プロセッサのうちの論理プロセッサからメモリ要求を受信する段階と、ノンライトバックロック無効化ビットが第１の値に設定されている場合に、メモリコントローラで複数の論理プロセッサのうちの論理プロセッサによって発行されたメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを無効にする段階と、ノンライトバックロック無効化ビットが第２の値に設定されている場合に、メモリコントローラでメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを実装する段階と、を含む方法を実行させるコードを格納する非一時的な機械可読媒体。

例１８。ノンライトバックロックアクセスを無効にすることは、一般保護違反を生成することを含む、例１７に記載の非一時的な機械可読媒体。

例１９。制御レジスタは、メモリ制御レジスタである、例１７に記載の非一時的な機械可読媒体。

例２０。メモリ制御レジスタのアドレスは、１６進数３３である、例１９に記載の非一時的な機械可読媒体。

例２１。プロセッサの機能レジスタの機能ビットを設定する段階であって、第１の値に設定して複数の論理プロセッサがノンライトバックロックアクセス無効化機能をサポートすることを示し、機能ビットを第２の値に設定して、複数の論理プロセッサがノンライトバックロックアクセス無効化機能をサポートしていないことを示す、設定する段階をさらに備える、例１７に記載の非一時的な機械可読媒体。

例２２。第２の制御レジスタ内のキャッシュ無効化ビットをキャッシュを無効化する値に設定する段階であって、メモリコントローラは、ノンライトバックロック無効化ビットが第１の値に設定されている場合に、複数の論理プロセッサのうちの論理プロセッサによって発行されたメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを無効化しない段階をさらに備える、例１７に記載の非一時的な機械可読媒体。

例２３。複数の論理プロセッサのための拡張ページテーブルを有効化し、メモリタイプをノンライトバックに設定する段階であって、メモリコントローラは、ノンライトバックロック無効化ビットが第１の値に設定されている場合に、複数の論理プロセッサのうちの論理プロセッサによって発行されたメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを無効化しない段階をさらに備える、例１７に記載の非一時的な機械可読媒体。

例２４。複数の論理プロセッサは、複数のプロセッサコアである、例１７に記載の非一時的な機械可読媒体。

さらに他の実施形態において、装置は、コードを格納するデータストレージデバイスを備え、コードは、ハードウェアプロセッサによって実行されたときに、本明細書に開示される任意の方法をハードウェアプロセッサに実行させる。装置は、詳細な説明に記載されたものと同じであってよい。方法は、詳細な説明に記載されたものと同じであってよい。

命令セットは、１または複数の命令フォーマットを含んでよい。特定の命令フォーマットは、とりわけ、行われる演算（例えばオペコード）および当該演算が行われる対象となるオペランド、および／または他のデータフィールド（例えばマスク）を指定する様々なフィールド（例えばビットの数、ビットのロケーション）を定義してよい。いくつかの命令フォーマットは、命令テンプレート（またはサブフォーマット）の定義によってさらに分類される。例えば、特定の命令フォーマットの命令テンプレートは、命令フォーマットのフィールドの異なるサブセットを有するように定義されてよく（含まれるフィールドは通常、同じ順序であるが、少なくともいくつかは、含まれるフィールドの数がより少ないので、異なるビット位置を有する）、および／または、異なって解釈される特定のフィールドを有するように定義されてよい。故に、ＩＳＡの各命令は、特定の命令フォーマットを使用して（また、定義される場合には、その命令フォーマットの命令テンプレートのうちの特定の１つにおいて）表現され、演算およびオペランドを指定するためのフィールドを含む。例えば、例示的なＡＤＤ命令は、特定のオペコードと、そのオペコードを指定するためのオペコードフィールドおよびオペランド（ソース１／デスティネーションおよびソース２）を選択するためのオペランドフィールドを含む命令フォーマットとを有する。命令ストリーム内にこのＡＤＤ命令が出現すると、特定のオペランドを選択するオペランドフィールド内に特定の内容を有することとなる。ＳＩＭＤ拡張のセットは、次世代ベクトル拡張（ＡＶＸ）（ＡＶＸ１およびＡＶＸ２）と称され、ベクトル拡張（ＶＥＸ）コーディングスキームの使用がリリースおよび／または公開される（例えば、インテル６４およびＩＡ−３２アーキテクチャーソフトウェア開発者マニュアル、２０１８年１１月を参照し、およびインテルアーキテクチャーインストラクションセット拡張プログラミングリファレンス、２０１８年１０月、を参照されたい）。

［例示的な命令フォーマット］
本明細書に記載される命令の実施形態は、異なるフォーマットで具現化され得る。さらに、例示的なシステム、アーキテクチャ、およびパイプラインが下記で詳述される。命令の実施形態は、そのようなシステム、アーキテクチャ、およびパイプライン上で実行されることができるが、それらに限定されるものではない。

［汎用ベクトル向け命令フォーマット］
ベクトル向け命令フォーマットは、（例えば、特定の複数のフィールド固有の複数のベクトル演算が存在する）複数のベクトル命令に適した命令フォーマットである。ベクトルおよびスカラ演算の両方がベクトル向け命令フォーマットによりサポートされる実施形態が説明されるが、代替的な実施形態は、ベクトル向け命令フォーマットによるベクトル演算のみを用いる。

図６Ａ−６Ｂは、本開示の複数の実施形態に係る汎用ベクトル向け命令フォーマットおよびこれらの命令テンプレートを示すブロック図である。図６Ａは、本開示の複数の実施形態に係る汎用ベクトル向け命令フォーマットおよびその複数のクラスＡ命令テンプレートを示すブロック図であり、図６Ｂは、本開示の複数の実施形態に係る汎用ベクトル向け命令フォーマットおよびその複数のクラスＢ命令テンプレートを示すブロック図である。具体的には、汎用ベクトル向け命令フォーマット６００は、クラスＡ命令およびクラスＢ命令テンプレートに対して定義され、その両方が非メモリアクセス６０５の命令テンプレートおよびメモリアクセス６２０の命令テンプレートを含む。ベクトル向け命令フォーマットとの文脈で、汎用という用語は、いずれの特定の命令セットにも関係しない命令フォーマットを指す。

本開示の実施形態では、ベクトル向け命令フォーマットが、３２ビット（４バイト）または６４ビット（８バイト）データ要素幅（またはサイズ）を有する以下の６４バイトのベクトルオペランド長（またはサイズ）（したがって、６４バイトのベクトルは、１６個のダブルワードサイズの要素または代替的に８クワッドワードサイズの要素のいずれかから構成される）、１６ビット（２バイト）または８ビット（１バイト）データ要素幅（またはサイズ）を有する６４バイトのベクトルオペランド長（またはサイズ）、３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）または８ビット（１バイト）データ要素幅（またはサイズ）を有する３２バイトのベクトルオペランド長（またはサイズ）、および、３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）または８ビット（１バイト）データ要素幅（またはサイズ）を有する１６バイトのベクトルオペランド長（またはサイズ）をサポートすることが説明され、代替的な実施形態は、より多い、より少ないまたは異なるデータ要素幅（例えば、１２８ビット（１６バイト）のデータ要素幅）を有する、より多い、より少ないおよび／または異なるベクトルオペランドサイズ（例えば、２５６バイトのベクトルオペランド）をサポートしてよい。

図６ＡにおけるクラスＡ命令テンプレートは、１）非メモリアクセス６０５の命令テンプレート中に示される非メモリアクセス、フルラウンド制御タイプ演算６１０命令テンプレート、および非メモリアクセス、データ変換タイプ演算６１５の命令テンプレート、ならびに２）メモリアクセス６２０の命令テンプレート中に示されるメモリアクセス、一時的６２５の命令テンプレート、およびメモリアクセス、非一時的６３０の命令テンプレートを含む。図６ＢのクラスＢ命令テンプレートは、１）非メモリアクセス６０５の命令テンプレート中に示される非メモリアクセス、ライトマスク制御、部分的ラウンド制御タイプ演算６１２の命令テンプレート、および非メモリアクセス、ライトマスク制御、ＶＳＩＺＥタイプ演算６１７の命令テンプレート、ならびに２）メモリアクセス６２０の命令テンプレート中に示されるメモリアクセス、ライトマスク制御６２７の命令テンプレートを含む。

汎用ベクトル向け命令フォーマット６００は、以下のフィールドを図６Ａおよび図６Ｂ中に図示される順序で含む。

フォーマットフィールド６４０：このフィールドの特定の値（命令フォーマット識別子の値）は、ベクトル向け命令フォーマットを一意に特定し、よって命令ストリームにおける当該ベクトル向け命令フォーマットでの命令の発生を特定する。よって、このフィールドは、汎用ベクトル向け命令フォーマットのみを有する命令セットには不要であるという意味において任意的である。

基本演算フィールド６４２：このコンテンツは、異なるベース演算を識別する。

レジスタインデックスフィールド６４４：そのコンテンツは、直接的にまたはアドレス生成を介して、ソースおよびデスティネーションオペランドがレジスタ内にあるかまたはメモリ内にあるかを問わず、それらのロケーションを指定する。これらは、Ｐ×Ｑ（例えば、３２×５１２、１６×１２８、３２×１０２４、６４×１０２４）のレジスタファイルからＮ個のレジスタを選択するのに十分な数のビットを含む。一実施形態では、Ｎは最大３つのソースおよび１つのデスティネーションレジスタであり得るが、代替実施形態は、より多いかまたは少ないソースおよびデスティネーションレジスタをサポートしてもよい（例えば、最大２つのソースをサポートし、これらのソースのうちの１つがデスティネーションとしても機能してもよく、最大３つのソースをサポートして、これらのソースのうちの１つがデスティネーションとしても機能してもよく、最大２つのソースおよび１つのデスティネーションをサポートしてもよい）。

修飾子フィールド６４６：その内容は、メモリアクセスを指定する汎用ベクトル命令フォーマットの命令の出現を、メモリアクセスを指定しない命令と区別する、すなわち、非メモリアクセス６０５の命令テンプレートおよびメモリアクセス６２０の命令テンプレートを区別する。メモリアクセス演算はメモリ階層に対して読み出しおよび／または書き込みを行い（場合によっては、レジスタ内の値を使用してソースアドレスおよび／またはデスティネーションアドレスを指定する）、非メモリアクセス演算は行わない（例えば、ソースおよびデスティネーションはレジスタである）。一実施形態では、このフィールドは、メモリアドレス計算を実行する３つの異なる態様の間でも選択するが、代替実施形態は、より多い、少ない、または異なる態様のメモリアドレス計算を実行する方法をサポートし得る。

拡張演算フィールド６５０：その内容は、基本演算に加えて、様々な異なる演算のうちどれを実行するかを区別する。このフィールドはコンテキスト固有である。本開示の一実施形態において、このフィールドは、クラスフィールド６６８、アルファフィールド６５２、およびベータフィールド６５４に分割される。拡張演算フィールド６５０は、２、３または４個の命令ではなく、単一の命令の中で共通の演算グループが実行されることを可能にする。

スケールフィールド６６０：そのコンテンツは、メモリアドレス生成のための（例えば、２^スケール×インデックス＋ベースを用いるアドレス生成のための）インデックスフィールドのコンテンツをスケーリングすることを可能にする。

変位フィールド６６２Ａ：その内容は、メモリアドレス生成の一部として（例えば、２^スケール×インデックス＋ベース＋変位を使用するアドレス生成用に）使用される。

変位係数フィールド６６２Ｂ（変位係数フィールド６６２Ｂの真上の変位フィールド６６２Ａの並置は、一方または他方が使用されることを示すことに留意されたい）：その内容は、アドレス生成の一部として使用され、それは、メモリアクセスのサイズ（Ｎ）によってスケーリングされるべき変位係数を指定する。Ｎは、（例えば、２^スケール×インデックス＋ベース＋スケーリングされた変位を使用するアドレス生成用の）メモリアクセスにおけるバイト数である。冗長下位ビットは無視されるため、実効アドレスの計算に使用されるべき最終的変位を生成するために、変位係数フィールドの内容はメモリオペランドの合計サイズ（Ｎ）と乗算される。Ｎの値は、（本明細書において後述される）フルオペコードフィールド６７４およびデータ操作フィールド６５４Ｃに基づいて、実行時にプロセッサハードウェアによって決定される。変位フィールド６６２Ａおよび変位係数フィールド６６２Ｂは、それらが非メモリアクセス６０５の命令テンプレートには使用されない、および／または、異なる実施形態がそれら２つのうちの一方のみを実装してよい、またはいずれも実装しなくてよいという意味において任意的である。

データ要素幅フィールド６６４：その内容は、（いくつかの実施形態ではすべての命令に、他の実施形態においてはいくつかの命令のみに）複数のデータ要素幅のうちのどのデータ要素幅の数が使用されるべきかを識別する。このフィールドは、１つのデータ要素幅のみがサポートされる場合、および／またはオペコードの何らかの態様を使用してデータ要素幅がサポートされる場合には必要とされないという意味で、任意選択的である。

ライトマスクフィールド６７０：その内容は、データ要素位置ベースごとに、デスティネーションベクトルオペランド内のそのデータ要素位置が基本演算および拡張演算の結果を反映するかどうかを制御する。クラスＡ命令テンプレートは、マージング−ライトマスキングをサポートし、クラスＢ命令テンプレートは、マージングおよびゼロイングライトマスキングの両方をサポートする。マージングする場合、ベクトルマスクは、デスティネーションにおける要素の任意のセットが（ベース演算および追加演算により指定された）任意の演算の実行中に更新から保護されることを可能にする。他の一実施形態では、対応するマスクビットが０であるデスティネーションの各要素の古い値を保持する。対照的に、ゼロライトする場合、ベクトルマスクは、デスティネーションにおける要素の任意のセットが（ベース演算および追加演算により指定された）任意の演算の実行中にゼロにされることを可能にする。一実施形態において、対応するマスクビットが０の値を有する場合、デスティネーションの要素は、０に設定される。この機能のサブセットは、実行されている演算のベクトル長（すなわち、修正される要素の、最初の要素から最後の要素までのスパン）を制御する能力であるが、しかしながら、修正される要素が連続している必要はない。したがって、ライトマスクフィールド６７０は、ロード、格納、演算、論理などを含む部分的なベクトル演算を可能にする。ライトマスクフィールド６７０のコンテンツが用いられるライトマスクを含む多数のライトマスクレジスタのうちの１つを選択する（したがって、ライトマスクフィールド６７０のコンテンツは、実行対象のそのマスキングを間接的に識別する）本開示の実施形態が説明されるが、代替的な実施形態では、代わりにまたは追加的に、ライトマスクフィールド６７０のコンテンツが実行されるマスキングを直接指定することを可能にする。

即値フィールド６７２：その内容は即値の指定を可能にする。このフィールドは、即値をサポートしていない汎用ベクトル向けフォーマットの実装において存在せず、即値を用いない命令中に存在しないという意味で任意選択である。

クラスフィールド６６８：その内容は異なるクラスの命令を区別する。図６Ａ−Ｂを参照すると、このフィールドの内容は、クラスＡ命令およびクラスＢ命令の間で選択する。図６Ａ−Ｂでは、特定の値がフィールド内に存在することを示すために、角丸四角形が使用されている（例えば、それぞれ図６Ａ−Ｂにおけるクラスフィールド６６８のクラスＡ６６８ＡおよびクラスＢ６６８Ｂ）。

［クラスＡの命令テンプレート］
クラスＡの非メモリアクセス６０５の命令テンプレートの場合、アルファフィールド６５２はＲＳフィールド６５２Ａとして解釈され、その内容は、異なる拡張演算タイプのうちどれが実行されるべきかを区別し（例えば、ラウンド６５２Ａ．１およびデータ変換６５２Ａ．２が非メモリアクセス、ラウンドタイプ演算６１０および非メモリアクセス、データ変換タイプ演算６１５命令テンプレートに対してそれぞれ指定される）、ベータフィールド６５４は、指定されたタイプの演算のどれが実行されるべきかを区別する。非メモリアクセス６０５の命令テンプレートには、スケールフィールド６６０、変位フィールド６６２Ａ、および変位スケールフィールド６６２Ｂは存在しない。

［非メモリアクセス命令テンプレート：フルラウンド制御タイプ演算］
非メモリアクセス、フルラウンド制御タイプ演算６１０命令テンプレートでは、ベータフィールド６５４はラウンド制御フィールド６５４Ａとして解釈され、その内容は静的なラウンドを提供する。説明される本開示の複数の実施形態において、ラウンド制御フィールド６５４Ａは、全浮動小数点例外抑制（ＳＡＥ）フィールド６５６およびラウンド演算制御フィールド６５８を含み、代替的な実施形態では、これらの概念の両方を同じフィールドにエンコードすることをサポートしてもよく、または、これらの概念／フィールドの一方または他方のみを有してよい（例えば、ラウンド演算制御フィールド６５８のみを有してよい）。

ＳＡＥフィールド６５６：その内容は、例外イベント報告を無効化すべきか否かを区別する。ＳＡＥフィールド６５６の内容が、抑制が有効化されたことを示すとき、所与の命令はいかなる種類の浮動小数点例外フラグも報告せず、いかなる浮動小数点例外ハンドラも発生させない。

ラウンド演算制御フィールド６５８−その内容は、ラウンド演算グループのうちどれを実行すべきかを区別する（例えば、切り上げ、切り捨て、ゼロ方向のラウンド、最近接ラウンド）。したがって、ラウンド演算制御フィールド６５８は、命令ベースでラウンドモードを変更することを可能にする。プロセッサがラウンドモードを指定するための制御レジスタを含む本開示の一実施形態において、ラウンド演算制御フィールド６５０の内容は、そのレジスタ値をオーバライドする。

［非メモリアクセス命令テンプレート：データ変換タイプ演算］
非メモリアクセスデータ変換タイプ演算６１５命令テンプレートでは、ベータフィールド６５４はデータ変換フィールド６５４Ｂとして解釈され、その内容は、多数のデータ変換のうちどれが実行されるべきかを区別する（例えば、データ変換なし、スウィズル、ブロードキャスト）。

クラスＡのメモリアクセス６２０命令テンプレートの場合、アルファフィールド６５２はエビクションヒントフィールド６５２Ｂとして解釈され、その内容は、エビクションヒントのうちどれが使用されるべきかを区別し（図６Ａでは、メモリアクセス、一時的６２５命令テンプレートおよびメモリアクセス、非一時的６３０命令テンプレートのために一時的６５２Ｂ．１および非一時的６５２Ｂ．２がそれぞれ指定される）、ベータフィールド６５４はデータ操作フィールド６５４Ｃとして解釈され、その内容は、多数のデータ操作演算（プリミティブとも称される）のうちどれが実行されるべきかを区別する（例えば、非マニピュレーション、ブロードキャスト、ソースのアップコンバージョン、およびデスティネーションのダウンコンバージョン）。メモリアクセス６２０命令テンプレートは、スケールフィールド６６０、および任意選択で、変位フィールド６６２Ａまたは変位スケールフィールド６６２Ｂを含む。

ベクトルメモリ命令は、変換サポートを使用して、メモリからのベクトルロードおよびメモリへのベクトルストアを実行する。通常のベクトル命令と同様に、ベクトルメモリ命令は、実際に転送される要素をライトマスクとして選択されたベクトルマスクの内容によって指示して、データ要素ごとにメモリとの間でデータ要素幅形式でデータを転送する。

［メモリアクセス命令テンプレート：一時的］
一時的データとは、キャッシュによる恩恵を得るのに十分早く再利用される可能性が高いデータである。しかしながらこれはわずかな差であり、異なるプロセッサが、ヒント全体を無視することを含む異なる方法でこれを実装し得る。

［メモリアクセス命令テンプレート：非一時的］
非一時的データは、レベル１キャッシュでのキャッシングの恩恵を受けるのに十分なほど早く再利用される可能性が低いデータであり、エビクションのために優先されるべきである。しかしながらこれはヒントであり、異なるプロセッサが、ヒント全体を無視することを含む異なる態様でこれを実装し得る。

［クラスＢの命令テンプレート］
クラスＢの命令テンプレートの場合、アルファフィールド６５２はライトマスク制御（Ｚ）フィールド６５２Ｃとして解釈され、その内容は、ライトマスクフィールド６７０によって制御されたるライトマスキングがマージングであるべきかゼロイングであるべきかを区別する。

クラスＢの非メモリアクセス６０５の命令テンプレートの場合、ベータフィールド６５４の一部はＲＬフィールド６５７Ａとして解釈されるべきであり、その内容は、異なる拡張演算タイプのうちどれが実行されるべきかを区別し（例えば、ラウンド６５７Ａ．１およびベクトル長（ＶＳＩＺＥ）６５７Ａ．２は、非メモリアクセス、ライトマスク制御、部分的ラウンド制御タイプ演算６１２命令テンプレートおよび非メモリアクセス、ライトマスク制御、ＶＳＩＺＥタイプ演算６１７命令テンプレートに対してそれぞれ指定される）、ベータフィールド６５４の残りは、指定されたタイプの演算のどれが実行されるべきかを区別する。非メモリアクセス６０５の命令テンプレートには、スケールフィールド６６０、変位フィールド６６２Ａ、および変位スケールフィールド６６２Ｂは存在しない。

非メモリアクセス、ライトマスク制御、部分的ラウンド制御タイプ演算６１０命令テンプレートでは、ベータフィールド６５４の残りはラウンド演算フィールド６５９Ａとして解釈され、例外イベント報告は無効化される（所与の命令はいかなる種類の浮動小数点例外フラグも報告せず、いかなる浮動小数点例外ハンドラも発生させない）。

ラウンド演算制御フィールド６５９Ａ：ラウンド演算制御フィールド６５８と同様に、その内容は、ラウンド演算グループのうちどれを実行すべきかを区別する（例えば、切り上げ、切り捨て、ゼロ方向のラウンド、最近接ラウンド）。故に、ラウンド演算制御フィールド６５９Ａは、命令ベースごとにラウンドモードを変更できるようにする。プロセッサがラウンドモードを指定するための制御レジスタを含む本開示の一実施形態において、ラウンド演算制御フィールド６５０のコンテンツは、そのレジスタ値をオーバライドする。

非メモリアクセス、ライトマスク制御、ＶＳＩＺＥタイプ演算６１７命令テンプレートでは、ベータフィールド６５４の残りはベクトル長フィールド６５９Ｂとして解釈され、その内容は、多数のデータベクトル長のうちどれが実行されるべきかを区別する（例えば、１２８、２５６、または５１２バイト）。

クラスＢのメモリアクセス６２０命令テンプレートの場合、ベータフィールド６５４の一部はブロードキャストフィールド６５７Ｂとして解釈され、その内容は、ブロードキャストタイプのデータ操作演算が実行されるべきか否かを区別し、ベータフィールド６５４の残りはベクトル長フィールド６５９Ｂとして解釈される。メモリアクセス６２０命令テンプレートは、スケールフィールド６６０、および任意選択で変位フィールド６６２Ａまたは変位スケールフィールド６６２Ｂを含む。

汎用ベクトル向け命令フォーマット６００に関連し、フルオペコードフィールド６７４は、フォーマットフィールド６４０、ベース演算フィールド６４２およびデータ要素幅フィールド６６４を含むように表示されている。フルオペコードフィールド６７４がこれらのフィールドのうちすべてを含む一実施形態が示されているものの、これらのフィールドのすべてをサポートしていない実施形態においては、フルオペコードフィールド６７４は、これらのフィールドのすべてより少ないフィールドを含む。フルオペコードフィールド６７４は、演算コード（オペコード）を提供する。

拡張演算フィールド６５０、データ要素幅フィールド６６４、およびライトマスクフィールド６７０は、これらの特徴が汎用ベクトル向け命令フォーマットにおいて命令ベースごとに指定されることを可能にする。

ライトマスクフィールドおよびデータ要素幅フィールドの組み合わせは、異なるデータ要素幅に基づいてマスクを適用できるようにするという点で、型付き命令を作成する。

クラスＡおよびクラスＢ内で見出される様々な命令テンプレートは、異なる状況で有益である。本開示の複数の実施形態のいくつかにおいて、複数の異なるプロセッサまたはプロセッサ内の複数の異なるコアは、クラスＡのみ、クラスＢのみ、または両方のクラスをサポートしてよい。例えば、汎用コンピューティング用の高性能汎用アウトオブオーダコアは、クラスＢのみをサポートしてよく、主にグラフィックスおよび／または科学（スループット）コンピューティング向けのコアは、クラスＡのみをサポートしてよく、両方用のコアは、両方をサポートしてよい（勿論、コアは、両方のクラスからのテンプレートおよび命令のいくつかの混合を有するが、両方のクラスからのすべてのテンプレートおよび命令が本開示の範囲内にあるわけではない）。また、単一のプロセッサが複数のコアを含んでもよく、その全てが同じクラスをサポートするか、または異なるコアが異なるクラスをサポートする。例えば、別個のグラフィックおよび汎用コアを有するプロセッサでは、主にグラフィックスおよび／または科学コンピューティング向けのグラフィックスコアのうち１つはクラスＡのみをサポートすることができ、汎用コアのうちの１または複数は、クラスＢのみをサポートする汎用コンピューティング向けのアウトオブオーダー実行およびレジスタリネーミングを有する高性能汎用コアであってもよい。別個のグラフィックスコアを有していない別のプロセッサは、クラスＡおよびクラスＢの両方をサポートするもう１つの汎用インオーダーまたはアウトオブオーダコアを含み得る。勿論、１つのクラスからの複数の特徴は、本開示の複数の異なる実施形態における他のクラスで実装されてもよい。高水準言語で書かれたプログラムは、１）実行のためにターゲットプロセッサによってサポートされるクラスの命令のみを有する形式、または２）全てのクラスの命令の異なる組み合わせを使用して書かれた代替ルーチンを有し、現在コードを実行しているプロセッサによってサポートされる命令に基づいて実行すべきルーチンを選択する制御フローコードを有する形式を含む、様々の異なる実行可能な形式に変換される（例えば、ジャストインタイムコンパイルまたは静的コンパイル）。

［例示的な特定ベクトル向け命令フォーマット］
図７は、本開示の複数の実施形態に係る例示的な特定ベクトル向け命令フォーマットを示すブロック図である。図７は、位置、サイズ、解釈およびフィールド順序に加え、これらのフィールドのいくつかの値を指定するという意味において具体的な特定ベクトル向け命令フォーマット７００を示す。特定ベクトル向け命令フォーマット７００は、ｘ８６命令セットを拡張するために使用されてもよく、したがって、いくつかのフィールドは、既存のｘ８６命令セットおよびその拡張（例えば、ＡＶＸ）で使用されるフィールドと同様または同じである。このフォーマットは、拡張を有する既存のｘ８６命令セットのプレフィックスエンコードフィールド、リアルオペコードバイトフィールド、ＭＯＤＲ／Ｍフィールド、ＳＩＢフィールド、変位フィールド、および即値フィールドと一致したままである。図６からのフィールドが図７のどのフィールドにマップされるかが示される。

本開示の複数の実施形態では、例示を目的として汎用ベクトル向け命令フォーマット６００との文脈で特定ベクトル向け命令フォーマット７００を参照して説明されているが、本開示は、特許請求の範囲に記載されたものを除いて、特定ベクトル向け命令フォーマット７００に限定されるものではないことを理解されたい。例えば、特定ベクトル向け命令フォーマット７００は具体的なサイズのフィールドを検討するように図示されているものの、汎用ベクトル向け命令フォーマット６００は、様々なフィールドについて様々な考え得るサイズを想定している。具体的な例として、データ要素幅フィールド６６４は、特定ベクトル向け命令フォーマット７００において、１ビットフィールドとして示されているが、本開示は、そこまで限定されることはない（すなわち、汎用ベクトル向け命令フォーマット６００は、他のサイズのデータ要素幅フィールド６６４を検討する）。

汎用ベクトル向け命令フォーマット６００は、図７Ａに示される順序で以下に列挙される以下のフィールドを含む。

ＥＶＥＸプレフィックス（バイト０−３）７０２は、４バイト形式にエンコードされる。

フォーマットフィールド６４０（ＥＶＥＸバイト０、ビット［７：０］）−第１のバイト（ＥＶＥＸバイト０）は、フォーマットフィールド６４０であり、それは、０ｘ６２（本開示の一実施形態において、ベクトル向け命令フォーマットを区別するために用いられる一意の値）を含む。

第２から第４のバイト（ＥＶＥＸバイト１〜３）は、特定の機能を提供する複数のビットフィールドを含む。

ＲＥＸフィールド７０５（ＥＶＥＸバイト１、ビット［７‐５］）は、ＥＶＥＸ．Ｒビットフィールド（ＥＶＥＸバイト１、ビット［７］‐Ｒ）、ＥＶＥＸ．Ｘビットフィールド（ＥＶＥＸバイト１、ビット［６］‐Ｘ）および６５７ＢＥＸバイト１、ビット［５］‐Ｂ）から構成される。ＥＶＥＸ．Ｒ、ＥＶＥＸ．Ｘ、およびＥＶＥＸ．Ｂビットフィールドは、対応するＶＥＸビットフィールドと同じ機能性を提供し、１の補数形式を用いてエンコードされる。すなわち、ＺＭＭ０は１１１１Ｂとしてエンコードされ、ＺＭＭ１５は００００Ｂとしてエンコードされる。命令の他のフィールドは、当技術分野で既知のようにレジスタインデックスの下位３ビットをエンコードし（ｒｒｒ、ｘｘｘ、およびｂｂｂ）、これにより、ＥＶＥＸ．Ｒ、ＥＶＥＸ．ＸおよびＥＶＥＸ．Ｂを追加することによってＲｒｒｒ、Ｘｘｘｘ、およびＢｂｂｂが形成されてよい。

ＲＥＸ'フィールド６１０：これは、ＲＥＸ'フィールド６１０の第１の部分であり、拡張３２レジスタセットの上位１６または下位１６のいずれかをエンコードするのに用いられるＥＶＥＸ．Ｒ'ビットフィールド（ＥＶＥＸバイト１、ビット［４］―Ｒ'）である。本開示の一実施形態において、このビットは、以下に示される他のものと共に、ビット反転フォーマットでストアされることにより、リアルオペコードバイトは６２であるが、（後述の）ＭＯＤＲ／ＭフィールドにおいてＭＯＤフィールドの値１１を受け付けない（周知のｘ８６の３２ビットモードにおける）ＢＯＵＮＤ命令から区別するが、本開示の複数の代替的な実施形態は、このビットおよび以下に示される反転フォーマットの他のビットをストアしない。下位１６個のレジスタのエンコードには、１の値を用いる。換言すると、ＥＶＥＸ．Ｒ'、ＥＶＥＸ．Ｒおよび他のフィールドの他のＲＲＲを組み合わせて、Ｒ'Ｒｒｒｒが形成される。

オペコードマップフィールド７１５（ＥＶＥＸバイト１、ビット［３：０］−ｍｍｍｍ）：そのコンテンツは、暗黙に示される先頭オペコードバイト（０Ｆ、０Ｆ３８または０Ｆ３）をエンコードする。

データ要素幅フィールド６６４（ＥＶＥＸバイト２、ビット［７］−Ｗ）−表記ＥＶＥＸ．Ｗにより表される。ＥＶＥＸ．Ｗは、データタイプの粒度（サイズ）（３２ビットデータ要素または６４ビットデータ要素のいずれか）を規定するために用いられる。

ＥＶＥＸ．ｖｖｖｖ７２０（ＥＶＥＸバイト２、ビット［６：３］−ｖｖｖｖ）−ＥＶＥＸ．ｖｖｖｖの役割は、以下を含んでよい。１）ＥＶＥＸ．ｖｖｖｖは、反転（１の補数）形式で指定される第１のソースレジスタオペランドをエンコードし、２または３以上のソースオペランドを有する複数の命令に対して有効である。２）ＥＶＥＸ．ｖｖｖｖは、特定のベクトルシフトに対して１の補数形式で指定されるデスティネーションレジスタオペランドをエンコードする。または、３）ＥＶＥＸ．ｖｖｖｖは、いずれのオペランドもエンコードせず、当該フィールドは予約され、１１１１ｂを含まなくてはならない。したがって、ＥＶＥＸ．ｖｖｖｖフィールド７２０は、反転形式（１の補数）で記憶された第１のソースレジスタ指定子の４つの下位ビットをエンコードする。命令に応じて、追加の異なるＥＶＥＸビットフィールドは、指定子のサイズを３２個のレジスタに拡張するために用いられる。

ＥＶＥＸ．Ｕ６６８クラスフィールド（ＥＶＥＸバイト２、ビット［２］−Ｕ）：ＥＶＥＸ．Ｕ＝０の場合、これは、クラスＡまたはＥＶＥＸ．Ｕ０を示す。ＥＶＥＸ．Ｕ＝１の場合、これは、クラスＢまたはＥＶＥＸ．Ｕ１を示す。

プレフィックスエンコードフィールド７２５（ＥＶＥＸバイト２、ビット［１：０］‐ｐｐ）−これは、ベース演算フィールドの追加のビットを提供する。ＥＶＥＸプレフィックスフォーマットにおけるレガシＳＳＥ命令のサポートの提供に加え、これはまた、ＳＩＭＤプレフィックスのコンパクト化の利点を有する（ＳＩＭＤプレフィックスを表わすために１バイトを要求する代わりに、ＥＶＥＸプレフィックスは２ビットのみを要求する）。一実施形態において、レガシフォーマットおよびＥＶＥＸプレフィックスフォーマットの両方において、ＳＩＭＤプレフィックス（６６Ｈ、Ｆ２Ｈ、Ｆ３Ｈ）を使用するレガシＳＳＥ命令をサポートすべく、これらのレガシＳＩＭＤプレフィックスは、ＳＩＭＤプレフィックスエンコードフィールドにエンコードされる。これらのレガシＳＩＭＤプレフィックスは、デコーダのＰＬＡに提供される前に、実行時にレガシＳＩＭＤプレフィックスに拡張される（よって、ＰＬＡは、変更なしで、これらのレガシ命令のレガシフォーマットおよびＥＶＥＸフォーマットの両方を実行できる）。より新しい命令はＥＶＥＸプレフィックスエンコードフィールドの内容をオペコード拡張として直接使用できるにもかかわらず、特定の実施形態は一貫性をもたせるために同様に拡張するが、これらのレガシＳＩＭＤプレフィックスによって異なる意味が指定されることが可能になる。代替的な実施形態は、２ビットＳＩＭＤプレフィックスエンコードをサポートするように、つまり拡張を要求しないように、ＰＬＡを再設計してよい。

アルファフィールド６５２（ＥＶＥＸバイト３、ビット［７］−ＥＨ、ＥＶＥＸ．ＥＨ、ＥＶＥＸ．ｒｓ、ＥＶＥＸ．ＲＬ、ＥＶＥＸ．ライトマスク制御およびＥＶＥＸ．Ｎとしても知られ、また、αを用いて示される）−前述したように、このフィールドは、コンテキストに固有のものである。

ベータフィールド６５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ、ＥＶＥＸ．ｓ_２−０、ＥＶＥＸ．ｒ_２−０、ＥＶＥＸ、ｒｒ１、ＥＶＥＸ．ＬＬ０、ＥＶＥＸ．ＬＬＢとしても知られ、また、βββを用いて示される）−前述したように、このフィールドは、コンテキストに固有のものである。

ＲＥＸ'フィールド６１０−これは、ＲＥＸ'フィールドの残部であり、拡張された３２個のレジスタセットの上位１６または下位１６のいずれかをエンコードするために用いられ得るＥＶＥＸ．Ｖ'ビットフィールド（ＥＶＥＸバイト３、ビット［３］−Ｖ'）である。このビットは、ビット反転フォーマットで格納される。下位１６個のレジスタのエンコードには、１の値を用いる。換言すると、ＥＶＥＸ．Ｖ'、ＥＶＥＸ．ｖｖｖｖを組み合わせることにより、Ｖ'ＶＶＶＶが形成される。

ライトマスクフィールド６７０（ＥＶＥＸバイト３、ビット［２：０］‐ｋｋｋ）−上記の通り、その内容は、ライトマスクレジスタ内のレジスタのインデックスを指定する。本開示の一実施形態において、特定の値ＥＶＥＸ．ｋｋｋ=０００は、特定の命令に用いられるライトマスクが存在しないことを示唆する特別な挙動を有する（これは、すべてのものに対して物理的に組み込まれるライトマスク、または、マスキングハードウェアをバイパスするハードウェアの使用を含む様々な態様で実装され得る）。

リアルオペコードフィールド７３０（バイト４）はオペコードバイトとしても知られる。オペコードの一部はこのフィールドで指定される。

ＭＯＤＲ／Ｍフィールド７４０（バイト５）は、ＭＯＤフィールド７４２、Ｒｅｇフィールド７４４、およびＲ／Ｍフィールド７４６を含む。上記の通り、ＭＯＤフィールド７４２の内容は、メモリアクセス演算および非メモリアクセス演算間を区別する。Ｒｅｇフィールド７４４の役割は、デスティネーションレジスタオペランドまたはソースレジスタオペランドのいずれかをエンコードすること、または、オペコード拡張として扱われ、いかなる命令オペランドをエンコードするために使用されないこと、という２つの状況に要約できる。Ｒ／Ｍフィールド７４６の役割は、メモリアドレスを参照する命令オペランドをエンコードすること、またはデスティネーションレジスタオペランドまたはソースレジスタオペランドのいずれかをエンコードすることが含まれてよい。

スケール、インデックス、ベース（ＳＩＢ）バイト（バイト６）：上記の通り、スケールフィールド６５０の内容は、メモリアドレス生成に使用される。ＳＩＢ．ｘｘｘ７５４およびＳＩＢ．ｂｂｂ７５６：これらのフィールドの内容は、レジスタインデックスＸｘｘｘおよびＢｂｂｂに関連して既に言及された。

変位フィールド６６２Ａ（バイト７−１０）：ＭＯＤフィールド７４２が１０を含む場合、バイト７−１０は、変位フィールド６６２Ａであり、これはレガシ３２ビット変位（ｄｉｓｐ３２）と同じく機能し、バイト粒度で機能する。

変位係数フィールド６６２Ｂ（バイト７）：ＭＯＤフィールド７４２が０１を含むとき、バイト７は変位係数フィールド６６２Ｂである。このフィールドの位置は、バイト粒度で機能するレガシｘ８６命令セットの８ビット変位（ｄｉｓｐ８）のものと同じである。ｄｉｓｐ８は符号拡張されるので、ｄｉｓｐ８は−１２８〜１２７バイトオフセット間のアドレス指定のみ可能である。６４バイトのキャッシュラインに関しては、ｄｉｓｐ８は４つの実際に有用な値、−１２８、−６４、０および６４のみに設定可能な８ビットを使用する。多くの場合、より広い範囲が必要であるので、ｄｉｓｐ３２が使用されるが、ｄｉｓｐ３２は４バイトを要求する。ｄｉｓｐ８およびｄｉｓｐ３２と対照的に、変位係数フィールド６６２Ｂはｄｉｓｐ８の再解釈である。変位係数フィールド６６２Ｂを使用する場合、実際の変位は、メモリオペランドアクセス（Ｎ）のサイズで乗算された変位係数フィールドの内容によって決定される。このタイプの変位は、ｄｉｓｐ８×Ｎと称される。これにより、平均命令長（単一バイトだが、はるかに大きなレンジの変位に用いられる）を小さくする。このような圧縮された変位は、有効な変位はメモリアクセスの粒度の倍数であり、従って、アドレスオフセットの冗長下位ビットはエンコードの必要がないという前提に基づいている。換言すると、変位係数フィールド６６２Ｂが、レガシｘ８６命令セットの８ビット変位と置き換わる。故に、変位係数フィールド６６２Ｂは、ｄｉｓｐ８がｄｉｓｐ８×Ｎにオーバーロードされる例外のみを除いては、ｘ８６命令セットの８‐ビット変位と同じ態様でエンコードされる（よって、ＭｏｄＲＭ／ＳＩＢエンコードルールの変更はない）。換言すると、エンコードルールまたはエンコード長に変更はなく、ハードウェアによる変位値の解釈のみに変更がある（バイト単位のアドレスオフセットを取得するには、メモリオペランドのサイズによって変位をスケールする必要がある）。即値フィールド６７２は、前述のとおりに動作する。

［フルオペコードフィールド］
図７Ｂは、本開示の一実施形態に係るフルオペコードフィールド６７４を作成する特定ベクトル向け命令フォーマット７００のフィールドを示すブロック図である。具体的には、フルオペコードフィールド６７４は、フォーマットフィールド６４０、ベース演算フィールド６４２およびデータ要素幅（Ｗ）フィールド６６４を含む。ベース演算フィールド６４２は、プレフィックスエンコードフィールド７２５、オペコードマップフィールド７１５およびリアルオペコードフィールド７３０を含む。

［レジスタインデックスフィールド］
図７Ｃは、本開示の一実施形態に係るレジスタインデックスフィールド６４４を作成する特定ベクトル向け命令フォーマット７００のフィールドを示すブロック図である。具体的には、レジスタインデックスフィールド６４４は、ＲＥＸフィールド７０５、ＲＥＸ'フィールド７１０、ＭＯＤＲ／Ｍ．ｒｅｇフィールド７４４、ＭＯＤＲ／Ｍ．ｒ／ｍフィールド７４６、ＶＶＶＶフィールド７２０、ｘｘｘフィールド７５４およびｂｂｂフィールド７５６を含む。

［拡張演算フィールド］
図７Ｄは、本開示の一実施形態に係る拡張演算フィールド６５０を作成する特定ベクトル向け命令フォーマット７００のフィールドを示すブロック図である。クラス（Ｕ）フィールド６６８が０を含む場合、ＥＶＥＸ．Ｕ０（クラスＡ６６８Ａ）を表し、１を含む場合は、ＥＶＥＸ．Ｕ１（クラスＢ６６８Ｂ）を表す。Ｕ＝０、かつＭＯＤフィールド７４２が１１を含む（非メモリアクセス演算を意味する）場合、アルファフィールド６５２（ＥＶＥＸバイト３、ビット［７］）−ＥＨ）は、ＲＳフィールド６５２Ａとして解釈される。ＲＳフィールド６５２Ａが１（ラウンド６５２Ａ．１）を含む場合、ベータフィールド６５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ）は、ラウンド制御フィールド６５４Ａとして解釈される。ラウンド制御フィールド６５４Ａは、１ビットのＳＡＥフィールド６５６および２ビットのラウンド演算フィールド６５８を含む。ＲＳフィールド６５２Ａが０（データ変換６５２Ａ．２）を含む場合、ベータフィールド６５４（ＥＶＥＸバイト３、ビット［６：４］‐ＳＳＳ）は、３ビットのデータ変換フィールド６５４Ｂとして解釈される。Ｕ＝０、かつＭＯＤフィールド７４２が００、０１または１０を含む（メモリアクセス演算を意味する）場合、アルファフィールド６５２（ＥＶＥＸバイト３、ビット［７］−ＥＨ）は、エビクションヒント（ＥＨ）フィールド６５２Ｂとして解釈され、ベータフィールド６５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ）は、３ビットのデータ操作フィールド６５４Ｃとして解釈される。

Ｕ＝１であるとき、アルファフィールド６５２（ＥＶＥＸバイト３、ビット［７］−ＥＨ）は、ライトマスク制御（Ｚ）フィールド６５２Ｃとして解釈される。Ｕ＝１、かつＭＯＤフィールド７４２が１１を含む（非メモリアクセス演算を意味する）場合、ベータフィールド６５４の一部（ＥＶＥＸバイト３、ビット［４］−Ｓ_０）は、ＲＬフィールド６５７Ａとして解釈され、１（ラウンド６５７Ａ．１）を含む場合、ベータフィールド６５４の残り（ＥＶＥＸバイト３、ビット［６−５］−Ｓ_２−１）は、ラウンド演算フィールド６５９Ａとして解釈され、ＲＬフィールド６５７Ａが０（ＶＳＩＺＥ６５７．Ａ２）を含む場合、ベータフィールド６５４の残り（ＥＶＥＸバイト３、ビット［６−５］−Ｓ_２−１）は、ベクトル長フィールド６５９Ｂ（ＥＶＥＸバイト３、ビット［６−５］−Ｌ_１−０）として解釈される。Ｕ＝１、かつＭＯＤフィールド７４２が（メモリアクセス演算を意味する）００、０１または１０を含むとき、ベータフィールド６５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ）は、ベクトル長フィールド６５９Ｂ（ＥＶＥＸバイト３、ビット［６−５］−Ｌ_１−０）およびブロードキャストフィールド６５７Ｂ（ＥＶＥＸバイト３、ビット［４］−Ｂ）として解釈される。

［例示的なレジスタアーキテクチャ］
図８は、本開示の一実施形態に係るレジスタアーキテクチャ８００のブロック図である。図示される実施形態には、５１２ビット幅の３２個のベクトルレジスタ８１０がある。これらのレジスタは、ｚｍｍ０からｚｍｍ３１として参照される。下位１６個のｚｍｍレジスタの下位２５６ビットは、レジスタｙｍｍ０から１６上にオーバーレイされる。下位１６個のｚｍｍレジスタの下位１２８ビット（ｙｍｍレジスタの下位１２８ビット）は、レジスタｘｍｍ０から１５上にオーバーレイされる。特定ベクトル向け命令フォーマット７００は、これらの重なったレジスタファイルに対し、以下の表４に示されるように動作する。

換言すると、ベクトル長フィールド６５９Ｂは、最大長さから１または複数の他のより短い長さまでの間から選択し、ここで、そのようなより短い長さの各々は、先述の長さの半分の長さであり、ベクトル長フィールド６５９Ｂを有さない命令テンプレートは、最大のベクトル長に対して動作する。さらに一実施形態において、特定ベクトル向け命令フォーマット７００のクラスＢ命令テンプレートは、パックドもしくはスカラ単精度／倍精度浮動小数点データ、およびパックドもしくはスカラ整数データに対して動作する。スカラ演算は、ｚｍｍ／ｙｍｍ／ｘｍｍレジスタ内の最下位のデータ要素位置で実行される演算である。上位のデータ要素位置は、それらが命令前と同じままであるか、実施形態に応じてゼロにされるかのいずれかである。

ライトマスクレジスタ８１５：図示された実施形態では、各々が６４ビットサイズの８つのライトマスクレジスタ（ｋ０からｋ７）が存在する。代替的な実施形態において、ライトマスクレジスタ８１５は、１６ビットのサイズである。前述したように、本開示の一実施形態において、ベクトルマスクレジスタｋ０は、ライトマスクとして用いられることができず、通常ｋ０を示すエンコードがライトマスクに用いられる場合、０ｘＦＦＦＦのハードワイヤに組み込まれるライトマスクを選択することで、その命令に対するライトマスキングを効果的に無効にする。

汎用レジスタ８２５：図示された実施形態では、メモリオペランドをアドレス指定するために既存のｘ８６アドレッシングモードと共に使用される１６個の６４ビット汎用レジスタが存在する。これらのレジスタは、ＲＡＸ、ＲＢＸ、ＲＣＸ、ＲＤＸ、ＲＢＰ、ＲＳＩ、ＲＤＩ、ＲＳＰ、およびＲ８からＲ１５の名前で参照される。

ＭＭＸパック整数フラットレジスタファイル８５０がエイリアスされる、スカラー浮動小数点スタックレジスタファイル（ｘ８７スタック）８４５：図示される実施形態では、ｘ８７スタックは、ｘ８７命令セット拡張子を使用して３２／６４／８０ビット浮動小数点データに対してスカラー浮動小数点演算を実行するために使用される８要素スタックである。ＭＭＸレジスタは、６４ビットパック整数データに対して演算を実行するため、ならびにＭＭＸレジスタとＸＭＭレジスタとの間で実行されるいくつかの演算のためにオペランドを保持するために、使用される。

本開示の複数の代替的な実施形態は、より広いまたはより狭い複数のレジスタを用いてよい。更に、本開示の複数の代替的な実施形態は、より多くの、より少ない、または異なる複数のレジスタファイルおよび複数のレジスタを用いてよい。

［例示的なコアアーキテクチャ、プロセッサ、およびコンピュータアーキテクチャ］
プロセッサコアは、異なる方法で、異なる目的のために、異なるプロセッサにおいて実装され得る。例えば、そのようなコアの実装形態には、１）汎用コンピューティング向けの汎用インオーダコア、２）汎用コンピューティング向けの高性能汎用アウトオブオーダコア、３）主にグラフィックスおよび／または科学（スループット）コンピューティング向けの専用コアが含まれてもよい。異なるプロセッサの実装形態には、１）汎用コンピューティング向けの１つもしくは複数の汎用インオーダコアおよび／または汎用コンピューティング用の１つもしくは複数の汎用アウトオブオーダコアを含むＣＰＵ、ならびに２）主にグラフィックスおよび／または科学（スループット）向けの１つまたは複数の専用コアを含むコプロセッサが含まれてもよい。そのような異なるプロセッサは異なるコンピュータシステムアーキテクチャをもたらし、そのようなコンピュータシステムアーキテクチャには、１）ＣＰＵとは別個のチップ上のコプロセッサ、２）ＣＰＵと同じパッケージ内の別個のダイ上のコプロセッサ、３）ＣＰＵと同一のダイ上のコプロセッサ（この場合、そのようなコプロセッサは、統合グラフィックスおよび／または科学（スループット）ロジックなどの専用ロジック、または専用コアと呼ばれることがある）、ならびに４）同一のダイ上に（アプリケーションコアまたはアプリケーションプロセッサと呼ばれることもある）説明されたＣＰＵ、上述したコプロセッサ、および追加の機能を含んでもよいシステムオンチップが含まれてもよい。例示的なコアアーキテクチャが次に説明され、例示的なプロセッサおよびコンピュータアーキテクチャの説明が続く。

［例示的なコアアーキテクチャインオーダおよびアウトオブオーダコアのブロック図］
図９Ａは、本開示の複数の実施形態に係る例示的なインオーダパイプラインおよび例示的なレジスタリネーミング、アウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。図９Ｂは、本開示の複数の実施形態によるインオーダアーキテクチャコアの例示的な実施形態と、プロセッサに含まれる例示的なレジスタリネーミングアウトオブオーダ発行／実行アーキテクチャコアとの両方を示すブロック図である。図９Ａ−Ｂの実線ボックスはインオーダパイプラインおよびインオーダコアを示し、破線ボックスの任意選択の追加は、レジスタリネーミング、アウトオブオーダ発行／実行パイプラインおよびコアを示す。インオーダの態様がアウトオブオーダの態様のサブセットであると仮定して、アウトオブオーダの態様が説明される。

図９Ａにおいて、プロセッサパイプライン９００は、フェッチステージ９０２、長さデコードステージ９０４、デコードステージ９０６、割り当てステージ９０８、リネーミングステージ９１０、スケジューリング（ディスパッチまたは発行としても知られる）ステージ９１２、レジスタ読み取り／メモリ読み出しステージ９１４、実行ステージ９１６、ライトバック／メモリ書き込みステージ９１８、例外処理ステージ９２２およびコミットステージ９２４を含む。

図９Ｂは、実行エンジンユニット９５０に結合されるフロントエンドユニット９３０を含むプロセッサコア９９０を示し、それらの両方が、メモリユニット９７０に結合される。コア９９０は、縮小命令セットコンピューティング（ＲＩＳＣ）コア、複合命令セットコンピューティング（ＣＩＳＣ）コア、超長命令語（ＶＬＩＷ）コア、またはハイブリッドもしくは代替的なコアタイプであってもよい。さらに別の選択肢として、コア９９０は、例えば、ネットワークまたは通信コア、圧縮エンジン、コプロセッサコア、汎用コンピューティンググラフィックス処理ユニット（ＧＰＧＰＵ）コアまたはグラフィックスコアなどの特別用途コアであってよい。

フロントエンドユニット９３０は、命令キャッシュユニット９３４に結合された分岐予測ユニット９３２を含み、命令キャッシュユニット９３４は、命令トランスレーションルックアサイドバッファ（ＴＬＢ）９３６に結合され、ＴＬＢ９３６は、命令フェッチユニット９３８に結合され、命令フェッチユニット９３８は、デコードユニット９４０に結合される。デコードユニット９４０（またはデコーダもしくはデコーダユニット）は、複数の命令（例えばマクロ命令）を復号し、１つまたは複数のマイクロ演算、マイクロコードエントリポイント、マイクロ命令、他の命令、または元の命令からデコードされ、または他の方法でこれを反映し、またはこれから派生した他の制御信号を、出力として生成してよい。デコードユニット９４０は、様々な異なるメカニズムを用いて実装されてよい。好適なメカニズムの例には、参照テーブル、ハードウェア実装、プログラマブルロジック配列（ＰＬＡ）、マイクロコード読み出し専用メモリ（ＲＯＭ）などが含まれるが、それらに限定されない。一実施形態において、コア９９０は、マイクロコードＲＯＭ、または、特定のマクロ命令に対するマイクロコードを格納する（例えば、デコードユニット９４０における、そうでなければ、フロントエンドユニット９３０内の）他のメディアを含む。デコードユニット９４０は、実行エンジンユニット９５０におけるリネーム／アロケータユニット９５２に結合される。

実行エンジンユニット９５０は、リタイアメントユニット９５４および１または複数のスケジューラユニット（複数可）９５６のセットに結合されるリネーム／アロケータユニット９５２を含む。スケジューラユニット９５６は、リザベーションステーション、中央命令ウィンドウなどを含む任意の数の異なるスケジューラを表す。スケジューラユニット９５６は、物理レジスタファイルユニット９５８に結合されている。物理レジスタファイルユニット９５８のそれぞれは、１または複数の物理レジスタファイルを表し、そのそれぞれ異なる物理レジスタファイルは、例えば、スカラ整数、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点、ステータス（例えば、実行される次の命令のアドレスである命令ポインタ）など、１つまたは複数の異なるデータタイプを格納する。一実施形態において、物理レジスタファイルユニット９５８は、ベクトルレジスタユニット、ライトマスクレジスタユニット、およびスカラレジスタユニットを含む。これらのレジスタユニットは、アーキテクチャベクトルレジスタ、ベクトルマスクレジスタ、および汎用レジスタを提供することができる。物理レジスタファイルユニット９５８は、リタイアメントユニット９５４が重ね合わされており、レジスタリネーミングおよびアウトオブオーダ実行が（例えば、リオーダバッファおよびリタイアメントレジスタファイルを用いる、フューチャファイル、履歴バッファ、およびリタイアメントレジスタファイルを用いる、並びにレジスタマップおよびレジスタのプールを用いるなどして）実装され得る様々な態様を示す。リタイアメントユニット９５４および物理レジスタファイルユニット９５８は、実行クラスタ９６０に結合されている。実行クラスタ９６０は、１または複数の実行ユニット９６２のセットと、１または複数のメモリアクセスユニット９６４のセットとを含む。実行ユニット９６２は、様々な演算（例えば、シフト、加算、減算、乗算）を様々なタイプのデータ（例えば、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点）に実行してよい。いくつかの実施形態は、特定の機能または機能のセットに専用のいくつかの実行ユニットを含んでもよいが、他の実施形態は、ただ１つの実行ユニットまたはすべてがすべての機能を実行する複数の実行ユニットを含んでもよい。特定の実施形態は、特定のタイプのデータ／演算に対して別個のパイプラインを形成するので、スケジューラユニット９５６、物理レジスタファイルユニット９５８、および実行クラスタ９６０は、可能性として複数であると示されている（例えば、スカラ整数パイプライン、スカラ浮動小数点／パックド整数／パックド浮動小数点／ベクトル整数／ベクトル浮動小数点パイプライン、および／またはメモリアクセスパイプラインはそれぞれ、独自のスケジューラユニット、物理レジスタファイルユニット、および／または実行クラスタを有し、別個のメモリアクセスパイプラインの場合には、このパイプラインの実行クラスタのみがメモリアクセスユニット９６４を有する特定の実施形態が実装される）。別個のパイプラインが使用される場合、これらのパイプラインのうちの１または複数がアウトオブオーダ発行／実行であり、残りがインオーダであり得ることも理解されるべきである。

メモリアクセスユニット９６４のセットは、メモリユニット９７０に結合され、それは、レベル２（Ｌ２）キャッシュユニット９７６に結合されるデータキャッシュユニット９７４に結合されるデータＴＬＢユニット９７２を含む。例示的な一実施形態では、メモリアクセスユニット９６４が、ロードユニット、ストアアドレスユニット、およびストアデータユニットを含み得、それらのそれぞれが、メモリユニット９７０内のデータＴＬＢユニット９７２に結合される。命令キャッシュユニット９３４は、メモリユニット９７０内のレベル２（Ｌ２）キャッシュユニット９７６にさらに結合される。Ｌ２キャッシュユニット９７６は、１または複数の他のレベルのキャッシュに結合され、最終的にはメインメモリに結合される。

例として、例示的なレジスタリネーミング・アウトオブオーダ発行／実行コアアーキテクチャは、パイプライン９００を以下のように実装してよい。すなわち、１）命令フェッチ９３８がフェッチステージ９０２およびレングスデコードステージ９０４を実行する。２）デコードユニット９４０がデコードステージ９０６を実行する。３）リネーム／アロケータユニット９５２が割り当てステージ９０８およびリネーミングステージ９１０を実行する。４）スケジューラユニット９５６がスケジュールステージ９１２を実行する。５）物理レジスタファイルユニット９５８およびメモリユニット９７０がレジスタ読み取り／メモリ読み出しステージ９１４を実行する。実行クラスタ９６０が実行ステージ９１６を実行する。６）メモリユニット９７０および物理レジスタファイルユニット９５８がライトバック／メモリ書き込みステージ９１８を実行する。７）様々なユニットが例外処理ステージ９２２に関与し得る。８）リタイアメントユニット９５４および物理レジスタファイルユニット９５８がコミットステージ９２４を実行する。

コア９９０は、本明細書で説明される命令を含む、１または複数の命令セット（例えば、ｘ８６命令セット（新しいバージョンで追加されたいくつかの拡張機能付き）、カリフォルニア州サニーベールのＭＩＰＳテクノロジーのＭＩＰＳ命令セット、カリフォルニア州サニーベールのＡＲＭホールディングスのＡＲＭ命令セット（ＮＥＯＮなどの任意選択追加拡張）をサポートしてもよい。一実施形態では、コア９９０は、パックドデータ命令セット拡張（例えば、ＡＶＸ１、ＡＶＸ２）をサポートするロジックを含み、それにより、多くのマルチメディアアプリケーションによって使用される演算がパックドデータを使用して実行されることを可能にする。

コアはマルチスレッディング（２つ以上の演算またはスレッドの並列セットを実行）をサポートしてよく、時分割マルチスレッディング、同時マルチスレッディング（物理コアが同時にマルチスレッディングしているスレッドのそれぞれに対して、単一の物理コアが論理コアを提供する）、またはこれらの組み合わせ（例えば、時分割フェッチおよび復号、並びにその後のインテルハイパースレッディング・テクノロジーなどの同時マルチスレッディング）を含む様々な態様でサポートしてよいことが理解されたい。

レジスタリネーミングはアウトオブオーダ実行の文脈で説明されているが、レジスタリネーミングはインオーダアーキテクチャで使用されてもよいことを理解されたい。示されたプロセッサの実施形態はまた、別個の命令キャッシュユニット９３４とデータキャッシュユニット９７４、並びに共有Ｌ２キャッシュユニット９７６を含むが、代替的な実施形態は、命令およびデータの両方に対して、例えばレベル１（Ｌ１）内部キャッシュまたは複数のレベルの内部キャッシュなど、単一の内部キャッシュを有してもよい。いくつかの実施形態において、システムは、内部キャッシュと、コアおよび／またはプロセッサの外部にある外部キャッシュの組み合わせを含んでもよい。あるいは、キャッシュのすべてがコアおよび／またはプロセッサの外部にあってもよい。

［具体的な例示的インオーダコアアーキテクチャ］
図１０Ａ−Ｂは、より具体的な例示的インオーダコアアーキテクチャのブロック図を示し、ここで、コアは、チップ内のいくつかの論理ブロック（同じタイプおよび／または異なるタイプの他のコアを含む）の１つになるであろう。論理ブロックは、高帯域幅相互接続ネットワーク（例えば、リングネットワーク）を通じて、アプリケーションに応じて、いくつかの固定機能ロジック、メモリＩ／Ｏインタフェースおよび他の必要なＩ／Ｏロジックと通信する。

図１０Ａは、本開示の複数の実施形態に係る、オンダイの相互接続ネットワーク１００２へのその接続、およびレベル２（Ｌ２）キャッシュ１００４のそのローカルサブセットを加えた、単一のプロセッサコアのブロック図である。一実施形態において、命令デコードユニット１０００は、パックドデータ命令セット拡張を有するｘ８６命令セットをサポートする。Ｌ１キャッシュ１００６は、キャッシュメモリへの低レイテンシアクセスがスカラユニットおよびベクトルユニットに入ることを可能にする。一実施形態では、（設計を簡略化するために）、スカラユニット１００８およびベクトルユニット１０１０は、別個のレジスタセット（それぞれ、スカラレジスタ１０１２およびベクトルレジスタ１０１４）を用いており、それらの間を転送されるデータは、メモリに書き込まれ、次に、レベル１（Ｌ１）キャッシュ１００６からリードバックされるが、本開示の複数の代替的な実施形態では、異なるアプローチ（例えば、単一のレジスタセットを用いる、または、書き込まれることもリードバックされることもなく２つのレジスタファイル間でデータが転送されることを可能にする通信パスを含む）を用いてよい。

Ｌ２キャッシュ１００４のローカルサブセットは、プロセッサコア毎に１つの別個のローカルサブセットに分割されるグローバルＬ２キャッシュの一部である。各プロセッサコアは、Ｌ２キャッシュ１００４の自身のローカルサブセットへの直接のアクセス経路を有する。プロセッサコアにより読み出されたデータは、Ｌ２キャッシュサブセット１００４に格納され、他のプロセッサコアが独自のローカルＬ２キャッシュサブセットにアクセスするのと並列して、高速にアクセスされ得る。プロセッサコアにより書き込まれたデータは、自身のＬ２キャッシュサブセット１００４に格納され、必要に応じて他のサブセットからフラッシュされる。リングネットワークは、共有データのコヒーレンシを保証する。リングネットワークは、双方向性であり、プロセッサコア、Ｌ２キャッシュおよび他の論理ブロックなどのエージェントが、チップ内で互いに通信することを可能にする。各リングデータパスは、一方向当たり１０１２ビット幅である。

図１０Ｂは、本開示の複数の実施形態に係る図１０Ａにおけるプロセッサコアの一部の拡大図である。図１０Ｂは、Ｌ１キャッシュ１００４の一部であるＬ１データキャッシュ１００６Ａと、ベクトルユニット１０１０およびベクトルレジスタ１０１４に関するより詳細とを含む。具体的には、ベクトルユニット１０１０は１６幅のベクトル処理ユニット（ＶＰＵ）（１６幅のＡＬＵ１０２８を参照）であり、整数命令、単精度浮動小数点命令、および倍精度浮動小数点命令のうちの１または複数を実行する。ＶＰＵは、スウィズルユニット１０２０を用いたレジスタ入力のスウィズル処理、数値変換ユニット１０２２Ａ‐Ｂを用いた数値変換、並びに複製ユニット１０２４を用いたメモリ入力の複製をサポートする。ライトマスクレジスタ１０２６は、結果として生じるベクトルライトをプレディケートすることを可能にする。

図１１は、本開示の複数の実施形態に係る、１つより多くのコアを有し得、統合メモリコントローラを有し得、かつ統合グラフィックを有し得る、プロセッサ１１００のブロック図である。図１１の実線ボックスは、単一のコア１１０２Ａ、システムエージェント１１１０、１つまたは複数のバスコントローラユニット１１１６のセットを有するプロセッサ１１００を示し、任意選択の追加の破線ボックスは、複数のコア１１０２Ａから１１０２Ｎ、システムエージェントユニット１１１０内にある１つまたは複数の統合メモリコントローラユニット１１１４のセット、および専用ロジック１１０８を有する代替のプロセッサ１１００を示す。

故に、プロセッサ１１００の異なる実装は、１）（１つまたは複数のコアを含み得る）統合グラフィックおよび／または科学的（スループット）ロジックである専用ロジック１１０８、ならびに１つまたは複数の汎用コア（例えば、汎用インオーダコア、汎用アウトオブオーダコア、それらの２つの組み合わせ）であるコア１１０２Ａ‐Ｎを有するＣＰＵ、２）主にグラフィックスおよび／または科学的（スループット）向けの多数の専用コアであるコア１１０２Ａ‐Ｎを有するコプロセッサ、なおかつ３）多数の汎用インオーダコアであるコア１１０２Ａ‐Ｎを有するコプロセッサを含み得る。故に、プロセッサ１１００は汎用プロセッサ、コプロセッサであってよく、あるいは専用プロセッサ、例えばネットワークまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ（汎用グラフィックス処理ユニット）、高スループットの多数統合コア（ＭＩＣ）コプロセッサ（３０個またはそれより多くのコアを含む）、組み込みプロセッサなどであってもよい。プロセッサは、１または複数のチップ上に実装されてもよい。プロセッサ１１００は、例えば、ＢｉＣＭＯＳ、ＣＭＯＳ、またはＮＭＯＳなどの多数のプロセス技術のいずれかを用いる１または複数の基板の一部であってよく、および／または当該基板上に実装されてもよい。

メモリ階層は、コア、１または複数の共有キャッシュユニット１１０６のセット、および１組の統合メモリコントローラユニット１１１４に結合される外部メモリ（不図示）内に１または複数のレベルのキャッシュを含む。共有キャッシュユニット１１０６のセットは、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）などの、１つまたは複数の中間レベルのキャッシュ、または他のレベルのキャッシュ、ラストレベルキャッシュ（ＬＬＣ）、および／またはこれらの組み合わせを含んでよい。一実施形態では、リングベースの相互接続ユニット１１１２が、統合グラフィックスロジック１１０８、共有キャッシュユニット１１０６のセット、およびシステムエージェントユニット１１１０／統合メモリコントローラユニット１１１４を相互接続するが、代替的な実施形態は、このようなユニットを相互接続するのに任意の数の周知の技術を用いてよい。一実施形態において、１または複数のキャッシュユニット１１０６と、コア１１０２Ａ‐１１０２Ｎとの間でコヒーレンシが保持される。

いくつかの実施形態では、コア１１０２Ａ‐Ｎのうちの１または複数がマルチスレッディング可能である。システムエージェント１１１０は、コア１１０２Ａ‐Ｎを調整し動作させるそれらのコンポーネントを含む。システムエージェントユニット１１１０は、例えば、電力制御ユニット（ＰＣＵ）およびディスプレイユニットを含んでよい。ＰＣＵは、コア１１０２Ａ−Ｎおよび統合グラフィックスロジック１１０８の電力状態を調整するのに必要なロジックおよびコンポーネントであってよく、または当該ロジックおよび当該コンポーネントを含んでもよい。ディスプレイユニットは、１または複数の外部接続されたディスプレイを駆動するためのものである。

コア１１０２Ａ−Ｎは、アーキテクチャ命令セットに関して同種でも異種でもよい。すなわち、コア１１０２Ａ−Ｎのうち２つまたはそれより多くは同じ命令セットを実行することが可能であってよいが、他のものはその命令セットのサブセットまたは別の命令セットだけを実行することが可能であってもよい。

［例示的なコンピュータアーキテクチャ］
図１２−図１５は、例示的なコンピュータアーキテクチャのブロック図である。ラップトップ、デスクトップ、ハンドヘルドＰＣ、パーソナルデジタルアシスタント、エンジニアリングワークステーション、サーバ、ネットワークデバイス、ネットワークハブ、スイッチ、組み込みプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、グラフィックスデバイス、ビデオゲームデバイス、セットトップボックス、マイクロコントローラ、携帯電話、ポータブルメディアプレーヤ、ハンドヘルドデバイス、および様々な他の電子デバイスについて当技術分野において既知の他のシステム設計および構成もまた好適である。一般に、本明細書で開示されたプロセッサおよび／または他の実行ロジックを組み込むことが可能な多様なシステムまたは電子デバイスが一般に好適である。

ここで、図１２を参照すると、本開示の一実施形態によるシステム１２００のブロック図が示される。システム１２００は、１または複数のプロセッサ１２１０、１２１５を含んでよく、これらはコントローラハブ１２２０に結合されている。一実施形態において、コントローラハブ１２２０は、グラフィックスメモリコントローラハブ（ＧＭＣＨ）１２９０および入出力ハブ（ＩＯＨ）１２５０（別個のチップ上にあり得る）を含む。ＧＭＣＨ１２９０は、メモリおよびグラフィックコントローラを含み、これらにメモリ１２４０およびコプロセッサ１２４５が結合される。ＩＯＨ１２５０は、入／出力（Ｉ／Ｏ）デバイス１２６０をＧＭＣＨ１２９０に結合する。代替的に、メモリおよびグラフィックコントローラのうち一方または両方は、（本明細書において説明されるように）プロセッサ内に統合され、メモリ１２４０およびコプロセッサ１２４５は、プロセッサ１２１０と、ＩＯＨ１２５０を有する単一チップ内のコントローラハブ１２２０とに直接結合される。メモリ１２４０は、例えば、実行時にプロセッサに本開示の任意の方法を実行させるコードを格納するために、ノンライトバックロック無効化コード１２４０Ａを含み得る。

任意選択的な性質の追加のプロセッサ１２１５が、破線を用いて図１２に示される。各プロセッサ１２１０、１２１５は、本明細書で説明される処理コアのうちの１または複数を含んでよく、何らかのバージョンのプロセッサ１１００であってよい。

メモリ１２４０は、例えば、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、相変化メモリ（ＰＣＭ）、またはこの２つの組み合わせであってよい。少なくとも１つの実施形態では、コントローラハブ１２２０は、フロントサイドバス（ＦＳＢ）などのマルチドロップバス、クイックパス相互接続（ＱＰＩ）などのポイントツーポイントインタフェース、または同様の接続１２９５を介してプロセッサ１２１０、１２１５と通信する。

一実施形態では、コプロセッサ１２４５が、専用プロセッサ、例えば、高スループットＭＩＣプロセッサ、ネットワークまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、組み込みプロセッサ、または同様のものなどである。一実施形態では、コントローラハブ１２２０は統合グラフィックスアクセラレータを含んでよい。

物理リソース１２１０、１２１５の間には、アーキテクチャ特性、マイクロアーキテクチャ特性、熱的特性、電力消費特性などを含む幅広い価値基準に関して、様々な差異が存在し得る。

一実施形態では、プロセッサ１２１０が、一般的なタイプのデータ処理動作を制御する命令を実行する。命令内には、コプロセッサ命令が埋め込まれていてもよい。プロセッサ１２１０は、これらのコプロセッサ命令を、付属のコプロセッサ１２４５が実行すべきタイプの命令であると認識する。従って、プロセッサ１２１０は、これらのコプロセッサ命令（またはコプロセッサ命令を表す制御信号）をコプロセッサバスまたは他の相互接続を使ってコプロセッサ１２４５に発行する。コプロセッサ１２４５は、受信したコプロセッサ命令を受け取って実行する。

ここで、図１３を参照すると、本開示の実施形態に係る第１のより具体的な例示的システム１３００のブロック図が示される。図１３に示されるように、マルチプロセッサシステム１３００はポイントツーポイント相互接続システムであり、ポイントツーポイント相互接続１３５０を介して結合される第１のプロセッサ１３７０と、第２のプロセッサ１３８０とを含む。プロセッサ１３７０および１３８０のそれぞれは、何らかのバージョンのプロセッサ１１００であってよい。本開示の一実施形態において、プロセッサ１３７０および１３８０は、それぞれ、プロセッサ１２１０および１２１５であり、コプロセッサ１３３８は、コプロセッサ１２４５である。別の実施形態において、プロセッサ１３７０および１３８０はそれぞれプロセッサ１２１０およびコプロセッサ１２４５である。

プロセッサ１３７０およびプロセッサ１３８０は、それぞれ、統合メモリコントローラ（ＩＭＣ）ユニット１３７２および統合メモリコントローラ（ＩＭＣ）ユニット１３８２を含むものとして示されている。プロセッサ１３７０はまた、そのバスコントローラユニットの一部として、ポイントツーポイント（Ｐ−Ｐ）インタフェース１３７６および１３７８を含み、同様に第２のプロセッサ１３８０はＰ−Ｐインタフェース１３８６および１３８８を含む。プロセッサ１３７０、１３８０は、ポイントツーポイント（Ｐ−Ｐ）インタフェース１３５０を介し、Ｐ−Ｐインタフェース回路１３７８、１３８８を用いて情報を交換してよい。図１３に示されるように、ＩＭＣ１３７２および１３８２は、プロセッサをそれぞれのメモリ、すなわちメモリ１３３２およびメモリ１３３４に結合する。これらのメモリは、それぞれのプロセッサにローカルに取り付けられたメインメモリの部分であってよい。

プロセッサ１３７０、１３８０はそれぞれ、個々のＰ−Ｐインタフェース１３５２、１３５４を介し、ポイントツーポイントインタフェース回路１３７６、１３９４、１３８６、１３９８を用いてチップセット１３９０と情報を交換してよい。チップセット１３９０は、任意選択で、高性能インターフェース１３３９を介してコプロセッサ１３３８と情報を交換してもよい。一実施形態では、コプロセッサ１３３８は、例えば、高スループットＭＩＣプロセッサ、ネットワークまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、組み込みプロセッサなどのような専用プロセッサである。

いずれかのプロセッサまたは両方のプロセッサの外部には、共有キャッシュ（不図示）が含まれてもよく、しかもＰ−Ｐ相互接続を介してこれらのプロセッサと接続され、よって、プロセッサが低電力モードに配置されれば、一方または両方のプロセッサのローカルキャッシュ情報が共有キャッシュに記憶され得る。

チップセット１３９０は、インタフェース１３９６を介して第１のバス１３１６に結合されてよい。一実施形態において、第１のバス１３１６はペリフェラルコンポーネントインターコネクト（ＰＣＩ）バス、すなわちＰＣＩＥｘｐｒｅｓｓバス若しくは別の第３世代Ｉ／Ｏ相互接続バスなどのバスであってよいが、本開示の範囲はそのようには限定されない。

図１３に示されるように、様々なＩ／Ｏデバイス１３１４が、第１のバス１３１６を第２のバス１３２０に結合するバスブリッジ１３１８と共に、第１のバス１３１６に結合され得る。一実施形態において、１または複数の追加のプロセッサ１３１５が第１のバス１３１６に結合される。追加のプロセッサとは、コプロセッサ、高スループットＭＩＣプロセッサ、ＧＰＧＰＵのアクセラレータ（例えば、グラフィックスアクセラレータ、またはデジタル信号処理（ＤＳＰ）ユニットなど）、フィールドプログラマブルゲートアレイ、またはその他のプロセッサなどである。一実施形態では、第２のバス１３２０はローピンカウント（ＬＰＣ）バスであってよい。様々なデバイスが第２のバス１３２０に結合されてよく、一実施形態では、そのようなデバイスには例えば、キーボードおよび／またはマウス１３２２、通信デバイス１３２７、及びストレージユニット１３２８が含まれ、ストレージユニットには、命令／コード及びデータ１３３０を含み得るディスクドライブまたは他の大容量ストレージデバイスなどがある。さらに、オーディオＩ／Ｏ１３２４が第２のバス１３２０に結合されてよい。他のアーキテクチャも可能であることに留意されたい。例えば、図１３のポイントツーポイントアーキテクチャの代わりに、システムがマルチドロップバスアーキテクチャ又は他のそのようなアーキテクチャを実装してよい。

ここで、図１４を参照すると、本開示の実施形態に係る第２のより具体的な例示的システム１４００のブロック図が示される。図１３および図１４内の同様の要素は同様の参照番号を有しており、図１３の特定の態様が、図１４の他の態様を不明瞭にするのを避けるために、図１４から省略されている。

図１４は、プロセッサ１３７０、１３８０が、統合メモリを含み、またＩ／Ｏ制御ロジック（「ＣＬ」）１３７２および１３８２をそれぞれ含んでよいことを示す。したがって、ＣＬ１３７２、１３８２は統合メモリコントローラユニットを含み、且つＩ／Ｏ制御ロジックを含む。図１４は、メモリ１３３２、１３３４だけがＣＬ１３７２、１３８２に結合されているのでなく、Ｉ／Ｏデバイス１４１４もまた、制御ロジック１３７２、１３８２に結合されていることを示している。レガシＩ／Ｏデバイス１４１５がチップセット１３９０に結合されている。

ここで、図１５を参照すると、本開示の実施形態に係るＳｏＣ１５００のブロック図が示される。図１１の同様の要素は、同様の参照番号を有している。また、破線ボックスは、次世代ＳｏＣｓ上の任意選択的な特徴である。図１５において、相互接続ユニット１５０２が、１つ又は複数のコア２０２Ａ−Ｎ及び共有キャッシュユニット１１０６のセットを含むアプリケーションプロセッサ１５１０と、システムエージェントユニット１１１０と、バスコントローラユニット１１１６と、統合メモリコントローラユニット１１１４と、統合グラフィックスロジック、画像プロセッサ、オーディオプロセッサ、及びビデオプロセッサを含み得るコプロセッサ１５２０のセットあるいは１つ又は複数のコプロセッサ１５２０と、スタティックランダムアクセスメモリ（ＳＲＡＭ）ユニット１５３０と、ダイレクトメモリアクセス（ＤＭＡ）ユニット１５３２と、１つまたは複数の外部ディスプレイに結合するためのディスプレイユニット１５４０とに結合されている。一実施形態では、コプロセッサ１５２０は専用プロセッサを含み、例えば、ネットワークまたは通信プロセッサ、圧縮エンジン、ＧＰＧＰＵ、高スループットＭＩＣプロセッサ、組み込みプロセッサなどがある。

本明細書に開示される（例えば、メカニズムの）実施形態は、ハードウェア、ソフトウェア、ファームウェア又はそのような実装アプローチの組み合わせで実装されてよい。本開示の複数の実施形態では、少なくとも１つのプロセッサ、ストレージシステム（揮発性および不揮発性メモリおよび／またはストレージ要素を含む）、少なくとも１つの入力デバイス及び少なくとも１つの出力デバイスを有するプログラマブルシステム上で実行するコンピュータプログラム又はプログラムコードとして実装されてよい。

図１３に示されるコード１３３０などのプログラムコードは、本明細書で説明される機能を実行し、出力情報を生成する命令を入力するのに適用されてよい。出力情報は、１または複数の出力デバイスに既知の方式で適用されてよい。本願の目的のために、処理システムは、例えば、デジタル信号プロセッサ（ＤＳＰ）、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）又はマイクロプロセッサなどのプロセッサを有する任意のシステムを含む。

プログラムコードは、処理システムと通信するために、高水準手続き型またはオブジェクト指向のプログラミング言語で実装されてもよい。プログラムコードはまた、必要な場合、アセンブリ言語または機械語で実装されてもよい。実際には、本明細書で説明されたメカニズムは、いかなる特定のプログラミング言語にも範囲が限定されない。いずれの場合でも、言語は、コンパイル型言語またはインタープリタ型言語であってよい。

少なくとも一実施形態の１または複数の態様は、プロセッサ内の様々なロジックを表す機械可読媒体に格納された代表的命令によって実装されてもよく、機械可読媒体は、機械によって読み取られると、機械に本明細書で説明された技術を実行するようにロジックを組み立てさせる。「ＩＰコア」として知られるそのような表現は、有形の機械可読媒体に記憶され、実際にロジックまたはプロセッサを作成する製造機械にロードするために様々な顧客または製造設備に供給されてもよい。

そのような機械可読記憶媒体には、ハードディスク、フロッピーディスク、光ディスク、コンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、コンパクトディスクリライタブル（ＣＤ−ＲＷｓ）、および光磁気ディスクを含む任意の他のタイプのディスク、読み出し専用メモリ（ＲＯＭ）などの半導体デバイス、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）などのランダムアクセスメモリ（ＲＡＭ）、消去可能プログラム可能型読み出し専用メモリ（ＥＰＲＯＭ）、フラッシュメモリ、電気的消去可能プログラム可能型読み出し専用メモリ（ＥＥＰＲＯＭ）、相変化メモリ（ＰＣＭ）、磁気カードもしくは光学式カード、または電子命令を記憶するのに好適な任意の他のタイプの媒体などの記憶媒体を含む、機械またはデバイスによって製造または形成された物品の非一時的な有形の構成が含まれてもよいが、それらに限定されない。

従って、本開示の複数の実施形態は、複数の命令を含み、又は本明細書で説明される複数の構造、複数の回路、複数の装置、複数のプロセッサおよび／またはシステムの複数の特徴を定義するハードウェア記述言語（ＨＤＬ）のような設計データを含む、非一時的な有形の機械可読媒体をもさらに含む。そのような実施形態は、また、プログラム製品と称され得る。

［エミュレーション（バイナリ変換、コードモーフィング等を含む）］
場合によっては、命令をソース命令セットからターゲット命令セットに変換するのに、命令コンバータが用いられてよい。例えば、命令コンバータは、命令をコアによって処理されるべき１または複数の他の命令に変換し（例えば、静的バイナリ変換、動的コンパイルを含む動的バイナリ変換を使用して）、モーフィングし、エミュレートし、または別の方法で変換することができる。命令コンバータは、ソフトウェア、ハードウェア、ファームウェア、またはそれらの組み合わせに実装されてもよい。命令コンバータは、オンプロセッサ、オフプロセッサ、又は一部がオンプロセッサで一部がオフプロセッサであってよい。

図１６は、本開示の複数の実施形態に係るソース命令セットの複数のバイナリ命令をターゲット命令セットの複数のバイナリ命令に変換するソフトウェア命令コンバータの使用を対比するブロック図である。図示された実施形態において、命令コンバータはソフトウェア命令コンバータであるが、代替的に、命令コンバータは、ソフトウェア、ファームウェア、ハードウェア、またはこれらの様々な組み合わせで実装されてもよい。図１６は、高水準言語１６０２のプログラムがｘ８６コンパイラ１６０４を用いてコンパイルされ、少なくとも１つのｘ８６命令セットコアを持つプロセッサ１６１６によってネイティブに実行され得るｘ８６バイナリコード１６０６を生成し得ることを示す。少なくとも１つのｘ８６命令セットコアを持つプロセッサ１６１６は、少なくとも１つのｘ８６命令セットコアを持つインテルプロセッサと実質的に同一の諸機能を実行できる任意のプロセッサを表わしており、これは次のように行う。すなわち、少なくとも１つのｘ８６命令セットコアを持つインテルプロセッサと実質的に同一の結果を得るべく、（１）インテルｘ８６命令セットコアの命令セットの実質的部分、または（２）少なくとも１つのｘ８６命令セットコアを持つインテルプロセッサ上での実行を目的とするアプリケーションまたは他のソフトウェアのオブジェクトコードバージョン、を互換的に実行またはそれ以外の方法で処理することによってである。ｘ８６コンパイラ１６０４は、追加のリンク処理を用いて、又は用いることなく、少なくとも１つのｘ８６命令セットコアを持つプロセッサ１６１６上で実行可能なｘ８６バイナリコード１６０６（例えば、オブジェクトコード）を生成するように動作可能なコンパイラを表す。同様に、図１６は、高水準言語１６０２のプログラムが、代替的な命令セットバイナリコード１６１０を生成する代替的な命令セットコンパイラ１６０８を使用してコンパイルされ得ることを示しており、当該代替的な命令セットバイナリコード１６１０は、少なくとも１つのｘ８６命令セットコアを持たないプロセッサ１６１４（例えば、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰＳ命令セットを実行する、および／または、カリフォルニア州サニーベールのＡＲＭＨｏｌｄｉｎｇｓのＡＲＭ命令セットを実行するコアを持つプロセッサ）によってネイティブに実行されてよい。命令コンバータ１６１２は、ｘ８６バイナリコード１６０６を、ｘ８６命令セットコアを持たないプロセッサ１６１４によってネイティブに実行可能なコードに変換するために用いられる。この変換されたコードは、代替的な命令セットバイナリコード１６１０と同じである可能性が低い。なぜなら、この変換が可能な命令コンバータは、製造が困難だからである。しかしながら、変換されたコードは、一般的な演算を実現し、代替的な命令セットからの命令で構成される。故に、命令コンバータ１６１２は、ソフトウェア、ファームウェア、ハードウェアまたはこれらの組み合わせを表わし、それらは、エミュレーション、シミュレーションまたは任意の他の処理を介して、ｘ８６命令セットプロセッサまたはコアを有さないプロセッサまたは他の電子デバイスが、ｘ８６バイナリコード１６０６を実行できるようにする。
［他の可能なクレーム］
（項目１）
複数の論理プロセッサと、
ノンライトバックロック無効化ビットを備える制御レジスタと、
上記複数の論理プロセッサによって共有されるキャッシュと、
上記キャッシュをメモリに結合して、上記複数の論理プロセッサから上記メモリに対するメモリ要求を処理するバスと、
上記ノンライトバックロック無効化ビットが第１の値に設定されている場合に、上記複数の論理プロセッサのうちの論理プロセッサによって発行された上記メモリ要求の読み取り−変更−書き込みタイプの上記バスのノンライトバックロックアクセスを無効にし、上記ノンライトバックロック無効化ビットが第２の値に設定されている場合に、上記メモリ要求の上記読み取り−変更−書き込みタイプの上記バスの上記ノンライトバックロックアクセスを実装するメモリコントローラと、を備える装置。
（項目２）
上記メモリコントローラは、上記ノンライトバックロックアクセスを無効にするために一般保護違反を生成する、項目１に記載の装置。
（項目３）
上記制御レジスタは、メモリ制御レジスタである、項目１に記載の装置。
（項目４）
上記メモリ制御レジスタのアドレスは１６進数３３である、項目３に記載の装置。
（項目５）
第１の値に設定されると、上記複数の論理プロセッサがノンライトバックロックアクセス無効化機能をサポートすることを示し、第２の値に設定されると、上記複数の論理プロセッサが上記ノンライトバックロックアクセス無効化機能をサポートしていないことを示す、機能ビットを含む機能レジスタをさらに備える、項目１に記載の装置。
（項目６）
上記メモリコントローラは、キャッシュ無効化ビットが第２の制御レジスタ内の値に設定されて上記キャッシュを無効化する場合、上記ノンライトバックロック無効化ビットが上記第１の値に設定されている場合に、上記複数の論理プロセッサのうちの上記論理プロセッサによって発行された上記メモリ要求の上記読み取り−変更−書き込みタイプの上記バスの上記ノンライトバックロックアクセスを無効化しない、項目１に記載の装置。
（項目７）
上記メモリコントローラは、拡張ページテーブルが有効であり、メモリタイプがノンライトバックに設定されている場合、上記ノンライトバックロック無効化ビットが上記第１の値に設定されている場合に、上記複数の論理プロセッサのうちの論理プロセッサによって発行されたメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを無効化しない、項目１に記載の装置。
（項目８）
上記複数の論理プロセッサは、複数のプロセッサコアである、項目１に記載の装置。
（項目９）
プロセッサの複数の論理プロセッサの制御レジスタにノンライトバックロック無効化ビットを設定する段階と、バスを介してメモリに結合されたキャッシュを共有する上記プロセッサの上記複数の論理プロセッサのそれぞれとそれぞれの動作を実行する段階と、メモリコントローラを備えた上記メモリのために上記複数の論理プロセッサのうちの論理プロセッサからメモリ要求を受信する段階と、上記ノンライトバックロック無効化ビットが第１の値に設定されている場合に、上記メモリコントローラで上記複数の論理プロセッサのうちの上記論理プロセッサによって発行された上記メモリ要求の読み取り−変更−書き込みタイプの上記バスのノンライトバックロックアクセスを無効にする段階と、上記ノンライトバックロック無効化ビットが第２の値に設定されている場合に、上記メモリコントローラで上記メモリ要求の上記読み取り−変更−書き込みタイプの上記バスの上記ノンライトバックロックアクセスを実装する段階と、を備える方法。
（項目１０）
上記ノンライトバックロックアクセスを無効にすることは、一般保護違反を生成することを含む、項目９に記載の方法。
（項目１１）
上記制御レジスタは、メモリ制御レジスタである、項目９に記載の方法。
（項目１２）
上記メモリ制御レジスタのアドレスは、１６進数３３である、項目１１に記載の方法。
（項目１３）
上記プロセッサの機能レジスタの機能ビットを第１の値に設定して上記複数の論理プロセッサがノンライトバックロックアクセス無効化機能をサポートすることを示し、上記機能ビットを第２の値に設定して、上記複数の論理プロセッサが上記ノンライトバックロックアクセス無効化機能をサポートしていないことを示す段階をさらに備える、項目９に記載の方法。
（項目１４）
第２の制御レジスタ内のキャッシュ無効化ビットを上記キャッシュを無効化する値に設定する段階であって、上記メモリコントローラは、上記ノンライトバックロック無効化ビットが上記第１の値に設定されている場合に、上記複数の論理プロセッサのうちの上記論理プロセッサによって発行されたメモリ要求の上記読み取り−変更−書き込みタイプの上記バスの上記ノンライトバックロックアクセスを無効化しない、段階をさらに備える、項目９に記載の方法。
（項目１５）
上記複数の論理プロセッサのための拡張ページテーブルを有効化し、メモリタイプをノンライトバックに設定する段階であって、上記メモリコントローラは、上記ノンライトバックロック無効化ビットが上記第１の値に設定されている場合に、上記複数の論理プロセッサのうちの上記論理プロセッサによって発行された上記メモリ要求の上記読み取り−変更−書き込みタイプの上記バスの上記ノンライトバックロックアクセスを無効化しない、段階をさらに備える、項目９に記載の方法。
（項目１６）
上記複数の論理プロセッサは、複数のプロセッサコアである、項目９に記載の方法。
（項目１７）
機械によって実行されたときに、上記機械に、
プロセッサの複数の論理プロセッサの制御レジスタにノンライトバックロック無効化ビットを設定する段階と、
バスを介してメモリに結合されたキャッシュを共有する上記プロセッサの上記複数の論理プロセッサのそれぞれとそれぞれの動作を実行する段階と、
メモリコントローラを備えた上記メモリのために上記複数の論理プロセッサのうちの論理プロセッサからメモリ要求を受信する段階と、
上記ノンライトバックロック無効化ビットが第１の値に設定されている場合に、上記メモリコントローラで上記複数の論理プロセッサのうちの上記論理プロセッサによって発行された上記メモリ要求の読み取り−変更−書き込みタイプの上記バスのノンライトバックロックアクセスを無効にする段階と、
上記ノンライトバックロック無効化ビットが第２の値に設定されている場合に、上記メモリコントローラで上記メモリ要求の上記読み取り−変更−書き込みタイプの上記バスの上記ノンライトバックロックアクセスを実装する段階と、
を含む方法を実行させるコードを格納する非一時的な機械可読媒体。
（項目１８）
上記ノンライトバックロックアクセスを無効にすることは、一般保護違反を生成することを含む、項目１７に記載の非一時的な機械可読媒体。
（項目１９）
上記制御レジスタは、メモリ制御レジスタである、項目１７に記載の非一時的な機械可読媒体。
（項目２０）
上記メモリ制御レジスタのアドレスは、１６進数３３である、項目１９に記載の非一時的な機械可読媒体。
（項目２１）
上記プロセッサの機能レジスタの機能ビットを第１の値に設定して上記複数の論理プロセッサがノンライトバックロックアクセス無効化機能をサポートすることを示し、上記機能ビットを第２の値に設定して、上記複数の論理プロセッサが上記ノンライトバックロックアクセス無効化機能をサポートしていないことを示す段階をさらに備える、項目１７に記載の非一時的な機械可読媒体。
（項目２２）
第２の制御レジスタ内のキャッシュ無効化ビットを上記キャッシュを無効化する値に設定する段階であって、上記メモリコントローラは、上記ノンライトバックロック無効化ビットが上記第１の値に設定されている場合に、上記複数の論理プロセッサのうちの論理プロセッサによって発行された上記メモリ要求の上記読み取り−変更−書き込みタイプの上記バスの上記ノンライトバックロックアクセスを無効化しない、段階をさらに備える、項目１７に記載の非一時的な機械可読媒体。
（項目２３）
上記複数の論理プロセッサのための拡張ページテーブルを有効化し、メモリタイプをノンライトバックに設定する段階であって、上記メモリコントローラは、上記ノンライトバックロック無効化ビットが上記第１の値に設定されている場合に、上記複数の論理プロセッサのうちの上記論理プロセッサによって発行された上記メモリ要求の上記読み取り−変更−書き込みタイプの上記バスの上記ノンライトバックロックアクセスを無効化しない段階をさらに備える、項目１７に記載の非一時的な機械可読媒体。
（項目２４）
上記複数の論理プロセッサは、複数のプロセッサコアである、項目１７に記載の非一時的な機械可読媒体。

Claims

複数の論理プロセッサと、
ノンライトバックロック無効化ビットを備える制御レジスタと、
前記複数の論理プロセッサによって共有されるキャッシュと、
前記キャッシュをメモリに結合して、前記複数の論理プロセッサから前記メモリに対するメモリ要求を処理するバスと、
前記ノンライトバックロック無効化ビットが第１の値に設定されている場合に、前記複数の論理プロセッサのうちの論理プロセッサによって発行された前記メモリ要求の読み取り−変更−書き込みタイプの前記バスのノンライトバックロックアクセスを無効にし、前記ノンライトバックロック無効化ビットが第２の値に設定されている場合に、前記メモリ要求の前記読み取り−変更−書き込みタイプの前記バスの前記ノンライトバックロックアクセスを実装するメモリコントローラと、
を備える装置。
前記メモリコントローラは、前記ノンライトバックロックアクセスを無効にするために一般保護違反を生成する、請求項１に記載の装置。
前記制御レジスタは、メモリ制御レジスタである、請求項１または２に記載の装置。
前記メモリ制御レジスタのアドレスは１６進数３３である、請求項３に記載の装置。
第１の値に設定されると、前記複数の論理プロセッサがノンライトバックロックアクセス無効化機能をサポートすることを示し、第２の値に設定されると、前記複数の論理プロセッサが前記ノンライトバックロックアクセス無効化機能をサポートしていないことを示す、機能ビットを含む機能レジスタをさらに備える、請求項１から４のいずれか１項に記載の装置。
前記メモリコントローラは、キャッシュ無効化ビットが第２の制御レジスタ内の値に設定されて前記キャッシュを無効化する場合、前記ノンライトバックロック無効化ビットが前記第１の値に設定されている場合に、前記複数の論理プロセッサのうちの前記論理プロセッサによって発行された前記メモリ要求の前記読み取り−変更−書き込みタイプの前記バスの前記ノンライトバックロックアクセスを無効化しない、請求項１から５のいずれか１項に記載の装置。
前記メモリコントローラは、拡張ページテーブルが有効であり、メモリタイプがノンライトバックに設定されている場合、前記ノンライトバックロック無効化ビットが前記第１の値に設定されている場合に、前記複数の論理プロセッサのうちの前記論理プロセッサによって発行された前記メモリ要求の前記読み取り−変更−書き込みタイプの前記バスの前記ノンライトバックロックアクセスを無効化しない、請求項１から６のいずれか１項に記載の装置。
前記複数の論理プロセッサは、複数のプロセッサコアである、請求項１から７のいずれか１項に記載の装置。
プロセッサの複数の論理プロセッサの制御レジスタにノンライトバックロック無効化ビットを設定する段階と、
バスを介してメモリに結合されたキャッシュを共有する前記プロセッサの前記複数の論理プロセッサのそれぞれとそれぞれの動作を実行する段階と、
メモリコントローラを備えた前記メモリのために前記複数の論理プロセッサのうちの論理プロセッサからメモリ要求を受信する段階と、
前記ノンライトバックロック無効化ビットが第１の値に設定されている場合に、前記メモリコントローラで前記複数の論理プロセッサのうちの前記論理プロセッサによって発行された前記メモリ要求の読み取り−変更−書き込みタイプの前記バスのノンライトバックロックアクセスを無効にする段階と、
前記ノンライトバックロック無効化ビットが第２の値に設定されている場合に、前記メモリコントローラで前記メモリ要求の前記読み取り−変更−書き込みタイプの前記バスの前記ノンライトバックロックアクセスを実装する段階と、
を備える方法。
前記ノンライトバックロックアクセスを前記無効にすることは、一般保護違反を生成することを含む、請求項９に記載の方法。
前記制御レジスタは、メモリ制御レジスタである、請求項９または１０に記載の方法。
前記メモリ制御レジスタのアドレスは、１６進数３３である、請求項１１に記載の方法。
前記プロセッサの機能レジスタの機能ビットを第１の値に設定して前記複数の論理プロセッサがノンライトバックロックアクセス無効化機能をサポートすることを示し、前記機能ビットを第２の値に設定して、前記複数の論理プロセッサが前記ノンライトバックロックアクセス無効化機能をサポートしていないことを示す段階をさらに備える、請求項９から１２のいずれか１項に記載の方法。
第２の制御レジスタ内のキャッシュ無効化ビットを前記キャッシュを無効化する値に設定する段階であって、前記メモリコントローラは、前記ノンライトバックロック無効化ビットが前記第１の値に設定されている場合に、前記複数の論理プロセッサのうちの前記論理プロセッサによって発行されたメモリ要求の前記読み取り−変更−書き込みタイプの前記バスの前記ノンライトバックロックアクセスを無効化しない、段階をさらに備える、請求項９から１３のいずれか１項に記載の方法。
前記複数の論理プロセッサのための拡張ページテーブルを有効化し、メモリタイプをノンライトバックに設定する段階であって、前記メモリコントローラは、前記ノンライトバックロック無効化ビットが前記第１の値に設定されている場合に、前記複数の論理プロセッサのうちの前記論理プロセッサによって発行された前記メモリ要求の前記読み取り−変更−書き込みタイプの前記バスの前記ノンライトバックロックアクセスを無効化しない、段階をさらに備える、請求項９から１４のいずれか１項に記載の方法。
前記複数の論理プロセッサは、複数のプロセッサコアである、請求項９から１５のいずれか１項に記載の方法。
機械に、
プロセッサの複数の論理プロセッサの制御レジスタにノンライトバックロック無効化ビットを設定する手順と、
バスを介してメモリに結合されたキャッシュを共有する前記プロセッサの前記複数の論理プロセッサのそれぞれとそれぞれの動作を実行する手順と、
メモリコントローラを備えた前記メモリのために前記複数の論理プロセッサのうちの論理プロセッサからメモリ要求を受信する手順と、
前記ノンライトバックロック無効化ビットが第１の値に設定されている場合に、前記メモリコントローラで前記複数の論理プロセッサのうちの前記論理プロセッサによって発行された前記メモリ要求の読み取り−変更−書き込みタイプの前記バスのノンライトバックロックアクセスを無効にする手順と、
前記ノンライトバックロック無効化ビットが第２の値に設定されている場合に、前記メモリコントローラで前記メモリ要求の前記読み取り−変更−書き込みタイプの前記バスの前記ノンライトバックロックアクセスを実装する手順と、
実行させるためのプログラム。
前記ノンライトバックロックアクセスを前記無効にすることは、一般保護違反を生成することを含む、請求項１７に記載のプログラム。
前記制御レジスタは、メモリ制御レジスタである、請求項１７または１８に記載のプログラム。
前記メモリ制御レジスタのアドレスは、１６進数３３である、請求項１９に記載のプログラム。
前記機械に、
前記プロセッサの機能レジスタの機能ビットを第１の値に設定して前記複数の論理プロセッサがノンライトバックロックアクセス無効化機能をサポートすることを示し、前記機能ビットを第２の値に設定して、前記複数の論理プロセッサが前記ノンライトバックロックアクセス無効化機能をサポートしていないことを示す手順をさらに実行させる、請求項１７から２０のいずれか１項に記載のプログラム。
前記機械に、
第２の制御レジスタ内のキャッシュ無効化ビットを前記キャッシュを無効化する値に設定する手順であって、前記メモリコントローラは、前記ノンライトバックロック無効化ビットが前記第１の値に設定されている場合に、前記複数の論理プロセッサのうちの論理プロセッサによって発行されたメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを無効化しない手順をさらに実行させる、請求項１７から２１のいずれか１項に記載のプログラム。
前記機械に、
前記複数の論理プロセッサのための拡張ページテーブルを有効化し、メモリタイプをノンライトバックに設定する手順であって、前記メモリコントローラは、前記ノンライトバックロック無効化ビットが前記第１の値に設定されている場合に、前記複数の論理プロセッサのうちの論理プロセッサによって発行されたメモリ要求の読み取り−変更−書き込みタイプのバスのノンライトバックロックアクセスを無効化しない手順をさらに実行させる、請求項１７から２２のいずれか１項に記載のプログラム。
前記複数の論理プロセッサは、複数のプロセッサコアである、請求項１７から２３のいずれか１項に記載のプログラム。
請求項１７から２４のいずれか１項に記載のプログラムを格納するコンピュータ可読記録媒体。