JP6745021B2

JP6745021B2 - 競合検出を実行するための方法および装置

Info

Publication number: JP6745021B2
Application number: JP2017527682A
Authority: JP
Inventors: ジェイ．ヒューズ、クリストファー; オウルド−アハムド−ヴァル、エルモウスタファ; ヴァレンタイン、ロバート; ビー．ギルカル、ミリンド
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-12-23
Filing date: 2015-11-23
Publication date: 2020-08-26
Anticipated expiration: 2035-11-23
Also published as: KR20170097621A; EP3238043A1; JP2017539013A; CN107003849A; CN107003849B; US9891913B2; EP3238043A4; TWI599952B; WO2016105758A1; US20160179528A1; TW201643698A

Description

本発明は概してコンピュータプロセッサの分野に関する。より具体的には、本発明は、競合検出を実行するための方法および装置に関する。

［関連技術の説明］
命令セットまたは命令セットアーキテクチャ（ＩＳＡ）は、ネイティブデータタイプ、命令、レジスタアーキテクチャ、アドレス指定モード、メモリアーキテクチャ、割り込みおよび例外処理並びに外部入力および出力（Ｉ／Ｏ）を含む、プログラミングに関するコンピュータアーキテクチャの一部である。本明細書において、「命令」という用語は概してマクロ命令を指すことに留意されたい。マクロ命令とは、実行のためにプロセッサに供給される命令であり、これに対し、マイクロ命令またはマイクロｏｐとは、マクロ命令をデコーディングするプロセッサのデコーダの結果である。マイクロ命令またはマイクロｏｐは、プロセッサの実行ユニットに対し、マクロ命令に関連するロジックを実装するための演算を実行するよう命令するように構成可能である。

ＩＳＡは、命令セットの実装に使用される一連のプロセッサ設計技術であるマイクロアーキテクチャとは区別される。異なるマイクロアーキテクチャを持つプロセッサは、共通の命令セットを共有可能である。例えば、インテル（登録商標）ＰＥＮＴＩＵＭ（登録商標）４プロセッサ、インテル（登録商標）コア（商標）プロセッサおよびカリフォルニア州サニーベールのＡｄｖａｎｃｅｄＭｉｃｒｏＤｅｖｉｃｅｓ社のプロセッサは、ｘ８６命令セット（より新しいバージョンに追加されたいくつかの拡張機能を持つ）とほぼ同一バージョンを実装するが、内部設計が異なる。例えば、ＩＳＡの同一のレジスタアーキテクチャは、専用の物理レジスタ、レジスタリネーミングメカニズムを使用（例えば、レジスタエイリアステーブル（ＲＡＴ）、リオーダバッファ（ＲＯＢ）およびリタイアメントレジスタファイルの使用）して動的に割り当てられた１または複数の物理レジスタを含む周知の技術を使用して異なるマイクロアーキテクチャに異なる方法で実装されてよい。別途の記載がない限り、本明細書において、レジスタアーキテクチャ、レジスタファイルおよびレジスタという文言は、ソフトウェア／プログラマに可視であるもの、および命令がレジスタを指定する方法を指すために使用される。区別が必要な場合、「論理」、「アーキテクチャ」または「ソフトウェアビジブル」なる形容詞が、レジスタアーキテクチャにおけるレジスタ／ファイルを示すために使用される一方で、異なる形容詞が、特定のマイクロアーキテクチャにおけるレジスタ（例えば、物理レジスタ、リオーダバッファ、リタイアメントレジスタ、レジスタプール）を指すために使用される。

命令セットは、１または複数の命令フォーマットを含む。特定の命令フォーマットは、とりわけ、実行されるべき演算およびその演算が実行されるべきオペランドを指定するための様々なフィールド（ビット数、ビット位置）を定義する。いくつかの命令フォーマットは、命令テンプレート（またはサブフォーマット）の定義を通して、さらに細分化されている。例えば、特定の命令フォーマットの命令テンプレートは、命令フォーマットのフィールドの異なるサブセットを有するように定義されてよく（含まれるフィールドは通常、同一の順序であるが、少なくともいくつかは、含まれるフィールド数がより少ないので、異なるビット位置を有する）、および／または、異なって解釈される特定のフィールドを有するように定義されてよい。特定の命令は、特定の命令フォーマット（また、定義されている場合には、その命令フォーマットの命令テンプレートのうちの特定の１つにおいて）を使用して表現され、演算およびオペランドを指定する。命令ストリームとは、特定の命令シーケンスであり、シーケンス内の各命令は、命令フォーマット（また、定義されている場合には、その命令フォーマットの命令テンプレートのうちの特定の１つにおける）内の命令の出現である。

以下の詳細な説明に以下の添付図面を組み合わせると、本発明のより良い理解が得られる。

本発明の実施形態による汎用ベクトル向け命令フォーマットおよびその命令テンプレートを示すブロック図である。本発明の実施形態による汎用ベクトル向け命令フォーマットおよびその命令テンプレートを示すブロック図である。

本発明の実施形態による例示的な特定ベクトル向け命令フォーマットを示すブロック図である。本発明の実施形態による例示的な特定ベクトル向け命令フォーマットを示すブロック図である。本発明の実施形態による例示的な特定ベクトル向け命令フォーマットを示すブロック図である。本発明の実施形態による例示的な特定ベクトル向け命令フォーマットを示すブロック図である。

本発明の一実施形態によるレジスタアーキテクチャのブロック図である。

本発明の実施形態による、例示的なインオーダフェッチ、デコード、リタイアパイプラインおよび例示的なレジスタリネーミング、アウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。

本発明の実施形態による、プロセッサに含まれる、インオーダフェッチ、デコード、リタイアコアに係る例示的な実施形態および例示的なレジスタリネーミング、アウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。

オンダイ相互接続ネットワークへの接続を伴う単一のプロセッサコアのブロック図である。

本発明の実施形態による図５Ａ中のプロセッサコアの一部の拡大図を示す。

本発明の実施形態による統合メモリコントローラおよびグラフィックを持つ単一のコアプロセッサおよびマルチコアプロセッサのブロック図である。

本発明の一実施形態によるシステムのブロック図を示す。

本発明の実施形態による第２のシステムのブロック図を示す。

本発明の実施形態による第３のシステムのブロック図を示す。

本発明の実施形態によるシステムオンチップ（ＳｏＣ）のブロック図を示す。

本発明の実施形態による、ソース命令セット内のバイナリ命令をターゲット命令セット内のバイナリ命令に変換するためのソフトウェア命令コンバータの使用を対比するブロック図を示す。

本発明の実施形態が実装されてよい例示的なプロセッサアーキテクチャを示す。

本発明の一実施形態による、競合検出ロジックを示す。

本発明の一実施形態による方法を示す。

本発明の別の実施形態による方法を示す。

以下の詳細な説明には、後述の本発明の実施形態に係る完全な理解を共すべく、説明目的で多数の具体的な詳細が記載されている。しかしながら、本発明の実施形態は、これらの具体的な詳細の一部を省いても実施可能であることは当業者に自明なところである。他の例においては、本説明の実施形態に係る根本的な原理を曖昧にしないように、周知の構造およびデバイスはブロック図内に詳細に示されていない。
［例示的なプロセッサアーキテクチャおよびデータタイプ］

命令セットは１または複数の命令フォーマットを含む。特定の命令フォーマットは、とりわけ、実行されるべき演算（オペコード）およびその演算が実行されるべきオペランドを指定するための様々なフィールド（ビット数、ビット位置）を定義する。いくつかの命令フォーマットは、命令テンプレート（またはサブフォーマット）の定義を通して、さらに細分化されている。例えば、特定の命令フォーマットの命令テンプレートは、命令フォーマットのフィールドの異なるサブセットを有するように定義されてよく（含まれるフィールドは通常、同一の順序であるが、少なくともいくつかは、含まれるフィールド数がより少ないので、異なるビット位置を有する）、および／または、異なって解釈される特定のフィールドを有するように定義されてよい。故に、ＩＳＡの各命令は、特定の命令フォーマット（また、定義されている場合には、その命令フォーマットの命令テンプレートのうちの特定の１つにおいて）を使用して表現され、演算およびオペランドを指定するためのフィールドを含む。例えば、例示的なＡＤＤ命令は、特定のオペコード並びにそのオペコードを指定するためのオペコードフィールドおよびオペランド（ソース１／デスティネーションおよびソース２）を選択するためのオペランドフィールドを含む命令フォーマットを有する。命令ストリーム内にこのＡＤＤ命令が出現すると、特定のオペランドを選択するオペランドフィールド内に特定の内容を有することになる。アドバンストベクトル拡張（ＡＶＸ）（ＡＶＸ１およびＡＶＸ２）と称され、ベクトル拡張（ＶＥＸ）コーディングスキームを使用する一連のＳＩＭＤ拡張機能がリリースおよび／または公開されている（例えば、２０１１年１０月のインテル（登録商標）６４およびＩＡ−３２アーキテクチャソフトウェアデベロッパーズマニュアル並びに２０１１年６月のインテル（登録商標）アドバンストベクトル拡張プログラミングリファレンスを参照）。
［例示的な命令フォーマット］

本明細書に記載の命令の実施形態は異なる形式で具現化されてよい。また、例示的なシステム、アーキテクチャおよびパイプラインについて詳細に後述する。本命令の実施形態は、このようなシステム、アーキテクチャおよびパイプライン上で実行されてよいが、本発明の実施形態はそれらの具体的な内容に限定されるわけではない。
Ａ．［汎用ベクトル向け命令フォーマット］

ベクトル向け命令フォーマットとは、ベクトル命令に好適な命令フォーマットである（例えば、ベクトル演算に特有の特定のフィールドが存在する）。実施形態は、ベクトル演算およびスカラ演算の両方がベクトル向け命令フォーマットを通してサポートされるように記載されているものの、代替的な実施形態は、ベクトル向け命令フォーマットのベクトル演算のみを使用する。

図１Ａ〜１Ｂは、本発明の実施形態による、汎用ベクトル向け命令フォーマットおよびその命令テンプレートを示すブロック図である。図１Ａは、本発明の実施形態による汎用ベクトル向け命令フォーマットおよびそのクラスＡ命令テンプレートを示すブロック図であり、これに対し、図１Ｂは、本発明の実施形態による汎用ベクトル向け命令フォーマットおよびそのクラスＢ命令テンプレートを示すブロック図である。具体的には、汎用ベクトル向け命令フォーマット１００に対し、クラスＡ命令テンプレートおよびクラスＢ命令テンプレートが定義され、クラスＡ命令テンプレートおよびクラスＢ命令テンプレートは両方とも、メモリアクセスなし１０５命令テンプレートおよびメモリアクセス１２０命令テンプレートを含む。ベクトル向け命令フォーマットの文脈における汎用（ｇｅｎｅｒｉｃ）いう用語は、いずれの特定の命令セットにも関連付けられない命令フォーマットを指す。

本発明の実施形態は、ベクトル向け命令フォーマットが次のものをサポートするように記載されている。すなわち、３２ビット（４バイト）または６４ビット（８バイト）データ要素幅（またはサイズ）を備えた６４バイトベクトルオペランド長（またはサイズ）（つまり、６４バイトベクトルは、１６個のダブルワードサイズの要素または代替的に８個のクワッドワードサイズの要素のいずれかから成る）；１６ビット（２バイト）または８ビット（１バイト）データ要素幅（またはサイズ）を備えた６４バイトベクトルオペランド長（またはサイズ）；３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）または８ビット（１バイト）データ要素幅（またはサイズ）を備えた３２バイトベクトルオペランド長（またはサイズ）；および３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）または８ビット（１バイト）データ要素幅（またはサイズ）を備えた１６バイトベクトルオペランド長（またはサイズ）。一方で、代替的な実施形態は、より多い、より少ない、または異なるデータ要素幅（例えば、１２８ビット（１６バイト）データ要素幅）を備えたより多い、より少ない、および／または異なるベクトルオペランドサイズ（例えば、２５６バイトベクトルオペランド）をサポートしてよい。

図１Ａ中のクラスＡ命令テンプレートには次のものが含まれる。すなわち、１）メモリアクセスなし１０５命令テンプレート内に、メモリアクセスなし、完全ラウンド制御タイプ演算１１０命令テンプレートおよびメモリアクセスなし、データ変換タイプ演算１１５命令テンプレートが存在するように図示されている。２）メモリアクセス１２０命令テンプレート内に、メモリアクセス、一時的１２５命令テンプレートおよびメモリアクセス、非一時的１３０命令テンプレートが存在するように図示されている。図１Ｂ中のクラスＢ命令テンプレートには次のものが含まれる。すなわち、１）メモリアクセスなし１０５命令テンプレート内に、メモリアクセスなし、書き込みマスク制御、部分的なラウンド制御タイプ演算１１２命令テンプレートおよびメモリアクセスなし、書き込みマスク制御、ｖｓｉｚｅタイプ演算１１７命令テンプレートが存在するように図示されている。２）メモリアクセス１２０命令テンプレート内に、メモリアクセス、書き込みマスク制御１２７命令テンプレートが存在するように図示されている。

汎用ベクトル向け命令フォーマット１００は、以下に挙げられるフィールドを図１Ａおよび図１Ｂ中に図示される順序で含む。

フォーマットフィールド１４０。このフィールド内の特定の値（命令フォーマット識別子の値）は、ベクトル向け命令フォーマットを一意に識別し、故に命令ストリーム内のベクトル向け命令フォーマットの命令の出現を一意に識別する。よって、このフィールドは、汎用ベクトル向け命令フォーマットのみを有する命令セットには不要であるという意味において任意的である。

ベース演算フィールド１４２。その内容が、異なるベース演算を区別する。

レジスタインデックスフィールド１４４。その内容が、直接的にまたはアドレス生成を介して、ソースオペランドおよびデスティネーションオペランドの位置を指定する。それらはレジスタ内またはメモリ内である。これらは、ＰｘＱ（例えば、３２×５１２、１６×１２８、３２×１０２４、６４×１０２４）レジスタファイルからＮ個のレジスタを選択するための十分なビット数を含む。一実施形態において、Ｎは最大３つのソースレジスタおよび１つのデスティネーションレジスタであってよく、一方で、代替的な実施形態は、それより多いまたは少ないソースレジスタおよびデスティネーションレジスタをサポートしてよい（例えば、最大２つのソースをサポートしてよく、この場合、これらのソースのうちの１つがデスティネーションとしても動作する。最大３つのソースをサポートしてよく、この場合、これらのソースのうちの１つがデスティネーションとしても動作する。最大２つのソースおよび１つのデスティネーションをサポートしてよい）。

修飾子フィールド１４６。その内容が、汎用ベクトル命令フォーマットの、メモリアクセスを指定する命令の出現を、メモリアクセスを指定しないものから区別する。すなわち、メモリアクセスなし１０５命令テンプレートおよびメモリアクセス１２０命令テンプレート間を区別する。メモリアクセス操作はメモリ階層に対し、読み取りおよび／または書き込みを行う（場合によっては、レジスタ内の値を使用してソースアドレスおよび／またはデスティネーションアドレスを指定する）が、メモリアクセスなし操作はそれを行わない（例えば、ソースおよびデスティネーションはレジスタである）。一実施形態において、このフィールドはまたメモリアドレス計算を実行するための３つの異なる方法の中で選択をする一方で、代替的な実施形態は、メモリアドレス計算を実行するためのより多い、より少ないまたは異なる方法をサポートしてよい。

拡張演算フィールド１５０。その内容が、ベース演算に加え、様々な異なる演算のうちどれが実行されるべきかを区別する。このフィールドは、コンテキストに特有のものである。本発明の一実施形態において、このフィールドは、クラスフィールド１６８、アルファフィールド１５２およびベータフィールド１５４に分割される。拡張演算フィールド１５０は、２、３または４個の命令ではなく、単一の命令の中で共通の演算グループが実行されることを可能にする。

スケールフィールド１６０。その内容が、メモリアドレス生成のための（例えば、２^{ｓｃａｌｅ}＊インデックス＋ベースを使用するアドレス生成のための）インデックスフィールドの内容のスケーリングを可能にする。

変位フィールド１６２Ａ。その内容が、メモリアドレス生成（例えば、２^{ｓｃａｌｅ}＊インデックス＋ベース＋変位を使用するアドレス生成について）の一部として使用される。

変位係数フィールド１６２Ｂ（変位係数フィールド１６２Ｂ上に直接、変位フィールド１６２Ａが並置されていることで、一方または他方が使用されることを示すことに留意されたい）。その内容が、アドレス生成の一部として使用される。その内容は、メモリアクセス（Ｎ）のサイズ分スケーリングされるべき変位係数を指定する。ここでＮは、メモリアクセス（例えば、２^{ｓｃａｌｅ}＊インデックス＋ベース＋スケールされた変位を使用するアドレス生成について）におけるバイト数である。冗長下位ビットは無視され、従って、変位係数フィールドの内容は、有効アドレスの計算に使用される最終的な変位を生成すべく、メモリオペランドの合計サイズ（Ｎ）によって乗算される。Ｎの値は、フルオペコードフィールド１７４（本明細書で後述の）およびデータ操作フィールド１５４Ｃに基づいて、ランタイムでプロセッサハードウェアによって判断される。変位フィールド１６２Ａおよび変位係数フィールド１６２Ｂは、それらがメモリアクセスなし１０５命令テンプレートには使用されない、および／または、異なる実施形態がそれら２つのうちの一方のみを実装してよい、またはいずれも実装しなくてよいという意味において任意的である。

データ要素幅フィールド１６４。その内容が、複数のデータ要素幅のうちどれが使用されるべきかを区別する（いくつかの実施形態においては、すべての命令に対し、他の実施形態においては、命令の一部のみに対し）。１つのデータ要素幅のみがサポートされる、および／または、オペコードのいくつかの態様を使用して複数のデータ要素幅がサポートされる場合、このフィールドは不要であるという意味において、このフィールドは任意的なものである。

書き込みマスクフィールド１７０。その内容が、データ要素位置単位で、デスティネーションベクトルオペランド内のそのデータ要素位置が、ベース演算および拡張演算の結果を反映するかを制御する。クラスＡ命令テンプレートは、マージ‐書き込みマスクをサポートする一方で、クラスＢ命令テンプレートは、マージ‐書き込みマスクおよびゼロイング‐書き込みマスクの両方をサポートする。マージの場合、ベクトルマスクは、任意の演算の実行中、デスティネーション内のあらゆる要素セットが更新されないように保護されることを可能にする（ベース演算および拡張演算によって指定される）。他の一実施形態においては、対応するマスクビットが０を有する場合、デスティネーションの各要素の古い値が保持される。対照的に、ゼロイングの場合、ベクトルマスクは、任意の演算の実行中、デスティネーション内のあらゆる要素セットがゼロにされることを可能にする（ベース演算および拡張演算によって指定される）。一実施形態においては、対応するマスクビットが０値を有する場合、デスティネーションの要素は０に設定される。この機能のうちのサブセットで、実行される演算のベクトル長（すなわち、要素のスパンが第１のものから最後のものへと変更される）を制御できる。しかしながら、変更される要素は連続的であることは必要ではない。故に、書き込みマスクフィールド１７０は、ロード、ストア、算術、論理等を含む部分的なベクトル演算を可能にする。本発明の実施形態は、書き込みマスクフィールド１７０の内容は、複数の書き込みマスクレジスタのうち使用されるべき書き込みマスクを含むものを選択（故に、書き込みマスクフィールド１７０の内容は、実行されるべきマスキングを間接的に識別する）するように記載されているものの、代替的な実施形態は、代替的または追加的に、マスク書き込みフィールド１７０の内容が、実行されるべきマスキングを直接指定することを可能にする。

即値フィールド１７２。その内容が、即値の指定を可能にする。このフィールドは即値をサポートしない汎用ベクトル向けフォーマットの実装には存在しない、および、このフィールドは即値を使用しない命令内には存在しないという意味において、このフィールドは、任意的なものである。

クラスフィールド１６８。その内容が、異なるクラスの命令間を区別する。図１Ａおよび図１Ｂを参照すると、このフィールドの内容で、クラスＡ命令およびクラスＢ命令間を選択する。図１Ａおよび図１Ｂ中、特定値がフィールド内に存在することを示すために、隅が丸められた四角が使用されている（例えば、図１Ａおよび図１Ｂ中、クラスフィールド１６８に対し、それぞれクラスＡ１６８ＡおよびクラスＢ１６８Ｂ）。
［クラスＡの命令テンプレート］

クラスＡのメモリアクセスなし１０５命令テンプレートの場合、アルファフィールド１５２はＲＳフィールド１５２Ａとして解釈され、ＲＳフィールド１５２Ａの内容が、異なる拡張演算タイプのうちどれが実行されるべきか（例えば、ラウンド１５２Ａ．１およびデータ変換１５２Ａ．２がそれぞれ、メモリアクセスなし、ラウンドタイプ演算１１０命令テンプレートおよびメモリアクセスなし、データ変換タイプ演算１１５命令テンプレートに対し指定される）を区別し、一方で、ベータフィールド１５４は指定されるタイプの演算のうちどれが実行されるべきかを区別する。メモリアクセスなし１０５命令テンプレートには、スケールフィールド１６０、変位フィールド１６２Ａおよび変位スケールフィールド１６２Ｂは存在しない。
［メモリアクセスなし命令テンプレート‐完全ラウンド制御タイプ演算］

メモリアクセスなしの完全ラウンド制御タイプ演算１１０命令テンプレートでは、ベータフィールド１５４はラウンド制御フィールド１５４Ａとして解釈され、ラウンド制御フィールド１５４Ａの内容は静的ラウンドを提供する。本発明に記載の実施形態においては、ラウンド制御フィールド１５４Ａは、すべての浮動小数点の例外を抑制（ＳＡＥ）フィールド１５６およびラウンド演算制御フィールド１５８を含み、一方で、代替的な実施形態は、これら両方の概念をサポートしてよく、且つこれら両方の概念を同一フィールドにエンコードしてよく、または代替的な実施形態はこれらの概念／フィールドのうちの一方または他方のみを有してよい（例えば、ラウンド演算制御フィールド１５８のみを有してよい）。

ＳＡＥフィールド１５６。その内容が、例外イベント報告を無効にするか否かを区別する。ＳＡＥフィールド１５６の内容が、抑制が有効になっていることを示す場合、特定の命令は、あらゆる種類の浮動小数点例外フラグを報告せず、浮動小数点例外ハンドラを発生させない。

ラウンド演算制御フィールド１５８。その内容が、ラウンド演算グループ（例えば、切り上げ、切り捨て、ゼロへの丸めおよび最近値への丸め）のうちどれが実行されるかを区別する。故に、ラウンド演算制御フィールド１５８は、命令単位で、ラウンドモードの変更を可能にする。本発明の一実施形態において、プロセッサがラウンドモードを指定するための制御レジスタを含む場合、ラウンド演算制御フィールド１５０の内容で、そのレジスタ値を上書きする。

［メモリアクセスなし命令テンプレート‐データ変換タイプ演算］

メモリアクセスなしのデータ変換タイプ演算１１５命令テンプレートでは、ベータフィールド１５４はデータ変換フィールド１５４Ｂとして解釈され、データ変換フィールド１５４Ｂの内容が、複数のデータ変換（例えば、データ変換なし、スウィズル、ブロードキャスト）のうちどれが実行されるべきかを区別する。

クラスＡのメモリアクセス１２０命令テンプレートの場合、アルファフィールド１５２はエビクションヒントフィールド１５２Ｂとして解釈され、エビクションヒントフィールド１５２Ｂの内容が、エビクションヒントのうちどれが使用されるべきかを区別し（図１Ａ中、一時的１５２Ｂ．１および非一時的１５２Ｂ．２がそれぞれ、メモリアクセスの一時的１２５命令テンプレートおよびメモリアクセスの非一時的１３０命令テンプレートに対し指定される）、一方で、ベータフィールド１５４はデータ操作フィールド１５４Ｃとして解釈され、データ操作フィールド１５４Ｃの内容が、複数のデータ操作演算（プリミティブとしても知られる）のうちどれが実行されるべきかを区別する（例えば、操作なし、ブロードキャスト、ソースのアップコンバージョンおよびデスティネーションのダウンコンバージョン）。メモリアクセス１２０命令テンプレートは、スケールフィールド１６０を含み、随意で変位フィールド１６２Ａまたは変位スケールフィールド１６２Ｂを含む。

ベクトルメモリ命令は、変換サポートを用いて、メモリからのベクトルロードおよびメモリへのベクトルストアを実行する。通常のベクトル命令の場合と同様、ベクトルメモリ命令は、データ要素全体でデータをメモリから／メモリへ転送し、実際に転送される要素は、書き込みマスクとして選択されるベクトルマスクの内容によって記述されている。
［メモリアクセス命令テンプレート‐一時的］

一時的データとは、キャッシュの利益を十分得るべく、間もなく再使用される可能性の高いデータのことである。しかしながら、これはヒントであり、異なるプロセッサは、ヒントを完全に無視することを含め、それを異なる方法で実装してよい。
［メモリアクセス命令テンプレート‐非一時的］

非一時的データとは、第１のレベルキャッシュにおけるキャッシュから利益を十分得るために、間もなく再利用される可能性の低いデータのことであり、エビクションのための優先度が付与されるべきである。しかしながら、これはヒントであり、異なるプロセッサは、ヒントを完全に無視することを含め、それを異なる方法で実装してよい。
［クラスＢの命令テンプレート］

クラスＢの命令テンプレートの場合、アルファフィールド１５２は書き込みマスク制御（Ｚ）フィールド１５２Ｃとして解釈され、書き込みマスク制御（Ｚ）フィールド１５２Ｃの内容が、書き込みマスクフィールド１７０によって制御される書き込みマスキングが、マージであるべきか、またはゼロイングであるべきかを区別する。

クラスＢのメモリアクセスなし１０５命令テンプレートの場合、ベータフィールド１５４の一部はＲＬフィールド１５７Ａとして解釈され、ＲＬフィールド１５７Ａの内容が、異なる拡張演算タイプのうちどれが実行されるべきかを区別し（例えば、ラウンド１５７Ａ．１およびベクトル長（ＶＳＩＺＥ）１５７Ａ．２がそれぞれ、メモリアクセスなし、書き込みマスク制御、部分的なラウンド制御タイプ演算１１２命令テンプレートおよびメモリアクセスなし、書き込みマスク制御、ＶＳＩＺＥタイプ演算１１７命令テンプレートに対し指定される）、一方で、ベータフィールド１５４の残部が、指定されるタイプの演算のうちどれが実行されるべきかを区別する。メモリアクセスなし１０５命令テンプレートには、スケールフィールド１６０、変位フィールド１６２Ａおよび変位スケールフィールド１６２Ｂが存在しない。

メモリアクセスなし、書き込みマスク制御、部分的ラウンド制御タイプ演算１１０命令テンプレートでは、ベータフィールド１５４の残部はラウンド演算フィールド１５９Ａとして解釈され、例外イベント報告が無効にされる（特定の命令は、あらゆる種類の浮動小数点例外フラグを報告せず、浮動小数点例外ハンドラを発生させない）。

ラウンド演算制御フィールド１５９Ａ。まさにラウンド演算制御フィールド１５８と同様、その内容が、ラウンド演算グループ（例えば、切り上げ、切り捨て、ゼロへの丸めおよび最近値への丸め）のうちどれが実行されるかを区別する。故に、ラウンド演算制御フィールド１５９Ａは、命令単位で、ラウンドモードの変更を可能にする。プロセッサがラウンドモードを指定するための制御レジスタを含む場合の本発明の一実施形態において、ラウンド演算制御フィールド１５０の内容で、そのレジスタ値を上書きする。

メモリアクセスなし、書き込みマスク制御、ＶＳＩＺＥタイプ演算１１７命令テンプレートでは、ベータフィールド１５４の残部はベクトル長フィールド１５９Ｂとして解釈され、ベクトル長フィールド１５９Ｂの内容が、複数のデータベクトル長のうちのどれ（例えば、１２８、２５６または５１２バイト）に実行されるべきかを区別する。

クラスＢのメモリアクセス１２０命令テンプレートの場合、ベータフィールド１５４の一部はブロードキャストフィールド１５７Ｂとして解釈され、ブロードキャストフィールド１５７Ｂの内容が、ブロードキャストタイプのデータ操作演算が実行されるか否かを区別し、一方で、ベータフィールド１５４の残部はベクトル長フィールド１５９Ｂとして解釈される。メモリアクセス１２０命令テンプレートは、スケールフィールド１６０を含み、随意で変位フィールド１６２Ａまたは変位スケールフィールド１６２Ｂを含む。

汎用ベクトル向け命令フォーマット１００に関しては、フルオペコードフィールド１７４は、フォーマットフィールド１４０、ベース演算フィールド１４２およびデータ要素幅フィールド１６４を含むように表示されている。一実施形態は、フルオペコードフィールド１７４がこれらのフィールドのうちすべてを含むように示されているものの、これらのフィールドのすべてをサポートしない実施形態においては、フルオペコードフィールド１７４は、これらのフィールドのすべてより少ない数を含む。フルオペコードフィールド１７４は、オペレーションコード（オペコード）を提供する。

拡張演算フィールド１５０、データ要素幅フィールド１６４および書き込みマスクフィールド１７０は、汎用ベクトル向け命令フォーマット内でこれらの機能が、命令単位で指定されることを可能にする。

書き込みマスクフィールドおよびデータ要素幅フィールドの組み合わせで、異なるデータ要素幅に基づいてマスクが適用されることを可能にするタイプの命令を作成する。

クラスＡおよびクラスＢ内に存在する様々な命令テンプレートは、異なる状況において有益である。本発明のいくつかの実施形態において、あるプロセッサ内の異なる複数のプロセッサまたは異なるコアが、クラスＡのみ、クラスＢのみ、またはこれら両方のクラスをサポートしてよい。例えば、汎用コンピューティング向けの高性能な汎用アウトオブオーダコアはクラスＢのみをサポートしてよく、主にグラフィックおよび／または科学技術（スループット）コンピューティング向けのコアはクラスＡのみをサポートしてよく、これら両方向けのコアは両方をサポートしてよい（もちろん、両方のクラスのテンプレートおよび命令がいくつか混在したものを有するが、両方のクラスのすべてのテンプレートおよび命令を有さないコアは、本発明の範囲内に属する）。また、単一のプロセッサが複数のコアを含んでよく、それらのすべてが同一クラスをサポートし、またはそれらのうち異なるコアが異なるクラスをサポートする。例えば、別個のグラフィックコアおよび汎用コアを備えるプロセッサでは、主にグラフィックおよび／または科学技術コンピューティング向けのグラフィックコアのうちの１つはクラスＡのみをサポートしてよく、一方で、汎用コアのうちの１または複数は、クラスＢのみをサポートする、汎用コンピューティング向けのアウトオブオーダ実行およびレジスタリネーミングを備えた高性能な汎用コアであってよい。別個のグラフィックコアを有さない別のプロセッサは、クラスＡおよびクラスＢの両方をサポートする１または複数の汎用インオーダまたはアウトオブオーダコアを含んでよい。もちろん、本発明の異なる実施形態において、一方のクラスに属する諸機能が、他方のクラスに実装されてもよい。高水準言語で記述されるプログラムは、様々な異なる実行可能な形式になされるであろう（例えば、ジャストインタイムコンパイルまたは静的コンパイル）。それらの形式としては、１）実行のためにターゲットプロセッサによってサポートされるクラスの命令のみを有する形式、または２）すべてのクラスの命令の異なる組み合わせを使用して記述された代替的なルーチンを有し且つ現在コードを実行中のプロセッサによってサポートされる命令に基づき、実行するルーチンを選択する制御フローコードを有する形式が含まれる。
Ｂ．［例示的な特定ベクトル向け命令フォーマット］

図２は、本発明の実施形態による、例示的な特定ベクトル向け命令フォーマットを示すブロック図である。図２は特定ベクトル向け命令フォーマット２００を示す。特定ベクトル向け命令フォーマット２００は、場所、サイズ、解釈およびフィールド順序に加え、これらのフィールドの一部の値を指定するという意味において特定的である。特定ベクトル向け命令フォーマット２００は、ｘ８６命令セットを拡張するために使用されてよく、よって、当該フィールドのうちのいくつかは、既存のｘ８６命令セットおよびその拡張機能（例えば、ＡＶＸ）で使用されるフィールドと類似または同一である。このフォーマットは、いくつかの拡張機能を備えた既存のｘ８６命令セットのプレフィクスエンコーディングフィールド、リアルオペコードバイトフィールド、ＭＯＤＲ／Ｍフィールド、ＳＩＢフィールド、変位フィールドおよび即値フィールドと、整合性が維持されている。図１のフィールドが図２のどのフィールドにマッピングされるかが図示されている。

本発明の実施形態は、例示目的で、汎用ベクトル向け命令フォーマット１００に照らし特定ベクトル向け命令フォーマット２００に関し説明されているものの、本発明は特許請求される場合を除き、特定ベクトル向け命令フォーマット２００には限定されないことを理解されたい。例えば、特定ベクトル向け命令フォーマット２００は特定のサイズのフィールドを有するように図示されているものの、汎用ベクトル向け命令フォーマット１００は、様々なフィールドについて様々な考え得るサイズを想定している。特定の例示であるが、データ要素幅フィールド１６４は、特定ベクトル向け命令フォーマット２００では１ビットフィールドとして図示されているものの、本発明はそのようには限定されない（すなわち、汎用ベクトル向け命令フォーマット１００は、データ要素幅フィールド１６４の他のサイズを想定している）。

特定ベクトル向け命令フォーマット２００は、以下に挙げられるフィールドを図２Ａに図示される順序で含む。

ＥＶＥＸプレフィクス（バイト０‐３）２０２。これは４バイト形式でエンコードされる。

フォーマットフィールド１４０（ＥＶＥＸバイト０、ビット［７：０］）。第１のバイト（ＥＶＥＸバイト０）はフォーマットフィールド１４０であり、フォーマットフィールド１４０は０ｘ６２を含む（本発明の一実施形態において、ベクトル向け命令フォーマットを区別するために使用される一意の値）。

第２から第４のバイト（ＥＶＥＸバイト１‐３）は、特定の機能を提供する複数のビットフィールドを含む。

ＲＥＸフィールド２０５（ＥＶＥＸバイト１、ビット［７‐５］）。これはＥＶＥＸ．Ｒビットフィールド（ＥＶＥＸバイト１、ビット［７］‐Ｒ）、ＥＶＥＸ．Ｘビットフィールド（ＥＶＥＸバイト１、ビット［６］‐Ｘ）および１５７ＢＥＸバイト１、ビット［５］‐Ｂ）から成る。ＥＶＥＸ．Ｒビットフィールド、ＥＶＥＸ．ＸビットフィールドおよびＥＶＥＸ．Ｂビットフィールドは、対応するＶＥＸビットフィールドと同一の機能を提供し、それらは１の補数形式を使用してエンコードされ、すなわちＺＭＭ０は１１１１Ｂとしてエンコードされ、ＺＭＭ１５は００００Ｂとしてエンコードされる。命令の他のフィールドは、レジスタインデックスの下位３ビットを当該技術分野で既知の方法（ｒｒｒ、ｘｘｘおよびｂｂｂ）でエンコードし、その結果、Ｒｒｒｒ、ＸｘｘｘおよびＢｂｂｂが、ＥＶＥＸ．Ｒ、ＥＶＥＸ．ＸおよびＥＶＥＸ．Ｂを追加することによって形成されてよい。

ＲＥＸ'フィールド１１０。これはＲＥＸ'フィールド１１０の第１の部分であり、拡張３２レジスタセットの上位１６または下位１６のいずれかをエンコードするために使用されるＥＶＥＸ．Ｒ'ビットフィールド（ＥＶＥＸバイト１、ビット［４］‐Ｒ'）である。本発明の一実施形態において、以下に示される他のものと共にこのビットは、ビット反転フォーマットで格納され、ＢＯＵＮＤ命令から区別（周知のｘ８６の３２ビットモードで）される。ＢＯＵＮＤ命令のリアルオペコードバイトは６２であるが、ＭＯＤＲ／Ｍフィールド（後述）内では、ＭＯＤフィールドの値１１を受け付けない。本発明の代替的な実施形態は、このビットおよび後述される他のビットを反転フォーマットで格納しない。値１が使用され、下位１６個のレジスタをエンコードする。換言すると、ＥＶＥＸ．Ｒ'、ＥＶＥＸ．Ｒおよび他のフィールドの他のＲＲＲを組み合わせて、Ｒ'Ｒｒｒｒが形成される。

オペコードマップフィールド２１５（ＥＶＥＸバイト１、ビット［３：０］‐ｍｍｍｍ）。その内容が暗示される先頭オペコードバイト（０Ｆ、０Ｆ３８、または０Ｆ３）をエンコードする。

データ要素幅フィールド１６４（ＥＶＥＸバイト２、ビット［７］‐Ｗ）。これはＥＶＥＸ．Ｗという表記で表される。ＥＶＥＸ．Ｗが使用され、データタイプの粒度（サイズ）を定義する（３２ビットデータ要素または６４ビットデータ要素のいずれか）。

ＥＶＥＸ．ｖｖｖｖ２２０（ＥＶＥＸバイト２、ビット［６：３］‐ｖｖｖｖ）。ＥＶＥＸ．ｖｖｖｖの役割は以下を含んでよい。１）ＥＶＥＸ．ｖｖｖｖは第１のソースレジスタオペランドを指定された反転（１の補数）形式にエンコードし、ＥＶＥＸ．ｖｖｖｖは２またはそれより多いソースオペランドを持つ命令に対し有効である。２）ＥＶＥＸ．ｖｖｖｖはデスティネーションレジスタオペランドを、特定のベクトルシフト用の指定された１の補数形式にエンコードする。または３）ＥＶＥＸ．ｖｖｖｖはいずれのオペランドもエンコードせず、当該フィールドは予約され、１１１１ｂを含むべきである。故に、ＥＶＥＸ．ｖｖｖｖフィールド２２０は、反転（１の補数）形式で格納された第１のソースレジスタ指定子の４つの下位ビットをエンコードする。命令に応じて、追加の異なるＥＶＥＸビットフィールドが使用され、指定子サイズを３２個のレジスタに拡張する。

ＥＶＥＸ．Ｕ１６８クラスフィールド（ＥＶＥＸバイト２、ビット［２］‐Ｕ）。ＥＶＥＸ．Ｕ＝０の場合、それはクラスＡまたはＥＶＥＸ．Ｕ０を示す。ＥＶＥＸ．Ｕ＝１の場合、それはクラスＢまたはＥＶＥＸ．Ｕ１を示す。

プレフィクスエンコーディングフィールド２２５（ＥＶＥＸバイト２、ビット［１：０］‐ｐｐ）。これは、ベース演算フィールドの追加のビットを提供する。ＥＶＥＸプレフィクスフォーマットにおけるレガシＳＳＥ命令のサポートの提供に加え、これはまた、ＳＩＭＤプレフィクスのコンパクト化の利点を有する（ＳＩＭＤプレフィクスを表わすために１バイトを要求する代わりに、ＥＶＥＸプレフィクスは２ビットのみを要求する）。一実施形態において、レガシフォーマットおよびＥＶＥＸプレフィクスフォーマットの両方において、ＳＩＭＤプレフィクス（６６Ｈ、Ｆ２Ｈ、Ｆ３Ｈ）を使用するレガシＳＳＥ命令をサポートすべく、これらのレガシＳＩＭＤプレフィクスは、ＳＩＭＤプレフィクスエンコーディングフィールドにエンコードされる。これらのレガシＳＩＭＤプレフィクスは、デコーダのＰＬＡに提供される前に、ランタイムにレガシＳＩＭＤプレフィクスに拡張される（よって、ＰＬＡは、変更なしで、これらのレガシ命令のレガシフォーマットおよびＥＶＥＸフォーマットの両方を実行可能である）。より新しい命令はＥＶＥＸプレフィクスエンコーディングフィールドの内容を直接オペコード拡張として使用できるものの、特定の実施形態は、整合性のために同様の方法で拡張させるが、これらのレガシＳＩＭＤプレフィクスによって指定される異なる手段を可能にする。代替的な実施形態は、２ビットＳＩＭＤプレフィクスエンコードをサポートするように、つまり拡張を要求しないように、ＰＬＡを再設計してよい。

アルファフィールド１５２（ＥＶＥＸバイト３、ビット［７］‐ＥＨ。これはＥＶＥＸ．ＥＨ、ＥＶＥＸ．ｒｓ、ＥＶＥＸ．ＲＬ、ＥＶＥＸ．書き込みマスク制御およびＥＶＥＸ．Ｎとしても知られる。またαを用いて図示）。上記の通り、このフィールドはコンテキストに特有のものである。

ベータフィールド１５４（ＥＶＥＸバイト３、ビット［６：４］‐ＳＳＳ。これはＥＶＥＸ．ｓ_２−０、ＥＶＥＸ．ｒ_２−０、ＥＶＥＸ．ｒｒ１、ＥＶＥＸ．ＬＬ０、ＥＶＥＸ．ＬＬＢとしても知られる。またβββを用いて図示）。上記の通り、このフィールドはコンテキストに特有のものである。

ＲＥＸ'フィールド１１０。これはＲＥＸ'フィールドの残部であり、ＲＥＸ'フィールド１１０は、拡張された３２個のレジスタセットの上位１６個または下位１６個のいずれかをエンコードするために使用され得るＥＶＥＸ．Ｖ'ビットフィールド（ＥＶＥＸバイト３、ビット［３］‐Ｖ'）である。このビットは、ビット反転フォーマットで格納される。値１が使用され、下位１６個のレジスタをエンコードする。換言すると、ＥＶＥＸ．Ｖ'、ＥＶＥＸ．ｖｖｖｖを組み合わせることにより、Ｖ'ＶＶＶＶが形成される。

書き込みマスクフィールド１７０（ＥＶＥＸバイト３、ビット［２：０］‐ｋｋｋ）。上記の通り、その内容が書き込みマスクレジスタ内のレジスタのインデックスを指定する。本発明の一実施形態において、特定値ＥＶＥＸ．ｋｋｋ＝０００は、特定の命令について書き込みマスクが使用されないことを暗示する特別な動作を有する（これは、すべて１にハードワイヤードされた書き込みマスクの使用またはマスキングハードウェアを迂回するハードウェアの使用を含む、様々な方法で実装されてよい）。

リアルオペコードフィールド２３０（バイト４）は、オペコードバイトとしても知られる。このフィールドで、オペコードの一部が指定される。

ＭＯＤＲ／Ｍフィールド２４０（バイト５）は、ＭＯＤフィールド２４２、Ｒｅｇフィールド２４４およびＲ／Ｍフィールド２４６を含む。上記の通り、ＭＯＤフィールド２４２の内容が、メモリアクセス操作およびメモリアクセスなし操作間を区別する。Ｒｅｇフィールド２４４の役割は、デスティネーションレジスタオペランド若しくはソースレジスタオペランドのいずれかをエンコードすること、または、オペコード拡張として扱われ、命令オペランドをエンコードするために使用されないこと、という２つの状況に要約できる。Ｒ／Ｍフィールド２４６の役割としては、メモリアドレスを参照する命令オペランドをエンコードすること、またはデスティネーションレジスタオペランド若しくはソースレジスタオペランドのいずれかをエンコードすることが含まれてよい。

スケール、インデックス、ベース（ＳＩＢ）バイト（バイト６）。上記の通り、スケールフィールド１５０の内容は、メモリアドレス生成に使用される。ＳＩＢ．ｘｘｘ２５４およびＳＩＢ．ｂｂｂ２５６。これらのフィールドの内容は、レジスタインデックスＸｘｘｘおよびＢｂｂｂに関して記載済みである。

変位フィールド１６２Ａ（バイト７‐１０）。ＭＯＤフィールド２４２に１０が含まれる場合、バイト７‐１０は変位フィールド１６２Ａであり、変位フィールド１６２Ａはレガシ３２‐ビット変位（ｄｉｓｐ３２）と同様に動作し、バイト粒度で動作する。

変位係数フィールド１６２Ｂ（バイト７）。ＭＯＤフィールド２４２に０１が含まれる場合、バイト７は変位係数フィールド１６２Ｂである。このフィールドの場所は、レガシｘ８６命令セットの８‐ビット変位（ｄｉｓｐ８）の場所と同一であり、レガシｘ８６命令セットの８‐ビット変位（ｄｉｓｐ８）はバイト粒度で動作する。ｄｉｓｐ８は符号拡張されるので、ｄｉｓｐ８は−１２８〜１２７バイトオフセット間のアドレス指定のみ可能である。６４バイトのキャッシュラインに関しては、ｄｉｓｐ８は４つの実際に有用な値、−１２８、−６４、０および６４のみに設定可能な８ビットを使用する。通常、さらに広い範囲が必要であるので、ｄｉｓｐ３２が使用されるが、ｄｉｓｐ３２は４バイトを必要とする。ｄｉｓｐ８およびｄｉｓｐ３２と対照的に、変位係数フィールド１６２Ｂはｄｉｓｐ８と再解釈される。変位係数フィールド１６２Ｂを使用する場合、実際の変位は、メモリオペランドアクセス（Ｎ）のサイズで乗算された変位係数フィールドの内容によって決定される。このタイプの変位は、ｄｉｓｐ８×Ｎと称される。これは、平均的な命令の長さ（変位に使用されるのは１バイトであるが、はるかにより広い範囲を備える）を低減する。このような圧縮された変位は、有効な変位は、メモリアクセスの粒度の倍数であり、従って、アドレスオフセットの冗長下位ビットはエンコードの必要がないという前提に基づいている。換言すると、変位係数フィールド１６２Ｂは、レガシｘ８６命令セットの８‐ビット変位に置き換わる。故に、変位係数フィールド１６２Ｂは、ｄｉｓｐ８がｄｉｓｐ８×Ｎにオーバーロードされる点のみを除いては、ｘ８６命令セットの８‐ビット変位と同じ方法でエンコードされる（よって、ＭｏｄＲＭ／ＳＩＢエンコードルールの変更はない）。換言すると、ハードウェアによる変位値の解釈のみを除き、エンコーディングルールまたはエンコーディング長に変更はない（バイト単位のアドレスオフセットを取得するために、メモリオペランドのサイズだけ変位をスケーリングする必要がある）。

即値フィールド１７２は、上記の通り動作する。
［フルオペコードフィールド］

図２Ｂは、本発明の一実施形態による、特定ベクトル向け命令フォーマット２００のフルオペコードフィールド１７４を構成するフィールドを示すブロック図である。具体的には、フルオペコードフィールド１７４は、フォーマットフィールド１４０、ベース演算フィールド１４２およびデータ要素幅（Ｗ）フィールド１６４を含む。ベース演算フィールド１４２は、プレフィクスエンコーディングフィールド２２５、オペコードマップフィールド２１５およびリアルオペコードフィールド２３０を含む。
［レジスタインデックスフィールド］

図２Ｃは、本発明の一実施形態による、特定ベクトル向け命令フォーマット２００のレジスタインデックスフィールド１４４を構成するフィールドを示すブロック図である。具体的には、レジスタインデックスフィールド１４４は、ＲＥＸフィールド２０５、ＲＥＸ'フィールド２１０、ＭＯＤＲ／Ｍ．ｒｅｇフィールド２４４、ＭＯＤＲ／Ｍ．ｒ／ｍフィールド２４６、ＶＶＶＶフィールド２２０、ｘｘｘフィールド２５４およびｂｂｂフィールド２５６を含む。
［拡張演算フィールド］

図２Ｄは、本発明の一実施形態による、特定ベクトル向け命令フォーマット２００の拡張演算フィールド１５０を構成するフィールドを示すブロック図である。クラス（Ｕ）フィールド１６８が０を含む場合、それはＥＶＥＸ．Ｕ０（クラスＡ１６８Ａ）を表わす。クラス（Ｕ）フィールド１６８が１を含む場合、それはＥＶＥＸ．Ｕ１（クラスＢ１６８Ｂ）を表わす。Ｕ＝０で且つＭＯＤフィールド２４２が１１を含む場合（メモリアクセスなし操作を意味）、アルファフィールド１５２（ＥＶＥＸバイト３、ビット［７］‐ＥＨ）は、ｒｓフィールド１５２Ａとして解釈される。ｒｓフィールド１５２Ａが１を含む場合（ラウンド１５２Ａ．１）、ベータフィールド１５４（ＥＶＥＸバイト３、ビット［６：４］‐ＳＳＳ）はラウンド制御フィールド１５４Ａとして解釈される。ラウンド制御フィールド１５４Ａは、１ビットのＳＡＥフィールド１５６および２ビットのラウンド演算フィールド１５８を含む。ｒｓフィールド１５２Ａが０を含む場合（データ変換１５２Ａ．２）、ベータフィールド１５４（ＥＶＥＸバイト３、ビット［６：４］‐ＳＳＳ）は３ビットのデータ変換フィールド１５４Ｂとして解釈される。Ｕ＝０で且つＭＯＤフィールド２４２が００、０１または１０を含む場合（メモリアクセス操作を意味）、アルファフィールド１５２（ＥＶＥＸバイト３、ビット［７］‐ＥＨ）は、エビクションヒント（ＥＨ）フィールド１５２Ｂとして解釈され、ベータフィールド１５４（ＥＶＥＸバイト３、ビット［６：４］‐ＳＳＳ）は３ビットのデータ操作フィールド１５４Ｃとして解釈される。

Ｕ＝１の場合、アルファフィールド１５２（ＥＶＥＸバイト３、ビット［７］‐ＥＨ）は、書き込みマスク制御（Ｚ）フィールド１５２Ｃとして解釈される。Ｕ＝１で且つＭＯＤフィールド２４２が１１を含む場合（メモリアクセスなし操作を意味）、ベータフィールド１５４の一部（ＥＶＥＸバイト３、ビット［４］‐Ｓ_０）は、ＲＬフィールド１５７Ａとして解釈される。ＲＬフィールド１５７Ａが１を含む場合（ラウンド１５７Ａ．１）、ベータフィールド１５４の残部（ＥＶＥＸバイト３、ビット［６‐５］‐Ｓ_２−１）はラウンド演算フィールド１５９Ａとして解釈され、一方で、ＲＬフィールド１５７Ａが０を含む場合（ＶＳＩＺＥ１５７．Ａ２）、ベータフィールド１５４の残部（ＥＶＥＸバイト３、ビット［６‐５］‐Ｓ_２−１）は、ベクトル長フィールド１５９Ｂ（ＥＶＥＸバイト３、ビット［６‐５］‐Ｌ_１−０）として解釈される。Ｕ＝１で且つＭＯＤフィールド２４２が００、０１または１０を含む場合（メモリアクセス操作を意味）、ベータフィールド１５４（ＥＶＥＸバイト３、ビット［６：４］‐ＳＳＳ）は、ベクトル長フィールド１５９Ｂ（ＥＶＥＸバイト３、ビット［６‐５］‐Ｌ_１‐０）およびブロードキャストフィールド１５７Ｂ（ＥＶＥＸバイト３、ビット［４］‐Ｂ）として解釈される。
Ｃ．［例示的なレジスタアーキテクチャ］

図３は、本発明の一実施形態による、レジスタアーキテクチャ３００のブロック図である。図示される実施形態には、５１２ビット幅の３２個のベクトルレジスタ３１０がある。これらのレジスタは、ｚｍｍ０からｚｍｍ３１と参照符号が付されている。下位１６個のｚｍｍレジスタの下位２５６ビットは、レジスタｙｍｍ０〜ｙｍｍ１６に重なっている。下位１６個のｚｍｍレジスタの下位１２８ビット（ｙｍｍレジスタの下位１２８ビット）は、レジスタｘｍｍ０〜ｘｍｍ１５に重なっている。特定ベクトル向け命令フォーマット２００は、これらの重なったレジスタファイルに対し、以下の表に示されるように動作する。

換言すると、ベクトル長フィールド１５９Ｂは、最大長から１または複数の他のより短い長さまでの範囲内から選択する。ここで、当該より短い長さの各々は、１つ前の長さの半分であり、ベクトル長フィールド１５９Ｂを持たない命令テンプレートは、最大ベクトル長に対し演算を行う。さらに、一実施形態において、特定ベクトル向け命令フォーマット２００のクラスＢ命令テンプレートは、パックド単精度／倍精度浮動小数点データまたはスカラ単精度／倍精度浮動小数点データおよびパックド整数データまたはスカラ整数データに対し、演算を行う。スカラ演算とは、ｚｍｍ／ｙｍｍ／ｘｍｍレジスタ内の最下位のデータ要素の位置で実行される演算である。実施形態に応じ、より上位のデータ要素の位置は、命令前と同じに保持されるか、ゼロにされるかのいずれかである。

図示された実施形態中の書き込みマスクレジスタ３１５には、８個の書き込みマスクレジスタ（ｋ０からｋ７）が存在し、各々６４ビットのサイズである。代替的な実施形態において、書き込みマスクレジスタ３１５は、１６ビットのサイズである。上記の通り、本発明の一実施形態において、ベクトルマスクレジスタｋ０は書き込みマスクとして使用不可である。通常ｋ０を示すエンコーディングが書き込みマスクに使用される場合、それは０ｘＦＦＦＦのハードワイヤードされた書き込みマスクを選択し、有効にその命令に対し書き込みマスキングを無効にする。

図示された実施形態中の汎用レジスタ３２５には、メモリオペランドをアドレス指定するために既存のｘ８６アドレス指定モードと共に使用される１６個の６４ビットの汎用レジスタが存在する。これらのレジスタは、ＲＡＸ、ＲＢＸ、ＲＣＸ、ＲＤＸ、ＲＢＰ、ＲＳＩ、ＲＤＩ、ＲＳＰおよびＲ８〜Ｒ１５という名称で参照される。

図示された実施形態中、スカラ浮動小数点スタックレジスタファイル（ｘ８７スタック）３４５について、ＭＭＸパックド整数フラットレジスタファイル３５０というエイリアスが示されているが、ｘ８７スタックは、ｘ８７命令セット拡張を使用して、３２／６４／８０ビットの浮動小数点データにスカラ浮動小数点演算を実行するために使用される８個の要素のスタックである。ＭＭＸレジスタは、６４ビットのパックド整数データに対し演算を実行するために使用されるが、ＭＭＸレジスタおよびＸＭＭレジスタ間で実行されるいくつかの演算のためのオペランドを保持するためにも使用される。

本発明の代替的な実施形態は、より範囲の広いまたは狭いレジスタを使用してよい。また、本発明の代替的な実施形態は、より多い、より少ないまたは異なるレジスタファイルおよびレジスタを使用してもよい。
Ｄ．［例示的なコアアーキテクチャ、プロセッサおよびコンピュータアーキテクチャ］

プロセッサコアは、異なる方法で、異なる目的のために、および異なるプロセッサ内に実装されてよい。例えば、このようなコアの実装としては次のようなものが含まれてよい。すなわち、１）汎用コンピューティング用の汎用インオーダコアインオーダコア、２）汎用コンピューティング用の高性能汎用アウトオブオーダコア、３）主にグラフィックおよび／または科学技術（スループット）コンピューティング用の専用コア。異なるプロセッサの実装としては、次のようなものが含まれてよい。すなわち、１）汎用コンピューティング用の１または複数の汎用インオーダコアおよび／または汎用コンピューティング用の１または複数の汎用アウトオブオーダコアを含むＣＰＵ、および２）主にグラフィックおよび／または科学技術（スループット）用の１または複数の専用コアを含むコプロセッサ。このような異なるプロセッサは、異なるコンピュータシステムアーキテクチャをもたらし、それには次のようなものが含まれてよい。すなわち、１）ＣＰＵとは別個のチップ上のコプロセッサ、２）ＣＰＵと同一パッケージ内の別個のダイ上にあるコプロセッサ、３）ＣＰＵと同一のダイ上のコプロセッサ（この場合、このようなコプロセッサは、統合グラフィックおよび／または科学技術（スループット）ロジック等の専用ロジック、または専用コアと呼ばれることがある）および、４）同一のダイ上に上記ＣＰＵ（アプリケーションコアまたはアプリケーションプロセッサと呼ばれることがある）、上記コプロセッサおよび追加の機能を含み得るシステムオンチップ。例示的なコアアーキテクチャが次に記載され、その後に例示的なプロセッサおよびコンピュータアーキテクチャが続く。

図４Ａは、本発明の実施形態による、例示的なインオーダパイプラインおよび例示的なレジスタリネーミング、アウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。図４Ｂは、本発明の実施形態による、プロセッサに含まれる、インオーダアーキテクチャコアに係る例示的な実施形態および例示的なレジスタリネーミング、アウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。図４Ａ〜図４Ｂ中の実線ボックスは、インオーダパイプラインおよびインオーダコアを示すが、オプションで追加される破線ボックスは、レジスタリネーミング、アウトオブオーダ発行／実行パイプラインおよびコアを示す。インオーダの態様はアウトオブオーダ態様のサブセットであると想定して、アウトオブオーダ態様について以下記載する。

図４Ａ中、プロセッサパイプライン４００は、フェッチステージ４０２、長さデコードステージ４０４、デコードステージ４０６、割り当てステージ４０８、リネーミングステージ４１０、スケジューリング（ディスパッチまたは発行としても知られる）ステージ４１２、レジスタ読み取り／メモリ読み取りステージ４１４、実行ステージ４１６、ライトバック／メモリ書き込みステージ４１８、例外処理ステージ４２２およびコミットステージ４２４が含まれる。

図４Ｂは、実行エンジンユニット４５０に連結されたフロントエンドユニット４３０を含むプロセッサコア４９０を示し、フロントエンドユニット４３０および実行エンジンユニット４５０の両方はメモリユニット４７０に連結されている。コア４９０は縮小命令セットコンピューティング（ＲＩＳＣ）コア、複合命令セットコンピューティング（ＣＩＳＣ）コア、超長命令語（ＶＬＩＷ）コア、またはハイブリッド若しくは代替的なコアタイプであってよい。さらなる別のオプションとして、コア４９０は、例えば、ネットワークコアまたは通信コア、圧縮エンジン、コプロセッサコア、汎用コンピューティンググラフィック処理ユニット（ＧＰＧＰＵ）コア、グラフィックコア等のような専用コアであってよい。

フロントエンドユニット４３０は、命令キャッシュユニット４３４に連結された分岐予測ユニット４３２を含み、命令キャッシュユニット４３４は、命令トランスレーションルックアサイドバッファ（ＴＬＢ）４３６に連結され、ＴＬＢ４３６は命令フェッチユニット４３８に連結され、命令フェッチユニット４３８はデコードユニット４４０に連結される。デコードユニット４４０（すなわちデコーダ）は命令をデコードしてよく、および、１または複数のマイクロオペレーション、マイクロコードエントリポイント、マイクロ命令、他の命令または他の制御信号を出力として生成してよく、これらは元の命令からデコードされ、あるいは元の命令を反映し、あるいは元の命令から派生する。デコードユニット４４０は、様々な異なるメカニズムを使用して実装されてよい。好適なメカニズムの例としては、限定はされないがルックアップテーブル、ハードウェア実装、プログラマブルロジックアレイ（ＰＬＡ）、マイクロコードリードオンリメモリ（ＲＯＭ）等が含まれる。一実施形態において、コア４９０は、特定のマクロ命令のためのマイクロコードを格納（例えば、デコードユニット４４０内またはフロントエンドユニット４３０内部）するマイクロコードＲＯＭまたは他の媒体を含む。デコードユニット４４０は、実行エンジンユニット４５０内のリネーム／アロケータユニット４５２に連結される。

実行エンジンユニット４５０は、リタイアメントユニット４５４に連結されたリネーム／アロケータユニット４５２および１または複数のスケジューラユニット４５６のセットを含む。スケジューラユニット４５６は、予約ステーション、中央命令ウィンドウ等を含む、任意の数の異なるスケジューラを表わす。スケジューラユニット４５６は物理レジスタファイルユニット４５８に連結される。物理レジスタファイルユニット４５８の各々は、１または複数の物理レジスタファイルを表わし、それらの異なる１つ１つは、１または複数の異なるデータタイプを格納する。そのようなものとしては、スカラ整数、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点、状態（例えば、実行される次の命令のアドレスである命令ポインタ）等が挙げられる。一実施形態において、物理レジスタファイルユニット４５８はベクトルレジスタユニット、書き込みマスクレジスタユニットおよびスカラレジスタユニットを備える。これらのレジスタユニットは、アーキテクチャのベクトルレジスタ、ベクトルマスクレジスタおよび汎用レジスタを提供してよい。レジスタリネーミングおよびアウトオブオーダ実行が実装され得る様々な方法を示すため、物理レジスタファイルユニット４５８がリタイアメントユニット４５４に重ねられている（例えば、リオーダバッファおよびリタイアメントレジスタファイルを使用する、将来のファイル、履歴バッファおよびリタイアメントレジスタファイルを使用する、レジスタマップおよびレジスタプールを使用する等）。リタイアメントユニット４５４および物理レジスタファイルユニット４５８は、実行クラスタ４６０に連結される。実行クラスタ４６０は、１または複数の実行ユニット４６２のセットおよび１または複数のメモリアクセスユニット４６４のセットを含む。実行ユニット４６２は、様々な演算（例えば、シフト、加算、減算、乗算）を様々なタイプのデータ（例えば、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点）に行ってよい。いくつかの実施形態は、特定の関数または関数のセットに専用に割り当てられた複数の実行ユニットを含んでよく、一方で、他の実施形態は、１つのみの実行ユニットまたは、それらすべてが全関数を実行する複数の実行ユニットを含んでよい。スケジューラユニット４５６、物理レジスタファイルユニット４５８および実行クラスタ４６０が可能性として複数形で図示されているのは、特定の実施形態が特定のタイプのデータ／演算のために別個のパイプライン（例えば、スカラ整数のパイプライン、スカラ浮動小数点／パックド整数／パックド浮動小数点／ベクトル整数／ベクトル浮動小数点のパイプラインおよび／またはメモリアクセスパイプライン。これらの各々は独自のスケジューラユニット、物理レジスタファイルユニット、および／または実行クラスタを有する。別個のメモリアクセスパイプラインの場合、このパイプラインの実行クラスタのみがメモリアクセスユニット４６４を有する特定の実施形態が実装される）を形成するからである。別個のパイプラインが使用される場合、これらのパイプラインのうちの１または複数はアウトオブオーダ発行／実行であってよく、残りはインオーダであってよいことも理解されたい。

メモリアクセスユニット４６４のセットがメモリユニット４７０に連結され、メモリユニット４７０はレベル２（Ｌ２）キャッシュユニット４７６に連結されたデータキャッシュユニット４７４に連結されたデータＴＬＢユニット４７２を含む。一例示的な実施形態において、メモリアクセスユニット４６４は、ロードユニット、ストアアドレスユニット、およびストアデータユニットを含んでよく、これらの各々はメモリユニット４７０内のデータＴＬＢユニット４７２に連結される。命令キャッシュユニット４３４は、メモリユニット４７０内のレベル２（Ｌ２）キャッシュユニット４７６にさらに連結される。Ｌ２キャッシュユニット４７６は、１または複数の他のレベルのキャッシュに連結され、最終的にメインメモリに連結される。

例を挙げると、例示的なレジスタリネーミング、アウトオブオーダ発行／実行コアアーキテクチャは、パイプライン４００を以下のように実装してよい。すなわち、１）命令フェッチ４３８がフェッチステージ４０２および長さデコーディングステージ４０４を実行する。２）デコードユニット４４０がデコードステージ４０６を実行する。３）リネーム／アロケータユニット４５２が割り当てステージ４０８およびリネーミングステージ４１０を実行する。４）スケジューラユニット４５６がスケジューリングステージ４１２を実行する。５）物理レジスタファイルユニット４５８およびメモリユニット４７０がレジスタ読み取り／メモリ読み取りステージ４１４を実行する。実行クラスタ４６０が実行ステージ４１６を実行する。６）メモリユニット４７０および物理レジスタファイルユニット４５８がライトバック／メモリ書き込みステージ４１８を実行する。７）様々なユニットが例外処理ステージ４２２に関与してよい。８）リタイアメントユニット４５４および物理レジスタファイルユニット４５８がコミットステージ４２４を実行する。

コア４９０は、本明細書に記載の命令を含む、１または複数の命令セット（例えば、ｘ８６命令セット（より新しいバージョンに追加されたいくつかの拡張を持つ）、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰＳ命令セット、カリフォルニア州サニーベールのＡＲＭＨｏｌｄｉｎｇｓのＡＲＭ命令セット（ＮＥＯＮ等のオプションの追加拡張を持つ））をサポートしてよい。一実施形態において、コア４９０は、パックドデータ命令セット拡張（例えば、ＡＶＸ１、ＡＶＸ２）をサポートするロジックを含み、それにより、多くのマルチメディアアプリケーションによって使用される演算がパックドデータを使用して実行されることを可能にする。

コアは、マルチスレッディング（演算またはスレッドの２または２より多い並列セットの実行）をサポートしてよく、様々な方法でマルチスレッディングを実行してよいことを理解されたい。そのようなものとしては、時分割マルチスレッディング、同時マルチスレッディング（この場合、単一の物理コアは、物理コアが同時にマルチスレッディングを行うスレッドの各々に対し、論理コアを提供する）、またはこれらの組み合わせ（例えば、時分割フェッチおよび時分割デコーディング並びにインテル（登録商標）ハイパースレッディング技術等のそれら以降の同時マルチスレッディング）が含まれる。

レジスタリネーミングはアウトオブオーダ実行の文脈で説明されているが、レジスタリネーミングはインオーダアーキテクチャで使用されてよいことを理解されたい。図示されたプロセッサの実施形態はまた、別個の命令キャッシュユニット４３４およびデータキャッシュユニット４７４並びに共有Ｌ２キャッシュユニット４７６を含むが、代替的な実施形態は、命令およびデータの両方のための例えば、レベル１（Ｌ１）内部キャッシュまたは複数のレベルの内部キャッシュのような単一の内部キャッシュを有してよい。いくつかの実施形態において、システムは、内部キャッシュ並びにコアおよび／またはプロセッサの外部にある外部キャッシュの組み合わせを含んでよい。代替的に、すべてのキャッシュは、コアおよび／またはプロセッサの外部にあってよい。

図５Ａ〜５Ｂは、より具体的な例示のインオーダコアアーキテクチャのブロック図を示し、コア（同一タイプおよび／または異なるタイプの他のコアを含む）はチップ内のいくつかの論理ブロックの１つであろう。その適用に応じ、論理ブロックは、何らかの固有の機能ロジック、メモリＩ／Ｏインタフェースおよび他の必要なＩ／Ｏロジックを備えた高帯域幅の相互接続ネットワーク（例えば、リングネットワーク）を介して通信する。

図５Ａは、本発明の実施形態による、オンダイ相互接続ネットワーク５０２への接続を備え、且つ、レベル２（Ｌ２）キャッシュ５０４のローカルサブセットを備えた単一のプロセッサコアのブロック図である。一実施形態において、命令デコーダ５００は、パックドデータ命令セット拡張を備えたｘ８６命令セットをサポートする。Ｌ１キャッシュ５０６は、キャッシュメモリからスカラユニットおよびベクトルユニットへと読み出す低レイテンシアクセスを可能にする。一実施形態（設計を簡易化した）において、スカラユニット５０８およびベクトルユニット５１０は、別個のレジスタセット（それぞれスカラレジスタ５１２およびベクトルレジスタ５１４）を使用し、それらの間で転送されたデータはメモリに書き込まれた後、レベル１（Ｌ１）キャッシュ５０６からリードバックされる一方で、本発明の代替的な実施形態は、異なるアプローチ（例えば、単一のレジスタセットを使用する、またはデータが書き込みおよびリードバックされることなく、２つのレジスタファイル間で転送されることを可能にする通信パスを含む）を使用してよい。

Ｌ２キャッシュのローカルサブセット５０４は、１つのプロセッサコアにつき１つのローカルサブセットとして、別個の複数のローカルサブセットに分割されるグローバルＬ２キャッシュの一部である。各プロセッサコアは、プロセッサコア自身のＬ２キャッシュ５０４のローカルサブセットへのダイレクトアクセスパスを有する。プロセッサコアによって読み取られたデータは、そのＬ２キャッシュサブセット５０４に格納され、当該データは、他のプロセッサコアが、自身のローカルＬ２キャッシュサブセットにアクセスするのと並列的に、迅速にアクセス可能である。プロセッサコアによって書き込まれたデータは、自身のＬ２キャッシュサブセット５０４に格納され、必要な場合、他のサブセットからはフラッシュされる。リングネットワークは、共有データのためのコヒーレンシを保証する。リングネットワークは双方向であり、プロセッサコア、Ｌ２キャッシュおよび他の論理ブロック等のエージェントが、チップ内で互いに通信することを可能にする。各リングデータパスは、一方向当たり１０１２ビット幅である。

図５Ｂは、本発明の実施形態による、図５Ａのプロセッサコアの一部の拡大図である。図５Ｂには、Ｌ１キャッシュ５０４の一部であるＬ１データキャッシュ５０６Ａに加え、ベクトルユニット５１０およびベクトルレジスタ５１４に関しより詳細なものが含まれる。具体的には、ベクトルユニット５１０は、１６幅ベクトル処理ユニット（ＶＰＵ）（１６幅ＡＬＵ５２８を参照）であり、整数命令、単精度浮動命令および倍精度浮動命令のうちの１または複数を実行する。ＶＰＵは、スウィズルユニット５２０を用いるレジスタ入力のスウィズル、数値変換ユニット５２２Ａ〜Ｂを用いる数値変換およびメモリ入力での複製ユニット５２４を用いる複製をサポートする。書き込みマスクレジスタ５２６は、結果ベクトル書き込みのプレディケートを可能にする。

図６は、本発明の実施形態による、プロセッサ６００のブロック図であり、当該プロセッサは、２以上のコアを有してよく、統合メモリコントローラを有してよく、統合グラフィックを有してよい。図６中の実線ボックスは、単一のコア６０２Ａ、システムエージェント６１０、１または複数のバスコントローラユニット６１６のセットを備えたプロセッサ６００を示す一方で、破線ボックスのオプションの追加は、複数のコア６０２Ａ〜Ｎ、システムエージェントユニット６１０内の１または複数の統合メモリコントローラユニット６１４のセット、および専用ロジック６０８を備えた代替的なプロセッサ６００を示す。

故に、プロセッサ６００の異なる実装は、次のもの、すなわち１）統合グラフィックおよび／または科学技術（スループット）ロジック（１または複数のコアを含んでよい）である専用ロジック６０８と、１または複数の汎用コアであるコア６０２Ａ〜Ｎ（例えば、汎用インオーダコア、汎用アウトオブオーダコア、それら２つの組み合わせ）を有するＣＰＵ、２）主にグラフィックおよび／または科学技術（スループット）向けの多数の専用コアであるコア６０２Ａ〜Ｎを有するコプロセッサ、並びに３）多数の汎用インオーダコアであるコア６０２Ａ〜Ｎを有するコプロセッサ、を含んでよい。故に、プロセッサ６００は、例えば、ネットワークプロセッサまたは通信プロセッサ、圧縮エンジン、グラフィックプロセッサ、ＧＰＧＰＵ（汎用グラフィック処理ユニット）、高スループット多集積コア（ＭＩＣ）コプロセッサ（３０または３０より多いコアを含む）、組み込みプロセッサ等のような汎用プロセッサ、コプロセッサ、または専用プロセッサであってよい。プロセッサは、１または複数のチップ上に実装されてよい。プロセッサ６００は、例えば、ＢｉＣＭＯＳ、ＣＭＯＳまたはＮＭＯＳ等の複数のプロセス技術のうちの任意のものを使用する１または複数の基板の一部であってよく、および／または当該基板上に実装されてよい。

メモリ階層は、コア内の１または複数のレベルのキャッシュ、共有キャッシュユニット６０６のセットまたは１若しくは複数の共有キャッシュユニット６０６、および統合メモリコントローラユニット６１４のセットに連結された外部メモリ（不図示）を含む。共有キャッシュユニットのセット６０６は、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）等の１または複数の中レベルキャッシュ、または他のレベルのキャッシュ、ラストレベルキャッシュ（ＬＬＣ）および／またはそれらの組み合わせを含んでよい。一実施形態において、リングベースの相互接続ユニット６１２は、統合グラフィックロジック６０８、共有キャッシュユニット６０６のセットおよびシステムエージェントユニット６１０／統合メモリコントローラユニット６１４を相互接続する一方で、代替的な実施形態は、このようなユニットを相互接続するための任意の数の周知技術を使用してよい。一実施形態において、コヒーレンシは、１または複数のキャッシュユニット６０６およびコア６０２Ａ〜Ｎ間で維持される。

いくつかの実施形態において、コア６０２Ａ〜Ｎのうちの１または複数は、マルチスレッディングが可能である。システムエージェント６１０は、コア６０２Ａ〜Ｎを調整および操作するそれらのコンポーネントを含む。システムエージェントユニット６１０は、例えば、電力制御ユニット（ＰＣＵ）およびディスプレイユニットを含んでよい。ＰＣＵは、コア６０２Ａ〜Ｎおよび統合グラフィックロジック６０８の電力状態を統制するために必要なロジックおよびコンポーネントであってよい、またはそれらを含んでよい。ディスプレイユニットは、１または複数の外部接続されたディスプレイを駆動するためのものである。

コア６０２Ａ〜Ｎは、アーキテクチャ命令セットの観点から同種または異種であってよい。すなわち、コア６０２Ａ〜Ｎのうち２または２より多くは、同一命令セットを実行可能であってよいが、他のものはその命令セットのサブセットのみまたは異なる命令セットを実行可能であってよい。

図７〜図１０は、例示的なコンピュータアーキテクチャのブロック図である。ラップトップ、デスクトップ、ハンドヘルドＰＣ、携帯情報端末、エンジニアリングワークステーション、サーバ、ネットワークデバイス、ネットワークハブ、スイッチ、組み込みプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、グラフィックデバイス、ビデオゲームデバイス、セットトップボックス、マイクロコントローラ、携帯電話、ポータブルメディアプレーヤ、ハンドヘルドデバイスおよび様々な他の電子デバイスのための当該技術分野で既知の他のシステム設計および構成も好適である。一般的に、本明細書に開示のプロセッサおよび／または他の実行ロジックを組み込み可能な非常に多種多様なシステムまたは電子デバイスが概して好適である。

ここで図７を参照すると、本発明の一実施形態によるシステム７００のブロック図が示されている。システム７００は、１または複数のプロセッサ７１０、７１５を含んでよく、当該１または複数のプロセッサ７１０、７１５は、コントローラハブ７２０に連結される。一実施形態において、コントローラハブ７２０は、グラフィックメモリコントローラハブ（ＧＭＣＨ）７９０および入／出力ハブ（ＩＯＨ）７５０（別個のチップ上に存在してよい）を含む。ＧＭＣＨ７９０は、メモリ７４０およびコプロセッサ７４５が連結されたメモリコントローラおよびグラフィックコントローラを含む。ＩＯＨ７５０は、入出力（Ｉ／Ｏ）デバイス７６０をＧＭＣＨ７９０に連結する。代替的に、メモリコントローラおよびグラフィックコントローラの一方または両方がプロセッサ内に統合され（本明細書に記載の通り）、メモリ７４０およびコプロセッサ７４５は、プロセッサ７１０と、単一のチップ内のＩＯＨ７５０を持つコントローラハブ７２０とに直接連結される。

図７中、破線を用いて、追加のプロセッサ７１５がオプションの性質であることが示されている。各プロセッサ７１０、７１５は、本明細書に記載の処理コアのうちの１または複数を含んでよく、プロセッサ６００の何らかのバージョンであってよい。

メモリ７４０は、例えば、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、相変化メモリ（ＰＣＭ）、またはこれら２つの組み合わせであってよい。少なくとも１つの実施形態について、コントローラハブ７２０は、フロントサイドバス（ＦＳＢ）等のマルチドロップバス、ＱｕｉｃｋＰａｔｈインターコネクト（ＱＰＩ）等のポイントツーポイントインタフェースまたは類似の接続７９５を介して、プロセッサ７１０、７１５と通信する。

一実施形態において、コプロセッサ７４５は、例えば、高スループットＭＩＣプロセッサ、ネットワークプロセッサまたは通信プロセッサプロセッサ、圧縮エンジン、グラフィックプロセッサ、ＧＰＧＰＵ、組み込みプロセッサ等のような専用プロセッサである。一実施形態において、コントローラハブ７２０は統合グラフィックアクセラレータを含んでよい。

物理リソース７１０と７１５との間には、アーキテクチャ上、マイクロアーキテクチャ上、熱的、電力消費特性等を含む利点の様々な基準に関して、様々な差異が存在し得る。

一実施形態において、プロセッサ７１０は、汎用タイプのデータ処理演算を制御する命令を実行する。コプロセッサ命令が命令内に埋め込まれてよい。プロセッサ７１０は、これらのコプロセッサ命令を取り付けられたコプロセッサ７４５によって実行されるべきタイプのものであると認識する。従って、プロセッサ７１０はこれらのコプロセッサ命令（またはコプロセッサ命令を表わす制御信号）を、コプロセッサ７４５へのコプロセッサバスまたは他の相互接続上に発行する。コプロセッサ７４５はコプロセッサ命令を受け取り、受信されたコプロセッサ命令を実行する。

ここで図８を参照すると、本発明の一実施形態による第１のより具体的な例示的システム８００のブロック図を示す。図８に図示の通り、マルチプロセッサシステム８００は、ポイントツーポイント相互接続システムであり、ポイントツーポイント相互接続８５０を介して連結された第１のプロセッサ８７０および第２のプロセッサ８８０を含む。プロセッサ８７０および８８０の各々は、プロセッサ６００の何らかのバージョンであってよい。本発明の一実施形態において、プロセッサ８７０および８８０は、それぞれプロセッサ７１０および７１５である一方で、コプロセッサ８３８はコプロセッサ７４５である。別の実施形態においては、プロセッサ８７０および８８０は、それぞれプロセッサ７１０およびコプロセッサ７４５である。

プロセッサ８７０および８８０は、それぞれ統合メモリコントローラ（ＩＭＣ）ユニット８７２および８８２を含むように図示されている。プロセッサ８７０はまた、そのバスコントローラユニットの一部として、ポイントツーポイント（Ｐ−Ｐ）インタフェース８７６および８７８を含み、同様に第２のプロセッサ８８０はＰ−Ｐインタフェース８８６および８８８を含む。プロセッサ８７０、８８０は、Ｐ−Ｐインタフェース回路８７８、８８８を使用して、ポイントツーポイント（Ｐ−Ｐ）インタフェース８５０を介して情報を交換してよい。図８に図示の通り、ＩＭＣ８７２および８８２はプロセッサをそれぞれのメモリ、すなわちメモリ８３２およびメモリ８３４に連結する。メモリ８３２およびメモリ８３４は、それぞれのプロセッサにローカルに取り付けられたメインメモリの一部であってよい。

プロセッサ８７０、８８０はそれぞれ、ポイントツーポイントインタフェース回路８７６、８９４、８８６、８９８を使用して、個々のＰ−Ｐインタフェース８５２、８５４を介して、チップセット８９０と情報を交換してよい。随意で、チップセット８９０は、高性能インタフェース８３９を介してコプロセッサ８３８と情報を交換してよい。一実施形態において、コプロセッサ８３８は、例えば、高スループットＭＩＣプロセッサ、ネットワークプロセッサまたは通信プロセッサプロセッサ、圧縮エンジン、グラフィックプロセッサ、ＧＰＧＰＵ、組み込みプロセッサ等のような専用プロセッサである。

共有キャッシュ（不図示）が、いずれかのプロセッサの内部または両方のプロセッサの外部に含まれてよく、共有キャッシュはさらに当該プロセッサとＰ‐Ｐ相互接続を介して接続されていてよく、その結果、プロセッサが低電力モードの場合、いずれかまたは両方のプロセッサのローカルキャッシュ情報が共有キャッシュ内に格納され得るようになる。

チップセット８９０が、インタフェース８９６を介して第１のバス８１６に連結されてよい。一実施形態において、第１のバス８１６はペリフェラルコンポーネントインターコネクト（ＰＣＩ）バス、すなわちＰＣＩＥｘｐｒｅｓｓバス若しくは別の第３世代Ｉ／Ｏ相互接続バス等のバスであってよいが、本発明の範囲はそのようには限定されない。

図８に図示の通り、様々なＩ／Ｏデバイス８１４がバスブリッジ８１８と共に第１のバス８１６に連結されてよく、バスブリッジ８１８は第１のバス８１６を第２のバス８２０に連結する。一実施形態において、コプロセッサ、高スループットＭＩＣプロセッサ、ＧＰＧＰＵのアクセラレータ（例えば、グラフィックアクセラレータまたはデジタル信号処理（ＤＳＰ）ユニット等）、フィールドプログラマブルゲートアレイ、または任意の他のプロセッサ等の１または複数の追加のプロセッサ８１５が第１のバス８１６に連結される。一実施形態において、第２のバス８２０はローピンカウント（ＬＰＣ）バスであってよい。一実施形態において、様々なデバイスが第２のバス８２０に連結されてよく、そのようなものとしては、例えば、キーボードおよび／またはマウス８２２、通信デバイス８２７および命令／コードおよびデータ８３０を含み得るディスクドライブまたは他の大容量ストレージデバイス等のストレージユニット８２８が含まれる。さらに、オーディオＩ／Ｏ８２４が第２のバス８２０に連結されてよい。他のアーキテクチャも可能であることに留意されたい。例えば、図８のポイントツーポイントアーキテクチャの代わりに、システムはマルチドロップバスまたは他のこのようなアーキテクチャを実装してよい。

ここで図９を参照すると、本発明の実施形態による、第２のより具体的な例示的システム９００のブロック図が示されている。図８および図９中で同様の要素は同様の参照符号が付されており、図９の他の態様を不明瞭にするのを回避すべく、図８の特定の態様は図９で省略されている。

図９は、プロセッサ８７０、８８０が統合メモリおよびＩ／Ｏ制御ロジック（「ＣＬ」）８７２および８８２をそれぞれ含んでよいことを示す。故に、ＣＬ８７２、８８２は、統合メモリコントローラユニットを含み、Ｉ／Ｏ制御ロジックを含む。図９は、メモリ８３２、８３４がＣＬ８７２、８８２に連結されるだけでなく、Ｉ／Ｏデバイス９１４も制御ロジック８７２、８８２に連結されることも示している。レガシＩ／Ｏデバイス９１５がチップセット８９０に連結される。

ここで図１０を参照すると、本発明の一実施形態によるＳｏＣ１０００のブロック図が示されている。図６中と同様の要素は同一の参照番号が付されている。また、破線ボックスは、より高度なＳｏＣ上でのオプションの機能である。図１０中、相互接続ユニット１００２は、アプリケーションプロセッサ１０１０と、システムエージェントユニット６１０と、バスコントローラユニット６１６と、統合メモリコントローラユニット６１４と、コプロセッサ１０２０のセットまたは１若しくは複数のコプロセッサ１０２０と、スタティックランダムアクセスメモリ（ＳＲＡＭ）ユニット１０３０と、ダイレクトメモリアクセス（ＤＭＡ）ユニット１０３２と、１または複数の外部ディスプレイに連結するためのディスプレイユニット１０４０とに連結される。アプリケーションプロセッサ１０１０は、１または複数のコア２０２Ａ〜Ｎのセットおよび共有キャッシュユニット６０６を含む。コプロセッサ１０２０のセットまたは１若しくは複数のコプロセッサ１０２０は、統合グラフィックロジック、イメージプロセッサ、オーディオプロセッサおよびビデオプロセッサを含んでよい。一実施形態において、コプロセッサ１０２０は、例えば、ネットワークプロセッサまたは通信プロセッサ、圧縮エンジン、ＧＰＧＰＵ、高スループットＭＩＣプロセッサ、組み込みプロセッサ等のような専用プロセッサを含む。

本明細書に開示のメカニズムに係る実施形態は、ハードウェア、ソフトウェア、ファームウェアまたはこのような実装アプローチの組み合わせで実装されてよい。本発明の実施形態は、少なくとも１つのプロセッサ、ストレージシステム（揮発性および不揮発性のメモリ並びに／またはストレージ要素を含む）、少なくとも１つの入力デバイスおよび少なくとも１つの出力デバイスを備えるプログラム可能なシステム上で実行されるコンピュータプログラムまたはプログラムコードとして実装されてよい。

図８に図示されたコード８３０等のプログラムコードは、本明細書に記載の機能を実行するための命令を入力するため、および出力情報を生成するために適用されてよい。出力情報は、１または複数の出力デバイスに既知の態様で適用されてよい。本願の目的において、処理システムには、例えば、デジタル信号プロセッサ（ＤＳＰ）、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、またはマイクロプロセッサ等のプロセッサを有する任意のシステムが含まれる。

プログラムコードは、処理システムと通信するために、高水準の手順型プログラミング言語またはオブジェクト指向型プログラミング言語で実装されてよい。必要であれば、プログラムコードはまた、アセンブリ言語または機械言語で実装されてもよい。実際、本明細書に記載のメカニズムは、いずれの特定のプログラミング言語にも範囲限定されない。いずれの場合においても、言語はコンパイル型言語または解釈型言語であってよい。

少なくとも１つの実施形態に係る１または複数の態様は、機械可読媒体上に格納された、プロセッサ内で様々なロジックを表わす典型的命令によって実装されてよく、当該命令は機械による読み取り時に、機械に対し、本明細書に記載の技術を実行するためのロジックを生成させる。このような「ＩＰコア」として知られる典型的なものが、有形の機械可読媒体上に格納され、様々な顧客または製造施設に供給され、実際にロジックまたはプロセッサを作成する製造機械にロードされてよい。

このような機械可読記録媒体としては、限定はされないが、機械またはデバイスによって製造または形成される複数の物品から成る非一時的な有形の構成が含まれてよく、それらとしては、ハードディスク、フロッピー（登録商標）ディスク、光ディスク、コンパクトディスクリードオンリメモリ（ＣＤ‐ＲＯＭ）、コンパクトディスクリライタブル（ＣＤ‐ＲＷ）、および光磁気ディスクを含む任意の他のタイプのディスク、リードオンリメモリ（ＲＯＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）等のランダムアクセスメモリ（ＲＡＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、フラッシュメモリ、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、相変化メモリ（ＰＣＭ）等の半導体デバイス、磁気カード若しくは光カードといった記録媒体または電子的命令を格納するのに好適な任意の他のタイプの媒体が含まれる。

従って、また、本発明の実施形態は、命令を含む、または本明細書に記載の構造、回路、装置、プロセッサおよび／またはシステム機能を定義するハードウェア記述言語（ＨＤＬ）等の設計データを含む非一時的な有形の機械可読媒体を含む。また、このような実施形態はプログラム製品としても称されてよい。

いくつかの場合において、命令コンバータが使用され、命令をソース命令セットからターゲット命令セットへと変換してよい。例えば、命令コンバータは、ある命令を、コアによって処理されるべき１または複数の他の命令へと、トランスレート（例えば、静的バイナリ変換、動的コンパイルを含む動的バイナリ変換を使用して）、モーフィング、エミュレート、またはそれら以外の方法による変換を行ってよい。命令コンバータは、ソフトウェア、ハードウェア、ファームウェア、またはこれらの組み合わせで実装されてよい。命令コンバータは、プロセッサ内、プロセッサ外、または部分的にプロセッサ内または部分的にプロセッサ外に存在してよい。

図１１は、本発明の実施形態による、ソース命令セット内のバイナリ命令をターゲット命令セット内のバイナリ命令に変換するためのソフトウェア命令コンバータの使用を対比するブロック図である。図示された実施形態において、命令コンバータはソフトウェア命令コンバータであるものの、代替的に、命令コンバータはソフトウェア、ファームウェア、ハードウェアまたはこれらの様々な組み合わせで実装されてもよい。図１１は、高水準言語１１０２のプログラムが、ｘ８６バイナリコード１１０６を生成するｘ８６コンパイラ１１０４を使用してコンパイルされ得ることを示しており、当該ｘ８６バイナリコード１１０６は、少なくとも１つのｘ８６命令セットコアを持つプロセッサ１１１６によってネイティブに実行されてよい。少なくとも１つのｘ８６命令セットコアを持つプロセッサ１１１６は、少なくとも１つのｘ８６命令セットコアを持つインテルプロセッサと実質的に同一の諸機能を実行できる任意のプロセッサを表わしており、これは次のように行う。すなわち、少なくとも１つのｘ８６命令セットコアを持つインテルプロセッサと実質的に同一の結果を得るべく、（１）インテルｘ８６命令セットコアの命令セットの大部分、または（２）少なくとも１つのｘ８６命令セットコアを持つインテルプロセッサ上での実行を目的とするアプリケーションまたは他のソフトウェアのオブジェクトコードバージョン、を互換性のある状態で実行またはそれ以外の方法で処理することによってである。ｘ８６コンパイラ１１０４は、ｘ８６バイナリコード１１０６（例えばオブジェクトコード）を生成するように動作可能なコンパイラを表わし、当該ｘ８６バイナリコード１１０６は、追加のリンク処理と共に、または追加のリンク処理なしに、少なくとも１つのｘ８６命令セットコアを持つプロセッサ１１１６上で実行可能である。同様に、図１１は、高水準言語１１０２のプログラムが、代替的な命令セットバイナリコード１１１０を生成する代替的な命令セットコンパイラ１１０８を使用してコンパイルされ得ることを示しており、当該代替的な命令セットバイナリコード１１１０は、少なくとも１つのｘ８６命令セットコアを持たないプロセッサ１１１４（例えば、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰＳ命令セットを実行する、および／または、カリフォルニア州サニーベールのＡＲＭＨｏｌｄｉｎｇｓのＡＲＭ命令セットを実行するコアを持つプロセッサ）によってネイティブに実行されてよい。命令コンバータ１１１２は、ｘ８６バイナリコード１１０６を、ｘ８６命令セットコアを持たないプロセッサ１１１４によってネイティブに実行可能なコードに変換されるのに使用される。これが可能な命令コンバータの作成は難しいので、この変換されたコードは、代替的な命令セットバイナリコード１１１０と同一である可能性は低いが、しかしながら、変換されたコードは、一般的な演算を達成し、代替的な命令セットに属する命令で構成されるであろう。故に、命令コンバータ１１１２は、ソフトウェア、ファームウェア、ハードウェアまたはこれらの組み合わせを表わし、それらは、エミュレーション、シミュレーションまたは任意の他の処理を介して、ｘ８６命令セットプロセッサまたはコアを有さないプロセッサまたは他の電子デバイスが、ｘ８６バイナリコード１１０６を実行できるようにする。
［競合検出を実行するための方法および装置］

解析が容易なストライド１のアレイアクセスを含むループのベクトル化は通常、単純である。しかしながら、これらのアクセスに複数のポインタが使用される場合は、コンパイラのエイリアス解析が、結果のベクトルコードが重複のないアクセスをもたらすことを実証できないことがある。例示を以下に示す。

ＳＩＭＤ幅にサイズ設定された、ＡおよびＢに属する隣接する要素のセットがメモリ内で重複しない場合、このコードはベクトル化して安全である。しかしながら、重複が存在する場合、ベクトル化により誤った結果をもたらす可能性がある。例えば、＆Ａ［０］＝＝＆Ｂ［１］且つＮが4の場合、以下の結果となる。

ポインタ自身がループ内で変更されない場合は、現行でコンパイラは、アレイに範囲チェックを実行することによって、ループ内に重複するメモリ操作が存在しないことを保証可能である。このようなチェックは命令オーバヘッドを発生させ、このオーバヘッドはループ内でアクセスされるポインタ数と共に非常に迅速に増大する。というのは、すべてのポインタが互いにチェックされる必要があるからである（例えば、２ポインタで１チェック、３ポインタで３チェック、４ポインタで６チェック）。従って、現行では、一部のコンパイラのみが、限定数のポインタ（例えば、３つのポインタ）を使用して、ループのベクトル化をサポートする。

上記の制約に対処するために、本明細書に記載の本発明の実施形態は、異なるタイプの比較演算子を使用して競合を検出する競合検出命令を含む。既存の命令が等価（ｅｑｕａｌｉｔｉｅｓ）の水平チェック（例えば、ＶＣＯＮＦＬＩＣＴ）を実行するのに対し、本明細書に記載の競合検出命令は、小なり（＜）、大なり（＞）、小なり等号（≦）、大なり等号（≧）および不等号（！＝）等の様々な追加の比較演算子を利用する。後述の通り、これらの競合検出命令は、単一命令複数データ（ＳＩＭＤ）方式でポインタ範囲チェックを実行するために使用されてよい。

図１２に図示の通り、本発明の実施形態が実装されてよい例示的なプロセッサ１２５５は、本明細書に記載の競合検出命令をデコーディングするための競合検出デコードロジック１２３１を備えたデコーダ１２３０およびデコードされた競合検出命令を実行するための競合検出実行ロジック１２４１を備えた実行ロジック１２４０を含む。例示的なプロセッサに係る追加的な詳細についてここで説明する。しかしながら、本発明の根本的な原理は、いずれの特定のタイプのプロセッサアーキテクチャにも限定されないことに留意されたい。

図示されたプロセッサアーキテクチャは、汎用レジスタ（ＧＰＲ）セット１２０５、ベクトルレジスタセット１２０６およびマスクレジスタセット１２０７を含む。一実施形態において、複数のベクトルデータ要素が各ベクトルレジスタ１２０６にパックされており、各ベクトルレジスタ１２０６は、２個の２５６ビット値、４個の１２８ビット値、８個の６４ビット値、１６個の３２ビット値等を格納するための５１２ビット幅を有してよい。しかしながら、本発明の根本的な原理はいずれの特定のサイズ／タイプのベクトルデータにも限定されない。一実施形態において、マスクレジスタ１２０７は、ベクトルレジスタ１２０６内に格納された値に対しビットマスク演算を実行するために使用される８個の６４ビットのオペランドマスクレジスタ（例えば、上記の通りマスクレジスタｋ０〜ｋ７として実装）を含む。しかしながら、本発明の根本的な原理はいずれの特定のマスクレジスタのサイズ／タイプにも限定されない。

簡単にするために、単一のプロセッサコア（「コア０」）の詳細が図１２中に示されている。しかしながら、図１２に図示の各コアは、コア０と同一のロジックセットを有してよいことを理解されたい。例えば、各コアは、指定されたキャッシュ管理ポリシーに従い、命令およびデータをキャッシュするための専用のレベル１（Ｌ１）キャッシュ１２１２およびレベル２（Ｌ２）キャッシュ１２１１を含んでよい。Ｌ１キャッシュ１２１２は、命令を格納するための別個の命令キャッシュ１２２０およびデータを格納するための別個のデータキャッシュ１２２１を含む。様々なプロセッサキャッシュ内に格納された命令およびデータは、固定サイズ（例えば、６４、１２８、５１２バイト長）であってよいキャッシュラインの粒度で管理される。この例示的な実施形態の各コアは、メインメモリ１２００および／または共有レベル３（Ｌ３）キャッシュ１２１６から命令をフェッチするための命令フェッチユニット１２１０、命令をデコーディング（例えば、プログラム命令をマイクロオペレーションまたは「μｏｐ」へとデコーディング）するためのデコードユニット１２２０、命令を実行するための実行ユニット１２４０、および命令をリタイアし、結果をライトバックするためのライトバックユニット１２５０を有する。

命令フェッチユニット１２１０は、メモリ１２００（または複数のキャッシュのうちの１つ）からフェッチされる次の命令のアドレスを格納するための次の命令ポインタ１２０３、アドレス変換速度を改善すべく最近使用された仮想命令アドレスと物理命令アドレスのマップを格納するための命令トランスレーションルックアサイドバッファ（ＩＴＬＢ）１２０４、命令分岐アドレスを投機的に予測するための分岐予測ユニット１２０２、および分岐アドレスおよびターゲットアドレスを格納するための分岐ターゲットバッファ（ＢＴＢ）１２０１を含む、様々な周知のコンポーネントを含む。いったんフェッチされた命令は、その後デコードユニット１２３０、実行ユニット１２４０およびライトバックユニット１２５０を含む命令パイプラインの残りのステージにストリームされる。これらのユニットの各々の構造および機能は当業者に十分理解されており、本発明の異なる実施形態の関連態様を不明瞭にするのを避けるべく、ここでは詳細に記載しない。

上記の通り、一実施形態において、競合検出命令は、小なり（＜）、大なり（＞）、小なり等号（≦）、大なり等号（≧）、および不等号（！＝）等の様々な比較演算子を利用してよい。図１３は、実装される特定のタイプの演算に応じて、異なるタイプの比較を実行するための比較ロジック１３１０を備えた競合検出ロジック１３００を示す。一実施形態において、別個の命令オペコードを使用して、各タイプの比較演算がエンコードされてよい。例えば、第１の命令であるＶＰＣＯＮＦＬＩＣＴＬＴは、小なり（ＬＴ）関数を使用して競合検出を実行してよく、第２の命令であるＶＰＣＯＮＦＬＩＣＴＧＴは、大なり（ＧＴ）関数を使用して競合検出を実行してよく（後述の通り）、第３の命令は、大なり等号（ＶＰＣＯＮＦＬＩＣＴＧＴＥＴ）に対し指定されてよく、第４の命令は、小なり等号（ＶＰＣＯＮＦＬＩＣＴＬＴＥＴ）に対し指定されてよく、第５の命令は、不等号（ＶＰＣＯＮＦＬＩＣＴＮＥ）に対し指定されてよく、および第６の命令は、等号（標準のＶＰＣＯＮＦＬＩＣＴ命令）に対し指定されてよい。また、異なるサイズのデータ要素を処理するために、各命令の異なるバージョンが指定されてよい（例えば、ＶＰＣＯＮＦＬＩＣＴＬＴＱはクワッドワード値に演算を実行してよく、ＶＰＣＯＮＦＬＩＣＴ２Ｄはダブルワード値に演算を実行してよい）。

代替の実装においては、各比較タイプごとに別個のオペコードを使用する代わりに、即値１３０３で比較演算を指定してよい。例えば、単一の競合検出命令（ＶＰＣＯＮＦＬＩＣＴＲＣ）が実装され、各比較演算が異なる即値の値を用いて指定されてよい（例えば、ＩＭＭ＝０は小なりを示してよく、ＩＭＭ＝１は大なりを示してよく、ＩＭＭ＝２は小なり等号を示してよく、ＩＭＭ＝３は大なり等号を示してよい等である）。再度繰り返すが、異なるサイズのデータ要素を処理するために、これらの命令の異なるバージョンが指定されてよい。

比較演算が即値にエンコードされるか、または異なる命令オペコードを使用するかに関わらず、比較ロジック１３１０は、特定の演算子（例えば、＜、＞、＜＝、＞＝、！＝、および／または＝）を使用して、第１のソースベクトルレジスタＳＲＣ１１３０１内の各データ要素Ａ０、Ｂ０、Ｃ０およびＤ０を、第２のソースベクトルレジスタＳＲＣ２１３０２内のデータ要素Ａ１、Ｂ１、Ｃ１、Ｄ１と比較し、デスティネーションレジスタＤＳＴ１３０４内に比較結果のセットを生成する。特に、本発明の一実施形態はＳＲＣ１１３０１内の各データ要素を、最下位ビット（ＬＳＢ）位置により近いＳＲＣ２１３０２内のデータ要素の各々と比較する。故に、Ａ０については、ＬＳＢにより近いデータ要素がＳＲＣ２内に存在しないので、比較を実行する必要はない（すなわち、Ａ０およびＡ１の両方は、それらそれぞれのソースレジスタ内の最下位位置に存在する）。しかしながら、ＳＲＣ１１３０１のデータ要素Ｂ０は、ＳＲＣ２１３０２のデータ要素Ａ１と比較され、データ要素Ｃ０がデータ要素Ｂ１およびＡ１と比較され（Ｂ１およびＡ１の両方は、Ｃ０よりＬＳＢにより近い）、データ要素Ｄ０はデータ要素Ａ１、Ｂ１およびＣ１（これらすべては、ＬＳＢ位置により近い）と比較される。

例示であるが、「小なり」比較が使用される場合、比較ロジック１３１０は、データ要素Ｂ０がデータ要素Ａ１より小さいかを判断することになる。データ要素Ｂ０がデータ要素Ａ１より小さい場合、１つのビットがデスティネーションレジスタＤＳＴ１３０４内のＢ結果に設定されることになる。同様に、Ｃ０がＡ１より小さい場合、第１のビットがＣ結果内に設定され、Ｃ０がＢ１より小さい場合、第２のビットがＣ結果内に設定される。Ｄ０がＡ１、Ｂ１またはＣ１より小さい場合、各比較に対し、個々のビットがＤ結果内に設定されてよい（例えば、Ｄ０がＡ１、Ｂ１およびＣ１より小さい場合、３つのビットがＤ結果内に設定されることになる）。

単純化するため、各ソースレジスタ内には４つのデータ要素のみが示されているが、比較は、本発明の根本的な原理に準拠しつつ、様々な異なる数のソースデータ要素に対し実行されてよい。さらに、Ａ結果、Ｂ結果、Ｃ結果およびＤ結果の各々が各比較結果を示すための４つのビットを含むものの、様々な異なる数のビットを使用して（例えば、実行される比較数に応じ）、結果を示してよい。

競合検出命令は、以下の擬似コードにより実装されてよい。ここで、[COMPARE OP]は、実行される比較演算を示す。

上記の通り、[COMPARE OP]は、任意の比較演算を表わしてよく、例えば、小なり（ＬＴ）、大なり（ＧＴ）、大なり等号（ＧＴＥＴ）、小なり等号（ＬＴＥＴ）、不等号（ＮＥ）および等号（例えば、標準のＶＰＣＯＮＦＬＩＣＴ命令）が挙げられる。上記の例において、比較の結果が真の場合（例えば、より大きい比較演算に関し、ＳＲＣ１内のデータ要素がＳＲＣ２内のデータ要素より大きい場合）、対応するビットがデスティネーションレジスタ内に設定される（すなわち、TEMPDEST.dword[j]. bit[k] := 1）。

また、上記の実施形態はＳＲＣ１１３０１内の値を、ＬＳＢにより近いＳＲＣ２内のそれらのデータ要素と比較するが、一実施形態においては、ＳＲＣ１１３０１内の各要素はＳＲＣ２１３０２内のあらゆる要素と比較され、結果がＤＳＴ１３０４内に格納されてよい。換言すると、本発明の実施形態は、命令の「トライアンギュラー」および「スクエア」の両方のバージョンを含む。「トライアンギュラー」バージョンは、ＳＲＣ１の各要素を、ＳＲＣ２の前の方の要素とのみ比較し、上記擬似コード内の強調表示された「j-1」に至る。対照的に、「スクエア」バージョンは、ＳＲＣ１の各要素を、ＳＲＣ２のすべての要素と比較する。このバージョンでは、擬似コード内の強調表示された「j-1」はKL-1に変更されてよい。異なる命令オペコードを使用して、および／または即値の値を使用して、命令の異なるバージョンが指定されてよい。

また、図１３に図示の通り、競合検出ロジック１３００は、マスクレジスタ１３０３内に格納されたビット値に基づく、マスク演算を使用して結果を生成してよい（このいくつかの例については後述する）。

本発明の一実施形態による方法が図１４に示されている。方法は、上記のシステムアーキテクチャの文脈において実装されてよいが、いずれの特定のシステムアーキテクチャにも限定はされない。

１４０１において、第１のセットのデータ要素が第１のソースベクトルレジスタ内に格納され、第２のセットのデータ要素が第２のベクトルレジスタ内に格納される。１４０２において、第１のソースレジスタ内の各データ要素が、第２のソースレジスタ内のデータ要素の指定されたセットと比較される。例えば、上記の通り、第１のソースレジスタ内の各要素が、第２のソースレジスタ内のＬＳＢにより近い各要素と比較されてよい。代替的に、第１のソースレジスタ内の各要素は、第２のソースレジスタ内の各要素と比較されてよい。１４０３において、比較の結果がデスティネーションレジスタ内に格納される（例えば、１は比較が真であったことを示し、０は比較が偽であったことを示す）。最後に、１４０４において、次のプログラムコード実行において、決定を行うために結果が使用されてよい。例えば、結果は、ベクトル化して実行すると、エラーを引き起こすであろう命令間の依存関係を指定してよい。よって、これらの例においては、命令のスカラバージョンが実行されてよい。

ここで、比較演算を使用して、命令シーケンスのベクトル化バージョンまたはスカラバージョンのいずれを実装すべきかを判断する、本発明の特定の実施形態について説明する。一実施形態において、Ａ、Ｂ、ＣおよびＤがアレイで、Ａ０、Ｂ０、Ｃ０およびＤ０は、アレイの開始アドレスを表わし、Ａ１、Ｂ１、Ｃ１およびＤ１はアレイの終了アドレスを表わす。次のループに、演算のセットが実行される。

各アレイ間の重複がメモリ内に存在するかどうかを検出し、存在する場合、重複は許容可能なものであるか、または競合内の結果はスカラ実行へのフォールバックを要求するものであるかを判断するために、以下のセットの演算が使用されてよい。

まず、以下のように、開始アドレスが第１のソースレジスタであるｚｍｍ０内にパックされ、終了アドレスが第２のソースレジスタであるｚｍｍ１内にパックされ、各レジスタ内の順序はＤＣＢＡ（最上位から最下位へ）と想定する。

これは、例えば、次の値、すなわちＤ０＝１９２、Ｃ０＝１２８、Ｂ０＝３２、Ａ０＝０、Ｄ１＝２５６、Ｃ１＝１９２、Ｂ１＝９６およびＡ１＝６４を使用して図１３に示された配置に実装されてよい。

一実施形態においては、まずｚｍｍ０内の値が、一連の「小なり」比較演算を使用してｚｍｍ１内の値と比較される。例えば、zmm2 = vpconflictlt zmm0については、ｚｍｍ１を使用して、ｚｍｍ０内の各データ要素がｚｍｍ１内のＬＳＢにより近い各要素より小さいかを判断してよい。例えば、Ｄ０（１９２）がＣ１（１９２）、Ｂ１（９６）およびＡ１（６４）と比較される。というのは、これらの要素の各々はＬＳＢにより近いからである。Ｄ０（１９２）がこれらの値のいずれかより小さくない場合、デスティネーションレジスタ内の３つのビットが０に設定される。同様に、Ｃ０（１２８）がＢ１（９６）とＡ１（６４）と、およびＢ０（３２）がＡ１（６４）と比較される。一実施形態においては、ｚｍｍ２内の４つのビットが使用され、各データ要素の比較演算の結果を示す。例えば、上記の数を使用して、ｚｍｍ２内のビットは以下のように設定されてよい。

換言すると、ｚｍｍ０内のデータ要素（Ａ０‐Ｄ０）とｚｍｍ１内のデータ要素との間の比較結果を示すために、４つのビットの各々は使用される。故に、上記Ｄ０の下方にある４つのビットは、Ｄ０と、各データ要素Ｄ１、Ｃ１、Ｂ１およびＡ１との間の比較結果をそれぞれ示している（左から右へ）。もちろん、命令の「トライアンギュラー」バージョンが使用されており、Ｄ０とＤ１の比較はないので、このビットは自動的に０に設定される。「小なり」比較が真である唯一の例は、Ｂ０（３２）がＡ１（６４）と比較されるときである。よって、上記Ｂ０の下方の第１のビットが設定されている（すなわち、ｚｍｍ２内のＢ０‐Ａ１比較に関連するビット）。

また、一実施形態において、ｚｍｍ０内の値が、一連の「大なり」比較演算を使用してｚｍｍ１内の値と比較される。例えば、zmm3 = vpconflictgt zmm1については、ｚｍｍ０を使用して、ｚｍｍ１内の各データ要素がｚｍｍ０内のＬＳＢにより近い各要素より大きいかを判断してよい。例えば、同一の数のセットを使用して、Ｄ１（２５６）がＣ０（１２８）、Ｂ０（３２）およびＡ０（０）と比較される。というのは、これらの要素の各々はＬＳＢにより近いからである。Ｄ１（２５６）はこれらのデータ要素の各々より大きいので、デスティネーションレジスタ内の対応する３つのビットは１に設定される（以下を参照）。同様に、Ｃ１（１９２）がＢ０（３２）およびＡ０（０）と比較され、Ｂ１（９６）がＡ０（０）と比較され、その結果、ｚｍｍ３内に以下の結果が格納される。

一実施形態において、ｚｍｍ２内の「小なり」演算の結果が、ｚｍｍ３内の「大なり」演算の結果と論理ＡＮＤ演算され、最終結果がｚｍｍ２内に格納される。例えば、zmm2 = vpand zmm2, zmm3である。上記の値を使用すると、ｚｍｍ２内に格納される最終結果は以下の通りである。

ＡＮＤ演算の後、マスク値を使用して、任意の読み取り‐読み取りテストがフィルタ除去されてよい。例えば、ＡおよびＣは両方とも読み取り操作であるので、ＡおよびＣが競合しても問題はない（すなわち、換言すると、読み取り間には依存関係は存在しないので、ＡおよびＣは競合をもたらさない）。一実施形態において、マスク演算を実行するには、ｚｍｍ４から、以下のマスク値が使用される。

次に、ｚｍｍ４の結果はｚｍｍ２内の結果と論理ＡＮＤ演算され（例えば、zmm2 = vpand zmm2, zmm4）、以下の結果を生成する。

一実施形態においては、次に、ｖｐｔｅｓｔ命令を使用して競合がテストされ、マスクレジスタｋ１は以下のように設定される。

一実施形態において、第１のソースオペランド（ｚｍｍ２）の第１の要素と第２のソースオペランド（ｚｍｍ５）の第１の要素のビット単位のＡＮＤ演算について、結果のいずれかのビットが１である場合、ｖｐｔｅｓｔｍがマスクレジスタｋ１の第１のビットを設定してよい。同様に、第１のソースオペランドと第２のソースオペランドの対応する要素の論理ＡＮＤ演算の結果のいずれかのビットが１である場合、ｖｐｔｅｓｔｍはマスクレジスタｋ１の他のビットを設定してよい。

一実施形態において、次に、ｋｏｒｔｅｓｔ命令がｋ１の値に適用され、ＺＦとＣＦとを更新する。例えば、ｋｏｒｔｅｓｔｋ１について、ｋ１のマスクビットとｋ１のマスクビットとのビット単位のＯＲ演算を実行し、それに応じてゼロフラグ（ＺＦ）フィールドとキャリーフラグ（ＣＦ）フィールドとを更新するために、ｋ１が使用されてよい。

最後に、競合（例えば、アレイ間の許容不可な重複に起因）が検出された場合、プログラムコードは、例えばjnz scalar_fallbackを使用して、ループのスカラバージョンにジャンプしてよい。代替的に、競合が検出されない場合、ループのベクトル化されたバージョンが実行されてよい。

図１５は、上記の技術による競合を検出するための方法を示す。１５０１において、アレイ開始アドレスが第１のソースレジスタ内に格納され、アレイ終了アドレスが第２のソースレジスタ内に格納される。１５０２において、比較演算のセットが実行され、開始アドレスの各々を終了アドレスの各々と比較する（例えば、重複を判断するため）。上記の通り、２つのセットの比較演算が実行され（例えば、小なり比較および大なり比較）、２つの別個のデスティネーションレジスタ内に結果が格納されてよい。１５０３において、２つのセットの比較演算の結果が結合され、別のデスティネーションレジスタ内に格納される（例えば、上記の通り、結果をＡＮＤ演算することによって）。１５０４において、任意の読み取り‐読み取りテストがフィルタ除去され（例えば、マスク値でＡＮＤ演算されることで）、最終結果が生成される。１５０５において、いずれかの競合が存在するかを判断すべく、さらに最終結果が処理および／または解析される。競合が検出されるか１５０６において判断され、検出される場合、１５０８において、プログラムコードのスカラバージョンが実行される。競合が検出されない場合、１５０７において、プログラムコードのベクトル化されたバージョンが実行される。

いくつかの具体例が説明目的で上記されているが、本発明の根本的な原理はこれらの具体例に限定されない。例えば、上記のいくつかの実施形態は、異なるタイプの比較を実行するために、異なる命令オペコードを利用するものの、本発明の根本的な原理は、同一の命令オペコードを用いて異なるタイプの比較を実行してよい（例えば、異なるタイプの比較を示すために、異なる即値の値を使用して）。また、図１５中に示され且つ上記された具体例は、「小なり」および「大なり」比較の組み合わせを使用する一方で、本発明の根本的な原理は、これらの特定のタイプの比較演算には限定されない。故に、本発明の範囲および精神は、専ら添付の特許請求の範囲に照らし判断されるべきである。

上記の明細書において、本発明の実施形態は、本発明の具体的な例示的実施形態を参照して記載されている。しかしながら、添付の特許請求の範囲に記載の本発明のより広範な精神および範囲から逸脱することなく、様々な修正および変更が本発明に加えられ得ることは自明であろう。従って、明細書および図面は限定的な意味ではなく、例示的な意味において解釈されるべきである。

本発明の実施形態は、上記の様々な段階を含んでよい。当該段階は機械で実行可能な命令に具現化されてよく、当該命令を使用して、汎用プロセッサまたは専用プロセッサに当該段階を実行させてよい。代替的に、これらの段階は具体的なハードウェアコンポーネントによって実行されてよく、当該ハードウェアコンポーネントは、当該段階を実行するためのハードワイヤードされたロジックを含む。またはこれらの段階はプログラムされたコンピュータコンポーネントおよびカスタムのハードウェアコンポーネントの任意の組み合わせによって実行されてよい。

本明細書で上記の通り、命令とは、特定の処理を実行するように構成された若しくは予め定められた機能を有する特定用途向け集積回路（ＡＳＩＣ）等のハードウェアの特定の構成、または、非一時コンピュータ可読媒体に具現化されたメモリ内に格納されたソフトウェア命令を指してよい。故に、図面中に図示された技術は、１または複数の電子デバイス（例えば、エンドステーション、ネットワーク要素等）に格納され、当該電子デバイス上で実行されるコードおよびデータを使用して実装可能である。このような電子デバイスは、コンピュータ機械可読媒体を使用してコードおよびデータを格納および通信し（内部的におよび／またはネットワーク経由で他の電子デバイスと共に）、このようなコンピュータ機械可読媒体としては、非一時的コンピュータ機械可読記録媒体（例えば、磁気ディスク、光ディスク、ランダムアクセスメモリ、リードオンリメモリ、フラッシュメモリデバイス、相変化メモリ）および一時的コンピュータ機械可読通信媒体（例えば、搬送波、赤外線信号、デジタル信号等、電気、光、音響または他の形態の伝搬信号）が挙げられる。また、このような電子デバイスは通常、１または複数のストレージデバイス（非一時的機械可読記録媒体）、ユーザ入力／出力デバイス（例えば、キーボード、タッチスクリーンおよび／またはディスプレイ）およびネットワーク接続等の１または複数の他のコンポーネントに連結された１または複数のプロセッサのセットを含む。プロセッサのセットおよび他のコンポーネントとの連結は通常、１または複数のバスおよびブリッジ（またバスコントローラとも呼ばれる）を介してなされる。ストレージデバイスおよびネットワークトラフィックを搬送する信号はそれぞれ、１または複数の機械可読記録媒体および機械可読通信媒体を表わす。故に、特定の電子デバイスのストレージデバイスは通常、その電子デバイスの１または複数のプロセッサのセット上で実行されるためのコードおよび／またはデータを格納する。もちろん、本発明の実施形態に係る１または複数の部分が、ソフトウェア、ファームウェア、および／またはハードウェアの異なる組み合わせを使用して実装されてもよい。詳細な説明にわたり、本発明の完全な理解を共すべく、多数の具体的な詳細が説明目的で記載された。しかしながら、本発明はこれらの具体的な詳細の一部を省いても実施可能であることは当業者に自明なところである。特定の例においては、本発明の主題を不明瞭にするのを避けるべく、周知の構造および機能は詳細には記載されていない。従って、本発明の範囲および精神は以降の特許請求の範囲に照らし判断するものとする。
本願によれば、以下の各項目もまた開示される。
［項目１］
第１のセットのデータ要素を格納するための第１のソースベクトルレジスタと、
第２のセットのデータ要素を格納するための第２のソースベクトルレジスタと、
上記第１のセットのデータ要素の各々を、上記第２のセットの指定されたデータ要素と比較して比較結果のセットを生成する、指定された比較演算を実行するための競合検出ロジックと、を備え、
上記比較演算は、大なり比較、小なり比較、大なり等号比較、小なり等号比較、および不等号比較から成る群から選択される、プロセッサ。
［項目２］
第１のセットの比較結果を格納するためのデスティネーションベクトルレジスタをさらに備える、項目１に記載のプロセッサ。
［項目３］
上記比較結果は、各比較演算に関連付けられたビットを含む、項目２に記載のプロセッサ。
［項目４］
１の値に設定された上記比較結果の各ビットは、上記第１のセットのデータ要素の１つと、上記第２のセットのデータ要素の１つとの間の関連する比較が真の結果をもたらしたことを示す、項目３に記載のプロセッサ。
［項目５］
上記真の結果は、小なり比較に関し、上記第１のセットのデータ要素の１つが、上記第２のセットのデータ要素の１つより小さいこと、大なり比較に関し、上記第１のセットのデータ要素の１つが、上記第２のセットのデータ要素の１つより大きいこと、小なり等号比較に関し、上記第１のセットのデータ要素の１つが、上記第２のセットのデータ要素の１つより小さいまたは等しいこと、大なり等号比較に関し、上記第１のセットのデータ要素の１つが、上記第２のセットのデータ要素の１つより大きいまたは等しいこと、または、不等号比較に関し、上記第１のセットのデータ要素の１つが、上記第２のセットのデータ要素の１つに等しくないこと、を含む、項目４に記載のプロセッサ。
［項目６］
上記競合検出ロジックは、上記第１のセットのデータ要素の１つ１つを、上記第１のセットのデータ要素の上記１つより下位の位置を有する上記第２のセットのデータ要素の１つ１つと比較する、項目１から５のいずれか一項に記載のプロセッサ。
［項目７］
上記競合検出ロジックは、上記第１のセットのデータ要素の１つ１つを、上記第２のセットのデータ要素の１つ１つと比較する、項目１から５のいずれか一項に記載のプロセッサ。
［項目８］
上記競合検出ロジックは、上記競合検出ロジックによって実行される競合検出命令のタイプに基づいて、実行される比較演算を選択する、項目１から７のいずれか一項に記載のプロセッサ。
［項目９］
上記競合検出ロジックは、上記競合検出ロジックによって実行される競合検出命令と共に提供される即値に基づいて、実行される比較演算を選択する、項目１から７のいずれか一項に記載のプロセッサ。
［項目１０］
上記競合検出ロジックは、複数のアレイ開始アドレスを、複数のアレイ終了アドレスと比較する複数の比較演算を実行することによって、範囲チェックを実行する、項目１から９のいずれか一項に記載のプロセッサ。
［項目１１］
上記アレイ開始アドレスは、上記第１のソースベクトルレジスタ内の上記第１のセットのデータ要素として格納され、上記アレイ終了アドレスは、上記第２のソースベクトルレジスタ内の上記第２のセットのデータ要素として格納される、項目１０に記載のプロセッサ。
［項目１２］
上記競合検出ロジックは、小なり比較を実行し、上記アレイ開始アドレスの各々が、上記アレイ終了アドレスの指定されたセットの各々より小さいかを判断する、項目１１に記載のプロセッサ。
［項目１３］
上記競合検出ロジックはさらに、大なり演算を実行し、上記アレイ終了アドレスの各々が、上記アレイ開始アドレスの指定されたセットより大きいかを判断する、項目１２に記載のプロセッサ。
［項目１４］
上記アレイ終了アドレスの指定されたセットは、比較対象の上記アレイ開始アドレスよりも下位の位置を有する終了アドレスを含み、上記アレイ開始アドレスの指定されたセットは、比較対象の上記アレイ終了アドレスよりも下位の位置を有する開始アドレスを含む、項目１３に記載のプロセッサ。
［項目１５］
上記より小なり演算および上記大なり演算の結果は共にＡＮＤされ、結合された結果を生成する、項目１４に記載のプロセッサ。
［項目１６］
上記競合検出ロジックは、読み取り‐読み取りの比較結果をフィルタ除去し、最終結果を生成する、項目１５に記載のプロセッサ。
［項目１７］
上記読み取り‐読み取りの結果のフィルタ除去は、上記結合された結果に指定されたマスクを適用することを含む、項目１６に記載のプロセッサ。
［項目１８］
上記最終結果は、プログラムコードのベクトル化されたバージョンまたは上記プログラムコードのスカラバージョンのいずれを実行すべきかを判断するために使用される、項目１７に記載のプロセッサ。
［項目１９］
上記最終結果が競合を示す場合、上記プログラムコードの上記スカラバージョンが実行される、項目１８に記載のプロセッサ。
［項目２０］
上記第１のソースベクトルレジスタおよび上記第２のソースベクトルレジスタは５１２ビットベクトルレジスタを有し、上記データ要素の各々はクワッドワードまたはダブルワードを有する、項目１から１９のいずれか一項に記載のプロセッサ。
［項目２１］
第１のセットのデータ要素を第１のソースベクトルレジスタ内に格納する段階と、
第２のセットのデータ要素を第２のソースベクトルレジスタ内に格納する段階と、
上記第１のセットのデータ要素の各々を、上記第２のセットの指定されたデータ要素と比較して比較結果のセットを生成する、指定された比較演算を実行する段階と、を備え、
上記比較演算は、大なり比較、小なり比較、大なり等号比較、小なり等号比較、および不等号比較から成る群から選択される、方法。
［項目２２］
第１のセットの比較結果を格納するためのデスティネーションベクトルレジスタをさらに備える、項目２１に記載の方法。
［項目２３］
上記比較結果は、各比較演算に関連付けられたビットを含む、項目２２に記載の方法。
［項目２４］
１の値に設定された上記比較結果の各ビットは、上記第１のセットのデータ要素の１つと、上記第２のセットのデータ要素の１つとの間の関連する比較が真の結果をもたらしたことを示す、項目２３に記載の方法。
［項目２５］
上記真の結果は、小なり比較に関し、上記第１のセットのデータ要素の１つが、上記第２のセットのデータ要素の１つより小さいこと、大なり比較に関し、上記第１のセットのデータ要素の１つが、上記第２のセットのデータ要素の１つより大きいこと、小なり等号比較に関し、上記第１のセットのデータ要素の１つが、上記第２のセットのデータ要素の１つより小さいまたは等しいこと、大なり等号比較に関し、上記第１のセットのデータ要素の１つが、上記第２のセットのデータ要素の１つより大きいまたは等しいこと、または、不等号比較に関し、上記第１のセットのデータ要素の１つが、上記第２のセットのデータ要素の１つに等しくないこと、を含む、項目２４に記載の方法。

Claims

第１のセットのデータ要素を格納するための第１のソースベクトルレジスタと、
第２のセットのデータ要素を格納するための第２のソースベクトルレジスタと、
前記第１のセットのデータ要素の各々を、前記第２のセットの指定されたデータ要素と比較して比較結果のセットを生成する、指定された比較演算を実行するための競合検出ロジックと、を備え、
前記比較演算は、大なり比較、小なり比較、大なり等号比較、小なり等号比較、および不等号比較から成る群から選択され、
前記競合検出ロジックは、両方共に読み取り操作の対象となる前記第１のセットのデータ要素に含まれるデータ要素と前記第２のセットのデータ要素に含まれるデータ要素との間の読み取り‐読み取りの比較結果をフィルタ除去し、最終結果を生成する、
プロセッサ。
第１のセットの比較結果を格納するためのデスティネーションベクトルレジスタをさらに備える、請求項１に記載のプロセッサ。
前記比較結果は、各比較演算に関連付けられたビットを含む、請求項２に記載のプロセッサ。
１の値に設定された前記比較結果の各ビットは、前記第１のセットのデータ要素の１つと、前記第２のセットのデータ要素の１つとの間の関連する比較が真の結果をもたらしたことを示す、請求項３に記載のプロセッサ。
前記真の結果は、小なり比較に関し、前記第１のセットのデータ要素の１つが、前記第２のセットのデータ要素の１つより小さいこと、大なり比較に関し、前記第１のセットのデータ要素の１つが、前記第２のセットのデータ要素の１つより大きいこと、小なり等号比較に関し、前記第１のセットのデータ要素の１つが、前記第２のセットのデータ要素の１つより小さいまたは等しいこと、大なり等号比較に関し、前記第１のセットのデータ要素の１つが、前記第２のセットのデータ要素の１つより大きいまたは等しいこと、または、不等号比較に関し、前記第１のセットのデータ要素の１つが、前記第２のセットのデータ要素の１つに等しくないこと、を含む、請求項４に記載のプロセッサ。
第１のセットのデータ要素を格納するための第１のソースベクトルレジスタと、
第２のセットのデータ要素を格納するための第２のソースベクトルレジスタと、
前記第１のセットのデータ要素の各々を、前記第２のセットの指定されたデータ要素と比較して比較結果のセットを生成する、指定された比較演算を実行するための競合検出ロジックと、を備え、
前記比較演算は、大なり比較、小なり比較、大なり等号比較、小なり等号比較、および不等号比較から成る群から選択され、
前記競合検出ロジックは、前記第１のセットのデータ要素に含まれるデータ要素を、当該データ要素より下位の位置を有する、前記第２のセットのデータ要素に含まれるデータ要素のそれぞれと比較することを、前記第１のセットのデータ要素に含まれるデータ要素のそれぞれについて行う、プロセッサ。
前記競合検出ロジックは、前記第１のセットのデータ要素に含まれるデータ要素を、前記第２のセットのデータ要素に含まれるデータ要素のそれぞれと比較することを、前記第１のセットのデータ要素に含まれるデータ要素のそれぞれについて行う、請求項１から５のいずれか一項に記載のプロセッサ。
前記競合検出ロジックは、前記競合検出ロジックによって実行される競合検出命令のタイプに基づいて、実行される比較演算を選択する、請求項１から７のいずれか一項に記載のプロセッサ。
前記競合検出ロジックは、前記競合検出ロジックによって実行される競合検出命令と共に提供される即値に基づいて、実行される比較演算を選択する、請求項１から７のいずれか一項に記載のプロセッサ。
第１のセットのデータ要素を格納するための第１のソースベクトルレジスタと、
第２のセットのデータ要素を格納するための第２のソースベクトルレジスタと、
前記第１のセットのデータ要素の各々を、前記第２のセットの指定されたデータ要素と比較して比較結果のセットを生成する、指定された比較演算を実行するための競合検出ロジックと、を備え、
前記比較演算は、大なり比較、小なり比較、大なり等号比較、小なり等号比較、および不等号比較から成る群から選択され、
前記競合検出ロジックは、複数のアレイ開始アドレスを、複数のアレイ終了アドレスと比較する複数の比較演算を実行することによって、範囲チェックを実行する、プロセッサ。
前記アレイ開始アドレスは、前記第１のソースベクトルレジスタ内の前記第１のセットのデータ要素として格納され、前記アレイ終了アドレスは、前記第２のソースベクトルレジスタ内の前記第２のセットのデータ要素として格納される、請求項１０に記載のプロセッサ。
前記競合検出ロジックは、小なり比較を実行し、前記アレイ開始アドレスの各々が、前記アレイ終了アドレスの指定されたセットの各々より小さいかを判断する、請求項１１に記載のプロセッサ。
前記競合検出ロジックはさらに、大なり比較を実行するに際し、複数の前記アレイ終了アドレスを、第１のソースベクトルレジスタ内の第１のセットのデータ要素として格納しているものとして扱い、複数の前記アレイ開始アドレスを、第２のソースベクトルレジスタ内の第２のセットのデータ要素として格納しているものとして扱いつつ、大なり比較を実行し、前記アレイ終了アドレスの各々が、前記アレイ開始アドレスの指定されたセットより大きいかを判断する、請求項１２に記載のプロセッサ。
前記アレイ終了アドレスの指定されたセットは、比較対象の前記アレイ開始アドレスよりも下位の位置を有する終了アドレスを含み、前記アレイ開始アドレスの指定されたセットは、比較対象の前記アレイ終了アドレスよりも下位の位置を有する開始アドレスを含む、請求項１３に記載のプロセッサ。
前記小なり比較および前記大なり比較の結果は共にＡＮＤされ、結合された結果を生成する、請求項１４に記載のプロセッサ。
前記競合検出ロジックは、両方共に読み取り操作の対象となるアレイ同士の間におけるアレイ開始アドレスとアレイ終了アドレスとの比較結果である読み取り‐読み取りの比較結果をフィルタ除去し、最終結果を生成する、請求項１５に記載のプロセッサ。
前記読み取り‐読み取りの比較結果のフィルタ除去は、前記結合された結果に指定されたマスクを適用することを含む、請求項１６に記載のプロセッサ。
前記最終結果は、プログラムコードのベクトル化されたバージョンまたは前記プログラムコードのスカラバージョンのいずれを実行すべきかを判断するために使用される、請求項１７に記載のプロセッサ。
前記最終結果が競合を示す場合、前記プログラムコードの前記スカラバージョンが実行される、請求項１８に記載のプロセッサ。
前記第１のソースベクトルレジスタおよび前記第２のソースベクトルレジスタは５１２ビットベクトルレジスタであり、前記データ要素の各々はクワッドワードまたはダブルワードを有する、請求項１から１９のいずれか一項に記載のプロセッサ。
第１のセットのデータ要素を第１のソースベクトルレジスタ内に格納する段階と、
第２のセットのデータ要素を第２のソースベクトルレジスタ内に格納する段階と、
前記第１のセットのデータ要素の各々を、前記第２のセットの指定されたデータ要素と比較して比較結果のセットを生成する、指定された比較演算を実行する段階と、を備え、
前記比較演算は、大なり比較、小なり比較、大なり等号比較、小なり等号比較、および不等号比較から成る群から選択され、
さらに両方共に読み取り操作の対象となる前記第１のセットのデータ要素に含まれるデータ要素と前記第２のセットのデータ要素に含まれるデータ要素との間の読み取り‐読み取りの比較結果をフィルタ除去し、最終結果を生成する段階を備える、
方法。
デスティネーションベクトルレジスタに、第１のセットの比較結果を格納する段階をさらに備える、請求項２１に記載の方法。
前記比較結果は、各比較演算に関連付けられたビットを含む、請求項２２に記載の方法。
１の値に設定された前記比較結果の各ビットは、前記第１のセットのデータ要素の１つと、前記第２のセットのデータ要素の１つとの間の関連する比較が真の結果をもたらしたことを示す、請求項２３に記載の方法。
前記真の結果は、小なり比較に関し、前記第１のセットのデータ要素の１つが、前記第２のセットのデータ要素の１つより小さいこと、大なり比較に関し、前記第１のセットのデータ要素の１つが、前記第２のセットのデータ要素の１つより大きいこと、小なり等号比較に関し、前記第１のセットのデータ要素の１つが、前記第２のセットのデータ要素の１つより小さいまたは等しいこと、大なり等号比較に関し、前記第１のセットのデータ要素の１つが、前記第２のセットのデータ要素の１つより大きいまたは等しいこと、または、不等号比較に関し、前記第１のセットのデータ要素の１つが、前記第２のセットのデータ要素の１つに等しくないこと、を含む、請求項２４に記載の方法。
第１のセットのデータ要素を第１のソースベクトルレジスタ内に格納する段階と、
第２のセットのデータ要素を第２のソースベクトルレジスタ内に格納する段階と、
前記第１のセットのデータ要素の各々を、前記第２のセットの指定されたデータ要素と比較して比較結果のセットを生成する、指定された比較演算を実行する段階と、を備え、
前記比較演算は、大なり比較、小なり比較、大なり等号比較、小なり等号比較、および不等号比較から成る群から選択され、
さらに前記第１のセットのデータ要素に含まれるデータ要素を、当該データ要素より下位の位置を有する、前記第２のセットのデータ要素に含まれるデータ要素のそれぞれと比較することを、前記第１のセットのデータ要素に含まれるデータ要素のそれぞれについて行う段階を備える、方法。
第１のセットのデータ要素を第１のソースベクトルレジスタ内に格納する段階と、
第２のセットのデータ要素を第２のソースベクトルレジスタ内に格納する段階と、
前記第１のセットのデータ要素の各々を、前記第２のセットの指定されたデータ要素と比較して比較結果のセットを生成する、指定された比較演算を実行する段階と、を備え、
前記比較演算は、大なり比較、小なり比較、大なり等号比較、小なり等号比較、および不等号比較から成る群から選択され、
さらに複数のアレイ開始アドレスを、複数のアレイ終了アドレスと比較する複数の比較演算を実行することによって、範囲チェックを実行する段階を備える、方法。