JP2017539010A

JP2017539010A - ベクトル飽和ダブルワード／クワッドワードの加算を実行するための命令およびロジック

Info

Publication number: JP2017539010A
Application number: JP2017527310A
Authority: JP
Inventors: オウルド−アハムド−ヴァル、エルモウスタファ; バレンタイン、ロバート; エル．トール、ブレット; サンアドリアン、イエスコーバル; ジェイ．チャーニー、マーク; ビー．ジルカル、ミリンド
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-12-23
Filing date: 2015-11-23
Publication date: 2017-12-28
Also published as: TWI644256B; SG11201704251RA; WO2016105771A1; TWI567644B; TW201643709A; CN107077332A; BR112017010988A2; US20160179530A1; EP3238031A1; EP3238031A4; TW201732575A; KR20170099860A

Abstract

いくつかの実施形態において、命令セットアーキテクチャへのベクトル拡張は、飽和した符号付き整数加算および符号なし整数加算を実行するための命令を含む。一実施形態において、符号付き飽和を用いるベクトル符号付き整数加算が提供される。一実施形態において、符号なし飽和を用いるベクトル符号なし整数加算が提供される。一実施形態において、符号付き命令および符号なし命令の両方についてパックドダブルワード整数およびパックドクワッドワード整数がサポートされる。

Description

本開示は、プロセッサまたは他の処理ロジックにより実行されると、論理的、数学的、または他の関数オペレーションを実行する処理ロジック、マイクロプロセッサ、および関連付けられた命令セットアーキテクチャの分野に関する。

アプリケーションの一定のタイプは、多くの場合、多数のデータアイテムに対して実行される同一のオペレーションを必要とする（「データ並列性」と称される）。単一命令多重データ（ＳＩＭＤ）は、プロセッサに複数のデータアイテムに対するオペレーションを実行させるタイプの命令を指す。ＳＩＭＤ技術は、レジスタにおけるビットをいくつかの固定サイズのデータ要素に論理的に分割し得、固定サイズのデータ要素の各々が別個の値を表すプロセッサに特に好適である。例えば、２５６ビットレジスタにおけるビットは、４個の別個の６４ビットパックドデータ要素（クワッドワード（Ｑ）サイズのデータ要素）、８個の別個の３２ビットパックドデータ要素（ダブルワード（Ｄ）サイズのデータ要素）、１６個の別個の１６ビットパックドデータ要素（ワード（Ｗ）サイズのデータ要素）、または３２個の別個の８ビットデータ要素（バイト（Ｂ）サイズのデータ要素）として演算されるソースオペランドとして指定されてもよい。このタイプのデータは、「パックド」データタイプまたは「ベクトル」データタイプと称され、このデータタイプのオペランドは、パックドデータオペランドまたはベクトルオペランドと称される。換言すると、パックドデータアイテムまたはベクトルは、パックドデータ要素のシーケンスを指し、パックドデータオペランドまたはベクトルオペランドは、ＳＩＭＤ命令（パックドデータ命令またはベクトル命令としても知られる）のソースまたはデスティネーションオペランドである。

実施形態は、例として示され、添付の図面における図に限定されない。

実施形態による、例示的なインオーダフェッチ、デコード、リタイアパイプライン、および例示的なレジスタリネーム、アウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。

実施形態による、プロセッサに含まれる、例示的インオーダフェッチ、デコード、リタイアコアの例示的な実施形態、および例示的なレジスタリネーム、アウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。

より具体的な例示的インオーダコアアーキテクチャのブロック図である。より具体的な例示的インオーダコアアーキテクチャのブロック図である。

統合メモリコントローラおよび専用ロジックを用いるシングルコアプロセッサおよびマルチコアプロセッサのブロック図である。

実施形態によるシステムのブロック図を示す。

実施形態による第２のシステムのブロック図を示す。

実施形態による第３のシステムのブロック図を示す。

実施形態によるシステムオンチップ（ＳｏＣ）のブロック図を示す。

実施形態による、ソース命令セットのバイナリ命令を、ターゲット命令セットのバイナリ命令に変換するソフトウェア命令コンバータの使用と対比するブロック図を示す。

実施形態によるライトマスキングされたベクトル加算を示すブロック図である。

本明細書に説明される実施形態による、命令を実行するための例示的なプロセッサロジックのブロック図である。

実施形態による、ベクトル飽和加算を実行するための命令を含む処理システムのブロック図である。

本明細書に説明される実施形態による、命令を実行するためのロジックのフロー図である。

実施形態による、一般的ベクトル向け命令フォーマットおよびその命令テンプレートを示すブロック図である。実施形態による、一般的ベクトル向け命令フォーマットおよびその命令テンプレートを示すブロック図である。

実施形態による例示的な特定ベクトル向け命令フォーマットを示すブロック図である。実施形態による例示的な特定ベクトル向け命令フォーマットを示すブロック図である。

一実施形態による、レジスタインデックスフィールドを構成する特定ベクトル向け命令フォーマットのフィールドを示すブロック図である。

一実施形態による、追加オペレーションフィールドを構成する特定ベクトル向け命令フォーマットのフィールドを示すブロック図である。

一実施形態による、レジスタアーキテクチャ１５００のブロック図である。

ｘ８６、ＭＭＸ（商標）、ストリーミングＳＩＭＤ拡張（ＳＳＥ）、ＳＳＥ２、ＳＳＥ３、ＳＳＥ４．１、およびＳＳＥ４．２命令を含む命令セットを有する、インテル（登録商標）Ｃｏｒｅ（商標）プロセッサにより使用されるもの等、ＳＩＭＤ技術は、アプリケーション性能における著しい改善を可能にした。ＡｄｖａｎｃｅｄＶｅｃｔｏｒＥｘｔｅｎｓｉｏｎｓ（ＡＶＸ）（ＡＶＸ１およびＡＶＸ２）と称され、ベクトル拡張（ＶＥＸ）符号化スキームを用いる追加のセットのＳＩＭＤ拡張が、リリースされている（例えば、Ｉｎｔｅｌ（登録商標）６４ａｎｄＩＡ−３２ＡｒｃｈｉｔｅｃｔｕｒｅｓＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｅｒｓＭａｎｕａｌ，Ｓｅｐｔｅｍｂｅｒ２０１４およびＩｎｔｅｌ（登録商標）ＡｒｃｈｉｔｅｃｔｕｒｅＩｎｓｔｒｕｃｔｉｏｎＳｅｔＥｘｔｅｎｓｉｏｎｓＰｒｏｇｒａｍｍｉｎｇＲｅｆｅｒｅｎｃｅ，Ｓｅｐｔｅｍｂｅｒ２０１４を参照）。インテル（登録商標）アーキテクチャ（ＩＡ）を拡張するアーキテクチャ拡張が説明される。しかし、基礎となる原理は、いずれの特定のＩＳＡにも限定されない。

一実施形態において、処理デバイスは、飽和したダブルワードまたはクワッドワード加算オペレーションを実行する命令のセットを実装する。一実施形態において、ベクトル飽和加算命令は、第１および第２のオペランドにより示される２つのベクトルレジスタの対応する要素に対して並列加算を実行し、第３のオペランドにより示される第３のベクトルレジスタに結果を書き込む。一実施形態において、スカラダブルワードデータ要素またはスカラクワッドワードデータ要素は、ベクトルレジスタの各要素に加算され得る。一実施形態において、個々の結果がターゲットデータ要素の範囲を超える場合、範囲外の当該データ要素のデスティネーションオペランドに飽和値が書き込まれる。

プロセッサコアアーキテクチャを以下に説明し、その次に本明細書に説明される実施形態による例示的なプロセッサおよびコンピュータアーキテクチャの説明が続く。下記の本発明の実施形態の完全な理解を提供するべく、多数の具体的な詳細が記載される。しかし、当業者には、実施形態がこれらの具体的な詳細のいくつかを用いることなく実施され得ることが明らかであろう。様々な実施形態の基礎となる原理を不明瞭にするのを避けるべく、他の例において、周知の構造およびデバイスがブロック図の形態で示される。

プロセッサコアは、異なる態様で、異なる目的のために異なるプロセッサに実装され得る。例えば、そのようなコアの実装は、１）汎用演算用の汎用インオーダコア、２）汎用演算用の高性能汎用アウトオブオーダコア、３）主にグラフィックスおよび／またはサイエンティフィック（スループット）演算用の専用コアを含み得る。プロセッサは、シングルプロセッサコアを用いて実装されてもよく、またはマルチプロセッサコアを含み得る。プロセッサ内のプロセッサコアは、アーキテクチャ命令セットの観点からは同種または異種であり得る。

異なるプロセッサの実装は、１）汎用演算用の１もしくは複数の汎用インオーダコア、ならびに／または汎用演算用の１もしくは複数の汎用アウトオブオーダコアを含む中央処理装置、および２）主にグラフィックスおよび／またはサイエンティフィック（例えば、多集積コアプロセッサ）用の１もしくは複数の専用コアを含むコプロセッサを備える。そのような異なるプロセッサは、１）中央システムプロセッサとは別個のチップ上にあるコプロセッサ、２）別個のダイ上にあるが、中央システムプロセッサと同一のパッケージのコプロセッサ、３）他のプロセッサコアと同一のダイ上にあるコプロセッサ（この場合、そのようなコプロセッサは、場合によっては統合グラフィックスおよび／もしくはサイエンティフィック（スループット）ロジック等の専用ロジック、または専用コアと称される）、および４）同一のダイ上に、説明したプロセッサ（アプリケーションコアもしくはアプリケーションプロセッサと称される場合がある）、上記のコプロセッサ、ならびに追加の機能を含み得るシステムオンチップを含む異なるコンピュータシステムアーキテクチャをもたらす。

例示的なコアアーキテクチャ
インオーダおよびアウトオブオーダコアのブロック図
図１Ａは、実施形態による、例示的なインオーダパイプライン、および例示的なレジスタリネーム、アウトオブオーダ発行／実行パイプラインを示すブロック図である。図１Ｂは、実施形態による、プロセッサに含まれる、インオーダアーキテクチャコアの例示的な実施形態、および例示的なレジスタリネーム、アウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。図１Ａ〜図１Ｂにおける実線ボックスは、インオーダパイプラインおよびインオーダコアを示すが、破線ボックスの任意選択の追加は、レジスタリネーム、アウトオブオーダ発行／実行のパイプラインおよびコアを示す。インオーダ態様がアウトオブオーダ態様のサブセットであることを考慮して、アウトオブオーダ態様が説明される。

図１Ａにおいて、プロセッサパイプライン１００は、フェッチステージ１０２、長さデコードステージ１０４、デコードステージ１０６、アロケーションステージ１０８、リネームステージ１１０、スケジューリング（ディスパッチまたは発行としても知られる）ステージ１１２、レジスタ読み出し／メモリ読み出しステージ１１４、実行ステージ１１６、ライトバック／メモリ書き込みステージ１１８、例外処理ステージ１２２、およびコミットステージ１２４を含む。

図１Ｂは、実行エンジンユニット１５０に結合されたフロントエンドユニット１３０を含むプロセッサコア１９０を示し、実行エンジンユニット１５０およびフロントエンドユニット１３０の両方がメモリユニット１７０に結合される。コア１９０は、縮小命令セットコンピューティング（ＲＩＳＣ）コア、複合命令セットコンピューティング（ＣＩＳＣ）コア、超長命令語（ＶＬＩＷ）コア、またはハイブリッドもしくは代替的なコアタイプであってもよい。なおも別の選択肢として、コア１９０は、例えば、ネットワークコアまたは通信コア、圧縮エンジン、コプロセッサコア、汎用演算グラフィックス処理ユニット（ＧＰＧＰＵ）コア、グラフィックスコア等のような専用コアであってもよい。

フロントエンドユニット１３０は、命令キャッシュユニット１３４に結合される分岐予測ユニット１３２を含む。命令キャッシュユニット１３４は、命令トランスレーションルックアサイドバッファ（ＴＬＢ）１３６に結合される。ＴＬＢ１３６は、命令フェッチユニット１３８に結合される。命令フェッチユニット１３８は、デコードユニット１４０に結合される。デコードユニット１４０（またはデコーダ）は、命令をデコードし、出力として１もしくは複数のマイクロオペレーション、マイクロコードエントリーポイント、マイクロ命令、他の命令、または他の制御信号を生成することができ、これらは、元の命令からデコードされ、または別途これらを反映し、あるいはこれらから派生する。デコードユニット１４０は、様々な異なるメカニズムを用いて実装され得る。好適なメカニズムの例としては、ルックアップテーブル、ハードウェア実装、プログラマブルロジックアレイ（ＰＬＡ）、マイクロコードリードオンリメモリ（ＲＯＭ）等が挙げられるが、これらに限定されない。一実施形態において、コア１９０は、一定のマクロ命令に対するマイクロコードを（例えば、デコードユニット１４０またはそうでなければフロントエンドユニット１３０内に）格納するマイクロコードＲＯＭまたは他の媒体を含む。デコードユニット１４０は、実行エンジンユニット１５０におけるリネーム／アロケータユニット１５２に結合される。

実行エンジンユニット１５０は、リタイアメントユニット１５４および１または複数のスケジューラユニット１５６のセットに結合されたリネーム／アロケータユニット１５２を含む。スケジューラユニット１５６は、リザベーションステーション、中央命令ウィンドウ等を含む、任意の数の異なるスケジューラを表す。スケジューラユニット１５６は、物理レジスタファイルユニット１５８に結合される。物理レジスタファイルユニット１５８の各々は、１または複数の物理レジスタファイルを表し、これらの異なるものが、スカラ整数、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点、ステータス（例えば、実行されるべき次の命令のアドレスである命令ポインタ）等のような１または複数の異なるデータタイプを格納する。一実施形態において、物理レジスタファイルユニット１５８は、ベクトルレジスタユニット、ライトマスクレジスタユニット、およびスカラレジスタユニットを備える。これらのレジスタユニットは、アーキテクチャベクトルレジスタ、ベクトルマスクレジスタ、および汎用レジスタを提供し得る。物理レジスタファイルユニット１５８は、リタイアメントユニット１５４と重なっており、レジスタリネームおよびアウトオブオーダ実行が（例えば、リオーダバッファおよびリタイアメントレジスタファイルを用い、フューチャファイル、履歴バッファ、およびリタイアメントレジスタファイルを用い、レジスタのレジスタマップおよびプール等を用いて）実装され得る様々な態様を示す。リタイアメントユニット１５４および物理レジスタファイルユニット１５８は、実行クラスタ１６０に結合される。実行クラスタ１６０は、１または複数の実行ユニット１６２のセット、および１または複数のメモリアクセスユニット１６４のセットを含む。実行ユニット１６２は、様々なオペレーション（例えば、シフト、加算、減算、乗算）を、様々なタイプのデータ（例えば、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点）に対して実行し得る。いくつかの実施形態は、特定の関数または関数のセットに専用のいくつかの実行ユニットを含み得るが、他の実施形態は、１つの実行ユニットのみ、またはその全てがあらゆる関数を実行する複数の実行ユニットを含み得る。スケジューラユニット１５６、物理レジスタファイルユニット１５８、および実行クラスタ１６０は、場合によっては複数のものとして示される。なぜなら、ある実施形態は、一定のタイプのデータ／オペレーションのための別個のパイプライン（例えば、各々が自身のスケジューラユニット、物理レジスタファイルユニット、および／または実行クラスタを有し、別個のメモリアクセスパイプラインの場合に、このパイプラインの実行クラスタのみがメモリアクセスユニット１６４を有する一定の実施形態が実装されるスカラ整数パイプライン、スカラ浮動小数点／パックド整数／パックド浮動小数点／ベクトル整数／ベクトル浮動小数点パイプライン、および／またはメモリアクセスパイプライン）を生成するからである。別個のパイプラインが用いられる場合に、これらのパイプラインのうちの１または複数は、アウトオブオーダ発行／実行であり、残りはインオーダであり得ることも理解されたい。

メモリアクセスユニット１６４のセットは、メモリユニット１７０に結合される。メモリユニット１７０は、データＴＬＢユニット１７２を含む。データＴＬＢユニット１７２は、データキャッシュユニット１７４に結合される。データキャッシュユニット１７４は、レベル２（Ｌ２）キャッシュユニット１７６に結合される。例示的な一実施形態において、メモリアクセスユニット１６４は、ロードユニット、ストアアドレスユニット、およびストアデータユニットを含み得、それらの各々がメモリユニット１７０におけるデータＴＬＢユニット１７２に結合される。命令キャッシュユニット１３４は、メモリユニット１７０におけるレベル２（Ｌ２）キャッシュユニット１７６に更に結合される。Ｌ２キャッシュユニット１７６は、１または複数の他のレベルのキャッシュに結合され、最終的にはメインメモリに結合される。

例として、例示的なレジスタリネーム、アウトオブオーダ発行／実行コアアーキテクチャは、パイプライン１００を以下のように実装し得る。１）命令フェッチ１３８は、フェッチステージ１０２および長さデコードステージ１０４を実行する。２）デコードユニット１４０は、デコードステージ１０６を実行する。３）リネーム／アロケータユニット１５２は、アロケーションステージ１０８およびリネームステージ１１０を実行する。４）スケジューラユニット１５６は、スケジューリングステージ１１２を実行する。５）物理レジスタファイルユニット１５８およびメモリユニット１７０は、レジスタ読み出し／メモリ読み出しステージ１１４を実行し、実行クラスタ１６０は、実行ステージ１１６を実行する。６）メモリユニット１７０および物理レジスタファイルユニット１５８は、ライトバック／メモリ書き込みステージ１１８を実行する。７）様々なユニットは、例外処理ステージ１２２に関係し得る。８）リタイアメントユニット１５４および物理レジスタファイルユニット１５８は、コミットステージ１２４を実行する。

コア１９０は、本明細書において説明される命令を含む、１または複数の命令セット（例えば、ｘ８６命令セット（より新しいバージョンを追加された、いくつかの拡張を伴う）、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰＳ命令セット、英国ケンブリッジのＡＲＭＨｏｌｄｉｎｇｓのＡＲＭ（登録商標）命令セット（ＮＥＯＮ等の任意選択の追加拡張を伴う）をサポートし得る。一実施形態において、コア１９０は、パックドデータ命令セット拡張（例えば、ＡＶＸ１、ＡＶＸ２等）をサポートするロジックを含み、多くのマルチメディアアプリケーションにより用いられるオペレーションがパックドデータを用いて実行されることを可能にする。

コアは、マルチスレッディング（２もしくはそれより多い並列セットのオペレーションもしくはスレッドを実行する）をサポートし得、タイムスライスマルチスレッディング、同時マルチスレッディング（物理コアが同時にマルチスレッディングするスレッドの各々に対する論理コアを、単一の物理コアが提供する）、またはそれらの組み合わせ（例えば、インテル（登録商標）ハイパースレッディング技術等におけるタイムスライスフェッチおよびデコード、ならびにその後の同時マルチスレッディング）を含む様々な態様でサポートし得ることを理解されたい。

レジスタリネームは、アウトオブオーダ実行の文脈で説明されるが、レジスタリネームは、インオーダアーキテクチャで用いられ得ることを理解されたい。プロセッサの示される実施形態は、別個の命令およびデータキャッシュユニット１３４／１７４、ならびに共有Ｌ２キャッシュユニット１７６も含むが、代替的な実施形態は、例えば、レベル１（Ｌ１）内部キャッシュまたは複数のレベルの内部キャッシュ等の命令およびデータの両方に対する単一の内部キャッシュを有し得る。いくつかの実施形態において、システムは、内部キャッシュ、ならびにコアおよび／またはプロセッサの外部にある外部キャッシュの組み合わせを含み得る。あるいは、キャッシュの全てがコアおよび／またはプロセッサの外部にあってもよい。

具体的な例示的インオーダコアアーキテクチャ
図２Ａ〜図２Ｂは、コアが、チップにおけるいくつかの論理ブロックのうちの１つ（同一タイプおよび／または異なるタイプの他のコアを含む）である、より具体的な例示的インオーダコアアーキテクチャのブロック図である。アプリケーションに応じて、論理ブロックは、ある固定機能ロジック、メモリＩ／Ｏインタフェース、および他の必要なＩ／Ｏロジックと高帯域幅の相互接続ネットワーク（例えば、リングネットワーク）を介して通信する。

図２Ａは、実施形態による、オンダイ相互接続ネットワーク２０２への接続と共に、レベル２（Ｌ２）キャッシュのローカルサブセット２０４を伴うシングルプロセッサコアのブロック図である。一実施形態において、命令デコーダ２００は、パックドデータ命令セット拡張を用いるｘ８６命令セットをサポートする。Ｌ１キャッシュ２０６は、スカラユニットおよびベクトルユニット内のキャッシュメモリへの低レイテンシアクセスを可能にする。一実施形態において（設計を簡略化するべく）、スカラユニット２０８およびベクトルユニット２１０は、別個のレジスタセット（各々、スカラレジスタ２１２およびベクトルレジスタ２１４）を用い、それらの間で転送されるデータは、メモリに書き込まれ、次に、レベル１（Ｌ１）キャッシュ２０６からリードバックされる。代替的な実施形態は、異なるアプローチ（例えば、単一のレジスタセットを用い、または書き込まれ、リードバックされることなく、２つのレジスタファイルの間で、データが転送されることを可能にする通信パスを含む）を用い得る。

Ｌ２キャッシュのローカルサブセット２０４は、プロセッサコア毎に１つの、別個のローカルサブセットに分割された全体的なＬ２キャッシュの一部である。各プロセッサコアは、Ｌ２キャッシュ２０４の自身のローカルサブセットへの直接のアクセス経路を有する。プロセッサコアにより読み出されたデータは、Ｌ２キャッシュサブセット２０４内に格納され、自身のローカルＬ２キャッシュサブセットにアクセスする他のプロセッサコアと並列に迅速にアクセスされ得る。プロセッサコアにより書き込まれたデータは、自身のＬ２キャッシュサブセット２０４に格納され、必要であれば他のサブセットからフラッシュされる。リングネットワークは、共有データに対するコヒーレンシを保証する。リングネットワークは、プロセッサコア、Ｌ２キャッシュ、および他の論理ブロック等のエージェントがチップ内で互いに通信することを可能にするべく双方向である。各リングデータパスは、１方向毎に１０１２ビット幅である。

図２Ｂは、実施形態による、図２Ａにおけるプロセッサコアの一部の拡大図である。図２Ｂは、Ｌ１キャッシュ２０４のＬ１データキャッシュ２０６Ａ部分、ならびにベクトルユニット２１０およびベクトルレジスタ２１４に関する更なる詳細を含む。具体的には、ベクトルユニット２１０は、１６幅ベクトル処理ユニット（ＶＰＵ）（１６幅ＡＬＵ２２８を参照）であり、これは、整数命令、単精度浮動小数点命令、および倍精度浮動小数点命令のうちの１または複数を実行する。ＶＰＵは、スウィズルユニット２２０によるレジスタ入力のスウィズル、数値変換ユニット２２２Ａ〜Ｂによる数値変換、およびレプリケーションユニット２２４によるメモリ入力に対するレプリケーションをサポートする。ライトマスクレジスタ２２６は、結果として生じるベクトル書き込みのプレディケートを可能にする。

統合メモリコントローラおよび専用ロジックを用いるプロセッサ
図３は、実施形態による、２つ以上のコアを有し得、統合メモリコントローラを有し得、統合グラフィックスを有し得る、プロセッサ３００のブロック図である。図３における実線ボックスは、シングルコア３０２Ａ、システムエージェント３１０、１または複数のバスコントローラユニット３１６のセットを有するプロセッサ３００を示すが、破線ボックスの任意選択の追加は、複数のコア３０２Ａ〜Ｎ、システムエージェントユニット３１０における１または複数の統合メモリコントローラユニット３１４のセット、および専用ロジック３０８を有する代替的なプロセッサ３００を示す。

従って、プロセッサ３００の異なる実装としては、１）（１または複数のコアを含み得る）統合グラフィックスおよび／またはサイエンティフィック（スループット）ロジックである専用ロジック３０８と、１または複数の汎用コア（例えば、汎用インオーダコア、汎用アウトオブオーダコア、これら２つの組み合わせ）であるコア３０２Ａ〜Ｎとを用いるＣＰＵ、２）主にグラフィックスおよび／またはサイエンティフィック（スループット）用の多数の専用コアであるコア３０２Ａ〜Ｎを用いるコプロセッサ、ならびに３）多数の汎用インオーダコアであるコア３０２Ａ〜Ｎを用いるコプロセッサが挙げられ得る。このように、プロセッサ３００は、例えば、ネットワークプロセッサまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ（汎用グラフィックス処理ユニット）、（３０個またはそれより多いコアを含む）高スループット多集積コア（ＭＩＣ）コプロセッサ、エンベデッドプロセッサ等のような汎用プロセッサ、コプロセッサ、または専用プロセッサであり得る。プロセッサは、１または複数のチップ上に実装され得る。プロセッサ３００は、例えば、ＢｉＣＭＯＳ、ＣＭＯＳ、またはＮＭＯＳ等のいくつかの処理技術のいずれかを用いる１または複数の基板の一部であり得、および／または１または複数の基板上に実装され得る。

メモリ階層は、コア内における１または複数のレベルのキャッシュと、１セットまたは１もしくは複数の共有キャッシュユニット３０６と、統合メモリコントローラユニット３１４のセットに結合された外部メモリ（図示せず）とを含む。共有キャッシュユニット３０６のセットは、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）、または他のレベルキャッシュ等、１または複数の中間レベルのキャッシュ、ラストレベルキャッシュ（ＬＬＣ）、および／またはこれらの組み合わせを含み得る。一実施形態においては、リングベースの相互接続ユニット３１２は、統合グラフィックスロジック３０８、共有キャッシュユニット３０６のセット、およびシステムエージェントユニット３１０／統合メモリコントローラユニット３１４を相互接続するが、代替的な実施形態は、そのようなユニットを相互接続するために任意の数の周知の技術を用いてもよい。一実施形態において、１または複数のキャッシュユニット３０６とコア３０２Ａ〜Ｎとの間でコヒーレンシが保持される。

いくつかの実施形態において、コア３０２Ａ〜Ｎのうちの１または複数は、マルチスレッディングができる。システムエージェント３１０は、コア３０２Ａ〜Ｎを調整して動作させるコンポーネントを含む。システムエージェントユニット３１０は、例えば、電力制御ユニット（ＰＣＵ）およびディスプレイユニットを含み得る。ＰＣＵは、コア３０２Ａ〜Ｎおよび統合グラフィックスロジック３０８の電力状態を調整するのに必要とされるロジックおよびコンポーネントであるか、またはこれらを含み得る。ディスプレイユニットは、１または複数の外部接続されたディスプレイを駆動するためのものである。

コア３０２Ａ〜Ｎは、アーキテクチャ命令セットの観点からは同種または異種であり得る。すなわち、コア３０２Ａ〜Ｎのうちの２またはそれより多くは、同じ命令セットを実行することができる場合があり、他のものは、当該命令セットのサブセットのみ、または異なる命令セットを実行することができる場合がある。

例示的なコンピュータアーキテクチャ
図４〜７は、例示的なコンピュータアーキテクチャのブロック図である。ラップトップ、デスクトップ、ハンドヘルドＰＣ、携帯情報端末、エンジニアリングワークステーション、サーバ、ネットワークデバイス、ネットワークハブ、スイッチ、エンベデッドプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、グラフィックスデバイス、ビデオゲームデバイス、セットトップボックス、マイクロコントローラ、携帯電話、ポータブルメディアプレーヤ、ハンドヘルドデバイス、および様々な他の電子デバイスの技術分野で既知の他のシステム設計および構成も好適である。一般に、本明細書において開示されるプロセッサおよび／または他の実行ロジックを組み込むことができる多種多様なシステムまたは電子デバイスが概ね好適である。

図４は、実施形態によるシステム４００のブロック図を示す。システム４００は、１または複数のプロセッサ４１０、４１５を含み得、これらはコントローラハブ４２０に結合される。一実施形態において、コントローラハブ４２０は、グラフィックスメモリコントローラハブ（ＧＭＣＨ）４９０および入出力ハブ（ＩＯＨ）４５０（別個のチップ上にあり得る）を含む。ＧＭＣＨ４９０は、メモリコントローラおよびグラフィックスコントローラを含み、これらにメモリ４４０およびコプロセッサ４４５が結合される。ＩＯＨ４５０は、入出力（Ｉ／Ｏ）デバイス４６０をＧＭＣＨ４９０に結合する。あるいは、メモリおよびグラフィックスコントローラの一方または両方が（本明細書において説明される）プロセッサ内に統合され、メモリ４４０およびコプロセッサ４４５は、プロセッサ４１０およびＩＯＨ４５０を有する単一チップ内のコントローラハブ４２０に直接に結合される。

追加のプロセッサ４１５の任意選択の性質は、図４において破線で示される。各プロセッサ４１０、４１５は、本明細書に説明される処理コアのうちの１または複数を含み得、プロセッサ３００の何らかのバージョンであり得る。

メモリ４４０は、例えば、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、相変化メモリ（ＰＣＭ）、またはこれら２つの組み合わせであってもよい。少なくとも一実施形態においては、コントローラハブ４２０は、フロントサイドバス（ＦＳＢ）等のマルチドロップバス、ＱｕｉｃｋＰａｔｈ相互接続（ＱＰＩ）等のポイントツーポイントインタフェース、または類似の接続４９５を介してプロセッサ４１０、４１５と通信する。

一実施形態において、コプロセッサ４４５は、例えば、高スループットＭＩＣプロセッサ、ネットワークプロセッサまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、エンベデッドプロセッサ等のような専用プロセッサである。一実施形態において、コントローラハブ４２０は、統合グラフィックスアクセラレータを含み得る。

物理リソース４１０と物理リソース４１５との間には、アーキテクチャ、マイクロアーキテクチャ、熱、電力消費の特性等を含む幅広い価値基準に関して様々な違いが存在し得る。

一実施形態において、プロセッサ４１０は、一般的なタイプのデータ処理オペレーションを制御する命令を実行する。コプロセッサ命令は、命令中に埋め込まれ得る。プロセッサ４１０は、取り付けられたコプロセッサ４４５により実行されるべきタイプとしてこれらのコプロセッサ命令を認識する。従って、プロセッサ４１０は、コプロセッサバスまたは他の相互接続においてこれらのコプロセッサ命令（またはコプロセッサ命令を表す制御信号）をコプロセッサ４４５に発する。コプロセッサ４４５は、受信したコプロセッサ命令を受け取って実行する。

図５は、実施形態による、第１のより具体的な例示的システム５００のブロック図を示す。図５に示されるように、マルチプロセッサシステム５００は、ポイントツーポイント相互接続システムであり、ポイントツーポイント相互接続５５０を介して結合される第１のプロセッサ５７０および第２のプロセッサ５８０を含む。プロセッサ５７０および５８０の各々は、プロセッサ３００の何らかのバージョンであり得る。本発明の一実施形態において、プロセッサ５７０および５８０は各々、プロセッサ４１０および４１５であるが、コプロセッサ５３８は、コプロセッサ４４５である。別の実施形態において、プロセッサ５７０および５８０は各々、プロセッサ４１０およびコプロセッサ４４５である。

統合メモリコントローラ（ＩＭＣ）ユニット５７２および５８２を各々含むプロセッサ５７０および５８０が示される。プロセッサ５７０は、そのバスコントローラユニットの一部としてポイントツーポイント（Ｐ‐Ｐ）インタフェース５７６および５７８も含む。同様に、第２のプロセッサ５８０は、Ｐ‐Ｐインタフェース５８６および５８８を含む。プロセッサ５７０、５８０は、Ｐ‐Ｐインタフェース回路５７８、５８８を用いて、ポイントツーポイント（Ｐ‐Ｐ）インタフェース５５０を介して情報を交換し得る。図５に示されるように、ＥＶＩＣ５７２および５８２は、プロセッサを各メモリ、すなわち、各プロセッサにローカルに取り付けられたメインメモリの一部であり得るメモリ５３２およびメモリ５３４に結合する。

プロセッサ５７０、５８０は各々、ポイントツーポイントインタフェース回路５７６、５９４、５８６、５９８を用い、個々のＰ‐Ｐインタフェース５５２、５５４を介してチップセット５９０と情報を交換し得る。任意選択で、チップセット５９０は、高性能インタフェース５３９を介してコプロセッサ５３８と情報を交換し得る。一実施形態において、コプロセッサ５３８は、例えば、高スループットＭＩＣプロセッサ、ネットワークプロセッサもしくは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、エンベデッドプロセッサ等のような専用プロセッサである。

共有キャッシュ（図示せず）は、いずれかのプロセッサに含まれ、または両方のプロセッサの外部にあり得るが、プロセッサが低電力モードにされると、どちらかまたは両方のプロセッサのローカルキャッシュ情報が共有キャッシュに格納され得るように、Ｐ‐Ｐ相互接続を介してプロセッサとなおも接続され得る。

チップセット５９０は、インタフェース５９６を介して第１のバス５１６に結合され得る。一実施形態において、第１のバス５１６は、周辺構成要素相互接続（ＰＣＩ）バス、またはＰＣＩＥｘｐｒｅｓｓバス、または別の第３世代Ｉ／Ｏ相互接続バス等のバスであり得るが、本発明の範囲はそのように限定されない。

図５に示されるように、様々なＩ／Ｏデバイス５１４が、第１のバス５１６を第２のバス５２０に結合するバスブリッジ５１８と共に、第１のバス５１６に結合され得る。一実施形態において、コプロセッサ、高スループットＭＩＣプロセッサ、ＧＰＧＰＵ、アクセラレータ（例えば、グラフィックスアクセラレータまたはデジタル信号処理（ＤＳＰ）ユニット等）、フィールドプログラマブルゲートアレイ、またはその他のプロセッサ等、１または複数の追加のプロセッサ５１５が第１のバス５１６に結合される。一実施形態において、第２のバス５２０は、ローピンカウント（ＬＰＣ）バスであり得る。様々なデバイスは、一実施形態において、例えば、キーボードおよび／またはマウス５２２、通信デバイス５２７、ならびに命令／コードおよびデータ５３０を含み得るディスクドライブもしくは他の大容量ストレージデバイス等のストレージユニット５２８を含む第２のバス５２０に結合され得る。更に、オーディオＩ／Ｏ５２４は、第２のバス５２０に結合され得る。他のアーキテクチャが可能であることに留意されたい。例えば、図５のポイントツーポイントアーキテクチャに代えて、システムは、マルチドロップバスまたは他のそのようなアーキテクチャを実装し得る。

図６は、実施形態による、第２のより具体的な例示的システム６００のブロック図を示す。図５および図６の同一の要素は、同一の参照番号を有し、図６の他の態様を不明瞭にするのを避けるべく、図５の特定の態様は、図６から省略されている。

図６は、プロセッサ５７０、５８０が統合メモリおよびＩ／Ｏ制御ロジック（「ＣＬ」）５７２および５８２を各々含み得ることを示す。従って、ＣＬ５７２、５８２は、統合メモリコントローラユニットを含み、Ｉ／Ｏ制御ロジックを含む。図６は、メモリ５３２、５３４がＣＬ５７２、５８２に結合されていることのみならず、Ｉ／Ｏデバイス６１４も制御ロジック５７２、５８２に結合されていることを示す。レガシＩ／Ｏデバイス６１５は、チップセット５９０に結合される。

図７は、実施形態によるＳｏＣ７００のブロック図を示す。図３における類似の要素は、同一の参照番号を有する。また、破線ボックスは、より高度なＳｏＣの任意選択の特徴である。図７において、相互接続ユニット７０２は、１もしくは複数のコア３０２Ａ〜Ｎおよび共有キャッシュユニット３０６のセットを含むアプリケーションプロセッサ７１０、システムエージェントユニット３１０、バスコントローラユニット３１６、統合メモリコントローラユニット３１４、統合グラフィックスロジック、画像プロセッサ、オーディオプロセッサ、およびビデオプロセッサを含み得る１もしくは複数のコプロセッサ７２０のセット、スタティックランダムアクセスメモリ（ＳＲＡＭ）ユニット７３０、ダイレクトメモリアクセス（ＤＭＡ）ユニット７３２、および１もしくは複数の外部ディスプレイを結合するディスプレイユニット７４０に結合される。一実施形態において、コプロセッサ７２０は、例えば、ネットワークプロセッサもしくは通信プロセッサ、圧縮エンジン、ＧＰＧＰＵ、高スループットＭＩＣプロセッサ、エンベデッドプロセッサ等のような専用プロセッサを含む。

本明細書に開示されるメカニズムの実施形態は、ハードウェア、ソフトウェア、ファームウェア、またはそのような実装アプローチの組み合わせで実装される。実施形態は、少なくとも１つのプロセッサ、ストレージシステム（揮発性および不揮発性メモリ、ならびに／またはストレージ要素を含む）、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスを有するプログラマブルシステム上で実行するコンピュータプログラムまたはプログラムコードとして実装される。

図５に示されるコード５３０等のプログラムコードは、本明細書に説明される機能を実行して出力情報を生成するべく、入力命令に適用され得る。出力情報は、既知の様式で１または複数の出力デバイスに適用され得る。本願の目的のために、処理システムは、例えば、デジタル信号プロセッサ（ＤＳＰ）、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、またはマイクロプロセッサ等のプロセッサを有する任意のシステムを含む。

プログラムコードは、高水準手続き型プログラミング言語またはオブジェクト指向プログラミング言語で実装され、処理システムと通信し得る。所望であれば、プログラムコードは、アセンブリ言語または機械語でも実装され得る。実際には、本明細書に説明されるメカニズムは、範囲においていずれの特定のプログラミング言語にも限定されない。いずれの場合においても、言語は、コンパイル型言語またはインタープリタ型言語であってもよい。

少なくとも一実施形態の１または複数の態様は、プロセッサ内の様々なロジックを表す、機械可読媒体上に格納された代表的データにより実装され得、当該データは、機械により読み出されると、当該機械に本明細書に説明される技術を実行させるためのロジックを生成させる。「ＩＰコア」として知られるそのような表現は、有形機械可読媒体（「テープ」）上に格納され、様々な顧客または製造設備に供給され、ロジックまたはプロセッサを実際に作製する製造機械に読み込まれ得る。例えば、ＡＲＭＨｏｌｄｉｎｇｓ，Ｌｔｄおよび中国科学院の計算技術研究所（ＩＣＴ）により開発されたプロセッサ等のＩＰコアは、様々な顧客またはライセンシにライセンス供与または販売され、これらの顧客またはライセンシにより製造されるプロセッサに実装され得る。

そのような機械可読ストレージ媒体としては、ハードディスク、フロッピー（登録商標）ディスク、光ディスク、コンパクトディスクリードオンリメモリ（ＣＤ‐ＲＯＭ）、書き換え可能コンパクトディスク（ＣＤ‐ＲＷ）、および光磁気ディスク等、その他のタイプのディスクを含むストレージ媒体、リードオンリメモリ（ＲＯＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）等のランダムアクセスメモリ（ＲＡＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、フラッシュメモリ、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、相変化メモリ（ＰＣＭ）等の半導体デバイス、磁気もしくは光カード、または電子命令を格納するのに好適なその他のタイプの媒体を含む、機械またはデバイスにより製造または形成される、非一時的で有形な構成の物品が挙げられ得るが、これらに限定されない。

従って、実施形態は、本明細書に説明される構造体、回路、装置、プロセッサ、および／またはシステム機能を定義するハードウェア記述言語（ＨＤＬ）等の命令を含むか、または設計データを含む非一時的有形機械可読媒体も含む。そのような実施形態は、プログラム製品と称され得る。

エミュレーション（バイナリ変換、コードモーフィング等を含む）
いくつかの場合に、命令コンバータは、ソース命令セットからターゲット命令セットへと命令を変換するべく用いられ得る。例えば、命令コンバータは、（例えば、静的バイナリ変換、動的コンパイルを含む動的バイナリ変換を用いて）命令を、コアにより処理されるべき１または複数の他の命令に翻訳し、モーフィングし、エミュレートし、または別の方法で変換し得る。命令コンバータは、ソフトウェア、ハードウェア、ファームウェア、またはこれらの組み合わせで実装され得る。命令コンバータは、プロセッサ上にあり、プロセッサから離れ、またはプロセッサ上の一部であり、プロセッサから離れた一部であり得る。

図８は、実施形態による、ソース命令セットのバイナリ命令を、ターゲット命令セットのバイナリ命令に変換するソフトウェア命令コンバータの使用と対比するブロック図である。示された実施形態において、命令コンバータは、ソフトウェア命令コンバータであるが、あるいは、命令コンバータは、ソフトウェア、ファームウェア、ハードウェア、またはこれらの様々な組み合わせで実装され得る。図８は、高水準言語８０２によるプログラムが、少なくとも１つのｘ８６命令セットコア８１６を有するプロセッサによりネイティブに実行され得るｘ８６バイナリコード８０６を生成するべく、ｘ８６コンパイラ８０４を用いてコンパイルされ得ることを示す。

少なくとも１つのｘ８６命令セットコア８１６を有するプロセッサは、少なくとも１つのｘ８６命令セットコアを用いるインテル（登録商標）プロセッサと実質的に同一の結果を実現するべく、（１）インテル（登録商標）ｘ８６命令セットコアの命令セットの実質的部分、または（２）少なくとも１つのｘ８６命令セットコアを有するインテル（登録商標）プロセッサ上で起動することを目的とする、オブジェクトコードバージョンのアプリケーションもしくは他のソフトウェアを互換的に実行し、または別の方法で処理することにより、少なくとも１つのｘ８６命令セットコアを有するインテル（登録商標）プロセッサと実質的に同一の機能を実行し得る任意のプロセッサを表す。ｘ８６コンパイラ８０４は、ｘ８６バイナリコード８０６（例えば、オブジェクトコード）を生成するように動作可能なコンパイラを表す。ｘ８６バイナリコード８０６は、追加のリンク処理を用いるか、または用いることなく少なくとも１つのｘ８６命令セットコア８１６を有するプロセッサにおいて実行され得る。同様に、図８は、高水準言語８０２によるプログラムが、少なくとも１つのｘ８６命令セットコア８１４を有しないプロセッサ（例えば、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰＳ命令セットを実行し、および／または英国ケンブリッジのＡＲＭＨｏｌｄｉｎｇｓのＡＲＭ命令セットを実行するコアを有するプロセッサ）によりネイティブに実行され得る代替的な命令セットバイナリコード８１０を生成する代替的な命令セットコンパイラ８０８を用いて、コンパイルされ得ることを示す。

命令コンバータ８１２は、ｘ８６バイナリコード８０６を、ｘ８６命令セットコア８１４を有しないプロセッサによりネイティブに実行され得るコードに変換するべく用いられる。この変換済みコードは、代替的な命令セットバイナリコード８１０と同じである可能性が低い。なぜなら、これができる命令コンバータは、作成することが困難だからである。しかし、変換済みコードは、一般的なオペレーションを実現し、代替的な命令セットの命令から構成される。従って、命令コンバータ８１２は、ソフトウェア、ファームウェア、ハードウェア、またはこれらの組み合わせを表し、これらは、エミュレーション、シミュレーション、またはその他の処理により、ｘ８６命令セットプロセッサまたはコアを有しないプロセッサまたは他の電子デバイスがｘ８６バイナリコード８０６を実行することを可能にする。

ベクトル飽和ダブルワード／クワッドワード加算命令
飽和演算は、特にデジタル信号処理アプリケーションにおける多くのデータ処理アルゴリズムの効率性を向上させる。飽和加算は、多くのアルゴリズムにおいて通常のものである。しかし、既存の命令を用いて飽和演算を実装するためには、高価な命令シーケンスが要求される。いくつかの実施形態において、命令セットアーキテクチャへのベクトル拡張は、飽和した符号付き整数加算および符号なし整数加算を実行するための命令を含む。一実施形態において、符号付き飽和を用いるベクトル符号付き整数加算が提供される。一実施形態において、符号なし飽和を用いるベクトル符号なし整数加算が提供される。一実施形態において、符号付き命令および符号なし命令の両方についてパックドダブルワード整数およびパックドクワッドワード整数がサポートされる。

例えば、ベクトルパックド加算符号付きダブルワード（例えば、ＶＰＡＤＤＳＤ）命令は、プロセッサに、第１のソースオペランドおよび第２のソースオペランドの飽和を用いたパックド符号付きダブルワード整数のＳＩＭＤ加算を実行させる。次に、プロセッサは、パックド整数の結果をデスティネーションオペランドに格納する。個々のダブルワードの結果が符号付きダブルワード整数の範囲を超える（すなわち、０ｘ７ＦＦＦＦＦＦＦより大きく、または０ｘ８０００００００より小さい）場合、０ｘ７ＦＦＦＦＦＦＦまたは０ｘ８０００００００の飽和値がデスティネーションオペランドに各々書き込まれる。クワッドワード符号付き命令（例えば、ＶＰＡＤＤＳＱ）および符号なしバージョン（ダブルワードおよびクワッドワード用。例えば、ＶＰＡＤＤＵＳＤ、ＶＰＡＤＤＵＳＱの各々）は、符号なしおよび／またはクワッドワード飽和値と同様に機能する。一実施形態において、１２８ビット、２５６ビット、および５１２ビットのベクトルレジスタがサポートされ、ダブルワード命令については４個、８個、または１６個のベクトル要素がサポートされ、クワッドワード命令については２個、４個、または８個のベクトル要素がサポートされる。

図９は、実施形態によるライトマスキングされたベクトル加算を示すブロック図である。一実施形態において、ライトマスクレジスタＫ_１９１０は、データ要素位置ベースでデスティネーションベクトルオペランドにおける当該データ要素位置が命令オペレーションの結果を反映するか否かを制御する。ライトマスキング構成に基づいて、デスティネーションオペランド（例えば、ＤＥＳＴオペランド９０７）における各データ要素位置は、第１のソースオペランド（例えば、ＳＲＣ１オペランド９０１）および第２のソースオペランド（例えば、ＳＲＣ２オペランド９０２）により識別されたベクトルレジスタの対応するデータ要素の和の出力のどれかを含む。例えば、デスティネーション要素０９１０ａは、関連付けられたライトマスク値１を有し、ＳＲＣ１オペランド９０１の要素０（例えば０ｘ９）と、ＳＲＣ２オペランド９０２の要素０（例えば０ｘ８）との和の結果を受け取る。デスティネーション要素１９１０ｂは、関連付けられたライトマスク値０を有し、ライトマスク構成に基づいて、示されるようにゼロマスキングされる。すなわち要素の元の値は変化しない。ＳＲＣ１オペランド９０１およびＳＲＣ２オペランド９０２の両方がベクトルとして示されているが、一実施形態において、命令におけるＳＲＣ２は、ＳＲＣ１オペランド９０１により指定されたベクトルレジスタの各要素に加算されるスカラ整数値を格納するメモリアドレスであってもよい。

図１０は、本明細書に説明される実施形態による、命令を実行するための例示的なプロセッサロジックのブロック図である。実施形態によれば、ベクトル加算ロジック１００６は、第１のソースレジスタ（例えば、ＳＲＣ１レジスタ１００１）、第２のソースレジスタ（例えば、ＳＲＣ２レジスタ１００２）、およびデスティネーションレジスタ（例えば、ＤＥＳＴレジスタ１００７）を含む。一実施形態において、ＳＲＣ１レジスタ１００２は、例示的なソースベクトルＡを含むが、ＳＲＣ２レジスタ１００２は、例示的なソースベクトルＢを含む。対応するベクトル要素の和が計算され、それらの要素のうちの少なくともいくつかが用いられて例示的なベクトルＣを生成し得、ベクトルＣは、一実施形態においてＤＥＳＴレジスタ１００７に出力される。一実施形態において、第１のソースレジスタは、ソースベクトルＡを含むが、第２のソースレジスタは、指定されたメモリ位置（例えば、命令におけるＳＲＣ２により指定されたアドレス）からフェッチされたスカラ値Ｂを含む。スカラ値は、実施形態によれば、汎用レジスタに格納され、またはベクトルレジスタの複数の要素にブロードキャストされ得る。範囲外の結果を適切な飽和値（例えば、符号付きまたは符号なしのいずれかの最小値または最大値）と置き換えるために、飽和ロジック１００８がベクトル加算ロジック１００８に含まれる。

図１０に示される具体例において、ＳＲＣ１レジスタ１００１、ＳＲＣ２レジスタ１００２、およびＤＥＳＴレジスタ１００７は、各々１２８ビットである。しかし、本明細書に説明される実施形態の基礎となる原理はそのようなものとして限定されず、２５６ビットおよび５１２ビットを含む更なるレジスタサイズが異なる実施形態において用いられてもよい。一実施形態において、デスティネーションレジスタのデータ要素の各々について、マスクデータ構造体１０１０内でマスクビットも指定され得る。デスティネーションレジスタ内の特定のデータ要素に関連付けられたマスクビットが真（ｔｒｕｅ）（例えば１）に設定されると、ベクトル加算ロジック１００６は、関連付けられたデータ要素の和を出力する。マスクビットが偽（ｆａｌｓｅ）（例えば０）に設定されると、一実施形態においては、ベクトル加算ロジック１００６は、関連付けられたデスティネーションレジスタエントリにゼロを書き込む。マスク値に応答してデスティネーションデータ要素にゼロを書き込む上記の技術は、本明細書において「ゼロ書き込みマスキング（ｚｅｒｏｉｎｇｍａｓｋｉｎｇ）」と称される。あるいは、一実施形態は、デスティネーションレジスタに格納された以前のデータ要素値が保持される「マージングマスキング（ｍｅｒｇｉｎｇｍａｓｋｉｎｇ）」を用いる。従って、マージングマスキングが用いられる場合、デスティネーションベクトルＣのビットは、以前の値を保持するであろう。上記のマスキングビットが逆になり得るが、実施形態の基礎となる原理になおも適合することが当業者には理解される（例えば、ｔｒｕｅ＝ｍａｓｋｉｎｇ、ｆａｌｓｅ＝ｎｏｍａｓｋｉｎｇ）。

オペレーションにおいて、もたらされる任意の要素が最大データ要素値または最小データ要素値を超える場合、（符号付き飽和または符号なし飽和のいずれかを用いる）飽和ロジック１００８は、最大値または最小値をその要素の代わりに用いる。示されるように、一実施形態において、変換ロジック１００６は、レジスタ１００１、１００２、および１００７にアクセスし、マルチプレクサ１０１０、１０１１、および１０１２を制御することにより上記のオペレーションを実行する。マルチプレクサを実装するのに必要とされるロジックは、当業者により十分に理解されるものであり、本明細書において詳細に説明されない。

図１１は、実施形態による、ベクトル飽和加算を実行するための命令を含む処理システムのブロック図である。例示的な処理システムは、メインメモリ１１００に結合されたプロセッサ１１５５を含む。プロセッサ１１５５は、ベクトル飽和加算命令をデコードするためのデコードロジック１１３１を有するデコードユニット１１３０を含む。更に、プロセッサ実行エンジンユニット１１４０は、ベクトル飽和加算命令を実行するための追加の実行ロジック１１４１を含む。レジスタ１１０５は、実行ユニット１１４０が命令ストリームを実行する場合に、オペランド、制御データ、および他のタイプのデータのためのレジスタストレージを提供する。一実施形態において、レジスタ１１０５は、本明細書において説明されるベクトル飽和加算命令を実装するときに用いられる物理レジスタも含む。

簡略化のために、単一のプロセッサコア（「コア０」）の詳細が図１１に示されている。しかし、図１１に示される各コアは、コア０と同じセットのロジックを有し得ることが理解されよう。示されるように、各コアは、指定されたキャッシュ管理ポリシに応じて命令およびデータをキャッシュするための専用のレベル１（Ｌ１）キャッシュ１１１２およびレベル２（Ｌ２）キャッシュ１１１１も含み得る。Ｌ１キャッシュ１１１１は、命令を格納するための別個の命令キャッシュ１３２０と、データを格納するための別個のデータキャッシュ１１２１とを含む。様々なプロセッサキャッシュ内に格納された命令およびデータは、キャッシュラインの粒度で管理される。キャッシュラインの粒度は、固定サイズ（例えば、６４バイト、１２８バイト、５１２バイトの長さ）であってもよい。この例示的な実施形態における各コアは、メインメモリ１１００および／または共有レベル３（Ｌ３）キャッシュ１１１６から命令をフェッチするための命令フェッチユニット１１１０と、命令をデコードするためのデコードユニット１１３０と、命令を実行するための実行ユニット１１４０と、命令をリタイアし、結果をレジスタ１１０５にライトバックするためのライトバック／リタイアユニット１１５０とを有する。

命令フェッチユニット１１１０は、メモリ１１００（またはキャッシュのうちの１つ）からフェッチされるべき次の命令のアドレスを格納するための次の命令ポインタ１１０３と、アドレス変換の速度を向上させるべく、最近用いられた仮想・物理命令アドレスのマップを格納するための命令トランスレーションルックアサイドバッファ（ＩＴＬＢ）１１０４と、命令分岐アドレスを投機的に予測するための分岐予測ユニット１１０２と、分岐アドレスおよびターゲットアドレスを格納するための分岐ターゲットバッファ（ＢＴＢ）１１０１とを含む周知の様々なコンポーネントを含む。フェッチされると、命令は、次に、デコードユニット１１３０、実行ユニット１１４０、およびライトバック／リタイアユニット１１５０を含む命令パイプラインの残りのステージにストリーミングされる。

図１２は、本明細書に説明される実施形態による、命令を実行するためのロジックのフロー図である。一実施形態において、プロセッサは、１２０２に示されるように、命令をフェッチしてベクトル飽和加算命令を実行することを含む命令オペレーションを実行するためのロジックを含む。１２０４に示されるように、デコードロジックは、フェッチ済み命令をデコードしてデコード済み命令にするように構成される。１２０６に示されるように、プロセッサ実行ロジックは、ベクトル加算オペレーションを実行するべく、デコード命令を実行する。１２０８において、飽和ロジックは、計算された任意のデータ要素内の範囲外の結果のいずれかを、適切な飽和値（例えば、符号付きもしくは符号なし、ダブルワードもしくはクワッドワード）と交換する。１２１０において、実行ロジックは、プロセッサのライトマスク構成および各データ要素に対するライトマスク値に基づいて、実行された命令の１または複数の結果をプロセッサレジスタファイルに書き込む。一実施形態において、実行された命令の結果を書き込む段階は、ベクトル飽和加算オペレーションのデスティネーションオペランドにより示されるアーキテクチャレジスタ等の箇所に、飽和加算オペレーションの結果をコミットする段階を有する。結果は、ソースベクトルに格納した関連付けられたデータ要素の和を含む１または複数のベクトルデータ要素と、データ要素およびライトマスク構成に関連付けられたライトマスクに基づいてゼロの値を格納する１または複数のデータ要素とを含み得る。一実施形態において、結果は、変更されず、前の値または前のオペレーションの結果を含む１または複数のベクトルデータ要素を含む。

一実施形態の実装を記載する疑似コードは、以下の表１に記載される。

表１に示される例示的な疑似コードは、ベクトルプロセッサ加算飽和符号付きダブルワード命令を提供する。例示的な疑似コードにおいて、１２８ビット、２５６ビット、および５１２ビットのベクトル長（ＶＬ）は、４個、８個、または１６個のダブルワードベクトル要素で各々サポートされる。しかし、実施形態が符号付きクワッドワード命令、ならびに符号なしダブルワード命令およびクワッドワード命令を含む更なる命令を提供するので、実施形態の基礎となる原理は、表１の疑似コードに記載された特定の実装に限定されないことが理解されよう。更に、ベクトル加算オペレーションが実行されるが、一実施形態においては、ＳＲＣ２オペランドは、ＳＲＣ１ベクトルの各要素に加算されるダブルワードデータ要素またはクワッドワードデータ要素を格納するメモリアドレスであってもよい。そのような実施形態において、黙示的なロードオペレーションが指定されたメモリアドレスから実行される。一実施形態において、ロードオペレーションは、プロセッサ実行ユニットが加算オペレーションを実行する前に、メモリからＳＲＣ２ベクトルレジスタの全要素へとデータ要素をブロードキャストする。

一実施形態において、非ライトマスクオペレーションが実行され得、またはライトマスクオペレーションが実行され得る。ライトマスクが用いられない場合、関連付けられたソースデータ要素の和は、デスティネーションデータ要素に書き込まれる。あるいは飽和値は、デスティネーションデータ要素（例えば、ダブルワードまたはクワッドワード）のデータタイプの範囲外である結果に対して書き込まれる。ライトマスクが用いられる場合、各デスティネーション要素は結果、飽和値、ゼロの値を受信し、またはデータ要素に関連付けられたライトマスク値および命令のライトマスク構成に基づいて未変更のままである。

例示的な命令フォーマット
本明細書に説明される命令の実施形態は、異なるフォーマットで実施され得る。ベクトル向け命令フォーマットは、ベクトル命令に好適な命令フォーマットである。（例えば、ベクトルオペレーションに固有の一定のフィールドが存在する）。ベクトルおよびスカラオペレーションの両方がベクトル向け命令フォーマットによりサポートされる実施形態が説明されるが、代替的な実施形態は、ベクトル向け命令フォーマットによるベクトルオペレーションのみを用いる。

図１３Ａ〜図１３Ｂは、実施形態による一般的ベクトル向け命令フォーマットおよびその命令テンプレートを示すブロック図である。図１３Ａは、実施形態による、一般的ベクトル向け命令フォーマット、およびそのクラスＡ命令テンプレートを示すブロック図である。図１３Ｂは、実施形態による、一般的ベクトル向け命令フォーマット、およびそのクラスＢ命令テンプレートを示すブロック図である。具体的には、クラスＡおよびクラスＢ命令テンプレートは、一般的ベクトル向け命令フォーマット１３００に対して定義され、これらの両方は、非メモリアクセス１３０５の命令テンプレートおよびメモリアクセス１３２０の命令テンプレートを含む。ベクトル向け命令フォーマットの文脈における一般的という用語は、いずれの特定の命令セットにも関係しない命令フォーマットを指す。

ベクトル向け命令フォーマットが、３２ビット（４バイト）または６４ビット（８バイト）のデータ要素幅（またはサイズ）を有する６４バイトのベクトルオペランド長（またはサイズ）（従って、６４バイトのベクトルは、１６個のダブルワードサイズの要素、または代替的に８クワッドワードサイズの要素のいずれかからなる）、１６ビット（２バイト）または８ビット（１バイト）のデータ要素幅（またはサイズ）を有する６４バイトのベクトルオペランド長（またはサイズ）、３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）、または８ビット（１バイト）のデータ要素幅（またはサイズ）を有する３２バイトのベクトルオペランド長（またはサイズ）、および３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）、または８ビット（１バイト）のデータ要素幅（またはサイズ）を有する１６バイトのベクトルオペランド長（またはサイズ）をサポートする実施形態が説明される。しかし、代替的な実施形態は、より多い、より少ない、または異なるデータ要素幅（例えば、１２８ビット（１６バイト）のデータ要素幅）を有するより多い、より少ない、および／または異なるベクトルオペランドサイズ（例えば、２５６バイトのベクトルオペランド）をサポートする。

図１３ＡにおけるクラスＡ命令テンプレートは、１）非メモリアクセス１３０５の命令テンプレート中に示される非メモリアクセス、フルラウンド制御タイプオペレーション１３１０の命令テンプレート、および非メモリアクセス、データ変換タイプオペレーション１３１５の命令テンプレート、ならびに２）メモリアクセス１３２０の命令テンプレート中に示されるメモリアクセス、一時的１３２５の命令テンプレート、およびメモリアクセス、非一時的１３３０の命令テンプレートを含む。図１３ＢのクラスＢ命令テンプレートは、１）非メモリアクセス１３０５の命令テンプレート中に示される非メモリアクセス、ライトマスク制御、部分的ラウンド制御タイプオペレーション１３１２の命令テンプレート、および非メモリアクセス、ライトマスク制御、ＶＳＩＺＥタイプオペレーション１３１７の命令テンプレート、ならびに２）メモリアクセス１３２０の命令テンプレート中に示されるメモリアクセス、ライトマスク制御１３２７の命令テンプレートを含む。

一般的ベクトル向け命令フォーマット１３００は、図１３Ａ〜図１３Ｂにおいて示される順序で以下に列挙される、次のフィールドを含む。

フォーマットフィールド１３４０。このフィールドにおける特定の値（命令フォーマット識別子の値）は、ベクトル向け命令フォーマット、従って、命令ストリーム中のベクトル向け命令フォーマットにおける命令の発生を一意に識別する。従って、このフィールドは、一般的ベクトル向け命令フォーマットのみを有する命令セットに必要とされないという意味で任意選択である。

ベースオペレーションフィールド１３４２。その内容は、異なるベースオペレーションを区別する。

レジスタインデックスフィールド１３４４。その内容は、レジスタ内であれ、メモリ内であれ、直接に、またはアドレス生成により、ソースオペランドおよびデスティネーションオペランドの位置を指定する。これらは、ＰｘＱ（例えば、３２ｘ５１２、１６ｘ１２８、３２ｘ１０２４、６４ｘ１０２４）のレジスタファイルからＮ個のレジスタを選択するのに十分な数のビットを含む。一実施形態においては、Ｎは、最大で３つのソースおよび１つのデスティネーションレジスタであり得るが、代替的な実施形態は、より多いかまたはより少ないソースおよびデスティネーションレジスタをサポートし得る（例えば、最大で２つのソースをサポートし得、この場合、これらのソースのうちの１つは、デスティネーションとしても機能し、最大で３つのソースをサポートし得、この場合、これらのソースのうちの１つは、デスティネーションとしても機能し、最大で２つのソースおよび１つのデスティネーションをサポートし得る）。

修飾子フィールド１３４６。その内容は、一般的ベクトル命令フォーマット中におけるメモリアクセスを指定する命令の発生とメモリアクセスを指定しない命令の発生とを、すなわち、非メモリアクセス１３０５の命令テンプレートとメモリアクセス１３２０の命令テンプレートを区別する。メモリアクセスオペレーションは、メモリ階層を読み出し、および／またはこれに書き込むが（いくつかの場合には、レジスタにおける値を用いて、ソースアドレスおよび／またはデスティネーションアドレスを指定する）、非メモリアクセスオペレーションは、これを行わない（例えば、ソースおよびデスティネーションは、レジスタである）。また、一実施形態において、このフィールドは、３つの異なる態様を選択し、メモリアドレス計算を実行するが、代替的な実施形態は、より多い、より少ない、または異なる態様をサポートし、メモリアドレス計算を実行し得る。

追加オペレーションフィールド１３５０。その内容は、ベースオペレーションに加えて、種々様々な異なるオペレーションのうちのどれが実行されるかを区別する。このフィールドは、コンテキストに固有である。一実施形態において、このフィールドは、クラスフィールド１３６８、アルファフィールド１３５２、およびベータフィールド１３５４に分割される。追加オペレーションフィールド１３５０は、オペレーションの共通グループが２、３、または４つの命令ではなく、単一命令で実行されることを可能にする。

スケールフィールド１３６０。その内容は、メモリアドレス生成のための（例えば、２^{ｓｃａｌｅ}＊ｉｎｄｅｘ＋ｂａｓｅを用いるアドレス生成のための）インデックスフィールド内容のスケーリングを可能にする。

変位フィールド１３６２Ａ。その内容は、メモリアドレス生成の一部として（例えば、２^{ｓｃａｌｅ}＊ｉｎｄｅｘ＋ｂａｓｅ＋ｄｉｓｐｌａｃｅｍｅｎｔを用いるアドレス生成に）用いられる。

変位係数フィールド１３６２Ｂ（変位係数フィールド１３６２Ｂの直ぐ上に変位フィールド１３６２Ａを並置することにより、一方または他方が使用されることを示すことに留意されたい）。その内容は、アドレス生成の一部として用いられる。変位係数フィールド１３６２Ｂは、メモリアクセス（Ｎ）のサイズに対して調整される変位係数を指定する。Ｎは、（例えば、２^{ｓｃａｌｅ}＊ｉｎｄｅｘ＋ｂａｓｅ＋ｓｃａｌｅｄｄｉｓｐｌａｃｅｍｅｎｔを用いるアドレス生成のための）メモリアクセスにおけるバイトの数である。冗長下位ビットは、無視され、従って、変位係数フィールドの内容は、有効なアドレスを計算するときに用いられる最終的変位を生成するべく、メモリオペランドの合計サイズ（Ｎ）で乗算される。Ｎの値は、フルオペコードフィールド１３７４（本明細書において後述される）およびデータ操作フィールド１３５４Ｃに基づいて、ランタイムでプロセッサハードウェアにより決定される。変位フィールド１３６２Ａおよび変位係数フィールド１３６２Ｂは、非メモリアクセス１３０５の命令テンプレートに用いられず、および／または異なる実施形態が１つのみまたは２つのうちいずれも実装しない場合があるという意味で任意選択である。

データ要素幅フィールド１３６４。その内容は、（いくつかの実施形態において全ての命令に対して、他の実施形態において命令のうちいくつかのみに対して）いくつかのデータ要素幅のうちのどれが用いられるかを区別する。このフィールドは、１つのデータ要素幅のみがサポートされ、および／またはオペコードのいくつかの態様を用いて、データ要素幅がサポートされる場合には必要とされないという意味で任意選択である。

ライトマスクフィールド１３７０。その内容は、データ要素位置ベースで、デスティネーションベクトルオペランドにおける当該データ要素位置がベースオペレーションおよび追加オペレーションの結果を反映するか否かを制御する。クラスＡ命令テンプレートは、マージング・ライトマスキングをサポートするが、クラスＢ命令テンプレートは、マージングおよびゼロ書き込みマスキングの両方をサポートする。マージングする場合、ベクトルマスクは、デスティネーションにおける要素の任意のセットが（ベースオペレーションおよび追加オペレーションにより指定された）任意のオペレーションの実行中に更新から保護されることを可能にする。他の一実施形態では、対応するマスクビットが０を有するデスティネーションの各要素の古い値を保持する。対照的に、ゼロ書き込みする場合、ベクトルマスクは、デスティネーションにおける要素の任意のセットが（ベースオペレーションおよび追加オペレーションにより指定された）任意のオペレーションの実行中にゼロにされることを可能にする。一実施形態において、対応するマスクビットが０の値を有する場合、デスティネーションの要素は、０に設定される。この機能のサブセットは、実行されるオペレーションのベクトル長を制御する能力である（すなわち、要素のスパンは、最初のものから最後のものに変更される）。しかし、変更される要素が連続している必要はない。従って、ライトマスクフィールド１３７０は、ロード、ストア、演算、論理等を含む部分的ベクトルオペレーションを可能にする。実施形態は、ライトマスクフィールド１３７０の内容が、用いられるべきライトマスクを含むいくつかのライトマスクレジスタのうちの１つを選択する（従って、ライトマスクフィールド１３７０の内容が実行されるべき当該マスキングを間接的に識別する）ものとして説明されているが、代替的な実施形態はこれに代えて、または更に、マスクライトフィールド１３７０の内容が実行されるべきマスキングを直接に指定することを可能にする。

即値フィールド１３７２。その内容は、即値の指定を可能にする。このフィールドは、即値をサポートしない一般的ベクトル向けフォーマットの実装において存在せず、即値を用いない命令中に存在しないという意味で任意選択である。

クラスフィールド１３６８。その内容は、命令の異なるクラスを区別する。図１３Ａ〜図１３Ｂを参照すると、このフィールドの内容は、クラスＡ命令またはクラスＢ命令を選択する。図１３Ａ〜図１３Ｂにおいて、角が丸い四角形は、特定の値がフィールド内に存在することを示すべく用いられる（例えば、図１３Ａおよび図１３Ｂにおけるクラスフィールド１３６８のクラスＡ１３６８ＡおよびクラスＢ１３６８Ｂの各々）。

クラスＡの命令テンプレート
クラスＡの非メモリアクセス１３０５の命令テンプレートの場合に、アルファフィールド１３５２は、ＲＳフィールド１３５２Ａとして解釈され、その内容は、異なる追加オペレーションタイプのうちのどれが実行されるかを区別するが（例えば、ラウンド１３５２Ａ．１およびデータ変換１３５２Ａ．２は、各々、非メモリアクセス、ラウンドタイプオペレーション１３１０、および非メモリアクセス、データ変換タイプオペレーション１３１５の命令テンプレートに対して指定される）、ベータフィールド１３５４は、指定されたタイプのオペレーションのうちいずれが実行されるかを区別する。非メモリアクセス１３０５の命令テンプレートにおいて、スケールフィールド１３６０、変位フィールド１３６２Ａ、および変位スケールフィールド１３６２Ｂは、存在しない。

非メモリアクセス命令テンプレート‐フルラウンド制御タイプオペレーション
非メモリアクセスのフルラウンド制御タイプオペレーション１３１０の命令テンプレートにおいて、ベータフィールド１３５４は、ラウンド制御フィールド１３５４Ａとして解釈され、その内容は、静的ラウンドを提供する。説明される実施形態において、ラウンド制御フィールド１３５４Ａは、抑圧全浮動小数点例外（ＳＡＥ）フィールド１３５６およびラウンドオペレーション制御フィールド１３５８を含み、代替的な実施形態は、これら両方のコンセプトをサポートおよびエンコードして同一のフィールドとすることができ、またはこれらのコンセプト／フィールドのうち一方または他方のみを有し得る（例えば、ラウンドオペレーション制御フィールド１３５８のみを有し得る）。

ＳＡＥフィールド１３５６。その内容は、例外イベント報告を無効にするか否かを区別する。ＳＡＥフィールド１３５６の内容が、抑圧が有効にされたことを示す場合、所与の命令は、いずれの種類の浮動小数点例外フラグも報告せず、いずれの浮動小数点例外ハンドラも立ち上げない。

ラウンドオペレーション制御フィールド１３５８。その内容は、ラウンドオペレーション（例えば、ラウンドアップ、ラウンドダウン、ゼロへのラウンド、および近似値へのラウンド）のグループのうちのどれが実行されるべきかを区別する。このように、ラウンドオペレーション制御フィールド１３５８は、命令ベースでラウンドモードの変更を可能にする。プロセッサがラウンドモードを指定する制御レジスタを含む一実施形態において、ラウンドオペレーション制御フィールド１３５０の内容は、当該レジスタの値を上書きする。

非メモリアクセス命令テンプレート‐データ変換タイプオペレーション
非メモリアクセスのデータ変換タイプオペレーション１３１５の命令テンプレートにおいて、ベータフィールド１３５４は、データ変換フィールド１３５４Ｂとして解釈され、その内容は、いくつかのデータ変換のうちのどれが実行されるかを区別する（例えば、非データ変換、スウィズル、ブロードキャスト）。

クラスＡのメモリアクセス１３２０の命令テンプレートの場合、アルファフィールド１３５２は、エビクションヒントフィールド１３５２Ｂとして解釈され、その内容は、エビクションヒントのうちのどれが用いられるかを区別するが（図１３Ａにおいて、一時的１３５２Ｂ．１および非一時的１３５２Ｂ．２は、各々、メモリアクセス、一時的１３２５の命令テンプレート、およびメモリアクセス、非一時的１３３０の命令テンプレートに対して指定される）、ベータフィールド１３５４は、データ操作フィールド１３５４Ｃとして解釈され、その内容は、いくつかのデータ操作オペレーション（プリミティブとしても知られる）のうちのどれが実行されるかを区別する（例えば、操作なし、ブロードキャスト、ソースのアップコンバージョン、およびデスティネーションのダウンコンバージョン）。メモリアクセス１３２０の命令テンプレートは、スケールフィールド１３６０を含み、変位フィールド１３６２Ａまたは変位スケールフィールド１３６２Ｂを任意選択で含む。

ベクトルメモリ命令は、変換サポートを用いて、メモリからのベクトルロードおよびメモリへのベクトルストアを実行する。通常のベクトル命令の場合のように、ベクトルメモリ命令は、データ要素の様式で、メモリから／にデータを転送し、実際に転送される要素は、ライトマスクとして選択されるベクトルマスクの内容により規定される。

メモリアクセス命令テンプレート‐一時的
一時的データは、キャッシュから利益を得るのに十分なほど速やかに再利用される可能性が高いデータである。しかし、これはヒントであり、異なるプロセッサは、ヒントを完全に無視することを含め、異なる態様で一時的データを実装してもよい。

メモリアクセス命令テンプレート‐非一時的
非一時的データは、レベル１キャッシュにおけるキャッシュから利益を得るのに十分なほど速やかに再利用される可能性が低いデータであり、追い出しの優先権を与えられるべきである。しかし、これはヒントであり、異なるプロセッサは、ヒントを完全に無視することを含め、異なる態様で非一時的データを実装してもよい。

クラスＢの命令テンプレート
クラスＢの命令テンプレートの場合、アルファフィールド１３５２は、ライトマスク制御（Ｚ）フィールド１３５２Ｃとして解釈され、その内容は、ライトマスクフィールド１３７０により制御されるライトマスキングがマージングであるべきか、またはゼロ書き込みであるべきかを区別する。

クラスＢの非メモリアクセス１３０５の命令テンプレートの場合、ベータフィールド１３５４の一部は、ＲＬフィールド１３５７Ａとして解釈され、その内容は、異なる追加オペレーションタイプのどれが実行されるかを区別するが（例えば、ラウンド１３５７Ａ．１およびベクトル長（ＶＳＩＺＥ）１３５７Ａ．２は各々、非メモリアクセス、ライトマスク制御、部分的ラウンド制御タイプオペレーション１３１２の命令テンプレート、および非メモリアクセス、ライトマスク制御、ＶＳＩＺＥタイプオペレーション１３１７の命令テンプレートに対して指定される）、ベータフィールド１３５４の残りは、指定されたタイプのどのオペレーションが実行されるかを区別する。非メモリアクセス１３０５の命令テンプレートにおいて、スケールフィールド１３６０、変位フィールド１３６２Ａ、および変位スケールフィールド１３６２Ｂは、存在しない。

非メモリアクセス、ライトマスク制御、部分的ラウンド制御タイプオペレーション１３１０の命令テンプレートにおいて、ベータフィールド１３５４の残りは、ラウンドオペレーションフィールド１３５９Ａとして解釈され、例外イベント報告は、無効にされる（所与の命令は、いずれの種類の浮動小数点例外フラグも報告せず、いずれの浮動小数点例外ハンドラも立ち上げない）。

ラウンドオペレーション制御フィールド１３５９Ａ。ちょうどラウンドオペレーション制御フィールド１３５８のように、その内容は、ラウンドオペレーション（例えば、ラウンドアップ、ラウンドダウン、ゼロへのラウンド、および近似値へのラウンド）のグループのうちのどれが実行されるべきかを区別する。このように、ラウンドオペレーション制御フィールド１３５９Ａは、命令ベースでラウンドモードの変更を可能にする。一実施形態において、プロセッサは、ラウンドモードを指定する制御レジスタを含み、ラウンドオペレーション制御フィールド１３５０の内容は、当該レジスタの値を上書きする。

非メモリアクセス、ライトマスク制御、ＶＳＩＺＥタイプオペレーション１３１７の命令テンプレートにおいて、ベータフィールド１３５４の残りは、ベクトル長フィールド１３５９Ｂとして解釈され、その内容は、いくつかのデータベクトル長のうちのどれが実行されるかを区別する（例えば、１２８、２５６、または５１２バイト）。

クラスＢのメモリアクセス１３２０の命令テンプレートの場合、ベータフィールド１３５４の一部は、ブロードキャストフィールド１３５７Ｂとして解釈され、その内容は、ブロードキャストタイプのデータ操作オペレーションが実行されるべきか否かを区別するが、ベータフィールド１３５４の残りは、ベクトル長フィールド１３５９Ｂとして解釈される。メモリアクセス１３２０の命令テンプレートは、スケールフィールド１３６０を含み、変位フィールド１３６２Ａまたは変位スケールフィールド１３６２Ｂを任意選択で含む。

一般的ベクトル向け命令フォーマット１３００に関連して、フォーマットフィールド１３４０、ベースオペレーションフィールド１３４２、およびデータ要素幅フィールド１３６４を含む、フルオペコードフィールド１３７４が示される。一実施形態として、フルオペコードフィールド１３７４がこれらのフィールドの全てを含むものが示されているが、これら全てをサポートしない実施形態において、フルオペコードフィールド１３７４は、これらのフィールド全てより少ないものを含む。フルオペコードフィールド１３７４は、オペレーションコード（オペコード）を提供する。

追加オペレーションフィールド１３５０、データ要素幅フィールド１３６４、およびライトマスクフィールド１３７０は、一般的ベクトル向け命令フォーマットにおける命令ベースで、これらの機能が指定されることを可能にする。

ライトマスクフィールドおよびデータ要素幅フィールドを組み合わせることで、マスクが異なるデータ要素幅に基づいて適用されることを可能にするように、型付き命令を生成する。

クラスＡおよびクラスＢ内に見出される様々な命令テンプレートは、異なる状況において有益である。いくつかの実施形態において、異なるプロセッサまたはプロセッサ内の異なるコアは、クラスＡのみ、クラスＢのみ、または両方のクラスをサポートし得る。例えば、汎用演算用の高性能汎用アウトオブオーダコアは、クラスＢのみをサポートし得、主にグラフィックスおよび／またはサイエンティフィック（スループット）演算用のコアは、クラスＡのみをサポートし得、両方用のコアは、両方をサポートし得る（勿論、両方のクラスの全てのテンプレートおよび命令ではないが、両方のクラスのテンプレートおよび命令のいくつかのミックスを有するコアは、本発明の範囲内である）。また、シングルプロセッサは、複数のコアを含み得、これらの全てが同じクラスをサポートし、または異なるコアが異なるクラスをサポートする。例えば、別個のグラフィックスコアおよび汎用コアを有するプロセッサにおいて、主にグラフィックスおよび／またはサイエンティフィック演算用のグラフィックスコアのうちの１つは、クラスＡのみをサポートし得るが、汎用コアのうちの１または複数は、クラスＢのみをサポートする汎用演算用のアウトオブオーダ実行およびレジスタリネームを用いる高性能汎用コアであり得る。別個のグラフィックスコアを有しない別のプロセッサは、クラスＡおよびクラスＢの両方をサポートする、もう１つの汎用インオーダまたはアウトオブオーダのコアを含み得る。勿論、異なる実施形態において、あるクラスの機能は、他のクラスにおいても実装され得る。高水準言語で書かれたプログラムは、１）実行のためにターゲットプロセッサによりサポートされるクラスの命令のみを有する形式、または２）全てのクラスの命令の異なる組み合わせを用いて書かれた代替的なルーチンを有し、現在、コードを実行しているプロセッサによりサポートされる命令に基づいて、実行するルーチンを選択する制御フローコードを有する形式を含む、種々様々な実行可能な形式にされる（例えば、実行時コンパイルまたは静的コンパイル）。

例示的な特定ベクトル向け命令フォーマット
図１４Ａ〜図１４Ｄは、一実施形態による例示的な特定ベクトル向け命令フォーマットを示すブロック図である。図１４Ａ〜図１４Ｄは、フィールドの位置、サイズ、解釈、および順序、ならびにそれらのフィールドのいくつかに対する値を指定するという意味で具体的な特定ベクトル向け命令フォーマット１４００を示す。特定ベクトル向け命令フォーマット１４００は、ｘ８６命令セットを拡張するために用いられ得、従ってフィールドのうちのいくつかは、既存のｘ８６命令セットおよびその拡張（例えば、ＡＶＸ）において用いられるものと類似するか、または同じである。このフォーマットは、拡張された既存のｘ８６命令セットのプレフィックスエンコードフィールド、リアルオペコードバイトフィールド、ＭＯＤＲ／Ｍフィールド、ＳＩＢフィールド、変位フィールド、および即値フィールドとの整合性を保つ。図１４Ａ〜図１４Ｄがフィールドにマッピングされる図１３Ａ〜図１３Ｂのフィールドが示される。

実施形態は、例示的目的で一般的ベクトル向け命令フォーマット１３００の文脈において、特定ベクトル向け命令フォーマット１４００を参照して説明されるが、本発明は、特許請求される場合を除き、特定ベクトル向け命令フォーマット１４００に限定されないことを理解されたい。例えば、一般的ベクトル向け命令フォーマット１３００は、様々なフィールドのために考えられる様々なサイズを企図するが、特定ベクトル向け命令フォーマット１４００は、特定サイズのフィールドを有するものとして示される。具体的な例として、データ要素幅フィールド１３６４は、特定ベクトル向け命令フォーマット１４００における１つのビットフィールドとして示されるが、本発明は、そのようには限定されない（すなわち、一般的ベクトル向け命令フォーマット１３００は、他のサイズのデータ要素幅フィールド１３６４を企図する）。

一般的ベクトル向け命令フォーマット１３００は、図１４Ａにおいて示される順序で以下に列挙される、次のフィールドを含む。

ＥＶＥＸプレフィックス（バイト０〜３）１４０２。４バイト形式でエンコードされる。

フォーマットフィールド１３４０（ＥＶＥＸバイト０、ビット［７：０］）。最初のバイト（ＥＶＥＸバイト０）は、フォーマットフィールド１３４０であり、０ｘ６２を含む（本発明の一実施形態において、ベクトル向け命令フォーマットを区別するべく用いられる一意な値）。

第２〜第４のバイト（ＥＶＥＸバイト１〜３）は、特定の能力を提供するいくつかのビットフィールドを含む。

ＲＥＸフィールド１４０５（ＥＶＥＸバイト１、ビット［７−５］）は、ＥＶＥＸ．Ｒビットフィールド（ＥＶＥＸバイト１、ビット［７］−Ｒ）、ＥＶＥＸ．Ｘビットフィールド（ＥＶＥＸバイト１、ビット［６］−Ｘ）、およびＥＶＥＸバイト１、ビット［５］−Ｂ）からなる。ＥＶＥＸ．Ｒ、ＥＶＥＸ．Ｘ、およびＥＶＥＸ．Ｂのビットフィールドは、対応するＶＥＸビットフィールドと同一の機能性を提供し、１の補数形式を用いてエンコードされる。すなわち、ＺＭＭ０は、１１１１Ｂとしてエンコードされ、ＺＭＭ１５は、００００Ｂとしてエンコードされる。命令の他のフィールドは、当技術分野で既知のレジスタインデックスの下位の３つのビット（ｒｒｒ、ｘｘｘ、およびｂｂｂ）をエンコードし、従って、Ｒｒｒｒ、Ｘｘｘｘ、およびＢｂｂｂは、ＥＶＥＸ．Ｒ、ＥＶＥＸ．Ｘ、およびＥＶＥＸ．Ｂを加えることにより形成され得る。

ＲＥＸ'フィールド１３１０。これはＲＥＸ'フィールド１３１０の第１の部分であり、拡張された３２個のレジスタセットの上位の１６個または下位の１６個のいずれかをエンコードするために用いられるＥＶＥＸ．Ｒ'ビットフィールド（ＥＶＥＸバイト１、ビット［４］−Ｒ'）である。一実施形態において、このビットは、以下に示される他のものと共に、（周知のｘ８６の３２ビットモードで）ＢＯＵＮＤ命令から区別するべく、ビット反転フォーマットで格納する。ＢＯＵＮＤ命令のリアルオペコードバイトは６２であるが、ＭＯＤＲ／Ｍフィールド（下記）にはＭＯＤフィールドにおける１１の値を受け付けない。代替的な実施形態は、これおよび以下に示される他のビットを反転フォーマットで格納しない。１の値は、下位１６個のレジスタをエンコードするべく用いられる。換言すると、Ｒ'Ｒｒｒｒは、ＥＶＥＸ．Ｒ'、ＥＶＥＸ．Ｒ、および他のフィールドの他のＲＲＲを組み合わせることにより形成される。

オペコードマップフィールド１４１５（ＥＶＥＸバイト１、ビット［３：０］−ｍｍｍｍ）。その内容は、暗黙に示される先頭オペコードバイト（０Ｆ、０Ｆ３８、または０Ｆ３）をエンコードする。

データ要素幅フィールド１３６４（ＥＶＥＸバイト２、ビット［７］−Ｗ）は、ＥＶＥＸ．Ｗという表記により表される。ＥＶＥＸ．Ｗは、データタイプの粒度（サイズ）（３２ビットのデータ要素または６４ビットのデータ要素のいずれか）を定義するべく用いられる。

ＥＶＥＸ．ｖｖｖｖ１４２０（ＥＶＥＸバイト２、ビット［６：３］−ｖｖｖｖ）。ＥＶＥＸ．ｖｖｖｖの役割は、以下を含み得る。１）ＥＶＥＸ．ｖｖｖｖは、反転（１の補数）形式で指定された第１のソースレジスタオペランドをエンコードし、２またはそれより多いソースオペランドを用いる命令に対して有効である。２）ＥＶＥＸ．ｖｖｖｖは、一定の複数のベクトルシフトに対して１の補数形式で指定されたデスティネーションレジスタオペランドをエンコードする。または３）ＥＶＥＸ．ｖｖｖｖは、いずれのオペランドもエンコードせず、フィールドは予約され、１１１１ｂを含むはずである。従って、ＥＶＥＸ．ｖｖｖｖフィールド１４２０は、反転（１の補数）形式で格納された第１のソースレジスタ指定子の４つの下位ビットをエンコードする。命令に応じて、指定子サイズを３２個のレジスタに拡張するべく、追加の異なるＥＶＥＸビットフィールドが用いられる。

ＥＶＥＸ．Ｕ１３６８クラスフィールド（ＥＶＥＸバイト２、ビット［２］−Ｕ）。ＥＶＥＸ．Ｕ＝０である場合、クラスＡまたはＥＶＥＸ．Ｕ０を示す。ＥＶＥＸ．Ｕ＝１である場合、クラスＢまたはＥＶＥＸ．Ｕ１を示す。

プレフィックスエンコードフィールド１４２５（ＥＶＥＸバイト２、ビット［１：０］−ｐｐ）は、ベースオペレーションフィールドのために追加ビットを提供する。ＥＶＥＸプレフィックスフォーマットでレガシＳＳＥ命令のためのサポートを提供することに加えて、これは、ＳＩＭＤプレフィックスを圧縮するという利益も有する（ＥＶＥＸプレフィックスは、ＳＩＭＤプレフィックスを表すバイトを必要とするのではなく、２ビットのみを必要とする）。一実施形態において、レガシフォーマットおよびＥＶＥＸプレフィックスフォーマットの両方でＳＩＭＤプレフィックス（６６Ｈ、Ｆ２Ｈ、Ｆ３Ｈ）を用いるレガシＳＳＥ命令をサポートするべく、これらのレガシＳＩＭＤプレフィックスは、ＳＩＭＤプレフィックスエンコードフィールドへとエンコードされ、（ＰＬＡが変更なしにレガシフォーマットおよびこれらのレガシ命令のＥＶＥＸフォーマットの両方を実行し得るように）ランタイム時にデコーダのＰＬＡに提供される前にレガシＳＩＭＤプレフィックスへと拡張される。より新しい命令は、ＥＶＥＸプレフィックスエンコードフィールドの内容をオペコード拡張として直接に用い得るが、ある実施形態は、整合のために同様に拡張されるが、これらのレガシＳＩＭＤプレフィックスにより指定される異なる意味を可能にする。代替的な実施形態は、２ビットのＳＩＭＤプレフィックスエンコードをサポートするようにＰＬＡを再設計し得、従って拡張を必要としない。

アルファフィールド１３５２（ＥＶＥＸバイト３、ビット［７］−ＥＨ。ＥＶＥＸ．ＥＨ、ＥＶＥＸ．ｒｓ、ＥＶＥＸ．ＲＬ、ＥＶＥＸ．ライトマスク制御、およびＥＶＥＸ．Ｎとしても知られる。αでも示される）。上記ように、このフィールドは、コンテキストに固有である。

ベータフィールド１３５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ、ＥＶＥＸ．ｓ_２-０、ＥＶＥＸ．ｒ_２-０、ＥＶＥＸ．ｒｒ１、ＥＶＥＸ．ＬＬ０、ＥＶＥＸ．ＬＬＢとしても知られる。βββでも示される）。上記のように、このフィールドは、コンテキストに固有である。

ＲＥＸ'フィールド１３１０。これは、ＲＥＸ'フィールドの残りであり、拡張された３２個のレジスタセットの上位の１６個または下位の１６個をエンコードするべく用いられ得るＥＶＥＸ．Ｖ'ビットフィールドのいずれかである（ＥＶＥＸバイト３、ビット［３］−Ｖ'）。このビットは、ビット反転フォーマットで格納される。１の値は、下位１６個のレジスタをエンコードするべく用いられる。換言すると、Ｖ'ＶＶＶＶは、ＥＶＥＸ．Ｖ'、ＥＶＥＸ．ｖｖｖｖを組み合わせることにより形成される。

ライトマスクフィールド１３７０（ＥＶＥＸバイト３、ビット［２：０］−ｋｋｋ）。その内容は、上記のように、ライトマスクレジスタにおけるレジスタのインデックスを指定する。一実施形態において、特定の値ＥＶＥＸ．ｋｋｋ＝０００は、特定の命令のために非ライトマスクが用いられることを暗に示す、特別な動作を有する（これは、全ての１に対するハードワイヤされたライトマスクの使用、またはマスキングハードウェアを迂回するハードウェアの使用を含む、様々な態様で実装され得る）。

リアルオペコードフィールド１４３０（バイト４）は、オペコードバイトとしても知られる。オペコードの一部は、このフィールド内に指定される。

ＭＯＤＲ／Ｍフィールド１４４０（バイト５）は、ＭＯＤフィールド１４４２、Ｒｅｇフィールド１４４４、およびＲ／Ｍフィールド１４４６を含む。上記のように、ＭＯＤフィールド１４４２の内容は、メモリアクセスオペレーションおよび非メモリアクセスオペレーションを区別する。Ｒｅｇフィールド１４４４の役割は、２つの状況に要約され得る。すなわち、デスティネーションレジスタオペランドまたはソースレジスタオペランドのいずれかをエンコードし、またはオペコード拡張として扱われ、任意の命令オペランドをエンコードするためには用いられない。Ｒ／Ｍフィールド１４４６の役割は、メモリアドレスを参照する命令オペランドをエンコードし、またはデスティネーションレジスタオペランドもしくはソースレジスタオペランドのいずれかをエンコードすることを含み得る。

スケール、インデックス、ベース（ＳＩＢ）バイト（バイト６）。上記のように、スケールフィールド１３５０の内容は、メモリアドレス生成に用いられる。ＳＩＢ．ｘｘｘ１４５４およびＳＩＢ．ｂｂｂ１４５６。これらのフィールドの内容は、レジスタインデックスＸｘｘｘおよびＢｂｂｂに関連して既に言及された。

変位フィールド１３６２Ａ（バイト７〜１０）。ＭＯＤフィールド１４４２が１０を含む場合、バイト７〜１０は、変位フィールド１３６２Ａであり、これはレガシ３２ビット変位（ｄｉｓｐ３２）と同様に機能し、バイト粒度で機能する。

変位係数フィールド１３６２Ｂ（バイト７）。ＭＯＤフィールド１４４２が０１を含む場合、バイト７は、変位係数フィールド１３６２Ｂである。このフィールドの位置は、バイト粒度で機能するレガシｘ８６命令セットの８ビット変位（ｄｉｓｐ８）の位置と同じである。ｄｉｓｐ８は、符号拡張されるので、−１２８〜１２７バイトのオフセットのみをアドレス指定し得る。６４バイトのキャッシュラインに関しては、ｄｉｓｐ８は、４つの本当に有用な値である−１２８、−６４、０、および６４のみに設定され得る８ビットを用いる。多くの場合に、より広いレンジが必要とされるので、ｄｉｓｐ３２が用いられる。しかし、ｄｉｓｐ３２は、４バイトを必要とする。ｄｉｓｐ８およびｄｉｓｐ３２とは対照的に、変位係数フィールド１３６２Ｂは、ｄｉｓｐ８の再解釈である。変位係数フィールド１３６２Ｂを用いる場合、実際の変位は、メモリオペランドアクセスのサイズ（Ｎ）で乗算される変位係数フィールドの内容により決定される。このタイプの変位は、ｄｉｓｐ８＊Ｎと称される。これにより、平均命令長（単一バイトだが、はるかに広いレンジの変位に用いられる）を小さくする。そのような圧縮された変位は、有効な変位がメモリアクセスの粒度の倍数であり、従って、アドレスオフセットの冗長下位ビットは、エンコードされる必要がないという前提に基づく。換言すると、変位係数フィールド１３６２Ｂは、レガシｘ８６命令セットの８ビット変位に置き換わる。従って、ｄｉｓｐ８がｄｉｓｐ８＊Ｎにオーバーロードされることのみを例外として、変位係数フィールド１３６２Ｂは、ｘ８６命令セットの８ビット変位と同じ態様でエンコードされる（従って、ＭｏｄＲＭ／ＳＩＢエンコードルールに変更はない）。換言すると、エンコードルールまたはエンコードの長さに変更はないが、（バイト的アドレスオフセットを得るべく、メモリオペランドのサイズにより変位を調節する必要がある）ハードウェアによる変位値の解釈のみには変更がある。

即値フィールド１３７２は、上記のように動作する。

フルオペコードフィールド図１４Ｂは、一実施形態による、フルオペコードフィールド１３７４を構成する特定ベクトル向け命令フォーマット１４００のフィールドを示すブロック図である。具体的には、フルオペコードフィールド１３７４は、フォーマットフィールド１３４０、ベースオペレーションフィールド１３４２、およびデータ要素幅（Ｗ）フィールド１３６４を含む。ベースオペレーションフィールド１３４２は、プレフィックスエンコードフィールド１４２５、オペコードマップフィールド１４１５、およびリアルオペコードフィールド１４３０を含む。

レジスタインデックスフィールド図１４Ｃは、一実施形態による、レジスタインデックスフィールド１３４４を構成する特定ベクトル向け命令フォーマット１４００のフィールドを示すブロック図である。具体的には、レジスタインデックスフィールド１３４４は、ＲＥＸフィールド１４０５、ＲＥＸ'フィールド１４１０、ＭＯＤＲ／Ｍ．ｒｅｇフィールド１４４４、ＭＯＤＲ／Ｍ．ｒ／ｍフィールド１４４６、ＶＶＶＶフィールド１４２０、ｘｘｘフィールド１４５４、およびｂｂｂフィールド１４５６を含む。

追加オペレーションフィールド図１４Ｄは、一実施形態による、追加オペレーションフィールド１３５０を構成する特定ベクトル向け命令フォーマット１４００のフィールドを示すブロック図である。クラス（Ｕ）フィールド１３６８が０を含む場合、ＥＶＥＸ．Ｕ０（クラスＡ１３６８Ａ）を意味する。１を含む場合、ＥＶＥＸ．Ｕ１（クラスＢ１３６８Ｂ）を意味する。Ｕ＝０、かつＭＯＤフィールド１４４２が１１を含む場合（非メモリアクセスオペレーションを意味する）、アルファフィールド１３５２（ＥＶＥＸバイト３、ビット［７］−ＥＨ）は、ＲＳフィールド１３５２Ａとして解釈される。ＲＳフィールド１３５２Ａが１（ラウンド１３５２Ａ．１）を含む場合、ベータフィールド１３５４（ＥＶＥＸバイト３、ビット［６：４］‐ＳＳＳ）は、ラウンド制御フィールド１３５４Ａとして解釈される。ラウンド制御フィールド１３５４Ａは、１ビットのＳＡＥフィールド１３５６および２ビットのラウンドオペレーションフィールド１３５８を含む。ＲＳフィールド１３５２Ａが０（データ変換１３５２Ａ．２）を含む場合、ベータフィールド１３５４（ＥＶＥＸバイト３、ビット［６：４］‐ＳＳＳ）は、３ビットのデータ変換フィールド１３５４Ｂとして解釈される。Ｕ＝０であり、かつＭＯＤフィールド１４４２が００、０１、または１０を含む場合（メモリアクセスオペレーションを意味する）、アルファフィールド１３５２（ＥＶＥＸバイト３、ビット［７］‐ＥＨ）は、エビクションヒント（ＥＨ）フィールド１３５２Ｂとして解釈され、ベータフィールド１３５４（ＥＶＥＸバイト３、ビット［６：４］‐ＳＳＳ）は、３ビットのデータ操作フィールド１３５４Ｃとして解釈される。

Ｕ＝１である場合、アルファフィールド１３５２（ＥＶＥＸバイト３、ビット［７］−ＥＨ）は、ライトマスク制御（Ｚ）フィールド１３５２Ｃとして解釈される。Ｕ＝１であり、かつＭＯＤフィールド１４４２が１１を含む場合（非メモリアクセスオペレーションを意味する）、ベータフィールド１３５４（ＥＶＥＸバイト３、ビット［４］−Ｓ_０）の一部は、ＲＬフィールド１３５７Ａとして解釈される。１（ラウンド１３５７Ａ．１）を含む場合、ベータフィールド１３５４（ＥＶＥＸバイト３、ビット［６−５］‐Ｓ_２−１）の残りは、ラウンドオペレーションフィールド１３５９Ａとして解釈されるが、ＲＬフィールド１３５７Ａが０（ＶＳＩＺＥ１３５７．Ａ２）を含む場合、ベータフィールド１３５４（ＥＶＥＸバイト３、ビット［６‐５］‐Ｓ_２−１）の残りは、ベクトル長フィールド１３５９Ｂ（ＥＶＥＸバイト３、ビット［６‐５］‐Ｌ_１−０）として解釈される。Ｕ＝１であり、ＭＯＤフィールド１４４２が００、０１、または１０を含む場合（メモリアクセスオペレーションを意味する）、ベータフィールド１３５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ）は、ベクトル長フィールド１３５９Ｂ（ＥＶＥＸバイト３、ビット［６‐５］‐Ｌ_１−０）およびブロードキャストフィールド１３５７Ｂ（ＥＶＥＸバイト３、ビット［４］‐Ｂ）として解釈される。

例示的なレジスタアーキテクチャ図１５は、一実施形態による、レジスタアーキテクチャ１５００のブロック図である。示される実施形態において、５１２ビット幅の３２個のベクトルレジスタ１５１０が存在する。これらのレジスタは、ｚｍｍ０〜ｚｍｍ３１として参照される。下位の１６個のｚｍｍレジスタの下位の２５６ビットは、レジスタｙｍｍ０〜１５上にオーバーレイされる。下位の１６個のｚｍｍレジスタの下位の１２８ビット（ｙｍｍレジスタの下位の１２８ビット）は、レジスタｘｍｍ０〜１５上にオーバーレイされる。以下の表２に示されるように、特定ベクトル向け命令フォーマット１４００は、これらのオーバーレイされたレジスタファイルで動作する。

換言すると、ベクトル長フィールド１３５９Ｂは、最大長、および１もしくは複数の他のより短い長さのうちから選択され、そのような各々のより短い長さは、先述の長さの半分の長さである。ベクトル長フィールド１３５９Ｂを用いない命令テンプレートは、最大ベクトル長で動作する。更に、一実施形態において、特定ベクトル向け命令フォーマット１４００のクラスＢ命令テンプレートは、パックドもしくはスカラ単精度／倍精度浮動小数点データおよびパックドもしくはスカラ整数データで動作する。スカラオペレーションは、ｚｍｍ／ｙｍｍ／ｘｍｍレジスタにおける最下位のデータ要素位置で実行されるオペレーションである。より高位のデータ要素位置は、命令前と同じままであるか、または実施形態に応じてゼロにされる。

ライトマスクレジスタ１５１５。示される実施形態において、８つのライトマスクレジスタ（ｋ０〜ｋ７）が存在し、各々は６４ビットのサイズである。代替的な実施形態において、ライトマスクレジスタ１５１５は１６ビットのサイズである。上記のように、一実施形態において、ベクトルマスクレジスタｋ０は、ライトマスクとして用いることができない。通常、ｋ０を示すエンコードがライトマスクに用いられる場合、これは、０ｘＦＦＦＦのハードワイヤードライトマスクを選択し、その命令に対するライトマスキングを実質的に無効にする。

汎用レジスタ１５２５。示される実施形態において、メモリオペランドをアドレス指定する既存のｘ８６のアドレス指定モードと共に用いられる１６個の６４ビット汎用レジスタが存在する。これらのレジスタは、ＲＡＸ、ＲＢＸ、ＲＣＸ、ＲＤＸ、ＲＢＰ、ＲＳＩ、ＲＤＩ、ＲＳＰ、およびＲ８〜Ｒ１５の名称により参照される。

スカラ浮動小数点スタックレジスタファイル（ｘ８７スタック）１５４５上に、ＭＭＸパックド整数フラットレジスタファイル１５５０がエイリアスされ、示される実施形態において、ｘ８７スタックは、ｘ８７命令セット拡張を用いて、３２／６４／８０ビット浮動小数点データにスカラ浮動小数点オペレーションを実行するべく用いられる８つの要素のスタックである。ＭＭＸレジスタは、６４ビットパックド整数データにオペレーションを実行すると共に、ＭＭＸレジスタとＸＭＭレジスタとの間で実行されるいくつかのオペレーションのためのオペランドを保持するべく用いられる。

代替的な実施形態は、より広いか、またはより狭いレジスタを用い得る。更に、代替的な実施形態は、より多いか、より少ないか、または異なるレジスタファイルおよびレジスタを用い得る。

上記の明細書において、本発明は、その特定の例示的な実施形態を参照して説明されている。しかし、添付の特許請求の範囲に記載される本発明のより広い趣旨および範囲を逸脱することなく、様々な修正および変更がなされ得ることは明らかであろう。従って、明細書および図面は、限定的意味ではなく、例示的意味で顧慮されるものである。

本明細書において説明される命令は、一定のオペレーションを実行するように構成され、または予め定められ機能性を有する特定用途向け集積回路（ＡＳＩＣ）のようなハードウェアの特定の構成に言及する。そのような電子デバイスは通常、１もしくは複数のストレージデバイス（非一時的機械可読ストレージ媒体）、ユーザ入出力デバイス（例えば、キーボード、タッチスクリーン、および／またはディスプレイ）、ならびにネットワーク接続等、１もしくは複数の他のコンポーネントに結合された１もしくは複数のプロセッサのセットを含む。プロセッサおよび他のコンポーネントのセットの結合は通常、１または複数のバスおよびブリッジ（バスコントローラとも称される）を介して行われる。ストレージデバイスおよびネットワークトラフィックを搬送する信号は、各々、１または複数の機械可読ストレージ媒体および機械可読通信媒体を表す。従って、所与の電子デバイスのストレージデバイスは通常、当該電子デバイスの１または複数のプロセッサのセット上で実行するためのコードおよび／またはデータを格納する。

勿論、本発明の実施形態の１または複数の部分は、ソフトウェア、ファームウェア、および／またはハードウェアの異なる組み合わせを用いて実装され得る。この詳細な説明を通じて、説明の目的のために、多数の具体的な詳細が、本発明の完全な理解を提供するべく記載された。しかし、当業者には本発明がこれら具体的な詳細のいくつかがなくても実施され得ることが明らかであろう。特定の例において、周知の構造および機能は、本発明の主題を不明瞭にするのを避けるべく、精巧詳細に説明されていない。従って、本発明の範囲および趣旨は、以下の特許請求の範囲の観点から判断されるべきである。

Claims

第１の命令をデコードして、第１のオペランドおよび第２のオペランドを含むデコード済みの第１の命令にするためのデコードロジックと、
前記第１のオペランドおよび前記第２のオペランドに対してベクトル飽和加算オペレーションを実行するべく、デコード済みの前記第１の命令を実行するための実行ユニットと、
デスティネーションオペランドにより示される箇所に前記ベクトル飽和加算オペレーションの結果をコミットするためのレジスタファイルユニットとを備える、処理装置。
前記第１の命令をフェッチするための命令フェッチユニットを更に備え、
前記第１の命令は、単一のマシンレベル命令である、請求項１に記載の処理装置。
前記レジスタファイルユニットは、更に、
第１のソースオペランド値を格納するための第１のレジスタと、
第２のソースオペランド値を格納するための第２のレジスタと、
第１のデータ要素に関連付けられたマスク値に基づいて前記ベクトル飽和加算オペレーションの結果の前記第１のデータ要素を条件付きで格納するための第３のレジスタとを含むレジスタのセットを格納する、請求項１または２に記載の処理装置。
前記レジスタファイルユニットは、更に、第２のデータ要素に関連付けられた前記マスク値に少なくとも基づいて、前記ベクトル飽和加算オペレーションの前記結果の前記第２のデータ要素をコミットしない、請求項３に記載の処理装置。
前記第１のレジスタまたは前記第２のレジスタは、ベクトルレジスタである、請求項３または４に記載の処理装置。
前記第２のレジスタは、ベクトルレジスタであり、
前記第２のオペランドは、スカラデータ要素を格納するメモリアドレスを示し、
前記スカラデータ要素は、前記第２のレジスタの各要素にブロードキャストされる、請求項５に記載の処理装置。
前記ベクトルレジスタは、１２８ビット、２５６ビット、または５１２ビットのレジスタである、請求項５または６に記載の処理装置。
前記ベクトルレジスタは、パックドダブルワードデータ要素またはパックドクワッドワードデータ要素を格納する、請求項５〜７のいずれか１項に記載の処理装置。
データ要素のセットに対する前記ベクトル飽和加算オペレーションの結果は、前記データ要素のデータタイプの範囲外であり、
飽和値は、デスティネーションデータ要素に書き込まれる、請求項５〜８のいずれか１項に記載の処理装置。
前記飽和値は、符号なしの値である、請求項９に記載の処理装置。
前記飽和値は、符号付きの値である、請求項９または１０に記載の処理装置。
集積回路により実装される方法であって、
ベクトル飽和加算オペレーションを実行する単一命令であって、２つのソースオペランドおよび１つのデスティネーションオペランドを含む前記単一命令をフェッチする段階と、
前記単一命令をデコードしてデコード済みの命令にする段階と、
前記２つのソースオペランドに関連付けられたソースオペランド値であって、複数のパックドデータ要素を含む前記ソースオペランド値をフェッチする段階と、
前記ソースオペランド値の関連付けられたデータ要素の和を計算するべく、デコード済みの前記単一命令を実行する段階であって、関連付けられたデータ要素の前記和は、前記関連付けられたデータ要素のデータタイプの範囲外であり、飽和値は、結果として第１のデスティネーションデータ要素に書き込まれる段階とを備える、方法。
第２のデータ要素に関連付けられたライトマスク値に基づいて、前記第２のデータ要素にゼロを書き込む段階を更に備える、請求項１２に記載の方法。
ソースオペランドにより指定されたメモリアドレスからデータ要素を読み込む段階と、前記データ要素をソースベクトルレジスタの各要素にブロードキャストする段階とを更に備える、請求項１３に記載の方法。
ベクトル飽和加算オペレーションを実行するためのシステムにおいて、
ベクトル飽和加算オペレーションを実行するための単一命令であって、２つのソースオペランドおよび１つのデスティネーションオペランドを有する前記単一命令をフェッチするための手段と、
前記単一命令をデコードしてデコード済みの命令にするための手段と、
前記２つのソースオペランドに関連付けられたソースオペランド値であって、複数のパックドデータ要素を含む前記ソースオペランド値をフェッチするための手段と、
前記ソースオペランド値の関連付けられたデータ要素の和を計算するべく、デコード済みの前記単一命令を実行するための手段とを備える、システム。
前記ソースオペランド値の関連付けられたデータ要素から計算された和を、ベクトルレジスタファイルの第１のデータ要素に書き込むための手段を更に備え、前記書き込みは、前記第１のデータ要素に関連付けられたライトマスク値に基づく、請求項１５に記載のシステム。
第２のデータ要素に関連付けられたライトマスク値に基づいて、前記第２のデータ要素にゼロを書き込むための手段を更に備える、請求項１５または１６に記載のシステム。
ソースオペランドにより指定されたメモリアドレスからデータ要素を読み込むための手段を更に備える、請求項１５〜１７のいずれか１項に記載のシステム。
前記データ要素をソースベクトルレジスタの各要素にブロードキャストするための手段を更に備える、請求項１８に記載のシステム。
前記ソースベクトルレジスタは、１２８ビットのレジスタである、請求項１９に記載のシステム。
前記ソースベクトルレジスタは、２５６ビットのレジスタである、請求項１９または２０に記載のシステム。
前記ソースベクトルレジスタは、５１２ビットのレジスタである、請求項１９〜２１のいずれか１項に記載のシステム。
前記データ要素は、ダブルワードデータ要素である、請求項１９〜２２のいずれか１項に記載のシステム。
前記データ要素は、クワッドワードデータ要素である、請求項１９〜２３のいずれか１項に記載のシステム。
関連付けられたデータ要素の和は、前記関連付けられたデータ要素のデータタイプの範囲外であり、
飽和値を、結果として第２のデスティネーションデータ要素に書き込むための手段を更に備える、請求項２４に記載のシステム。