JP2018500653A

JP2018500653A - ベクトルブロードキャストおよびｘｏｒａｎｄ論理命令のための装置および方法

Info

Publication number: JP2018500653A
Application number: JP2017527294A
Authority: JP
Inventors: ウルド−アハメド−ヴァル、エルムスタファ; エスパサ、ロジェー; エフ．ギーエン、デイヴィッド; ジーザスサンチェズ、エフ．; ソレ、グイレム
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2014-12-23
Filing date: 2015-11-20
Publication date: 2018-01-11
Also published as: TWI610229B; BR112017010985A2; US20160179523A1; EP3238041A1; KR20170097018A; TW201636831A; EP3238041A4; WO2016105727A1; SG11201704245VA; CN107003844A

Abstract

ベクトルブロードキャストおよびＸＯＲＡＮＤ論理命令を実行するための装置および方法が説明される。例えば、プロセッサの一実施形態は、デスティネーションパックドデータオペランド、第１のソースパックドデータオペランド、第２のソースパックドデータオペランド、および即値オペランドを示す命令をメモリからフェッチするフェッチロジックと、即値に対応する位置に基づいて第２のソースパックドデータオペランドにおけるビットを決定し、第１のソースパックドデータオペランドと決定されたビットとの間でビット単位のＡＮＤを実行して中間結果を生成し、デスティネーションパックドデータオペランドと中間結果との間でビット単位のＸＯＲを実行し、最終結果を生成し、デスティネーションパックドデータオペランドによって示される格納位置に最終結果を格納する実行ロジックとを備える。

Description

本発明の実施形態は、概ねコンピュータシステムの分野に関する。より詳細には、本発明の実施形態は、コンピュータプロセッサ内でベクトルブロードキャストおよびＸＯＲＡＮＤ論理命令を実行するための装置および方法に関する。

アプリケーションの一定のタイプは、多くの場合、多数のデータアイテムに対して実行される同一のオペレーションを必要とする（「データ並列性」と称される）。単一命令多重データ（ＳＩＭＤ）は、プロセッサに複数のデータアイテムに対するオペレーションを実行させるタイプの命令を指す。ＳＩＭＤ技術は、レジスタにおけるビットをいくつかの固定サイズのデータ要素に論理的に分割し得、固定サイズのデータ要素の各々が別個の値を表すプロセッサに特に好適である。例えば、２５６ビットレジスタにおけるビットは、４個の別個の６４ビットパックドデータ要素（クワッドワード（Ｑ）サイズのデータ要素）、８個の別個の３２ビットパックドデータ要素（ダブルワード（Ｄ）サイズのデータ要素）、１６個の別個の１６ビットパックドデータ要素（ワード（Ｗ）サイズのデータ要素）、または３２個の別個の８ビットデータ要素（バイト（Ｂ）サイズのデータ要素）として演算されるソースオペランドとして指定されてもよい。このタイプのデータは、「パックド」データタイプまたは「ベクトル」データタイプと称され、このデータタイプのオペランドは、パックドデータオペランドまたはベクトルオペランドと称される。換言すると、パックドデータアイテムまたはベクトルは、パックドデータ要素のシーケンスを指し、パックドデータオペランドまたはベクトルオペランドは、ＳＩＭＤ命令（パックドデータ命令またはベクトル命令としても知られる）のソースまたはデスティネーションオペランドである。

ｘ８６、ＭＭＸ（商標）、ストリーミングＳＩＭＤ拡張（ＳＳＥ）、ＳＳＥ２、ＳＳＥ３、ＳＳＥ４．１、およびＳＳＥ４．２命令を含む命令セットを有する、インテル（登録商標）Ｃｏｒｅ（商標）プロセッサにより使用されるもの等、ＳＩＭＤ技術は、アプリケーション性能における著しい改善を可能にした。アドバンスドベクトル拡張（ＡｄｖａｎｃｅｄＶｅｃｔｏｒＥｘｔｅｎｓｉｏｎ、ＡＶＸ）（ＡＶＸ１およびＡＶＸ２）と呼ばれ、ベクトル拡張（ＶＥＸ）符号化スキームを用いる追加のセットのＳＩＭＤ拡張が、リリースされている（例えば、Ｉｎｔｅｌ（登録商標）６４ａｎｄＩＡ−３２ＡｒｃｈｉｔｅｃｔｕｒｅｓＳｏｆｔｗａｒｅＤｅｖｅｌｏｐｅｒｓＭａｎｕａｌ，Ｏｃｔｏｂｅｒ２０１１およびＩｎｔｅｌ（登録商標）ＡｄｖａｎｃｅｄＶｅｃｔｏｒＥｘｔｅｎｓｉｏｎｓＰｒｏｇｒａｍｍｉｎｇＲｅｆｅｒｅｎｃｅ，Ｊｕｎｅ２０１１を参照されたい）。これらのＡＶＸ拡張を、エンハンストベクトル拡張（ＥＶＥＸ）符号化スキームを用いる５１２ビットのレジスタ（ＡＶＸ‐５１２）のサポートに拡張することが更に提案されている。

ブーリアン（ビット）行列とブーリアンベクトルとの乗算には問題がある。多くの場合、現在の実装は、行列要素に対する反復したブーリアン加算（ＸＯＲ）オペレーションを必要とする場合がある。これは、かなりのプロセッササイクルを浪費し、結果として、ブーリアン行列乗算オペレーションは非常に遅いものとなる。従って、そのようなビット行列乗算オペレーションが不要な計算を減らすように実装されれば、効率性の向上を図ることができる。

本発明の実施形態による、例示的なインオーダパイプライン、および例示的なレジスタリネーム、アウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。

本発明の実施形態による、プロセッサに含まれる、例示的インオーダアーキテクチャコア、および例示的なレジスタリネーム、アウトオブオーダ発行／実行アーキテクチャコアの両方の例示的な実施形態を示すブロック図である。

本発明の実施形態による、シングルコアプロセッサ、ならびに統合メモリコントローラおよびグラフィックスを有するマルチコアプロセッサのブロック図である。

本発明の一実施形態によるシステムのブロック図を示す。

本発明の実施形態による第２のシステムのブロック図を示す。

本発明の実施形態による第３のシステムのブロック図を示す。

本発明の実施形態によるシステムオンチップ（ＳｏＣ）のブロック図を示す。

本発明の実施形態による、ソース命令セットのバイナリ命令を、ターゲット命令セットのバイナリ命令に変換するソフトウェア命令コンバータの使用と対比するブロック図を示す。

ベクトルブロードキャストおよびＸＯＲＡＮＤ論理命令の実施形態を実行するように動作可能なシステム８００を示すブロック図である。

本発明の一実施形態によるベクトルブロードキャストおよびＸＯＲＡＮＤ論理命令を実行するためのロジックを示す。

ベクトルブロードキャストおよびＸＯＲＡＮＤ論理命令の実施形態を実行するように動作可能なシステムの方法１０００のフロー図である。

ベクトルブロードキャストおよびＸＯＲＡＮＤ論理命令の実施形態を実行するように動作可能なロジック用の例示的な疑似コードを示す。

本発明の実施形態による、一般的ベクトル向け命令フォーマットおよびその命令テンプレートを示すブロック図である。本発明の実施形態による、一般的ベクトル向け命令フォーマットおよびその命令テンプレートを示すブロック図である。

本発明の実施形態による例示的な特定ベクトル向け命令フォーマットを示す。本発明の実施形態による例示的な特定ベクトル向け命令フォーマットを示す。本発明の実施形態による例示的な特定ベクトル向け命令フォーマットを示す。本発明の実施形態による例示的な特定ベクトル向け命令フォーマットを示す。

本発明の一実施形態による、レジスタアーキテクチャのブロック図である。

より具体的な例示的インオーダコアアーキテクチャのブロック図を示す。より具体的な例示的インオーダコアアーキテクチャのブロック図を示す。より具体的な例示的インオーダコアアーキテクチャのブロック図を示す。より具体的な例示的インオーダコアアーキテクチャのブロック図を示す。

例示的なプロセッサアーキテクチャ
図１Ａは、本発明の実施形態による、例示的なインオーダフェッチ、デコード、リタイアパイプライン、および例示的なレジスタリネーム、アウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。図１Ｂは、本発明の実施形態による、プロセッサに含まれる、例示的インオーダフェッチ、デコード、リタイアコア、および例示的なレジスタリネーム、アウトオブオーダ発行／実行アーキテクチャコアの両方の例示的な実施形態を示すブロック図である。図１Ａ〜図１Ｂにおける実線ボックスは、パイプラインおよびコアのインオーダ部分を示すが、破線ボックスを任意選択で追加することにより、レジスタリネーム、アウトオブオーダ発行／実行パイプラインおよびコアを示す。

図１Ａにおいて、プロセッサパイプライン１００は、フェッチステージ１０２、長さデコードステージ１０４、デコードステージ１０６、アロケーションステージ１０８、リネームステージ１１０、スケジューリング（ディスパッチまたは発行としても知られる）ステージ１１２、レジスタ読み出し／メモリ読み出しステージ１１４、実行ステージ１１６、ライトバック／メモリ書き込みステージ１１８、例外処理ステージ１２２、およびコミットステージ１２４を含む。

図１Ｂは、実行エンジンユニット１５０に結合されたフロントエンドユニット１３０を含むプロセッサコア１９０を示し、実行エンジンユニット１５０およびフロントエンドユニット１３０の両方がメモリユニット１７０に結合される。コア１９０は、縮小命令セットコンピューティング（ＲＩＳＣ）コア、複合命令セットコンピューティング（ＣＩＳＣ）コア、超長命令語（ＶＬＩＷ）コア、またはハイブリッドもしくは代替的なコアタイプであってもよい。なおも別の選択肢として、コア１９０は、例えば、ネットワークコアまたは通信コア、圧縮エンジン、コプロセッサコア、汎用演算グラフィックス処理ユニット（ＧＰＧＰＵ）コア、グラフィックスコア等のような専用コアであってもよい。

フロントエンドユニット１３０は、命令キャッシュユニット１３４に結合される分岐予測ユニット１３２を含む。命令キャッシュユニット１３４は、命令トランスレーションルックアサイドバッファ（ＴＬＢ）１３６に結合される。ＴＬＢ１３６は、命令フェッチユニット１３８に結合される。命令フェッチユニット１３８は、デコードユニット１４０に結合される。デコードユニット１４０（またはデコーダ）は、命令をデコードし、出力として１もしくは複数のマイクロオペレーション、マイクロコードエントリポイント、マイクロ命令、他の命令、または他の制御信号を生成することができ、これらは、元の命令からデコードされ、または別途これらを反映し、あるいはこれらから派生する。デコードユニット１４０は、様々な異なるメカニズムを用いて実装され得る。好適なメカニズムの例としては、ルックアップテーブル、ハードウェア実装、プログラマブルロジックアレイ（ＰＬＡ）、マイクロコードリードオンリメモリ（ＲＯＭ）等が挙げられるが、これらに限定されない。一実施形態において、コア１９０は、一定のマクロ命令に対するマイクロコードを（例えば、デコードユニット１４０またはそうでなければフロントエンドユニット１３０内に）格納するマイクロコードＲＯＭまたは他の媒体を含む。デコードユニット１４０は、実行エンジンユニット１５０におけるリネーム／アロケータユニット１５２に結合される。

実行エンジンユニット１５０は、リタイアメントユニット１５４および１もしくは複数のスケジューラユニット１５６のセットに結合されたリネーム／アロケータユニット１５２を含む。スケジューラユニット１５６は、リザベーションステーション、中央命令ウィンドウ等を含む、任意の数の異なるスケジューラを表す。スケジューラユニット１５６は、物理レジスタファイルユニット１５８に結合される。物理レジスタファイルユニット１５８の各々は、１または複数の物理レジスタファイルを表し、これらの異なるものが、スカラ整数、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点、ステータス（例えば、実行されるべき次の命令のアドレスである命令ポインタ）等のような１または複数の異なるデータタイプを格納する。一実施形態において、物理レジスタファイルユニット１５８は、ベクトルレジスタユニット、ライトマスクレジスタユニット、およびスカラレジスタユニットを備える。これらのレジスタユニットは、アーキテクチャベクトルレジスタ、ベクトルマスクレジスタ、および汎用レジスタを提供し得る。物理レジスタファイルユニット１５８は、リタイアメントユニット１５４と重なっており、レジスタリネームおよびアウトオブオーダ実行が（例えば、リオーダバッファおよびリタイアメントレジスタファイルを用い、フューチャファイル、履歴バッファ、およびリタイアメントレジスタファイルを用い、レジスタのレジスタマップおよびプール等を用いて）実装され得る様々な態様を示す。リタイアメントユニット１５４および物理レジスタファイルユニット１５８は、実行クラスタ１６０に結合される。実行クラスタ１６０は、１もしくは複数の実行ユニット１６２のセット、および１もしくは複数のメモリアクセスユニット１６４のセットを含む。実行ユニット１６２は、様々なオペレーション（例えば、シフト、加算、減算、乗算）を、様々なタイプのデータ（例えば、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点）に対して実行し得る。いくつかの実施形態は、特定の関数または関数のセットに専用のいくつかの実行ユニットを含み得るが、他の実施形態は、１つの実行ユニットのみ、またはその全てがあらゆる関数を実行する複数の実行ユニットを含み得る。スケジューラユニット１５６、物理レジスタファイルユニット１５８、および実行クラスタ１６０は、場合によっては複数のものとして示される。なぜなら、ある実施形態は、一定のタイプのデータ／オペレーションのための別個のパイプライン（例えば、各々が自身のスケジューラユニット、物理レジスタファイルユニット、および／または実行クラスタを有し、別個のメモリアクセスパイプラインの場合に、このパイプラインの実行クラスタのみがメモリアクセスユニット１６４を有する一定の実施形態が実装される）スカラ整数パイプライン、スカラ浮動小数点／パックド整数／パックド浮動小数点／ベクトル整数／ベクトル浮動小数点パイプライン、および／またはメモリアクセスパイプラインを生成するからである。別個のパイプラインが用いられる場合に、これらのパイプラインのうちの１または複数は、アウトオブオーダ発行／実行であり、残りはインオーダであり得ることも理解されたい。

メモリアクセスユニット１６４のセットは、メモリユニット１７０に結合される。メモリユニット１７０は、データＴＬＢユニット１７２を含む。データＴＬＢユニット１７２は、データキャッシュユニット１７４に結合される。データキャッシュユニット１７４は、レベル２（Ｌ２）キャッシュユニット１７６に結合される。例示的な一実施形態において、メモリアクセスユニット１６４は、ロードユニット、ストアアドレスユニット、およびストアデータユニットを含み得、それらの各々がメモリユニット１７０におけるデータＴＬＢユニット１７２に結合される。命令キャッシュユニット１３４は、メモリユニット１７０におけるレベル２（Ｌ２）キャッシュユニット１７６に更に結合される。Ｌ２キャッシュユニット１７６は、１または複数の他のレベルのキャッシュに結合され、最終的にはメインメモリに結合される。

例として、例示的なレジスタリネーム、アウトオブオーダ発行／実行コアアーキテクチャは、パイプライン１００を以下のように実装し得る。１）命令フェッチ１３８は、フェッチステージ１０２および長さデコードステージ１０４を実行する。２）デコードユニット１４０は、デコードステージ１０６を実行する。３）リネーム／アロケータユニット１５２は、アロケーションステージ１０８およびリネームステージ１１０を実行する。４）スケジューラユニット１５６は、スケジューリングステージ１１２を実行する。５）物理レジスタファイルユニット１５８およびメモリユニット１７０は、レジスタ読み出し／メモリ読み出しステージ１１４を実行し、実行クラスタ１６０は、実行ステージ１１６を実行する。６）メモリユニット１７０および物理レジスタファイルユニット１５８は、ライトバック／メモリ書き込みステージ１１８を実行する。７）様々なユニットは、例外処理ステージ１２２に関係し得る。８）リタイアメントユニット１５４および物理レジスタファイルユニット１５８は、コミットステージ１２４を実行する。

コア１９０は、本明細書において説明される命令を含む、１または複数の命令セット（例えば、ｘ８６命令セット（より新しいバージョンを追加された、いくつかの拡張を伴う）、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰＳ命令セット、カリフォルニア州サニーベールのＡＲＭＨｏｌｄｉｎｇｓのＡＲＭ命令セット（ＮＥＯＮ等の任意選択の追加拡張を伴う）をサポートし得る。一実施形態において、コア１９０は、パックドデータ命令セット拡張（例えば、ＡＶＸ１、ＡＶＸ２、および／または下記のいくつかの形式の一般的ベクトル向け命令フォーマット（Ｕ＝０および／またはＵ＝１））をサポートするロジックを含み、それによって多くのマルチメディアアプリケーションにより用いられるオペレーションがパックドデータを用いて実行されることを可能にする。

コアは、マルチスレッディング（２もしくはそれより多い並列セットのオペレーションもしくはスレッドを実行する）をサポートし得、タイムスライスマルチスレッディング、同時マルチスレッディング（物理コアが同時にマルチスレッディングするスレッドの各々に対する論理コアを、単一の物理コアが提供する）、またはそれらの組み合わせ（例えば、インテル（登録商標）ハイパースレッディング技術等におけるタイムスライスフェッチおよびデコード、ならびにその後の同時マルチスレッディング）を含む様々な態様でサポートし得ることを理解されたい。

レジスタリネームは、アウトオブオーダ実行の文脈で説明されるが、レジスタリネームは、インオーダアーキテクチャで用いられ得ることを理解されたい。プロセッサの示された実施形態は、別個の命令およびデータキャッシュユニット１３４／１７４、ならびに共有Ｌ２キャッシュユニット１７６も含むが、代替的な実施形態は、例えば、レベル１（Ｌ１）内部キャッシュまたは複数のレベルの内部キャッシュ等の命令およびデータの両方に対する単一の内部キャッシュを有し得る。いくつかの実施形態において、システムは、内部キャッシュ、ならびにコアおよび／またはプロセッサの外部にある外部キャッシュの組み合わせを含み得る。あるいは、キャッシュの全てがコアおよび／またはプロセッサの外部にあってもよい。

図２は、本発明の実施形態による、２つ以上のコアを有し得、統合メモリコントローラを有し得、統合グラフィックスを有し得る、プロセッサ２００のブロック図である。図２における実線ボックスは、シングルコア２０２Ａ、システムエージェント２１０、１または複数のバスコントローラユニット２１６のセットを有するプロセッサ２００を示すが、破線ボックスの任意選択の追加は、複数のコア２０２Ａ〜Ｎ、システムエージェントユニット２１０における１または複数の統合メモリコントローラユニット２１４のセット、および専用ロジック２０８を有する代替的なプロセッサ２００を示す。

従って、プロセッサ２００の異なる実装としては、１）（１または複数のコアを含み得る）統合グラフィックスおよび／またはサイエンティフィック（スループット）ロジックである専用ロジック２０８と、１または複数の汎用コア（例えば、汎用インオーダコア、汎用アウトオブオーダコア、これら２つの組み合わせ）であるコア２０２Ａ〜Ｎとを用いるＣＰＵ、２）主にグラフィックスおよび／またはサイエンティフィック（スループット）用の多数の専用コアであるコア２０２Ａ〜Ｎを用いるコプロセッサ、ならびに３）多数の汎用インオーダコアであるコア２０２Ａ〜Ｎを用いるコプロセッサが挙げられ得る。このように、プロセッサ２００は、例えば、ネットワークプロセッサまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ（汎用グラフィックス処理ユニット）、（３０個またはそれより多いコアを含む）高スループット多集積コア（ＭＩＣ）コプロセッサ、エンベデッドプロセッサ等のような汎用プロセッサ、コプロセッサ、または専用プロセッサであり得る。プロセッサは、１または複数のチップ上に実装され得る。プロセッサ２００は、１または複数の基板の一部であり得、および／または、例えば、ＢｉＣＭＯＳ、ＣＭＯＳ、またはＮＭＯＳ等のいくつかの処理技術のいずれかを用いて１または複数の基板上に実装され得る。

メモリ階層は、コア内における１または複数のレベルのキャッシュと、１セットまたは１もしくは複数の共有キャッシュユニット２０６と、統合メモリコントローラユニット２１４のセットに結合された外部メモリ（図示せず）とを含む。共有キャッシュユニット２０６のセットは、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）等、１または複数の中間レベルのキャッシュ、または他のレベルキャッシュ、ラストレベルキャッシュ（ＬＬＣ）、および／またはこれらの組み合わせを含み得る。一実施形態においては、リングベースの相互接続ユニット２１２は、統合グラフィックスロジック２０８、共有キャッシュユニット２０６のセット、およびシステムエージェントユニット２１０／統合メモリコントローラユニット２１４を相互接続するが、代替的な実施形態は、そのようなユニットを相互接続するために任意の数の周知の技術を用いてもよい。一実施形態において、１または複数のキャッシュユニット２０６とコア２０２Ａ〜Ｎとの間でコヒーレンシが保持される。

いくつかの実施形態において、コア２０２Ａ〜Ｎのうちの１または複数は、マルチスレッディングができる。システムエージェント２１０は、コア２０２Ａ〜Ｎを調整して動作させるコンポーネントを含む。システムエージェントユニット２１０は、例えば、電力制御ユニット（ＰＣＵ）およびディスプレイユニットを含み得る。ＰＣＵは、コア２０２Ａ〜Ｎおよび統合グラフィックスロジック２０８の電力状態を調整するのに必要とされるロジックおよびコンポーネントであるか、またはこれらを含み得る。ディスプレイユニットは、１または複数の外部接続されたディスプレイを駆動するためのものである。

コア２０２Ａ〜Ｎは、アーキテクチャ命令セットの観点からは同種または異種であり得る。すなわち、コア２０２Ａ〜Ｎのうちの２またはそれより多くは、同じ命令セットを実行することができる場合があり、他のものは、当該命令セットのサブセットのみ、または異なる命令セットを実行することができる場合がある。一実施形態において、コア２０２Ａ〜Ｎは、異種であり、下記の「小さい」コアおよび「大きい」コアの両方を含む。

図３〜６は、例示的なコンピュータアーキテクチャのブロック図である。ラップトップ、デスクトップ、ハンドヘルドＰＣ、携帯情報端末、エンジニアリングワークステーション、サーバ、ネットワークデバイス、ネットワークハブ、スイッチ、エンベデッドプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、グラフィックスデバイス、ビデオゲームデバイス、セットトップボックス、マイクロコントローラ、携帯電話、ポータブルメディアプレーヤ、ハンドヘルドデバイス、および様々な他の電子デバイスの技術分野で既知の他のシステム設計および構成も好適である。一般に、本明細書において開示されるプロセッサおよび／または他の実行ロジックを組み込むことができる多種多様なシステムまたは電子デバイスが概ね好適である。

ここで図３を参照すると、本発明の一実施形態によるシステム３００のブロック図が示されている。システム３００は、１または複数のプロセッサ３１０、３１５を含み得、これらはコントローラハブ３２０に結合される。一実施形態において、コントローラハブ３２０は、グラフィックスメモリコントローラハブ（ＧＭＣＨ）３９０および入出力ハブ（ＩＯＨ）３５０（別個のチップ上にあり得る）を含む。ＧＭＣＨ３９０は、メモリコントローラおよびグラフィックスコントローラを含み、これらにメモリ３４０およびコプロセッサ３４５が結合される。ＩＯＨ３５０は、入出力（Ｉ／Ｏ）デバイス３６０をＧＭＣＨ３９０に結合する。あるいは、メモリおよびグラフィックスコントローラの一方または両方が（本明細書において説明される）プロセッサ内に統合され、メモリ３４０およびコプロセッサ３４５は、プロセッサ３１０およびＩＯＨ３５０を有する単一チップ内のコントローラハブ３２０に直接に結合される。

追加のプロセッサ３１５の任意選択の性質は、図３において破線で示される。各プロセッサ３１０、３１５は、本明細書に説明される処理コアのうちの１または複数を含み得、プロセッサ２００のいくつかのバージョンであり得る。

メモリ３４０は、例えば、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、相変化メモリ（ＰＣＭ）、またはこれら２つの組み合わせであってもよい。少なくとも一実施形態においては、コントローラハブ３２０は、フロントサイドバス（ＦＳＢ）等のマルチドロップバス、ＱｕｉｃｋＰａｔｈ相互接続（ＱＰＩ）等のポイントツーポイントインタフェース、または類似の接続３９５を介してプロセッサ３１０、３１５と通信する。

一実施形態において、コプロセッサ３４５は、例えば、高スループットＭＩＣプロセッサ、ネットワークプロセッサまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、エンベデッドプロセッサ等のような専用プロセッサである。一実施形態において、コントローラハブ３２０は、統合グラフィックスアクセラレータを含み得る。

物理リソース３１０と物理リソース３１５との間には、アーキテクチャ、マイクロアーキテクチャ、熱、電力消費の特性等を含む幅広い価値基準に関して様々な違いが存在し得る。

一実施形態において、プロセッサ３１０は、一般的なタイプのデータ処理オペレーションを制御する命令を実行する。コプロセッサ命令は、命令中に埋め込まれ得る。プロセッサ３１０は、取り付けられたコプロセッサ３４５により実行されるべきタイプとしてこれらのコプロセッサ命令を認識する。従って、プロセッサ３１０は、コプロセッサバスまたは他の相互接続においてこれらのコプロセッサ命令（またはコプロセッサ命令を表す制御信号）をコプロセッサ３４５に発する。コプロセッサ３４５は、受信したコプロセッサ命令を受け取って実行する。

ここで図４を参照すると、本発明の実施形態による、第１のより具体的な例示的システム４００のブロック図が示されている。図４に示されるように、マルチプロセッサシステム４００は、ポイントツーポイント相互接続システムであり、ポイントツーポイント相互接続４５０を介して結合される第１のプロセッサ４７０および第２のプロセッサ４８０を含む。プロセッサ４７０および４８０の各々は、プロセッサ２００のいくつかのバージョンであり得る。本発明の一実施形態において、プロセッサ４７０および４８０は各々、プロセッサ３１０および３１５であるが、コプロセッサ４３８は、コプロセッサ３４５である。別の実施形態において、プロセッサ４７０および４８０は各々、プロセッサ３１０およびコプロセッサ３４５である。

統合メモリコントローラ（ＩＭＣ）ユニット４７２および４８２を各々含むプロセッサ４７０および４８０が示される。プロセッサ４７０は、そのバスコントローラユニットの一部としてポイントツーポイント（Ｐ‐Ｐ）インタフェース４７６および４７８も含む。同様に、第２のプロセッサ４８０は、Ｐ‐Ｐインタフェース４８６および４８８を含む。プロセッサ４７０、４８０は、Ｐ‐Ｐインタフェース回路４７８、４８８を用いて、ポイントツーポイント（Ｐ‐Ｐ）インタフェース４５０を介して情報を交換し得る。図４に示されるように、ＩＭＣ４７２および４８２は、プロセッサを各メモリ、すなわち、各プロセッサにローカルに取り付けられたメインメモリの一部であり得るメモリ４３２およびメモリ４３４に結合する。

プロセッサ４７０、４８０は各々、ポイントツーポイントインタフェース回路４７６、４９４、４８６、４９８を用い、個々のＰ‐Ｐインタフェース４５２、４５４を介してチップセット４９０と情報を交換し得る。任意選択で、チップセット４９０は、高性能インタフェース４３９を介してコプロセッサ４３８と情報を交換し得る。一実施形態において、コプロセッサ４３８は、例えば、高スループットＭＩＣプロセッサ、ネットワークプロセッサもしくは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、エンベデッドプロセッサ等のような専用プロセッサである。

共有キャッシュ（図示せず）は、いずれかのプロセッサに含まれ、または両方のプロセッサの外部にあり得るが、プロセッサが低電力モードにされると、どちらかまたは両方のプロセッサのローカルキャッシュ情報が共有キャッシュに格納され得るように、Ｐ‐Ｐ相互接続を介してプロセッサとなおも接続され得る。

チップセット４９０は、インタフェース４９６を介して第１のバス４１６に結合され得る。一実施形態において、第１のバス４１６は、周辺構成要素相互接続（ＰＣＩ）バス、またはＰＣＩＥｘｐｒｅｓｓバス等のバス、または別の第３世代Ｉ／Ｏ相互接続バスであり得るが、本発明の範囲はそのように限定されない。

図４に示されるように、様々なＩ／Ｏデバイス４１４が、第１のバス４１６を第２のバス４２０に結合するバスブリッジ４１８と共に、第１のバス４１６に結合され得る。一実施形態において、コプロセッサ、高スループットＭＩＣプロセッサ、ＧＰＧＰＵ、アクセラレータ（例えば、グラフィックスアクセラレータまたはデジタル信号処理（ＤＳＰ）ユニット等）、フィールドプログラマブルゲートアレイ、またはその他のプロセッサ等、１または複数の追加のプロセッサ４１５が第１のバス４１６に結合される。一実施形態において、第２のバス４２０は、ローピンカウント（ＬＰＣ）バスであり得る。様々なデバイスは、一実施形態において、例えば、キーボードおよび／またはマウス４２２、通信デバイス４２７、ならびに命令／コードおよびデータ４３０を含み得るディスクドライブもしくは他の大容量ストレージデバイス等のストレージユニット４２８を含む第２のバス４２０に結合され得る。更に、オーディオＩ／Ｏ４２４は、第２のバス４２０に結合され得る。他のアーキテクチャが可能であることに留意されたい。例えば、図４のポイントツーポイントアーキテクチャに代えて、システムは、マルチドロップバスまたは他のそのようなアーキテクチャを実装し得る。

ここで図５を参照すると、本発明の実施形態による、第２のより具体的な例示的システム５００のブロック図が示されている。図４および図５の同一の要素は、同一の参照番号を有し、図５の他の態様を不明瞭にするのを避けるべく、図４の特定の態様は、図５から省略されている。

図５は、プロセッサ４７０、４８０が統合メモリおよびＩ／Ｏ制御ロジック（「ＣＬ」）４７２および４８２を各々含み得ることを示す。従って、ＣＬ４７２、４８２は、統合メモリコントローラユニットを含み、Ｉ／Ｏ制御ロジックを含む。図５は、メモリ４３２、４３４がＣＬ４７２、４８２に結合されていることのみならず、Ｉ／Ｏデバイス５１４も制御ロジック４７２、４８２に結合されていることを示す。レガシＩ／Ｏデバイス５１５は、チップセット４９０に結合される。

ここで図６を参照すると、本発明の実施形態によるＳｏＣ６００のブロック図が示されている。図２における類似の要素は、同一の参照番号を有する。また、破線ボックスは、より高度なＳｏＣの任意選択の特徴である。図６において、相互接続ユニット６０２は、１もしくは複数のコア２０２Ａ〜Ｎおよび共有キャッシュユニット２０６のセットを含むアプリケーションプロセッサ６１０、システムエージェントユニット２１０、バスコントローラユニット２１６、統合メモリコントローラユニット２１４、統合グラフィックスロジック、画像プロセッサ、オーディオプロセッサ、およびビデオプロセッサを含み得る１もしくは複数のコプロセッサ６２０のセット、スタティックランダムアクセスメモリ（ＳＲＡＭ）ユニット６３０、ダイレクトメモリアクセス（ＤＭＡ）ユニット６３２、および１もしくは複数の外部ディスプレイを結合するディスプレイユニット６４０に結合される。一実施形態において、コプロセッサ６２０は、例えば、ネットワークプロセッサもしくは通信プロセッサ、圧縮エンジン、ＧＰＧＰＵ、高スループットＭＩＣプロセッサ、エンベデッドプロセッサ等のような専用プロセッサを含む。

本明細書に開示されるメカニズムの実施形態は、ハードウェア、ソフトウェア、ファームウェア、またはそのような実装アプローチの組み合わせで実装され得る。本発明の実施形態は、少なくとも１つのプロセッサ、ストレージシステム（揮発性および不揮発性メモリ、ならびに／またはストレージ要素を含む）、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスを有するプログラマブルシステム上で実行するコンピュータプログラムまたはプログラムコードとして実装され得る。

図４に示されるコード４３０等のプログラムコードは、本明細書に説明される機能を実行して出力情報を生成するべく、入力命令に適用され得る。出力情報は、既知の様式で１または複数の出力デバイスに適用され得る。本願の目的のために、処理システムは、例えば、デジタル信号プロセッサ（ＤＳＰ）、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、またはマイクロプロセッサ等のプロセッサを有する任意のシステムを含む。

プログラムコードは、高水準手続き型プログラミング言語またはオブジェクト指向プログラミング言語で実装され、処理システムと通信し得る。所望であれば、プログラムコードは、アセンブリ言語または機械語でも実装され得る。実際には、本明細書に説明されるメカニズムは、範囲においていずれの特定のプログラミング言語にも限定されない。いずれの場合においても、言語は、コンパイル型言語またはインタープリタ型言語であってもよい。

少なくとも一実施形態の１または複数の態様は、プロセッサ内の様々なロジックを表す、機械可読媒体上に格納された代表的な命令により実装され得、命令は、機械により読み出されると、当該機械に本明細書に説明される技術を実行させるためのロジックを生成させる。「ＩＰコア」として知られるそのような表現は、有形機械可読媒体（「テープ」）上に格納され、様々な顧客または製造設備に供給され、ロジックまたはプロセッサを実際に作製する製造機械に読み込まれ得る。

そのような機械可読ストレージ媒体としては、ハードディスク、フロッピー（登録商標）ディスク、光ディスク、コンパクトディスクリードオンリメモリ（ＣＤ‐ＲＯＭ）、書き換え可能コンパクトディスク（ＣＤ‐ＲＷ）、および光磁気ディスク等、その他のタイプのディスクを含むストレージ媒体、リードオンリメモリ（ＲＯＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）等のランダムアクセスメモリ（ＲＡＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、フラッシュメモリ、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、相変化メモリ（ＰＣＭ）等の半導体デバイス、磁気もしくは光カード、または電子命令を格納するのに好適なその他のタイプの媒体を含む、機械またはデバイスにより製造または形成される、非一時的で有形な構成の物品が挙げられ得るが、これらに限定されない。

従って、本発明の実施形態は、本明細書に説明される構造体、回路、装置、プロセッサ、および／またはシステム機能を定義するハードウェア記述言語（ＨＤＬ）等の命令を含むか、または設計データを含む非一時的有形機械可読媒体も含む。そのような実施形態は、プログラム製品と称され得る。

いくつかの場合に、命令コンバータは、ソース命令セットからターゲット命令セットへと命令を変換するべく用いられ得る。例えば、命令コンバータは、（例えば、静的バイナリ変換、動的コンパイルを含む動的バイナリ変換を用いて）命令を、コアにより処理されるべき１または複数の他の命令に翻訳し、モーフィングし、エミュレートし、または別の方法で変換し得る。命令コンバータは、ソフトウェア、ハードウェア、ファームウェア、またはこれらの組み合わせで実装され得る。命令コンバータは、プロセッサ上にあり、プロセッサから離れ、またはプロセッサ上の一部であり、プロセッサから離れた一部であり得る。

図７は、本発明の実施形態による、ソース命令セットのバイナリ命令を、ターゲット命令セットのバイナリ命令に変換するソフトウェア命令コンバータの使用と対比するブロック図である。示された実施形態において、命令コンバータは、ソフトウェア命令コンバータであるが、あるいは、命令コンバータは、ソフトウェア、ファームウェア、ハードウェア、またはこれらの様々な組み合わせで実装され得る。図７は、高水準言語７０２によるプログラムが、少なくとも１つのｘ８６命令セットコア７１６を有するプロセッサによりネイティブに実行され得るｘ８６バイナリコード７０６を生成するべく、ｘ８６コンパイラ７０４を用いてコンパイルされ得ることを示す。少なくとも１つのｘ８６命令セットコア７１６を有するプロセッサは、少なくとも１つのｘ８６命令セットコアを用いるインテル（登録商標）プロセッサと実質的に同一の結果を実現するべく、（１）インテル（登録商標）ｘ８６命令セットコアの命令セットの実質的部分、または（２）少なくとも１つのｘ８６命令セットコアを有するインテル（登録商標）プロセッサ上で起動することを目的とする、オブジェクトコードバージョンのアプリケーションもしくは他のソフトウェアを互換的に実行し、または別の方法で処理することにより、少なくとも１つのｘ８６命令セットコアを有するインテル（登録商標）プロセッサと実質的に同一の機能を実行し得る任意のプロセッサを表す。ｘ８６コンパイラ７０４は、ｘ８６バイナリコード７０６（例えば、オブジェクトコード）を生成するように動作可能なコンパイラを表す。ｘ８６バイナリコード７０６は、追加のリンク処理を用いるか、または用いることなく少なくとも１つのｘ８６命令セットコア７１６を有するプロセッサにおいて実行され得る。

同様に、図７は、高水準言語７０２によるプログラムが、少なくとも１つのｘ８６命令セットコア７１４を有しないプロセッサ（例えば、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰＳ命令セットを実行し、および／またはカリフォルニア州サニーベールのＡＲＭＨｏｌｄｉｎｇｓのＡＲＭ命令セットを実行するコアを有するプロセッサ）によりネイティブに実行され得る代替的な命令セットバイナリコード７１０を生成する代替的な命令セットコンパイラ７０８を用いて、コンパイルされ得ることを示す。命令コンバータ７１２は、ｘ８６バイナリコード７０６を、ｘ８６命令セットコア７１４を有しないプロセッサによりネイティブに実行され得るコードに変換するべく用いられる。この変換済みコードは、代替的な命令セットバイナリコード７１０と同じである可能性が高くない。なぜなら、これができる命令コンバータは、作成することが困難だからである。しかし、変換済みコードは、一般的なオペレーションを実現し、代替的な命令セットの命令から構成される。従って、命令コンバータ７１２は、ソフトウェア、ファームウェア、ハードウェア、またはこれらの組み合わせを表し、これらは、エミュレーション、シミュレーション、またはその他の処理により、ｘ８６命令セットプロセッサまたはコアを有しないプロセッサまたは他の電子デバイスがｘ８６バイナリコード７０６を実行することを可能にする。

ベクトルブロードキャストおよびＸＯＲＡＮＤ論理命令を実行するための装置および方法
上述のように、ブーリアン（ビット）行列およびブーリアンベクトルの乗算は、非効率なものとなる可能性がある。従って、ブーリアン行列およびベクトルを乗算するより効率的な方法が所望である。具体的には、いくつかの実施形態において、行列乗算を実行する命令が用いられる。この命令は、ビット行列の列、および一時ベクトルにブロードキャストされるビットベクトルの対応ビット値を表し得るパックドデータオペランドのビット単位のＡＮＤを実行する。このビットベクトルは、第２のパックドデータオペランドによって表されてもよい。次に、この結果値および第３のパックドデータオペランドによって表されたデスティネーションベクトルを用いてビット単位の排他的ＯＲオペレーションが実行される。この命令がビット行列の全ての列に対して反復されると、デスティネーションベクトルは、全てのオペレーションの結果を累計し、行列乗算の結果を表す。モジュラー計算は、ビットベクトルおよび行列の行列オペレーションに用いられ、従って積オペレーションはビット単位のＡＮＤになり、和オペレーションはビット単位の排他的ＯＲ（すなわちＸＯＲ）になることに留意されたい。そのような命令は、従来の命令セットレパートリにおける追加の論理命令に関するオーバヘッドをなくすことによってプロセッサがビットベクトルとビット行列との乗算を効率的に処理することを可能にする。

図８は、ベクトルブロードキャストおよびＸＯＲＡＮＤ論理命令の実施形態を実行するように動作可能なシステム８００を示すブロック図である。いくつかの実施形態において、システム８００は、汎用プロセッサ（例えば、デスクトップ、ラップトップ、または他のコンピュータにおいて一般に用いられるタイプ）の一部であり得る。あるいは、システム８００は、専用プロセッサであってもよい。若干の例のみを言えば、好適な専用プロセッサの例としては、暗号プロセッサ、ネットワークプロセッサ、通信プロセッサ、コプロセッサ、グラフィックスプロセッサ、エンベデッドプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、およびコントローラ（例えば、マイクロコントローラ）が挙げられるが、これらに限定されない。プロセッサは、様々な複合命令セットコンピューティング（ＣＩＳＣ）プロセッサ、様々な縮小命令セットコンピューティング（ＲＩＳＣ）プロセッサ、様々な超長命令語（ＶＬＩＷ）プロセッサ、それらの様々な混成体、または他のタイプのプロセッサのいずれかであり得る。

オペレーション中に、システム８００は、ベクトルブロードキャストおよびＸＯＲＡＮＤ論理命令８０２（以下、命令８０２と称される）の実施形態を受信し得る。例えば、命令８０２は、命令フェッチユニット、命令キュー等から受信され得る。命令８０２は、マクロ命令、アセンブリ言語命令、機械コード命令、またはプロセッサの命令セットの他の命令もしくは制御信号を表し得る。いくつかの実施形態において、命令８０２は、（例えば、１もしくは複数のフィールドまたはビットのセットにより）第１のソースパックドデータオペランド８１０を明示的に指定し、または別の方法でこれを示し得（例えば、黙示的に示す）、第２のソースパックドデータオペランド８１２を明示的に指定し、または別の方法でこれを示し得る。命令８０２は、デスティネーションパックドデータオペランド８１４も明示的に指定し、または別の方法でこれを示し得、即値オペランド８０８を明示的に指定し、または別の方法でこれを示し得る。

図８を再び参照すると、システム８００は、デコードユニットまたはデコーダ８０４を含む。デコードユニットは、命令８０２を含む命令を受信してデコードし得る。デコードユニットは、命令８０２を反映し、表し、および／またはこれから派生する１または複数のマイクロ命令、マイクロオペレーション、マイクロコードエントリポイント、デコード済みの命令もしくは制御信号、または他の比較的低レベルの命令もしくは制御信号を出力し得る。１または複数の比較的低レベルの命令または制御信号は、１または複数の比較的低レベル（例えば、回路レベルまたはハードウェアレベル）のオペレーションによる比較的高レベルの命令８０２を実装し得る。いくつかの実施形態において、デコードユニット８０４は、命令８０２を受信するための１または複数の入力構造体（例えば、入力ポート、入力相互接続、入力インタフェース等）と、命令８０２を受信および認識するために入力構造体に結合された命令認識ロジックと、命令８０２を受信してデコードするために認識ロジックに結合されたデコードロジックと、１または複数の対応するより低レベルの命令または制御信号を出力するためにデコードロジックに結合された１または複数の出力構造体（例えば、出力ポート、出力相互接続、出力インタフェース等）を含み得る。認識ロジックおよびデコードロジックは、マイクロコードリードオンリメモリ（ＲＯＭ）、ルックアップテーブル、ハードウェア実装、プログラマブルロジックアレイ（ＰＬＡ）、および当技術分野において既知のデコードユニットを実装するために用いられる他のメカニズムを含むが、これらに限定されない様々な異なるメカニズムを用いて実装され得る。いくつかの実施形態において、デコードユニット８０４は、図１Ａに示されるデコードユニット１４０と同一であり得る。

システム８００は、レジスタのセットも含み得る。いくつかの実施形態において、レジスタは、データを保持するように動作可能な汎用レジスタを含み得る。多くの場合、汎用という用語は、レジスタにデータまたはアドレスを格納する機能に言及するために用いられるが、これは必須ではない。汎用レジスタの各々は、データを格納するように動作可能なオンダイの格納位置を表し得る。汎用レジスタは、アーキテクチャ的に見えるレジスタ（例えば、アーキテクチャ的なレジスタファイル）を表し得る。アーキテクチャ的に見え、またはアーキテクチャ的なレジスタは、ソフトウェアおよび／もしくはプログラマには見ることができ、ならびに／またはレジスタは、オペランドを識別する命令によって示される。これらのアーキテクチャ的なレジスタは、所与のマイクロアーキテクチャ（例えば、一時的レジスタ、リオーダバッファ、リタイアメントレジスタ等）における他の非アーキテクチャ的、または非アーキテクチャに見えるレジスタと対比される。レジスタは、周知の技術を用いて異なるマイクロアーキテクチャに異なる態様で実装され得、いずれの特定のタイプの回路にも限定されない。様々な異なるタイプのレジスタが好適である。好適なタイプのレジスタの例としては、専用物理レジスタ、レジスタリネームを用いて動的に割り当てられた物理レジスタ、およびこれらの組み合わせが挙げられるが、これらに限定されない。

いくつかの実施形態において、第１のソースパックドデータオペランド８１０は、第１の汎用レジスタに格納され得、第２のソースパックドデータオペランド８１２は、第２の汎用レジスタに格納され得、デスティネーションパックドデータオペランド８１４は、第３の汎用レジスタに格納され得る。あるいは、メモリ位置または他の格納位置が１または複数のソースオペランドに用いられ得る。例えば、いくつかの実施形態において、潜在的にはメモリオペレーションが第２のソースパックドデータオペランドに用いられ得るが、これは必須ではない。

実行ユニット８０６は、デコードユニット８０４から制御信号を受信し、命令８０２を実行する。実行ユニット８０６は、即値の８ビット値、第１のソース格納位置、第２のソース格納位置、およびデスティネーション格納位置を受信するように命令される。これらは、即値オペランド８０８、第１のソースパックドデータオペランド８１０、第２のソースパックドデータオペランド８１２、およびデスティネーションソースパックドデータオペランド８１４によって各々示され得る。いくつかの実施形態において、格納位置は、レジスタ、例えば、物理レジスタファイルユニット１５８を示す。いくつかの実施形態において、格納位置は、メモリユニット、例えば、メモリユニット１７０における位置等のメモリ位置を示す。実行ユニット８０６のオペレーションおよび機能は、図１Ｂの実行エンジンユニット１５０を参照して更に詳細に説明され得る。

再び図８を参照すると、実行ユニット８０６は、デコードユニット８０４およびレジスタと結合される。例として、実行ユニットは、算術演算ユニット、算術演算論理装置、算術・論理オペレーションを実行するデジタル回路、乗算器、加算器等を含むデジタル回路を含み得る。実行ユニットは、命令８０２を表し、および／またはこれから派生した１または複数のデコード済みの、または別の方法で変換済みの命令または制御信号を受信し得る。実行ユニットは、第１のソースパックドデータオペランド８１０、第２のソースパックドデータオペランド８１２、デスティネーションパックドデータオペランド８１４、および即値オペランド８０８も受信し得る。いくつかの実施形態において、即値オペランドは８ビット値を有する。いくつかの実施形態において、第１のソースパックドデータオペランド８１０、第２のソースパックドデータオペランド８１２、およびデスティネーションパックドデータオペランド８１４は、６４ビットの倍数であって最大５１２ビットまでの値を有する格納位置を示す。実行ユニットは、命令８０２に応答して、および／または命令８０２の結果として（例えば、命令から直接的もしくは間接的に（例えば、エミュレーションにより）デコードされた１もしくは複数の命令もしくは制御信号に応答して）結果を格納するように動作可能である。

いくつかの実施形態において、第１のソースパックドデータオペランド８１０、第２のソースパックドデータオペランド８１２、およびデスティネーションパックドデータオペランド８１４におけるパックドデータ要素（ビット）は、６４ビットパックドデータ要素（クワッドワード）である。そのような実施形態において、各々の６４ビットパックドデータ要素セクションに対して実行されるオペレーションが反復され、実行ユニット８０６は、並列またはシーケンシャルに各々の６４ビットパックドデータ要素セクションに対するオペレーションを実行し得る。いくつかの実施形態において、パックドデータオペランドによって示される値の長さは様々な６４の倍数の長さであってもよく、複数の６４ビットセクションを含んでもよい。

命令８０２の結果として、実行ユニットは、即値オペランドによって示される値をインデックス位置として用いて、第２のソースパックドデータオペランド８１２によって示される各々の６４ビットパックドデータ要素セクションにおける１ビットを決定する。即値オペランドは一実施形態において８ビットの値であり、従って６４個のインデックス位置０〜６３を表し得、これらは、第２のソースパックドデータオペランドの６４ビットパックドデータ要素セクションの各々におけるビット位置を示し得る。

いくつかの実施形態において、実行ユニット８０６が６４ビットパックドデータ要素セクションのうちの１または複数における１ビットを決定すると、このビットは次に、６４ビットパックドデータ要素セクションの各々の６４ビットの一時ベクトルアレイにブロードキャストされる。換言すると、この１ビット値は反復されてこの一時ベクトルアレイの全ての６４ビット位置に配置される。いくつかの実施形態において、この一時ベクトルアレイは、いずれのプログラミング言語インタフェースを介してもシステムにアクセスすることができない一時レジスタまたは内部レジスタであってもよい。

６４ビットパックドデータ要素セクション毎に、実行ユニット８０６は次に、ブロードキャストされたビットを有する対応する一時ベクトルアレイを取り、第１のソースパックドデータオペランドによって示された対応する６４ビットパックドデータ要素セクションとこの一時ベクトルアレイとのビット単位のＡＮＤを実行する。換言すると、実行ユニット８０６は、決定したビットを取ってこのビットと第１のソースパックドデータオペランドにおける対応ビット値との間でビット単位のＡＮＤを実行する。

実行ユニット８０６は、結果値（すなわち、中間結果）をこのビット単位のＡＮＤオペランドから更に取り、これらの結果値およびデスティネーションパックドデータオペランドにおける対応するパックドデータ要素のビット単位の排他的ＯＲ（ＸＯＲ）オペレーションを実行する。次に、実行ユニット８０６は、このビット単位のＸＯＲオペレーションから決定した値を取り、デスティネーションパックドデータオペランドにおける対応する位置にこれらの値を格納する。

上記のこれらの実施形態は、システム８００がモジュラー計算を用いてビットベクトルとビット行列との乗算を効率的に行うことを可能にする。いくつかの実施形態において、ビット行列のいくつかまたは全てが第１のソースパックドデータオペランドによって示される格納箇所に格納され、ビットベクトルは、第２のパックドデータオペランドによって示される格納箇所に格納される。いくつかの実施形態において、ビット行列は、行によって格納される（すなわち、格納位置における位置０は、ビット行列の第１の行の第１の要素を格納し、位置１は、ビット行列の第１の同じ第１の行の第２の要素を格納する等である）。そのようなシナリオにおいて、ビット行列は、上記のオペレーションを実行する前に、列によって格納位置に格納されるように入れ替えられるべきである。即値オペランドの異なる値およびビット行列の全ての列を設定することによって、上記のオペレーションがビットベクトルの全ての値に対して実行ユニット８０６により反復的に実行されると、デスティネーションパックドデータオペランドによって示される格納位置に格納された値は、ビット行列およびビットベクトルの行列乗算の結果を表す。ビット行列の正しい列とビットベクトルの正しい値との乗算を行うようにオペレーション毎に即値オペランドに示される値は、第１のソースパックドデータオペランドによって示されるビット行列の列番号に一致するべきであることに留意されたい（すなわち、ビットベクトルの位置０における値と、ビット行列の位置０の列との乗算を行うべきである）。これを実現するために、第１のソースパックドデータオペランドによって示される格納位置または格納位置アドレスは、命令８０２のイテレーション毎に変更され得る。

いくつかの実施形態において、ビット行列は６４×６４のビット行列である。第１のソースパックドデータオペランドによって示された格納位置は、（例えば、格納位置が５１２ビットのレジスタである場合に）ビット行列の６４個の列の全てを格納することができない場合があるので、異なる格納位置は、行列乗算オペレーションを完了するべく命令８０２のイテレーション毎に第１のソースパックドデータオペランドによって示される場合がある。

上記の実施形態に関する更なる詳細が図９〜図１１を参照して以下に説明される。

実行ユニットおよび／またはプロセッサは、命令８０２を実行し、および／または命令８０２に応答して、および／またはこの結果として（例えば、命令８０２からデコードされ、または別の方法でこれから派生した１または複数の命令または制御信号に応答して）結果を格納するように動作可能な具体的または特定のロジック（例えば、トランジスタ、集積回路、または潜在的にはファームウェア（例えば、不揮発性メモリに格納された命令）および／またはソフトウェアと組み合わされた他のハードウェア）を含み得る。いくつかの実施形態において、実行ユニットは、ソースオペランドを受信する１または複数の入力構造体（例えば、入力ポート、入力相互接続、入力インタフェース等）と、ソースオペランドを受信および処理して結果オペランドを生成するために入力構造体に結合された回路またはロジック（例えば、乗算器および少なくとも１つの加算器）と、結果オペランドを出力するために回路またはロジックに結合された１または複数の出力構造体（例えば、出力ポート、出力相互接続、出力インタフェース等）とを含み得る。

説明を不明瞭にするのを避けるために、比較的単純なシステム８００が示され、説明されている。他の実施形態において、システム８００は、任意選択で他の周知のプロセッサコンポーネントを含み得る。そのようなコンポーネントの考えられる例としては、命令フェッチユニット、命令キャッシュおよびデータキャッシュ、レベル２またはそれより高いレベルのキャッシュ、アウトオブオーダ実行ロジック、命令スケジューリングユニット、レジスタリネームユニット、リタイアメントユニット、バスインタフェースユニット、命令・データトランスレーションルックアサイドバッファ、プリフェッチバッファ、マイクロ命令キュー、マイクロ命令シーケンサ、プロセッサに含まれる他のコンポーネント、およびこれらの様々な組み合わせが挙げられるが、これらに限定されない。そのようなコンポーネントの多くの異なる組み合わせおよび構成が好適である。実施形態は、いずれの既知の組み合わせまたは構成にも限定されない。更に、実施形態は、複数のコア、論理プロセッサ、または実行エンジンを有するプロセッサに含まれ得、これらのコア、論理プロセッサ、または実行エンジンのうちの少なくとも１つは、命令８０２の実施形態を実行するためにデコードユニットおよび実行ユニットを有する。

図９は、本発明の一実施形態による、ベクトルブロードキャストおよびＸＯＲＡＮＤ論理命令を実行するためのロジック９００を示す。いくつかの実施形態において、実行ユニット８０６は、命令８０２を実行するロジック９００を含む。いくつかの実施形態において、命令８０２は、即値オペランド８０８（ＩＭＭ８）と、第１のソースパックドデータオペランド８１０（ＳＲＣ１）と、第２のソースパックドデータオペランド８１２（ＳＲＣ２）と、デスティネーションパックドデータオペランド８１４（ＤＥＳＴ）とを指定する。ロジック９００に図示されるオペランドは、特定のバイナリ値を含むが、これらの値は、専ら例示的な目的で含まれ、オペランドは、他の実施形態において異なる値を含み得る。

ＳＲＣ１８１０、ＳＲＣ２８１２、およびＤＥＳＴ８１４によって示される格納位置は、各々、複数のパックド６４ビット値を格納することができる場合があることに留意されたい。そのようなシナリオにおいて、ロジック９００は、これらの６４ビットパックドデータ要素セクションが各々、同様に処理され得ることを示す。いくつかの実施形態において、各セクションは、他のセクションと並列に処理される。これらセクションの各々の長さおよび区分は、９０４における番号で示されている。オペランド値の全長は、９０６における番号で示され、一実施形態において５１２ビット（すなわち、５１２ビットベクトルレジスタに格納された８個の６４ビットパックドデータ要素）を含む。

一実施形態において、ＩＭＭ８８０８は、０〜６３の番号を指定することができる８ビット値である。図９の例示的なバイナリ値において、この値は「４」（すなわち、２進数では１００ｂ）である。実行ユニットは、ロジック９００に従ってＩＭＭ８８０８の値に対応するビット位置のＳＲＣ２８１２の値を決定する。図９の例示的な値において、これはＳＲＣ２８１２の第１の６４ビットセクションの値「１」と、ＳＲＣ２の第２の６４ビットセクションの「０」とに対応する。

次に実行ユニットは、ＳＲＣ２８１２の各選択値を６４回、一時ベクトルＢ９０２にレプリケートまたはブロードキャストする。従って、ＳＲＣ２の６４ビットセクション毎に、一時ベクトルＢ９０２における同じ長さの対応セクションが、ＩＭＭ８８０８のインデックス値を用いて選択したＳＲＣ２８１２の選択値でポピュレートされる。例えば、図９において、最初の６４ビットセクションにおけるＳＲＣ２８１２の選択値は「１」である。従って、Ｂ９０２の対応する６４ビットセクションにおける６４個の値は各々、「１」にセットされる。いくつかの実施形態において、一時ベクトルＢ９０２は、いずれのプログラミングインタフェースを介してもアクセスできない非表示レジスタであってもよい。いくつかの実施形態において、一時ベクトルＢ９０２は、メモリ（例えば、ＲＡＭ）もしくはキャッシュ、または他のストレージ媒体に格納され得る。

図９において、一時ベクトルＢ９０２は、ＳＲＣ２８１２の６４ビットセクションに対応する複数の６４ビットセクションを含むが、いくつかの実施形態において、ＳＲＣ２の各々の６４ビットセクションは、シーケンシャルに処理され、従って一時ベクトルＢ９０２は、単一の６４ビットセクションのみを含む。他の実施形態において、ＳＲＣ２８１２の各々の６４ビットセクションは並列かつ別個に処理され、従って一時ベクトルＢ９０２の複数のコピーが同時に存在し得るが、互いに別個のものである。

いくつかの実施形態において、実行ユニットが一時ベクトルＢ９０２の６４個の値にＳＲＣ２８１２の単一の選択値をブロードキャストする場合、６４未満のプロセッササイクルまたはオペレーションが必要とされ、これに代えて、値は、一時ベクトルＢ９０２に同時に置かれる。いくつかの実施形態において、ブロードキャストは、当業者に既知のブロードキャスト方法に従って実行される。

実行ユニットは、一時ベクトルＢ９０２の反復値およびＳＲＣ１８１０の対応値のビット単位のＡＮＤを実行することによってロジック９００を更に実行する。

実行ユニットは、ロジック９００を更に実行し、上記のビット単位のＡＮＤオペレーション（９０８）の結果と、ＤＥＳＴ８１４ａで示されるＤＥＳＴの元の値との間でビット単位のＸＯＲを取る。次に、ビット単位のＸＯＲの結果は、ＤＥＳＴ８１４ｂで示すＤＥＳＴによって示された格納位置に再び格納される。例えば、（９０６で示される）ビット位置０において、一時ベクトルＢ９０２の値「１」とＳＲＣ１８１０の対応ビット位置の値「１」との間のビット単位のＡＮＤは「１」であり、結果として生じるこの「１」の値とＤＥＳＴ８１４ａの対応ビット位置の「０」の値との間のビット単位のＸＯＲは「１」である。この「１」の値は、ＤＥＳＴ８１４ｂのビット位置０に示されるように、ＤＥＳＴによって示される格納位置の対応ビット位置に格納される。

いくつかの場合に、ロジック９００は、６４ｘ６４のサイズのビット行列と６４ｘ１のサイズのビットベクトルとの間の行列乗算の結果を効率的に判断するために用いられ得る。そのような実施形態において、ビットベクトルの値はＳＲＣ２８１２によって示され、ビット行列の列のうちの１または複数における値はＳＲＣ１８１０によって示される。行×行フォーマットを用いるストレージにおいてビット行列が元々表現されていた場合、ビット行列はまず、実行ユニットによって列×列フォーマットに入れ替えられる。ビット行列の行列乗算は、モジュラー計算を用いて表される。従って、乗算はビット単位のＡＮＤによって表され、加算はビット単位のＸＯＲによって表される。ビットベクトルとビット行列とを乗算するためにロジック９００を用いる最初の段階は、ビット行列の最初の列を取り、これをビットベクトルの最初の値と乗算する。これを行うべく、ＩＭＭ８は、ＳＲＣ２８１２によって示されるビットベクトルにおける最初のビット位置を示す１０進数の値「０」にセットされる。また、６４ビット長のビット行列における最初の列は、ＳＲＣ１８１０によって示される。次に、一時ベクトルＢ９０２におけるビットベクトルの最初のビットおよびＳＲＣ１８１０の値にビット単位のＡＮＤを取ることは、ビット行列の最初の列とビットベクトルの最初のビットとの乗算を表す。これは、図９において９０８および上記に示したビット単位のＡＮＤに示される。

行列乗算を適切に完了するべく、上記のオペレーションは、ビット行列の後続する列およびビットベクトルの対応ビットについて反復され、各列およびビットの乗算は、６４ビットの結果値を生成する。これらの６４ビットの結果値は互いに合計され、単一の６４ビット値に到達するはずである。この単一の６４ビット値は、ビット行列およびビットベクトルの行列乗算の結果を表す。ビット行列オペレーションにおける総和は、ビット単位のＸＯＲによって表される。従って、ロジック９００の９１０に示されるビット単位のＸＯＲオペレーションは、現在のビット行列の列およびビットベクトルのビット積を、乗算オペレーション全体の累積和に加算する。

いくつかの場合に、６４×６４のビット行列は、メモリ位置に列×列で格納される。従って、命令の実行毎に、ＳＲＣ１８１０によって示されるストレージアドレスは、ビット行列の次の列に６４ビットだけシフトされ得る。他の場合、ＳＲＣ１８１０は、ビット行列の次の列を格納する異なる格納位置に変更され得る。いくつかの他の場合、ビットベクトルを表すＳＲＣ２８１２の各々の６４ビットセクションは、前の６４ビットセクションから１ビットだけシフト（または回転）されてもよく、ビット行列を表すＳＲＣ１８１０の各々の６４ビットセクションは、同一のビット行列の連続した列を含んでもよい。これにより、ビット行列の連続した列が一度に処理されることを可能にする。なおも他の場合、ＳＲＣ１およびＳＲＣ２の各々の６４ビットセクションは、ビット行列およびビットベクトルの組み合わせの異なるセットを表し得、複数のビット行列・ビットベクトル乗算計算が同時に進行することを可能にする。

上記の行列乗算の例は、６４ビット長のビット行列およびビットベクトルの乗算を図示するが、他の場合に、ビット行列およびビットベクトルは６４ビット長より小さい。

図１０は、ベクトルブロードキャストおよびＸＯＲＡＮＤ論理命令の実施形態を実行するように動作可能なシステムの方法１０００のフロー図である。様々な実施形態において、方法は、プロセッサ、命令処理装置、または他のデジタルロジックデバイスによって実行され得る。いくつかの実施形態において、図１０のオペレーションおよび／または方法は、図８のプロセッサによって、および／またはその内部で実行され得る。図８のプロセッサに関して本明細書に説明されるコンポーネント、機能、および具体的な任意の詳細は、任意選択で図１０のオペレーションおよび／または方法にも適用される。あるいは、図１０のオペレーションおよび／または方法は、図１Ａ〜図８を参照して説明されるもの等の類似するか、または異なるプロセッサまたは装置によって、および／またはこれらの内部で実行され得る。更に、図８のプロセッサは、図１０におけるものと同一か、類似するか、または異なるオペレーションおよび／または方法を実行し得る。

方法１０００は、ブロック１００２において、デスティネーションパックドデータオペランドと、第１のソースパックドデータオペランドと、第２のソースパックドデータオペランドと、即値オペランドとを示す命令をメモリからフェッチする段階を備える。様々な態様において、命令は、プロセッサ、命令処理装置、またはそれらの一部（例えば、命令フェッチユニット、デコードユニット、バスインタフェースユニット等）においてフェッチおよび受信され得る。様々な態様において、命令は、オフダイソース（例えば、メモリ、相互接続等）またはオンダイソース（例えば、命令キャッシュ、命令キュー等）から受信され得る。

ブロック１００４において、命令がデコードされる。いくつかの実施形態において、命令のデコードは、図８のデコードユニット８０４等のデコードユニットによって実行され得る。

ブロック１００６において、方法１０００は、即値オペランドの値に対応する位置に基づいて第２のソースパックドデータオペランドのビットを決定する段階を備える。いくつかの実施形態において、データ要素の決定は、図８の実行ユニット８０６等の実行ユニットによって実行される。

ブロック１００８において、方法１０００は、デスティネーションパックドデータオペランドによって示される格納位置に結果を格納する段階を備え、当該結果は、デスティネーションパックドデータオペランドと中間結果との間のビット単位のＸＯＲの実行から判断され、当該中間結果は、第１のソースパックドデータオペランドと決定されたビットとの間のビット単位のＡＮＤの実行から判断される。

示される方法は、アーキテクチャオペレーション（例えば、ソフトウェアの観点から見えるもの）を伴う。他の実施形態において、方法は、任意選択で１または複数のマイクロアーキテクチャオペレーションを含み得る。例として、命令は、アウトオブオーダにフェッチされ、デコードされ、スケジューリングされ得、ソースオペランドは、アクセスされ得、実行ユニットは、命令を実装するマイクロアーキテクチャオペレーションを実行し得、結果は、プログラムの順序に再構成され得る、等である。いくつかの実施形態において、命令を実装するマイクロアーキテクチャオペレーションは、任意選択で図１Ａ〜図７および図１２Ａ〜図１５Ｂに説明されるオペレーションのいずれかを含み得る。

図１１は、ベクトルブロードキャストおよびＸＯＲＡＮＤ論理命令の実施形態を実行するように動作可能なロジック用の例示的な疑似コードを示す。いくつかの実施形態において、このロジックはロジック９００である。ここではオペコード「ｖｘｏｒａｎｄｂｃｓｔｑ」１１５２で表される命令８０２は、１１５４〜１１６０に示される様々なオペランドを指定し得る。オペランドｚｍｍ０１１５４は、デスティネーションパックドデータオペランドを指定する。いくつかの実施形態において、ｚｍｍ０１１５４はＤＥＳＴ８１４である。いくつかの実施形態において、命令は、ライトマスク１１６２を指定し、この事例では「ｋ１」である。ライトマスクの値は、この疑似コードによって表されるロジックを実行する実行ユニットに対してデスティネーションパックドデータオペランドによって示されるレジスタの指定部分に値を書き込むか否かを示し得る。オペランドｚｍｍ１１１５６は、第１のソースパックドデータオペランドを指定する。いくつかの実施形態において、これはＳＲＣ１８１０である。オペランドｚｍｍ２１１５８は、第２のソースパックドデータオペランドを指定する。いくつかの実施形態において、これはＳＲＣ２８１２である。オペランドｉｍｍ８１１６０は、即値オペランドを指定する。いくつかの実施形態において、ｉｍｍ８１１６０は、ＩＭＭ８８０８である。

ライン１１０２は、１２８、２５６、および５１２のベクトル長を用いるいくつかの実施形態において、命令に互換性があることを示す。Ｋの長さは、６４個のパックドデータ要素セクションの数を示し、バイナリ値の対応するベクトル長は、このパックドデータ要素に分離され得る。上述のように、命令は、６４個のパックドデータ要素セクションに対して演算を行う。

いくつかの実施形態において、命令のオペランドは、最大５１２ビットを格納し得る格納位置を示すオペランドを指定し、そのような場合には、命令の実行にレジスタの一部のみが用いられる。いくつかの実施形態において、オペランドのうちの１または複数は、レジスタ位置に代えてメモリ格納位置を示し得る。

図１１において、等号がついたコロン記号は、コロン記号の右側の値がコロン等号の左側の変数に割り当てられることを示す。

ライン１１０４において、ループは、Ｋの長さに等しいいくつかのループについて反復するように設定される。例えば、ベクトル長が１２８である場合、Ｋの長さは２になり、ループは２回反復する。いくつかの実施形態において、ループ変数は、図１１に示されるように「ｊ」である。

ライン１１０６において、変数ｉは、６４で乗算されたｊに設定される。例えば、ｊが「２」である場合、変数ｉは「１２８」になる。

ライン１１０８において、内部レジスタに格納され得る一時ベクトルＢの６４ビットは、一時ベクトルＢの６４ビットに対して６４回レプリケートされたＳＲＣ２［ｉ＋ＩＭＭ８］の値を設定する。いくつかの実施形態において、一時ベクトルＢは、一時ベクトルＢ９０２である。ＳＲＣ２［ｉ＋ＩＭＭ８］は、位置「ｉ＋ＩＭＭ８」におけるＳＲＣ２の値を表す。

いくつかの実施形態において、値ＳＲＣ２［ｉ＋ＩＭＭ８］は、一時値「ｂ」に設定され、これは内部レジスタであってもよい。次にこの一時値ｂは、一時ベクトルＢの値にレプリケートまたはブロードキャストされる。

ライン１１１２において、ライン１１０４においてループによって示されるように、現在処理されている６４ビットセクションに対するＤＥＳＴの６４ビットが前のビット単位のＡＮＤオペレーションの結果でＸＯＲ演算され、この結果はＤＥＳＴの同一の６４ビットに再び割り当てられる。

いくつかの実施形態において、ライン１１１２のおけるオペレーションは、命令８０２がライトマスクを指定するか否かについて記述される。ライトマスクが指定されている場合、ライン１１１０に示されるように、位置ｊにおけるライトマスクのビットは、実行ユニット８０６によって実行されるライン１１１２に対するオペレーションのために「１」の値に設定されるべきである。そうでなければ、これに代えて、ライン１１１４〜１１１８に対するオペレーションが実行される。

ライン１１１４における条件文が「０」または偽（ｆａｌｓｅ）であると判断された場合に、ライン１１１０が実行される。いくつかの実施形態において、ライン１１１４では、条件付きステートメントは、マージマスキングが有効にされているか否かを確認する。いくつかの実施形態において、マージングマスキングは、フラグによって示される。いくつかの実施形態において、このフラグは「ＥＶＥＸ.ｚ」である。いくつかの実施形態において、このフラグは、命令のオペランド（例えば｛ｚ｝によって示される。マージマスキングまたはマージングマスキングは、これらの値を「０」で上書きするのではなく、デスティネーションオペランドの元の値を保持するように実行ユニットに示す。マージングマスキングがオンになっている場合、現在処理されているＤＥＳＴにおける６４個のパックドデータ要素のセットは、ライン１１１６に示されるように未変更のままである。そうでなければ、ライン１１１８に示されるように、これらの値は、「０」でオーバーライドされる（すなわち、「０」の値がデスティネーションオペランドによって示されるレジスタの対応する位置に格納される）。

いくつかの実施形態において、ライン１１２０では、命令の一部として処理されなかったＤＥＳＴにおける残りの値、すなわち、指定されたベクトル長を超える値がゼロにされる（すなわち、「０」の値がデスティネーションオペランドによって示されるレジスタの対応位置に格納される）。

上記の実施形態は、５１２ビット幅のレジスタを参照して説明されているが、本発明の他の実施形態は、そのような長さのレジスタを必要とせず、本発明は、いずれの長さのレジスタを用いても実装され得る。

例示的な命令フォーマット
本明細書に説明される命令の実施形態は、異なるフォーマットで実施され得る。更に、例示的なシステム、アーキテクチャ、およびパイプラインが以下に詳述される。命令の実施形態は、そのようなシステム、アーキテクチャ、およびパイプライン上で実行され得るが、詳述されるものに限定されない。

ベクトル向け命令フォーマットは、ベクトル命令に好適な命令フォーマットである。（例えば、ベクトルオペレーションに固有の一定のフィールドが存在する）。ベクトルおよびスカラオペレーションの両方がベクトル向け命令フォーマットによりサポートされる実施形態が説明されるが、代替的な実施形態は、ベクトル向け命令フォーマットによるベクトルオペレーションのみを用いる。

図１２Ａ〜図１２Ｂは、本発明の実施形態による一般的ベクトル向け命令フォーマットおよびその命令テンプレートを示すブロック図である。図１２Ａは、本発明の実施形態による、一般的ベクトル向け命令フォーマット、およびそのクラスＡ命令テンプレートを示すブロック図である。図１２Ｂは、本発明の実施形態による、一般的ベクトル向け命令フォーマット、およびそのクラスＢ命令テンプレートを示すブロック図である。具体的には、クラスＡおよびクラスＢ命令テンプレートは、一般的ベクトル向け命令フォーマット１２００に対して定義され、これらの両方は、非メモリアクセス１２０５の命令テンプレートおよびメモリアクセス１２２０の命令テンプレートを含む。ベクトル向け命令フォーマットの文脈における一般的という用語は、いずれの特定の命令セットにも関係しない命令フォーマットを指す。

ベクトル向け命令フォーマットが、３２ビット（４バイト）または６４ビット（８バイト）のデータ要素幅（またはサイズ）を有する６４バイトのベクトルオペランド長（またはサイズ）（従って、６４バイトのベクトルは、１６個のダブルワードサイズの要素、または代替的に８クワッドワードサイズの要素のいずれかからなる）、１６ビット（２バイト）または８ビット（１バイト）のデータ要素幅（またはサイズ）を有する６４バイトのベクトルオペランド長（またはサイズ）、３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）、または８ビット（１バイト）のデータ要素幅（またはサイズ）を有する３２バイトのベクトルオペランド長（またはサイズ）、および３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）、または８ビット（１バイト）のデータ要素幅（またはサイズ）を有する１６バイトのベクトルオペランド長（またはサイズ）をサポートする本発明の実施形態が説明されるが、代替的な実施形態は、より多い、より少ない、または異なるデータ要素幅（例えば、１２８ビット（１６バイト）のデータ要素幅）を有するより多い、より少ない、および／または異なるベクトルオペランドサイズ（例えば、２５６バイトのベクトルオペランド）をサポートし得る。

図１２ＡにおけるクラスＡ命令テンプレートは、１）非メモリアクセス１２０５の命令テンプレート中に示される非メモリアクセス、フルラウンド制御タイプオペレーション１２１０の命令テンプレート、および非メモリアクセス、データ変換タイプオペレーション１２１５の命令テンプレート、ならびに２）メモリアクセス１２２０の命令テンプレート中に示されるメモリアクセス、一時的１２２５の命令テンプレート、およびメモリアクセス、非一時的１２３０の命令テンプレートを含む。図１２ＢのクラスＢ命令テンプレートは、１）非メモリアクセス１２０５の命令テンプレート中に示される非メモリアクセス、ライトマスク制御、部分的ラウンド制御タイプオペレーション１２１２の命令テンプレート、および非メモリアクセス、ライトマスク制御、ＶＳＩＺＥタイプオペレーション１２１７の命令テンプレート、ならびに２）メモリアクセス１２２０の命令テンプレート中に示されるメモリアクセス、ライトマスク制御１２２７の命令テンプレートを含む。

一般的ベクトル向け命令フォーマット１２００は、図１２Ａ〜図１２Ｂにおいて示される順序で以下に列挙される、次のフィールドを含む。

フォーマットフィールド１２４０。このフィールドにおける特定の値（命令フォーマット識別子の値）は、ベクトル向け命令フォーマット、従って、命令ストリーム中のベクトル向け命令フォーマットにおける命令の発生を一意に識別する。従って、このフィールドは、一般的ベクトル向け命令フォーマットのみを有する命令セットに必要とされないという意味で任意選択である。

ベースオペレーションフィールド１２４２。その内容は、異なるベースオペレーションを区別する。

レジスタインデックスフィールド１２４４。その内容は、レジスタ内であれ、メモリ内であれ、直接に、またはアドレス生成により、ソースオペランドおよびデスティネーションオペランドの位置を指定する。これらは、ＰｘＱ（例えば、３２ｘ５１２、１６ｘ１２８、３２ｘ１０２４、６４ｘ１０２４）のレジスタファイルからＮ個のレジスタを選択するのに十分な数のビットを含む。一実施形態においては、Ｎは、最大で３つのソースおよび１つのデスティネーションレジスタであり得るが、代替的な実施形態は、より多いかまたはより少ないソースおよびデスティネーションレジスタをサポートし得る（例えば、最大で２つのソースをサポートし得、この場合、これらのソースのうちの１つは、デスティネーションとしても機能し、最大で３つのソースをサポートし得、この場合、これらのソースのうちの１つは、デスティネーションとしても機能し、最大で２つのソースおよび１つのデスティネーションをサポートし得る）。

修飾子フィールド１２４６。その内容は、一般的ベクトル命令フォーマット中におけるメモリアクセスを指定する命令の発生とメモリアクセスを指定しない命令の発生とを、すなわち、非メモリアクセス１２０５の命令テンプレートとメモリアクセス１２２０の命令テンプレートを区別する。メモリアクセスオペレーションは、メモリ階層を読み出し、および／またはこれに書き込むが（いくつかの場合には、レジスタにおける値を用いて、ソースアドレスおよび／またはデスティネーションアドレスを指定する）、非メモリアクセスオペレーションは、これを行わない（例えば、ソースおよびデスティネーションは、レジスタである）。また、一実施形態において、このフィールドは、３つの異なる態様を選択し、メモリアドレス計算を実行するが、代替的な実施形態は、より多い、より少ない、または異なる態様をサポートし、メモリアドレス計算を実行し得る。

追加オペレーションフィールド１２５０。その内容は、ベースオペレーションに加えて、種々様々な異なるオペレーションのうちのどれが実行されるかを区別する。このフィールドは、コンテキストに固有である。本発明の一実施形態において、このフィールドは、クラスフィールド１２６８、アルファフィールド１２５２、およびベータフィールド１２５４に分割される。追加オペレーションフィールド１２５０は、オペレーションの共通グループが２、３、または４つの命令ではなく、単一の命令で実行されることを可能にする。

スケールフィールド１２６０。その内容は、メモリアドレス生成のための（例えば、２^{ｓｃａｌｅ}＊ｉｎｄｅｘ＋ｂａｓｅを用いるアドレス生成のための）インデックスフィールドの内容のスケーリングを可能にする。

変位フィールド１２６２Ａ。その内容は、メモリアドレス生成の一部として（例えば、２^{ｓｃａｌｅ}＊ｉｎｄｅｘ＋ｂａｓｅ＋ｄｉｓｐｌａｃｅｍｅｎｔを用いるアドレス生成に）用いられる。

変位係数フィールド１２６２Ｂ（変位係数フィールド１２６２Ｂの直ぐ上に変位フィールド１２６２Ａを並置することにより、一方または他方が使用されることを示すことに留意されたい）。その内容は、アドレス生成の一部として用いられる。変位係数フィールド１２６２Ｂは、メモリアクセス（Ｎ）のサイズに対して調整される変位係数を指定する。Ｎは、（例えば、２^{ｓｃａｌｅ}＊ｉｎｄｅｘ＋ｂａｓｅ＋ｓｃａｌｅｄｄｉｓｐｌａｃｅｍｅｎｔを用いるアドレス生成のための）メモリアクセスにおけるバイトの数である。冗長下位ビットは、無視され、従って、変位係数フィールドの内容は、有効なアドレスを計算するときに用いられる最終的変位を生成するべく、メモリオペランドの合計サイズ（Ｎ）で乗算される。Ｎの値は、フルオペコードフィールド１２７４（本明細書において説明される）およびデータ操作フィールド１２５４Ｃに基づいて、ランタイムでプロセッサハードウェアにより決定される。変位フィールド１２６２Ａおよび変位係数フィールド１２６２Ｂは、非メモリアクセス１２０５の命令テンプレートに用いられず、および／または異なる実施形態が１つのみまたは２つのうちいずれも実装しない場合があるという意味で任意選択である。

データ要素幅フィールド１２６４。その内容は、（いくつかの実施形態において全ての命令に対して、他の実施形態において命令のうちいくつかのみに対して）いくつかのデータ要素幅のうちのどれが用いられるかを区別する。このフィールドは、１つのデータ要素幅のみがサポートされ、および／またはオペコードのいくつかの態様を用いて、データ要素幅がサポートされる場合には必要とされないという意味で任意選択である。

ライトマスクフィールド１２７０。その内容は、データ要素位置ベースで、デスティネーションベクトルオペランドにおける当該データ要素位置がベースオペレーションおよび追加オペレーションの結果を反映するか否かを制御する。クラスＡ命令テンプレートは、マージング・ライトマスキングをサポートするが、クラスＢ命令テンプレートは、マージングおよびゼロ書き込みマスキングの両方をサポートする。マージングする場合、ベクトルマスクは、デスティネーションにおける要素の任意のセットが（ベースオペレーションおよび追加オペレーションにより指定された）任意のオペレーションの実行中に更新から保護されることを可能にする。他の一実施形態では、対応するマスクビットが０を有するデスティネーションの各要素の古い値を保持する。対照的に、ゼロ書き込みする場合、ベクトルマスクは、デスティネーションにおける要素の任意のセットが（ベースオペレーションおよび追加オペレーションにより指定された）任意のオペレーションの実行中にゼロにされることを可能にする。一実施形態において、対応するマスクビットが０の値を有する場合、デスティネーションの要素は、０に設定される。この機能のサブセットは、実行されるオペレーションのベクトル長を制御する能力である（すなわち、要素のスパンは、最初のものから最後のものに変更される）。しかし、変更される要素が連続している必要はない。従って、ライトマスクフィールド１２７０は、ロード、ストア、演算、論理等を含む部分的ベクトルオペレーションを可能にする。本発明の実施形態は、ライトマスクフィールド１２７０の内容が、用いられるべきライトマスクを含むいくつかのライトマスクレジスタのうちの１つを選択する（従って、ライトマスクフィールド１２７０の内容が実行されるべき当該マスキングを間接的に識別する）ものとして説明されているが、代替的な実施形態はこれに代えて、または更に、マスクライトフィールド１２７０の内容が実行されるべきマスキングを直接に指定することを可能にする。

即値フィールド１２７２。その内容は、即値の指定を可能にする。このフィールドは、即値をサポートしない一般的ベクトル向けフォーマットの実装において存在せず、即値を用いない命令中に存在しないという意味で任意選択である。

クラスフィールド１２６８。その内容は、命令の異なるクラスを区別する。図１２Ａ〜図１２Ｂを参照すると、このフィールドの内容は、クラスＡ命令またはクラスＢ命令を選択する。図１２Ａ〜図１２Ｂにおいて、角が丸い四角形は、特定の値がフィールド内に存在することを示すべく用いられる（例えば、図１２Ａおよび図１２Ｂにおけるクラスフィールド１２６８のクラスＡ１２６８ＡおよびクラスＢ１２６８Ｂの各々）。

クラスＡの命令テンプレート
クラスＡの非メモリアクセス１２０５の命令テンプレートの場合に、アルファフィールド１２５２は、ＲＳフィールド１２５２Ａとして解釈され、その内容は、異なる追加オペレーションタイプのうちのどれが実行されるかを区別するが（例えば、ラウンド１２５２Ａ．１およびデータ変換１２５２Ａ．２は、各々、非メモリアクセス、ラウンドタイプオペレーション１２１０、および非メモリアクセス、データ変換タイプオペレーション１２１５の命令テンプレートに対して指定される）、ベータフィールド１２５４は、指定されたタイプのオペレーションのうちいずれが実行されるかを区別する。非メモリアクセス１２０５の命令テンプレートにおいて、スケールフィールド１２６０、変位フィールド１２６２Ａ、および変位スケールフィールド１２６２Ｂは、存在しない。

非メモリアクセス命令テンプレート‐フルラウンド制御タイプオペレーション

非メモリアクセスのフルラウンド制御タイプオペレーション１２１０の命令テンプレートにおいて、ベータフィールド１２５４は、ラウンド制御フィールド１２５４Ａとして解釈され、その内容は、静的ラウンドを提供する。本発明の説明される実施形態において、ラウンド制御フィールド１２５４Ａは、抑圧全浮動小数点例外（ＳＡＥ）フィールド１２５６およびラウンドオペレーション制御フィールド１２５８を含み、代替的な実施形態は、これら両方のコンセプトをサポートおよびエンコードして同一のフィールドとすることができ、またはこれらのコンセプト／フィールドのうち一方または他方のみを有し得る（例えば、ラウンドオペレーション制御フィールド１２５８のみを有し得る）。

ＳＡＥフィールド１２５６。その内容は、例外イベント報告を無効にするか否かを区別する。ＳＡＥフィールド１２５６の内容が、抑圧が有効にされたことを示す場合、所与の命令は、いずれの種類の浮動小数点例外フラグも報告せず、いずれの浮動小数点例外ハンドラも立ち上げない。

ラウンドオペレーション制御フィールド１２５８。その内容は、ラウンドオペレーション（例えば、ラウンドアップ、ラウンドダウン、ゼロへのラウンド、および近似値へのラウンド）のグループのうちのどれが実行されるべきかを区別する。このように、ラウンドオペレーション制御フィールド１２５８は、命令ベースでラウンドモードの変更を可能にする。プロセッサがラウンドモードを指定する制御レジスタを含む本発明の一実施形態において、ラウンドオペレーション制御フィールド１２５０の内容は、当該レジスタの値を上書きする。

非メモリアクセス命令テンプレート‐データ変換タイプオペレーション
非メモリアクセスのデータ変換タイプオペレーション１２１５の命令テンプレートにおいて、ベータフィールド１２５４は、データ変換フィールド１２５４Ｂとして解釈され、その内容は、いくつかのデータ変換のうちのどれが実行されるかを区別する（例えば、非データ変換、スウィズル、ブロードキャスト）。

クラスＡのメモリアクセス１２２０の命令テンプレートの場合、アルファフィールド１２５２は、エビクションヒントフィールド１２５２Ｂとして解釈され、その内容は、エビクションヒントのうちのどれが用いられるかを区別するが（図１２Ａにおいて、一時的１２５２Ｂ．１および非一時的１２５２Ｂ．２は、各々、メモリアクセス、一時的１２２５の命令テンプレート、およびメモリアクセス、非一時的１２３０の命令テンプレートに対して指定される）、ベータフィールド１２５４は、データ操作フィールド１２５４Ｃとして解釈され、その内容は、いくつかのデータ操作オペレーション（プリミティブとしても知られる）のうちのどれが実行されるかを区別する（例えば、操作なし、ブロードキャスト、ソースのアップコンバージョン、およびデスティネーションのダウンコンバージョン）。メモリアクセス１２２０の命令テンプレートは、スケールフィールド１２６０を含み、変位フィールド１２６２Ａまたは変位スケールフィールド１２６２Ｂを任意選択で含む。

ベクトルメモリ命令は、変換サポートを用いて、メモリからのベクトルロードおよびメモリへのベクトルストアを実行する。通常のベクトル命令の場合のように、ベクトルメモリ命令は、データ要素の様式で、メモリから／にデータを転送し、実際に転送される要素は、ライトマスクとして選択されるベクトルマスクの内容により規定される。

メモリアクセス命令テンプレート‐一時的

一時的データは、キャッシュから利益を得るのに十分なほど速やかに再利用される可能性が高いデータである。しかし、これはヒントであり、異なるプロセッサは、ヒントを完全に無視することを含め、異なる態様で一時的データを実装してもよい。

メモリアクセス命令テンプレート‐非一時的
非一時的データは、レベル１のキャッシュにおけるキャッシュから利益を得るのに十分なほど速やかに再利用される可能性が低いデータであり、エビクションの優先権を与えられるべきである。しかし、これはヒントであり、異なるプロセッサは、ヒントを完全に無視することを含め、異なる態様で非一時的データを実装してもよい。

クラスＢの命令テンプレート
クラスＢの命令テンプレートの場合、アルファフィールド１２５２は、ライトマスク制御（Ｚ）フィールド１２５２Ｃとして解釈され、その内容は、ライトマスクフィールド１２７０により制御されるライトマスキングがマージングであるべきか、またはゼロ書き込みであるべきかを区別する。

クラスＢの非メモリアクセス１２０５の命令テンプレートの場合、ベータフィールド１２５４の一部は、ＲＬフィールド１２５７Ａとして解釈され、その内容は、異なる追加オペレーションタイプのどれが実行されるかを区別するが（例えば、ラウンド１２５７Ａ．１およびベクトル長（ＶＳＩＺＥ）１２５７Ａ．２は各々、非メモリアクセス、ライトマスク制御、部分的ラウンド制御タイプオペレーション１２１２の命令テンプレート、および非メモリアクセス、ライトマスク制御、ＶＳＩＺＥタイプオペレーション１２１７の命令テンプレートに対して指定される）、ベータフィールド１２５４の残りは、指定されたタイプのどのオペレーションが実行されるかを区別する。非メモリアクセス１２０５の命令テンプレートにおいて、スケールフィールド１２６０、変位フィールド１２６２Ａ、および変位スケールフィールド１２６２Ｂは、存在しない。

非メモリアクセス、ライトマスク制御、部分的ラウンド制御タイプオペレーション１２１０の命令テンプレートにおいて、ベータフィールド１２５４の残りは、ラウンドオペレーションフィールド１２５９Ａとして解釈され、例外イベント報告は、無効にされる（所与の命令は、いずれの種類の浮動小数点例外フラグも報告せず、いずれの浮動小数点例外ハンドラも立ち上げない）。

ラウンドオペレーション制御フィールド１２５９Ａ。ちょうどラウンドオペレーション制御フィールド１２５８のように、その内容は、ラウンドオペレーション（例えば、ラウンドアップ、ラウンドダウン、ゼロへのラウンド、および近似値へのラウンド）のグループのうちのどれが実行されるべきかを区別する。このように、ラウンドオペレーション制御フィールド１２５９Ａは、命令ベースでラウンドモードの変更を可能にする。プロセッサがラウンドモードを指定する制御レジスタを含む本発明の一実施形態において、ラウンドオペレーション制御フィールド１２５０の内容は、そのレジスタの値を上書きする。

非メモリアクセス、ライトマスク制御、ＶＳＩＺＥタイプオペレーション１２１７の命令テンプレートにおいて、ベータフィールド１２５４の残りは、ベクトル長フィールド１２５９Ｂとして解釈され、その内容は、いくつかのデータベクトル長のうちのどれが実行されるかを区別する（例えば、１２８、２５６、または５１２バイト）。

クラスＢのメモリアクセス１２２０の命令テンプレートの場合、ベータフィールド１２５４の一部は、ブロードキャストフィールド１２５７Ｂとして解釈され、その内容は、ブロードキャストタイプのデータ操作オペレーションが実行されるべきか否かを区別するが、ベータフィールド１２５４の残りは、ベクトル長フィールド１２５９Ｂとして解釈される。メモリアクセス１２２０の命令テンプレートは、スケールフィールド１２６０を含み、変位フィールド１２６２Ａまたは変位スケールフィールド１２６２Ｂを任意選択で含む。

一般的ベクトル向け命令フォーマット１２００に関連して、フォーマットフィールド１２４０、ベースオペレーションフィールド１２４２、およびデータ要素幅フィールド１２６４を含む、フルオペコードフィールド１２７４が示される。一実施形態として、フルオペコードフィールド１２７４がこれらのフィールドの全てを含むものが示されているが、これら全てをサポートしない実施形態において、フルオペコードフィールド１２７４は、これらのフィールド全てより少ないものを含む。フルオペコードフィールド１２７４は、オペレーションコード（オペコード）を提供する。

追加オペレーションフィールド１２５０、データ要素幅フィールド１２６４、およびライトマスクフィールド１２７０は、一般的ベクトル向け命令フォーマットにおける命令ベースで、これらの機能が指定されることを可能にする。

ライトマスクフィールドおよびデータ要素幅フィールドを組み合わせることで、マスクが異なるデータ要素幅に基づいて適用されることを可能にするように、型付き命令を生成する。

クラスＡおよびクラスＢ内に見出される様々な命令テンプレートは、異なる状況において有益である。本発明のいくつかの実施形態において、異なるプロセッサまたはプロセッサ内の異なるコアは、クラスＡのみ、クラスＢのみ、または両方のクラスをサポートし得る。例えば、汎用演算用の高性能汎用アウトオブオーダコアは、クラスＢのみをサポートし得、主にグラフィックスおよび／またはサイエンティフィック（スループット）演算用のコアは、クラスＡのみをサポートし得、両方用のコアは、両方をサポートし得る（勿論、両方のクラスの全てのテンプレートおよび命令ではないが、両方のクラスのテンプレートおよび命令のいくつかのミックスを有するコアは、本発明の範囲内である）。また、シングルプロセッサは、複数のコアを含み得、これらの全てが同じクラスをサポートし、または異なるコアが異なるクラスをサポートする。例えば、別個のグラフィックスコアおよび汎用コアを有するプロセッサにおいて、主にグラフィックスおよび／またはサイエンティフィック演算用のグラフィックスコアのうちの１つは、クラスＡのみをサポートし得るが、汎用コアのうちの１または複数は、クラスＢのみをサポートする汎用演算用のアウトオブオーダ実行およびレジスタリネームを用いる高性能汎用コアであり得る。別個のグラフィックスコアを有しない別のプロセッサは、クラスＡおよびクラスＢの両方をサポートする、もう１つの汎用インオーダまたはアウトオブオーダのコアを含み得る。勿論、本発明の異なる実施形態において、あるクラスの機能は、他のクラスにおいても実装され得る。高水準言語で書かれたプログラムは、１）実行のためにターゲットプロセッサによりサポートされるクラスの命令のみを有する形式、または２）全てのクラスの命令の異なる組み合わせを用いて書かれた代替的なルーチンを有し、現在、コードを実行しているプロセッサによりサポートされる命令に基づいて、実行するルーチンを選択する制御フローコードを有する形式を含む、種々様々な実行可能な形式にされる（例えば、実行時コンパイルまたは静的コンパイル）。

図１３Ａ〜１３Ｄは、本発明の実施形態による例示的な特定ベクトル向け命令フォーマットを示すブロック図である。図１３Ａ〜１３Ｄは、フィールドの位置、サイズ、解釈、および順序、ならびにそれらのフィールドのいくつかに対する値を指定するという意味で具体的な特定ベクトル向け命令フォーマット１３００を示す。特定ベクトル向け命令フォーマット１３００は、ｘ８６命令セットを拡張するために用いられ得、従ってフィールドのうちのいくつかは、既存のｘ８６命令セットおよびその拡張（例えば、ＡＶＸ）において用いられるものと類似するか、または同じである。このフォーマットは、拡張された既存のｘ８６命令セットのプレフィックスエンコードフィールド、リアルオペコードバイトフィールド、ＭＯＤＲ／Ｍフィールド、ＳＩＢフィールド、変位フィールド、および即値フィールドとの整合性を保つ。図１３Ａ〜図１３Ｄがフィールドにマッピングされる図１２Ａ〜図１２Ｂのフィールドが示される。

本発明の実施形態は、例示目的で一般的ベクトル向け命令フォーマット１２００の文脈において、特定ベクトル向け命令フォーマット１３００を参照して説明されるが、本発明は、特許請求される場合を除き、特定ベクトル向け命令フォーマット１３００に限定されないことを理解されたい。例えば、一般的ベクトル向け命令フォーマット１２００は、様々なフィールドのために考えられる様々なサイズを企図するが、特定ベクトル向け命令フォーマット１３００は、特定サイズのフィールドを有するものとして示される。具体的な例として、データ要素幅フィールド１２６４は、特定ベクトル向け命令フォーマット１３００における１つのビットフィールドとして示されるが、本発明は、そのようには限定されない（すなわち、一般的ベクトル向け命令フォーマット１２００は、他のサイズのデータ要素幅フィールド１２６４を企図する）。

一般的ベクトル向け命令フォーマット１２００は、図１３Ａにおいて示される順序で以下に列挙される、次のフィールドを含む。
ＥＶＥＸプレフィックス（バイト０〜３）１３０２。４バイト形式でエンコードされる。

フォーマットフィールド１２４０（ＥＶＥＸバイト０、ビット［７：０］）。最初のバイト（ＥＶＥＸバイト０）は、フォーマットフィールド１２４０であり、０ｘ６２を含む（本発明の一実施形態において、ベクトル向け命令フォーマットを区別するべく用いられる一意な値）。

第２〜第４のバイト（ＥＶＥＸバイト１〜３）は、特定の能力を提供するいくつかのビットフィールドを含む。

ＲＥＸフィールド１３０５（ＥＶＥＸバイト１、ビット［７−５］）は、ＥＶＥＸ．Ｒビットフィールド（ＥＶＥＸバイト１、ビット［７］−Ｒ）、ＥＶＥＸ．Ｘビットフィールド（ＥＶＥＸバイト１、ビット［６］−Ｘ）、およびＥＶＥＸバイト１、ビット［５］−Ｂ）からなる。ＥＶＥＸ．Ｒ、ＥＶＥＸ．Ｘ、およびＥＶＥＸ．Ｂのビットフィールドは、対応するＶＥＸビットフィールドと同一の機能性を提供し、１の補数形式を用いてエンコードされる。すなわち、ＺＭＭ０は、１２１１Ｂとしてエンコードされ、ＺＭＭ１５は、００００Ｂとしてエンコードされる。命令の他のフィールドは、当技術分野で既知のレジスタインデックスの下位の３つのビット（ｒｒｒ、ｘｘｘ、およびｂｂｂ）をエンコードし、従って、Ｒｒｒｒ、Ｘｘｘｘ、およびＢｂｂｂは、ＥＶＥＸ．Ｒ、ＥＶＥＸ．Ｘ、およびＥＶＥＸ．Ｂを加えることにより形成され得る。

ＲＥＸ'フィールド１２１０。これはＲＥＸ'フィールド１２１０の第１の部分であり、拡張された３２個のレジスタセットの上位の１６個または下位の１６個のいずれかをエンコードするために用いられるＥＶＥＸ．Ｒ'ビットフィールド（ＥＶＥＸバイト１、ビット［４］−Ｒ'）である。本発明の一実施形態において、このビットは、以下に示される他のものと共に、（周知のｘ８６の３２ビットモードで）ＢＯＵＮＤ命令から区別するべく、ビット反転フォーマットで格納される。ＢＯＵＮＤ命令のリアルオペコードバイトは６２であるが、ＭＯＤＲ／Ｍフィールド（下記）にはＭＯＤフィールドにおける１１の値を受け付けない。本発明の代替的な実施形態は、これおよび以下に示される他のビットを反転フォーマットで格納しない。１の値は、下位の１６個のレジスタをエンコードするべく用いられる。換言すると、Ｒ'Ｒｒｒｒは、ＥＶＥＸ．Ｒ'、ＥＶＥＸ．Ｒ、および他のフィールドの他のＲＲＲを組み合わせることにより形成される。

オペコードマップフィールド１３１５（ＥＶＥＸバイト１、ビット［３：０］−ｍｍｍｍ）。その内容は、暗黙に示される先頭オペコードバイト（０Ｆ、０Ｆ３８、または０Ｆ３）をエンコードする。

データ要素幅フィールド１２６４（ＥＶＥＸバイト２、ビット［７］−Ｗ）は、ＥＶＥＸ．Ｗという表記により表される。ＥＶＥＸ．Ｗは、データタイプの粒度（サイズ）（３２ビットのデータ要素または６４ビットのデータ要素のいずれか）を定義するべく用いられる。

ＥＶＥＸ．ｖｖｖｖ１３２０（ＥＶＥＸバイト２、ビット［６：３］−ｖｖｖｖ）。ＥＶＥＸ．ｖｖｖｖの役割は、以下を含み得る。１）ＥＶＥＸ．ｖｖｖｖは、反転（１の補数）形式で指定された第１のソースレジスタオペランドをエンコードし、２またはそれより多いソースオペランドを用いる命令に対して有効である。２）ＥＶＥＸ．ｖｖｖｖは、一定の複数のベクトルシフトに対して１の補数形式で指定されたデスティネーションレジスタオペランドをエンコードする。または３）ＥＶＥＸ．ｖｖｖｖは、いずれのオペランドもエンコードせず、フィールドは予約され、１２１１ｂを含むはずである。従って、ＥＶＥＸ．ｖｖｖｖフィールド１３２０は、反転（１の補数）形式で格納された第１のソースレジスタ指定子の４つの下位ビットをエンコードする。命令に応じて、指定子サイズを３２個のレジスタに拡張するべく、追加の異なるＥＶＥＸビットフィールドが用いられる。

ＥＶＥＸ．Ｕ１２６８クラスフィールド（ＥＶＥＸバイト２、ビット［２］−Ｕ）。ＥＶＥＸ．Ｕ＝０である場合、クラスＡまたはＥＶＥＸ．Ｕ０を示す。ＥＶＥＸ．Ｕ＝１である場合、クラスＢまたはＥＶＥＸ．Ｕ１を示す。

プレフィックスエンコードフィールド１３２５（ＥＶＥＸバイト２、ビット［１：０］−ｐｐ）は、ベースオペレーションフィールドのために追加ビットを提供する。ＥＶＥＸプレフィックスフォーマットでレガシＳＳＥ命令のためのサポートを提供することに加えて、これは、ＳＩＭＤプレフィックスを圧縮するという利益も有する（ＥＶＥＸプレフィックスは、ＳＩＭＤプレフィックスを表すバイトを必要とするのではなく、２ビットのみを必要とする）。一実施形態において、レガシフォーマットおよびＥＶＥＸプレフィックスフォーマットの両方でＳＩＭＤプレフィックス（６６Ｈ、Ｆ２Ｈ、Ｆ３Ｈ）を用いるレガシＳＳＥ命令をサポートするべく、これらのレガシＳＩＭＤプレフィックスは、ＳＩＭＤプレフィックスエンコードフィールドへとエンコードされ、（ＰＬＡが変更なしにレガシフォーマットおよびこれらのレガシ命令のＥＶＥＸフォーマットの両方を実行し得るように）ランタイム時にデコーダのＰＬＡに提供される前にレガシＳＩＭＤプレフィックスへと拡張される。より新しい命令は、ＥＶＥＸプレフィックスエンコードフィールドの内容をオペコード拡張として直接に用い得るが、ある実施形態は、整合のために同様に拡張されるが、これらのレガシＳＩＭＤプレフィックスにより指定される異なる意味を可能にする。代替的な実施形態は、２ビットのＳＩＭＤプレフィックスエンコードをサポートするようにＰＬＡを再設計し得、従って拡張を必要としない。

アルファフィールド１２５２（ＥＶＥＸバイト３、ビット［７］−ＥＨ。ＥＶＥＸ．ＥＨ、ＥＶＥＸ．ｒｓ、ＥＶＥＸ．ＲＬ、ＥＶＥＸ．ライトマスク制御、およびＥＶＥＸ．Ｎとしても知られる。αでも示される）。上記のように、このフィールドは、コンテキストに固有である。

ベータフィールド１２５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ、ＥＶＥＸ．ｓ_２-０、ＥＶＥＸ．ｒ_２-０、ＥＶＥＸ．ｒｒ１、ＥＶＥＸ．ＬＬ０、ＥＶＥＸ．ＬＬＢとしても知られる。βββでも示される）。上記のように、このフィールドは、コンテキストに固有である。

ＲＥＸ'フィールド１２１０。これは、ＲＥＸ'フィールドの残りであり、拡張された３２個のレジスタセットの上位の１６個または下位の１６個をエンコードするべく用いられ得るＥＶＥＸ．Ｖ'ビットフィールドのいずれかである（ＥＶＥＸバイト３、ビット［３］−Ｖ'）。このビットは、ビット反転フォーマットで格納される。１の値は、下位の１６個のレジスタをエンコードするべく用いられる。換言すると、Ｖ'ＶＶＶＶは、ＥＶＥＸ．Ｖ'、ＥＶＥＸ．ｖｖｖｖを組み合わせることにより形成される。

ライトマスクフィールド１２７０（ＥＶＥＸバイト３、ビット［２：０］−ｋｋｋ）。その内容は、上記のようにライトマスクレジスタにおけるレジスタのインデックスを指定する。本発明の一実施形態において、特定の値ＥＶＥＸ．ｋｋｋ＝０００は、特定の命令のために非ライトマスクが用いられることを暗に示す、特別な動作を有する（これは、全ての１に対するハードワイヤされたライトマスクの使用、またはマスキングハードウェアを迂回するハードウェアの使用を含む、様々な態様で実装され得る）。

リアルオペコードフィールド１３３０（バイト４）は、オペコードバイトとしても知られる。オペコードの一部は、このフィールド内に指定される。

ＭＯＤＲ／Ｍフィールド１３４０（バイト５）は、ＭＯＤフィールド１３４２、Ｒｅｇフィールド１３４４、およびＲ／Ｍフィールド１３４６を含む。上記のように、ＭＯＤフィールド１３４２の内容は、メモリアクセスオペレーションおよび非メモリアクセスオペレーションを区別する。Ｒｅｇフィールド１３４４の役割は、２つの状況に要約され得る。すなわち、デスティネーションレジスタオペランドまたはソースレジスタオペランドのいずれかをエンコードし、またはオペコード拡張として扱われ、任意の命令オペランドをエンコードするためには用いられない。Ｒ／Ｍフィールド１３４６の役割は、メモリアドレスを参照する命令オペランドをエンコードし、またはデスティネーションレジスタオペランドもしくはソースレジスタオペランドのいずれかをエンコードすることを含み得る。

スケール、インデックス、ベース（ＳＩＢ）バイト（バイト６）。上記のように、スケールフィールド１２５０の内容は、メモリアドレス生成に用いられる。ＳＩＢ．ｘｘｘ１３５４およびＳＩＢ．ｂｂｂ１３５６。これらのフィールドの内容は、レジスタインデックスＸｘｘｘおよびＢｂｂｂに関連して既に言及された。

変位フィールド１２６２Ａ（バイト７〜１０）。ＭＯＤフィールド１３４２が１０を含む場合、バイト７〜１０は、変位フィールド１２６２Ａであり、これはレガシ３２ビット変位（ｄｉｓｐ３２）と同様に機能し、バイト粒度で機能する。

変位係数フィールド１２６２Ｂ（バイト７）。ＭＯＤフィールド１３４２が０１を含む場合、バイト７は、変位係数フィールド１２６２Ｂである。このフィールドの位置は、バイト粒度で機能するレガシｘ８６命令セットの８ビット変位（ｄｉｓｐ８）の位置と同じである。ｄｉｓｐ８は、符号拡張されるので、−１２８〜１２７バイトのオフセットのみをアドレスを指定し得る。６４バイトのキャッシュラインに関しては、ｄｉｓｐ８は、４つの本当に有用な値である−１２８、−６４、０、および６４のみに設定され得る８ビットを用いる。多くの場合に、より広いレンジが必要とされるので、ｄｉｓｐ３２が用いられる。しかし、ｄｉｓｐ３２は、４バイトを必要とする。ｄｉｓｐ８およびｄｉｓｐ３２とは対照的に、変位係数フィールド１２６２Ｂは、ｄｉｓｐ８の再解釈である。変位係数フィールド１２６２Ｂを用いる場合、実際の変位は、メモリオペランドアクセスのサイズ（Ｎ）で乗算される変位係数フィールドの内容により決定される。このタイプの変位は、ｄｉｓｐ８＊Ｎと称される。これにより、平均命令長（単一バイトだが、はるかに広いレンジの変位に用いられる）を小さくする。そのような圧縮された変位は、有効な変位がメモリアクセスの粒度の倍数であり、従って、アドレスオフセットの冗長下位ビットは、エンコードされる必要がないという前提に基づく。換言すると、変位係数フィールド１２６２Ｂは、レガシｘ８６命令セットの８ビット変位に置き換わる。従って、ｄｉｓｐ８がｄｉｓｐ８＊Ｎにオーバーロードされることのみを例外として、変位係数フィールド１２６２Ｂは、ｘ８６命令セットの８ビット変位と同じ態様でエンコードされる（従って、ＭｏｄＲＭ／ＳＩＢエンコードルールに変更はない）。換言すると、エンコードルールまたはエンコードの長さに変更はないが、（バイト的アドレスオフセットを得るべく、メモリオペランドのサイズにより変位を調節する必要がある）ハードウェアによる変位値の解釈のみには変更がある。

即値フィールド１２７２は、上記のように動作する。

フルオペコードフィールド
図１３Ｂは、本発明の一実施形態による、フルオペコードフィールド１２７４を構成する特定ベクトル向け命令フォーマット１３００のフィールドを示すブロック図である。具体的には、フルオペコードフィールド１２７４は、フォーマットフィールド１２４０、ベースオペレーションフィールド１２４２、およびデータ要素幅（Ｗ）フィールド１２６４を含む。ベースオペレーションフィールド１２４２は、プレフィックスエンコードフィールド１３２５、オペコードマップフィールド１３１５、およびリアルオペコードフィールド１３３０を含む。

レジスタインデックスフィールド
図１３Ｃは、本発明の一実施形態による、レジスタインデックスフィールド１２４４を構成する特定ベクトル向け命令フォーマット１３００のフィールドを示すブロック図である。具体的には、レジスタインデックスフィールド１２４４は、ＲＥＸフィールド１３０５、ＲＥＸ'フィールド１３１０、ＭＯＤＲ／Ｍ．ｒｅｇフィールド１３４４、ＭＯＤＲ／Ｍ．ｒ／ｍフィールド１３４６、ＶＶＶＶフィールド１３２０、ｘｘｘフィールド１３５４、およびｂｂｂフィールド１３５６を含む。

追加オペレーションフィールド
図１３Ｄは、本発明の一実施形態による、追加オペレーションフィールド１２５０を構成する特定ベクトル向け命令フォーマット１３００のフィールドを示すブロック図である。クラス（Ｕ）フィールド１２６８が０を含む場合、ＥＶＥＸ．Ｕ０（クラスＡ１２６８Ａ）を意味する。１を含む場合、ＥＶＥＸ．Ｕ１（クラスＢ１２６８Ｂ）を意味する。Ｕ＝０、かつＭＯＤフィールド１３４２が１１を含む場合（非メモリアクセスオペレーションを意味する）、アルファフィールド１２５２（ＥＶＥＸバイト３、ビット［７］−ＥＨ）は、ＲＳフィールド１２５２Ａとして解釈される。ＲＳフィールド１２５２Ａが１（ラウンド１２５２Ａ．１）を含む場合、ベータフィールド１２５４（ＥＶＥＸバイト３、ビット［６：４］‐ＳＳＳ）は、ラウンド制御フィールド１２５４Ａとして解釈される。ラウンド制御フィールド１２５４Ａは、１ビットのＳＡＥフィールド１２５６および２ビットのラウンドオペレーションフィールド１２５８を含む。ＲＳフィールド１２５２Ａが０（データ変換１２５２Ａ．２）を含む場合、ベータフィールド１２５４（ＥＶＥＸバイト３、ビット［６：４］‐ＳＳＳ）は、３ビットのデータ変換フィールド１２５４Ｂとして解釈される。Ｕ＝０であり、かつＭＯＤフィールド１３４２が００、０１、または１０を含む場合（メモリアクセスオペレーションを意味する）、アルファフィールド１２５２（ＥＶＥＸバイト３、ビット［７］‐ＥＨ）は、エビクションヒント（ＥＨ）フィールド１２５２Ｂとして解釈され、ベータフィールド１２５４（ＥＶＥＸバイト３、ビット［６：４］‐ＳＳＳ）は、３ビットのデータ操作フィールド１２５４Ｃとして解釈される。

Ｕ＝１である場合、アルファフィールド１２５２（ＥＶＥＸバイト３、ビット［７］−ＥＨ）は、ライトマスク制御（Ｚ）フィールド１２５２Ｃとして解釈される。Ｕ＝１であり、かつＭＯＤフィールド１３４２が１１を含む場合（非メモリアクセスオペレーションを意味する）、ベータフィールド１２５４（ＥＶＥＸバイト３、ビット［４］−Ｓ_０）の一部は、ＲＬフィールド１２５７Ａとして解釈される。１（ラウンド１２５７Ａ．１）を含む場合、ベータフィールド１２５４（ＥＶＥＸバイト３、ビット［６−５］‐Ｓ_２−１）の残りは、ラウンドオペレーションフィールド１２５９Ａとして解釈されるが、ＲＬフィールド１２５７Ａが０（ＶＳＩＺＥ１２５７．Ａ２）を含む場合、ベータフィールド１２５４（ＥＶＥＸバイト３、ビット［６‐５］‐Ｓ_２−１）の残りは、ベクトル長フィールド１２５９Ｂ（ＥＶＥＸバイト３、ビット［６‐５］‐Ｌ_１−０）として解釈される。Ｕ＝１であり、ＭＯＤフィールド１３４２が００、０１、または１０を含む場合（メモリアクセスオペレーションを意味する）、ベータフィールド１２５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ）は、ベクトル長フィールド１２５９Ｂ（ＥＶＥＸバイト３、ビット［６‐５］‐Ｌ_１−０）およびブロードキャストフィールド１２５７Ｂ（ＥＶＥＸバイト３、ビット［４］‐Ｂ）として解釈される。

図１４は、本発明の一実施形態による、レジスタアーキテクチャ１４００のブロック図である。示される実施形態において、５１２ビット幅の３２個のベクトルレジスタ１４１０が存在する。これらのレジスタは、ｚｍｍ０〜ｚｍｍ３１として参照される。下位の１６個のｚｍｍレジスタの下位の２５６ビットは、レジスタｙｍｍ０〜１５上にオーバーレイされる。下位の１６個のｚｍｍレジスタの下位の１２８ビット（ｙｍｍレジスタの下位の１２８ビット）は、レジスタｘｍｍ０〜１５上にオーバーレイされる。以下の表に示されるように、特定ベクトル向け命令フォーマット１３００は、これらのオーバーレイされたレジスタファイルで動作する。

換言すると、ベクトル長フィールド１２５９Ｂは、最大長、および１もしくは複数の他のより短い長さのうちから選択され、そのような各々のより短い長さは、先述の長さの半分の長さである。ベクトル長フィールド１２５９Ｂを用いない命令テンプレートは、最大ベクトル長で動作する。更に、一実施形態において、特定ベクトル向け命令フォーマット１３００のクラスＢ命令テンプレートは、パックドもしくはスカラ単精度／倍精度浮動小数点データおよびパックドもしくはスカラ整数データで動作する。スカラオペレーションは、ｚｍｍ／ｙｍｍ／ｘｍｍレジスタにおける最下位のデータ要素位置で実行されるオペレーションである。より上位のデータ要素位置は、命令前と同じままであるか、または実施形態に応じてゼロにされる。

ライトマスクレジスタ１４１５。示される実施形態において、８つのライトマスクレジスタ（ｋ０〜ｋ７）が存在し、各々は６４ビットのサイズである。代替的な実施形態において、ライトマスクレジスタ１４１５は１６ビットのサイズである。上記のように、本発明の一実施形態において、ベクトルマスクレジスタｋ０は、ライトマスクとして使用され得ない。通常、ｋ０を示すエンコードがライトマスクに用いられる場合、これは、０ｘＦＦＦＦのハードワイヤされたライトマスクを選択し、その命令に対するライトマスキングを実質的に無効にする。

汎用レジスタ１４２５。示される実施形態において、メモリオペランドをアドレス指定する既存のｘ８６のアドレス指定モードと共に用いられる１６個の６４ビット汎用レジスタが存在する。これらのレジスタは、ＲＡＸ、ＲＢＸ、ＲＣＸ、ＲＤＸ、ＲＢＰ、ＲＳＩ、ＲＤＩ、ＲＳＰ、およびＲ８〜Ｒ１５の名称により参照される。

スカラ浮動小数点スタックレジスタファイル（ｘ８７スタック）１４４５上に、ＭＭＸパックド整数フラットレジスタファイル１４５０がエイリアスされ、示される実施形態において、ｘ８７スタックは、ｘ８７命令セット拡張を用いて、３２／６４／８０ビット浮動小数点データにスカラ浮動小数点オペレーションを実行するべく用いられる８つの要素のスタックである。ＭＭＸレジスタは、６４ビットパックド整数データにオペレーションを実行すると共に、ＭＭＸレジスタとＸＭＭレジスタとの間で実行されるいくつかのオペレーションのためのオペランドを保持するべく用いられる。

本発明の代替的な実施形態は、より広いか、またはより狭いレジスタを用い得る。更に、本発明の代替的な実施形態は、より多いか、より少ないか、または異なるレジスタファイルおよびレジスタを用い得る。

図１５Ａ〜図１５Ｂは、より具体的な例示的インオーダコアアーキテクチャのブロック図を示し、このコアは、チップにおける（同じタイプおよび／または異なるタイプの他のコアを含む）いくつかの論理ブロックのうちの１つである。アプリケーションに応じて、論理ブロックは、ある固定機能ロジック、メモリＩ／Ｏインタフェース、および他の必要なＩ／Ｏロジックを用いる高帯域幅の相互接続ネットワーク（例えば、リングネットワーク）を介して通信する。

図１５Ａは、本発明の実施形態によるシングルプロセッサコアのブロック図であり、オンダイ相互接続ネットワーク１５０２への接続に加え、レベル２（Ｌ２）キャッシュ１５０４のローカルサブセットを有する。一実施形態において、命令デコーダ１５００は、パックドデータ命令セット拡張を用いるｘ８６命令セットをサポートする。Ｌ１キャッシュ１５０６は、スカラユニットおよびベクトルユニット内のキャッシュメモリへの低レイテンシアクセスを可能にする。一実施形態において（設計を簡略化するべく）、スカラユニット１５０８およびベクトルユニット１５１０は、別個のレジスタセット（各々、スカラレジスタ１５１２およびベクトルレジスタ１５１４）を用い、それらの間で転送されるデータは、メモリに書き込まれ、次にレベル１（Ｌ１）キャッシュ１５０６からリードバックされる。本発明の代替的な実施形態は、異なるアプローチ（例えば、単一のレジスタセットを用い、またはライトバックおよびリードバックされることなく、２つのレジスタファイルの間で、データが転送されることを可能にする通信パスを含む）を用い得る。

Ｌ２キャッシュ１５０４のローカルサブセットは、プロセッサコア毎に１つずつ、別個のローカルサブセットに分割される全体的なＬ２キャッシュの一部である。各プロセッサコアは、Ｌ２キャッシュ１５０４の自身のローカルサブセットへの直接のアクセス経路を有する。プロセッサコアにより読み出されたデータは、そのＬ２キャッシュサブセット１５０４に格納され、自身のローカルＬ２キャッシュサブセットにアクセスする他のプロセッサコアと並列に迅速にアクセスされ得る。プロセッサコアにより書き込まれたデータは、自身のＬ２キャッシュサブセット１５０４に格納され、必要であれば他のサブセットからフラッシュされる。リングネットワークは、共有データのコヒーレンシを保証する。リングネットワークは、双方向であり、プロセッサコア、Ｌ２キャッシュ、および他の論理ブロック等のエージェントがチップ内で互いに通信することを可能にする。各リングのデータパスは、１方向毎に１０１２ビット幅である。

図１５Ｂは、本発明の実施形態による図１５Ａのプロセッサコアの一部の拡大図である。図１５Ｂは、Ｌ１キャッシュ１５０４のＬ１データキャッシュ１５０６Ａ部分、ならびにベクトルユニット１５１０およびベクトルレジスタ１５１４に関する更なる詳細を含む。具体的には、ベクトルユニット１５１０は、１６ワイドのベクトル処理ユニット（ＶＰＵ）（１６ワイドのＡＬＵ１５２８を参照）であり、これは整数命令、単精度浮動小数点命令、および倍精度浮動小数点命令のうちの１または複数を実行する。ＶＰＵは、スウィズルユニット１５２０によるレジスタ入力のスウィズル、数値変換ユニット１５２２Ａ〜Ｂによる数値変換、およびメモリ入力時のレプリケーションユニット１５２４によるレプリケーションをサポートする。ライトマスクレジスタ１５２６は、結果として生じるベクトル書き込みを予測（ｐｒｅｄｉｃａｔｉｎｇ）することを可能にする。

本発明の実施形態は、上記の様々な段階を含み得る。段階は、汎用または専用プロセッサに段階を実行させるために用いられ得る機械実行可能命令で実施され得る。あるいは、これらの段階は、段階を実行するためのハードワイヤされたロジックを含む特定のハードウェアコンポーネントにより、またはプログラミングされたコンピュータコンポーネントおよびカスタムハードウェアコンポーネントの任意の組み合わせにより、実行され得る。

本明細書において説明されるように、命令は、特定のオペレーションを実行するよう構成され、または非一時的コンピュータ可読媒体で実施されるメモリに格納された予め定められた機能もしくはソフトウェア命令を有する特定用途向け集積回路（ＡＳＩＣ）等のハードウェアの特定の構成を指し得る。従って、図面に示される技術は、１または複数の電子デバイス（例えば、終端局およびネットワーク要素等）上に格納され、実行されるコードおよびデータを用いて実装され得る。そのような電子デバイスは、非一時的コンピュータ機械可読ストレージ媒体（例えば、磁気ディスク、光ディスク、ランダムアクセスメモリ、リードオンリメモリ、フラッシュメモリデバイス、相変化メモリ）および一時的コンピュータ機械可読通信媒体（例えば、電気的、光、音響、もしくは搬送波、赤外線信号、デジタル信号等の他の形態の伝搬信号）等のコンピュータ機械可読媒体を用いてコードおよびデータを格納し、（内部でおよび／またはネットワークを介する他の電子デバイスと）通信する。更に、そのような電子デバイスは通常、１もしくは複数のストレージデバイス（非一時的機械可読ストレージ媒体）、ユーザ入出力デバイス（例えば、キーボード、タッチスクリーン、および／またはディスプレイ）、ならびにネットワーク接続等、１もしくは複数の他のコンポーネントに結合された１もしくは複数のプロセッサのセットを含む。プロセッサおよび他のコンポーネントのセットの結合は通常、１または複数のバスおよびブリッジ（バスコントローラとも呼ばれる）を介して行われる。ストレージデバイスおよびネットワークトラフィックを搬送する信号は、各々、１または複数の機械可読ストレージ媒体および機械可読通信媒体を表す。従って、所与の電子デバイスのストレージデバイスは通常、当該電子デバイスの１または複数のプロセッサのセットに対して実行するためのコードおよび／またはデータを格納する。勿論、本発明の実施形態の１または複数の部分は、ソフトウェア、ファームウェア、および／またはハードウェアの異なる組み合わせを用いて実装され得る。この詳細な説明を通じて、説明の目的のために、多数の具体的な詳細が、本発明の完全な理解を提供するべく記載された。しかし、当業者には本発明がこれら具体的な詳細のいくつかがなくても実施され得ることが明らかであろう。特定の例において、周知の構造および機能は、本発明の主題を不明瞭にするのを避けるべく、精巧詳細に説明されていない。従って、本発明の範囲および趣旨は、以下の特許請求の範囲の観点から判断されるべきである。

本発明の実施形態は、デスティネーションパックドデータオペランド、第１のソースパックドデータオペランド、第２のソースパックドデータオペランド、および即値を示す命令をメモリからフェッチするフェッチロジックと、即値に対応する位置に基づいて第２のソースパックドデータオペランドにおけるビットを決定し、第１のソースパックドデータオペランドと決定されたビットとの間でビット単位のＡＮＤを実行して中間結果を生成し、デスティネーションパックドデータオペランドと中間結果との間でビット単位のＸＯＲを実行し、最終結果を生成し、デスティネーションパックドデータオペランドによって示される格納位置に最終結果を格納する実行ロジックとを備える、プロセッサを含む。

更なる実施形態は、第１のソースパックドデータオペランドと決定されたビットとの間でビット単位のＡＮＤを実行するべく、実行ロジックが、更に、第１のソースパックドデータオペランドと一時ベクトルとの間でビット単位のＡＮＤを実行するように構成され、決定されたビットの値は、１または複数の回数、一時ベクトルにブロードキャストされることを含む。

更なる実施形態は、デスティネーションパックドデータオペランド、第１のソースパックドデータオペランド、および第２のソースパックドデータオペランドによって示される格納位置が、別個の６４ビットセクションで処理され、プロセッサが、６４ビットセクションの各々に対して同一のロジックを実行することを含む。

更なる実施形態は、命令は、ライトマスクオペランドを更に含み、実行ロジックは、ライトマスクがデスティネーションパックドデータオペランドの６４ビットセクションうちの１つに対して設定されたことをライトマスクオペランドが示すとの判断に応じて、デスティネーションパックドデータオペランドによって示された格納位置における６４ビットセクションのうちの１つの値をゼロに更にセットすることを含む。

更なる実施形態は、デスティネーションパックドデータオペランド、第１のソースパックドデータオペランド、および第２のソースパックドデータオペランドによって示される格納位置が、レジスタおよびメモリ位置のうちの少なくとも１つであることを含む。

更なる実施形態は、デスティネーションパックドデータオペランド、第１のソースパックドデータオペランド、および第２のソースパックドデータオペランドによって示される格納位置が、５１２ビット長のレジスタであることを含む。

更なる実施形態は、即値が、８ビット長であることを含む。

更なる実施形態は、命令が、ビット行列とビットベクトルとの間でビット行列乗算オペレーションを実行するために用いられ、ビット行列の１または複数の列が、第１のソースパックドデータオペランドによって示される格納位置に格納され、ビットベクトルの値が、第２のソースパックドデータオペランドによって示される格納位置に格納されることを含む。

本発明の実施形態は、ビット行列が、ビット行列の１または複数の列が第１のソースパックドデータオペランドによって示される格納位置に列×列で格納されるように入れ替えられることを含む。

更なる実施形態は、デスティネーションパックドデータオペランドによって示される格納位置が、命令がビット行列の列の各々に対して実行されたときの、ビット行列とビットベクトルとの間のビット行列乗算オペレーションの結果を含み、命令の実行毎に、即値が、処理済みのビット行列の列番号に対応するビットベクトルにおける位置を示す値を指定することを含む。

本発明の実施形態は、コンピュータプロセッサにおける方法であって、デスティネーションパックドデータオペランド、第１のソースパックドデータオペランド、第２のソースパックドデータオペランド、および即値を示す命令をメモリからフェッチする段階と、即値に対応する位置に基づいて第２のソースパックドデータオペランドにおけるビットを決定する段階と、第１のソースパックドデータオペランドと決定されたビットとの間でビット単位のＡＮＤを実行して中間結果を生成する段階と、デスティネーションパックドデータオペランドと中間結果との間でビット単位のＸＯＲを実行し、最終結果を生成する段階と、デスティネーションパックドデータオペランドによって示される格納位置に最終結果を格納する段階とを備える、方法を含む。

更なる実施形態は、第１のソースパックドデータオペランドと決定されたビットとの間でビット単位のＡＮＤを実行する段階が、更に、第１のソースパックドデータオペランドと一時ベクトルとの間でビット単位のＡＮＤを実行する段階を備え、決定されたビットの値が、１または複数の回数、一時ベクトルにブロードキャストされることを含む。

更なる実施形態は、命令は、ライトマスクオペランドを更に含み、方法は、ライトマスクがデスティネーションパックドデータオペランドの６４ビットセクションうちの１つに対して設定されたことをライトマスクオペランドが示すとの判断に応じて、デスティネーションパックドデータオペランドによって示された格納位置における６４ビットセクションのうちの１つの値をゼロに更にセットすることを含む。

本発明は、いくつかの実施形態に関して説明されているが、当業者は、本発明が説明される実施形態に限定されず、添付の特許請求の範囲の趣旨および範囲内で修正および変更を実施し得ることを理解するであろう。従って、本明細書は、限定ではなく、例示としてみなされるものである。

Claims

デスティネーションパックドデータオペランド、第１のソースパックドデータオペランド、第２のソースパックドデータオペランド、および即値を示す命令をメモリからフェッチするフェッチロジックと、
前記即値に対応する位置に基づいて前記第２のソースパックドデータオペランドにおけるビットを決定し、
前記第１のソースパックドデータオペランドと決定された前記ビットとの間でビット単位のＡＮＤを実行して中間結果を生成し、
前記デスティネーションパックドデータオペランドと前記中間結果との間でビット単位のＸＯＲを実行し、最終結果を生成し、
前記デスティネーションパックドデータオペランドによって示される格納位置に前記最終結果を格納する実行ロジックとを備える、プロセッサ。
前記第１のソースパックドデータオペランドと決定された前記ビットとの間で前記ビット単位のＡＮＤを実行するべく、前記実行ロジックは、更に、前記第１のソースパックドデータオペランドと一時ベクトルとの間で前記ビット単位のＡＮＤを実行し、
決定された前記ビットの値は、１または複数の回数、前記一時ベクトルにブロードキャストされる、請求項１に記載のプロセッサ。
前記デスティネーションパックドデータオペランド、前記第１のソースパックドデータオペランド、および前記第２のソースパックドデータオペランドによって示される格納位置は、別個の６４ビットセクションで処理され、
前記プロセッサは、前記６４ビットセクションの各々に対して同一のロジックを実行する、請求項１または２に記載のプロセッサ。
前記命令は、ライトマスクオペランドを更に含み、
前記実行ロジックは、ライトマスクが前記デスティネーションパックドデータオペランドの前記６４ビットセクションうちの１つに対して設定されたことを前記ライトマスクオペランドが示すとの判断に応じて、前記デスティネーションパックドデータオペランドによって示された前記格納位置における前記６４ビットセクションのうちの前記１つの値をゼロに更にセットする、請求項３に記載のプロセッサ。
前記デスティネーションパックドデータオペランド、前記第１のソースパックドデータオペランド、および前記第２のソースパックドデータオペランドによって示される前記格納位置は、レジスタおよびメモリ位置のうちの少なくとも１つである、請求項１〜４のいずれか１項に記載のプロセッサ。
前記デスティネーションパックドデータオペランド、前記第１のソースパックドデータオペランド、および前記第２のソースパックドデータオペランドによって示される前記格納位置は、５１２ビット長のレジスタである、請求項５に記載のプロセッサ。
前記即値は、８ビット長である、請求項５または６に記載のプロセッサ。
前記命令は、ビット行列とビットベクトルとの間でビット行列乗算オペレーションを実行するために用いられ、
前記ビット行列の１または複数の列は、前記第１のソースパックドデータオペランドによって示される前記格納位置に格納され、
前記ビットベクトルの値は、前記第２のソースパックドデータオペランドによって示される前記格納位置に格納される、請求項１〜７のいずれか１項に記載のプロセッサ。
前記ビット行列は、前記ビット行列の前記１または複数の列が前記第１のソースパックドデータオペランドによって示される前記格納位置に列×列で格納されるように入れ替えられる、請求項８に記載のプロセッサ。
前記デスティネーションパックドデータオペランドによって示される前記格納位置は、前記命令が前記ビット行列の前記列の各々に対して実行されたときの、前記ビット行列と前記ビットベクトルとの間の前記ビット行列乗算オペレーションの結果を含み、
前記命令の実行毎に、即値は、処理済みの前記ビット行列の列番号に対応する前記ビットベクトルにおける位置を示す値を指定する、請求項９に記載のプロセッサ。
コンピュータプロセッサにおける方法であって、
デスティネーションパックドデータオペランド、第１のソースパックドデータオペランド、第２のソースパックドデータオペランド、および即値オペランドを示す命令をメモリからフェッチする段階と、
即値に対応する位置に基づいて前記第２のソースパックドデータオペランドにおけるビットを決定する段階と、
前記第１のソースパックドデータオペランドと決定された前記ビットとの間でビット単位のＡＮＤを実行して中間結果を生成する段階と、
前記デスティネーションパックドデータオペランドと前記中間結果との間でビット単位のＸＯＲを実行し、最終結果を生成する段階と、
前記デスティネーションパックドデータオペランドによって示される格納位置に前記最終結果を格納する段階とを備える、方法。
前記第１のソースパックドデータオペランドと決定された前記ビットとの間で前記ビット単位のＡＮＤを実行する段階は、更に、前記第１のソースパックドデータオペランドと一時ベクトルとの間で前記ビット単位のＡＮＤを実行する段階を備え、
決定された前記ビットの値は、１または複数の回数、前記一時ベクトルにブロードキャストされる、請求項１１に記載の方法。
前記デスティネーションパックドデータオペランド、前記第１のソースパックドデータオペランド、および前記第２のソースパックドデータオペランドによって示される格納位置は、別個の６４ビットセクションで処理され、
プロセッサは、前記６４ビットセクションの各々に対して同一のロジックを実行する、請求項１１または１２に記載の方法。
前記命令は、ライトマスクオペランドを更に含み、
前記方法は、ライトマスクが前記デスティネーションパックドデータオペランドの前記６４ビットセクションうちの１つに対して設定されたことを前記ライトマスクオペランドが示すとの判断に応じて、前記デスティネーションパックドデータオペランドによって示された前記格納位置における前記６４ビットセクションのうちの前記１つの値をゼロに更にセットする段階を備える、請求項１３に記載の方法。
前記デスティネーションパックドデータオペランド、前記第１のソースパックドデータオペランド、および前記第２のソースパックドデータオペランドによって示される前記格納位置は、レジスタおよびメモリ位置のうちの少なくとも１つである、請求項１１〜１４のいずれか１項に記載の方法。
前記デスティネーションパックドデータオペランド、前記第１のソースパックドデータオペランド、および前記第２のソースパックドデータオペランドによって示される前記格納位置は、５１２ビット長のレジスタである、請求項１５に記載の方法。
前記即値は、８ビット長である、請求項１５または１６に記載の方法。
前記命令は、ビット行列とビットベクトルとの間でビット行列乗算オペレーションを実行するために用いられ、
前記ビット行列の１または複数の列は、前記第１のソースパックドデータオペランドによって示される前記格納位置に格納され、
前記ビットベクトルの値は、前記第２のソースパックドデータオペランドによって示される前記格納位置に格納される、請求項１１〜１７のいずれか１項に記載の方法。
前記ビット行列は、前記ビット行列の前記１または複数の列が前記第１のソースパックドデータオペランドによって示される前記格納位置に列×列で格納されるように入れ替えられる、請求項１８に記載の方法。
前記デスティネーションパックドデータオペランドによって示される前記格納位置は、前記命令が前記ビット行列の前記列の各々に対して実行されたときの、前記ビット行列と前記ビットベクトルとの間の前記ビット行列乗算オペレーションの結果を含み、
前記命令の実行毎に、前記即値は、処理済みの前記ビット行列の列番号に対応する前記ビットベクトルにおける位置を示す値を指定する、請求項１９に記載の方法。