JP2021108102A

JP2021108102A - 行列演算アクセラレータの命令のための装置、方法、およびシステム

Info

Publication number: JP2021108102A
Application number: JP2020150874A
Authority: JP
Inventors: グラッドスタインアミット; Amit Gradstein; ルバノヴィチサイモン; Rubanovich Simon; メラーサギー; MELLER Sagi; カロフサイード; KHAROUF Saeed; バーガーガブリ; BERGER Gavri; スペルバージーヴ; Sperber Zeev; ヤロウズホセ; YALLOUZ Jose; シュナイダーロン; Schneider Ron
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-12-28
Filing date: 2020-09-08
Publication date: 2021-07-29
Also published as: JP2024038122A; TW202125287A; DE102020126212A1; KR20210086447A; BR102020019657A2; KR20240011204A; US20240078283A1; US11714875B2; CN117724763A; CN113050990A; US20200201932A1

Abstract

【課題】行列演算命令を実行する行列演算アクセラレータ回路を提供する。【解決手段】行列（タイル）演算アクセラレータを利用するシステムにおいて、行列演算は、レジスタなどのメモリの１つまたは複数のパックド領域であるタイルを表す２次元（２−Ｄ）データ構造を利用する。ホストプロセッサ／処理システム３０１は、算術演算もしくは行列操作演算又はロード演算及びストア演算などの行列操作演算を行列演算アクセラレータ３０７に伝達する。タイル操作演算子命令は、レジスタ−レジスタ（「ｒｅｇ−ｒｅｇ」）フォーマット又はレジスタ−メモリ（「ｒｅｇ−ｍｅｍ」）フォーマットとしてタイルを参照する。ＴＩＬＥＳＴＯＲＥ、ＴＩＬＥＬＯＡＤ、ＴＩＬＥＣＯＮＦＩＧなどの他のコマンドは、タイルに対してデータ演算を実行しない。【選択図】図３

Description

本開示は、概して、コンピュータプロセッサアーキテクチャに関し、より具体的には、行列演算アクセラレータ回路を使用した行列演算を実行するように命令を実行するための装置、システム、および、方法に関する。

プロセッサ、またはプロセッサのセットは、命令セット、例えば、命令セットアーキテクチャ（ＩＳＡ）からの命令を実行する。命令セットは、プログラミングに関連するコンピュータアーキテクチャの一部であり、一般に、ネイティブデータ型、命令、レジスタアーキテクチャ、アドレッシングモード、メモリアーキテクチャ、割込みおよび例外処理、ならびに外部入力および出力（Ｉ／Ｏ）を含む。本明細書において、命令という用語は、マクロ命令、例えば、実行のためにプロセッサに提供される命令、または、マイクロ命令、例えば、プロセッサのデコーダがマクロ命令をデコードした結果得られる命令を指してよいことに留意されたい。

本開示は、添付の図面の図において限定ではなく例として示され、図面中、類似の参照符号は、類似の要素を示す。

本開示の実施形態による構成されたタイルの一実施形態を示す図である。

本開示の実施形態による行列ストレージのいくつかの例を示す図である。

本開示の実施形態による行列（タイル）演算アクセラレータを利用するシステムの一実施形態を示す図である。

行列演算アクセラレータを使用してどのようにメモリが共有されるかの一実施形態を示す図である。行列演算アクセラレータを使用してどのようにメモリが共有されるかの一実施形態を示す図である。

タイル（「ＴＭＭＡ」）を使用する行列乗累算演算の一実施形態を示す図である。

連鎖融合乗累算命令の反復の実行のサブセットの一実施形態を示す図である。

一実施形態による、乗算器への入力よりも大きい入力サイズをアキュムレータが使用する、２のべき乗サイズのＳＩＭＤの実装形態を示す図である。

行列演算回路を利用するシステムの一実施形態を示す図である。

タイルを使用する行列演算をサポートするプロセッサコアパイプラインの一実施形態を示す図である。

行優先フォーマットおよび列優先フォーマットで表現された行列の一例を示す図である。

行列（タイル）の使用の一例を示す図である。

行列（タイル）の使用方法の一実施形態を示す図である。

一実施形態による、タイルの使用の構成用のサポートを示す図である。

サポートされるべき行列（タイル）の記述の一実施形態を示す図である。

レジスタの例を示す図である。レジスタの例を示す図である。レジスタの例を示す図である。レジスタの例を示す図である。

本開示の実施形態による、行列（タイル）演算アクセラレータを利用するシステムの一実施形態を示す図である。

本開示の実施形態による、処理要素回路の２次元グリッドを含む行列演算アクセラレータ回路を示す図である。

本開示の実施形態による、行列演算アクセラレータ回路のディスパッチ回路を示す図である。

本開示の実施形態による、行列演算アクセラレータ回路のディスパッチ回路のスケジューリング回路を示す図である。

本開示の実施形態による、ベースラインスケジューリングモードから入力行列を再利用するスケジューリングモードに切換可能である、行列演算アクセラレータ回路のディスパッチ回路のスケジューリング回路を示す図である。

本開示の実施形態による、複数のパスのための行列演算アクセラレータ回路のディスパッチ回路を示す図である。

本開示の実施形態による、複数のパスのための行列演算アクセラレータ回路のディスパッチ回路のスケジューリング回路を示す図である。

本開示の実施形態による、行列演算回路のための疑似コードを示す図である。

本開示の実施形態による、行列演算命令を処理する方法を示す図である。

本開示の実施形態による、汎用ベクトル向け命令フォーマットおよびそのクラスＡ命令テンプレートを示すブロック図である。

本開示の実施形態による、汎用ベクトル向け命令フォーマットおよびそのクラスＢ命令テンプレートを示すブロック図である。

本開示の実施形態による、図３０Ａおよび図３０Ｂ中の汎用ベクトル向け命令フォーマットのためのフィールドを示すブロック図である。

本開示の一実施形態による、図３１Ａ中の特定ベクトル向け命令フォーマットの、フルオペコードフィールドを構成するフィールドを示すブロック図である。

本開示の一実施形態による、図３１Ａ中の特定ベクトル向け命令フォーマットの、レジスタインデックスフィールドを構成するフィールドを示すブロック図である。

本開示の一実施形態による、図３１Ａ中の特定ベクトル向け命令フォーマットの、拡張演算フィールド３０５０を構成するフィールドを示すブロック図である。

本開示の一実施形態による、レジスタアーキテクチャのブロック図である。

本開示の実施形態による、例示的なインオーダパイプラインおよび例示的なレジスタリネーミング、アウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。

本開示の実施形態による、プロセッサに含まれるべき例示的実施形態のインオーダアーキテクチャコアおよび例示的なレジスタリネーミング、アウトオブオーダ発行／実行アーキテクチャコアの両方を示すブロック図である。

本開示の実施形態による、オンダイ相互接続ネットワークへのその接続およびレベル２（Ｌ２）キャッシュのそのローカルサブセットを伴う、単一のプロセッサコアのブロック図である。

本開示の実施形態による、図３４Ａ中のプロセッサコアの一部の拡大図である。

本開示の実施形態による、１つより多いコアを有してよい、統合メモリコントローラを有してよい、統合グラフィックスを有してよい、プロセッサのブロック図である。

本開示の一実施形態によるシステムのブロック図である。

本開示の一実施形態による、より具体的な例示的システムのブロック図である。

本開示の一実施形態による、第２のより具体的な例示的システムのブロック図である。

本開示の一実施形態によるシステムオンチップ（ＳｏＣ）のブロック図である。

本開示の実施形態による、ソース命令セット内のバイナリ命令を、ターゲット命令セット内のバイナリ命令に変換するソフトウェア命令コンバータの使用を対比するブロック図である。

以下の説明では、多数の具体的な詳細が示されている。しかしながら、実施形態は、これらの具体的な詳細なしに実践されてもよいことを理解されたい。他の例では、この説明の理解を曖昧にしないために、よく知られた回路、構造、および技法は詳細に示されていない。

本明細書における「一実施形態」、「実施形態」、「例示的な実施形態」などへの言及は、説明された実施形態が特定の特徴、構造、または特性を含んでよいが、すべての実施形態がその特定の特徴、構造、または特性を必ずしも含まなくてよいことを示す。また、そのような語句は、必ずしも同じ実施形態を指すものではない。さらに、特定の特徴、構造、または特性が一実施形態に関連して説明されるとき、明示的に説明されているか否かにかかわらず、他の実施形態に関連してそのような特徴、構造、または特性に影響を与えることは当業者の知識の範囲内であることが考えられる。

行列は、機械学習および他の大容量データ処理などの多くのコンピューティングタスクでますます重要になり得る。深層学習とは、機械学習アルゴリズムの一種である。ディープニューラルネットワークなどの深層学習アーキテクチャは、コンピュータビジョン、発話認識、自然言語処理、音声認識、ソーシャルネットワークフィルタリング、機械翻訳、バイオインフォマティクスおよび医薬品設計を含む分野に適用され得る。

推測およびトレーニング、という深層学習に用いられる２つの手段には、低精度演算が用いられる場合がある。深層学習のアルゴリズムおよび計算のスループットを最大化することは、深層学習プロセッサ、例えば、データセンターにおいて深層学習を実行する深層学習プロセッサのニーズを満たす助けとなり得る。

行列−行列乗算（別名、ＧＥＭＭまたは汎用行列乗算）は、特定のプロセッサにおいては計算がヘビーな（ｃｏｍｐｕｔｅ−ｈｅａｖｙ）演算である。行列乗算（例えば、ＧＥＭＭ）のための特別なハードウェアは、深層学習などの特定のアプリケーションの計算ピーク（およびエネルギー効率）の改善のための良い選択肢である。深層学習を含むこれらのアプリケーションのいくつかは、比較的少数のビットを有する入力データ要素に対しては、出力要素が十分なビット（例えば、入力よりも多い）を有する限り、精度を落とすことなく動作することができる。

特定のプロセッサでは、行列を扱うことは困難であり、かつ／または命令集約的な作業である。例えば、行列の行は、複数のパックドデータ（例えば、ＳＩＭＤまたはベクトル）レジスタに入れられ、次いで個々に処理される可能性がある。例えば、２つの８×２（例えば、行×列）行列の加算は、ロードを要求してもよく、データサイズに応じて４つのパックドデータレジスタに集めてもよい。次いで、各行列の第１行に対応するパックドデータレジスタについて１番目の加算が実行され、各行列の第２行に対応するパックドデータレジスタについて２番目の加算が実行される。次いで、得られたパックドデータレジスタはメモリに分散される。小規模行列の場合には、このシナリオは受け入れられるかもしれないが、大規模行列では受け入れられないことが多い。

［説明］
中央処理装置（ＣＰＵ）、グラフィック処理装置（ＧＰＵ）、およびアクセラレータなどのコンピュータハードウェアにおいて行列演算をサポートするメカニズムが本明細書で説明される。行列演算は、レジスタなどのメモリの１つまたは複数のパックド領域を表す２次元（２−Ｄ）データ構造を利用する。この説明全体を通して、これらの２Ｄデータ構造はタイルと称される。行列はタイルよりも小さくてもよく（使用するのはタイル全体より小さい）、複数のタイルを利用してもよい（行列はどのタイルのサイズよりも大きい）ことに留意されたい。説明全体を通して、行列（タイル）言語は、行列に影響を与えるタイルを使用して実行される演算を示すために使用され、その行列がどのタイルよりも大きいか否かは、通常、関係がない。

各タイルには、本明細書に詳述されるような様々な演算が作用してもよく、これらの演算は、限定はしないが、行列（タイル）乗算、タイル加算、タイル減算、タイル対角線、タイルゼロ、タイル変換、タイルドット積、タイルブロードキャスト、タイル行ブロードキャスト、タイル列ブロードキャスト、タイル乗算、タイル乗累算、タイル移動などを含む。さらに、スケールおよび／またはバイアスの使用などの演算子のサポートは、これらの演算と共に使用されてもよいし、将来の非数値アプリケーション、例えばＯｐｅｎＣＬの「ローカルメモリ」、データの圧縮／解凍などのサポートにおいて使用されてもよい。本明細書には、行列演算（例えば、ＴＩＬＥＰＡＲＴＩＡＬＤＯＴＰＲＯＤＵＣＴ）命令を実行するための命令も説明される。

ストレージ（メモリ（不揮発性および揮発性）、レジスタ、キャッシュなど）の一部は、様々な水平寸法および垂直寸法のタイルの中に配置される。例えば、タイルは、水平寸法４（例えば、４行の行列）および垂直寸法８（例えば、８列の行列）を有してもよい。通常、水平寸法は要素サイズ（例えば、２、４、８、１６、３２、６４、１２８ビットなど）に関連する。複数のデータタイプ（単精度浮動小数点、倍精度浮動小数点、整数など）がサポートされてもよい。

［構成されたタイルの使用例］
いくつかの実施形態では、タイルパラメータは構成可能である。例えば、所与のタイルはタイルオプションを提供するように構成されてもよい。例示的なタイルオプションには、タイルの行数、タイルの列数、タイルが有効であるか否か、およびタイルが等しいサイズのタイルのペアで構成されるか否かが含まれるが、それらに限定されない。

図１Ａは、構成されたタイルの一実施形態を示す。図示されたように、４ｋＢのアプリケーションメモリ１０２が、４つの１ｋＢのタイル、つまり、タイルｔ０（１０４）、タイルｔ１（１０６）、タイルｔ２（１０８）、およびタイルｔ３（１１０）を格納している。この例では、４つのタイルは、ペアで構成されず、それぞれ行および列に配置された要素を有する。タイルｔ０（１０４）およびタイルｔ１（１０６）は、Ｋ行Ｎ列の４バイト要素（例えば、単精度データ）を有し、Ｋは８に等しく、Ｎ＝３２である。タイルｔ２（１０８）およびタイルｔ３（１１０）は、Ｋ行Ｎ／２列の８バイト要素（例えば、倍精度データ）を有する。倍精度オペランドは単精度の２倍の幅なので、この構成は、タイルオプションを提供するために使用される、少なくとも４ｋＢの総記憶容量に少なくとも４つの名前を提供するパレットと一致する。動作時は、ロード演算およびストア演算を使用して、これらのタイルをメモリからロードし、メモリに記憶することができる。使用される命令エンコーディングスキームに応じて、利用可能なアプリケーションメモリの量、ならびに利用可能なタイルのサイズ、数、および構成は異なる。

図１Ｂは、構成されたタイルの一実施形態を示す。図示されたように、４ｋＢのアプリケーションメモリ１２２は、１ｋＢタイルのペアを２つ記憶しており、第１のペアはタイルｔ４Ｌ（１２４）およびタイルｔ４Ｒ（１２６）であり、第２のペアはタイルｔ５Ｌ（１２８）およびタイルｔ５Ｒ（１３０）である。図示されたように、これらのタイルのペアは左タイルおよび右タイルに分割される。他の実施形態では、タイルのペアは偶数タイルおよび奇数タイルに分割される。この例では、４つのタイルは、それぞれ行および列に配置された要素を有する。タイルｔ４Ｌ（１２４）およびタイルｔ４Ｒ（１２６）は、Ｋ行Ｎ列の４バイト要素（例えば、単精度浮動小数点データ）を有し、Ｋは８に等しく、Ｎは３２に等しい。タイルｔ５Ｌ（１２８）およびタイルｔ５Ｒ（１３０）は、Ｋ行Ｎ／２列の８バイト要素（例えば、倍精度浮動小数点データ）を有する。倍精度オペランドは単精度の２倍の幅なので、この構成は、タイルオプションを提供するために使用される、少なくとも４ｋＢの総記憶容量に少なくとも２つの名前を提供するパレットと一致する。図１Ａの４つのタイルは４つの名前を使用し、それぞれ１ｋＢのタイルを命名するが、図１Ｂの２つのペアのタイルは２つの名前を使用してペアになったタイルを指定することができる。いくつかの実施形態では、タイル命令は、ペアになったタイルの名前をオペランドとして受け入れる。動作時は、ロード演算およびストア演算を使用して、これらのタイルをメモリからロードし、メモリに記憶することができる。使用される命令エンコーディングスキームに応じて、利用可能なアプリケーションメモリの量、ならびに利用可能なタイルのサイズ、数、および構成は異なる。

いくつかの実施形態では、タイルパラメータは定義可能である。例えば、「パレット」はタイルオプションを提供するために使用される。例示的なオプションには、タイル名の数、ストレージの行内のバイト数、タイル内の行および列の数などが含まれるが、それらに限定されない。例えば、タイルの最大の「高さ」（行数）は、以下のように定義されてもよい。

タイル最大行数＝設計記憶容量／（［パレット名の数］×［行当たりのバイト数］）。

そのため、固定された名前を使用しても、実装間で異なるストレージサイズを利用できるように、アプリケーションを書くことができる。

タイルの構成は、タイル構成（「ＴＩＬＥＣＯＮＦＩＧ」）命令を使用して行われ、選択されたパレットで特定のタイル使用が定義される。この宣言は、使用されるタイル名の数、名前（タイル）当たりの行および列の要求数、ならびにいくつかの実施形態では、各タイルの要求データタイプを含む。いくつかの実施形態では、ＴＩＬＥＣＯＮＦＩＧ命令の実行中に整合性チェックが実行され、この命令がパレットエントリの制約に適合することが判定される。

［例示的なタイルストレージタイプ］
図２は、行列ストレージのいくつかの例を示す。（Ａ）では、タイルがメモリに記憶されている。図示されたように、各「行」は４つのパックドデータ要素で構成される。次の「行」を得るために、ストライド値が使用される。行はメモリに連続して記憶されてもよいことに留意されたい。ストライドメモリアクセスは、タイルストレージが基礎となるメモリアレイの行幅をマッピングしないときに、１つの行から次の行へのアクセスを可能にする。

タイルのメモリからのロードおよびメモリへのストアは、通常、アプリケーションメモリからデータのパックド行へのストライドアクセスである。例示的なＴＩＬＥＬＯＡＤ命令およびＴＩＬＥＳＴＯＲＥ命令、またはロード演算命令におけるＴＩＬＥオペランドとしてのアプリケーションメモリへの他の命令参照は、いくつかの実施形態では、（最大）２×行のページフォルト、マスクされていない浮動小数点例外、および／または命令ごとの割込みを扱うように再開可能である。

（Ｂ）では、行列が、パックドデータレジスタ（単一命令複数データ（ＳＩＭＤ）レジスタまたはベクトルレジスタ）などの複数のレジスタで構成されるタイルに記憶される。この例では、タイルは３つの物理レジスタにオーバーレイされている。通常、連続するレジスタが使用されるが、この場合はそうである必要はない。

（Ｃ）では、行列が、タイル演算で使用される融合乗累算（ＦＭＡ）回路にとってアクセス可能な非レジスタストレージ内のタイルに記憶される。このストレージは、ＦＭＡの内部にあってもよく、それに隣接していてもよい。さらに、下記で説明されるいくつかの実施形態では、ストレージは、行全体またはタイル全体ではなくデータ要素用であってもよい。

ＴＭＭＡアーキテクチャ用のサポートパラメータはＣＰＵＩＤを介して報告される。いくつかの実施形態では、情報のリストは最大の高さおよび最大ＳＩＭＤ寸法を含む。ＴＭＭＡアーキテクチャを構成するには、タイルごとの寸法、タイルごとの要素サイズ、およびパレット識別子を指定する必要がある。この構成はＴＩＬＥＣＯＮＦＩＧ命令を実行することによって行われる。

ＴＩＬＥＣＯＮＦＩＧ命令が正常に実行されると、後続のＴＩＬＥ演算子が有効になる。ＴＩＬＥＲＥＬＥＡＳＥＡＬＬ命令はタイル構成をクリアし、（次のＴＩＬＥＣＯＮＦＩＧ命令が実行されるまで）ＴＩＬＥ演算を無効にする。いくつかの実施形態では、タイルを使用するコンテキスト切り替えにおいてＸＳＡＶＥ、ＸＳＴＯＲＥなどが使用される。いくつかの実施形態では、２つのＸＣＲ０ビットがＸＳＡＶＥにおいて使用され、１つのビットはＴＩＬＥＣＯＮＦＩＧメタデータ用であり、もう１つのビットは実際のタイルペイロードデータに対応する。

ＴＩＬＥＣＯＮＦＩＧは、タイル使用を構成するだけでなく、構成されたタイルと共にプログラムがコードの領域内にあることを示す状態変数も設定する。一実装形態は、既存のレジスタセットを使用しないことなどの、タイル領域と共に使用することができる他の命令に対する制限を列挙することができる。

タイル領域を終了することは、通常、ＴＩＬＥＲＥＬＥＡＳＥＡＬＬ命令を用いて行われる。この命令はパラメータを取らず、すべてのタイルをすばやく無効化し（データの保存または復元が不要になったことを示し）、タイル領域にあることに対応する内部状態をクリアする。

いくつかの実施形態では、タイル演算は、タイル構成によって指定された寸法を超えたすべての行およびすべての列をゼロにする。例えば、タイル演算は、各行が書き込まれると、（要素のサイズを考慮して）構成された列数を超えるデータをゼロにする。例えば、６４バイトの行および１０行１２列で構成されるタイルでは、ＦＰ３２要素を書き込む演算が、最初の１０行のそれぞれに１２×４バイトの出力／結果データを書き込み、各行の残りの４×４バイトをゼロにする。タイル演算は、構成された最初の１０行の後のどの行も完全にゼロにする。６４バイトの行を有する１Ｋタイルを使用すると、１６行になるので、この例では最後の６行もゼロにされるはずである。

いくつかの実施形態では、コンテキスト復元命令（例えば、ＸＲＳＴＯＲ）が、データをロードするとき、タイル用に構成された行を超えるデータがゼロとして保持されることを強制する。有効な構成がない場合、すべての行がゼロにされる。タイルデータのＸＲＳＴＯＲは、構成された列を超える列に不要なデータをロードする可能性がある。タイル構成に関連付けられた要素幅が存在しないので、構成された列数を超えてＸＲＳＴＯＲがクリアすることは不可能なはずである。

コンテキスト保存（例えば、ＸＳＡＶＥ）は、それをメモリに書き込むときにＴＩＬＥ記憶領域全体を公開する。ＸＲＳＴＯＲがタイルの右端に不要なデータをロードした場合、そのデータはＸＳＡＶＥによって保存される。ＸＳＡＶＥは、タイルごとに指定された数を超える行にゼロを書き込む。

いくつかの実施形態では、タイル命令は再開可能である。メモリにアクセスする演算は、ページフォルト後の再開を可能にする。浮動小数点演算を処理する計算命令は、マスクされていない浮動小数点例外も可能にし、例外のマスキングは制御レジスタおよび／またはステータスレジスタによって制御される。

これらのイベント後の命令再開をサポートするために、これらの命令は下記に詳述される開始レジスタに情報を記憶する。

［行列（タイル）演算システム］
［例示的なハードウェアサポート］
図３は、行列（タイル）演算アクセラレータを利用するシステムの一実施形態を示す。この図では、ホストプロセッサ／処理システム３０１は、コマンド３１１（例えば、算術演算もしくは行列操作演算、またはロード演算およびストア演算などの行列操作演算）を行列演算アクセラレータ３０７に伝達する。しかしながら、これは説明の目的でのみこのように示されている。後で詳述されるように、このアクセラレータ３０７は処理コアの一部であってもよい。通常、タイル操作演算子命令であるコマンド３１１は、レジスタ−レジスタ（「ｒｅｇ−ｒｅｇ」）フォーマットまたはレジスタ−メモリ（「ｒｅｇ−ｍｅｍ」）フォーマットとしてタイルを参照する。ＴＩＬＥＳＴＯＲＥ、ＴＩＬＥＬＯＡＤ、ＴＩＬＥＣＯＮＦＩＧなどの他のコマンドは、タイルに対してデータ演算を実行しない。コマンドは、アクセラレータ３０７が処理するためのデコードされた命令（例えば、マイクロｏｐ）またはマクロ命令であってもよい。

この例では、コヒーレントメモリインタフェース３０３が、ホストプロセッサ／処理システム３０１および行列演算アクセラレータ３０７に結合され、その結果、それらはメモリを共有することができる。図４および図５は、行列演算アクセラレータを使用してどのようにメモリが共有されるかについての異なる実施形態を示す。図４に示されたように、ホストプロセッサ４０１および行列演算アクセラレータ回路４０５は、同じメモリ４０３を共有する。図５は、ホストプロセッサ５０１および行列演算アクセラレータ５０５がメモリを共有しないが、互いのメモリにアクセスできる一実施形態を示す。例えば、プロセッサ５０１は、タイルメモリ５０７にアクセスし、また自身のホストメモリ５０３を通常通り利用することができる。同様に、行列演算アクセラレータ５０５はホストメモリ５０３にアクセスすることができるが、より一般的には自身のメモリ５０７を使用する。これらのメモリは異なるタイプのメモリであってもよいことに留意されたい。

いくつかの実施形態では、タイルは、物理レジスタ上のオーバーレイを用いてサポートされる。例えば、タイルは、実装に応じて１６個の１０２４ビットレジスタ、３２個の５１２ビットレジスタなどを利用してよい。いくつかの実施形態では、行列演算は、レジスタなどのメモリの１つまたは複数のパックド領域を表す２次元（２−Ｄ）データ構造を利用する。この説明全体を通して、これらの２Ｄデータ構造はタイルまたはタイルレジスタと称される。

いくつかの実施形態では、行列演算アクセラレータ３０７は、データバッファ３０５に結合された複数のＦＭＡ３０９を含む（いくつかの実装形態では、これらのデータバッファ３０５のうちの１つまたは複数は図示されたようにグリッドのＦＭＡに記憶される）。データバッファ３０５は、（例えば、タイルロード命令またはタイルストア命令を使用して）メモリからロードされたタイルおよび／またはメモリに記憶されるべきタイルをバッファリングする。データバッファは、例えば、複数のレジスタであってもよい。通常、これらのＦＭＡは、タイルを読み書きすることができる連鎖ＦＭＡのグリッド３０９として配置される。この例では、行列演算アクセラレータ３０７は、タイルＴ０、Ｔ１、およびＴ２を使用して行列乗算演算を実行する。ＦＭＡグリッド３０９には、これらのタイルのうちの少なくとも１つが収容される。いくつかの実施形態では、演算に含まれるすべてのタイルがＦＭＡグリッド３０９に記憶される。他の実施形態では、サブセットのみがＦＭＡグリッド３０９に記憶される。図示されたように、Ｔ１は収容され、Ｔ０およびＴ２は収容されない。Ａ、Ｂ、およびＣは、これらのタイルの行列を指し、その行列はタイルの全スペースを占めても占めなくてもよい、ことに留意されたい。

図６は、タイル（「ＴＭＭＡ」）を使用する行列乗累算演算の一実施形態を示す。

特定の実施形態では、行列（タイルＡ６０１）内の行数は、計算のレイテンシを含むシリアル（連鎖）ＦＭＡの数と一致する。一実装形態は、より低い高さのグリッド上で自由に再循環するが、計算は同じままである。

ソース／デスティネーションベクトルはＮ行のタイル（タイルＣ６０５）から来て、ＦＭＡのグリッド６１１は、タイルの行列乗算を実行する完全な命令をもたらすＮ個のベクトル−行列演算を実行する。タイルＢ６０３は他のベクトルソースであり、各段階でＦＭＡに「ブロードキャスト」項を供給する。

動作時は、いくつかの実施形態では、（タイルＢ６０３に記憶された）行列Ｂの要素は、ＦＭＡの矩形グリッドにわたって広がっている。（タイルＡ６０１に記憶された）行列Ｂは、ＦＭＡの矩形グリッドのカラム寸法と一致するように変換された行の要素を有する。グリッド内の各ＦＭＡにおいて、ＡとＢの要素が乗算され、（図の上から）入ってくる被加数に加算され、出力合計がＦＭＡの次の行（または最終出力）に渡される。

単一段階のレイテンシはＫ（行列Ｂの行の高さ）に比例し、従属ＴＭＭＡは、通常、そのレイテンシを隠すのに十分なソース−デスティネーション行を（単一のタイル内またはタイル全体に）有する。一実装形態はまた、ＳＩＭＤ（パックドデータ要素）寸法Ｍ（行列Ａの行の高さ）を時間段階にわたって分割する場合があるが、これは単にＫが乗算される定数を変えるだけである。プログラムがＴＭＭＡによって列挙された最大値より小さいＫを指定するとき、一実装形態はこれを「マスキング」または「アーリーアウト」で自由に実装する。

ＴＭＭＡ全体のレイテンシはＮ×Ｋに比例する。リピートレートはＮに比例する。ＴＭＭＡ命令当たりのＭＡＣの数はＮ×Ｋ×Ｍである。

図７は、連鎖融合乗累算命令の反復の実行のサブセットの一実施形態を示す。具体的には、この図はデスティネーションの１つのパックドデータ要素位置の反復の実行回路を示す。この実施形態では、連鎖融合乗累算は符号付きソースを処理しており、アキュムレータは２倍の入力データサイズである。

第１の符号付きソース（ソース１（７０１））および第２の符号付きソース（ソース２（７０３））は、それぞれ４つのパックドデータ要素を有する。これらのパックドデータ要素のそれぞれは、浮動小数点データなどの符号付きデータを記憶する。第３の符号付きソース（ソース３（７０９））は２つのパックドデータ要素を有し、それらのそれぞれは符号付きデータを記憶する。第１および第２の符号付きソース７０１および７０３のサイズは、第３の符号付きソース（初期値または前の結果）７０９の半分のサイズである。例えば、第１および第２の符号付きソース７０１および７０３は３２ビットのパックドデータ要素（例えば、単精度浮動小数点）を有する可能性があり、第３の符号付きソース７０９は６４ビットのパックドデータ要素（例えば、倍精度浮動小数点）を有する可能性がある。

この図では、第１および第２の符号付きソース７０１および７０３の２つの最上位パックドデータ要素位置、ならびに第３の符号付きソース７０９の最上位パックドデータ要素位置のみが示されている。当然、その他のパックドデータ要素位置も処理されるはずである。

図示されたように、パックドデータ要素はペアで処理される。例えば、第１および第２の符号付きソース７０１および７０３の最上位パックドデータ要素位置のデータは乗算器回路７０５を使用して乗算され、第１および第２の符号付きソース７０１および７０３の上位２番目のパックドデータ要素位置からのデータは乗算器回路７０７を使用して乗算される。いくつかの実施形態では、これらの乗算器回路７０５および７０７は、他のパックドデータ要素位置に再利用される。他の実施形態では、パックドデータ要素が並列に処理されるように追加の乗算器回路が使用される。いくつかの文脈では、並列実行は、第３の符号付きソース７０９のサイズであるレーンを使用して行われる。各乗算の結果は、加算回路７１１を使用して加算される。

乗算の結果の加算の結果は、（異なる加算器７１３または同じ加算器７１１を使用して）符号付きソース３（７０９）の最上位パックドデータ要素位置からのデータに加算される。

最後に、２番目の加算の結果は、第３の符号付きソース７０９から使用されたパックドデータ要素位置に対応するパックドデータ要素位置において符号付きデスティネーション７１５に記憶されるか、または、もしあれば次の反復に渡される。いくつかの実施形態では、対応する書き込みマスク（ビット）が設定されている場合には保存が生じ、設定されていない場合には保存が生じないように、書き込みマスクがこのストレージに適用される。

図８は、連鎖融合乗累算命令の反復の実行のサブセットの一実施形態を示す。具体的には、この図はデスティネーションの１つのパックドデータ要素位置の反復の実行回路を示す。この実施形態では、連鎖融合乗累算は符号付きソースを処理しており、アキュムレータは２倍の入力データサイズである。

第１の符号付きソース（ソース１（８０１））および第２の符号付きソース（ソース２（８０３））は、それぞれ４つのパックドデータ要素を有する。これらのパックドデータ要素のそれぞれは、整数データなどの符号付きデータを記憶する。第３の符号付きソース（ソース３（８０９））は２つのパックドデータ要素を有し、それらのそれぞれは符号付きデータを記憶する。第１および第２の符号付きソース８０１および８０３のサイズは、第３の符号付きソース８０９の半分のサイズである。例えば、第１および第２の符号付きソース８０１および８０３は３２ビットのパックドデータ要素（例えば、単精度浮動小数点）を有する可能性があり、第３の符号付きソース８０９は６４ビットのパックドデータ要素（例えば、倍精度浮動小数点）を有する可能性がある。

この図では、第１および第２の符号付きソース８０１および８０３の２つの最上位パックドデータ要素位置、ならびに第３の符号付きソース８０９の最上位パックドデータ要素位置のみが示されている。当然、その他のパックドデータ要素位置も処理されるはずである。

図示されたように、パックドデータ要素はペアで処理される。例えば、第１および第２の符号付きソース８０１および８０３の最上位パックドデータ要素位置のデータは乗算器回路８０５を使用して乗算され、第１および第２の符号付きソース８０１および８０３の上位２番目のパックドデータ要素位置からのデータは乗算器回路８０７を使用して乗算される。いくつかの実施形態では、これらの乗算器回路８０５および８０７は、他のパックドデータ要素位置に再利用される。他の実施形態では、パックドデータ要素が並列に処理されるように追加の乗算器回路が使用される。いくつかの文脈では、並列実行は、第３の符号付きソース（初期値または前の反復結果）８０９のサイズであるレーンを使用して行われる。各乗算の結果は、加算／飽和回路８１３を使用して第３の符号付きソース８０９に加算される。

加算／飽和（アキュムレータ）回路８１３は、加算が大きすぎる値をもたらすとき、オペランドの符号を保存する。具体的には、飽和評価が、多方向加算とデスティネーションへの書き込みまたは次の反復との間の無限精度結果に対して行われる。アキュムレータ８１３が浮動小数点であり、入力項が整数であるとき、積の和および浮動小数点アキュムレータ入力値は、無限精度値（数百ビットの固定小数点数）に変換され、乗算結果と第３の入力の加算が実行され、実際のアキュムレータタイプへの丸めが１回実行される。

符号なし飽和は、出力値がその要素幅に対して符号なしの最大数（すべて１）に制限されることを意味する。符号付き飽和は、値がその要素幅に対して負の最小数と正の最大数との間の範囲にあるように制限されることを意味する（例えば、バイトの場合、範囲は−１２８（＝−２＾７）から１２７（＝２＾７−１）までである）。

加算および飽和チェックの結果は、第３の符号付きソース８０９から使用されたパックドデータ要素位置に対応するパックドデータ要素位置において符号付き結果８１５に記憶されるか、またはもしあれば次の反復に渡される。いくつかの実施形態では、対応する書き込みマスク（ビット）が設定されている場合には保存が生じ、設定されていない場合には保存が生じないように、書き込みマスクがこのストレージに適用される。

図９は、連鎖融合乗累算命令の反復の実行のサブセットの一実施形態を示す。具体的には、この図はデスティネーションの１つのパックドデータ要素位置の反復の実行回路を示す。この実施形態では、連鎖融合乗累算は符号付きソースおよび符号なしソースを処理しており、アキュムレータは４倍の入力データサイズである。

第１の符号付きソース（ソース１（９０１））および第２の符号なしソース（ソース２（９０３））は、それぞれ４つのパックドデータ要素を有する。これらのパックドデータ要素のそれぞれは、浮動小数点データまたは整数データなどのデータを有する。第３の符号付きソース（初期値または結果９１５）は、符号付きデータを記憶するパックドデータ要素を有する。第１および第２の符号付きソース９０１および９０３のサイズは、第３の符号付きソース９１５の４分の１である。例えば、第１および第２のソース９０１および９０３は１６ビットのパックドデータ要素（例えば、ワード）を有する可能性があり、第３の符号付きソース９１５は６４ビットのパックドデータ要素（例えば、倍精度浮動小数点または６４ビット整数）を有する可能性がある。

この図では、第１および第２のソース９０１および９０３の４つの最上位パックドデータ要素位置、ならびに第３の符号付きソース９１５の最上位パックドデータ要素位置が示されている。当然、他のパックドデータ要素位置も、もしあれば処理されるはずである。

図示されたように、パックドデータ要素は四つ組で処理される。例えば、第１および第２のソース９０１および９０３の最上位パックドデータ要素位置のデータは乗算器回路９０５を使用して乗算され、第１および第２のソース９０１および９０３の上位２番目のパックドデータ要素位置からのデータは乗算器回路９０７を使用して乗算され、第１および第２のソース９０１および９０３の上位３番目のパックドデータ要素位置からのデータは乗算器回路９０９を使用して乗算され、第１および第２のソース９０１および９０３の最下位パックドデータ要素位置からのデータは乗算器回路９１１を使用して乗算される。いくつかの実施形態では、第１のソース９０１の符号付きパックドデータ要素は符号拡張され、第２のソース９０３の符号なしパックドデータ要素は乗算より前にゼロ拡張される。

いくつかの実施形態では、これらの乗算器回路９０５〜９１１は他のパックドデータ要素位置に再利用される。他の実施形態では、パックドデータ要素が並列に処理されるように追加の乗算器回路が使用される。いくつかの文脈では、並列実行は、第３の符号付きソース９１５のサイズであるレーンを使用して行われる。各乗算の結果は、加算回路９１３を使用して加算される。

乗算の結果の加算の結果は、（異なる加算器９１７または同じ加算器９１３を使用して）符号付きソース３（９１５）の最上位パックドデータ要素位置からのデータに加算される。

最後に、２番目の加算の結果９１９は、第３の符号付きソース９１５から使用されたパックドデータ要素位置に対応するパックドデータ要素位置において符号付きデスティネーションに記憶されるか、または次の反復に渡される。いくつかの実施形態では、対応する書き込みマスク（ビット）が設定されている場合には保存が生じ、設定されていない場合には保存が生じないように、書き込みマスクがこのストレージに適用される。

図１０は、連鎖融合乗累算命令の反復の実行のサブセットの一実施形態を示す。具体的には、この図はデスティネーションの１つのパックドデータ要素位置の反復の実行回路を示す。この実施形態では、連鎖融合乗累算は符号付きソースおよび符号なしソースを処理しており、アキュムレータは４倍の入力データサイズである。

第１の符号付きソース１００１および第２の符号なしソース１００３は、それぞれ４つのパックドデータ要素を有する。これらのパックドデータ要素のそれぞれは、浮動小数点データまたは整数データなどのデータを記憶する。第３の符号付きソース１０１５（初期値または前の結果）は、符号付きデータを記憶するパックドデータ要素を有する。第１および第２のソースのサイズは、第３の符号付きソース１０１５（初期値または前の結果）の４分の１である。例えば、第１および第２のソースは１６ビットのパックドデータ要素（例えば、ワード）を有する可能性があり、第３の符号付きソース１０１５（初期値または前の結果）は、６４ビットのパックドデータ要素（例えば、倍精度浮動小数点または６４ビット整数）を有する可能性がある。

この図では、第１の符号付きソース１００１および第２の符号なしソース１００３の４つの最上位パックドデータ要素位置、ならびに第３の符号付きソース１０１５の最上位パックドデータ要素位置が示されている。当然、他のパックドデータ要素位置も、もしあれば処理されるはずである。

図示されたように、パックドデータ要素は四つ組で処理される。例えば、第１の符号付きソース１００１および第２の符号なしソース１００３の最上位パックドデータ要素位置のデータは乗算器回路１００５を使用して乗算され、第１の符号付きソース１００１および第２の符号なしソース１００３の上位２番目のパックドデータ要素位置からのデータは乗算器回路１００７を使用して乗算され、第１の符号付きソース１００１および第２の符号なしソース１００３の上位３番目のパックドデータ要素位置からのデータは乗算器回路１００９を使用して乗算され、第１の符号付きソース１００１および第２の符号なしソース１００３の最下位パックドデータ要素位置からのデータは乗算器回路１０１１を使用して乗算される。いくつかの実施形態では、第１の符号付きソース１００１の符号付きパックドデータ要素は符号拡張され、第２の符号なしソース１００３の符号なしパックドデータ要素は乗算より前にゼロ拡張される。

いくつかの実施形態では、これらの乗算器回路１００５〜１０１１は他のパックドデータ要素位置に再利用される。他の実施形態では、パックドデータ要素が並列に処理されるように追加の乗算器回路が使用される。いくつかの文脈では、並列実行は、第３の符号付きソース１０１５（初期値または前の結果）のサイズであるレーンを使用して行われる。乗算の結果の加算の結果は、加算器／飽和１０１３回路を使用して第３の符号付きソース１０１５（初期値または前の結果）の最上位パックドデータ要素位置からのデータに加算される。

加算／飽和（アキュムレータ）回路１０１３は、加算が符号付き飽和にとって大きすぎるかまたは小さすぎる値をもたらすとき、オペランドの符号を保存する。具体的には、飽和評価は、多方向加算とデスティネーションへの書き込みとの間の無限精度結果に対して行われる。アキュムレータ１０１３が浮動小数点であり、入力項が整数であるとき、積の和および浮動小数点アキュムレータ入力値は、無限精度値（数百ビットの固定小数点数）に変換され、乗算結果と第３の入力の加算が実行され、実際のアキュムレータタイプへの丸めが１回実行される。

加算および飽和チェックの結果１０１９は、第３の符号付きソース１０１５（初期値もしくは前の結果）から使用されたパックドデータ要素位置に対応するパックドデータ要素位置において符号付きデスティネーションに記憶されるか、または次の反復に渡される。いくつかの実施形態では、対応する書き込みマスク（ビット）が設定されている場合には保存が生じ、設定されていない場合には保存が生じないように、書き込みマスクがこのストレージに適用される。

図１１は、一実施形態による、乗算器への入力よりも大きい入力サイズをアキュムレータが使用する、２のべき乗サイズのＳＩＭＤの実装形態を示す。（乗算器への）ソース値およびアキュムレータ値は、符号付きの値であっても符号なしの値であってもよいことに留意されたい。２倍の入力サイズを有するアキュムレータの（換言すると、アキュムレータの入力値がソースのパックドデータ要素サイズの２倍のサイズである）場合、表１１０１は様々な構成を示す。バイトサイズのソースの場合、アキュムレータはサイズが１６ビットのワードまたは半精度浮動小数点（ＨＰＦＰ）の値を使用する。ワードサイズのソースの場合、アキュムレータはサイズが３２ビットの３２ビット整数または単精度浮動小数点（ＳＰＦＰ）の値を使用する。ＳＰＦＰまたは３２ビット整数のサイズのソースの場合、アキュムレータはサイズが６４ビットの６４ビット整数または倍精度浮動小数点（ＤＰＦＰ）の値を使用する。

４倍の入力サイズを有するアキュムレータの（換言すると、アキュムレータの入力値がソースのパックドデータ要素サイズの４倍のサイズである）場合、表１１０３は様々な構成を示す。バイトサイズのソースの場合、アキュムレータはサイズが３２ビットの３２ビット整数または単精度浮動小数点（ＳＰＦＰ）の値を使用する。ワードサイズのソースの場合、いくつかの実施形態では、アキュムレータはサイズが６４ビットの６４ビット整数または倍精度浮動小数点（ＤＰＦＰ）の値を使用する。

８倍の入力サイズを有するアキュムレータの（換言すると、アキュムレータの入力値がソースのパックドデータ要素サイズの８倍のサイズである）場合、表１１０５は１つの構成を示す。バイトサイズのソースの場合、アキュムレータは６４ビット整数を使用する。

先に示唆したように、行列演算回路はコアに含まれてもよく、外部アクセラレータであってもよい。図１２は、行列演算回路を利用するシステムの一実施形態を示す。この図では、複数のエンティティがリング相互接続１２４５と結合されている。

複数のコア、つまりコア０（１２０１）、コア１（１２０３）、コア２（１２０５）、およびコアＮ（１２０７）が、非タイルベースの命令サポートを提供する。いくつかの実施形態では、行列演算回路１２５１がコア１２０３内に設けられ、他の実施形態では、行列演算回路１２１１および１２１３がリング相互接続１２４５上でアクセス可能である。

さらに、コアおよび／または行列演算回路の代わりに、メモリ１２３３および１２３１と通信するために、１つまたは複数のメモリコントローラ１２２３〜１２２５が設けられる。

図１３は、タイルを使用する行列演算をサポートするプロセッサコアパイプラインの一実施形態を示す。分岐予測およびデコード回路１３０３が、命令ストレージ１３０１に記憶された命令から、命令の分岐予測、命令のデコード、および／またはその両方を実行する。例えば、本明細書に詳述されている命令が命令ストレージに記憶されてもよい。いくつかの実装形態では、別個の回路が分岐予測に使用され、いくつかの実施形態では、少なくともいくつかの命令が、マイクロコード１３０５を使用して、１つもしくは複数のマイクロ演算、マイクロコードエントリポイント、マイクロ命令、他の命令、または他の制御信号にデコードされる。分岐予測およびデコード回路１３０３は、様々な異なるメカニズムを使用して実装されてもよい。適切なメカニズムの例には、ルックアップテーブル、ハードウェア実装、プログラマブルロジックアレイ（ＰＬＡ）、マイクロコード読み取り専用メモリ（ＲＯＭ）などが含まれるが、それらに限定されない。

分岐予測およびデコード回路１３０３は、いくつかの実施形態では、スケジューラ回路１３０９に結合されたアロケート／リネーム１３０７回路に結合される。いくつかの実施形態では、これらの回路は、１）論理オペランド値を物理オペランド値（例えば、いくつかの実施形態ではレジスタエイリアステーブル）にリネーミングすること、２）ステータスビットおよびフラグをデコードされた命令に割り当てること、ならびに３）（例えば、いくつかの実施形態では予約ステーションを使用して）命令プールから実行回路上で実行するためのデコードされた命令をスケジュールすることのうちの１つまたは複数を実行することにより、レジスタリネーミング、レジスタ割り当て、および／またはスケジューリング機能を提供する。

スケジューラ回路１３０９は、予約ステーション、中央命令ウィンドウなどを含む任意の数の様々なスケジューラを表す。スケジューラ回路１３０９は、物理レジスタファイル１３１５に結合されるか、またはそれを含む。物理レジスタファイル１３１５のそれぞれは１つまたは複数の物理レジスタファイルを表し、それらの異なるファイルは、スカラ整数、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点、ステータス（例えば、実行されるべき次の命令のアドレスである命令ポインタ）、タイルなどの１つまたは複数の異なるデータタイプを記憶する。一実施形態では、物理レジスタファイル１３１５は、ベクトルレジスタ回路、書き込みマスクレジスタ回路、およびスカラレジスタ回路を備える。これらのレジスタ回路は、アーキテクチャベクトルレジスタ、ベクトルマスクレジスタ、および汎用レジスタを提供することができる。物理レジスタファイル１３１５は、レジスタリネーミングおよびアウトオブオーダ実行が（例えば、リオーダバッファおよびリタイアメントレジスタファイルを使用すること、将来のファイル、履歴バッファ、およびリタイアメントレジスタファイルを使用すること、レジスタマップおよびレジスタのプールを使用することなどで）実装され得る様々な方法を示すために、リタイアメント回路１３１７と重なっている。リタイアメント回路１３１７および物理レジスタファイル１３１５は、実行回路１３１１に結合される。

レジスタリネーミングはアウトオブオーダ実行の文脈で説明されているが、レジスタリネーミングはインオーダアーキテクチャで使用されてもよいことを理解されたい。図示されたプロセッサの実施形態はまた、別個の命令ならびにデータキャッシュユニットおよび共有Ｌ２キャッシュユニットを含んでもよいが、代替の実施形態は、例えば、レベル１（Ｌ１）内部キャッシュ、または複数レベルの内部キャッシュなどの、命令とデータの両方のための単一の内部キャッシュを有してもよい。いくつかの実施形態では、システムは、内部キャッシュと、コアおよび／またはプロセッサの外部にある外部キャッシュとの組み合わせを含んでもよい。あるいは、キャッシュのすべてがコアおよび／またはプロセッサの外部にあってもよい。

実行回路１３１１は、スカラ回路１３２１、ベクトル／ＳＩＭＤ回路１３２３、および行列演算回路１３２７を含む１つまたは複数の実行回路、ならびにキャッシュ１３１３にアクセスするためのメモリアクセス回路１３２５のセットである。実行回路は、様々な演算（例えば、シフト、加算、減算、乗算）を、様々なタイプのデータ（例えば、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点）に対して実行する。いくつかの実施形態は、特定の機能または機能のセットに専用の複数の実行ユニットを含んでもよいが、他の実施形態は、ただ１つの実行ユニットまたはすべてがすべての機能を実行する複数の実行ユニットを含んでもよい。スカラ回路１３２１はスカラ演算を実行し、ベクトル／ＳＩＭＤ回路１３２３はベクトル／ＳＩＭＤ演算を実行し、行列演算回路１３２７は本明細書に詳述されている行列（タイル）演算を実行する。

例として、例示的なレジスタリネーミング、アウトオブオーダ発行／実行コアアーキテクチャは、以下のようにパイプラインを実装することができる。１）命令フェッチ回路がフェッチおよび長さデコード段階を実行する。２）分岐およびデコード回路１３０３がデコード段階を実行する。３）アロケート／リネーム１３０７回路が割り当て段階およびリネーミング段階を実行する。４）スケジューラ回路１３０９がスケジュール段階を実行する。５）（スケジューラ回路１３０９およびアロケート／リネーム１３０７回路に結合されるか、またはそれらに含まれる）物理レジスタファイルならびにメモリユニットがレジスタ読み取り／メモリ読み取り段階を実行し、実行回路１３１１が実行段階を実行する。６）メモリユニットおよび物理レジスタファイルユニットがライトバック／メモリ書き込み段階を実行する。７）様々なユニットが例外処理段階に関与してもよい。８）リタイアメントユニットおよび物理レジスタファイルユニットがコミット段階を実行する。

コアは、本明細書で説明された命令を含む、１つまたは複数の命令セット（例えば、（より新しいバージョンで追加されたいくつかの拡張を有する）ｘ８６命令セット、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰＳ命令セット、カリフォルニア州サニーベールのＡＲＭＨｏｌｄｉｎｇｓの（ＮＥＯＮなどのオプションの追加の拡張を有する）ＡＲＭ命令セット））をサポートすることができる。一実施形態では、コア１３９０は、パックドデータ命令セット拡張（例えば、ＡＶＸ１、ＡＶＸ２）をサポートするロジックを含み、それにより、多くのマルチメディアアプリケーションによって使用される演算がパックドデータを使用して実行されることが可能になる。

コアは、マルチスレッディング（演算またはスレッドの２つ以上の並列セットの実行）をサポートするとができ、タイムスライスマルチスレッディング、（物理コアが同時にマルチスレッディングしているスレッドのそれぞれに単一の物理コアが論理コアを提供する）同時マルチスレッディング、またはそれらの組み合わせ（例えば、インテル（登録商標）ハイパースレッディングテクノロジなどにおけるタイムスライスフェッチおよびデコードならびにその後の同時マルチスレッディング）を含む様々な方法でサポートすることができることを理解されたい。

図１４は、タイルを使用する行列演算をサポートするプロセッサコアパイプラインの一実施形態を示す。分岐予測およびデコード回路１４０３は、命令ストレージ１４０１に記憶された命令から、命令の分岐予測、命令のデコード、および／またはその両方を実行する。例えば、本明細書に詳述されている命令は命令ストレージに記憶されてもよい。いくつかの実装形態では、別個の回路が分岐予測に使用され、いくつかの実施形態では、少なくともいくつかの命令が、マイクロコード１４０５を使用して、１つもしくは複数のマイクロ演算、マイクロコードエントリポイント、マイクロ命令、他の命令、または他の制御信号にデコードされる。分岐予測およびデコード回路１４０３は、様々な異なるメカニズムを使用して実装されてもよい。適切なメカニズムの例には、ルックアップテーブル、ハードウェア実装、プログラマブルロジックアレイ（ＰＬＡ）、マイクロコード読み取り専用メモリ（ＲＯＭ）などが含まれるが、それらに限定されない。

分岐予測およびデコード回路１４０３は、いくつかの実施形態では、スケジューラ回路１４０９に結合されたアロケート／リネーム回路１４０７に結合される。いくつかの実施形態では、これらの回路は、１）論理オペランド値を物理オペランド値（例えば、いくつかの実施形態ではレジスタエイリアステーブル）にリネーミングすること、２）ステータスビットおよびフラグをデコードされた命令に割り当てること、ならびに３）（例えば、いくつかの実施形態では予約ステーションを使用して）命令プールから実行回路上で実行するためのデコードされた命令をスケジュールすることのうちの１つまたは複数を実行することにより、レジスタリネーミング、レジスタ割り当て、および／またはスケジューリング機能を提供する。

スケジューラ回路１４０９は、予約ステーション、中央命令ウィンドウなどを含む任意の数の様々なスケジューラを表す。スケジューラユニットのスケジューラ回路１４０９は、物理レジスタファイル１４１５に結合されるか、またはそれを含む。物理レジスタファイル１４１５のそれぞれは１つまたは複数の物理レジスタファイルを表し、それらの異なるファイルは、スカラ整数、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点、ステータス（例えば、実行されるべき次の命令のアドレスである命令ポインタ）、タイルなどの１つまたは複数の異なるデータタイプを記憶する。一実施形態では、物理レジスタファイル１４１５は、ベクトルレジスタ回路、書き込みマスクレジスタ回路、およびスカラレジスタ回路を備える。これらのレジスタ回路は、アーキテクチャベクトルレジスタ、ベクトルマスクレジスタ、および汎用レジスタを提供することができる。物理レジスタファイル１４１５は、レジスタリネーミングおよびアウトオブオーダ実行が（例えば、リオーダバッファおよびリタイアメントレジスタファイルを使用すること、将来のファイル、履歴バッファ、およびリタイアメントレジスタファイルを使用すること、レジスタマップおよびレジスタのプールを使用することなどで）実装され得る様々な方法を示すために、リタイアメント回路１４１７と重なっている。リタイアメント回路１４１７および物理レジスタファイル１４１５は、実行回路１４１１に結合される。

実行回路１４１１は、１つまたは複数の実行回路１４２７のセット、およびキャッシュ１４１３にアクセスするための１つまたは複数のメモリアクセス回路１４２５のセットを含む。実行回路１４２７は、本明細書に詳述されている行列（タイル）演算を実行する。

例として、例示的なレジスタリネーミング、アウトオブオーダ発行／実行コアアーキテクチャは、以下のようにパイプラインを実装することができる。１）命令フェッチ回路がフェッチおよび長さデコード段階を実行する。２）分岐およびデコード回路１４０３がデコード段階を実行する。３）アロケート／リネーム１４０７回路が割り当て段階およびリネーミング段階を実行する。４）スケジューラ回路１４０９がスケジュール段階を実行する。５）（スケジューラ回路１４０９およびリアロケート／リネーム１４０７回路に結合されるか、またはそれらに含まれる）物理レジスタファイルならびにメモリユニットがレジスタ読み取り／メモリ読み取り段階を実行し、実行回路１４１１が実行段階を実行する。６）メモリユニットおよび物理レジスタファイルユニットがライトバック／メモリ書き込み段階を実行する。７）様々なユニットが例外処理段階に関与してもよい。８）リタイアメントユニットおよび物理レジスタファイルユニットがコミット段階を実行する。

コアは、本明細書で説明された命令を含む、１つまたは複数の命令セット（例えば、（より新しいバージョンで追加されたいくつかの拡張を有する）ｘ８６命令セット、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰＳ命令セット、カリフォルニア州サニーベールのＡＲＭＨｏｌｄｉｎｇｓの（ＮＥＯＮなどのオプションの追加の拡張を有する）ＡＲＭ命令セット）をサポートすることができる。一実施形態では、コア１４９０は、パックドデータ命令セット拡張（例えば、ＡＶＸ１、ＡＶＸ２）をサポートするロジックを含み、それにより、多くのマルチメディアアプリケーションによって使用される演算がパックドデータを使用して実行されることが可能になる。

コアは、マルチスレッディング（演算またはスレッドの２つ以上の並列セットの実行）をサポートすることができ、タイムスライスマルチスレッディング、（物理コアが同時にマルチスレッディングしているスレッドのそれぞれに単一の物理コアが論理コアを提供する）同時マルチスレッディング、またはそれらの組み合わせ（例えば、インテル（登録商標）ハイパースレッディングテクノロジなどにおけるタイムスライスフェッチおよびデコードならびにその後の同時マルチスレッディング）を含む様々な方法でサポートすることができることを理解されたい。

［レイアウト］
この説明全体を通して、データは行優先データレイアウトを使用して表現される。列優先ユーザは、自分の方向性に従って用語を解釈するべきである。図１５は、行優先フォーマットおよび列優先フォーマットで表現された行列の一例を示す。図示されたように、行列Ａは２×３行列である。この行列が行優先フォーマットで記憶されると、行のデータ要素は連続している。この行列が列優先フォーマットで記憶されると、列のデータ要素は連続している。Ａ^Ｔ×Ｂ^Ｔ＝（ＢＡ）^Ｔであることは行列のよく知られた性質であり、上付き文字Ｔは変換を意味する。列優先データを行優先データとして読み取ると、行列は変換行列のように見える。

いくつかの実施形態では、行優先セマンティクスはハードウェアで利用され、列優先データはオペランド順序を行列の変換である結果と交換することであるが、その後のメモリからの列優先読み取りの場合、それは正しい非変換行列である。

例えば、乗算されるべき列優先行列が２つある場合、

入力行列は、以下のように線形メモリ（列優先）に記憶されるはずである。

それらの行列を２×３および３×２の寸法を有する行優先として読み取ると、それらは以下のように見えるはずである。

次数と行列の乗算を交換する。

変換行列が出力された後、行優先順に記憶することできる。

その後の列優先計算で使用され、それは正しい非変換行列である。

［例示的な使用］
図１６は、行列（タイル）の使用の一例を示す。この例では、行列Ｃ１６０１は２つのタイルを含み、行列Ａ１６０３は１つのタイルを含み、行列Ｂ１６０５は２つのタイルを含む。この図は、行列乗算を計算するアルゴリズムの内部ループの一例を示している。この例では、行列Ｃ１６０１からの２つの結果タイルｔｍｍ０およびｔｍｍ１は、中間結果を累積するために使用される。行列Ａ１６０３からの１つのタイル（ｔｍｍ２）は、行列Ｂ１６０５からの２つのタイルと乗算されるので、２回再利用される。矢印によって示された方向から新しいＡ行列（タイル）および２つの新しいＢ行列（タイル）をロードするポインタ。図示されていない外側のループは、Ｃタイル用のポインタを調整する。

図示された例示的なコードは、タイル構成命令の使用を含み、タイル使用を構成し、タイルをロードし、タイルを処理するループを行い、メモリにタイルを記憶し、タイル使用を解放するために実行される。

図１７は、行列（タイル）の使用の一実施形態を示す。１７０１において、タイル使用が構成される。例えば、タイル当たりの行数および列数の設定を含むタイル使用を構成するために、ＴＩＬＥＣＯＮＦＩＧ命令が実行される。通常、１７０３において、少なくとも１つの行列（タイル）がメモリからロードされる。１７０５において、行列（タイル）を使用して少なくとも１つの行列（タイル）演算が実行される。１７０７において、少なくとも１つの行列（タイル）がメモリに記憶され、１７０９において、コンテキストスイッチを行うことができる。

［例示的な構成］
［タイル構成ハードウェアサポート］
上述されたように、タイル使用は、通常、使用する前に構成される必要がある。例えば、すべての行および列を完全に使用することは必要でない場合がある。いくつかの実施形態では、これらの行および列を構成しないことが電力を節約するだけでなく、その構成は演算がエラーを発生させるか否かを判定するために使用されてもよい。例えば、形式（Ｎ×Ｍ）×（Ｌ×Ｎ）の行列乗算は、通常、ＭとＬが同じでない場合機能しない。

タイルを使用して行列を使用する前に、いくつかの実施形態では、タイルサポートが構成されるべきである。例えば、タイル当たりの行数および列数、使用されるべきタイルなどが構成される。ＴＩＬＥＣＯＮＦＩＧ命令は、（プロセッサコアの一部として、または外部デバイスとして）行列アクセラレータを使用するようにコンピュータを構成するサポートを提供するので、コンピュータ自体に対する改良である。具体的には、ＴＩＬＥＣＯＮＦＩＧ命令を実行すると、構成がメモリから取得され、行列アクセラレータ内の行列（タイル）設定に適用される。

［タイル使用構成］
図１８は、一実施形態による、タイルの使用の構成用のサポートを示す。メモリ１８０１はサポートされるべき行列（タイル）のタイル記述１８０３を含む。

プロセッサ／コア１８０５の命令実行リソース１８１１は、タイル記述１８０３の態様をタイル構成１８１７に記憶する。タイル構成１８１７は、パレット用のどのタイルが構成されているか（各タイル内の行および列の数）、ならびに行列サポートが使用中であることのマーキングを詳述するために、パレットテーブル１８１３を含む。具体的には、命令実行リソース１８１１は、タイル構成１８１７によって指定されたタイルを使用するように構成される。命令実行リソース１８１１はまた、タイル使用を示すために、機械固有レジスタまたは構成レジスタを含んでもよい。使用中の値および開始値などのさらなる値も設定される。タイル構成１８１７は、レジスタ１８１９を利用して、タイル使用および構成情報を記憶する。

図１９は、サポートされるべき行列（タイル）の記述の一実施形態を示す。これは、ＳＴＴＩＬＥＣＦＧ命令の実行時に記憶されるべき記述である。この例では、各フィールドは１バイトである。バイト［０］には、パレットＩＤ１９０１が記憶される。パレットＩＤは、タイル内のバイト数、および構成によって定義されるこのＩＤに関連付けられるタイルの行当たりのバイト数を記憶するパレットテーブル１８１３を、パレットＩＤごとに索引付けするために使用される。

バイト１は「ｓｔａｒｔＲｏｗ」レジスタ１９０３に記憶されるべき値を記憶し、バイト２はｓｔａｒｔＰ１９０５であるレジスタに記憶されるべき値を記憶する。これらのイベント後の命令再開をサポートするために、これらの命令はこれらのレジスタに情報を記憶する。上記で詳述されたイベントなどのブレークイベント後の命令の再開をサポートするために、命令はこれらのレジスタに情報を記憶する。ｓｔａｒｔＲｏｗ値は、再開に使用されるべき行を示す。ｓｔａｒｔＰ値は、ペアが使用されるときのストア演算のための行内の位置を示し、いくつかの実施形態では、（ペアの下位タイル内の）行の下半分または（ペアの上位タイル内の）行の上半分を示す。通常、行（列）の位置は不要である。

ＴＩＬＥＣＯＮＦＩＧおよびＳＴＴＩＬＥＣＦＧを除いて、行列（タイル）命令の実行に成功すると、ｓｔａｒｔＲｏｗとｓｔａｒｔＰの両方がゼロに設定される。

中断された行列（タイル）命令が再開されないときはいつでも、ｓｔａｒｔＲｏｗおよびｓｔａｒｔＰの値をゼロにすることはソフトウェアの役割である。例えば、マスクされていない浮動小数点例外ハンドラは、ソフトウェア内の演算を終了し、プログラムカウンタ値を別の命令、通常は次の命令に変更することを決定する場合がある。この場合、ソフトウェア例外ハンドラは、プログラムを再開する前に、オペレーティングシステムによってそれに提示された例外内のｓｔａｒｔＲｏｗ値およびｓｔａｒｔＰ値をゼロにしなければならない。オペレーティングシステムは、その後、復元命令を使用してそれらの値を再ロードする。

バイト３は、タイルのペア（タイル当たり１ｂ）のインジケーション１９０７を記憶する。

バイト１６〜１７は、タイル０の行数１９１３および列数１９１５を記憶し、バイト１８〜１９は、タイル１の行数および列数を記憶する、などである。換言すると、各２バイトグループは、タイルの行数および列数を指定する。２バイトのグループがタイルパラメータを指定するために使用されない場合、それらは値ゼロをもつはずである。実装制限またはパレット制限よりも多くのタイルに対してタイルパラメータを指定すると、障害をもたらす。未構成のタイルは、０行０列の初期状態に設定される。

最後に、メモリ内の構成は、通常、いくつかの連続するバイトのオールゼロなどの、末尾の描写で終わる。

［例示的なタイルおよびタイル構成ストレージ］
図２０Ａ〜図２０Ｄはレジスタ１８１９の例を示す。図２０Ａは複数のレジスタ１８１９を示す。図示されたように、各タイル（ＴＭＭ０２００１…ＴＭＭＮ２００３）は別個のレジスタを有し、各レジスタはその特定のタイルの行および列のサイズを記憶する。ＳｔａｒｔＰ２０１１およびＳｔａｒｔＲｏｗ２０１３は別個のレジスタに記憶される。タイルが使用のために構成されていることを示すために、１つまたは複数のステータスレジスタ２０１５が設定される（例えば、ＴＩＬＥＳ＿ＣＯＮＦＩＧＵＲＥＤ＝１）。

図２０Ｂは複数のレジスタ１８１９を示す。図示されたように、各タイルはその行および列のための別個のレジスタを有する。例えば、ＴＭＭ０行構成２０２１、ＴＭＭ０列構成２０２３、ＳｔａｒｔＰ２０１１、およびＳｔａｒｔＲｏｗ２０１３は別個のレジスタに記憶される。タイルが使用のために構成されていることを示すために、１つまたは複数のステータスレジスタ２０１５が設定される（例えば、ＴＩＬＥＳ＿ＣＯＮＦＩＧＵＲＥＤ＝１）。

図２０Ｃは単一のレジスタ１８１９を示す。図示されたように、このレジスタは、パックドデータレジスタとして単一のレジスタに記憶されたタイル構成（タイル当たりの行および列）２０３１、ＳｔａｒｔＰ２０１１、およびＳｔａｒｔＲｏｗ２０１３を記憶する。タイルが使用のために構成されていることを示すために、１つまたは複数のステータスレジスタ２０１５が設定される（例えば、ＴＩＬＥＳ＿ＣＯＮＦＩＧＵＲＥＤ＝１）。

図２０Ｄは複数のレジスタ１８１９を示す。図示されたように、単一のレジスタはタイル構成（タイル当たりの行および列）２０３１を記憶する。ＳｔａｒｔＰおよびＳｔａｒｔＲｏｗは別個のレジスタ２０１１および２０１３に記憶される。タイルが使用のために構成されていることを示すために、１つまたは複数のステータスレジスタ２０１５が設定される（例えば、ＴＩＬＥＳ＿ＣＯＮＦＩＧＵＲＥＤ＝１）。

開始レジスタが別個に示される場合、これらを結合して単一のレジスタにすることなどの、他の組み合わせも想定される。

［シストリックアレイのためのスケジューリング］
上記で言及したように、汎用行列乗算（別名、ＧＥＭＭ）のためのハードウェアは、深層学習などの特定のアプリケーションの計算ピーク（およびエネルギー効率）を改善するための良い選択肢である。ディープニューラルネットワーク（ＤＮＮ）に基づくアプリケーションには膨大な計算が要求されるので、多数の（例えば、数百の）処理要素、例えば融合乗累算（ＦＭＡ）回路を使用するハードウェア（例えば、アクセラレータ）が使用されることになり得る。しかしながら、（例えば、ＤＮＮ）アクセラレータは、密行列乗算の非常に規則的なデータフローパターンに最適化され得る。特定の実施形態では、アクセラレータは、性能および面積／電力効率を最大化するように、シストリックアレイ実装を使用する。シストリックアレイは、非常に規則的なデータフローに最適化された密な２次元アレイを含んでもよい。

特定のハードウェアでは、命令のデコードおよび実行により、構成可能なシストリックアレイハードウェア（例えば、行列演算アクセラレータ回路）にＣ＝Ａ×Ｂ＋Ｃを計算させる。ここで、Ａ、Ｂ、およびＣはそれぞれ２次元行列である。Ｃの各要素について、ハードウェアは、入力行列Ａの一行と行列Ｂの一列とのドット積を計算する。

特定の実施形態では、行列演算アクセラレータ回路は、入力として、行列Ａ（Ｍ×Ｋ型であり、ここで、ＭおよびＫは、整数である）と、行列Ｂ（Ｋ×Ｎ型であり、ここで、ＭおよびＫは整数である）と、行列Ｃ（Ｍ×Ｎ型であり、ここで、ＭおよびＮは整数である）を取り、次に、各要素に演算（例えば、融合乗累算）を実行して、行列に記憶される（例えば、ＭおよびＮが整数である、Ｍ×Ｎ型の行列Ｃに戻される）結果を生成する。一実施形態では、Ｍ、Ｋ、およびＮは、１６以下である。特定の実施形態では、行列演算アクセラレータ回路は、（例えば浮動小数点数に対して）以下の演算を実行する。

図２１は、本開示の実施形態による行列（タイル）演算アクセラレータ２１０７を利用するシステムの一実施形態を示す。特定の実施形態では、ホストプロセッサ／処理システム２１０１（例えば、ハードウェアプロセッサコア、例えば、図３３Ｂにおけるプロセッサコア３３９０）は、コマンド（例えば、算術もしくは行列操作演算などの行列操作演算、ロード演算、および／またはストア演算）を行列演算アクセラレータ２１０７に伝達する。しかしながら、これは説明の目的でのみこのように示されている。本明細書で詳述されるように、アクセラレータ２１０７は処理コアの一部であってもよい。タイル操作演算子命令であるコマンドは、レジスタ−レジスタ（「ｒｅｇ−ｒｅｇ」）フォーマットまたはレジスタ−メモリ（「ｒｅｇ−ｍｅｍ」）フォーマットとしてタイルを参照してよい。特定の実施形態では、ＴＩＬＥＳＴＯＲＥ、ＴＩＬＥＬＯＡＤ、ＴＩＬＥＣＯＮＦＩＧなどの他のコマンドは、タイルに対してデータ演算を実行しない。コマンドは、アクセラレータ２１０７が処理するためのデコードされた命令（例えば、マイクロ演算）またはマクロ命令であってもよい。一実施形態では、ハードウェアプロセッサコアは、行列演算命令がハードウェアプロセッサコアによって実行されたことに応答して、マイクロｏｐを行列（タイル）演算アクセラレータ２１０７に送信する。

一実施形態では、予約ステーション（ＲＳ）回路２１１１が、行列演算アクセラレータ２１０７にコマンド（例えば、マイクロｏｐ）を送信する。特定の実施形態では、行列演算アクセラレータ２１０７は、タイル行列ユニット（ＴＭＵ）である。特定の実施形態では、行列演算アクセラレータ２１０７は、行列アクセラレータコントローラ回路２１１３を備える。一実施形態では、行列アクセラレータコントローラ（例えば、回路２１１３）は、行列演算アクセラレータ２１０７の内外への、および／またはその内部でのデータの操作およびフローを制御する。行列演算アクセラレータ２１０７（例えば、行列アクセラレータコントローラ回路２１１３）は、例えば、ホストプロセッサ／処理システム２１０１から受信した要求（例えば、コマンド）の、行列演算アクセラレータ２１０７の１つまたは複数のコンポーネントへのディスパッチを制御するために、ディスパッチ回路２１１５を備えてもよい。ディスパッチ回路の一例が、図２３を参照しながら下記で説明される。

図示の行列演算アクセラレータ２１０７は、データバッファ（例えば、レジスタ）２１０５を備える。特定の実施形態では、データバッファ（例えば、レジスタ）２１０５は、例えば、第１の２次元行列（例えば、ストレージ２１０５において行列Ａを記憶するＴ０としてマークされたタイル）、第２の２次元行列（例えば、ストレージ２１０５において行列Ｂを記憶するＴ１としてマークされたタイル）、第３の２次元行列（例えば、ストレージ２１０５において行列Ｃを記憶するＴ３としてマークされたタイル）などを表す第１の複数のレジスタ（例えば、タイル）に各行列を記憶するように構成可能である。システム（例えば、ホストプロセッサ／処理システム２１０１）は、ホストプロセッサ／処理システム２１０１（例えば、アウトオブオーダ（ＯｏＯ）コア）と行列演算アクセラレータ２１０７との間で（例えば、コマンドとは対照的に）データを送受信するために、（例えば、コヒーレント）メモリインタフェース２１０３（例えば、データキャッシュユニット）を備えてもよい。

特定の実施形態では、行列演算アクセラレータ２１０７は、処理要素２１０９（例えば、融合乗累算（ＦＭＡ）回路）のグリッドを用いて、演算を実行する。一実施形態では、ディスパッチ回路２１１５は、データバッファ２１０５（例えば、タイルを形成するレジスタ）から処理要素２１０９のグリッド（例えば、ＦＭＡ回路のグリッド）へのデータ（例えば、タイルからの１つまたは複数の値）の送信を制御する。特定の実施形態では、処理要素２１０９のグリッドは、処理要素の２次元グリッド、例えば、図２２における処理要素回路２２００の２次元グリッドである。

図２２は、処理要素回路２２０６−１〜２２０６−４の２次元グリッドを含む行列演算アクセラレータ回路２２００の一実施形態を示す。特定の実施形態では、データストレージ２２０５（例えば、レジスタファイル）は、例えば、第１の入力２次元行列（Ａ）、第２の入力２次元行列（Ｂ）、および第３の入力２次元行列（Ｃ）を表すレジスタ（例えば、タイル）の各セットを有する複数のレジスタと、結果のストレージとを備える。一実施形態では、出力される２次元行列の結果は、第３の入力２次元行列（Ｃ）を形成するレジスタに格納され、例えば、入力２次元行列（Ｃ）の値が、行列演算アクセラレータ回路２２００によって利用された後に上書きされる。図示の行列演算アクセラレータ回路２２００は、実行される演算に従って（例えば、行列Ａおよび行列Ｂからの）入力値を処理要素にルーティングおよび記憶するために、複数のルーティング／バッファ回路２２０４−１〜２２０４−４を備える。

本明細書内の図は、すべてのデータ通信用カップリング（例えば、接続部）を示していない場合があることに留意されたい。これは図内の特定の細部を不明瞭にしないためであることが、当業者には理解される。なお、図における両矢印は、二方向の通信を必要としなくてもよく、例えば、両矢印は、（例えば、当該コンポーネントもしくはデバイスへの、または当該コンポーネントもしくはデバイスからの）一方向の通信を示してよい。通信経路のいずれかまたはすべての組み合わせが、本明細書の特定の実施形態において用いられてよい。単一のラインは、その中に複数の経路、例えば、複数のチャネルを含んでよい。例えば、ライン２２１０は、複数の経路（例えば、「Ｘ」個（Ｘは任意の正の整数））を含んでよく、例えば、行列Ａからの値に１つの経路、行列Ｂからの値に１つの経路となる。

特定の実施形態では、演算の実行の要求（例えば、その演算を生じさせる命令のデコードおよび実行による）があると、行列演算アクセラレータ回路２２００は、行列Ａおよび行列Ｂからの値をそれぞれのルーティング回路に送信する。例えば、上記演算は、行列Ａに行列Ｂを乗算し、次に、各結果を行列Ｃからの対応する値に加算することであってよい。一実施形態では、第１のルーティング回路２２０４−１は、行列Ａ［行］［列］から第１の値Ａ［０］［０］（行インデックス０および列インデックス０からの値）を受け取って、その値を、その行における各処理要素２２０６−１に向けて処理要素２２０６−１のそれぞれの第１の入力にブロードキャストし、行列Ｂの第１の行からの値のセットを受け取って、それらの値を、処理要素２２０６−１のそれぞれの各第２の入力に送信する（例えば、それにより、処理要素２２１２がＢ［０］［０］からの値を受け取り、処理要素２２１４がＢ［０］［１］からの値を受け取る、など）。一実施形態では、処理要素２２１２は、出力２２１６において、Ａ［０］［０］×Ｂ［０］［０］の乗算の結果を提供し、処理要素２２１４は、出力２２１８において、Ａ［０］［０］×Ｂ［０］［１］の乗算の結果を提供する。出力（例えば、出力２２１６および２２１８）は、ルーティング／バッファ回路２（２２０４−２）に送信される。

一実施形態では、第２のルーティング／バッファ回路２２０４−２は、行列Ａ［行］［列］からの第２の値Ａ［０］［１］（行インデックス０および列インデックス１からの値）を受け取って、その値を、その行における各処理要素２２０６−２に向けて処理要素２２０６−２のそれぞれの第１の入力にブロードキャストし、行列Ｂの第２行からの値のセットを受け取って、それらの値を、処理要素２２０６−２のそれぞれの各第２の入力（例えば、これにより、処理要素２２２２がＢ［１］［０］からの値を受け取り、処理要素２２２４がＢ［１］［１］からの値を受け取る、など）に送信し、上行の処理要素２２０６−１の出力からの各出力を受け取る。一実施形態では、処理要素２２２２は、出力２２２６において、Ａ［０］［１］×Ｂ［１］［０］の乗算の結果を出力２２１６（Ａ［０］［０］×Ｂ［０］［０］）に加算して提供し、処理要素２２２４は、出力２２２８において、Ａ［０］［１］×Ｂ［１］［１］の乗算の結果を出力２２１８（Ａ［０］［０］×Ｂ［０］［１］）に加算して提供する。特定の実施形態では、この融合乗累算演算は、処理要素２２０６−３〜２２０６−４の各行によって継続されて、処理要素２２０６−４からの出力２２３０および出力２２３２を生成する。４というのは、処理要素の行（例えば、ならびに、行列Ａ、Ｂ、およびＣのそれぞれの行および列）の数の一例であり、任意の複数の行が存在してよいことに留意されたい。行列演算アクセラレータ回路２２００のための処理要素の行の終端に達すると、バイアス加算回路２２０８は、入力２２３４からの行列Ｃからの各要素（例えば、並列入力ポートのセット）（例えば、行列Ｃの第１行からの各要素）を加算し、出力２２３６（例えば、並列出力ポートのセット）を介して、その結果を行列Ｃの各要素に（例えば、行列Ｃの第１行の各要素位置に）格納する。例えば、行列Ｃの第１行からの第１の要素が出力２２３０からの結果に加算され、その結果が行列Ｃの第１行の第１の要素位置に戻して格納され、行列Ｃの第１行からの第２の要素が出力２２３２からの結果に加算され、その結果が行列Ｃの第１行の第２の要素位置に戻して格納される。これは、行列Ａの各行について繰り返され、行列Ａ×行列Ｂの全乗算を生じさせることができる（例えば、かつ、行列Ｃからのバイアスを各結果に加算する）。

従って、回路の特定の実施形態は、例えば、いくつかの入力および出力バッファならびにローカル制御ロジック回路と共に、処理要素（ＰＥ）（例えば、ＦＭＡユニット）の２次元（２Ｄ）アレイを使用する。一実施形態では、各ＰＥは、レジスタファイルなどのデータストアからの入力のうちのいくつかおよび他のＰＥからの他の入力を取得し、最終行のＰＥは、その出力をデータストアに送信し返す。従って、これらの実施形態では、ＰＥはパイプラインを形成する。ユーザは、一般に、データ要素（例えば、ＰＥよりも多くのデータ要素）の大きなセットに対して一連の演算を実行することを意図し得る。そのため、要素は、アレイの最上部に入力されてパイプラインを開始し、パイプラインを通してデータを下方に少しずつ移動させてよい（適切な場合には、パイプラインの様々な段階において追加の入力を提供する）。

一実施形態では、処理要素の各例は、乗算器回路（例えば、第１の入力ａ、第２の入力ｂを取り、結果出力を生成する）と、加算器回路（例えば、第１の入力としての乗算器回路からの結果出力と第３の入力ｃとを加算し、結果を生成する）とを備える融合乗累算（ＦＭＡ）回路である。処理要素回路（例えば、ＦＭＡ回路）の２次元グリッドへの演算および／またはデータのディスパッチの制御は、ディスパッチ回路によって実行してよい。

図２３は、本開示の実施形態による、行列演算アクセラレータ回路のディスパッチ回路２３００を示す。一実施形態では、ディスパッチ回路２３００は、図２１におけるディスパッチ回路２１１５の一部である。特定の実施形態では、ディスパッチ回路２３００は、マルチプレクサ２３０２を用いて複数のペンディング中の演算（例えば、マイクロ演算（マイクロｏｐ））のうちの１つを選択し、選択された演算を出力２３０４において演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路）に送信する。図２３において、ペンディング中の演算は、入力２３０６においてキュー２３０８に受け取られる。入力２３０６は、予約ステーション（例えば、図２１におけるＲＳ回路２１１１）からのものとしてよい。

一実施形態では、ディスパッチ回路は、アウトオブ（プログラム）オーダ予約ステーション回路から演算要求（例えば、各命令ごと、または単一の命令のためのマイクロ演算のセットごとに１つ）を受け取り、例えば、２つの連続する演算（例えば、命令）を行列演算アクセラレータ回路（例えば、そのパイプライン）において依存関係に制限されることなく相次いで実行することができるという前提（例えば、ここで、連続する行列演算間の依存関係がディスパッチキューによって処理される一方で、アウトオブオーダ回路が行列演算とＡタイルおよびＢタイルとの依存関係に対処する）のもと、演算を順に実行する。一実施形態では、ＲＳ回路は、依存関係が解消された後、次の演算（例えば、マイクロ演算（μｏｐ））を行列演算アクセラレータ回路にディスパッチする。図示のようなキュー２３０８は、８つのスロットを有しているが、単一または任意の複数のスロットを用いてもよいことを理解されたい。

特定の実施形態では、キュー２３０８内のエントリは、データバッファ（例えば、データバッファ２１０５またはデータバッファ２２０５）における利用された入力タイルおよび／または出力タイルおよび／またはグリッド（例えば、図２１におけるＦＭＡグリッド２１０９）によって実行される演算を特定するための情報を格納する。一実施形態では、キュー２３０８内の各エントリは、有効なビット（ｖ）の値（またはその値のインジケータ）、演算（例えば、μｏｐ）オペコード、タイル寸法（例えば、Ｍ、Ｋ、Ｎ）、コントロール（例えば、ゼロコントロール）、タイルＩＤ値（例えば、データバッファ内でのＡタイル、Ｂタイル、およびＣタイルの各ロケーションの値）を格納する。メインヘッドは、行列演算アクセラレータ回路にディスパッチされた現在の演算の始点（例えば、単一の命令の複数のマイクロ演算のうちの最初のマイクロ演算）に対するポインタであってよい。メインテールは、行列演算アクセラレータ回路にディスパッチされた現在の演算の終点（例えば、単一の命令の複数のマイクロ演算のうちの最後のマイクロ演算）に対するポインタであってよい。有効なビット（ｖ）は、例えば、その演算のために要求された操作が行列演算アクセラレータ回路によって完了したときに、演算（例えば、マイクロ演算）を完了したものとしてマークするのに用いられてよい。

特定の実施形態では、スケジューリング回路２３１０は、演算（例えば、複数のマイクロ演算のヘッド）を選択し、演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路）に送信して、例えば、その選択された演算のための操作を開始するために含まれる。

図２４は、本開示の実施形態による、行列演算アクセラレータ回路のディスパッチ回路のスケジューリング回路２４００を示す。上記のように、演算（例えば、マイクロ演算）は、以下であってよい。

スケジューリング回路は、Ｍ（例えば、第１のアレイ（例えば、第１行（例えば、図２２における第１行のＰＥ２２１２、２２１４…２２０６−１）または第１の列）のバッファ（例えば、図２１におけるバッファ２１０５または図２２におけるバッファ２２０５）が占有される（例えば、かつ、バスがＡタイルを行列演算アクセラレータ回路に転送するのに用いられる）サイクルの数）、Ｋ（例えば、Ｂタイルを行列演算アクセラレータ回路にロードするリソース（例えば、バス）が占有されるサイクルの数）の最大値、およびディスパッチ間の予め選択された最小（例えば、４サイクル）のギャップだけ待機してよい。図２４では、出力２４０２は、次の演算（例えば、マイクロ演算）を行列演算アクセラレータ回路にディスパッチさせるように、（例えば、ゼロではなく１の値として）アサートされる。特定の実施形態では、スケジューリング回路２４００は、Ｂタイルを行列演算アクセラレータ回路にロードするリソース（例えば、バス）が占有されるサイクル数をカウントダウンする間は、Ｋに１の値をアサートし、次に、完了したら（例えば、カウンタＫに予め定められた値になったら）ゼロをアサートするＫカウンタ２４０４と、Ａタイルを行列演算アクセラレータ回路にロードするリソース（例えば、バス）が占有されるサイクル数をカウントダウンする間は、Ｍに１の値をアサートし、次に、完了したら（例えば、カウンタＭに予め定められた値になったら）ゼロをアサートするＭカウンタ２４０６と、出力２４０２に対する演算（例えば、マイクロ演算）のディスパッチ間（例えば、ディスパッチは出力２４０２に１がアサートされることである）の最小サイクルをカウントダウンし、サイクルの最小数をカウントダウンする間は、１の値をアサートし、次に、完了したらゼロをアサートする最小サイクル（例えば、一例として４サイクルであるが、任意の単一または複数のサイクルを選択してよい）カウンタ２４０８とを備える。一実施形態では、ＯＲ論理ゲート２４１２は、その入力のいずれかが１である場合、１をアサートし、ＮＯＴ論理ゲート２４１４は、ＯＲ論理ゲート２４１２の出力を反転させる。一例として、各カウンタは、トリガ閾値（例えば、ゼロ）までカウントダウンすると、ＯＲ論理ゲート２４１２へのそれぞれのラインに対してゼロをアサートし（例えば、２４０２にディスパッチが行われるまで）、従って、ＮＯＴ論理ゲート２４１４は、カウンタ２４０４、２４０６および２４０８のすべてがゼロをアサートする場合、１を出力する。各ディスパッチの後、カウンタは、元（例えば、ゼロ以外）の値にリセットされてよい。

任意選択で、オーバライドディスパッチ制御部２４１０が、例えば、演算のディスパッチをオーバライドしないモードにおいてゼロをアサートするように、および、演算のディスパッチをオーバライドするモードにおいて１をアサートする（従って、出力２４０２からゼロを出力させる）ように用いられてもよい。

一実施形態では、行列演算アクセラレータ回路（例えば、演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路））によって実行される次の演算（例えば、マイクロ演算）を選択するためのトリガは、ＭＡＸ｛４，Ｍ，Ｋ｝によって与えられ、ここで、ＭはＡ行列の行数であり、ＫはＡ行列の列（またはＢ行列の行）数であり、４は、（例えば、マイクロ演算の）実行のサイクル数の下限である。特定の実施形態では、スケジューリング回路は、（例えば、Ｂタイルを演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路）にロードさせるためのバスがただ１つである場合）少なくともＫサイクルだけ待機する（例えば、サイクルごとにただ１つのＢ行のフェッチを可能にする）ことに留意されたい。これらの実施形態のうちの特定の実施形態では、Kは、Ｂ行列の行数である累算の数を設定し、従って、Ｂ−バスは、次のＫサイクルの間占有され、この時間の間、新たなマイクロ演算をディスパッチすることはできない。これらの実施形態のうちの特定の実施形態では、Ｍは、Ａ行列の行がＡ−バスを使用するサイクル数を設定し、例えば、そのため、ＭカウンタおよびＫカウンタの両方がゼロにされた後にのみ、次のマイクロ演算をディスパッチすることができる。また、連続するディスパッチ間で、最小数（例えば、４つ）のサイクルが望ましい場合があり、例えば、ここで、Ｃ−行列がサイクル１にて読み取られ、サイクル２にて乗算結果（例えばＡ×Ｂ）と累算され、サイクル３にてデータバッファに再び書き込まれ、サイクル４にて再び読み取られ得る前にもう１回のサイクルがある。これは、上記の段階が単一のサイクルにあることを仮定している。他の実施形態では、段階は、１つより多くのサイクルをそれぞれ取ってもよい。

特定の実施形態では、スケジューリング回路２４００は、演算（例えば、マイクロ演算）が選択され、および／または実行のために演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路）にディスパッチされた場合、対応するキュー（例えば図２３におけるキュー２３０８）における有効なビットをクリアする、および／または、（例えば、次の演算を選択決定に利用可能にするために）対応するキュー（例えば、図２３におけるキュー２３０８）におけるそのヘッドポインタを更新する。

図２５は、本開示の実施形態による、ベースラインスケジューリングモードから入力行列を再利用するスケジューリングモードに切換可能である、行列演算アクセラレータ回路のディスパッチ回路のスケジューリング回路２５００を示す。これらの実施形態における入力行列は、入力「Ｂ」行列（例えば、タイル）を参照するが、これは例示に過ぎず、他の行列（例えば、タイル）が同様にスケジューリングされてよい。

スケジューリング回路２５００は、行列演算アクセラレータ回路において実行されることになる次の演算（例えば、マイクロ演算）、具体的には、選択され、および／または実行のために演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路）にディスパッチされる次の演算を特定する値を受け取る入力２５０２を備える。一実施形態では、入力２５０２は、図２３からの出力２３０４を受信する。

特定の実施形態では、入力２５０２は、スケジューリング回路２５００によってディスパッチされることになる次の演算（例えば、および対応する入出力タイル）を識別する。これらの実施形態の特定の実施形態では、入力２５０２は、タイル（例えば、図２１におけるデータバッファ（例えば、レジスタ）２１０５におけるタイルを形成するレジスタのセット）を表す識別（ＩＤ）値を含む。スケジューリング回路２５００は、行列演算アクセラレータ回路によって処理されている現在のタイルを識別するストレージ２５０４を備え、具体的には、ストレージ２５０４は、演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路）にそのデータがロードされた（またはそのデータがそこにロードされている／そこからロードされている）現在のタイルを識別してよい。一実施形態では、スケジューリング回路２５００は、ストレージ２５０４内の識別値が有効な値であるかまたは無効な値である（例えば、ハードウェアが別のタイルを、従って別の識別値をロードしている）かを示すために、有効なタイル（例えば、タイルＢ）のストレージ２５０６を含む。

スケジューリング回路２５００は、（ｉ）演算回路に（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路に）ロードされている現在のタイル（例えば、タイルＢ）と、（ｉｉ）演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路）にロードされることになる次のタイル（例えば、次のタイルＢ）とを比較するために、比較回路２５０８を含む。一実施形態では、この比較は、各タイルのスケジューリング回路によって提供される識別値、例えば、行列演算アクセラレータのデータバッファ（例えば、図２１におけるデータバッファ２１０５）へのタイルのエントリに際して提供される識別値を比較することによって行われ、例えば、ここで、識別値は、タイルの値が演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路）に入力される前に、各タイルに与えられる。

特定の実施形態では、比較回路２５０８は、（ｉ）次の演算のための入力２５０２からの入力タイル（例えば、図２１におけるデータバッファ２１０５内のそのＩＤ値）（例えば、「新たなタイルＢ」）と、（ｉｉ）演算回路に現在ロードされている（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路に現在ロードされている）現在のタイル（例えば、タイルＢ）、例えば、図２１におけるＦＭＡグリッド２１０９に現在ロードされているタイルのための図２１におけるデータバッファ２１０５のＩＤ値とを比較する。一実施形態では、比較回路２５０８は、使用中の現在のタイルのＩＤ値と、演算回路において用いられることになる次のタイルのＩＤ値とを比較し、等しければ、それらが等しいことを示す値（例えば、１）をアサートする。一実施形態では、比較回路２５０８は、ストレージ２５０４からの使用中の現在のタイルのＩＤ値と、演算回路において用いられることになる次のタイルのＩＤ値とを比較し、等しければ、ストレージ２５０６もまたストレージ２５０４内の識別値が有効な値であると示す場合はそれらが等しいことを示す値（例えば、１）をアサートし、例えば、そうでなければ、異なる値（例えば、ゼロ）をアサートする。

特定の実施形態では、（ｉ）演算回路に（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路に）ロードされている現在のタイル（例えば、タイルＢ）が、（ｉｉ）演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路）にロードされることになる次のタイル（例えば、次のタイルＢ）と等しい場合、同じタイル（例えば、同じタイルＢ）値（例えば、１）がアサートされて、例えば、演算回路とは別個のデータバッファ（例えば、図２１におけるデータバッファ２１０５）から再ロードすることなく、入力行列を再利用する、例えば、演算回路内に（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路に）既に記憶されているタイルＢを再利用するスケジューリングモードに（例えば、出力２５１０を介して）切り替えさせる。

特定の実施形態では、比較回路２５０８は、（ｉ）演算回路に（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路）にロードされている現在のタイル（例えば、タイルＢが、（ｉｉ）演算回路にロードされることになる次のタイル（例えば、次のタイルＢ）と等しい場合、出力２５１０において第１の値（例えば、１）を出力する。出力２５１０は、次に、ＮＯＴ論理ゲート２５１２に入力され、その出力およびＫカウンタ２５１６からＡＮＤ論理ゲート２５１４（例えば、すべての入力が１である場合にのみ１の出力を有する）への出力は、ＯＲ論理ゲート２５２２に入力されてよい。

特定の実施形態では、スケジューリング回路２５００は、Ｂタイルを行列演算アクセラレータ回路にロードするリソース（例えば、バス）が占有されるサイクル数をカウントダウンする間は、Ｋに１の値をアサートし、次に、完了したら（例えば、カウンタＫに予め定められた値になったら）ゼロをアサートするＫカウンタ２５１６と、Ａタイルを行列演算アクセラレータ回路にロードするリソース（例えば、バス）が占有されるサイクル数をカウントダウンする間は、Ｍに１の値をアサートし、次に、完了したら（例えば、カウンタＭに予め定められた値になったら）ゼロをアサートするＭカウンタ２５１８と、出力２５２６に対する演算（例えば、マイクロ演算）のディスパッチ間（例えば、ディスパッチは出力２５２６に１がアサートされることである）の最小サイクルをカウントダウンし、サイクルの最小数をカウントダウンする間は、１の値をアサートし、次に、完了したらゼロをアサートする最小サイクル（例えば、一例として４サイクルであるが、任意の単一または複数のサイクルを選択してよい）カウンタ２５２０とを備える。一実施形態では、ＯＲ論理ゲート２５２２は、その入力のいずれかが１である場合、１をアサートし、ＮＯＴ論理ゲート２５２４は、ＯＲ論理ゲート２５２２の出力を反転させる。一例として、各カウンタは、トリガ閾値（例えば、ゼロ）までカウントダウンする（従って、Ｋカウンタ２５１６が０をアサートする場合にＡＮＤ論理ゲート２５１４が０を出力する）と、ＯＲ論理ゲート２５２２へのそれぞれのラインに対してゼロをアサートし（例えば、２５２６にディスパッチが行われるまで）、従って、ＮＯＴ論理ゲート２５２４は、（ｉ）カウンタ２５１６、２５１８および２５２０のすべてがゼロをアサートする場合、または（ｉｉ）出力２５１０が、ゼロをアサートするカウンタ２５１８および２５２０と共に一致するように１である場合、１を出力する。各ディスパッチの後、カウンタは、元（例えば、ゼロ以外）の値（例えば、ＡタイルおよびＢタイルの寸法によって設定される）にリセットされてよい。一実施形態では、Ｋカウンタ２５１６、Ｍカウンタ２５１８、および最小サイクルカウンタ２５２０が、それぞれのラインにおいてＯＲ論理ゲート２５２８にゼロをアサートする場合、ＯＲ論理ゲート２５２８は、ＮＯＴ論理ゲート２５３０にゼロを出力し、ＮＯＴ論理ゲート２５３０は、次に、リセットとして（別様にゼロではなく）１を出力して、有効なタイル（例えば、タイルＢ）のストレージ２５０６に、ストレージ２５０４における識別値が無効な値である（例えば、ハードウェアが演算回路に別のタイルをロードしている）ことを示させる。

任意選択で、オーバライドディスパッチ制御部２５３２が、例えば、演算のディスパッチをオーバライドしないモードにおいてゼロをアサートするように、および、演算のディスパッチをオーバライドするモードにおいて１をアサートする（従って、出力２５２６からゼロを出力させない）ように用いられてもよい。

上記のように、スケジューリング回路は、（ｉ）例えば、演算回路とは別個のデータバッファ（例えば、図２１におけるデータバッファ２１０５）から再ロードすることなく、入力行列を再利用する、例えば、演算回路内に（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路に）既に記憶されているタイルを再利用する第１の（例えば、スループット効率的な）スケジューリングモードと、（ｉｉ）演算回路内に既に記憶されているタイルを再利用しない第２のスケジューリングモードとの間で選択してよい。

一実施形態では、行列演算アクセラレータ回路（例えば、演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路））によって実行される次の演算（例えば、マイクロ演算）を選択するためのトリガは、（ｉ）第１の（例えば、スループット効率的な）スケジューリングモードではＭＡＸ｛４，Ｍ｝によって与えられ、（ｉｉ）第２のスケジューリングモードではＭＡＸ｛４，Ｍ，Ｋ｝によって与えられ、ここで、ＭはＡ行列の行数であり、ＫはＡ行列の列数であり、４は、（例えば、マイクロ演算の）実行のサイクル数の下限である。特定の実施形態では、スケジューリング回路は、（例えば、Ｂタイルを演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路）にロードさせるためのバスがただ１つである場合）少なくともＫサイクルだけ待機する（例えば、サイクルごとにただ１つのＢ行のフェッチを可能にする）ことに留意されたい。これらの実施形態のうちの特定の実施形態では、Kは、Ｂ行列の行数である累算の数を設定し、従って、Ｂ−バスは、次のＫサイクルの間占有され、この時間の間、新たなマイクロ演算をディスパッチすることはできない。これらの実施形態のうちの特定の実施形態では、Mは、Ａ行列の行がＡ−バスを使用するサイクル数を設定し、例えば、そのため、ＭカウンタおよびＫカウンタの両方がゼロにされた後にのみ、次のマイクロ演算をディスパッチすることができる。また、連続するディスパッチ間で、最小数（例えば、４つ）のサイクルが望ましい場合があり、例えば、ここで、Ｃ−行列がサイクル１にて読み取られ、サイクル２にて乗算結果（例えばＡ×Ｂ）と累算され、サイクル３にてデータバッファに再び書き込まれ、サイクル４にて再び読み取られ得る前にもう１回のサイクルがある。これは、上記の段階が単一のサイクルにあることを仮定している。他の実施形態では、段階は、１つより多くのサイクルをそれぞれ取ってもよい。特定の実施形態では、タイルＢは、以下におけるＢ行列である。

例えば、スケジューリングは以下に従う。

である場合、（Ｍまたは最小サイクル）の最大値だけ待機し、そうでなければ、（Ｍ、Ｋ、または最小サイクル）の最大値だけ待機する。

特定の実施形態では、Ｍ，Ｋ，Ｎに対する行列演算の実行において、Ｂ行列の転送は、Ｋ（例えば、最大１６）サイクル（例えば、Ｂ−移行期間）の間に行われ、Ｂ−移行期間中、同じＢ行列を使用する次の演算（例えば、

は、そのＡ−バッファがフリーである場合、実行を開始することができる。例えば、Ｍ，Ｋ，ＮのＢ−移行期間が終了すると、演算は通常に戻り、Ｂ行列が読み取られて、データバッファ（例えば、図２１におけるデータバッファ２１０５）（例えば、タイル行列バッファ（ＴＭＢ））から演算回路に（例えば、図２１におけるＦＭＡグリッド２１０９にまたは図２２におけるバッファ回路に）（例えば、タイル行列乗算器（ＴＭＭ））転送される。使用が連続する一実施形態では、回路（例えば、スケジューリング回路）（例えば、ＯоＯＲＳ回路からの操作を伴う）は、例えば、バッファ（例えば、Ｂ−バッファ）のリクラメーションおよび再割り当てを防止するので、キャッシングが不要となる。従って、第１の（例えば、スループット効率的な）スケジューリングモードを利用するコンピュータは、演算をより早くディスパッチする能力を有することだけでなく、データバッファ（例えば、図２１におけるデータバッファ２１０５）からのデータの読み取り（例えば、Ｂ−バスを介する）が排除される場合、電力消費を低減することによっても改善される。

特定の実施形態では、データバッファ（例えば、図２１におけるデータバッファ２１０５）からのデータが、演算回路に（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路に）記憶されると、データバッファは、リクレームされ、例えば、使用から割り当て解除され、次に、異なる演算（例えば、異なる命令）のための行列（例えば、新たなタイルＢ）を記憶するように再割り当てされてよい。特定の実施形態では、入力行列を再利用する、例えば、演算回路内に（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路に）既に記憶されたタイルを再利用する、第１の（例えば、スループット効率的な）スケジューリングモードにおける場合、のリクラメーション。

一実施形態では、入力行列を再利用する第１の（例えば、スループット効率的な）スケジューリングモードの場合、スケジューリング回路は、前の演算（例えば、単一の命令）および次の演算（例えば、単一の命令）の実行間でのバッファ（例えば、演算回路における行列Ｂのバッファ）のリクラメーションを防止する、および／または、入力行列を再利用しない第２のスケジューリングモードの場合、スケジューリング回路は、前の演算（例えば、単一の命令）および次の演算（例えば、単一の命令）の実行間でのバッファ（例えば、演算回路における行列Ｂのバッファ）のリクラメーションを可能にする。一実施形態では、入力行列を再利用しない第２のスケジューリングモードの場合、スケジューリング回路は、前の演算（例えば、命令）および次の演算（例えば、命令）の実行間でのバッファ（例えば、演算回路における行列Ｂのバッファ）のリクラメーションを開始する。行列演算アクセラレータ回路（例えば、コントローラ回路）は、入力２次元行列を表す複数のレジスタのそれぞれに識別値を割り当ててよく、融合乗累算回路の２次元グリッドの第２のバッファが第２の入力２次元行列と同一である直前の入力２次元行列を記憶しているかどうかのチェックは、前の演算（例えば、命令）および次の演算（例えば、命令）からの対応する入力２次元行列のそれぞれの識別値を比較することであってよい。行列演算アクセラレータ回路（例えば、コントローラ回路）は、同一の値を有する行列に同一のＩＤ値を割り当ててよい。行列演算アクセラレータ回路（例えば、コントローラ回路）は、異なる値を有する行列に異なるＩＤ値を割り当ててよい。例えば、第１の演算（例えば、命令）は、入力２次元行列に割り当てられた第１の値を有してよく、第２の演算（例えば、命令）は、第１の演算におけるものと同一の入力２次元行列である場合は同一の値が割り当てられ、異なる入力２次元行列である場合は異なる値が割り当てられてよい。

特定の実施形態では、スケジューリング回路２５００は、演算（例えば、マイクロ演算）が選択され、および／または実行のために演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路）にディスパッチされた場合、対応するキュー（例えば、図２３におけるキュー２３０８）における有効なビットをクリアする、および／または、（例えば、次の演算を選択決定に利用可能にするために）対応するキュー（例えば、図２３におけるキュー２３０８）におけるそのヘッドポインタを更新する。一実施形態では、Ｂ−バッファデータの再利用は、「再利用の可能性がある」第２の演算が到着したとき、Ｂ値をＢ−バッファにロードする操作がなおも続行している場合にのみ可能になる。このとき、その第２の演算は、第１の演算との連続性が発見された場合にのみ第２の演算が再利用された値を使用するように、第１の演算との連続性に関してチェックされる。例えば、再利用されることになるＢ値を使用する第１の演算が完了していない場合、そのＢバッファはリクレームされ得ないので、（例えば、連続性がある限り）第２の演算によって使用することができる。

特定の実施形態では、入力行列を再利用する第１の（例えば、スループット効率的な）スケジューリングモードは、（例えば、浮動小数点）ＦＰ行列演算アクセラレータ回路のパフォーマンスを高めるために用いられる。本明細書に開示されるスケジューリングは、行列演算アクセラレータ回路設計に限定されず、継承制限を伴って他の可変レイテンシマイクロアーキテクチャに拡張可能であることを理解されたい。さらに、本明細書に開示されるスケジューリングは、ＦＭＡ回路が１サイクルレイテンシを前提とする場合にも拡張可能である。

特定の実施形態では、行列は、利用可能ハードウェア（例えば、演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路）よりも大きな寸法を有してもよい。本明細書における特定の実施形態は、スケジューリング（例えば、演算（例えば、マイクロ演算）のディスパッチ）のための複数の（例えば、３つの）カウンタ、すなわちユニット制限に対処するＫ_ｅｖｅｎ、Ｋ_ｏｄｄ、およびＭ_ｃと、Ｂ_Ｋ×Ｎ行列の再利用をチェックするためのメカニズムとを利用する。さらに、本明細書における特定の実施形態は、例えば、寸法（例えば、Ｋ）が利用可能なハードウェアよりも大きい（例えば、Ｋ＞８である）場合に演算（例えば、マイクロｏｐ）を処理するための二次キューを実装し、ここで、これらの演算（例えば、マイクロｏｐ）が演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路）における２回目のラウンドについて高い優先度でディスパッチされる。

一実施形態では、スケジューリング回路は、Ｍサイクルの間、第１行Ｂ_０∈Ｂ_Ｋ×Ｎを保持し、異なるサイクルにおいて行列Ａ_Ｍ×Ｋの第１列のＭ個の要素のそれぞれをブロードキャストする。特定の実施形態では、１つのサイクルまたは複数のサイクル（例えば、２サイクル）の後、Ｍサイクルが第２の部分的なＦＭＡ演算を計算する間、ＦＭＡグリッドの次のＦＭＡアレイ（例えば、行または列）が占有される。特定の実施形態では、このシーケンシャルパイプライン化モードは、Ｋ個のＦＭＡアレイを通してＫ個の部分的なＦＭＡ演算が計算されるまで実行される。一実施形態では、ＦＭＡグリッドの利用は、３つの主要な制限、すなわち、（１）デスティネーションにおける行数、（２）Ｂ−バスの帯域幅（例えば、サイクルごとに５１２ビット）、および（３）ＦＭＡアレイの数（例えば、行または列）によって制限される。（１）の一例として、Ｍ＜所与の値（例えば、１６）の場合、Ｍサイクルの後、第１のＦＭＡ０アレイは利用可能かつフリーであるので、Ｍサイクルの後、次の演算（例えば、マイクロ演算）を実行のために送信可能である。例えば、Ｍ＝１２の場合、第１のＦＭＡ０は、最初の１２サイクル中に使用される。しかしながら、デスティネーションＷＢの最初の結果は、１６サイクルによって計算される。これはつまり、この例では、最初の演算（例えば、マイクロ演算）が完了する前に、次の演算（例えば、マイクロ演算）をディスパッチすることができる、ということである。（２）の一例として、ＦＭＡグリッドは、サイクルにおいて単一のＢ_Ｋ×Ｎ行列の行を受け取ることを制限される。一実施形態では、ＦＭＡ回路の加算器は、所与の数の（例えば、２つの）サイクルレイテンシを有し、これはつまり、２サイクルごとに一度、Ｂ−バスの閾値（例えば、５１２ビット）まで送信することが必要とされる、ということである。従って、特定の実施形態は、２つの演算（例えば、マイクロ演算）を同時に実行し、Ｂ−バスを毎サイクル、ビジーに保持する。さらに、特定の実施形態は、連続する命令を通して再利用するためにバッファ内にＢ_Ｋ×Ｎ行列の行を保持する。（３）の一例として、ＦＭＡグリッドアーキテクチャは、所与の数（例えば、１６個の）までの部分的な積加算（例えば、Ｋ≦１６）をサポートする一方で、ＦＭＡグリッドは、所与の数より少ない（例えば、８個の）ＦＭＡアレイ（例えば、行または列）を含む。Ｋ≦８である場合、１６サイクル後に結果が準備完了するが、Ｋ＞８である場合、代替的な解決策が必要である。

図２６は、本開示の実施形態による、複数のパスのための行列演算アクセラレータ回路のディスパッチ回路２６００を示す。ディスパッチ回路２６００は、２つのキュー、すなわち、メインキュー２６１０および第２のパスキュー２６１２を含む。一実施形態では、メインキュー２６１０は、演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路）における演算の実行のために重要な情報を保持する。

一実施形態では、第２のパスキュー２６１２は、演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路）における第２のパスに適格な演算（例えば、マイクロ演算）（例えば、Ｋ＞８である）を保持し、上記（３）に対処する。一実施形態では第２のパスキュー２６１２に挿入されたすべての演算（例えば、マイクロ演算）は、第２のパスに再びディスパッチされる前に、１６サイクルの間、保留される。演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路）がより小さい数（例えば、８つ）のＦＭＡ回路に限定される実施形態では、第２のパスが必要とされる。第２のパスは、少なくとも１６サイクル後（例えば、１６サイクル＝８つのＦＭＡユニット×２サイクルＡＤＤレイテンシ）に再開することができる。この分割は、第１および第２の経路において計算される項も示す以下によって可能であることに留意されたい。

一実施形態では、（例えば、ディスパッチ回路２３００のインスタンスとしての）メインキュー２６１０から演算（例えば、マイクロ演算）をディスパッチする際、その累算の数が確認される（例えば、Ｋ＞８であるかがチェックされる）。特定の実施形態では、（Ｋ≦閾値（例えば、８））である場合、演算（例えば、マイクロ演算）は、例えば、第２のパスキュー２６１２にコピーされることなく、演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路）に直接送信され、および／または、（Ｋ＞閾値（例えば、８））である場合、演算（例えば、マイクロ演算）は、例えば、第２のパスキュー２６１２にもコピーされながら、演算を演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路）に送信し続ける。一実施形態では、第２のパスキュー２６１２において、Ｋは、実行されることになる累算の残り（例えば、Ｋ−８）となるように更新される。一実施形態では、第２のパスキュー２６１２に挿入されるすべての演算（例えば、マイクロ演算）は、（例えば、１６）サイクルカウンタをトリガする。一実施形態では、カウンタがカウント（例えば、１６サイクル）を完了すると、その対応する演算（例えば、マイクロ演算）は、第２の実行部分のために演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路）に送信されるのに適格である。一実施形態では、第２のパスキュー２６１２における演算（例えば、マイクロ演算）は、より古いので、準備完了した場合には、ディスパッチに関して優先される。以下をキュー選択のために用いることができる。

一実施形態では、ディスパッチ回路２６００のスケジューリング回路２６０２は、マルチプレクサ２６０４を利用して、第２のパスキュー２６１２からのエントリを選択する。例えば、マルチプレクサ２６０６がメインキュー２６１０または第２のキュー２６１２のいずれかから選択して、出力２６０８を介してＦＭＡグリッドに送信される演算を提供する。

図２７は、本開示の実施形態による、複数のパスのための行列演算アクセラレータ回路のディスパッチ回路のスケジューリング回路２７００を示す図である。これらの実施形態における入力行列は、入力「Ｂ」行列（例えば、タイル）を参照するが、これは例示に過ぎず、他の行列（例えば、タイル）が同様にスケジューリングしてよい。

スケジューリング回路２７００は、行列演算アクセラレータ回路において実行されることになる次の演算（例えば、マイクロ演算）、具体的には、選択され、および／または実行のために演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるＰＥ回路）にディスパッチされる次の演算を特定する値を受け取る入力２７０２を備える。一実施形態では、入力２７０２は、図２３からの出力２３０４を受信する。

特定の実施形態では、入力２７０２は、スケジューリング回路２７００によってディスパッチされることになる次の演算（例えば、および対応する入出力タイル）を識別する。これらの実施形態の特定の実施形態では、入力２７０２は、タイル（例えば、図２１におけるデータバッファ（例えば、レジスタ）２１０５におけるタイルを形成するレジスタのセット）を表す識別（ＩＤ）値を含む。スケジューリング回路２７００は、行列演算アクセラレータ回路によって処理されている現在のタイルを識別するストレージ２７０４を備え、具体的には、ストレージ２７０４は、演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路）にそのデータがロードされた（またはそのデータがそこにロードされている／そこからロードされている）現在のタイルを識別してよい。一実施形態では、スケジューリング回路２７００は、ストレージ２７０４内の識別値が有効な値であるかまたは無効な値である（例えば、ハードウェアが別のタイルを、従って別の識別値をロードしている）かを示すために、有効なタイル（例えば、タイルＢ）のストレージ２７０６を含む。

スケジューリング回路２７００は、（ｉ）演算回路に（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路に）ロードされている現在のタイル（例えば、タイルＢ）と、（ｉｉ）演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路）にロードされることになる次のタイル（例えば、次のタイルＢ）とを比較するために、比較回路２７０８を含む。一実施形態では、この比較は、各タイルのスケジューリング回路によって提供される識別値、例えば、行列演算アクセラレータのデータバッファ（例えば、図２１におけるデータバッファ２１０５）へのタイルのエントリに際して提供される識別値を比較することによって行われ、例えば、ここで、識別値は、タイルの値が演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路）に入力される前に、各タイルに与えられる。

特定の実施形態では、比較回路２７０８は、（ｉ）次の演算のための入力２７０２からの入力タイル（例えば、図２１におけるデータバッファ２１０５内のそのＩＤ値）（例えば、「新たなタイルＢ」）と、（ｉｉ）演算回路に現在ロードされている（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路に現在ロードされている）現在のタイル（例えば、タイルＢ）、例えば、図２１におけるＦＭＡグリッド２１０９に現在ロードされているタイルのための図２１におけるデータバッファ２１０５のＩＤ値とを比較する。一実施形態では、比較回路２７０８は、使用中の現在のタイルのＩＤ値と、演算回路において用いられることになる次のタイルのＩＤ値とを比較し、等しければ、それらが等しいことを示す値（例えば、１）をアサートする。一実施形態では、比較回路２７０８は、ストレージ２７０４からの使用中の現在のタイルのＩＤ値と、演算回路において用いられることになる次のタイルのＩＤ値とを比較し、等しければ、ストレージ２７０６もまたストレージ２７０４内の識別値が有効な値であると示す場合はそれらが等しいことを示す値（例えば、１）をアサートし、例えば、そうでなければ、異なる値（例えば、ゼロ）をアサートする。

特定の実施形態では、（ｉ）演算回路に（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路に）ロードされている現在のタイル（例えば、タイルＢ）が、（ｉｉ）演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路）にロードされることになる次のタイル（例えば、次のタイルＢ）と等しい場合、同じタイル（例えば、同じタイルＢ）値（例えば、１）がアサートされて、例えば、演算回路とは別個のデータバッファ（例えば、図２１におけるデータバッファ２１０５）から再ロードすることなく、入力行列を再利用する、例えば、演算回路内に（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路に）既に記憶されているタイルＢを再利用するスケジューリングモードに（例えば、出力２７１０を介して）切り替えさせる。

特定の実施形態では、比較回路２７０８は、（ｉ）演算回路に（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路）にロードされている現在のタイル（例えば、タイルＢが、（ｉｉ）演算回路にロードされることになる次のタイル（例えば、次のタイルＢ）と等しい場合、出力２７１０において第１の値（例えば、１）を出力する。出力２７１０は、次に、ＮＯＴ論理ゲート２７２４からの入力と共に、ＯＲ論理ゲート２７２６に入力されてよい。ＯＲ論理ゲート２７２６からの出力は、ＡＮＤ論理ゲート２７３０の第１の入力に送信される。ＡＮＤ論理ゲート２７３０の他の入力は、Ｍカウンタ２７１８に結合されているＮＯＴ論理ゲート２７２８に結合されている。特定の実施形態では、ＡＮＤ論理ゲート２７３０の出力２７３２は、１の場合、次の演算（例えば、マイクロ演算）をディスパッチさせる。図２５とは対照的に、図２７は、偶数Ｋのためのカウンタ２７１６Ａと、奇数Ｋのためのカウンタ２７１６Ｂとを備え、両方のカウンタが、ＡＮＤ論理ゲート２７２０のそれぞれの入力に結合されている。一実施形態では、Ｋ偶数カウンタ２７１６Ａは、Ｂタイルを行列演算アクセラレータ回路にロードするリソース（例えば、バス）が占有されるサイクル数をカウントダウンする間、偶数Ｋに１の値をアサートし、次に、完了したら（例えば、カウンタＫ偶数に予め定められた値になったら）ゼロをアサートし、Ｋ奇数カウンタ２７１６Ｂは、Ｂタイルを行列演算アクセラレータ回路にロードするリソース（例えば、バス）が占有されるサイクル数をカウントダウンする間、奇数Ｋに１の値をアサートし、次に、完了したら（例えば、カウンタＫ奇数に予め定められた値になったら）ゼロをアサートし、Ｍカウンタ２７１８は、Ａタイルを行列演算アクセラレータ回路にロードするリソース（例えば、バス）が占有されるサイクル数をカウントダウンする間、Ｍに１の値をアサートし、次に、完了したら（例えば、カウンタＭに予め定められた値になったら）ゼロをアサートする。各ディスパッチの後、カウンタは、元（例えば、ゼロ以外）の値にリセットされてよい。

一実施形態では、図２７は、演算回路（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路）に送信される次の演算のトリガを以下のように指定する。偶数サイクルは、Ｋ偶数カウンタ２７１６Ａによって追跡され、奇数サイクルは、Ｋ奇数カウンタ２７１６Ｂによって追跡され、ディスパッチされる任意の演算（例えば、マイクロ演算）は、対応するＫ偶数カウンタまたはＫ奇数カウンタを更新し、ディスパッチされる任意の演算（例えば、マイクロ演算）は、Ｍカウンタも更新し、例えば、Ｂ_Ｋ×Ｎ行列の再利用がチェックされる。

一実施形態では、（（（Ｋ−偶数＝＝０）ＯＲ（Ｋ−奇数＝＝０）ＯＲ（ＳＡＭＥ−Ｂ＝＝１））ＡＮＤ（Ｍ＜＝１））である場合、次の演算（例えば、マイクロ演算）をディスパッチする。

一実施形態では、ディスパッチ状態は、Ｂ−バスサイクルのうちの１つ（例えば、偶数サイクルまたは奇数サイクルのいずれか）が利用可能（例えば、その対応するカウンタがゼロ）であり、第１のＦＭＡ０が利用可能（例えば、Ｍカウンタがゼロまたは１）であり、メインキュー２６１０または第２のパスキュー２６１２のいずれかにおける次の演算（例えば、マイクロ演算）を、実行のために演算回路に（例えば、図２１におけるＦＭＡグリッド２１０９または図２２におけるバッファ回路に）送信する場合を表す。

特定の実施形態では、Ｍカウンタ＝＝０であるときにトリガが発生する場合、ＡおよびＢは、同じサイクルにおいてＴＭＭに送信されるはずであり、および／または、Ｍカウンタ＝＝１である場合、Ｂ−バスは、Ａ−バスの１サイクル前にＴＭＭに送信されるはずである。特定の実施形態は、ＦＭＡ回路（例えば、ＰＥ）の実行のために複数の（例えば、２）サイクルレイテンシを前提とし、ＦＭＡ回路（例えば、ＰＥ）が単一のサイクルレイテンシを有する場合には、例えば、タイルの再利用を含むスケジューリングが可能であることに留意されたい。

以下は、スケジューリングを指定する例である。一実施形態では、タイル（例えば、タイルＢ）再利用メカニズムは、以下と共に用いられる。

例１．１３つの数、すなわちａ、ｂ、およびｃが与えられる。融合乗累算（ＦＭＡ）演算を、ｃとａおよびｂの積との加算、すなわち、以下として定義する。

例１．２３つの行列、すなわちＡ_Ｍ×Ｋ、Ｂ_Ｋ×Ｎ、およびＣ_Ｍ×Ｎが与えられる。行列乗算ＭＭ（Ｍ，Ｋ，Ｎ）を、新たな行列

をもたらす演算として定義する。ここで、各要素は、以下である。

本明細書の特定の実施形態は、Ｍ，Ｎ，Ｋ≦閾値（例えば、１６）であるアーキテクチャ制約を課す。

例１．３行列キューＭＱは、順序付きの行列乗算演算のセット、すなわち、ＭＱ＝｛ＭＭ_１，ＭＭ_２，…｝である。このセットは、ＲＳにおいて行列乗算演算が準備完了状態であることを表す。

例１．４大行列キューＢＭＱは、順序付きの行列乗算演算のセット、すなわち、ＢＭＱ＝｛ＭＭ_１，ＭＭ_２，…｝である。このキューは、制限３により、行列乗算ユニットにおける追加のラウンドを必要とする、Ｋ＞８の行列乗算演算のために用いられる。このキュー内の各要素は、内部カウンタを有し、挿入の１６サイクル後に準備完了する。この構造は、２つのさらなる更新の方法を実装し、更新と、キューＭＭの最上部が準備完了しているか否かのチェックとについて準備完了している。

一実施形態では、行列乗算（ＭＭ）演算パラメータＭ、Ｋ、ＮおよびオペランドＡ、Ｂ、Ｃのそれぞれは、ＭＭ要素プロパティ、例えば、ＭＭ．Ｋとして定義される。行列乗算ＭＭおよびそのオペランドＡ、Ｂ、Ｃを所与として、スケジューラは、初期サイクルを入力パラメータとして受け取るディスパッチ＿Ａ、ディスパッチ＿Ｂ、ディスパッチ＿Ｃの関数を通して、これらのオペランドの初期サイクル演算を同期してよい。次に、演算のための開始サイクルを規定すると、スケジューラは、動作モードに従って、ＭＭ演算の残りの実行を継続させてよい。具体的には、ディスパッチ＿Ａの入力サイクルから開始して、１番目の（例えば、ＦＭＡ＿０）アレイにおいて、各結果のサイクルにて要素ａ＿（ｉ，０）（ここで、ｉ＝０…Ｍである）をブロードキャストし、次に、２番目の（例えば、ＦＭＡ＿１）アレイにおいて、サイクル＋２にて、要素ａ＿（ｉ，１）（ここで、ｉ＝０…Ｍである）のブロードキャストを続ける、などと続く。一実施形態では、ＭＭ．Ｃオペランドが、Ａの挿入の２サイクル後にディスパッチ＿Ｃを通してＦＭＡ＿０アレイに挿入される。なぜならば、これがＦＭＡ乗算演算を終了する時であるからである。一実施形態では、ディスパッチ＿Ｂは、２サイクルごとにＢ＿ｉ行全体をＦＭＡ＿ｉに挿入する。ここで、それぞれ、ｉ＝０…Ｋである。いくつかの実施形態によると、サイクルごとに１つの行列の行をロードすることは、システム制約であることに留意されたい。実際、この制約に基づき、スケジューラは、タイムラインを偶数サイクルと奇数サイクルとに分割し、ＭＭ演算をこれらの分類されたサイクルに挿入してよい。次に、これらのサイクルのうちの１つが、毎サイクル更新されるＭ、Ｋ＿偶数、Ｋ＿奇数のカウンタを通して挿入自由である場合、ラックする（ｒａｃｋ）。ＭＭ．Ｋ＞８の場合、特定の実施形態では、ＭＭ（Ｍ，Ｋ，Ｎ）演算を２つの演算、すなわち、ＭＭ（Ｍ，８，Ｎ）とＭＭ（Ｍ，Ｋ−８，Ｎ）とに分割する。一実施形態では、ＭＭ（Ｍ，８，Ｎ）演算は、ＭＭ（Ｍ，Ｋ，Ｎ）の最初の８つのＦＭＡ演算を含み、挿入されると実行のために立て続けに送信され、ここで、ＭＭ（Ｍ，Ｋ−８，Ｎ）は、（例えば、図２６におけるメインキュー２６１０にて）エンキューされて、演算の少なくとも閾値数（例えば、１６）サイクルだけ待機し（ＭＭ（Ｍ，８，Ｎ）が最初のラインの結果を計算し終えるまで）、その後、実行されると、このＭＭ（Ｍ，８，Ｎ）の結果は、行列ＭＭ（Ｍ，Ｋ−８，Ｎ）のＣ入力として挿入される。

図２８は、本開示の実施形態による、行列演算回路のための疑似コード２８００を示す図である。

図２９は、本開示の実施形態による、行列演算命令を処理する方法２９００を示す図である。プロセッサ（例えば、またはプロセッサコア）は、例えば、ソフトウェアから命令を実行する要求を受信したことに応答して、方法２９００を実行してよい。プロセッサ（例えば、またはプロセッサコア）は、特定の演算を行列演算アクセラレータ回路にオフロードしてよい。図示の方法２９００は、第１の入力２次元行列を識別する第１のフィールドと、第２の入力２次元行列を識別する第２のフィールドと、結果ストレージを識別するフィールドとを有する命令をフェッチし（２９０２）、ハードウェアプロセッサコアのデコーダを用いて、上記命令をデコードしてデコードされた命令にし、ここで、ハードウェアプロセッサコアは、融合乗累算回路の２次元グリッドを含む行列演算アクセラレータ回路に結合され、行列演算アクセラレータ回路は、第１の入力２次元行列を表す第１の複数のレジスタおよび第２の入力２次元行列を表す第２の複数のレジスタに結合され（２９０４）、第１のフィールド（例えば、タイルＡ）、第２のフィールド（例えば、タイルＢ）（および、任意選択で第３のフィールド（例えば、タイルＣ））と関連付けられたデータを取得し（２９０６）、（任意選択で）実行のためにデコードされた命令をスケジューリングし（２９０８）、デコードされた命令を実行して、融合乗累算回路の２次元グリッドの第１のバッファに第１の複数のレジスタからの第１の入力２次元行列をロードし、融合乗累算回路の２次元グリッドの第２のバッファが、第２の入力２次元行列と同一である直前の入力２次元行列を記憶しているかをチェックし、融合乗累算回路の２次元グリッドの第２のバッファが、前の命令の実行から、第２の入力２次元行列と同一である直前の入力２次元行列を記憶している場合、前の命令およびデコードされた単一の命令の実行の間での第２のバッファのリクラメーションを防止し、第１のバッファからの第１の入力２次元行列および第２のバッファからの直前の入力２次元行列に演算を実行して結果を生成し、結果を結果ストレージに記憶し、融合乗累算回路の２次元グリッドの第２のバッファが、前の命令の実行から、第２の入力２次元行列と同一である直前の入力２次元行列を記憶していない場合、第２の入力２次元行列を融合乗累算回路の２次元グリッドの第２のバッファにロードし、第１のバッファからの第１の入力２次元行列および第２のバッファからの第２の入力２次元行列に演算を実行して結果を生成し、結果を結果ストレージに記憶し（２９１０）、実行された命令の結果をコミットする（２９１２）ことによって、行列演算（例えば、ＦＭＡ）命令を処理する段階を含む。

上記で使用され得る例示的なアーキテクチャ、システムなどを以下で詳細に説明する。

開示される技術の少なくともいくつかの実施形態は、以下の例を参照して説明することができる。
例１．融合乗累算回路の２次元グリッドを含む行列演算アクセラレータ回路と、
上記行列演算アクセラレータ回路に結合された第１の入力２次元行列を表す第１の複数のレジスタと、
上記行列演算アクセラレータ回路に結合された第２の入力２次元行列を表す第２の複数のレジスタと、
上記行列演算アクセラレータ回路に結合されたハードウェアプロセッサコアの、単一の命令をデコードされた単一の命令にデコードするデコーダであって、上記単一の命令は、結果ストレージを識別するフィールドを含む、デコーダと、
上記ハードウェアプロセッサコアの実行回路であって、
上記融合乗累算回路の２次元グリッドの第１のバッファに、上記第１の複数のレジスタからの上記第１の入力２次元行列をロードし、
上記融合乗累算回路の２次元グリッドの第２のバッファが、上記第２の入力２次元行列と同一である直前の入力２次元行列を記憶しているかをチェックし、
上記融合乗累算回路の２次元グリッドの上記第２のバッファが、前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶している場合、
上記前の命令および上記デコードされた単一の命令の実行の間での上記第２のバッファのリクラメーションを防止し、
上記第１のバッファからの上記第１の入力２次元行列および上記第２のバッファからの上記直前の入力２次元行列に演算を実行して結果を生成し、
上記結果を上記結果ストレージに記憶し、
上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶していない場合、
上記第２の入力２次元行列を上記融合乗累算回路の２次元グリッドの上記第２のバッファにロードし、
上記第１のバッファからの上記第１の入力２次元行列および上記第２のバッファからの上記第２の入力２次元行列に演算を実行して結果を生成し、
上記結果を上記結果ストレージに記憶する、
ように、上記デコードされた単一の命令を実行する実行回路と、
を備える、装置。
例２．上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶していない場合、上記行列演算アクセラレータ回路は、上記前の命令および上記デコードされた単一の命令の実行の間での上記第２のバッファのリクラメーションを開始する、例１の装置。
例３．上記行列演算アクセラレータ回路は、入力２次元行列を表す複数のレジスタのそれぞれに識別値を割り当て、上記融合乗累算回路の２次元グリッドの上記第２のバッファが上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶しているかどうかの上記チェックは、上記前の命令および上記単一の命令からの対応する入力２次元行列のそれぞれの識別値を比較することを含む、例１の装置。
例４．上記行列演算アクセラレータ回路は、次の命令の入力２次元行列を記憶するように、上記第２の複数のレジスタに異なる識別値を割り当てる、例３の装置。
例５．上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶している場合、上記行列演算アクセラレータ回路は、上記デコードされた単一の命令の実行中、上記融合乗累算回路の２次元グリッドの上記第２のバッファをロードしない、例１の装置。
例６．上記結果ストレージは、上記デコードされた単一の命令の実行によって形成された少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、例１の装置。
例７．上記演算は、上記２次元グリッドの融合乗累算回路の第１の適切なサブセットのそれぞれの各出力を、上記２次元グリッドの融合乗累算回路の第２の適切なサブセットのそれぞれの各入力へと下流に送信して、上記結果を形成することを含む、例１の装置。
例８．上記融合乗累算回路の第１の適切なサブセットは、上記融合乗累算回路の２次元グリッドの行または列のうちの一方であり、上記融合乗累算回路の第２の適切なサブセットは、上記融合乗累算回路の２次元グリッドの上記行または上記列のうちの他方である、例７の装置。
例９．ハードウェアプロセッサコアのデコーダを用いて、単一の命令をデコードされた単一の命令にデコードする段階であって、上記ハードウェアプロセッサコアは、融合乗累算回路の２次元グリッドを含む行列演算アクセラレータ回路に結合され、上記行列演算アクセラレータ回路は、第１の入力２次元行列を表す第１の複数のレジスタおよび第２の入力２次元行列を表す第２の複数のレジスタに結合され、上記単一の命令は、結果ストレージを識別するフィールドを備える、段階と、
上記融合乗累算回路の２次元グリッドの第１のバッファに、上記第１の複数のレジスタからの上記第１の入力２次元行列をロードし、
上記融合乗累算回路の２次元グリッドの第２のバッファが、上記第２の入力２次元行列と同一である直前の入力２次元行列を記憶しているかをチェックし、
上記融合乗累算回路の２次元グリッドの上記第２のバッファが、前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶している場合、
上記前の命令および上記デコードされた単一の命令の実行の間での上記第２のバッファのリクラメーションを防止し、
上記第１のバッファからの上記第１の入力２次元行列および上記第２のバッファからの上記直前の入力２次元行列に演算を実行して結果を生成し、
上記結果を上記結果ストレージに記憶し、
上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶していない場合、
上記第２の入力２次元行列を上記融合乗累算回路の２次元グリッドの上記第２のバッファにロードし、
上記第１のバッファからの上記第１の入力２次元行列および上記第２のバッファからの上記第２の入力２次元行列に演算を実行して結果を生成し、
上記結果を上記結果ストレージに記憶する、
ように、上記ハードウェアプロセッサコアの実行回路を用いて上記デコードされた単一の命令を実行する段階と、
を含む、方法。
例１０．上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶していない場合、上記前の命令および上記デコードされた単一の命令の実行の間での上記第２のバッファのリクラメーションを開始する段階をさらに含む、例９の方法。
例１１．入力２次元行列を表す複数のレジスタのそれぞれに識別値を割り当てる段階をさらに含み、上記融合乗累算回路の２次元グリッドの上記第２のバッファが上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶しているかどうかの上記チェックは、上記前の命令および上記単一の命令からの対応する入力２次元行列のそれぞれの識別値を比較する段階を含む、例９の方法。
例１２．次の命令の入力２次元行列を記憶するように、上記第２の複数のレジスタに異なる識別値を割り当てる段階をさらに含む、例１１の方法。
例１３．上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶している場合、上記デコードされた単一の命令の実行中、上記融合乗累算回路の２次元グリッドの上記第２のバッファをロードしない段階をさらに含む、例９の方法。
例１４．上記結果ストレージは、上記デコードされた単一の命令の実行によって形成された少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、例９の方法。
例１５．上記演算は、上記２次元グリッドの融合乗累算回路の第１の適切なサブセットのそれぞれの各出力を、上記２次元グリッドの融合乗累算回路の第２の適切なサブセットのそれぞれの各入力へと下流に送信して、上記結果を形成することを含む、例９の方法。
例１６．上記融合乗累算回路の第１の適切なサブセットは、上記融合乗累算回路の２次元グリッドの行または列のうちの一方であり、上記融合乗累算回路の第２の適切なサブセットは、上記融合乗累算回路の２次元グリッドの上記行または上記列のうちの他方である、例１５の方法。
例１７．機械によって実行されると、上記機械に方法を実行させるコードを記憶した非一時的機械可読媒体であって、上記方法は、
ハードウェアプロセッサコアのデコーダを用いて、単一の命令をデコードされた単一の命令にデコードする段階であって、上記ハードウェアプロセッサコアは、融合乗累算回路の２次元グリッドを含む行列演算アクセラレータ回路に結合され、上記行列演算アクセラレータ回路は、第１の入力２次元行列を表す第１の複数のレジスタおよび第２の入力２次元行列を表す第２の複数のレジスタに結合され、上記単一の命令は、結果ストレージを識別するフィールドを備える、段階と、
上記融合乗累算回路の２次元グリッドの第１のバッファに、上記第１の複数のレジスタからの上記第１の入力２次元行列をロードし、
上記融合乗累算回路の２次元グリッドの第２のバッファが、上記第２の入力２次元行列と同一である直前の入力２次元行列を記憶しているかをチェックし、
上記融合乗累算回路の２次元グリッドの上記第２のバッファが、前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶している場合、
上記前の命令および上記デコードされた単一の命令の実行の間での上記第２のバッファのリクラメーションを防止し、
上記第１のバッファからの上記第１の入力２次元行列および上記第２のバッファからの上記直前の入力２次元行列に演算を実行して結果を生成し、
上記結果を上記結果ストレージに記憶し、
上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶していない場合、
上記第２の入力２次元行列を上記融合乗累算回路の２次元グリッドの上記第２のバッファにロードし、
上記第１のバッファからの上記第１の入力２次元行列および上記第２のバッファからの上記第２の入力２次元行列に演算を実行して結果を生成し、
上記結果を上記結果ストレージに記憶する、
ように、上記ハードウェアプロセッサコアの実行回路を用いて上記デコードされた単一の命令を実行する段階と、
を含む、非一時的機械可読媒体。
例１８．上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶していない場合、上記前の命令および上記デコードされた単一の命令の実行の間での上記第２のバッファのリクラメーションを開始する段階をさらに含む、例１７の非一時的機械可読媒体。
例１９．入力２次元行列を表す複数のレジスタのそれぞれに識別値を割り当てる段階をさらに含み、上記融合乗累算回路の２次元グリッドの上記第２のバッファが上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶しているかどうかの上記チェックは、上記前の命令および上記単一の命令からの対応する入力２次元行列のそれぞれの識別値を比較する段階を含む、例１７の非一時的機械可読媒体。
例２０．次の命令の入力２次元行列を記憶するように、上記第２の複数のレジスタに異なる識別値を割り当てる段階をさらに含む、例１９の非一時的機械可読媒体。
例２１．上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶している場合、上記デコードされた単一の命令の実行中、上記融合乗累算回路の２次元グリッドの上記第２のバッファをロードしない段階をさらに含む、例１７の非一時的機械可読媒体。
例２２．上記結果ストレージは、上記デコードされた単一の命令の実行によって形成された少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、例１７の非一時的機械可読媒体。
例２３．上記演算は、上記２次元グリッドの融合乗累算回路の第１の適切なサブセットのそれぞれの各出力を、上記２次元グリッドの融合乗累算回路の第２の適切なサブセットのそれぞれの各入力へと下流に送信して、上記結果を形成することを含む、例１７の非一時的機械可読媒体。
例２４．上記融合乗累算回路の第１の適切なサブセットは、上記融合乗累算回路の２次元グリッドの行または列のうちの一方であり、上記融合乗累算回路の第２の適切なサブセットは、上記融合乗累算回路の２次元グリッドの上記行または上記列のうちの他方である、例２３の非一時的機械可読媒体。

さらに他の実施形態では、装置は、コードを格納するデータストレージデバイスを備え、コードは、ハードウェアプロセッサによって実行されると、本明細書に開示される任意の方法をハードウェアプロセッサに実行させる。装置は、詳細な説明に記載されたものと同じであってよい。方法は、詳細な説明に記載されたものと同じであってよい。

［詳細な例示的システム、プロセッサ、およびエミュレーション］
上述された命令を実行するハードウェア、ソフトウェアなどの例が本明細書で詳述される。例えば、下記で説明されるものは、フェッチ、デコード、スケジュール、実行、リタイアなどの様々なパイプライン段階を含む命令実行の態様を詳述する。

［命令セット］
命令セットは、１つまたは複数の命令フォーマットを含んでよい。所与の命令フォーマットは、とりわけ、実行されるべき演算（例えば、オペコード）およびその演算が実行されるべきオペランドを指定する様々なフィールド（例えば、ビットの数、ビットの位置）、ならびに／または他のデータフィールド（例えば、マスク）を定義してよい。いくつかの命令フォーマットは、命令テンプレート（またはサブフォーマット）の定義によってさらに分類される。例えば、所与の命令フォーマットの命令テンプレートは、命令フォーマットのフィールドの異なるサブセットを有するように定義され（含まれるフィールドは通常同じ順序であるが、含まれるフィールドが少ないため少なくともいくつかは異なるビット位置を有する）、かつ／または所与のフィールドが異なって解釈されるように定義されてもよい。従って、ＩＳＡの各命令は、所与の命令フォーマット（および定義されている場合その命令フォーマットの命令テンプレートのうちの所与の１つ）を使用して表現され、演算およびオペランドを指定するためのフィールドを含む。例えば、例示的なＡＤＤ命令は、特定のオペコード、ならびにそのオペコードを指定するオペコードフィールドおよびオペランド（ソース１／デスティネーションおよびソース２）を選択するオペランドフィールドを含む命令フォーマットを有し、命令ストリーム内でこのＡＤＤ命令が出現すると、特定のオペランドを選択するオペランドフィールド内に特定の内容が含まれる。ＡｄｖａｎｃｅｄＶｅｃｔｏｒＥｘｔｅｎｓｉｏｎｓ（ＡＶＸ）（ＡＶＸ１およびＡＶＸ２）と称され、ベクトル拡張（ＶＥＸ）コーディングスキームを使用するＳＩＭＤ拡張のセットが、リリースおよび／または公開されている（例えば、インテル（登録商標）６４およびＩＡ−３２アーキテクチャソフトウェア開発者マニュアル、２０１８年１１月を参照、かつインテル（登録商標）アーキテクチャ命令セット拡張プログラミングリファレンス、２０１８年１０月、を参照されたい）。

［例示的な命令フォーマット］
本明細書に記載される命令の実施形態は、異なるフォーマットで具現化され得る。さらに、例示的なシステム、アーキテクチャ、およびパイプラインが下記で詳述される。命令の実施形態は、そのようなシステム、アーキテクチャ、およびパイプライン上で実行されてもよいが、詳述されたものに限定されない。

［汎用ベクトル向け命令フォーマット］
ベクトル向け命令フォーマットとは、ベクトル命令に適した命令フォーマットのことである（例えば、ベクトル演算に特有の特定のフィールドが存在する）。ベクトルおよびスカラ演算の両方がベクトル向け命令フォーマットによりサポートされる実施形態が説明されるが、代替的な実施形態は、ベクトル向け命令フォーマットによるベクトル演算のみを用いる。

図３０Ａおよび図３０Ｂは、本開示の実施形態による、汎用ベクトル向け命令フォーマットおよびこれらの命令テンプレートを示すブロック図である。図３０Ａは、本開示の実施形態による、汎用ベクトル向け命令フォーマットおよびそのクラスＡ命令テンプレートを示すブロック図であり、図３０Ｂは、本開示の実施形態による、汎用ベクトル向け命令フォーマットおよびそのクラスＢ命令テンプレートを示すブロック図である。具体的には、汎用ベクトル向け命令フォーマット３０００には、クラスＡ命令およびクラスＢ命令テンプレートが定義され、その両方が非メモリアクセス３００５の命令テンプレートおよびメモリアクセス３０２０の命令テンプレートを含む。ベクトル向け命令フォーマットの文脈における汎用という用語は、いずれの特定の命令セットにも結び付けられていない命令フォーマットを指す。

本開示の実施形態では、ベクトル向け命令フォーマットが、３２ビット（４バイト）または６４ビット（８バイト）データ要素幅（またはサイズ）を有する６４バイトのベクトルオペランド長（またはサイズ）（従って、６４バイトのベクトルは、１６個のダブルワードサイズの要素または代替的に８クワッドワードサイズの要素のいずれかから構成される）と、１６ビット（２バイト）または８ビット（１バイト）データ要素幅（またはサイズ）を有する６４バイトのベクトルオペランド長（またはサイズ）と、３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）または８ビット（１バイト）データ要素幅（またはサイズ）を有する３２バイトのベクトルオペランド長（またはサイズ）と、３２ビット（４バイト）、６４ビット（８バイト）、１６ビット（２バイト）または８ビット（１バイト）データ要素幅（またはサイズ）を有する１６バイトのベクトルオペランド長（またはサイズ）とをサポートすることが説明されるが、代替的な実施形態は、より多い、より少ないまたは異なるデータ要素幅（例えば、１２８ビット（１６バイト）のデータ要素幅）を有する、より多い、より少ないおよび／または異なるベクトルオペランドサイズ（例えば、２５６バイトのベクトルオペランド）をサポートしてよい。

図３０ＡにおけるクラスＡ命令テンプレートは、１）非メモリアクセス３００５の命令テンプレート中に示される非メモリアクセス、フルラウンド制御タイプ演算３０１０命令テンプレート、および非メモリアクセス、データ変換タイプ演算３０１５の命令テンプレート、ならびに２）メモリアクセス３０２０の命令テンプレート中に示されるメモリアクセス、一時的３０２５の命令テンプレート、およびメモリアクセス、非一時的３０３０の命令テンプレートを含む。図３０ＢのクラスＢ命令テンプレートは、１）非メモリアクセス３００５の命令テンプレート中に示される非メモリアクセス、書き込みマスク制御、部分的ラウンド制御タイプ演算３０１２の命令テンプレート、および非メモリアクセス、書き込みマスク制御、ＶＳＩＺＥタイプ演算３０１７の命令テンプレート、ならびに２）メモリアクセス３０２０の命令テンプレート中に示されるメモリアクセス、書き込みマスク制御３０２７の命令テンプレートを含む。

汎用ベクトル向け命令フォーマット３０００は、以下に列挙されるフィールドを図３０Ａおよび図３０Ｂ中に図示される順序で含む。

フォーマットフィールド３０４０：このフィールド内の特定の値（命令フォーマット識別子値）は、ベクトル向け命令フォーマット、従って命令ストリーム内のベクトル向け命令フォーマット内の命令の出現を一意に識別する。そのため、このフィールドは、汎用ベクトル向け命令フォーマットのみを有する命令セットには不要であるという意味においてオプションである。

基本演算フィールド３０４２：その内容は異なる基本演算を区別する。

レジスタインデックスフィールド３０４４：その内容は、直接またはアドレス生成を通じて、レジスタ内またはメモリ内にあっても、ソースおよびデスティネーションオペランドの位置を指定する。これらは、Ｐ×Ｑ（例えば、３２×５１２、１６×１２８、３２×１０２４、６４×１０２４）のレジスタファイルからＮ個のレジスタを選択するのに十分な数のビットを含む。一実施形態では、Ｎは最大３つのソースおよび１つのデスティネーションレジスタであり得るが、代替的な実施形態は、より多いかまたは少ないソースおよびデスティネーションレジスタをサポートしてもよい（例えば、最大２つのソースをサポートしてよく、これらのソースのうちの１つがデスティネーションとしても機能し、最大３つのソースをサポートしてよく、これらのソースのうちの１つがデスティネーションとしても機能し、最大２つのソースおよび１つのデスティネーションをサポートしてもよい）。

修飾子フィールド３０４６：その内容は、メモリアクセスを指定する汎用ベクトル命令フォーマットの命令の出現を、メモリアクセスを指定しない命令と区別する、すなわち、非メモリアクセス３００５命令テンプレートとメモリアクセス３０２０命令テンプレートとを区別する。メモリアクセス演算は、メモリ階層に対して読み取りおよび／または書き込みを行う（場合によっては、レジスタ内の値を使用してソースアドレスおよび／またはデスティネーションアドレスを指定する）、一方、非メモリアクセス演算はこれを行わない（例えば、ソースおよびデスティネーションはレジスタである）。一実施形態では、このフィールドは、メモリアドレス計算を実行する３つの異なる方法からも選択するが、代替的な実施形態は、メモリアドレス計算を実行するための、より多い、少ない、または異なる方法をサポートし得る。

拡張演算フィールド３０５０：その内容は、基本演算に加えて、様々な異なる演算のうちのどの演算が実行されるべきかを区別する。このフィールドはコンテキスト固有である。本開示の一実施形態では、このフィールドは、クラスフィールド３０６８、アルファフィールド３０５２、およびベータフィールド３０５４に分割される。拡張演算フィールド３０５０は、共通の演算グループが、２個、３個または４個の命令ではなく単一の命令の中で実行されることを可能にする。

スケールフィールド３０６０：その内容は、メモリアドレス生成のために（例えば、２スケール×インデックス＋ベースを使用するアドレス生成のために）インデックスフィールドの内容のスケーリングを可能にする。

変位フィールド３０６２Ａ：その内容は、メモリアドレス生成の一部として（例えば、２スケール×インデックス＋ベース＋変位を使用するアドレス生成用に）使用される。

変位係数フィールド３０６２Ｂ（変位係数フィールド３０６２Ｂの真上の変位フィールド３０６２Ａの並置は、一方または他方が使用されることを示すことに留意されたい）：その内容は、アドレス生成の一部として使用され、それは、メモリアクセスのサイズ（Ｎ）によってスケーリングされるべき変位係数を指定する。Ｎは、（例えば、２スケール×インデックス＋ベース＋スケーリングされた変位を使用するアドレス生成用の）メモリアクセスにおけるバイト数である。冗長な下位ビットは無視されるため、実効アドレスの計算に使用されるべき最終変位を生成するために、変位係数フィールドの内容はメモリオペランドの合計サイズ（Ｎ）と乗算される。Ｎの値は、（本明細書において後述される）フルオペコードフィールド３０７４およびデータ操作フィールド３０５４Ｃに基づいて、実行時にプロセッサハードウェアによって決定される。変位フィールド３０６２Ａおよび変位係数フィールド３０６２Ｂは、それらが非メモリアクセス３００５の命令テンプレートには使用されない、および／または、異なる実施形態がそれら２つのうちの一方のみを実装してよい、またはいずれも実装しなくてよいという意味において任意選択的である。

データ要素幅フィールド３０６４：その内容は、（いくつかの実施形態ではすべての命令に、他の実施形態ではいくつかの命令のみに）複数のデータ要素幅のうちのどのデータ要素幅が使用されるべきかを区別する。このフィールドは、１つのデータ要素幅のみがサポートされる場合、および／またはオペコードの何らかの態様を使用してデータ要素幅がサポートされる場合には必要とされないという意味で、任意選択的である。

書き込みマスクフィールド３０７０：その内容は、データ要素位置ごとに、デスティネーションベクトルオペランド内のそのデータ要素位置が基本演算および拡張演算の結果を反映するか否かを制御する。クラスＡ命令テンプレートがマージング−書き込みマスキングをサポートする一方で、クラスＢ命令テンプレートはマージング−書き込みマスキングおよびゼロ化−書き込みマスキングの両方をサポートする。マージングする場合、ベクトルマスクは、デスティネーションにおける要素の任意のセットが（基本演算および拡張演算により指定された）任意の演算の実行中に更新から保護されることを可能にする。他の一実施形態では、対応するマスクビットが０であるデスティネーションの各要素の古い値を保持する。対照的に、ゼロ化する場合、ベクトルマスクは、デスティネーションにおける要素の任意のセットが、（基本演算および拡張演算において指定された）任意の演算の実行中にゼロにされることを可能にする。一実施形態では、対応するマスクビットが０値を有する場合、デスティネーションの要素は０に設定される。この機能のサブセットは、実行されている演算のベクトル長（すなわち、修正される要素の、最初の要素から最後の要素までの範囲）を制御する能力であるが、修正される要素が連続している必要はない。従って、書き込みマスクフィールド３０７０は、ロード、ストア、算術、ロジックなどを含む、部分的なベクトル演算を可能にする。書き込みマスクフィールド３０７０の内容が、用いられる書き込みマスクを含む多数の書き込みマスクレジスタのうちの１つを選択する（従って、書き込みマスクフィールド３０７０の内容は、実行されるそのマスキングを間接的に識別する）本開示の実施形態が説明される一方、代替的な実施形態では、代わりにまたは加えて、マスク書き込みフィールド３０７０の内容が、実行されるマスキングを直接指定することを可能にする。

即値フィールド３０７２：その内容は即値の指定を可能にする。このフィールドは、即値をサポートしていない汎用ベクトル向けフォーマットの実装において存在せず、即値を用いない命令中に存在しないという意味で任意選択である。

クラスフィールド３０６８：その内容は異なるクラスの命令を区別する。図３０Ａおよび図３０Ｂを参照すると、このフィールドの内容は、クラスＡ命令とクラスＢ命令との間で選択する。図３０Ａおよび図３０Ｂでは、特定の値がフィールド内に存在することを示すために、角丸四角形が使用されている（例えば、それぞれ図３０Ａおよび図３０Ｂにおけるクラスフィールド３０６８のクラスＡ３０６８ＡおよびクラスＢ３０６８Ｂ）。

［クラスＡの命令テンプレート］
クラスＡの非メモリアクセス３００５の命令テンプレートの場合、アルファフィールド３０５２はＲＳフィールド３０５２Ａとして解釈され、その内容は、異なる拡張演算タイプのうちどれが実行されるべきかを区別し（例えば、ラウンド３０５２Ａ．１およびデータ変換３０５２Ａ．２が非メモリアクセス、ラウンドタイプ演算３０１０および非メモリアクセス、データ変換タイプ演算３０１５命令テンプレートに対してそれぞれ指定される）、ベータフィールド３０５４は、指定されたタイプの演算のどれが実行されるべきかを区別する。非メモリアクセス３００５の命令テンプレートには、スケールフィールド３０６０、変位フィールド３０６２Ａ、および変位スケールフィールド３０６２Ｂは存在しない。

［非メモリアクセス命令テンプレート―フルラウンド制御タイプ演算］
非メモリアクセスフルラウンド制御タイプ演算３０１０命令テンプレートでは、ベータフィールド３０５４はラウンド制御フィールド３０５４Ａとして解釈され、その内容は静的なラウンディングを提供する。説明される本開示の実施形態では、ラウンド制御フィールド３０５４Ａは、全浮動小数点例外抑制（ＳＡＥ）フィールド３０５６およびラウンド演算制御フィールド３０５８を含み、代替的な実施形態では、これらの概念の両方をサポートし、同じフィールドにエンコードしてもよいし、これらの概念／フィールドの一方または他方のみを有してもよい（例えば、ラウンド演算制御フィールド３０５８のみを有してよい）。

ＳＡＥフィールド３０５６：その内容は、例外イベント報告を無効化すべきか否かを区別する。ＳＡＥフィールド３０５６の内容が、抑制が有効化されたことを示すとき、所与の命令はいかなる種類の浮動小数点例外フラグも報告せず、いかなる浮動小数点例外ハンドラも発生させない。

ラウンド演算制御フィールド３０５８：その内容は、ラウンディング演算グループのうちどれを実行すべきかを区別する（例えば、切り上げ、切り捨て、ゼロへの丸め、および最近接丸め）。こうして、ラウンド演算制御フィールド３０５８は、命令ごとにラウンディングモードを変更することを可能にする。プロセッサがラウンディングモードを指定するための制御レジスタを含む本開示の一実施形態において、ラウンド演算制御フィールド３０５８の内容は、そのレジスタ値をオーバライドする。

［非メモリアクセス命令テンプレート―データ変換タイプ演算］
非メモリアクセスデータ変換タイプ演算３０１５命令テンプレートでは、ベータフィールド３０５４はデータ変換フィールド３０５４Ｂとして解釈され、その内容は、多数のデータ変換のうちどれが実行されるべきかを区別する（例えば、データ変換なし、スウィズル、ブロードキャスト）。

クラスＡのメモリアクセス３０２０命令テンプレートの場合、アルファフィールド３０５２はエビクションヒントフィールド３０５２Ｂとして解釈され、その内容は、エビクションヒントのうちどれが使用されるべきかを区別し（図３０Ａでは、メモリアクセス、一時的３０２５命令テンプレートおよびメモリアクセス、非一時的３０３０命令テンプレートのために一時的３０５２Ｂ．１および非一時的３０５２Ｂ．２がそれぞれ指定される）、その一方でベータフィールド３０５４はデータ操作フィールド３０５４Ｃとして解釈され、その内容は、多数のデータ操作演算（プリミティブとしても知られる）のうちどれが実行されるべきかを区別する（例えば、操作なし、ブロードキャスト、ソースのアップコンバージョン、およびデスティネーションのダウンコンバージョン）。メモリアクセス３０２０命令テンプレートは、スケールフィールド３０６０、および任意選択で、変位フィールド３０６２Ａまたは変位スケールフィールド３０６２Ｂを含む。

ベクトルメモリ命令は、変換サポートを用いて、メモリからのベクトルロードおよびメモリへのベクトルストアを実行する。通常のベクトル命令と同様に、ベクトルメモリ命令は、実際に転送される要素を、書き込みマスクとして選択されたベクトルマスクの内容によって指示して、データ要素ごとにメモリとの間でデータを転送する。

［メモリアクセス命令テンプレート―一時的］
一時的データとは、キャッシングによる恩恵を得るのに十分早く再利用される可能性が高いデータである。しかしながらこれはヒントであり、異なるプロセッサが、ヒント全体を無視することを含む異なる方法でこれを実装してよい。

［メモリアクセス命令テンプレート―非一時的］
非一時的データとは、第１レベルキャッシュでのキャッシングの恩恵を受けるのに十分早く再利用される可能性が低いデータであり、エビクションのために優先されるべきである。しかしながらこれはヒントであり、異なるプロセッサが、ヒント全体を無視することを含む異なる方法でこれを実装してよい。

［クラスＢの命令テンプレート］
クラスＢの命令テンプレートの場合、アルファフィールド３０５２は書き込みマスク制御（Ｚ）フィールド３０５２Ｃとして解釈され、その内容は、書き込みマスクフィールド３０７０によって制御された書き込みマスキングがマージングであるべきかゼロ化であるべきか区別する。

クラスＢの非メモリアクセス３００５の命令テンプレートの場合、ベータフィールド３０５４の一部はＲＬフィールド３０５７Ａとして解釈され、その内容は、異なる拡張演算タイプのうちどれが実行されるべきかを区別し（例えば、ラウンド３０５７Ａ．１およびベクトル長（ＶＳＩＺＥ）３０５７Ａ．２は、非メモリアクセス、書き込みマスク制御、部分的ラウンド制御タイプ演算３０１２命令テンプレートおよび非メモリアクセス、書き込みマスク制御、ＶＳＩＺＥタイプ演算３０１７命令テンプレートに対してそれぞれ指定される）、ベータフィールド３０５４の残りは、指定されたタイプの演算のどれが実行されるべきかを区別する。非メモリアクセス３００５命令テンプレートでは、スケールフィールド３０６０、変位フィールド３０６２Ａおよび変位スケールフィールド３０６２Ｂは存在しない。

非メモリアクセス、書き込みマスク制御、部分的ラウンド制御タイプ演算３０１０命令テンプレートでは、ベータフィールド３０５４の残りはラウンド演算フィールド３０５９Ａとして解釈され、例外イベント報告は無効化される（所与の命令はいかなる種類の浮動小数点例外フラグも報告せず、いかなる浮動小数点例外ハンドラも発生させない）。

ラウンド演算制御フィールド３０５９Ａ：ラウンド演算制御フィールド３０５８と同様に、その内容は、ラウンディング演算グループのうちどれを実行すべきかを区別する（例えば、切り上げ、切り捨て、ゼロへの丸め、および最近接丸め）。こうして、ラウンド演算制御フィールド３０５９Ａは、命令ごとにラウンディングモードを変更することを可能にする。プロセッサがラウンディングモードを指定するための制御レジスタを含む本開示の一実施形態では、ラウンド演算制御フィールド３０５９Ａの内容は、そのレジスタ値をオーバライドする。

非メモリアクセス、書き込みマスク制御、ＶＳＩＺＥタイプ演算３０１７命令テンプレートでは、ベータフィールド３０５４の残りはベクトル長フィールド３０５９Ｂとして解釈され、その内容は、多数のデータベクトル長のうちどれが実行されるべきかを区別する（例えば、１２８、２５６、または５１２バイト）。

クラスＢのメモリアクセス３０２０命令テンプレートの場合、ベータフィールド３０５４の一部はブロードキャストフィールド３０５７Ｂとして解釈され、その内容は、ブロードキャストタイプのデータ操作演算が実行されるべきか否かを区別し、ベータフィールド３０５４の残りはベクトル長フィールド３０５９Ｂとして解釈される。メモリアクセス３０２０命令テンプレートは、スケールフィールド３０６０、および任意選択で、変位フィールド３０６２Ａまたは変位スケールフィールド３０６２Ｂを含む。

汎用ベクトル向け命令フォーマット３０００に関して、フルオペコードフィールド３０７４は、フォーマットフィールド３０４０、基本演算フィールド３０４２およびデータ要素幅フィールド３０６４を含むように図示されている。フルオペコードフィールド３０７４がこれらのフィールドのうちすべてを含む一実施形態が示されているものの、これらのフィールドのすべてをサポートしていない実施形態においては、フルオペコードフィールド３０７４は、これらのフィールドのすべてより少ないフィールドを含む。フルオペコードフィールド３０７４は、演算コード（オペコード）を提供する。

拡張演算フィールド３０５０、データ要素幅フィールド３０６４、および書き込みマスクフィールド３０７０は、これらの特徴が汎用ベクトル向け命令フォーマットにおいて命令ごとに指定されることを可能にする。

書き込みマスクフィールドおよびデータ要素幅フィールドの組み合わせは、異なるデータ要素幅に基づいてマスクを適用できるようにするという点で、型付き命令を作成する。

クラスＡおよびクラスＢ内で見出される様々な命令テンプレートは、様々な状況で有益である。本開示のいくつかの実施形態において、異なるプロセッサまたはプロセッサ内の異なるコアは、クラスＡのみ、クラスＢのみ、または両方のクラスをサポートしてよい。例えば、汎用コンピューティング向けの高性能汎用アウトオブオーダコアは、クラスＢのみをサポートしてよく、主にグラフィックスおよび／または科学（スループット）コンピューティング向けのコアは、クラスＡのみをサポートしてよく、両方向けのコアは、両方をサポートしてよい（勿論、コアは本開示の範囲内にあり、両方のクラスからのテンプレートおよび命令の何らかの組み合わせを有するが、両方のクラスからのすべてのテンプレートおよび命令を有するわけではない）。また、単一のプロセッサが複数のコアを含んでもよく、それらのすべてが同じクラスをサポートするか、またはそれらの中の異なるコアが異なるクラスをサポートする。例えば、別個のグラフィックスおよび汎用コアを有するプロセッサでは、主にグラフィックスおよび／または科学コンピューティング向けのグラフィックスコアのうち１つはクラスＡのみをサポートしてよく、汎用コアのうちの１つまたは複数は、クラスＢのみをサポートする汎用コンピューティング向けのアウトオブオーダ実行およびレジスタリネーミングを有する高性能汎用コアであってもよい。別個のグラフィックスコアを有していない別のプロセッサは、クラスＡおよびクラスＢの両方をサポートするもう１つの汎用インオーダまたはアウトオブオーダコアを含んでよい。勿論、１つのクラスからの複数の機能は、本開示の異なる実施形態における他のクラスで実装されてもよい。高水準言語で書かれたプログラムは、１）実行のためにターゲットプロセッサによってサポートされるクラスの命令のみを有する形式、または２）すべてのクラスの命令の異なる組み合わせを使用して書かれた代替ルーチンを有し、現在コードを実行しているプロセッサによってサポートされる命令に基づいて実行すべきルーチンを選択する制御フローコードを有する形式を含む、様々な異なる実行可能な形式に変換される（例えば、ジャストインタイムコンパイルまたは静的コンパイル）。

［例示的な特定ベクトル向け命令フォーマット］
図３１Ａ〜図３１Ｄは、本開示の実施形態による、例示的な特定ベクトル向け命令フォーマットを示すブロック図である。図３１Ａ〜図３１Ｄは、位置、サイズ、解釈およびフィールド順序に加え、これらのフィールドのいくつかの値を指定するという意味において特定的な特定ベクトル向け命令フォーマット３１００を示す。特定ベクトル向け命令フォーマット３１００は、ｘ８６命令セットを拡張するために使用されてもよく、従って、いくつかのフィールドは、既存のｘ８６命令セットおよびその拡張（例えば、ＡＶＸ）で使用されるフィールドと同様または同じである。このフォーマットは、拡張を有する既存のｘ８６命令セットのプレフィックスエンコーディングフィールド、リアルオペコードバイトフィールド、ＭＯＤＲ／Ｍフィールド、ＳＩＢフィールド、変位フィールド、および即値フィールドと一致したままである。図３０Ａおよび図３０Ｂからのフィールドが図３１Ａ〜図３１Ｄのどのフィールドにマップされるかが示される。

本開示の実施形態は、例示を目的として汎用ベクトル向け命令フォーマット３０００の文脈で特定ベクトル向け命令フォーマット３１００を参照して説明されているが、本開示は、特許請求の範囲に記載されている場合を除いて、特定ベクトル向け命令フォーマット３１００に限定されるものではないことを理解されたい。例えば、汎用ベクトル向け命令フォーマット３０００は、様々なフィールドについて様々な考え得るサイズを想定しているが、特定ベクトル向け命令フォーマット３１００は、特定のサイズのフィールドを有するように図示されている。具体的な例として、データ要素幅フィールド３０６４は、特定ベクトル向け命令フォーマット３１００において、１ビットフィールドとして示されているが、本開示は、そのように限定されることはない（すなわち、汎用ベクトル向け命令フォーマット３０００は、他のサイズのデータ要素幅フィールド３０６４が想定される）。

汎用ベクトル向け命令フォーマット３０００は、図３１Ａに示される順序で以下に列挙される以下のフィールドを含む。

ＥＶＥＸプレフィックス（バイト０−３）３１０２：４バイト形式でエンコードされる。

フォーマットフィールド３０４０（ＥＶＥＸバイト０、ビット［７：０］）：第１のバイト（ＥＶＥＸバイト０）は、フォーマットフィールド３０４０であり、それは、０ｘ６２（本開示の一実施形態において、ベクトル向け命令フォーマットを区別するために用いられる一意の値）を含む。

第２から第４のバイト（ＥＶＥＸバイト１〜３）は、特定の機能を提供する複数のビットフィールドを含む。

ＲＥＸフィールド３１０５（ＥＶＥＸバイト１、ビット［７−５］）：ＥＶＥＸ．Ｒビットフィールド（ＥＶＥＸバイト１、ビット［７］−Ｒ）、ＥＶＥＸ．Ｘビットフィールド（ＥＶＥＸバイト１、ビット［６］−Ｘ）およびＥＶＥＸ．Ｂビットフィールド（ＥＶＥＸバイト１、ビット［５］−Ｂ）から構成される。ＥＶＥＸ．Ｒ、ＥＶＥＸ．Ｘ、およびＥＶＥＸ．Ｂビットフィールドは、対応するＶＥＸビットフィールドと同じ機能性を提供し、１の補数形式を用いてエンコードされる。すなわち、ＺＭＭ０は１１１１Ｂとしてエンコードされ、ＺＭＭ１５は００００Ｂとしてエンコードされる。命令の他のフィールドは、当該技術分野で知られているようにレジスタインデックスの下位３ビットをエンコードし（ｒｒｒ、ｘｘｘ、およびｂｂｂ）、これにより、ＥＶＥＸ．Ｒ、ＥＶＥＸ．ＸおよびＥＶＥＸ．Ｂを追加することによってＲｒｒｒ、Ｘｘｘｘ、およびＢｂｂｂが形成されてよい。

ＲＥＸ'フィールド３０１０：これは、ＲＥＸ'フィールド３０１０の第１の部分であり、拡張３２レジスタセットの上位１６または下位１６のいずれかをエンコードするのに用いられるＥＶＥＸ．Ｒ'ビットフィールド（ＥＶＥＸバイト１、ビット［４］―Ｒ'）である。本開示の一実施形態において、このビットは、リアルオペコードバイトが６２であるＢＯＵＮＤ命令から（よく知られたｘ８６の３２ビットモードにおいて）区別するために、以下に示される他のものと共にビット反転フォーマットで格納されるが、（後述の）ＭＯＤＲ／ＭフィールドにおいてＭＯＤフィールド内の値１１を受け付けない。本開示の代替的な実施形態は、このビットおよび以下に示される反転フォーマットの他のビットを格納しない下位１６個のレジスタのエンコードには、１の値を用いる。換言すると、ＥＶＥＸ．Ｒ'、ＥＶＥＸ．Ｒおよび他のフィールドの他のＲＲＲを組み合わせて、Ｒ'Ｒｒｒｒが形成される。

オペコードマップフィールド３１１５（ＥＶＥＸバイト１、ビット［３：０］−ｍｍｍｍ）：その内容は、示唆される先頭オペコードバイト（０Ｆ、０Ｆ３８または０Ｆ３）をエンコードする。

データ要素幅フィールド３０６４（ＥＶＥＸバイト２、ビット［７］−Ｗ）：記号ＥＶＥＸ．Ｗによって表される。ＥＶＥＸ．Ｗは、データタイプの粒度（サイズ）（３２ビットデータ要素または６４ビットデータ要素のいずれか）を規定するために用いられる。

ＥＶＥＸ．ｖｖｖｖ３１２０（ＥＶＥＸバイト２、ビット［６：３］−ｖｖｖｖ）−ＥＶＥＸ．ｖｖｖｖの役割は、以下を含んでよい。１）ＥＶＥＸ．ｖｖｖｖは、反転（１の補数）形式で指定される第１のソースレジスタオペランドをエンコードし、２または３以上のソースオペランドを有する命令に対して有効である。２）ＥＶＥＸ．ｖｖｖｖは、特定のベクトルシフトに対して１の補数形式で指定されるデスティネーションレジスタオペランドをエンコードする。または、３）ＥＶＥＸ．ｖｖｖｖは、いずれのオペランドもエンコードせず、当該フィールドは予約され、１１１１ｂを含むべきである。したがって、ＥＶＥＸ．ｖｖｖｖフィールド３１２０は、反転（１の補数）形式で記憶された第１のソースレジスタ指定子の４つの下位ビットをエンコードする。命令に応じて、追加の異なるＥＶＥＸビットフィールドは、指定子のサイズを３２個のレジスタに拡張するために用いられる。

ＥＶＥＸ．Ｕ３０６８クラスフィールド（ＥＶＥＸバイト２、ビット［２］−Ｕ）：ＥＶＥＸ．Ｕ＝０の場合、これは、クラスＡまたはＥＶＥＸ．Ｕ０を示す。ＥＶＥＸ．Ｕ＝１の場合、これは、クラスＢまたはＥＶＥＸ．Ｕ１を示す。

プレフィックスエンコーディングフィールド３１２５（ＥＶＥＸバイト２、ビット［１：０］−ｐｐ）：基本演算フィールドに追加のビットを提供する。ＥＶＥＸプレフィックスフォーマットにおけるレガシＳＳＥ命令にサポートを提供することに加え、これはまた、ＳＩＭＤプレフィックスのコンパクト化の利点を有する（ＳＩＭＤプレフィックスを表わすために１バイトを要求する代わりに、ＥＶＥＸプレフィックスは２ビットのみを要求する）。一実施形態では、レガシフォーマットおよびＥＶＥＸプレフィックスフォーマットの両方でＳＩＭＤプレフィックス（６６Ｈ、Ｆ２Ｈ、Ｆ３Ｈ）を使用するレガシＳＳＥ命令をサポートするために、これらのレガシＳＩＭＤプレフィックスは、ＳＩＭＤプレフィックスエンコーディングフィールドにエンコードされ、実行時にデコード回路のＰＬＡに提供される前に、レガシＳＩＭＤプレフィックスに拡張される（そのため、ＰＬＡは、修正することなく、これらのレガシ命令のレガシフォーマットとＥＶＥＸフォーマットの両方を実行できる）。より新しい命令はＥＶＥＸプレフィックスエンコーディングフィールドの内容をオペコード拡張として直接使用できるにもかかわらず、特定の実施形態は一貫性をもたせるために同様に拡張するが、これらのレガシＳＩＭＤプレフィックスによって異なる意味が指定されることを可能にする。代替的な実施形態は、２ビットＳＩＭＤプレフィックスエンコーディングをサポートし、従って拡張を要求しないように、ＰＬＡを再設計してよい。

アルファフィールド３０５２（ＥＶＥＸバイト３、ビット［７］；ＥＨ、ＥＶＥＸ．ＥＨ、ＥＶＥＸ．ｒｓ、ＥＶＥＸ．ＲＬ、ＥＶＥＸ．書き込みマスク制御およびＥＶＥＸ．Ｎとしても知られ、また、αを用いて示される）：前述したように、このフィールドは、コンテキストに固有のものである。

ベータフィールド３０５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ；ＥＶＥＸ．ｓ２−０、ＥＶＥＸ．ｒ２−０、ＥＶＥＸ．ｒｒ１、ＥＶＥＸ．ＬＬ０、ＥＶＥＸ．ＬＬＢとしても知られ、また、βββを用いて示される）：前述したように、このフィールドは、コンテキストに固有のものである。

ＲＥＸ'フィールド３０１０：これは、ＲＥＸ'フィールドの残部であり、拡張された３２個のレジスタセットの上位１６または下位１６のいずれかをエンコードするために用いられ得るＥＶＥＸ．Ｖ'ビットフィールド（ＥＶＥＸバイト３、ビット［３］−Ｖ'）である。このビットは、ビット反転フォーマットで格納される。下位１６個のレジスタのエンコードには、１の値を用いる。換言すると、ＥＶＥＸ．Ｖ'、ＥＶＥＸ．ｖｖｖｖを組み合わせることにより、Ｖ'ＶＶＶＶが形成される。

書き込みマスクフィールド３０７０（ＥＶＥＸバイト３、ビット［２：０］−ｋｋｋ）：前述の通り、その内容は、書き込みマスクレジスタ内のレジスタのインデックスを指定する。本開示の一実施形態において、特定の値ＥＶＥＸ．ｋｋｋ=０００は、特定の命令に用いられる書き込みマスクが存在しないことを示唆する特別な挙動を有する（これは、すべてのものに対してハードウェアに組み込まれる書き込みマスク、または、マスキングハードウェアをバイパスするハードウェアの使用を含む様々な態様で実装され得る）。

リアルオペコードフィールド３１３０（バイト４）はオペコードバイトとしても知られる。オペコードの一部は、このフィールドで指定される。

ＭＯＤＲ／Ｍフィールド３１４０（バイト５）は、ＭＯＤフィールド３１４２、Ｒｅｇフィールド３１４４、およびＲ／Ｍフィールド３１４６を含む。前述の通り、ＭＯＤフィールド３１４２の内容は、メモリアクセス演算および非メモリアクセス演算間を区別する。Ｒｅｇフィールド３１４４の役割は、デスティネーションレジスタオペランドまたはソースレジスタオペランドのいずれかをエンコードすること、または、オペコード拡張として扱われ、いかなる命令オペランドをエンコードするためにも使用されないこと、という２つの状況に要約できる。Ｒ／Ｍフィールド３１４６の役割は以下を含んでよい。つまり、メモリアドレスを参照する命令オペランドをエンコードすること、またはデスティネーションレジスタオペランドまたはソースレジスタオペランドのいずれかをエンコードすることである。

スケール、インデックス、ベース（ＳＩＢ）バイト（バイト６）：前述の通り、スケールフィールド３０６０の内容は、メモリアドレス生成に使用される。ＳＩＢ．ｘｘｘ３１５４およびＳＩＢ．ｂｂｂ３１５６：これらのフィールドの内容は、レジスタインデックスＸｘｘｘおよびＢｂｂｂに関連して既に言及されている。

変位フィールド３０６２Ａ（バイト７−１０）：ＭＯＤフィールド３１４２が１０を含む場合、バイト７−１０は、変位フィールド３０６２Ａであり、これはレガシ３２ビット変位（ｄｉｓｐ３２）と同じく機能し、バイト粒度で機能する。

変位係数フィールド３０６２Ｂ（バイト７）：ＭＯＤフィールド３１４２が０１を含むとき、バイト７は変位係数フィールド３０６２Ｂである。このフィールドの位置は、バイト粒度で機能するレガシｘ８６命令セットの８ビット変位（ｄｉｓｐ８）のものと同じである。ｄｉｓｐ８は符号拡張されるので、ｄｉｓｐ８は−１２８〜１２７バイトオフセット間のアドレス指定のみ可能である。６４バイトのキャッシュラインに関しては、ｄｉｓｐ８は４つの実際に有用な値、−１２８、−６４、０および６４のみに設定可能な８ビットを使用する。多くの場合、より広いレンジが必要であるので、ｄｉｓｐ３２が使用されるが、ｄｉｓｐ３２は４バイトを要求する。ｄｉｓｐ８およびｄｉｓｐ３２と対照的に、変位係数フィールド３０６２Ｂはｄｉｓｐ８の再解釈である。変位係数フィールド３０６２Ｂを使用する場合、実際の変位は、メモリオペランドアクセス（Ｎ）のサイズで乗算された変位係数フィールドの内容によって決定される。このタイプの変位は、ｄｉｓｐ８×Ｎと称される。これにより、平均命令長（変位に用いられる単一バイトだが、はるかに広いレンジを有する）が小さくなる。このような圧縮された変位は、実効変位がメモリアクセスの粒度の倍数であるという仮定に基づいており、従って、アドレスオフセットの冗長な下位ビットはエンコードされる必要がない。換言すると、変位係数フィールド３０６２Ｂが、レガシｘ８６命令セットの８ビット変位と置き換わる。従って、変位係数フィールド３０６２Ｂは、ｄｉｓｐ８がｄｉｓｐ８×Ｎにオーバーロードされることのみを除いては、ｘ８６命令セットの８−ビット変位と同じようにエンコードされる（よって、ＭｏｄＲＭ／ＳＩＢエンコーディングルールの変更はない）。換言すると、エンコーディングルールまたはエンコード長に変更はなく、ハードウェアによる変位値の解釈のみに変更がある（バイト単位のアドレスオフセットを取得するには、メモリオペランドのサイズによって変位をスケールする必要がある）。即値フィールド３０７２は、前述の通りに動作する。

［フルオペコードフィールド］
図３１Ｂは、本開示の一実施形態による、フルオペコードフィールド３０７４を作成する特定ベクトル向け命令フォーマット３１００のフィールドを示すブロック図である。具体的には、フルオペコードフィールド３０７４は、フォーマットフィールド３０４０、基本演算フィールド３０４２およびデータ要素幅（Ｗ）フィールド３０６４を含む。基本演算フィールド３０４２は、プレフィックスエンコーディングフィールド３１２５、オペコードマップフィールド３１１５およびリアルオペコードフィールド３１３０を含む。

［レジスタインデックスフィールド］
図３１Ｃは、本開示の一実施形態による、レジスタインデックスフィールド３０４４を作成する特定ベクトル向け命令フォーマット３１００のフィールドを示すブロック図である。具体的には、レジスタインデックスフィールド３０４４は、ＲＥＸフィールド３１０５、ＲＥＸ'フィールド３１１０、ＭＯＤＲ／Ｍ．ｒｅｇフィールド３１４４、ＭＯＤＲ／Ｍ．ｒ／ｍフィールド３１４６、ＶＶＶＶフィールド３１２０、ｘｘｘフィールド３１５４およびｂｂｂフィールド３１５６を含む。

［拡張演算フィールド］
図３１Ｄは、本開示の一実施形態による、拡張演算フィールド３０５０を作成する特定ベクトル向け命令フォーマット３１００のフィールドを示すブロック図である。クラス（Ｕ）フィールド３０６８が０を含む場合、ＥＶＥＸ．Ｕ０（クラスＡ３０６８Ａ）を表し、１を含む場合は、ＥＶＥＸ．Ｕ１（クラスＢ３０６８Ｂ）を表す。Ｕ＝０、かつＭＯＤフィールド３１４２が１１を含む（非メモリアクセス演算を意味する）場合、アルファフィールド３０５２（ＥＶＥＸバイト３、ビット［７］−ＥＨ）は、ＲＳフィールド３０５２Ａとして解釈される。ＲＳフィールド３０５２Ａが１（ラウンド３０５２Ａ．１）を含む場合、ベータフィールド３０５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ）は、ラウンド制御フィールド３０５４Ａとして解釈される。ラウンド制御フィールド３０５４Ａは、１ビットのＳＡＥフィールド３０５６および２ビットのラウンド演算フィールド３０５８を含む。ＲＳフィールド３０５２Ａが０（データ変換３０５２Ａ．２）を含む場合、ベータフィールド３０５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ）は、３ビットのデータ変換フィールド３０５４Ｂとして解釈される。Ｕ＝０、かつＭＯＤフィールド３１４２が００、０１または１０を含む（メモリアクセス演算を意味する）場合、アルファフィールド３０５２（ＥＶＥＸバイト３、ビット［７］−ＥＨ）は、エビクションヒント（ＥＨ）フィールド３０５２Ｂとして解釈され、ベータフィールド３０５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ）は、３ビットのデータ操作フィールド３０５４Ｃとして解釈される。

Ｕ＝１であるとき、アルファフィールド３０５２（ＥＶＥＸバイト３、ビット［７］−ＥＨ）は、書き込みマスク制御（Ｚ）フィールド３０５２Ｃとして解釈される。Ｕ＝１、かつＭＯＤフィールド３１４２が１１を含む（非メモリアクセス演算を意味する）場合、ベータフィールド３０５４の一部（ＥＶＥＸバイト３、ビット［４］−Ｓ_０）は、ＲＬフィールド３０５７Ａとして解釈され、１（ラウンド３０５７Ａ．１）を含む場合、ベータフィールド３０５４の残り（ＥＶＥＸバイト３、ビット［６−５］−Ｓ_２−１）は、ラウンド演算フィールド３０５９Ａとして解釈され、ＲＬフィールド３０５７Ａが０（ＶＳＩＺＥ３０５７．Ａ２）を含む場合、ベータフィールド３０５４の残り（ＥＶＥＸバイト３、ビット［６−５］−Ｓ_２−１）は、ベクトル長フィールド３０５９Ｂ（ＥＶＥＸバイト３、ビット［６−５］−Ｌ_１−０）として解釈される。Ｕ＝１、かつＭＯＤフィールド３１４２が００、０１または１０を含む（メモリアクセス演算を意味する）とき、ベータフィールド３０５４（ＥＶＥＸバイト３、ビット［６：４］−ＳＳＳ）は、ベクトル長フィールド３０５９Ｂ（ＥＶＥＸバイト３、ビット［６−５］−Ｌ_１−０）およびブロードキャストフィールド３０５７Ｂ（ＥＶＥＸバイト３、ビット［４］−Ｂ）として解釈される。

［例示的なレジスタアーキテクチャ］
図３２は、本開示の一実施形態による、レジスタアーキテクチャ３２００のブロック図である。図示される実施形態には、５１２ビット幅の３２個のベクトルレジスタ３２１０がある。これらのレジスタは、ｚｍｍ０〜ｚｍｍ３１として参照される。下位１６個のｚｍｍレジスタの下位２５６ビットは、レジスタｙｍｍ０〜１６上にオーバーレイされる。下位１６個のｚｍｍレジスタの下位１２８ビット（ｙｍｍレジスタの下位１２８ビット）は、レジスタｘｍｍ０〜１５上にオーバーレイされる。特定ベクトル向け命令フォーマット３１００は、これらのオーバーレイされたレジスタファイルに対し、以下の表に示されるように動作する。

換言すると、ベクトル長フィールド３０５９Ｂは、最大長さと１つまたは複数の他のより短い長さとの間から選択し、ここで、そのようなより短い長さのそれぞれは、先述の長さの半分の長さであり、ベクトル長フィールド３０５９Ｂを有していない命令テンプレートは、最大のベクトル長に対して動作する。さらに、一実施形態において、特定ベクトル向け命令フォーマット３１００のクラスＢ命令テンプレートは、パックドもしくはスカラ単精度／倍精度浮動小数点データ、およびパックドもしくはスカラ整数データに対して動作する。スカラ演算は、ｚｍｍ／ｙｍｍ／ｘｍｍレジスタ内の最下位のデータ要素位置で実行される演算である。上位のデータ要素位置は、それらが命令前と同じままであるか、または実施形態に応じてゼロにされるかのいずれかである。

書き込みマスクレジスタ３２１５：図示された実施形態では、それぞれが６４ビットサイズの８つの書き込みマスクレジスタ（ｋ０〜ｋ７）が存在する。代替的な実施形態において、書き込みマスクレジスタ３２１５は、１６ビットのサイズである。前述したように、本開示の一実施形態において、ベクトルマスクレジスタｋ０は、書き込みマスクとして用いられることができず、通常ｋ０を示すエンコーディングが書き込みマスクに用いられる場合、０ｘＦＦＦＦのハードウェアに組み込まれる書き込みマスクを選択することで、その命令に対する書き込みマスキングを効果的に無効にする。

汎用レジスタ３２２５：図示された実施形態では、メモリオペランドをアドレス指定するために既存のｘ８６アドレッシングモードと共に使用される１６個の６４ビット汎用レジスタが存在する。これらのレジスタは、ＲＡＸ、ＲＢＸ、ＲＣＸ、ＲＤＸ、ＲＢＰ、ＲＳＩ、ＲＤＩ、ＲＳＰ、およびＲ８〜Ｒ１５の名前で参照される。

ＭＭＸパックド整数フラットレジスタファイル３２５０がエイリアスされる、スカラ浮動小数点スタックレジスタファイル（ｘ８７スタック）３２４５：図示される実施形態では、ｘ８７スタックは、ｘ８７命令セット拡張子を使用して３２／６４／８０ビット浮動小数点データに対してスカラ浮動小数点演算を実行するために使用される８要素スタックである。ＭＭＸレジスタは、６４ビットパックド整数データに対して演算を実行するため、ならびにＭＭＸレジスタとＸＭＭレジスタとの間で実行されるいくつかの演算のためにオペランドを保持するために、使用される。

本開示の代替的な実施形態は、より広いまたはより狭いレジスタを用いてよい。さらに、本開示の代替的な実施形態は、より多くの、より少ない、または異なるレジスタファイルおよびレジスタを用いてよい。

［例示的なコアアーキテクチャ、プロセッサ、およびコンピュータアーキテクチャ］
プロセッサコアは、異なる方法で、異なる目的のために、異なるプロセッサにおいて実装されてよい。例えば、そのようなコアの実装形態には、１）汎用コンピューティング向けの汎用インオーダコア、２）汎用コンピューティング向けの高性能汎用アウトオブオーダコア、３）主にグラフィックスおよび／または科学（スループット）コンピューティング向けの専用コアが含まれてもよい。異なるプロセッサの実装形態には、１）汎用コンピューティング向けの１つもしくは複数の汎用インオーダコアおよび／または汎用コンピューティング向けの１つもしくは複数の汎用アウトオブオーダコアを含むＣＰＵ、ならびに２）主にグラフィックスおよび／または科学（スループット）向けの１つまたは複数の専用コアを含むコプロセッサが含まれてもよい。そのような異なるプロセッサは異なるコンピュータシステムアーキテクチャをもたらし、そのようなコンピュータシステムアーキテクチャには、１）ＣＰＵとは別個のチップ上のコプロセッサ、２）ＣＰＵと同じパッケージ内の別個のダイ上のコプロセッサ、３）ＣＰＵと同一のダイ上のコプロセッサ（この場合、そのようなコプロセッサは、統合グラフィックスおよび／または科学（スループット）ロジックなどの専用ロジック、または専用コアと称されることがある）、ならびに４）同一のダイ上に（アプリケーションコアまたはアプリケーションプロセッサと称されることもある）説明されたＣＰＵ、上述したコプロセッサ、および追加の機能を含んでもよいシステムオンチップが含まれてもよい。例示的なコアアーキテクチャが次に説明され、例示的なプロセッサおよびコンピュータアーキテクチャの説明が続く。

［例示的なコアアーキテクチャ］
［インオーダおよびアウトオブオーダコアのブロック図］
図３３Ａは、本開示の実施形態による、例示的なインオーダパイプラインおよび例示的なレジスタリネーミング、アウトオブオーダ発行／実行パイプラインの両方を示すブロック図である。図３３Ｂは、本開示の実施形態による、インオーダアーキテクチャコアの例示的な実施形態と、プロセッサに含まれる例示的なレジスタリネーミングアウトオブオーダ発行／実行アーキテクチャコアとの両方を示すブロック図である。図３３Ａおよび図３３Ｂの実線ボックスはインオーダパイプラインおよびインオーダコアを示し、破線ボックスの任意選択の追加は、レジスタリネーミング、アウトオブオーダ発行／実行パイプラインおよびコアを示す。インオーダの態様がアウトオブオーダの態様のサブセットであると仮定して、アウトオブオーダの態様が説明される。

図３３Ａにおいて、プロセッサパイプライン３３００は、フェッチ段階３３０２、長さデコード段階３３０４、デコード段階３３０６、割り当て段階３３０８、リネーミング段階３３１０、スケジューリング（ディスパッチまたは発行としても知られる）段階３３１２、レジスタ読み取り／メモリ読み取り段階３３１４、実行段階３３１６、ライトバック／メモリ書き込み段階３３１８、例外処理段階３３２２およびコミット段階３３２４を含む。

図３３Ｂは、実行エンジンユニット３３５０に結合されるフロントエンドユニット３３３０を含むプロセッサコア３３９０を示し、それらの両方が、メモリユニット３３７０に結合される。コア３３９０は、縮小命令セットコンピューティング（ＲＩＳＣ）コア、複合命令セットコンピューティング（ＣＩＳＣ）コア、超長命令語（ＶＬＩＷ）コア、またはハイブリッドもしくは代替的なコアタイプであってもよい。さらに別の選択肢として、コア３３９０は、例えば、ネットワークまたは通信コア、圧縮エンジン、コプロセッサコア、汎用コンピューティンググラフィックス処理ユニット（ＧＰＧＰＵ）コアまたはグラフィックスコアなどの専用コアであってよい。

フロントエンドユニット３３３０は、命令キャッシュユニット３３３４に結合された分岐予測ユニット３３３２を含み、命令キャッシュユニット３３３４は、命令変換ルックアサイドバッファ（ＴＬＢ）３３３６に結合され、ＴＬＢ３３３６は、命令フェッチユニット３３３８に結合され、命令フェッチユニット３３３８は、デコードユニット３３４０に結合される。デコードユニット３３４０（例えば、デコード回路）は命令（例えば、マクロ命令）をデコードし、かつ、１つまたは複数のマイクロ演算、マイクロコードエントリポイント、マイクロ命令、他の命令または他の制御信号を出力として生成してよく、これらは元の命令からデコードされ、またはそうでなければ元の命令を反映し、または元の命令から導出される。デコードユニット３３４０は、様々な異なるメカニズムを用いて実装されてよい。好適なメカニズムの例には、ルックアップテーブル、ハードウェア実装、プログラマブルロジックアレイ（ＰＬＡ）、マイクロコード読み取り専用メモリ（ＲＯＭ）などが含まれるが、それらに限定されない。一実施形態において、コア３３９０は、マイクロコードＲＯＭ、または、特定のマクロ命令に対するマイクロコードを格納する（例えば、デコードユニット３３４０における、またはそうでなければ、フロントエンドユニット３３３０内の）他の媒体を含む。デコードユニット３３４０は、実行エンジンユニット３３５０内のリネーム／アロケータユニット３３５２に結合される。

実行エンジンユニット３３５０は、リタイアメントユニット３３５４および１つまたは複数のスケジューラユニット３３５６のセットに結合されるリネーム／アロケータユニット３３５２を含む。スケジューラユニット３３５６は、予約ステーション、中央命令ウィンドウなどを含む任意の数の異なるスケジューラを表す。スケジューラユニット３３５６は、物理レジスタファイルユニット３３５８に結合されている。物理レジスタファイルユニット３３５８のそれぞれは、１つまたは複数の物理レジスタファイルを表し、そのそれぞれ異なる物理レジスタファイルは、例えば、スカラ整数、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点、ステータス（例えば、実行される次の命令のアドレスである命令ポインタ）など、１つまたは複数の異なるデータタイプを格納する。一実施形態において、物理レジスタファイルユニット３３５８は、ベクトルレジスタユニット、書き込みマスクレジスタユニットおよびスカラレジスタユニットを有する。これらのレジスタユニットは、アーキテクチャのベクトルレジスタ、ベクトルマスクレジスタおよび汎用レジスタを提供し得る。物理レジスタファイルユニット３３５８は、（例えば、リオーダバッファおよびリタイアメントレジスタファイルを用いる、将来のファイル、履歴バッファおよびリタイアメントレジスタファイルを用いる、レジスタマップおよびレジスタのプールを用いるなどして）レジスタリネーミングおよびアウトオブオーダ実行が実装され得る様々な態様を示すために、リタイアメントユニット３３５４が重なっている。リタイアメントユニット３３５４および物理レジスタファイルユニット３３５８は、実行クラスタ３３６０に結合されている。実行クラスタ３３６０は、１つまたは複数の実行ユニット３３６２のセット（例えば、実行回路）および１つまたは複数のメモリアクセスユニット３３６４のセットを含む。実行ユニット３３６２は、様々な演算（例えば、シフト、加算、減算、乗算）を様々なタイプのデータ（例えば、スカラ浮動小数点、パックド整数、パックド浮動小数点、ベクトル整数、ベクトル浮動小数点）に実行してよい。いくつかの実施形態では、特定の機能または機能のセットに専用の複数の実行ユニットを含んでよく、他の実施形態では、１つの実行ユニットのみ、または、すべての機能をすべてが実行する複数の実行ユニットを含んでよい。特定実施形態では、特定のタイプのデータ／演算に対して別個のパイプラインを作成するので（例えば、スカラ整数パイプライン、スカラ浮動小数点／パックド整数／パックド浮動小数点／ベクトル整数／ベクトル浮動小数点パイプライン、および／または、メモリアクセスパイプラインが、それぞれ固有のスケジューラユニット、物理レジスタファイルユニット、および／または、実行クラスタを有し、また別個のメモリアクセスパイプラインの場合、特定の実施形態が実装され、その実施形態では、このパイプラインの実行クラスタのみがメモリアクセスユニット３３６４を有する）、スケジューラユニット３３５６、物理レジスタファイルユニット３３５８および実行クラスタ３３６０は、場合によっては複数のものとして示されている。別個のパイプラインが用いられる場合、これらのパイプラインのうちの１つまたは複数はアウトオブオーダ発行／実行であってよく、残りはインオーダであってよいことも理解されたい。

メモリアクセスユニット３３６４のセットは、メモリユニット３３７０に結合され、メモリユニット３３７０は、レベル２（Ｌ２）キャッシュユニット３３７６に結合されるデータキャッシュユニット３３７４に結合されるデータＴＬＢユニット３３７２を含む。例示的な一実施形態では、メモリアクセスユニット３３６４が、ロードユニット、ストアアドレスユニット、およびストアデータユニットを含んでよく、それらのそれぞれが、メモリユニット３３７０内のデータＴＬＢユニット３３７２に結合される。命令キャッシュユニット３３３４は、メモリユニット３３７０内のレベル２（Ｌ２）キャッシュユニット３３７６にさらに結合される。Ｌ２キャッシュユニット３３７６は、１つまたは複数の他のレベルのキャッシュに結合され、最終的にはメインメモリに結合される。

例として、例示的なレジスタリネーミング、アウトオブオーダ発行／実行コアアーキテクチャは、以下のようにパイプライン３３００を実装してよい。１）命令フェッチ３３３８がフェッチおよび長さデコード段階３３０２および３３０４を実行し、２）デコードユニット３３４０がデコード段階３３０６を実行し、３）リネーム／アロケータユニット３３５２が割り当て段階３３０８およびリネーミング段階３３１０を実行し、４）スケジューラユニット３３５６がスケジュール段階３３１２を実行し、５）物理レジスタファイルユニット３３５８およびメモリユニット３３７０がレジスタ読み取り／メモリ読み取り段階３３１４を実行して、実行クラスタ３３６０が実行段階３３１６を実行し、６）メモリユニット３３７０および物理レジスタファイルユニット３３５８がライトバック／メモリ書き込み段階３３１８を実行し、７）様々なユニットが例外処理段階３３２２に関連してよく、８）リタイアメントユニット３３５４および物理レジスタファイルユニット３３５８がコミット段階３３２４を実行する。

コア３３９０は、本明細書で説明された命令を含む、１つまたは複数の命令セット（例えば、（より新しいバージョンで追加されたいくつかの拡張を有する）ｘ８６命令セット、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰＳ命令セット、カリフォルニア州サニーベールのＡＲＭＨｏｌｄｉｎｇｓの（ＮＥＯＮなどのオプションの追加拡張を有する）ＡＲＭ命令セット）をサポートすることができる。一実施形態において、コア３３９０は、パックドデータ命令セット拡張（例えば、ＡＶＸ１、ＡＶＸ２）をサポートするロジックを含み、これによって、多くのマルチメディアアプリケーションにより用いられる演算がパックドデータを用いて実行されることを可能にする。

コアはマルチスレッディング（演算またはスレッドの２つ以上の並列セットを実行）をサポートしてよく、タイムスライスマルチスレッディング、同時マルチスレッディング（物理コアが同時にマルチスレッディングしているスレッドのそれぞれに対して、単一の物理コアが論理コアを提供する）、またはこれらの組み合わせ（例えば、インテル（登録商標）ハイパースレッディングテクノロジなどにおけるタイムスライスフェッチおよびデコードならびにその後の同時マルチスレッディング）を含む様々な態様でサポートしてよいことを理解されたい。

レジスタリネーミングがアウトオブオーダ実行との関連で説明されているが、レジスタリネーミングはインオーダアーキテクチャにおいて用いられてよいことを理解されたい。示されたプロセッサの実施形態はまた、別個の命令キャッシュユニット３３３４およびデータキャッシュユニット３３７４、ならびに共有Ｌ２キャッシュユニット３３７６を含むが、代替的な実施形態は、命令およびデータの両方に対して、例えばレベル１（Ｌ１）内部キャッシュまたは複数のレベルの内部キャッシュなど、単一の内部キャッシュを有してもよい。いくつかの実施形態において、システムは、内部キャッシュと、コアおよび／またはプロセッサの外部にある外部キャッシュとの組み合わせを含んでもよい。あるいは、キャッシュのすべてがコアおよび／またはプロセッサの外部にあってもよい。

［具体的な例示的インオーダコアアーキテクチャ］
図３４Ａおよび図３４Ｂは、より具体的な例示的インオーダコアアーキテクチャのブロック図を示し、ここで、コアは、チップ内のいくつかの論理ブロック（同じタイプおよび／または異なるタイプの他のコアを含む）のうちの１つになるであろう。論理ブロックは、高帯域幅相互接続ネットワーク（例えば、リングネットワーク）を通じて、アプリケーションに応じて、いくつかの固定機能ロジック、メモリＩ／Ｏインタフェースおよび他の必要なＩ／Ｏロジックと通信する。

図３４Ａは、本開示の実施形態による、オンダイ相互接続ネットワーク３４０２へのその接続およびレベル２（Ｌ２）キャッシュ３４０４のそのローカルサブセットを伴う、単一のプロセッサコアのブロック図である。一実施形態において、命令デコードユニット３４００は、パックドデータ命令セット拡張を有するｘ８６命令セットをサポートする。Ｌ１キャッシュ３４０６は、キャッシュメモリへの低レイテンシアクセスがスカラユニットおよびベクトルユニットに入ることを可能にする。一実施形態では、（設計を簡略化するために）、スカラユニット３４０８およびベクトルユニット３４１０は、別個のレジスタセット（それぞれ、スカラレジスタ３４１２およびベクトルレジスタ３４１４）を用いており、それらの間で転送されるデータは、メモリに書き込まれ、次に、レベル１（Ｌ１）キャッシュ３４０６からリードバックされるが、本開示の代替的な実施形態では、異なるアプローチ（例えば、単一のレジスタセットを用いる、または、書き込まれることもリードバックされることもなく２つのレジスタファイル間でデータが転送されることを可能にする通信経路を含む）を用いてよい。

Ｌ２キャッシュ３４０４のローカルサブセットは、プロセッサコアごとに１つの別個のローカルサブセットに分割されるグローバルＬ２キャッシュの一部である。各プロセッサコアは、Ｌ２キャッシュ３４０４の自身のローカルサブセットへの直接のアクセス経路を有する。プロセッサコアにより読み出されたデータは、Ｌ２キャッシュサブセット３４０４に格納され、他のプロセッサコアが固有のローカルＬ２キャッシュサブセットにアクセスするのと並行して、迅速にアクセスされ得る。プロセッサコアにより書き込まれたデータは、自身のＬ２キャッシュサブセット３４０４に格納され、必要に応じて他のサブセットからフラッシュされる。リングネットワークは、共有データのコヒーレンシを保証する。リングネットワークは、双方向性であり、プロセッサコア、Ｌ２キャッシュおよび他の論理ブロックなどのエージェントが、チップ内で互いに通信することを可能にする。各リングデータ経路は、一方向当たり１０１２ビット幅である。

図３４Ｂは、本開示の実施形態による、図３４Ａ中のプロセッサコアの一部の拡大図である。図３４Ｂは、Ｌ１キャッシュ３４０４の一部であるＬ１データキャッシュ３４０６Ａと、ベクトルユニット３４１０およびベクトルレジスタ３４１４に関するさらなる詳細とを含む。具体的には、ベクトルユニット３４１０は１６幅のベクトル処理ユニット（ＶＰＵ）（１６幅のＡＬＵ３４２８を参照）であり、整数命令、単精度浮動小数点命令、および倍精度浮動小数点命令のうちの１つまたは複数を実行する。ＶＰＵは、スウィズルユニット３４２０を用いたレジスタ入力のスウィズル処理、数値変換ユニット３４２２Ａ〜Ｂを用いた数値変換、ならびに複製ユニット３４２４を用いたメモリ入力の複製をサポートする。書き込みマスクレジスタ３４２６は、結果として生じるベクトル書き込みをプレディケートすることを可能にする。

図３５は、本開示の実施形態による、１つより多いコアを有してよい、統合メモリコントローラを有してよい、統合グラフィックスを有してよい、プロセッサ３５００のブロック図である。図３５の実線ボックスは、単一のコア３５０２Ａ、システムエージェント３５１０、１つまたは複数のバスコントローラユニット３５１６のセットを有するプロセッサ３５００を示し、任意選択の追加の破線ボックスは、複数のコア３５０２Ａ〜Ｎ、システムエージェントユニット３５１０内にある１つまたは複数の統合メモリコントローラユニット３５１４のセット、および専用ロジック３５０８を有する代替のプロセッサ３５００を示す。

従って、プロセッサ３５００の異なる実装は、１）専用ロジック３５０８が統合グラフィックスおよび／または科学（スループット）ロジック（１つまたは複数のコアを含み得る）であり、コア３５０２Ａ〜Ｎが１つまたは複数の汎用コア（例えば、汎用インオーダコア、汎用アウトオブオーダコア、この２つの組み合わせ）であるＣＰＵ、２）コア３５０２Ａ〜Ｎが主にグラフィックスおよび／または科学（スループット）向けの多数の専用コアであるコプロセッサ、および、３）コア３５０２Ａ〜Ｎが多数の汎用インオーダコアであるコプロセッサを含んでよい。従って、プロセッサ３５００は、汎用プロセッサ、コプロセッサまたは専用プロセッサ、例えば、ネットワークまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ（汎用グラフィックス処理ユニット）、高スループットの多集積コア（ＭＩＣ）コプロセッサ（３０またはそれより多いコアを含む）、組み込みプロセッサなどであってよい。プロセッサは、１つまたは複数のチップ上に実装されてよい。プロセッサ３５００は、例えば、ＢｉＣＭＯＳ、ＣＭＯＳ、またはＮＭＯＳなどの多数のプロセス技術のいずれかを用いる１つまたは複数の基板の一部であってよく、および／または当該基板上に実装されてもよい。

メモリ階層には、コア内の１つまたは複数のレベルのキャッシュ、共有キャッシュユニット３５０６のセットあるいは１つまたは複数の共有キャッシュユニット３５０６、および統合メモリコントローラユニット３５１４のセットに結合された外部メモリ（図示せず）が含まれる。共有キャッシュユニット３５０６のセットは、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）、または他のレベルのキャッシュなどの、１つまたは複数の中間レベルのキャッシュ、ラストレベルキャッシュ（ＬＬＣ）、および／またはこれらの組み合わせを含んでよい。一実施形態では、リングベースの相互接続ユニット３５１２が、統合グラフィックスロジック３５０８、共有キャッシュユニット３５０６のセット、およびシステムエージェントユニット３５１０／統合メモリコントローラユニット３５１４を相互接続するが、代替的な実施形態は、このようなユニットを相互接続するのに任意の数の既知の技法を用いてよい。一実施形態において、１つまたは複数のキャッシュユニット３５０６と、コア３５０２Ａ〜Ｎとの間でコヒーレンシが保持される。

いくつかの実施形態では、コア３５０２Ａ〜Ｎのうちの１つまたは複数がマルチスレッディング可能である。システムエージェント３５１０は、コア３５０２Ａ〜Ｎを調整し動作させるそれらのコンポーネントを含む。システムエージェントユニット３５１０は、例えば、電力制御ユニット（ＰＣＵ）およびディスプレイユニットを含んでよい。ＰＣＵは、コア３５０２Ａ〜Ｎおよび統合グラフィックスロジック３５０８の電力状態を調整するのに必要なロジックおよびコンポーネントであってよく、または当該ロジックおよび当該コンポーネントを含んでもよい。ディスプレイユニットは、１つまたは複数の外部接続されたディスプレイを駆動するためのものである。

コア３５０２Ａ〜Ｎは、アーキテクチャ命令セットに関して同種でも異種でもよい。すなわち、コア３５０２Ａ〜Ｎのうち２つまたはそれより多くは同じ命令セットを実行することが可能であってよいが、他のものはその命令セットのサブセットまたは異なる命令セットだけを実行することが可能であってもよい。

［例示的なコンピュータアーキテクチャ］
図３６〜３９は、例示的なコンピュータアーキテクチャのブロック図である。ラップトップ、デスクトップ、ハンドヘルドＰＣ、パーソナルデジタルアシスタント、エンジニアリングワークステーション、サーバ、ネットワークデバイス、ネットワークハブ、スイッチ、組み込みプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、グラフィックスデバイス、ビデオゲームデバイス、セットトップボックス、マイクロコントローラ、携帯電話、ポータブルメディアプレーヤ、ハンドヘルドデバイス、および様々な他の電子デバイスについて当該技術分野において既知の他のシステム設計および構成もまた好適である。一般に、本明細書で開示されたプロセッサおよび／または他の実行ロジックを組み込むことが可能な多様なシステムまたは電子デバイスが一般に好適である。

ここで、図３６を参照すると、本開示の一実施形態によるシステム３６００のブロック図が示される。システム３６００は、１つまたは複数のプロセッサ３６１０、３６１５を含んでよく、これらはコントローラハブ３６２０に結合されている。一実施形態において、コントローラハブ３６２０は、グラフィックスメモリコントローラハブ（ＧＭＣＨ）３６９０および入出力ハブ（ＩＯＨ）３６５０（別個のチップ上にあり得る）を含む。ＧＭＣＨ３６９０は、メモリおよびグラフィックスコントローラを含み、これらにメモリ３６４０およびコプロセッサ３６４５が結合される。ＩＯＨ３６５０は、入出力（Ｉ／Ｏ）デバイス３６６０をＧＭＣＨ３６９０に結合する。代替的に、メモリおよびグラフィックスコントローラのうち一方または両方は、（本明細書において説明されるように）プロセッサ内に統合され、メモリ３６４０およびコプロセッサ３６４５は、プロセッサ３６１０と、ＩＯＨ３６５０を有する単一チップ内のコントローラハブ３６２０とに直接結合される。メモリ３６４０は、例えば、実行されるとプロセッサに本開示の任意の方法を実行させるコードを格納する、行列アクセラレーションコード３６４０Ａを備えてもよい。

任意選択的な性質の追加のプロセッサ３６１５が、破線を用いて図３６に示される。各プロセッサ３６１０、３６１５は、本明細書で説明される処理コアのうちの１つまたは複数を含んでよく、何らかのバージョンのプロセッサ３５００であってよい。

メモリ３６４０は、例えば、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、相変化メモリ（ＰＣＭ）、またはこの２つの組み合わせであってよい。少なくとも１つの実施形態では、コントローラハブ３６２０は、フロントサイドバス（ＦＳＢ）などのマルチドロップバス、クイックパス相互接続（ＱＰＩ）などのポイントツーポイントインタフェース、または同様の接続３６９５を介してプロセッサ３６１０、３６１５と通信する。

一実施形態では、コプロセッサ３６４５が、専用プロセッサ、例えば、高スループットＭＩＣプロセッサ、ネットワークまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、組み込みプロセッサなどである。一実施形態では、コントローラハブ３６２０は統合グラフィックスアクセラレータを含んでよい。

物理リソース３６１０、３６１５の間には、アーキテクチャ特性、マイクロアーキテクチャ特性、熱的特性、電力消費特性などを含む幅広い価値基準に関して、様々な差異が存在し得る。

一実施形態では、プロセッサ３６１０が、一般的なタイプのデータ処理動作を制御する命令を実行する。命令内には、コプロセッサ命令が埋め込まれていてもよい。プロセッサ３６１０は、これらのコプロセッサ命令を、付属のコプロセッサ３６４５が実行すべきタイプの命令であると認識する。従って、プロセッサ３６１０は、これらのコプロセッサ命令（またはコプロセッサ命令を表す制御信号）をコプロセッサバスまたは他の相互接続にてコプロセッサ３６４５に発行する。コプロセッサ３６４５は、受信したコプロセッサ命令を受け入れて実行する。

ここで、図３７を参照すると、本開示の一実施形態による、第１のより具体的な例示的システム３７００のブロック図が示される。図３７に示されるように、マルチプロセッサシステム３７００はポイントツーポイント相互接続システムであり、ポイントツーポイント相互接続３７５０を介して結合される第１のプロセッサ３７７０および第２のプロセッサ３７８０を含む。プロセッサ３７７０および３７８０のそれぞれは、何らかのバージョンのプロセッサ３５００であってよい。本開示の一実施形態において、プロセッサ３７７０および３７８０は、それぞれ、プロセッサ３６１０および３６１５であり、コプロセッサ３７３８は、コプロセッサ３６４５である。別の実施形態において、プロセッサ３７７０および３７８０はそれぞれプロセッサ３６１０およびコプロセッサ３６４５である。

プロセッサ３７７０および３７８０は、それぞれ、統合メモリコントローラ（ＩＭＣ）ユニット３７７２および３７８２を含むように示されている。プロセッサ３７７０はまた、そのバスコントローラユニットの一部として、ポイントツーポイント（Ｐ−Ｐ）インタフェース３７７６および３７７８を含み、同様に第２のプロセッサ３７８０はＰ−Ｐインタフェース３７８６および３７８８を含む。プロセッサ３７７０、３７８０は、ポイントツーポイント（Ｐ−Ｐ）インタフェース３７５０を介し、Ｐ−Ｐインタフェース回路３７７８、３７８８を用いて情報を交換してよい。図３７に示されるように、ＩＭＣ３７７２および３７８２は、プロセッサをそれぞれのメモリ、すなわちメモリ３７３２およびメモリ３７３４に結合する。これらのメモリは、それぞれのプロセッサにローカルに取り付けられたメインメモリの部分であってよい。

プロセッサ３７７０、３７８０はそれぞれ、個々のＰ−Ｐインタフェース３７５２、３７５４を介し、ポイントツーポイントインタフェース回路３７７６、３７９４、３７８６、３７９８を用いてチップセット３７９０と情報を交換してよい。チップセット３７９０は、任意選択で、高性能インタフェース３７３９を介してコプロセッサ３７３８と情報を交換してもよい。一実施形態では、コプロセッサ３７３８は、例えば、高スループットＭＩＣプロセッサ、ネットワークまたは通信プロセッサ、圧縮エンジン、グラフィックスプロセッサ、ＧＰＧＰＵ、組み込みプロセッサなどの専用プロセッサである。

共有キャッシュ（図示せず）は、プロセッサまたは両方のプロセッサの外部のいずれかに含まれてよく、さらに、Ｐ−Ｐ相互接続を介してプロセッサと接続されてよく、その結果、プロセッサが低電力モードに置かれている場合、いずれかまたは両方のプロセッサのローカルキャッシュ情報は、共有キャッシュに格納されてよい。

チップセット３７９０は、インタフェース３７９６を介して第１のバス３７１６に結合されてよい。一実施形態において、第１のバス３７１６はペリフェラルコンポーネントインターコネクト（ＰＣＩ）バス、またはＰＣＩＥｘｐｒｅｓｓバスもしくは別の第３世代Ｉ／Ｏ相互接続バスなどのバスであってよいが、本開示の範囲はそのようには限定されない。

図３７に示されるように、様々なＩ／Ｏデバイス３７１４が、第１のバス３７１６を第２のバス３７２０に結合するバスブリッジ３７１８と共に、第１のバス３７１６に結合されてよい。一実施形態において、１つまたは複数の追加のプロセッサ３７１５が第１のバス３７１６に結合される。追加のプロセッサとは、コプロセッサ、高スループットＭＩＣプロセッサ、ＧＰＧＰＵのアクセラレータ（例えば、グラフィックスアクセラレータ、またはデジタル信号処理（ＤＳＰ）ユニットなど）、フィールドプログラマブルゲートアレイ、または任意の他のプロセッサなどである。一実施形態では、第２のバス３７２０はローピンカウント（ＬＰＣ）バスであってよい。一実施形態において、例えば、キーボードおよび／またはマウス３７２２、通信デバイス３７２７、ならびに命令／コードおよびデータ３７３０を含み得るディスクドライブまたは他の大容量ストレージデバイスなどのストレージユニット３７２８を含む様々なデバイスが、第２のバス３７２０に結合されてよい。さらに、オーディオＩ／Ｏ３７２４が第２のバス３７２０に結合されてよい。他のアーキテクチャも可能であることに留意されたい。例えば、図３７のポイントツーポイントアーキテクチャの代わりに、システムがマルチドロップバスアーキテクチャまたは他のそのようなアーキテクチャを実装してよい。

ここで、図３８を参照すると、本開示の一実施形態による、第２のより具体的な例示的システム３８００のブロック図が示される。図３７および図３８内の同様の要素には同様の参照符号が付されており、図３７の特定の態様が、図３８の他の態様を不明瞭にするのを避けるために、図３８から省略されている。

図３８は、プロセッサ３７７０、３７８０が、統合メモリを含み、またＩ／Ｏ制御ロジック（「ＣＬ」）３７７２および３７８２をそれぞれ含んでよいことを示す。従って、ＣＬ３７７２、３７８２は統合メモリコントローラユニットを含み、かつＩ／Ｏ制御ロジックを含む。図３８は、メモリ３７３２、３７３４がＣＬ３７７２、３７８２に結合されているだけでなく、Ｉ／Ｏデバイス３８１４も、制御ロジック３７７２、３７８２に結合されていることを示している。レガシＩ／Ｏデバイス３８１５がチップセット３７９０に結合されている。

ここで、図３９を参照すると、本開示の一実施形態によるＳｏＣ３９００のブロック図が示される。図３５と同様の要素には同様の参照符号が付されている。また、破線ボックスは、より高度なＳｏＣ上の任意選択的な機能である。図３９において、相互接続ユニット３９０２が、１つまたは複数のコア３５０２Ａ−Ｎおよび共有キャッシュユニット３５０６のセットを含むアプリケーションプロセッサ３９１０と、システムエージェントユニット３５１０と、バスコントローラユニット３５１６と、統合メモリコントローラユニット３５１４と、統合グラフィックスロジック、イメージプロセッサ、オーディオプロセッサ、およびビデオプロセッサを含み得るコプロセッサ３９２０のセットあるいは１つまたは複数のコプロセッサ３９２０と、スタティックランダムアクセスメモリ（ＳＲＡＭ）ユニット３９３０と、ダイレクトメモリアクセス（ＤＭＡ）ユニット３９３２と、１つまたは複数の外部ディスプレイに結合するためのディスプレイユニット３９４０とに結合されている。一実施形態において、コプロセッサ３９２０は、例えば、ネットワークプロセッサまたは通信プロセッサ、圧縮エンジン、ＧＰＧＰＵ、高スループットＭＩＣプロセッサ、組み込みプロセッサなどの専用プロセッサを含む。

本明細書に開示される（例えば、メカニズムの）実施形態は、ハードウェア、ソフトウェア、ファームウェアまたはそのような実装アプローチの組み合わせで実装されてよい。本開示の実施形態では、少なくとも１つのプロセッサ、ストレージシステム（揮発性および不揮発性メモリおよび／またはストレージ要素を含む）、少なくとも１つの入力デバイスおよび少なくとも１つの出力デバイスを有するプログラマブルシステム上で実行されるコンピュータプログラムまたはプログラムコードとして実装されてよい。

図３７に示されるコード３７３０などのプログラムコードは、本明細書で説明される機能を実行し、出力情報を生成する入力命令に適用されてよい。出力情報は、１つまたは複数の出力デバイスに既知の方式で適用されてよい。本願の目的のために、処理システムは、例えば、デジタル信号プロセッサ（ＤＳＰ）、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）またはマイクロプロセッサなどのプロセッサを有する任意のシステムを含む。

プログラムコードは、処理システムと通信するために、高水準手続き型またはオブジェクト指向のプログラミング言語で実装されてもよい。プログラムコードはまた、所望の場合、アセンブリ言語または機械語で実装されてもよい。実際には、本明細書で説明されたメカニズムは、いかなる特定のプログラミング言語にも範囲が限定されない。いずれの場合でも、言語は、コンパイル型言語またはインタープリタ型言語であってよい。

少なくとも１つの実施形態の１つまたは複数の態様は、プロセッサ内の様々なロジックを表す機械可読媒体に格納された代表的命令によって実装されてもよく、これらの代表的命令は、機械によって読み取られると、機械に本明細書で説明された技法を実行するようにロジックを組み立てさせる。「ＩＰコア」として知られるそのような表現は、有形の機械可読媒体に記憶され、実際にロジックまたはプロセッサを作成する製造機械にロードするために様々な顧客または製造設備に供給されてもよい。

そのような機械可読記憶媒体には、ハードディスク、フロッピーディスク、光ディスク、コンパクトディスク読み取り専用メモリ（ＣＤ−ＲＯＭ）、コンパクトディスクリライタブル（ＣＤ−ＲＷ）、および光磁気ディスクを含む任意の他のタイプのディスク、読み取り専用メモリ（ＲＯＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）などのランダムアクセスメモリ（ＲＡＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、フラッシュメモリ、電気的消去可能プログラマブル読み取り専用メモリ（ＥＥＰＲＯＭ）、相変化メモリ（ＰＣＭ）などの半導体デバイス、磁気カードもしくは光学式カード、または電子命令を記憶するのに好適な任意の他のタイプの媒体などの記憶媒体を含む、機械またはデバイスによって製造または形成された物品の非一時的な有形の構成が含まれてもよいが、それらに限定されない。

従って、本開示の実施形態は、命令を含み、または本明細書で説明される構造、回路、装置、プロセッサおよび／またはシステムの特徴を定義するハードウェア記述言語（ＨＤＬ）などの設計データを含む、非一時的な有形の機械可読媒体も含む。そのような実施形態は、また、プログラム製品と称され得る。

［エミュレーション（バイナリ変換、コードモーフィングなどを含む）］
場合によっては、命令をソース命令セットからターゲット命令セットに変換するのに、命令コンバータが用いられてよい。例えば、命令コンバータは、命令をコアによって処理されるべき１つまたは複数の他の命令に（例えば、静的バイナリ変換、動的コンパイルを含む動的バイナリ変換を使用して）変換し、モーフィングし、エミュレートし、または別の方法で変換することができる。命令コンバータは、ソフトウェア、ハードウェア、ファームウェア、またはそれらの組み合わせで実装されてもよい。命令コンバータは、オンプロセッサ、オフプロセッサ、または一部がオンプロセッサで一部がオフプロセッサであってよい。

図４０は、本開示の実施形態による、ソース命令セット内のバイナリ命令を、ターゲット命令セット内のバイナリ命令に変換するソフトウェア命令コンバータの使用を対比するブロック図である。図示された実施形態において、命令コンバータはソフトウェア命令コンバータであるが、代替的に、命令コンバータは、ソフトウェア、ファームウェア、ハードウェア、またはこれらの様々な組み合わせで実装されてもよい。図４０は、高水準言語４００２のプログラムがｘ８６コンパイラ４００４を用いてコンパイルされ、少なくとも１つのｘ８６命令セットコアを持つプロセッサ４０１６によってネイティブに実行され得るｘ８６バイナリコード４００６を生成し得ることを示す。少なくとも１つのｘ８６命令セットコアを持つプロセッサ４０１６は、少なくとも１つのｘ８６命令セットコアを持つインテル（登録商標）プロセッサと実質的に同一の結果を得るべく、（１）インテル（登録商標）ｘ８６命令セットコアの命令セットのかなりの部分、または（２）少なくとも１つのｘ８６命令セットコアを持つインテル（登録商標）プロセッサ上での実行を目的とするアプリケーションまたは他のソフトウェアのオブジェクトコードバージョン、を互換的に実行またはそれ以外の方法で処理することによって、少なくとも１つのｘ８６命令セットコアを持つインテル（登録商標）プロセッサと実質的に同一の諸機能を実行できる任意のプロセッサを表している。ｘ８６コンパイラ４００４は、追加のリンク処理の有無にかかわらず、少なくとも１つのｘ８６命令セットコアを持つプロセッサ４０１６上で実行可能なｘ８６バイナリコード４００６（例えば、オブジェクトコード）を生成するように動作可能なコンパイラを表す。同様に、図４０は、高水準言語４００２のプログラムが、代替的な命令セットバイナリコード４０１０を生成する代替的な命令セットコンパイラ４００８を使用してコンパイルされ得ることを示しており、当該代替的な命令セットバイナリコード４０１０は、少なくとも１つのｘ８６命令セットコアを持たないプロセッサ４０１４（例えば、カリフォルニア州サニーベールのＭＩＰＳＴｅｃｈｎｏｌｏｇｉｅｓのＭＩＰＳ命令セットを実行する、および／または、カリフォルニア州サニーベールのＡＲＭＨｏｌｄｉｎｇｓのＡＲＭ命令セットを実行するコアを持つプロセッサ）によってネイティブに実行されてよい。命令コンバータ４０１２は、ｘ８６バイナリコード４００６を、ｘ８６命令セットコアを持たないプロセッサ４０１４によってネイティブに実行され得るコードに変換するために用いられる。この変換されたコードは、代替的な命令セットバイナリコード４０１０と同じである可能性が低い。なぜなら、この変換が可能な命令コンバータは、製造が困難だからである。しかしながら、変換されたコードは、一般的な演算を実現し、代替的な命令セットからの命令で構成される。従って、命令コンバータ４０１２は、ソフトウェア、ファームウェア、ハードウェアまたはこれらの組み合わせを表し、それらは、エミュレーション、シミュレーションまたは任意の他の処理を介して、ｘ８６命令セットプロセッサまたはコアを有していないプロセッサまたは他の電子デバイスが、ｘ８６バイナリコード４００６を実行するのを可能にする。
（項目１）融合乗累算回路の２次元グリッドを含む行列演算アクセラレータ回路と、
上記行列演算アクセラレータ回路に結合された第１の入力２次元行列を表す第１の複数のレジスタと、
上記行列演算アクセラレータ回路に結合された第２の入力２次元行列を表す第２の複数のレジスタと、
上記行列演算アクセラレータ回路に結合されたハードウェアプロセッサコアの、単一の命令をデコードされた単一の命令にデコードするデコーダであって、上記単一の命令は、結果ストレージを識別するフィールドを含む、デコーダと、
上記ハードウェアプロセッサコアの実行回路であって、上記デコードされた単一の命令を実行して、
上記融合乗累算回路の２次元グリッドの第１のバッファに、上記第１の複数のレジスタからの上記第１の入力２次元行列をロードし、
上記融合乗累算回路の２次元グリッドの第２のバッファが、上記第２の入力２次元行列と同一である直前の入力２次元行列を記憶しているかをチェックし、
上記融合乗累算回路の２次元グリッドの上記第２のバッファが、前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶している場合、
上記前の命令および上記デコードされた単一の命令の実行の間での上記第２のバッファのリクラメーションを防止し、
上記第１のバッファからの上記第１の入力２次元行列および上記第２のバッファからの上記直前の入力２次元行列に演算を実行して結果を生成し、
上記結果を上記結果ストレージに記憶し、
上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶していない場合、
上記第２の入力２次元行列を上記融合乗累算回路の２次元グリッドの上記第２のバッファにロードし、
上記第１のバッファからの上記第１の入力２次元行列および上記第２のバッファからの上記第２の入力２次元行列に演算を実行して結果を生成し、
上記結果を上記結果ストレージに記憶する、実行回路と、
を備える、装置。
（項目２）上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶していない場合、上記行列演算アクセラレータ回路は、上記前の命令および上記デコードされた単一の命令の実行の間での上記第２のバッファのリクラメーションを開始する、項目１に記載の装置。
（項目３）上記行列演算アクセラレータ回路は、入力２次元行列を表す複数のレジスタのそれぞれに識別値を割り当て、上記融合乗累算回路の２次元グリッドの上記第２のバッファが上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶しているかどうかの上記チェックは、上記前の命令および上記単一の命令からの対応する入力２次元行列のそれぞれの識別値を比較することを含む、項目１に記載の装置。
（項目４）上記行列演算アクセラレータ回路は、次の命令の入力２次元行列を記憶するように、上記第２の複数のレジスタに異なる識別値を割り当てる、項目３に記載の装置。
（項目５）上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶している場合、上記行列演算アクセラレータ回路は、上記デコードされた単一の命令の実行中、上記融合乗累算回路の２次元グリッドの上記第２のバッファをロードしない、項目１に記載の装置。
（項目６）上記結果ストレージは、上記デコードされた単一の命令の実行によって形成された少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、項目１に記載の装置。
（項目７）上記演算は、上記２次元グリッドの融合乗累算回路の各第１の適切なサブセットのそれぞれの各出力を、上記２次元グリッドの融合乗累算回路の各第２の適切なサブセットのそれぞれの各入力へと下流に送信して、上記結果を形成することを含む、項目１に記載の装置。
（項目８）上記融合乗累算回路の第１の適切なサブセットは、上記融合乗累算回路の２次元グリッドの行または列のうちの一方であり、上記融合乗累算回路の第２の適切なサブセットは、上記融合乗累算回路の２次元グリッドの上記行または上記列のうちの他方である、項目７に記載の装置。
（項目９）ハードウェアプロセッサコアのデコーダを用いて、単一の命令をデコードされた単一の命令にデコードする段階であって、上記ハードウェアプロセッサコアは、融合乗累算回路の２次元グリッドを含む行列演算アクセラレータ回路に結合され、上記行列演算アクセラレータ回路は、第１の入力２次元行列を表す第１の複数のレジスタおよび第２の入力２次元行列を表す第２の複数のレジスタに結合され、上記単一の命令は、結果ストレージを識別するフィールドを備える、段階と、
上記ハードウェアプロセッサコアの実行回路を用いて、上記デコードされた単一の命令を実行して、
上記融合乗累算回路の２次元グリッドの第１のバッファに、上記第１の複数のレジスタからの上記第１の入力２次元行列をロードし、
上記融合乗累算回路の２次元グリッドの第２のバッファが、上記第２の入力２次元行列と同一である直前の入力２次元行列を記憶しているかをチェックし、
上記融合乗累算回路の２次元グリッドの上記第２のバッファが、前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶している場合、
上記前の命令および上記デコードされた単一の命令の実行の間での上記第２のバッファのリクラメーションを防止し、
上記第１のバッファからの上記第１の入力２次元行列および上記第２のバッファからの上記直前の入力２次元行列に演算を実行して結果を生成し、
上記結果を上記結果ストレージに記憶し、
上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶していない場合、
上記第２の入力２次元行列を上記融合乗累算回路の２次元グリッドの上記第２のバッファにロードし、
上記第１のバッファからの上記第１の入力２次元行列および上記第２のバッファからの上記第２の入力２次元行列に演算を実行して結果を生成し、
上記結果を上記結果ストレージに記憶する、段階と、
を含む、方法。
（項目１０）上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶していない場合、上記前の命令および上記デコードされた単一の命令の実行の間での上記第２のバッファのリクラメーションを開始する段階をさらに含む、項目９に記載の方法。
（項目１１）入力２次元行列を表す複数のレジスタのそれぞれに識別値を割り当てる段階をさらに含み、上記融合乗累算回路の２次元グリッドの上記第２のバッファが上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶しているかどうかの上記チェックは、上記前の命令および上記単一の命令からの対応する入力２次元行列のそれぞれの識別値を比較する段階を含む、項目９に記載の方法。
（項目１２）次の命令の入力２次元行列を記憶するように、上記第２の複数のレジスタに異なる識別値を割り当てる段階をさらに含む、項目１１に記載の方法。
（項目１３）上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶している場合、上記デコードされた単一の命令の実行中、上記融合乗累算回路の２次元グリッドの上記第２のバッファをロードしない段階をさらに含む、項目９に記載の方法。
（項目１４）上記結果ストレージは、上記デコードされた単一の命令の実行によって形成された少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、項目９に記載の方法。
（項目１５）上記演算は、上記２次元グリッドの融合乗累算回路の各第１の適切なサブセットのそれぞれの各出力を、上記２次元グリッドの融合乗累算回路の各第２の適切なサブセットのそれぞれの各入力へと下流に送信して、上記結果を形成することを含む、項目９に記載の方法。
（項目１６）上記融合乗累算回路の第１の適切なサブセットは、上記融合乗累算回路の２次元グリッドの行または列のうちの一方であり、上記融合乗累算回路の第２の適切なサブセットは、上記融合乗累算回路の２次元グリッドの上記行または上記列のうちの他方である、項目１５に記載の方法。
（項目１７）機械によって実行されると、上記機械に方法を実行させるコードを記憶した非一時的機械可読媒体であって、上記方法は、
ハードウェアプロセッサコアのデコーダを用いて、単一の命令をデコードされた単一の命令にデコードする段階であって、上記ハードウェアプロセッサコアは、融合乗累算回路の２次元グリッドを含む行列演算アクセラレータ回路に結合され、上記行列演算アクセラレータ回路は、第１の入力２次元行列を表す第１の複数のレジスタおよび第２の入力２次元行列を表す第２の複数のレジスタに結合され、上記単一の命令は、結果ストレージを識別するフィールドを備える、段階と、
上記ハードウェアプロセッサコアの実行回路を用いて、上記デコードされた単一の命令を実行して、
上記融合乗累算回路の２次元グリッドの第１のバッファに、上記第１の複数のレジスタからの上記第１の入力２次元行列をロードし、
上記融合乗累算回路の２次元グリッドの第２のバッファが、上記第２の入力２次元行列と同一である直前の入力２次元行列を記憶しているかをチェックし、
上記融合乗累算回路の２次元グリッドの上記第２のバッファが、前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶している場合、
上記前の命令および上記デコードされた単一の命令の実行の間での上記第２のバッファのリクラメーションを防止し、
上記第１のバッファからの上記第１の入力２次元行列および上記第２のバッファからの上記直前の入力２次元行列に演算を実行して結果を生成し、
上記結果を上記結果ストレージに記憶し、
上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶していない場合、
上記第２の入力２次元行列を上記融合乗累算回路の２次元グリッドの上記第２のバッファにロードし、
上記第１のバッファからの上記第１の入力２次元行列および上記第２のバッファからの上記第２の入力２次元行列に演算を実行して結果を生成し、
上記結果を上記結果ストレージに記憶する、段階と、
を含む、非一時的機械可読媒体。
（項目１８）上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶していない場合、上記前の命令および上記デコードされた単一の命令の実行の間での上記第２のバッファのリクラメーションを開始する段階をさらに含む、項目１７に記載の非一時的機械可読媒体。
（項目１９）入力２次元行列を表す複数のレジスタのそれぞれに識別値を割り当てる段階をさらに含み、上記融合乗累算回路の２次元グリッドの上記第２のバッファが上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶しているかどうかの上記チェックは、上記前の命令および上記単一の命令からの対応する入力２次元行列のそれぞれの識別値を比較する段階を含む、項目１７に記載の非一時的機械可読媒体。
（項目２０）次の命令の入力２次元行列を記憶するように、上記第２の複数のレジスタに異なる識別値を割り当てる段階をさらに含む、項目１９に記載の非一時的機械可読媒体。
（項目２１）上記融合乗累算回路の２次元グリッドの上記第２のバッファが、上記前の命令の実行から、上記第２の入力２次元行列と同一である上記直前の入力２次元行列を記憶している場合、上記デコードされた単一の命令の実行中、上記融合乗累算回路の２次元グリッドの上記第２のバッファをロードしない段階をさらに含む、項目１７に記載の非一時的機械可読媒体。
（項目２２）上記結果ストレージは、上記デコードされた単一の命令の実行によって形成された少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、項目１７に記載の非一時的機械可読媒体。
（項目２３）上記演算は、上記２次元グリッドの融合乗累算回路の各第１の適切なサブセットのそれぞれの各出力を、上記２次元グリッドの融合乗累算回路の各第２の適切なサブセットのそれぞれの各入力へと下流に送信して、上記結果を形成することを含む、項目１７に記載の非一時的機械可読媒体。
（項目２４）上記融合乗累算回路の第１の適切なサブセットは、上記融合乗累算回路の２次元グリッドの行または列のうちの一方であり、上記融合乗累算回路の第２の適切なサブセットは、上記融合乗累算回路の２次元グリッドの上記行または上記列のうちの他方である、項目２３に記載の非一時的機械可読媒体。

Claims

融合乗累算回路の２次元グリッドを含む行列演算アクセラレータ回路と、
前記行列演算アクセラレータ回路に結合された第１の入力２次元行列を表す第１の複数のレジスタと、
前記行列演算アクセラレータ回路に結合された第２の入力２次元行列を表す第２の複数のレジスタと、
前記行列演算アクセラレータ回路に結合されたハードウェアプロセッサコアの、単一の命令をデコードされた単一の命令にデコードするデコーダであって、前記単一の命令は、結果ストレージを識別するフィールドを含む、デコーダと、
前記ハードウェアプロセッサコアの実行回路であって、
前記融合乗累算回路の２次元グリッドの第１のバッファに、前記第１の複数のレジスタからの前記第１の入力２次元行列をロードし、
前記融合乗累算回路の２次元グリッドの第２のバッファが、前記第２の入力２次元行列と同一である直前の入力２次元行列を記憶しているかをチェックし、
前記融合乗累算回路の２次元グリッドの前記第２のバッファが、前の命令の実行から、前記第２の入力２次元行列と同一である前記直前の入力２次元行列を記憶している場合、
前記前の命令および前記デコードされた単一の命令の実行の間での前記第２のバッファのリクラメーションを防止し、
前記第１のバッファからの前記第１の入力２次元行列および前記第２のバッファからの前記直前の入力２次元行列に演算を実行して結果を生成し、
前記結果を前記結果ストレージに記憶し、
前記融合乗累算回路の２次元グリッドの前記第２のバッファが、前記前の命令の実行から、前記第２の入力２次元行列と同一である前記直前の入力２次元行列を記憶していない場合、
前記第２の入力２次元行列を前記融合乗累算回路の２次元グリッドの前記第２のバッファにロードし、
前記第１のバッファからの前記第１の入力２次元行列および前記第２のバッファからの前記第２の入力２次元行列に演算を実行して結果を生成し、
前記結果を前記結果ストレージに記憶する、
ように、前記デコードされた単一の命令を実行する実行回路と、
を備える、装置。
前記融合乗累算回路の２次元グリッドの前記第２のバッファが、前記前の命令の実行から、前記第２の入力２次元行列と同一である前記直前の入力２次元行列を記憶していない場合、前記行列演算アクセラレータ回路は、前記前の命令および前記デコードされた単一の命令の実行の間での前記第２のバッファのリクラメーションを開始する、請求項１に記載の装置。
前記行列演算アクセラレータ回路は、入力２次元行列を表す複数のレジスタのそれぞれに識別値を割り当て、前記融合乗累算回路の２次元グリッドの前記第２のバッファが前記第２の入力２次元行列と同一である前記直前の入力２次元行列を記憶しているかどうかの前記チェックは、前記前の命令および前記単一の命令からの対応する入力２次元行列のそれぞれの識別値を比較することを含む、請求項１または２に記載の装置。
前記行列演算アクセラレータ回路は、次の命令の入力２次元行列を記憶するように、前記第２の複数のレジスタに異なる識別値を割り当てる、請求項３に記載の装置。
前記融合乗累算回路の２次元グリッドの前記第２のバッファが、前記前の命令の実行から、前記第２の入力２次元行列と同一である前記直前の入力２次元行列を記憶している場合、前記行列演算アクセラレータ回路は、前記デコードされた単一の命令の実行中、前記融合乗累算回路の２次元グリッドの前記第２のバッファをロードしない、請求項１〜４のいずれか１項に記載の装置。
前記結果ストレージは、前記デコードされた単一の命令の実行によって形成された少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、請求項１〜５のいずれか１項に記載の装置。
前記演算は、前記２次元グリッドの融合乗累算回路の各第１の適切なサブセットのそれぞれの各出力を、前記２次元グリッドの融合乗累算回路の各第２の適切なサブセットのそれぞれの各入力へと下流に送信して、前記結果を形成することを含む、請求項１〜６のいずれか１項に記載の装置。
前記融合乗累算回路の第１の適切なサブセットは、前記融合乗累算回路の２次元グリッドの行または列のうちの一方であり、前記融合乗累算回路の第２の適切なサブセットは、前記融合乗累算回路の２次元グリッドの前記行または前記列のうちの他方である、請求項７に記載の装置。
ハードウェアプロセッサコアのデコーダを用いて、単一の命令をデコードされた単一の命令にデコードする段階であって、前記ハードウェアプロセッサコアは、融合乗累算回路の２次元グリッドを含む行列演算アクセラレータ回路に結合され、前記行列演算アクセラレータ回路は、第１の入力２次元行列を表す第１の複数のレジスタおよび第２の入力２次元行列を表す第２の複数のレジスタに結合され、前記単一の命令は、結果ストレージを識別するフィールドを備える、段階と、
前記融合乗累算回路の２次元グリッドの第１のバッファに、前記第１の複数のレジスタからの前記第１の入力２次元行列をロードし、
前記融合乗累算回路の２次元グリッドの第２のバッファが、前記第２の入力２次元行列と同一である直前の入力２次元行列を記憶しているかをチェックし、
前記融合乗累算回路の２次元グリッドの前記第２のバッファが、前の命令の実行から、前記第２の入力２次元行列と同一である前記直前の入力２次元行列を記憶している場合、
前記前の命令および前記デコードされた単一の命令の実行の間での前記第２のバッファのリクラメーションを防止し、
前記第１のバッファからの前記第１の入力２次元行列および前記第２のバッファからの前記直前の入力２次元行列に演算を実行して結果を生成し、
前記結果を前記結果ストレージに記憶し、
前記融合乗累算回路の２次元グリッドの前記第２のバッファが、前記前の命令の実行から、前記第２の入力２次元行列と同一である前記直前の入力２次元行列を記憶していない場合、
前記第２の入力２次元行列を前記融合乗累算回路の２次元グリッドの前記第２のバッファにロードし、
前記第１のバッファからの前記第１の入力２次元行列および前記第２のバッファからの前記第２の入力２次元行列に演算を実行して結果を生成し、
前記結果を前記結果ストレージに記憶する、
ように、前記ハードウェアプロセッサコアの実行回路を用いて前記デコードされた単一の命令を実行する段階と、
を含む、方法。
前記融合乗累算回路の２次元グリッドの前記第２のバッファが、前記前の命令の実行から、前記第２の入力２次元行列と同一である前記直前の入力２次元行列を記憶していない場合、前記前の命令および前記デコードされた単一の命令の実行の間での前記第２のバッファのリクラメーションを開始する段階をさらに含む、請求項９に記載の方法。
入力２次元行列を表す複数のレジスタのそれぞれに識別値を割り当てる段階をさらに含み、前記融合乗累算回路の２次元グリッドの前記第２のバッファが前記第２の入力２次元行列と同一である前記直前の入力２次元行列を記憶しているかどうかの前記チェックは、前記前の命令および前記単一の命令からの対応する入力２次元行列のそれぞれの識別値を比較する段階を含む、請求項９または１０に記載の方法。
次の命令の入力２次元行列を記憶するように、前記第２の複数のレジスタに異なる識別値を割り当てる段階をさらに含む、請求項１１に記載の方法。
前記融合乗累算回路の２次元グリッドの前記第２のバッファが、前記前の命令の実行から、前記第２の入力２次元行列と同一である前記直前の入力２次元行列を記憶している場合、前記デコードされた単一の命令の実行中、前記融合乗累算回路の２次元グリッドの前記第２のバッファをロードしない段階をさらに含む、請求項９〜１２のいずれか１項に記載の方法。
前記結果ストレージは、前記デコードされた単一の命令の実行によって形成された少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、請求項９〜１３のいずれか１項に記載の方法。
前記演算は、前記２次元グリッドの融合乗累算回路の各第１の適切なサブセットのそれぞれの各出力を、前記２次元グリッドの融合乗累算回路の各第２の適切なサブセットのそれぞれの各入力へと下流に送信して、前記結果を形成することを含む、請求項９〜１４のいずれか１項に記載の方法。
前記融合乗累算回路の第１の適切なサブセットは、前記融合乗累算回路の２次元グリッドの行または列のうちの一方であり、前記融合乗累算回路の第２の適切なサブセットは、前記融合乗累算回路の２次元グリッドの前記行または前記列のうちの他方である、請求項１５に記載の方法。
コンピュータに、
ハードウェアプロセッサコアのデコーダを用いて、単一の命令をデコードされた単一の命令にデコードする手順であって、前記ハードウェアプロセッサコアは、融合乗累算回路の２次元グリッドを含む行列演算アクセラレータ回路に結合され、前記行列演算アクセラレータ回路は、第１の入力２次元行列を表す第１の複数のレジスタおよび第２の入力２次元行列を表す第２の複数のレジスタに結合され、前記単一の命令は、結果ストレージを識別するフィールドを備える、手順と、
前記融合乗累算回路の２次元グリッドの第１のバッファに、前記第１の複数のレジスタからの前記第１の入力２次元行列をロードし、
前記融合乗累算回路の２次元グリッドの第２のバッファが、前記第２の入力２次元行列と同一である直前の入力２次元行列を記憶しているかをチェックし、
前記融合乗累算回路の２次元グリッドの前記第２のバッファが、前の命令の実行から、前記第２の入力２次元行列と同一である前記直前の入力２次元行列を記憶している場合、
前記前の命令および前記デコードされた単一の命令の実行の間での前記第２のバッファのリクラメーションを防止し、
前記第１のバッファからの前記第１の入力２次元行列および前記第２のバッファからの前記直前の入力２次元行列に演算を実行して結果を生成し、
前記結果を前記結果ストレージに記憶し、
前記融合乗累算回路の２次元グリッドの前記第２のバッファが、前記前の命令の実行から、前記第２の入力２次元行列と同一である前記直前の入力２次元行列を記憶していない場合、
前記第２の入力２次元行列を前記融合乗累算回路の２次元グリッドの前記第２のバッファにロードし、
前記第１のバッファからの前記第１の入力２次元行列および前記第２のバッファからの前記第２の入力２次元行列に演算を実行して結果を生成し、
前記結果を前記結果ストレージに記憶する、
ように、前記ハードウェアプロセッサコアの実行回路を用いて前記デコードされた単一の命令を実行する手順と、
を実行させるプログラム。
前記融合乗累算回路の２次元グリッドの前記第２のバッファが、前記前の命令の実行から、前記第２の入力２次元行列と同一である前記直前の入力２次元行列を記憶していない場合、前記前の命令および前記デコードされた単一の命令の実行の間での前記第２のバッファのリクラメーションを開始する手順をさらに含む、請求項１７に記載のプログラム。
入力２次元行列を表す複数のレジスタのそれぞれに識別値を割り当てる手順をさらに含み、前記融合乗累算回路の２次元グリッドの前記第２のバッファが前記第２の入力２次元行列と同一である前記直前の入力２次元行列を記憶しているかどうかの前記チェックは、前記前の命令および前記単一の命令からの対応する入力２次元行列のそれぞれの識別値を比較する手順を含む、請求項１７または１８に記載のプログラム。
次の命令の入力２次元行列を記憶するように、前記第２の複数のレジスタに異なる識別値を割り当てる手順をさらに含む、請求項１９に記載のプログラム。
前記融合乗累算回路の２次元グリッドの前記第２のバッファが、前記前の命令の実行から、前記第２の入力２次元行列と同一である前記直前の入力２次元行列を記憶している場合、前記デコードされた単一の命令の実行中、前記融合乗累算回路の２次元グリッドの前記第２のバッファをロードしない手順をさらに含む、請求項１７〜２０のいずれか１項に記載のプログラム。
前記結果ストレージは、前記デコードされた単一の命令の実行によって形成された少なくとも１つの出力２次元行列を表す第３の複数のレジスタである、請求項１７〜２１のいずれか１項に記載のプログラム。
前記演算は、前記２次元グリッドの融合乗累算回路の各第１の適切なサブセットのそれぞれの各出力を、前記２次元グリッドの融合乗累算回路の各第２の適切なサブセットのそれぞれの各入力へと下流に送信して、前記結果を形成することを含む、請求項１７〜２２のいずれか１項に記載のプログラム。
前記融合乗累算回路の第１の適切なサブセットは、前記融合乗累算回路の２次元グリッドの行または列のうちの一方であり、前記融合乗累算回路の第２の適切なサブセットは、前記融合乗累算回路の２次元グリッドの前記行または前記列のうちの他方である、請求項２３に記載のプログラム。
請求項１７〜２４のいずれか１項に記載のプログラムを記憶した非一時的機械可読媒体。