JP2023046252A

JP2023046252A - 浮動小数点計算のエミュレーション

Info

Publication number: JP2023046252A
Application number: JP2022110785A
Authority: JP
Inventors: チェンジアシェン; Jiasheng Chen; リーチャンウォン; Changwon Rhee; ガナパシーサバリーシュ; Ganapathy Sabareesh; ヘンリーグレゴリー; Henry Gregory; フファンウェン; Fangwen Fu
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2021-09-22
Filing date: 2022-07-08
Publication date: 2023-04-03
Also published as: EP4155900A1; CN115934025A; US20230086275A1

Abstract

【課題】低精度フォーマット計算を使用した浮動小数点計算のエミュレート方法を提供する。
【解決手段】プロセッサには、第１の精度フォーマットでネイティブ浮動小数点演算を提供する浮動小数点ユニット（ＦＰＵ）と、複数のデータ処理ユニットを有するシストリックアレイハードウェアと、が含まれる。プロセッサは、第１の精度フォーマットで行列乗算演算を実施するためのデータを受信することと、第２の精度フォーマットを有する１または複数の値を使用してエミュレートされた浮動小数点乗算演算を可能にすることと、を含む。第２の精度フォーマットは、第１の精度フォーマットよりも低い精度を有し、エミュレートされた浮動小数点乗算は、シストリックアレイハードウェアの演算を含む。プロセッサはさらに、行列乗算演算のためのエミュレートされた結果を生成する。
【選択図】図２７Ａ

Description

本開示は、概してデータ処理に関し、より詳細には、汎用グラフィックス処理ユニットによるデータ処理に関する。

現在の並列グラフィックスデータ処理には、例えば、線形補間、テッセレーション（ｔｅｓｓｅｌｌａｔｉｏｎ）、ラスタライゼーション（ｒａｓｔｅｒｉｚａｔｉｏｎ）、テクスチャマッピング、深度テストなどのグラフィックスデータに対して特定の演算を実施するために開発されたシステムおよび方法が含まれている。従来、グラフィックスプロセッサでは、グラフィックスデータを処理するために固定機能計算ユニットが使用されていた。しかし、最近では、グラフィックスプロセッサの一部がプログラム可能となっており、かかるプロセッサは、頂点データおよびフラグメントデータを処理するための多種多様な演算をサポートできるようになっている。

性能をさらに向上させるために、グラフィックスプロセッサは、典型的には、パイプライン処理などの処理技術を実装しており、該パイプライン技術は、グラフィックスパイプラインの異なる部分にわたって可能な限り多くのグラフィックスデータを並列に処理する。単一命令多重スレッド（ＳＩＭＴ）アーキテクチャを有する並列グラフィックスプロセッサは、グラフィックスパイプラインにおける並列処理の量を最大化するように設計されている。ＳＩＭＴアーキテクチャでは、並列スレッドのグループは、処理効率を向上させるために可能な限り頻繁にプログラム命令を同期的に実行しようとする。ＳＩＭＴアーキテクチャのためのソフトウェアとハードウェアの一般的な概要は、ＳｈａｎｅＣｏｏｋ「ＣＵＤＡＰｒｏｇｒａｍｍｉｎｇＣｈａｐｔｅｒ３」３７－５１ページ（２０１３）に記載されている。

グラフィックスデータ処理を含むコンピューティングシステムの演算において、演算には、浮動小数点ＦＭＡ（融合積和）演算が含まれることが多い。しかし、従来のシステムでは、浮動小数点計算に制限があるため、演算性能が十分でない場合がある。

本発明は、限定ではなく例示として、添付図面の図において説明されているが、同じ参照符号は同じ要素を示し、以下のように構成されている。

本明細書に記載する実施形態の１または複数の態様を実装するように構成されたコンピュータシステムを示すブロック図である。

並列プロセッサコンポーネントを示す。並列プロセッサコンポーネントを示す。並列プロセッサコンポーネントを示す。並列プロセッサコンポーネントを示す。

グラフィックスマルチプロセッサおよびマルチプロセッサベースのＧＰＵのブロック図である。グラフィックスマルチプロセッサおよびマルチプロセッサベースのＧＰＵのブロック図である。グラフィックスマルチプロセッサおよびマルチプロセッサベースのＧＰＵのブロック図である。

複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合される例示的なアーキテクチャを示す。複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合される例示的なアーキテクチャを示す。複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合される例示的なアーキテクチャを示す。複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合される例示的なアーキテクチャを示す。複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合される例示的なアーキテクチャを示す。複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合される例示的なアーキテクチャを示す。

グラフィックス処理パイプラインを示す。

機械学習ソフトウェアスタックを示す。

汎用グラフィックス処理ユニットを示す。

マルチＧＰＵコンピューティングシステムを示す。

例示的な深層ニューラルネットワークの層を示す。例示的な深層ニューラルネットワークの層を示す。

例示的な再帰ニューラルネットワークを示す。

深層ニューラルネットワークの訓練および展開を示す。

分散学習を示すブロック図である。

プログラマブルネットワークインターフェースおよびデータ処理ユニットを示すブロック図である。

訓練済みのモデルを使用して推論を実施するのに適した例示的な推論システムオンチップ（ＳＯＣ）を示す。

処理システムのブロック図である。

コンピューティングシステムおよびグラフィックスプロセッサを示す。コンピューティングシステムおよびグラフィックスプロセッサを示す。コンピューティングシステムおよびグラフィックスプロセッサを示す。

追加のグラフィックスプロセッサおよび計算アクセラレータアーキテクチャのブロック図を示す。追加のグラフィックスプロセッサおよび計算アクセラレータアーキテクチャのブロック図を示す。追加のグラフィックスプロセッサおよび計算アクセラレータアーキテクチャのブロック図を示す。

グラフィックスプロセッサのグラフィックス処理エンジンのブロック図である。

グラフィックスプロセッサコアにおいて採用される処理要素のアレイを含むスレッド実行論理を示す。グラフィックスプロセッサコアにおいて採用される処理要素のアレイを含むスレッド実行論理を示す。

追加の実行ユニットを示す図である。

グラフィックスプロセッサ命令フォーマットを示すブロック図である。

追加のグラフィックスプロセッサアーキテクチャのブロック図である。

グラフィックスプロセッサコマンドフォーマットおよびコマンドシーケンスを示す。グラフィックスプロセッサコマンドフォーマットおよびコマンドシーケンスを示す。

データ処理システムのための例示的なグラフィックスソフトウェアアーキテクチャを示す。

ＩＰコア開発システムを示すブロック図である。

集積回路パッケージアセンブリの断面側面図を示す。

基板（例えば、ベースダイ）に接続された複数ユニットのハードウェア論理チップレットを含むパッケージアセンブリを示す。

交換可能チップレットを含むパッケージアセンブリを示す。

チップ集積回路上の例示的なシステムを示すブロック図である。

ＳｏＣ内で使用するための例示的なグラフィックスプロセッサを示すブロック図である。ＳｏＣ内で使用するための例示的なグラフィックスプロセッサを示すブロック図である。

一部の実施形態による、シストリックアレイハードウェアを使用する計算エミュレーションの性能の高レベルの説明図である。

一部の実施形態において、より高精度の計算をエミュレートするために適用され得るデータ処理ユニットのアレイを含むシストリックアレイハードウェアの図である。

一部の実施形態における計算に適用され得るバイナリフォーマットの説明図である。

一部の実施形態による、ｂｆｌｏａｔ１６値を利用するコンピュータシステム計算におけるＦＰ３２表現の前処理の説明図である。

一部の実施形態による、ＢＦ１６ＦＭＡ（融合積和）要素を使用するＦＰ３２エミュレーションの説明図である。

一部の実施形態による、ＦＰ３２エミュレーションを示すフローチャートである。

一部の実施形態による、浮動小数点計算のエミュレーションにおける可能な累算順序の説明図である。一部の実施形態による、浮動小数点計算のエミュレーションにおける可能な累算順序の説明図である。

実施形態は、データ処理に関し、より詳細には、汎用グラフィックス処理ユニットによるデータ処理に関する。一部の実施形態において、装置、システム、またはプロセスは、低精度フォーマット計算を使用して浮動小数点計算をエミュレートすることによって、データ処理における性能を改善することを提供する。

コンピューティングシステムの演算において、ネイティブ浮動小数点演算は、コンピュータ処理において十分な性能を提供しない場合がある。特に、ネイティブＦＰ３２は、可能な最良のＳＧＥＭＭ（単精度浮動汎用行列乗算）性能をもたらさない場合がある。かかる計算に対処する従来の解決策として、性能が低下した計算にＦＰ３２を適用すること、または正確度が低下した低精度データを利用することが挙げられる。

このため、計算において十分な正確度を維持しながらシステム性能を改善するために、低精度フォーマットを利用して、ＳＧＥＭＭ浮動小数点演算をＦＰ３２（浮動小数点（ＦｌｏａｔｉｎｇＰｏｉｎｔ）３２、単精度浮動小数点フォーマットとも称される）のような高精度表現で効率的にエミュレートする方法に関する課題が存在している。
システム概要

図１は、本明細書に記載する実施形態の１または複数の態様を実装するように構成されたコンピューティングシステム１００を示すブロック図である。コンピューティングシステム１００は、処理サブシステム１０１を含み、該処理サブシステム１０１は、１または複数のプロセッサ１０２と、メモリハブ１０５を含み得る相互接続経路を介して通信するシステムメモリ１０４とを有する。メモリハブ１０５は、チップセットコンポーネント内の別個のコンポーネントであってもよく、または１または複数のプロセッサ１０２内に統合されてもよい。メモリハブ１０５は、通信リンク１０６を介してＩ／Ｏサブシステム１１１と結合する。Ｉ／Ｏサブシステム１１１は、コンピューティングシステム１００が１または複数の入力デバイス１０８から入力を受信することを可能にするＩ／Ｏハブ１０７を含む。さらに、Ｉ／Ｏハブ１０７は、１または複数のプロセッサ１０２に含まれ得るディスプレイコントローラが１または複数のディスプレイデバイス１１０Ａに出力を提供することを可能にし得る。一実施形態では、Ｉ／Ｏハブ１０７に結合された１または複数のディスプレイデバイス１１０Ａは、ローカルディスプレイデバイス、内部ディスプレイデバイス、または埋め込みディスプレイデバイスを含み得る。

処理サブシステム１０１は、例えば、バスまたは他の通信リンク１１３を介してメモリハブ１０５に結合された１または複数の並列プロセッサ１１２を含む。通信リンク１１３は、限定されるものではないが、ＰＣＩエクスプレスなどの任意の数の標準ベースの通信リンク技術またはプロトコルのうちの１つであってもよく、またはベンダー固有の通信インターフェースまたは通信ファブリックであってもよい。１または複数の並列プロセッサ１１２は、計算に焦点を当てた並列またはベクトル処理システムを形成することができ、これには、多数の集積コア（ＭＩＣ）プロセッサなどの多数の処理コアおよび／または処理クラスタが含まれ得る。例えば、１または複数の並列プロセッサ１１２は、Ｉ／Ｏハブ１０７を介して結合された１または複数のディスプレイデバイス１１０Ａのうちの１つにピクセルを出力し得るグラフィックス処理サブシステムを形成する。１または複数の並列プロセッサ１１２はまた、１または複数のディスプレイデバイス１１０Ｂへの直接接続を可能にするディスプレイコントローラおよびディスプレイインターフェース（図示せず）を含み得る。

Ｉ／Ｏサブシステム１１１内で、システムストレージユニット１１４は、Ｉ／Ｏハブ１０７に接続して、コンピューティングシステム１００のストレージメカニズムを提供することができる。Ｉ／Ｏスイッチ１１６を使用して、Ｉ／Ｏハブ１０７と、プラットフォームに統合され得るネットワークアダプタ１１８および／または無線ネットワークアダプタ１１９、ならびに１または複数のアドインデバイス１２０を介して追加され得る種々の他のデバイスなどの他のコンポーネントとの間の接続を可能にするインターフェースメカニズムを提供することができる。アドインデバイス１２０はまた、例えば、１または複数の外部グラフィックスプロセッサデバイス、グラフィックスカード、および／またはコンピューティングアクセラレータを含んでもよい。ネットワークアダプタ１１８は、イーサネット（登録商標）アダプタまたは別の有線ネットワークアダプタであり得る。無線ネットワークアダプタ１１９は、Ｗｉ－Ｆｉ（登録商標）、ブルートゥース（登録商標）、近距離無線通信（ＮＦＣ）、または１または複数の無線を含む他のネットワークデバイスのうちの１または複数を含み得る。

コンピューティングシステム１００は、ＵＳＢまたは他のポート接続、光学ストレージドライブ、ビデオキャプチャデバイスなどを含む、明示的に示されていない他のコンポーネントを含むことができ、これらもまたＩ／Ｏハブ１０７に接続することができる。図１の種々のコンポーネントを相互接続する通信経路は、ＰＣＩ（周辺コンポーネント相互接続）ベースのプロトコル（例えば、ＰＣＩ－Ｅｘｐｒｅｓｓ）などの任意の適切なプロトコル、またはＮＶＬｉｎｋ高速相互接続、コンピュ－トエクスプレスリンク（商標）（例えば、ＣＸＬ（商標））（例えば、ＣＸＬ．ｍｅｍ）、インフィニティファブリック（ＩＦ）、イーサネット（ＩＥＥＥ８０２．３）、リモートダイレクトメモリアクセス（ＲＤＭＡ）、インフィニバンド、インターネットワイドエリアＲＤＭＡプロトコル（ｉＷＡＲＰ）、伝送制御プロトコル（ＴＣＰ）、ユーザデータグラムプロトコル（ＵＤＰ）、クイックＵＤＰインターネット接続（ＱＵＩＣ）、ＲＤＭＡオーバーコンバージドイーサネット（ＲｏＣＥ）、Ｉｎｔｅｌクイックパス相互接続（ＱＰＩ）、Ｉｎｔｅｌウルトラパス相互接続（ＵＰＩ）、Ｉｎｔｅｌオンチップシステムファブリック（ＩＯＳＦ）、オムニパス、ハイパートランスポート、アドバンストマイクロコントローラバスアーキテクチャ（ＡＭＢＡ）相互接続、ＯｐｅｎＣＡＰＩ、Ｇｅｎ－Ｚ、キャッシュコヒーレント相互接続フォーアクセラレータ（ＣＣＩＸ）、３ＧＰＰ（登録商標）ロングタームエボリューション（ＬＴＥ）（４Ｇ）、３ＧＰＰ５Ｇ、およびこれらの変形形態、または当該技術分野で公知の有線または無線相互接続プロトコルなどの任意の他のバスまたはポイントツーポイント通信インターフェースおよび／またはプロトコルを使用して実装することができる。一部の例では、データは、不揮発性メモリエクスプレス（ＮＶＭｅ）オーバーファブリック（ＮＶＭｅ－ｏＦ）またはＮＶＭｅなどのプロトコルを使用して、仮想化ストレージノードにコピーまたは記憶できる。

１または複数の並列プロセッサ１１２は、例えばビデオ出力回路を含む、グラフィックスおよびビデオ処理用に最適化された回路を組み込むことができ、グラフィックス処理ユニット（ＧＰＵ）を構成する。代替的または付加的に、１または複数の並列プロセッサ１１２は、本明細書でより詳細に説明する基礎となる計算アーキテクチャを保存しながら、汎用処理用に最適化された回路を統合することができる。コンピューティングシステム１００のコンポーネントは、単一の集積回路上の１または複数の他のシステム要素と統合することができる。例えば、１または複数の並列プロセッサ１１２、メモリハブ１０５、プロセッサ１０２、およびＩ／Ｏハブ１０７は、システムオンチップ（ＳｏＣ）集積回路に統合することができる。あるいは、コンピューティングシステム１００のコンポーネントを単一のパッケージに統合して、システムインパッケージ（ＳＩＰ）構成を形成することもできる。一実施形態では、コンピューティングシステム１００のコンポーネントの少なくとも一部を、マルチチップモジュール（ＭＣＭ）に統合することができ、該ＭＣＭは、他のマルチチップモジュールと相互接続してモジュールコンピューティングシステムに統合することができる。

本明細書に示すコンピューティングシステム１００は例示的なものであり、変形および修正が可能であることが理解されよう。ブリッジの数および配置、プロセッサ１０２の数、および並列プロセッサ１１２の数を含む接続トポロジは、必要に応じて修正することができる。例えば、システムメモリ１０４は、他のデバイスがメモリハブ１０５およびプロセッサ１０２を介してシステムメモリ１０４と通信する一方で、ブリッジを介してではなくプロセッサ１０２に直接接続することができる。他の代替トポロジでは、並列プロセッサ１１２は、Ｉ／Ｏハブ１０７に接続されるか、またはメモリハブ１０５ではなく、１または複数のプロセッサ１０２のうちの１つに直接接続される。他の実施形態では、Ｉ／Ｏハブ１０７およびメモリハブ１０５は、単一チップに統合されてもよい。プロセッサ１０２の２つ以上のセットが、並列プロセッサ１１２の２つ以上のインスタンスと結合することができる複数のソケットを介して取り付けられることも可能である。

本明細書に示される特定のコンポーネントの一部は任意選択であり、コンピューティングシステム１００の全ての実装形態に含まれない場合がある。例えば、任意の数のアドインカードまたは周辺機器がサポートされてもよく、または一部のコンポーネントを省略してもよい。さらに、一部のアーキテクチャは、図１に示すものと同様のコンポーネントに対して異なる用語を使用することができる。例えば、一部のアーキテクチャでは、メモリハブ１０５はノースブリッジと称されてもよく、Ｉ／Ｏハブ１０７はサウスブリッジと称されてもよい。

図２Ａは、並列プロセッサ２００を示している。並列プロセッサ２００は、本明細書に記載されるように、ＧＰＵ、ＧＰＧＰＵなどであり得る。並列プロセッサ２００の種々のコンポーネントは、プログラマブルプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）などの１または複数の集積回路デバイスを使用して実装することができる。図示の並列プロセッサ２００は、図１に示す並列プロセッサ１１２のうちの１または複数であってもよい。

並列プロセッサ２００は、並列処理ユニット２０２を含む。並列処理ユニットは、並列処理ユニット２０２の他のインスタンスを含む他のデバイスとの通信を可能にするＩ／Ｏユニット２０４を含む。Ｉ／Ｏユニット２０４は、他のデバイスに直接接続されてもよい。例えば、Ｉ／Ｏユニット２０４は、メモリハブ１０５などのハブまたはスイッチインターフェースの使用を介して他のデバイスと接続する。メモリハブ１０５とＩ／Ｏユニット２０４との間の接続は、通信リンク１１３を形成する。並列処理ユニット２０２内で、Ｉ／Ｏユニット２０４は、ホストインターフェース２０６およびメモリクロスバー２１６に接続され、ここで、ホストインターフェース２０６は、処理演算を実施するように指示されたコマンドを受信し、メモリクロスバー２１６は、メモリ動作を実施するように指示されたコマンドを受信する。

ホストインターフェース２０６がＩ／Ｏユニット２０４を介してコマンドバッファを受信すると、ホストインターフェース２０６は、これらのコマンドを実施するためのワーク動作をフロントエンド２０８に指示することができる。一実施形態では、フロントエンド２０８は、コマンドまたは他の作業項目を処理クラスタアレイ２１２に分散するように構成されたスケジューラ２１０と結合する。スケジューラ２１０は、タスクが処理クラスタアレイ２１２の処理クラスタに分散される前に、処理クラスタアレイ２１２が適切に構成され、有効な状態にあることを保証する。スケジューラ２１０は、マイクロコントローラ上で実行されるファームウェア論理を介して実装することができる。マイクロコントローラに実装されたスケジューラ２１０は、複雑なスケジューリングおよび作業分散動作を粗い粒度および細かい粒度で実行するように構成可能であり、処理クラスタアレイ２１２上で実施するスレッドの迅速なプリエンプションおよびコンテキストスイッチングを可能にする。好ましくは、ホストソフトウェアは、複数のグラフィックス処理ドアベルのうちの１つを介して、処理クラスタアレイ２１２上でスケジューリングするためのワークロードを証明することができる。他の例では、新しいワークロードまたは割り込みに対するポーリングを使用して、実施すべき作業の可用性を識別または示すことができる。その場合、ワークロードは、スケジューラマイクロコントローラ内のスケジューラ２１０論理によって、処理クラスタアレイ２１２全体に自動的に分散することができる。

処理クラスタアレイ２１２は、最大「Ｎ」個の処理クラスタ（例えば、クラスタ２１４Ａ、クラスタ２１４Ｂ～クラスタ２１４Ｎ）を含み得る。処理クラスタアレイ２１２の各クラスタ２１４Ａ～２１４Ｎは、多数の並列スレッドを実行することができる。スケジューラ２１０は、種々のスケジューリングおよび／または作業分散アルゴリズムを使用して、処理クラスタアレイ２１２のクラスタ２１４Ａ～２１４Ｎに作業を割り振ることができ、このアルゴリズムは、各タイプのプログラムまたは計算に対して生じるワークロードに応じて変化し得る。スケジューリングは、スケジューラ２１０によって動的に処理することができ、または処理クラスタアレイ２１２によって実行するように構成されたプログラム論理のコンパイル中にコンパイラ論理によって部分的に支援することができる。所望により、処理クラスタアレイ２１２の異なるクラスタ２１４Ａ～２１４Ｎを、異なるタイプのプログラムを処理するために、または異なるタイプの計算を実施するために割り振ることができる。

処理クラスタアレイ２１２は、種々のタイプの並列処理演算を実施するように構成することができる。例えば、処理クラスタアレイ２１２は、汎用並列計算演算を実施するように構成される。例えば、処理クラスタアレイ２１２は、ビデオおよび／またはオーディオデータのフィルタリング、物理演算を含むモデリング演算の実施、およびデータ変換の実行を含む処理タスクを実行するための論理を含み得る。

処理クラスタアレイ２１２は、並列グラフィックス処理演算を実施するように構成される。並列プロセッサ２００がグラフィックス処理演算を実施するように構成されるかかる実施形態では、処理クラスタアレイ２１２は、テクスチャ演算を実施するためのテクスチャサンプリング論理、テッセレーション論理および他の頂点処理論理を含むがこれらに限定されない、かかるグラフィックス処理演算の実行をサポートする追加論理を含み得る。さらに、処理クラスタアレイ２１２は、限定されるものではないが、頂点シェーダ、テッセレーションシェーダ、ジオメトリシェーダ、およびピクセルシェーダなどのグラフィックス処理関連シェーダプログラムを実行するように構成することができる。並列処理ユニット２０２は、処理のためにＩ／Ｏユニット２０４を介してシステムメモリからデータを転送することができる。処理中、転送されたデータは、処理中にオンチップメモリ（例えば、並列プロセッサメモリ２２２）に記憶され、次いでシステムメモリに書き戻される。

並列処理ユニット２０２がグラフィックス処理を実施するために使用される実施形態では、スケジューラ２１０は、処理クラスタアレイ２１２の複数のクラスタ２１４Ａ～２１４Ｎへのグラフィックス処理演算の分散をより良く可能にするために、処理ワークロードをほぼ同じサイズのタスクに分割するように構成することができる。これらの実施形態の一部において、処理クラスタアレイ２１２の一部は、異なるタイプの処理を実施するように構成することができる。例えば、第１の部分は、頂点シェーディングおよびトポロジ生成を実施するように構成されてもよく、第２の部分は、テッセレーションおよびジオメトリシェーディングを実施するように構成されてもよく、第３の部分は、ピクセルシェーディングまたは他のスクリーンスペース演算を実施して、表示用のレンダリングイメージを生成するように構成されてもよい。クラスタ２１４Ａ～２１４Ｎのうちの１または複数によって生成された中間データは、バッファに記憶されて、中間データがさらなる処理のためにクラスタ２１４Ａ～２１４Ｎ間で伝送されることを可能にし得る。

動作中、処理クラスタアレイ２１２は、フロントエンド２０８から処理タスクを定義するコマンドを受信するスケジューラ２１０を介して実行される処理タスクを受信することができる。グラフィックス処理演算の場合、処理タスクは、処理されるべきデータの指標、例えば表面（パッチ）データ、基本データ、頂点データ、および／またはピクセルデータ、ならびにデータがどのように処理されるべきか（例えばどのプログラムが実行されるべきか）を定義する状態パラメータおよびコマンドを含み得る。スケジューラ２１０は、タスクに対応するインデックスをフェッチするように構成されてもよく、またはフロントエンド２０８からインデックスを受信してもよい。フロントエンド２０８は、入力コマンドバッファ（例えば、バッチバッファ、プッシュバッファなど）によって指定されたワークロードが開始される前に、処理クラスタアレイ２１２が有効な状態に構成されることを保証するように構成することができる。

並列処理ユニット２０２の１または複数のインスタンスの各々は、並列プロセッサメモリ２２２と結合することができる。並列プロセッサメモリ２２２は、メモリクロスバー２１６を介してアクセスすることができ、該メモリクロスバー２１６は、処理クラスタアレイ２１２およびＩ／Ｏユニット２０４からメモリ要求を受信することができる。メモリクロスバー２１６は、メモリインターフェース２１８を介して並列プロセッサメモリ２２２にアクセスすることができる。メモリインターフェース２１８は、それぞれが並列プロセッサメモリ２２２の一部（例えば、メモリユニット）に結合し得る複数のパーティションユニット（例えば、パーティションユニット２２０Ａ、パーティションユニット２２０Ｂ、またはパーティションユニット２２０Ｎ）を含み得る。パーティションユニット２２０Ａ～２２０Ｎの数は、メモリユニットの数と等しくなるように構成することができ、第１のパーティションユニット２２０Ａが対応する第１のメモリユニット２２４Ａを有し、第２のパーティションユニット２２０Ｂが対応する第２のメモリユニット２２４Ｂを有し、第Ｎのパーティションユニット２２０Ｎが対応する第Ｎのメモリユニット２２４Ｎを有する。他の実施形態では、パーティションユニット２２０Ａ～２２０Ｎの数は、メモリデバイスの数と等しくなくてもよい。

メモリユニット２２４Ａ～２２４Ｎは、種々のタイプのメモリデバイスを含み得、これには、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）またはグラフィックスダブルデータレート（ＧＤＤＲ）メモリを含む同期グラフィックスランダムアクセスメモリ（ＳＧＲＡＭ）などのグラフィックスランダムアクセスメモリが含まれる。任意に、メモリユニット２２４Ａ～２２４Ｎは、高帯域幅メモリ（ＨＢＭ）を含むがこれに限定されない３Ｄスタックメモリを含むこともできる。メモリユニット２２４Ａ～２２４Ｎの具体的な実装形態は、種々の従来の設計のうちの１つから選択することができ、変更することができることを当業者は理解するであろう。フレームバッファまたはテクスチャマップなどのレンダリングターゲットは、メモリユニット２２４Ａ～２２４Ｎにわたって記憶することができ、これにより、パーティションユニット２２０Ａ～２２０Ｎは、各レンダリングターゲットの一部を並列に書き込み、並列プロセッサメモリ２２２の利用可能な帯域幅を効率的に使用することができる。一部の実施形態では、並列プロセッサメモリ２２２のローカルインスタンスは、ローカルキャッシュメモリとともにシステムメモリを利用する統合メモリ設計のために除外することができる。

所望により、処理クラスタアレイ２１２のクラスタ２１４Ａ～２１４Ｎのうちのいずれか１つは、並列プロセッサメモリ２２２内のメモリユニット２２４Ａ～２２４Ｎのいずれかに書き込まれたデータを処理する能力を有する。メモリクロスバー２１６は、各クラスタ２１４Ａ～２１４Ｎの出力を、任意のパーティションユニット２２０Ａ～２２０Ｎに、または出力に対して追加の処理演算を実施することができる別のクラスタ２１４Ａ～２１４Ｎに転送するように構成することができる。各クラスタ２１４Ａ～２１４Ｎは、メモリクロスバー２１６を介してメモリインターフェース２１８と通信し、種々の外部メモリデバイスに対して読み出しまたは書き込みを行うことができる。メモリクロスバー２１６を有する実施形態の１つにおいて、メモリクロスバー２１６は、Ｉ／Ｏユニット２０４と通信するためのメモリインターフェース２１８への接続、および並列プロセッサメモリ２２２のローカルインスタンスへの接続を有し、異なる処理クラスタ２１４Ａ～２１４Ｎ内の処理ユニットが、並列処理ユニット２０２に対してローカルでないシステムメモリまたは他のメモリと通信することを可能にする。概して、メモリクロスバー２１６は、例えば、仮想チャネルを使用して、クラスタ２１４Ａ～２１４Ｎとパーティションユニット２２０Ａ～２２０Ｎとの間のトラフィックストリームを分離することができる。

並列処理ユニット２０２の単一のインスタンスが並列プロセッサ２００内に例示されているが、並列処理ユニット２０２の任意の数のインスタンスを含めることができる。例えば、並列処理ユニット２０２の複数のインスタンスを単一のアドインカード上に提供することができ、または複数のアドインカードを相互接続することができる。例えば、並列プロセッサ２００は、図１のアドインデバイス１２０などのアドインデバイスであってもよく、これは、１または複数のＧＰＵ、１または複数のメモリデバイス、およびデバイス間またはネットワークまたはファブリックインターフェースを含むディスクリートグラフィックスカードなどのグラフィックスカードであってもよい。並列処理ユニット２０２の異なるインスタンスは、異なるインスタンスが異なる数の処理コア、異なる量のローカル並列プロセッサメモリ、および／または他の構成の相違を有する場合であっても、相互動作するように構成することができる。所望により、並列処理ユニット２０２の一部のインスタンスは、他のインスタンスに対してより高精度の浮動小数点ユニットを含み得る。並列処理ユニット２０２または並列プロセッサ２００の１または複数のインスタンスを組み込んだシステムは、デスクトップ、ラップトップ、またはハンドヘルドパーソナルコンピュータ、サーバ、ワークステーション、ゲームコンソール、および／または統合システムを含むがこれらに限定されない、種々の構成およびフォームファクタで実装することができる。オーケストレータは、分散されたプロセッサリソース、キャッシュリソース、メモリリソース、ストレージリソース、およびネットワーキングリソースのうちの１または複数を使用して、ワークロード性能のための複合ノードを形成することができる。

図２Ｂは、パーティションユニット２２０のブロック図である。パーティションユニット２２０は、図２Ａのパーティションユニット２２０Ａ～２２０Ｎのうちの１つのインスタンスであり得る。図示のように、パーティションユニット２２０は、Ｌ２キャッシュ２２１と、フレームバッファインターフェース２２５と、ＲＯＰ２２６（ラスタ演算ユニット）とを含む。Ｌ２キャッシュ２２１は、メモリクロスバー２１６およびＲＯＰ２２６から受信したロード動作およびストア動作を実施するように構成された読み出し／書き込みキャッシュである。読み出しミスおよび緊急書き戻し要求は、処理のためにＬ２キャッシュ２２１によってフレームバッファインターフェース２２５に出力される。更新は、処理のためにフレームバッファインターフェース２２５を介してフレームバッファに送信することもできる。一実施形態では、フレームバッファインターフェース２２５は、図２Ａのメモリユニット２２４Ａ～２２４Ｎ（例えば、並列プロセッサメモリ２２２内）などの並列プロセッサメモリ内のメモリユニットのうちの１つとインターフェースする。パーティションユニット２２０は、付加的または代替的に、メモリコントローラ（図示せず）を介して並列プロセッサメモリ内のメモリユニットのうちの１つとインターフェースすることもできる。

グラフィックスアプリケーションにおいて、ＲＯＰ２２６は、ステンシル、ｚテスト、ブレンドなどのラスタ演算を実施する処理ユニットである。次に、ＲＯＰ２２６は、グラフィックスメモリに記憶された処理済みグラフィックスデータを出力する。一部の実施形態では、ＲＯＰ２２６は、メモリまたはＬ２キャッシュ２２１に書き込まれた深度データまたはカラーデータを圧縮し、メモリまたはＬ２キャッシュ２２１から読み出された深度データまたはカラーデータを解凍するための圧縮論理を含むＣＯＤＥＣ２２７を含むかまたはこれと結合する。圧縮論理は、複数の圧縮アルゴリズムのうちの１または複数を利用する無損失圧縮論理であり得る。ＣＯＤＥＣ２２７によって実施される圧縮のタイプは、圧縮されるデータの統計的特性に基づいて変化することができる。例えば、一実施形態では、デルタカラー圧縮は、タイル単位で深度データおよびカラーデータに対して実施される。一実施形態では、ＣＯＤＥＣ２２７は、機械学習動作に関連する計算データを圧縮および解凍することができる圧縮および解凍論理を含む。ＣＯＤＥＣ２２７は、例えば、疎な機械学習動作のために疎行列データを圧縮することができる。ＣＯＤＥＣ２２７はまた、疎行列フォーマット（例えば、座標リストエンコード（ＣＯＯ）、圧縮疎行（ＣＳＲ）、圧縮疎列（ＣＳＣ）など）でエンコードされた疎行列データを圧縮して、圧縮エンコード疎行列データを生成することができる。圧縮エンコード疎行列データは、処理要素によって処理される前に解凍および／またはデコードすることができ、または処理要素は、処理のために圧縮され、エンコードされ、または圧縮エンコードデータを消費するように構成することができる。

ＲＯＰ２２６は、パーティションユニット２２０内ではなく、各処理クラスタ（例えば、図２Ａのクラスタ２１４Ａ～２１４Ｎ）内に含まれてもよい。かかる実施形態では、ピクセルデータに対する読み出しおよび書き込み要求は、ピクセル断片データの代わりにメモリクロスバー２１６を介して伝送される。処理されたグラフィックスデータは、図１の１または複数のディスプレイデバイス１１０のうちの１つなどのディスプレイデバイス上に表示されてもよく、プロセッサ１０２によるさらなる処理のためにルーティングされてもよく、または図２Ａの並列プロセッサ２００内の処理エンティティのうちの１つによるさらなる処理のためにルーティングされてもよい。

図２Ｃは、並列処理ユニット内の処理クラスタ２１４のブロック図である。例えば、処理クラスタは、図２Ａの処理クラスタ２１４Ａ～２１４Ｎのうちの１つのインスタンスである。処理クラスタ２１４は、多くのスレッドを並列に実行するように構成することができ、「スレッド」という用語は、入力データの特定のセット上で実行する特定のプログラムのインスタンスを指す。所望により、単一命令、複数データ（ＳＩＭＤ）命令発行技術を使用して、複数の独立命令ユニットを提供することなく、多数のスレッドの並列実行をサポートすることができる。あるいは、単一命令、多重スレッド（ＳＩＭＴ）技術を使用して、処理クラスタの各々の中の処理エンジンのセットに命令を発行するように構成された共通命令ユニットを使用して、多数のほぼ同期化されたスレッドの並列実行をサポートすることができる。全ての処理エンジンが典型的に同一の命令を実行するＳＩＭＤ実行方式とは異なり、ＳＩＭＴ実行は、異なるスレッドが所与のスレッドプログラムを介してより容易に発散する実行経路に従うことを可能にする。当業者は、ＳＩＭＤ処理方式がＳＩＭＴ処理方式の機能的サブセットを表すことを理解するであろう。

処理クラスタ２１４の動作は、処理タスクをＳＩＭＴ並列プロセッサに分散するパイプラインマネージャ２３２を介して制御することができる。パイプラインマネージャ２３２は、図２Ａのスケジューラ２１０から命令を受信し、グラフィックスマルチプロセッサ２３４および／またはテクスチャユニット２３６を介してそれらの命令の実行を管理する。図示したグラフィックスマルチプロセッサ２３４は、ＳＩＭＴ並列プロセッサの例示的なインスタンスである。しかしながら、異なるアーキテクチャの種々のタイプのＳＩＭＴ並列プロセッサを処理クラスタ２１４内に含めることができる。グラフィックスマルチプロセッサ２３４の１または複数のインスタンスを処理クラスタ２１４内に含めることができる。グラフィックスマルチプロセッサ２３４は、データを処理することができ、データクロスバー２４０は、処理されたデータを他のシェーダユニットを含む複数の可能な宛先のうちの１つに分散するために使用することができる。パイプラインマネージャ２３２は、データクロスバー２４０を介して配信される処理済みデータの宛先を指定することによって、処理済みデータの配信を容易にすることができる。

処理クラスタ２１４内の各グラフィックスマルチプロセッサ２３４は、機能実行論理（例えば、算術論理ユニット、ロードストアユニットなど）の同一セットを含み得る。機能実行論理は、前の命令が完了する前に新しい命令を発行することができるパイプライン方式で構成することができる。機能実行論理は、整数および浮動小数点算術演算、比較演算、ブール演算、ビットシフト、および種々の代数関数の計算を含む種々の演算をサポートする。同じ機能ユニットハードウェアを利用して異なる動作を実施することができ、機能ユニットの任意の組み合わせが存在し得る。

処理クラスタ２１４に伝送された命令はスレッドを構成する。並列処理エンジンのセット全体で実行されるスレッドのセットは、スレッドグループである。スレッドグループは、異なる入力データに対して同じプログラムを実行する。スレッドグループ内の各スレッドは、グラフィックスマルチプロセッサ２３４内の異なる処理エンジンに割り当てることができる。スレッドグループは、グラフィックスマルチプロセッサ２３４内の処理エンジンの数よりも少ないスレッドを含み得る。スレッドグループが処理エンジンの数よりも少ないスレッドを含む場合、処理エンジンのうちの１または複数は、そのスレッドグループが処理されているサイクル中にアイドル状態になることがある。スレッドグループはまた、グラフィックスマルチプロセッサ２３４内の処理エンジンの数よりも多くのスレッドを含み得る。スレッドグループがグラフィックスマルチプロセッサ２３４内の処理エンジンの数よりも多くのスレッドを含む場合、処理は連続するクロックサイクルにわたって実施することができる。所望により、複数のスレッドグループをグラフィックスマルチプロセッサ２３４上で同時に実行することができる。

グラフィックスマルチプロセッサ２３４は、ロード動作およびストア動作を実施するための内部キャッシュメモリを含み得る。所望により、グラフィックスマルチプロセッサ２３４は、内部キャッシュを省略し、処理クラスタ２１４内のキャッシュメモリ（例えば、レベル１（Ｌ１）キャッシュ２４８）を使用することができる。各グラフィックスマルチプロセッサ２３４はまた、全ての処理クラスタ２１４間で共有され、スレッド間でデータを転送するために使用され得るパーティションユニット（例えば、図２Ａのパーティションユニット２２０Ａ～２２０Ｎ）内のレベル２（Ｌ２）キャッシュへのアクセスを有する。グラフィックスマルチプロセッサ２３４はまた、ローカル並列プロセッサメモリおよび／またはシステムメモリのうちの１または複数を含み得るオフチップグローバルメモリにアクセスすることができる。並列処理ユニット２０２の外部の任意のメモリをグローバルメモリとして使用することができる。処理クラスタ２１４がグラフィックスマルチプロセッサ２３４の複数のインスタンスを含む実施形態は、Ｌ１キャッシュ２４８に記憶され得る共通の命令およびデータを共有することができる。

各処理クラスタ２１４は、仮想アドレスを物理アドレスにマッピングするように構成されたＭＭＵ２４５（メモリ管理ユニット）を含み得る。他の実施形態では、ＭＭＵ２４５の１または複数のインスタンスが、図２Ａのメモリインターフェース２１８内に存在してもよい。ＭＭＵ２４５は、仮想アドレスをタイルの物理アドレスおよび所望によりキャッシュラインインデックスにマッピングするために使用されるページテーブルエントリ（ＰＴＥ）のセットを含む。ＭＭＵ２４５は、グラフィックスマルチプロセッサ２３４またはＬ１キャッシュまたは処理クラスタ２１４内に存在し得るアドレス変換ルックアサイドバッファ（ＴＬＢ）またはキャッシュを含み得る。物理アドレスは、パーティションユニット間の効率的な要求インターリーブを可能にするために、表面データアクセスローカリティを分散するように処理される。キャッシュラインインデックスを使用して、キャッシュラインに対する要求がヒットであるかミスであるかを判定することができる。

グラフィックスおよびコンピューティングアプリケーションでは、処理クラスタ２１４は、各グラフィックスマルチプロセッサ２３４が、テクスチャマッピング演算、例えばテクスチャサンプル位置の決定、テクスチャデータの読み出し、かつテクスチャデータのフィルタリングを実施するためのテクスチャユニット２３６に結合されるように構成することができる。テクスチャデータは、内部テクスチャＬ１キャッシュ（図示せず）から、または一部の実施形態では、グラフィックスマルチプロセッサ２３４内のＬ１キャッシュから読み出され、必要に応じて、Ｌ２キャッシュ、ローカル並列プロセッサメモリ、またはシステムメモリからフェッチされる。各グラフィックスマルチプロセッサ２３４は、処理済みタスクをデータクロスバー２４０に出力し、処理済みタスクを別の処理クラスタ２１４に提供してさらなる処理を行うか、またはメモリクロスバー２１６を介して処理済みタスクをＬ２キャッシュ、ローカル並列プロセッサメモリ、またはシステムメモリに記憶する。ｐｒｅＲＯＰ２４２（プレラスタ演算ユニット）は、グラフィックスマルチプロセッサ２３４からデータを受信し、ＲＯＰユニットにデータを送るように構成されており、ＲＯＰユニットは、本明細書に記載するようなパーティションユニット（例えば、図２Ａのパーティションユニット２２０Ａ～２２０Ｎ）とともに配置することができる。ｐｒｅＲＯＰ２４２ユニットは、カラーブレンドのための最適化を実施し、ピクセルカラーデータを編成し、アドレス変換を実施することができる。

本明細書に記載されるコアアーキテクチャは例示的なものであり、変形および修正が可能であることが理解されよう。任意の数の処理ユニット、例えば、グラフィックスマルチプロセッサ２３４、テクスチャユニット２３６、ｐｒｅＲＯＰ２４２などを、処理クラスタ２１４内に含めてもよい。さらに、１つの処理クラスタ２１４のみが示されているが、本明細書に記載される並列処理ユニットは、処理クラスタ２１４の任意の数のインスタンスを含み得る。所望により、各処理クラスタ２１４は、別個の異なる処理ユニット、Ｌ１キャッシュ、Ｌ２キャッシュなどを使用して、他の処理クラスタ２１４から独立して動作するように構成することができる。

図２Ｄは、グラフィックスマルチプロセッサ２３４の例を示しており、グラフィックスマルチプロセッサ２３４は、処理クラスタ２１４のパイプラインマネージャ２３２と結合している。グラフィックスマルチプロセッサ２３４は、命令キャッシュ２５２、命令ユニット２５４、アドレスマッピングユニット２５６、レジスタファイル２５８、１または複数の汎用グラフィックス処理ユニット（ＧＰＧＰＵ）コア２６２、および１または複数のロード／ストアユニット２６６を含むが、これらに限定されない実行パイプラインを有する。ＧＰＧＰＵコア２６２およびロード／ストアユニット２６６は、メモリおよびキャッシュ相互接続２６８を介してキャッシュメモリ２７２および共有メモリ２７０に結合される。グラフィックスマルチプロセッサ２３４は、行列および／またはレイトレーシング演算を加速するためのハードウェア論理を含むテンソルおよび／またはレイトレーシングコア２６３をさらに含み得る。

命令キャッシュ２５２は、パイプラインマネージャ２３２から実行する命令のストリームを受信することができる。命令は、命令キャッシュ２５２にキャッシュされ、命令ユニット２５４による実行のためにディスパッチされる。命令ユニット２５４は、命令をスレッドグループ（例えば、ワープ）としてディスパッチすることができ、スレッドグループの各スレッドは、ＧＰＧＰＵコア２６２内の異なる実行ユニットに割り当てられる。命令は、統一アドレス空間内のアドレスを指定することによって、ローカル、共有、またはグローバルアドレス空間のいずれかにアクセスすることができる。アドレスマッピングユニット２５６を使用して、統一アドレス空間内のアドレスを、ロード／ストアユニット２６６によってアクセス可能な別個のメモリアドレスに変換することができる。

レジスタファイル２５８は、グラフィックスマルチプロセッサ２３４の機能ユニットのためのレジスタセットを提供する。レジスタファイル２５８は、グラフィックスマルチプロセッサ２３４の機能ユニット（例えば、ＧＰＧＰＵコア２６２、ロード／ストアユニット２６６）のデータ経路に接続されたオペランドのための一時ストレージデバイスを提供する。レジスタファイル２５８は、各機能ユニットがレジスタファイル２５８の専用部分を割り振られるように、各機能ユニット間で分割することができる。例えば、レジスタファイル２５８は、グラフィックスマルチプロセッサ２３４によって実行される異なるワープに分割されてもよい。

ＧＰＧＰＵコア２６２はそれぞれ、グラフィックスマルチプロセッサ２３４の命令を実行するために使用される浮動小数点ユニット（ＦＰＵ）および／または整数算術論理ユニット（ＡＬＵ）を含み得る。一部の実装形態では、ＧＰＧＰＵコア２６２は、テンソルおよび／またはレイトレーシングコア２６３内に存在し得るハードウェア論理を含み得る。ＧＰＧＰＵコア２６２は、アーキテクチャが類似していてもよく、またはアーキテクチャが異なっていてもよい。例えば、一実施形態では、ＧＰＧＰＵコア２６２の第１の部分は単精度ＦＰＵおよび整数ＡＬＵを含み、ＧＰＧＰＵコアの第２の部分は倍精度ＦＰＵを含む。所望により、ＦＰＵは、浮動小数点算術演算のためのＩＥＥＥ７５４－２００８規格を実装するか、または可変精度浮動小数点算術演算を可能にし得る。グラフィックスマルチプロセッサ２３４は、コピー長方形またはピクセルブレンド演算などの特定の機能を実施するための１または複数の固定機能または特殊機能ユニットをさらに含み得る。ＧＰＧＰＵコアのうちの１または複数は、固定または特殊機能論理を含むこともできる。

ＧＰＧＰＵコア２６２は、複数のデータセットに対して単一命令を実施し得るＳＩＭＤ論理を含み得る。所望により、ＧＰＧＰＵコア２６２は、ＳＩＭＤ４、ＳＩＭＤ８、およびＳＩＭＤ１６命令を物理的に実行し、ＳＩＭＤ１、ＳＩＭＤ２、およびＳＩＭＤ３２命令を論理的に実行することができる。ＧＰＧＰＵコア用のＳＩＭＤ命令は、シェーダコンパイラによってコンパイル時に生成することも、単一プログラム複数データ（ＳＰＭＤ）アーキテクチャまたはＳＩＭＴアーキテクチャ用に書き込まれコンパイルされたプログラムを実行するときに自動的に生成することもできる。ＳＩＭＴ実行モデル用に構成されたプログラムの複数スレッドは、単一のＳＩＭＤ命令を介して実行することができる。例えば、一実施形態では、同一または同様の動作を実施する８つのＳＩＭＴスレッドを、単一のＳＩＭＤ８論理ユニットを介して並列に実行することができる。

メモリおよびキャッシュ相互接続２６８は、グラフィックスマルチプロセッサ２３４の機能ユニットの各々をレジスタファイル２５８および共有メモリ２７０に接続する相互接続ネットワークである。例えば、メモリおよびキャッシュ相互接続２６８は、ロード／ストアユニット２６６が共有メモリ２７０とレジスタファイル２５８との間でロード動作およびストア動作を実装することを可能にするクロスバー相互接続である。レジスタファイル２５８は、ＧＰＧＰＵコア２６２と同じ周波数で動作することができ、したがって、ＧＰＧＰＵコア２６２とレジスタファイル２５８との間のデータ転送は非常に低いレイテンシとなる。共有メモリ２７０は、グラフィックスマルチプロセッサ２３４内の機能ユニット上で実行するスレッド間の通信を可能にするために使用することができる。キャッシュメモリ２７２は、例えば、機能ユニットとテクスチャユニット２３６との間で通信されるテクスチャデータをキャッシュするためのデータキャッシュとして使用することができる。共有メモリ２７０は、プログラム管理キャッシュとして使用することもできる。共有メモリ２７０およびキャッシュメモリ２７２は、データクロスバー２４０と結合して、処理クラスタの他のコンポーネントとの通信を可能にし得る。ＧＰＧＰＵコア２６２上で実行するスレッドは、キャッシュメモリ２７２内に記憶される自動的にキャッシュされたデータに加えて、共有メモリ内にデータをプログラム的に記憶することができる。

図３Ａ～図３Ｃは、実施形態による追加のグラフィックスマルチプロセッサを示している。図３Ａ～図３Ｂは、図２Ｃのグラフィックスマルチプロセッサ２３４に関連しており、それらのうちの１つの代わりに使用され得るグラフィックスマルチプロセッサ３２５、３５０を示している。したがって、本明細書におけるグラフィックスマルチプロセッサ２３４と組み合わせた任意の特徴の開示は、グラフィックスマルチプロセッサ３２５、３５０との対応する組み合わせも開示するが、これに限定されない。図３Ｃは、グラフィックスマルチプロセッサ３２５、３５０に対応するマルチコアグループ３６５Ａ～３６５Ｎに配置されたグラフィックス処理リソースの専用セットを含むグラフィックス処理ユニット（ＧＰＵ）３８０を示している。図示のグラフィックスマルチプロセッサ３２５、３５０およびマルチコアグループ３６５Ａ～３６５Ｎは、多数の実行スレッドの同時実行が可能なストリーミングマルチプロセッサ（ＳＭ）であり得る。

図３Ａのグラフィックスマルチプロセッサ３２５は、図２Ｄのグラフィックスマルチプロセッサ２３４に対して実行リソースユニットの複数の追加インスタンスを含む。例えば、グラフィックスマルチプロセッサ３２５は、命令ユニット３３２Ａ～３３２Ｂ、レジスタファイル３３４Ａ～３３４Ｂ、およびテクスチャユニット３４４Ａ～３４４Ｂの複数のインスタンスを含み得る。グラフィックスマルチプロセッサ３２５はまた、グラフィックスまたは計算実行ユニット（例えば、ＧＰＧＰＵコア３３６Ａ～３３６Ｂ、テンソルコア３３７Ａ～３３７Ｂ、レイトレーシングコア３３８Ａ～３３８Ｂ）の複数のセット、およびロード／ストアユニット３４０Ａ～３４０Ｂの複数のセットを含む。実行リソースユニットは、共通の命令キャッシュ３３０、テクスチャおよび／またはデータキャッシュメモリ３４２、および共有メモリ３４６を有する。

種々のコンポーネントは、相互接続ファブリック３２７を介して通信することができる。相互接続ファブリック３２７は、グラフィックスマルチプロセッサ３２５の種々のコンポーネント間の通信を可能にするために、１または複数のクロスバースイッチを含み得る。相互接続ファブリック３２７は、グラフィックスマルチプロセッサ３２５の各コンポーネントがその上に積み重ねられる別個の高速ネットワークファブリック層であり得る。グラフィックスマルチプロセッサ３２５のコンポーネントは、相互接続ファブリック３２７を介してリモートコンポーネントと通信する。例えば、コア３３６Ａ～３３６Ｂ、３３７Ａ～３３７Ｂ、および３３８Ａ～３３８Ｂはそれぞれ、相互接続ファブリック３２７を介して共有メモリ３４６と通信することができる。相互接続ファブリック３２７は、コンポーネント間の公平な帯域幅割り振りを保証するために、グラフィックスマルチプロセッサ３２５内の通信を調停することができる。

図３Ｂのグラフィックスマルチプロセッサ３５０は、実行リソース３５６Ａ～３５６Ｄの複数のセットを含み、実行リソースの各セットは、図２Ｄおよび図３Ａに示すように、複数の命令ユニット、レジスタファイル、ＧＰＧＰＵコア、およびロードストアユニットを含む。実行リソース３５６Ａ～３５６Ｄは、命令キャッシュ３５４および共有メモリ３５３を共有しながら、テクスチャ演算のためのテクスチャユニット３６０Ａ～３６０Ｄと協調して動作することができる。例えば、実行リソース３５６Ａ～３５６Ｄは、命令キャッシュ３５４および共有メモリ３５３、ならびにテクスチャおよび／またはデータキャッシュメモリ３５８Ａ～３５８Ｂの複数のインスタンスを共有することができる。種々のコンポーネントは、図３Ａの相互接続ファブリック３２７と同様の相互接続ファブリック３５２を介して通信することができる。

当業者は、図１、２Ａ～２Ｄ、および３Ａ～３Ｂに記載されたアーキテクチャが説明的なものであり、本実施形態の範囲を限定するものではないことを理解するであろう。したがって、本明細書に記載される技術は、本明細書に記載される実施形態の範囲から逸脱することなく、１または複数のモバイルアプリケーションプロセッサ、マルチコアＣＰＵを含む１または複数のデスクトップまたはサーバ中央処理装置（ＣＰＵ）、図２Ａの並列処理ユニット２０２などの１または複数の並列処理ユニット、ならびに１または複数のグラフィックスプロセッサまたは特殊目的処理ユニットを含むがこれらに限定されない、適切に構成された任意の処理ユニット上で実装することができる。

本明細書に記載される並列プロセッサまたはＧＰＧＰＵは、ホスト／プロセッサコアに通信可能に結合されて、グラフィックス動作、機械学習動作、パターン分析動作、および種々の汎用ＧＰＵ（ＧＰＧＰＵ）機能を加速することができる。ＧＰＵは、バスまたは他の相互接続（例えば、ＰＣＩｅ、ＮＶＬｉｎｋなどの高速相互接続、または他の既知のプロトコル、標準化されたプロトコル、または独自仕様のプロトコル）を介してホストプロセッサ／コアに通信可能に結合されてもよい。他の実施形態では、ＧＰＵは、コアと同じパッケージまたはチップ上に統合され、内部プロセッサバス／相互接続（すなわち、パッケージまたはチップの内部）を介してコアに通信可能に結合されてもよい。ＧＰＵが接続される方法にかかわらず、プロセッサコアは、作業記述子に含まれるコマンド／命令のシーケンスの形態で作業をＧＰＵに割り振ることができる。次に、ＧＰＵは、これらのコマンド／命令を効率的に処理するために専用の回路／論理を使用する。

図３Ｃは、マルチコアグループ３６５Ａ～３６５Ｎに配置されたグラフィックス処理リソースの専用セットを含むグラフィックス処理ユニット（ＧＰＵ）３８０を示している。単一のマルチコアグループ３６５Ａのみの詳細が提供されているが、他のマルチコアグループ３６５Ｂ～３６５Ｎは、同一または同様のグラフィックス処理リソースのセットを備えてもよいことが理解されよう。マルチコアグループ３６５Ａ～３６５Ｎに関して説明した詳細は、本明細書に記載した任意のグラフィックスマルチプロセッサ２３４、３２５、３５０にも適用することができる。

図示のように、マルチコアグループ３６５Ａは、グラフィックスコア３７０のセットと、テンソルコア３７１のセットと、レイトレーシングコア３７２のセットとを含み得る。スケジューラ／ディスパッチャ３６８は、種々のコア３７０、３７１、３７２上で実行するためにグラフィックススレッドをスケジューリングし、ディスパッチする。レジスタファイル３６９のセットは、グラフィックススレッドを実行するときにコア３７０、３７１、３７２によって使用されるオペランド値を記憶する。これらは、例えば、整数値を記憶する整数レジスタ、浮動小数点値を記憶する浮動小数点レジスタ、パックドデータ要素（整数および／または浮動小数点データ要素）を記憶するベクトルレジスタ、およびテンソル／行列値を記憶するタイルレジスタを含み得る。タイルレジスタは、ベクトルレジスタの組み合わされたセットとして実装することができる。

１または複数の組み合わされたレベル１（Ｌ１）キャッシュおよび共有メモリユニット３７３は、テクスチャデータ、頂点データ、ピクセルデータ、光線データ、バウンディングボリュームデータなどのグラフィックスデータを、各マルチコアグループ３６５Ａ内にローカルに記憶する。１または複数のテクスチャユニット３７４を使用して、テクスチャマッピングおよびサンプリングなどのテクスチャリング演算を実施することもできる。マルチコアグループ３６５Ａ～３６５Ｎの全てまたはサブセットによって共有されるレベル２（Ｌ２）キャッシュ３７５は、複数の同時グラフィックススレッドのためのグラフィックスデータおよび／または命令を記憶する。図示のように、Ｌ２キャッシュ３７５は、複数のマルチコアグループ３６５Ａ～３６５Ｎにわたって共有されてもよい。１または複数のメモリコントローラ３６７は、ＧＰＵ３８０を、システムメモリ（例えば、ＤＲＡＭ）および／または専用グラフィックスメモリ（例えば、ＧＤＤＲ６メモリ）であり得るメモリ３６６に結合する。

入出力（Ｉ／Ｏ）回路３６３は、ＧＰＵ３８０を、デジタル信号プロセッサ（ＤＳＰ）、ネットワークコントローラ、またはユーザ入力デバイスなどの１または複数のＩ／Ｏデバイス３６２に結合する。オンチップ相互接続を使用して、Ｉ／Ｏデバイス３６２をＧＰＵ３８０およびメモリ３６６に結合することができる。Ｉ／Ｏ回路３６３の１または複数のＩ／Ｏメモリ管理ユニット（ＩＯＭＭＵ）３６４は、Ｉ／Ｏデバイス３６２をシステムメモリ３６６に直接結合する。所望により、ＩＯＭＭＵ３６４は、仮想アドレスをシステムメモリ３６６内の物理アドレスにマッピングするためにページテーブルの複数のセットを管理する。その場合、Ｉ／Ｏデバイス３６２、ＣＰＵ３６１、およびＧＰＵ３８０は、同じ仮想アドレス空間を共有することができる。

ＩＯＭＭＵ３６４の一実装形態では、ＩＯＭＭＵ３６４は仮想化をサポートする。この場合、これは、ゲスト／グラフィックス仮想アドレスをゲスト／グラフィックス物理アドレスにマッピングするための第１のセットのページテーブルと、ゲスト／グラフィックス物理アドレスを（例えば、システムメモリ３６６内の）システム／ホスト物理アドレスにマッピングするための第２のセットのページテーブルとを管理することができる。第１および第２のセットのページテーブルの各々のベースアドレスは、制御レジスタに記憶され、（例えば、新しいコンテキストに関連するセットのページテーブルへのアクセスが提供されるように）コンテキストスイッチ上でスワップアウトされてもよい。図３Ｃには示されていないが、コア３７０、３７１、３７２および／またはマルチコアグループ３６５Ａ～３６５Ｎの各々は、ゲスト仮想対ゲスト物理変換、ゲスト物理対ホスト物理変換、およびゲスト仮想対ホスト物理変換をキャッシュするための変換ルックアサイドバッファ（ＴＬＢ）を含み得る。

ＣＰＵ３６１、ＧＰＵ３８０、およびＩ／Ｏデバイス３６２は、単一の半導体チップおよび／またはチップパッケージ上に統合されてもよい。図示されたメモリ３６６は、同じチップ上に統合されてもよく、またはオフチップインターフェースを介してメモリコントローラ３６７に結合されてもよい。一実装形態では、メモリ３６６は、他の物理システムレベルメモリと同じ仮想アドレス空間を共有するＧＤＤＲ６メモリを含むが、本明細書に記載される基本原理は、この特定の実装形態に限定されない。

テンソルコア３７１は、深層学習演算を実施するために使用される基本的な計算演算である行列演算を実施するように特別に設計された複数の実行ユニットを含み得る。例えば、同時行列乗算演算は、ニューラルネットワーク訓練および推論のために使用されてもよい。テンソルコア３７１は、単精度浮動小数点（例えば３２ビット）、半精度浮動小数点（例えば１６ビット）、整数ワード（１６ビット）、バイト（８ビット）、および半バイト（４ビット）を含む種々のオペランド精度を使用して行列処理を実施することができる。例えば、ニューラルネットワークの実装形態は、高品質最終画像を構築するために、潜在的に複数のフレームからの細部を組み合わせて、レンダリングされた各シーンの特徴を抽出する。

深層学習の実装形態では、並列行列乗算作業をテンソルコア３７１上で実行するようにスケジューリングすることができる。ニューラルネットワークの訓練は、特に、相当数の行列ドット積演算を必要とする。Ｎ×Ｎ×Ｎ行列乗算の内積定式化を処理するために、テンソルコア３７１は、少なくともＮドット積処理要素を含み得る。行列乗算が開始される前に、１つの行列全体がタイルレジスタにロードされ、第２の行列の少なくとも１つの列がＮサイクルの各サイクルでロードされる。各サイクルでは、Ｎ個のドット積が処理される。

行列要素は、１６ビットワード、８ビットバイト（例えば、ＩＮＴ８）および４ビット半バイト（例えば、ＩＮＴ４）を含む特定の実装形態に依存して、異なる精度で記憶され得る。最も効率的な精度が異なるワークロード（例えば、バイトおよび半バイトへの量子化に耐え得る推論ワークロードなど）に使用されることを保証するために、テンソルコア３７１に対して異なる精度モードを指定することができる。サポートされているフォーマットにはさらに、６４ビット浮動小数点（ＦＰ６４）と、ｂｆｌｏａｔ１６フォーマット（例えば、Ｂｒａｉｎ浮動小数点）、すなわち、１つの符号ビット、８つの指数ビット、および８つの仮数ビット（そのうち７つは明示的に記憶される）を有する１６ビット浮動小数点フォーマットなどの非ＩＥＥＥ浮動小数点フォーマットと、が含まれる。一実施形態は、ＦＰ１６（１０ビット）の精度を有するＦＰ３２（８ビット）の範囲を有する縮小精度テンソル－浮動小数点フォーマット（ＴＦ３２）に対するサポートを含む。縮小精度ＴＦ３２演算をＦＰ３２入力に対して実施し、ＦＰ３２よりも高い性能およびＦＰ１６よりも精度でＦＰ３２出力を生成することができる。

一実施形態では、テンソルコア３７１は、大多数の値が０である行列に対する疎動作モードをサポートする。テンソルコア３７１は、疎行列表現（例えば、座標リストエンコード（ＣＯＯ）、圧縮疎行（ＣＳＲ）、圧縮疎列（ＣＳＣ）など）でエンコードされる疎入力行列に対するサポートを含む。テンソルコア３７１はまた、疎行列表現がさらに圧縮され得る場合の圧縮された疎行列表現に対するサポートを含む。圧縮、エンコード、および／または圧縮エンコードされた行列データは、関連する圧縮および／またはエンコードメタデータとともに、テンソルコア３７１によって読み出され得、非ゼロ値が抽出され得る。例えば、所与の入力行列Ａに対して、行列Ａの少なくとも一部の圧縮および／またはエンコードされた表現から非ゼロ値をロードすることができる。非ゼロ値に関連付けられたインデックスまたは座標メタデータから決定され得る、非ゼロ値に対する行列Ａ内の位置に基づいて、入力行列Ｂ内の対応する値をロードすることができる。実施される演算（例えば、乗算）に応じて、入力行列Ｂからの値のロードは、対応する値がゼロ値である場合にバイパスされ得る。一実施形態では、乗算演算などの特定の演算に対する値の対は、スケジューラ論理によって事前にスキャンされ得、非ゼロ入力間の演算のみがスケジューリングされる。行列Ａおよび行列Ｂの次元および実施される演算に応じて、出力行列Ｃは密であってもよく、または疎であってもよい。出力行列Ｃが疎である場合、テンソルコア３７１の構成に応じて、出力行列Ｃは、圧縮フォーマット、疎エンコード、または圧縮疎エンコードで出力され得る。

レイトレーシングコア３７２は、リアルタイムレイトレーシングおよび非リアルタイムレイトレーシング実装形態の両方のレイトレーシング演算を加速することができる。特に、レイトレーシングコア３７２は、バウンディングボリューム階層（ＢＶＨ）を使用してレイトラバーサルを実施し、ＢＶＨボリューム内に封入された光線とプリミティブとの間の交差を識別するためのレイトラバーサル／交差回路を含み得る。レイトレーシングコア３７２はまた、深度テストおよびカリング（例えば、Ｚバッファまたは同様の構成を使用して）を実施するための回路を含み得る。一実装形態では、レイトレーシングコア３７２は、本明細書に記載された画像ノイズ除去技術と協調してトラバースおよび交差演算を実施し、その少なくとも一部をテンソルコア３７１上で実行することができる。例えば、テンソルコア３７１は、レイトレーシングコア３７２によって生成されたフレームのノイズ除去を実施するために、深層学習ニューラルネットワークを実装してもよい。しかしながら、ＣＰＵ３６１、グラフィックスコア３７０、および／またはレイトレーシングコア３７２は、ノイズ除去および／または深層学習アルゴリズムの全部または一部を実装してもよい。

さらに、上述したように、ＧＰＵ３８０が、ネットワークまたは高速相互接続を介して他のコンピューティングデバイスに結合されたコンピューティングデバイス内にある、ノイズ除去に対する分散アプローチを採用することができる。この分散アプローチでは、相互接続されたコンピューティングデバイスは、ニューラルネットワーク学習／訓練データを共有して、システム全体が異なるタイプの画像フレームおよび／または異なるグラフィックスアプリケーションに対してノイズ除去を行うことを学習する速度を向上させることができる。

レイトレーシングコア３７２は、全てのＢＶＨトラバーサルおよび／または光線－プリミティブ交差を処理することができ、グラフィックスコア３７０が光線当たり数千の命令で過負荷になることを回避する。例えば、各レイトレーシングコア３７２は、バウンディングボックステスト（例えば、トラバース演算のため）を実施するための第１のセットの特殊回路、および／または光線－三角形交差テスト（例えば、トラバースされた交差光線）を実施するための第２のセットの特殊回路を含む。したがって、例えば、マルチコアグループ３６５Ａは単に光線プローブを起動することができ、レイトレーシングコア３７２は独立してレイトラバーサルおよび交差を実施し、ヒットデータ（例えば、ヒット、ノーヒット、複数ヒットなど）をスレッドコンテキストに返す。他のコア３７０、３７１は、他のグラフィックスまたは計算作業を実施するために解放され、一方、レイトレーシングコア３７２は、トラバースおよび交差演算を実施する。

所望により、各レイトレーシングコア３７２は、ＢＶＨテスト動作を実施するトラバーサルユニットおよび／または光線－プリミティブ交差テストを実施する交差ユニットを含み得る。交差ユニットは、「ヒット」、「ノーヒット」、または「複数ヒット」応答を生成し、これを適切なスレッドに提供する。トラバースおよび交差演算の間、他のコア（例えば、グラフィックスコア３７０およびテンソルコア３７１）の実行リソースは、他の形態のグラフィックス作業を実施するために解放される。

以下に説明する１つの任意の実施形態では、ハイブリッドラスタライゼーション／レイトレーシングアプローチが使用され、作業がグラフィックスコア３７０とレイトレーシングコア３７２との間に分散される。

レイトレーシングコア３７２（および／または他のコア３７０、３７１）は、ＤｉｓｐａｔｃｈＲａｙｓコマンドを含むＭｉｃｒｏｓｏｆｔ（登録商標）社のＤｉｒｅｃｔＸＲａｙＴｒａｃｉｎｇ（ＤＸＲ）などのレイトレーシング命令セット、ならびに光線生成、最近接ヒット、任意ヒット、およびミスシェーダに対するハードウェアサポートを含むことができ、各オブジェクトに対するシェーダおよびテクスチャの一意のセットの割り当てを可能にする。レイトレーシングコア３７２、グラフィックスコア３７０およびテンソルコア３７１によってサポートされ得る別のレイトレーシングプラットフォームは、Ｖｕｌｋａｎ１．１．８５である。しかしながら、本明細書に記載される基本原理は、いかなる特定のレイトレーシングＩＳＡにも限定されないことに留意されたい。

概して、種々のコア３７２、３７１、３７０は、光線生成、最近接ヒット、任意ヒット、光線－プリミティブ交差、プリミティブ毎および階層的バウンディングボックス構築、ミス、訪問、および例外のうちの１または複数に対する命令／機能を含むレイトレーシング命令セットをサポートすることができる。より具体的には、好ましい実施形態は、以下の機能のうちの１または複数を実施するためのレイトレーシング命令を含む。

光線生成－光線生成命令は、各ピクセル、サンプル、または他のユーザ定義作業割り当てに対して実行され得る。

最近接ヒット－最近接ヒット命令を実行して、シーン内のプリミティブと光線との最も近い交点を見つけることができる。

任意ヒット－任意ヒット命令は、シーン内の光線とプリミティブとの間の複数の交差を識別し、潜在的には新しい最も近い交点を識別する。

交差－交差命令は、光線－プリミティブ交差テストを実施し、結果を出力する。

プリミティブ毎のバウンディングボックス構築－この命令は、所与のプリミティブまたはプリミティブのグループの周りにバウンディングボックスを構築する（例えば、新しいＢＶＨまたは他のアクセラレーションデータ構造を構築する場合）。

ミス－光線がシーン、またはシーンの指定された領域内の全てのジオメトリを外している（ｍｉｓｓ）ことを示す。

訪問－光線が通過する子ボリュームを示す。

例外－種々のタイプの例外ハンドラ（例えば、種々のエラー条件で呼び出される）が含まれる。

一実施形態において、レイトレーシングコア３７２は、光線交差テストに類似した計算技術を使用して加速することができる汎用計算演算を加速するように適合させることができる。シェーダプログラムを、レイトレーシングコアを介して汎用計算演算を実施する低レベル命令および／またはプリミティブにコンパイルすることを可能にする計算フレームワークを提供することができる。レイトレーシングコア３７２上で実施される計算演算から利益を得ることができる例示的な計算問題として、座標空間内のビーム、波、光線、または粒子の伝播を伴う計算が挙げられる。その伝播に関連する相互作用は、座標空間内のジオメトリまたはメッシュに対して計算できる。例えば、環境を通じた電磁信号伝播に関連する計算は、レイトレーシングコアを介して実行される命令またはプリミティブを使用することによって加速することができる。環境中の物体による信号の回折と反射は、直接レイトレーシングアナロジーとして計算できる。

レイトレーシングコア３７２を使用して、レイトレーシングに直接類似していない計算を実施することもできる。例えば、レイトレーシングコア３７２を使用して、メッシュ投影、メッシュ細分割、およびボリュームサンプリング計算を加速することができる。最近傍計算などの一般的な座標空間計算も実施できる。例えば、特定の点の近くにある点のセットは、その点の周囲の座標空間内にバウンディングボックスを定義することによって検出できる。次に、レイトレーシングコア３７２内のＢＶＨおよび光線プローブ論理を使用して、バウンディングボックス内の点交差のセットを決定することができる。交差は、原点とその原点に対する最近傍を構成する。レイトレーシングコア３７２を使用して実施される計算は、グラフィックスコア３７２およびテンソルコア３７１上で実施される計算と並行して実施することができる。シェーダコンパイラは、計算シェーダまたは他の汎用グラフィックス処理プログラムを、グラフィックスコア３７０、テンソルコア３７１、およびレイトレーシングコア３７２にわたって並列化できる低レベルプリミティブにコンパイルするように構成することができる。
ＧＰＵとホストプロセッサ間の相互接続技術

図４Ａは、例えば図２Ａに示す並列プロセッサ２００などの複数のＧＰＵ４１０～４１３が、高速リンク４４０Ａ～４４０Ｄ（例えばバス、ポイントツーポイント相互接続など）を介して複数のマルチコアプロセッサ４０５～４０６に通信可能に結合された例示的なアーキテクチャを示している。高速リンク４４０Ａ～４４０Ｄは、実装形態に応じて、４ＧＢ／ｓ、３０ＧＢ／ｓ、８０ＧＢ／ｓ以上の通信スループットをサポートすることができる。限定されるものではないが、ＰＣＩｅ４．０または５．０およびＮＶＬｉｎｋ２．０を含む種々の相互接続プロトコルを使用することができる。しかしながら、本明細書に記載される基本原理は、いかなる特定の通信プロトコルまたはスループットにも限定されない。

ＧＰＵ４１０～４１３のうちの２つ以上は、高速リンク４４２Ａ～４４２Ｂを介して相互接続されてもよく、高速リンク４４０Ａ～４４０Ｄに使用されるものと同じまたは異なるプロトコル／リンクを使用して実装されてもよい。同様に、マルチコアプロセッサ４０５～４０６のうちの２つ以上は、２０ＧＢ／ｓ、３０ＧＢ／ｓ、１２０ＧＢ／ｓまたはそれ以下もしくはそれ以上の速度で動作する対称マルチプロセッサ（ＳＭＰ）バスであり得る高速リンク４４３を介して接続され得る。あるいは、図４Ａに示す種々のシステムコンポーネント間の全ての通信は、同じプロトコル／リンクを使用して（例えば、共通の相互接続ファブリック上で）達成することができる。しかしながら、上述したように、本明細書に記載される基本原理は、いかなる特定のタイプの相互接続技術にも限定されない。

各マルチコアプロセッサ４０５～４０６は、それぞれメモリ相互接続４３０Ａ～４３０Ｂを介してプロセッサメモリ４０１～４０２に通信可能に結合されてもよく、各ＧＰＵ４１０～４１３は、それぞれＧＰＵメモリ相互接続４５０Ａ～４５０Ｄを介してＧＰＵメモリ４２０～４２３に通信可能に結合される。メモリ相互接続４３０Ａ～４３０Ｂおよび４５０Ａ～４５０Ｄは、同じまたは異なるメモリアクセス技術を利用することができる。限定ではなく例として、プロセッサメモリ４０１～４０２およびＧＰＵメモリ４２０～４２３は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）（スタック型ＤＲＡＭを含む）、グラフィックスＤＤＲＳＤＲＡＭ（ＧＤＤＲ）（例えばＧＤＤＲ５、ＧＤＤＲ６）、または高帯域幅メモリ（ＨＢＭ）などの揮発性メモリであってもよく、かつ／または３ＤＸＰｏｉｎｔ／ＯｐｔａｎｅまたはＮａｎｏ－Ｒａｍなどの不揮発性メモリであってもよい。例えば、メモリのある部分は揮発性メモリであってもよく、別の部分は（例えば、２レベルメモリ（２ＬＭ）階層を使用した）不揮発性メモリであってもよい。本明細書に記載されるメモリサブシステムは、ＪＥＤＥＣ（電子デバイス技術合同協議会（ＪｏｉｎｔＥｌｅｃｔｒｏｎｉｃＤｅｖｉｃｅＥｎｇｉｎｅｅｒｉｎｇＣｏｕｎｃｉｌ））によってリリースされたダブルデータレートバージョンなどの多くのメモリ技術と互換性があり得る。

以下に記載されるように、種々のプロセッサ４０５～４０６およびＧＰＵ４１０～４１３は、それぞれ特定のメモリ４０１～４０２、４２０～４２３に物理的に結合され得るが、同じ仮想システムアドレス空間（「実効アドレス」空間とも称される）が種々の物理メモリの全てに分散される統合メモリアーキテクチャが実装され得る。例えば、プロセッサメモリ４０１～４０２は、それぞれ６４ＧＢのシステムメモリアドレス空間を含んでもよく、ＧＰＵメモリ４２０～４２３は、それぞれ３２ＧＢのシステムメモリアドレス空間を含んでもよい（この例では、合計２５６ＧＢのアドレス可能メモリとなる）。

図４Ｂは、マルチコアプロセッサ４０７とグラフィックスアクセラレーションモジュール４４６との間の相互接続のための追加のオプションの詳細を示している。グラフィックスアクセラレーションモジュール４４６は、高速リンク４４０を介してプロセッサ４０７に結合されたラインカード上に統合された１または複数のＧＰＵチップを含み得る。あるいは、グラフィックスアクセラレーションモジュール４４６は、プロセッサ４０７と同じパッケージまたはチップ上に統合されてもよい。

図示のプロセッサ４０７は、複数のコア４６０Ａ～４６０Ｄを含み、それぞれが変換ルックアサイドバッファ４６１Ａ～４６１Ｄおよび１または複数のキャッシュ４６２Ａ～４６２Ｄを有する。コアは、本明細書に記載されるコンポーネントの基本原理を不明瞭にすることを避けるために図示されていない、命令を実行するためおよびデータを処理するための種々の他のコンポーネント（例えば、命令フェッチユニット、分岐予測ユニット、デコーダ、実行ユニット、リオーダバッファなど）を含み得る。キャッシュ４６２Ａ～４６２Ｄは、レベル１（Ｌ１）およびレベル２（Ｌ２）のキャッシュを含み得る。さらに、１または複数の共有キャッシュ４５６が、キャッシング階層に含まれ、コア４６０Ａ～４６０Ｄのセットによって共有され得る。例えば、プロセッサ４０７の一実施形態は、それぞれが独自のＬ１キャッシュを有する２４個のコア、１２個の共有Ｌ２キャッシュ、および１２個の共有Ｌ３キャッシュを含む。この実施形態では、Ｌ２およびＬ３キャッシュのうちの１つは、隣接する２つのコアによって共有される。プロセッサ４０７およびグラフィックスアクセラレータ統合モジュール４４６は、プロセッサメモリ４０１～４０２を含み得るシステムメモリ４４１に接続する。

コヒーレンシは、コヒーレンスバス４６４によるコア間通信を介して、種々のキャッシュ４６２Ａ～４６２Ｄ、４５６およびシステムメモリ４４１に記憶されたデータおよび命令に対して維持される。例えば、各キャッシュは、特定のキャッシュラインに対して検出された読み出しまたは書き込みに応答してコヒーレンスバス４６４を介して通信するために、それに関連付けられたキャッシュコヒーレンシ論理／回路を有してもよい。一実装形態では、キャッシュスヌーピングプロトコルは、キャッシュアクセスをスヌープするためにコヒーレンスバス４６４上で実装される。キャッシュスヌーピング／コヒーレンシ技術は、当業者によって十分に理解されており、本明細書に記載される基礎原理を不明瞭にすることを避けるために、本明細書に詳細に記載されない。

グラフィックスアクセラレーションモジュール４４６をコヒーレンスバス４６４に通信可能に結合し、グラフィックスアクセラレーションモジュール４４６がコアのピアとしてキャッシュコヒーレンスプロトコルに参加できるようにするプロキシ回路４２５を提供することができる。特に、インターフェース４３５は、高速リンク４４０（例えば、ＰＣＩｅバス、ＮＶＬｉｎｋなど）を介してプロキシ回路４２５への接続性を提供し、インターフェース４３７は、グラフィックスアクセラレーションモジュール４４６を高速リンク４４０に接続する。

一実装形態では、アクセラレータ統合回路４３６は、グラフィックスアクセラレーションモジュール４４６の複数のグラフィックス処理エンジン４３１、４３２、Ｎに代わって、キャッシュ管理、メモリアクセス、コンテキスト管理、および割り込み管理サービスを提供する。グラフィックス処理エンジン４３１、４３２、Ｎはそれぞれ、別個のグラフィックス処理ユニット（ＧＰＵ）を含み得る。あるいは、グラフィックス処理エンジン４３１、４３２、Ｎは、グラフィックス実行ユニット、メディア処理エンジン（例えば、ビデオエンコーダ／デコーダ）、サンプラ、およびブリットエンジンなどのＧＰＵ内の異なるタイプのグラフィックス処理エンジンを含み得る。換言すれば、グラフィックスアクセラレーションモジュールは、複数のグラフィックス処理エンジン４３１～４３２、Ｎを有するＧＰＵであってもよく、またはグラフィックス処理エンジン４３１～４３２、Ｎは、共通のパッケージ、ラインカード、またはチップ上に統合された個々のＧＰＵであってもよい。

アクセラレータ統合回路４３６は、仮想メモリから物理メモリへの変換（実効メモリから実メモリへの変換とも称される）、およびシステムメモリ４４１にアクセスするためのメモリアクセスプロトコルなどの種々のメモリ管理機能を実施するメモリ管理ユニット（ＭＭＵ）４３９を含み得る。ＭＭＵ４３９はまた、仮想／実効アドレスから物理／実アドレスへの変換をキャッシュするための変換ルックアサイドバッファ（ＴＬＢ）（図示せず）を含み得る。一実装形態では、キャッシュ４３８は、グラフィックス処理エンジン４３１、４３２、Ｎによる効率的なアクセスのためのコマンドおよびデータを記憶する。キャッシュ４３８およびグラフィックスメモリ４３３～４３４、Ｍに記憶されたデータは、コアキャッシュ４６２Ａ～４６２Ｄ、４５６およびシステムメモリ４４１とコヒーレンシを保つことができる。上述したように、これは、キャッシュ４３８およびメモリ４３３～４３４、Ｍに代わってキャッシュコヒーレンシメカニズムに参加するプロキシ回路４２５を介して達成することができる（例えば、プロセッサキャッシュ４６２Ａ～４６２Ｄ、４５６上のキャッシュラインの修正／アクセスに関連する更新をキャッシュ４３８に送信し、キャッシュ４３８から更新を受信する）。

レジスタ４４５のセットは、グラフィックス処理エンジン４３１～４３２、Ｎによって実行されるスレッドのコンテキストデータを記憶し、コンテキスト管理回路４４８は、スレッドコンテキストを管理する。例えば、コンテキスト管理回路４４８は、コンテキストスイッチ中（例えば、第２のスレッドがグラフィックス処理エンジンによって実行され得るように、第１のスレッドが保存されかつ第２のスレッドが復元される場合）に種々のスレッドのコンテキストを保存および復元するための保存および復元動作を実施してもよい。例えば、コンテキストスイッチにおいて、コンテキスト管理回路４４８は、現在のレジスタ値をメモリ内の指定された領域（例えば、コンテキストポインタによって識別される）に記憶してもよい。次に、これは、コンテキストに戻るときにレジスタ値を復元することができる。割り込み管理回路４４７は、例えば、システムデバイスから受信された割り込みを受信して処理してもよい。

一実装形態では、グラフィックス処理エンジン４３１からの仮想／実効アドレスは、ＭＭＵ４３９によってシステムメモリ４４１内の実／物理アドレスに変換される。所望により、アクセラレータ統合回路４３６は、複数（例えば、４、８、１６）のグラフィックスアクセラレータモジュール４４６および／または他のアクセラレータデバイスをサポートする。グラフィックスアクセラレータモジュール４４６は、プロセッサ４０７上で実行される単一のアプリケーション専用であってもよいし、複数のアプリケーション間で共有されてもよい。所望により、グラフィックス処理エンジン４３１～４３２、Ｎのリソースが複数のアプリケーション、仮想機械（ＶＭ）、またはコンテナと共有される仮想化グラフィックス実行環境が提供される。リソースは、ＶＭおよび／またはアプリケーションに関連付けられた処理要件および優先順位に基づいて異なるＶＭおよび／またはアプリケーションに割り振られる「スライス」に細分割されてもよい。ＶＭおよびコンテナは、本明細書において互換的に使用され得る。

仮想機械（ＶＭ）は、オペレーティングシステムと１または複数のアプリケーションを実行するソフトウェアである。ＶＭは、仕様、構成ファイル、仮想ディスクファイル、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）設定ファイル、およびログファイルによって定義でき、ホストコンピューティングプラットフォームの物理リソースによってバックアップされる。ＶＭは、ソフトウェアにインストールされたオペレーティングシステム（ＯＳ）またはアプリケーション環境を含むことができ、これは、専用ハードウェアを模倣する。エンドユーザは、専用ハードウェア上で得るであろうエクスペリエンスと同じエクスペリエンスを、仮想機械上で得る。ハイパーバイザと称される特殊なソフトウェアは、ＰＣクライアントまたはサーバのＣＰＵ、メモリ、ハードディスク、ネットワーク、およびその他のハードウェアリソースを完全にエミュレートし、仮想機械がリソースを共有できるようにする。ハイパーバイザは、互いに独立した複数の仮想ハードウェアプラットフォームをエミュレートできるため、仮想機械は、基礎となる同じ物理ホスト上でＬｉｎｕｘ（登録商標）、Ｗｉｎｄｏｗｓ（登録商標）Ｓｅｒｖｅｒ、ＶＭｗａｒｅＥＳＸｉ、およびその他のオペレーティングシステムを実行できる。

コンテナは、アプリケーション、構成、および依存関係のソフトウェアパッケージであり、アプリケーションがあるコンピューティング環境から別のコンピューティング環境へ確実に実行されるようにすることができる。コンテナは、サーバプラットフォームにインストールされたオペレーティングシステムを共有し、独立したプロセスとして実行することができる。コンテナは、システムツール、ライブラリ、および設定など、ソフトウェアを実行するために必要な全てのものを含むソフトウェアパッケージであり得る。コンテナは、従来のソフトウェアプログラムのようにはインストールされないため、他のソフトウェアおよびオペレーティングシステム自体から独立させることができる。コンテナの独立した性質は、複数の利点を提供する。第１に、コンテナ内のソフトウェアは種々の環境で同じように動作する。例えば、ＰＨＰおよびＭｙＳＱＬを含むコンテナは、Ｌｉｎｕｘ（登録商標）コンピュータとＷｉｎｄｏｗｓ（登録商標）機械の両方で全く同じように実行できる。第２に、コンテナは、ソフトウェアがホストオペレーティングシステムに影響を与えないので、さらなるセキュリティを提供する。インストールされたアプリケーションはシステム設定を変更し、かつＷｉｎｄｏｗｓレジストリなどのリソースを変更し得るが、コンテナはコンテナ内の設定を変更できるのみである。

したがって、アクセラレータ統合回路４３６は、グラフィックスアクセラレーションモジュール４４６に対するシステムへのブリッジとして機能し、アドレス変換およびシステムメモリキャッシュサービスを提供する。一実施形態では、ブリッジング機能を容易にするために、アクセラレータ統合回路４３６は、共有Ｉ／Ｏ４９７（例えば、ＰＣＩｅ、ＵＳＢ、またはその他）と、電圧、クロック、性能、熱、およびセキュリティのシステム制御を可能にするハードウェアとを含むこともできる。共有Ｉ／Ｏ４９７は、別個の物理的接続を利用してもよく、または高速リンク４４０を横断してもよい。さらに、アクセラレータ統合回路４３６は、グラフィックス処理エンジン、割り込み、およびメモリ管理の仮想化を管理するために、ホストプロセッサに仮想化機能を提供することができる。

グラフィックス処理エンジン４３１～４３２、Ｎのハードウェアリソースは、ホストプロセッサ４０７によって見られる実アドレス空間に明示的にマッピングされるので、任意のホストプロセッサは、実効アドレス値を使用してこれらのリソースを直接アドレス指定することができる。アクセラレータ統合回路４３６のうちの１つのオプション機能は、グラフィックス処理エンジン４３１～４３２、Ｎをシステムに対して独立したユニットとして見えるように物理的に分離することである。

１または複数のグラフィックスメモリ４３３～４３４、Ｍは、それぞれ、グラフィックス処理エンジン４３１～４３２、Ｎの各々に結合され得る。グラフィックスメモリ４３３～４３４、Ｍは、グラフィックス処理エンジン４３１～４３２、Ｎの各々によって処理されている命令およびデータを記憶する。グラフィックスメモリ４３３～４３４、Ｍは、ＤＲＡＭ（スタックＤＲＡＭを含む）、ＧＤＤＲメモリ（例えば、ＧＤＤＲ５、ＧＤＤＲ６）、またはＨＢＭなどの揮発性メモリであってもよく、かつ／または３ＤＸＰｏｉｎｔ／Ｏｐｔａｎｅ、ＳａｍｓｕｎｇＺ－ＮＡＮＤ、またはＮａｎｏ－Ｒａｍなどの不揮発性メモリであってもよい。

高速リンク４４０上のデータトラフィックを低減するために、バイアス技術を使用して、グラフィックスメモリ４３３～４３４、Ｍに記憶されたデータが、グラフィックス処理エンジン４３１～４３２、Ｎによって最も頻繁に使用され、かつ好ましくはコア４６０Ａ～４６０Ｄによって使用されない（少なくとも頻繁には使用されない）ことになるデータであることを保証することができる。同様に、バイアスメカニズムは、コアによって必要とされる（かつ好ましくは、グラフィックス処理エンジン４３１～４３２、Ｎによっては必要とされない）データを、コアのキャッシュ４６２Ａ～４６２Ｄ、４５６およびシステムメモリ４４１内に保持しようとする。

図４Ｃに示す変形例によれば、アクセラレータ統合回路４３６は、プロセッサ４０７内に統合される。グラフィックス処理エンジン４３１～４３２、Ｎは、高速リンク４４０を介して、インターフェース４３７およびインターフェース４３５（ここでも、任意の形態のバスまたはインターフェースプロトコルを利用することができる）を介して、アクセラレータ統合回路４３６に直接通信する。アクセラレータ統合回路４３６は、図４Ｂに関して説明したものと同じ動作を実施することができるが、コヒーレンスバス４６４およびキャッシュ４６２Ａ～４６２Ｄ、４５６に近接していることを考慮すると、潜在的により高いスループットで実施することができる。

説明される実施形態は、専用プロセスプログラミングモデル（グラフィックスアクセラレーションモジュール仮想化なし）および共有プログラミングモデル（仮想化あり）を含む異なるプログラミングモデルをサポートすることができる。後者は、アクセラレータ統合回路４３６によって制御されるプログラミングモデルと、グラフィックスアクセラレーションモジュール４４６によって制御されるプログラミングモデルとを含み得る。

専用プロセスモデルの実施形態では、グラフィックス処理エンジン４３１、４３２、…Ｎは、単一のオペレーティングシステムの下で単一のアプリケーションまたはプロセス専用にすることができる。単一のアプリケーションは、他のアプリケーション要求をグラフィックスエンジン４３１、４３２、…Ｎに送ることができ、ＶＭ／パーティション内の仮想化を提供する。

専用プロセスプログラミングモデルでは、グラフィックス処理エンジン４３１、４３２、Ｎは、複数のＶＭ／アプリケーションパーティションによって共有することができる。共有モデルは、グラフィックス処理エンジン４３１～４３２、Ｎを仮想化して各オペレーティングシステムによるアクセスを可能にするために、システムハイパーバイザを必要とする。ハイパーバイザのない単一パーティションシステムの場合、グラフィックス処理エンジン４３１～４３２、Ｎはオペレーティングシステムによって所有される。いずれの場合も、オペレーティングシステムは、各プロセスまたはアプリケーションへのアクセスを提供するために、グラフィックス処理エンジン４３１～４３２、Ｎを仮想化することができる。

共有プログラミングモデルの場合、グラフィックスアクセラレーションモジュール４４６、または個別のグラフィックス処理エンジン４３１～４３２、Ｎは、プロセスハンドルを使用して処理要素を選択する。処理要素は、システムメモリ４４１に記憶され、本明細書に記載される実効アドレスから実アドレスへの変換技術を使用してアドレス指定可能であり得る。プロセスハンドルは、そのコンテキストをグラフィックス処理エンジン４３１～４３２、Ｎに登録する（すなわち、処理要素リンクリストに処理要素を追加するためにシステムソフトウェアを呼び出す）ときにホストプロセスに提供される実装形態固有の値であってもよい。プロセスハンドルの下位１６ビットは、処理要素リンクリスト内の処理要素のオフセットであり得る。

図４Ｄは、例示的なアクセラレータ統合スライス４９０を示している。本明細書で使用されるように、「スライス」は、アクセラレータ統合回路４３６の処理リソースの特定部分を含む。システムメモリ４４１内のアプリケーション実効アドレス空間４８２は、処理要素４８３を記憶する。処理要素４８３は、プロセッサ４０７上で実行されるアプリケーション４８０からのＧＰＵ呼び出し４８１に応答して記憶することができる。処理要素４８３は、対応するアプリケーション４８０のプロセス状態を含む。処理要素４８３に含まれる作業記述子（ＷＤ）４８４は、アプリケーションによって要求された単一のジョブであってもよく、またはジョブのキューへのポインタを含んでもよい。後者の場合、ＷＤ４８４は、アプリケーションのアドレス空間４８２内のジョブ要求キューへのポインタである。

グラフィックスアクセラレーションモジュール４４６および／または個々のグラフィックス処理エンジン４３１～４３２、Ｎは、システム内のプロセスの全てまたはサブセットによって共有することができる。例えば、本明細書に記載する技術は、プロセス状態をセットアップし、ＷＤ４８４をグラフィックスアクセラレーションモジュール４４６に送信して仮想化環境でジョブを開始するためのインフラストラクチャを含んでもよい。

一実装形態では、専用プロセスプログラミングモデルは実装形態固有である。このモデルでは、単一のプロセスがグラフィックスアクセラレーションモジュール４４６または個々のグラフィックス処理エンジン４３１を所有する。グラフィックスアクセラレーションモジュール４４６は単一のプロセスによって所有されるので、グラフィックスアクセラレーションモジュール４４６が割り当てられた時点で、ハイパーバイザは、所有パーティションのためにアクセラレータ統合回路４３６を初期化し、オペレーティングシステムは、所有プロセスのためにアクセラレータ統合回路４３６を初期化する。

動作中、アクセラレータ統合スライス４９０内のＷＤフェッチユニット４９１は、グラフィックスアクセラレーションモジュール４４６のグラフィックス処理エンジンのうちの１つによって行われるべき作業の指示を含む次のＷＤ４８４をフェッチする。ＷＤ４８４からのデータは、レジスタ４４５に記憶され、図示のように、ＭＭＵ４３９、割り込み管理回路４４７および／またはコンテキスト管理回路４４８によって使用され得る。例えば、ＭＭＵ４３９は、ＯＳ仮想アドレス空間４８５内のセグメント／ページテーブル４８６にアクセスするためのセグメント／ページウォーク回路を含んでもよい。割り込み管理回路４４７は、グラフィックスアクセラレーションモジュール４４６から受信された割り込みイベント４９２を処理することができる。グラフィックス動作を実施する場合、グラフィックス処理エンジン４３１～４３２、Ｎによって生成された実効アドレス４９３は、ＭＭＵ４３９によって実アドレスに変換される。

同じセットのレジスタ４４５は、各グラフィックス処理エンジン４３１～４３２、Ｎおよび／またはグラフィックスアクセラレーションモジュール４４６に対して複製されてもよく、ハイパーバイザまたはオペレーティングシステムによって初期化されてもよい。これらの複製されたレジスタの各々は、アクセラレータ統合スライス４９０に含まれ得る。一実施形態では、各グラフィックス処理エンジン４３１～４３２、Ｎは、別個のグラフィックスプロセッサデバイスとしてハイパーバイザ４９６に提示されてもよい。ＱｏＳ設定は、特定のグラフィックス処理エンジン４３１～４３２、Ｎのクライアントに対して構成することができ、各エンジンのクライアント間のデータ独立を有効にすることができる。ハイパーバイザによって初期化され得る例示的なレジスタを表１に示す。

オペレーティングシステムによって初期化され得る例示的なレジスタを表２に示す。

各ＷＤ４８４は、特定のグラフィックスアクセラレーションモジュール４４６および／またはグラフィックス処理エンジン４３１～４３２、Ｎに固有であってもよい。これは、グラフィックス処理エンジン４３１～４３２、Ｎがその作業を行うために必要とする全ての情報を含むか、またはアプリケーションが完了すべき作業のコマンドキューをセットアップしたメモリ位置へのポインタであり得る。

図４Ｅは、共有モデルの追加の所望による詳細を示している。これは、処理要素リスト４９９が記憶されているハイパーバイザ実アドレス空間４９８を含む。ハイパーバイザ実アドレス空間４９８は、オペレーティングシステム４９５用のグラフィックスアクセラレーションモジュールエンジンを仮想化するハイパーバイザ４９６を介してアクセス可能である。

共有プログラミングモデルは、システム内のパーティションの全てまたはサブセットからのプロセスの全てまたはサブセットがグラフィックスアクセラレーションモジュール４４６を使用することを可能にする。グラフィックスアクセラレーションモジュール４４６が複数のプロセスおよびパーティションによって共有される２つのプログラミングモデル、すなわちタイムスライス共有およびグラフィックスディレクテッド共有が存在する。

このモデルでは、システムハイパーバイザ４９６は、グラフィックスアクセラレーションモジュール４４６を所有し、その機能を全てのオペレーティングシステム４９５に利用可能にする。グラフィックスアクセラレーションモジュール４４６がシステムハイパーバイザ４９６による仮想化をサポートするために、グラフィックスアクセラレーションモジュール４４６は、以下の要件に従うことができる。１）アプリケーションのジョブ要求は自律的でなければならない（すなわち、状態はジョブ間で維持される必要がない）、またはグラフィックスアクセラレーションモジュール４４６はコンテキスト保存および復元メカニズムを提供しなければならない。２）アプリケーションのジョブ要求は、グラフィックスアクセラレーションモジュール４４６によって、変換障害を含めて指定された時間内に完了することが保証されるか、またはグラフィックスアクセラレーションモジュール４４６がジョブの処理をプリエンプトする機能を提供する。３）グラフィックスアクセラレーションモジュール４４６は、有向共有プログラミングモデルで動作する場合、プロセス間の公平性が保証されなければならない。

共有モデルに対して、アプリケーション４８０は、グラフィックスアクセラレーションモジュール４４６タイプ、作業記述子（ＷＤ）、権限マスクレジスタ（ＡＭＲ）値、およびコンテキスト保存／復元エリアポインタ（ＣＳＲＰ）を有するオペレーティングシステム４９５システム呼び出しを行うことが要求され得る。グラフィックスアクセラレーションモジュール４４６タイプは、システム呼び出しのターゲット加速機能を記述する。グラフィックスアクセラレーションモジュール４４６タイプは、システム固有の値であり得る。ＷＤは、グラフィックスアクセラレーションモジュール４４６のために特別にフォーマットされており、グラフィックスアクセラレーションモジュール４４６コマンド、ユーザ定義構造体への実効アドレスポインタ、コマンドのキューへの実効アドレスポインタ、またはグラフィックスアクセラレーションモジュール４４６によって行われる作業を記述する他のデータ構造体の形態であり得る。一実施形態では、ＡＭＲ値は、現在のプロセスに使用するＡＭＲ状態である。オペレーティングシステムに渡される値は、ＡＭＲを設定するアプリケーションと同様である。アクセラレータ統合回路４３６およびグラフィックスアクセラレーションモジュール４４６の実装形態が、ユーザ権限マスクオーバーライドレジスタ（ＵＡＭＯＲ）をサポートしない場合、オペレーティングシステムは、ハイパーバイザ呼び出しにおいてＡＭＲを渡す前に、現在のＵＡＭＯＲ値をＡＭＲ値に適用することができる。ハイパーバイザ４９６は、所望により、ＡＭＲを処理要素４８３に配置する前に、現在の権限マスクオーバーライドレジスタ（ＡＭＯＲ）値を適用することができる。ＣＳＲＰは、グラフィックスアクセラレーションモジュール４４６がコンテキスト状態を保存および復元するためのアプリケーションのアドレス空間４８２内のエリアの実効アドレスを含むレジスタ４４５のうちの１つであり得る。ジョブ間またはジョブがプリエンプトされたときに状態を保存する必要がない場合、このポインタは任意選択である。コンテキスト保存／復元エリアは、固定システムメモリであり得る。

システム呼び出しを受信すると、オペレーティングシステム４９５は、アプリケーション４８０が登録されており、グラフィックスアクセラレーションモジュール４４６を使用する権限が与えられていることを確認することができる。次いで、オペレーティングシステム４９５は、表３に示す情報を用いてハイパーバイザ４９６を呼び出す。

ハイパーバイザ呼び出しを受信すると、ハイパーバイザ４９６は、オペレーティングシステム４９５が登録されており、グラフィックスアクセラレーションモジュール４４６を使用する権限が与えられていることを確認する。次に、ハイパーバイザ４９６は、処理要素４８３を、対応するグラフィックスアクセラレーションモジュール４４６タイプの処理要素リンクリストに入れる。処理要素は、表４に示す情報を含み得る。

ハイパーバイザは、複数のアクセラレータ統合スライス４９０レジスタ４４５を初期化することができる。

図４Ｆに示すように、１つの任意の実装形態では、物理プロセッサメモリ４０１～４０２およびＧＰＵメモリ４２０～４２３にアクセスするために使用される共通仮想メモリアドレス空間を介してアドレス可能な統合メモリが使用される。この実装形態では、ＧＰＵ４１０～４１３上で実行される動作は、プロセッサメモリ４０１～４０２にアクセスするために同じ仮想／実効メモリアドレス空間を利用し、その逆も同様であり、それによってプログラミング可能性を単純化する。仮想／実効アドレス空間の第１の部分はプロセッサメモリ４０１に割り振られ得、第２の部分は第２のプロセッサメモリ４０２に割り振られ得、第３の部分はＧＰＵメモリ４２０に割り振られ得、以下同様である。仮想／実効メモリ空間全体（実効アドレス空間と称されることもある）は、それによって、プロセッサメモリ４０１～４０２およびＧＰＵメモリ４２０～４２３の各々に分散され得、任意のプロセッサまたはＧＰＵが、そのメモリにマッピングされた仮想アドレスを有する任意の物理メモリにアクセスすることを可能にする。

ホストプロセッサ（例えば、４０５）のキャッシュとＧＰＵ４１０～４１３との間のキャッシュコヒーレンスを保証し、特定のタイプのデータが記憶されるべき物理メモリを示すバイアス技術を実装するバイアス／コヒーレンス管理回路４９４Ａ～４９４Ｅが、ＭＭＵ４３９Ａ～４３９Ｅのうちの１または複数の中に設けられてもよい。バイアス／コヒーレンス管理回路４９４Ａ～４９４Ｅの複数のインスタンスが図４Ｆに示されているが、バイアス／コヒーレンス回路は、１または複数のホストプロセッサ４０５のＭＭＵ内および／またはアクセラレータ統合回路４３６内に実装されてもよい。

ＧＰＵ付属メモリ４２０～４２３は、システムメモリの一部としてマッピングされ、共有仮想メモリ（ＳＶＭ）技術を使用してアクセスされ得るが、完全なシステムキャッシュコヒーレンスに関連する典型的な性能上の欠点を被ることはない。面倒なキャッシュコヒーレンスオーバーヘッドなしにシステムメモリとしてアクセスされるＧＰＵ付属メモリ４２０～４２３の能力は、ＧＰＵオフロードのための有益なオペレーティング環境を提供する。この構成は、従来のＩ／ＯＤＭＡデータコピーのオーバーヘッドなしに、ホストプロセッサ４０５ソフトウェアがオペランドをセットアップし、計算結果にアクセスすることを可能にする。かかる従来のコピーには、ドライバ呼び出し、割り込みおよびメモリマップＩ／Ｏ（ＭＭＩＯ）アクセスが含まれるが、これらは全て単純なメモリアクセスに比べて非効率的である。同時に、キャッシュコヒーレンスオーバーヘッドなしにＧＰＵ付属メモリ４２０～４２３にアクセスする能力は、オフロードされた計算の実行時間にとって重要であり得る。例えば、実質的なストリーミング書き込みメモリトラフィックを有する場合、キャッシュコヒーレンスオーバーヘッドは、ＧＰＵ４１０～４１３によって見られる有効書き込み帯域幅を大幅に減少させる可能性がある。オペランド設定の効率、結果アクセスの効率、ＧＰＵ計算の効率は全て、ＧＰＵオフロードの有効性を決定する役割を果たす。

ＧＰＵバイアスとホストプロセッサバイアスとの間の選択は、バイアストラッカーデータ構造によって駆動することができる。バイアステーブルが使用されてもよく、バイアステーブルは、例えば、ＧＰＵ付属メモリページ当たり１または２ビットを含むページ－粒状構造（すなわち、メモリページの粒度で制御される）であってもよい。バイアステーブルは、（例えば、バイアステーブルの頻繁に使用された／最近使用されたエントリをキャッシュするために）ＧＰＵ４１０～４１３内のバイアスキャッシュの有無にかかわらず、１または複数のＧＰＵ付属メモリ４２０～４２３の盗まれたメモリ範囲内で実装することができる。あるいは、バイアステーブル全体をＧＰＵ内に維持してもよい。

一実装形態では、ＧＰＵ付属メモリ４２０～４２３への各アクセスに関連するバイアステーブルエントリは、ＧＰＵメモリへの実際のアクセスに先立ってアクセスされ、以下の動作を引き起こす。第１に、ＧＰＵバイアスでページを見つけるＧＰＵ４１０～４１３からのローカル要求は、対応するＧＰＵメモリ４２０～４２３に直接転送される。ホストバイアスでページを見つけるＧＰＵからのローカル要求は、（例えば、上述した高速リンクを介して）プロセッサ４０５に転送される。所望により、ホストプロセッサバイアスにおいて要求されたページを見つけるプロセッサ４０５からの要求は、通常のメモリ読み出しと同様に要求を完了する。あるいは、ＧＰＵバイアスされたページに向けられた要求は、ＧＰＵ４１０～４１３に転送されてもよい。その場合、ＧＰＵは、ページを現在使用していないとき、そのページをホストプロセッサバイアスに移行させることができる。

ページのバイアス状態は、ソフトウェアベースのメカニズム、ハードウェア支援ソフトウェアベースのメカニズム、または限定された場合には純粋にハードウェアベースのメカニズムのいずれかによって変更することができる。

バイアス状態を変更するための１つのメカニズムは、ＡＰＩ呼び出し（例えば、ＯｐｅｎＣＬ）を使用し、これは次に、ＧＰＵのデバイスドライバを呼び出し、これは次に、ＧＰＵに、バイアス状態を変更し、一部の移行に対して、ホストでキャッシュフラッシュ動作を実施するように指示するメッセージを送信（またはコマンド記述子をエンキュー）する。キャッシュフラッシュ動作は、ホストプロセッサ４０５バイアスからＧＰＵバイアスへの移行に必要であるが、その逆の移行には必要ではない。

キャッシュコヒーレンシは、ＧＰＵバイアスされたページを、一時的に、ホストプロセッサ４０５によるキャッシュが不可能な状態にすることによって維持することができる。これらのページにアクセスするために、プロセッサ４０５は、ＧＰＵ４１０にアクセスを要求することができ、ＧＰＵ４１０は、実装形態に応じて、直ちにアクセスを許可する場合と許可しない場合とがある。したがって、ホストプロセッサ４０５とＧＰＵ４１０との間の通信を減少させるために、ＧＰＵにバイアスされたページがＧＰＵによって要求されるがホストプロセッサ４０５によって要求されないページであること、およびその逆を保証することが有益である。
グラフィックス処理パイプライン

図５は、グラフィックス処理パイプライン５００を示している。図２Ｄのようなグラフィックスマルチプロセッサ２３４、図３Ａのグラフィックスマルチプロセッサ３２５、図３Ｂのグラフィックスマルチプロセッサ３５０などのグラフィックスマルチプロセッサは、図示したグラフィックス処理パイプライン５００を実装することができる。グラフィックスマルチプロセッサは、図１の並列プロセッサ１１２に関連し得、それらの１つの代わりに使用され得る図２Ａの並列プロセッサ２００のような、本明細書に記載される並列処理サブシステム内に含まれ得る。種々の並列処理システムは、本明細書に記載されるように、並列処理ユニット（例えば、図２Ａの並列処理ユニット２０２）の１または複数のインスタンスを介してグラフィックス処理パイプライン５００を実装することができる。例えば、シェーダユニット（例えば、図２Ｃのグラフィックスマルチプロセッサ２３４）は、頂点処理ユニット５０４、テッセレーション制御処理ユニット５０８、テッセレーション評価処理ユニット５１２、ジオメトリ処理ユニット５１６、およびフラグメント／ピクセル処理ユニット５２４のうちの１または複数の機能を実施するように構成することができる。データアセンブラ５０２、プリミティブアセンブラ５０６、５１４、５１８、テッセレーションユニット５１０、ラスタライザ５２２、およびラスタ演算ユニット５２６の機能は、処理クラスタ（例えば、図２Ａの処理クラスタ２１４）および対応するパーティションユニット（例えば、図２Ａのパーティションユニット２２０Ａ～２２０Ｎ）内の他の処理エンジンによって実施することもできる。グラフィックス処理パイプライン５００は、１または複数の機能のための専用処理ユニットを使用して実装することもできる。グラフィックス処理パイプライン５００の１または複数の部分が、汎用プロセッサ（例えば、ＣＰＵ）内の並列処理論理によって実施されることも可能である。所望により、グラフィックス処理パイプライン５００の１または複数の部分は、図２Ａのメモリインターフェース２１８のインスタンスであり得るメモリインターフェース５２８を介して、オンチップメモリ（例えば、図２Ａにおけるような並列プロセッサメモリ２２２）にアクセスすることができる。グラフィックスプロセッサパイプライン５００は、図３Ｃのように、マルチコアグループ３６５Ａを介して実装することもできる。

データアセンブラ５０２は、表面およびプリミティブのための頂点データを収集することができる処理ユニットである。その場合、データアセンブラ５０２は、頂点属性を含む頂点データを頂点処理ユニット５０４に出力する。頂点処理ユニット５０４は、プログラム可能な実行ユニットであり、頂点シェーダプログラムを実行し、頂点シェーダプログラムによって指定されたように頂点データの点灯および変換を行う。頂点処理ユニット５０４は、頂点データを処理する際に使用するためにキャッシュメモリ、ローカルメモリまたはシステムメモリに記憶されているデータを読み出し、頂点データをオブジェクトベースの座標表現からワールド空間座標空間または正規化デバイス座標空間に変換するようにプログラムすることができる。

プリミティブアセンブラ５０６の第１のインスタンスは、頂点処理ユニット５０４から頂点属性を受信する。プリミティブアセンブラ５０６は、必要に応じて記憶された頂点属性を読み出し、テッセレーション制御処理ユニット５０８による処理のためのグラフィックスプリミティブを構築する。グラフィックスプリミティブは、種々のグラフィックス処理アプリケーションプログラミングインターフェース（ＡＰＩ）によってサポートされるように、三角形、線分、点、パッチなどを含む。

テッセレーション制御処理ユニット５０８は、入力された頂点を幾何学的パッチの制御点として扱う。制御点は、パッチからの入力表現（例えば、パッチのベース）から、テッセレーション評価処理ユニット５１２による表面評価で使用するのに適した表現に変換される。テッセレーション制御処理ユニット５０８は、幾何学的パッチのエッジに対するテッセレーション係数を算出することもできる。テッセレーション係数は１つのエッジに適用され、そのエッジに関連付けられたビュー依存の細部レベルを定量化する。テッセレーションユニット５１０は、パッチのエッジに対するテッセレーション係数を受信し、パッチを線、三角形、または四角形プリミティブなどの複数の幾何学的プリミティブにテッセレーションするように構成され、これらの幾何学的プリミティブは、テッセレーション評価処理ユニット５１２に伝送される。テッセレーション評価処理ユニット５１２は、細分割パッチのパラメータ化された座標上で動作して、幾何学的プリミティブに関連付けられた各頂点に対する表面表現および頂点属性を生成する。

プリミティブアセンブラ５１４の第２のインスタンスは、テッセレーション評価処理ユニット５１２から頂点属性を受信し、記憶された頂点属性を必要に応じて読み出し、ジオメトリ処理ユニット５１６による処理のためのグラフィックスプリミティブを構築する。ジオメトリ処理ユニット５１６は、ジオメトリシェーダプログラムを実行して、ジオメトリシェーダプログラムによって指定されるようにプリミティブアセンブラ５１４から受信されたグラフィックスプリミティブを変換するプログラム可能な実行ユニットである。ジオメトリ処理ユニット５１６は、グラフィックスプリミティブを１または複数の新しいグラフィックスプリミティブに細分割し、新しいグラフィックスプリミティブをラスタライズするために使用されるパラメータを計算するようにプログラムすることができる。

ジオメトリ処理ユニット５１６は、ジオメトリストリーム内の要素を追加または削除することができる。ジオメトリ処理ユニット５１６は、新しいグラフィックスプリミティブを指定するパラメータおよび頂点をプリミティブアセンブラ５１８に出力する。プリミティブアセンブラ５１８は、ジオメトリ処理ユニット５１６からパラメータおよび頂点を受信し、ビューポートスケール、カリングおよびクリップユニット５２０によって処理するためのグラフィックスプリミティブを構築する。ジオメトリ処理ユニット５１６は、ジオメトリデータの処理に使用するために、並列プロセッサメモリまたはシステムメモリに記憶されているデータを読み出す。ビューポートスケール、カリングおよびクリップユニット５２０は、クリッピング、カリングおよびビューポートスケーリングを実施し、処理されたグラフィックスプリミティブをラスタライザ５２２に出力する。

ラスタライザ５２２は、深度カリングおよび他の深度ベースの最適化を実施することができる。ラスタライザ５２２はまた、新しいグラフィックスプリミティブ上でスキャン変換を実施して、フラグメントを生成し、これらのフラグメントおよび関連するカバレッジデータをフラグメント／ピクセル処理ユニット５２４に出力する。フラグメント／ピクセル処理ユニット５２４は、フラグメントシェーダプログラムまたはピクセルシェーダプログラムを実行するように構成されたプログラム可能な実行ユニットである。フラグメント／ピクセル処理ユニット５２４は、フラグメントまたはピクセルシェーダプログラムによって指定されるように、ラスタライザ５２２から受信されたフラグメントまたはピクセルを変換する。例えば、フラグメント／ピクセル処理ユニット５２４は、ラスタ演算ユニット５２６に出力されるシェーディングされたフラグメントまたはピクセルを生成するために、テクスチャマッピング、シェーディング、ブレンド、テクスチャ補正および遠近法補正を含むがこれらに限定されない演算を実施するようにプログラムすることができる。フラグメント／ピクセル処理ユニット５２４は、フラグメントデータを処理する際に使用するために、並列プロセッサメモリまたはシステムメモリのいずれかに記憶されているデータを読み出すことができる。フラグメントまたはピクセルシェーダプログラムは、処理ユニットに対して構成されたサンプリングレートに依存して、サンプル、ピクセル、タイル、または他の粒度でシェーディングするように構成することができる。

ラスタ演算ユニット５２６は、ステンシル、ｚテスト、ブレンドなどを含むがこれらに限定されないラスタ演算を実施する処理ユニットであり、処理されたグラフィックスデータとして、グラフィックスメモリ（例えば、図２Ａにおける並列プロセッサメモリ２２２、および／または図１におけるシステムメモリ１０４）に記憶するため、１または複数のディスプレイデバイス１１０上に表示するため、または１または複数のプロセッサ１０２もしくは並列プロセッサ１１２のうちの１つによるさらなる処理のためにピクセルデータを出力する。ラスタ演算ユニット５２６は、メモリに書き込まれたｚまたはカラーデータを圧縮し、メモリから読み出されたｚまたはカラーデータを解凍するように構成することができる。
機械学習の概要

上述のアーキテクチャは、機械学習モデルを使用して訓練および推論動作を実施するために適用することができる。機械学習は多くの種類のタスクを解決するのに成功している。機械学習アルゴリズム（例えば、ニューラルネットワーク）を訓練して使用するときに生じる計算は、自然に効率的な並列実装形態に向いている。したがって、汎用グラフィックス処理ユニット（ＧＰＧＰＵ）のような並列プロセッサは、深層ニューラルネットワークの実用的な実装形態において重要な役割を果たしてきた。単一命令多重スレッド（ＳＩＭＴ）アーキテクチャを有する並列グラフィックスプロセッサは、グラフィックスパイプラインにおける並列処理の量を最大化するように設計されている。ＳＩＭＴアーキテクチャでは、並列スレッドのグループは、処理効率を向上させるために可能な限り頻繁にプログラム命令を同期的に実行しようとする。並列機械学習アルゴリズムの実装形態によって提供される効率性は、大容量ネットワークの使用を可能にし、それらのネットワークをより大きなデータセットで訓練することを可能にする。

機械学習アルゴリズムは、データのセットに基づいて学習できるアルゴリズムである。例えば、機械学習アルゴリズムは、データセット内の高レベルの抽象化をモデル化するように設計することができる。例えば、画像認識アルゴリズムは、所与の入力が複数のカテゴリのどれに属するかを判定するために使用することができ、回帰アルゴリズムは、入力を与えられると数値を出力することができ、パターン認識アルゴリズムは、翻訳されたテキストを生成するために、あるいはテキスト対音声および／または音声認識を実施するために使用することができる。

機械学習アルゴリズムの例示的なタイプは、ニューラルネットワークである。ニューラルネットワークには多くのタイプがあるが、単純なタイプのニューラルネットワークは、フィードフォワードネットワークである。フィードフォワードネットワークは、ノードが層状に配置された非循環グラフとして実装することができる。典型的に、フィードフォワードネットワークトポロジは、少なくとも１つの隠れ層によって分離される入力層および出力層を含む。隠れ層は、入力層によって受信された入力を、出力層において出力を生成するために有用な表現に変換する。ネットワークノードはエッジを介して隣接層のノードに全結合されているが、各層内のノード間にエッジはない。フィードフォワードネットワークの入力層のノードで受信されたデータは、層を接続するエッジの各々にそれぞれ関連付けられた係数（「重み」）に基づいてネットワーク内の連続する各層のノードの状態を計算する活性化関数を介して出力層のノードに伝播（すなわち「フィードフォワード」）される。実行されるアルゴリズムによって表される特定のモデルに応じて、ニューラルネットワークアルゴリズムからの出力は、種々の形態をとることができる。

機械学習アルゴリズムを使用して特定の問題をモデル化することができるようになる前に、アルゴリズムは、訓練データセットを使用して訓練される。ニューラルネットワークを訓練することは、ネットワークトポロジを選択し、ネットワークによってモデル化される問題を表す訓練データのセットを使用し、ネットワークモデルが訓練データセットの全てのインスタンスに対して最小の誤差で実施するまで重みを調整することを含む。例えば、ニューラルネットワークに対する教師あり学習訓練プロセス中に、訓練データセット内のインスタンスを表す入力に応答してネットワークによって生成された出力が、そのインスタンスに対する「正しい」ラベル付き出力と比較され、出力とラベル付き出力との間の差を表す誤差信号が計算され、誤差信号がネットワークの層を介して後方に伝播されるときに、接続に関連する重みがその誤差を最小にするように調整される。ネットワークは、訓練データセットのインスタンスから生成された出力の各々に対する誤差が最小化されたときに「訓練された」とみなされる。

機械学習アルゴリズムの正確度は、アルゴリズムの訓練に使用されるデータセットの品質によって大きく影響される可能性がある。訓練プロセスは、計算集約的であり得、従来の汎用プロセッサ上では相当量の時間を必要とし得る。したがって、並列処理ハードウェアが多くのタイプの機械学習アルゴリズムを訓練するために使用される。これは、ニューラルネットワークにおける係数を調整する際に実施される計算が、自然と並列実装形態に向いているので、ニューラルネットワークの訓練を最適化するために特に有用である。具体的には、多くの機械学習アルゴリズムおよびソフトウェアアプリケーションが、汎用グラフィックス処理デバイス内の並列処理ハードウェアを利用するように適合されている。

図６は、機械学習ソフトウェアスタック６００の一般図である。機械学習アプリケーション６０２は、訓練データセットを使用してニューラルネットワークを訓練するように、または訓練された深層ニューラルネットワークを使用して機械知能を実装するように構成することができる任意の論理である。機械学習アプリケーション６０２は、展開前にニューラルネットワークを訓練するために使用することができるニューラルネットワークおよび／または特殊ソフトウェアの訓練機能および推論機能を含み得る。機械学習アプリケーション６０２は、画像認識、マッピングおよび位置特定、自律ナビゲーション、音声合成、医用画像、または言語翻訳を含むがこれらに限定されない任意のタイプの機械知能を実装することができる。例示的な機械学習アプリケーション６０２は、音声ベースの仮想アシスタント、画像または顔認識アルゴリズム、自律ナビゲーション、および機械学習アプリケーション６０２によって使用される機械学習モデルを訓練するために使用されるソフトウェアツールを含むが、これらに限定されない。

機械学習アプリケーション６０２のハードウェアアクセラレーションは、機械学習フレームワーク６０４を介して可能となり得る。機械学習フレームワーク６０４は、機械学習プリミティブのライブラリを提供することができる。機械学習プリミティブは、機械学習アルゴリズムによって概して実施される基本動作である。機械学習フレームワーク６０４がなければ、機械学習アルゴリズムの開発者は、機械学習アルゴリズムに関連する主要な計算論理を作成して最適化することが要求され、次いで、新しい並列プロセッサが開発されるにつれて計算論理を再最適化することが要求される。その代わりに、機械学習アプリケーションは、機械学習フレームワーク６０４によって提供されるプリミティブを使用して必要な計算を実施するように構成することができる。例示的なプリミティブには、テンソル畳み込み、活性化関数、およびプーリングが含まれ、これらは畳み込みニューラルネットワーク（ＣＮＮ）を訓練しながら実施される計算演算である。機械学習フレームワーク６０４はまた、行列およびベクトル演算などの多くの機械学習アルゴリズムによって実装される基本線形代数サブプログラムを実施するためのプリミティブを提供することができる。機械学習フレームワーク６０４の例には、ＴｅｎｓｏｒＦｌｏｗ、ＴｅｎｓｏｒＲＴ、ＰｙＴｏｒｃｈ、ＭＸＮｅｔ、Ｃａｆｆｅｅ、および他の高レベル機械学習フレームワークが含まれるが、これらに限定されない。

機械学習フレームワーク６０４は、機械学習アプリケーション６０２から受信した入力データを処理し、計算フレームワーク６０６への適切な入力を生成することができる。計算フレームワーク６０６は、ＧＰＧＰＵドライバ６０８に提供される基礎となる命令を抽象化して、機械学習フレームワーク６０４がＧＰＧＰＵハードウェア６１０を介してハードウェアアクセラレーションを利用できるようにすることができ、機械学習フレームワーク６０４がＧＰＧＰＵハードウェア６１０のアーキテクチャに関する深い知識を有する必要はない。さらに、計算フレームワーク６０６は、ＧＰＧＰＵハードウェア６１０の種々のタイプおよび世代にわたって、機械学習フレームワーク６０４に対するハードウェアアクセラレーションを可能にし得る。例示的な計算フレームワーク６０６は、ＣＵＤＡ計算フレームワークと、ＣＵＤＡ深層ニューラルネットワーク（ｃｕＤＮＮ）ライブラリなどの関連する機械学習ライブラリとを含む。機械学習ソフトウェアスタック６００は、マルチＧＰＵおよびマルチノード計算を容易にするための通信ライブラリまたはフレームワークを含むこともできる。
ＧＰＧＰＵ機械学習の加速

図７は、汎用グラフィックス処理ユニット７００を示しており、これは、図２Ａの並列プロセッサ２００または図１の並列プロセッサ１１２であり得る。汎用処理ユニット（ＧＰＧＰＵ）７００は、深層ニューラルネットワークの訓練に関連するタイプの計算ワークロードの処理を加速するために、機械学習フレームワークによって提供されるプリミティブのハードウェアアクセラレーションをサポートするように構成することができる。さらに、ＧＰＧＰＵ７００をＧＰＧＰＵの他のインスタンスに直接リンクしてマルチＧＰＵクラスタを作成し、特に深層ニューラルネットワークの訓練速度を向上させることもできる。プリミティブは、展開されたニューラルネットワークの推論動作を加速するためにもサポートされている。

ＧＰＧＰＵ７００は、ホストプロセッサとの接続を可能にするためのホストインターフェース７０２を含む。ホストインターフェース７０２は、ＰＣＩエクスプレスインターフェースであり得る。しかし、ホストインターフェースは、ベンダー固有の通信インターフェースまたは通信ファブリックであってもよい。ＧＰＧＰＵ７００は、ホストプロセッサからコマンドを受信し、グローバルスケジューラ７０４を使用して、これらのコマンドに関連付けられた実行スレッドを処理クラスタ７０６Ａ～７０６Ｈのセットに分散する。処理クラスタ７０６Ａ～７０６Ｈは、キャッシュメモリ７０８を共有する。キャッシュメモリ７０８は、処理クラスタ７０６Ａ～７０６Ｈ内のキャッシュメモリのための高レベルキャッシュとして機能することができる。図示された処理クラスタ７０６Ａ～７０６Ｈは、図２Ａにおける処理クラスタ２１４Ａ～２１４Ｎに対応することができる。

ＧＰＧＰＵ７００は、メモリコントローラ７１２Ａ～７１２Ｂのセットを介して処理クラスタ７０６Ａ～７０６Ｈと結合されたメモリ７１４Ａ～７１４Ｂを含む。メモリ７１４Ａ～７１４Ｂは、種々のタイプのメモリデバイスを含み得、これには、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）またはグラフィックスダブルデータレート（ＧＤＤＲ）メモリを含む同期グラフィックスランダムアクセスメモリ（ＳＧＲＡＭ）などのグラフィックスランダムアクセスメモリが含まれる。メモリ７１４Ａ～７１４Ｂはまた、高帯域幅メモリ（ＨＢＭ）を含むがこれに限定されない３Ｄスタックメモリを含み得る。

処理クラスタ７０６Ａ～７０６Ｈの各々は、図２Ｄのグラフィックスマルチプロセッサ２３４、図３Ａのグラフィックスマルチプロセッサ３２５、図３Ｂのグラフィックスマルチプロセッサ３５０などのグラフィックスマルチプロセッサのセットを含むことができ、または図３Ｃのようなマルチコアグループ３６５Ａ～３６５Ｎを含み得る。計算クラスタのグラフィックスマルチプロセッサには、複数の種類の整数および浮動小数点論理ユニットが含まれており、機械学習計算に適したものも含め、種々の精度で計算演算を実施することができる。例えば、処理クラスタ７０６Ａ～７０６Ｈの各々における浮動小数点ユニットの少なくともサブセットは、１６ビットまたは３２ビット浮動小数点演算を実施するように構成することができ、浮動小数点ユニットの異なるサブセットは、６４ビット浮動小数点演算を実施するように構成することができる。

ＧＰＧＰＵ７００の複数のインスタンスは、計算クラスタとして動作するように構成することができる。同期およびデータ交換のために計算クラスタによって使用される通信メカニズムは、実施形態によって異なる。例えば、ＧＰＧＰＵ７００の複数のインスタンスは、ホストインターフェース７０２を介して通信する。一実施形態では、ＧＰＧＰＵ７００は、ＧＰＧＰＵの他のインスタンスへの直接接続を可能にするＧＰＵリンク７１０とＧＰＧＰＵ７００を結合するＩ／Ｏハブ７０９を含む。ＧＰＵリンク７１０は、ＧＰＧＰＵ７００の複数のインスタンス間の通信および同期を可能にする専用のＧＰＵ間ブリッジに結合されてもよい。所望により、ＧＰＵリンク７１０は高速相互接続と結合して、他のＧＰＧＰＵまたは並列プロセッサにデータを伝送かつ受信する。ＧＰＧＰＵ７００の複数のインスタンスは、別個のデータ処理システムに配置され、ホストインターフェース７０２を介してアクセス可能なネットワークデバイスを介して通信することができる。ＧＰＵリンク７１０は、ホストインターフェース７０２に加えて、またはその代替として、ホストプロセッサへの接続を可能にするように構成することができる。

ＧＰＧＰＵ７００の図示された構成は、ニューラルネットワークを訓練するように構成することができるが、ＧＰＧＰＵ７００の代替構成は、高性能または低電力の推論プラットフォーム内で展開するように構成することができる。推論構成では、ＧＰＧＰＵ７００は、訓練構成と比較してより少ない処理クラスタ７０６Ａ～７０６Ｈを含む。さらに、メモリ７１４Ａ～７１４Ｂに関連するメモリ技術は、推論構成と訓練構成との間で異なり得る。一実施形態では、ＧＰＧＰＵ７００の推論構成は、特定の命令の推論をサポートすることができる。例えば、推論構成は、１または複数の８ビット整数ドット積命令に対するサポートを提供することができ、これは、展開されたニューラルネットワークに対する推論演算中に概して使用される。

図８は、マルチＧＰＵコンピューティングシステム８００を示している。マルチＧＰＵコンピューティングシステム８００は、ホストインターフェーススイッチ８０４を介して複数のＧＰＧＰＵ８０６Ａ～８０６Ｄに結合されたプロセッサ８０２を含み得る。ホストインターフェーススイッチ８０４は、ＰＣＩエクスプレススイッチデバイスであってもよく、該ＰＣＩエクスプレススイッチデバイスは、プロセッサ８０２をＧＰＧＰＵ８０６Ａ～８０６Ｄのセットと通信し得るＰＣＩエクスプレスバスにプロセッサ８０２を結合する。複数のＧＰＧＰＵ８０６Ａ～８０６Ｄの各々は、図７のＧＰＧＰＵ７００のインスタンスであり得る。ＧＰＧＰＵ８０６Ａ～８０６Ｄは、高速ポイントツーポイントＧＰＵ対ＧＰＵリンク８１６のセットを介して相互接続することができる。高速ＧＰＵ間リンクは、図７のようなＧＰＵリンク７１０などの専用ＧＰＵリンクを介してＧＰＧＰＵ８０６Ａ～８０６Ｄの各々に接続することができる。Ｐ２ＰＧＰＵリンク８１６は、プロセッサ８０２が接続されているホストインターフェースバス上での通信を必要とすることなく、ＧＰＧＰＵ８０６Ａ～８０６Ｄの各々の間の直接通信を可能にする。Ｐ２ＰＧＰＵリンクに向けられたＧＰＵ間トラフィックでは、ホストインターフェースバスは、システムメモリアクセスのために、または例えば１または複数のネットワークデバイスを介してマルチＧＰＵコンピューティングシステム８００の他のインスタンスと通信するために利用可能なままである。図８において、ＧＰＧＰＵ８０６Ａ～８０６Ｄは、ホストインターフェーススイッチ８０４を介してプロセッサ８０２に接続しているが、プロセッサ８０２は、代替的に、Ｐ２ＰＧＰＵリンク８１６に対する直接サポートを含み、ＧＰＧＰＵ８０６Ａ～８０６Ｄに直接接続してもよい。一実施形態では、Ｐ２ＰＧＰＵリンク８１６は、マルチＧＰＵコンピューティングシステム８００が単一の論理ＧＰＵとして動作することを可能にする。
機械学習ニューラルネットワークの実装形態

本明細書に記載されるコンピューティングアーキテクチャは、機械学習のためのニューラルネットワークの訓練および展開に特に適したタイプの並列処理を実施するように構成することができる。ニューラルネットワークはグラフ関係を有する関数のネットワークとして一般化できる。当技術分野でよく知られているように、機械学習で使用される種々のタイプのニューラルネットワークの実装形態がある。ニューラルネットワークのうちの１つの例示的なタイプは、前述のように、フィードフォワードネットワークである。

ニューラルネットワークの第２の例示的なタイプは、畳み込みニューラルネットワーク（ＣＮＮ）である。ＣＮＮは、画像データなどの既知の格子状トポロジを有するデータを処理するための特殊なフィードフォワードニューラルネットワークである。したがって、ＣＮＮは、計算ビジョンおよび画像認識アプリケーションに概して使用されるが、音声および言語処理などの他のタイプのパターン認識にも使用することができる。ＣＮＮ入力層のノードは「フィルタ」（網膜の受容野に刺激された特徴検出器）のセットに編成され、各フィルタセットの出力はネットワークの連続した層のノードに伝播される。ＣＮＮに対する計算は、畳み込み数学的演算を各フィルタに適用して、そのフィルタの出力を生成することを含む。畳み込みは、２つの関数によって実施される特殊な種類の数学的演算であり、２つの元の関数のうちの１つの修正バージョンである第３の関数を生成する。畳み込みネットワークの用語では、畳み込みに対する第１の関数を入力と称することができ、第２の関数を畳み込みカーネルと称することができる。この出力は、特徴マップと称され得る。例えば、畳み込み層への入力は、入力画像の種々の色成分を定義するデータの多次元アレイであり得る。畳み込みカーネルは、パラメータの多次元配列とすることができ、パラメータは、ニューラルネットワークに対する訓練プロセスによって適合される。

再帰ニューラルネットワーク（ＲＮＮ）は、層間のフィードバック接続を含むフィードフォワードニューラルネットワークのファミリーである。ＲＮＮは、ニューラルネットワークの異なる部分にわたってパラメータデータを共有することによって、連続データのモデリングを可能にする。ＲＮＮのアーキテクチャはサイクルを含む。ＲＮＮからの出力データの少なくとも一部は、シーケンスにおける後続の入力を処理するためのフィードバックとして使用されるので、サイクルは、変数の現在の値が将来の時点におけるそれ自身の値に及ぼす影響を表す。この特徴により、言語データを構成することができる可変的性質のために、ＲＮＮは言語処理に特に有用となる。

以下に記載される図は、例示的なフィードフォワード、ＣＮＮ、およびＲＮＮネットワークを提示するとともに、これらのタイプのネットワークの各々を訓練し、展開するための一般的なプロセスを説明する。これらの記述は例示的なものであり、本明細書に記述される任意の特定の実施形態に関して限定するものではなく、説明された概念は概して深層ニューラルネットワークおよび機械学習技術全般に適用することができることが理解されよう。

上述の例示的なニューラルネットワークは、深層学習を実施するために使用することができる。深層学習は、深層ニューラルネットワークを使用した機械学習である。深層学習で使用される深層ニューラルネットワークは、複数の隠れ層で構成される人工ニューラルネットワークであり、単一の隠れ層のみを含む浅いニューラルネットワークとは対照的である。より深いニューラルネットワークは、概して、訓練するためにより多くの計算を必要とする。しかしながら、ネットワークの付加的な隠れ層は、浅い機械学習技術に対して低減された出力誤差をもたらす多段階パターン認識を可能にする。

深層学習で使用される深層ニューラルネットワークは、典型的には、モデルに提供された特徴表現に基づいて演算（例えば、オブジェクト分類、音声認識など）を実施できる数学モデルを表すバックエンドネットワークに結合された特徴認識を実施するためのフロントエンドネットワークを含む。深層学習は、モデルに対して手工的な特徴エンジニアリングを実施することなく、機械学習を実施することを可能にする。その代わりに、深層ニューラルネットワークは、入力データ内の統計構造または相関に基づいて特徴を学習することができる。学習された特徴は、検出された特徴を出力にマッピングすることができる数学モデルに提供することができる。ネットワークによって使用される数学モデルは、概して、実施される特定のタスクに特化されており、異なるタスクを実施するために異なるモデルが使用される。

ニューラルネットワークが構築されると、学習モデルをネットワークに適用して、特定のタスクを実施するようにネットワークを訓練することができる。学習モデルは、ネットワークの出力誤差を低減するためにモデル内の重みを調整する方法を記述する。誤差の逆伝播は、ニューラルネットワークを訓練するために使用される一般的な方法である。入力ベクトルは、処理のためにネットワークに提示される。ネットワークの出力は、損失関数を使用して所望の出力と比較され、誤差値は、出力層におけるニューロンの各々について計算される。次いで、誤差値は、各ニューロンが元の出力への寄与を大まかに表す関連誤差値を有するまで後方に伝播される。次いで、ネットワークは、確率的勾配降下アルゴリズムなどのアルゴリズムを使用してこれらの誤差から学習し、ニューラルネットワークの重みを更新することができる。

図９Ａ～図９Ｂは、例示的な畳み込みニューラルネットワークを示している。図９Ａは、ＣＮＮ内の種々の層を示している。図９Ａに示すように、画像処理をモデル化するために使用される例示的なＣＮＮは、入力画像の赤色、緑色、および青色（ＲＧＢ）成分を記述する入力９０２を受信することができる。入力９０２は、複数の畳み込み層（例えば、畳み込み層９０４、畳み込み層９０６）によって処理することができる。複数の畳み込み層からの出力は、選択的に、全結合層９０８のセットによって処理されてもよい。全結合層のニューロンは、フィードフォワードネットワークについて前述したように、前の層の全ての活性化に対して全結合を有する。全結合層９０８からの出力は、ネットワークから出力結果を生成するために使用することができる。全結合層９０８内の活性化は、畳み込みの代わりに行列乗算を使用して計算することができる。全てのＣＮＮの実装形態が、全結合層９０８を利用するわけではない。例えば、一部の実装形態において、畳み込み層９０６は、ＣＮＮに対する出力を生成することができる。

畳み込み層は疎に結合されており、これは、全結合層９０８に見られる従来のニューラルネットワーク構成とは異なる。従来のニューラルネットワーク層は、全ての出力ユニットが全ての入力ユニットと相互作用するように全結合されている。しかしながら、図に示すように、フィールドの畳み込みの出力が後続の層のノードに（フィールド内の各ノードの各々の状態値の代わりに）入力されるので、畳み込み層は疎に結合される。畳み込み層に関連付けられたカーネルは畳み込み演算を実施し、その出力は次の層に送られる。畳み込み層内で実施される次元削減は、ＣＮＮが大きな画像を処理するようにスケーリングすることを可能にする一態様である。

図９Ｂは、ＣＮＮの畳み込み層内の例示的な計算段階を示している。ＣＮＮの畳み込み層９１２への入力は、畳み込み層９１４の３つの段階で処理することができる。３つの段階は、畳み込み段階９１６、検出器段階９１８、およびプーリング段階９２０を含み得る。次に、畳み込み層９１４は、連続する畳み込み層にデータを出力することができる。ネットワークの最終畳み込み層は、出力特徴マップデータを生成するか、または全結合層に入力を提供して、例えば、ＣＮＮへの入力に対する分類値を生成することができる。

畳み込み段階９１６では、複数の畳み込みを並列に実施して、線形活性化のセットを生成する。畳み込み段階９１６は、アフィン変換を含むことができ、これは線形変換に並進を加えたものとして指定することができる任意の変換である。アフィン変換には、回転、並進、スケーリング、およびこれらの変換の組み合わせが含まれる。畳み込み段階は、ニューロンに関連する局所領域として決定することができる入力内の特定領域に接続された関数（例えば、ニューロン）の出力を計算する。ニューロンは、ニューロンの重みとニューロンが接続されている局所入力領域との内積を計算する。畳み込み段階９１６からの出力は、畳み込み層９１４の連続する段階によって処理される線形活性化のセットを定義する。

線形活性化は、検出器段階９１８によって処理することができる。検出器段階９１８において、各線形活性化は非線形活性化関数によって処理される。非線形活性化関数は、畳み込み層の受容野に影響を与えることなく、ネットワーク全体の非線形特性を増加させる。複数のタイプの非線形活性化関数を使用することができる。１つの特定のタイプは、整流線形ユニット（ＲｅＬＵ）であり、これは

として定義される活性化関数を使用し、活性化が０で閾値化されるようにする。

プーリング段階９２０は、畳み込み層９０６の出力を近傍出力の要約統計量に置き換えるプーリング関数を使用する。入力への小さな並進がプールされた出力を変化させないように、プーリング関数を使用してニューラルネットワークに並進不変性を導入することができる。局所変換に対する不変性は、入力データにおける特徴の存在が、特徴の正確な位置よりも重要であるシナリオにおいて有用であり得る。最大プーリング、平均プーリングおよびｌ２ノルムプーリングを含む種々のタイプのプーリング関数を、プーリング段階９２０の間に使用することができる。さらに、一部のＣＮＮの実装形態は、プーリング段階を含まない。代わりに、かかる実装形態は、前の畳み込み段階と比較して増加したストライドを有する追加の畳み込み段階を有する。

次いで、畳み込み層９１４からの出力は、次の層９２２によって処理することができる。次の層９２２は、追加の畳み込み層または全結合層９０８のうちの１つであり得る。例えば、図９Ａの第１の畳み込み層９０４は、第２の畳み込み層９０６に出力することができ、一方、第２の畳み込み層は、全結合層９０８の第１の層に出力することができる。

図１０は、例示的な再帰ニューラルネットワーク１０００を示している。再帰ニューラルネットワーク（ＲＮＮ）では、ネットワークの前の状態がネットワークの現在の状態の出力に影響する。ＲＮＮは、種々の関数を使用して種々の方法で構築できる。ＲＮＮの使用は、概して、入力の事前シーケンスに基づいて将来を予測するために数学モデルを使用することを中心に展開する。例えば、ＲＮＮを使用して、統計的言語モデリングを実施し、単語の前のシーケンスが与えられた後の単語を予測することができる。図示されたＲＮＮ１０００は、入力ベクトルを受信する入力層１００２と、再帰関数を実装するための隠れ層１００４と、以前の状態の「メモリ」を可能にするためのフィードバックメカニズム１００５と、結果を出力するための出力層１００６とを有すると説明することができる。ＲＮＮ１０００は、時間ステップに基づいて動作する。所与の時間ステップにおけるＲＮＮの状態は、フィードバックメカニズム１００５を介して前の時間ステップに基づいて影響を受ける。所与の時間ステップに対して、隠れ層１００４の状態は、前の状態および現在の時間ステップにおける入力によって定義される。第１の時間ステップにおける初期入力（ｘ_１）は、隠れ層１００４によって処理することができる。第２の入力（ｘ_２）は、初期入力（ｘ_１）の処理中に決定された状態情報を使用して、隠れ層１００４によって処理することができる。与えられた状態は、

として計算することができる。ここで、

および

はパラメータ行列である。関数

は概して双曲線正接関数（Ｔａｎｈ）または整流関数

の変形例のような非線形性である。しかしながら、隠れ層１００４で使用される特定の数学機能は、ＲＮＮ１０００の特定の実装形態の詳細に依存して変化し得る。

説明した基本的なＣＮＮおよびＲＮＮネットワークに加えて、これらのネットワークの変化に対する加速が可能となり得る。ＲＮＮ変形例の一例は、長短期記憶（ＬＳＴＭ）ＲＮＮである。ＬＳＴＭＲＮＮは、言語の長いシーケンスを処理するために必要となる可能性のある長期依存性を学習することができる。ＣＮＮの変形例は、畳み込み深層ブリーフネットワークであり、これはＣＮＮと同様の構造を有し、深層ブリーフネットワークと同様の方法で訓練される。深層ブリーフネットワーク（ＤＢＮ）は、確率的（ランダム）変数の多層から構成される生成ニューラルネットワークである。ＤＢＮは、貪欲な教師なし学習（ｇｒｅｅｄｙｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を使用して層毎に訓練することができる。次いで、ＤＢＮの学習済みの重みを使用して、ニューラルネットワークに対する重みの最適な初期セットを決定することによって、事前訓練ニューラルネットワークを提供することができる。さらなる実施形態では、強化学習の加速が可能となる。強化学習において、人工エージェントはその環境と相互作用することによって学習する。エージェントは、累算報酬を最大化するために特定の目標を最適化するように構成される。

図１１は、深層ニューラルネットワークの訓練および展開を示している。所与のネットワークがタスク用に構築されると、ニューラルネットワークは、訓練データセット１１０２を使用して訓練される。種々の訓練フレームワーク１１０４が、訓練プロセスのハードウェアアクセラレーションを可能にするために開発されている。例えば、図６の機械学習フレームワーク６０４は、訓練フレームワーク１１０４として構成することができる。訓練フレームワーク１１０４は、未訓練のニューラルネットワーク１１０６にフックすることができ、未訓練のニューラルネットを、本明細書に記載される並列処理リソースを使用して訓練し、訓練済みのニューラルネットワーク１１０８を生成することを可能にする。

訓練プロセスを開始するために、初期重みはランダムに選択されてもよいし、または深層ブリーフネットワークを使用した事前訓練によって選択されてもよい。次に、訓練サイクルは、教師ありの方法または教師なしの方法のいずれかで実施される。

教師あり学習は、訓練データセット１１０２が入力に対する所望の出力と対になった入力を含む場合、または訓練データセットが既知の出力を有する入力を含み、ニューラルネットワークの出力が手動で段階付けされる場合のように、訓練が媒介動作として実施される学習方法である。ネットワークは、入力を処理し、結果として得られた出力を予想または所望の出力のセットと比較する。次いで、誤差はシステム全体に伝播される。訓練フレームワーク１１０４を調整して、未訓練のニューラルネットワーク１１０６を制御する重みを調整することができる。訓練フレームワーク１１０４は、未訓練のニューラルネットワーク１１０６が、既知の入力データに基づいて正しい答えを生成するのに適したモデルにどれだけうまく収束しているかを監視するツールを提供することができる。ニューラルネットワークによって生成された出力を改良するためにネットワークの重みが調整されると、訓練プロセスが繰り返し生成する。訓練プロセスは、ニューラルネットワークが訓練済みのニューラルネット１１０８に関連する統計的に所望の正確度に達するまで継続することができる。次に、訓練済みのニューラルネットワーク１１０８を展開して、任意の数の機械学習動作を実装し、新規データ１１１２の入力に基づいて推論結果１１１４を生成することができる。

教師なし学習は、ネットワークがラベルなしデータを使用して自身を訓練しようとする学習方法である。したがって、教師なし学習では、訓練データセット１１０２は、関連する出力データなしの入力データを含む。未訓練のニューラルネットワーク１１０６は、ラベルなし入力内のグルーピングを学習することができ、個々の入力が全体的なデータセットにどのように関連しているかを判定することができる。教師なし訓練を使用して自己組織化マップを生成することができ、自己組織化マップは、データの次元を削減するのに有用な演算を実施できる訓練済みのニューラルネットワーク１１０８の一種である。教師なし訓練を使用して異常検出を実施することもでき、これにより、データの通常パターンから逸脱した入力データセット内のデータポイントを特定することができる。

教師あり訓練および教師なし訓練の変形形態を使用することもできる。半教師あり学習は、訓練データセット１１０２において、同じ分散のラベル付きデータとラベルなしデータの混合を含む技術である。増分学習は、モデルをさらに訓練するために入力データが連続的に使用される教師あり学習の変形例である。増分学習により、訓練済みのニューラルネットワーク１１０８は、初期訓練の間にネットワーク内に注入された知識を忘れることなく、新規データ１１１２に適合することができる。

教師ありであるか教師なしであるかにかかわらず、特に深層ニューラルネットワークのための訓練プロセスは、単一の計算ノードに対して過度に計算集約的である可能性がある。単一の計算ノードを使用する代わりに、計算ノードの分散ネットワークを使用して、訓練プロセスを加速することができる。

図１２Ａは、分散学習を示すブロック図である。分散学習は、複数の分散コンピューティングノードを使用して、ニューラルネットワークの教師あり訓練または教師なし訓練を実施する訓練モデルである。分散計算ノードはそれぞれ、１または複数のホストプロセッサと、図７のような高度並列汎用グラフィックス処理ユニット７００などの汎用処理ノードのうちの１または複数とを含み得る。図示のように、分散学習は、モデル並列処理１２０２、データ並列処理１２０４、またはモデル並列処理とデータ並列処理との組み合わせ１２０６で実施することができる。

モデル並列処理１２０２では、分散システム内の異なる計算ノードが、単一ネットワークの異なる部分に対して訓練計算を実施することができる。例えば、ニューラルネットワークの各層は、分散システムの異なる処理ノードによって訓練することができる。モデル並列処理の利点には、特に大きなモデルに拡張する能力が含まれる。ニューラルネットワークの異なる層に関連付けられた計算を分割することは、全ての層の重みが単一の計算ノードのメモリに適合しないような非常に大きなニューラルネットワークの訓練を可能にする。一部の例では、モデル並列処理は、大規模なニューラルネットワークの教師なし訓練を実施する際に特に有用である。

データ並列処理１２０４では、分散ネットワークの異なるノードはモデルの完全なインスタンスを有し、各ノードはデータの異なる部分を受信する。次に、異なるノードの結果が組み合わされる。データ並列処理に対する異なるアプローチが可能であるが、データ並列訓練アプローチは全て、結果を組み合わせ、各ノード間でモデルパラメータを同期させる技術を必要とする。データを組み合わせるための典型的なアプローチには、パラメータ平均化および更新ベースのデータ並列処理が含まれる。パラメータ平均化は、訓練データのサブセット上で各ノードを訓練し、グローバルパラメータ（例えば、重み、バイアス）を各ノードからのパラメータの平均に設定する。パラメータ平均化では、パラメータデータを維持する中央パラメータサーバを使用する。更新ベースのデータ並列処理は、パラメータをノードからパラメータサーバに転送する代わりに、モデルに対する更新が転送されることを除いて、パラメータ平均化と同様である。

さらに、更新ベースのデータ並列処理は、更新が圧縮されてノード間で転送される分散方式で実施することができる。

組み合わされたモデルおよびデータ並列処理１２０６は、例えば、各計算ノードが複数のＧＰＵを含む分散システムにおいて実装することができる。各ノードはモデルの完全なインスタンスを有することができ、各ノード内の個別のＧＰＵを使用してモデルの異なる部分を訓練する。

分散型訓練は、単一機械での訓練に比べてオーバーヘッドが増加している。しかしながら、本明細書に記載される並列プロセッサおよびＧＰＧＰＵはそれぞれ、高帯域幅ＧＰＵ間データ転送および加速されたリモートデータ同期を可能にする技術を含む、分散型訓練のオーバーヘッドを低減するための種々の技術を実装することができる。

図１２Ｂは、プログラマブルネットワークインターフェース１２１０およびデータ処理ユニットを示すブロック図である。プログラマブルネットワークインターフェース１２１０は、分散環境内でネットワークベースの計算タスクを加速するために使用することができるプログラマブルネットワークエンジンである。プログラマブルネットワークインターフェース１２１０は、ホストインターフェース１２７０を介してホストシステムと結合することができる。プログラマブルネットワークインターフェース１２１０は、ホストシステムのＣＰＵまたはＧＰＵに対するネットワークまたはストレージ動作を加速するために使用することができる。ホストシステムは、例えば、図１２Ａに示すように、分散型訓練を実施するために使用される分散学習システムのノードであり得る。ホストシステムは、データセンタ内のデータセンタノードであってもよい。

一実施形態では、モデルデータを含むリモートストレージへのアクセスは、プログラマブルネットワークインターフェース１２１０によって加速することができる。例えば、プログラマブルネットワークインターフェース１２１０は、リモートストレージデバイスをローカルストレージデバイスとしてホストシステムに提示するように構成することができる。プログラマブルネットワークインターフェース１２１０はまた、ホストシステムのＧＰＵとリモートシステムのＧＰＵとの間で実施されるリモートダイレクトメモリアクセス（ＲＤＭＡ）動作を加速することができる。一実施形態では、プログラマブルネットワークインターフェース１２１０は、ＮＶＭＥ－ｏＦなどのストレージ機能を可能にすることができるが、これに限定されない。プログラマブルネットワークインターフェース１２１０はまた、ホストシステムに代わってリモートストレージのための暗号化、データ完全性、圧縮、および他の動作を加速することができ、リモートストレージがホストシステムに直接接続されたストレージデバイスのレイテンシに近づくことを可能にする。

プログラマブルネットワークインターフェース１２１０は、ホストシステムに代わってリソース割り振りおよび管理を実施することもできる。ストレージセキュリティ動作は、プログラマブルネットワークインターフェース１２１０にオフロードすることができ、リモートストレージリソースの割り振りおよび管理と協調して実施することができる。別様でホストシステムのプロセッサによって実行されることになるリモートストレージへのアクセスを管理するためのネットワークベースの動作は、代わりにプログラマブルネットワークインターフェース１２１０によって実施することができる。

一実施形態では、ネットワークおよび／またはデータセキュリティ動作は、ホストシステムからプログラマブルネットワークインターフェース１２１０にオフロードすることができる。データセンタノードに対するデータセンタセキュリティポリシーは、ホストシステムのプロセッサの代わりにプログラマブルネットワークインターフェース１２１０によって処理することができる。例えば、プログラマブルネットワークインターフェース１２１０は、ホストシステム上で試みられたネットワークベースの攻撃（例えば、ＤＤｏＳ）を検出し、これを軽減して、攻撃がホストシステムの可用性を損なうことを防止することができる。

プログラマブルネットワークインターフェース１２１０は、複数のプロセッサコア１２２２を介してオペレーティングシステムを実行するシステムオンチップ（ＳｏＣ１２２０）を含み得る。プロセッサコア１２２２は、汎用プロセッサ（例えば、ＣＰＵ）コアを含み得る。一実施形態では、プロセッサコア１２２２はまた、１または複数のＧＰＵコアを含み得る。ＳｏＣ１２２０は、メモリデバイス１２４０に記憶された命令を実行することができる。ストレージデバイス１２５０は、ローカルオペレーティングシステムデータを記憶することができる。ストレージデバイス１２５０およびメモリデバイス１２４０は、ホストシステムのリモートデータをキャッシュするためにも使用することができる。ネットワークポート１２６０Ａ～１２６０Ｂは、ネットワークまたはファブリックへの接続を可能にし、ＳｏＣ１２２０およびホストインターフェース１２７０を介してホストシステムへのネットワークアクセスを容易にする。プログラマブルネットワークインターフェース１２１０は、ＵＳＢインターフェースなどのＩ／Ｏインターフェース１２７５を含むこともできる。Ｉ／Ｏインターフェース１２７５は、外部デバイスをプログラマブルネットワークインターフェース１２１０に結合するために、またはデバッグインターフェースとして使用することができる。プログラマブルネットワークインターフェース１２１０は、ホストデバイス上のソフトウェアがプログラマブルネットワークインターフェース１２１０および／またはＳｏＣ１２２０を管理および構成できるようにする管理インターフェース１２３０も含む。一実施形態では、プログラマブルネットワークインターフェース１２１０はまた、ネットワークポート１２６０Ａ～１２６０Ｂを介して結合されたＳｏＣ１２２０、ホストシステム、またはリモートシステムからの並列計算タスクのオフロードを受け入れるための１または複数のアクセラレータまたはＧＰＵ１２４５を含み得る。
例示的な機械学習アプリケーション

機械学習は、コンピュータビジョン、自律走行およびナビゲーション、音声認識、および言語処理を含むがこれらに限定されない種々の技術的問題を解決するために適用することができる。コンピュータビジョンは、従来、機械学習アプリケーションの最も活発な研究領域の１つである。コンピュータビジョンの応用は、顔の認識など人間の視覚能力を再現することから、視覚能力の新しいカテゴリの作成まで多岐にわたる。例えば、コンピュータビジョンアプリケーションは、ビデオで見える物体に誘起された振動から音波を認識するように構成することができる。並列プロセッサ加速機械学習により、コンピュータビジョンアプリケーションを以前よりも大幅に大きな訓練データセットを使用して訓練することが可能になり、低電力並列プロセッサを使用して推論システムを展開することが可能になる。

並列プロセッサ加速機械学習には、車線および道路標識認識、障害物回避、ナビゲーション、運転制御を含む自律走行アプリケーションがある。加速された機械学習技術は、特定の訓練入力に対する適切な応答を定義するデータセットに基づいて運転モデルを訓練するために使用することができる。本明細書に記載される並列プロセッサは、自律走行ソリューションに使用されるますます複雑になるニューラルネットワークの迅速な訓練を可能にし、自律車両への統合に適したモバイルプラットフォームにおける低電力推論プロセッサの展開を可能にする。

並列プロセッサ加速深層ニューラルネットワークは、自動音声認識（ＡＳＲ）への機械学習アプローチを可能にしている。ＡＳＲは、入力音響シーケンスが与えられた場合に最も可能性の高い言語シーケンスを計算する関数の生成を含む。深層ニューラルネットワークを使用した加速機械学習により、隠れマルコフモデル（ＨＭＭ）と以前ＡＳＲに使用されていたガウス混合モデル（ＧＭＭ）との置き換えが可能となった。

並列プロセッサ加速機械学習は、自然言語処理を加速するために使用することもできる。自動学習手順は、統計的推論アルゴリズムを利用して、誤ったまたは未知の入力に対してロバストなモデルを生成することができる。例示的な自然言語プロセッサアプリケーションは、人間の言語間の自動機械翻訳を含む。

機械学習に使用される並列処理プラットフォームは、訓練プラットフォームと展開プラットフォームに分けることができる。訓練プラットフォームは概して高度に並列であり、マルチＧＰＵシングルノード訓練とマルチノード、マルチＧＰＵ訓練を加速するための最適化が含まれている。訓練に適した例示的な並列プロセッサは、図７の汎用グラフィックス処理ユニット７００および図８のマルチＧＰＵコンピューティングシステム８００を含む。逆に、展開された機械学習プラットフォームには、概して、カメラ、自律ロボット、自律車両などの製品での使用に適した低電力の並列プロセッサが含まれている。

さらに、機械学習技術を適用して、グラフィックス処理アクティビティを加速または強化することができる。例えば、機械学習モデルは、ＧＰＵ加速アプリケーションによって生成された出力を認識し、その出力のアップスケールバージョンを生成するように訓練することができる。かかる技術は、ゲームアプリケーション用の高解像度画像の生成を加速するために適用することができる。他の種々のグラフィックスパイプラインアクティビティは、機械学習の使用から利益を受けることができる。例えば、機械学習モデルは、幾何学的モデルの複雑さを増加させるために幾何学的データに対してテッセレーション演算を実施するように訓練することができ、比較的低い細部の幾何構造から精密な細部の幾何構造を自動的に生成することを可能にする。

図１３は、訓練済みのモデルを使用して推論を実施するのに適した例示的な推論システムオンチップ（ＳＯＣ）１３００を示している。ＳＯＣ１３００は、メディアプロセッサ１３０２、ビジョンプロセッサ１３０４、ＧＰＧＰＵ１３０６、およびマルチコアプロセッサ１３０８を含む処理コンポーネントを統合することができる。ＧＰＧＰＵ１３０６は、ＧＰＧＰＵ７００などの、本明細書に記載されるＧＰＧＰＵであってもよく、マルチコアプロセッサ１３０８は、マルチコアプロセッサ４０５～４０６などの、本明細書に記載されるマルチコアプロセッサであってもよい。ＳＯＣ１３００は、処理コンポーネントの各々によってアクセス可能な共有オンチップデータプールを可能にすることができるオンチップメモリ１３０５をさらに含み得る。処理コンポーネントは、自律車両および自律ロボットを含む種々の機械学習プラットフォームへの展開を可能にするために、低電力動作用に最適化することができる。例えば、ＳＯＣ１３００の一実装形態は、自律車両用の主制御システムの一部として使用することができる。ＳＯＣ１３００が自律走行車両で使用するように構成されている場合、ＳＯＣは展開管轄区域の関連機能安全基準に適合するように設計および構成されている。

動作中、メディアプロセッサ１３０２およびビジョンプロセッサ１３０４は、協調して動作して、コンピュータビジョン動作を加速することができる。メディアプロセッサ１３０２は、複数の高解像度（例えば、４Ｋ、８Ｋ）ビデオストリームの低レイテンシデコードを可能にし得る。デコードされたビデオストリームは、オンチップメモリ１３０５内のバッファに書き込むことができる。ビジョンプロセッサ１３０４は、次いで、訓練済みの画像認識モデルを使用してフレームを処理する準備として、デコードされたビデオを解析し、デコードされたビデオのフレームに対して予備処理演算を実施することができる。例えば、ビジョンプロセッサ１３０４は、バックエンドモデル計算がＧＰＧＰＵ１３０６によって実施される一方で、高解像度ビデオデータに対して画像認識を実施するために使用されるＣＮＮに対する畳み込み演算を加速することができる。

マルチコアプロセッサ１３０８は、メディアプロセッサ１３０２およびビジョンプロセッサ１３０４によって実施されるデータ転送および共有メモリ動作のシーケンシングおよび同期化を支援する制御論理を含み得る。マルチコアプロセッサ１３０８は、ＧＰＧＰＵ１３０６の推論計算能力を利用し得るソフトウェアアプリケーションを実行するアプリケーションプロセッサとしても機能することができる。例えば、ナビゲーションおよび駆動論理の少なくとも一部は、マルチコアプロセッサ１３０８上で実行されるソフトウェアで実装することができる。かかるソフトウェアは、計算ワークロードをＧＰＧＰＵ１３０６に直接発行することができ、または計算ワークロードをマルチコアプロセッサ１３０８に発行することができ、これにより、これらの動作の少なくとも一部をＧＰＧＰＵ１３０６にオフロードすることができる。

ＧＰＧＰＵ１３０６は、汎用グラフィックス処理ユニット７００内の処理クラスタ７０６Ａ～７０６Ｈの低電力構成などの計算クラスタを含み得る。ＧＰＧＰＵ１３０６内の計算クラスタは、訓練済みのニューラルネットワーク上で推論計算を実施するように特に最適化された命令をサポートすることができる。例えば、ＧＰＧＰＵ１３０６は、８ビットおよび４ビット整数ベクトル演算などの低精度計算を実施する命令をサポートすることができる。
追加のシステム概要

図１４は、処理システム１４００のブロック図である。本明細書の他の図の要素と同一または類似の名称を有する図１４の要素は、他の図と同一の要素を記載しており、それと同様の方法で動作または機能することができ、同じコンポーネントを含むことができ、本明細書の他の箇所に記載されているような他のエンティティにリンクすることができるが、これらに限定されるものではない。システム１４００は、単一プロセッサデスクトップシステム、マルチプロセッサワークステーションシステム、または多数のプロセッサ１４０２またはプロセッサコア１４０７を有するサーバシステムにおいて使用することができる。システム１４００は、ローカルエリアネットワークまたはワイドエリアネットワークへの有線接続または無線接続を有するもののインターネット（ＩｏＴ）デバイス内などのモバイルデバイス、ハンドヘルドデバイス、または埋め込みデバイスで使用するためのシステムオンチップ（ＳｏＣ）集積回路内に組み込まれた処理プラットフォームであってもよい。

システム１４００は、図１のコンポーネントに対応するコンポーネントを有する処理システムであってもよい。例えば、異なる構成において、プロセッサ１４０２またはプロセッサコア１４０７は、図１のプロセッサ１０２に対応してもよい。グラフィックスプロセッサ１４０８は、図１の並列プロセッサ１１２に対応してもよい。外部グラフィックスプロセッサ１４１８は、図１のアドインデバイス１２０のうちの１つであってもよい。

システム１４００は、サーバベースのゲームプラットフォーム、ゲームおよびメディアコンソールを含むゲームコンソール、モバイルゲームコンソール、ハンドヘルドゲームコンソール、またはオンラインゲームコンソールを含み、これらと結合し、またはこれらの中に統合することができる。システム１４００は、携帯電話、スマートフォン、タブレットコンピューティングデバイス、または内部記憶容量が小さいラップトップなどのモバイルインターネット接続デバイスの一部であり得る。処理システム１４００はまた、スマートウォッチウェアラブルデバイスなどのウェアラブルデバイス；実世界の視覚、音声または触覚経験を補足するための視覚、音声または触覚出力を提供するか、または別様でテキスト、音声、グラフィックス、ビデオ、ホログラフィック画像またはビデオ、あるいは触覚フィードバックを提供するための拡張現実（ＡＲ）機能または仮想現実（ＶＲ）機能で強化されたスマート眼鏡またはスマート衣類；他の拡張現実（ＡＲ）デバイス；あるいは他の仮想現実（ＶＲ）デバイスを含み、これらと結合し、またはこれらの中に統合することができる。処理システム１４００は、テレビまたはセットトップボックスデバイスを含むか、またはその一部であり得る。システム１４００は、バス、トラクタートレーラ、自動車、モータまたは電気パワーサイクル、飛行機、またはグライダー（またはそれらの任意の組み合わせ）などの自動運転車両を含むか、それと結合するか、またはその中に統合することができる。自動運転車両は、システム１４００を使用して、車両の周囲で検知された環境を処理することができる。

１または複数のプロセッサ１４０２は、実行時にシステムまたはユーザソフトウェアの動作を実施する命令を処理するための１または複数のプロセッサコア１４０７を含み得る。１または複数のプロセッサコア１４０７のうちの少なくとも１つは、特定の命令セット１４０９を処理するように構成することができる。命令セット１４０９は、複合命令セット計算（ＣＩＳＣ）、縮小命令セット計算（ＲＩＳＣ）、または超長命令語（ＶＬＩＷ）による計算を容易にすることができる。１または複数のプロセッサコア１４０７は、他の命令セットのエミュレーションを容易にするための命令を含み得る異なる命令セット１４０９を処理することができる。プロセッサコア１４０７は、デジタル信号プロセッサ（ＤＳＰ）などの他の処理デバイスを含むこともできる。

プロセッサ１４０２は、キャッシュメモリ１４０４を含み得る。アーキテクチャに応じて、プロセッサ１４０２は、単一の内部キャッシュまたは複数レベルの内部キャッシュを有することができる。一部の実施形態では、キャッシュメモリは、プロセッサ１４０２の種々のコンポーネント間で共有される。一部の実施形態では、プロセッサ１４０２はまた、外部キャッシュ（例えば、レベル３（Ｌ３）キャッシュまたは最終レベルキャッシュ（ＬＬＣ））（図示せず）を使用し、これは、公知のキャッシュコヒーレンシ技術を使用してプロセッサコア１４０７間で共有することができる。レジスタファイル１４０６は、プロセッサ１４０２にさらに含めることができ、異なるタイプのデータを記憶するための異なるタイプのレジスタ（例えば、整数レジスタ、浮動小数点レジスタ、ステータスレジスタ、および命令ポインタレジスタ）を含み得る。一部のレジスタは汎用レジスタであってもよく、他のレジスタはプロセッサ１４０２の設計に固有であってもよい。

１または複数のプロセッサ１４０２は、１または複数のインターフェースバス１４１０と結合されて、プロセッサ１４０２とシステム１４００内の他のコンポーネントとの間で、アドレス、データ、または制御信号などの通信信号を伝送することができる。インターフェースバス１４１０は、これらの実施形態の１つにおいて、直接メディアインターフェース（ＤＭＩ）バスのバージョンなどのプロセッサバスであり得る。しかしながら、プロセッサバスはＤＭＩバスに限定されず、１または複数の周辺コンポーネント相互接続バス（例えば、ＰＣＩ、ＰＣＩエクスプレス）、メモリバス、または他のタイプのインターフェースバスを含み得る。例えば、プロセッサ１４０２は、統合メモリコントローラ１４１６およびプラットフォームコントローラハブ１４３０を含み得る。メモリコントローラ１４１６は、メモリデバイスとシステム１４００の他のコンポーネントとの間の通信を容易にし、プラットフォームコントローラハブ（ＰＣＨ）１４３０は、ローカルＩ／Ｏバスを介してＩ／Ｏデバイスへの接続を提供する。

メモリデバイス１４２０は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）デバイス、スタティックランダムアクセスメモリ（ＳＲＡＭ）デバイス、フラッシュメモリデバイス、相変化メモリデバイス、またはプロセスメモリとして機能するのに適した性能を有する他の何らかのメモリデバイスであり得る。メモリデバイス１４２０は、例えば、システム１４００用のシステムメモリとして動作して、１または複数のプロセッサ１４０２がアプリケーションまたはプロセスを実行するときに使用するデータ１４２２および命令１４２１を記憶することができる。メモリコントローラ１４１６はまた、プロセッサ１４０２内の１または複数のグラフィックスプロセッサ１４０８と通信し得る、所望による外部グラフィックスプロセッサ１４１８と結合して、グラフィックスおよびメディア動作を実施する。一部の実施形態では、グラフィックス、メディア、および／または計算演算は、グラフィックス、メディア、または計算演算の特別なセットを実施するように構成し得るコプロセッサであるアクセラレータ１４１２によって支援することができる。例えば、アクセラレータ１４１２は、機械学習または計算演算を最適化するために使用される行列乗算アクセラレータであってもよい。アクセラレータ１４１２は、グラフィックスプロセッサ１４０８と協調してレイトレーシング演算を実施するために使用することができるレイトレーシングアクセラレータであり得る。一実施形態では、外部アクセラレータ１４１９を、アクセラレータ１４１２の代わりに、またはそれとともに使用することができる。

プロセッサ１４０２に接続可能なディスプレイデバイス１４１１が設けられてもよい。ディスプレイデバイス１４１１は、モバイル電子デバイスまたはラップトップデバイスにおけるような内部ディスプレイデバイス、またはディスプレイインターフェース（例えば、ＤｉｓｐｌａｙＰｏｒｔなど）を介して取り付けられた外部ディスプレイデバイスのうちの１または複数であり得る。ディスプレイデバイス１４１１は、仮想現実（ＶＲ）アプリケーションまたは拡張現実（ＡＲ）アプリケーションにおいて使用される立体ディスプレイデバイスなどのヘッドマウントディスプレイ（ＨＭＤ）であり得る。

プラットフォームコントローラハブ１４３０は、周辺機器が高速Ｉ／Ｏバスを介してメモリデバイス１４２０およびプロセッサ１４０２に接続できるようにすることができる。Ｉ／Ｏ周辺機器は、オーディオコントローラ１４４６、ネットワークコントローラ１４３４、ファームウェアインターフェース１４２８、無線トランシーバ１４２６、タッチセンサ１４２５、データストレージデバイス１４２４（例えば、不揮発性メモリ、揮発性メモリ、ハードディスクドライブ、フラッシュメモリ、ＮＡＮＤ、３ＤＮＡＮＤ、３ＤＸＰｏｉｎｔ／Ｏｐｔａｎｅなど）を含むが、これらに限定されない。データストレージデバイス１４２４は、ストレージインターフェース（例えば、ＳＡＴＡ）を介して、またはペリフェラルコンポーネント相互接続バス（例えば、ＰＣＩ、ＰＣＩエクスプレス）などの周辺バスを介して接続することができる。タッチセンサ１４２５は、タッチスクリーンセンサ、圧力センサ、または指紋センサを含み得る。無線トランシーバ１４２６は、Ｗｉ－Ｆｉトランシーバ、ブルートゥーストランシーバ、または３Ｇ、４Ｇ、５Ｇ、またはロングタームエボリューション（ＬＴＥ）トランシーバなどのモバイルネットワークトランシーバであり得る。ファームウェアインターフェース１４２８は、システムファームウェアとの通信を可能にし、例えば、統合された拡張可能ファームウェアインターフェース（ＵＥＦＩ）であり得る。ネットワークコントローラ１４３４は、有線ネットワークへのネットワーク接続を可能にし得る。一部の実施形態では、高性能ネットワークコントローラ（図示せず）がインターフェースバス１４１０に結合される。オーディオコントローラ１４４６は、マルチチャネル高品位オーディオコントローラであってもよい。これらの実施形態の一部において、システム１４００は、レガシー（例えば、パーソナルシステム２（ＰＳ／２））デバイスをシステムに結合するための所望によるレガシーＩ／Ｏコントローラ１４４０を含む。プラットフォームコントローラハブ１４３０はまた、キーボードおよびマウス１４４３の組み合わせ、カメラ１４４４、または他のＵＳＢ入力デバイスなどの入力デバイスを接続する１または複数のユニバーサルシリアルバス（ＵＳＢ）コントローラ１４４２に接続することができる。

異なる構成の他のタイプのデータ処理システムを使用することもできるので、図示のシステム１４００は例示的なものであり、限定的なものではないことが理解されよう。例えば、メモリコントローラ１４１６およびプラットフォームコントローラハブ１４３０のインスタンスは、外部グラフィックスプロセッサ１４１８などの個別の外部グラフィックスプロセッサに統合することができる。プラットフォームコントローラハブ１４３０および／またはメモリコントローラ１４１６は、１または複数のプロセッサ１４０２の外部にあってもよい。例えば、システム１４００は、外部メモリコントローラ１４１６およびプラットフォームコントローラハブ１４３０を含むことができ、これらは、プロセッサ１４０２と通信しているシステムチップセット内のメモリコントローラハブおよび周辺コントローラハブとして構成することができる。

例えば、ＣＰＵ、メモリ、および他の部品などの部品が配置され、熱性能を向上させるように設計された回路基板（「スレッド」）を使用することができる。プロセッサなどの処理コンポーネントはスレッドの上側に位置してもよく、ＤＩＭＭなどの近傍メモリはスレッドの下側に位置してもよい。この設計によって提供される強化された空気流の結果として、コンポーネントは、典型的なシステムよりも高い周波数および電力レベルで動作し、それによって性能を向上させることができる。さらに、スレッドは、ラック内の電力ケーブルおよびデータ通信ケーブルと盲目的に嵌合するように構成され、それによって、迅速に取り外し、アップグレードし、再設置し、かつ／または交換する能力を高めている。同様に、プロセッサ、アクセラレータ、メモリ、およびデータストレージドライブなどのスレッド上に配置された個々のコンポーネントは、互いに間隔が広くなっているため、容易にアップグレードできるように構成されている。例示的な実施形態では、コンポーネントは、それらの真正性を証明するためのハードウェア証明機能をさらに含む。

データセンタは、イーサネットおよびオムニパスを含む複数の他のネットワークアーキテクチャをサポートする単一のネットワークアーキテクチャ（「ファブリック」）を利用することができる。スレッドは、光ファイバを介してスイッチに結合することができ、光ファイバは、典型的なツイストペアケーブル（例えば、カテゴリ５、カテゴリ５ｅ、カテゴリ６など）より高い帯域幅と低いレイテンシを提供する。高帯域幅、低レイテンシ相互接続およびネットワークアーキテクチャのために、データセンタは、使用中に、メモリ、アクセラレータ（例えば、ＧＰＵ、グラフィックスアクセラレータ、ＦＰＧＡ、ＡＳＩＣ、ニューラルネットワークおよび／または人工知能アクセラレータなど）、および物理的に分散されたデータストレージドライブなどのリソースをプールし、それらを必要に応じて計算リソース（例えば、プロセッサ）に提供して、計算リソースがプールされたリソースにローカルであるかのようにアクセスできるようにする。

電源または電力源は、システム１４００または本明細書に記載される任意のコンポーネントまたはシステムに電圧および／または電流を提供することができる。一例では、電源は、壁コンセントに差し込むためのＡＣ－ＤＣ（交流－直流）アダプタを含む。かかるＡＣ電力は、再生可能エネルギー（例えば、太陽電力）電源であり得る。一例では、電源は、外部ＡＣ－ＤＣコンバータなどのＤＣ電源を含む。電源または電力源は、充電フィールドへ近接して充電するための無線充電ハードウェアを含むこともできる。電源は、内部バッテリ、交流電源、モーションベース電源、太陽電池電源、または燃料電池電源を含み得る。

図１５Ａ～図１５Ｃは、コンピューティングシステムおよびグラフィックスプロセッサを示している。本明細書の他の図の要素と同一または類似の名称を有する図１５Ａ～図１５Ｃの要素は、他の図と同一の要素を記載しており、それと同様の方法で動作または機能することができ、同じコンポーネントを含むことができ、本明細書の他の箇所に記載されているような他のエンティティにリンクすることができるが、これらに限定されるものではない。

図１５Ａは、プロセッサ１５００のブロック図であり、プロセッサ１４０２の１つの変形例であってもよく、それらの１つの代わりに使用されてもよい。したがって、本明細書におけるプロセッサ１５００と組み合わせた任意の特徴の開示は、プロセッサ１４０２との対応する組み合わせも開示するが、これに限定されない。プロセッサ１５００は、１または複数のプロセッサコア１５０２Ａ～１５０２Ｎ、統合メモリコントローラ１５１４、および統合グラフィックスプロセッサ１５０８を有することができる。統合グラフィックスプロセッサ１５０８が除外される場合、プロセッサを含むシステムは、システムチップセット内に、またはシステムバスを介して結合されたグラフィックスプロセッサデバイスを含む。プロセッサ１５００は、破線のボックスで表される追加コア１５０２Ｎまでの追加コアを含み得る。プロセッサコア１５０２Ａ～１５０２Ｎの各々は、１または複数の内部キャッシュユニット１５０４Ａ～１５０４Ｎを含む。一部の実施形態では、各プロセッサコア１５０２Ａ～１５０２Ｎはまた、１または複数の共有キャッシュユニット１５０６へのアクセスを有する。内部キャッシュユニット１５０４Ａ～１５０４Ｎおよび共有キャッシュユニット１５０６は、プロセッサ１５００内のキャッシュメモリ階層を表す。キャッシュメモリ階層は、各プロセッサコア内の命令およびデータキャッシュの少なくとも１つのレベルと、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）、または他のレベルのキャッシュなどの共有中間レベルキャッシュの１または複数のレベルとを含むことができ、外部メモリの前の最高レベルのキャッシュはＬＬＣとして分類される。一部の実施形態において、キャッシュコヒーレンシ論理は、種々のキャッシュユニット１５０６および１５０４Ａ～１５０４Ｎの間のコヒーレンシを維持する。

プロセッサ１５００は、１または複数のバスコントローラユニット１５１６およびシステムエージェントコア１５１０のセットを含むこともできる。１または複数のバスコントローラユニット１５１６は、１または複数のＰＣＩまたはＰＣＩエクスプレスバスなどの周辺バスのセットを管理する。システムエージェントコア１５１０は、種々のプロセッサコンポーネントのための管理機能を提供する。システムエージェントコア１５１０は、種々の外部メモリデバイス（図示せず）へのアクセスを管理するための１または複数の統合メモリコントローラ１５１４を含み得る。

例えば、プロセッサコア１５０２Ａ～１５０２Ｎのうちの１または複数は、同時マルチスレッディングのサポートを含んでもよい。システムエージェントコア１５１０は、マルチスレッド処理中にコア１５０２Ａ～１５０２Ｎを調整し、動作させるためのコンポーネントを含む。システムエージェントコア１５１０は、プロセッサコア１５０２Ａ～１５０２Ｎおよびグラフィックスプロセッサ１５０８の電力状態を調整するための論理およびコンポーネントを含む電力制御ユニット（ＰＣＵ）をさらに含み得る。

プロセッサ１５００は、グラフィックス処理演算を実行するためのグラフィックスプロセッサ１５０８をさらに含み得る。これらの実施形態の一部において、グラフィックスプロセッサ１５０８は、共有キャッシュユニット１５０６のセットと、１または複数の統合メモリコントローラ１５１４を含むシステムエージェントコア１５１０と結合する。システムエージェントコア１５１０はまた、１または複数の結合されたディスプレイにグラフィックスプロセッサ出力を駆動するディスプレイコントローラ１５１１を含んでもよい。ディスプレイコントローラ１５１１はまた、少なくとも１つの相互接続を介してグラフィックスプロセッサと結合された別個のモジュールであってもよく、またはグラフィックスプロセッサ１５０８内に統合されてもよい。

リングベース相互接続ユニット１５１２は、プロセッサ１５００の内部コンポーネントを結合するために使用することができる。しかし、ポイントツーポイント相互接続、スイッチ相互接続、または当技術分野で周知の技術を含む他の技術などの代替相互接続ユニットを使用することができる。リングベース相互接続１５１２を有するこれらの実施形態の一部では、グラフィックスプロセッサ１５０８は、Ｉ／Ｏリンク１５１３を介してリングベース相互接続１５１２と結合する。

例示的なＩ／Ｏリンク１５１３は、複数の種類のＩ／Ｏ相互接続のうちの少なくとも１つを表しており、これには、種々のプロセッサコンポーネントとｅＤＲＡＭモジュールなどの高性能埋め込みメモリモジュール１５１８との間の通信を容易にするオンパッケージＩ／Ｏ相互接続が含まれる。所望により、プロセッサコア１５０２Ａ～１５０２Ｎおよびグラフィックスプロセッサ１５０８の各々は、埋め込みメモリモジュール１５１８を共有最終レベルキャッシュとして使用することができる。

プロセッサコア１５０２Ａ～１５０２Ｎは、例えば、同じ命令セットアーキテクチャを実行する同種のコアであってもよい。あるいは、プロセッサコア１５０２Ａ～１５０２Ｎは、命令セットアーキテクチャ（ＩＳＡ）に関して異種であり、プロセッサコア１５０２Ａ～１５０２Ｎのうちの１または複数が第１の命令セットを実行し、他のコアの少なくとも１つが第１の命令セットのサブセットまたは異なる命令セットを実行する。プロセッサコア１５０２Ａ～１５０２Ｎは、マイクロアーキテクチャに関して異種であってもよく、比較的高い電力消費を有する１または複数のコアが、より低い電力消費を有する１または複数のパワーコアと結合する。別の例として、プロセッサコア１５０２Ａ～１５０２Ｎは、計算能力の点で異種である。さらに、プロセッサ１５００は、他のコンポーネントに加えて、図示されたコンポーネントを有する１または複数のチップ上に、またはＳｏＣ集積回路として実装することができる。

図１５Ｂは、本明細書に記載される一部の実施形態による、グラフィックスプロセッサコア１５１９のハードウェア論理のブロック図である。コアスライスとも称されるグラフィックスプロセッサコア１５１９は、モジュールグラフィックスプロセッサ内の１または複数のグラフィックスコアであり得る。グラフィックスプロセッサコア１５１９は、１つのグラフィックスコアスライスの例であり、本明細書に記載されるグラフィックスプロセッサは、目標電力および性能エンベロープに基づいて複数のグラフィックスコアスライスを含み得る。各グラフィックスプロセッサコア１５１９は、汎用および固定機能論理のモジュールブロックを含む、サブスライスとも称される複数のサブコア１５２１Ａ～１５２１Ｆと結合された固定機能ブロック１５３０を含み得る。一構成では、複数のサブコア１５２１Ａ～１５２１Ｆのサブコア（サブスライス）は、図２Ｄのグラフィックスマルチプロセッサ２３４、図３Ａのグラフィックスマルチプロセッサ３２５、および／または図３Ｃのマルチコアグループ３６５Ａ～３６５Ｎのマルチコアグループと等価なアーキテクチャである。

固定機能ブロック１５３０は、例えば、低性能および／または低電力グラフィックスプロセッサの実装形態において、グラフィックスプロセッサコア１５１９内の全てのサブコアによって共有され得るジオメトリ／固定機能パイプライン１５３１を含み得る。ジオメトリ／固定機能パイプライン１５３１は、３Ｄ固定機能パイプライン（例えば、後述する図１６Ａにおける３Ｄパイプライン１６１２）、ビデオフロントエンドユニット、スレッドスポーンおよびスレッドディスパッチャ、および統合リターンバッファ（例えば、後述する図１７における統合リターンバッファ１７１８）を管理する統合リターンバッファマネージャを含み得る。

固定機能ブロック１５３０はまた、グラフィックスＳｏＣインターフェース１５３２、グラフィックスマイクロコントローラ１５３３、およびメディアパイプライン１５３４を含み得る。グラフィックスＳｏＣインターフェース１５３２は、グラフィックスプロセッサコア１５１９と、チップ集積回路上のシステム内の他のプロセッサコアとの間のインターフェースを提供する。グラフィックスマイクロコントローラ１５３３は、スレッドディスパッチ、スケジューリング、およびプリエンプションを含むグラフィックスプロセッサコア１５１９の種々の機能を管理するように構成可能なプログラマブルサブプロセッサである。メディアパイプライン１５３４（例えば、図１６Ａおよび図１７のメディアパイプライン１６１６）は、画像およびビデオデータを含むマルチメディアデータのデコード、エンコード、前処理、および／または後処理を容易にするための論理を含む。メディアパイプライン１５３４は、サブコア１５２１～１５２１Ｆ内の論理を計算またはサンプリングする要求を介してメディア動作を実装する。

ＳｏＣインターフェース１５３２は、グラフィックスプロセッサコア１５１９が、共用最終レベルキャッシュメモリ、システムＲＡＭ、および／または埋め込みオンチップまたはオンパッケージＤＲＡＭなどのメモリ階層要素を含む、汎用アプリケーションプロセッサコア（例えば、ＣＰＵ）および／またはＳｏＣ内の他のコンポーネントと通信することを可能にし得る。ＳｏＣインターフェース１５３２はまた、カメラ撮像パイプラインなどのＳｏＣ内の固定機能デバイスとの通信を可能にし、グラフィックスプロセッサコア１５１９とＳｏＣ内のＣＰＵとの間で共有され得るグローバルメモリアトミックの使用および／または実装形態を可能にする。ＳｏＣインターフェース１５３２はまた、グラフィックスプロセッサコア１５１９に対する電力管理制御を実装し、グラフィックスプロセッサコア１５１９のクロックドメインとＳｏＣ内の他のクロックドメインとの間のインターフェースを可能にし得る。所望により、ＳｏＣインターフェース１５３２は、コマンドおよび命令をグラフィックスプロセッサ内の１または複数のグラフィックスコアの各々に提供するように構成されたコマンドストリーマおよびグローバルスレッドディスパッチャからコマンドバッファを受信することを可能にする。コマンドおよび命令は、メディア動作が実施されるときにメディアパイプライン１５３４に、またはグラフィックス処理演算が実施されるときにジオメトリおよび固定機能パイプライン（例えば、ジオメトリおよび固定機能パイプライン１５３１、ジオメトリおよび固定機能パイプライン１５３７）にディスパッチすることができる。

グラフィックスマイクロコントローラ１５３３は、グラフィックスプロセッサコア１５１９に対する種々のスケジューリングおよび管理タスクを実施するように構成することができる。一構成では、グラフィックスマイクロコントローラ１５３３は、例えば、サブコア１５２１Ａ～１５２１Ｆ内の実行ユニット（ＥＵ）アレイ１５２２Ａ～１５２２Ｆ、１５２４Ａ～１５２４Ｆ内の種々のグラフィックス並列エンジン上でグラフィックスを実施し、かつ／またはワークロードスケジューリングを計算することができる。このワークロードスケジューリングにおいて、グラフィックスプロセッサコア１５１９を含むＳｏＣのＣＰＵコア上で実行されるホストソフトウェアは、複数のグラフィックスプロセッサドアベルのうちの１つにワークロードを送信することができ、これは適切なグラフィックスエンジン上でスケジューリング動作を呼び出す。スケジューリング動作には、次に実行するワークロードの決定、ワークロードのコマンドストリーマへの送信、エンジンで実行されている既存のワークロードのプリエンプト、ワークロードの進行状況の監視、ワークロードが完了したときのホストソフトウェアへの通知が含まれる。所望により、グラフィックスマイクロコントローラ１５３３は、グラフィックスプロセッサコア１５１９の低電力状態またはアイドル状態を促進することもでき、グラフィックスプロセッサコア１５１９に、オペレーティングシステムおよび／またはシステム上のグラフィックスドライバソフトウェアから独立して、低電力状態移行にわたってグラフィックスプロセッサコア１５１９内のレジスタを保存および復元する能力を提供する。

グラフィックスプロセッサコア１５１９は、図示されたサブコア１５２１Ａ～１５２１Ｆよりも多くまたは少なく、最大Ｎ個のモジュールサブコアを有することができる。Ｎ個のサブコアの各セットに対して、グラフィックスプロセッサコア１５１９はまた、共有機能論理１５３５、共有および／またはキャッシュメモリ１５３６、ジオメトリ／固定機能パイプライン１５３７、ならびに種々のグラフィックスおよび計算処理演算を加速するための追加の固定機能論理１５３８を含み得る。共有機能論理１５３５は、図１７の共有機能論理１７２０（例えば、サンプラ、数値演算、および／またはスレッド間通信論理）に関連付けられた論理ユニットを含むことができ、この論理ユニットは、グラフィックスプロセッサコア１５１９内の各Ｎ個のサブコアによって共有することができる。共有および／またはキャッシュメモリ１５３６は、グラフィックスプロセッサコア１５１９内のＮ個のサブコア１５２１Ａ～１５２１Ｆのセットに対する最終レベルキャッシュとすることができ、また、複数のサブコアによってアクセス可能な共有メモリとして機能することもできる。ジオメトリ／固定機能パイプライン１５３７は、ジオメトリ／固定機能パイプライン１５３１の代わりに固定機能ブロック１５３０内に含めることができ、同一または同様の論理ユニットを含めることができる。

グラフィックスプロセッサコア１５１９は、グラフィックスプロセッサコア１５１９によって使用される種々の固定機能加速論理を含み得る追加の固定機能論理１５３８を含み得る。所望により、追加の固定機能論理１５３８は、位置のみのシェーディングで使用するための追加のジオメトリパイプラインを含む。位置のみのシェーディングでは、２つのジオメトリパイプラインが存在しており、ジオメトリ／固定機能パイプライン１５３８、１５３１内のフルジオメトリパイプラインと、追加の固定機能論理１５３８内に含めることができる追加ジオメトリパイプラインであるカル（ｃｕｌｌ）パイプラインとがある。例えば、カルパイプラインは、フルジオメトリパイプラインのトリムダウンバージョンであってもよい。フルパイプラインとカルパイプラインとは、同じアプリケーションの異なるインスタンスを実行することができ、各インスタンスは個別のコンテキストを有する。位置のみのシェーディングでは、破棄された三角形の長いカル実行を非表示にすることができ、これにより、シェーディングをより早く完了することができる。例えば、追加の固定機能論理１５３８内のカルパイプライン論理は、主アプリケーションと並列に位置シェーダを実行することができ、カルパイプライン論理は、ピクセルのラスタライズおよびフレームバッファへのレンダリングを実施することなく、頂点の位置属性のみをフェッチしてシェーディングするため、概してフルパイプラインよりも高速に重要な結果を生成する。カルパイプラインは、生成された重要な結果を使用して、それらの三角形がカリングされているかどうかに関係なく、全ての三角形の可視性情報を計算することができる。フルパイプライン（この場合、リプレイパイプラインと称される）は、可視性情報を消費して、最終的にラスタライゼーションフェーズに渡される可視三角形のみをシェーディングするために、カリングされた三角形をスキップすることができる。

所望により、追加の固定機能論理１５３８は、機械学習訓練または推論のための最適化を含む実装形態のために、固定機能行列乗算論理などの機械学習加速論理を含むこともできる。

各グラフィックスサブコア１５２１Ａ～１５２１Ｆ内には、グラフィックスパイプライン、メディアパイプライン、またはシェーダプログラムによる要求に応答して、グラフィックス、メディア、および計算動作を実施するために使用することができる実行リソースのセットが含まれている。グラフィックスサブコア１５２１Ａ～１５２１Ｆは、複数のＥＵアレイ１５２２Ａ～１５２２Ｆ、１５２４Ａ～１５２４Ｆ、スレッドディスパッチおよびスレッド間通信（ＴＤ／ＩＣ）論理１５２３Ａ～１５２３Ｆ、３Ｄ（例えばテクスチャ）サンプラ１５２５Ａ～１５２５Ｆ、メディアサンプラ１５２６Ａ～１５２６Ｆ、シェーダプロセッサ１５２７Ａ～１５２７Ｆ、および共有ローカルメモリ（ＳＬＭ）１５２８Ａ～１５２８Ｆを含む。ＥＵアレイ１５２２Ａ～１５２２Ｆ、１５２４Ａ～１５２４Ｆはそれぞれ、複数の実行ユニットを含み、これらは、グラフィックス、メディア、または計算シェーダプログラムを含む、グラフィックス、メディア、または計算演算のサービスにおいて浮動小数点および整数／固定小数点論理演算を実施することができる汎用グラフィックス処理ユニットである。ＴＤ／ＩＣ論理１５２３Ａ～１５２３Ｆは、サブコア内の実行ユニットに対するローカルスレッドディスパッチおよびスレッド制御動作を実行し、サブコアの実行ユニット上で実施されるスレッド間の通信を容易にする。３Ｄサンプラ１５２５Ａ～１５２５Ｆは、テクスチャまたは他の３Ｄグラフィックス関連データをメモリに読み出すことができる。３Ｄサンプラは、設定されたサンプル状態と特定のテクスチャに関連付けられたテクスチャフォーマットに基づいて、テクスチャデータを異なる方法で読み出すことができる。メディアサンプラ１５２６Ａ～１５２６Ｆは、メディアデータに関連付けられたタイプおよびフォーマットに基づいて同様の読み出し動作を実施することができる。例えば、各グラフィックスサブコア１５２１Ａ～１５２１Ｆは、統合された３Ｄおよびメディアサンプラを交互に含み得る。各サブコア１５２１Ａ～１５２１Ｆ内の実行ユニットで実行されるスレッドは、各サブコア内の共有ローカルメモリ１５２８Ａ～１５２８Ｆを利用して、スレッドグループ内で実行されるスレッドがオンチップメモリの共通プールを使用して実行できるようにすることができる。

図１５Ｃは、本明細書に記載する実施形態による、グラフィックスプロセッサ、例えばグラフィックスプロセッサ１５０８、および／または計算アクセラレータとして構成することができる汎用グラフィックス処理ユニット（ＧＰＧＰＵ）１５７０のブロック図である。ＧＰＧＰＵ１５７０は、１または複数のシステムバスおよび／またはメモリバスを介して、ホストプロセッサ（例えば、１または複数のＣＰＵ１５４６）およびメモリ１５７１、１５７２と相互接続することができる。メモリ１５７１は、１または複数のＣＰＵ１５４６と共有され得るシステムメモリであってもよく、メモリ１５７２は、ＧＰＧＰＵ１５７０専用のデバイスメモリである。例えば、ＧＰＧＰＵ１５７０およびメモリ１５７２内のコンポーネントは、１または複数のＣＰＵ１５４６にアクセス可能なメモリアドレスにマッピングされてもよい。メモリ１５７１および１５７２へのアクセスは、メモリコントローラ１５６８を介して容易にすることができる。メモリコントローラ１５６８は、内部ダイレクトメモリアクセス（ＤＭＡ）コントローラ１５６９を含むことができ、あるいはＤＭＡコントローラによって実施されるであろう動作を実施するための論理を含み得る。

ＧＰＧＰＵ１５７０は、Ｌ２キャッシュ１５５３、Ｌ１キャッシュ１５５４、命令キャッシュ１５５５、および共有メモリ１５５６を含む複数のキャッシュメモリを含み、共有メモリの少なくとも一部をキャッシュメモリとしてパーティション化することもできる。ＧＰＧＰＵ１５７０はまた、複数の計算ユニット１５６０Ａ～１５６０Ｎを含む。各計算ユニット１５６０Ａ～１５６０Ｎは、ベクトルレジスタ１５６１、スカラーレジスタ１５６２、ベクトル論理ユニット１５６３、およびスカラー論理ユニット１５６４のセットを含む。計算ユニット１５６０Ａ～１５６０Ｎはまた、ローカル共有メモリ１５６５およびプログラムカウンタ１５６６を含み得る。計算ユニット１５６０Ａ～１５６０Ｎは、定数キャッシュ１５６７と結合することができ、該定数キャッシュ１５６７を使用して、ＧＰＧＰＵ１５７０上で実行されるカーネルまたはシェーダプログラムの実行中に変化しないデータである定数データを記憶することができる。定数キャッシュ１５６７はスカラーデータキャッシュであってもよく、キャッシュされたデータはスカラーレジスタ１５６２に直接フェッチすることができる。

動作中、１または複数のＣＰＵ１５４６は、アクセス可能なアドレス空間にマッピングされたＧＰＧＰＵ１５７０内のレジスタまたはメモリにコマンドを書き込むことができる。コマンドプロセッサ１５５７は、レジスタまたはメモリからコマンドを読み出し、これらのコマンドがＧＰＧＰＵ１５７０内でどのように処理されるかを判定することができる。次に、スレッドディスパッチャ１５５８を使用して、計算ユニット１５６０Ａ～１５６０Ｎにスレッドをディスパッチし、これらのコマンドを実施することができる。各計算ユニット１５６０Ａ～１５６０Ｎは、他の計算ユニットから独立してスレッドを実行することができる。さらに、各計算ユニット１５６０Ａ～１５６０Ｎは、条件付き計算のために独立して構成することができ、計算の結果を条件付きでメモリに出力することができる。コマンドプロセッサ１５５７は、送信されたコマンドが完了したときに、１または複数のＣＰＵ１５４６を中断することができる。

図１６Ａ～図１６Ｃは、例えば図１５Ａ～図１５Ｃに従って、本明細書に記載される実施形態によって提供される追加のグラフィックスプロセッサおよびコンピューティングアクセラレータアーキテクチャのブロック図を示している。本明細書の他の図の要素と同一または類似の名称を有する図１６Ａ～図１６Ｃの要素は、他の図と同一の要素を記載しており、それと同様の方法で動作または機能することができ、同じコンポーネントを含むことができ、本明細書の他の箇所に記載されているような他のエンティティにリンクすることができるが、これらに限定されるものではない。

図１６Ａは、グラフィックスプロセッサ１６００のブロック図であり、これは、個別のグラフィックス処理ユニットであってもよく、または複数の処理コアと統合されたグラフィックスプロセッサであってもよく、あるいはメモリデバイスまたはネットワークインターフェースなどの他の半導体デバイスであってもよいが、これらに限定されない。グラフィックスプロセッサ１６００は、グラフィックスプロセッサ１５０８の変形例であってもよく、グラフィックスプロセッサ１５０８の代わりに使用されてもよい。したがって、本明細書におけるグラフィックスプロセッサ１５０８と組み合わせた任意の特徴の開示は、グラフィックスプロセッサ１６００との対応する組み合わせも開示するが、これに限定されない。グラフィックスプロセッサは、メモリマッピングされたＩ／Ｏインターフェースを介して、グラフィックスプロセッサ上のレジスタと、プロセッサメモリ内に配置されたコマンドと通信することができる。グラフィックスプロセッサ１６００は、メモリにアクセスするためのメモリインターフェース１６１４を含み得る。メモリインターフェース１６１４は、ローカルメモリ、１または複数の内部キャッシュ、１または複数の共有外部キャッシュ、および／またはシステムメモリへのインターフェースであり得る。

所望により、グラフィックスプロセッサ１６００は、ディスプレイ出力データをディスプレイデバイス１６１８に駆動するディスプレイコントローラ１６０２も含む。ディスプレイコントローラ１６０２は、ビデオまたはユーザインターフェース要素の複数の層を表示および合成するための１または複数のオーバーレイプレーン用のハードウェアを含む。ディスプレイデバイス１６１８は、内部ディスプレイデバイスまたは外部ディスプレイデバイスであり得る。一実施形態では、ディスプレイデバイス１６１８は、仮想現実（ＶＲ）ディスプレイデバイスまたは拡張現実（ＡＲ）ディスプレイデバイスなどのヘッドマウントディスプレイデバイスである。グラフィックスプロセッサ１６００は、ＭＰＥＧ－２などのムービングピクチャエキスパートグループ（ＭＰＥＧ）フォーマット、Ｈ．２６４／ＭＰＥＧ－４ＡＶＣ、Ｈ．２６５／ＨＥＶＣなどのアドバンストビデオコーディング（ＡＶＣ）フォーマット、アライアンスフォーオープンメディア（ＡＯＭｅｄｉａ）ＶＰ８、ＶＰ９、ならびに米国映画テレビ技術者協会（ＳＭＰＴＥ）４２１Ｍ／ＶＣ－１、ならびにＪＰＥＧなどのジョイントフォトグラフィックエキスパートグループ（ＪＰＥＧ）フォーマットおよびモーションＪＰＥＧ（ＭＪＰＥＧ）フォーマットを含むがこれらに限定されない、１または複数のメディアエンコードフォーマット間で、メディアをエンコード、デコード、またはトランスコードするビデオコーデックエンジン１６０６を含み得る。

グラフィックスプロセッサ１６００は、例えばビット境界ブロック転送を含む２次元（２Ｄ）ラスタライザ演算を実施するためのブロック画像転送（ＢＬＩＴ）エンジン１６０３を含んでもよい。しかし、代替的に、２Ｄグラフィックス動作は、グラフィックス処理エンジン（ＧＰＥ）１６１０の１または複数のコンポーネントを使用して実施されてもよい。一部の実施形態では、ＧＰＥ１６１０は、三次元（３Ｄ）グラフィックス演算およびメディア動作を含むグラフィックス演算を実施するための計算エンジンである。

ＧＰＥ１６１０は、３Ｄプリミティブ形状（例えば、長方形、三角形など）に作用する処理機能を使用して三次元画像およびシーンをレンダリングするなどの３Ｄ演算を実施するための３Ｄパイプライン１６１２を含み得る。３Ｄパイプライン１６１２は、要素内で種々のタスクを実施し、かつ／または３Ｄ／メディアサブシステム１６１５に実行スレッドを生成するプログラマブルおよび固定機能要素を含む。３Ｄパイプライン１６１２は、メディア動作を実施するために使用することができるが、ＧＰＥ１６１０の実施形態は、ビデオ後処理および画像強調などのメディア動作を実施するために特に使用されるメディアパイプライン１６１６も含む。

メディアパイプライン１６１６は、ビデオコーデックエンジン１６０６の代わりに、またはそれに置き換えて、ビデオデコード加速、ビデオデインタレース、およびビデオエンコード加速などの１または複数の特殊化されたメディア動作を実施するための固定機能またはプログラマブル論理ユニットを含み得る。メディアパイプライン１６１６は、３Ｄ／メディアサブシステム１６１５上で実行するためにスレッドを生成させるためのスレッド生成ユニットをさらに含み得る。生成されたスレッドは、３Ｄ／メディアサブシステム１６１５に含まれる１または複数のグラフィックス実行ユニット上でメディア動作のための計算を実施する。

３Ｄ／メディアサブシステム１６１５は、３Ｄパイプライン１６１２およびメディアパイプライン１６１６によって生成されたスレッドを実行するための論理を含み得る。パイプラインは、スレッド実行要求を３Ｄ／メディアサブシステム１６１５に送信することができ、このサブシステムは、利用可能なスレッド実行リソースに対して種々の要求を調停およびディスパッチするためのスレッドディスパッチ論理を含む。実行リソースは、３Ｄスレッドおよびメディアスレッドを処理するためのグラフィックス実行ユニットのアレイを含む。３Ｄ／メディアサブシステム１６１５は、スレッド命令およびデータのための１または複数の内部キャッシュを含み得る。さらに、３Ｄ／メディアサブシステム１６１５は、スレッド間でデータを共有し、出力データを記憶するために、レジスタおよびアドレス可能メモリを含む共有メモリを含むこともできる。

図１６Ｂは、グラフィックスプロセッサ１６２０の変形例であるグラフィックスプロセッサ１６００を示しており、グラフィックスプロセッサ１６００の代わりに使用することができ、逆もまた同様である。したがって、本明細書におけるグラフィックスプロセッサ１６００と組み合わせた任意の特徴の開示は、グラフィックスプロセッサ１６２０との対応する組み合わせも開示するが、これに限定されない。本明細書に記載される実施形態によると、グラフィックスプロセッサ１６２０は、タイル状アーキテクチャを有する。グラフィックスプロセッサ１６２０は、グラフィックスエンジンタイル１６１０Ａ～１６１０Ｄ内に図１６Ａのグラフィックス処理エンジン１６１０の複数のインスタンスを有するグラフィックス処理エンジンクラスタ１６２２を含み得る。各グラフィックスエンジンタイル１６１０Ａ～１６１０Ｄは、タイル相互接続１６２３Ａ～１６２３Ｆのセットを介して相互接続することができる。各グラフィックスエンジンタイル１６１０Ａ～１６１０Ｄは、メモリ相互接続１６２５Ａ～１６２５Ｄを介してメモリモジュールまたはメモリデバイス１６２６Ａ～１６２６Ｄに接続することもできる。メモリデバイス１６２６Ａ～１６２６Ｄは、任意のグラフィックスメモリ技術を使用することができる。例えば、メモリデバイス１６２６Ａ～１６２６Ｄは、グラフィックスダブルデータレート（ＧＤＤＲ）メモリであってもよい。メモリデバイス１６２６Ａ～１６２６Ｄは、それぞれのグラフィックスエンジンタイル１６１０Ａ～１６１０Ｄとオンダイさせることができる高帯域幅メモリ（ＨＢＭ）モジュールであり得る。メモリデバイス１６２６Ａ～１６２６Ｄは、それぞれのグラフィックスエンジンタイル１６１０Ａ～１６１０Ｄの上に積層させることができる積層メモリデバイスであり得る。各グラフィックスエンジンタイル１６１０Ａ～１６１０Ｄおよび関連するメモリ１６２６Ａ～１６２６Ｄは、図２４Ｂ～図２４Ｄにさらに詳細に記載されるように、ベースダイまたはベース基板に結合された別個のチップレット上に存在してもよい。

グラフィックスプロセッサ１６２０は、メモリデバイス１６２６Ａ～１６２６Ｄが、関連するグラフィックスエンジンタイル１６１０Ａ～１６１０Ｄと結合される非均一メモリアクセス（ＮＵＭＡ）システムで構成されてもよい。所与のメモリデバイスは、それが直接接続されているタイル以外のグラフィックスエンジンタイルによってアクセスされてもよい。しかし、メモリデバイス１６２６Ａ～１６２６Ｄへのアクセスレイテンシは、ローカルタイルにアクセスするときに最小にすることができる。一実施形態では、タイル相互接続１６２３Ａ～１６２３Ｆを使用してグラフィックスエンジンタイル１６１０Ａ～１６１０Ｄ内のキャッシュコントローラ間の通信を可能にするキャッシュコヒーレントＮＵＭＡ（ｃｃＮＵＭＡ）システムが有効化され、１つよりも多くのキャッシュが同じメモリ位置を記憶するときに一貫したメモリイメージを維持する。

グラフィックス処理エンジンクラスタ１６２２は、オンチップまたはオンパッケージファブリック相互接続１６２４に接続することができる。一実施形態では、ファブリック相互接続１６２４は、ネットワークプロセッサ、ネットワークオンチップ（ＮｏＣ）、または他のスイッチングプロセッサを含み、ファブリック相互接続１６２４が、グラフィックスプロセッサ１６２０のコンポーネント間でデータパケットをスイッチングするパケットスイッチドファブリック相互接続として動作することを可能にする。ファブリック相互接続１６２４は、グラフィックスエンジンタイル１６１０Ａ～１６１０Ｄと、ビデオコーデックエンジン１６０６および１または複数のコピーエンジン１６０４などのコンポーネントとの間の通信を可能にし得る。コピーエンジン１６０４を使用して、メモリデバイス１６２６Ａ～１６２６Ｄとグラフィックスプロセッサ１６２０の外部にあるメモリ（例えば、システムメモリ）との間でデータを移動させることができる。ファブリック相互接続１６２４はまた、グラフィックスエンジンタイル１６１０Ａ～１６１０Ｄを相互接続するために使用することもできる。グラフィックスプロセッサ１６２０は、外部ディスプレイデバイス１６１８との接続を可能にするディスプレイコントローラ１６０２を所望により含み得る。グラフィックスプロセッサは、グラフィックスアクセラレータまたは計算アクセラレータとして構成することもできる。アクセラレータ構成では、ディスプレイコントローラ１６０２およびディスプレイデバイス１６１８は省略されてもよい。

グラフィックスプロセッサ１６２０は、ホストインターフェース１６２８を介してホストシステムに接続することができる。ホストインターフェース１６２８は、グラフィックスプロセッサ１６２０、システムメモリ、および／または他のシステムコンポーネント間の通信を可能にし得る。ホストインターフェース１６２８は、例えば、ＰＣＩエクスプレスバスまたは別のタイプのホストシステムインターフェースであり得る。例えば、ホストインターフェース１６２８は、ＮＶＬｉｎｋまたはＮＶＳｗｉｔｃｈインターフェースであってもよい。ホストインターフェース１６２８およびファブリック相互接続１６２４は、協調して、グラフィックスプロセッサ１６２０の複数のインスタンスが単一の論理デバイスとして動作することを可能にし得る。ホストインターフェース１６２８とファブリック相互接続１６２４との間の協働によって、個々のグラフィックスエンジンタイル１６１０Ａ～１６１０Ｄを別個の論理グラフィックスデバイスとしてホストシステムに提示することも可能になる。

図１６Ｃは、本明細書に記載される実施形態による、計算アクセラレータ１６３０を示している。計算アクセラレータ１６３０は、図１６Ｂのグラフィックスプロセッサ１６２０とのアーキテクチャ上の類似点を含むことができ、計算加速のために最適化される。計算エンジンクラスタ１６３２は、並列またはベクトルベースの汎用計算演算用に最適化された実行論理を含む計算エンジンタイル１６４０Ａ～１６４０Ｄのセットを含み得る。一部の実施形態では、計算エンジンタイル１６４０Ａ～１６４０Ｄのうちの１または複数は、メディア加速を実施するための論理を含み得るが、計算エンジンタイル１６４０Ａ～１６４０Ｄは、固定機能グラフィックス処理論理を含まなくてもよい。計算エンジンタイル１６４０Ａ～１６４０Ｄは、メモリ相互接続１６２５Ａ～１６２５Ｄを介してメモリ１６２６Ａ～１６２６Ｄに接続することができる。メモリ１６２６Ａ～１６２６Ｄおよびメモリ相互接続１６２５Ａ～１６２５Ｄは、グラフィックスプロセッサ１６２０におけるものと同様の技術であってもよく、または異なっていてもよい。グラフィックス計算エンジンタイル１６４０Ａ～１６４０Ｄはまた、タイル相互接続１６２３Ａ～１６２３Ｆのセットを介して相互接続することができ、ファブリック相互接続１６２４と接続し、かつ／またはファブリック相互接続によって相互接続することができる。一実施形態では、計算アクセラレータ１６３０は、デバイス全体のキャッシュとして構成することができる大きなＬ３キャッシュ１６３６を含む。計算アクセラレータ１６３０はまた、図１６Ｂのグラフィックスプロセッサ１６２０と同様の方法で、ホストインターフェース１６２８を介してホストプロセッサおよびメモリに接続することができる。

計算アクセラレータ１６３０はまた、統合ネットワークインターフェース１６４２を含み得る。一実施形態では、統合ネットワークインターフェース１６４２は、ホストシステムのメモリをトラバースするデータを必要とすることなく、計算エンジンクラスタ１６３２が物理層相互接続１６４４を介して通信することを可能にするネットワークプロセッサおよびコントローラ論理を含む。一実施形態では、計算エンジンタイル１６４０Ａ～１６４０Ｄのうちの１つは、ネットワークプロセッサ論理によって置き換えられ、物理層相互接続１６４４を介して伝送かつ受信されるデータは、メモリ１６２６Ａ～１６２６Ｄに直接伝送されてもよく、メモリから直接送信されてもよい。計算アクセラレータ１６３０の複数のインスタンスは、物理層相互接続１６４４を介して単一の論理デバイスに結合することができる。あるいは、種々の計算エンジンタイル１６４０Ａ～１６４０Ｄは、別個のネットワークアクセス可能な計算アクセラレータデバイスとして提示されてもよい。
グラフィックス処理エンジン

図１７は、一部の実施形態によるグラフィックスプロセッサのグラフィックス処理エンジン１７１０のブロック図である。グラフィックス処理エンジン（ＧＰＥ）１７１０は、図１６Ａに示すＧＰＥ１６１０のバージョンであってもよく、図１６Ｂのグラフィックスエンジンタイル１６１０Ａ～１６１０Ｄを表してもよい。本明細書の他の図の要素と同一または類似の名称を有する図１７の要素は、他の図と同一の要素を記載しており、それと同様の方法で動作または機能することができ、同じコンポーネントを含むことができ、本明細書の他の箇所に記載されているような他のエンティティにリンクすることができるが、これらに限定されるものではない。例えば、図１６Ａの３Ｄパイプライン１６１２およびメディアパイプライン１６１６が図１７にも示されている。メディアパイプライン１６１６は、ＧＰＥ１７１０の一部の実施形態では任意選択であり、ＧＰＥ１７１０内に明示的に含まれなくてもよい。例えば、少なくとも１つの実施形態では、別個のメディアおよび／または画像プロセッサがＧＰＥ１７１０に結合される。

ＧＰＥ１７１０は、３Ｄパイプライン１６１２および／またはメディアパイプライン１６１６にコマンドストリームを提供するコマンドストリーマ１７０３と結合するか、またはこれを含み得る。代替的または付加的に、コマンドストリーマ１７０３は、統合リターンバッファ１７１８に直接結合されてもよい。統合リターンバッファ１７１８は、グラフィックスコアアレイ１７１４に通信可能に結合することができる。所望により、コマンドストリーマ１７０３は、システムメモリ、または内部キャッシュメモリおよび共有キャッシュメモリのうちの１または複数であり得るメモリと結合される。コマンドストリーマ１７０３は、メモリからコマンドを受信し、３Ｄパイプライン１６１２および／またはメディアパイプライン１６１６にコマンドを送信することができる。コマンドは、３Ｄパイプライン１６１２およびメディアパイプライン１６１６のためのコマンドを記憶するリングバッファからフェッチされた命令である。リングバッファは、複数のコマンドのバッチを記憶するバッチコマンドバッファをさらに含み得る。３Ｄパイプライン１６１２に対するコマンドは、３Ｄパイプライン１６１２に対する頂点およびジオメトリデータおよび／またはメディアパイプライン１６１６に対する画像データおよびメモリオブジェクトなどのメモリに記憶されたデータへの参照も含むことができるが、これらに限定されない。３Ｄパイプライン１６１２およびメディアパイプライン１６１６は、それぞれのパイプライン内の論理を介して動作を実施することによって、または１または複数の実行スレッドをグラフィックスコアアレイ１７１４にディスパッチすることによって、コマンドおよびデータを処理する。グラフィックスコアアレイ１７１４は、グラフィックスコアの１または複数のブロック（例えば、グラフィックスコア１７１５Ａ、グラフィックスコア１７１５Ｂ）を含むことができ、各ブロックは１または複数のグラフィックスコアを含む。各グラフィックスコアは、グラフィックス実行リソースのセットを含み、これには、グラフィックスおよび計算演算を実施するための汎用およびグラフィックス固有の実行論理、ならびに固定機能テクスチャ処理および／または機械学習および人工知能加速論理が含まれる。

種々の実施形態では、３Ｄパイプライン１６１２は、命令を処理し、実行スレッドをグラフィックスコアアレイ１７１４にディスパッチすることによって、頂点シェーダ、ジオメトリシェーダ、ピクセルシェーダ、フラグメントシェーダ、計算シェーダ、または他のシェーダプログラムなどの１または複数のシェーダプログラムを処理するための固定機能およびプログラマブル論理を含み得る。グラフィックスコアアレイ１７１４は、これらのシェーダプログラムを処理する際に使用するための実行リソースの統合ブロックを提供する。グラフィックスコアアレイ１７１４のグラフィックスコア１７１５Ａ～１７１５Ｂ内の多目的実行論理（例えば、実行ユニット）は、種々の３ＤＡＰＩシェーダ言語に対するサポートを含み、複数のシェーダに関連付けられた複数の同時実行スレッドを実行することができる。

グラフィックスコアアレイ１７１４は、ビデオおよび／または画像処理などのメディア機能を実施するための実行論理を含み得る。実行ユニットは、グラフィックス処理演算に加えて、並列汎用計算演算を実施するようにプログラム可能な汎用論理を含み得る。汎用論理は、図１４のプロセッサコア１４０７または図１５Ａのようなコア１５０２Ａ～１５０２Ｎ内の汎用論理と並列または関連して処理演算を実施することができる。

グラフィックスコアアレイ１７１４上で実行するスレッドによって生成される出力データは、統合リターンバッファ（ＵＲＢ）１７１８内のメモリにデータを出力することができる。ＵＲＢ１７１８は、複数スレッドのデータを記憶することができる。ＵＲＢ１７１８は、グラフィックスコアアレイ１７１４上で実行する異なるスレッド間でデータを送信するために使用することができる。ＵＲＢ１７１８は、さらに、グラフィックスコアアレイ１７１４上のスレッドと共有機能論理１７２０内の固定機能論理との間の同期のために使用することができる。

所望により、グラフィックスコアアレイ１７１４は、アレイが可変数のグラフィックスコアを含み、それぞれがＧＰＥ１７１０の目標電力および性能レベルに基づいて可変数の実行ユニットを有するようにスケーラブルであってもよい。実行リソースは、必要に応じて実行リソースを有効化または無効化され得るように、動的にスケーラブルであり得る。

グラフィックスコアアレイ１７１４は、グラフィックスコアアレイ内のグラフィックスコア間で共有される複数のリソースを含む共有機能論理１７２０と結合する。共有機能論理１７２０内の共有機能は、グラフィックスコアアレイ１７１４に特殊な補足機能を提供するハードウェア論理ユニットである。種々の実施形態では、共有機能論理１７２０は、サンプラ１７２１、数学１７２２、およびスレッド間通信（ＩＴＣ）１７２３の論理を含むが、これらに限定されない。さらに、共有機能論理１７２０内の１または複数のキャッシュ１７２５を実装することができる。

共有機能は、少なくとも、所与の特殊化された機能に対する要求が、グラフィックスコアアレイ１７１４内に含めるには不十分である場合に実装される。その代わりに、その特殊化された機能の単一のインスタンス化は、共有機能論理１７２０内のスタンドアロンエンティティとして実装され、グラフィックスコアアレイ１７１４内の実行リソース間で共有される。グラフィックスコアアレイ１７１４間で共有され、グラフィックスコアアレイ１７１４内に含まれる機能の正確なセットは、実施形態によって異なる。グラフィックスコアアレイ１７１４によって広範に使用される共有機能論理１７２０内の特定の共有機能は、グラフィックスコアアレイ１７１４内の共有機能論理１７１６内に含めることができる。所望により、グラフィックスコアアレイ１７１４内の共有機能論理１７１６は、共有機能論理１７２０内の一部または全ての論理を含み得る。共有機能論理１７２０内の全ての論理要素は、グラフィックスコアアレイ１７１４の共有機能論理１７１６内で複製することができる。あるいは、共有機能論理１７２０は、グラフィックスコアアレイ１７１４内の共有機能論理１７１６のために除外される。
実行ユニット

図１８Ａ～図１８Ｂは、本明細書に記載される実施形態によるグラフィックスプロセッサコアにおいて採用される処理要素のアレイを含むスレッド実行論理１８００を示している。本明細書の他の図の要素と同一または類似の名称を有する図１８Ａ～図１８Ｂの要素は、他の図と同一の要素を記載しており、それと同様の方法で動作または機能することができ、同じコンポーネントを含むことができ、本明細書の他の箇所に記載されているような他のエンティティにリンクすることができるが、これらに限定されるものではない。図１８Ａ～図１８Ｂは、スレッド実行論理１８００の概要を示しており、これは、図１５Ｂの各サブコア１５２１Ａ～１５２１Ｆとともに示されたハードウェア論理を表すことができる。図１８Ａは、汎用グラフィックスプロセッサ内の実行ユニットを表し、図１８Ｂは、計算アクセラレータ内で使用され得る実行ユニットを表している。

図１８Ａに示すように、スレッド実行論理１８００は、シェーダプロセッサ１８０２と、スレッドディスパッチャ１８０４と、命令キャッシュ１８０６と、複数のグラフィックス実行ユニット１８０８Ａ～１８０８Ｎを含むスケーラブル実行ユニットアレイと、サンプラ１８１０と、共有ローカルメモリ１８１１と、データキャッシュ１８１２と、データポート１８１４とを含み得る。所望により、スケーラブル実行ユニットアレイは、ワークロードの計算要件に基づいて、１または複数の実行ユニット（例えば、グラフィックス実行ユニット１８０８Ａ、１８０８Ｂ、１８０８Ｃ、１８０８Ｄ、～１８０８Ｎ－１および１８０８Ｎのいずれか）を有効化または無効化にすることによって、動的にスケーリングすることができる。含まれるコンポーネントは、コンポーネントの各々にリンクする相互接続ファブリックを介して相互接続することができる。スレッド実行論理１８００は、命令キャッシュ１８０６、データポート１８１４、サンプラ１８１０、およびグラフィックス実行ユニット１８０８Ａ～１８０８Ｎのうちの１または複数を介して、システムメモリまたはキャッシュメモリなどのメモリへの１または複数の接続を含み得る。各実行ユニット（例えば１８０８Ａ）は、各スレッドに対して複数のデータ要素を並列に処理しながら複数の同時ハードウェアスレッドを実行することができるスタンドアロンのプログラム可能な汎用計算ユニットであってもよい。種々の実施形態において、実行ユニット１８０８Ａ～１８０８Ｎのアレイは、任意の数の個々の実行ユニットを含むようにスケーラブルである。

一部の実施形態では、グラフィックス実行ユニット１８０８Ａ～１８０８Ｎは、主にシェーダプログラムを実行するために使用することができる。シェーダプロセッサ１８０２は、種々のシェーダプログラムを処理し、スレッドディスパッチャ１８０４を介してシェーダプログラムに関連付けられた実行スレッドをディスパッチすることができる。スレッドディスパッチャは、グラフィックスおよびメディアパイプラインからのスレッド開始要求を調停し、グラフィックス実行ユニット１８０８Ａ～１８０８Ｎ内の１または複数の実行ユニット上で要求されたスレッドをインスタンス化するための論理を含み得る。例えば、ジオメトリパイプラインは、頂点シェーダ、テッセレーションシェーダ、ジオメトリシェーダをスレッド実行論理にディスパッチして処理することができる。所望により、スレッドディスパッチャ１８０４は、実行中のシェーダプログラムからのランタイムスレッド生成要求を処理することもできる。

一部の実施形態において、グラフィックス実行ユニット１８０８Ａ～１８０８Ｎは、グラフィックスライブラリ（例えば、Ｄｉｒｅｃｔ３ＤおよびＯｐｅｎＧＬ）からのシェーダプログラムが最小の変換で実行されるように、多くの標準３Ｄグラフィックスシェーダ命令に対するネイティブサポートを含む命令セットをサポートすることができる。実行ユニットは、頂点およびジオメトリ処理（例えば、頂点プログラム、ジオメトリプログラム、頂点シェーダ）、ピクセル処理（例えば、ピクセルシェーダ、フラグメントシェーダ）、および汎用処理（例えば、計算シェーダおよびメディアシェーダ）をサポートする。グラフィックス実行ユニット１８０８Ａ～１８０８Ｎの各々は、マルチ発行単一命令複数データ（ＳＩＭＤ）実行が可能であり、マルチスレッド動作は、より高いレイテンシのメモリアクセスに直面して効率的な実行環境を可能にする。各実行ユニット内の各ハードウェアスレッドは、専用の高帯域幅レジスタファイルおよび関連する独立したスレッド状態を有する。実行は、整数、単精度および倍精度浮動小数点演算、ＳＩＭＤ分岐機能、論理演算、周期演算、およびその他の演算が可能なパイプラインに対して、クロック毎に複数発行される。メモリまたは共有機能のうちの１つからのデータを待機している間、実行ユニット１８０８Ａ～１８０８Ｎ内の依存関係論理は、要求されたデータが戻されるまで待機中のスレッドをスリープさせる。待機スレッドがスリープしている間、ハードウェアリソースは他のスレッドの処理に充てられる可能性がある。例えば、頂点シェーダ演算に関連する遅延の間、実行ユニットは、ピクセルシェーダ、フラグメントシェーダ、または図２１に示す頂点シェーダ２１０７などの異なる頂点シェーダを含む別の種類のシェーダプログラムに対する演算を実施することができる。ＳＩＭＤの使用の代替として、またはＳＩＭＤの使用に加えて、単一命令多重スレッド（ＳＩＭＴ）の使用による実行を使用するために、種々の実施形態を適用することができる。ＳＩＭＤコアまたは演算への言及は、ＳＩＭＴにも適用することができ、またはＳＩＭＴと組み合わせたＳＩＭＤに適用することができる。

グラフィックス実行ユニット１８０８Ａ～１８０８Ｎ内の各実行ユニットは、データ要素のアレイ上で動作する。データ要素の数は、「実行サイズ」または命令のためのチャネルの数である。実行チャネルは、命令内のデータ要素アクセス、マスキング、およびフロー制御のための実行の論理ユニットである。チャネルの数は、特定のグラフィックスプロセッサに対する物理的な算術論理ユニット（ＡＬＵ）、浮動小数点ユニット（ＦＰＵ）、または他の論理ユニット（例えば、テンソルコア、レイトレーシングコアなど）の数とは独立していてもよい。さらに、グラフィックス実行ユニット１８０８Ａ～１８０８Ｎは、整数および浮動小数点データタイプをサポートすることができる。

実行ユニット命令セットは、ＳＩＭＤ命令を含む。種々のデータ要素は、パッキングされたデータタイプとしてレジスタに記憶することができ、実行ユニットは、要素のデータサイズに基づいて種々の要素を処理する。例えば、２５６ビット幅のベクトルで動作する場合、ベクトルの２５６ビットはレジスタに記憶され、実行ユニットは、４つの別個の６４ビットパックされたデータ要素（クワッドワード（ＱＷ）サイズのデータ要素）、８つの別個の３２ビットパックされたデータ要素（ダブルワード（ＤＷ）サイズのデータ要素）、１６の別個の１６ビットパックされたデータ要素（ワード（Ｗ）サイズのデータ要素）、または３２の別個の８ビットデータ要素（バイト（Ｂ）サイズのデータ要素）としてベクトルで動作する。しかし、異なるベクトル幅およびレジスタサイズが可能である。

所望により、１または複数の実行ユニットを、融合ＥＵに共通のスレッド制御論理（１８０７Ａ～１８０７Ｎ）を有する融合グラフィックス実行ユニット１８０９Ａ～１８０９Ｎに組み合わせることができる。複数のＥＵを１つのＥＵグループに融合することができる。融合ＥＵグループ内の各ＥＵは、別個のＳＩＭＤハードウェアスレッドを実行するように構成することができる。融合ＥＵ基中のＥＵの数は、実施形態によって変化し得る。さらに、ＳＩＭＤ８、ＳＩＭＤ１６、およびＳＩＭＤ３２を含むがこれらに限定されない種々のＳＩＭＤ幅をＥＵ毎に実施することができる。各融合グラフィックス実行ユニット１８０９Ａ～１８０９Ｎは、少なくとも２つの実行ユニットを含む。例えば、融合実行ユニット１８０９Ａは、第１のＥＵ１８０８Ａと、第２のＥＵ１８０８Ｂと、第１のＥＵ１８０８Ａと第２のＥＵ１８０８Ｂに共通のスレッド制御論理１８０７Ａとを含む。スレッド制御論理１８０７Ａは、融合グラフィックス実行ユニット１８０９Ａ上で実行されるスレッドを制御し、融合実行ユニット１８０９Ａ～１８０９Ｎ内の各ＥＵが共通命令ポインタレジスタを使用して実行できるようにする。

１または複数の内部命令キャッシュ（例えば、１８０６）は、実行ユニットに対するスレッド命令をキャッシュするためにスレッド実行論理１８００に含まれる。１または複数のデータキャッシュ（例えば、１８１２）をスレッド実行論理１８００に含めて、スレッド実行中にスレッドデータをキャッシュすることができる。実行論理１８００上で実行するスレッドは、共有ローカルメモリ１８１１に明示的に管理されたデータを記憶することもできる。サンプラ１８１０は、３Ｄ演算のためのテクスチャサンプリングおよびメディア動作のためのメディアサンプリングを提供するために含まれてもよい。サンプラ１８１０は、サンプリングプロセス中にテクスチャまたはメディアデータを処理してから、サンプリングされたデータを実行ユニットに提供するための、特殊なテクスチャまたはメディアサンプリング機能を含み得る。

実行中、グラフィックスおよびメディアパイプラインは、スレッド起動およびディスパッチ論理を介してスレッド実行論理１８００にスレッド開始要求を送信する。ジオメトリックオブジェクトのグループが処理され、ピクセルデータにラスタライズされると、シェーダプロセッサ１８０２内のピクセルプロセッサ論理（例えば、ピクセルシェーダ論理、フラグメントシェーダ論理など）が呼び出されて、出力情報をさらに計算し、結果を出力面（例えば、カラーバッファ、深度バッファ、ステンシルバッファなど）に書き込ませる。ピクセルシェーダまたはフラグメントシェーダは、ラスタライズされたオブジェクトにわたって補間される種々の頂点属性の値を計算できる。次に、シェーダプロセッサ１８０２内のピクセルプロセッサ論理は、アプリケーションプログラミングインターフェース（ＡＰＩ）提供のピクセルまたはフラグメントシェーダプログラムを実行することができる。シェーダプログラムを実行するために、シェーダプロセッサ１８０２は、スレッドディスパッチャ１８０４を介して実行ユニット（例えば、１８０８Ａ）にスレッドをディスパッチする。シェーダプロセッサ１８０２は、サンプラ１８１０内のテクスチャサンプリング論理を使用して、メモリ内に記憶されたテクスチャマップ内のテクスチャデータにアクセスすることができる。テクスチャデータおよび入力ジオメトリデータに対する算術演算は、各ジオメトリフラグメントに対するピクセルカラーデータを計算するか、または１または複数のピクセルをさらなる処理から破棄する。

さらに、データポート１８１４は、グラフィックスプロセッサ出力パイプライン上でのさらなる処理のために、処理されたデータをメモリに出力するために、スレッド実行論理１８００にメモリアクセスメカニズムを提供することができる。データポート１８１４は、データポート１８１４を介したメモリアクセスのためにデータをキャッシュするために、１または複数のキャッシュメモリ（例えば、データキャッシュ１８１２）を含むか、またはこれに結合することができる。

所望により、実行論理１８００は、レイトレーシング加速機能を提供するレイトレーサ１８０５も含み得る。レイトレーサ１８０５は、光線生成のための命令／機能を含むレイトレーシング命令セットをサポートすることができる。レイトレーシング命令セットは、図３Ｃのレイトレーシングコア３７２によってサポートされるレイトレーシング命令セットと同様であっても異なっていてもよい。

図１８Ｂは、実行ユニット１８０８の例示的な内部詳細を示している。グラフィックス実行ユニット１８０８は、命令フェッチユニット１８３７と、一般レジスタファイルアレイ（ＧＲＦ）１８２４と、アーキテクチャレジスタファイルアレイ（ＡＲＦ）１８２６と、スレッドアービタ１８２２と、送信ユニット１８３０と、分岐ユニット１８３２と、ＳＩＭＤ浮動小数点ユニット（ＦＰＵ）のセット１８３４と、所望により、専用の整数ＳＩＭＤ型ＡＬＵのセット１８３５とを含み得る。ＧＲＦ１８２４およびＡＲＦ１８２６は、グラフィックス実行ユニット１８０８においてアクティブであり得る各同時ハードウェアスレッドに関連付けられた一般レジスタファイルおよびアーキテクチャレジスタファイルのセットを含む。スレッド毎のアーキテクチャ状態は、ＡＲＦ１８２６内に維持され得るが、スレッド実行中に使用されるデータは、ＧＲＦ１８２４内に記憶される。各スレッドの命令ポインタを含む各スレッドの実行状態は、ＡＲＦ１８２６のスレッド固有レジスタ内に保持することができる。

グラフィックス実行ユニット１８０８は、ＳＭＴ（同時マルチスレッディング）とＩＭＴ（細粒度インターリーブマルチスレッディング）とを組み合わせたアーキテクチャを有することができる。アーキテクチャは、同時スレッドの目標数および実行ユニット当たりのレジスタの数に基づいて設計時に微調整することができるモジュール構成を有することができ、実行ユニットリソースは、複数の同時スレッドを実行するために使用される論理にわたって分割される。なお、グラフィックス実行ユニット１８０８が実行できる論理スレッドの数は、ハードウェアスレッドの数に限定されるものではなく、各ハードウェアスレッドに複数の論理スレッドを割り当てることができる。

所望により、グラフィックス実行ユニット１８０８は、それぞれ異なる命令であり得る複数の命令を同時に発行することができる。グラフィックス実行ユニット１８０８のスレッドアービタ１８２２は、実行のために、送信ユニット１８３０、分岐ユニット１８３２、またはＳＩＭＤ型ＦＰＵ１８３４のうちの１つに命令をディスパッチすることができる。各実行スレッドは、ＧＲＦ１８２４内の１２８の汎用レジスタにアクセスすることができ、各レジスタは、３２ビットデータ要素のＳＩＭＤ８要素ベクトルとしてアクセス可能な３２バイトを記憶することができる。各実行ユニットスレッドは、ＧＲＦ１８２４内の４Ｋバイトへのアクセスを有することができるが、実施形態はそれに限定されず、他の実施形態ではより多くまたはより少ないレジスタリソースを提供することができる。グラフィックス実行ユニット１８０８は、独立して計算演算を実施し得る７つのハードウェアスレッドにパーティション化されてもよいが、実行ユニット当たりのスレッドの数も実施形態によって変化させることができ、例えば、最大１６のハードウェアスレッドをサポートすることができる。７個のスレッドが４Ｋバイトにアクセスすることができる例示的な実施形態では、ＧＲＦ１８２４は合計２８Ｋバイトを記憶することができる。１６個のスレッドが４Ｋバイトにアクセスすることができる別の例示的な実施形態では、ＧＲＦ１８２４は合計６４Ｋバイトを記憶することができる。ただし、実行単位当たりのスレッド数は、これらの例に限定されるものではなく、所定の数より多くても少なくてもよい。柔軟なアドレス指定モードは、レジスタを一緒にアドレス指定して効率的に広いレジスタを構築したり、ストライド矩形ブロックデータ構造を表現したりすることを可能にする。

付加的または代替的に、メモリ動作、サンプラ動作、および他のより長いレイテンシのシステム通信は、メッセージパッシング送信ユニット１８３０によって実行される「送信」命令を介してディスパッチすることができる。分岐命令は、ＳＩＭＤ分岐および最終的な収束を促進するために、専用分岐ユニット１８３２にディスパッチされてもよい。

グラフィックス実行ユニット１８０８は、浮動小数点演算を実施するための１または複数のＳＩＭＤ浮動小数点ユニット（ＦＰＵ）１８３４を含み得る。ＦＰＵ１８３４は、整数計算をサポートすることもできる。一部の例では、ＦＰＵ１８３４は、最大Ｍ個の３２ビット浮動小数点（または整数）演算をＳＩＭＤ実行することができ、または最大２Ｍの１６ビット整数または１６ビット浮動小数点演算をＳＩＭＤ実行することができる。所望により、ＦＰＵの少なくとも１つは、高スループット周期数学機能および倍精度６４ビット浮動小数点をサポートするための拡張数学機能を提供する。８ビット整数ＳＩＭＤ型ＡＬＵ１８３５のセットも存在することができ、機械学習計算に関連する演算を実施するように特に最適化することができる。

所望により、グラフィックス実行ユニット１８０８の複数のインスタンスのアレイは、グラフィックスサブコアグループ化（例えば、サブスライス）においてインスタンス化することができる。スケーラビリティのために、プロダクトアーキテクトは、サブコアグループ毎に正確な実行ユニット数を選択することができる。実行ユニット１８０８は、複数の実行チャネルにわたって命令を実行することができる。また、グラフィックス実行ユニット１８０８で実行される各スレッドは、異なるチャネルで実行されてもよい。

図１９は、さらに例示的な実行ユニット１９００を示している。本明細書の他の図の要素と同一または類似の名称を有する図１９の要素は、他の図と同一の要素を記載しており、それと同様の方法で動作または機能することができ、同じコンポーネントを含むことができ、本明細書の他の箇所に記載されているような他のエンティティにリンクすることができるが、これらに限定されるものではない。実行ユニット１９００は、例えば、図１６Ｃにおけるような計算エンジンタイル１６４０Ａ～１６４０Ｄで使用するための計算最適化実行ユニットであってもよいが、かかるものに限定されない。実行ユニット１９００はまた、図１６Ｂにおけるように、グラフィックスエンジンタイル１６１０Ａ～１６１０Ｄにおいて使用され得る。実行ユニット１９００は、スレッド制御ユニット１９０１、スレッド状態ユニット１９０２、命令フェッチ／プリフェッチユニット１９０３、および命令デコードユニット１９０４を含み得る。実行ユニット１９００は、さらに、実行ユニット内のハードウェアスレッドに割り当てることができるレジスタを記憶するレジスタファイル１９０６を含み得る。実行ユニット１９００は、さらに、送信ユニット１９０７と分岐ユニット１９０８とを含み得る。送信ユニット１９０７および分岐ユニット１９０８は、図１８Ｂのグラフィックス実行ユニット１８０８の送信ユニット１８３０および分岐ユニット１８３２と同様に動作することができる。

実行ユニット１９００はまた、複数の異なるタイプの機能ユニットを含む計算ユニット１９１０を含み得る。計算ユニット１９１０はまた、ＡＬＵ１９１１、シストリックアレイ１９１２、および数値演算ユニット１９１３を含み得る。ＡＬＵ１９１１は、算術論理ユニットのアレイを含む。ＡＬＵ１９１１は、複数の処理レーンおよびデータチャネルにわたって、また複数のハードウェアおよび／またはソフトウェアスレッドに対して、６４ビット、３２ビットおよび１６ビットの整数および浮動小数点演算を実施するように構成することができる。ＡＬＵ１９１１は、整数演算と浮動小数点演算を同時に（例えば、同じクロックサイクル内で）実施することができる。

シストリックアレイ１９１２は、シストリック方式でベクトルまたは他のデータ並列演算を実施するために使用することができるデータ処理ユニットのＷ幅およびＤ深度ネットワークを含む。シストリックアレイ１９１２は、内積、外積、および汎用行列－行列乗算（ＧＥＭＭ）演算を含む種々の行列演算を実施するように構成することができる。シストリックアレイ１９１２は、１６ビット浮動小数点演算、ならびに８ビット、４ビット、２ビットおよびバイナリ整数演算をサポートすることができる。シストリックアレイ１９１２は、機械学習動作を加速するように構成することができる。シストリックアレイ１９１２は、米国電気電子技術者協会（ＩＥＥＥ）７５４フォーマットに対して異なる数の仮数および指数ビットを有するｂｆｌｏａｔ１６（ブレーン浮動小数点）１６ビット浮動小数点フォーマットまたはテンソル浮動小数点３２ビット浮動小数点フォーマット（ＴＦ３２）をサポートするように構成することができる。ＦＰ６４フォーマットもサポートされる。

一実施形態では、シストリックアレイ１９１２は、疎行列演算を加速するハードウェアを含む。入力データの疎領域に対する乗算演算は、スループットを犠牲にすることなくバイパスすることができる。入力行列内のブロック疎性を検出することができ、既知の出力値を有する演算をバイパスすることができる。一実施形態では、シストリックアレイ１９１２は、圧縮された表現を有する疎データに対する演算を可能にするハードウェアを含む。疎行列の圧縮表現は、非ゼロ値と、行列内の非ゼロ値の位置を定義するメタデータを記憶する。例示的な圧縮表現には、圧縮疎行（ＣＳＲ）表現、圧縮疎列（ＣＳＣ）表現、圧縮疎ファイバ（ＣＳＦ）表現などの圧縮テンソル表現が含まれるが、これらに限定されない。圧縮表現のサポートにより、圧縮表現を解凍またはデコードすることを必要とせずに、圧縮テンソルフォーマットの入力に対して演算を実施することが可能になる。かかる実施形態では、演算は非ゼロ入力値に対してのみ実施することができ、結果として得られる非ゼロ出力値は出力行列にマッピングすることができる。一部の実施形態では、ハードウェア内またはシステムバスを介してデータを伝送するときに使用される機械固有のロスレスデータ圧縮フォーマットに対してもハードウェアサポートが提供される。かかるデータは、疎入力データ用の圧縮フォーマットで保持されてもよく、シストリックアレイ１９１２は、非ゼロ値に対してのみ演算を実施することを可能にするため、またはゼロデータ入力のブロックが乗算演算用にバイパスされることを可能にするために、圧縮データ用の圧縮メタデータを使用することができる。

数値演算ユニット１９１３は、ＡＬＵユニット１９１１よりも効率的かつ低電力の方法で数学的演算の特定のサブセットを実施するように構成することができる。数値演算ユニット１９１３は、例えば図１７の共有機能論理１７２０の数学論理１７２２など、記載された他の実施形態によって提供されるグラフィックス処理エンジンの共有機能論理内に見出される数値演算論理を含み得る。数値演算ユニット１９１３は、３２ビットおよび６４ビット浮動小数点演算を実施するように構成することができる。

スレッド制御ユニット１９０１は、実行ユニット内のスレッドの実行を制御するための論理を含む。スレッド制御ユニット１９０１は、実行ユニット１９００内のスレッドの実行を開始、停止、およびプリエンプトするためのスレッド調停論理を含み得る。スレッド状態ユニット１９０２は、実行ユニット１９００上で実行するように割り当てられたスレッドのスレッド状態を記憶するために使用することができる。実行ユニット１９００内にスレッド状態を記憶することにより、スレッドがブロックまたはアイドル状態になったときに、スレッドの迅速なプリエンプションが可能になる。命令フェッチ／プリフェッチユニット１９０３は、より高レベルの実行論理の命令キャッシュ（例えば、図１８Ａにおける命令キャッシュ１８０６）から命令をフェッチすることができる。命令フェッチ／プリフェッチユニット１９０３は、現在実行中のスレッドの分析に基づいて、命令キャッシュにロードされる命令に対するプリフェッチ要求を発行することもできる。命令デコードユニット１９０４は、計算ユニットによって実行される命令をデコードするために使用することができる。命令デコードユニット１９０４は、複雑な命令をコンポーネントのマイクロ動作にデコードするための二次デコーダとして使用することができる。

実行ユニット１９００は、さらに、実行ユニット１９００上で実行されるハードウェアスレッドによって使用され得るレジスタファイル１９０６を含む。レジスタファイル１９０６内のレジスタは、実行ユニット１９００の計算ユニット１９１０内で複数の同時スレッドを実行するために使用される論理にわたって分割することができる。なお、グラフィックス実行ユニット１９００が実行できる論理スレッドの数は、ハードウェアスレッドの数に限定されるものではなく、各ハードウェアスレッドに複数の論理スレッドを割り当てることができる。レジスタファイル１９０６のサイズは、サポートされるハードウェアスレッドの数に基づいて、実施形態によって変化することができる。レジスタリネーミングは、レジスタをハードウェアスレッドに動的に割り振るために使用することができる。

図２０は、グラフィックスプロセッサ命令フォーマット２０００を示すブロック図である。グラフィックスプロセッサ実行ユニットは、複数のフォーマットの命令を有する命令セットをサポートする。実線のボックスは、概して実行ユニット命令に含まれるコンポーネントを示し、破線は、所望によるコンポーネント、または命令のサブセットにのみ含まれるコンポーネントを含む。一部の実施形態では、説明および図示したグラフィックスプロセッサ命令フォーマット２０００はマクロ命令であり、実行ユニットに供給される命令であり、命令が処理された後に命令デコードから生じるマイクロ動作とは対照的である。したがって、単一の命令は、ハードウェアに複数のマイクロ動作を実施させることができる。

本明細書に記載されるグラフィックスプロセッサ実行ユニットは、１２８ビット命令フォーマット２０１０の命令をネイティブにサポートすることができる。６４ビット圧縮命令フォーマット２０３０は、選択された命令、命令オプション、およびオペランドの数に基づいて一部の命令に対して利用可能である。ネイティブな１２８ビット命令フォーマット２０１０は、全ての命令オプションへのアクセスを提供するが、一部のオプションおよび動作は６４ビットフォーマット２０３０で制限される。６４ビットフォーマット２０３０で利用可能なネイティブ命令は、実施形態によって変化する。命令は、インデックスフィールド２０１３内のインデックス値のセットを使用して部分的に圧縮される。実行ユニットハードウェアは、インデックス値に基づいて圧縮テーブルのセットを参照し、圧縮テーブル出力を使用して、１２８ビット命令フォーマット２０１０でネイティブ命令を再構成する。命令の他のサイズおよびフォーマットを使用することができる。

各フォーマットに対して、命令オペコード２０１２は、実行ユニットが実施すべき動作を定義する。実行ユニットは、各オペランドの複数のデータ要素にわたって各命令を並列に実行する。例えば、加算命令に応答して、実行ユニットは、テクスチャ要素またはピクチャ要素を表す各カラーチャネルにわたって同時加算演算を実施する。デフォルトでは、実行ユニットはオペランドの全てのデータチャネルにわたって各命令を実施する。命令制御フィールド２０１４は、チャネル選択（例えば、プレディケーション）およびデータチャネル順序（例えば、スウィズル）などの特定の実行オプションに対する制御を可能にし得る。１２８ビット命令フォーマット２０１０内の命令に対して、ｅｘｅｃ－ｓｉｚｅフィールド２０１６は、並列に実行されるデータチャネルの数を制限する。ｅｘｅｃ－ｓｉｚｅフィールド２０１６は、６４ビットコンパクト命令フォーマット２０３０で使用するために利用可能でない場合がある。

一部の実行ユニット命令は、２つのソースオペランドｓｒｃ０２０２０、ｓｒｃ１２０２２、および１つの宛先オペランド（ｄｅｓｔ２０１８）を含む最大３つのオペランドを有する。例えば、データ操作命令、ドット積命令、積和命令、または乗累算命令などの他の命令は、第３のソースオペランド（例えば、ＳＲＣ２２０２４）を有することができる。命令オペコード２０１２は、ソースオペランドの数を決定する。命令の最後のソースオペランドは、命令とともに渡される即時（例えば、ハードコードされた）値であり得る。実行ユニットは、複数の宛先命令をサポートすることもでき、宛先のうちの１または複数は、命令および／または指定された宛先に基づいて黙示的または暗黙的である。

１２８ビット命令フォーマット２０１０は、例えば、直接レジスタアドレス指定モードまたは間接レジスタアドレス指定モードのどちらが使用されるかを指定するアクセス／アドレスモードフィールド２０２６を含み得る。直接レジスタアドレス指定モードが使用される場合、１または複数のオペランドのレジスタアドレスは、命令内のビットによって直接提供される。

１２８ビット命令フォーマット２０１０はまた、命令のアドレスモードおよび／またはアクセスモードを指定するアクセス／アドレスモードフィールド２０２６を含み得る。アクセスモードを使用して、命令に対するデータアクセスアライメントを定義することができる。１６バイトアライメントアクセスモードおよび１バイトアライメントアクセスモードを含むアクセスモードをサポートすることができ、アクセスモードのバイトアライメントが命令オペランドのアクセスアライメントを決定する。例えば、第１のモードでは、命令は、ソースオペランドおよび宛先オペランドに対してバイトアライメントアドレス指定を使用することができ、第２のモードでは、命令は、全てのソースオペランドおよび宛先オペランドに対して１６バイトアライメントアドレス指定を使用することができる。

アクセス／アドレスモードフィールド２０２６のアドレスモード部分は、命令が直接アドレス指定を使用するか間接アドレス指定を使用するかを判定することができる。直接レジスタアドレス指定モードが使用される場合、命令内のビットは、１または複数のオペランドのレジスタアドレスを直接提供する。間接レジスタアドレス指定モードが使用される場合、１または複数のオペランドのレジスタアドレスは、命令内のアドレスレジスタ値およびアドレス即値フィールドに基づいて計算することができる。

命令は、オペコードデコード２０４０を単純化するために、オペコード２０１２ビットフィールドに基づいてグループ化されてもよい。８ビットのオペコードに対して、ビット４、５、および６は、実行ユニットがオペコードのタイプを決定することを可能にする。示された正確なオペコードのグループ化は単なる例である。移動および論理オペコードグループ２０４２は、データ移動および論理命令（例えば、ｍｏｖｅ（ｍｏｖ）、ｃｏｍｐａｒｅ（ｃｍｐ））を含み得る。移動および論理グループ２０４２は、５つの最下位ビット（ＬＳＢ）を共有することができ、ここで、移動（ｍｏｖ）命令は００００ｘｘｘｘｂの形態であり、論理命令は０００１ｘｘｘｘｂの形態である。フロー制御命令グループ２０４４（例えば、ｃａｌｌ、ｊｕｍｐ（ｊｍｐ））は、００１０ｘｘｘｘｂ（例えば、０ｘ２０）の形式の命令を含む。その他の命令グループ２０４６は、００１１ｘｘｘｘｂ（例えば、０ｘ３０）の形式の同期命令（例えば、待機、送信）を含む命令の混合を含む。並列数値演算命令群２０４８は、０１００ｘｘｘｘｂ（例えば、０ｘ４０）の形式のコンポーネント単位の算術命令（例えば、ａｄｄ、ｍｕｌｔｉｐｌｙ（ｍｕｌ））を含む。並列数値演算命令群２０４８は、データチャネルにわたって並列に算術演算を実施する。ベクトル数値演算グループ２０５０は、０１０１ｘｘｘｘｂ（例えば０ｘ５０）の形式の算術命令（例えばｄｐ４）を含む。ベクトル数値演算グループでは、ベクトルオペランドの内積計算などの算術演算を行う。図示されたオペコードデコード２０４０は、一実施形態において、実行ユニットのどの部分がデコードされた命令を実行するために使用されるかを判定するために使用することができる。例えば、一部の命令は、シストリックアレイによって実施されるシストリック命令として指定することができる。レイトレーシング命令（図示せず）などの他の命令は、実行論理のスライスまたはパーティション内のレイトレーシングコアまたはレイトレーシング論理にルーティングすることができる。
グラフィックスパイプライン

図２１は、別の実施形態による、グラフィックスプロセッサ２１００のブロック図である。本明細書の他の図の要素と同一または類似の名称を有する図２１の要素は、他の図と同一の要素を記載しており、それと同様の方法で動作または機能することができ、同じコンポーネントを含むことができ、本明細書の他の箇所に記載されているような他のエンティティにリンクすることができるが、これらに限定されるものではない。

グラフィックスプロセッサ２１００は、ジオメトリパイプライン２１２０、メディアパイプライン２１３０、ディスプレイエンジン２１４０、スレッド実行論理２１５０、レンダリング出力パイプライン２１７０などの異なるタイプのグラフィックス処理パイプラインを含み得る。グラフィックスプロセッサ２１００は、１または複数の汎用処理コアを含むマルチコア処理システム内のグラフィックスプロセッサであり得る。グラフィックスプロセッサは、１または複数の制御レジスタ（図示せず）へのレジスタ書き込みによって、またはリング相互接続２１０２を介してグラフィックスプロセッサ２１００に発行されたコマンドによって制御されてもよい。リング相互接続２１０２は、グラフィックスプロセッサ２１００を、他のグラフィックスプロセッサまたは汎用プロセッサなどの他の処理コンポーネントに結合することができる。リング相互接続２１０２からのコマンドは、コマンドストリーマ２１０３によって解釈され、命令をジオメトリパイプライン２１２０またはメディアパイプライン２１３０の個々のコンポーネントに供給する。

コマンドストリーマ２１０３は、メモリから頂点データを読み出し、コマンドストリーマ２１０３によって提供される頂点処理コマンドを実行する頂点フェッチデバイス２１０５の動作を指示することができる。頂点フェッチデバイス２１０５は、頂点データを頂点シェーダ２１０７に提供することができ、これは、各頂点に対して座標空間変換およびライティング演算を実施する。頂点フェッチデバイス２１０５および頂点シェーダ２１０７は、実行スレッドをスレッドディスパッチャ２１３１を介して実行ユニット２１５２Ａ～２１５２Ｂにディスパッチすることによって、頂点処理命令を実行することができる。

実行ユニット２１５２Ａ～２１５２Ｂは、グラフィックスおよびメディア動作を実施するための命令セットを有するベクトルプロセッサのアレイであり得る。実行ユニット２１５２Ａ～２１５２Ｂは、各アレイに固有であるか、またはアレイ間で共有される付属Ｌ１キャッシュ２１５１を有し得る。キャッシュは、データキャッシュ、命令キャッシュ、または異なるパーティションにデータおよび命令を含むようにパーティション化された単一キャッシュとして構成することができる。

ジオメトリパイプライン２１２０は、３Ｄオブジェクトのハードウェアアクセラレーションのテッセレーションを実施するためのテッセレーションコンポーネントを含み得る。プログラム可能なハルシェーダ２１１１は、テッセレーション動作を構成することができる。プログラマブルドメインシェーダ２１１７は、テッセレーション出力のバックエンド評価を提供することができる。テッセレータ２１１３は、ハルシェーダ２１１１の方向で動作し、ジオメトリパイプライン２１２０への入力として提供される粗いジオメトリモデルに基づいて細部ジオメトリオブジェクトのセットを生成するための特殊目的論理を含み得る。さらに、テッセレーションが使用されない場合、テッセレーションコンポーネント（例えば、ハルシェーダ２１１１、テッセレータ２１１３、ドメインシェーダ２１１７）をバイパスすることができる。テッセレーションコンポーネントは、頂点シェーダ２１０７から受信したデータに基づいて動作することができる。

完全なジオメトリオブジェクトは、実行ユニット２１５２Ａ～２１５２Ｂにディスパッチされた１または複数のスレッドを介してジオメトリシェーダ２１１９によって処理されてもよく、または直接クリッパ２１２９に進むこともできる。ジオメトリシェーダは、グラフィックスパイプラインの前の段階のような頂点または頂点のパッチではなく、ジオメトリオブジェクト全体に作用する場合がある。テッセレーションが無効になっている場合、ジオメトリシェーダ２１１９は、頂点シェーダ２１０７から入力を受信する。ジオメトリシェーダ２１１９は、テッセレーションユニットが無効である場合にジオメトリテッセレーションを実施するために、ジオメトリシェーダプログラムによってプログラム可能であってもよい。

ラスタライズの前に、クリッパ２１２９は頂点データを処理する。クリッパ２１２９は、固定機能クリッパであってもおよびジオメトリシェーダ機能を有するプログラマブルクリッパであり得る。レンダリング出力パイプライン２１７０内のラスタライザおよび深度テストコンポーネント２１７３は、ピクセルシェーダをディスパッチして、ジオメトリックオブジェクトをピクセル単位の表現に変換することができる。ピクセルシェーダ論理は、スレッド実行論理２１５０に含まれてもよい。所望により、アプリケーションは、ラスタライザおよび深度テストコンポーネント２１７３をバイパスし、ストリームアウトユニット２１２３を介して非ラスタライズ頂点データにアクセスすることができる。

グラフィックスプロセッサ２１００は、プロセッサの主要コンポーネント間でデータおよびメッセージを通過させる相互接続バス、相互接続ファブリック、または他の何らかの相互接続メカニズムを有する。一部の実施形態では、実行ユニット２１５２Ａ～２１５２Ｂおよび関連する論理ユニット（例えば、Ｌ１キャッシュ２１５１、サンプラ２１５４、テクスチャキャッシュ２１５８など）は、データポート２１５６を介して相互接続し、メモリアクセスを実施し、プロセッサのレンダリング出力パイプラインコンポーネントと通信する。サンプラ２１５４、キャッシュ２１５１、２１５８、および実行ユニット２１５２Ａ～２１５２Ｂはそれぞれ、別個のメモリアクセス経路を有することができる。所望により、テクスチャキャッシュ２１５８をサンプラキャッシュとして構成することもできる。

レンダリング出力パイプライン２１７０は、頂点ベースのオブジェクトを関連するピクセルベースの表現に変換するラスタライザおよび深度テストコンポーネント２１７３を含み得る。ラスタライザ論理は、固定機能三角形およびラインラスタライズを実施するためのウィンドア／マスカーユニットを含み得る。一部の実施形態では、関連するレンダリングキャッシュ２１７８および深度キャッシュ２１７９も利用可能である。ピクセル演算コンポーネント２１７７は、データに対してピクセルベースの演算を実施するが、場合によっては、２Ｄ演算に関連付けられたピクセル演算（例えば、ブレンドを伴うビットブロック画像転送）は２Ｄエンジン２１４１によって実施されるか、またはオーバーレイ表示プレーンを使用してディスプレイコントローラ２１４３によって表示時に置換される。共有Ｌ３キャッシュ２１７５は、全てのグラフィックスコンポーネントに利用可能であり、メインシステムメモリを使用することなくデータの共有を可能にする。

メディアパイプライン２１３０は、メディアエンジン２１３７およびビデオフロントエンド２１３４を含み得る。ビデオフロントエンド２１３４は、コマンドストリーマ２１０３からパイプラインコマンドを受信することができる。メディアパイプライン２１３０は、別個のコマンドストリーマを含み得る。ビデオフロントエンド２１３４は、メディアエンジン２１３７にコマンドを送信する前に、メディアコマンドを処理することができる。メディアエンジン２１３７は、スレッドディスパッチャ２１３１を介してスレッド実行論理２１５０にディスパッチするスレッドを生成させるためのスレッド生成機能を含み得る。

グラフィックスプロセッサ２１００は、ディスプレイエンジン２１４０を含み得る。このディスプレイエンジン２１４０は、プロセッサ２１００の外部にあってもよく、リング相互接続２１０２または他の相互接続バスまたはファブリックを介してグラフィックスプロセッサと結合してもよい。ディスプレイエンジン２１４０は、２Ｄエンジン２１４１およびディスプレイコントローラ２１４３を含み得る。ディスプレイエンジン２１４０は、３Ｄパイプラインとは独立して動作することができる特殊目的論理を含み得る。ディスプレイコントローラ２１４３は、ディスプレイデバイス（図示せず）と結合することができ、ディスプレイデバイスは、ラップトップコンピュータのようなシステム統合ディスプレイデバイスであってもよく、またはディスプレイデバイスコネクタを介して取り付けられた外部ディスプレイデバイスであってもよい。

ジオメトリパイプライン２１２０およびメディアパイプライン２１３０は、複数のグラフィックスおよびメディアプログラミングインターフェースに基づいて動作を実施するように構成することができ、いずれか１つのアプリケーションプログラミングインターフェース（ＡＰＩ）に固有ではない。グラフィックスプロセッサ用のドライバソフトウェアは、特定のグラフィックスまたはメディアライブラリに特有のＡＰＩ呼び出しを、グラフィックスプロセッサによって処理可能なコマンドに変換することができる。ＫｈｒｏｎｏｓＧｒｏｕｐのオープングラフィックスライブラリ（ＯｐｅｎＧＬ）、オープンコンピューティング言語（ＯｐｅｎＣＬ）、および／またはＶｕｌｋａｎグラフィックスとコンピューティングＡＰＩのサポートが提供され得る。Ｍｉｃｒｏｓｏｆｔ社からＤｉｒｅｃｔ３Ｄライブラリのサポートを受けることもできる。これらのライブラリを組み合わせて使用することもできる。オープンソースコンピュータビジョンライブラリ（ＯｐｅｎＣＶ）もサポートされ得る。将来のＡＰＩのパイプラインからグラフィックスプロセッサのパイプラインへのマッピングが可能であれば、互換性のある３Ｄパイプラインを備えた将来のＡＰＩもサポートされるだろう。
グラフィックスパイプラインプログラミング

図２２Ａは、例えば、図１６Ａ、１７、２１に関連して本明細書に記載されるパイプラインなどのグラフィックス処理パイプラインをプログラミングするために使用されるグラフィックスプロセッサコマンドフォーマット２２００を示すブロック図である。図２２Ｂは、一実施形態によるグラフィックスプロセッサコマンドシーケンス２２１０を示すブロック図である。図２２Ａの実線のボックスは、グラフィックスコマンドに概して含まれるコンポーネントを示し、一方、破線は、所望によるコンポーネント、またはグラフィックスコマンドのサブセットにのみ含まれるコンポーネントを含む。図２２Ａの例示的なグラフィックスプロセッサコマンドフォーマット２２００は、クライアント２２０２を識別するためのデータフィールド、コマンド動作コード（オペコード）２２０４、およびコマンドのためのデータ２２０６を含む。サブオペコード２２０５およびコマンドサイズ２２０８も、一部のコマンドに含まれる。

クライアント２２０２は、コマンドデータを処理するグラフィックスデバイスのクライアントユニットを指定することができる。グラフィックスプロセッサコマンドパーサは、各コマンドのクライアントフィールドを調べて、コマンドのさらなる処理を調整し、コマンドデータを適切なクライアントユニットにルーティングすることができる。グラフィックスプロセッサクライアントユニットは、メモリインターフェースユニット、レンダリングユニット、２Ｄユニット、３Ｄユニット、およびメディアユニットを含み得る。各クライアントユニットは、コマンドを処理する対応する処理パイプラインを有することができる。コマンドがクライアントユニットによって受信されると、クライアントユニットはオペコード２２０４を読み出し、存在する場合、サブオペコード２２０５を読み出し、実施すべき動作を決定する。クライアントユニットは、データフィールド２２０６内の情報を使用してコマンドを実施する。一部のコマンドでは、明示的なコマンドサイズ２２０８が、コマンドのサイズを指定することが予想される。コマンドパーサは、コマンドオペコードに基づいて、コマンドの少なくとも一部のサイズを自動的に決定することができる。コマンドはダブルワードの倍数を介して整列させることができる。その他のコマンド形式も使用できる。

図２２Ｂのフロー図は、例示的なグラフィックスプロセッサコマンドシーケンス２２１０を示している。例示的なグラフィックスプロセッサを特徴とするデータ処理システムのソフトウェアまたはファームウェアは、グラフィックス動作のセットをセットアップし、実行し、終了するために示されたコマンドシーケンスのバージョンを使用することができる。サンプルコマンドシーケンスは、例示のみを目的として示され、説明され、これらの特定のコマンドまたはこのコマンドシーケンスに限定されない。さらに、コマンドは、グラフィックスプロセッサが少なくとも部分的に同時にコマンドのシーケンスを処理するように、コマンドシーケンスにおけるコマンドのバッチとして発行することができる。

グラフィックスプロセッサコマンドシーケンス２２１０は、パイプラインフラッシュコマンド２２１２で開始して、任意のアクティブなグラフィックスパイプラインに、そのパイプラインに対する現在保留中のコマンドを完了させることができる。所望により、３Ｄパイプライン２２２２およびメディアパイプライン２２２４は、同時に動作しなくてもよい。パイプラインフラッシュは、アクティブなグラフィックスパイプラインに任意の保留コマンドを完了させるために実施される。パイプラインフラッシュに応答して、グラフィックスプロセッサのコマンドパーサは、アクティブな描画エンジンが保留中の動作を完了し、関連する読み出しキャッシュが無効にされるまで、コマンド処理を一時停止する。所望により、「ダーティ」とマークされたレンダキャッシュ内の全てのデータをメモリにフラッシュできる。パイプラインフラッシュコマンド２２１２は、パイプライン同期のために、またはグラフィックスプロセッサを低電力状態に置く前に使用することができる。

パイプライン選択コマンド２２１３は、コマンドシーケンスがパイプライン間で明示的に切り替えるためにグラフィックスプロセッサを必要とする場合に使用することができる。パイプライン選択コマンド２２１３は、実行コンテキストが両方のパイプラインに対してコマンドを発行するものでない限り、パイプラインコマンドを発行する前に実行コンテキスト内で一度だけ必要とされ得る。パイプラインフラッシュコマンド２２１２は、パイプライン選択コマンド２２１３を介してパイプラインスイッチの直前に必要とされてもよい。

パイプライン制御コマンド２２１４は、動作のためのグラフィックスパイプラインを構成することができ、３Ｄパイプライン２２２２およびメディアパイプライン２２２４をプログラムするために使用することができる。パイプライン制御コマンド２２１４は、アクティブパイプラインのパイプライン状態を設定することができる。パイプライン制御コマンド２２１４は、パイプライン同期のため、およびコマンドのバッチを処理する前にアクティブパイプライン内の１または複数のキャッシュメモリからデータをクリアするために使用されてもよい。

リターンバッファ状態２２１６に関連するコマンドを使用して、データを書き込む各パイプライン用のリターンバッファのセットを構成することができる。一部のパイプライン動作は、動作が処理中に中間データを書き込む１または複数のリターンバッファの割り振り、選択、または設定を必要とする。グラフィックスプロセッサはまた、出力データを記憶し、クロススレッド通信を実施するために１または複数のリターンバッファを使用することができる。リターンバッファ状態２２１６は、パイプライン動作のセットのために使用するリターンバッファのサイズおよび数を選択することを含み得る。

コマンドシーケンス内の残りのコマンドは、動作のためのアクティブなパイプラインに基づいて異なる。パイプライン判定２２２０に基づいて、コマンドシーケンスは、３Ｄパイプライン状態２２３０で始まる３Ｄパイプライン２２２２、またはメディアパイプライン状態２２４０で始まるメディアパイプライン２２２４に調整される。

３Ｄパイプライン状態２２３０を設定するためのコマンドは、頂点バッファ状態、頂点要素状態、一定色状態、深度バッファ状態、および３Ｄプリミティブコマンドが処理される前に設定されるべき他の状態変数に対する３Ｄ状態設定コマンドを含む。これらのコマンドの値は、少なくとも部分的に、使用中の特定の３ＤＡＰＩに基づいて決定される。３Ｄパイプライン状態２２３０コマンドはまた、特定のパイプライン要素が使用されない場合には、それらの要素を選択的に無効化またはバイパスすることができる。

３Ｄプリミティブ２２３２コマンドを使用して、３Ｄパイプラインによって処理される３Ｄプリミティブをサブミットすることができる。３Ｄプリミティブ２２３２コマンドを介してグラフィックスプロセッサに渡されるコマンドおよび関連パラメータは、グラフィックスパイプラインの頂点フェッチ機能に転送される。頂点フェッチ機能は、３Ｄプリミティブ２２３２コマンドデータを使用して、頂点データ構造を生成する。頂点データ構造は、１または複数のリターンバッファに記憶される。３Ｄプリミティブ２２３２コマンドは、頂点シェーダを介して３Ｄプリミティブ上で頂点演算を実施するために使用することができる。頂点シェーダを処理するために、３Ｄパイプライン２２２２は、シェーダ実行スレッドをグラフィックスプロセッサ実行ユニットにディスパッチする。

３Ｄパイプライン２２２２は、実行２２３４コマンドまたはイベントを介してトリガすることができる。レジスタは、トリガコマンド実行を書き込むことができる。実行は、コマンドシーケンス内の「ｇｏ」または「ｋｉｃｋ」コマンドによってトリガされ得る。コマンド実行は、パイプライン同期コマンドを使用してトリガされ、グラフィックスパイプラインを介してコマンドシーケンスをフラッシュすることができる。３Ｄパイプラインは、３Ｄプリミティブのジオメトリ処理を実施する。演算が完了すると、生成されたジオメトリックオブジェクトがラスタライズされ、ピクセルエンジンによって生成されたピクセルがカラー表示される。ピクセルシェーディングおよびピクセルバックエンド演算を制御するための追加コマンドも、これらの演算に含まれてもよい。

グラフィックスプロセッサコマンドシーケンス２２１０は、メディア動作を実施するときにメディアパイプライン２２２４の経路に従うことができる。概して、メディアパイプライン２２２４のためのプログラミングの特定の使用および方法は、実施されるべきメディアまたは計算演算に依存する。特定のメディアデコード動作は、メディアデコード中にメディアパイプラインにオフロードされてもよい。メディアパイプラインをバイパスすることもでき、メディアデコードは、１または複数の汎用処理コアによって提供されるリソースを使用して全体または一部を実施することができる。メディアパイプラインはまた、汎用グラフィックスプロセッサユニット（ＧＰＧＰＵ）演算のための要素を含むことができ、ここで、グラフィックスプロセッサは、グラフィックスプリミティブのレンダリングに明示的に関連しない計算シェーダプログラムを使用してＳＩＭＤベクトル演算を実施するために使用される。

メディアパイプライン２２２４は、３Ｄパイプライン２２２２と同様の方法で構成することができる。メディアパイプライン状態２２４０を構成するためのコマンドのセットは、メディアオブジェクトコマンド２２４２の前に、コマンドキューにディスパッチされるかまたは配置される。メディアパイプライン状態２２４０に対するコマンドは、メディアオブジェクトを処理するために使用されるメディアパイプライン要素を構成するためのデータを含み得る。これは、エンコードまたはデコードフォーマットなどの、メディアパイプライン内のビデオデコードおよびビデオエンコード論理を構成するためのデータを含む。メディアパイプライン状態２２４０に対するコマンドは、状態設定のバッチを含む「間接」状態要素への１または複数のポインタの使用をサポートすることもできる。

メディアオブジェクトコマンド２２４２は、メディアパイプラインによって処理するためのメディアオブジェクトへのポインタを供給することができる。メディアオブジェクトは、処理されるビデオデータを含むメモリバッファを含む。所望により、全てのメディアパイプライン状態は、メディアオブジェクトコマンド２２４２を発行する前に有効でなければならない。一旦、パイプライン状態が構成され、メディアオブジェクトコマンド２２４２がキューに入れられると、メディアパイプライン２２２４は、実行コマンド２２４４または同等の実行イベント（例えば、レジスタ書き込み）を介してトリガされる。次いで、メディアパイプライン２２２４からの出力は、３Ｄパイプライン２２２２またはメディアパイプライン２２２４によって提供される動作によって後処理され得る。ＧＰＧＰＵ動作は、メディア動作と同様の方法で設定および実行することができる。
グラフィックスソフトウェアアーキテクチャ

図２３は、データ処理システム２３００のための例示的なグラフィックスソフトウェアアーキテクチャを示している。かかるソフトウェアアーキテクチャは、３Ｄグラフィックスアプリケーション２３１０、オペレーティングシステム２３２０、および少なくとも１つのプロセッサ２３３０を含み得る。プロセッサ２３３０は、グラフィックスプロセッサ２３３２および１または複数の汎用プロセッサコア２３３４を含み得る。プロセッサ２３３０は、プロセッサ１４０２の変形例であってもよいし、本明細書に記載されたプロセッサの他の任意のものであってもよい。プロセッサ２３３０は、プロセッサ１４０２または本明細書に記載されるプロセッサの他のいずれかの代わりに使用することができる。したがって、プロセッサ１４０２または本明細書に記載されるプロセッサの他のいずれかと組み合わせた任意の特徴の開示は、グラフィックスプロセッサ２３３２との対応する組み合わせも開示するが、これに限定されない。さらに、本明細書の他の図の要素と同一または類似の名称を有する図２３の要素は、他の図と同一の要素を記載しており、それと同様の方法で動作または機能することができ、同じコンポーネントを含むことができ、本明細書の他の箇所に記載されているような他のエンティティにリンクすることができるが、これらに限定されるものではない。グラフィックスアプリケーション２３１０およびオペレーティングシステム２３２０はそれぞれ、データ処理システムのシステムメモリ２３５０内で実行される。

３Ｄグラフィックスアプリケーション２３１０は、シェーダ命令２３１２を含む１または複数のシェーダプログラムを含み得る。シェーダ言語命令は、Ｄｉｒｅｃｔ３Ｄの高水準シェーダ言語（ＨＬＳＬ）、ＯｐｅｎＧＬシェーダ言語（ＧＬＳＬ）などの高水準シェーダ言語であってもよい。アプリケーションはまた、汎用プロセッサコア２３３４による実行に適した機械語の実行可能命令２３１４を含んでもよい。アプリケーションは、頂点データによって定義されたグラフィックスオブジェクト２３１６を含むこともできる。

オペレーティングシステム２３２０は、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎのＭｉｃｒｏｓｏｆｔ（登録商標）Ｗｉｎｄｏｗｓ（登録商標）オペレーティングシステム、独自仕様のＵＮＩＸ（登録商標）系オペレーティングシステム、またはＬｉｎｕｘカーネルの変形例を使用するオープンソースのＵＮＩＸ系オペレーティングシステムであり得る。オペレーティングシステム２３２０は、Ｄｉｒｅｃｔ３ＤＡＰＩ、ＯｐｅｎＧＬＡＰＩ、またはＶｕｌｋａｎＡＰＩなどのグラフィックスＡＰＩ２３２２をサポートすることができる。Ｄｉｒｅｃｔ３ＤＡＰＩが使用されている場合、オペレーティングシステム２３２０は、フロントエンドシェーダコンパイラ２３２４を使用して、ＨＬＳＬ内の任意のシェーダ命令２３１２を低レベルシェーダ言語にコンパイルする。コンパイルは、ジャストインタイム（ＪＩＴ）コンパイルであってもよく、またはアプリケーションはシェーダプリコンパイルを実施することができる。３Ｄグラフィックスアプリケーション２３１０のコンパイル中に、高レベルシェーダを低レベルシェーダにコンパイルすることができる。シェーダ命令２３１２は、ＶｕｌｋａｎＡＰＩによって使用される標準ポータブル中間表現（ＳＰＩＲ）のバージョンなどの中間形式で提供することができる。

ユーザモードグラフィックスドライバ２３２６は、シェーダ命令２３１２をハードウェア固有の表現に変換するためのバックエンドシェーダコンパイラ２３２７を含み得る。ＯｐｅｎＧＬＡＰＩが使用されている場合、ＧＬＳＬ高水準言語のシェーダ命令２３１２は、コンパイルのためにユーザモードグラフィックスドライバ２３２６に渡される。ユーザモードグラフィックスドライバ２３２６は、オペレーティングシステムカーネルモード機能２３２８を使用して、カーネルモードグラフィックスドライバ２３２９と通信することができる。カーネルモードグラフィックスドライバ２３２９は、グラフィックスプロセッサ２３３２と通信して、コマンドおよび命令をディスパッチすることができる。
ＩＰコアの実装形態

１または複数の態様は、プロセッサなどの集積回路内の論理を表すおよび／または定義する、機械可読媒体上に記憶された代表的なコードによって実装することができる。例えば、機械可読媒体は、プロセッサ内の種々の論理を表す命令を含んでもよい。機械によって読み出されると、命令は、機械に、本明細書に記載された技術を実施するための論理を製造させることができる。「ＩＰコア」として知られるかかる表現は、集積回路のための再利用可能な論理ユニットであり、集積回路の構造を記述するハードウェアモデルとして有形の機械可読媒体上に記憶することができる。ハードウェアモデルは、集積回路を製造する製造機械にハードウェアモデルをロードする種々の顧客または製造施設に供給することができる。集積回路は、本明細書に記載される実施形態のいずれかに関連して記載される動作を回路が実施するように製造することができる。

図２４Ａは、一実施形態による動作を実施する集積回路を製造するために使用され得るＩＰコア開発システム２４００を示すブロック図である。ＩＰコア開発システム２４００は、モジュール式の再利用可能な設計を生成するために使用ことができ、この設計は、より大きな設計に組み込むことができ、または集積回路全体（例えば、ＳＯＣ集積回路）を構築するために使用することができる。設計メカニズム２４３０は、高水準プログラミング言語（例えば、Ｃ／Ｃ＋＋）でＩＰコア設計のソフトウェアシミュレーション２４１０を生成することができる。ソフトウェアシミュレーション２４１０は、シミュレーションモデル２４１２を使用してＩＰコアの挙動を設計、テスト、および検証するために使用することができる。シミュレーションモデル２４１２は、機能、動作、および／またはタイミングシミュレーションを含み得る。次に、シミュレーションモデル２４１２からレジスタ転送レベル（ＲＴＬ）設計２４１５を作成または合成することができる。ＲＴＬ設計２４１５は、ハードウェアレジスタ間のデジタル信号の流れをモデル化する集積回路の挙動を抽象化したものであり、モデル化されたデジタル信号を使用して実施される関連論理を含む。ＲＴＬ設計２４１５に加えて、論理レベルまたはトランジスタレベルの低レベル設計を作成、設計または合成することもできる。したがって、初期設計およびシミュレーションの特定の細部は変化し得る。

ＲＴＬ設計２４１５または同等物は、さらに、設計メカニズムによって、ハードウェア記述言語（ＨＤＬ）または物理設計データの他の表現であり得るハードウェアモデル２４２０に合成され得る。ＨＤＬをさらにシミュレートまたはテストして、ＩＰコア設計を検証することができる。ＩＰコア設計は、不揮発性メモリ２４４０（例えば、ハードディスク、フラッシュメモリ、または任意の不揮発性記憶媒体）を使用して、第三者製造施設２４６５に配送するために記憶することができる。あるいは、ＩＰコア設計は、有線接続２４５０または無線接続２４６０を介して（例えば、インターネットを介して）伝送されてもよい。次に、製造設備２４６５は、少なくとも部分的にＩＰコア設計に基づく集積回路を製造することができる。製造された集積回路は、本明細書に記載する少なくとも１つの実施形態による動作を実施するように構成することができる。

図２４Ｂは、集積回路パッケージアセンブリ２４７０の断面側面図を示している。集積回路パッケージアセンブリ２４７０は、本明細書に記載されるような１または複数のプロセッサまたはアクセラレータデバイスの実装形態を示している。パッケージアセンブリ２４７０は、基板２４８０に接続されたハードウェア論理２４７２、２４７４の複数のユニットを含む。論理２４７２、２４７４は、少なくとも部分的に、構成可能な論理または固定機能論理ハードウェアで実装することができ、本明細書に記載するプロセッサコア、グラフィックスプロセッサ、または他のアクセラレータデバイスのいずれかの１または複数の部分を含み得る。論理２４７２、２４７４の各ユニットは、半導体ダイ内に実装され、相互接続構造２４７３を介して基板２４８０に結合され得る。相互接続構造２４７３は、論理２４７２、２４７４と基板２４８０との間で電気信号をルーティングするように構成することができ、バンプまたはピラーなどの相互接続を含むことができるが、これらに限定されない。相互接続構造２４７３は、例えば、論理２４７２、２４７４の動作に関連する入力／出力（Ｉ／Ｏ）信号および／または電力または接地信号などの電気信号をルーティングするように構成することができる。任意に、基板２４８０は、エポキシ系積層基板であってもよい。基板２４８０はまた、他の適切なタイプの基板を含んでもよい。パッケージアセンブリ２４７０は、パッケージ相互接続２４８３を介して他の電気デバイスに接続することができる。パッケージ相互接続２４８３は、基板２４８０の表面に結合されて、電気信号を、マザーボード、他のチップセット、またはマルチチップモジュールなどの他の電気デバイスにルーティングすることができる。

論理２４７２、２４７４のユニットは、論理２４７２、２４７４の間で電気信号をルーティングするように構成されたブリッジ２４８２と電気的に結合することができる。ブリッジ２４８２は、電気信号のルートを提供する高密度相互接続構造であり得る。ブリッジ２４８２は、ガラスまたは適切な半導体材料からなるブリッジ基板を含み得る。ブリッジ基板上に電気的ルーティング特徴を形成して、論理２４７２、２４７４間のチップ間接続を提供することができる。

論理２４７２、２４７４の２つのユニットおよびブリッジ２４８２が図示されているが、本明細書に記載される実施形態は、１または複数のダイ上に、より多くのまたはより少ない論理ユニットを含み得る。論理が単一のダイ上に含まれる場合、ブリッジ２４８２が除外され得るので、１または複数のダイは、０または複数のブリッジによって接続されてもよい。あるいは、複数のダイまたは論理ユニットを１または複数のブリッジによって接続することができる。さらに、複数の論理ユニット、ダイ、およびブリッジを、三次元構成を含む他の可能な構成で一緒に接続することができる。

図２４Ｃは、基板２４８０（例えば、ベースダイ）に接続された複数ユニットのハードウェア論理チップレットを含むパッケージアセンブリ２４９０を示している。本明細書に記載されるグラフィックス処理ユニット、並列プロセッサ、および／または計算アクセラレータは、別々に製造される多様なシリコンチップレットから構成することができる。これに関連して、チップレットは、少なくとも部分的にパッケージされた集積回路であり、他のチップレットとともにより大きなパッケージに組み立てることができる論理の別個のユニットを含む。異なるＩＰコア論理を有する多様なチップレットセットを１つのデバイスに組み立てることができる。さらに、アクティブインターポーザ技術を使用して、チップレットをベースダイまたはベースチップレットに集積することができる。本明細書に記載される概念は、ＧＰＵ内の異なる形態のＩＰ間の相互接続および通信を可能にする。ＩＰコアは、異なるプロセス技術を使用して製造され、製造中に合成されることが可能である。これにより、複数のＩＰ、特に複数のフレーバーＩＰを有する大規模なＳｏＣを同じ製造プロセスに収束させる複雑さが回避される。複数のプロセステクノロジーを使用できるようにすることで、タイムトゥマーケットが短縮され、複数の製品ＳＫＵを作成するコスト性能に優れた方法が提供される。さらに、分散されたＩＰは、独立して電力ゲート制御されやすいため、特定のワークロードで使用されていないコンポーネントの電源をオフにすることができ、全体的な電力消費量を削減できる。

種々の実施形態において、パッケージアセンブリ２４９０は、ファブリック２４８５または１または複数のブリッジ２４８７によって相互接続された、より少ないまたはより多い数のコンポーネントおよびチップレットを含み得る。パッケージアセンブリ２４９０内のチップレットは、チップオンウエハオン基板スタッキングを使用する２．５Ｄ構成を有することができ、この場合、複数のダイが、スルーシリコンビア（ＴＳＶ）を含むシリコンインターポーザ上に並んで積層されて、チップレットを、パッケージ相互接続２４８３への電気的接続を含む基板２４８０と結合する。

一実施形態では、シリコンインターポーザは、ＴＳＶに加えて埋め込み論理を含むアクティブインターポーザ２４８９である。かかる実施形態では、パッケージアセンブリ２４９０内のチップレットは、アクティブインターポーザ２４８９の上に積層されたダイに面する３Ｄ面を使用して配置される。アクティブインターポーザ２４８９は、相互接続ファブリック２４８５およびシリコンブリッジ２４８７に加えて、Ｉ／Ｏ２４９１、キャッシュメモリ２４９２、および他のハードウェア論理２４９３のためのハードウェア論理を含み得る。ファブリック２４８５は、アクティブインターポーザ２４８９内の種々の論理チップレット２４７２、２４７４と論理２４９１、２４９３との間の通信を可能にする。ファブリック２４８５は、ＮｏＣ相互接続またはパッケージアセンブリのコンポーネント間でデータパケットをスイッチするパケットスイッチファブリックの別の形態であり得る。複雑なアセンブリの場合、ファブリック２４８５は、パッケージアセンブリ２４９０の種々のハードウェア論理間の通信を可能にする専用チップレットであってもよい。

アクティブインターポーザ２４８９内のブリッジ構造２４８７を使用して、例えば、論理またはＩ／Ｏチップレット２４７４とメモリチップレット２４７５との間のポイントツーポイント相互接続を容易にすることができる。一部の実装形態では、ブリッジ構造２４８７はまた、基板２４８０内に埋め込まれてもよい。

ハードウェア論理チップレットは、特殊目的ハードウェア論理チップレット２４７２、論理またはＩ／Ｏチップレット２４７４、および／またはメモリチップレット２４７５を含み得る。ハードウェア論理チップレット２４７２および論理またはＩ／Ｏチップレット２４７４は、少なくとも部分的に、構成可能な論理または固定機能性論理ハードウェアで実装することができ、本明細書に記載されたプロセッサコア、グラフィックスプロセッサ、並列プロセッサ、または他のアクセラレータデバイスのいずれかの１または複数の部分を含み得る。メモリチップレット２４７５は、ＤＲＡＭ（例えば、ＧＤＤＲ、ＨＢＭ）メモリまたはキャッシュ（ＳＲＡＭ）メモリであり得る。アクティブインターポーザ２４８９（または基板２４８０）内のキャッシュメモリ２４９２は、パッケージアセンブリ２４９０のグローバルキャッシュとして、分散グローバルキャッシュの一部として、またはファブリック２４８５の専用キャッシュとして動作することができる。

各チップレットは、別個の半導体ダイとして製造することができ、基板２４８０内に埋め込まれた、または基板と結合されたベースダイと結合される。基板２４８０との結合は、相互接続構造２４７３を介して行うことができる。相互接続構造２４７３は、基板２４８０内の種々のチップレットと論理との間で電気信号をルーティングするように構成することができる。相互接続構造２４７３は、バンプまたはピラーなどの相互接続を含むことができるが、これらに限定されない。一部の実施形態では、相互接続構造２４７３は、例えば、論理チップレット、Ｉ／Ｏチップレット、およびメモリチップレットの動作に関連する入力／出力（Ｉ／Ｏ）信号および／または電力または接地信号などの電気信号をルーティングするように構成されてもよい。一実施形態では、追加の相互接続構造が、アクティブインターポーザ２４８９を基板２４８０に結合する。

基板２４８０はエポキシ系積層基板であってもよいが、これに限定されるものではなく、基板２４８０は他の好適な種類の基板を含んでいてもよい。パッケージアセンブリ２４９０は、パッケージ相互接続２４８３を介して他の電気デバイスに接続することができる。パッケージ相互接続２４８３は、基板２４８０の表面に結合されて、電気信号を、マザーボード、他のチップセット、またはマルチチップモジュールなどの他の電気デバイスにルーティングすることができる。

論理またはＩ／Ｏチップレット２４７４およびメモリチップレット２４７５は、ブリッジ２４８７を介して電気的に結合されてもよく、ブリッジは、論理またはＩ／Ｏチップレット２４７４とメモリチップレット２４７５との間で電気信号をルーティングするように構成されている。ブリッジ２４８７は、電気信号のルートを提供する高密度相互接続構造であり得る。ブリッジ２４８７は、ガラスまたは適切な半導体材料からなるブリッジ基板を含み得る。ブリッジ基板上に電気的ルーティング特徴を形成して、論理またはＩ／Ｏチップレット２４７４とメモリチップレット２４７５との間にチップツーチップ接続を提供することができる。ブリッジ２４８７は、シリコンブリッジまたは相互接続ブリッジと称することもできる。例えば、ブリッジ２４８７は、埋め込みマルチダイ相互接続ブリッジ（ＥＭＩＢ）である。あるいは、ブリッジ２４８７は、単に１つのチップレットから別のチップレットへの直接接続であってもよい。

図２４Ｄは、一実施形態による、交換可能チップレット２４９５を含むパッケージアセンブリ２４９４を示している。交換可能チップレット２４９５は、１または複数のベースチップレット２４９６、２４９８上の標準化されたスロットに組み立てることができる。ベースチップレット２４９６、２４９８は、ブリッジ相互接続２４９７を介して結合することができ、これは、本明細書に記載される他のブリッジ相互接続と同様であり得、例えば、ＥＭＩＢであってもよい。メモリチップレットは、ブリッジ相互接続を介して論理またはＩ／Ｏチップレットに接続することもできる。Ｉ／Ｏおよび論理チップレットは、相互接続ファブリックを介して通信することができる。ベースチップレットはそれぞれ、論理、Ｉ／Ｏまたはメモリ／キャッシュの１つに対して標準化されたフォーマットで１または複数のスロットをサポートすることができる。

ＳＲＡＭおよび電力供給回路は、ベースチップレット２４９６、２４９８のうちの１または複数の中に製造されてもよく、ベースチップレットは、ベースチップレットの上に積層される交換可能チップレット２４９５とは異なるプロセス技術を使用して製造されてもよい。例えば、ベースチップレット２４９６、２４９８は、より大きなプロセス技術を使用して製造することができ、一方、交換可能チップレットは、より小さなプロセス技術を使用して製造することができる。交換可能チップレット２４９５のうちの１または複数は、メモリ（例えば、ＤＲＡＭ）チップレットであってもよい。パッケージアセンブリ２４９４を使用する製品に対して目標とされる電力および／または性能に基づいて、パッケージアセンブリ２４９４に対して異なるメモリ密度を選択することができる。さらに、異なる数のタイプの機能ユニットを有する論理チップレットを、製品のために目標とされた電力および／または性能に基づいて組み立て時に選択することができる。さらに、異なるタイプのＩＰ論理コアを含むチップレットを交換可能チップレットスロットに挿入することができ、異なる技術のＩＰブロックを混合して適合させることができるハイブリッドプロセッサ設計を可能にする。
チップ集積回路上の例示的なシステム

図２５～図２６Ｂは、１または複数のＩＰコアを使用して製造され得る例示的な集積回路および関連するグラフィックスプロセッサを示している。図示されたものに加えて、追加のグラフィックスプロセッサ／コア、周辺インターフェースコントローラ、または汎用プロセッサコアを含む他の論理および回路を含めることができる。本明細書の他の図の要素と同一または類似の名称を有する図２５～図２６Ｂの要素は、他の図と同一の要素を記載しており、それと同様の方法で動作または機能することができ、同じコンポーネントを含むことができ、本明細書の他の箇所に記載されているような他のエンティティにリンクすることができるが、これらに限定されるものではない。

図２５は、１または複数のＩＰコアを使用して製造され得るチップ集積回路２５００上の例示的なシステムを示すブロック図である。例示的な集積回路２５００は、１または複数のアプリケーションプロセッサ２５０５（例えば、ＣＰＵ）と、少なくとも１つのグラフィックスプロセッサ２５１０とを含み、これは、グラフィックスプロセッサ１４０８、１５０８、２５１０、または本明細書に記載されるいずれかのグラフィックスプロセッサの変形例であってもよく、記載されるいずれかのグラフィックスプロセッサの代わりに使用されてもよい。したがって、本明細書におけるグラフィックスプロセッサと組み合わせた任意の特徴の開示は、グラフィックスプロセッサ２５１０との対応する組み合わせも開示するが、これに限定されない。集積回路２５００は、さらに、画像プロセッサ２５１５および／またはビデオプロセッサ２５２０を含むことができ、これらの任意のものは、同一または複数の異なる設計ファシリティからのモジュールＩＰコアであり得る。集積回路２５００は、ＵＳＢコントローラ２５２５、ＵＡＲＴコントローラ２５３０、ＳＰＩ／ＳＤＩＯコントローラ２５３５、およびＩ^２Ｓ／Ｉ^２Ｃコントローラ２５４０を含む周辺またはバス論理を含み得る。さらに、集積回路は、高精細マルチメディアインターフェース（ＨＤＭＩ（登録商標））コントローラ２５５０およびモバイル産業プロセッサインターフェース（ＭＩＰＩ）ディスプレイインターフェース２５５５のうちの１または複数に結合されたディスプレイデバイス２５４５を含み得る。ストレージデバイスは、フラッシュメモリおよびフラッシュメモリコントローラを含むフラッシュメモリサブシステム２５６０によって提供することができる。メモリインターフェースは、ＳＤＲＡＭまたはＳＲＡＭメモリデバイスにアクセスするためのメモリコントローラ２５６５を介して提供されてもよい。一部の集積回路は、さらに、埋め込みセキュリティエンジン２５７０を含む。

図２６Ａ～図２６Ｂは、本明細書に記載する実施形態による、ＳｏＣ内で使用するための例示的なグラフィックスプロセッサを示すブロック図である。グラフィックスプロセッサは、グラフィックスプロセッサ１４０８、１５０８、２５１０、または本明細書に記載される他のいずれかのグラフィックスプロセッサの変形例であり得る。グラフィックスプロセッサは、グラフィックスプロセッサ１４０８、１５０８、２５１０、または本明細書に記載された他のグラフィックスプロセッサの代わりに使用され得る。したがって、グラフィックスプロセッサ１４０８、１５０８、２５１０、または本明細書に記載されるグラフィックスプロセッサの他のいずれかと組み合わせた任意の特徴の開示は、図２６Ａ～図２６Ｂのグラフィックスプロセッサとの対応する組み合わせも開示するが、かかるものに限定されない。図２６Ａは、一実施形態による、１または複数のＩＰコアを使用して製造することができるチップ集積回路上のシステムの例示的なグラフィックスプロセッサ２６１０を示している。図２６Ｂは、一実施形態による、１または複数のＩＰコアを使用して製造され得るチップ集積回路上のシステムの追加の例示的なグラフィックスプロセッサ２６４０を示している。図２６Ａのグラフィックスプロセッサ２６１０は、低電力グラフィックスプロセッサコアの一例である。図２６Ｂのグラフィックスプロセッサ２６４０は、より高性能のグラフィックスプロセッサコアの一例である。例えば、グラフィックスプロセッサ２６１０およびグラフィックスプロセッサ２６４０の各々は、この段落の冒頭で述べたように、図２５のグラフィックスプロセッサ２５１０の変形例であり得る。

図２６Ａに示すように、グラフィックスプロセッサ２６１０は、頂点プロセッサ２６０５と、１または複数のフラグメントプロセッサ２６１５Ａ～２６１５Ｎ（例えば、２６１５Ａ、２６１５Ｂ、２６１５Ｃ、２６１５Ｄ、２６１５Ｎ－１、および２６１５Ｎ）とを含む。グラフィックスプロセッサ２６１０は、別個の論理を介して異なるシェーダプログラムを実行することができ、その結果、頂点プロセッサ２６０５は、頂点シェーダプログラムに対する演算を実行するよう最適化され、一方、１または複数のフラグメントプロセッサ２６１５Ａ～２６１５Ｎは、フラグメントまたはピクセルシェーダプログラムに対するフラグメント（例えば、ピクセル）シェーディング演算を実行する。頂点プロセッサ２６０５は、３Ｄグラフィックスパイプラインの頂点処理段階を実施し、プリミティブおよび頂点データを生成する。フラグメントプロセッサ２６１５Ａ～２６１５Ｎは、ディスプレイデバイス上に表示されるフレームバッファを生成するために、頂点プロセッサ２６０５によって生成されたプリミティブおよび頂点データを使用する。フラグメントプロセッサ２６１５Ａ～２６１５Ｎは、ＯｐｅｎＧＬＡＰＩに提供されるフラグメントシェーダプログラムを実行するように最適化されてもよく、ＯｐｅｎＧＬＡＰＩは、Ｄｉｒｅｃｔ３ＤＡＰＩに提供されるピクセルシェーダプログラムと同様の動作を実施するために使用されてもよい。

グラフィックスプロセッサ２６１０は、さらに、１または複数のメモリ管理ユニット（ＭＭＵ）２６２０Ａ～２６２０Ｂ、キャッシュ２６２５Ａ～２６２５Ｂ、および回路相互接続２６３０Ａ～２６３０Ｂを含む。１または複数のＭＭＵ２６２０Ａ～２６２０Ｂは、１または複数のキャッシュ２６２５Ａ～２６２５Ｂに記憶された頂点または画像／テクスチャデータに加えて、メモリに記憶された頂点または画像／テクスチャデータを参照することができる頂点プロセッサ２６０５および／またはフラグメントプロセッサ２６１５Ａ～２６１５Ｎを含む、グラフィックスプロセッサ２６１０のための仮想から物理アドレスマッピングを提供する。１または複数のＭＭＵ２６２０Ａ～２６２０Ｂは、図２５の１または複数のアプリケーションプロセッサ２５０５、画像プロセッサ２５１５、および／またはビデオプロセッサ２５２０に関連付けられた１または複数のＭＭＵを含むシステム内の他のＭＭＵと同期させることができ、その結果、各プロセッサ２５０５～２５２０は共有または統合仮想メモリシステムに参加することができる。グラフィックスプロセッサ２６１０のコンポーネントは、本明細書に記載される他のグラフィックスプロセッサのコンポーネントに対応してもよい。１または複数のＭＭＵ２６２０Ａ～２６２０Ｂは、図２ＣのＭＭＵ２４５に対応することができる。頂点プロセッサ２６０５およびフラグメントプロセッサ２６１５Ａ～２６１５Ｎは、グラフィックスマルチプロセッサ２３４に対応し得る。実施形態によると、１または複数の回路相互接続２６３０Ａ～２６３０Ｂは、グラフィックスプロセッサ２６１０が、ＳｏＣの内部バスを介して、または直接接続を介して、ＳｏＣ内の他のＩＰコアとインターフェースすることを可能にする。１または複数の回路相互接続２６３０Ａ～２６３０Ｂは、図２Ｃのデータクロスバー２４０に対応することができる。グラフィックスプロセッサ２６１０の類似のコンポーネントと、本明細書に記載された種々のグラフィックスプロセッサアーキテクチャとの間には、さらなる対応が見出され得る。

図２６Ｂに示すように、グラフィックスプロセッサ２６４０は、図２６Ａのグラフィックスプロセッサ２６１０の１または複数のＭＭＵ２６２０Ａ～２６２０Ｂ、キャッシュ２６２５Ａ～２６２５Ｂ、および回路相互接続２６３０Ａ～２６３０Ｂを含む。グラフィックスプロセッサ２６４０は、１または複数のシェーダコア２６５５Ａ～２６５５Ｎ（例えば、２６５５Ａ、２６５５Ｂ、２６５５Ｃ、２６５５Ｄ、２６５５Ｅ、２６５５Ｆ、２６５５Ｎ－１、および２６５５Ｎ）を含み、これは、単一のコアまたはタイプまたはコアが、頂点シェーダ、フラグメントシェーダ、および／または計算シェーダを実装するためのシェーダプログラムコードを含む、全てのタイプのプログラマブルシェーダコードを実行することができる統合シェーダコアアーキテクチャを提供する。存在するシェーダコアの正確な数は、実施形態および実装形態によって異なり得る。さらに、グラフィックスプロセッサ２６４０は、実行スレッドを１または複数のシェーダコア２６５５Ａ～２６５５Ｎにディスパッチするためのスレッドディスパッチャとして機能するコア間タスクマネージャ２６４５と、タイルベースレンダリングのためのタイリング動作を加速するためのタイリングユニット２６５８とを含み、この場合、シーンのレンダリング動作は、例えば、シーン内の局所的な空間コヒーレンスを利用するため、または内部キャッシュの使用を最適化するために、画像空間に細分割される。シェーダコア２６５５Ａ～２６５５Ｎは、例えば、図２Ｄのようなグラフィックスマルチプロセッサ２３４、または図３Ａおよび図３Ｂそれぞれのグラフィックスマルチプロセッサ３２５、３５０、または図３Ｃのマルチコアグループ３６５Ａに対応することができる。
浮動小数点計算のエミュレーション

グラフィックスデータ処理を含むコンピュータシステムの動作において、浮動小数点ＦＭＡ（融合積和）計算を必要とする多数のプロセスが存在する。かかる動作には、ＳＧＥＭＭ（単精度浮動汎用行列乗算）演算が含まれ、特に深層学習およびその他の関連プロセスに適用される。

かかる計算は、システムに組み込まれているネイティブ計算を適用することによって実施することができる。例えば、単精度浮動小数点演算（浮動小数点３２ビットまたはＦＰ３２）演算は、ＧＰＧＰＵ演算を提供することができるグラフィックスプロセッサを含むプロセッサの浮動小数点ユニットによって利用可能であるが、より高精度（ＦＰ３２）フォーマットにおけるかかる処理演算は、浮動小数点ユニットによるネイティブ浮動小数点計算におけるスループット制限のために、システム性能を制限する可能性がある。このため、ネイティブＦＰＵの計算性能は、深層学習およびその他の計算集約的な演算には不十分である可能性がある。

一部の実施形態において、浮動小数点計算のエミュレーションは、他の低精度フォーマットを利用して提供され、それにより、計算スループットの改善を可能にする。これに関して、以下でさらに説明するシストリックＤＰＡＳ（ドット積、累算、シストリック）ハードウェアなどのシストリックアレイハードウェアは、ＢＦ１６（ＢＦｌｏａｔ１６、ＢｒａｉｎＦｌｏａｔ１６とも称される）などの低精度データに対して非常に高いＦＭＡ（融合積和）スループットをサポートする。シストリックアレイハードウェアは、例えば、図１９に示すシストリックアレイ１９１２を含むことができ、これは、シストリック方式でベクトルまたは他のデータ並列演算を実施するために使用することができるデータ処理ユニット（ＤＰＵ）のＷ幅およびＤ深度のネットワークを含む。一部の実施形態において、新規な解決策は、より大きなＳＧＥＭＭ性能を可能にするために、シストリックアレイハードウェアを使用してＳＧＥＭＭをエミュレートすることを提供する。装置、システムまたはプロセスの実施形態として、計算結果において許容可能な精度を提供しながら、かかる計算において改善された性能を提供するために適用することができる。

一部の実施形態において、装置、システム、またはプロセスは、ある実施形態に対する特定の実装形態の選択を可能にし、したがって、特定の用途に対する性能および精度の調整を可能にする。一実施形態は、計算においてどの要素が選択されるかに基づいて性能および精度を調整することを可能にする。一部の実施形態において、プロセスは、より低い精度の乗算およびより高い精度の累算を有するＦＭＡユニットを使用する概念の適用を含む。

ＳＧＥＭＭは、単精度浮動小数点ＦＰ３２のソースと結果を参照し、これには、他の関数の中でも特に次の計算が含まれ得る。
行列乗算Ｃ＝ＡＢ
ここで、
Ａ：Ｍ（高さ）×Ｋ（幅）
Ｂ：Ｋ×Ｎ
Ｃ：Ｍ×Ｎ

一部の実施形態では、ＳＧＥＭＭ演算などの高精度計算は、シストリックアレイハードウェアを使用してエミュレートされ、ネイティブ浮動小数点計算と比較してより良好な性能を提供する一方で、アプリケーションに対して十分なレベルの精度を維持する。一部の実施形態において、動作は、以下にさらに示すように、浮動小数点エミュレーションを実施するために複数の低精度値を組み合わせることを含む。

図２７Ａは、一部の実施形態による、シストリックアレイハードウェアを使用する計算エミュレーションの性能の高レベルの説明図である。一部の実施形態では、コンピューティングシステム２７００において、より高精度の計算２７１０（ＦＰ３２計算を含み得るがこれに限定されない第１の精度フォーマットによる計算）のために入力データが受信される。特に、この計算には、ＳＧＥＭＭ演算が含まれ得る。一般的なコンピューティングシステムでは、浮動小数点ユニットの処理能力は、例えば、要求されたＦＰ３２出力２７４０を生成するために使用可能にして適用することができるネイティブＦＰ３２計算２７２０を含む。

しかしながら、計算集約的な演算のためのネイティブ浮動小数点計算の適用は、システムの計算スループットを制限する可能性があり、したがって特定の演算に対しては不適切であり得る。

一部の実施形態では、コンピューティングシステム２７００は、低精度フォーマット（第２の精度フォーマット）計算を使用してＦＰ３２エミュレーション（概して、高精度エミュレーション）を実施する能力を含む。特に、コンピューティングシステムは、シストリックアレイハードウェア２７３０の適用を含むＦＰ３２エミュレーションを含み、これは、ＦＰ３２出力２７４０において利用され得るエミュレートされたＦＰ３２結果２７３５を生成する。シストリックアレイハードウェアは、特に、シストリックＤＰＡＳ（ドット積、累算、シストリック）ハードウェアを含み得る。

一部の実施形態において、ネイティブＦＰ３２計算２７２０およびシストリックアレイハードウェア２７３０は、ＦＰ３２計算およびエミュレートされたＦＰ３２計算の両方を提供するために共同で使用可能にし得る。ネイティブＦＰ３２計算２７２０およびシストリックアレイハードウェア２７３０の共同使用は、例えば、同じＳＧＥＭＭ演算を計算しながら改善された性能を提供するために、または計算が両方とも適用され得る他の実装形態のために利用され得る。

図２７Ｂは、一部の実施形態において、より高精度の計算をエミュレートするために適用され得るデータ処理ユニットのアレイを含むシストリックアレイハードウェアの図である。この単純化された図において、シストリックアレイハードウェア２７３０は、この図においてＤＰＵ要素の４×３アレイであるデータ処理ユニット２７３４のアレイ２７３２を含むものとして示されている。

一部の実施形態では、アレイ２７３２は、図２７Ａに示すように、ＦＰ３２出力において利用することができるエミュレートされたＦＰ３２結果を生成するために、シストリック方式でベクトルまたは他のデータ並列演算を実施するために利用される。一部の実施形態では、アレイ２７３２は、浮動小数点エミュレーションの実施において複数の低精度値を組み合わせるために利用される。

図２８は、一部の実施形態における計算に適用され得るバイナリフォーマットの図である。図２８に示すように、バイナリ表現は以下を含み得る。

（１）ＩＥＥＥ７５４単精度３２ビット浮動小数点フォーマット（ＦＰ３２）２８１０。ここで、値は以下から構成される。

・符号：１ビット

・指数：８ビット

・仮数（すなわち分数）：２３の明示ビット（完全分数には、２３の明示的に記憶されたビットと１つの暗黙的な先行ビットを有する２４の合計ビットが含まれる）

（２）Ｂｆｌｏａｔ１６フォーマット（ＢＦ１６）２８３０。ここで、値は以下から構成される。

・符号：１ビット

・指数：８ビット

・仮数：７つの明示ビット（完全な分数には、８つの合計ビットと７つの明示的に記憶されたビットと１つの暗黙的な先行ビットが含まれる）

ｂｆｌｏａｔ１６は、ＦＰ１６フォーマット（半精度とも称される）とは異なることに留意されたい。ＦＰ１６フォーマットは、その代わりに５ビットの指数と１０ビットの分数（すなわち、１０の明示的に記憶されたビットと１の暗黙的な先頭ビット）を含む。実施形態は、ｂｆｌｏａｔ１６フォーマットに限定されず、テンソル－浮動小数点フォーマット（ＴＦ３２）などの他の縮小精度フォーマットを含むことができ、ここで値は符号：１ビット、指数：８ビット、および仮数：１０ビットから構成される。

図２９は、一部の実施形態による、ｂｆｌｏａｔ１６値を利用するコンピュータシステム計算におけるＦＰ３２表現の前処理の説明図である。図２９に示すように、より高い精度のＦＰ３２値は、以下のように、より低い精度のＢＦ１６値を利用して表すことができる。

（１）要素２９１０当たり１６ビットを必要とする単一のｂｆｌｏａｔ値（ＢＦ１６_０）。ここで、ＢＦ１６_０＝（ｂｆ１６）ｘは、比較的低い精度を提供する。

（２）２つのｂｆｌｏａｔ値（ＢＦ１６_０＋ＢＦ１６_１）２９２０。ここで、ＢＦ１６_０＝（ｂｆ１６）ｘおよびＢＦ１６_１は（ＢＦ１６_１＝（ｂｆ１６）（ｘ－（ｆｐ３２）ＢＦ１６_０）であり、３２ビット／要素を必要とし、より複雑な計算が必要となるため性能が低下し、精度が向上した。または、

（３）３つのｂｆｌｏａｔ値（ＢＦ１６_０＋ＢＦ１６_１＋ＢＦ１６_２）２９３０。ここでＢＦ１６_０＝（ｂｆ１６）ｘ、ＢＦ１６_１＝（ＢＦ１６_１＝（ｂｆ１６）（ｘ－（ｆｐ３２）ＢＦ１６_０）、ＢＦ１６_２＝（ＢＦ１６_２＝（ｂｆ１６）（ｘ－（ｆｐ３２）ＢＦ１６_０－（ｆｐ３２）ＢＦ１６_１）は、４８ビット／要素を必要とし、性能低下のさらなるトレードオフとともにさらなる改善された精度を提供する。

図３０は、一部の実施形態による、ＢＦ１６ＦＭＡ（融合積和）要素を使用するＦＰ３２エミュレーションの説明図である。図示のように、乗算ＦＰ３２Ｘ＊ＦＰ３２Ｙは、ＦＰ３２Ｘ＝（Ｘ_{ＢＦ１６＿０}＋Ｘ_{ＢＦ１６＿１}）およびＦＰ３２Ｙ＝（Ｙ_{ＢＦ１６＿０}＋Ｙ_{ＢＦ１６＿１}）のような入力値３０１０当たり２つのＢＦ１６値を利用してエミュレートされ得、それによって図示の項Ｔ０＋Ｔ１＋Ｔ２を生成する。図示のように、計算は、４個またはそれより少ない数のＦＭＡ要素を使用して実施されてもよく、ここで、４個より少ないＦＭＡが、精度の低下と引き換えに、より速い性能を提供するために選択されてもよい。

あるいは、乗算ＦＰ３２Ｘ＊ＦＰ３２Ｙは、ＦＰ３２Ｘ＝（Ｘ_{ＢＦ１６＿０}＋Ｘ_{ＢＦ１６＿１}＋Ｘ_{ＢＦ１６＿２}）およびＦＰ３２Ｙ＝（Ｙ_{ＢＦ１６＿０}＋Ｙ_{ＢＦ１６＿１}＋Ｙ_{ＢＦ１６＿２}）のような３つのＢＦ１６値３０２０を利用してエミュレートされ、それによって図示された項Ｔ０＋Ｔ１＋Ｔ２＋Ｔ３＋Ｔ４を生成することができる。図示のように、計算は、９個以下のＦＭＡ要素を使用して実施することができ、９個以下のＦＭＡを使用して、精度を低下させながらより高速な性能を提供することができる。

一部の実施形態において、動作は、シストリックアレイハードウェア実装形態に関して以下でさらに説明するように、同様の項を一緒に追加し、最下位の項を最初に追加し、次いで、より高い正確度のために最上位の項を累算することを含み得る。

一部の実施形態において、複数のカーネルは、値およびＦＭＡ演算に関して異なる低精度計算構造を介して浮動小数点エミュレーションの精度および性能の異なる組み合わせを提供するように構成することができる。

図３１は、一部の実施形態によるＦＰ３２エミュレーションを説明するためのフローチャートである。一部の実施形態では、プロセス３１００は、行列乗算Ｃ＝ＡＢを表すＳＧＥＭＭ計算３１０５のためのＦＰ３２値を受信することを含む。

一部の実施形態では、浮動小数点ユニットによって許容される本来のより高い精度（この例ではＦＰ３２、第１の精度フォーマット）が実装形態３１１０に対して十分であるか否かが決定され得る。そうである場合、この計算は浮動小数点３１１５に向けられて、計算を実施することができる。そうでない場合、プロセス３１００は、深層学習または他の計算集約的演算の場合など、計算３１２０のためのＦＰ３２エミュレーションを可能にすることを含む。

一部の実施形態では、浮動小数点エミュレーションを有効にすることは、特定のエミュレーションフォーマットを選択して有効にすることを含むことができ、ここで、エミュレーションは、選択された特定のカーネルに依存して精度および性能が変化することができる。図３０に示すようなＢＦ１６（第２の精度フォーマット）を使用するＦＰ３２演算のエミュレーションの例では、低精度値の変動数、ＦＭＡ演算の数、および計算における値の累算の順序付けを提供するカーネルによって、表１に示す以下の相対精度および性能レベルを提供することができる。

表１は一例であり、実施形態は特定のカーネル、精度、および性能値に限定されないことに留意されたい。エミュレーションフォーマットのかかる選択は、ＢＦ１６に対する代替の低精度フォーマットにも適用することができる。

一部の実施形態では、計算演算は、エミュレーション動作のためのシストリックアレイハードウェア（ＤＰＡＳハードウェアなど）３１２５に向けられる。エミュレーションプロセスは、ＢＦ１６ＦＭＡ要素を使用するＦＰ３２エミュレーションのために図３０に示すような低精度処理３１３０を使用して計算を実施することを含む。一部の実施形態では、動作は、図２９および図３０に示すように、浮動小数点エミュレーションを実施するために複数の低精度値を組み合わせることを含む。

プロセス３１００は、ＤＰＡＳハードウェア３１３５からエミュレートされた結果を生成し、次に、エミュレートされた結果をＳＧＥＭＭ結果３１４０として出力に向ける。

一部の実施形態では、システムは、行列間でＧＥＭＭ／ドット積計算を実施し、中間結果はＦＰ３２で提供される。一部の実施形態において、シストリックアレイ演算は、低精度演算を使用してＦＰ３２エミュレーションを提供するために適用され、特に、図２９に示すように、複数のＢＦ１６値を組み合わせることを含み得る。

シストリックアレイ演算は、大幅に改善されたＦＭＡスループットを提供するために適用することができ、したがって、ＳＧＥＭＭ計算における改善された性能を可能にすると同時に、エミュレート値計算における複数の低精度値の組み合わせによって十分な精度を維持することができる。

図３２Ａおよび図３２Ｂは、一部の実施形態による、浮動小数点計算のエミュレーションにおける可能な累算順序の説明図である。一部の実施形態において、シストリックアレイハードウェアにおける浮動小数点エミュレーションは、特定の選択された累算順序を含む。図３２Ａに示すように、行列乗算Ｃ＝ＡＢにおいて、行列は、Ａ：Ｍ（高さ）×Ｋ（幅）、Ｂ：Ｋ×Ｎ、およびＣ：Ｍ×Ｎであり得る。

次に、図３２Ｂは、計算のために選択され得るＤＰＡＳ構成順序を示している。図示のように、エミュレーション動作における一連の乗算された値は、各ブロック正規化加算器において加算され、次いで、各ブロックから累算されて、最終的なＦＰ３２結果を生成するＦＰ３２加算器に提供される。一部の実施形態において、特定の累算順序は、特定の動作のためのエミュレーションプロセスにおいて使用するために選択されてもよい。

以下の例は、特定の実施形態に関するものである。

実施例１において、プロセッサは、第１の精度フォーマットでネイティブ浮動小数点演算を提供する浮動小数点ユニット（ＦＰＵ）と、複数のデータ処理ユニットを有するシストリックアレイハードウェアとを含み、プロセッサは、第１の精度フォーマットで行列乗算演算を実施するためのデータを受信することと、第２の精度フォーマットを有する１または複数の値を使用してエミュレートされた浮動小数点乗算演算を可能にすることであって、第２の精度フォーマットは、第１の精度フォーマットよりも低い精度を有し、エミュレートされた浮動小数点乗算は、シストリックアレイハードウェアの演算を含む、可能にすることと、行列乗算演算のためのエミュレートされた結果を生成することとを行う。

実施例２において、行列乗算演算は、ＳＧＥＭＭ（単精度浮動汎用行列乗算）演算を含む。

実施例３では、第１の精度フォーマットは、３２ビット浮動小数点（ＦＰ３２）である。

実施例４において、第２の精度フォーマットは、ｂｆｌｏａｔ１６ビットフォーマット（ＢＦ１６）である。

実施例５において、エミュレートされた浮動小数点乗算は、複数の第２の精度フォーマット値の組み合わせを含む。

実施例６において、エミュレートされた浮動小数点乗算演算は、複数のＦＭＡ（融合積和）演算を含む。

実施例７では、プロセッサは、アプリケーションに対して複数のエミュレートされた浮動小数点乗算演算のうちの１つを選択することをさらに行い、複数のエミュレートされた浮動小数点乗算演算間の選択は、少なくとも部分的に、アプリケーションに対する性能および精度要件に基づいている。

実施例８において、複数のエミュレートされた浮動小数点乗算演算間の選択は、エミュレートされた浮動小数点乗算演算における第２の精度フォーマット値の数、ＦＭＡ演算の数、または計算値の累算順序のうちの１または複数の選択をさらに含む。

実施例９において、プロセッサは、第２の行列乗算演算を受信することを行い、プロセッサは、処理のために第２の行列乗算演算を浮動小数点ユニットに指示することを行う。

実施例１０において、シストリックアレイハードウェアは、シストリックＤＰＡＳ（ドット積、累算、シストリック）ハードウェアを含み、シストリックＤＰＡＳハードウェアは、複数のＤＰＡＳ要素を含む。

実施例１１において、システムは、グラフィックスプロセッサを有する１または複数のプロセッサと、データストレージ用メモリとを含み、グラフィックスプロセッサは、第１の精度フォーマットでネイティブ浮動小数点演算を提供する浮動小数点ユニット（ＦＰＵ）と、複数のデータ処理ユニットを有するシストリックアレイハードウェアとを含み、グラフィックスプロセッサは、第１の精度フォーマットで行列乗算演算を実施するためのデータを受信することと、第２の精度フォーマットを有する１または複数の値を使用してエミュレートされた浮動小数点乗算演算を可能にすることであって、第２の精度フォーマットは、第１の精度フォーマットよりも低い精度を有し、エミュレートされた浮動小数点乗算は、シストリックアレイハードウェアの演算を含む、可能にすることと、行列乗算演算のためのエミュレートされた結果を生成することとを行う。

実施例１２において、行列乗算演算は、ＳＧＥＭＭ（単精度浮動汎用行列乗算）演算を含む。

実施例１３において、第２の精度フォーマットは、ｂｆｌｏａｔ１６ビットフォーマット（ＢＦ１６）である。

実施例１４において、エミュレートされた浮動小数点乗算演算は、複数のＦＭＡ（融合積和）演算を含む。

実施例１５では、グラフィックスプロセッサは、アプリケーションに対して複数のエミュレートされた浮動小数点乗算演算のうちの１つを選択することをさらに行い、複数のエミュレートされた浮動小数点乗算演算間の選択は、少なくとも部分的に、アプリケーションに対する性能および精度要件に基づいている。

実施例１６において、複数のエミュレートされた浮動小数点乗算演算間の選択は、エミュレートされた浮動小数点乗算演算における第２の精度フォーマット値の数、ＦＭＡ演算の数、または計算値の累算順序のうちの１または複数の選択をさらに含む。

実施例１７において、実行可能コンピュータプログラム命令を記憶した１または複数の非一時的コンピュータ可読記憶媒体であって、実行可能コンピュータプログラム命令は、１または複数のプロセッサによって実行されると、１または複数のプロセッサに、第１の精度フォーマットで行列乗算演算を実施するためのデータを受信することと、第２の精度フォーマットを有する１または複数の値を使用してエミュレートされた浮動小数点乗算演算を可能にすることであって、第２の精度フォーマットは、第１の精度フォーマットよりも低い精度を有し、エミュレートされた浮動小数点乗算は、複数のデータ処理ユニットを含むシストリックアレイハードウェアの演算を含む、可能にすることと、行列乗算演算のためのエミュレートされた結果を生成することとを含む動作を実施させる、記憶媒体。

実施例１８において、行列乗算演算は、ＳＧＥＭＭ（単精度浮動汎用行列乗算）演算を含む。

実施例１９において、第２の精度フォーマットは、ｂｆｌｏａｔ１６ビットフォーマット（ＢＦ１６）である。

実施例２０において、エミュレートされた浮動小数点乗算演算は、複数のＦＭＡ（融合積和）演算を含む。

実施例２１において、実行可能コンピュータプログラム命令は、アプリケーションに対して複数のエミュレートされた浮動小数点乗算演算のうちの１つを選択するための命令をさらに含み、複数のエミュレートされた浮動小数点乗算演算間の選択は、少なくとも部分的に、アプリケーションに対する性能および精度要件に基づいている。

実施例２２において、装置は、第１の精度フォーマットで行列乗算演算を実施するためのデータを受信する手段と、第２の精度フォーマットで１または複数の値を使用してエミュレートされた浮動小数点乗算演算を可能にする手段であって、第２の精度フォーマットは、第１の精度フォーマットよりも低い精度を有し、エミュレートされた浮動小数点乗算は、複数のデータ処理ユニットを含むシストリックアレイハードウェアの演算を含む、手段と、行列乗算演算のためのエミュレートされた結果を生成する手段とを含む。

実施例２３において、行列乗算演算は、ＳＧＥＭＭ（単精度浮動汎用行列乗算）演算を含む。

実施例２４において、第２の精度フォーマットは、ｂｆｌｏａｔ１６ビットフォーマット（ＢＦ１６）である。

実施例２５において、エミュレートされた浮動小数点乗算演算は、複数のＦＭＡ（融合積和）演算を含む。

実施例２６において、装置は、アプリケーションに対して複数のエミュレートされた浮動小数点乗算演算のうちの１つを選択するための手段をさらに含み、複数のエミュレートされた浮動小数点乗算演算間の選択は、少なくとも部分的に、アプリケーションに対する性能および精度要件に基づいている。

上記の説明では、説明のために、記載された実施形態の完全な理解を提供するために多くの特定の詳細が記載されている。しかしながら、当業者には明らかなように、実施形態はこれらの特定の詳細の一部なしで実施することができる。他の例では、周知の構造およびデバイスがブロックダイアグラム形式で示されている。図示されたコンポーネントの間に中間構造が存在してもよい。本明細書に記載または図示するコンポーネントは、図示または図示しない追加の入力または出力を有することができる。

種々の実施形態は、種々のプロセスを含み得る。これらのプロセスは、ハードウェアコンポーネントによって実施されてもよいし、コンピュータプログラムまたは機械実行可能命令によって実施されてもよく、これらの命令によってプログラムされた汎用または専用プロセッサまたは論理回路にプロセスを実行させるために使用されてもよい。あるいは、処理は、ハードウェアとソフトウェアの組み合わせによって実施されてもよい。

種々の実施形態の一部は、コンピュータプログラム製品として提供されてもよく、このコンピュータプログラム製品には、コンピュータプログラム命令が記憶されたコンピュータ可読媒体が含まれてもよく、このコンピュータ可読媒体は、特定の実施形態によるプロセスを実施するために１または複数のプロセッサによって実行されるコンピュータ（または他の電子デバイス）をプログラムするために使用されてもよい。コンピュータ可読媒体は、磁気ディスク、光ディスク、読み出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ）、電気的消去可能プログラム可能読み出し専用メモリ（ＥＥＰＲＯＭ）、磁気または光カード、フラッシュメモリ、または電子命令を記憶するのに適した他のタイプのコンピュータ可読媒体を含むことができるが、これらに限定されない。さらに、実施形態は、コンピュータプログラム製品としてダウンロードすることもでき、プログラムは、リモートコンピュータから要求側コンピュータに転送することができる。

方法の多くは、それらの最も基本的な形式で説明されているが、本実施形態の基本的な範囲から逸脱することなく、いずれの方法に対してもプロセスを追加または削除することができ、また説明されたメッセージに対しても情報を追加または削除することができる。多くのさらなる修正および適合を行うことができることは当業者には明らかであろう。特定の実施形態は、概念を限定するために提供されるのではなく、それを例示するために提供される。実施形態の範囲は、上記に提供された特定の例によって決定されるものではなく、特許請求の範囲によってのみ決定されるものである。

要素「Ａ」が要素「Ｂ」に結合されていると言われる場合、要素Ａは要素Ｂに直接結合されてもよいし、例えば要素Ｃを介して間接的に結合されてもよい。明細書または特許請求の範囲において、構成要素、特徴、構造、プロセスまたは特徴Ａが構成要素、特徴、構造、プロセスまたは特徴Ｂを「引き起こす」と記載されている場合、それは、「Ａ」が「Ｂ」の少なくとも部分的な原因であるが、「Ｂ」を引き起こす助けとなる少なくとも１つの他の構成要素、特徴、構造、プロセスまたは特徴も存在し得ることを意味する。明細書が、特徴、構造、プロセス、または特性が「含まれてもよい（ｍａｙ）」、「含まれてもよい（ｍｉｇｈｔ）」、または「含まれ得る（ｃｏｕｌｄ）」ことを示している場合は、その特定の構成要素、特徴、構造、プロセスまたは特徴は、含まれる必要はない。明細書または請求項が「ａ」または「ａｎ」要素に言及している場合、これは、記載された要素のうちの１つのみが存在することを意味しない。

実施形態は、実装形態または実施例である。本明細書における「一実施形態（ａｎｅｍｂｏｄｉｍｅｎｔ）」、「一実施形態（ｏｎｅｅｍｂｏｄｉｍｅｎｔ）」、「一部の実施形態（ｓｏｍｅｅｍｂｏｄｉｍｅｎｔｓ）」、または「他の実施形態（ｏｔｈｅｒｅｍｂｏｄｉｍｅｎｔｓ）」への言及は、実施形態に関連して記載された特定の特徴、構造または特徴が、少なくとも一部の実施形態に含まれるが、必ずしも全ての実施形態に含まれるわけではないことを意味する。「一実施形態（ａｎｅｍｂｏｄｉｍｅｎｔ）」、「一実施形態（ｏｎｅｅｍｂｏｄｉｍｅｎｔ）」または「一部の実施形態（ｓｏｍｅｅｍｂｏｄｉｍｅｎｔｓ）」の種々の外観は、必ずしも全てが同じ実施形態を参照しているわけではない。例示的な実施形態の前述の説明において、種々の特徴は、開示を合理化し、種々の新規な態様のうちの１または複数の理解を助ける目的で、単一の実施形態、図、またはその説明に一緒にグループ化されることがあることを理解されたい。しかしながら、この開示方法は、クレームされた実施形態が各クレームに明示的に記載されているよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、以下の請求項が反映するように、新規な態様は、単一の前述の開示される実施形態の全ての特徴よりも少ない特徴に存在する。したがって、特許請求の範囲は本明細書に明示的に組み込まれ、各特許請求の範囲は別個の実施形態として独立している。

前述の説明および図面は、限定的な意味ではなく例示的な意味でみなされるべきである。当業者は、添付の特許請求の範囲に記載された特徴のより広い精神および範囲から逸脱することなく、本明細書に記載された実施形態に対して種々の修正および変更を行うことができることを理解するであろう。他の可能な項目
［項目１］
プロセッサであって、
第１の精度フォーマットでネイティブ浮動小数点演算を提供する浮動小数点ユニット（ＦＰＵ）と、
複数のデータ処理ユニットを有するシストリックアレイハードウェアと
を備え、
前記プロセッサは、
前記第１の精度フォーマットで行列乗算演算を実施するためのデータを受信することと、
第２の精度フォーマットを有する１または複数の値を使用してエミュレートされた浮動小数点乗算演算を可能にすることであって、前記第２の精度フォーマットは、前記第１の精度フォーマットよりも低い精度を有し、前記エミュレートされた浮動小数点乗算は、前記シストリックアレイハードウェアの演算を含む、可能にすることと、
前記行列乗算演算のためのエミュレートされた結果を生成することと
を行う、プロセッサ。
［項目２］
前記行列乗算演算は、ＳＧＥＭＭ（単精度浮動汎用行列乗算）演算を含む、項目１に記載のプロセッサ。
［項目３］
前記第１の精度フォーマットは、３２ビット浮動小数点（ＦＰ３２）である、項目１に記載のプロセッサ。
［項目４］
前記第２の精度フォーマットは、ｂｆｌｏａｔ１６ビットフォーマット（ＢＦ１６）である、項目３に記載のプロセッサ。
［項目５］
前記エミュレートされた浮動小数点乗算は、複数の第２の精度フォーマット値の組み合わせを含む、項目４に記載のプロセッサ。
［項目６］
前記エミュレートされた浮動小数点乗算演算は、複数のＦＭＡ（融合積和）演算を含む、項目１に記載のプロセッサ。
［項目７］
前記プロセッサは、アプリケーションに対して複数のエミュレートされた浮動小数点乗算演算のうちの１つを選択することをさらに行い、前記複数のエミュレートされた浮動小数点乗算演算間の前記選択は、少なくとも部分的に、前記アプリケーションに対する性能および精度要件に基づいている、項目６に記載のプロセッサ。
［項目８］
前記複数のエミュレートされた浮動小数点乗算演算間の選択は、
前記エミュレートされた浮動小数点乗算演算における第２の精度フォーマット値の数、
ＦＭＡ演算の数、または
計算値の累算順序
のうちの１または複数の選択をさらに含む、
項目７に記載のプロセッサ。
［項目９］
前記プロセッサは、第２の行列乗算演算を受信することを行い、前記プロセッサは、処理のために前記第２の行列乗算演算を前記浮動小数点ユニットに指示することを行う、項目１に記載のプロセッサ。
［項目１０］
前記シストリックアレイハードウェアは、シストリックＤＰＡＳ（ドット積、累算、シストリック）ハードウェアを含み、前記シストリックＤＰＡＳハードウェアは、複数のＤＰＡＳ要素を含む、項目１に記載のプロセッサ。
［項目１１］
システムであって、
グラフィックスプロセッサを有する１または複数のプロセッサと、
データストレージ用メモリと
を備え、
前記グラフィックスプロセッサは、
第１の精度フォーマットでネイティブ浮動小数点演算を提供する浮動小数点ユニット（ＦＰＵ）と、
複数のデータ処理ユニットを有するシストリックアレイハードウェアと
を含み、
前記グラフィックスプロセッサは、
前記第１の精度フォーマットで行列乗算演算を実施するためのデータを受信することと、
第２の精度フォーマットを有する１または複数の値を使用してエミュレートされた浮動小数点乗算演算を可能にすることであって、前記第２の精度フォーマットは、前記第１の精度フォーマットよりも低い精度を有し、前記エミュレートされた浮動小数点乗算は、前記シストリックアレイハードウェアの演算を含む、可能にすることと、
前記行列乗算演算のためのエミュレートされた結果を生成することと
を行う、システム。
［項目１２］
前記行列乗算演算は、ＳＧＥＭＭ（単精度浮動汎用行列乗算）演算を含む、項目１１に記載のシステム。
［項目１３］
前記第２の精度フォーマットは、ｂｆｌｏａｔ１６ビットフォーマット（ＢＦ１６）である、項目１１に記載のシステム。
［項目１４］
前記エミュレートされた浮動小数点乗算演算は、複数のＦＭＡ（融合積和）演算を含む、項目１１に記載のシステム。
［項目１５］
前記グラフィックスプロセッサは、アプリケーションに対して複数のエミュレートされた浮動小数点乗算演算のうちの１つを選択することをさらに行い、前記複数のエミュレートされた浮動小数点乗算演算間の前記選択は、少なくとも部分的に、前記アプリケーションに対する性能および精度要件に基づいている、項目１４に記載のシステム。
［項目１６］
実行可能コンピュータプログラム命令を記憶した１または複数の非一時的コンピュータ可読記憶媒体であって、前記実行可能コンピュータプログラム命令は、１または複数のプロセッサによって実行されると、前記１または複数のプロセッサに、
第１の精度フォーマットで行列乗算演算を実施するためのデータを受信することと、
第２の精度フォーマットを有する１または複数の値を使用してエミュレートされた浮動小数点乗算演算を可能にすることであって、前記第２の精度フォーマットは、前記第１の精度フォーマットよりも低い精度を有し、前記エミュレートされた浮動小数点乗算は、複数のデータ処理ユニットを含むシストリックアレイハードウェアの演算を含む、可能にすることと、
前記行列乗算演算のためのエミュレートされた結果を生成することと
を含む動作を実施させる、記憶媒体。
［項目１７］
前記行列乗算演算は、ＳＧＥＭＭ（単精度浮動汎用行列乗算）演算を含む、項目１６に記載の記憶媒体。
［項目１８］
前記第２の精度フォーマットは、ｂｆｌｏａｔ１６ビットフォーマット（ＢＦ１６）である、項目１６に記載の記憶媒体。
［項目１９］
前記エミュレートされた浮動小数点乗算演算は、複数のＦＭＡ（融合積和）演算を含む、項目１６に記載の記憶媒体。
［項目２０］
前記実行可能コンピュータプログラム命令は、
アプリケーションに対して複数のエミュレートされた浮動小数点乗算演算のうちの１つを選択するための命令をさらに含み、
前記複数のエミュレートされた浮動小数点乗算演算間の前記選択は、少なくとも部分的に、前記アプリケーションに対する性能および精度要件に基づいている、
項目１９に記載の記憶媒体。

Claims

プロセッサであって、
第１の精度フォーマットでネイティブ浮動小数点演算を提供する浮動小数点ユニット（ＦＰＵ）と、
複数のデータ処理ユニットを有するシストリックアレイハードウェアと
を備え、
前記プロセッサは、
前記第１の精度フォーマットで行列乗算演算を実施するためのデータを受信することと、
第２の精度フォーマットを有する１または複数の値を使用してエミュレートされた浮動小数点乗算演算を可能にすることであって、前記第２の精度フォーマットは、前記第１の精度フォーマットよりも低い精度を有し、前記エミュレートされた浮動小数点乗算は、前記シストリックアレイハードウェアの演算を含む、可能にすることと、
前記行列乗算演算のためのエミュレートされた結果を生成することと
を行う、プロセッサ。
前記行列乗算演算は、ＳＧＥＭＭ（単精度浮動汎用行列乗算）演算を含む、請求項１に記載のプロセッサ。
前記第１の精度フォーマットは、３２ビット浮動小数点（ＦＰ３２）である、請求項１または２に記載のプロセッサ。
前記第２の精度フォーマットは、ｂｆｌｏａｔ１６ビットフォーマット（ＢＦ１６）である、請求項３に記載のプロセッサ。
前記エミュレートされた浮動小数点乗算は、複数の第２の精度フォーマット値の組み合わせを含む、請求項４に記載のプロセッサ。
前記エミュレートされた浮動小数点乗算演算は、複数のＦＭＡ（融合積和）演算を含む、請求項１または２に記載のプロセッサ。
前記プロセッサは、アプリケーションに対して複数のエミュレートされた浮動小数点乗算演算のうちの１つを選択することをさらに行い、前記複数のエミュレートされた浮動小数点乗算演算間の前記選択は、少なくとも部分的に、前記アプリケーションに対する性能および精度要件に基づいている、請求項６に記載のプロセッサ。
前記複数のエミュレートされた浮動小数点乗算演算間の選択は、
前記エミュレートされた浮動小数点乗算演算における第２の精度フォーマット値の数、
ＦＭＡ演算の数、または
計算値の累算順序
のうちの１または複数の選択をさらに含む、
請求項７に記載のプロセッサ。
前記プロセッサは、第２の行列乗算演算を受信することを行い、前記プロセッサは、処理のために前記第２の行列乗算演算を前記浮動小数点ユニットに指示することを行う、請求項１または２に記載のプロセッサ。
前記シストリックアレイハードウェアは、シストリックＤＰＡＳ（ドット積、累算、シストリック）ハードウェアを含み、前記シストリックＤＰＡＳハードウェアは、複数のＤＰＡＳ要素を含む、請求項１または２に記載のプロセッサ。
システムであって、
グラフィックスプロセッサを有する１または複数のプロセッサと、
データストレージ用メモリと
を備え、
前記グラフィックスプロセッサは、
第１の精度フォーマットでネイティブ浮動小数点演算を提供する浮動小数点ユニット（ＦＰＵ）と、
複数のデータ処理ユニットを有するシストリックアレイハードウェアと
を含み、
前記グラフィックスプロセッサは、
前記第１の精度フォーマットで行列乗算演算を実施するためのデータを受信することと、
第２の精度フォーマットを有する１または複数の値を使用してエミュレートされた浮動小数点乗算演算を可能にすることであって、前記第２の精度フォーマットは、前記第１の精度フォーマットよりも低い精度を有し、前記エミュレートされた浮動小数点乗算は、前記シストリックアレイハードウェアの演算を含む、可能にすることと、
前記行列乗算演算のためのエミュレートされた結果を生成することと
を行う、システム。
前記行列乗算演算は、ＳＧＥＭＭ（単精度浮動汎用行列乗算）演算を含む、請求項１１に記載のシステム。
前記第２の精度フォーマットは、ｂｆｌｏａｔ１６ビットフォーマット（ＢＦ１６）である、請求項１１または１２に記載のシステム。
前記エミュレートされた浮動小数点乗算演算は、複数のＦＭＡ（融合積和）演算を含む、請求項１１または１２に記載のシステム。
前記グラフィックスプロセッサは、アプリケーションに対して複数のエミュレートされた浮動小数点乗算演算のうちの１つを選択することをさらに行い、前記複数のエミュレートされた浮動小数点乗算演算間の前記選択は、少なくとも部分的に、前記アプリケーションに対する性能および精度要件に基づいている、請求項１４に記載のシステム。
プロセッサに、
第１の精度フォーマットで行列乗算演算を実施するためのデータを受信する手順と、
第２の精度フォーマットを有する１または複数の値を使用してエミュレートされた浮動小数点乗算演算を可能にする手順であって、前記第２の精度フォーマットは、前記第１の精度フォーマットよりも低い精度を有し、前記エミュレートされた浮動小数点乗算は、複数のデータ処理ユニットを含むシストリックアレイハードウェアの演算を含む、可能にする手順と、
前記行列乗算演算のためのエミュレートされた結果を生成する手順と
を実行させるためのコンピュータプログラム。
前記行列乗算演算は、ＳＧＥＭＭ（単精度浮動汎用行列乗算）演算を含む、請求項１６に記載のコンピュータプログラム。
前記第２の精度フォーマットは、ｂｆｌｏａｔ１６ビットフォーマット（ＢＦ１６）である、請求項１６または１７に記載のコンピュータプログラム。
前記エミュレートされた浮動小数点乗算演算は、複数のＦＭＡ（融合積和）演算を含む、請求項１６または１７に記載のコンピュータプログラム。
前記プロセッサに、
アプリケーションに対して複数のエミュレートされた浮動小数点乗算演算のうちの１つを選択する手順をさらに実行させ、
前記複数のエミュレートされた浮動小数点乗算演算間の前記選択は、少なくとも部分的に、前記アプリケーションに対する性能および精度要件に基づいている、
請求項１９に記載のコンピュータプログラム。
請求項１６または１７に記載のコンピュータプログラムを格納しているコンピュータ可読記憶媒体。