JP7408671B2

JP7408671B2 - シストリックアレイに対するブロックスパース演算のためのアーキテクチャ

Info

Publication number: JP7408671B2
Application number: JP2021547450A
Authority: JP
Inventors: アップー，アビシェク; マイユラン，スブラマニアム; マクファーソン，マイク; フゥ，ファーンウェン; チェン，ジアシュヨン; ジョージ，ヴァーギーズ; ランガナタン，ヴァサント; ガルグ，アシュトシュ; レイ，ジョイディープ
Original assignee: インテルコーポレイション
Priority date: 2019-03-15
Filing date: 2020-03-14
Publication date: 2024-01-05
Anticipated expiration: 2040-03-14
Also published as: JP2022523760A; SG11202107290QA; BR112021016106A2; BR112021016138A2; KR20210135998A; JP2022523762A; EP3938890A1; KR20210136994A; JP2024036383A; CN112534405A; CN112905240A; AU2020241262A1; US20240161227A1; CN113383310A; US20210035258A1; WO2020190809A1; US20230351543A1; US11842423B2; JP7494197B2; US11676239B2

Description

［関連出願の相互参照］
本願は、３５Ｕ．Ｓ．Ｃ．１１９（ｅ）の下で、２０１９年３月１５日付けでAbhishek Appu等によって「GRAPHICS PROCESSING」と題されて出願された米国特許仮出願第６２／８１９３３７号（代理人整理番号AC0271-Z）と、２０１９年３月１５日付けでLakshminarayanan Striramassarma等によって「GRAPHICS PROCESSING」と題されて出願された米国特許仮出願第６２／８１９４３５号（代理人整理番号AC0285-Z）と、２０１９年３月１５日付けでSubramaniam Maiyuran等によって「SYSTEMS AND METHODS FOR PARTITIONING CACHE TO REDUCE CACHE ACCESS LATENCY」と題されて出願された米国特許仮出願第６２／８１９３６１号（代理人整理番号AC0286-Z）と、２０１９年１１月１５日付けでAbhishek Appu等によって「SYSTOLIC ARITHMETIC ON SPARSE DATA」と題されて出願された米国特許仮出願第６２／９３５６７０号（代理人整理番号AC5197-Z）とに基づく優先権の利益を主張する。これらの先の米国特許出願は、その全文を参照により本願に援用される。

［分野］
本願は、概して、データ処理に関係があり、より具体的には、汎用グラフィクス処理ユニットの行列アクセラレータによるスパースデータ処理に関係がある。

現在の並列グラフィクスデータ処理は、例えば、線形補間、テッセレーション、ラスタライズ、テクスチャマッピング、デプステスト、などのような特定の動作をグラフィクスデータに対して実行するために開発されたシステム及び方法を含む。従来、グラフィクスプロセッサは、グラフィクスデータを処理するために固定機能計算ユニットを使用したが、より最近では、グラフィクスプロセッサの部分がプログラム可能になっており、頂点及びフラグメントデータを処理するためのより様々な動作をサポートすることをそのようなプロセッサに可能にする。

性能を更に向上させるために、グラフィクスプロセッサは、通常は、グラフィクスパイプラインの異なる部分にわたって可能な限り多くのグラフィクスデータを並列に処理しようと試みるパイプライン化などの処理技術を実装する。ＳＩＭＴ（single instruction, multiple thread）アーキテクチャを備えた並列グラフィクスプロセッサは、グラフィクスパイプラインにおける並列処理の量を最大限にするよう設計される。ＳＩＭＴアーキテクチャにおいて、並列スレッドのグループは、処理効率を高めるよう可能な限り頻繁にプログラム命令を同時に一緒に実行しようと試みる。ＳＩＭＴアーキテクチャのためのソフトウェア及びハードウェアの概要は、Shane Cook, CUDA Programming Chapter 3, pages 37-51 (2013)で見つけられ得る。

本実施形態の上記の特徴が詳細に理解され得るように、先に簡潔に要約された実施形態は、実施形態を参照して、より具体的に説明され、実施形態のいくつは、添付の図面に表される。なお、添付の図面は、典型的な実施形態のみを表しているので、その範囲の限定と見なされるべきではない、ことが留意されるべきである。

本願で記載される実施形態の１つ以上の態様を実装するよう構成されたコンピュータシステムを表すブロック図である。並列プロセッサコンポーネントを表す。並列プロセッサコンポーネントを表す。並列プロセッサコンポーネントを表す。並列プロセッサコンポーネントを表す。グラフィクスマルチプロセッサ及びマルチブロックベースＧＰＵのブロック図である。グラフィクスマルチプロセッサ及びマルチブロックベースＧＰＵのブロック図である。グラフィクスマルチプロセッサ及びマルチブロックベースＧＰＵのブロック図である。複数のＧＰＵが複数のマルチコアプロセッサへ通信可能に結合されている例示的なアーキテクチャを表す。複数のＧＰＵが複数のマルチコアプロセッサへ通信可能に結合されている例示的なアーキテクチャを表す。複数のＧＰＵが複数のマルチコアプロセッサへ通信可能に結合されている例示的なアーキテクチャを表す。複数のＧＰＵが複数のマルチコアプロセッサへ通信可能に結合されている例示的なアーキテクチャを表す。複数のＧＰＵが複数のマルチコアプロセッサへ通信可能に結合されている例示的なアーキテクチャを表す。複数のＧＰＵが複数のマルチコアプロセッサへ通信可能に結合されている例示的なアーキテクチャを表す。グラフィクス処理パイプラインを表す。機械学習ソフトウェアスタックを表す。汎用グラフィクス処理ユニットを表す。マルチＧＰＵコンピューティングシステムを表す。例示的なディープニューラルネットワークのレイヤを表す。例示的なディープニューラルネットワークのレイヤを表す。例示的な回帰型ニューラルネットワークを表す。ディープニューラルネットワークの訓練及びデプロイを表す。分散学習を表すブロック図である。訓練されたモデルを用いて推定を行うのに適した例示的な推定ＳＯＣ（system on chip）を表す。実施形態に従う処理システムのブロック図である。コンピューティングシステム及びグラフィクスプロセッサを表す。コンピューティングシステム及びグラフィクスプロセッサを表す。コンピューティングシステム及びグラフィクスプロセッサを表す。更なるグラフィクスプロセッサ及び計算アクセラレータアーキテクチャのブロック図を表す。更なるグラフィクスプロセッサ及び計算アクセラレータアーキテクチャのブロック図を表す。更なるグラフィクスプロセッサ及び計算アクセラレータアーキテクチャのブロック図を表す。グラフィクスプロセッサのグラフィクス処理エンジンのブロック図である。グラフィクスプロセッサで用いられる処理要素のアレイを含むスレッド実行ロジックを表す。グラフィクスプロセッサで用いられる処理要素のアレイを含むスレッド実行ロジックを表す。更なる実行ユニットを表す。グラフィクスプロセッサ命令フォーマットを表すブロック図である。更なるグラフィクスプロセッサアーキテクチャのブロック図である。グラフィクスプロセッサコマンドフォーマット及びフォーマットシーケンスを表す。グラフィクスプロセッサコマンドフォーマット及びフォーマットシーケンスを表す。データ処理システムのための例示的なグラフィクスソフトウェアアーキテクチャを表す。ＩＰコア開発システムを表すブロック図である。集積回路パッケージアセンブリの断面側面図を表す。基板（例えば、ベースダイ）へ接続されたハードウェアロジックチップレットの複数のユニットを含むパッケージアセンブリを表す。交換可能なチップレットを含むパッケージアセンブリを表す。チップ集積回路上の例示的なシステムを表すブロック図である。ＳｏＣ内で使用される例示的なグラフィクスプロセッサを表すブロック図である。ＳｏＣ内で使用される例示的なグラフィクスプロセッサを表すブロック図である。実施形態に従う更なる実行ユニットを表す。実施形態に従って、命令パイプラインによって実行される行列演算を表す。いくつかの実施形態に従うハードウェアベースのシストリックアレイの詳細を表す。いくつかの実施形態に従うハードウェアベースのシストリックアレイの詳細を表す。部分和ループバックと、スパース行列乗算を加速させる回路とを含むシストリックアレイを表す。圧縮された形式でのデータの読み出しを可能にするコーデックを含む行列アクセラレーションロジックを表す。圧縮された形式でのデータの読み出しを可能にするコーデックを含む行列アクセラレーションロジックを表す。実施形態に従って、スパースニューラルネットワークデータに対するゼロベースＳＭ符号化を表す。実施形態に従って、スパースニューラルネットワークデータに対するゼロベースＳＭ符号化を表す。実施形態に従って、スパースニューラルネットワークデータに対する指定地ＳＭ符号化を表す。実施形態に従って、スパースニューラルネットワークデータに対する指定地ＳＭ符号化を表す。ニューラルネットワークのための訓練データ内の非構造化スパース性及びブロックスパース性の間の比較を表す。ニューラルネットワークのための訓練データ内の非構造化スパース性及びブロックスパース性の間の比較を表す。内積ロジックによって実行可能な４要素内積命令を表す。内積ロジックによって実行可能な４要素内積命令を表す。内積ロジックによって実行可能な２要素内積命令を表す。内積ロジックによって実行可能な２要素内積命令を表す。スパース入力に対するゼロスキップを伴った積和ベクトル演算を可能にする命令及び関連するハードウェアロジックを表す。スパース入力に対するゼロスキップを伴った積和ベクトル演算を可能にする命令及び関連するハードウェアロジックを表す。スパース入力に対するゼロスキップを伴った積和ベクトル演算を可能にする命令及び関連するハードウェアロジックを表す。スパース入力に対するゼロスキップを伴った積和ベクトル演算を可能にする命令及び関連するハードウェアロジックを表す。デプスワイズ畳み込みと３Ｄ畳み込みを対比する。デプスワイズ畳み込みと３Ｄ畳み込みを対比する。デプスワイズ畳み込み中に使用されるシストリックテンソルアレイ及び画像－列アダプタを含むシステムを表す。デプスワイズ畳み込み中に使用されるシストリックテンソルアレイ及び画像－列アダプタを含むシステムを表す。デプスワイズ畳み込み中に使用されるシストリックテンソルアレイ及び画像－列アダプタを含むシステムを表す。シストリックアレイに対してデプスワイズ畳み込みを実行する方法を表す。実施形態に従うグラフィクスプロセッサを含むコンピューティングデバイスのブロック図である。

グラフィクス処理ユニット（ＧＰＵ）は、例えば、グラフィクス操作、機械学習動作、パターン解析動作、及び／又は様々な汎用ＧＰＵ（ＧＰＧＰＵ）機能を加速させるようホスト／プロセッサコアへ通信可能に結合されている。ＧＰＵは、バス又は他のインターコネクト（例えば、ＰＣＩｅ又はＮＶＬｉｎｋなどの高速インターコネクト）を介してホストプロセッサ／コアへ通信可能に結合されてよい。代替的に、ＧＰＵは、コアと同じパッケージ又はチップに集積され、内部プロセッサバス／インターコネクト（すなわち、パッケージ又はチップ内にある）を介してコアへ通信可能に結合されてもよい。ＧＰＵが接続されている様態にかかわらず、プロセッサコアは、作業記述子に含まれているコマンド／命令のシーケンスの形で作業をＧＰＵに割り当ててよい。次いで、ＧＰＵは、これらのコマンド／命令を効率的に処理するための専用の回路構成／ロジックを使用する。

本願で記載されている実施形態は、シストリック（systolic）処理ユニットによりスパースデータに対して算術を実行する技術を提供するソフトウェア、ファームウェア、及びハードウェアロジックを含む。一実施形態は、圧縮されたビットストリームによるデータアウェア（data aware）スパース性を提供する。一実施形態は、ブロックスパース内積命令（例えば、ｄｐ４ａ、ｄｐ２ａ）を提供する。一実施形態は、シストリックアレイのためのデプスワイズのアダプタを提供する。

以下の記載では、多数の具体的な詳細が、より完全な理解をもたらすよう示されている。しかし、当業者に明らかなように、ここで記載される実施形態は、これらの具体的な詳細の１つ以上によらずとも実施されてよい。他の事例では、よく知られている特徴は、本実施形態の詳細を不明りょうにしないように記載されていない。

［システム概要］
図１は、本願で記載される実施形態の１つ以上の態様を実装するよう構成されたコンピューティングシステム１００を表すブロック図である。コンピューティングシステム１００は、インターコネクションパスを介して通信する１つ以上のプロセッサ１０２及びシステムメモリ１０４を備えている処理サブシステム１０１を含む。インターコネクションパスは、メモリハブ１０５を含んでよい。メモリハブ１０５は、チップセットコンポーネント内の別個のコンポーネントであってよく、あるいは、１つ以上のプロセッサ１０２内に組み込まれてもよい。メモリハブ１０５は、通信リンク１０６を介してＩ／Ｏサブシステム１１１と結合する。Ｉ／Ｏサブシステム１１１は、１つ以上の入力デバイス１０８から入力を受けることをコンピューティングシステム１００に可能にすることができるＩ／Ｏハブ１０７を含む。更には、Ｉ／Ｏハブ１０７は、１つ以上のプロセッサ１０２に含まれ得るディスプレイコントローラが１つ以上の表示デバイス１１０Ａへ出力を供給することを可能にすることができる。一実施形態で、Ｉ／Ｏハブ１０７と結合されている１つ以上の表示デバイス１１０Ａは、ローカル、内蔵、又は埋め込み表示デバイスを含むことができる。

処理サブシステム１０１は、例えば、バス又は他の通信リンク１１３を介してメモリハブ１０５へ結合されている１つ以上の並列プロセッサ１１２を含む。通信リンク１１３は、例えば、ＰＣＩＥｘｐｒｅｓｓなどの、しかしこれに限られない任意の数の規格に基づいた通信リンク技術又はプロトコルの１つであってよく、あるいは、ベンダー固有の通信インターフェース又は通信ファブリックであってもよい。１つ以上の並列プロセッサ１１２は、ＭＩＣ（many integrated core）プロセッサなどの多数の処理コア及び／又は処理クラスタを含むことができる計算的に集束した並列又はベクトル処理システムを形成してよい。例えば、１つ以上の並列プロセッサ１１２は、Ｉ／Ｏハブ１０７を介して結合されている１つ以上の表示デバイス１１０Ａの中の１つへピクセルを出力することができるグラフィクス処理システムを形成する。１つ以上の並列プロセッサ１１２はまた、１つ以上の表示デバイス１１０Ｂへの直接接続を可能にするディスプレイコントローラ及びディスプレイインターフェース（図示せず。）も含むことができる。

Ｉ／Ｏサブシステム１１１内で、システム記憶ユニット１１４は、コンピューティングシステム１００のための記憶メカニズムを提供するようＩ／Ｏサブシステム１１１へ接続可能である。Ｉ／Ｏスイッチ１１６は、Ｉ／Ｏハブ１０７と、プラットフォームに集積され得るネットワークアダプタ１１８及び／又は無線ネットワークアダプタ１１９などの他のコンポーネント、及び１つ以上のアドインデバイス１２０を介して追加可能な様々な他のデバイスとの間の接続を可能にするインターフェースメカニズムを提供するために使用され得る。アドインデバイス１２０はまた、例えば、１つ以上の外部グラフィクスプロセッサデバイス及び／又は計算アクセラレータを含んでもよい。ネットワークアダプタ１１８は、Ｅｈｔｅｒｎｅｔ（登録商標）アダプタ又は他の有線ネットワークアダプタであることができる。無線ネットワークアダプタ１１９は、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、近距離通信（ＮＦＣ）、又は１つ以上の無線ラジオを含む他のネットワークデバイスのうちの１つ以上を含むことができる。

コンピューティングシステム１００は、ＵＳＢ又は他のポート接続を含む、明示されていない他のコンポーネントを含むことができ、光学記憶ドライバ、ビデオ捕捉デバイス、なども、Ｉ／Ｏハブ１０７へ接続されてよい。図１で様々なコンポーネントを相互接続する通信パスは、ＰＣＩ（Peripheral Component Interconnect）に基づくプロトコル（例えば、ＰＣＩ－Ｅｘｐｒｅｓｓ）などの任意の適切なプロトコル、あるいは、ＮＶ－Ｌｉｎｋ高速インターコネクト又は当該技術で知られているインターコネクトプロトコルなどの任意の他のバス又はポイント・ツー・ポイント通信インターフェース及び／又はプロトコルを用いて実装されてもよい。

１つ以上の並列プロセッサ１１２は、例えば、ビデオ出力回路構成を含む、グラフィクス及びビデオ処理のために最適化された回路構成を組み込んでよく、グラフィクス処理ユニット（ＧＰＵ）を構成する。代替的に、又は追加的に、１つ以上の並列プロセッサ１１２は、本願で更に詳細に記載されるように、基礎を成す計算アーキテクチャを保持しながら、汎用処理のために最適化された回路構成を組み込むことができる。コンピューティングシステム１００のコンポーネントは、単一の集積回路上で１つ以上の他のシステム要素と集積されてよい。例えば、１つ以上の並列プロセッサ１１２、メモリハブ１０５、プロセッサ１０２、及びＩ／Ｏハブ１０７は、システム・オン・チップ（ＳｏＣ）集積回路に組み込まれ得る。代替的に、コンピューティングシステム１００のコンポーネントは、システム・イン・パッケージ（ＳＩＰ）構成を形成するよう単一のパッケージに組み込まれ得る。一実施形態で、コンピューティングシステム１００のコンポーネントの少なくとも一部は、モジュールコンピューティングシステム内に他のマルチチップモジュールと相互接続され得るマルチ・チップ・モジュール（ＭＣＭ）に組み込まれ得る。

本願で示されているコンピューティングシステム１００は実例であり、変形及び変更が可能であることが理解されるだろう。ブリッジの数及び配置、プロセッサ１０２の数、並びに並列プロセッサ１１２の数を含む接続トポロジは、望まれるように変更されてよい。例えば、システムメモリ１０４は、ブリッジを通じてよりもむしろ直接にプロセッサ１０２へ接続可能であり、一方、他のデバイスは、メモリハブ１０５及びプロセッサ１０２を介してシステムメモリ１０４と通信する。他の代替のトポロジでは、並列プロセッサ１１２は、メモリハブ１０５へよりもむしろ、Ｉ／Ｏハブ１０７へ、又は１つ以上のプロセッサ１０２の中の１つへ直接に接続される。他の実施形態では、Ｉ／Ｏハブ１０７及びメモリハブ１０５は、単一のチップに組み込まれてもよい。また、２組以上のプロセッサ１０２が、並列プロセッサ１１２の２つ以上のインスタンスと結合することができる複数のソケットを介して取り付けられることも可能である。

ここで示されている特定のコンポーネントのいくつかは任意であり、コンピューティングシステム１００の全ての実施に含まれなくてもよい。例えば、任意の数のアドインカード又はペリフェラルがサポートされてよく、あるいは、いくつかのコンポーネントは削除されてもよい。更には、いくつかのアーキテクチャは、図１に表されているものと類似したコンポーネントに対して異なった用語を使用してもよい。例えば、メモリハブ１０５は、いくつかのアーキテクチャではノースブリッジと呼ばれることがあり、一方、Ｉ／Ｏハブ１０７は、サウスブリッジと呼ばれることがある。

図２Ａは、並列プロセッサ２００を表す。並列プロセッサ２００は、本願で記載されているＧＰＵ、ＧＰＧＰＵ、などであってよい。並列プロセッサ２００の様々なコンポーネントは、プログラム可能なプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、又はフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）などの１つ以上の集積回路デバイスを用いて実装されてよい。表されている並列プロセッサ２００は、図１に示されている並列プロセッサ１１２又はそのうちの１つであってよい。

並列プロセッサ２００は、並列処理ユニット２０２を含む。並列処理ユニット２０２は、並列処理ユニット２０２の他のインスタンスを含む他のデバイスとの通信を可能にするＩ／Ｏユニット２０４を含む。Ｉ／Ｏユニット２０４は、他のデバイスへ直接に接続されてよい。例えば、Ｉ／Ｏユニット２０４は、メモリハブ１０５などのハブ又はスイッチインターフェースの使用により他のデバイスと接続する。メモリハブ１０５とＩ／Ｏユニット２０４との間の接続は、通信リンク１１３を形成する。並列処理ユニット２０２内で、Ｉ／Ｏユニット２０４は、ホストインターフェース２０６及びメモリクロスバー２１６と接続し、ホストインターフェース２０６は、処理動作を実行することに向けられたコマンドを受け取り、メモリクロスバー２１６は、メモリ動作を実行することに向けられたコマンドを受け取る。

ホストインターフェース２０６がＩ／Ｏユニット２０４を介してコマンドバッファを受け取るとき、ホストインターフェース２０６は、それらのコマンドを実行するための作業操作をフロントエンド２０８へ向けることができる。一実施形態で、フロントエンド２０８はスケジューラ２１０と結合し、スケジューラ２１０は、コマンド又は他の作業項目を処理クラスタアレイ２１２へ分配するよう構成される。スケジューラ２１０は、処理クラスタアレイ２１２が適切に構成され、処理クラスタアレイ２１２の処理クラスタへタスクが分配される前に有効な状態にあることを確かにする。スケジューラ２１０は、マイクロコントローラで実行されるファームウェアロジックにより実装されてよい。マイクロコントローラにより実装されたスケジューラ２１０は、処理アレイ２１２で実行されるスレッドの迅速なプリエンプション及びコンテキストスイッチングを可能にしながら、複雑なスケジューリング及び作業分配操作を粗い及び細かい粒度で実行するよう構成される。望ましくは、ホストソフトウェアは、複数のグラフィクス処理ドアベルの中の１つにより、処理アレイ２１２に対するスケジューリングのためのワークロードを証明することができる。次いで、ワークロードは、スケジューラマイクロコントローラ内のスケジューラ２１０のロジックによって、処理アレイ２１２にわたって自動的に分配され得る。

処理クラスタアレイ２１２は、最大“Ｎ”個までの処理クラスタ（例えば、クラスタ２１４Ａ、クラスタ２１４Ｂ、乃至クラスタ２１４Ｎ）を含むことができる。処理クラスタアレイ２１２の各クラスタ２１４Ａ～２１４Ｎは、多数の同時のスレッドを実行することができる。スケジューラ２１０は、各タイプのプログラム又は計算について生じるワークロードに応じて様々であり得る様々なスケジューリング及び／又は作業分配アルゴリズムを用いて、処理クラスタアレイ２１２のクラスタ２１４Ａ～２１４Ｎへ作業を割り当てることができる。スケジューリングは、スケジューラ２１０によって動的に処理され得るか、あるいは、処理クラスタアレイ２１２による実行のために構成されたプログラムロジックのコンパイル中にコンパイラロジックによって部分的に支援され得る。任意に、処理クラスタアレイ２１２の異なるクラスタ２１４Ａ～２１４Ｎは、異なるタイプのプログラムを処理するために、及び異なるタイプの計算を実行するために、割り当てられ得る。

処理クラスタアレイ２１２は、様々なタイプの並列処理動作を実行するよう構成され得る。例えば、クラスタアレイ２１２は、汎用の並列計算動作を実行するよう構成される。例えば、処理クラスタアレイ２１２は、ビデオ及び／又はオーディオデータのフィルタリング、物理演算を含むモデリング動作の実行、及びデータ変形の実行を含む処理タスクを実行するためのロジックを含むことができる。

処理クラスタアレイ２１２は、並列なグラフィクス処理動作を実行するよう構成される。並列プロセッサ２００がグラフィクス処理動作を実行するよう構成されているそのような実施形態で、処理クラスタアレイ２１２は、テッセレーションロジック及び他の頂点処理ロジックとともにテクスチャ動作を実行するテクスチャサンプリングロジックを含むがこれに限られないそのようなグラフィクス処理動作の実行をサポートする追加のロジックを含むことができる。更には、処理クラスタアレイ２１２は、頂点シェーダ、テッセレーションシェーダ、ジオメトリシェーダ、及びピクセルシェーダなどの、しかしこれらに限られないグラフィクス処理関連シェーダプログラムを実行するよう構成され得る。並列処理ユニット２０２は、データを処理のためにシステムメモリからＩ／Ｏユニット２０４を介して転送することができる。処理中、転送されたデータは、処理中にオンチップメモリ（例えば、並列プロセッサメモリ２２２）に記憶され、次いで、システムメモリへ書き込まれ得る。

並列処理ユニット２０２がグラフィクス処理を実行するために使用される実施形態で、スケジューラ２１０は、処理クラスタアレイ２１２の複数のクラスタ２１４Ａ～２１４Ｎへのグラフィクス処理動作の分配をより良く可能にするために、処理ワークロードをおおよそ等しいサイズのタスクに分けるよう構成されてよい。これらの実施形態のいくつかで、処理クラスタアレイ２１２の部分は、異なるタイプの処理を実行するよう構成され得る。例えば、表示のためのレンダリングされた画像を生成するために、第１部分は、頂点シェーディング及びトポロジ生成を実行するよう構成されてよく、第２部分は、テッセレーション及びジオメトリシェーディングを実行するよう構成されてよく、第３部分は、ピクセルシェーディング又は他のスクリーン空間動作を実行するよう構成されてよい。クラスタ２１４Ａ～２１４Ｎのうちの１つ以上によって生成された中間データは、中間データが更なる処理のためにクラスタ２１４Ａ～２１４Ｎの間で伝送されることを可能にするようバッファに格納されてよい。

動作中、処理クラスタアレイ２１２は、スケジューラ２１０を介して、実行されるべき処理タスクを受け取ることができ、スケジューラ２１０は、フロントエンド２０８から、処理タスクを定義するコマンドを受け取る。グラフィクス処理動作のために、処理タスクは、処理されるべきデータのインデックス、例えば、サーフェス（パッチ）データ、プリミティブデータ、頂点データ、及びピクセルデータを、どのようにしてデータが処理されるべきか（例えば、どのようなプログラムが実行されるべきか）を定義する状態パラメータ及びコマンドとともに含むことができる。スケジューラ２１０は、タスクに対応するインデックスをフェッチするよう構成されてよく、あるいは、フロントエンド２０８からインデックスを受け取ってもよい。フロントエンド２０８は、処理クラスタアレイ２１２が、入来するコマンドバッファ（例えば、バッチバッファ、プッシュバッファ、など）によって指定されたワークロードが開始される前に有効な状態に設定されることを確かにするよう構成され得る。

並列処理ユニット２０２の１つ以上のインスタンスの夫々は、並列プロセッサメモリ２２２と結合することができる。並列プロセッサメモリ２２２は、メモリクロスバー２１６を介してアクセスされ得る。メモリクロスバー２１６は、処理クラスタアレイ２１２及びＩ／Ｏユニット２０４からメモリリクエストを受け取ることができる。メモリクロスバー２１６は、メモリインターフェース２１８を介して並列プロセッサメモリ２２２にアクセスすることができる。メモリインターフェース２１８は、並列プロセッサメモリ２２２の部分（例えば、メモリユニット）へ夫々が結合することができる複数のパーティションユニット（例えば、パーティションユニット２２０Ａ、パーティションユニット２２０Ｂ、乃至パーティションユニット２２０Ｎ）を含むことができる。パーティションユニット２２０Ａ～２２０Ｎの数は、メモリユニットの数に等しいよう構成されてよく、それにより、第１パーティションユニット２２０Ａは、対応する第１メモリユニット２２４Ａを有し、第２パーティションユニット２２０Ｂは、対応するメモリユニット２２４Ｂを有し、Ｎ番目のパーティションユニット２２０Ｎは、対応するＮ番目のメモリユニット２２４Ｎを有する。他の実施形態では、パーティションユニット２２０Ａ～２２０Ｎの数は、メモリデバイスの数に等しくなくてもよい。

メモリユニット２２４Ａ～２２４Ｎは、グラフィクス・ダブル・データ・レート（ＧＤＤＲ）メモリを含む動的ランダム・アクセス・メモリ（ＤＲＡＭ）又はグラフィクス・ランダム・アクセス・メモリ、例えば、同期グラフィクス・ランダム・アクセス・メモリ（ＳＧＲＡＭ）を含む様々なタイプのメモリデバイスを含むことができる。任意に、メモリユニット２２４Ａ～２２４Ｎは、高帯域幅メモリ（ＨＢＭ）を含むがこれに限られない３Ｄ積層メモリも含んでよい。当業者に明らかなように、メモリユニット２２４Ａ～２２４Ｎは様々であることができ、様々な従来設計のうちの１つから選択可能である。フレームバッファ又はテクスチャマップなどのレンダーターゲットは、メモリユニット２２４Ａ～２２４Ｎにわたって記憶されてよく、パーティションユニット２２０Ａ～２２０Ｎが、並列プロセッサメモリ２２２の利用可能な帯域幅を効率よく使用するよう各レンダーターゲットの部分を書き込むことを可能にする。いくつかの実施形態において、並列プロセッサメモリ２２２のローカルインスタンスは、ローカルキャッシュメモリとともにシステムメモリを利用する統合されたメモリ設計を支持して、除かれてもよい。

任意に、処理クラスタアレイ２１２のクラスタ２１４Ａ～２１４Ｎのうちのいずれか１つは、並列プロセッサメモリ２２２内のメモリユニット２２４Ａ～２２４Ｎのうちのいずれかに書き込まれることになるデータを処理する能力を備えている。メモリクロスバー２１６は、各クラスタ２１４Ａ～２１４Ｎの出力を、いずれかのパーティションユニット２２０Ａ～２２０Ｎへ、又は出力に対して追加の処理動作を実行することができる他のクラスタ２１４Ａ～２１４Ｎへ転送するよう構成され得る。各クラスタ２１４Ａ～２１４Ｎは、様々な外部メモリデバイスから読み出すために又はそれらに書き込むために、メモリクロスバー２１６を通じてメモリインターフェース２１８と通信することができる。メモリクロスバー２１６を備えた実施形態のうちの１つで、メモリクロスバー２１６は、Ｉ／Ｏユニット２０４と通信するためのメモリインターフェース２１８への接続と、並列プロセッサメモリ２２２のローカルインスタンスへの接続とを有し、異なる処理クラスタ２１４Ａ～２１４Ｎ内の処理ユニットが、並列処理ユニット２０２にとってローカルでないシステムメモリ又は他のメモリと通信することを可能にする。一般に、メモリクロスバー２１６は、例えば、クラスタ２１４Ａ～２１４Ｎとパーティションユニット２２０Ａ～２２０Ｎとの間でトラフィックストリームを分離するために仮想チャネルを使用することが可能であり得る。

並列処理ユニット２０２の単一のインスタンスが並列プロセッサ２００内に表されているが、並列処理ユニット２０２の任意の数のインスタンスが含まれ得る。例えば、並列処理ユニット２０２の複数のインスタンスが、単一のアドインカードで設けられ得るか、あるいは、複数のアドインカードが相互接続され得る。並列処理ユニット２０２の異なるインスタンスは、たとえ異なるインスタンスが異なる数の処理コア、異なる量のローカル並列プロセッサメモリ、及び／又は他の構成相違点を有しているとしても、相互動作するよう構成され得る。任意に、並列処理ユニット２０２のいくつかのインスタンスは、他のインスタンスよりも高い精度の浮動小数点ユニットを含むことができる。並列処理ユニット２０２又は並列プロセッサ２００の１つ以上のインスタンスを組み込むシステムは、デスクトップ、ラップトップ、若しくは携帯型パーソナルコンピュータ、サーバ、ワークステーション、ゲーム機、及び／又は埋め込み型システムを含むがこれらに限られない様々な構成及び形状因子で実装され得る。

図２Ｂは、パーティションユニット２２０のブロック図である。パーティションユニット２２０は、図２Ａのパーティションユニット２２０Ａ～２２０Ｎのうちの１つのインスタンスであってよい。表されているように、パーティションユニット２２０は、Ｌ２キャッシュ２２１、フレームバッファインターフェース２２５、及びＲＯＰ２２６（raster operations unit）を含む。Ｌ２キャッシュ２２１は、メモリクロスバー２１６及びＲＯＰ２２６から受け取られたロード及びストア動作を実行するよう構成される読み出し／書き込みキャッシュである。読み出しミス及び緊急の書き戻しサーフェスは、Ｌ２キャッシュ２２１によってフレームバッファインターフェース２２５へ処理のために出力される。アップデートも、処理のためにフレームバッファインターフェース２２５を介してフレームバッファへ送信され得る。一実施形態で、フレームバッファインターフェース２２５は、図２Ａのメモリユニット２２４Ａ～２２４Ｎ（例えば、並列プロセッサメモリ２２２内）などの並列プロセッサメモリ内のメモリユニットの中の１つとインターフェース接続する。パーティションユニット２２０は、追加的に、又は代替的に、メモリコントローラ（図示せず）を介して並列プロセッサメモリ内のメモリユニットの１つとインターフェース接続してもよい。

グラフィクスアプリケーションでは、ＲＯＰ２２６は、ステンシル、ｚテスト、ブレンディングなどのようなラスタ動作を実行する処理ユニットである。ＲＯＰ２２６は、次いで、処理されたグラフィクスデータを出力し、処理されたグラフィクスデータは、グラフィクスメモリに記憶される。いくつかの実施形態において、ＲＯＰ２２６は、メモリに書き込まれるデプス又はカラーデータを圧縮し、メモリから読み出されるデプス又はカラーデータを圧縮解除する圧縮ロジックを含む。圧縮ロジックは、複数の圧縮アルゴリズムのうちの１つ以上を使用するロスレス圧縮ロジックであることができる。ＲＯＰ２２６によって実行される圧縮のタイプは、圧縮されるべきデータの統計特性に基づいて様々であることができる。例えば、一実施形態で、デルタカラー圧縮は、タイルごとにデプス及びカラーデータに対して実行される。

ＲＯＰ２２６は、パーティションユニット２２０内ではなく、各処理クラスタ（例えば、図２Ａのクラスタ２１４Ａ～２１４Ｎ）内に含まれてもよい。そのような実施形態では、ピクセルデータの読み出し及び書き込みリクエストは、ピクセルフラグメントデータの代わりにメモリクロスバー２１６を介して伝送される。処理されたグラフィクスデータは、図１の１つ以上の表示デバイス１１０のうちの１つなどの表示デバイスで表示されるか、プロセッサ１０２による更なる処理のためにルーティングされるか、あるいは、図２Ａの並列プロセッサメモリ２２２内の処理エンティティのうちの１つによる更なる処理のためにルーティングされてよい。

図２Ｃは、並列処理ユニット内の処理クラスタ２１４のブロック図である。例えば、処理クラスタは、図２Ａの処理クラスタ２１４Ａ～２１４Ｎのうちの１つのインスタンスである。処理クラスタ２１４は、多くのスレッドを同時に実行するよう構成され得る。ここで、「スレッド」という用語は、特定の組の入力データに対して実行する特定のプログラムのインスタンスを指す。任意に、ＳＩＭＤ（single-instruction, multiple-data）命令発行技術が、多数の独立した命令ユニットを設けずに、多数のスレッドの並列実行をサポートするために使用されてよい。代替的に、ＳＩＭＴ（single-instruction, multiple-thread）技術が、処理クラスタの各１つの中の処理エンジンの組へ命令を発行するよう構成された共通命令ユニットを使用して、多数の概ね同期されたスレッドの並列実行をサポートするために使用されてもよい。全ての処理エンジンが通常は同じ命令を実行するＳＩＭＤ実行レジームとは異なり、ＳＩＭＴ実行は、異なるスレッドが、所与のスレッドプログラムを通じて、異なる実行パスをより簡単に辿ることを可能にする。当業者であれば、ＳＩＭＤ処理レジームはＳＩＭＴ処理レジームの機能サブセットを表している、と理解するだろう。

処理クラスタ２１４の動作は、処理タスクをＳＩＭＴ並列プロセッサに分配するパイプラインマネージャ２３２を介して制御され得る。パイプラインマネージャ２３２は、図２のスケジューラ２１０から命令を受け取り、グラフィクスマルチプロセッサ２３４及び／又はテクスチャユニット２３６によるこれらの命令の実行を管理する。表されているグラフィクスマルチプロセッサ２３４は、ＳＩＭＴ並列プロセッサの例示的なインスタンスである。しかし、異なるアーキテクチャの様々なタイプのＳＩＭＴ並列プロセッサが処理クラスタ２１４内に含まれてよい。グラフィクスマルチプロセッサ２３４の１つ以上のインスタンスが処理クラスタ２１４内に含まれ得る。グラフィクスマルチプロセッサ２３４は、データを処理することができ、データクロスバー２４０は、処理されたデータを、他のシェーダユニットを含む複数の可能なあて先のうちの１つへ分配するために使用され得る。パイプラインマネージャ２３２は、処理されたデータがデータクロスバー２４０を介して分配されるためのあて先を指定することによって、処理されたデータの分配を促すことができる。

処理クラスタ２１４内の各グラフィクスマルチプロセッサ２３４は、同じ組の機能実行ロジック（例えば、算術ロジックユニット、ロード－ストアユニット、など）を含むことができる。機能実行ロジックは、前の命令が完了する前に新しい命令が発行され得るパイプライン化された様態で構成され得る。機能実行ロジックは、整数及び浮動小数点演算、比較演算、ブール演算、ビットシフト、及び様々な代数関数の計算を含む様々な演算をサポートする。同じ機能ユニットハードウェアは、種々の演算を実行するために利用可能であり、機能ユニットの如何なる組み合わせも存在してよい。

処理クラスタ２１４へ伝送された命令は、スレッドを構成する。並列処理エンジンにわたって実行されるスレッドの組は、スレッドグループである。スレッドグループは、異なる入力データに対して同じプログラムを実行する。スレッドグループ内の各スレッドは、グラフィクスマルチプロセッサ２３４内の異なる処理エンジンへ割り当てられ得る。スレッドグループに含まれているスレッドは、グラフィクスマルチプロセッサ２３４内の処理エンジンの数よりも少なくてよい。スレッドグループに含まれているスレッドが処理エンジンの数よりも少ない場合に、処理エンジンのうちの１つ以上は、スレッドグループが処理中であるサイクル中にアイドル状態であってよい。スレッドグループに含まれているスレッドはまた、グラフィクスマルチプロセッサ２３４内の処理エンジンの数よりも多くてもよい。スレッドグループに含まれているスレッドがグラフィクスマルチプロセッサ２３４内の処理エンジンの数よりも多い場合に、処理は、連続したクロックサイクルにわたって実行され得る。任意に、複数のスレッドグループがグラフィクスマルチプロセッサ２３４で同時に実行され得る。

グラフィクスマルチプロセッサ２３４は、ロード及びストア動作を実行するよう内部キャッシュメモリを含んでもよい。任意に、グラフィクスマルチプロセッサ２３４は、内部キャッシュを先送りし、処理クラスタ２１４内のキャッシュメモリ（例えば、Ｌ１キャッシュ２４８）を使用することができる。各グラフィクスマルチプロセッサ２３４はまた、全ての処理クラスタ２１４にわたって共有されてスレッド間でデータを転送するために使用され得るパーティションユニット（例えば、図２Ａのパーティションユニット２２０Ａ～２２０Ｎ）内のＬ２キャッシュへのアクセスも有する。グラフィクスマルチプロセッサ２３４はまた、オフチップグローバルメモリにアクセスしてもよい。オフチップグローバルメモリは、ローカル並列プロセッサメモリ及び／又はシステムメモリのうちの１つ以上を含むことができる。並列処理ユニット２０２の外にある如何なるメモリも、グローバルメモリとして使用されてよい、処理クラスタ２１４がグラフィクスマルチプロセッサ２３４の複数のインスタンスを含む実施形態は、Ｌ１キャッシュ２４８に記憶され得る共通命令及びデータを共有することができる。

各処理クラスタ２１４は、仮想アドレスを物理アドレスにマッピングするよう構成されるＭＭＵ２４５（memory management unit）を含んでよい。他の実施形態では、ＭＭＵ２４５の１つ以上のインスタンスは、図２Ａのメモリインターフェース２１８内に存在してよい。ＭＭＵ２４５は、仮想アドレスをタイルの物理アドレスと、任意にキャッシュラインインデックスとにマッピングするために使用されるページテーブルエントリ（ＰＴＥ）の組を含む。ＭＭＵ２４５は、グラフィクスマルチプロセッサ２３４若しくはＬ１キャッシュ２４８又は処理クラスタ２１４内に存在し得るアドレストランスレーション・ルックアサイド・バッファ（ＴＬＢ）又はキャッシュを含んでもよい。物理アドレスは、パーティションユニットの間で効率的なリクエストインターリービングを可能にするためにサーフェスデータアクセスの局所性を分散するよう処理される。キャッシュラインインデックスは、キャッシュラインに対するリクエストがヒットかミスかを決定するために使用されてよい。

グラフィクス及びコンピューティングアプリケーションでは、処理クラスタ２１４は、各グラフィクスマルチプロセッサ２３４が、テクスチャマッピング動作、例えば、テクスチャサンプル位置を決定すること、テクスチャデータを読み出すこと、及びテクスチャデータにフィルタをかけること、を実行するために、テクスチャユニット２３６へ結合されるように構成されてよい。テクスチャデータは、内部テクスチャＬ１キャッシュ（図示せず）から、又はいくつかの実施形態では、グラフィクスマルチプロセッサ２３４内のＬ１キャッシュから読み出され、必要に応じて、Ｌ２キャッシュ、ローカル並列プロセッサメモリ、又はシステムメモリからフェッチされる。各グラフィクスマルチプロセッサ２３４は、処理されたタスクを、更なる処理のために、他の処理クラスタ２１４へ供給するよう、あるいは、処理されたタスクをＬ２キャッシュ、ローカル並列プロセッサメモリ、又はシステムメモリにメモリクロスバー２１６を介して格納するよう、処理されたタスクをデータクロスバー２４０へ出力する。ｐｒｅＲＯＰ２４２（pre-raster operations unit）は、グラフィクスマルチプロセッサ２３４からデータを受け取り、データを、本願で記載されるパーティションユニット（例えば、図２Ａのパーティションユニット２２０Ａ～２２０Ｎ）により位置を定められ得るＲＯＰユニットへ向けるよう構成される。ｐｒｅＲＯＰ２４２ユニットは、色混合のための最適化を実行し、ピクセル色データを編成し、アドレス変換を実行することができる。

本願で記載されるコアアーキテクチャは実例であり、変更及び変形が可能であることが理解されるだろう。任意の数の処理ユニット、例えば、グラフィクスマルチプロセッサ２３４、テクスチャユニット２３６、ｐｒｅＲＯＰ２４２などが処理クラスタ２１４に含まれてよい。更に、ただ１つの処理ユニット２１４しか示されていないが、本願で記載される並列処理ユニットは、処理クラスタ２１４の任意の数のインスタンスを含んでよい。任意に、各処理クラスタ２１４は、別々の相異なる処理ユニット、Ｌ１キャッシュ、などを用いて他の処理クラスタ２１４から独立して動作するよう構成され得る。

図２Ｄは、グラフィクスマルチプロセッサ２３４が処理クラスタ２１４のパイプラインマネージャ２３２と結合するグラフィクスマルチプロセッサ２３４の例を示す。グラフィクスマルチプロセッサ２３４は、命令キャッシュ２５２、命令ユニット２５４、アドレスマッピングユニット２５６、レジスタファイル２５８、１つ以上の汎用グラフィクス処理ユニット（ＧＰＧＰＵ）コア２６２、及び１つ以上のロード／ストアユニット２６６を含むがこれらに限られない実行パイプラインを備える。ＧＰＧＰＵコア２６２及びロード／ストアユニット２６６は、メモリ及びキャッシュインターコネクト２６８を介してキャッシュメモリ２７２及び共有メモリ２７０と結合される。グラフィクスマルチプロセッサ２３４は、行列及び／又はレイトレーシング演算を加速させるハードウェアロジックを含むテンソル及び／又はレイトレーシングコア２６３を更に含んでもよい。

命令キャッシュ２５２は、パイプラインマネージャ２３２から、実行すべき命令のストリームを受け取ってよい。命令は、命令キャッシュ２５２にキャッシュされ、命令ユニット２５４による実行のためにディスパッチされる。命令ユニット２５４は、スレッドグループ（例えば、ワープ）として命令をディスパッチすることができ、スレッドグループの各スレッドは、ＧＰＧＰＵコア２６２内の異なる実行ユニットに割り当てられる。命令は、統合アドレス空間内でアドレスを指定することによって、ローカル、共有、又はグローバルアドレス空間のいずれかにアクセスすることができる。アドレスマッピングユニット２５６は、統合アドレス空間内のアドレスを、ロード／ストアユニット２６６によってアクセスされ得る相異なるメモリアドレスに変換するために使用され得る。

レジスタファイル２５８は、グラフィクスマルチプロセッサ２３４の機能ユニットのためのレジスタの組を提供する。レジスタファイル２５８は、グラフィクスマルチプロセッサ２３４の機能ユニット（例えば、ＧＰＧＰＵコア２６２、ロード／ストアユニット２６６）のデータパスへ接続されたオペランドの一時記憶を提供する。レジスタファイル２５８は、各機能ユニットがレジスタファイル２５８の専用の部分を割り当てられるように、機能ユニットの夫々の間で分割されてよい。例えば、レジスタファイル２５８は、グラフィクスマルチプロセッサ２３４によって実行される異なるワープ間で分割される。

ＧＰＧＰＵコア２６２は、グラフィクスマルチプロセッサ２３４の命令を実行するために使用される浮動小数点ユニット（ＦＰＵ）及び／又は整数算術ロジックユニット（ＡＬＵ）を夫々含むことができる。いくつかの実施で、ＧＰＧＰＵコア２６２は、テンソル及び／又はレイトレーシングコア２６３内にさもなければ存在してもよいハードウェアロジックを含むことができる。ＧＰＧＰＵコア２６２は、アーキテクチャが類似していることができ、あるいは、アーキテクチャが異なることができる。例えば、一実施形態において、ＧＰＧＰＵコア２６２の第１部分は、単精度ＦＰＵ及び整数ＡＬＵを含み、一方、ＧＰＧＰＵコア２６２の第２部分は、倍精度ＦＰＵを含む。任意に、ＦＰＵは、浮動小数点算術のためのＩＥＥＥ７５４－２００８を実装するか、あるいは、変数精度浮動小数点算術を有効にすることができる。グラフィクスマルチプロセッサ２３４は、コピー長方形又はピクセル混合動作などの特定の機能を実行するよう１つ以上の固定機能又は特別の機能を更に含むことができる。ＧＰＧＰＵコアの１つ以上はまた、固定又は特別の機能ロジックも含むことができる。

ＧＰＧＰＵコア２６２は、複数組のデータに対して単一の命令を実行することができるＳＩＭＤロジックを含んでよい。任意に、ＧＰＧＰＵコア２６２は、ＳＩＭＤ４、ＳＩＭＤ８、及びＳＩＭＤ１６命令を物理的に実行し、ＳＩＭＤ１、ＳＩＭＤ２、及びＳＩＭＤ３２命令を論理的に実行することができる。ＧＰＧＰＵコアのためのＳＩＭＤ命令は、シェーダコンパイラによってコンパイル時に生成されるか、あるいは、ＳＰＭＤ（single program multiple data，ＳＰＭＤ）又はＳＩＭＴアーキテクチャのために記述及びコンパイルされたプログラムを実行するときに自動的に生成され得る。ＳＩＭＴ実行モデルのために構成されたプログラムの複数のスレッドは、単一のＳＩＭＤ命令により実行可能である。例えば、一実施形態において、同じ又は類似した動作を実行する８つのＳＩＭＴスレッドが、単一のＳＩＭＤ８ロジックユニットにより並列に実行され得る。

メモリ及びキャッシュインターコネクト２６８は、グラフィクスマルチプロセッサ２３４の機能ユニットの夫々をレジスタファイル２５８へ及び共有メモリ２７０へ接続するインターコネクトネットワークである。例えば、メモリ及びキャッシュインターコネクト２６８は、ロード／ストアユニット２６６が共有メモリ２７０とレジスタファイル２５８との間でロード及びストア動作を実装することを可能にするクロスバーインターコネクトである。レジスタファイル２５８は、ＧＰＧＰＵコア２６２と同じ周波数で動作することができるので、ＧＰＧＰＵコア２６２とレジスタファイル２５８との間のデータ転送は、レイテンシが非常に小さい。共有メモリ２７０は、グラフィクスマルチプロセッサ２３４内の機能ユニットで実行されるスレッド間の通信を可能にするために使用され得る。キャッシュメモリ２７２は、例えば、機能ユニットとテクスチャユニット２３６との間で通信されたテクスチャデータをキャッシュするために、データキャッシュとして使用され得る。共有メモリ２７０はまた、キャッシュされて管理されるプログラムとしても使用され得る。ＧＰＧＰＵコア２６２で実行されるスレッドは、キャッシュメモリ２７２内に格納されている自動的にキャッシュされたデータに加えて、共有メモリ内にデータをプログラム可能に格納することができる。

図３Ａ～３Ｃは、実施形態に従って、更なるグラフィクスマルチプロセッサを表す。図３Ａ～３Ｂは、図２Ｃのグラフィクスマルチプロセッサ２３４に関係があり、それらのうちの１つの代わりに使用されてよいグラフィクスマルチプロセッサ３２５、３５０を表す。従って、本願のグラフィクスマルチプロセッサ２３４と組み合わされる如何なる特徴の開示も、グラフィクスマイクロプロセッサ３２５との対応する組み合わせを開示するが、そのように限定されない。図３Ｃは、マルチコアグループ３６５Ａ～３６５Ｎに配置されたグラフィクス処理リソースの専用の組を含むグラフィクス処理ユニット（ＧＰＵ）３８０を表し、ＧＰＵ３８０は、グラフィクスマイクロプロセッサ３２５、３５０に対応する。表されているグラフィクスマルチプロセッサ３２５、３５０及びマルチコアグループ３６５Ａ～３６５Ｎは、多数の実行スレッドの同時の実行が可能なストリーミング・マルチプロセッサ（streaming multiprocessors，ＳＭ）であることができる。

図３Ａのグラフィクスマルチプロセッサ３２５は、図２Ｄのグラフィクスマルチプロセッサ２３４に対して、実行リソースユニットの複数の追加インスタンスを含む。例えば、グラフィクスマルチプロセッサ３２５は、命令ユニット３３２Ａ～３３２Ｂ、レジスタファイル３３４Ａ～３３４Ｂ、及びテクスチャユニット３４４Ａ～３４４Ｂの複数のインスタンスを含むことができる。グラフィクスマルチプロセッサ３２５はまた、複数組のグラフィクス又は計算実行ユニット（例えば、ＧＰＧＰＵコア３３６Ａ～３３６Ｂ、テンソルコア３３７Ａ～３３７Ｂ、レイトレーシングコア３３８Ａ～３３８Ｂ）と、複数組のロード／ストアユニット３４０Ａ～３４０Ｂとを含む。実行リソースユニットは、共通命令キャッシュ３３０、テクスチャ及び／又はデータキャッシュメモリ３４２、及び共有メモリ３４６を備える。

様々なコンポーネントは、インターコネクトファブリック３２７を介して通信することができる。インターコネクトファブリック３２７は、グラフィクスマルチプロセッサ３２５の様々なコンポーネント間の通信を可能にするよう１つ以上のクロスバースイッチを含んでよい。インターコネクトファブリック３２７は、グラフィクスマルチプロセッサ３２５の各コンポーネントがスタックされる別個の高速ネットワークファブリックレイヤであってよい。グラフィクスマルチプロセッサ３２５のコンポーネントは、インターコネクトファブリック３２７を介して遠隔のコンポーネントと通信する。例えば、ＧＰＧＰＵコア３３６Ａ～３３６Ｂ、３３７Ａ～３３７Ｂ、及び３３８Ａ～３３８Ｂは夫々、インターコネクトファブリック３２７を介して共有メモリ３４６と通信することができる。インターコネクトファブリック３２７は、コンポーネント間の公平な帯域幅割り当てを確かにするために、グラフィクスマルチプロセッサ３２５内の通信を調停することができる。

図３Ｂのグラフィクスマルチプロセッサ３５０は、複数組の実行リソース３５６Ａ～３５６Ｄを含み、実行リソースの各組は、図２Ｄ及び図３Ａに表されているような複数の命令ユニット、レジスタファイル、ＧＰＧＰＵコア、及びロード／ストアユニットを含む。実行リソース３５６Ａ～３５６Ｄは、命令キャッシュ３５４及び共有メモリ３５３を共有しながら、テクスチャ動作のためのテクスチャユニット３６０～３６０Ｄに呼応して動作することができる。例えば、実行リソース３５６Ａ～３５６Ｄは、テクスチャ及び／又はデータキャッシュメモリ３５８Ａ～３５８Ｂの複数のインスタンスとともに、命令キャッシュ３５４及び共有メモリ３５３を共有することができる。様々なコンポーネントは、図３Ａのインターコネクトファブリック３２７に類似したインターコネクトファブリック３５２を介して通信することができる。

当業者であれば、図１、２Ａ～２Ｄ、及び３Ａ～３Ｂに示されているアーキテクチャは説明であり、本実施形態の範囲に関する限定ではない、と理解するだろう。よって、本願で説明される技術は、本願で記載される実施形態の範囲から逸脱せずに、制限なしに、１つ以上のモバイルアプリケーションプロセッサ、マルチコアＣＰＵを含む１つ以上のデスクトップ又はサーバ中央演算処理ユニット、図２Ａの並列処理ユニット２０２のような１つ以上の並列処理ユニット、及び１つ以上のグラフィクスプロセッサ又は特別目的の処理ユニットを含む如何なる適切に構成された処理ユニットでも実装されてよい。

本願で記載される並列プロセッサ又はＧＰＧＰＵは、グラフィクス操作、機械学習動作、パターン解析動作、及び様々な汎用ＧＰＵ（ＧＰＧＰＵ）機能を加速させるようホスト／プロセッサコアへ通信可能に結合されてよい。ＧＰＵは、バス又は他のインターコネクト（例えば、ＰＣＩｅ又はＮＶＬｉｎｋなどの高速インターコネクト）を介してホストプロセッサ／コアへ通信可能に結合されてよい。他の実施形態では、ＧＰＵは、コアと同じパッケージ又はチップに集積され、内部プロセッサバス／インターコネクト（すなわち、パケット又はチップ内にある）を介してコアへ通信可能に結合されてよい。ＧＰＵが接続されている様態にかかわらず、プロセッサコアは、作業記述に含まれているコマンド／命令のシーケンスの形でＧＰＵに作業を割り当ててよい。ＧＰＵは、次いで、それらのコマンド／命令を有効に処理するための専用の回路構成／ロジックを使用する。

図３Ｃは、マルチコアグループ３６５Ａ～３６５Ｎに割り当てられたグラフィクス処理リソースの専用の組を含むグラフィクス処理ユニット（ＧＰＵ）３８０を表す。ただ１つのマルチコアグループ３６５Ａの詳細しか与えられていないが、他のマルチコアグループ３６５Ａ～３６５Ｎは、グラフィクス処理リソースの同じ又は類似した組を備えられてよいことが理解されるだろう。マルチコアグループ３６５Ａ～３６５Ｎに関して記載される詳細は、本願で記載されているいずれかのグラフィクスマルチプロセッサ２３４、３２５、３５０にも当てはまり得る。

表されているように、マルチコアグループ３６５Ａは、グラフィクスコアの組３７０、テンソルコアの組３７１、及びレイトレーシングコアの組３７２を含んでよい。スケジューラ／ディスパッチャ３６８は、様々なコア３７０、３７１及び３７２で実行されるグラフィクススレッドをスケジューリング及びディスパッチする。レジスタファイルの組３６９は、グラフィクススレッドを実行するときにコア３７０、３７１及び３７２によって使用されるオペランド値を格納する。これらは、例えば、整数値を格納する整数レジスタ、浮動小数点値を格納する浮動小数点レジスタ、パックされたデータ要素（整数及び／又は浮動小数点データ要素）を格納するベクトルレジスタ、及びテンソル／行列値を格納するタイルレジスタを含んでよい。タイルレジスタは、ベクトルレジスタの組み合わされた組として実装されてよい。

１つ以上の組み合わされたレベル１（Ｌ１）キャッシュ及び共有メモリユニット３７３は、各マルチコアグループ３６５Ａ内に局所的にテクスチャデータ、頂点データ、ピクセルデータ、レイデータ、境界ボリュームデータ、などのグラフィクスデータを格納する。１つ以上のテクスチャユニット３７４はまた、テクスチャマッピング及びサンプリングなどのテクスチャリング動作を実行するためにも使用され得る。マルチコアグループ３６５Ａ～３６５Ｎの全て又はサブセットによって共有されているレベル２（Ｌ２）キャッシュ３７５は、複数の同時のグラフィクススレッドのためのグラフィクスデータ及び／又は命令を格納する。表されているように、Ｌ２キャッシュ３７５は、複数のマルチコアグループ３６５Ａ～３６５Ｎにわたって共有されてよい。１つ以上のメモリコントローラ３６７は、ＧＰＵ３８０をメモリ３６６へ結合する。メモリ３６６は、システムメモリ（例えば、ＤＲＡＭ）及び／又は専用のグラフィクスメモリ（例えば、ＧＤＤＲ６メモリ）であってよい。

入出力（Ｉ／Ｏ）回路構成３６３は、ＧＰＵ３８０を、デジタル信号プロセッサ（ＤＳＰ）、ネットワークコントローラ、又はユーザ入力デバイスなどの１つ以上のＩ／Ｏデバイス３６２へ結合する。オンチップインターコネクトが、Ｉ／Ｏデバイス３６２をＧＰＵ３８０及びメモリ３６６へ結合するために使用されてよい。Ｉ／Ｏ回路構成３６３の１つ以上のＩ／Ｏメモリ管理ユニット（ＩＯＭＭＵ）３６４は、システムメモリ３６６へ直接にＩ／Ｏデバイス３６２を結合する。任意に、ＩＯＭＭＵ３６４は、システムメモリ３６６内の物理アドレスへ仮想アドレスをマッピングするよう複数組のページテーブルを管理する。Ｉ／Ｏデバイス３６２、ＣＰＵ３６１、及びＧＰＵ３８０は、同じ仮想アドレス空間を共有してもよい。

ＩＯＭＭＵ３６４の１つの実施において、ＩＯＭＭＵ３６４は仮想化をサポートする。この場合に、それは、ゲスト／グラフィクス仮想アドレスをゲスト／グラフィクス物理アドレスにマッピングするページテーブルの第１の組と、ゲスト／グラフィクス物理アドレスをシステム／ホスト物理アドレス（例えば、システムメモリ３６６内）にマッピングするページテーブルの第２の組とを管理してよい。ページテーブルの第１及び第２の組の夫々のベースアドレスは、制御レジスタに格納され、コンテキストスイッチでスワップアプトされてよい（例えば、それにより、新しいコンテキストは、ページテーブルの関連する組へのアクセスを与えられる）。図３Ｃに表されていないが、コア３７０、３７１、３７２及び／又はマルチコアグループ３６５Ａ～３６５Ｎの夫々は、ゲスト仮想からのゲスト物理への変換、ゲスト物理からホスト物理への変換、及びゲスト仮想からホスト物理への変換をキャッシュするようトランスレーション・ルックアサイド・バッファ（ＴＬＢ）を含んでもよい。

ＣＰＵ３６１、ＧＰＵ３８０、及びＩ／Ｏデバイス３６２は、単一の半導体チップ及び／又はチップパッケージで集積されてよい。表されているメモリ３６６は、同じチップに集積されてよく、あるいは、オフチップインターフェースを介してメモリコントローラ３６７へ結合されてよい。１つの実施において、メモリ３６６は、他の物理システムレベルメモリと同じ仮想アドレス空間を共有するＧＤＤＲ６メモリを有するが、本願で記載されている基礎原理は、この具体的な実施に限定されない。

テンソルコア３７１は、ディープラーニング動作を実行するために使用される基本計算動作である行列演算を実行するよう特に設計された複数の実行ユニットを含んでよい。例えば、同時の行列乗算演算は、ニューラルネットワークの訓練及び推論のために使用されてよい。テンソルコア３７１は、単精度浮動小数点（例えば、３２ビット）、半精度浮動小数点（例えば、１６ビット）、整数ワード（１６ビット）、バイト（８ビット）及び半バイト（４ビット）を含む様々なオペランド精度を用いて行列処理を実行してよい。例えば、ニューラルネットワーク実施は、高品質の最終画像を構成するために、複数のフレームからの詳細を潜在的に組み合わせる各レンダリングされたシーンの特徴を抽出する。

ディープラーニング実施では、並列な行列乗算作業が、テンソルコア３７１での実行のためにスケジューリングされてよい。ニューラルネットワークの訓練は、特に、有意な数の行列内積演算を必要とする。Ｎ×Ｎ×Ｎ行列かけ算の内積定式化を処理するために、テンソルコア３７１は、少なくともＮ個の内積処理要素を含んでよい。行列かけ算が始まる前に、１つの行列全体がタイルレジスタにロードされ、第２行列の少なくとも１つの列がＮ回のサイクルの各サイクルでロードされる。サイクルごとに、処理されるＮ個の内積がある。

行列要素は、１６ビットワード、８ビットバイト（例えば、ＩＮＴ８）及び４ビット半バイト（例えば、ＩＮＴ４）を含む、特定の実施に応じた異なる精度で記憶されてよい。異なる精度モードは、最も有効な精度が異なるワークロード（例えば、バイト及び半バイトへの量子化を許すことができるワークロードを推論すること、など）のために使用されることを確かにするよう、テンソルコアの組３７１に対して指定されてよい。

レイトレーシングコア３７２は、実時間のレイトレーシング又は非実時間のレイトレーシングの両方の実施のためにレイトレーシング演算を加速させてよい。特に、レイトレーシングコア３７２は、境界ボリュームヒエラルキ（ＢＶＨ）を用いてレイトラバースを実行し、レイとＢＶＨボリューム内に含まれるプリミティブとの間の交差を識別するレイトラバース／交差回路を含んでよい。レイトレーシングコア３７２はまた、デプス試験及び選択を実行するための回路構成（例えば、Ｚバッファ又は同様の配置を使用する）も含んでよい。１つの実施において、レイトレーシングコア３７２は、本願で記載される画像ノイズ除去技術に呼応してトラバース及び交差動作を実行する。それらの技術のうちの少なくとも一部は、テンソルコア３７１で実行されてよい。例えば、テンソルコア３７１は、レイトレーシングコア３７２によって生成されたフレームのノイズ除去を実行するようディープラーニングニューラルネットワークを実装してよい。しかし、ＣＰＵ３６１、グラフィクスコア３７０、及び／又はレイトレーシングコア３７２も、ノイズ除去及び／又はディープラーニングアルゴリズムの全て又は一部を実装してよい。

更には、上述されたように、ノイズ除去に対する分散型アプローチが用いられてもよく、ＧＰＵ３８０は、ネットワーク又は高速インターコネクトを介して他のコンピューティングデバイスへ結合されたコンピューティングデバイス内にある。この分散アプローチでは、相互接続されたコンピューティングデバイスは、異なるタイプの画像フレーム及び／又は異なるグラフィクスアプリケーションについてノイズ除去を実行するために、システム全体が学習する速度を改善するようニューラルネットワーク学習／訓練データを共有してよい。

レイトレーシングコア３７２は、グラフィクスコア３７０がレイごとの数千の命令で過負荷になることを防ぐように、全てのＢＶＨトラバース及びレイプリミティブ交差を処理してよい。例えば、各レイトレーシングコア３７２は、境界ボックステスト（例えば、トラバース動作のため）を実行する専用回路の第１の組と、レイ－三角形交差テスト（例えば、トラバースされている交差レイ）を実行する専用回路の第２の組とを含む。よって、例えば、マルチコアグループ３６５Ａは簡単にレイプローブを起動することができ、レイトレーシングコア３７２は、レイトラバース及び交差を独立して実行し、ヒットデータ（例えば、ヒット、ノーヒット、多ヒットなど）をスレッドコンテキストへ返す。レイトレーシングコア３７２がトラバース及び交差演算を実行する間、他のコア３７０、３７１は、自由に他のグラフィクス及び計算作業を実行することができる。

任意に、各レイトレーシングコア３７２は、ＢＶＨ試験動作を実行するトラバースユニット、及び／又はレイ－プリミティブ交差テストを実行する交差ユニットを含んでよい。交差ユニットは、「ヒット」、「ノーヒット」又は「多ヒット」応答を生成し、それを適切なスレッドへ供給する。トラバース及び交差演算中に、他のコア（例えば、グラフィクスコア３７０及びテンソルコア３７１）の実行リソースは、自由に他の形式のグラフィクス作業を実行することができる。

後述される１つの任意の実施形態では、ハイブリッドラスタライゼーション／レイトレーシングアプローチが使用され、作業が、グラフィクスコア３７０とレイトレーシングコア３７２との間で分配される。

レイトレーシングコア３７２（及び／又は他のコア３７０、３７１）は、ＤｉｓｐａｔｃｈＲａｙｓコマンドを含むＭｉｃｒｏｓｏｆｔのＤｉｒｅｃｔＸＲａｙＴｒａｃｉｎｇ（ＤＸＲ）などのレイトレーシング命令と、オブジェクトごとにシェーダ及びテクスチャの一意の組の割り当てを可能にするレイ生成、最接近ヒット、任意のヒット、及びミスシェーダとのためのハードウェアサポートを含んでよい。レイトレーシングコア３７２、グラフィクスコア３７０、及びテンソルコア３７１によってサポートされ得る他のレイトレーシングプラットフォームは、Ｖｕｌｋａｂ１．１．８５である。しかし、本願で記載されている基礎原理は、如何なる特定のレイトレーシングＩＳＡにも限定されないことに留意されたい。

一般に、様々なコア３７２、３７１、３７０は、レイ生成、最接近ヒット、レイ－プリミティブ交差、プリミティブごとの階層的な境界ボックス構成、ミス（miss）、ビジット（visit）、及び例外（exceptions）うちの１つ以上のための命令／機能を含むレイトレーシング命令セットをサポートしてよい。より具体的には、好適な実施形態は、次の機能のうちの１つ以上を実行するためのレイトレーシング命令を含む。

レイ生成（Ray Generation）－レイ生成命令は、夫々のピクセル、サンプル、又は他のユーザ定義された作業割り当てについて実行されてよい。

最接近ヒット（Closest Hit）－最接近ヒット命令は、シーン内でレイとプリミティブとの最も近い交差を見つけるために実行されてよい。

任意のヒット（Any Hit）－任意ヒット命令は、潜在的に、新しい最接近交点を識別するために、シーン内でレイとプリミティブとの間の複数の交差を識別する。

交差（Intersection）－交差命令は、レイ－プリミティブ交差試験を実行し、結果を出力する。

プリミティブごとの境界ボックス構成（Per-primitive Bounding box Construction）－この命令は、所与のプリミティブ又はプリミティブのグループの周りに境界ボックスを形成する（例えば、新しいＢＶＨ又は他のアクセラレーションデータ構造を形成する場合）。

ミス（Miss）－レイがシーン内の全てのジオメトリ、又はシーンの指定された領域を外すことを示す。

ビジット（Visit）－レイがトラバースすることにある子ボリューム（children volumes）を示す。

例外（Exceptions）－様々なタイプの例外ハンドラ（例えば、様々なエラー条件について呼び出される）を含む。

［ＧＰＵがプロセッサインターコネクトをホストする技術］
図４Ａは、例えば、図２Ａに示される並列プロセッサ２００などの、複数のＧＰＵ４１０～４１３が、高速リンク４４０Ａ～４４０Ｄ（例えば、バス、ポイント・ツー・ポイントインターコネクト、など）を介して複数のマルチコアプロセッサ４０５～４０６へ通信可能に結合される例示的なアーキテクチャを表す。高速リンク４４０Ａ～４４０Ｄは、実施に応じて、４ＧＢ／ｓ、３０ＧＢ／ｓ、８０ＧＢ／ｓ又はそれ以上の通信スループットをサポートする。ＰＣＩｅ４．０又は５．０及びＮＶＬｉｎｋ２．０を含むがこれらに限られない様々なインターコネクトプロトコルが使用されてよい。しかし、本願で記載されている基礎原理は、如何なる特定の通信プロトコル又はスループットにも限定されない。

ＧＰＵ４１０～４１３のうちの２つ以上は、高速リンク４４０Ａ～４４０Ｄのために使用されるものと同じ又は異なるプロトコル／リンクを用いて実装され得る高速リンク４４２Ａ～４４２Ｂを介して相互接続されてよい。同様に、マルチコアプロセッサ４０５～４０６のうちの２つ以上は、高速リンク４４３を介して接続されてよい。高速リンク４４３は、２０ＧＢ／ｓ、３０ＧＢ／ｓ、１２０ＧＢ／ｓ又はそれ以上で動作する対称マルチプロセッサ（symmetric multi-processor，ＳＭＰ）バスであってよい。代替的に、図４Ａに示されている様々なシステムコンポーネント間の全ての通信は、同じプロトコル／リンクを用いて（例えば、通信インターコネクションファブリックを介して）実現されてよい。述べられているように、しかしながら、本願で記載されている基礎原理は、如何なる特定のタイプのインターコネクト技術にも限定されない。

各マルチコアプロセッサ４０５～４０６は、夫々メモリインターコネクト４３０Ａ～４３０Ｂを介してプロセッサメモリ４０１～４０２へ通信可能に結合されてよく、各ＧＰＵ４１０～４１３は、夫々ＧＰＵメモリインターコネクト４５０Ａ～４５０Ｄを介してＧＰＵメモリ４２０～４２３へ通信可能に結合される。メモリインターコネクト４３０Ａ～４３０Ｂ及び４５０Ａ～４５０Ｄは、同じ又は異なったメモリアクセス技術を利用してよい。例として、限定としてではなく、プロセッサメモリ４０１～４０２及びＧＰＵメモリ４２０～４２３は、動的ランダム・アクセス・メモリ（ＤＲＡＭ）（スタックドＤＲＡＭを含む）、グラフィクスＤＤＲＳＤＲＡＭ（ＧＤＤＲ）（例えば、ＧＤＤＲ５、ＧＤＤＲ６）、高バンド幅メモリ（ＨＢＭ）などの揮発性メモリであってよく、かつ／あるは、３ＤＸＰｏｉｎｔ／Ｏｐｔａｎｃｅ又はＮａｎｏ－Ｒａｍなどの不揮発性メモリであってもよい。例えば、メモリのいくつかの部分は、揮発性メモリであってよく、他の部分は、不揮発性メモリであってもよい（例えば、２レベルメモリ（２ＬＭ）ヒエラルキーを使用する）。

後述されるように、様々なプロセッサ４０５～４０６及びＧＰＵ４１０～４１３は夫々特定のメモリ４０１～４０２、４２０～４２３へ物理的に結合されてよいが、統合されたメモリアーキテクチャが実装されてもよく、そのようなアーキテクチャでは、同じ仮想システムアドレス空間（「実効アドレス」空間とも呼ばれる）が様々な物理メモリの全ての間で分配される。例えば、プロセッサメモリ４０１～４０２は、夫々が６４ＧＢのシステムメモリアドレス空間を有してよく、ＧＰＵメモリ４２０～４２３は、夫々３２ＧＢのシステムメモリアドレス空間を有してよい（結果として、この例では、アドレス可能なメモリは全部で２５４ＧＢになる）。

図４Ｂは、マルチコアプロセッサ４０７とグラフィクスアクセラレーションモジュール４４６との間の相互接続についての更なる任意の詳細を表す。グラフィクスアクセラレーションモジュール４４６は、高速リンク４４０を介してプロセッサ４０７へ結合されているラインカード上に集積された１つ以上のＧＰＵチップを含んでよい。代替的に、グラフィクスアクセラレーションモジュール４４６は、プロセッサ４０７と同じパッケージ又はチップ上に集積されてもよい。

表されているプロセッサ４０７は、複数のコア４６０Ａ～４６０Ｄを含み、各コアは、トランスレーション・ルックアサイド・バッファ４６１Ａ～４６１Ｄと、１つ以上のキャッシュ４６２Ａ～４６２Ｄとを有する。コアは、命令を実行し、データを処理するための様々な他のコンポーネントを含んでよいが、これらのコンポーネントは、本願で記載されている基礎原理を不明りょうしないよう表されていない（例えば、命令フェッチユニット、分岐予測ユニット、デコーダ、実行ユニット、再順序付けバッファ、など）。キャッシュ４６２Ａ～４６２Ｄは、レベル１（Ｌ１）及びレベル２（Ｌ２）を有してよい。更には、１つ以上の共有キャッシュ４５６がキャッシュヒエラルキに含まれ、コア４６０Ａ～４６０Ｄの組によって共有されてもよい。例えば、プロセッサ４０７の一実施形態は２４個のコアを含み、各コアは、それ自体のＬ１キャッシュ、１２個の共有Ｌ２キャッシュ、及び１２個の共有Ｌ３キャッシュを有する。この実施形態では、Ｌ２及びＬ３キャッシュのうちの１つが、２つの隣接したコアによって共有される。プロセッサ４０７及びグラフィクスアクセラレーションモジュール４４６は、システムメモリ４４１と接続し、システムメモリ４４１は、プロセッサメモリ４０１～４０２を含んでよい。

様々なキャッシュ４６２Ａ～４６２Ｄ、４５６、及びシステムメモリ４４１に記憶されているデータ及び命令については、コヒーレンスバス４６４上のインターコア通信を介して、コヒーレンシが保たれている。例えば、各キャッシュは、それらに関連したキャッシュコヒーレンシロジック／回路を有してよく、特定のキャッシュラインへの読み出し又は書き込みの検出に応答してコヒーレンスバス４６４上で通信する。１つの実施では、キャッシュスヌーピングプロトコルが、キャッシュアクセスをスヌープするようコヒーレンスバス４６４上で実装される。キャッシュスヌーピング／コヒーレンシ技術は、当業者によく理解されており、本願で記載されている基礎原理を不明りょうしないようここでは詳細に記載されない。

プロキシ回路４２５はが提供されてよく、それは、グラフィクスアクセラレーションモジュール４４６がコアのピアとしてキャッシュコヒーレンスプロトコルに関与することを可能にするよう、グラフィクスアクセラレーションモジュール４４６をコヒーレンスバス４６４へ通信可能に結合する。特に、インターフェース４３５は、高速リンク４４０（例えば、ＰＣＩｅバス、ＮＶＬｉｎｋなど）を介したプロキシ回路４２５への接続をもたらし、インターフェース４３７は、グラフィクスアクセラレーションモジュール４４６を高速リンク４４０へ接続する。

１つの実施では、アクセラレータ集積化回路４３６は、グラフィクスアクセラレーションモジュール４４６の複数のグラフィクス処理エンジン４３１、４３２、Ｎに成り代わって、キャッシュ管理、メモリアクセス、コンテキスト管理、及び割り込み管理サービスを提供する。グラフィクス処理エンジン４３１、４３２、Ｎは、夫々が別個のグラフィクス処理ユニット（ＧＰＵ）を有してよい。代替的に、グラフィクス処理エンジン４３１、４３２、Ｎは、グラフィクス実行ユニット、メディア処理エンジン（例えば、ビデオエンコーダ／デコーダ）、サンプラ、及びビットエンジンなどのようなＧＰＵ内の異なったタイプのグラフィクス処理エンジンを有してもよい。言い換えれば、グラフィクスアクセラレーションモジュールは、複数のグラフィクス処理エンジン４３１～４３２、Ｎを備えたＧＰＵであってよく、あるいは、グラフィクス処理エンジン４３１～４３２、Ｎは、共通のパッケージ、ラインカード、又はチップ上に集積された個別的なＧＰＵであってよい。

アクセラレータ集積化回路４３６は、仮想－物理メモリ変換（実効－実質メモリ変換とも呼ばれる）などの様々なメモリ管理機能と、システムメモリ４４１にアクセスするためのメモリアクセスプロトコルとを実行するメモリ管理ユニット（ＭＭＵ）４３９を含んでよい。ＭＭＵ４３９は、仮想／実効－物理／実質アドレス変換をキャッシュするためのトランスレーション・ルックアサイド・バッファ（ＴＬＢ）（図示せず）も含んでよい。１つの実施において、キャッシュ４３８は、グラフィクス処理エンジン４３１、４３２、Ｎによる有効なアクセスのためにコマンド及びデータを記憶する。キャッシュ４３８及びグラフィクスメモリ４３３～４３４、Ｍに記憶されているデータは、コアキャッシュ４６２Ａ～４６２Ｄ、４５６及びシステムメモリ４４１とコヒーレントを保たれ得る。述べられているように、これは、キャッシュ４３８及びメモリ４３３～４３４、Ｍに成り代わってキャッシュコヒーレンシメカニズムに関与するプロキシ回路４２５を介して達成され得る（例えば、プロセッサキャッシュ４６２Ａ～４６２Ｄ、４５６上のキャッシュラインの変更／アクセスに関連したキャッシュ４３８へアップデートを送信し、キャッシュ４３８からアップデートを受信する）。

レジスタ４４５の組は、グラフィクス処理エンジン４３１～４３２、Ｎによって実行されるスレッドのコンテキストデータを記憶し、コンテキスト管理回路４４８は、スレッドコンテキストを管理する。例えば、コンテキスト管理回路４４８は、コンテキストスイッチ中に様々なスレッドのコンテキストをセーブ及びリストアするようセーブ及びリストア動作を実行してよい（例えば、第１スレッドはセーブされ、第２スレッドはストアされ、それにより、第２スレッドはグラフィクス処理エンジンによって実行可能である）。例えば、コンテキストスイッチで、コンテキスト管理回路４４８は、メモリ内の指定領域（例えば、コンテキストポインタによって識別される）に現在のレジスタ値を格納してよい。それは次いで、コンテキストに戻る時にレジスタ値をリストアしてよい。割り込み管理回路４４７は、例えば、システムデバイスから受け取られた割り込みを受け取って処理してよい。

１つの実施では、グラフィクス処理エンジン４３１からの仮想／実効アドレスは、ＭＭＵ４３９によってシステムメモリ４４１内の実質／物理アドレスに変換される。任意に、アクセラレータ集積化回路４３６は、複数（例えば、４個、８個、１６個）のグラフィクスアクセラレータモジュール４４６及び／又は他のアクセラレータデバイスをサポートする。グラフィクスアクセラレータモジュール４４６は、プロセッサ４０７で実行される単一アプリケーションに専用であってよく、あるいは、複数のアプリケーション間で共有されてもよい。任意に、仮想化されたグラフィクス実行環境が提供され、そのような環境では、グラフィクス処理エンジン４３１～４３２、Ｎのリソースは、複数のアプリケーション又は仮想マシン（ＶＭ）と共有される。リソースは、「スライス」に細分されてもよく、「スライス」は、ＶＭ及び／又はアプリケーションに関連した処理要件及び優先順位に基づいて異なるＶＭ及び／又はアプリケーションに割り当てられる。

よって、アクセラレータ集積化回路４３６は、グラフィクスアクセラレーションモジュール４４６のためのシステムへのブリッジとして動作し、アドレス変換及びシステムメモリキャッシュサービスを提供する。一実施形態において、ブリッジング機能性を促進するために、アクセラレータ集積化回路４３６はまた、共有Ｉ／Ｏ４９７（例えば、ＰＣＩｅ、ＵＳＢ）と、電圧、クロッキング、性能、熱、及びセキュリティのシステム制御を可能にするハードウェアとを含んでもよい。更には、アクセラレータ集積化回路４３６は、ホストプロセッサがグラフィクス処理エンジンの仮想化、割り込み、及びメモリ管理を管理するための仮想化ファシリティを提供し得る。

グラフィクス処理エンジン４３１～４３２、Ｎのハードウェアリソースは、ホストプロセッサ４０７によってみられる実質アドレス空間へ明示的にマッピングされるので、如何なるホストプロセッサも、それらのリソースを直接に、実効アドレス値を用いてアドレッシング可能である。アクセラレータ集積化回路４３６の１つの任意の機能は、グラフィクスエンジン４３１～４３２、Ｎの物理的分離であり、それにより、それらは独立したユニットしてシステムには見える。

１つ以上のグラフィクスメモリ４３３～４３４、Ｍは、夫々、グラフィクス処理エンジン４３１～４３２、Ｎの夫々へ結合されてよい。グラフィクスメモリ４３３～４３４、Ｍは、グラフィクス処理エンジン４３１～４３２、Ｎの夫々によって処理される命令及びデータを記憶する。グラフィクスメモリ４３３～４３４、Ｍは、ＤＲＡＭ（スタックドＤＲＡＭを含む）、ＧＤＤＲメモリ（例えば、ＧＤＤＲ５、ＧＤＤＲ６）、又はＨＢＭなどの揮発性メモリであってよく、かつ／あるは、３ＤＸＰｏｉｎｔ／Ｏｐｔａｎｃｅ又はＮａｎｏ－Ｒａｍなどの不揮発性メモリであってもよい。

高速リンク４４０上のデータトラフィックを低減するために、バイアシング技術が、グラフィクスメモリ４３３～４３４、Ｍに記憶されているデータが、グラフィクス処理エンジン４３１～４３２、Ｎによって最も頻繁に使用されてよく、望ましくは、コア４６０Ａ～４６０Ｄによって使用されない（少なくとも頻繁にではない）データであることを確かにするよう使用される。同様に、バイアシングメカニズムは、コアのキャッシュ４６２Ａ～４６２Ｄ、４５６及びシステムメモリ４４１内にコアによって必要とされる（望ましくは、グラフィクス処理エンジン４３１～４３２、Ｎには必要とされない）データを保持使用と試みる。

図４Ｃに示される変形例に従って、アクセラレータ集積化回路４３６はプロセッサ４０７内に集積される。グラフィクス処理エンジン４３１～４３２、Ｎは、インターフェース４３７及びインターフェース４３５（先と同じく、任意の形式のバス又はインターフェースプロトコルを利用してよい）を介してアクセラレータ集積化回路４３６と高速リンク４４０上で直接に通信する。アクセラレータ集積化回路４３６は、図４Ｂに関して説明されたのと同じ動作を実行し得るが、コヒーレンシバス４６４及びキャッシュ４６２Ａ～４６２Ｄ、４５６とのその近接近を考えると、潜在的に、より高いスループットで実行し得る。

記載されている実施形態は、専用プロセスプログラミングモデル（非グラフィクスアクセラレーションモジュール仮想化）及び共有プログラミングモデル（仮想化による）を含む異なったプログラミングモデルをサポートし得る。後者は、アクセラレータ集積化回路４３６によって制御されるプログラミングモデルと、グラフィクスアクセラレーションモジュール４４６によって制御されるプログラミングモデルとを含んでよい。

専用プロセスモデルの実施形態において、グラフィクス処理エンジン４３１～４３２、Ｎは、単一のオペレーティングシステムの下で単一のアプリケーション又はプロセスに専用であってよい。単一のアプリケーションは、ＶＭ／パーティション内で仮想化を提供するよう、他のアプリケーションリクエストをグラフィクスエンジン４３１～４３２、Ｎへ向かわせることができる。

専用プロセスプログラミングモデルでは、グラフィクス処理エンジン４３１～４３２、Ｎは、複数のＶＭ／アプリケーションパーティションによって共有されてよい。共有されたモデルは、各オペレーティングシステムによるアクセスを可能にするようにグラフィクス処理エンジン４３１～４３２、Ｎを仮想化することをシステムハイパーバイザに要求する。ハイパーバイザなしの単一パーティションシステムについては、グラフィクス処理エンジン４３１～４３２、Ｎは、オペレーティングシステムによって所有される。いずれの場合にも、オペレーティングシステムは、各プロセス又はアプリケーションへのアクセスを提供するようグラフィクス処理エンジン４３１～４３２、Ｎを仮想化することができる。

共有プログラミングモデルについては、グラフィクスアクセラレーションモジュール４４６又は個別的なグラフィクス処理エンジン４３１～４３２、Ｎが、プロセスハンドルを用いてプロセス要素を選択する。プロセス要素は、システムメモリ４４１に記憶され、本願で記載されている実効アドレスから実質アドレスへの変換技術を用いてアドレス可能であってよい。プロセスハンドルは、そのコンテキストをグラフィクス処理エンジン４３１～４３２、Ｎに登録する（すなわち、プロセス要素をそのプロセス要素にリンクされたリストに加えるシステムソフトウェアを呼び出す）ときにホストプロセスへ供給される実施に固有の値であってよい。プロセスハンドルの下位１６ビットは、プロセス要素にリンクされたリスト内のプロセス要素のオフセットであってよい。

図４Ｄは、例となるアクセラレータ集積化スライス４９０を表す。本願で使用されているように、「スライス」は、アクセラレータ集積化回路４３６の処理リソースの指定された部分を有する。システムメモリ４４１内のアプリケーション実効アドレス空間４８２は、プロセス要素４８３を記憶する。プロセス要素４８３は、プロセッサ４０７で実行されているアプリケーション４８０からのＧＰＵ起動４８１に応答して記憶されてよい。プロセス要素４８３は、対応するアプリケーション４８０のプロセス状態を含む。プロセス要素４８３に含まれる作業記述子（work descriptor，ＷＤ）４８４は、アプリケーションによって要求される単一のジョブであることができ、あるいは、ジョブのキューへのポインタを含んでもよい。後者の場合に、ＷＤ４８４は、アプリケーションのアドレス空間４８２内のジョブリクエストキューへのポインタである。

グラフィクスアクセラレーションモジュール４４６及び／又は個別的なグラフィクス処理エンジン４３１～４３２、Ｎは、システム内のプロセスの全て又はサブセットによって共有され得る。例えば、本願で記載されている技術は、プロセス状態をセットアップし、ＷＤ４８４をグラフィクスアクセラレーションモジュール４４６へ送って、仮想化された環境でジョブを開始するインフラストラクチャを含んでよい。

１つの実施において、専用プロセスプログラミングモデルは、実施に固有である。このモデルでは、単一のプロセスがグラフィクスアクセラレーションモジュール４４６又は個別的なグラフィクス処理エンジン４３１を所有する。グラフィクスアクセラレーションモジュール４４６が単一のプロセスによって所有されるので、ハイパーバイザは、所有パーティションのためにアクセラレータ集積化回路４３６を初期化し、オペレーティングシステムは、グラフィクスアクセラレーションモジュール４４６が割り当てられる時点で、所有パーティションのためにアクセラレータ集積化回路４３６を初期化する。

動作中に、アクセラレータ集積化回路４３６内のＷＤフェッチユニット４９１は、グラフィクスアクセラレーションモジュール４４６のグラフィクス処理エンジンの１つによって行われるべき作業の指示を含む次のＷＤ４８４をフェッチする。ＷＤ４８４からのデータは、レジスタ４４５に格納され、表されているようにＭＭＵ４３９、割り込み管理回路４４７及び／又はコンテキスト管理回路４４８によって使用されてよい。例えば、ＭＭＵ４３９は、ＯＳ仮想アドレス空間４８５内のセグメント／ページテーブル４８６にアクセスするためのセグメント／ページウォーク回路を含んでよい。割り込み管理回路４４７は、グラフィクスアクセラレーションモジュール４４６から受け取られた割り込みイベント４９２を処理してよい。グラフィクス操作を実行するときに、グラフィクス処理エンジン４３１～４３２、Ｎによって生成された実効アドレス４９３は、ＭＭＵ４３９によって実質アドレスに変換される。

レジスタ４４５の同じ組が、各グラフィクス処理エンジン４３１～４３２、Ｎ及び／又はグラフィクスアクセラレーションモジュール４４６について複製されてよく、ハイパーバイザ又はオペレーティングシステムによって初期化されてよい。それらの複製されたレジスタの夫々は、アクセラレータ集積化スライス４９０に含まれてよい。ハイパーバイザによって初期化され得る例示的なレジスタは、表１に示される。

オペレーティングシステムによって初期化され得る例示的なレジスタは、表２に示される。

各ＷＤ４８４は、特定のグラフィクスアクセラレーションモジュール４４６及び／又はグラフィクス処理エンジン４３１～４３２、Ｎに特有であってよい。それは、グラフィクス処理エンジン４３１～４３２、Ｎがその作業を行うために必要とする全ての情報を含むか、あるいは、それは、アプリケーションが完了されるべき作業のコマンドキューをセットアップしているメモリ位置へのポインタであることができる。

図４Ｅは、共有モデルの更なる任意の詳細を表す。それは、プロセス要素リスト４９９が記憶されているハイパーバイザ実質アドレス空間４９８を含む。ハイパーバイザ実質アドレス空間４９８は、オペレーティングシステム４９５のためのグラフィクスアクセラレーションモジュールエンジンを仮想化するハイパーバイザ４９６を介してアクセス可能である。

共有プログラミングモデルは、システム内のパーティションの全て又はサブセットからのプロセスの全て又はサブセットがグラフィクスアクセラレーションモジュール４４６を使用することを可能にする。
グラフィクスアクセラレーションモジュール４４６が複数のプロセス及びパーティションによって共有される２つのプログラミングモデル、つまり、時間スライス共有及びグラフィクス指向共有がある。

このモデルでは、システムハイパーバイザ４９６がグラフィクスアクセラレーションモジュール４４６を所有し、その機能を全てのオペレーティングシステム４９５に利用可能にする。グラフィクスアクセラレーションモジュール４４６がシステムハイパーバイザ４９６による仮想化をサポートするために、グラフィクスアクセラレーションモジュール４４６は、次の要件に従ってよい：１）アプリケーションのジョブリクエストは、自律的でなければならず（すなわち、状態がジョブ間で維持される必要はない）、あるいは、グラフィクスアクセラレーションモジュール４４６は、コンテキストセーブ及びリストアメカニズムを提供しなければならい。２）アプリケーションのジョブリクエストは、グラフィクスアクセラレーションモジュール４４６によって、如何なる変換不良も含めて指定された時間量で完了することが保証され、あるいは、グラフィクスアクセラレーションモジュール４４６は、ジョブの処理をプリエンプトする能力を提供する。３）グラフィクスアクセラレーションモジュール４４６は、指向的な共有プログラミングモデルで動作するときにプロセス間の公平性を保証されなければならない。

共有モデルについては、アプリケーション４８０が、グラフィクスアクセラレーションモジュール４４６のタイプ、作業記述子（ＷＤ）、権限マスクレジスタ（authority mask register，ＡＭＲ）値、及びコンテキストセーブ／リストアエリアポインタ（contest save/restore area pointer，ＣＳＲＰ）を用いてオペレーティングシステム４９５のシステム呼び出しを行うために必要とされ得る。グラフィクスアクセラレーションモジュール４４６のタイプは、システム呼び出しの対象となるアクセラレーション機能を記述する。グラフィクスアクセラレーションモジュール４４６のタイプは、システム固有の値であってよい。ＷＤは、グラフィクスアクセラレーションモジュール４４６のために特にフォーマット化され、グラフィクスアクセラレーションモジュール４４６のコマンド、ユーザにより定義された構造への実効アドレスポインタ、コマンドのキューへの実効アドレスポインタ、又はグラフィクスアクセラレーションモジュール４４６によって行われるべき作業を記述する何らかの他のデータ構造の形を取ることができる。一実施形態において、ＡＭＲ値は、現在のプロセスのために使用すべきＡＭＲ状態である。オペレーティングシステムへ渡される値は、ＡＭＲを設定するアプリケーションと同様である。アクセラレータ集積化回路４３６及びグラフィクスアクセラレーションモジュール４４６の実装がユーザ権限マスクオーバーライドレジスタ（User Authority Mask Override Register，ＵＡＭＯＲ）をサポートしない場合には、オペレーティングシステムは、ハイパーバイザ呼び出しにおいてＡＭＲを渡す前に現在のＵＡＭＯＲ値をＡＭＲ値に適用してもよい。ハイパーバイザ４９６は、任意に、ＡＭＲをプロセス要素４８３に置く前に現在のＡＭＯＲ（Authority Mask Override Register）値を適用してもよい。ＣＳＲＰは、グラフィクスアクセラレーションモジュール４４６がコンテキスト状態をセーブ及びリストアするためにアプリケーションのアドレス空間４８２内のエリアの実効アドレスを含むレジスタ４４５の１つであってよい。このポインタは、ジョブ間で状態がセーブされる必要がない場合に、あるいは、ジョブがプリエンプトされる場合に、任意である。コンテキストセーブ／リストアエリアは、ピン留めされたシステムメモリであってよい。

システム呼び出しを受け取ると、オペレーティングシステム４９５は、アプリケーション４８０が登録されており、グラフィクスアクセラレーションモジュール４４６を使用する権限を与えられていることを確かめてよい。次いで、オペレーティングシステム４９５は、表３に示される情報を用いてハイパーバイザ４９６を呼び出す。

ハイパーバイザ呼び出しを受け取ると、ハイパーバイザ４９６は、オペレーティングシステム４９５が登録されており、グラフィクスアクセラレーションモジュール４４６を使用する権限を与えられていることを確かめる。次いで、ハイパーバイザ４９６は、対応するグラフィクスアクセラレーションモジュール４４６のタイプについてプロセス要素４８３をプロセス要素にリンクされたリスト内に置く。プロセス要素は、表４に示される情報を含んでよい。

ハイパーバイザは、複数のアクセラレータ集積化スライス４９０のスライス４４５を初期化してよい。

図４Ｆに表されているように、１つの任意の実施において、物理プロセッサメモリ４０１～４０２及びＧＰＵメモリ４２０～４２３にアクセスするために使用される共通仮想メモリアドレス空間を介してアドレス可能な統合メモリが用いられる。この実施では、ＧＰＵ４１０～４１３で実行される動作は、プロセッサメモリ４０１～４０２にアクセスするために同じ仮想／実効メモリアドレス空間を利用し、逆もまた同様であり、それによって、プログラム可能性を簡素化する。仮想／実効アドレス空間の第１部分は、プロセッサメモリ４０１に割り当てられてよく、第２部分は、第２プロセッサメモリ４０２に割り当てられてよく、第３部分は、ＧＰＵメモリ４２０に割り当てられよく、その他同様である。全体の仮想／実効メモリ空間（時々、実効アドレス空間と呼ばれる）は、それによって、プロセッサメモリ４０１～４０２及びＧＰＵメモリ４２０～４２３の夫々にわたって分配され、いずれかのプロセッサ又はＧＰＵが、いずれかの物理メモリに、そのメモリにマッピングされている仮想アドレスを用いてアクセスすることを可能にし得る。

ＭＭＵ４３９Ａ～４３９Ｅのうちの１つ以上の中にあるバイアス／コヒーレンス管理回路４９４Ａ～４９４Ｅが提供され、それは、ホストプロセッサ（例えば、４０５）のキャッシュとＧＰＵ４１０～４１３との間のキャッシュコヒーレンスを確かにし、特定のタイプのデータが記憶されるべきである物理メモリを示すバイアシング技術を実装する。バイアス／コヒーレンス管理回路４９４Ａ～４９４Ｅの複数のインスタンスが図４Ｆに表されている一方で、バイアス／コヒーレンス回路は、１つ以上のホストプロセッサ４０５のＭＭＵ内に、及び／又はアクセラレータ集積化回路４３６内に実装されてもよい。

ＧＰＵ付属メモリ４２０～４２３は、システムメモリの部分としてマッピングされ、共有仮想メモリ（ＳＶＭ）技術を用いて、しかし、完全システムキャッシュコヒーレンスに関連した典型的な性能欠点に苦しまずにアクセスされ得る。ＧＰＵ付属メモリ４２０～４２３が面倒なキャッシュコヒーレンスオーバーヘッドなしでシステムメモリとしてアクセスされる能力は、ＧＰＵオフロードのための有利な動作環境をもたらす。この配置は、ホストプロセッサ４０５のソフトウェアが、従来のＩ／ＯＤＭＡデータコピーのオーバーヘッドなしで、オペランドをセットアップし、計算結果にアクセスすることを可能にする。そのような従来のコピーは、ドライバ呼び出し、割り込み及びメモリマッピングＩ／Ｏ（memory mapped I/O，ＭＭＩＯ）アクセスを必要とし、これらは全て、簡単なメモリアクセスに対して非効率的である。同時に、キャッシュコヒーレンスオーバーヘッドなしでＧＰＵ付属メモリ４２０～４２３にアクセスする能力は、オフロードされた計算の実行時間にとって重要であり得る。ストリーミング書き込みメモリトラフィックが相当量である場合に、例えば、キャッシュコヒーレンスオーバーヘッドは、ＧＰＵ４１０～４１３によって見られる実効書き込みバンド幅を大幅に減らすことができる。オペランドセットアップの効率、結果アクセスの効率、及びＧＰＵ計算の効率は全て、ＧＰＵオフロードの有効性を決定することにおいて役割を果たす。

ＧＰＵバイアスとホストプロセッサバイアスとの間の選択は、バイアストラッカデータ構造によって駆動されてよい。例えば、バイアステーブルが使用されてよい。バイアステーブルは、ＧＰＵ付属メモリページごとに１又は２ビットを含むページ粒度構造であってよい（すなわち、メモリページの粒度で制御される）。バイアステーブルは、（例えば、バイアステーブルの頻繁に／最近使用されたエントリをキャッシュするための）ＧＰＵ４１０～４１３内のバイアスキャッシュの有無によらず、１つ以上のＧＰＵ付属メモリ４２０～４２３のスチールされたメモリ範囲で実装されてよい。代替的に、エントリバイアステーブルはＧＰＵ内で保持されてもよい。

１つの実施において、ＧＰＵ付属メモリ４２０～４２３への各アクセスに関連したバイアステーブルエントリは、ＧＰＵメモリへの実際のアクセスの前にアクセスされ、次の動作を引き起こす。最初に、ＧＰＵ４１０～４１３からの、ＧＰＵバイアスにおいてそれらのページを見つけるローカルリクエストが、対応するＧＰＵメモリ４２０～４２３へ直接に転送される。ＧＰＵからの、ホストバイアスにおいてそれらのページを見つけるローカルリクエストは、プロセッサ４０５へ（例えば、上述された高速リンク上で）転送される。任意に、プロセッサ４０５からの、要求されたページをホストプロセッサバイアスにおいて見つけるリクエストは、通常のメモリ読み出しのようなリクエストを完了する。代替的に、ＧＰＵバイアスページに向けられたリクエストは、ＧＰＵ４１０～４１３へ転送されてもよい。ＧＰＵは、次いで、ホストプロセッサがページを現在使用中でない場合に、そのページをホストプロセッサへ移してよい。

ページのバイアス状態は、ソフトウェアベースメカニズム若しくはハードウェア支援型ソフトウェアベースメカニズムによって、又は限られた場合の組については、単にハードウェアベースのメカニズムによって、変更され得る。

バイアス状態を変更するための１つのメカニズムは、ＡＰＩコール（例えば、ＯｐｅｎＣＬ）を用いる。これは、次に、ＧＰＵのデバイスドライバを呼び出し、これは、次に、バイアス状態を変更するようそれに指示するＧＰＵへメッセージを送信し（又はコマンド記述子をエンキューし）、いくつかの遷移については、ホストにおいてキャッシュフラッシュ動作を実行する。キャッシュフラッシュ動作は、ホストプロセッサ４０５のバイアスからＧＰＵのバイアスへの遷移のために必要とされるが、逆の遷移のためには必要とされない。

キャッシュコヒーレンシは、ＧＰＵバイアスページをホストプロセッサ４０５によって一時的にキャッシュ不能にすることによって維持され得る。それらのページにアクセスするために、プロセッサ４０５は、実装に応じて、直ぐにアクセスを許可する場合も許可しない場合もあるＧＰＵ４１０からのアクセスを要求してよい。よって、ホストプロセッサ４０５とＧＰＵ４１０との間の通信を減らすために、ＧＰＵバイアスページが、ＧＰＵによって必要とされるがホストプロセッサ４０５によっては必要とされないページであり、その逆も同様であることを確かにすることは有益である。

［グラフィクス処理パイプライン］
図５は、グラフィクス処理パイプライン５００を表す。図２Ｄで見られるようなグラフィクスマルチプロセッサ２３４、図３Ａで見られるようなグラフィクスマルチプロセッサ３２５、図３Ｂで見られるようなグラフィクスマルチプロセッサ３５０などのグラフィクスマルチプロセッサが、表されているグラフィクス処理パイプライン５００を実装することができる。グラフィクスマルチプロセッサは、図１の並列プロセッサ１１２に関係があってよく、それらのうちの１つの代わりに使用されてよい図２Ａの並列プロセッサ２００などの、本願で記載されている並列処理サブシステム内に含まれ得る。様々な並列処理システムは、ここで記載されるような並列処理ユニット（例えば、図２Ａの並列処理ユニット２０２）の１つ以上のインスタンスを介してグラフィクス処理パイプライン５００を実装することができる。例えば、シェーダユニット（例えば、図２Ｃのグラフィクスマルチプロセッサ２３４）は、頂点処理ユニット５０４、テッセレーション制御処理ユニット５０８、テッセレーション評価処理ユニット５１２、ジオメトリ処理ユニット５１６、及びフラグメント／ピクセル処理ユニット５２４のうちの１つ以上の機能を実行するよう構成されてよい。データアセンブラ５０２、プリミティブアセンブラ５０６、５１４、５１８、テッセレーションユニット５１０、ラスタライザ５２２、及びラスタ動作ユニット５２６の機能はまた、処理クラスタ（例えば、図２Ａの処理クラスタ２１４）及び対応するパーティションユニット（例えば、図２Ａのパーティションユニット２２０Ａ～２２０Ｎ）内の他の処理エンジンによって実行されてもよい。グラフィクス処理パイプライン５００はまた、１つ以上の機能のための専用の処理ユニットを用いて実装されてもよい。グラフィクス処理パイプライン５００の１つ以上の部分が、汎用プロセッサ（例えば、ＣＰＵ）内の並列処理ロジックによって実行されることも可能である。任意に、グラフィクス処理パイプライン５００の１つ以上の部分は、図２Ａのメモリインターフェース２１８のインスタンスであってよいメモリインターフェース５２８を介してオンチップメモリ（例えば、図２Ａで見られるような並列プロセッサメモリ）にアクセスすることができる。グラフィクスプロセッサパイプライン５００はまた、図３Ｃで見られるようなマルチコアグループ３６５Ａを介して実装されてもよい。

データアセンブラ５０２は、表面の頂点データ及びプリミティブを収集し得る処理ユニットである。データアセンブラ５０２は、次いで、頂点属性を含む頂点データを頂点処理ユニット５０４へ出力する。頂点処理ユニット５０４は、頂点シェーダプログラムを実行するプログラム可能な実行ユニットであり、頂点シェーダプログラムによって指定された頂点データをライティング及び変換する。頂点処理ユニット５０４は、頂点データを処理する際の使用のために、キャッシュ、ローカル又はシステムメモリに記憶されているデータを読み出し、オブジェクトベースの座標表現から世界空間座標空間又は正規化されたデバイス座標空間へ頂点データを変換するようプログラムされてよい。

プリミティブアセンブラ５０６の第１インスタンスは、頂点処理ユニット５０４から頂点属性を受け取る。プリミティブアセンブラ５０６は、必要に応じて、記憶されている頂点属性を読み出し、テッセレーション制御処理ユニット５０８による処理のためにグラフィクスプリミティブを構成する。グラフィクスプリミティブは、様々なグラフィクス処理アプリケーションプログラミングインターフェース（ＡＰＩ）によってサポートされているトライアングル、ラインセグメント、ポイント、パッチ、などを含む。

テッセレーション制御処理ユニット５０８は、入力された頂点を幾何学的パッチのための制御ポイントとして扱う。制御ポイントは、パッチ（例えば、パッチベース）からの入力表現から、テッセレーション評価処理ユニット５１２による適切な評価での使用に適している表現へ変換される。テッセレーション制御処理ユニット５０８はまた、幾何学的パッチのエッジのテッセレーション係数を計算することもできる。テッセレーション係数は、単一のエッジに適用され、エッジに関連したディテールのビュー依存レベルを定量化する。テッセレーションユニット５１０は、パッチのエッジのテッセレーション係数を受け取り、直線、三角形、又は四辺形プリミティブなどの複数の幾何学的プリミティブにパッチをモザイク化するよう構成される。複数の幾何学的プリミティブは、テッセレーション評価処理ユニット５１２へ送られる。テッセレーション評価処理ユニット５１２は、幾何学的プリミティブに関連した各頂点の曲面表現及び頂点属性を生成するよう、細分されたパッチのパラメータ化された座標に作用する。

プリミティブアセンブラ５１４の第２インスタンスは、記憶されている頂点属性を必要に応じて読み出すテッセレーション評価処理ユニット５１２から頂点属性を受け取り、ジオメトリ処理ユニット５１６による処理のためのグラフィクスプリミティブを構成する。ジオメトリ処理ユニット５１６は、ジオメトリシェーダプログラムによって指定されているようにプリミティブアセンブラ５１４から受け取られたグラフィクスプリミティブを変換するようジオメトリシェーダプログラムを実行するプログラム可能な実行ユニットである。ジオメトリ処理ユニット５１６は、グラフィクスプリミティブを１つ以上の新しいグラフィクスプリミティブに細分し、新しいグラフィクスプリミティブをラスタライズするために使用されるパラメータを計算するようプログラムされてよい。

ジオメトリ処理ユニット５１６は、ジオメトリストリーム内の要素を追加又は削除することが可能であり得る。ジオメトリ処理ユニット５１６は、新しいグラフィクスプリミティブを特定するパラメータ及び頂点をプリミティブアセンブラ５１８へ出力する。プリミティブアセンブラ５１８は、ジオメトリ処理ユニット５１６からパラメータ及び頂点を受け取り、ビューポートスケール、カル（cull）、及びクリップ（clip）ユニット５２０による処理のためにグラフィクスプリミティブを構成する。ジオメトリ処理ユニット５１６は、ジオメトリデータを処理する際の使用のために並列プロセッサメモリ又はシステムメモリに記憶されているデータを読み出す。ビューポートスケール、カル、及びクリップユニット５２０は、クリッピング、カリング、及びビューポートスケーリングを実行し、処理されたグラフィクスプリミティブをラスタライザ５２２へ出力する。

ラスタライザ５２２は、デプスカリング及び他のデプスベースの最適化を実行することができる。ラスタライザ５２２はまた、フラグメントを生成し、これらのフラグメント及び関連するカバレッジデータをフラグメント／ピクセル処理ユニット５２４へ出力するよう、新しいグラフィクスプリミティブに対してスキャン変換を実行する。フラグメント／ピクセル処理ユニット５２４は、フラグメントシェーダプログラム又はピクセルシェーダプログラムを実行するよう構成されるプログラム可能な実行ユニットである。フラグメント／ピクセル処理ユニット５２４は、フラグメント又はピクセルシェーダプログラムによって指定されているように、ラスタライザ５２２から受け取られたフラグメント又はピクセルを変換する。例えば、フラグメント／ピクセル処理ユニット５２４は、ラスタ動作ユニット５２６へ出力される陰影付けされたフラグメント又はピクセルを生成するよう、テクスチャマッピング、シェーディング、ブレンディング、テクスチャ補正及びパースペクティブ補正（perspective correction）を含むがこれらに限られない動作を実行するようプログラムされてよい。フラグメント／ピクセル処理ユニット５２４は、フラグメントデータを処理するときの使用のために、並列プロセッサメモリ又はシステムメモリのどちらかに記憶されているデータを読み出すことができる。フラグメント又はピクセルシェーダプログラムは、処理ユニットのために設定されたサンプリングレートに応じたサンプル、ピクセル、タイル、又は他の粒度でシェーディングを行うよう構成されてよい。

ラスタ動作ユニット５２６は、ステンシル、ｚテスト、ブレンディング、などを含むがこれらに限られないラスタ動作を実行し、ピクセルデータを、グラフィクスメモリ（例えば、図２Ａの並列プロセッサメモリ２２２、及び／又は図１のシステムメモリ１０４）に記憶されるように、１つ以上の表示デバイス１１０で表示されるように、又は１つ以上のプロセッサ１０２若しくは並列プロセッサ１１２のうちの１つによる更なる処理のために、処理されたグラフィクスデータとして出力する処理ユニットである。ラスタ動作ユニット５２６は、メモリに書き込まれるｚ又はカラーデータを圧縮し、メモリから読み出されるｚ又はカラーデータを圧縮解除するよう構成されてよい。

［機械学習概要］
上記のアーキテクチャは、機械学習モデルを使用して訓練及び推論動作を実行するよう適用され得る。機械学習は、多くの種類のタスクの解決に成功している。機械学習アルゴリズム（例えば、ニューラルネットワーク）を訓練及び使用するときに生じる計算は、効率的な並列実装に必然的に役に立つ。従って、汎用グラフィック処理ユニット（ＧＰＧＰＵ）などの並列プロセッサは、ディープニューラルネットワークの実際の実装において重要な役割を果たしている。ＳＩＭＴ（single instruction, multiple thread）アーキテクチャを備えた並列グラフィクスプロセッサは、グラフィクスパイプラインでの並列処理の量を最大にするよう設計される。ＳＩＭＴアーキテクチャでは、並列スレッドのグループは、処理効率を高めるよう可能な限り頻繁に一緒に同期してプログラム命令を実行しようと試みる。並列な機械学習アルゴリズム実装によってもたらされる効率は、高容量ネットワークの使用を可能にし、それらのネットワークがより大きいデータセットに対して訓練されることを可能にする。

機械学習アルゴリズムは、データの組に基づいて学習することができる。例えば、機械学習アルゴリズムは、データセット内のハイレベル抽象化をモデル化するよう設計され得る。例えば、画像認識アルゴリズムは、所与の入力がいくつかのカテゴリのうちのどれに属しているかを決定するために使用可能であり、回帰アルゴリズムは、入力が与えられると数値を出力することができ、パターン認識アルゴリズムは、変換されたテキストを生成したり、あるいは、テキストからの発話認識及び／又は発話認識を実行したりするために使用可能である。

機械学習アルゴリズムの例となるタイプは、ニューラルネットワークである。多くの種類のニューラルネットワークがあり、ニューラルネットワークの簡単なタイプはフィードフォワードネットワークである。フィードフォワードネットワークは、ノードがレイヤに配置されている非周期グラフとして実装されてよい。典型的に、フィードフォワードネットワークトポロジは、少なくとも１つの隠れレイヤによって分離されている入力レイヤ及び出力レイヤを含む。隠れレイヤは、入力レイヤによって受け取られた入力を、出力レイヤで出力を生成するために有用である表現に変換する。ネットワークノードは、隣接レイヤ内のノードへエッジを介して完全に接続されるが、各レイヤ内のノード間にエッジは存在しない。フィードフォワードネットワークの入力レイヤのノードで受け取られたデータは、レイヤを接続するエッジの夫々に各々関連付けられた係数（「重み」）に基づいてネットワーク内の各連続レイヤのノードの状態を計算する活性化関数により出力レイヤのノードへ伝搬される（すなわち、前方に送られる）。実行されているアルゴリズムによって表現される具体的なモデルに応じて、ニューラルネットワークアルゴリズムからの出力は、様々な形を取ることができる。

機械学習アルゴリズムが特定の問題をモデル化するために使用され得る前に、アルゴリズムは、訓練データセットを用いて訓練される。ニューラルネットワークの訓練は、ネットワークトロポジを選択すること、ネットワークによってモデル化される問題を表す訓練データの組を使用すること、及びネットワークモデルが訓練データセットの全てのインスタンスについて最小限のエラーで実行するまで重みを調整することを必要とする。例えば、ニューラルネットワークのための教師あり学習訓練プロセス中に、訓練データセット内のインスタンスを表す入力に応答してネットワークによって生成された出力は、そのインスタンスについての「正しい」とラベル付けされた出力と比較され、出力とラベル付き出力との間の差を表すエラー信号が計算され、接続に関連した重みは、エラー信号がネットワークレイヤを通って後方伝搬されるということで、そのエラーを最小限にすべく調整される。ネットワークは、訓練データセットのインスタンスから生成された出力の夫々についてのエラーが最小限にされる場合に、「訓練済み」と見なされる。

機械学習アルゴリズムの精度は、アルゴリズムを訓練するために使用されるデータセットの品質によって大いに影響を及ぼされ得る。訓練プロセスは、計算量が多く、従来の汎用プロセッサでは相当量の時間を必要とする可能性がある。従って、並列処理ハードウェアが、多くのタイプの機械学習アルゴリズムを訓練するために使用される。これは、ニューラルネットワークで係数を調整する際に実行される計算が並列実装に必然的に役に立つということで、ニューラルネットワークの訓練を最適化することにとって特に有用である。具体的に、多くの機械学習アルゴリズム及びソフトウェアアプリケーションは、汎用のグラフィクス処理デバイス内の並列処理ハードウェアを使用するよう適応されている。

図６は、機械学習ソフトウェアスタック６００の一般化された図である。機械学習アプリケーション６０２は、訓練データセットを使用してニューラルネットワークを訓練するよう、あるいは、訓練されたディープニューラルネットワークを使用して機械学習インテリジェンスを実装するよう構成され得る。機械学習アプリケーション６０２は、ニューラルネットワークのための訓練及び推論機能、及び／又はデプロイ前にニューラルネットワークを訓練するために使用され得る特殊化したソフトウェアを含むことができる。機械学習アプリケーション６０２は、画像認識、マッピング及びローカライゼーション、自律ナビゲーション、発話合成、医療撮像、又は言語変換を含むがこれらに限られない如何なるタイプのマシンインテリジェンスも実装することができる。

機械学習アプリケーション６０２のためのハードウェアアクセラレーションは、機械学習フレームワーク６０４を介して有効にされ得る。機械学習フレームワーク６０４は、機械学習プリミティブのライブラリを提供することができる。機械学習プリミティブは、機械学習アルゴリズムによって一般に実行される基本操作である。機械学習フレームワーク６０４によらないと、機械学習アルゴリズムの開発者は、機械学習アルゴリズムに関連した主な計算ロジックを作成し最適化し、次いで、新しい並列プロセッサ開発される場合には計算ロジックを最適化し直すよう求められることになる。代わりに、機械学習アプリケーションは、機械学習フレームワーク６０４によって提供されたプリミティブを用いて、必要な計算を実行するよう構成され得る。例となるプリミティブは、テンソル畳み込み、活性化関数、及びプーリングを含み、これらは、畳み込みニューラルネットワーク（convolutional neural network，ＣＮＮ）を訓練している間に実行される計算操作である。機械学習フレームワーク６０４はまた、行列及びベクトル演算などの、多くの機械学習アルゴリズムによって実行される基本線形代数サブプログラムを実装するために、プリミティブを供給することができる。

機械学習フレームワーク６０４は、機械学習アプリケーション６０２から受け取られた入力データを処理し、計算フレームワーク６０６への適切な入力を生成することができる。計算フレームワーク６０６は、ＧＰＧＰＵハードウェア６１０のアーキテクチャに関する徹底的な知識を有することを機械学習フレームワーク６０４に求めずに、ＧＰＧＰＵハードウェア６１０を介してハードウェアアクセラレーションを利用することを機械学習フレームワーク６０４に可能にするよう、ＧＰＧＰＵドライバ６０８へ供給される基礎となる命令を抽象化することができる。更には、計算フレームワーク６０６は、ＧＰＧＰＵハードウェア６１０の様々なタイプ及び生成にわたって機械学習フレームワーク６０４のためにハードウェアアクセラレーションを可能にすることができる。

［ＧＰＧＰＵ機械学習アクセラレーション］
図７は、図２Ａの並列プロセッサ２００又は図１の並列プロセッサ１１２であってよい汎用グラフィクス処理ユニット７００を表す。汎用処理ユニット（ＧＰＧＰＵ）７００は、ディープニューラルネットワークの訓練に関連したタイプの計算ワークロードを処理することにおいて特に効率的であるよう構成されてよい。更には、ＧＰＧＰＵ７００は、特にディープニューラルネットワークのために訓練速度を改善するためにマルチＧＰＵクラスタを生成するようＧＰＧＰＵの他のインスタンスへ直接にリンクされ得る。

ＧＰＧＰＵ７００は、ホストプロセッサとの接続を可能にするホストインターフェース７０２を含む。ホストインターフェース７０２は、ＰＣＩＥｘｐｒｅｓｓインターフェースであってよい。しかし、ホストインターフェースはまた、ベンダー特有の通信インターフェース又は通信ファブリックであることもできる。ＧＰＧＰＵ７００は、ホストプロセッサからコマンドを受け取り、グローバルスケジューラ７０４を使用して、それらのコマンドに関連した実行スレッドを処理クラスタ７０６Ａ～７０６Ｈの組へ分配する。処理クラスタ７０６Ａ～７０６Ｈは、キャッシュメモリ７０８を共有する。キャッシュメモリ７０８は、計算クラスタ７０６Ａ～７０６Ｈ内のキャッシュメモリのためのより上位のキャッシュとして働くことができる。表されている処理クラスタ７０６Ａ～７０６Ｈは、図２Ａで見られるような処理クラスタ２１４Ａ～２１４Ｎと対応してよい。

ＧＰＧＰＵ７００は、メモリコントローラ７１２Ａ～７１２Ｂの組を介して処理クラスタ７０６Ａ～７０６Ｈと結合されたメモリ７１４Ａ～７１４Ｂを含む。メモリ７１４Ａ～Ｂは、グラフィクスダブルデータレート（ＧＤＤＲ）メモリを含む同期グラフィクス・ランダム・アクセス・メモリ（ＳＧＲＡＭ）などの動的ランダム・アクセス・メモリ（ＤＲＡＭ）又はグラフィクス・ランダム・アクセス・メモリを含む様々なタイプのメモリデバイスを含むことができる。メモリ７１４Ａ～７１４Ｂはまた、高バンド幅メモリ（ＨＢＭ）を含むがこれに限られない３Ｄスタックドメモリも含んでよい。

処理クラスタ７０６Ａ～７０６Ｈの夫々は、図２Ｄのグラフィクスマルチプロセッサ２３４、図３Ａのグラフィクスマルチプロセッサ３２５、図３Ｂのグラフィクスマルチプロセッサ３５０などのグラフィクスマルチプロセッサの組を含んでよく、あるいは、図３Ｃで見られたようなマルチコアグループ３６５Ａ～３６５Ｎを含んでよい。計算クラスタのグラフィクスマルチプロセッサは、機械学習計算に適したものを含む精度の範囲で計算動作を実行することができる複数のタイプの整数及び浮動小数点ロジックユニットを含む。例えば、処理クラスタ７０６Ａ～７０６Ｈの夫々における浮動小数点ユニットの少なくともサブセットは、１６ビット又は３２ビットの浮動小数点演算を実行するよう構成され得る一方で、浮動小数点ユニットの別のサブセットは、６４ビット浮動小数点演算を実行するよう構成され得る。

ＧＰＧＰＵ７００の複数のインスタンスは、計算クラスタとして動作するよう構成され得る。同期化及びデータ交換のために計算クラスタによって使用される通信メカニズムは、実施形態ごとに様々である。例えば、ＧＰＧＰＵ７００の複数のインスタンスは、ホストインターフェース７０２を介して通信する。一実施形態において、ＧＰＧＰＵ７００は、ＧＰＧＰＵの他のインスタンスへの直接接続を可能にするＧＰＵリンク７１０とＧＰＧＰＵ７００を結合するＩ／Ｏハブ７０９を含む。ＧＰＵリンク７１０は、ＧＰＧＰＵ７００の複数のインスタンスの間の通信及び同期化を可能にする専用のＧＰＵ間ブリッジへ結合されてよい。任意に、ＧＰＵリンク７１０は、データを他のＧＰＧＰＵ又は並列プロセッサへ送信及び受信するよう高速インターコネクトと結合する。ＧＰＧＰＵ７００の複数のインスタンスは、別のデータ処理システムに位置し、ホストインターフェース７０２によりアクセス可能なネットワークデバイスを介して通信してよい。ＧＰＵリンク７１０は、ホストインターフェース７０２に加えて又はその代わりとしてホストプロセッサへの接続を可能にするよう構成されてよい。

ＧＰＧＰＵ７００の表されている構成は、ニューラルネットワークを訓練するよう構成され得る一方で、ＧＰＧＰＵ７００の代替の構成は、高性能又は低電力の推論プラットフォーム内のデプロイのために構成され得る。推論構成では、ＧＰＧＰＵ７００は、訓練構成と比べて、それに含まれている処理クラスタ７０６Ａ～７０６Ｈが少ない。更には、メモリ７１４Ａ～７１４Ｂに関連したメモリ技術は、推論構成と訓練構成との間とは異なってもよい。一実施形態において、ＧＰＧＰＵ７００の推論構成は、特定の命令を推論することをサポートすることができる。例えば、推論構成は、デプロイされたニューラルネットワークのために推論動作中に一般的に使用される１つ以上の８ビット整数内積命令をサポートすることができる。

図８は、マルチＧＰＵコンピューティングシステム８００を表す。マルチＧＰＵコンピューティングシステム８００は、ホストインターフェーススイッチ８０４を介して複数のＧＰＧＰＵ８０６Ａ～８０６Ｂへ結合されているプロセッサ８０２を含むことができる。ホストインターフェーススイッチ８０４は、プロセッサ８０２をＰＣＩエクスプレスバスへ結合するＰＣＩエクスプレススイッチデバイスであってよい。ＰＣＩエクスプレスバスを介して、プロセッサ８０２は、ＧＰＧＰＵ８０６Ａ～８０６Ｄの組と通信することができる。複数のＧＰＧＰＵ８０６Ａ～８０６Ｄの夫々は、図７のＧＰＧＰＵ７００のインスタンスであることができる。ＧＰＧＰＵ８０６Ａ～８０６Ｄは、高速ポイント・ツー・ポイントＧＰＵ間リンク８１６の組を介して相互接続することができる。高速ＧＰＵ間リンクは、図７のＧＰＵリンク７１０などの専用のＧＰＵリンクを介してＧＰＧＰＵ８０６Ａ～８０６Ｄの夫々へ接続することができる。Ｐ２ＰＧＰＵリンク８１６は、プロセッサ８０２が接続されるホストインターフェースバス上での通信を必要とせずに、ＧＰＧＰＵ８０６Ａ～８０６Ｄの夫々の間の直接通信を可能にする。Ｐ２ＰＧＰＵリンクへ向けられたＧＰＵ間トラフィックによれば、ホストインターフェースバスは、例えば、１つ以上のネットワークデバイスを介して、システムメモリアクセスのために、又はマルチＧＰＵコンピューティングシステム８００の他のインスタンスと通信するために、利用可能なままである。図８で、ＧＰＧＰＵ８０６Ａ～８０６Ｄは、ホストインターフェーススイッチ８０４を介してプロセッサ８０２へ接続する一方で、プロセッサ８０２は、代替的に、Ｐ２ＰＧＰＵリンク８１６の直接サポートを含み、ＧＰＧＰＵ８０６～８０６Ｄへ直接接続してもよい。

［機械学習ニューラルネットワーク実装］
本願で記載されているコンピューティングアーキテクチャは、機械学習のためにニューラルネットワークを訓練及びデプロイするのに特に適しているタイプの並列処理を実行するよう構成され得る。ニューラルネットワークは、グラフ関係を有する機能のネットワークとして一般化され得る。当該技術でよく知られているように、機械学習で使用される様々なタイプのニューラルネットワーク実装が存在する。ニューラルネットワークの１つの例示的なタイプは、上述されたように、フィードフォワードネットワークである。

ニューラルネットワークの第２の例示的なタイプは、畳み込みニューラルネットワーク（ＣＮＮ）である。ＣＮＮは、画像データなどの既知のグリッド様トポロジを有するデータを処理するための特殊化したフィードフォワードニューラルネットワークである。従って、ＣＮＮは、コンピュータビジョン及び画像認識アプリケーションのために広く使用されているが、それらは、発話及び言語処理などの他のタイプのパターン認識のためにも使用されてよい。ＣＮＮ入力レイヤ内のノードは、「フィルタ」（網膜にある受容野によって呼び起こされた特徴検出部）の組に編成され、フィルタの各組の出力は、ネットワークの連続したレイヤ内のノードへ伝搬される。ＣＮＮの計算は、各フィルタに畳み込み数学演算を適用してそのフィルタの出力を生成することを含む。畳み込みは、２つの関数によって実行される特殊化した種類の数学演算であって、２つの元の関数のうちの一方の変更されたバージョンである第３の関数を生成する。畳み込みネットワークの用語では、畳み込みの最初の関数は入力と呼ばれ、一方、第２の関数は、畳み込みカーネルと呼ばれ得る。出力は、特徴マップと呼ばれ得る。例えば、畳み込みレイヤへの入力は、入力画像の様々な色成分を定義するデータの多次元配列であることができる。畳み込みカーネルは、パラメータの多次元配列であることができ、パラメータは、ニューラルネットワークのための訓練プロセスによって適応される。

回帰型ニューラルネットワーク（ＲＮＮ）は、レイヤ間のフィードバック接続を含むフィードフォワードニューラルネットワークの仲間である。ＲＮＮは、ニューラルネットワークの異なった部分にわたってパラメータデータを共有することによって、シーケンシャルデータのモデリングを可能にする。ＲＮＮのアーキテクチャはサイクルを含む。サイクルは、ＲＮＮからの出力データの少なくとも一部がその後の入力を順序通りに処理するためにフィードバックとして使用されるということで、変数の現在の値が将来の時点でのそれ自体の値に与える影響を表す。この特徴は、ＲＮＮを、言語データが構成され得る可変な性質により、言語処理に特に有用なものとする。

後述される図は、例示的なフィードフォワード、ＣＮＮ、及びＲＮＮネットワークを提示するとともに、これらのタイプのネットワークの夫々を各々訓練及びデプロイするための一般的なプロセスについて記載する。これらの記載は例であって、本願で記載されている如何なる具体的に実施形態に関しても非限定的であり、表されている概念は、ディープニューラルネットワーク及び機械学習技術全般に概して適用され得る。

上記の例示的なニューラルネットワークは、ディープラーニングを実行するために使用され得る。ディープラーニングは、ディープニューラルネットワークを使用する機械学習である。ディープラーニングで使用されるディープニューラルネットワークは、単一の隠れレイヤしか含まない浅いニューラルネットワークとは対照的に、複数の隠れレイヤから成る人工ニューラルネットワークである。より深いニューラルネットワークは、一般的に、訓練するのにより多くの計算負荷を要する。しかし、ネットワークの追加の隠れレイヤは、浅い機械学習技術に対して出力エラーが低減されることになるマルチステップパターン認識を可能にする。

ディープラーニングで使用されるディープニューラルネットワークは、通常は、モデルに与えられた特徴表現に基づいて演算（例えば、オブジェクト分類、発話認識、など）を実行することができる数学モデルを表すバックエンドネットワークへ結合された特徴認識を実行するためのフロントエンドネットワークを含む。ディープラーニングは、Ｈａｎｄ－ｃｒａｆｔｅｄ特徴エンジニアリングがモデルに対して実行されることを必要とせずに機械学習が実行されることを可能にする。代わりに、ディープニューラルネットワークは、入力データ内の統計的構造又は相関に基づいて特徴を学習することができる。学習された特徴は、検出された特徴を出力にマッピングすることができる数学モデルへ供給され得る。ネットワークによって使用される数学モデルは、一般的に、特定のタスクが実行されるために特殊化され、異なるモデルが、異なるタスクを実行するために使用されることになる。

ニューラルネットワークが構造化されると、学習モデルが、特定のタスクを実行するようネットワークを訓練するためにネットワークに適用され得る。学習モデルは、ネットワークの出力エラーを減らすようモデル内の重みをどのように調整すべきかについて記載する。エラーの後方伝搬は、ニューラルネットワークを訓練するために使用される一般的なモデルである。入力ベルは、処理のためにネットワークに与えられる。ネットワークの出力は、損失関数を用いて所望の出力と比較され、エラー値が、出力レイヤ内のニューロンの夫々について計算される。エラー値は、次いで、各ニューロンが、元の出力へのその寄与を大まかにあらわる関連したエラー値を有するまで、後方に伝搬される。次いで、ネットワークは、ニューラルネットワークの重みを更新するために、確率的勾配降下アルゴリズム（stochastic gradient descent algorithm）などのアルゴリズムを用いてそれらのエラーから学習することができる。

図９Ａ～９Ｂは、例示的な畳み込みニューラルネットワークを表す。図９Ａは、ＣＮＮ内の様々なレイヤを表す。図９Ａに示されているように、画像処理をモデル化するために使用される例示的なＣＮＮは、入力画像の赤、緑、及び青（ＲＧＢ）成分を記述する入力９０２を受け取ることができる。入力９０２は、複数の畳み込みレイヤ（例えば、畳み込みレイヤ９０４、畳み込みレイヤ９０６）によって処理され得る。複数の畳み込みレイヤからの出力は、全結合レイヤ９０８の組によって任意に処理されてもよい。全結合レイヤ内のニューロンは、フィードフォワードネットワークについて上述されたように、前のレイヤ内の全ての活性化（activations）への完全接続を有する。全結合レイヤ９０８からの出力は、ネットワークからの出力結果を生成するために使用され得る。全結合レイヤ９０８内の活性化は、畳み込みの代わりに行列乗算を用いて計算され得る。全てのＣＮＮ実装が、全結合レイヤ９０８を利用するわけではない。例えば、いくつかの実施では、畳み込みレイヤ９０６がＣＮＮの出力を生成することができる。

畳み込みレイヤは疎結合され、これは、全結合レイヤ９０８で見られる従来のニューラルネットワーク構成とは異なる。従来のニューラルネットワークレイヤは完全接続され、それにより、あらゆる出力ユニットはあらゆる入力ユニットと相互作用する。しかし、畳み込みレイヤは、表されているように、フィールドの畳み込みの出力が後続のレイヤのノードへ（フィールド内のノードの夫々の各々の状態値の代わりに）入力されるので、疎結合される。畳み込みレイヤに関連したカーネルが畳み込み演算を実行し、その出力が次のレイヤへ送られる。畳み込みレイヤで実行される次元削減（dimensionality reduction）は、ＣＮＮが大きい画像を処理するようスケーリングすることを可能にする１つの態様である。

図９Ｂは、ＣＮＮの畳み込みレイヤ内の例示的な計算段を表す。ＣＮＮの畳み込みレイヤへの入力９１２は、畳み込みレイヤ９１４の３つ段で処理され得る。３つの段は、畳み込み段９１６、検出器段９１８、及びプーリング段９２０を含むことができる。畳み込みレイヤ９１４は、連続する畳み込みレイヤへデータを出力することができる。ネットワークの最終の畳み込みレイヤは、出力される特徴マップデータを生成するか、あるいは、全結合レイヤへ入力を供給して、例えば、ＣＮＮへの入力に対して分類値を生成することができる。

畳み込み段９１６は、線形活性化の組を生成するよういくつかの畳み込みを並行して実行する。畳み込み段９１６はアフィン変換を含むことができる。アフィン変換は、線形変換プラス平行移動（a linear transformation plus a translation）として特定され得る任意の変換である。アフィン変換は、回転、平行移動、スケーリング、及びこれらの変換の組み合わせを含む。畳み込み段は、ニューロンに関連した局所領域と決定され得る入力内の特定の領域に接続されている関数（例えば、ニューロン）の出力を計算する。ニューロンは、ニューロンの重みと、ニューロンが接続される局所入力内の領域との間の内積を計算する。畳み込み段９１６からの出力は、畳み込みレイヤ９１４の続く段によって処理される線形活性化の組を定義する。

線形活性化は、検出器段９１８によって処理され得る。検出器段９１８では、非線形活性化は、非線形活性化関数によって処理される。非線形活性化関数は、畳み込みレイヤの各々のフィールドに影響を及ぼさずにネットワーク全体の非線形特性を高める。いくつかのタイプの非線形活性化関数が使用されてよい。１つの特定のタイプは、正規化線形関数（rectified linear unit，ＲｅＬＵ）であり、これは、活性がゼロで閾値化されるように、ｆ（ｘ）＝ｍａｘ（０，ｘ）と定義された活性化関数を使用する。

プーリング段９２０は、畳み込みレイヤ９０６の出力を近くの出力の要約統計量で置き換えるプーリング関数を使用する。プーリング関数は、入力への小さい並進がプールされた出力を変更しないように、ニューラルネットワークに並進不変性を導入するために使用され得る。局所並進に対する不変性は、入力データでの特徴の存在が特徴の正確な位置よりも重要であるシナリオで有用であることができる。最大プーリング（max pooling）、平均プーリング（average pooling）、及び１２ノルムプーリング（12-norm pooling）を含む様々なタイプのプーリング関数が、プーリング段９２０の間に使用され得る。更には、いくつかのＣＮＮ実装はプーリング段を含まない。代わりに、そのような実装は、前の畳み込みレイヤに対してストライドが増大している追加の畳み込み段を代用する。

畳み込みレイヤ９１４からの出力は、次いで、次のレイヤ９２２によって処理され得る。次のレイヤ９２２は、追加の畳み込みレイヤ、又は全結合レイヤ９０８の１つであることができる。例えば、図９Ａの第１畳み込みレイヤ９０４は、第２畳み込みレイヤ９０６へ出力することができ、一方、第２畳み込みレイヤは、全結合レイヤ９０８の第１レイヤへ出力することができる。

図１０は、例となる回帰型ニューラルネットワーク１００を表す。回帰型ニューラルネットワーク（ＲＮＮ）では、ネットワークの前の状態がネットワークの現在の状態の出力に影響を及ぼす。ＲＮＮは、様々な機能を用いて様々な方法で構築可能である。ＲＮＮの使用は、一般に、前の入力シーケンスに基づいて将来を予測するよう数学モデルを使用することを中心に展開する。例えば、ＲＮＮは、前のワードシーケンスを前提として、来たるべきワードを予測するよう統計的言語モデリングを実行するために使用されてよい。表されているＲＮＮ１０００は、入力ベクトルを受け取る入力レイヤ１００２と、回帰関数を実装する隠れレイヤ１００４と、前の状態の‘メモリ’を可能にするフィードバックメカニズム１００５と、結果を出力する出力レイヤ１００６とを有しているものとして記載され得る。ＲＮＮ１０００は、時間ステップに基づいて動作する。所与の時間ステップでのＲＮＮの状態は、フィードバックメカニズム１００５を介して前の時間ステップに基づいて影響を及ぼされる。所与の時間ステップについては、隠れレイヤ１００４の状態は、前の状態と、現在の時間ステップでの入力とによって定義される。第１時間ステップでの最初の入力（ｘ_１）が隠れレイヤ１００４によって処理され得る。第２の入力（ｘ_２）は、最初の入力（ｘ_１）の処理中に決定される状態情報を用いて隠れレイヤ１００４によって処理され得る。所与の状態はｓ_ｔ＝ｆ（Ｕｘ_ｔ＋Ｗｓ_ｔ－１）と計算され得る。このとき、Ｕ及びＷはパラメータ行列である。関数ｆは、一般的に、双曲線正接関数（hyperbolic tangent function）（Ｔａｎｈ）又は正規化線形関数ｆ（ｘ）＝ｍａｘ（０，ｘ）などの非線形性である。しかし、隠れレイヤ１００４で使用される具体的な数学関数は、ＲＮＮ１０００の具体的な実装詳細に応じて様々であることができる。

記載されている基本的なＣＮＮ及びＲＮＮネットワークに加えて、それらのネットワークに対する変形が可能であり得る。ＲＮＮの変形の一例は、長・短期記憶（long short term memory，ＬＳＴＭ）ＲＮＮである。ＬＳＴＭＲＮＮは、より長い言語シーケンスを処理するために必要であり得る長期依存を学習することが可能である。ＣＮＮの変形例は、ＣＮＮと類似した構造を有し、ディープ・ビリーフ・ネットワーク（deep belief network）と類似した方法で訓練される畳み込みディープ・ビリーフ・ネットワークである。ディープ・ビリーフ・ネットワーク（ＤＢＮ）は、確率論的な（ランダムな）変数の複数のレイヤからなる生成ニューラルネットワークである。ＤＢＮは、教師なしグリーディ学習を用いてレイヤごとに訓練され得る。ＤＢＮの学習された重みが、次いで、ニューラルネットワークのための重みの最適な初期セットを決定することによって、予め訓練されたニューラルネットワークを提供するために使用され得る。

図１１は、ディープニューラルネットワークの訓練及びデプロイを表す。所与のネットワークがタスクに対して構造化されると、ニューラルネットワークは、訓練データセット１１０２を用いて訓練される。様々な訓練フレームワーク１１０４が、訓練プロセスのハードウェアアクセラレーションを可能にするよう開発されている。例えば、図６の機械学習フレームワーク６０４が訓練フレームワーク１１０４として構成されてよい。訓練フレームワーク１１０４は、訓練されていないニューラルネットワーク１１０６につながり、訓練されていないニューラルネットワーク１１０６が、訓練されたニューラルネットワーク１１０８を生成するよう、本願で記載されている並列処理リソースを用いて訓練されることを可能にすることができる。

訓練プロセスを開始するために、初期重みが、ランダムに、又はディープ・ビリーフ・ネットワークを用いて予め訓練することによって、選択されてよい。次いで、訓練サイクルは、教師あり又は教師なしのいずれかの方法で実行される。

教師あり学習は、例えば、訓練データセット１１１２が、入力に対する所望の出力と対にされた入力を含む場合、又は訓練データセットが、既知の出力を有する入力を含み、ニューラルネットワークの出力が手動で格付けされる場合など、仲介された動作（mediated operation）として訓練が実行される学習方法である。ネットワークは、入力を処理し、得られた出力を、期待されている又は望まれている出力の組と比較する。次いで、エラーがシステムを通って後方伝搬される。訓練フレームワーク１１０４は、訓練されていないニューラルネットワーク１１０６を制御する重みを調整することができる。訓練フレームワーク１１０４は、訓練されていないニューラルネットワーク１１０６が、既知の入力データに基づいて正しい答えを生成することに適したモデルに向かってどれくらい上手く収束しているかをモニタするツールを提供することができる。訓練プロセスは、ネットワークの重みが、ニューラルネットワークによって生成される出力を精緻化するよう調整されるように、繰り返し行われる。訓練プロセスは、ニューラルネットワークが、訓練されたニューラルネットワーク１１０８に関連した統計的に望ましい制度に達するまで、続くことができる。訓練されたニューラルネットワーク１１０８は、次いで、新しいデータ１１０２の入力に基づいて推論結果１１１４を生成するために任意の数の機械学習動作を実装するようデプロイされ得る。

教師なし学習は、ネットワークがラベルなしデータを用いて自身を訓練しようと試みる学習モデルである。よって、教師なし学習については、訓練データセット１１１２は、如何なる関連付けられた出力データも伴わない入力を含むことになる。訓練されていないニューラルネットワーク１１０６は、ラベルなし入力内のグルーピングを学習することができ、個々の入力が全体のデータセットにどのように関係しているかを決定することができる。教師なし訓練は、データの次元を削減するのに有用な動作を実行することが可能な訓練されたニューラルネットワーク１１０８の一種である自己組織化マップ（self-organizing map）を生成するために使用され得る。教師なし訓練はまた、異常検出を実行するために使用され得る。これは、データの正常パターンから外れている入力データセット内のデータポイントの識別を可能にする。

教師あり及び教師なし訓練の変形も用いられてよい。半教師あり学習は、訓練データセット１１１２が同じ分布のラベルあり及びラベルなしデータの混合を含む技術である。増分学習は、入力データがモデルを更に訓練するために連続して使用され得る教師あり学習の変形である。増分学習は、訓練されたニューラルネットワーク１１０８が、最初の訓練中にネットワーク内に植え付けられた知識を忘れずに新しいデータ１１１２に適応することを可能にする。

教師ありか教師なしかに関わらず、特にディープニューラルネットワークのための訓練プロセスは、単一の計算ノードにとっては計算負荷が高すぎることがある。単一の計算ノードを使用する代わりに、計算ノードの分散ネットワークが、訓練プロセスを加速させるために使用され得る。

図１２は、分散学習（distributed learning）を表すブロック図である。分散学習は、ニューラルネットワークの教師あり又は教師なし訓練を実行するために複数の分散した計算ノードを使用する訓練モデルである。分散した計算ノードは夫々、１つ以上のホストプロセッサと、図７で見られたような高並列汎用グラフィクス処理ユニット７００などの汎用処理ノードの１つ以上とを含むことができる。表されているように、分散学習は、モデル並列処理（parallelism）１２０２、データ並列処理１２０４、又はモデル及びデータ並列処理の組み合わせ１２０６を実行することができる。

モデル並列処理１２０２では、分散システム内の異なる計算ノードは、単一のネットワークの異なる部分の訓練計算を実行することができる。例えば、ニューラルネットワークの各レイヤは、分散システムの異なる処理ノードによって訓練され得る。モデル並列処理の利点には、特に大きいモデルにスケーリングする能力がある。ニューラルネットワークの異なるレイヤに関連した計算を分けることは、全てのレイヤの重みが単一の計算ノードのメモリに収まるわけでない非常に大きいニューラルネットワークの訓練を可能にする。いくつかの場合に、モデル並列処理は、大きいニューラルネットワークの教師なし訓練を実行するのに特に有用であることができる。

データ並列処理１２０４では、分散ネットワークの異なるノードは、モデルの完全なインスタンスを有し、各ノードは、データの異なる部分を受け取る。異なるノードからの結果は、次いで、結合される。データ並列処理に対する異なるアプローチが可能である一方で、データ並列訓練アプローチは全て、結果を結合し、各ノード間でモデルパラメータを同期させる技術を必要とする。データの結合に対するアプローチの例には、パラメータ平均化及び更新に基づくデータ並列処理がある。パラメータ平均化は、訓練データのサブセットに関して各ノードを訓練し、大域パラメータ（例えば、重み、バイアス）を各ノードからのパラメータの平均にセットする。パラメータ平均化は、パラメータデータを保持する中央パラメータサーバを使用する。更新に基づくデータ並列処理は、ノードからパラメータサーバへパラメータを転送する代わりに、モデルに対する更新が転送されることを除いて、パラメータ平均化と類似している。更には、更新に基づくデータ並列処理は、非中央集権的な方法で実行可能であり、更新は圧縮され、ノード間で転送される。

複合的なモデル及びデータ並列処理１２０６は、例えば、各計算ノードが複数のＧＰＵを含む分散システムで、実装され得る。各ノードは、モデルの完全なインスタンスを有し、各ノード内の別々のＧＰＵは、モデルの異なる部分を訓練するために使用される。

分散学習は、単一のマシンでの訓練と比較して、オーバーヘッドが増大する。しかし、本願で記載されている並列プロセッサ及びＧＰＧＰＵは夫々、高バンド幅ＧＰＵ間データ転送及び加速されたリモードデータ同期化を可能にする技術を含め、分散訓練のオーバーヘッドを低減するよう様々な技術を実装することができる。

［例となる機械学習応用］
機械学習は、コンピュータビジョン、自動運転及び航法、発話認識、並びに言語処理を含むがこれらに限られない様々な技術的課題を解決するために適用され得る。コンピュータビジョンは、従来から、機械学習応用の最も活発な研究分野の１つである。コンピュータビジョンの応用は、顔認識などのヒトの視覚能力を再現することから、視覚能力の新たなカテゴリを作り出すことまで多岐にわたる。例えば、コンピュータビジョンアプリケーションは、映像内で見ることができる対象に引き起こされた振動から音波を認識するよう構成され得る。並列プロセッサにより加速された機械学習は、コンピュータビジョンアプリケーションが、以前に実現可能であったよりも相当に大きい訓練データセットを用いて訓練されることを可能にし、かつ、推論システムが、より低電力の並列プロセッサを用いてデプロイされることを可能にする。

並列プロセッサにより加速された機械学習は、レーン及び道路標識認識、障害物回避、ナビゲーション、並びに運転制御を含む自動運転用途がある。加速された機械学習技術は、特定の訓練入力に対する適切な応答を定義するデータセットに基づいて運転モデルを訓練するために使用され得る。本願で記載されている並列プロセッサは、自動運転ソリューションのために使用されるますます複雑なニューラルネットワークの急速訓練を可能にすることができ、自律走行車への組み込みに適したモバイルプラットフォームにおける低電力推論プロセッサのデプロイを可能にする。

並列プロセッサにより加速されたディープニューラルネットワークは、自動発話認識（automatic speech recognition，ＡＳＲ）に対する機械学習アプローチを可能にしてきた。ＡＳＲは、入力された音響シーケンスを前提として最も確からしい言語シーケンスを計算する関数の生成を含む。ディープニューラルネットワークを使用する加速された機械学習は、ＡＳＲのために従前使用されていた隠れマルコフモデル（hidden Markov model，ＨＭＭ）及びガウス混合モデル（Gaussian mixture models，ＧＭＭ）の置換を可能にしている。

並列プロセッサにより加速された機械学習はまた、自然言語処理を加速させるためにも使用され得る。自動学習プロシージャは、誤りのある又は聞き慣れない入力に対してロバストであるモデルを生成するために統計的推論アルゴリズムを利用することができる。例となる自然言語プロセッサアプリケーションには、ヒトの言語間の自動機械翻訳がある。

機械学習のために使用される並列処理プラットフォームは、訓練プラットフォーム及びデプロイプラットフォームに分けられ得る。訓練プラットフォームは、一般的に高並列であり、マルチＧＰＵ単一ノード訓練及びマルチノードマルチＧＰＵ訓練を加速させる最適化を含む。訓練に適した並列プロセッサの例には、図７の汎用グラフィクス処理ユニット７００及び図８のマルチＧＰＵコンピューティングシステム８００がある。対照的に、デプロイされた機械学習プラットフォームは、一般的に、カメラ、自律ロボット、及び自律走行車などの製品での使用に適した、より低電力の並列プロセッサを含む。

図１３は、訓練されたモデルを用いて推論を行うのに適した例示的な推論システム・オン・ア・チップ（ＳＯＣ）１３００を表す。ＳＯＣ１３００は、メディアプロセッサ１３０２、ビジョンプロセッサ１３０４、ＧＰＧＰＵ１３０６、及びマルチコアプロセッサ１３０８を含む処理コンポーネントを組み込むことができる。ＧＰＧＰＵ１３０６は、ＧＰＧＰＵ７００などの、本願で記載されているＧＰＧＰＵであってよく、マルチコアプロセッサ１３０８は、マルチコアプロセッサ４０５～４０６などの、本願で記載されているマルチコアプロセッサであってよい。ＳＯＣ１３００は、処理コンポーネントの夫々によってアクセス可能である共有されたオンチップデータプールを可能にすることができるオンチップメモリ１３０５を更に含むことができる。処理コンポーネントは、自律走行車及び自律ロボットを含む様々な機械学習プラットフォームへのデプロイを可能にするよう低電力動作のために最適化され得る。例えば、ＳＯＣ１３００の１つの実施は、自律走行車のための主制御システムの部分として使用され得る。ＳＯＣ１３００が自律走行車での使用のために構成される場合に、ＳＯＣは、デプロイ権限の関連した機能安全標準に従うよう設計及び構成される。

動作中、メディアプロセッサ１３０２及びビジョンプロセッサ１３０４は、コンピュータビジョン動作を加速させるよう協働することができる。メディアプロセッサ１３０２は、複数の高解像度（例えば、４Ｋ，８Ｋ）ビデオストリームの低遅延復号化を可能にすることができる。復号されたビデオストリームは、オンチップメモリ１３０５内のバッファに書き込まれ得る。ビジョンプロセッサ１３０４は、次いで、訓練された画像認識モデルを用いてフレームを処理することに備えて、復号されたビデオをパースし、復号されたビデオのフレームに対して予備処理動作を実行することができる。例えば、ビジョンプロセッサ１３０４は、高解像度ビデオデータに対して画像認識を実行するために使用されるＣＮＮの畳み込み演算を加速させることができ、一方、バックエンドモデル計算は、ＧＰＧＰＵ１３０６によって実行される。

マルチコアプロセッサ１３０８は、メディアプロセッサ１３０２及びビジョンプロセッサ１３０４によって実行されるデータ転送及び共有メモリ動作の順序付け及び同期化を支援する制御ロジックを含むことができる。マルチコアプロセッサ１３０８はまた、ＧＰＧＰＵ１３０６の推論計算能力を利用することができるソフトウェアアプリケーションを実行するようアプリケーションプロセッサとして動作することもできる。例えば、ナビゲーション及び駆動ロジックの少なくとも一部は、マルチコアプロセッサ１３０８で実行されるソフトウェアで実装され得る。そのようなソフトウェアは、ＧＰＧＰＵ１３０６に対して直接に計算ワークロードを発行することができ、あるいは、計算ワークロードは、これらの動作の少なくとも一部をＧＰＧＰＵ１３０６にオフロードすることができるマルチコアプロセッサ１３０８に対して発行され得る。

ＧＰＧＰＵ１３０６は、汎用グラフィクス処理ユニット７００内の処理クラスタ７０６Ａ～７０６Ｈの低電力構成などの計算クラスタを含むことができる。ＧＰＧＰＵ１３０６内の計算クラスタは、訓練されたニューラルネットワークに対して推論計算を実行するよう特に最適化される命令をサポートすることができる。例えば、ＧＰＧＰＵ１３０６は、８ビット及び４ビット整数ベクトル演算などの低精度計算を実行するための命令をサポートすることができる。

［更なるシステム概要］
図１４は、処理システム１４００のブロック図である。本願のいずれかの他の図の要素と同じ又は類似した名称を有している図１４の要素は、他の図で見られるのと同じ要素について記載しており、本願のどこかで記載されているものと同じように動作又は機能することができ、同じコンポーネントを有することができ、そして、他のエンティティへリンクされ得るが、そのように限定されない。システム１４００は、シングルプロセッサデスクトップシステム、マルチプロセッサワークステーションシステム、又は多数のプロセッサ１４０２又はプロセッサコア１４０７を備えたサーバシステムで使用されてよい。システム１４００は、ローカル又はワイドエリアネットワークへの有線又は無線接続を備えたインターネット・オブ・シングス（ＩｏＴ）デバイス内など携帯型、手持ち式、埋め込み型デバイスで使用されるシステム・オン・ア・チップ（ＳｏＣ）集積回路内に組み込まれた処理プラットフォームであってよい。

システム１４００は、図１のコンポーネントと対応するコンポーネントを備えた処理システムであってよい。例えば、異なる構成では、プロセッサ１４０２又はプロセッサコア１４０７は、図１のプロセッサ１０２と対応してよい。グラフィクスプロセッサ１４０８は、図１の並列プロセッサ１１２と対応してよい。外部グラフィクスプロセッサ１４１８は、図１のアドインデバイス１２０のうちの１つであってよい。システム１４００は、サーバベースのゲームプラットフォーム；ゲーム及びメディアコンソールを含むゲームコンソール；携帯型ゲームコンソール、手持ち式ゲーム機、又はオンラインゲーム機を含むか、それと結合するか、又はその中に組み込まれることが可能である。システム１４００は、携帯電話機、スマートフォン、タブレットコンピュータデバイス、又はモバイルインターネット接続デバイス、例えば、低内部記憶容量のラップトップ、の部分であってよい。処理システム１４００はまた、スマートウォッチウェラブルデバイスなどのウェアラブルデバイス；現実世界の視覚、音声又は触覚経験を補完するよう視覚、音声又は触覚出力を供給するか、あるいは、テキスト、音声、映像、ホログラフィック画像若しくは映像、又は触覚フィードバックを供給する拡張現実（ＡＲ）又は仮想現実（ＶＲ）機能により強化されたスマートアイウェア又は衣服；あるいは、他の仮想現実（ＶＲ）デバイスを含むか、それと結合するか、又はその中に組み込まれることも可能である。処理システム１４００は、テレビ受像機又はセットトップボックスデバイスを含むか、あるいは、その部分であってよい。

システム１４００は、バス、トレーラトラック、自動車、原動機付き又は電動自転車、飛行機又はグライダー（あるいは、それらの任意の組み合わせ）などの自動運転式輸送手段を含むか、それと結合するか、又はその中に組み込まれることが可能である。自動運転式輸送手段は、輸送手段の周りで検知された環境を処理するためにシステム１４００を用いてよい。

１つ以上のプロセッサ１４０２は夫々、実行時に、システム又はユーザソフトウェアのための動作を実行する命令を処理する１つ以上のプロセッサコア１４０７を含んでよい。１つ以上のプロセッサコア１４０７のうちの少なくとも１つは、特定の命令セット１４０９を処理するよう構成されてよい。命令セット１４０９は、複数命令セットコンピューティング（Complex Instruction Set Computing，ＣＩＳＣ）、縮小命令セットコンピューティング（Reduced Instruction Set Computing，ＲＩＳＣ）、又は超長命令語（Very Long Instruction Word，ＶＬＩＷ）によるコンピューティングを促進してよい。１つ以上のプロセッサコア１４０７は、異なる命令セット１４０９を処理してもよい。異なる命令セット１４０９は、他の命令セットのエミュレーションを促進する命令を含んでよい。プロセッサコア１４０７はまた、デジタル信号プロセッサ（Digital Signal Processor，ＤＳＰ）などの他の処理デバイスを含んでもよい。

プロセッサ１４０２は、キャッシュメモリ１４０４を含んでよい。アーキテクチャに応じて、プロセッサ１４０２は、単一内部キャッシュ、又は複数レベルの内部キャッシュを有することができる。いくつかの実施形態において、キャッシュメモリは、プロセッサ１４０２の様々なコンポーネントの間で共有される。いくつかの実施形態において、プロセッサ１４０２はまた、外部キャッシュ（例えば、レベル－３（Ｌ３）キャッシュ又はラストレベルキャッシュ（ＬＬＣ））（図示せず）も使用する。外部キャッシュは、既知のキャッシュコヒーレンス技術を用いてプロセッサコア１４０７の間で共有されてよい。プロセッサ１４０２には、レジスタファイル１４０６が更に含まれ得る。レジスタファイル１４０６は、異なるタイプのデータを記憶する異なるタイプのレジスタ（例えば、整数レジスタ、浮動小数点レジスタ、ステータスレジスタ、及び命令ポインタレジスタ）を含んでよい。いくつかのレジスタは、汎用のレジスタであってよく、一方、他のレジスタは、プロセッサ１４０２の設計に特有であってよい。

１つ以上のプロセッサ１４０２は、アドレス、データ、又は制御信号などの通信信号をプロセッサ１４０２とシステム１４００内の他のコンポーネントとの間で伝送するよう１つ以上のインターフェースバス１４１０と結合されてよい。インターフェースバス１４１０は、これらの実施形態のうちの１つで、ダイレクト・メディア・インターフェース（Direct Media Interface，ＤＭＩ）バスの変形などのプロセッサバスであることができる。しかし、プロセッサバスは、ＤＭＩバスに限定されず、１つ以上のペリフェラル・コンポーネント・インターコネクト（例えば、ＰＣＩ、ＰＣＩＥｘｐｒｅｓｓ）バス、メモリバス、又は他のタイプのインターフェースバスを含んでもよい。例えば、プロセッサ１４０２は、集積メモリコントローラ１４１６及びプラットフォームコントローラハブ１４３０を含んでよい。メモリコントローラ１４１６は、メモリデバイスとシステム１４００の他のコンポーネントとの間の通信を助け、一方、プラットフォームコントローラハブ（ＰＣＨ）１４３０は、ローカルＩ／Ｏバスを介したＩ／Ｏデバイスへの接続を提供する。

メモリデバイス１４２０は、動的ランダム・アクセス・メモリ（ＤＲＡＭ）デバイス、静的ランダム・アクセス・メモリ（ＳＲＡＭ）デバイス、フラッシュメモリデバイス、相変化メモリデバイス、又はプロセスメモリとして機能するよう適切な性能を備えたその他メモリデバイスであることができる。メモリデバイス１４２０は、例えば、１つ以上のプロセッサ１４０２がアプリケーション又はプロセスを実行するときに使用されるデータ１４２２及び命令１４２１を記憶するために、システム１４００のためのシステムメモリとして動作することができる。メモリコントローラ１４１６はまた、任意の外部グラフィクスプロセッサ１４１８とも結合する。外部グラフィクスプロセッサ１４１８は、グラフィクス及びメディア操作を実行するようプロセッサ１４０２内の１つ以上のグラフィクスプロセッサ１４０８と通信してよい。いくつかの実施形態において、グラフィクス、メディア、及び／又は計算操作は、グラフィクス、メディア、又は計算操作の特殊化した組を実行するよう構成され得るコプロセッサであるアクセラレータ１４１２によって支援されてよい。例えば、アクセラレータ１４１２は、機械学習又は計算操作を最適化するために使用される行列乗算アクセラレータであってよい。アクセラレータ１４１２は、グラフィクスプロセッサ１４０８と協力してレイトレーシング動作を実行するために使用され得るレイトレーシングアクセラレータであることができる。一実施形態において、外部アクセラレータ１４１９は、アクセラレータ１４１２の代わりに又はそれと協調して使用されてよい。

表示デバイス１４１１が設けられてよく、これはプロセッサ１４０２へ接続することができる。表示デバイス１４１１は、モバイル電子機器若しくはラップトップデバイスで見られるような内蔵表示デバイス、又は表示インターフェース（例えば、ＤｉｓｐｌａｙＰｏｒｔなど）を介して取り付けられた外部表示デバイス、の１つ以上であることができる。表示デバイス１４１１は、仮想現実（ＶＲ）アプリケーション又は拡張現実（ＡＲ）アプリケーションで使用される立体視表示デバイスなどのヘッドマウント型ディスプレイ（ＨＭＤ）であることができる。

プラットフォームコントローラハブ１４３０は、周辺機器が高速Ｉ／Ｏバスを介してメモリデバイス１４２０及びプロセッサ１４０２へ接続することを可能にし得る。Ｉ／Ｏペリフェラルは、オーディオコントローラ１４４６、ネットワークデバイス１４３４、ファームウェアインターフェース１４２８、無線トランシーバ１４２６、タッチセンサ１４２５、データ記憶デバイス１４２４（例えば、不揮発性メモリ、揮発性メモリ、ハードディスクドライブ、フラッシュメモリ、ＮＡＮＤ、３ＤＮＡＮＤ、３ＤＸＰｏｉｎｔ／メモリユニット、など）を含むが、これらに限られない。データ記憶デバイス１４２４は、ペリフェラル・コンポーネント・インターコネクト（例えば、ＰＣＩ、ＰＣＩエクスプレス）バスなどのペリフェラルバスを介して又はストレージインターフェース（例えば、ＳＡＴＡ）を介して接続することができる。タッチセンサ１４２５は、タッチスクリーンセンサ、圧力センサ、又は指紋センサを含むことができる。無線トランシーバ１４２６は、Ｗｉ－Ｆｉトランシーバ、Ｂｌｕｅｔｏｏｔｈ（登録商標）トランシーバ、又はモバイルネットワークトランシーバ、例えば、３Ｇ、４Ｇ、５Ｇ、又はロング・ターム・エボリューション（ＬＴＥ）トランシーバであることができる。ファームウェアインターフェース１４２８は、システムファームウェアとの通信を可能にし、例えば、ユニファイド・エクステンシブル・ファームウェア・インターフェース（unified extensible firmware interface，ＵＥＦＩ）であることができる。ネットワークコントローラ１４３４は、有線ネットワークへのネットワーク接続を可能にすることができる。いくつかの実施形態において、高性能ネットワークコントローラ（図示せず）がインターフェースバス１４１０と結合する。オーディオコントローラ１４４６は、マルチチャネル・ハイディフィニション・オーディオコントローラであってよい。これらの実施形態のうちのいくつかにおいて、システム１４００は、レガシー（例えば、Personal System 2（ＰＳ／２））デバイスをシステムへ結合する任意のレガシーＩ／Ｏコントローラ１４４０を含む。プラットフォームコントローラハブ１４３０はまた、キーボード及びマウス１４４３の組み合わせ、カメラ１４４４、又は他のＵＳＢ入力デバイスなどの入力デバイスを接続する１つ以上のユニバーサル・シリアル・バス（ＵＳＢ）コントローラ１４４２へ接続することもできる。

明らかなように、示されているシステム１４００は、例であって限定ではなく、別なふうに構成される他のタイプのデータ処理システムも使用されてよい。例えば、メモリコントローラ１４１６及びプラットフォームコントローラハブ１４３０のインスタンスは、外部グラフィクスプロセッサ１４１８などの分離した外部グラフィクスプロセッサに組み込まれてもよい。プラットフォームコントローラハブ１４３０及び／又はメモリコントローラ１４１６は、１つ以上のプロセッサ１４０２の外であってよい。例えば、システム１４００は、外付けのメモリコントローラ１４１６及びプラットフォームコントローラハブ１４３０を含むことができ、これらは、プロセッサ１４０２と通信するシステムチップセット内のメモリコントローラハブ及びペリフェラルコントローラハブとして構成されてよい。

例えば、回路基板（「スレッド（sleds）」）が使用可能であり、その上には、ＣＰＵ、メモリ、及び他のコンポーネントなどのコンポーネントが載置され、熱性能を向上させるよう設計される。プロセッサなどの処理コンポーネントは、スレッドの上面に置かれてよく、一方、ＤＩＭＭなどの近くのメモリは、スレッドの底面に置かれる。この設計によってもたらされる強化された気流の結果として、コンポーネントは、通常のシステムよりも高い周波数及び電力レベルで動作して、性能を向上させ得る。更に、スレッドは、ラック内の電源及びデータ通信ケーブルと盲目的に結合するよう構成され、それによって、迅速な取り外し、アップグレード、再インストール、及び／又は交換が可能である。同様に、プロセッサ、アクセラレータ、メモリ、及びデータ記憶ドライブなどの、スレッドに載置されている個々のコンポーネントは、相互の間隔を広げられることで容易にアップグレードされるよう構成される。実例となる実施形態では、コンポーネントは、それらの真正性を証明するためのハードウェア認証機能を更に含む。

データセンターは、Ｅｔｈｅｒｎｅｔ（登録商標）及びＯｍｎｉ－Ｐａｔｈを含む複数の他のネットワークアーキテクチャをサポートする単一のネットワークアーキテクチャ（「ファブリック」）を利用することができる。スレッドは、光ファイバを介してスイッチへ結合可能であり、これは、典型的なツイステッド・ペア・ケーブル（カテゴリ５、カテゴリ５ｅ、カテゴリ６、など）よりも高いバンド幅及び低いレイテンシをもたらす。高バンド幅、低レイテンシの相互接続及びネットワークアーキテクチャにより、データセンターは、使用中に、物理的に構成要素に分けられているメモリ、アクセラレータ（例えば、ＧＰＵ、グラフィクスアクセラレータ、ＦＰＧＡ、ＡＳＩＣ、ニューラルネットワーク及び／又は人工知能アクセラレータ、など）及びデータ記憶ドライブなどのリソースをプールし、それらを、必要に応じて計算リソース（例えば、プロセッサ）に提供して、計算リソースが、プールされたリソースに、それらがあたかもローカルであるかのようにアクセスすることを可能にする。

電力供給又は電源は、電圧及び／又は電流をシステム１４００又は本願で記載されているいずれかのコンポーネント若しくはシステムに供給することができる。一例では、電力供給は、壁コンセントにプラグを差し込むようＡＣ－ＤＣ（交流から直流）アダプタを含む。そのようなＡＣ電力は、再生可能エネルギ（例えば、太陽エネルギ）電源であることができる。一例では、電源は、外部ＡＣ－ＤＣコンバータなどのＤＣ電源を含む。電源又は電力供給はまた、充電野への近接により充電する無線充電ハードウェアを含む。電源は、内蔵バッテリ、交流電源、運動に基づいた電源、太陽電源、又は燃料電池を含むことができる。

図１５Ａ～Ｃは、コンピューティングシステム及びグラフィクスプロセッサを表す。本願のいずれかの他の図の要素と同じ又は類似した名称を有している図１５Ａ～１５Ｃの要素は、他の図で見られるのと同じ要素について記載しており、本願のどこかで記載されているものと同じように動作又は機能することができ、同じコンポーネントを有することができ、そして、他のエンティティへリンクされ得るが、そのように限定されない。図１５Ａは、プロセッサ１４０２のうちの１つの変形であってよく、それらの１つの代わりに使用されてよいプロセッサ１５００のブロック図である。従って、本願でのプロセッサ１５００と組み合わされる如何なる特徴も、プロセッサ１４０２との対応する組み合わせを開示するが、そのように限定されない。プロセッサ１５００は、１つ以上のプロセッサコア１５０２Ａ～１５０２Ｎ、集積メモリコントローラ１５１４、及び集積グラフィクスプロセッサ１５０８を備えてよい。集積グラフィクスプロセッサ１５０８が望まれる場合に、プロセッサを含むシステムは、システムチップセット内にあるか又はシステムバスを介して結合されるグラフィクスプロセッサデバイスを含むことになる。プロセッサ１５００は、破線ボックスで表されている追加コア１５０２Ｎまでの追加コアを含むことができる。プロセッサコア１５０２Ａ～１５０２Ｎの夫々は、１つ以上の内部キャッシュユニット１５０４Ａ～１５０４Ｎを含む。いくつかの実施形態において、各プロセッサコア１５０２Ａ～１５０２Ｎはまた、１つ以上の共有キャッシュユニット１５０６へのアクセスも有する。

内部キャッシュユニット１５０４Ａ～１５０４Ｎ及び共有キャッシュユニット１５０６は、プロセッサ１５００内のキャッシュメモリヒエラルキを表す。キャッシュメモリヒエラルキは、各プロセッサコア内の少なくとも１つのレベルの命令及びデータキャッシュと、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）、又は他のレベルのキャッシュなどの１つ以上のレベルの共有ミッドレベルキャッシュとを含んでよく、外部メモリの前の最も高いレベルのキャッシュは、ＬＬＣと分類される。いくつかの実施形態において、キャッシュコヒーレンシロジックは、様々なキャッシュユニット１５０６及び１５０４Ａ～１５０４Ｎの間でコヒーレンシを保つ。

プロセッサ１５００はまた、１つ以上のバスコントローラユニット１５１６の組と、システムエージェントコア１５１０とを含んでもよい。１つ以上のバスコントローラユニット１５１６は、１つ以上のＰＣＩ又はＰＣＩエクスプレスバスなどのペリフェラルバスの組を管理する。システムエージェントコア１５１０は、様々なプロセッサコンポーネントのための管理機能性を提供する。システムエージェントコア１５１０は、様々な外部メモリデバイス（図示せず）へのアクセスを管理する１つ以上の集積メモリコントローラ１５１４を含んでよい。

プロセッサコア１５０２Ａ～１５０２Ｎのうちの１つ以上は、同時のマルチスレッディングのサポートを含んでよい。システムエージェントコア１５１０は、マルチスレッド処理中にコア１５０２Ａ～１５０２Ｎを協調及び作動させるためのコンポーネントを含む。システムエージェントコア１５１０は、プロセッサコア１５０２Ａ～１５０２Ｎ及びグラフィクスプロセッサ１５０８の電力状態を調整するロジック及びコンポーネントを含む電力制御ユニット（ＰＣＵ）を更に含んでもよい。

プロセッサ１５００は、グラフィクス処理動作を実行するグラフィクスプロセッサ１５０８を更に含んでもよい。これらの実施形態のうちのいくつかで、グラフィクスプロセッサ１５０８は、共有キャッシュユニット１５０６の組、及び１つ以上の集積メモリコントローラ１５１４を含むシステムエージェントコア１５１０と結合する。システムエージェントコア１５１０はまた、結合された１つ以上のディスプレイへのグラフィクスプロセッサ出力を駆動するディスプレイコントローラ１５１１も含んでもよい。ディスプレイコントローラ１５１１はまた、少なくとも１つのインターコネクトを介してグラフィクスプロセッサと結合された別個のモジュールであってもよく、あるいは、グラフィクスプロセッサ１５０８内に組み込まれてもよい。

リングベースのインターコネクトユニット１５１２が、プロセッサ１５００の内部コンポーネントを結合するために使用されてもよい。しかし、代替のインターコネクトユニットが使用されてもよく、例えば、ポイント・ツー・ポイントインターコネクト、スイッチドインターコネクト、又は当該技術でよく知られている技術を含む他の技術がある。これらの実施形態のうちのいくつかで、リングベースのインターコネクトユニット１５１２によれば、グラフィクスプロセッサ１５０８は、Ｉ／Ｏリンク１５１３を介してリングベースのインターコネクト１５１２と結合する。

例となるＩ／Ｏリンク１５１３は、ｅＤＲＡＭモジュールなどの高性能埋め込みメモリモジュール１５１８と様々なプロセッサコンポーネントとの間の通信を助けるパッケージＩ／Ｏインターコネクトを含む多種多様なＩ／Ｏインターコネクトのうちの少なくとも１つを表す。任意に、プロセッサコア１５０２Ａ～１５０２Ｎ及びグラフィクスプロセッサ１５０８の夫々は、埋め込みメモリモジュール１５１８を共有ラストレベルキャッシュとして使用することができる。

プロセッサコア１５０２Ａ～１５０２Ｎは、例えば、同じ命令セットアーキテクチャを実行する同種のコアであってよい。代替的に、プロセッサコア１５０２Ａ～１５０２Ｎは、命令セットアーキテクチャ（ＩＳＡ）に関して異種であり、プロセッサコア１５０２Ａ～１５０２Ｎのうちの１つ以上は、第１命令セットを実行し、一方、残りのコアのうちの少なくとも１つは、第１命令セットのサブセット又は異なる命令セットを実行する。プロセッサコア１５０２Ａ～１５０２Ｎは、マイクロアーキテクチャに関して異種であってよく、相対的により高い電力消費を有する１つ以上のコアは、より低い電力消費を有する１つ以上の電力コアと結合する。他の例として、プロセッサコア１５０２Ａ～１５０２Ｎは、計算能力に関して異種である。更には、プロセッサ１５００は、１つ以上のチップ上で、あるいは、他のコンポーネントに加えて、表されているコンポーネントを備えたＳｏＣ集積回路として、実装され得る。

図１５Ｂは、本願で記載されているいくつかの実施形態に従うグラフィクスプロセッサコア１５１９のハードウェアロジックのブロック図である。グラフィクスプロセッサコア１５１９は、コアスライスと時々呼ばれ、モジュールグラフィクスプロセッサ内の１つ又は複数のグラフィクスコアであることができる。グラフィクスプロセッサコア１５１９は、１つのグラフィクスコアスライスの例であり、本願で記載されているグラフィクスプロセッサは、目標電力及び性能エンベロープに基づいて複数のグラフィクスコアスライスを含んでよい。各グラフィクスプロセッサコア１５１９は、汎用及び固定機能ロジックのモジュールブロックを含む、サブスライスとも呼ばれる複数のサブコア１５２１Ａ～１５２１Ｆと結合されている固定機能ブロック１５３０を含むことができる。

固定機能ブロック１５３０は、例えば、より低い性能及び／又はより低い電力のグラフィクスプロセッサ実装で、グラフィクスプロセッサコア１５１９内の全てのサブコアによって共有され得るジオメトリ／固定機能パイプライン１５３１を含んでよい。ジオメトリ／固定機能パイプライン１５３１は、３Ｄ固定機能パイプライン（例えば、後述される図１６Ａで見られる３Ｄパイプライン１６１２）、ビデオフロントエンドユニット、スレッドスポナー（spawner）及びスレッドディスパッチャ、並びに統合リターンバッファ（例えば、後述される図１７の統合リターンバッファ１７１８）を管理する統合リターンバッファマネージャを含んでよい。

固定機能ブロック１５３０はまた、グラフィクスＳｏＣインターフェース１５３２、グラフィクスマイクロコントローラ１５３３、及びメディアパイプライン１５３４を含んでよい。グラフィクスＳｏＣインターフェース１５３２は、グラフィクスプロセッサコア１５１９とＳｏＣ集積回路内の他のプロセッサとの間のインターフェースを提供する。グラフィクスマイクロコントローラ１５３３は、スレッドディスパッチ、スケジューリング、及びプリエンプションを含むグラフィクスプロセッサコア１５１９の様々な機能を管理するよう構成可能であるプログラム可能なサブプロセッサである。メディアパイプライン１５３４（例えば、図１６Ａ及び図１７のメディアパイプライン１６１６）は、画像及びビデオデータを含むマルチメディアデータの復号化、符号化、前処理、及び／又は後処理を助けるロジックを含む。メディアパイプライン１５３４は、サブコア１５２１Ａ～１５２１Ｆ内の計算又はサンプリングロジックへのリクエストによりメディア操作を実装する。

ＳｏＣインターフェース１５３２は、汎用アプリケーションプロセッサコア（例えば、ＣＰＵ）、かつ／あるいは、共有ラストレベルキャッシュメモリなどのメモリヒエラルキ要素、システムＲＡＭ、及び／又は埋め込みオンチップ若しくはオンパッケージＤＲＡＭを含むＳｏＣ内の他のコンポーネントと通信することをグラフィクスプロセッサコア１５１９に可能にする。ＳｏＣインターフェース１５３２はまた、カメライメージングパイプラインなどのＳｏＣ内の固定機能デバイスとの通信も可能にすることができ、グラフィクスプロセッサコア１５１９とＳｏＣ内のＣＰＵとの間で共有され得るグローバルメモリアトミックの使用を可能にしかつ／あるいはそれを実装する。ＳｏＣインターフェース１５３２はまた、グラフィクスプロセッサコア１５１９のための電力管理制御を実装し、グラフィクスプロセッサコア１５１９のクロックドメインとＳｏＣ内の他のクロックドメインとの間のインターフェースを可能にすることもできる。任意に、ＳｏＣインターフェース１５３２は、グラフィクスプロセッサ内の１つ以上のグラフィクスコアの夫々へコマンド及び命令を供給するよう構成されるコマンドストリーマ及びグローバルスレッドディスパッチャからのコマンドバッファの受信を可能にする。コマンド及び命令は、メディア操作が実行されるべき場合にメディアパイプライン１５３４に、あるいは、グラフィクス処理動作が実行されるべきである場合にジオメトリ及び固定機能パイプライン（例えば、ジオメトリ及び固定機能パイプライン１５３１、ジオメトリ及び固定機能パイプライン１５３７）にディスパッチされ得る。

グラフィクスマイクロコントローラ１５３３は、グラフィクスプロセッサコア１５１９のための様々なスケジューリング及び管理タスクを実行するよう構成され得る。１つの構成では、グラフィクスマイクロコントローラ１５３３は、例えば、サブコア１５２１Ａ～１５２１Ｆ内の実行ユニット（execution unit，ＥＵ）アレイ１５２２Ａ～１５２２Ｆ、１５２４Ａ～１５２４Ｆ内の様々なグラフィクス並列エンジンに対してグラフィクス及び／又は計算ワークロードスケーリングを実行することができる。このワークロードスケジューリングでは、グラフィクスプロセッサコア１５１９を含むＳｏＣのＣＰＵコアで実行されるホストソフトウェアは、適切なグラフィクスエンジンでスケーリング動作を呼び出す複数のグラフィックプロセッサドアベルのうちの１つにワークロードを発行することができる。スケジューリング動作は、次にどのワークロードを実行すべきかを決定すること、コマンドストリーマにワークロードを発行すること、エンジンで実行されている既存のワークロードをプリエンプトとすること、ワークロードの進捗を管理すること、及びワークロードが完了する場合にホストソフトウェアに通知することを含む。任意に、グラフィクスマイクロコントローラ１５３３はまた、グラフィクスプロセッサコア１５１９の低電力又はアイドル状態を促進することができ、グラフィクスプロセッサコア１５１９に、システム上のオペレーティングシステム及び／又はグラフィクスドライバソフトウェアから独立して低電力状態遷移にわたってグラフィクスプロセッサコア１５１９内のレジスタにセーブ及びリストアする能力をもたらす。

グラフィクスプロセッサコア１５１９は、表されているサブコア１５２１Ａ～１５２１Ｆよりも多い又は少ない、最大Ｎ個までモジュールサブコアを有してよい。Ｎ個のサブコアの各組について、グラフィクスプロセッサコア１５１９はまた、様々なグラフィクス及び計算処理動作を加速させるよう、共有機能ロジック１５３５、共有及び／又はキャッシュメモリ１５３６、ジオメトリ／固定機能パイプライン１５３７、並びに追加の固定機能ロジック１５３８を含むこともできる。共有機能ロジック１５３５は、グラフィクスプロセッサコア１５１９内の各Ｎ個のサブコアによって共有され得る図１７の共有機能ロジック１７２０に関連したロジックユニット（例えば、サンプラ、マス、及び／又はインタースレッド通信ロジック）を含むことができる。共有及び／又はキャッシュメモリ１５３６は、グラフィクスプロセッサコア１５１９内のＮ個のサブコア１５２１Ａ～１５２１Ｆの組のためのラストレベルキャッシュであることができ、複数のサブコアによってアクセス可能である共有メモリとしても働くことができる。ジオメトリ／固定機能パイプライン１５３７は、固定機能ブロック１５３０内のジオメトリ／固定機能パイプライン１５３１の代わりに含まれ得、同じ又は類似したロジックユニットを含むことができる。

グラフィクスプロセッサコア１５１９は、グラフィクスプロセッサコア１５１９によって使用される様々な固定機能アクセラレーションロジックを含むことができる追加の固定機能ロジック１５３８を含んでよい。任意に、追加の固定機能ロジック１５３８は、ポジション・オンリー・シェーディング（position only shading）で使用される追加のジオメトリパイプラインを含む。ポジション・オンリー・シェーディングでは、２つのジオメトリパイプラインが存在し、ジオメトリ／固定機能パイプライン１５３８、１５３１内のフルジオメトリパイプラインと、追加の固定機能ロジック１５３８内に含まれ得る追加のジオメトリパイプラインであるカルパイプラインとである。例えば、カルパイプラインは、フルジオメトリパイプラインの縮小版であってよい。フルパイプライン及びカルパイプラインは、同じアプリケーションの異なるインスタンスを実行することができ、各インスタンスは、別個のコンテキストを有する。ポジション・オンリー・シェーディングは、破棄された三角形（discarded triangles）の長いカル実行（long cull run）を隠すことができ、いくつかのインスタンスにおいては、シェーディングがより早く完了されるのを可能にしている。例えば、追加的な固定機能ロジック１５３８内のカルパイプラインロジックは、主アプリケーションと並列にポジションシェーダを実行することができ、そして、一般的に、フルパイプラインよりも速く、決定的な結果（critical result）を生成する。ピクセルのフレームバッファへのラスタライゼーション及びレンダリングを実行することなく、カルパイプラインは、頂点の位置属性だけをフェッチし、そして、シェーディングするからである。カルパイプラインは、生成された決定的な結果を使用して、それらの三角形がカリングされるかどうかに関係なく、全ての三角形についての可視性（visibility）情報を計算することができる。フルパイプライン（このインスタンスにおいては、リプレイ（replay）パイプラインと呼ばれ得る）は、最終的にラスタライゼーションフェーズへ渡される可視的な三角形だけをシェーディングするために、カリングされた三角形をスキップように可視性情報を消費することができる。

任意に、追加の固定機能ロジック１５３８はまた、機械学習訓練又は推論のための最適化を含む実装のために、固定機能行列乗算などの機械学習アクセラレーションロジックも含むことができる。

各グラフィクスサブコア１５２１Ａ～１５２１Ｆ内には、グラフィクスパイプライン、メディアパイプライン、又はシェーダプログラムによるリクエストに応答してグラフィクス、メディア、及び計算操作を実行するために使用され得る実行リソースの組が含まれる。グラフィクスサブコア１５２１Ａ～１５２１Ｆは、複数のＥＵアレイ１５２２Ａ～１５２２Ｆ、１５２４Ａ～１５２４Ｆ、スレッドディスパッチ及びインタースレッド通信（ＴＤ／ＩＣ）ロジック１５２３Ａ～１５２３Ｆ、３Ｄ（例えば、テクスチャ）サンプラ１５２５Ａ～１５２５Ｆ、メディアサンプラ１５０６Ａ～１５０６Ｆ、シェーダプロセッサ１５２７Ａ～１５２７Ｆ、及び共有ローカルメモリ（ＳＬＭ）１５２８Ａ～１５２８Ｆを含む。ＥＵアレイ１５２２Ａ～１５２２Ｆ、１５２４Ａ～１５２４Ｆは夫々、グラフィクス、メディア、計算シェーダプログラムを含むグラフィクス、メディア、又は計算操作のサービスにおいて、浮動小数点及び整数／固定小数点ロジック演算を実行可能な汎用グラフィクス処理ユニットである複数の実行ユニットを含む。ＴＤ／ＩＣロジック１５２３Ａ～１５２３Ｆは、サブコア内の実行ユニットについてローカルスレッドディスパッチ及びスレッド制御動作を実行し、サブコアの実行ユニットで実行されるスレッド間の通信を促進する。３Ｄサンプラ１５２５Ａ～１５２５Ｆは、テクスチャ又は他の３Ｄグラフィクス関連データをメモリ内に読み込むことができる。３Ｄサンプラは、所与のテクスチャに関連したテクスチャフォーマット及び構成されたサンプル状態に基づいて異なるようにテクスチャデータを読み込むことができる。メディアサンプラ１５０６Ａ～１５０６Ｆは、メディアデータに関連したタイプ及びフォーマットに基づいて同様の読み込み動作を実行することができる。例えば、各グラフィクスサブコア１５２１Ａ～１５２１Ｆは、代替的に、統合された３Ｄ及びメディアサンプラを含むことができる。サブコア１５２１Ａ～１５２１Ｆの夫々の中の実行ユニットで実行されるスレッドは、スレッドグループ内で実行されているスレッドがオンチップメモリの共通プールを用いて実行されることを可能にするよう、各サブコア内の共有ローカルメモリ１５２８Ａ～１５２８Ｆを利用することができる。

図１５Ｃは、本願で記載されている実施形態に従うグラフィクスプロセッサ、例えば、グラフィクスプロセッサ１５０８、及び／又は計算アクセラレータとして構成され得る汎用グラフィクス処理ユニット（ＧＰＧＰＵ）１５７０のブロック図である。ＧＰＧＰＵ１５７０は、１つ以上のシステム及び／又はメモリバスを介してホストプロセッサ（例えば、１つ以上のＣＰＵ１５４６）及びメモリ１５７１、１５７２と相互接続することができる。メモリ１５７１は、１つ以上のＣＰＵ１５４６と共有され得るシステムメモリであってよく、一方、メモリ１５７２は、ＧＰＧＰＵ１５７０に専用であるデバイスメモリである。例えば、ＧＰＧＰＵ１５７０内のコンポーネントとデバイスメモリ１５７２とは、１つ以上のＣＰＵ１５４６にアクセス可能であるメモリアドレスにマッピングされてよい。メモリ１５７１及び１５７２へのアクセスは、メモリコントローラ１５６８を介して促進されてよい。メモリコントローラ１５６８は、内部ダイレクトメモリアクセス（ＤＭＡ）コントローラ１５６９を含んでよく、あるいは、さもなければＤＭＡコントローラによって実行されることになる動作を実行するロジックを含むことができる。

ＧＰＧＰＵ１５７０は、Ｌ２キャッシュ１５５３、Ｌ１キャッシュ１５５４、命令キャッシュ１５５５、及び共有メモリ１５５６を含む複数のキャッシュメモリを含み、それらの少なくとも一部は、キャッシュメモリとしてパーティション化されてもよい。ＧＰＧＰＵ１５７０はまた、複数の計算ユニット１５６０Ａ～１５６０Ｎも含む。各計算ユニット１５６０Ａ～１５６０Ｎは、ベクトルレジスタ１５６１、スカラーレジスタ１５６２、ベクトルロジックユニット１５６３、及びスカラーロジックユニット１５６４の組を含む。計算ユニット１５６０Ａ～１５６０Ｎはまた、ローカル共有メモリ１５６５及びプログラムカウンタ１５６６も含むことができる。計算ユニット１５６０Ａ～１５６０Ｎは、ＧＰＧＰＵ１５７０で実行されるカーネル又はシェーダプログラムの実行中に変化することがないデータである定数データを記憶するために使用され得る定数キャッシュ１５６７と結合することができる。定数キャッシュ１５６７は、スカラーデータキャッシュであってよく、キャッシュされたデータは、スカラーレジスタ１５６２内に直接にフェッチされ得る。

動作中、１つ以上のＣＰＵ１５４６は、アクセス可能なアドレス空間にマッピングされているＧＰＧＰＵ１５７０のレジスタ又はメモリにコマンドを書き込むことができる。コマンドプロセッサ１５５７は、レジスタ又はメモリからコマンドを読み出し、それらのコマンドがＧＰＧＰＵ１５７０内でどのように処理されることになるかを決定することができる。次いで、スレッドディスパッチャ１５５８が、それらのコマンドを実行する計算ユニット１５６０Ａ～１５６０Ｎにスレッドをディスパッチするために使用され得る。各計算ユニット１５６０Ａ～１５６０Ｎは、条件付きの計算のために独立して構成可能であり、計算の結果をメモリへ条件付きで出力することができる。コマンドプロセッサ１５５７は、発行されたコマンドが完了するときに、１つ以上のＣＰＵ１５４６に割り込むことができる。

図１６Ａ～１６Ｃは、本願で記載されている実施形態によって、例えば、図１５Ａ～１５Ｃに従って提供される更なるグラフィクスプロセッサ及び計算アクセラレータアーキテクチャのブロック図を表す。本願のいずれかの他の図の要素と同じ又は類似した名称を有している図１６Ａ～１６Ｃの要素は、他の図で見られるのと同じ要素について記載しており、本願のどこかで記載されているものと同じように動作又は機能することができ、同じコンポーネントを有することができ、そして、他のエンティティへリンクされ得るが、そのように限定されない。

図１６Ａは、グラフィクスプロセッサ１６００のブロック図であり、グラフィクスプロセッサ１６００は、別個のグラフィクス処理ユニットであってよく、あるいは、複数の処理コア、又はメモリデバイス若しくはネットワークインターフェースを含むがこれに限られない他の半導体デバイスと一体化されたグラフィクスプロセッサであってもよい。グラフィクスプロセッサ１６００は、グラフィクスプロセッサ１５０８の変形であってよく、グラフィクスプロセッサ１５０８の代わりに使用されてよい。従って、本願でのプロセッサ１５０８と組み合わされる如何なる特徴も、プロセッサ１６００との対応する組み合わせを開示するが、そのように限定されない。グラフィクスプロセッサは、メモリマップドＩ／Ｏインターフェースを介してグラフィクスプロセッサ上のレジスタと、及びプロセッサメモリ内に置かれたコマンドと通信してよい。グラフィクスプロセッサ１６００は、メモリにアクセスするためのメモリインターフェース１６１４を含んでよい。メモリインターフェース１６１４は、ローカルメモリ、ひとついじょうの内部キャッシュ、１つ以上の共有外部キャッシュ、及び／又はシステムメモリへのインターフェースであることができる。

任意に、グラフィクスプロセッサ１６００はまた、表示デバイス１６１８への表示出力データを駆動するディスプレイコントローラ１６０２も含む。ディスプレイコントローラ１６０２は、ビデオの複数のレイヤ又はユーザインターフェース要素の表示及び合成のための１つ以上のオーバーレイプレーン用のハードウェアを含む。表示デバイス１６１８は、内蔵又は外付け表示デバイスであることができる。一実施形態において、表示デバイス１６１８は、仮想現実（ＶＲ）表示デバイス又は拡張現実（ＡＲ）表示デバイスなどのヘッドマウント型表示デバイスである。グラフィクスプロセッサ１６００は、ＭＰＥＧ－２などのＭＰＥＧ（Moving Picture Experts Group）フォーマット、Ｈ．２６４／ＭＰＥＧ－４ＡＶＣなどのＡＶＣ（Advanced Video Coding）フォーマット、Ｈ．２６５／ＨＥＶＣ、ＡＯＭｅｄｉａ（Alliance for Open Media）ＶＰ８、ＶＰ９、及びＳＭＰＴＥ（Society of Motion Picture & Television Engineers）４２１Ｍ／ＶＣ－１、並びにＪＰＥＧなどのＪＰＥＧ（Joint Photographic Experts Group）フォーマット及びＭＪＰＥＧ（Motion JPEG）フォーマットを含むがこれらに限られない１つ以上のメディア符号化フォーマットへ、又はそのようなフォーマットから、又はそれらのフォーマットの間でメディアを符号化、復号化、又はトランスコードするビデオコーデックエンジン１６０６を含んでよい。

グラフィクスプロセッサ１６００は、例えば、ビット境界ブロック転送（bit-boundary block transfer）を含む２次元（２Ｄ）のラスタライザ動作を実行するブロック画像転送（ＢＬＩＴ）エンジン１６０４を含んでよい。しかし、代替的に、２Ｄグラフィクス操作は、グラフィクス処理エンジン（ＧＰＥ）１６１０の１つ以上のコンポーネントを用いて実行されてよい。いくつかの実施形態において、ＧＰＥ１６１０は、３次元（３Ｄ）グラフィクス操作及びメディア操作を含むグラフィクス操作を実行する計算エンジンである。

ＧＰＥ１６１０は、３Ｄプリミティブ形状（例えば、長方形、三角形、など）に従って動作する処理機能を使用した３次元画像及びシーンのレンダリングなどの３Ｄ操作を実行する３Ｄパイプライン１６１２を含んでよい。３Ｄパイプライン１６１２は、要素内で様々なタスクを実行しかつ／あるいは実行スレッドを３Ｄ／メディアサブシステム１６１５に対して生成するプログラム可能な固定された機能を含む。３Ｄパイプライン１６１２が、メディア操作を実行するために使用され得る一方で、ＧＰＥ１６１０の実施形態は、ビデオ後処理及び画像エンハンスメントなどのメディア操作を実行するために特に使用されるメディアパイプライン１６１６も含む。

メディアパイプライン１６１６は、ビデオコーデックエンジン１６０６の代わりに、又はその代理として、ビデオ復号化アクセラレーション、ビデオインターレース解除、及びビデオ符号化アクセラレーションなどの１つ以上の特殊化したメディア操作を実行する固定された機能又はプログラム可能なロジックユニットを含んでよい。メディアパイプライン１６１６は、３Ｄ／メディアサブシステム１６１５で実行されるスレッドを生成するスレッド生成ユニットを更に含んでよい。生成されたスレッドは、３Ｄ／メディアサブシステム１６１５に含まれる１つ以上のグラフィクス実行ユニットでのメディア操作のための計算を実行する。

３Ｄ／メディアサブシステム１６１５は、３Ｄパイプライン１６１２及びメディアパイプライン１６１６によって生成されたスレッドを実行するためのロジックを含んでよい。これらのパイプラインは、スレッド実行要求を３Ｄ／メディアサブシステム１６１５へ送ってよい。３Ｄ／メディアサブシステム１６１５は、様々な要求を調停して、利用可能なスレッド実行リソースにディスパッチするスレッドディスパッチロジックを含む。実行リソースは、３Ｄ及びメディアスレッドを処理するグラフィクス実行ユニットのアレイを含む。３Ｄ／メディアサブシステム１６１５は、スレッド命令及びデータのための１つ以上の内部キャッシュを含んでよい。更には、３Ｄ／メディアサブシステム１６１５はまた、スレッド間でデータを共有しかつ出力データを記憶するために、レジスタ及びアドレス可能メモリを含む共有メモリを含んでもよい。

図１６Ｂは、グラフィクスプロセッサ１６００の変形であるグラフィクスプロセッサ１６２０を表し、グラフィクスプロセッサ１６００の代わりに使用されてよく、その逆もしかりである。従って、本願でのプロセッサ１６００と組み合わされる如何なる特徴も、プロセッサ１６０２との対応する組み合わせを開示するが、そのように限定されない。グラフィクスプロセッサ１６２０は、本願で記載されている実施形態に従って、タイル上のアーキテクチャを有している。グラフィクスプロセッサ１６２０は、グラフィクスエンジンタイル１６１０Ａ～１６１０Ｄ内で図１６Ａのグラフィクス処理エンジン１６１０の複数のインスタンスを有しているグラフィクス処理エンジンクラスタ１６２２を含んでよい。各グラフィクスエンジンタイル１６１０Ａ～１６１０Ｄは、インターコネクト１６２３Ａ～１６２３Ｆの組を介して相互接続され得る。各グラフィクスエンジンタイル１６１０Ａ～１６１０Ｄはまた、メモリインターコネクト１６２５Ａ～１６２５Ｄを介してメモリモジュール又はメモリデバイス１６２６Ａ～１６２６Ｄへも接続され得る。メモリデバイス１６２６Ａ～１６２６Ｄは、如何なるグラフィクスメモリ技術も使用することができる。例えば、メモリデバイス１６２６Ａ～１６２６Ｄは、グラフィクスダブルデータレート（ＧＤＤＲ）メモリであってよい。メモリデバイス１６２６Ａ～１６２６Ｄは、それらの各々のグラフィクスエンジンタイル１６１０Ａ～１６１０Ｄとともにオンダイであることができる高バンド幅メモリ（ＨＢＭ）モジュールであってよい。メモリデバイス１６２６Ａ～１６２６Ｄは、それらの各々のグラフィクスエンジンタイル１６１０Ａ～１６１０Ｄの上にスタックされ得る積層型メモリデバイスであってもよい。各グラフィクスエンジンタイル１６１０Ａ～１６１０Ｄ及び関連するメモリデバイス１６２６Ａ～１６２６Ｄは、図２４Ｂ～２４Ｄで更に詳細に説明されるように、ベースダイ又はベース基板に固着されている別個のチップレット上に存在してよい。

グラフィクスプロセッサ１６２０は、メモリデバイス１６２６Ａ～１６２６Ｄが関連するグラフィクスエンジンタイル１６１０Ａ～１６１０Ｄと結合されている非一様メモリアクセス（ＮＵＭＡ）で構成されてよい。所与のメモリデバイスは、それが直接に接続されているタイル以外のグラフィクスエンジンタイルによってアクセスされてよい。しかし、メモリデバイス１６２６Ａ～１６２６Ｄへのアクセスレイテンシは、ローカルタイルにアクセスするときに最も低くなる。一実施形態において、キャッシュコヒーレントＮＵＭＡ（ｃｃＮＵＭＡ）システムが有効にされてよく、これは、タイルインターコネクト１６２３Ａ～１６２３Ｆを使用して、グラフィクスエンジンタイル１６１０Ａ～１６１０Ｄ内のキャッシュコントローラ間の通信が、１つよりも多いキャッシュが同じメモリ位置を記憶するときに、一貫したメモリ画像を保持することを可能にする。

グラフィクス処理エンジンクラスタ１６２２は、オンチップ又はオンパッケージのファブリックインターコネクト１６２４と接続することができる。ファブリックインターコネクト１６２４は、グラフィクスエンジンタイル１６１０Ａ～１６１０Ｄと、ビデオコーデック１６０６及び１つ以上のコピーエンジン１６０４などのコンポーネントとの間の通信を可能にすることができる。コピーエンジン１６０４は、メモリデバイス１６２６Ａ～１６２６Ｄ及びグラフィクスプロセッサ１６２０の外にあるメモリ（例えば、システムメモリ）からの、それらへの、及びそれらの間のデータの移動のために使用され得る。ファブリックインターコネクト１６２４はまた、グラフィクスエンジンタイル１６１０Ａ～１６１０Ｄを相互接続するために使用され得る。グラフィクスプロセッサ１６２０は、外部表示デバイス１６１８との接続を可能にするディスプレイコントローラ１６０２を任意に含んでもよい。グラフィクスプロセッサ１６２０はまた、グラフィクス又は計算アクセラレータとしても構成されてよい。アクセラレータ構成では、ディスプレイコントローラ１６０２及び表示デバイス１６１８は、省略されてもよい。

グラフィクスプロセッサ１６２０は、ホストインターフェース１６２８を介してホストシステムへ接続することができる。ホストインターフェース１６２８は、グラフィクスプロセッサ１６２０、システムメモリ、及び／又は他のシステムコンポーネントの間の通信を可能にすることができる。ホストインターフェース１６２８は、例えば、ＰＣＩエクスプレスバス又は他のタイプのホストシステムインターフェースであることができる。

図１６Ｃは、本願で記載されている実施形態に従う計算アクセラレータ１６３０を表す。計算アクセラレータ１６３０は、図１６Ｂのグラフィクス処理エンジン１６２０とのアーキテクチャ類似性を含むことができ、計算アクセラレーションのために最適化されている。計算エンジンクラスタ１６３２は、並列又はベクトルベースの汎用計算動作のために最適化されている実行ユニットを含む計算エンジンタイル１６４０Ａ～１６４０Ｄの組を含むことができる。計算エンジンタイル１６４０Ａ～１６４０Ｄは、固定機能グラフィクス処理ロジックを含まなくてもよいが、いくつかの実施形態において、計算エンジンタイル１６４０Ａ～１６４０Ｄのうちの１つ以上は、メディアアクセラレーションを実行するためのロジックを含むことができる。計算エンジンタイル１６４０Ａ～１６４０Ｄは、メモリインターコネクト１６２５Ａ～１６２５Ｄを介してメモリデバイス１６２６Ａ～１６２６Ｄへ接続することができる。メモリデバイス１６２６Ａ～１６２６Ｄ及びメモリインターコネクト１６２５Ａ～１６２５Ｄは、グラフィクスプロセッサ１６２０で見られるような同様の技術であってよく、あるいは、異なることができる。グラフィクス計算エンジンタイル１６４０Ａ～１６４０Ｄはまた、タイルインターコネクト１６２３Ａ～１６２３Ｆの組を介して相互接続され得、ファブリックインターコネクト１６２４と接続されかつ／あるいはそれによって相互接続されてもよい。一実施形態において、計算アクセラレータ１６３０は、デバイスワイドキャッシュとして構成され得るラージＬ３キャッシュ１６３６を含む。計算アクセラレータ１６３０はまた、図１６Ｂのグラフィクスプロセッサ１６２０と同様にしてホストインターフェース１６２８を介してホストプロセッサ及びメモリへ接続することもできる。

［グラフィクス処理エンジン］
図１７は、いくつかの実施形態に従うグラフィクスプロセッサのグラフィクス処理エンジン１７１０のブロック図である。グラフィクス処理エンジン（ＧＰＥ）１７１０は、図１６Ａに示されたＧＰＥ１６１０の変形であってよく、図１６Ｂのグラフィクスエンジンタイル１６１０Ａ～１６１０Ｄを表してもよい。本願のどこかの図の要素と同じ又は類似した名称を持っている図１７の要素は、他の図で見られるのと同じ要素について記載しており、本願のどこかで記載されているのと同じように動作又は機能することができ、同じコンポーネントを有することができ、他のエンティティへリンクされ得るが、そのように限定されない。例えば、図１６Ａの３Ｄパイプライン１６１２及びメディアパイプライン１６１６は、図１７でも表されている。メディアパイプライン１６１６は、ＧＰＥ１７１０のいくつかの実施形態では任意であり、ＧＰＥ１７１０内に明示的に含まれてなくてもよい。例えば、少なくとも１つの実施形態では、別個のメディア及び／又は画像プロセッサがＧＰＥ１７１０へ結合される。

ＧＰＥ１７１０は、コマンドストリームを３Ｄパイプライン１６１２及び／又はメディアパイプライン１６１６へ供給するコマンドストリーマ１７０３と結合するか、又はそれを含んでよい。代替的に、又は追加的に、コマンドストリーム１７０３は、統合リターンバッファ１７１８へ直接に結合されてよく、統合リターンバッファ１７１８は、グラフィクスコアアレイ１７１４へ通信可能に結合されてよい。任意に、コマンドストリーマ１７０３は、システムメモリ、又は内部キャッシュメモリ及び共有キャッシュメモリのうちの１つ以上であることができるメモリと結合される。コマンドストリーマ１７０３は、メモリからコマンドを受け取ってよく、コマンドを３Ｄパイプライン１６１２及び／又はメディアパイプライン１６１６へ送る。コマンドは、３Ｄパイプライン１６１２及びメディアパイプライン１６１６に対するコマンドを記憶するリングバッファからフェッチされた指令である。リングバッファは、複数のコマンドのバッチを記憶しているバッチコマンドバッファを更に含むことができる。３Ｄパイプライン１６１２に対するコマンドはまた、例えば、３Ｄパイプライン１６１２に対する頂点及びジオメトリデータ、及び／又はメディアパイプライン１６１６のための画像データ及びメモリオブジェクトなどの、しかしこれらに限られない、メモリに記憶されているデータへの参照を含むこともできる。３Ｄパイプライン１６１２及びメディアパイプライン１６１６は、各々のパイプライン内のロジックにより動作を実行することによって、あるいは、１つ以上の実行スレッドをグラフィクスコアアレイ１７１４にディスパッチすることによって、コマンド及びデータを処理する。グラフィクスコアアレイ１７１４は、グラフィクスコア（例えば、グラフィクスコア１７１５Ａ、グラフィクスコア１７１５Ｂ）の１つ以上のブロックを含んでよく、各ブロックは、１つ以上のグラフィクスコアを含む。各グラフィクスコアは、グラフィクス及び計算操作を実行する汎用及びグラフィクス特有実行ロジックと、固定機能テクスチャ処理及び／又は機械学習及び人工知能アクセラレーションロジックとを含むグラフィクス実行リソースの組を含む。

様々な実施形態において、３Ｄパイプライン１６１２は、命令を処理しかつ実行スレッドをグラフィクスコアアレイ１７１４にディスパッチすることによって、頂点シェーダ、ジオメトリシェーダ、ピクセルシェーダ、フラグメントシェーダ、計算シェーダ、又は他のシェーダプログラムなどの１つ以上のシェーダプログラムを処理する固定機能及びプログラム可能ロジックを含むことができる。グラフィクスコアアレイ１７１４は、これらのシェーダプログラムを処理する際に使用される実行リソースの統合されたブロックを提供する。グラフィクスコアアレイ１７１４のグラフィクスコア１７１５Ａ～１７１５Ｂ内の多目的実行ロジック（例えば、実行ユニット）は、様々な３ＤＡＰＩシェーダ言語のサポートを含み、複数のシェーダに関連した複数の同時実行スレッドを実行することができる。

グラフィクスコアアレイ１７１４は、ビデオ及び／又は画像処理などのメディア機能を実行する実行ロジックを含んでよい。実行ユニットは、グラフィクス処理動作に加えて、並列な汎用計算動作を実行するようプログラム可能である汎用ロジックを含んでよい。汎用ロジックは、図１４のプロセッサコア１４０７又は図１５Ａのコア１５０２Ａ～１５０２Ｎ内の汎用ロジックと並行して又はそれと連動して処理動作を実行することができる。

グラフィクスコアアレイ１７１４でのスレッド実行によって生成された出力データは、統合リターンバッファ（unified return buffer，ＵＲＢ）１７１８内のメモリへデータを出力することができる。ＵＲＢ１７１８は、複数のスレッドのデータを記憶することができる。ＵＲＢ１７１８は、グラフィクスコアアレイ１７１４で実行される異なるスレッド間データを送るために使用されてよい。ＵＲＢ１７１８は、グラフィクスコアアレイ１７１４及び共有機能ロジック１７２０内の固定機能ロジックでのスレッド間の同期化のために更に使用されてよい。

任意に、グラフィクスコアアレイ１７１４は、アレイが、ＧＰＥ１７１０の目標電力及び性能レベルに基づいて可変な数の実行ユニットを夫々が有する可変な数のグラフィクスコアを含むように、スケーリング可能であってよい。実行リソースは、実行リソースが必要に応じて有効又は無効にされ得るように、動的にスケーリング可能であってよい。

グラフィクスコアアレイ１７１４は、グラフィクスコアアレイ内のグラフィクスコア間で共有される複数のリソースを含む共有機能ロジック１７２０と結合する。共有機能ロジック１７２０内の共有機能は、特殊化した補助機能をグラフィクスコアアレイ１７１４にもたらすハードウェアロジックユニットである。様々な実施形態において、共有機能ロジック１７２０は、サンプラ１７２１、マス（math）１７２２、及びインタースレッド通信（ＩＴＣ）１７２３ロジックを含むが、これらに限られない。更に、共有機能ロジック１７２０内の１つ以上のキャッシュ１７２５が実装されてもよい。

共有機能は、少なくとも、所与の特殊化した機能に対する需要がグラフィクスコアアレイ１７１４内に含めるには不十分である場合に、実装される。代わりに、この特殊化した機能の単一のインスタンス化が、共有機能ロジック１７２０でスタンドアロンのエンティティとして実装され、グラフィクスコアアレイ１７１４内の実行リソース間で共有される。グラフィクスコアアレイ１７１４の間で共有され、グラフィクスコアアレイ１７１４内に含まれる機能の正確な組は、実施形態ごとに様々である。グラフィクスコアアレイ１７１４によって広範に使用される共有機能ロジック１７２０内の特定の共有機能は、グラフィクスコアアレイ１７１４内の共有機能ロジック１７１６内に含まれてもよい。任意に、グラフィクスコアアレイ１７１４内の共有機能ロジック１７１６は、共有機能ロジック１７２０内のいくつか又は全てのロジックを含むことができる。共有機能ロジック１７２０内の全てのロジック要素は、グラフィクスコアアレイ１７１４の共有機能ロジック１７１６内に複製されてよい。代替的に、共有機能ロジック１７２０は、グラフィクスコアアレイ１７１４内の共有機能ロジック１７１６を支持して除外される。

［実行ユニット］
図１８Ａ～１８Ｂは、本願で記載されている実施形態に従って、グラフィクスプロセッサコアで用いられる処理要素のアレイを含むスレッド実行ロジック１８００を表す。本願のいずれかの他の図の要素と同じ又は類似した名称を有している図１８Ａ～１８Ｂの要素は、他の図で見られるのと同じ要素について記載しており、本願のどこかで記載されているのと同じように動作又は機能することができ、同じコンポーネントを有することができ、他のエンティティへリンクされ得るが、そのように限定されない。図１８Ａ～１８Ｂは、図１５Ｂの各サブコア１５２１Ａ～１５２１Ｆにより表されたハードウェアロジックを表し得るスレッド実行ロジック１８００の概要を表す。図１８Ａは、汎用グラフィクスプロセッサ内の実行ユニットを表し、一方、図１８Ｂは、計算アクセラレータ内で使用され得る実行ユニットを表す。

図１８Ａに表されているように、スレッド実行ロジック１８００は、シェーダプロセッサ１８０２、スレッドディスパッチャ１８０４、命令キャッシュ１８０６、複数の実行ユニット１８０８Ａ～１８０８Ｎを含むスケーラブル実行ユニットアレイ、サンプラ１８１０、共有ローカルメモリ１８１１、データキャッシュ１８１２、及びデータポート１８１４を含んでよい。任意に、スケーラブル実行ユニットアレイは、ワークロードの計算要件に基づいて１つ以上の実行ユニット（例えば、実行ユニット１８０８Ａ、１８０８Ｂ、１８０８Ｃ、１８０８Ｄ、乃至１８０８Ｎ－１及び１８０８Ｎのいずれか）を有効又は無効にすることによって、動的にスケーリング可能である。含まれているコンポーネントは、コンポーネントの夫々へリンクするインターコネクトファブリックを介して相互接続されてよい。スレッド実行ロジック１８００は、命令キャッシュ１８０６、データポート１８１４、サンプラ１８１０、及び実行ユニット１８０８Ａ～１８０８Ｎのうちの１つ以上を通じて、システムメモリ又はキャッシュメモリなどのメモリへの１つ以上の接続を含んでよい。各実行ユニット（例えば、１８０８Ａ）は、各スレッドについて並行して複数のデータ要素を処理しながら、複数の同時ハードウェアスレッドを実行することができるスタンドアロンのプログラム可能な汎用計算ユニットであってよい。様々な実施形態において、実行ユニット１８０８Ａ～１８０８Ｎのアレイは、任意の数の個別的な実行ユニットを含むようスケーリング可能である。

実行ユニット１８０８Ａ～１８０８Ｎは、シェーダプログラムを実行するために主として使用されてよい。シェーダプロセッサ１８０２は、様々なシェーダプログラムを処理し、シェーダプログラムに関連した実行スレッドをスレッドディスパッチャ１８０４によりディスパッチすることができる。スレッドディスパッチャは、グラフィクス及びメディアパイプラインからのスレッド開始リクエストを調停し、要求されたスレッドを実行ユニット１８０８Ａ～１８０８Ｎの中の１つ以上の実行ユニットでインスタンス化するロジックを含んでよい。例えば、ジオメトリパイプラインは、頂点、テッセレーション、又はジオメトリシェーダを処理のためにスレッド実行ロジックにディスパッチすることができる。任意に、スレッドディスパッチャ１８０４はまた、実行中のシェーダプログラムからのランタイムスレッド生成リクエストを処理することもできる。

実行ユニット１８０８Ａ～１８０８Ｎは、グラフィクスライブラリ（例えば、Ｄｉｒｅｃｔ３Ｄ及びＯｐｅｎＧＬ）からのシェーダプログラムが最小限の変換で実行されるように、多くの標準３Ｄグラフィクスシェーダ命令のネイティブサポートを含む命令セットをサポートしてよい。実行ユニットは、頂点及びジオメトリ処理（例えば、頂点プログラム、ジオメトリプログラム、頂点シェーダ）、ピクセル処理（例えば、ピクセルシェーダ、フラグメントシェーダ）、並びに汎用処理（例えば、計算及びメディアシェーダ）をサポートする。実行ユニット１８０８Ａ～１８０８Ｎの夫々は、多重発行（multi-issue）のＳＩＭＤ（single instruction multiple data）実行が可能であり、マルチスレッド操作は、より高いレイテンシのメモリアクセスに直面して効率的な実行環境を可能にする。各実行ユニット内の各ハードウェアスレッドは、専用の高バンド幅レジスタファイル及び関連する独立したスレッド状態を有する。実行は、整数、単精度及び倍精度浮動小数点演算、ＳＩＭＤ分岐機能、論理演算、超越演算（transcendental operations）、及び他の種々雑多な演算が可能なパイプラインにクロックごとに多重発行する。メモリ又は共有機能の１つからのデータを待つ間、実行ユニット１８０８Ａ～１８０８Ｎ内の従属関係ロジック（dependency logic）は、要求されているデータが返されるまで、待機中のスレッドをスリープさせる。待機中のスレッドがスリープしている間、ハードウェアリソースは、他のスレッドを処理することにあてられてよい。例えば、頂点シェーダ演算に関連した遅延中に、実行ユニットは、ピクセルシェーダ、フラグメントシェーダ、又は図２１に表されている頂点シェーダ２１０７などの別の頂点シェーダを含む他のタイプのシェーダプログラムの演算を実行することができる。様々な実施形態は、ＳＩＭＤの使用の代わりとして、又はＳＩＭＤの使用に加えて、ＳＩＭＴ（single instruction multiple thread）の使用による実行を使用するよう適用可能である。ＳＩＭＤコア又は動作への言及は、ＳＩＭＴにも適用することができ、あるいは、ＳＩＭＴと組み合わされたＳＩＭＤにも適用することができる。

実行ユニット１８０８Ａ～１８０８Ｎの中の各実行ユニットは、データ要素のアレイに作用する。データ要素の数は、命令のための「実行サイズ」又はチャネル数である実行チャネルは、命令内のデータ要素アクセス、マスキング、及びフロー制御のための実行のロジックユニットである。チャネルの数は、特定のグラフィクスプロセッサのための物理的な算術論理ユニット（ＡＬＵ）、浮動小数点ユニット（ＦＰＵ）、又は他のロジックユニット（例えば、テンソルコア、レイトレーシングコア、など）の数とは無関係であり得る。更には、実行ユニット１８０８Ａ～１８０８Ｎは、整数及び浮動小数点データタイプをサポートしてもよい。

実行ユニット命令セットは、ＳＩＭＤ命令を含む。様々なデータ要素が、パックされたデータタイプとしてレジスタに記憶可能であり、実行ユニットは、要素のデータサイズに基づいて様々な要素を処理することになる。例えば、２５６ビットワイドのベクトルに作用する場合に、ベクトルの２５６ビットがレジスタに記憶され、実行ユニットは、４つの別個の１８４ビットのパックされたデータ要素（クワッドワード（Quad-Word，ＱＷ）サイズデータ要素）、８つの別個の３２ビットのパックされたデータ要素（ダブルワード（Double Word，ＤＷ）サイズデータ要素）、１６個の別個の１６ビットのパックされたデータ要素（ワード（Ｗ）サイズデータ要素）、又は３２個の別個の８ビットデータ要素（バイト（Ｂ）サイズデータ要素）としてベクトルに作用する。しかし、異なるベクトル幅及びレジスタサイズが可能である。

任意に、１つ以上の実行ユニットは、融合したＥＵに共通するスレッド制御ロジック（１８０７Ａ～１８０７Ｎ）を有する融合した実行ユニット１８０９Ａ～１８０９Ｎにまとめられ得る。複数のＥＵは、ＥＵグループに融合され得る。融合されたＥＵグループ内の各ＥＵは、別々のＳＩＭＤハードウェアスレッドを実行するよう構成され得る。融合されたＥＵグループ内のＥＵの数は、実施形態により様々であることができる。更には、様々なＳＩＭＤ幅がＥＵごとに実行可能であり、ＳＩＭＤ８、ＳＩＭＤ１６、及びＳＩＭＤ３２があるが、これらに限られない。融合されたグラフィクス実行ユニット１８０９Ａ～１８０９Ｎの夫々は、少なくとも２つの実行ユニットを含む。例えば、融合された実行ユニット１８０９Ａは、第１ＥＵ１８０８Ａと、第２ＥＵ１８０８Ｂと、第１ＥＵ１８０８Ａ及び第２ＥＵ１８０８Ｂに共通する第３制御ロジック１８０７Ａとを含む。スレッド制御ロジック１８０７Ａは、融合されたグラフィクス実行ユニット１８０９Ａで実行されるスレッドを制御して、融合された実行ユニット１８０９Ａ～１８０９Ｎ内の各ＥＵが共通命令ポインタレジスタを用いて実行することを可能にする。

１つ以上の内部命令キャッシュ（例えば、１８０６）は、実行ユニットのためのスレッド命令をキャッシュするようスレッド実行ロジック１８００に含まれる。１つ以上のデータキャッシュ（例えば、１８１２）が、スレッド実行中にスレッドデータをキャッシュするようスレッド実行ロジック１８００に含まれてもよい。実行ロジック１８００で実行されるスレッドはまた、共有ローカルメモリ１８１１に、明示的に管理されたデータを格納することもできる。サンプラ１８１０が、３Ｄ操作のためのテクスチャサンプリングと、メディア操作のためのメディアサンプラとを提供するよう含まれてもよい。サンプラ１８１０は、サンプリングされたデータを実行ユニットへ供給する前にサンプリングプロセス中にテクスチャ又はメディアデータを処理する特殊化したテクスチャ又はメディアサンプリング機能を含む。

実行中、グラフィクス及びメディアパイプラインは、スレッド生成及びディスパッチロジックを介してスレッド実行ロジック１８００へスレッド開始リクエストを送る。幾何学オブジェクトのグループが処理されピクセルデータにラスタライズされると、シェーダプロセッサ１８０２内のピクセルプロセッサロジック（例えば、ピクセルシェーダロジック、フラグメントシェーダロジック、など）が、出力情報を更に計算して、結果を出力表面（例えば、カラーバッファ、デプスバッファ、ステンシルバッファ、など）に書き込せるために呼び出される。ピクセルシェーダ又はフラグメントシェーダは、ラスタライズされたオブジェクトにわたって補間されるべきである様々な頂点属性の値を計算してよい。シェーダプロセッサ１８０２内のピクセルプロセッサロジックは、次いで、アプリケーションプログラミングインターフェース（ＡＰＩ）により供給されたピクセル又はフラグメントシェーダプログラムを実行してよい。シェーダプログラムを実行するために、シェーダプロセッサ１８０２は、スレッドディスパッチャ１８０４を介して実行ユニット（例えば、１８０８Ａ）にスレッドをディスパッチする。シェーダプロセッサ１８０２は、サンプラ１８１０内のテクスチャサンプリングロジックを使用して、メモリに記憶されているテクスチャマップ内のテクスチャデータにアクセスしてよい。テクスチャデータ及び入力ジオメトリデータに対する算術演算は、各幾何学フラグメントについてピクセル色データを計算するか、あるいは、更なる処理から１つ以上のピクセルを捨てる。

更には、データポート１８１４は、スレッド実行ロジック１８００が処理されたデータをグラフィクスプロセッサ出力パイプラインで更なる処理のためにメモリへ出力するためのメモリアクセスメカニズムを提供してよい。データポート１８１４は、データポートによるメモリアクセスのためにデータをキャッシュする１つ以上のキャッシュメモリ（例えば、データキャッシュ１８１２）を含むか又はそれへ結合してよい。

任意に、実行ロジック１８００はまた、レイトレーシングアクセラレーション機能を提供することができるレイトレーサ１８０５も含むことができる。レイトレーサ１８０５は、レイ生成のための命令／関数を含むレイトレーシング命令セットをサポートすることができる。レイトレーシング命令セットは、図３Ｃのレイトレーシングコア３７２によってサポートされるレイトレーシング命令セットと同様であっても異なってもよい。

図１８Ｂは、実行ユニット１８０８の例示的な内部詳細を表す。グラフィクス実行ユニット１８０８は、命令フェッチユニット１８３７、汎用レジスタファイルアレイ（ＧＦＲ）１８２４、アーキテクチャレジスタファイルアレイ（ＡＲＦ）１８２６、スレッドアービタ１８２２、送信ユニット１８３０、分岐ユニット１８３２、ＳＩＭＤ浮動小数点ユニット（ＦＰＵ）１８３４、及び任意に、専用の整数ＳＩＭＤＡＬＵ１８３５の組を含むことができる。ＧＲＦ１８２４及びＡＲＦ１８２６は、グラフィクス実行ユニット１８０８でアクティブであり得る各同時ハードウェアスレッドに関連した汎用レジスタファイル及びアーキテクチャレジスタファイルの組を含む。スレッドごとのアーキテクチャ状態は、ＡＲＦ１８２６で保持されてよく、一方、スレッド実行中に使用されるデータは、ＧＲＦ１８２４に格納される。各スレッドの命令ポインタを含む各スレッドの実行状態は、ＡＲＦ１８２６内のスレッド固有レジスタに保持され得る。

グラフィクス実行ユニット１８０８は、同時マルチスレッディング（simultaneous multi-threading，ＳＭＴ）及び微細（fine-grained）インターリーブマルチスレッディング（interleaved multi-threading，ＩＭＴ）の組み合わせであるアーキテクチャを有してよい。アーキテクチャは、同時スレッドの目標数及び実行ユニットごとのレジスタの数に基づいて設計時に微調整され得るモジュール構成を有してよく、実行ユニットリソースは、複数の同時スレッドを実行するために使用されるロジックにわたって分割される。グラフィクス実行ユニット１８０８によって実行される可能性がある論理スレッドの数は、ハードウェアスレッドの数に限定されず、複数の論理スレッドが、各ハードウェアスレッドに割り当てられ得る。

任意に、グラフィクス実行ユニット１８０８は、夫々が異なった命令であってよい複数の命令を同時発行（co-issue）することができる。グラフィクス実行ユニット１８０８のスレッドアービタ１８２２は、命令を送信ユニット１８３０、分岐ユニット１８３２、又はＳＩＭＤＦＰＵ１８３４の１つへ実行のためにディスパッチすることができる。各実行スレッドは、ＧＲＦ１８２４内の１２８個の汎用レジスタにアクセスすることができ、各レジスタは、３２ビットデータ要素のＳＩＭＤ８要素ベクトルとしてアクセス可能な３２バイトを記憶することができる。各実行ユニットスレッドは、ＧＲＦ１８２４内の４Ｋバイトへのアクセスを有してよいが、実施形態はそのように限定されず、より多い又はより少ないレジスタリソースが他の実施形態では設けられてもよい。グラフィクス実行ユニット１８０８は、計算動作を独立して実行することができる７つのハードウェアスレッドにパーティション化されてよいが、実行ユニットごとのスレッドの数も、実施形態により様々であることができ、例えば、最大１６個のハードウェアスレッドがサポートされてよい。７つのスレッドが４Ｋバイトにアクセスし得る例示的な実施形態では、ＧＲＦ１８２４は、全部２８Ｋバイトを記憶することができる。１６個のスレッドが４Ｋバイトにアクセスし得る他の例示的な実施形態では、ＧＲＦ１８２４は、全部で６４Ｋバイトを記憶することができる。実行ユニットごとのスレッドの数は、しかしながら、これらの例に限られず、与えられている数よりも多くても少なくともよい。フレキシブルアドレッシングモードは、有効により幅広のレジスタを構成するために、又はストライド型長方形ブロックデータ構造を表すために、レジスタが一緒にアドレッシングされることを可能にすることができる。

追加的に、又は代替的に、メモリ動作、サンプラ動作、及び他のより長いレイテンシのシステム通信は、メッセージパッシング送信ユニット１８３０によって実行される「送信」命令によりディスパッチされてよい。分岐命令は、ＳＩＭＤダイバージェンス及び結果として起こるコンバージェンスを促進するよう専用の分岐ユニット１８３２にディスパッチされてよい。

グラフィクス実行ユニット１８０８は、浮動小数点演算を実行するよう１つ以上のＳＩＭＤ浮動小数点ユニット（ＦＰＵ）１８３４を含んでよい。ＦＰＵ１８３４はまた、整数計算をサポートしてもよい。いくつかのインスタンスでは、ＦＰＵ１８３４は、最大Ｍ個の３２ビット浮動小数点（若しくは整数）演算をＳＩＭＤ実行するか、あるいは、最大２Ｍ個の１６ビット整数又は１６ビット浮動小数点演算をＳＩＭＤ実行することができる。任意に、ＦＰＵの少なくとも１つは、高スループット超越数学関数及び倍精度１８４ビット浮動小数点をサポートするよう、拡張された数学能力を提供する。８ビット整数ＳＩＭＤＡＬＵ１８３５の組も存在してよく、機械学習計算に関連した動作を実行するよう特に最適化されてよい。

任意に、グラフィクス実行ユニット１８０８の複数のインスタンスのアレイは、グラフィクスサブコアグルーピング（例えば、サブスライス）でインスタンス化され得る。スケーラビリティについては、製品創案者が、サブコアグルーピングごとに実行ユニットの正確な数を選択することができる。実行ユニット１８０８は、複数の実行チャネルにわたって命令を実行してもよい。更には、グラフィクス実行ユニット１８０８で実行される各スレッドは、異なるチャネルで実行されてもよい。

図１９は、更なる例示的な実行ユニット１９００を表す。本願のいずれかの他の図の要素と同じ又は類似した名称を有している図１９の要素は、他の図で見られるのと同じ要素について記載しており、本願のどこかで記載されているのと同じように動作又は機能することができ、同じコンポーネントを有することができ、他のエンティティへリンクされ得るが、そのように限定されない。実行ユニット１９００は、例えば、図１６Ｃで見られた計算エンジンタイル１６４０Ａ～１６４０Ｄで使用される、コンピュータで最適化された実行ユニットであってよいが、そのように限定されない。実行ユニット１９００はまた、図１６Ｂで見られたグラフィクスエンジンタイル１６１０Ａ～１６１０Ｄで使用されてもよい。実行ユニット１９００は、スレッド制御ユニット１９０１、スレッド状態ユニット１９０２、命令フェッチ／プリフェッチユニット１９０３、及び命令復号化ユニット１９０４を含んでよい。実行ユニット１９００は、実行ユニット内のハードウェアスレッドに割り当てられ得るレジスタを記憶するレジスタファイル１９０６を更に含んでもよい。実行ユニット１９００は、送信ユニット１９０７及び分岐ユニット１９０８を更に含んでもよい。送信ユニット１９０７及び分岐ユニット１９０８は、図１８Ｂのグラフィクス実行ユニット１８０８の送信ユニット１８３０及び分岐ユニット１８３２と同様に動作してよい。

実行ユニット１９００はまた、多種多様なタイプの機能ユニットを含む計算ユニット１９１０も含むことができる。計算ユニット１９１０はまた、算術論理ユニットのアレイを含むＡＬＵユニット１９１１を含んでもよい。ＡＬＵユニット１９１１は、６４ビット、３２ビット、及び１６ビット整数及び浮動小数点演算を実行するよう構成され得る。整数及び浮動小数点演算は、同時に実行されてよい。計算ユニット１９１０はまた、シストリックアレイ１９１２及びマスユニット１９１３も含むことができる。シストリックアレイ１９１２は、シストリック方式でベクトル又は他のデータ並列演算を実行するために使用され得るデータ処理ユニットのＷ幅及びＤ深さのネットワークを含む。シストリックアレイ１９１２は、行列内積演算などの行列演算を実行するよう構成され得る。シストリックアレイ１９１２は、８ビット及び４ビット整数演算に加えて、１６ビット浮動小数点演算もサポートしてよい。シストリックアレイ１９１２は、機械学習演算を加速させるよう構成されてよい。シストリックアレイ１９１２は、１６ビット浮動小数点フォーマットであるｂｆｌｏａｔ１６の支援を受けて構成されてよい。マスユニット１９１３は、ＡＬＵユニット１９１１よりも効率的かつ低電力の方法で数学演算の特定のサブセットを実行するために含まれ得る。マスユニット１９１３は、記載されている他の実施形態によって提供されているグラフィクス処理エンジンの共有関数ロジックで見受けられるマスロジック、例えば、図１７の共有関数ロジック１７２０のマスロジック１７２２を含むことができる。マスユニット１９１３は、３２ビット及び６４ビット浮動小数点演算を実行するよう構成され得る。

スレッド制御ユニット１９０１は、実行ユニット内のスレッドの実行を制御するためのロジックを含む。スレッド制御ユニット１９０１は、実行ユニット１９００内のスレッドの実行を開始、停止、及びプリエンプトするスレッド調停ロジックを含むことができる。スレッド状態ユニット１９０２は、実行ユニット１９００で実行されるよう割り当てられたスレッドのスレッド状態を記憶するために使用され得る。実行ユニット１９００内のスレッド状態を記憶することは、それらのスレッドがブロック状態又はアイドル状態にあるときにスレッドの迅速なプリエンプションを可能にする。命令フェッチ／プリフェッチユニット１９０３は、より上位の実行ロジックの命令キャッシュ（例えば、図１８Ａで見られるような命令キャッシュ１８０６）から命令をフェッチすることができる。命令フェッチ／プリフェッチユニット１９０３はまた、現在実行中のスレッドの解析に基づいて、命令が命令キャッシュにロードされるためのプリフェッチリクエストを発行することもできる。命令復号化ユニット１９０４は、計算ユニットによって実行されるべき命令を復号するために使用され得る。命令復号化ユニット１９０４は、複合命令（complex instructions）を、構成するマイクロオペレーションに復号するために、二次デコーダとして使用され得る。

実行ユニット１９００は、実行ユニット１９００で実行されるハードウェアスレッドによって使用され得るレジスタファイル１９０６を更に含む。レジスタファイル１９０６内のレジスタは、実行ユニット１９００の計算ユニット１９１０内で複数の同時スレッドを実行するために使用されるロジックにわたって分割され得る。グラフィクス実行ユニット１９００によって実行され得る論理スレッドの数は、ハードウェアスレッドの数に限定されず、複数の論理スレッドが各ハードウェアスレッドに割り当てられ得る。レジスタファイル１９０６のサイズは、サポートされるハードウェアスレッドの数に基づいて実施形態ごとに様々であることができる。レジスタ・リネーミングは、レジスタをハードウェアスレッドに動的に割り当てるために使用されてよい。

図２０は、グラフィクスプロセッサ命令フォーマット２０００を表すブロック図である。グラフィクスプロセッサ実行ユニットは、複数のフォーマットで命令を有する命令セットをサポートする。実線ボックスは、一般的に実行ユニット命令に含まれているコンポーネントを表し、一方、破線は、任意であるか、あるいは、命令のサブセットにしか含まれないコンポーネントを含む。記載及び例示されている命令フォーマット２０００は、それらが、命令が処理されると命令復号化から生じるマイクロオペレーションとは対照的に、実行ユニットへ供給される命令であるという点で、マクロ命令である。

本願で記載されているグラフィクスプロセッサ実行ユニットは、元々、１２８ビット命令フォーマット２０１０で命令をサポートする。６４ビットコンパクト命令フォーマット２０３０は、選択された命令、命令オプション、及びオペランドの数に基づいて、いくつかの命令について利用可能である。元々の１２８ビット命令フォーマット２０１０は、全ての命令オプションへのアクセスを提供し、一方、６４ビットフォーマット２０３０では、いくつかのオプション及び動作が制限される。６４ビットフォーマット２０３０で利用可能な元々の命令は、実施形態により異なる。命令は、インデックスフィールド２０１３内のインデックス値の組を用いて部分的に圧縮される。実行ユニットハードウェアは、インデックス値に基づいて圧縮テーブルの組を参照し、そして、圧縮テーブル出力を使用して、１２８ビット命令フォーマット２０１０内の元々の命令を再構成する。他のサイズ及びフォーマットの命令が使用可能である。

各フォーマットについて、命令オペコード２０１２は、実行ユニットが実行すべきである動作を定義する。実行ユニットは、各オペランドの複数のデータ要素にわたって並行して各命令を実行する。例えば、加算命令に応答して、実行ユニットは、テクスチャ要素又はピクチャ要素を表す各色チャネルにわたって同時の加算演算を実行する。デフォルトで、実行ユニットは、オペランドの全データチャネルにわたって各命令を実行する。命令制御フィールド２０１４は、チャネル選択（例えば、プレディケーション（predication））及びデータチャネル順序（スウィズル（swizzle））などの特定の実行オプションに対する制御を可能にし得る。１２８ビット命令フォーマット２０１０での命令について、実行サイズフィールド２０１６は、並行して実行されるデータチャネルの数を制限する。実行サイズフィールド２０１６は、６４ビットコンパクト命令フォーマット２０３０では使用されなくてもよい。

いくつかの実行ユニット命令は、２つのソースオペランドｓｒｃ０２０２０及びｓｒｃ１２０２２と、１つのあて先２０１８とを含む最大３つのオペランドを有する。実行ユニットは、あて先の１つが暗示される二重あて先命令をサポートしてよい。データ操作命令は、第３ソースオペランド（例えば、ＳＲＣ２２０２４）を有することができ、命令オペコード２０１２は、ソースオペランドの数を決定する。命令の最後のソースオペランドは、命令とともに渡される即時（例えば、ハードコードされた）値であることができる。

１２８ビット命令フォーマット２０１０は、例えば、直接レジスタアドレッシングモード又は間接レジスタアドレッシングモードが使用されるかどうかを指定するアクセス／アドレスモードフィールド２０２６を含んでよい。直接レジスタアドレッシングモードが使用される場合に、１つ以上のオペランドのレジスタアドレスは、命令内のビットによって直接に供給される。

１２８ビット命令フォーマット２０１０はまた、命令のアドレスモード及び／又はアクセスモードを指定するアクセス／アドレスモードフィールド２０２６を含んでもよい。アクセスモードは、命令についてデータアクセスアライメントを定義するために使用されてよい。１６バイトアライメントアクセスモード及び１バイトアライメントアクセスモードを含むアクセスモードがサポートされてよく、アクセスモードのバイトアライメントは、命令オペランドのアクセスアライメントを決定する。例えば、第１モードにある場合に、命令は、ソース及びあて先オペランドのために、バイトアライメントされたアドレッシングを使用してよく、第２モードにある場合に、命令は、全てのソース及びあて先オペランドのために、１６バイトアライメントされたアドレッシングを使用してよい。

アクセス／アドレスモードフィールド２０２６のアドレスモード部分は、命令が直接又は間接アドレッシングを使用すべきかどうかを決定してよい。直接レジスタアドレッシングモードが使用される場合に、命令内のビットは、１つ以上のオペランドのレジスタアドレスを直接に供給する。間接レジスタアドレッシングモードが使用される場合に、１つ以上のオペランドのレジスタアドレスは、命令内のアドレス中間フィールド及びアドレスレジスタ値に基づいて計算されてよい。

命令は、オペコードでコード２０４０を簡単にするようオペコード２０１２のビットフィールドに基づいてグループ化されてよい。８ビットオペコードについては、ビット４、５及び６は、実行ユニットがオペコードのタイプを決定することを可能にする。示されている正確なオペコードグルーピングは、例にすぎない。移動及び論理オペコードグループ２０４２は、データ移動及び論理命令（例えば、移動（ｍｏｖ）、比較（ｃｍｐ））を含んでよい。移動及び論理グループ２０４２は、５つの最上位ビット（ＭＳＢ）を共有してよく、移動（ｍｏｖ）命令は、００００ｘｘｘｘｂの形を取り、論理命令は、０００１ｘｘｘｘｂの形を取る。フロー制御命令２０４４（例えば、コール、ジャンプ（ｊｍｐ））は、００１０ｘｘｘｘｂ（例えば、０ｘ２０）の形を取る命令を含む。その他の命令グループ２０４６は、００１１ｘｘｘｘｂ（例えば、０ｘ３０）の形を取る同期化命令（例えば、待機、送信）を含む命令の混合を含む。並列演算命令グループ２０４８は、０１００ｘｘｘｘｂ（例えば、０ｘ４０）の形を取るコンポーネントごとの算術命令（例えば、加算、乗算（ｍｕｌ））を含む。並列演算グループ２０４８は、データチャネルにわたって並行して算術演算を実行する。ベクトル演算グループ２０５０は、０１０１ｘｘｘｘｂ（例えば、０ｘ５０）の形を取る算術命令（例えば、ｄｐ４）を含む。ベクトル演算グループは、ベクトルオペランドに対する内積計算などの算術演算を実行する。表されているオペコード復号化２０４０は、一実施形態において、実行ユニットのどの部分が、復号された命令を実行するために使用されるか、を決定するために使用され得る。例えば、いくつかの命令は、シストリックアレイによって実行されることになるシストリック命令として指定されてよい。レイトレーシング命令（図示せず）などの他の命令は、実行ロジックのスライス又はパーティション内のレイトレーシングコア又はレイトレーシングロジックへルーティングされ得る。

［グラフィクスパイプライン］
図２１は、他の実施形態に従うグラフィクスプロセッサ２１００のブロック図である。本願のいずれかの他の図の要素と同じ又は類似した名称を有する図２１の要素は、他の図で見られる同じ要素について記載しており、本願のどこかで記載されているのと同じように動作又は機能することができ、同じコンポーネントを有することができ、他のエンティティへリンクされ得るが、そのように限定されない。

グラフィクスプロセッサ２１００は、ジオメトリパイプライン２１２０、メディアパイプライン２１３０、ディスプレイエンジン２１４０、スレッド実行ロジック２１５０、及びレンダー出力パイプライン２１７０などの種々のタイプのグラフィクスパイプラインパイプラインを含んでよい。グラフィクスプロセッサ２１００は、１つ以上の汎用処理コアを含むマルチコア処理システム内のグラフィクスプロセッサであってよい。グラフィクスプロセッサは、リングインターコネクト２１０２を介してグラフィクスプロセッサ２１００へ発行されたコマンドにより、あるいは、１つ以上の制御レジスタ（図示せず）へのレジスタ書き込みによって、制御されてよい。リングインターコネクト２１０２は、グラフィクスプロセッサ２１００を、他のグラフィクスプロセッサ又は汎用プロセッサなどの他の処理コンポーネントへ結合してよい。リングインターコネクト２１０２からのコマンドは、ジオメトリパイプライン２１２０又はメディアパイプライン２１３０の個々のコンポーネントへ命令を供給するコマンドストリーマ２１０３によって解釈される。

コマンドストリーマ２１０３は、メモリから頂点データを読み出し、コマンドストリーマ２１０３によって供給された頂点処理コマンドを実行する頂点フェッチャ２１０５の動作を指示してよい。頂点フェッチャ２１０５は、頂点データを頂点シェーダ２１０７へ供給してよく、頂点シェーダ２１０７は、各頂点に対して座標空間変換及び明暗操作を実行する。頂点フェッチャ２１０５及び頂点シェーダ２１０７は、スレッドディスパッチャ２１３１を介して実行ユニット２１５２Ａ～２１５２Ｂへ実行スレッドをディスパッチすることによって、頂点処理命令を実行してよい。

実行ユニット２１５２Ａ～２１５２Ｂは、グラフィクス及びメディア操作を実行するための命令セットを有するベクトルプロセッサのアレイであってよい。実行ユニット２１５２Ａ～２１５２Ｂは、各アレイについて特有であるか又はアレイ間で共有される付属のＬ１キャッシュ２１５１を有してよい。キャッシュは、異なるパーティションでデータ及び命令を含むようパーティション化されているデータキャッシュ、命令キャッシュ、単一キャッシュとして構成され得る。

ジオメトリパイプライン２１２０は、３Ｄオブジェクトのハードウェアで加速されたテッセレーションを実行するテッセレーションコンポーネントを含んでよい。プログラム可能なハルシェーダ２１１１は、テッセレーション演算を構成してよい。プログラム可能なドメインシェーダ２１１７は、テッセレーション出力のバックエンド評価を提供してよい。テッセレータ２１１３は、ハルシェーダ２１１１の指示で動作し、そして、ジオメトリパイプライン２１２０への入力として供給される粗幾何学モデルに基づいて詳細な幾何学オブジェクトの組を生成する専用ロジックを含んでよい。更には、テッセレーションが使用されない場合には、テッセレーションコンポーネント（例えば、ハルシェーダ２１１１、テッセレータ２１１３、及びドメインシェーダ２１１７）はバイパスされ得る。

完全な幾何学オブジェクトは、実行ユニット２１５２Ａ～２１５２Ｂにディスパッチされた１つ以上のスレッドを介してジオメトリシェーダ２１１９によって処理されてよく、あるいは、クリッパ２１２９へ直接に進むことができる。ジオメトリシェーダ２１１９は、グラフィクスパイプラインの前の段で見られたように頂点又は頂点のパッチよりもむしろ、幾何学オブジェクト全体に作用してよい。テッセレーションが無効にされる場合には、ジオメトリシェーダ２１１９は頂点シェーダ２１０７から入力を受け取る。ジオメトリシェーダ２１１９は、テッセレーションユニットが無効にされる場合にジオメトリテッセレーションを実行するようジオメトリシェーダプログラムによってプログラム可能であってよい。

ラスタライゼーションの前に、クリッパ２１２９は頂点データを処理する。クリッパ２１２９は、クリッピング及びジオメトリシェーダ機能を備えた固定機能クリッパ又はプログラム可能なクリッパであってよい。レンダー出力パイプライン２１７０内のラスタイラザ及びデプステストコンポーネント２１７３は、幾何学オブジェクトをピクセルごとの表現に変換するようピクセルシェーダをディスパッチしてよい。ピクセルシェーダロジックはスレッド実行ロジック２１５０に含まれてよい。任意に、アプリケーションは、ラスタライザ及びデプステストコンポーネント２１７３をバイパスし、ラスタライズされていない頂点データにストリーム出力ユニット２１２３を介してアクセスすることができる。

グラフィクスプロセッサ２１００は、インターコネクトバス、インターコネクトファブリック、又はプロセッサの主なコンポーネントの間のデータ及びメッセージ受け渡しを可能にするその他のインターコネクトメカニズムを有する。いくつかの実施形態において、実行ユニット２１５２Ａ～２１５２Ｂ及び関連するロジックユニット（例えば、Ｌ１キャッシュ２１５１、サンプラ２１５４、テクスチャキャッシュ２１５８、など）は、メモリアクセスを実行しかつプロセッサのレンダー出力パイプラインコンポーネントと通信するようデータポート２１５６を介して相互接続する。サンプラ２１５４、キャッシュ２１５１、２１５８、及び実行ユニット２１５２Ａ～２１５２Ｂは夫々、別々のメモリアクセスパスを有してよい。任意に、テクスチャキャッシュ２１５８はまた、サンプラキャッシュとして構成され得る。

レンダー出力パイプライン２１７０は、頂点に基づくオブジェクトを関連するピクセルに基づく表現に変換するラスタライザ及びデプステストコンポーネント２１７３を含んでよい。ラスタイラザロジックは、固定機能三角形及び直線ラスタライゼーションを実行するウィンドウア（windower）／マスカ（masker）ユニットを含んでよい。関連するレンダーキャッシュ２１７８及びデプスキャッシュ２１７９も、いくつかの実施形態で利用可能である。ピクセル操作コンポーネント２１７７は、データに対してピクセルに基づいた操作を実行するが、いくつかのインスタンスでは、２Ｄ操作（例えば、混合（blending）を伴ったビットブロック画像転送）に関連したピクセル操作は、２Ｄエンジン２１４１によって実行されるか、あるいは、オーバーレイ表示面を用いてディスプレイコントローラ２１４３によって表示時点で置換される。共有Ｌ３キャッシュ２１７５は、全てのグラフィクスコンポーネントに利用可能であってよく、主システムメモリの使用なしでデータの共有を可能にする。

グラフィクスプロセッサメディアパイプライン２１３０は、メディアエンジン２１３７及びビデオフロントエンド２１３４を含んでよい。ビデオフロントエンド２１３４は、コマンドストリーマ２１０３からパイプラインコマンドを受け取ってよい。メディアパイプライン２１３０は、別個のコマンドストリーマを含んでよい。ビデオフロントエンド２１３４は、コマンドをメディアエンジン２１３７へ送る前に、メディアコマンドを処理してよい。メディアエンジン２１３７は、スレッドディスパッチャ２１３１によるスレッド実行ロジック２１５０へのディスパッチのためにスレッドを生成するようスレッド生成機能を含んでよい。

グラフィクスプロセッサ２１００は、ディスプレイエンジン２１４０を含んでよい。ディスプレイエンジン２１４０は、プロセッサ２１００の外にあってよく、リングインターコネクト２１０２又はその他のインターコネクトバス若しくはファブリックを介してグラフィクスプロセッサと結合してよい。ディスプレイエンジン２１４０は、２Ｄエンジン２１４１及びディスプレイコントローラ２１４３を含んでよい。ディスプレイエンジン２１４０は、３Ｄパイプラインから独立して動作することが可能な専用ロジックを含んでよい。ディスプレイコントローラ２１４３は、表示デバイス（図示せず）と結合してよく、表示デバイスは、ラップトップコンピュータで見られるように、システム内蔵型表示デバイス、又は表示デバイスコネクタを介して取り付けられた外付け表示デバイスであってよい。

ジオメトリパイプライン２１２０及びメディアパイプライン２１３０は、複数のグラフィクス及びメディアプログラミングインターフェースに基づいて動作を実行するよう構成可能であってよく、いずれか１つのアプリケーションプログラミングインターフェース（ＡＰＩ）に特有ではない。グラフィクスプロセッサ用のドライバソフトウェアは、特定のグラフィクス又はメディアライブラリに特有であるＡＰＩコールを、グラフィクスプロセッサによって処理され得るコマンドに変換してよい。全てクロノスグループからであるオープン・グラフィクス・ライブラリ（Open Graphics Library，ＯｐｅｎＧＬ）、オープン・コンピューティング・ランゲージ（Open Computing Language，ＯｐｅｎＣＬ）、及び／又はＶｕｌｋａｎグラフィクス及び計算ＡＰＩのために、サポートが提供されてもよい。マイクロソフト・コーポレーションからのＤｉｒｅｃｔ３Ｄライブラリのためにも、サポートが提供されてよい。これらのライブラリの組み合わせがサポートされてもよい。オープン・ソース・コンピュータ・ビジョン・ライブラリ（Open Source Computer Vision Library，ＯｐｅｎＣＶ）のためにも、サポートが提供されてよい。互換性のある３Ｄパイプラインを備えた将来のＡＰＩも、マッピングが将来のＡＰＩのパイプラインからグラフィクスプロセッサのパイプラインへ行われ得る場合は、サポートされることになる。

［グラフィクスパイプラインプログラミング］
図２２Ａは、例えば、図１６Ａ、１７、２１とともに本願で記載されているパイプラインなどのグラフィクス処理パイプラインをプログラムするために使用されるグラフィクスプロセッサコマンドフォーマット２２００を表すブロック図である。図２２Ｂは、実施形態に従うグラフィクスプロセッサコマンドシーケンス２２１０を表すブロック図である。図２２Ａの実線ボックスは、一般的にグラフィクスコマンドに含まれているコンポーネントを表し、破線は、任意であるか、あるいは、グラフィクスコマンドのサブセットにしか含まれないコンポーネントを含む。図２２Ａの例となるグラフィクスプロセッサコマンドフォーマット２２００は、クライアント２２０２、コマンド操作コード（オペコード）２２０４、及びコマンドのためのデータ２２０６を識別するデータフィールドを含む。サブオペコード２２０５及びコマンドサイズ２２０８も、いくつかのコマンドには含まれる。

クライアント２２０２は、コマンドデータを処理するグラフィクスデバイスのクライアントユニットを指定してよい。グラフィクスプロセッサコマンドパーサは、コマンドの更なる処理を条件付け、コマンドデータを適切なクライアントユニットへ送るよう、各コマンドのクライアントフィールドを調べてよい。グラフィクスプロセッサクライアントユニットは、メモリインターフェースユニット、レンダーユニット、２Ｄユニット、３Ｄユニット、及びメディアユニットを含んでよい。各クライアントユニットは、コマンドを処理する対応する処理パイプラインを有してよい。コマンドがクライアントユニットによって受け取られると、クライアントユニットは、オペコード２２０４、及び存在する場合には、サブオペコード２２０５を読み出して、実行すべき動作を決定する。クライアントユニットは、データフィールド２２０６内の情報を用いてコマンドを実行する。いくつかのコマンドについては、明示的なコマンドサイズ２２０８が、コマンドのサイズを特定すると期待される。コマンドパーサは、コマンドオペコードに基づいてコマンドの少なくとも一部のサイズを自動的に決定してよい。コマンドは、ダブルワードの倍数によりアライメントされてよい。他のコマンドフォーマットも使用可能である。

図２２Ｂのフロー図は、例となるグラフィクスプロセッサコマンドシーケンス２２１０を表す。例示的なグラフィクスプロセッサを特徴付けるデータ処理システムのソフトウェア又はファームウェアは、グラフィクス操作の組をセットアップ、実行、及び終了することが示されたコマンドシーケンスの変形を使用してよい。サンプルコマンドシーケンスは、例示のみを目的として図示及び記載されており、これらの具体的なコマンドに又はこのコマンドシーケンスに限定されない。更に、コマンドは、グラフィクスプロセッサが少なくとも部分的に同時にコマンドのシーケンスを処理するように、コマンドシーケンスの中のコマンドのバッチとして発行されてよい。

グラフィクスプロセッサコマンドシーケンス２２１０は、いずれかのアクティブなグラフィクスパイプラインにそのパイプラインの目下ペンディング中のコマンドを完了させるよう、パイプラインフラッシュコマンド２２１２から始まってよい。任意に、３Ｄパイプライン２２２２及びメディアパイプライン２２２４は、同時に動作しなくてもよい。パイプラインフラッシュは、アクティブなグラフィクスパイプラインに如何なるペンディング中のコマンドも完了させるよう実行される。パイプラインフラッシュに応答して、グラフィクスプロセッサのコマンドパーサは、アクティブな描画エンジンがペンディング中の動作を完了し、関連する読み取りキャッシュが無効にされるまで、コマンド処理を一時停止する。任意に、「ダーティ」（dirty）とマークされているレンダーキャッシュ内の如何なるデータも、メモリにフラッシュされ得る。パイプラインフラッシュコマンド２２１２は、グラフィクスプロセッサを低電力状態に置く前に、又はパイプライン同期化のために、使用され得る。

パイプライン選択コマンド２２１３は、コマンドシーケンスがグラフィクスプロセッサにパイプライン間の明示的な切り替えを求める場合に、使用されてよい。パイプライン選択コマンド２２１３は、コンテキストが両方のパイプラインについてコマンドを発行すべきでない限り、パイプラインコマンドを発行する前に実行コンテキスト内で一度しか必要とされなくてよい。パイプラインフラッシュコマンド２２１２は、パイプライン選択コマンド２２１３によるパイプライン切り替えの直前に必要とされてよい。

パイプライン制御コマンド２２１４は、動作のためにグラフィクスパイプラインを設定してよく、そして、３Ｄパイプライン２２２２及びメディアパイプライン２２２４をプログラムするために使用されてよい。パイプライン制御コマンド２２１４は、アクティブなパイプラインについてパイプライン状態を設定してよい。パイプライン制御コマンド２２１４は、パイプライン同期化のために、かつ、コマンドのバッチを処理する前にアクティブなパイプライン内の１つ以上のキャッシュメモリからデータをクリアするために、使用されてよい。

いリターンバッファ状態コマンド２２１６は、各々のパイプラインがデータを書き込むためにリターンバッファの組を設定するために使用されてよい。いくつかのパイプライン動作は、動作が処理中に中間データを書き込む１つ以上のリターンバッファの割り当て、選択、又は設定を必要とするグラフィクスプロセッサはまた、出力データを記憶するために及びクロススレッド通信を実行するために１つ以上のリターンバッファを使用してよい。リターンバッファ状態２２１６は、パイプライン動作の組に使用すべきリターンバッファのサイズ及び数を選択することを含んでよい。

コマンドシーケンス内の残りのコマンドは、動作のためのアクティブなパイプラインに基づいて異なる。パイプライン決定２２２０に基づいて、コマンドシーケンスは、３Ｄパイプライン状態２２３０から開始する３Ｄパイプライン２２２２、又はメディアパイプライン状態２２４０で始まるメディアパイプライン２２２４に合わせられる。

３Ｄパイプライン状態２２３０を設定するコマンドは、３Ｄプリミティブコマンドが処理される前に設定されるべきである頂点バッファ状態、頂点要素状態、一定色状態、デプスバッファ状態、及び他の状態変数に対する３Ｄ状態設定コマンドを含む。これらのコマンドの値は、使用中の特定の３ＤＡＰＩに少なくとも部分的に基づいて決定される。３Ｄパイプライン状態２２３０コマンドはまた、特定のパイプライン要素を、それらの要素が使用されない場合に選択的に無効化又はバイパスすることも可能であり得る。

３Ｄプリミティブ２２３２コマンドは、３Ｄパイプラインによって処理されるべき３Ｄプリミティブをサブミットするために使用されてよい。３Ｄプリミティブ２２３２コマンドによりグラフィクスプロセッサへ渡されるコマンド及び関連するパラメータは、グラフィクスパイプライン内の頂点フェッチ機能へ転送される。頂点フェッチ機能は、３Ｄプリミティブ２２３２コマンドデータを使用して、頂点データ構造を生成する。頂点データ構造は、１つ以上のリターンバッファに格納される。３Ｄプリミティブ２２３２コマンドは、頂点シェーダにより３Ｄプリミティブに対して頂点操作を実行するために使用されてよい。頂点シェーダを処理するために、３Ｄパイプライン２２２２は、グラフィクスプロセッサ実行ユニットへシェーダ実行スレッドをディスパッチする。

３Ｄパイプライン２２２２は、実行２２３４コマンド又はイベントによりトリガされてよい。レジスタは、トリガコマンド実行を書き込んでよい。実行は、コマンドシーケンス内の「ゴー」（go）又は「キック」（kick）コマンドによりトリガされてよい。コマンド実行は、グラフィクスパイプラインを通じてコマンドシーケンスをフラッシュするようパイプライン同期化コマンドを用いてトリガされてよい。３Ｄパイプラインは、３Ｄプリミティブに対するジオメトリ処理を実行する。動作が完了すると、結果として得られた幾何学オブジェクトはラスタライズされ、ピクセルエンジンは、結果として得られたピクセルを彩色する。ピクセルシェーディング及びピクセルバックエンド動作を制御するための追加コマンドも、これらの動作のために含まれてよい。

グラフィクスプロセッサコマンドシーケンス２２１０は、メディア操作を実行する場合にメディアパイプライン２２２４パスを辿ってよい。一般に、メディアパイプライン２２２４のためのプログラミングの具体的な使用及び方法は、実行されるべきメディア又は計算操作に依存する。特定のメディア復号化動作が、メディア復号化中にメディアパイプラインにオフロードされてよい。メディアパイプラインはまた、バイパスされてもよく、メディア復号化は、１つ以上の汎用処理コアによって供給されたリソースを用いて全体的に又は部分的に実行され得る。メディアパイプラインはまた、汎用グラフィクスプロセッサユニット（ＧＰＧＰＵ）動作のための要素を含んでよく、グラフィクスプロセッサは、グラフィクスプリミティブのレンダリングに明示的には関係がない計算シェーダプログラムを用いてＳＩＭＤベクトル演算を実行するために使用される。

メディアパイプライン２２２４は、３Ｄパイプライン２２２２と同じように構成されてよい。メディアパイプライン状態２２４０を設定するためのコマンドの組は、メディアオブジェクトコマンド２２４２の前にコマンドキューにディスパッチ又は挿入される。メディアパイプライン状態２２４０のためのコマンドは、メディアオブジェクトを処理するために使用されるメディアパイプライン要素を構成するデータを含んでよい。これは、符号化又は復号化フォーマットなどの、メディアパイプライン内のビデオ復号化及びビデオ符号化ロジックを構成するデータを含む。メディアパイプライン状態２２４０のためのコマンドはまた、状態設定のバッチを含む「間接的な」状態要素への１つ以上のポインタの使用もサポートしてもよい。

メディアオブジェクトコマンド２２４２は、メディアパイプラインによる処理のためにメディアオブジェクトへのポインタを供給してよい。メディアオブジェクトは、処理されるべきビデオデータを含むメモリバッファを含む。任意に、全てのメディアパイプライン状態は、メディアオブジェクトコマンド２２４２を発行する前に有効でなければならない。パイプライン状態が設定され、メディアオブジェクトコマンド２２４２がキューされると、メディアパイプライン２２２４は、実行コマンド２２４４又は同等の実行イベント（例えば、レジスタ書き込み）によりトリガされる。メディアパイプライン２２２４からの出力は、次いで、３Ｄパイプライン２２２２又はメディアパイプライン２２２４によって供給された演算によって後処理されてよい。ＧＰＧＰＵ動作は、メディア操作と同様に設定及び実行されてよい。

［グラフィクスソフトウェアアーキテクチャ］
図２３は、データ処理システム２３００についての例示的なグラフィクスソフトウェアアーキテクチャを表す。そのようなソフトウェアアーキテクチャは、３Ｄグラフィクスアプリケーション２３１０、オペレーティングシステム２３２０、及び少なくとも１つのプロセッサ２３３０を含んでよい。プロセッサ２３３０は、グラフィクスプロセッサ２３３２及び１つ以上の汎用プロセッサコア２３３４を含む。プロセッサ２３３０は、プロセッサ１４０２又は本願で記載されているプロセッサのいずれか他の変形であってよい。プロセッサ２３３０は、プロセッサ１４０２又は本願で記載されているプロセッサのいずれか他の代わりに使用されてよい。従って、プロセッサ１４２０又は本願で記載されているプロセッサのいずれか他と組み合わされた如何なる特徴の開示も、グラフィクスプロセッサ２３３０との対応する組み合わせを開示するが、そのように限定されない。更に、本願のいずれか他の図の要素と同じ又は類似した名称を有する図２３の要素は、他の図で見られる同じ要素について記載しており、本願のどこかで記載されているのと同じように動作又は機能することができ、同じコンポーネントを有することができ、他のエンティティへリンクされ得るが、そのように限定されない。グラフィクスアプリケーション２３１０及びオペレーティングシステム２３２０は夫々、データ処理システムのシステムメモリ２３５０で実行される。

３Ｄグラフィクスアプリケーション２３１０は、シェーダ命令２３１２を含む１つ以上のシェーダプログラムを含んでよい。シェーダ言語命令は、Ｄｉｒｅｃｔ３Ｄの上位シェーダ言語（High-Level Shader Language，ＨＬＳＬ）、ＯｐｅｎＧＬシェーダ言語（ＧＬＳＬ）、などのような上位シェーダ言語にあってよい。アプリケーションはまた、汎用プロセッサコア２３３４による実行に適した機械言語で実行可能命令２３１４を含んでもよい。アプリケーションはまた、頂点データによって定義されたグラフィクスオブジェクト２３１６を含んでもよい。

オペレーティングシステム２３２０は、マイクロソフト・コーポレーションからのＭｉｃｒｏｓｏｆｔ（登録商標）Ｗｉｎｄｏｗｓ（登録商標）オペレーティングシステム、独自仕様のＵｎｉｘ様のオペレーティングシステム、又はＬｉｎｕｘ（登録商標）カーネルの変形を使用するオープンソースのＵＮＩＸ（登録商標）様のオペレーティングシステムであってよい。オペレーティングシステム２３２０は、Ｄｉｒｅｃｔ３ＤＡＰＩ、ＯｐｅｎＧＬＡＰＩ、又はＶｕｌｋａｎＡＰＩなどのグラフィクスＡＰＩ２３２２をサポートすることができる。Ｄｉｒｅｃｔ３ＤＡＰＩが使用中であるとき、オペレーティングシステム２３２０は、ＨＬＳＬでの如何なるシェーダ命令２３１２も下位シェーダ言語にコンパイルするためにフロントエンドシェーダコンパイラ２３２４を使用する。コンパイルは、ジャスト・イン・タイム（ＪＩＴ）コンパイルであってよく、あるいは、アプリケーションは、シェーダ・プリコンパイルを実行することができる。上位シェーダは、３Ｄグラフィクスアプリケーション２３１０のコンパイル中に下位シェーダにコンパイルされてよい。シェーダ命令２３１２は、ＶｕｌｋａｎＡＰＩによって使用されるＳＰＩＲ（Standard Portable Intermediate Representation）の変形などの中間形で供給されてよい。

ユーザモードグラフィクスドライバ２３２６は、シェーダ命令２３１２をハードウェア特有の表現に変換するようバックエンドシェーダコンパイラ２３２７を含んでよい。ＯｐｅｎｇＧＬＡＰＩが使用中であるとき、ＧＬＳＬ上位言語でのシェーダ命令２３１２は、コンパイルのためにユーザモードグラフィクスドライバ２３２６へ渡される。ユーザモードグラフィクスドライバ２３２６は、カーネルモードグラフィクスドライバ２３２９と通信するためにオペレーティングシステムカーネルモード機能２３２８を使用してよい。カーネルモードグラフィクスドライバ２３２９は、コマンド及び命令をディスパッチするためにグラフィクスプロセッサ２３３２と通信してよい。

［ＩＰコア実装］
１つ以上の態様は、プロセッサなどの集積回路内のロジックを表現及び／又は定義する機械可読媒体に記憶された代表コードによって実装されてもよい。例えば、機械可読媒体は、プロセッサ内の様々なロジックを表す命令を含んでよい。機械によって読み出される場合に、命令は、機械に、本願で記載されている技術を実行するようロジックを組み立てさせ得る。「ＩＰコア」として知られているそのような表現は、集積回路の構造を記述するハードウェアモデルとして有形な機械可読媒体に記憶され得る集積回路用ロジックの再利用可能なユニットである。ハードウェアモデルは、集積回路を製造する組立機械にハードウェアモデルをロードする様々なカスタマ又は製造設備に供給されてよい。集積回路は、回路が、本願で記載されている実施形態のいずれかと関連して記載されている動作を実行するように、組み立てられてよい。

図２４Ａは、実施形態に従う動作を実行するよう集積回路を製造するために使用され得るＩＰコア開発システム２４００を表すブロック図である。ＩＰコア開発システム２４００は、より大きい設計に組み込まれ得るモジュール式の再利用可能な設計を生成するために使用されるか、あるいは、集積回路（例えば、ＳＯＣ集積回路）全体を構成するために使用されてよい。設計機関２４３０は、上位プログラミング言語（例えば、Ｃ／Ｃ＋＋）でＩＰコア設計のソフトウェアシミュレーション２４１０を生成することができる。ソフトウェアシミュレーション２４１０は、シミュレーションモデル２４１２を用いてＩＰコアの挙動を設計、試験、及び検証するために使用され得る。シミュレーションモデル２４１２は、機能、挙動、及び／又はタイミングシミュレーションを含んでよい。レジスタ転送レベル（register transfer level，ＲＴＬ）設計２４１５は、モデル化されたデジタル信号を用いて実行される関連ロジックを含め、ハードウェアレジスタ間のデジタル信号のフローをモデル化する集積回路の挙動の抽象化である。ＲＴＬ設計２４１５に加えて、ロジックレベル又はトランジスタレベルでの下位設計も、生成、設計又は合成されてよい。よって、初期設計及びシミュレーションの具体的な詳細は様々であってよい。

ＲＴＬ設計２４１５又は同等物は、設計機関によって、ハードウェア記述言語（ＨＤＬ）又は物理設計データのその他表現であってよいハードウェアモデルに更に合成されてもよい。ＨＤＬは、ＩＰコア設計を検証するよう更にシミュレーション又はテストされてもよい。ＩＰコア設計は、不揮発性メモリ２４４０（例えば、ハードディスク、フラッシュメモリ、又は任意の不揮発性記憶媒体）を用いて第三者の組立設備２４６５への配送のために記憶され得る。代替的に、ＩＰコア設計は、有線接続２４５０又は無線接続２４６０を介して（例えば、インターネット経由で）伝送されてもよい。組立設備２４６５は、次いで、少なくとも部分的にＩＰコア設計に基づく集積回路を組み立ててよい。組み立てられた集積回路は、本願で記載されている少なくとも１つの実施形態に従う動作を実行するよう構成され得る。

図２４Ｂは、集積回路パッケージアセンブリ２４７０の側面断面図を表す。集積回路パッケージアセンブリ２４７０は、本願で記載されている１つ以上のプロセッサ又はアクセラレータデバイスの実装を表す。パッケージアセンブリ２４７０は、基板２４８０へ接続されたハードウェアロジックの複数のユニット２６７２、２６７４を含む。ロジック２６７２、２６７４は、設定可能なロジック又は固定機能ロジックハードウェアにおいて少なくとも部分的に実装されてよく、プロセッサコア、グラフィクスプロセッサ、又は本願で記載されている他のアクセラレータデバイスのいずれかの１つ以上の部分を含むことができる。ロジック２６７２、２６７４の各ユニットは、半導体ダイの中に実装され、インターコネクト構造２４７３を介して基板２４８０と結合され得る。インターコネクト構造２４７３は、ロジック２６７２、２６７４と基板２４８０との間で電気信号を伝えるよう構成されてよく、バンプ又はピラーなどの、しかしこれらに限られないインターコネクトを含むことができる。インターコネクト構造２４７３は、例えば、ロジック２６７２、２６７４の動作に関連した入出力（Ｉ／Ｏ）信号及び／又は電力若しくは接地信号などの電気信号を伝えるよう構成されてよい。任意に、基板２４８０は、エポキシベースの積層基板であってよい。基板２４８０は、他の適切なタイプの基板を含んでもよい。パッケージアセンブリ２４７０は、パッケージインターコネクト２４８３を介して他の電気デバイスへ接続され得る。パッケージインターコネクト２４８３は、マザーボード、他のチップセット、又はマルチチップモジュールなどの他の電気デバイスへ電気信号を伝えるよう基板２４８０の表面へ結合されてよい。

ロジック２６７２、２６７４のユニットは、ロジック２６７２、２６７４の間で電気信号を伝えるよう構成されるブリッジ２４８２と電気的に結合されてよい。ブリッジ２４８２は、電気信号のルートを提供する密なインターコネクト構造であってよい。ブリッジ２４８２は、ガラス又は適切な半導体材料から成るブリッジ基板を含んでよい。電気ルーティング構造が、ロジック２６７２、２６７４の間のチップ間接続を提供するようブリッジ基板上に形成され得る。

ロジックの２つのユニット２６７２、２６７４及びブリッジ２４８２が表されているが、本願で記載されている実施形態は、１つ以上のダイ上でより多い又はより少ないロジックユニットを含んでよい。１つ以上のダイは、ロジックが単一のダイ上に含まれる場合にブリッジ２４８２は除かれてもよいということで、ゼロか又はより多いブリッジによって接続されてもよい。代替的に、複数のダイ又はロジックのユニットが１つ以上のブリッジによって接続され得る。更には、複数のロジックユニット、ダイ、及びブリッジは、３次元構成を含む他の可能な構成で連結され得る。

図２４Ｃは、基板２４８０（例えば、ベースダイ）へ接続されたハードウェアロジックチップレットの複数のユニットを含むパッケージアセンブリ２４９０を表す。本願で記載されているグラフィクス処理ユニット、並列プロセッサ、及び計算アクセラレータは、別々に製造される多種多様なシリコンチップレットから構成され得る。これに関連して、チップレットは、他のチップレットとともにより大きいデバイス内に組み立てられ得る相異なるロジックユニットを含む少なくとも部分的にパッケージ化された集積回路である。異なるＩＰコアロジックを備えたチップレットの多種多様な組が単一のデバイス内に組み立てられ得る。更には、チップレットは、アクティブインターポーザ（active interposer）技術を用いてベースダイ又はベースチップレットに集積され得る。本願で記載されている概念は、ＧＰＵ内の異なる形式のＩＰ感の相互接続及び通信を可能にする。ＩＰコアは、異なるプロセス技術を用いて製造され、製造中に組み立てられ得る。これは、特に、いくつかのフレーバーＩＰを備えた大規模ＳｏＣで、複数のＩＰを同じプロセスに収束させる複雑さを回避する。複数のプロセス技術の使用を可能にすることは、市場投入までの時間を改善し、かつ、複数の製品ＳＫＵを作成するためのコスト効果の高い方法をもたらす。更には、分解されたＩＰは、より、独立してパワーゲーティングされやすくなり、所与のワークロードで使用されていないコンポーネントの電源をオフにして、全体の電力消費を削減することができる。

ハードウェアロジックチップレットは、専用ハードウェアロジックチップレット２４７２、ロジック又はＩ／Ｏチップレット２４７４、及び／又はメモリチップレット２４７５を含むことができる。ハードウェアロジックチップレット２４７２及びロジック又はＩ／Ｏチップレット２４７４は、設定可能なロジック又は固定機能ロジックハードウェアにおいて少なくとも部分的に実装されてよく、本願で記載されているプロセッサコア、グラフィクスプロセッサ、並列プロセッサ、又は他のアクセラレータデバイスのいずれかの１つ以上の部分を含むことができる。メモリチップレット２４７５は、ＤＲＡＭ（例えば、ＧＤＤＲ、ＨＢＭ）メモリ又はキャッシュ（ＳＲＡＭ）メモリであることができる。

各チップレットは、別個の半導体ダイとして製造され、インターコネクト構造２４７３を介して基板２４８０と結合され得る。インターコネクト構造２４７３は、基板２４８０内の様々なチップレット及びロジック間で電気信号を伝えるよう構成されてよい。インターコネクト構造２４７３は、例えば、バンプ又はピラーなどの、しかしこれらに限られないインターコネクトを含むことができる。いくつかの実施形態において、インターコネクト構造２４７３は、例えば、ロジック、Ｉ／Ｏ及びメモリチップレットの動作に関連した入出力（Ｉ／Ｏ）信号及び／又は電力若しくは接地信号などの電気信号を伝送するよう構成されてよい。

基板２４８０は、エポキシベースの積層基板であってよいが、それに限定されず、基板２４８０はまた、他の適切なタイプの基板を含んでもよい。パッケージアセンブリ２４９０は、パッケージインターコネクト２４８３を介して他の電気デバイスへ接続され得る。パッケージインターコネクト２４８３は、マザーボード、他のチップセット、又はマルチチップモジュールなどの他の電気デバイスへ電気信号を伝えるよう基板２４８０の表面へ結合されてよい。

ロジック又はＩ／Ｏチップレット２４７４及びメモリチップレット２４７５は、ロジック又はＩ／Ｏチップレット２４７４とメモリチップレット２４７５との間で電気信号を伝えるよう構成されるブリッジ２４８７を介して電気的に結合されてよい。ブリッジ２４８７は、電気信号のためのルートを提供する密なインターコネクト構造であってよい。ブリッジ２４８７は、ガラス又は適切な半導体材料から成るブリッジ構造を含んでよい。電気ルーティング機能は、ロジック又はＩ／Ｏチップレット２４７４とメモリチップレット２４７５との間のチップ間接続をもたらすようブリッジ構造で形成され得る。ブリッジ２９４８７はまた、シリコンブリッジ又はインターコネクトブリッジとも呼ばれ得る。例えば、ブリッジ２４８７は、埋め込みマルチダイインターコネクトブリッジ（Embedded Multi-die Interconnect Bridge，ＥＭＩＢ）である。代替的に、ブリッジ２４８７は、単に、１つのチップレットから他のチップレットへの直接接続であってもよい。

基板２４８０は、Ｉ／Ｏ２４９１、キャッシュメモリ２４９２、及び他のハードウェアロジック２４９３のためのハードウェアコンポーネントを含むことができる。ファブリック２４８５は、様々なロジックチップレットと基板２４８０内のロジック２４９１、２４９３との間の通信を可能にするよう基板２４８０に埋め込まれ得る。任意に、Ｉ／Ｏ２４９１、ファブリック２４８５、キャッシュ、ブリッジ、及び他のハードウェアロジック２４９３は、基板２４８０の上に積層されているベースダイに集積され得る。

更に、パッケージアセンブリ２４９０はまた、ファブリック２４８５又は１つ以上のブリッジ２４８７によって相互接続されるより少ない又はより多いコンポーネント及びチップレットを含むことができる。パッケージアセンブリ２４９０内のチップレットは、３Ｄ又は２．５Ｄ配置で配置されてよい。一般に、ブリッジ構造２４８７は、例えば、ロジック又はＩ／Ｏチップレットとメモリチップレットとの間のポイント・ツー・ポイントのインターコネクトを促進するために使用されてよい。ファブリック２４８５は、様々なロジック及び／又はＩ／Ｏチップレット（例えば、チップレット２４７２、２４７４、２４９１、２４９３）を他のロジック及び／又はＩ／Ｏチップレットと相互接続するために使用され得る。基板内のキャッシュメモリ２４９２は、パッケージアセンブリ２４９０のためのグローバルキャッシュとして、又は分散グローバルキャッシュの部分として、又はファブリック２４８５の専用のキャッシュとして動作することができる。

図２４Ｄは、実施形態に従って、交換可能なチップレット２４９５を含むパッケージアセンブリ２４９４を表す。交換可能なチップレット２４９５は、１つ以上のベースチップレット２４９６、２４９８上の標準化されたスロット内に組み立てられ得る。ベースチップレット２４９６、２４９８は、本願で記載されている他のブリッジインターコネクトと同様であることができ、例えば、ＥＭＢＩであってよいブリッジインターコネクト２４９７を介して結合され得る。メモリチップレットはまた、ブリッジインターコネクトを介してロジック又はＩ／Ｏチップレットへ接続され得る。Ｉ／Ｏ及びロジックチップレットは、インターコネクトファブリックを介して通信することができる。ベースチップレットは夫々、ロジック又はＩ／Ｏ又はメモリ／キャッシュの１つのための標準化されたフォーマットで１つ以上のスロットをサポートすることができる。

ＳＲＡＭ及び配電回路は、ベースチップレットの上にスタックされる交換可能なチップレット２４９５に対して異なったプロセス技術を用いて製造され得るベースチップレット２４９６、２４９８の１つ以上の中に製造されてよい。例えば、ベースチップレット２４９６、２４９８は、より大きいプロセス技術を用いて製造され得る一方で、交換可能なチップレットは、より小さいプロセス技術を用いて製造され得る。交換可能なチップレット２４９５の中の１つ以上は、メモリ（例えば、ＤＲＡＭ）チップレットであってよい。異なるメモリ密度が、パッケージアセンブリ２４９４を使用する製品の対象とされる電力及び／又は性能に基づいて、パッケージアセンブリ２４９４について選択され得る。更には、異なる数のタイプの機能ユニットを備えたロジックチップレットが、製品の対象とする電力及び／又は性能に基づいて組み立て時に選択され得る。更には、異なるタイプのＩＰロジックコアを含むチップレットが、交換可能なチップレットスロット内に挿入可能であり、異なる技術のＩＰブロックを混合し適合させることができるハイブリッドプロセッサ設計を可能にする。

［例となるシステム・オン・ア・チップ集積回路］
図２５～２６は、１つ以上のＩＰコアを使用して組み立てられ得る例示的な集積回路及び関連するグラフィクスプロセッサを表す。表されているものに加えて、追加のグラフィクスプロセッサ／コア、プロセッサ／コア、ペリフェラル・インターフェース・コントローラ、又は汎用プロセッサコアを含む他のロジック及び回路が含まれてもよい。本願のいずれか他の図の要素と同じ又は類似した名称を有する図２５～２６の要素は、他の図で見られる同じ要素について記載しており、本願のどこかで記載されているのと同じように動作又は機能することができ、同じコンポーネントを有することができ、他のエンティティへリンクされ得るが、そのように限定されない。

図２５は、１つ以上のＩＰコアを使用して組み立てられ得る例示的なシステム・オン・ア・チップ集積回路２５００を表すブロック図である。例となる集積回路２５００は、グラフィクスプロセッサ１４０８、１５０８、２５１０の、又は本願で記載されているいずれかのグラフィクスプロセッサの変形であってよく、記載されているいずれかのグラフィクスプロセッサの代わりに使用されてよい、１つ以上のアプリケーションプロセッサ２５０５（例えば、ＣＰＵ）や、少なくとも１つのグラフィクスプロセッサ２５１０を含む。従って、本願でのグラフィクスプロセッサと組み合わされる如何なる特徴の開示も、グラフィクスプロセッサ２５１０との対応する組み合わせを開示するが、そのように限定されない。集積回路２５００は、画像プロセッサ２５１５及び／又はビデオプロセッサ２５２０を更に含んでもよく、これらのいずれは、同じ又は複数の異なった設計設備からのモジュールＩＰコアであってよい。集積回路２５００は、ＵＳＢコントローラ２５２５、ＵＡＲＴコントローラ２５３０、ＳＰＩ／ＳＤＩＯコントローラ２５３５、及びＩ^２Ｓ／Ｉ^２Ｃコントローラ２５４０を含むペリフェラル又バスロジックを含んでよい。更には、集積回路２５００は、ハイ・デフィニション・マルチメディア・インターフェース（ＨＤＭＩ（登録商標））コントローラ２５５０及びモバイル・インダストリ・プロセッサ・インターフェース（ＭＩＰＩ）表示インターフェース２５５５の１つ以上へ結合される表示デバイス２５４５を含むことができる。ストレージは、フラッシュメモリ及びフラッシュメモリコントローラを含むフラッシュメモリサブシステム２５６０によって提供されてよい。メモリインターフェースは、ＳＣＲＡＭ又はＳＲＡＭメモリデバイスへのアクセスのためにメモリコントローラ２５６５を介して提供されてよい。いくつかの集積回路は、埋め込みセキュリティエンジン２５７０を更に含む。

図２６Ａ～２６Ｂは、本願で記載されている実施形態に従って、ＳｏＣ内で使用される例示的なグラフィクスプロセッサを表すブロック図である。グラフィクスプロセッサは、グラフィクスプロセッサ１４０８、１５０８、２５１０の、又は本願で記載されているいずれかのグラフィクスプロセッサの変形であってよい。グラフィクスプロセッサは、グラフィクスプロセッサ１４０８、１５０８、２５１０、又は本願で記載されているいずれかのグラフィクスプロセッサの代わりに使用されてよい。従って、グラフィクスプロセッサ１４０８、１５０８、２５１０、又は本願で記載されているいずれかのグラフィクスプロセッサと組み合わされる如何なる特徴の開示も、図２６Ａ～２６Ｂのグラフィクスプロセッサとの対応する組み合わせを開示するが、そのように限定されない。図２６Ａは、実施形態に従って、１つ以上のＩＰコアを使用して組み立てられ得るＳｏＣ集積回路の例示的なグラフィクスプロセッサ２６１０を表す。図２６Ｂは、実施形態に従って、１つ以上のＩＰコアを使用して組み立てられ得るＳｏＣ集積回路の更なる例示的なグラフィクスプロセッサ２６４０を表す。図２６Ａのグラフィクスプロセッサ２６１０は、低電力グラフィクスプロセッサコアの例である。図２６Ｂのグラフィクスプロセッサ２６４０は、より高性能のグラフィクスプロセッサコアの例である。例えば、グラフィクスプロセッサ２６１０、２６４０の夫々は、本段落の最初に述べられているように、図２５のグラフィクスプロセッサ２５１０の変形であることができる。

図２６Ａに示されるように、グラフィクスプロセッサ２６１０は、頂点プロセッサ２６０５及び１つ以上のフラグメントプロセッサ２６１５Ａ～２６１５Ｎ（例えば、２６１５Ａ、２６１５Ｂ、２６１５Ｃ、２６１５ｄ、乃至２６１５Ｎ－１、及び２６１５Ｎ）を含む。グラフィクスプロセッサ２６１０は、頂点プロセッサ２６０５が頂点シェーダプログラムの動作を実行するよう最適化されるように、別個のロジックを介して異なったシェーダプログラムを実行することができ、一方、１つ以上のフラグメントプロセッサ２６１５Ａ～２６１５Ｎは、フラグメント又はピクセルシェーダプログラムのフラグメント（例えば、ピクセル）シェーディング動作を実行する。頂点プロセッサ２６０５は、３Ｄグラフィクスパイプラインの頂点処理段を実行し、プリミティブ及び頂点データを生成する。フラグメントプロセッサ２６１５Ａ～２６１５Ｎは、表示デバイスで表示されるフレームバッファを生成するために、頂点プロセッサ２６０５によって生成されたプリミティブ及び頂点データを使用する。フラグメントプロセッサ２６１５Ａ～２６１５Ｎは、Ｄｉｒｅｃｔ３ＤＡＰＩで提供されるようなピクセルシェーダプログラムと同じような動作を実行するために使用され得るＯｐｅｎｇＧＬＡＰＩで提供されるようなフラグメントシェーダプログラムを実行するよう最適化されてよい。

グラフィクスプロセッサ２６１０は、１つ以上のメモリ管理ユニット（ＭＭＵ）２６２０Ａ～２６２０Ｂ、キャッシュ２６２５Ａ～２６２５Ｂ、及び回路インターコネクト２６３０Ａ～２６３０Ｂを更に含む。１つ以上のＭＭＵ２６２０Ａ～２６２０Ｂは、１つ以上のキャッシュ２６２５Ａ～２６２５Ｂに記憶されている頂点又は画像／テクスチャデータに加えて、メモリに記憶されている頂点又は画像／テクスチャデータを参照し得る頂点プロセッサ２６０５及び／又はフラグメントプロセッサ２６１５Ａ～２６１５Ｎを含むグラフィクスプロセッサ２６１０のための仮想－物理アドレスマッピングを提供する。１つ以上のＭＭＵ２６２０Ａ～２６２０Ｂは、図２５の１つ以上のアプリケーションプロセッサ２５０５、画像プロセッサ２５１５、及び／又はビデオプロセッサ２５２０に関連した１つ以上のＭＭＵを含む、システム内の他のＭＭＵと同期してよく、それにより、各プロセッサ２５０５～２５２０は、共有又は統合仮想メモリシステムに関与することができる。グラフィクスプロセッサ２６１０のコンポーネントは、本願で記載されている他のグラフィクスプロセッサのコンポーネントと対応してよい。１つ以上のＭＭＵ２６２０Ａ～２６２０Ｂは、図２ＣのＭＭＵ２４５と対応してよい。頂点プロセッサ２６０５及びフラグメントプロセッサ２６１５Ａ～２６１５Ｎは、グラフィクスマルチプロセッサ２３４と対応してよい。１つ以上の回路インターコネクト２６３０Ａ～２６３０Ｂは、実施形態に従って、グラフィクスプロセッサ２６１０が、ＳｏＣの内部バスを介して、又は直接接続を介して、ＳｏＣ内の他のＩＰコアとインターフェース接続することを可能にする。１つ以上の回路インターコネクト２６３０Ａ～２６３０Ｂは、図２Ｃのデータクロスバー２４０と対応してよい。更なる対応は、グラフィクスプロセッサ２６１０の類似のコンポーネントと、本願で記載されている様々なグラフィクスプロセッサアーキテクチャとの間で見受けられ得る。

図２６Ｂに示されるように、グラフィクスプロセッサ２６４０は、図２６Ａのグラフィクスプロセッサ２６１０の１つ以上のＭＭＵ２６２０Ａ～２６２０Ｂ、キャッシュ２６２５Ａ～２６２５Ｂ、及び回路インターコネクト２６３０Ａ～２６３０Ｂを含む。グラフィクスプロセッサ２６４０は、単一のコア又はタイプ若しくはコアが頂点シェーダ、フラグメントシェーダ、及び／又は計算シェーダを実装するようシェーダプログラムコードを含む全てのタイプのプログラム可能なシェーダコードを実行することができる統合シェーダコアアーキテクチャを提供する１つ以上のシェーダコア２６５５Ａ～２６５５Ｎ（例えば、２６５５Ａ、２６５５Ｂ、２６５５Ｃ、２６５５Ｄ、２６５５Ｅ、２６５５Ｆ、乃至２６５５Ｎ－１、及び２６５５Ｎ）を含む。シェーダコアの正確な数は、実施形態及び実施により様々であることができる。更には、グラフィクスプロセッサ２６４０は、シーンに対するレンダリング動作が、例えば、シーン内の局所空間コヒーレンスを利用するために、又は内部キャッシュの使用を最適化するために、画像空間において細分されるタイルベースのレンダリングのためのタイリング動作を加速させるよう実行スレッドを１つ以上のシェーダコア２６５５Ａ～２６５５Ｎ及びタイリングユニット２６５８にディスパッチするスレッドディスパッチャとして動作するインターコアタスクマネージャ２６４５を含む。シェーダコア２６５５Ａ～２６５５Ｎは、例えば、図２Ｄで見られたグラフィクスマルチプロセッサ２３４、又は図３Ａ及び図３Ｂ夫々のグラフィクスマルチプロセッサ３２５、３５０、又は図３Ｃのマルチコアグループ３６５Ａと対応してよい。

本願で記載されている実施形態は、シストリック処理ユニットによりスパースデータに関して算術を実行する技術を提供するソフトウェア、ファームウェア、及びハードウェアロジックを含む。本願で記載されている実施形態は、ゼロ充てん行列及びサブ行列に対する計算動作をスキップする技術を提供する。実施形態は更に、処理ユニットまでデータ圧縮を維持する技術を提供する。実施形態は更に、スパースアウェアロジックユニットのためのアーキテクチャを提供する。

［テンソルアクセラーレションロジック及び統合メモリを備えたＧＰＧＰＵ］
図２７は、実施形態に従うデータ処理システム２７００のブロック図である。データ処理システム２７００は、プロセッサ２７０２と、統合メモリ２７１０と、機械学習アクセラレーションロジックを含むＧＰＧＰＵ２７２０とを備える異種（heterogeneous）処理システムである。プロセッサ２７０２及びＧＰＧＰＵ２７２０は、本願で記載されているプロセッサ及びＧＰＧＰＵ／並列プロセッサのいずれかであることができる。プロセッサ２７０２は、システムメモリ２７１２に記憶されているコンパイラ２７１５に対する命令を実行することができる。コンパイラ２７１５は、ソースコード２７１４Ａをコンパイル済みコード２７１４Ｂにコンパイルするようプロセッサ２７０２で実行される。コンパイル済みコード２７１４Ｂは、プロセッサ２７０２によって実行され得る命令及び／又はＧＰＧＰＵ２７２０によって実行され得る命令を含むことができる。コンパイル中、コンパイラ２７１５は、コンパイル済みコード２７１４Ｂに存在するデータ並列性（data parallelism）のレベルに関するヒント及び／又はコンパイル済みコード２７１４Ｂに基づいてディスパッチされるべきスレッドに関連したデータ局所性（data locality）に関するヒントを含むメタデータを挿入する動作を実行することができる。コンパイラ２７１５は、そのような動作を実行するのに必要な情報を含むことができ、あるいは、動作は、ランタイムライブラリ２７１６の支援を受けて実行され得る。ランタイムライブラリ２７１６はまた、ソースコード２７１４Ａのコンパイルにおいてコンパイラ２７１５を支援することもでき、ＧＰＧＰＵ２７２０でのコンパイル済みコード２７１４Ｂの実行を助けるよう、ランタイム時にコンパイル済みコード２７１４Ｂとリンクされる命令を含むこともできる。

統合メモリ２７１０は、プロセッサ２７０２及びＧＰＧＰＵ２７２０によってアクセスされ得る統合アドレス空間を表す。統合メモリは、ＧＰＧＰＵメモリ２７１８とともにシステムメモリ２１７２を含むことができる。ＧＰＧＰＵメモリ２７１８は、ＧＰＧＰＵ２７２０のアドレス空間内のメモリであり、システムメモリ２７１２の一部又は全部を含むことができる。一実施形態において、ＧＰＧＰＵメモリ２７１８はまた、もっぱらＧＰＧＰＵ２７２０による使用に専用の如何なるメモリの少なくとも一部も含むことができる。一実施形態において、システムメモリ２７１２に記憶されているコンパイル済みコード２７１４Ｂは、ＧＰＧＰＵ２７２０によるアクセスのためにＧＰＧＰＵメモリ２７１８にマッピングされ得る。

ＧＰＧＰＵ２７２０は、本願で記載されている様々な処理リソースの１つ以上を含むことができる複数の計算ブロック２７２４Ａ～２７２４Ｎを含む。処理リソースは、例えば、実行ユニット、計算ユニット、ストリーミング・マルチプロセッサ、グラフィクスマルチプロセッサ、又はマルチコアグループなどの多種多様な計算リソースであるか、又はそれを含むことができる。一実施形態において、ＧＰＧＰＵ２７２０は、行列演算（例えば、内積など）のサブセットを加速させるよう設計され得る１つ以上の特殊関数計算ユニットを含むことができるテンソル（例えば、行列）アクセラレータ２７２３を更に含む。テンソルアクセラレータ２７２３は、テンソルアクセラレータ又はテンソルコアとも呼ばれ得る。一実施形態において、テンソルアクセラレータ２７２３内のロジックコンポーネントは、複数の計算ブロック２７２４Ａ～２７２４Ｎの処理リソースにわたって分布してよい。

ＧＰＧＰＵ２７２０はまた、レジスタ２７２５の組、電力及び性能モジュール２７２６、及びキャッシュ２７２７を含むがこれらに限らない、計算ブロック２７２４Ａ～２７２４Ｎ及びテンソルアクセラレータ２７２３によって共有され得るリソースの組を含むこともできる。一実施形態において、レジスタ２７２５は、直接及び間接にアクセス可能なレジスタを含み、間接アクセス可能なレジスタは、テンソルアクセラレータ２７２３による使用のために最適化される。電力及び性能モジュール２７２６は、計算ブロック２７２４Ａ～２７２４Ｎが計算ブロック２７２４Ａ～２７２４Ｎ内のアイドル状態のコンポーネントをパワーゲーティングするための配電及びクロック周波数を調整するよう構成され得る。様々な実施形態において、キャッシュ２７２７は、命令キャッシュ及び／又は低電力データキャッシュを含むことができる。

ＧＰＧＰＵ２７２０は、テンソルアクセラレータ２７２３及び／又は計算ブロック２７２４Ａ～２７２４Ｎ内の計算要素によって統合メモリ２７１０からアクセスされたデータをキャッシュするために使用され得るＬ３データキャッシュ２７３０を更に含むことができる。一実施形態において、Ｌ３データキャッシュ２７３０は、計算ブロック２７２４Ａ～２７２４Ｎ内の計算要素及びテンソルアクセラレータ２７２３によって共有され得る共有ローカルメモリ２７３２を含む。

一実施形態において、ＧＰＧＰＵ２７２０は、フェッチ及び復号化ユニット２７２１並びにスケジューラコントローラ２７２２などの命令ハンドリングロジックを含む。フェッチ及び復号化ユニット２７２１は、計算ブロック２７２４Ａ～２７２４Ｎ又はテンソルアクセラレータ２７２３のうちの１つ以上による実行のために命令をフェッチ及び復号するフェッチユニット及び復号化ユニットを含む。命令は、スケジューラコントローラ２７２２により計算ブロック２７２４Ａ～２７２４Ｎ又はテンソルアクセラレータ２７２３内の適切な機能ユニットにスケジューリングされ得る。一実施形態において、スケジューラコントローラ２７２２は、高度なスケジューリング動作を実行するよう構成されるＡＳＩＣである。一実施形態において、スケジューラコントローラ２７２２は、ファームウェアモジュールからロードされたスケジューラ命令を実行することができるマイクロコントローラ又は低ＥＰＩ（energy-per-instruction）処理コアである。

一実施形態において、計算ブロック２７２４Ａ～２７２４Ｎによって実行されるいくつかの関数は、テンソルアクセラレータ２７２３に対して直接にスケジューリング又はオフロードされ得る。様々な実施形態において、テンソルアクセラレータ２７２３は、３Ｄグラフィクス又は計算シェーダプログラムによって使用される乗算及び加算演算並びに内積演算などの行列計算動作を効率的に実行するよう構成された処理要素ロジックを含む。一実施形態において、テンソルアクセラレータ２７２３は、機械学習フレームワークによって使用される動作を加速させるよう構成され得る。一実施形態において、テンソルアクセラレータ２７２３は、並列行列乗算及び／又は加算演算の特定の組を実行するよう明示的に構成された特定用途向け集積回路である。一実施形態において、テンソルアクセラレータ２７２３は、ワークロード間でアップデートされ得る固定関数ロジックを提供するフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）である。テンソルアクセラレータ２７２３によって実行され得る行列演算の組は、計算ブロック２７２４Ａ～２７２４Ｎによって実行され得る動作に対して制限されてよい。しかし、テンソルアクセラレータ２７２３は、計算ブロック２７２４Ａ～２７２４Ｎと比べてより高いスループットでこれらの演算を実行することができる。

図２８は、実施形態に従って、命令パイプライン２８００によって実行される行列演算２８０５を表す。命令パイプライン２８００は、例えば、内積演算などの、しかしこれに限られない行列演算の組を実行するよう構成され得る。２つのベクトルの内積は、ベクトルの対応する成分の積の和に等しいスカラー値である。内積は、以下の式（１）に示されるように計算され得る。

内積は、畳み込みニューラルネットワーク（ＣＮＮ）の畳み込み演算で使用され得る。図２８は、内積演算を含む行列演算２８０５を使用する２次元（２Ｄ）畳み込みを表す。２Ｄ畳み込みが表されているが、Ｎ次元畳み込みが、Ｎ次元フィルタを用いてＮ次元ボリュームに対して実行され得る。受容野タイル２８０２は、入力ボリュームバッファ２８０４における入力ボリュームの一部を強調する。入力ボリュームバッファ２８０４は、メモリ２８３０に記憶され得る。内積行列演算２８０５は、出力バッファ２８０６内のデータ点を生成するよう受容野タイル２８０２内のデータと畳み込みフィルタとの間で実行され得る。出力バッファ２８０６もメモリ２８３０に記憶され得る。メモリ２８３０は、図２７で見られたようなシステムメモリ２７１２、ＧＰＧＰＵメモリ２７１８、又は１つ以上のキャッシュ２７２７、２７３０を含む、本願で記載されているメモリのいずれかであることができる。

出力バッファ２８０６内のデータ点の組み合わせは、畳み込み演算によって生成される活性化マップを表す。活性化マップ内の各点は、入力ボリュームバッファ２８０４にわたって受容野タイル２８０２をスライドさせることによって生成される。活性化マップは、出力活性化値を決定するよう活性化関数に入力され得る。一実施形態において、入力ボリュームバッファ２８０４の畳み込みは、ハイレベル行列演算２８０５としてフレームワーク内で定義され得る。ハイレベル行列演算２８０５は、ＢＬＡＳ（basic linear algebra subprogram）演算などのプリミティブ演算により実行され得る。プリミティブ演算は、命令パイプライン２８００によって実行されるハードウェア命令により加速され得る。

ハードウェア命令を加速させるために使用される命令パイプライン２８００は、ハードウェア命令をフェッチ及び復号することができる命令フェッチ及び復号化ユニット２７２１と、計算ブロック２７２４Ａ～２７２４Ｎ及び／又はテンソルアクセラレータ２７２３内の１つ以上の処理リソースに復号された命令をスケジューリングすることができるスケジューラコントローラ２７２２とを含むことができる。一実施形態において、ハードウェア命令は、計算ブロック２７２４Ａ～２７２４Ｎにスケジューリングされ、テンソルアクセラレータ２７２３にオフロードされ得る。行列演算２８０５を実行するための１つ以上のハードウェア命令及び関連するデータは、メモリ２８３０に記憶され得る。ハードウェア命令の出力もメモリ２８３０に記憶され得る。

一実施形態において、テンソルアクセラレータ２７２３は、１つ以上のハードウェア命令を実行して、組み込まれたシストリックアレイ２８０８（ＤＰロジック）を用いて行列演算２８０５を実行することができる。シストリックアレイ２８０８は、内積演算を実行するよう構成されるプログラム可能なハードウェア及び固定機能ハードウェアの組み合わせを含む。計算ブロック２７２４Ａ～２７２４Ｎ内の機能ユニットも、内積演算を実行するよう構成され得るが、シストリックアレイ２８０８は、計算ブロック２７２４Ａ～２７２４Ｎと比べてより一層高いスループットで内積演算の限られたサブセットを実行するよう構成され得る。

図２９Ａ～２９Ｂは、いくつかの実施形態に従うハードウェアベースのシストリックアレイ２８０８の詳細を表す。図２９Ａは、単一のクロックサイクル内で複数の内積演算を実行するよう構成される複数の機能ユニットのグリッドを表す。図２９Ｂは、単一の、例示的な機能ユニットを表す。シストリック行列計算中、図２９Ａに示されるように、一実施形態において、シストリックアレイ２８０８は、様々な機能ユニットを用いて並列内積演算の組を実行するよう構成される。内積は、ＳＩＭＤデータが機能ユニットの複数のレイヤにわたってポンプされる‘シストリック’方式で実行され得る。シストリックアレイ２８０８は、グリッドで配置されている機能ユニットの集合である。機能ユニットのグリッドは、密集行進法（lockstep）で動作し、積和演算（multiply-accumulate）を実行するよう最適化される。シストリックアレイ２８０８によって作用される行列は、機能ユニットのグリッドにわたってポンプされるサブ行列に分けられる。

一実施形態において、シストリックアレイ２８０８は、設定可能なシストリックデプスを用いてデータの設定可能な数のＳＩＭＤチャネルを処理することができる。所与の命令については、ＳＩＭＤ幅及びシストリックデプスは、ソースデータの組を処理するよう選択され得る。シストリックデプスは、命令を処理するために使用されることになるハードウェアロジックのシストリックレイヤの数を定義する。シストリックレイヤは、可変なＳＩＭＤ幅を有する乗算器及び加算器ロジックユニットのグループであり、シストリックレイヤは、入力として初期アキュムレータ値を受け取ることができ、その後のシストリックレイヤへ又は出力レジスタへ出力される内積値を生成する。

いくつかの実施形態において、３つのソースが処理され得る。このとき、各ソースは、ベクトルレジスタ又はイミディエート（immediate）であることができる。一実施形態において、ソース２９００（ＳＲＣ０）は、１つ以上の初期アキュムレータ値であることができ、単一値又はアキュムレータ値のベクトルであることができる。初期アキュムレータ値は、最初のシストリックレイヤ内の各機能ユニットによって計算された内積の第１の組に加えられることになる。機能ユニットによって計算された内積は、所与のＳＩＭＤチャネルについての次のシストリックレイヤへ供給され得る。内積は、パケットデータの１つ以上のチャネルを含むことができるベクトルレジスタであるソース２９０１（ＳＲＣ１）及びソース２９０２（ＳＲＣ２）に基づいて計算され得る。各チャネルは４要素ベクトルを含む。一実施形態において、各チャネルは３２ビット幅であり、４つの８ビットベクトル要素を供給する。いくつかの実施形態は、８ビット要素、４ビット要素、及び／又は２ビット要素を有する入力ベクトルから内積を計算するよう構成される。一実施形態において、混合精度演算は、サポートされている要素サイズの任意の組み合わせ（例えば、８ビット×２ビット、８ビット×４ビット、４ビット×４ビット、など）を用いて実行され得る。一実施形態において、シストリックアレイ２８０８は整数計算のために構成されるが、自動固定小数点演算がいくつかの実施形態では設定可能である。本願で記載されている命令は４要素内積であるが、いくつかの実施形態では、シストリックアレイ２８０８はまた、ベクトルごとに異なった要素数で浮動小数点内積計算をサポートするよう構成されてもよい。

一実施形態において、４要素ベクトルの複数のチャネルは、様々な幅（例えば、６４ビット、１２８ビット、２５６ビット、５１２ビット、など）の単一ベクトルレジスタにパックされ得る。同時の内積が、ソース２９０１及びソース２９０２により供給されるベクトル要素の複数のチャネルについてシストリックアレイ２８０８により計算され得る。処理されるべきベクトル要素のチャネルの数は、内積計算のための選択された実行サイズ及びシストリックデプスに基づいて設定され得る。一実施形態において、指定された実行サイズ及び／又はシストリックデプスよりも広いソースベクトルは、シストリックアレイ２８０８の複数のサイクルを用いて計算されてよい。

所与のクロックサイクル内で実行され得る計算の数は、ＳＩＭＤレーン及びシストリックレイヤの数に基づいて様々であることができる。シストリックアレイ２８０８は、表されているように、４のシストリックデプスを用いてスループットのＳＩＭＤレーンごとに１６個の内積を実行することができる。８つのＳＩＭＤレーンについて構成される場合に、ロジックは、所与のサイクル内で１２８個の８ビット整数（ＩＮＴ８）内積を実行することができる。８つのＳＩＭＤレーン及び８のシストリックデプスについて構成される場合に、各レーンは、全部で３２個の８ビット整数（ＩＮＴ８）内積及び２５６個の内積を実行することができる。これらの具体的な演算の数は、一実施形態の例であり、他の実施形態は、スループットにおいて異なる。更には、データタイプが異なる場合には、演算の数は、異なるデータタイプに基づいて増減されることになる。

各機能ユニットで、内積は、乗算器及び加算器ロジックにより計算され、内積は、アキュムレータ値に加えられる。結果として得られるデータは、あて先レジスタへ出力されるか、あるいは、次のシストリックレイヤのアキュムレータへ供給することができる。機能ユニット２９１２の詳細は、図２９Ｂに示される。

図２９Ｂに示されるように、機能ユニット２９１２は、入力データバッファ２９０４、２９０６の組及びアキュムレータ２９２２を含むことができ、これらは夫々、入力データを受け入れることができる。一実施形態において、入力データバッファ２９０６は、入力データのパックされたベクトルであることができるソース２９０２（ＳＲＣ２）を受け入れることができる。入力データバッファ２９０４は、やはり入力データのパックされたベクトルであることができるソース２９０１（ＳＲＣ１）を受け入れることができる。アキュムレータ２９２２は、関数ユニット２９１２のための初期アキュムレータ値を供給するソース２９００（ＳＲＣ０）を受け入れることができる。初期アキュムレータ値は、ソース２９０１及びソース２９０２の要素から計算された内積に加えられる。内積は、乗算器２９２３Ａ～２９２３Ｄの組及び加算器２９２４を用いてソースベクトルの要素ごとの積（element-wise multiplication）により計算される。乗算器２９２３Ａ～２９２３Ｄは、積の組を計算するために使用される。積の組の和は、加算器２９２４によって計算される。和は、ソース２９００により供給された任意の初期値と積算（例えば、それに加算）され得る。一実施形態において、この積算された値は、入力値２６２６として、その後のシストリックレイヤに存在することができる次のアキュムレータへ供給され得る。一実施形態において、ソース２９０１は、入力データの複数のチャネルを含んでよい。ソース２９０１の更なるチャネルは、更なるＳＩＭＤレーン２９２８へ入力されるＳＲＣ１として中継され得る。一実施形態において、ソース２９０２は、入力データの複数のチャネルを含んでよい、ソース２９０２の更なるチャネルは、更なるシストリックデプス内のロジックユニットへのＳＩＣ２入力データとして使用され得る。一実施形態において、ソース２９００は、任意に、更なる機能ユニット内のアキュムレータへの入力として供給される更なるチャネルとともに、複数のチャネルを含むことができる。一実施形態において、ソース２９００は、最初のシストリックレイヤの各機能ユニット内の各アキュムレータへ加えられる単一の値であることができる。

図３０は、部分和ループバックと、スパース行列乗算を加速させる回路とを含むシストリックアレイ３０００を表す。上記のシストリックアレイ２８０８では、重みデータを含むオペランドは、アレイ内で固定であってよく、部分和は、アレイ構造にわたって伝搬される。シストリックアレイ２８０８に関する他の詳細が適用可能であり得る一方で、シストリックアレイ３０００では、部分和は、次のシストリックレイヤへ伝搬されるではなく再循環される。一実施形態において、シストリックアレイ３０００は、処理要素（ＰＥ３０１２ＡＡ～ＰＥ３０１２ＭＮ）のＭ行及びＮ列で構成され得る。処理要素は、入力行列の行及び列データの形で入力データを記憶しているレジスタにアクセスすることができる。レジスタは、シストリックアレイ３０００にローカルであるレジスタファイルに、又はシストリックアレイ３０００と結合されるか若しくはシストリックアレイ３０００を含む処理リソースのレジスタファイルに記憶されてよい。レジスタは、行列Ｂ３００１Ａ～３００１Ｎの列要素を乗じられるべきである行列Ａ３００２Ａ～３００２Ｍの行要素を記憶してよい。

一実施形態において、融合積和（fused multiply-add，ＦＭＡ）は、クロックサイクルごとに各処理要素ＰＥ３０１２ＡＡ～ＰＥ３０１２ＭＮで実行され得る。行列Ａの要素は、行列Ｂの対応する要素を乗じられ、次いで、アキュムレータ値、又は、最初のサイクルについては、任意の初期入力値（例えば、ＳＲＣ０）に加えられる。部分和ループバックは、各処理要素で構成され得る。各サイクル後に、アキュムレータ値は、処理要素内でループバックされ、次のサイクルのための入力として使用されてよい。動作が行全体について実行されると、結果はレジスタファイルに記憶されてよい計算サイクルの組の後の処理要素ＰＥ３０１２ＡＡ～ＰＥ３０１２ＭＮの間のデータ移動は、実行される命令又はマクロ演算に基づいて様々であることができる。

［圧縮によるデータアウェアのスパース性］
本願で記載されている実施形態は、データに関連したニューラルネットワークを処理するときに伝送又は記憶されるよう求められるデータの量を減らす削減ビットフォーマルでスパースニューラルネットワークデータのサンプルブロックが符号化されることを可能にする符号化レイアウトを提供する。サンプルブロック内の非ゼロ値の数は、ヘッダで示され、その後に、ブロック内の非ゼロ値のマップを示す有効性写像（significance map）が続く。サンプルの非ゼロ値は、ストリーム内の出現の順に符号化される。一実施形態において、圧縮は、ゼロ値を超える他の値に基づくことができる。例えば、データセット内の指定された値が符号化され、圧縮されたデータストリームから除かれてよく、１、２、又は他の指定値に基づいて圧縮を可能にする。一実施形態において、圧縮は、近い値（near values）に基づいて有効にされる。ゼロの閾値内、又は指定値の閾値内にあるデータセット内の値は、それらの値がゼロであるか又は指定値の閾値内にあるかのように、圧縮されてよい。圧縮によるデータアウェアのスパース性は、行列アクセラレータロジックと結合された又はその中のコーデックロジックにより有効にされ得る。

図３１Ａ～３１Ｂは、圧縮されたフォーマットでのスパースデータの読み出しを可能にするコーデックを含む行列アクセラレーションロジックを表す。図３１Ａは、コーデックにより有効にされた非凝集シストリックロジックを含む計算ブロック３１００を表す。図３１Ｂは、入力データを圧縮解除するようコーデックと結合されるシストリックアレイ内の処理要素を表す。

図３１Ａに示されるように、図２８で見られるように別個のテンソルアクセラレータ２７２３にシストリックアレイ２８０８を含めること、又は図１９で見られるように各実行ユニット１９００にシストリックアレイ１９１２を含めることに代えて、シストリックアレイ３１１２Ａ～３１１２Ｂの分解された組は、図２７の計算ブロック２７２４Ａ～２７２４Ｎのうちの１つに類似している計算ブロック３１００に含まれ得る。計算ブロック３１００はまた、ＥＵ１８０８Ａ～１８０８Ｎに類似し得る複数の相互接続された処理リソース（ＰＲ３１０８Ａ～３１０８Ｏ）又は本願で記載されているその他処理リソースを含む、図１８Ａの実行ロジック１８００のコンポーネントも含むことができる。一実施形態において、シストリックアレイ３１１２Ａ～３１１２Ｂは、処理のために受け取られる入力及び出力データの符号化及び復号化を可能にするコーデック３１２４Ａ～３１２４Ｂを含む。

シストリックアレイ３１１２Ａ～３１１２Ｂは、本願で記載されている他のシストリックアレイと同様に、シストリック方式でベクトル又は他のデータ並列演算を実行するために使用され得るデータユニットのＷ幅及びＤディープのネットワークを含む。一実施形態において、シストリックアレイ３１１２Ａ～３１１２Ｂは、行列内積演算などの行列演算を実行するよう構成され得る。一実施形態において、シストリックアレイ３１１２Ａ～３１１２Ｂは、８ビット及び４ビット整数演算に加えて、１６ビット浮動小数点演算をサポートする。一実施形態において、シストリックアレイ３１１２は、機械学習動作を加速させるよう構成され得る。そのような実施形態では、シストリックアレイ３１１２は、ｂｆｌｏａｔ１６ビット浮動小数点フォーマットの支援を受けて構成され得る。計算ブロック１２００内に、しかしＰＲ３１０８Ａ～３１０８Ｏの外にシストリックアレイ３１１２Ａ～３１１２Ｂを含めることによって、シストリックアレイ３１１２Ａ～３１１２Ｂのサイズ及び数は、ＰＲ３１０８Ａ～３１０８Ｏから独立してスケーリングされ得る。更に、シストリックアレイアクティブティによってさもなければ消費されることなるＰＲ内の通信バンド幅は、保たれ得る。更には、シストリックアレイ３１１２Ａ～３１１２Ｂは、行列ワークロードが実行中でないときにはクロック／パワーゲーティングされてよい。

シストリックアレイ３１１２Ａ～３１１２ＢとＰＲ３１０８Ａ～３１０８Ｏとの間の通信は、キャッシュ又は共有ローカルメモリ（キャッシュ／ＳＬＭ３１１０）及び／又は共有レジスタファイル３１１４を介して実行されてよい。一実施形態において、相異なる共有レジスタファイル３１１４の代わりに、キャッシュ／ＳＬＭ３１１０は、共有レジスタファイルとしての使用のためにパーティション化されてよい。共有レジスタファイル３１１４は、図１９で見られたようなレジスタファイル１９０６などの他のＧＰＧＰＵレジスタファイルと同様に構造化されてよい。共有レジスタファイルはまた、シストリックアレイ３１１２Ａ～３１１２ＢとＰＲ３１０８Ａ～３１０８Ｏとの間のインタラクションを構成するために使用される専用レジスタの組を含んでもよい。キャッシュ／ＳＬＭ３１１０は、Ｌ１キャッシュ、Ｌ２キャッシュ、及び／又は明示的にアドレス可能なオンダイメモリのブロックであってよい。

シストリックアレイ３１１２Ａ～３１１２Ｂにより処理する行列データは、キャッシュ／ＳＬＭ３１１０に記憶されてよい。処理コマンド又は命令は、共有レジスタファイル３１１４を介してシストリックアレイ３１１２Ａ～３１１２Ｂへ供給され得る。処理結果は、ＰＲ３１０８Ａ～３１０８Ｏによってキャッシュ／ＳＬＭ３１１０から、又は共有レジスタファイル内のあて先／出力レジスタから、読み出されてよい。動作中、ＰＲ３１０８Ａ～３１０８Ｏ内のバス／ファブリックバンド幅を消費するのではなく、通信トラフィックは、シストリックアレイ３１１２Ａ～３１１２Ｂ、キャッシュ／ＳＬＭ３１１０、及び／又は共有レジスタファイル３１１４にローカライズされてよい。計算ブロック３１００内のＰＲ３１０８Ａ～３１０８Ｏのいずれかは、シストリックアレイ３１１２Ａ～３１１２Ｂの一方又は両方へ行列ワークロードをオフロードしてよい。メッセージが、実行されるべき演算及びその演算のためのオペランドを指定するコマンドとともにＰＲからシストリックアレイへ送られてよい。シストリックアレイ３１１２Ａ～３１１２Ｂは、要求されている演算（乗算／加算、融合積和、乗算／積算、内積、など）を実行し、結果を共有レジスタファイル３１１４へ出力することができる。要求されている演算の入力、中間、及び／又は出力データは、キャッシュ／ＳＬＭ３１１０に記憶されてよく、複数の依存した演算が連鎖してよい。一実施形態において、ニューラルネットワークの訓練又は推論のための演算を処理するとき、シストリックアレイ３１１２Ａ～３１１２Ｂはまた、ＲｅＬＵ及びバイパーボリックタンジェント（ＴａｎＨ）活性化を含むがこれらに限られない活性化関数を実行してもよい。そのような実施形態では、ニューラルネットワークに対する演算は、粗粒度でシストリックアレイ３１１２Ａ～３１１２Ｂへオフロードされてよい。

ＰＲ３１０８Ａ～３１０８Ｏは、圧縮されたフォーマットでシストリックアレイ３１１２Ａ～３１１２Ｂへ入力データを供給することができ、コーデック３１２４Ａ～３１２４Ｂは、データを圧縮解除するために使用され得る。出力データがＰＲ３１０８Ａ～３１０８Ｏへ供給する準備ができているとき、データは、ＰＲが動作を実行することになっており、圧縮されたデータの直接読み出しをサポートしない場合に、圧縮解除されたままであってよい。ＰＲ３１０８Ａ～３１０８Ｏが圧縮されたデータの読み出しをサポートするか、あるいは、データに対して更なる動作を実行しない場合には、出力データは再符号化されてよい。ゼロベースの符号化が使用されてよく、圧縮は、データスパース性の程度に基づいて有効又は無効にされてよい。代替的に、他の形式の符号化が、処理又は出力されるべきデータの分布に基づいて使用されてもよい。例えば、コーデック３１２４Ａ～３１２４Ｂは、ゼロベース圧縮に基づいて、又は本願で記載されている他の形式の圧縮（例えば、１ベース、２ベース、ゼロに近い、１に近い、２に近い、など）を用いて符号化されているスパースデータを復号するよう構成され得る。

図３１Ｂに示されるように、システム３１５０は、シストリックアレイ３０００の処理要素を表し、シストリックアレイ３０００は、圧縮されたスパースデータを復号するよう構成される。図３０に関して記載されるように、各ＰＥ３０１２ＡＡ～３０１２ＭＮは、行列演算の計算を実行するハードウェアロジックを含む。Ａ（Ａ０、Ａ１、乃至ＡＭ）及びＢ（Ｂ０、Ｂ１、乃至ＢＮ）は、内積、行列乗算、乗算／加算、又は積和演算に関連した入力行列の要素である。一実施形態において、各ＰＥ３０１２ＡＡ～３０１２ＭＮは、実行されるべき演算に関連した圧縮された入力オペランドを復号するコーデック（３１５０ａ、３１５０ｂ、・・・、３１５０ｍ；３１５２ａ、３１５２ｂ、・・・、３１５２ｎ）に関連する。コーデックは、ゼロベースの圧縮に基づいて、又は本願で記載されている楽し形式の圧縮を用いて符号化されているスパースデータを復号するよう構成され得る。

スパースニューラルネットワークデータは、例えば、一意絶対値（unique absolute value，ＵＡＶ）テーブル符号化、有効性写像（ＳＭ）符号化、テーブル符号化（ＴＥ）、一意値座標（unique value coordinate，ＵＶＣ）符号化、及び平均符号化（mean encoding，ＭＥ）などの、しかしこれらに限られない様々な符号化技術を用いて符号化（又は圧縮）され得る。符号化されたデータのメタデータは、データに使用される符号化フォーマットのタイプを示す。一実施形態において、特定の符号化フォーマットが、カーネルデータ又は特徴データなどの特定のタイプのデータのために選択され得る。一実施形態において、適切なエンコーダがデータの各ブロックについて選択されることを可能にするために、統計解析が符号化の前にデータに対して実行される。符号化は、ゼロベースの符号化若しくは近ゼロ符号化であってよく、あるいは、他の値（１、２、など）に基づいてもよい。

一実施形態において、ＳＭ符号化中に生成されたデータは、シストリックテンソルアレイへの圧縮されたデータの供給を助けるために使用され得る。ゼロベースのＳＭ符号化モードでは、ブロック内の非ゼロ値のみが符号化される。サンプルブロック内の非ゼロ値の数は、ヘッダで示され、その後に、ブロック内の非ゼロ値のマップを示す有効性写像が続く。次いで、サンプルに非ゼロ値は、ストリーム内の出現の順に符号化される。

図３２Ａ～３２Ｂは、実施形態に従って、スパースニューラルネットワークデータに対するゼロベースＳＭ符号化を表す。図３２Ａは、ゼロベースＳＭ符号化のための符号化レイアウト３２２０を表す。図３２Ｂは、例となるＳＭ符号化ビットストリームの復号化を表す。

図３２Ａに示されるように、符号化レイアウト３２２０は、スパースニューラルネットワークデータのサンプルブロックが、伝送又は記憶される必要があるデータの量を、データに関連したニューラルネットワークを処理するときに低減するビット削減フォーマルで、符号化されることを可能にする。表されている符号化レイアウト３２２０では、サンプルブロック内の非ゼロ値の数は、ヘッダ３２２２で示され、その後に、ブロック内の非ゼロ値のマップを示す有効性写像３２２４が続く。サンプルに非ゼロ値３２２６は、ストリーム内の出現の順に符号化される。

図３２Ｂに示されるように、符号化されたビットストリームデータは、有効性写像データに基づいて復号され得る。一実施形態において、ＳＭ符号化モードデータは、２バイトヘッダ後の３番目のバイトを発端に提示され、ＳＭ符号化の存在は、データの符号化されたストリームの初めにビットストリームヘッダ（図示せず）の最初のビットによって示される。サンプルブロック内の非ゼロ値の数は、ヘッダ３２２２で示される。一実施形態において、符号化フォーマットのタイプは、サンプルブロックごとに変化し得るので、ヘッダ３２２２はまた、サンプルの来たるべきブロックに対してＳＭ符号化が有効にされていることを示すメタデータを含むこともできる。有効性写像３２２４は、サンプルブロック内の非ゼロ値のマップを示し、１ビットエントリが各値に関連する。次いで、サンプルの非ゼロ値３２２６は、ストリーム内の出現の順に符号化される。有効性写像データを、例示的な、復号されたビットストリーム３２３０に復号するために、デコーダロジックは、出力データバッファ３２１０の少なくとも一部をゼロに初期化することができる。デコーダロジックは、次いで、ビットストリーム内のどの値が非ゼロであるかを決定するために有効性写像３２２４を参照することができる。非ゼロ値は、順次にアンパックされ、有効性写像によって示される出力データバッファ３２１０内の位置に書き込まれ得る。例えば、有効性写像３２２４内のゼロ（０ｂ０）の値は、対応する復号された値がゼロであることを示す。有効性写像３２２４内の１（０ｂ１）の値は、対応する復号された値が、符号化されたビットストリーム内の非ゼロ値３２２６における次の連続したエントリに対応することを示す。

一実施形態において、ゼロに近い値を、それらの値がゼロであるかのように符号化する不可逆近ゼロ符号化（lossy near-zero encoding）が、有効にされ得る。若干の精度が失われる一方で、この精度の喪失は、推論データのためのいくつかの環境下で受け入れ可能であり得る。不可逆近ゼロ符号化は、訓練後データ内でスパース性を引き起こすために使用され得る明示的な重みプルーニング動作の代わりとして使用され得る。

図３３Ａ～３３Ｂは、実施形態に従って、スパースニューラルネットワークデータのための指定値ＳＭ符号化を表す。図３３Ａは、指定値ＳＭ符号化のための符号化レイアウト３３２０を表す。図３３Ｂは、例示的な指定値ＳＭ符号化ビットストリームの復号化を表す。

図３３Ａに示されるように、符号化レイアウト３２２０に類似した符号化レイアウト３３２０が使用されてよく、指定値有効性写像符号化が有効にされることを示す異なるヘッダ３３２２と、ビットストリームを符号化するときにスキップされることになる値を指定する指定値３３２３とを有する。有効性写像３３２４は、残余値３２２６内のデータがａｎ泊されるべきである出力バッファ内の位置を識別する。

図３３Ｂに示されるように、符号化されたビットストリームデータは、図３２Ｂで見られたのと類似した方法で、有効性写像データに基づいて復号され得る。ヘッダ３３２２は、指定値有効性写像が有効にされることを特定するビットフィールドを含む。指定値３３２３は、有効性写像３３２４によってスキップされることになる値を識別する。サンプルブロック内の残余値３３２６の数は、ヘッダ３３２２で示される。一実施形態において、符号化フォーマットは、サンプルブロックごとに変化し得るので、ヘッダ３３２２はまた、
サンプルの来たるべきブロックに対して指定値ＳＭ符号化が有効にされていることと、を使用されることになる指定値３３２３と示すメタデータを含むこともできる。有効性写像３３２４は、サンプルブロック内の残余値のマップを示し、１ビットエントリが各残余値に関連する。サンプルの残余値３３２６は、次いで、ストリーム内の出現の順に符号化される。指定値有効性写像データを、例示的な、復号されたビットストリーム３３３０に復号するために、デコーダロジックは、出力データバッファ３２１０の少なくとも一部を指定値３３２３に初期化することができる。デコーダロジックは、次いで、ビットストリーム内のどの値が残余であるかを決定するために有効性写像３３２４を参照することができる。残余値は、順次にアンパックされ、有効性写像によって示される出力データバッファ３３１０内の位置に書き込まれ得る。例えば、有効性写像３３２４内のゼロ（０ｂ０）の値は、対応する復号された値が指定値３３２３であることを示す。有効性写像３２２４内の１（０ｂ１）の値は、対応する復号された値が、符号化されたビットストリーム内の残余値３３２６における次の連続したエントリに対応することを示す。

一実施形態において、指定値に近い値を、それらの値があたかも指定値に等しいかのように符号化する不可逆指定値符号化が、有効にされ得る。若干の精度が失われる一方で、この精度の喪失は、推論データのためのいくつかの環境下で受け入れ可能であり得る。

上記の技術を用いて、当業者は、例えば、スパース行列演算を加速させるよう構成された行列アクセラレータを有する汎用グラフィクス処理ユニットを実装してよい。行列アクセラレータは、複数の行列要素を含む入力データを復号するハードウェアデコーダを含むことができる。入力データは、圧縮されたフォーマットで受け取られ、行列アクセラレータによって処理される前にハードウェアデコーダによって復号されてよい。一実施形態において、行列アクセラレータは、一実施形態において、シストリックアレイとして構成される複数の処理要素を含む。シストリックアレイの複数の処理要素は、シストリックアレイ全体よりも小さい処理要素のグループについて、又は処理要素ごとに入力データを復号するデコーダを含んでよい。

一実施形態において、圧縮されたフォーマットで受け取られるデータは、ゼロベースの圧縮に基づいて符号化されている。一実施形態において、圧縮されたデータは、ゼロの閾値内にある値がゼロ値にセットされる近ゼロフォーマットで符号化されている。一実施形態において、データは、指定値圧縮に基づいて符号化されている圧縮されたフォーマットで受け取られる。一実施形態において、圧縮されたデータは、指定値の閾値内の値が指定値にセットされる近指定値フォーマットで符号化されている。

［ブロックスパース内積演算］
様々な技術が、結果の受け入れ可能な精度を保ちながら、計算速度及び／又は効率を改善するために、ディープニューラルネットワーク（ＤＮＮ）の技術で適用される。ＤＮＮモデルのいくつかのタイプについて、演算の計算精度は、モデルの精度を大幅に下げずに下げられ得ることが決定されてきた。計算精度を下げることに加えて、例えば、３６ビット浮動小数点値の代わりに１６ビット浮動小数点値を使用して訓練すること、又は整数値を用いて推論動作を実行することによって、訓練技術は、ＤＮＮモデルに関連した重み値にスパース性を導入するよう適応可能である。スパース性は、ゼロ値を有するＤＮＮの重みの比率を指す。より高いスパース性は、より小さい計算及び記憶要求をもたらす、より少ない重みに対応する。ゼロ値の重みによれば、それらの重みを用いて実行される如何なる乗算も、バイパスされてよく、モデルは、スパース行列フォーマットを用いてコンパクトに記憶及び伝送され得る。経験的結果は、ＤＮＮが高レベルのスパース性の最小限又は許容可能な精度の低下に耐えることができることを示している。この傾向を考えると、ＤＮＮモデルのための訓練及び推論動作を実行するために使用されるＧＰＧＰＵ及び並列プロセッサハードウェアを適応させることが有益である。

図３４Ａ～３４Ｂは、ニューラルネットワークのための訓練データ内の構造化されていないスパース性とブロックスパース性との間の比較を表す。図３４Ａは、構造化されていないスパース性とブロックスパース性との間の比較を表す。図３４Ｂは、ニューラルネットワークのための重みのブロックプルーニングを表す。

図３４Ａに示されるように、ＤＮＮモデルのスパース性の最小限又は、行列３４０２で見られるような不規則なスパース性、又は行列３４０４で見られるようなブロックスパース性の形をとってよい。行列３４０２で見られるような不規則なスパース性は、訓練中に当然に起こる可能性があり、あるいは、プルーニング技術が、最小閾値を下回るゼロアウト重み値に適用されてもよい。行列３４０４で見られるようなブロックスパース性は、ブロックごとのプルーニングによって導入され得る。ブロックサイズが定義されてよく、最小絶対的大きさを下回るブロックはプルーニングされてよい。

図３４Ｂに示されるように、重みプルーニングは、ブロック内の重み値を合算し、重みの絶対的大きさが閾値を下回る場合にはブロック内の全ての重みをゼロにセットすることによって、ＤＮＮモデルが訓練された後に実行されてよい。行列３４１２は、例えば、０．４の重み閾値及び４×４ブロックを使用することによって、ブロックスパース行列３４１４にプルーニングされてよい。各４×４ブロックについて、ブロック内の重みは、合算されてよく、閾値を下回る絶対的大きさを有している如何なるブロックも、その重みをゼロにセットされてよい。このようなブロックを伴う行列乗算演算は、推論中にバイパスされてよい。

一実施形態において、シストリックアレイでのブロックスパース演算は、ブロックスパースデータに対して内積演算を実行することをブロックスパースマクロ命令に可能にすることによって、最適化されてよい。内積命令（ｄｐ４ａ、ｄｐ２ａ）のシーケンスは、ブロックスパースマクロ命令（ｄｐＸａＶ）の受信に応答してＧＰＧＰＵ内の内部で生成されてよい。一実施形態において、ビットフィールドは、行列Ａの行がブロックスパースマクロ命令へ入力として供給されるためのスパース性の程度を示すよう生成される。マクロ命令は、行列の要素に対して連続した内積演算を実行するよう命令及びオペランドの組を自動的に生成するためにビットフィールドを使用することができる。内積命令は、行列Ａの行要素及び行列Ｂの列要素のスカラー積を生成するために使用され得る。命令に対する行列Ａの全ての入力値がゼロになる場合に、その行に対する内積命令は、結果がゼロになるということで、スキップされ得る。処理されるべき１つ以上の行列Ａ要素がゼロであるが、全ての要素ではない場合に、予測マスクが、特定のゼロ値要素に対する乗算を無効にするために使用され得る。

図３５Ａ～３５Ｂは、内積ロジックによって実行可能な内積命令３５００を表す。図３５Ａは、実施形態によって提供されるシストリック行列ロジックによって実行可能な累積を伴った４要素内積の命令のフィールドを表す。図３５Ｂは、シストリック行列ロジックを用いて累積を伴った４要素内積の計算中に実行される要素ワイズの計算を表す。

図３５Ａに示されるように、累積を伴った４要素内積の命令３５００は、シストリック行列アクセラレータに累積を伴った４要素内積を実行させるために使用され得る。一実施形態において、命令３５００は、述部（predicate）フィールド３５０２、オペコード（opcode）フィールド３５０４、条件付き修飾子（modifier）フィールド３５０６、実行サイズフィールド３５０８、及びあて先（destination）３５１０を指定するオペランドフィールド、０番目ソース３５１２（ｓｒｃ０）、１番目ソース３５１４（ｓｒｃ１）、２番目ソース３５１６（ｓｒｃ２）、及びシストリックデプス３５１８（ｓｄｅｐｔｈ）を含む。述部フィールド３５０２は、図３５Ｂで見られるような述部マスク（predicate mask）３５６２を指定することができる。図３５Ｂを参照すると、述部マスクは、命令の実行チャネルを有効化又は無効化するために使用され得るので、特定の要素に対する出力生成は無効にされる。様々な実施形態において、無効にされたチャネルは、実行をバイパスしてよく、あるいは、実行ロジックが無効にされたチャネルに関連したアーキテクチャ状態を変更することを防ぎながら実行してもよい。一実施形態において、実行の出力は、コミットされずに捨てられてよい。述部マスク３５６２の全ての要素がゼロであるとき、命令の全ての演算はバイパスされてよい。ｄｐ４ａＶベクトル命令が複数のｓｐ４ａｓ命令を生成するために使用中である場合に、ｄｐ４ａｓ命令の生成は、述部マスク３５６２がゼロであるときにバイパスされ得る。

図３５Ａを再び参照すると、オペコードフィールド３５０４は、実行ロジックに対して命令３５００を識別するオペコードを指定することができる。一実施形態において、オペコードフィールド３５０４は、有効にされる場合に、命令が本願で記載されている行列アクセラレータ（例えば、テンソルアクセラレータ２７２３）によって実行されるべきであることを示す１つ以上のビットを含む。一実施形態において、オペコードフィールド３５０４はまた、命令が専用内積ロジック、例えば、行列アクセラレータ内の内積ロジック（例えば、内積ロジック１６０８）によって実行されるべきであることを指定する１つ以上のビットを含むこともできる。

条件付き修飾子フィールド３５０６は、符号、ゼロ、オーバーフロー、非数（not-a-number，ＮａＮ）などのような、実行パイプラインから出力された内部条件信号に基づいてフラグレジスタをセットするために使用され得る。このフィールドが００００にセットされる場合には、フラグレジスタは更新されない。一実施形態において、サポートされる条件には、ゼロ又はイコール（Zero or Equal）、非ゼロ又は非イコール（Not Zero or Not Equal）、より大きい（Greater-than）、以上（Greater-than-or-equal）、未満（Less-than）、以下（Less-than-or-equal）、オーバーフロー（Overflow）、及び計算された非数による順序なし（Unordered with Computed NaN）を含まれるが、これらに限られない。更には、いくつかの構成では、ソース修飾子フィールドが有効にされてもよい。

実行サイズ３５０８（ｅｘｅｃ＿ｓｉｚｅ）は、命令３５００のための実行チャネルの数を指定する。４要素内積命令の場合に、一実施形態において、実行チャネルの数は、計算が実行されることになる４要素ベクトルの対の数を指定するために使用され得る。

あて先３５１０、０番目ソース３５１２（ｓｒｃ０）、１番目ソース３５１４（ｓｒｃ１）、２番目ソース３５１６（ｓｒｃ２）は、計算が書き込まれるあて先と、ソースデータが読み出され得る位置とを指定するために使用され得る。一実施形態において、あて先３５１０は、データが書き込まれるべきレジスタを指定することができる。一実施形態において、あて先３５１０は、スカラーレジスタであることができるが、いくつかの実施形態では、あて先は、複数のチャネルからの出力を記憶するベクトルレジスタであることもできる。例えば、単一の４要素チャネルが指定される場合に、単一の内積が、あて先で単一の出力チャネルに書き込まれ得る。複数の４要素チャネルが指定される場合に、複数の内積が、ベクトルあて先レジスタに書き込まれ得る。０番目ソース３５１２、１番目ソース３５１４、及び２番目ソース３５１６は、ソースデータの１つ以上のチャネルを含むレジスタ又は即値（immediate value）であることができ、各チャネルが、内積ロジックによって処理されるべき４つの要素（例えば、図２９Ａ～２９Ｂで見られるようなソース２９００、ソース２９０１，及びソース２９０２による）を有している。一実施形態において、ソースごとの４つの要素は、図３０で見られるようなシストリックアレイ３０００の処理要素へ供給されてよい。シストリックデプス３５１８（ｓｄｅｐｔｈ）は、入力データを処理するために使用すべきシストリックレイヤの数を指定するために使用され得る。一実施形態において、シストリックデプス３５１８は、即値として供給され得る。

いくつかの実施形態において、表されているもの以外の追加のフィールドが存在してもよい。例えば、一実施形態において、ソース修飾子フィールドが存在し、これは、ソースオペランドの数値修正を指定する。ソースオペランドの各データ要素の値は、任意に、実行パイプラインへの供給の前に、その絶対値を取られたり、かつ／あるいは、その符号は反転されたりすることができる。絶対値修飾子は、保証された負値が生成され得るように、ネゲート修飾子より前に適用され得る。一実施形態において、飽和（saturation）フィールドが存在し、これは、あて先飽和を制御するために使用され得る。飽和が有効にされる場合に、あて先レジスタへの出力データは飽和する。特定の飽和動作は、あて先データタイプに依存する。飽和は、データタイプの飽和目標範囲の外にある如何なるデータも、目標範囲により最も近い表現値に変換する動作である。

命令の要素ワイズの動作は、図３５Ｂに示されている。一実施形態において、シストリック行列アクセラレータの内積ロジック内のハードウェアバッファ、一時レジスタ、又は内部レジスタは、１番目ソース３５１４のチャネル３５２４の要素Ａ３～Ａ０を記憶することができる。追加のハードウェアバッファ又は一時レジスタは、２番目ソース３５１６のチャネル３５２６の要素Ｂ３～Ｂ０を記憶することができる。要素は、本願で記載されているシストリックテンソルアレイ内の内積ロジックの機能ユニット（例えば、図２９Ａの機能ユニット２９１２）にロードされ得る。乗算器（例えば、図２９Ｂの乗算器２９２３Ａ～２９２３Ｄ）の組は、積の組３５３４を生成することができる。積の組は、加算器（例えば、図２９Ｂの加算器２９２４）にロードされ得る。

加算器は、既存のアキュムレータ値３５２２（例えば、Ｃ０）と累積され得る積の組の和３５３５を生成することができる。既存のアキュムレータ値３５２２は、命令３５００により供給される初期アキュムレータ値であることができ、あるいは、前のシストリックレイヤによって供給されるアキュムレータ値であることができる。積の組の累積された和３５３５は、次いで、命令３５００によって指定されているあて先３５１０であることができるあて先３５３８へ出力され得るか、あるいは、次のシストリックレイヤの初期アキュムレータ値３５３６としてロードされ得る。シストリックレイヤによって出力される累積された和のあて先は、所与のシストリックレイヤがチェーン内の最後のレイヤであるかどうかに基づいて決定され得る。ここで、レイヤの数は、シストリックデプスによって指定される。

図３６Ａ～３６Ｂは、本願で記載されている実施形態に従って、内積ロジックによって実行可能な命令３６００を表す。図３６Ａは、実施形態によって提供されるシストリック行列ロジックによって実行可能な累積を伴った２要素内積の命令のフィールドを表す。図３６Ｂは、シストリック行列ロジックを用いて累積を伴った２要素内積の計算中に実行される要素ワイズの計算を表す。

図３６Ａは、実行される場合に、シストリック行列アクセラレータに累積を伴った２要素内積を実行させる、累積を伴った２要素内積の命令のフィールドを表す。一実施形態において、命令３６００は、述部フィールド３６０２、オペコードフィールド３６０４、条件付き修飾子フィールド３６０６、実行サイズフィールド３６０８、及びあて先３６１０を指定するオペランドフィールド、０番目ソース３６１２（ｓｒｃ０）、１番目ソース３６１４（ｓｒｃ１）、２番目ソース３６１６（ｓｒｃ２）、及びシストリックデプス３６１８（ｓｄｅｐｔｈ）を含む。表されているフィールドの夫々は、オペコードフィールド３６０４が２要素内積を指定し、各オペランドが４つではなく２つのパックされた要素を有しているベクトルを指定することを除いて、命令３５００のそれらと同様であってよい。

述部フィールド６５０２は、図３６Ｂで見られるような述部マスク３６６２を指定することができる。図３６Ｂを参照すると、述部フィールド３５０２及び述部マスク３５６２と同様に、述部マスク３６６２は、命令の実行チャネルを有効化又は無効化するために使用され得るので、特定の要素に対する出力生成は無効にされる。表されている述部マスク３６６２は、要素Ａ０が非ゼロであり、一方、要素Ａ１がゼロであることを示す。行列Ａ入力のこの組について、命令は、内積演算を実行して、入力チャネル３６２４のＡ０にチャネル３６２６のＢ０を乗じるよう生成され得る。Ａ０×Ｂ０のみを含む積の組３６３４が生成され得、これは、次いで、既存のアキュムレータ値３６２２（例えば、Ｃ０）を乗じられてよい。次いで、積の組の累積された和３６３５は、命令３６００によって指定されているあて先３５６０であることができるあて先３６３８へ出力され得るか、あるいは、次のシストリックレイヤの初期アキュムレータ値３６３６としてロードされ得る。シストリックレイヤによって出力される累積された和のあて先は、所与のシストリックレイヤがチェーン内の最後のレイヤであるかどうかに基づいて決定され得る。ここで、レイヤの数は、シストリックデプスによって指定される。

図３７Ａ～３７Ｄは、スパース入力に対してゼロスキップを伴ったスパース内積演算を有効にする命令及び関連するハードウェアロジックを表す。図３７Ａは、スパース内積命令３７００のためのフォーマットを表す。図３７Ｂは、スパース内積命令３７００の復号化を可能にするハードウェア復号化ロジック３７１０を表す。図３７Ｃは、本願で記載されているスパース内積命令３７００の復号化及び実行を可能にするよう構成された実行ロジック３７２０を表す。図３７Ｄは、スパース内積命令を実行するよう構成されたハードウェアによって実行される方法３７５０を表す。

図３７Ａに示されるように、一実施形態は、１つ以上の入力ベクトルに対して自動のゼロスキップを伴って内積命令のシーケンスを実行するスパース内積命令（ｄｐＸａＶ命令３７００）のためのハードウェアサポートを提供する。ｄｐＸａＶ命令は、４要素スパース内積命令（ｄｐ４ａＶ）及び２要素スパース内積命令（ｓｐ２ａＶ）を表す。ｄｐＸａＶ命令３７００のためのフォーマットは、述部（ｐｒｅｄ３７０２）、繰り返し回数が追加された命令オペコード３７０４（ｄｐＸａ．Ｒｃｏｕｔ）、あて先オペランド（ｄｓｔ３７０６）、及び複数のソースオペランド（ｓｒ０３７０７、ｓｒｃ１３７０８、ｓｒｃ２３７０９）を含む。一実施形態において、述部値は、フラグレジスタに基づいて決定され、述部マスクのビットは、チャネルのアレイではなく、個々の内積命令のアレイに対して述部（predication）を適用する。従って、述部マスクは、ｄｐＸａＶ命令３７００によって表される命令の組の中の特定の命令の生成を有効化又は無効化するために使用され得る。所与の生成された命令については、要素ワイズの述部が、特定の行列Ａ要素に対して演算を無効にするために使用され得る。

一実施形態において、ｄｐＸａＶ命令３７００は、復号化中に複数の追加の命令に展開されるハードウェアマクロ命令として実装される。そのような実施形態では、繰り返し回数３７０４の値は、実行リソース内で１回に展開される命令の数を示す。例えば、以下の表５に示されるｄｐ４ａＶ．８命令は、複数の内積演算に実行リソース内で展開されてよい。

上記の表５内の命令については、繰り返し回数３７０４は８である。供給されたオペランドは、展開された命令の組の中の最初の命令のための初期オペランドを表す。その後の命令のためのオペランドは、展開中に生成される。オペランド展開は、＜ｄｓｔ＞３７０６及び＜ｓｒｃ０＞３７０７の連続するレジスタ並びにｓｒｃ２３７０９の連続するサブレジスタのブロックを利用し、連続するレジスタ／サブレジスタの数は、繰り返し回数３７０４の値に基づいて決定される。フラグレジスタの値に基づいて、命令の組の中の特定の命令に対する展開は、例えば、ゼロスキップがスパース入力に対して実行される場合に、バイパスされ得る。

図３７Ｂに示されるように、命令展開は、一実施形態ではｄｐＸａＶ命令の復号化中に実行されるが、他の実装技術が、他の実施形態では、例えば、命令実行パイプラインの実行段階による命令の直接実行により、使用されてもよい。一実施形態において、処理リソース内の命令復号化ロジック３７１０は、従来の命令復号ロジックに加えて、カウンタ／状態機械３７１１、プライオリティエンコーダ３７１２、命令生成部３７１３、及びオペランド生成部３７１４を含むことができる。カウンタ／状態機械３７１１は、ｄｐＸａＶ命令の展開中に使用されるカウンタ値及び復号化状態を記憶する。プライオリティエンコーダ３７１２は、生成される最初の内積命令を示す最初のアクティブ化されたビットを決定するよう述部をスキャンするために使用される。

提案されているｄｐＸａＶ命令は、ＡＬＵパイプの復号化段にカウンタ／状態機械を加え、内積命令のシーケンスを生成することによって、実行ユニットで実装され得る。プライオリティエンコーダ３７１２は、最初のセットされたビットを見つけるよう述部をスキャンする。命令は、その命令の対応するビットが述部ビットフィールドでセットされている場合に、命令生成部３７１３によって生成される。オペランド生成部３７１４は、次いで、初期オペランドレジスタ及びサブレジスタ値と、述部マスク内にセットされているビットポジションとに基づいて、対応するオペランド値を生成する。

図３７Ｃに示されるように、マルチスレッド処理リソース内の実行ロジック３７２０は、本願で記載されているようにｄｐＸａＶ命令を展開及び実行するよう構成され得る。実行ロジック３７２０は、本願で記載されている実行ユニット、計算ユニット、又はストリーミング・マルチプロセッサなどのマルチスレッド処理リソース内で見受けられ得る。一実施形態において、命令キュー３７２２Ａ～３７２２Ｎの組は、実行ロジック３７２０のＮ個のスレッドによる実行を保留しているＮ組の命令を記憶することができる。各スレッドは、現在の命令の従属関係がクリアされるまで、スレッドの実行を停止する関連したプレデコード段３７２４Ａ～３７２４Ｎを有する。スレッドは、現在の命令の従属関係が残っていない場合に準備完了してマークされる。クリアされると、スレッドは、ＡＬＵの１つの実行パイプライン内へのディスパッチのためにスレッドを選択する調停プロセスに参加してよい。

各ＡＬＵのための各々のアービタ３７２６Ａ～３７２６Ｍは、ＡＬＵ内の実行リソースの利用可能性に基づいて、１つ以上の準備ができたスレッドを選択することができる。選択されたスレッドに対する命令は、次いで、選択されたＡＬＵの実行パイプライン内にディスパッチされる。表されているＡＬＵの実行パイプライン段は、デコード段３７２８Ａ～３７２８Ｍ，レジスタリード段３７３０Ａ～３７３０Ｍ、実行段３７３２Ａ～３７３２Ｍ、及びライトバック（write-back，ＷＢ）段３７３４Ａ～３７３４Ｍを含む。一実施形態において、単一のｄｐＸａＶ命令は、命令を受け取るＡＬＵのデコード段３７２８Ａ～３７２８Ｍ内で複数の内積命令に拡張され得る。

一実施形態において、実行ロジック３７２０内のＡＬＵの数は、実行ロジック３７２０によって実行され得るスレッドの数よりも少ない。一実施形態において、複数の命令が単一のＡＬＵに発行されてよい。一実施形態において、利用可能なＡＬＵのサブセットのみが、ｄｐＸａＶ命令展開のために構成されてもよく、そのような命令は、それらの特定のＡＬＵによって実行される。実行ロジック３７２０がｄｐＸａＶ命令を実行するために消費するクロックの総数は、内積命令ごとのクロックの数、繰り返し回数、及びスキップされる命令の数に依存する。

図３７Ｄは、スパース内積命令の実行を促進する方法３７５０を示す。方法３７５０は、本願で記載されているグラフィクスプロセッサ又は並列プロセッサの計算又はグラフィクスプロセッサパイプラインのロジックによって実行され得る。例えば、方法３７５０は、図３７Ｂの命令復号化ロジック３７１０を用いて図３７Ｃの実行ロジック３７２０によって実行され得る。方法３７５０は、図３７ＡのｄｐＸａＶ命令３７００などの、及び／又は本願で記載されているようなハードウェアマクロ命令の実行を助けるために使用され得る。

一実施形態において、方法３７５０は、グラフィクス又は並列プロセッサのハードウェアロジックにより、ハードウェアマクロ命令をフェッチする動作（３７５１）を実行することを含む。ハードウェアマクロ命令は、述部マスクと、繰り返し回数と、初期オペランドの組（＜ｄｓｔ＞，＜ｓｒｃ０＞，＜ｓｅｒｃ１＞，＜ｓｒｃ２＞）とを有する。ハードウェアマクロ命令は、行列の組に関連した入力データに対して１つ以上の内積演算を実行するよう構成される。方法３７５０は、ハードウェアマクロ命令を復号する動作（３７５２）を実行することを更に含む。一実施形態において、フェッチされたハードウェアマクロ命令は、命令実行パイプラインのプレデコード段（例えば、プレデコード３７２４Ａ～３７２４Ｎ）のロジックが、関連するロード（load）又は比較（compare）命令などの従属関係（dependencies）が満足されることを決定するまで、命令キューに記憶され得る。従属関係が満足されると、命令は、本願で記載されている処理リソースの復号化ロジックによる復号化のために自動的にサブミットされ得る。

復号化動作は、実行のために生成すべきハードウェア命令の組を決定することを含むか、あるいは、そのような決定を行うよう少なくとも部分的に実行され得る。例えば、内積命令は、述部マスク内の夫々のアクティブ化されたビットについて生成され得る。述部マスクは、例えば、＜ｓｒｃ１＞入力であってよい行列Ａ入力オペランドと対応するサブレジスタに記憶されている入力に基づいて、生成され得る。特定の行列と対応し得る特定の入力は、実施に基づいて様々であってよい。例えば、比較命令は、＜ｓｒｃ１＞として使用されるデータをゼロと比較することによって、フラグレジスタ内のビットをセットするために使用され得る。フラグレジスタは、次いで、述部マスクとして使用され得る。述部マスク及び繰り返し回数は、次いで、実行のためにハードウェア命令の組を生成するために使用され得る（３７５３）。命令は、図３７Ｂで見られた命令生成部３７１３によって生成され得る。生成すべき命令の最大数は、繰り返し回数に基づいて決定され得る。特定のハードウェア命令の生成は、述部マスク内の関連するビットによって無効にされる場合に基づいて、バイパスされる。

命令の組の中の生成された命令によって使用される特定のオペランドは、述部マスク及び初期オペランドの組に基づいて決定され得る（３７５４）。命令のためのオペランドは、図３７Ｂで見られるオペランド生成部３７１４によって生成され得る。連続した連続レジスタは、＜ｄｓｔ＞及び＜ｓｒｃ０＞オペランドのために使用され、連続したサブレジスタは、＜ｓｒｃ１＞オペランドのために使用される。オペランドは、バイパスされた命令に対しては生成されない。グラフィクス又は並列プロセッサの命令実行パイプラインは、次いで、ハードウェア命令の組をアトミックに実行することができる。アトミック実行は、命令の組の実行中に実行された１つ以上の動作が、命令の組の中の命令が単一の命令であると見なされるようにアトミックに実行されることを示す。ハードウェアマクロ命令の実行によって消費されるクロックサイクルの具体的な数は、単一の積和演算を実行するためのサイクル数、命令に関連した繰り返し回数、及びスパース入力データによりバイパスされる命令又は演算の数に基づいて、様々であることができる。グラフィクス又は並列プロセッサの命令実行パイプラインは、次いで、ハードウェア命令の組の中の各命令の完了時にハードウェアマクロ命令を退去することができる（３７５６）。

内積命令への入力のスパース性に応じて、実行サイクルの数は変化してよいことに留意されたい。よって、命令に対するレイテンシは、次の従属している命令のスケジューリングを有効にするためにコンパイル時点で決定され得ないことがある。従って、内積命令によって実行される複数の命令又は演算は、コンパイラ及びスケジューリングハードウェアによって単一のアトミック命令であると見なされる。このようにして、連続した従属している内積命令の組については、命令は、最初の内積命令が、次の従属している命令が実行パイプラインに入る前に完了しているように、順に実行される。

上記の技術を用いて、当業者は、例えば、述部マスク、繰り返し回数、及び初期オペランドの組を有するハードウェアマクロ命令をフェッチする命令フェッチャを有するグラフィクスプロセッサを有する汎用グラフィクス処理ユニットを実装してよく、ハードウェアマクロ命令は、行列の組に関連した入力に対して１つ以上の内積演算を実行すべきである。内積演算は、２要素内積演算又は４要素内積演算であってよい。汎用グラフィクス処理ユニットは、ハードウェアマクロ命令を復号し、１つ以上の乗算及び加算演算を実行するためのハードウェア命令の組を生成する命令デコーダを更に含み、ハードウェア命令の組は、述部マスク及び繰り返し回数に基づいて生成される。汎用グラフィクス処理ユニットは、ハードウェア命令の組を実行する処理リソースを更に含む。ハードウェアマクロ命令は、ハードウェア命令の組の完了時に退去されてよい。

上記の技術を用いて、当業者は、例えば、述部マスク、繰り返し回数、及び初期オペランドの組を有するハードウェアマクロ命令をフェッチすることを有する方法を実行するよう構成された汎用グラフィクス処理ユニットを実装してよく、初期オペランドは、あて先オペランド及び複数のソースオペランドを含む。繰り返し回数は、ハードウェア命令の組に対して生成すべきハードウェア命令の最大数を示すべきである。述部マスクは、命令の組の中のどの命令が生成又はバイパスされるべきかを示す。述部マスクは、ゼロと、ソース入力オペランドに関連した各要素との間の比較により、生成され得る。ハードウェアマクロ命令は、行列の組に関連した入力データに対して１つ以上の内積演算を実行するよう構成される。

上記の技術を用いて、当業者は、例えば、上述された方法を実行する処理ロジックを含むグラフィクス処理システムを実装してよい。グラフィクス処理システムはまた、上述された汎用グラフィクス処理ユニットと結合されたメモリデバイスを含むよう実装されてもよい。

［シストリックアレイのためのデプスワイズアダプタ］
本願で記載されてるシストリックアレイは、デプスワイズの畳み込みの際の効率の低下を欠点とする。一実施形態は、活性化データをシストリックアレイへ供給する前に活性化データに対して画像－列変換（image to column transformation）を実行するアダプタ回路を提供する。

図３８Ａ～３８Ｂは、デプスワイズ畳み込みと３Ｄ畳み込みを対比する。図３８Ａは、３Ｄ畳み込みを表す。図３８Ｂは、デプスワイズ畳み込みを表す。３Ｄデプスワイズ畳み込みは、入力活性化及び重み／畳み込みカーネルが３Ｄ行列であることを除いて、図３８に示されている２Ｄ畳み込みと同様に実行され得る。３Ｄ畳み込みは、例えば、赤、緑、及び青の色チャネルを有するＲＧＢ画像について、実行されてよい。

図３８Ａに示されるように、１２×１２ピクセル及び３つの色チャネルの入力画像３８０２を考えると、５×５×３畳み込み演算３８０３が、５×５ピクセル、３チャネル畳み込みカーネル３８０４を用いて、入力画像３８０２に対して実行され得る。１２×１２×３入力画像３８０２に対する５×５×３畳み込み演算３８０３の出力３８０５は、８×８×１画像である。望まれる場合に、よりチャネル数が多い出力画像を生成するために、異なるカーネルで追加の畳み込み演算が実行され得る。例えば、出力チャネルの数を２５６に拡張するために、２５６個の別々の５×５×３カーネルが、２５６個の８×８×１出力画像を生成するために使用可能であり、これらは、８×８×２５６出力画像にまとめられ得る。５×５×３畳み込み演算３８０３の各ステップについて、最低限５×５×４＝７５個の乗算演算が実行される。８×８×１出力３８０５を生成するために、８×８＝６４下位のステップが、最低限６４×７５＝４，８００回の乗算のために、実行される。２５６チャネルの出力画像に出力を拡張するために、２５６×４８００＝１，２２８，８０００回の乗算が実行される。

図３８Ｂに示されるように、デプスワイズ畳み込みは、特に、出力チャネル拡張が実行されるべきである場合に、低減された計算回数で同じ出力画像を取得するために実行され得る。１２×１２ピクセル及び３つの色チャネルの入力画像３８０２を前提として、デプスワイズ畳み込みを実行するために、入力画像３８０２は、３つの１２×１２×１入力画像３８１２ａ～３８１２ｃに分割され得る。５×５×５カーネル３８０４は、３つの５×５×１カーネル３８１４ａ～３８１４ｃに分割され得る。次いで、デプスワイズ畳み込み演算３８１３が実行され得、各５×５×１カーネルは、３つの８×８×１出力画像３８１５ａ～３８１５ｃを生成するよう入力画像の１つのチャネルを繰り返す。次いで、出力画像３８１５ａ～３８１５ｃは、標準の畳み込みと同じ８×８×１出力３８０５を生成するために、１×１×３カーネル３８２４を使用するポイントワイズの畳み込み演算３８２３への入力として使用され得る。出力チャネル拡張は、ポイントワイズの畳み込み段の間に実行され得、８×８×２５６出力画像は、８×８×２５６出力画像を生成するために２５６個の１×１×３カーネルを用いて、生成され得る。デプスワイズ畳み込みを用いて８×８×１出力画像３８０５を生成することは、ポイントワイズの畳み込み段での追加の１９２回の乗算に加えて、デプスワイズの畳み込み段で最低限４，８００回の乗算を使用する。しかし、２５６個のチャネルへの出力拡張を実行するために、標準の畳み込みの１，２２８，８０００回の乗算とは対照的に、全部で５３，９５２回の乗算が実行される。よって、デプスワイズ畳み込みに対する効率的なサポートを提供することは、ＣＮＮ演算を加速させるために使用される行列ユニット又はテンソルアレイにとって有利である。

図３９Ａ～３９Ｃは、シストリックテンソルアレイ２８０８と、デプスワイズ畳み込みの間に使用される画像－列アダプタ３９１０とを含むシステム３９００を表す。図３９Ａに示されるように、一実施形態において、システム３９００は、図２８で見られるシストリックアレイ２８０８と、例えば、図１８Ｂで見られる汎用レジスタファイル１８２４、図１９で見られるレジスタファイル１９０６、又は図３１で見られる共有レジスタファイル３１１４の一部、のような汎用レジスタファイル３９２４とを含む。シストリテンソルアレイ２８０８はまた、図１９で見られるシストリックアレイ１９１２、図３０Ａ～３０Ｂで見られるシストリックアレイ３０００、及び／又はシストリックアレイ３１１２Ａ～３１１２Ｂを含んでもよい。システム３９００はまた、３チャネルＲＧＢ画像として構成され得る畳み込み演算のための入力画像のデータを、列フォーマット化されたデータに変換する回路を含む画像－列アダプタ３９１０を含む。列フォーマット化されたデータでは、複数の入力チャネルのデータが分離され、変換された入力３９３２に再フォーマット化される。変換された入力３９３２を使用することは、デプスワイズの畳み込み演算の計算効率を、シストリックアレイ２８０８により実行されるときに向上させる。画像－列アダプタ３９１０は、汎用レジスタファイル３９２４からのベクトル及び／又はパックされたデータを読み出すよう構成され、シストリックテンソルアレイ２８０８と結合する出力ポートの組にマッピングされている入力ポートの組として実装されてよい。入力ポートの出力ポートへのマッピングは、変換されるべき入力活性化行列の詳細に基づいて調整されてよい。

デプスワイズ畳み込みを実行する場合に、重み３９２５がＳＲＣ２入力３９２６として供給され、入力活性化データ３９３０は、ＳＲＣ１入力３９３１として供給される前に画像－列アダプタ３９１０を通って、変換された入力３９３２として送られる。インクリメンタルｄｐａｓ（内積（dot-product）、累積（accumulate）、シストリック（systolic））命令が使用され、変換された入力３９３２の単一入力レジスタを命令ごとにＳＲＣ１３９３２にロードする。ｄｐａｓ命令の複数の繰り返しが、入力データのサイズに応じて、入力の組全体を処理するために使用されてよい。初期化モードも使用され、変換された入力３９３２に相当するレジスタの初期の組がＳＲＣ１入力３９３１としてロードされる。インクリメンタルｄｐａｓ命令の連続した繰り返しは、畳み込みが入力活性化の組全体について実行されるまで、実行され得る。

図３９Ｂに示されるように、有意な変換は、重み入力に対して必要とされない。重み入力は、インクリメンタルｄｐａｓ初期化動作の間に汎用レジスタファイル３９２４から読み出されてよい。重みデータの連続した読み出しは、バイパスされてよく、デプスワイズの重み行列３９２８は、シストリックテンソルアレイ２８０８内の繰り返しごとに生成されてよい。デプスワイズの重み行列３９２８を構成するために、ＳＲＣ２重みは、正しい重みの行のみがサイクルごとに使用されるように、適切な位置でゼロを用いて構成される。デプスワイズの畳み込み演算に使用すべき正しい重みの行は、スライディング窓３９２７に沿ってサイクルごとにデプスワイズの重み行列３９２８内を下に移動する。正しい行は、最終的に、デプスワイズの重み行列３９２８の上部に折り返されてよい。

図３９Ｃに示されるように、入力活性化３９３０の値は、データが汎用レジスタファイル３９２４から読み出されるときに、画像－列変換３９４０に従ってスウィズル（swizzled）される。画像－列変換３９４０は、マルチチャネル画像であってよい入力活性化３９３０のデータを、チャネルの夫々が分離されて並んで配置される２Ｄ行列の形で、変換された入力３９３２に分離するよう、入力活性化３９３０の行列要素を再配置する。画像－列変換３９４０の具体的な性質は、入力データのチャネルの数、畳み込みカーネルのサイズ、及び目標出力デプスに基づいて様々であってよい。

図４０は、シストリックアレイに対してデプスワイズ畳み込みを実行する方法４０００を表す。方法４０００は、例えば、図３９Ａに表されているような、汎用レジスタファイル及び画像－列アダプタとともにシストリックアレイのハードウェア又はファームウェアロジックによって、図３９Ｂ及び図３９Ｃに表されているデータ変換を使用して、実行され得る。

方法４０００は、シストリックアレイに関連したロジックが、入力活性化の変換された行列の複数の行の第１の組と、変換された重み行列の行の対応する組とを含む初期入力をロードすることを含む（４００２）。入力活性化の変換された行列は、汎用レジスタファイルから読み出され、読み出し中に画像－列アダプタによって自動的に変換され得る。初期入力の行の数は、実行されるべき畳み込み演算のサイズと対応してよい。次いで、ロジックは，初期入力を用いてシストリックアレイによりデプスワイズの畳み込み計算を実行することができる（４００４）。次いで、ロジックは、入力活性化の変換された行列の次の行をシストリックアレイにロードすることができる（４００６）。ロードされた次の行は、汎用レジスタファイルからの読み出し時に、画像－列アダプタによって自動的に変換され得る。次いで、ロジックは、シストリックアレイ内の変換された重み行列の重み値を調整することができる（４００８）。次いで、ロジックは、変換された行列の次の行及び調整された重み値を用いてシストリックアレイにより次のデプスワイズの畳み込み計算を実行することができる（４０１０）。動作は、変換された入力活性化の全てが変換された重みで畳み込まれるまで、１行ずつ続くことができる。必要ならば、ポイントワイズの畳み込みが、出力チャネルの数を低減又は拡張するために、デプスワイズの多対見込みの出力に対して実行されてもよい。

一実施形態において、本願で記載されているデプスワイズ畳み込み演算を実行するために使用される内積命令の連続は、スパース行列に対して演算を実行する場合に、本願で記載されているブロックスパースマクロ命令（ｄｐＸａｓＶ）を用いて実装されてもよい。

上記の技術を用いて、当業者は、例えば、行列要素を記憶するレジスタファイルと、レジスタファイルから読み出された行列要素に対してデプスワイズ畳み込み演算を実行するテンソルアクセラレータと、入力活性化テンソルの行列要素のデータ構成を変換するアダプタ回路とを有し、アダプタ回路が、テンソルアクセラレータによるレジスタファイルからの行列要素の読み出し中にデータ構成を変換する、汎用グラフィクス処理ユニットを実装してよい。

上記の技術を用いて、当業者は、例えば、入力活性化の変換された行列の複数の行の第１の組と、変換された重み行列の行の対応する組とを含む初期入力をロードすることと、初期入力を用いてシストリックアレイによりデプスワイズ畳み込み計算を実行することとを有する方法を実行するよう構成された汎用グラフィクス処理ユニットを実装してよい。入力活性化の行列に対して実行される変換は、入力活性化の行列が汎用グラフィクス処理ユニットの汎用レジスタファイルから読み出されるときに自動的に実行される画像－列変換であってよい。方法は、入力活性化の変換された行列の次の行をシストリックアレイにロードすることを更に含み、次の行は、画像－列アダプタによって自動的に変換される。方法は、変換された重み行列の重み値を調整することを更に含む。重み値の調整は、シストリックアレイ内で実行され得る。方法は、変換された行列の次の行及び調整された重み値を用いてシストリックアレイにより次のデプスワイズ畳み込み計算を実行することを更に含む。デプスワイズ畳み込み演算は、内積演算であってよい。内積演算は、ブロックスパース内積マクロ命令によって生成された内積命令によって実行されてよい。

［更なる例となるコンピューティングデバイス］
図４１は、実施形態に従うグラフィクスプロセッサ４１０４を含むコンピューティングデバイス４１００のブロック図である。コンピューティングデバイス４１００は、上述された実施形態の夫々の機能性を含むコンピューティングデバイスであることができる。コンピューティングデバイス４１００は、セットトップボックス（例えば、インターネットに基づくケーブルテレビジョンセットトップボックス、など）、グローバル・ポジショニング・システム（ＧＰＳ）ベースのデバイス、などのような通信デバイスであっても、あるいは、そのようなものに含まれてもよい。コンピューティングデバイス４１００はまた、携帯電話機、スマートフォン、パーソナル・デジタル・アシスタント（ＰＤＡ）、タブレットコンピュータ、ラップトップコンピュータ、電子リーダー、スマートテレビジョン、テレビジョンプラットフォーム、ウェアラブルデバイス（例えば、メガネ、時計、ブレスレット、スマートカード、宝石、衣服アイテム、など）、メディアプレイヤー、などのモバイルコンピューティングデバイスであっても、あるいは、そのようなものに含まれてもよい。例えば、一実施形態において、コンピューティングデバイス４１００は、単一のチップ上にコンピューティングデバイス４１００の様々なハードウェア及び／又はソフトウェアコンポーネントを組み込むシステム・オン・ア・チップ（「ＳｏＣ」又は「ＳＯＣ」）などの集積回路（「ＩＣ」）を用いるモバイルコンピューティングデバイスを含む。

コンピューティングデバイス４１００は、グラフィクスプロセッサ４１０４を含む。グラフィクスプロセッサ４１０４は、本願で記載されている如何なるグラフィクスプロセッサも表す。グラフィクスプロセッサは、本願で記載されている１つ以上のグラフィクスエンジン、グラフィクスプロセッサコア、及び他のグラフィクス実行リソースを含む。そのようなグラフィクス実行リソースは、実行ユニット、シェーダエンジン、フラグメントプロセッサ、頂点プロセッサ、ストリーミング・マルチプロセッサ、グラフィクスプロセッサクラスタ、あるいは、グラフィクスリソース若しくは画像リソースの処理、又は異種プロセッサで汎用計算動作を実行することに適したコンピューティングリソースの任意の集合を含むがこれらに限られない形で、提示されてよい。

一実施形態において、グラフィクスプロセッサ４１０４は、任意の数のＬ１、Ｌ２、Ｌ３、又はＬ４キャッシュ、レンダーキャッシュ、デプスキャッシュ、サンプラキャッシュ、及び／又はシェーダユニットキャッシュを含むがこれらに限られない、単一のキャッシュであるか、あるいは、キャッシュメモリの複数のセグメントに分割され得るキャッシュ４１１４を含む。キャッシュ４１１４は、本願で記載されている至る所の領域を有してよい。キャッシュ４１１４はまた、メモリバンクハッシュアルゴリズムの動的な再構成をサポートする動的ハッシュロジックを含んでもよい。いくつかの実施形態において、グラフィクスプロセッサ４１０４は、ＧＰＧＰＵエンジン４１４４によって使用されるレジスタを含むレジスタファイル４１２４に加えて、共有ローカルメモリ（ＳＬＭ４１３４）を含むＧＰＧＰＵエンジン４１４４を含む。レジスタファイル４１２４は、汎用レジスタ、アーキテクチャレジスタ、構成レジスタ、及び他のタイプのレジスタを含むことができる。汎用レジスタファイル（ＧＲＦ）及びアーキテクチャレジスタファイル（ＡＲＦ）はまた、ＧＰＧＰＵエンジン４１４４内の計算ユニット（例えば、計算４１５０、計算４１５５）の１つ以上のブロック内の処理リソースの中にも存在することができる。共有ファブリック４１４２も存在してよく、ＧＰＧＰＵエンジン４１４４の様々なコンポーネント間の迅速な通信を可能にする。

表されているように、一実施形態において、グラフィクスプロセッサ４１０４に加えて、コンピューティングデバイス４１００は、アプリケーションプロセッサ４１０６、メモリ４１０８、及び入出力（Ｉ／Ｏ）ソース４１１０を含むがこれらに限られない如何なる数及びタイプのハードウェアコンポーネント及び／又はソフトウェアコンポーネントも更に含んでよい。アプリケーションプロセッサ４１０６は、グラフィクスパイプライン機能性を共有するようハードウェアグラフィクスパイプラインと相互作用することができる。処理されたデータは、ハードウェアグラフィクスパイプライン内のバッファに格納され、状態情報は、メモリ４１０８に格納される。結果として得られるデータは、本願で記載されるように、表示デバイスによる出力のためにディスプレイコントローラへ転送され得る・表示デバイス、陰極線管（ＣＲＴ）、薄膜トランジスタ（ＴＦＴ）、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）アレイ、などのような様々なタイプであってよく、グラフィカルユーザインターフェースによりユーザに情報を表示するよう構成されてよい。

アプリケーションプロセッサ４１０６は、１つ以上のプロセッサを含むことができ、コンピューティングデバイス４１００のためのオペレーティングシステム（ＯＳ）４１０２を実行するよう少なくとも部分的に使用される中央演算処理装置（ＣＰＵ）であってよい。ＯＳ４１０２は、コンピューティングデバイス４１００のハードウェア及び／又は物理リソースと１人以上のユーザとの間のインターフェースとなることができる。ＯＳ４１０２は、図２３のユーザモードグラフィクスドライバ２３２６及び／又はカーネルグラフィクスドライバ２３２９などのグラフィクスドライバロジック４１２２を含む、コンピューティングデバイス４１００内の様々なハードウェアデバイスのためのドライバロジックを含むことができる。

いくつかの実施形態において、グラフィクスプロセッサ４１０４は、アプリケーションプロセッサ４１０６の部分（例えば、物理ＣＰＵパッケージの部分）として存在してよいことが企図され、その場合に、メモリ４１０８の少なくとも一部は、アプリケーションプロセッサ４１０６及びグラフィクスプロセッサ４１０４によって共有されてよい。なお、メモリ４１０８の少なくとも一部は、グラフィクスプロセッサ４１０４に専用であってよく、あるいは、グラフィクスプロセッサ４１０４は、メモリの別個のストアを有してもよい。メモリ４１０８は、バッファ（例えば、フレームバッファ）の前もって割り当てられた領域を有してよいが、実施形態はそのように限定されず、より低いグラフィクスパイプラインにアクセス可能な如何なるメモリも使用されてよいことが、当業者によって理解されるべきである。メモリ４１０８は、デスクトップ又は３Ｄグラフィクスシーンをレンダリングするためにグラフィクスプロセッサ４１０４を利用するアプリケーションを有する様々な形のランダム・アクセス・メモリ（ＲＡＭ）（例えば、ＳＤＲＡＭ、ＳＲＡＭ、など）を含んでよい。メモリコントローラハブは、メモリ４１０８内のデータにアクセスし、それをグラフィクスパイプライン処理のためにグラフィクスプロセッサ４１０４へ転送してよい。メモリ４１０８は、コンピューティングデバイス４１００内の他のコンポーネントに利用可能にされてよい。例えば、コンピューティングデバイス４１００の様々なＩ／Ｏソース４１１０から受け取られる如何なるデータ（例えば、入力グラフィクスデータ）も、それらが、ソフトウェアプログラム又はアプリケーションの実装において、１つ以上のプロセッサ（例えば、アプリケーションプロセッサ４１０６）によって作用される前に、メモリ４１０８に一時的にキューされ得る。同様に、ソフトウェアプログラムが決定するデータは、コンピューティングデバイス４１００から外部エンティティへコンピューティングシステムインターフェースを通じて送信されるか、あるいは、内部記憶要素に格納されるべきであり、しばしば、それが伝送又は記憶される前に、メモリ４１０８に一時的にキューされる。

Ｉ／Ｏソース４１１０は、タッチスクリーン、タッチパネル、タッチパッド、仮想又は通常のキーボード、仮想又は通常のマウス、ポート、コネクタ、ネットワークデバイス、などのようなデバイスを含むことができ、図１で見られたようなＩ／Ｏハブ１０７、図３で見られたような入出力（Ｉ／Ｏ）回路３６３、図１４で見られたようなプラットフォームコントローラハブ１４３０、などにより取り付けることができる。更には、Ｉ／Ｏソース４１１０は、コンピューティングデバイス４１００へ及び／又はそれからデータを転送するために（例えば、ネットワーキングアダプタ）、あるいは、コンピューティングデバイス４１００内の大規模不揮発性ストレージのために（例えば、ハードディスクドライブ）実装される１つ以上のＩ／Ｏデバイスを含んでよい。英数字及び他のキーを含むユーザ入力デバイスは、情報及びコマンド選択をグラフィクスプロセッサ４１０４へ送るために使用されてよい。他のタイプのユーザ入力デバイスは、方向情報及びコマンド選択をＧＰＵへ送りかつ表示デバイス上でカーソル移動を制御するための、マウス、トラックボール、タッチスクリーン、タッチパッド、又はカーソル方向キーなどのカーソルコントロールである。コンピューティングデバイス４１００のカメラ及びマイクロホンアレイは、ジェスチャを観測し、音声及び映像を記録し、かつ視覚及び音声コマンドを送受信するために用いられてよい。

ネットワークインターフェースとして構成されたＩ／Ｏソース４１１０は、ＬＡＮ、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、パーソナルエリアネットワーク（ＰＡＮ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、クラウドネットワーク、セルラー又はモバイルネットワーク（第３世代（３Ｇ）、第４世代（４Ｇ）、第５世代（５Ｇ）など）、衛星ネットワーク、イントラネット、インターネット、などのネットワークへのアクセスを提供することができる。ネットワークインターフェースは、例えば、１つ以上のアンテナを備える無線ネットワークインターフェースを含んでよい。ネットワークインターフェースはまた、例えば、Ｅｔｈｅｒｎｅｔ（登録商標）ケーブル、同軸ケーブル、光ファイバケーブル、シリアルケーブル、又はパラレルケーブルであってよいネットワークケーブルを介して遠隔のデバイスと通信するための、例えば、有線ネットワークインターフェースを含んでもよい。

ネットワークインターフェースは、例えば、ＩＥＥＥ８０２．１１標準に従うことによって、ＬＡＮへのアクセスを提供してよく、かつ／あるいは、無線ネットワークインターフェースは、例えば、Ｂｌｕｅｔｏｏｔｈ標準に従うことによって、パーソナルエリアネットワークへのアクセスを提供してよい。従前及びその後のバージョンの標準を含む他の無線ネットワークインターフェース及び／又はプロトコルもサポートされてよい。無線ＬＡＮ標準による通信に加えて、又はその代わりに、ネットワークインターフェースは、例えば、時分割多重アクセス（ＴＤＭＡ）プロトコル、グローバル・システム・フォー・モバイル・コミュニケーションズ（ＧＳＭ）プロトコル、符号分割多重アクセス（ＣＤＭＡ）プロトコル、及び／又はあらゆる他のタイプの無線通信プロトコルを用いて、無線通信を提供してよい。

当然ながら、上記の例よりも少なく又は多く装備されたシステムが、特定の実施のためには望ましいことがある。従って、コンピューティングデバイス４１００の構成は、価格制約、性能要件、技術的改善、又は他の環境などの多数の因子に応じて実施ごとに異なってよい。例は、（限定なしに）モバイルデバイス、パーソナル・デジタル・アシスタント、モバイルコンピューティングデバイス、スマートフォン、携帯電話機、ハンドセット、一方向ページャー、双方向ページャー、メッセージングデバイス、コンピュータ、パーソナルコンピュータ（ＰＣ）、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、手持ち式コンピュータ、タブレットコンピュータ、サーバ、サーバアレイ又はサーバファーム、ウェブサーバ、ネットワークサーバ、インターネットサーバ、ワークステーション、ミニコンピュータ、メインフレームコンピュータ、スーパーコンピュータ、ネットワークアプライアンス、ウェブアプライアンス、分散コンピュータシステム、マルチプロセッサシステム、プロセッサベースのシステム、コンシューマエレクトロニクス、プログラム可能なコンシューマエレクトロニクス、テレビ受像機、デジタルテレビ受像機、セットトップボックス、ワイヤレス・アクセス・ポイント、基地局、加入者局、モバイル加入者センター、無線ネットワークコントローラ、ルータ、ハブ、ゲートウェイ、ブリッジ、スイッチ、マシン、又はそれらの組み合わせを含む。

実施形態は、ペアレントボードを用いて相互接続される１つ以上のマイクロチップ若しくは集積回路、ハードワードロジック、メモリデバイスによって記憶されてマイクロプロセッサによって実行されるソフトウェア、ファームウェア、特定用途向け集積回路（ＡＳＩＣ）、及び／又はフィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）のうちのいずれか１つ又は組み合わせとして実装されてもよい。「ロジック」との用語は、例として、ソフトウェア若しくはハードウェア、及び／又はソフトウェアとハードウェアとの組み合わせを含んでよい。

実施形態は、コンピュータプログラム製品として提供されてよい。コンピュータプログラム製品は、例えば、コンピュータ、コンピュータのネットワーク、又は他の電子デバイスなどの１つ以上のマシンによって実行される場合に、１つ以上のマシンが本願で記載されている実施形態に従って動作することをもたらし得るマシン実行可能な命令を記憶している１つ以上のマシン読み出し可能な媒体を含んでよい。マシン読み出し可能な媒体は、フロッピー（登録商標）ディスケット、光ディスク、ＣＤ－ＲＯＭ（Compact Disc-Read Only Memories）、及び磁気光ディスク、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ（Erasable Programmable Read Only Memories）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memories）、磁気若しくは光カード、フラッシュメモリ、又はマシン実行可能な命令を記憶するのに適した他のタイプの非一時的なマシン読み出し可能な媒体を含んでよいが、これらに限定されない。

更に、実施形態は、コンピュータプログラム製品としてダウンロードされてよく、プログラムは、通信リンク（例えば、モデム及び／又はネットワーク接続）を介して搬送波又は他の伝搬媒体で具現化及び／又は変調された１つ以上のデータ信号を用いて、遠隔のコンピュータ（例えば、サーバ）から要求元のコンピュータ（例えば、クライアント）へ転送されてよい。

本願での「一実施形態」又は「実施形態」との言及は、実施形態に関連して記載されている特定の特徴、構造又は特性が本発明の少なくとも１つの実施形態に含まれ得ることを意味する。本明細書の様々な箇所での「一実施形態において」との表現の出現は、必ずしも全てが同じ実施形態に言及しているわけではない。続く図に表されているプロセスは、ハードウェア（例えば、回路、専用ロジック、など）、ソフトウェア（非一時的なマシン読み出し可能な記憶媒体上の命令として）、又はハードウェア及びソフトウェアの両方の組み合わせを有する処理ロジックによって実行され得る。添付の図面において例として説明されている様々な実施形態が詳細に参照される。続く詳細な説明では、多数の具体的な詳細が、本発明の完全な理解をもたらすために説明されている。しかし、当業者に明らかなように、本発明は、それらの具体的な詳細によらずとも実施されてよい。他の事例では、よく知られている方法、プロシージャ、コンポーネント、及び回路は、実施形態の態様を不必要に不明りょうにしないように、詳細に説明されていない。

また、第１、第２、などの用語が、様々な要素について記載するために本願で使用されることがあるが、これらの要素は、これらの用語によって限定されるべきでないことも理解されるだろう。これらの用語は、１つの要素を他と区別するためにのみ使用される。例えば、本発明の範囲から外れずに、第１接点は、第２接点と呼ばれてもよく、第２接点は、第１接点と呼ばれてもよい。第１接点及び第２接点は両方とも接点であるが、それらは同じ接点ではない。

本願で使用されている専門用語は、特定の実施形態についてのみ記載することを目的とし、全ての実施形態に関して限定であるよう意図されない。本発明の説明及び添付の特許請求の範囲で使用されるように、単数形（「a」、「an」及び「the」）は、文脈上で明示的に別なふうに特定されない限りは、複数形も含むと意図される。また、本願で使用されている「及び／又は」（an/or）との用語は、関連付けて挙げられている項目のうちの１つ以上のありとあらゆる可能な組み合わせを指し包含していることが理解されるだろう。更には、「有する」及び／又は「有している」という用語が、本明細書で使用される場合に、述べられている特徴、整数、ステップ、動作、要素、及び／又はコンポーネントの存在を特定するが、１つ以上の他の特徴、整数、ステップ、動作、要素、コンポーネント、及び／又はそれらのグループの存在又は追加を除外しないことが理解されるだろう。

本願で使用されるように、「～である場合」（if）との用語は、文脈に依存して、「～であるとき」（when）又は「～すると」（upon）又は「～を決定することに応答して」（in response to determining）又は「～を検出することに応答して」（in response to detecting）を意味すると解釈され得る。同様に、「～と決定される場合」（if it is determined）又は「（述べられている条件又はイベント）が検出される場合」（if [a stated condition or event] is detected）との表現は、文脈に応じて、「～と決定すると」又は「～と決定することに応答して」又は「（述べられている条件又はイベント）を検出すると」又は「（述べられている条件又はイベント）を検出することに応答して」を意味すると解釈され得る。

本願で記載されている実施形態は、シストリック処理ユニットによりスパースデータに関して算術を実行する技術を提供するソフトウェア、ファームウェア、及びハードウェアロジックを含む。一実施形態は、圧縮されたビットストリームによりデータアウェアのスパース性を提供する。一実施形態は、ブロックスパース内積命令（ｄｐ４ａ、ｄｐ２ａ）を提供する。一実施形態は、シストリックアレイのためのデプスワイズアダプタを提供する。

一実施形態は、ハードウェアマクロ命令をフェッチする命令フェッチャと、ハードウェアマクロ命令を復号する命令デコーダとを含むフェッチ及び復号化ユニットを有し、前記ハードウェアマクロ命令が、初期オペランドの組を含み、前記ハードウェアマクロ命令を復号することが、複数の内積命令を含むハードウェア命令の組を生成することを含み、前記複数の内積命令が、第１行列及び第２行列に関連した入力に対して実行される、グラフィクスプロセッサを提供する。前記入力は、少なくとも部分的に前記初期オペランドの組に基づいて識別される。前記グラフィクスプロセッサは、前記ハードウェア命令の組を実行する処理リソースを含む行列アクセラレータを更に含む。

一実施形態は、行列アクセラレータを含むグラフィクス処理ユニットで、述部マスク、繰り返し回数、及び初期オペランドの組を有するハードウェアマクロ命令をフェッチすることを有する方法を提供する。前記ハードウェアマクロ命令は、行列の組に関連した入力に対する内積演算の組の生成を有効にすることができる。一実施形態において、方法は、前記ハードウェアマクロ命令を復号されたハードウェアマクロ命令に復号することと、前記復号されたハードウェアマクロ命令に基づいてハードウェア命令の組を生成することとを更に含み、前記ハードウェア命令の組は、複数の内積演算の組を含み、前記ハードウェア命令の組は、前記述部マスク及び前記繰り返し回数に基づいて生成される。方法は、グラフィクスプロセッサの処理リソースにより前記ハードウェア命令の組を実行することを更に含む。

一実施形態は、メモリデバイスと、該メモリデバイスと結合されたグラフィクスプロセッサとを有し、前記グラフィクスプロセッサは、ハードウェアマクロ命令をフェッチする命令フェッチャと、前記ハードウェアマクロ命令を復号する命令デコーダとを含むフェッチ及び復号化ユニットを含み、前記ハードウェアマクロ命令が、初期オペランドの組を含み、前記ハードウェアマクロ命令を復号することが、複数の内積命令を含むハードウェア命令の組を生成することを含む、グラフィクス処理システムを提供する。前記複数の内積命令は、第１行列及び第２行列に関連した入力に対して実行され得る。前記入力は、少なくとも部分的に前記初期オペランドの組に基づいて識別され得る。一実施形態において、行列アクセラレータが、前記ハードウェア命令の組を実行する処理リソースを含む。

上記の説明及び図面は、限定の意味ではなく例示の意味でとられるべきである。当業者であれば、添付の特許請求の範囲に示されている特徴のより広い精神及び範囲から逸脱せずに、本願で記載されている実施形態に対して、様々な変更及び改良が行われてよいと理解するだろう。

Claims

キャッシュメモリと結合される複数の処理リソースを含み、少なくとも１つの処理リソースが行列アクセラレータを含み、該行列アクセラレータは、スパース内積命令に応答してスパース第１行列及び第２行列の複数の要素に対して内積演算を実行するよう構成され、プルーニングが前記スパース第１行列の要素のブロックごとに適用されて、それにより前記スパース第１行列は構造化されたスパース性を持ち、該構造化されたスパース性を持った前記スパース第１行列の要素は、要素の組を含む圧縮表現に圧縮され、前記要素の組は、少なくとも１つの非ゼロ値要素及び該少なくとも１つの非ゼロ値要素の指示を含む、計算クラスタを有し、
前記圧縮表現は、圧縮された形式で前記キャッシュメモリに格納され、
前記少なくとも１つの処理リソースは、
前記圧縮表現を前記キャッシュメモリから前記少なくとも１つの処理リソース内のメモリにロードし、
前記第２行列を前記キャッシュメモリから前記少なくとも１つの処理リソース内の前記メモリにロードし、
前記圧縮表現からの要素及び前記第２行列の選択された要素に対して前記内積演算を実行し、前記第２行列の前記選択された要素が、前記圧縮表現内に格納された前記スパース第１行列の非ゼロ値と対応し、前記少なくとも１つの非ゼロ値の前記指示に基づき選択され、
前記内積演算の出力を前記少なくとも１つの処理リソース内の前記メモリに書き込む
よう構成される、
汎用グラフィクスプロセッサ。
前記キャッシュメモリは、レベル２（Ｌ２）キャッシュメモリである、
請求項１に記載の汎用グラフィクスプロセッサ。
前記少なくとも１つの処理リソース内の前記メモリは、レベル１（Ｌ１）キャッシュメモリを含む、
請求項１に記載の汎用グラフィクスプロセッサ。
前記少なくとも１つの処理リソース内の前記メモリは、共有メモリを含む、
請求項１に記載の汎用グラフィクスプロセッサ。
前記少なくとも１つの処理リソース内の前記メモリは、レジスタファイルを含む、
請求項１に記載の汎用グラフィクスプロセッサ。
前記少なくとも１つの処理リソース内の前記メモリは、前記行列アクセラレータ内のメモリを含む、
請求項１に記載の汎用グラフィクスプロセッサ。
前記スパース第１行列は、ニューラルネットワークに関連した重みデータを含む、
請求項１に記載の汎用グラフィクスプロセッサ。
前記第２行列は、前記ニューラルネットワークに関連した入力活性化データを含む、
請求項７に記載の汎用グラフィクスプロセッサ。
前記内積演算の前記出力は、前記ニューラルネットワークに関連した出力活性化データを含む、
請求項８に記載の汎用グラフィクスプロセッサ。
前記内積演算の前記出力は、密行列である、
請求項９に記載の汎用グラフィクスプロセッサ。
前記行列アクセラレータは、処理要素のシストリックアレイを含む、
請求項１に記載の汎用グラフィクスプロセッサ。
前記スパース第１行列の要素は、前記構造化されたスパース性に基づき圧縮表現に圧縮される、
請求項１に記載の汎用グラフィクスプロセッサ。
前記内積演算は、８ビット整数内積演算である、
請求項１に記載の汎用グラフィクスプロセッサ。
前記スパース第１行列は、８ビット整数要素を含む、
請求項１３に記載の汎用グラフィクスプロセッサ。
メモリデバイスと、
請求項１乃至１４のうち何れか一項に記載の汎用グラフィクスプロセッサと
を有するデータ処理システム。
スパース内積命令に応答してスパース第１行列及び第２行列の複数の要素に対して内積演算を実行することであり、前記内積演算は、キャッシュメモリと結合される複数の処理リソースを含む計算クラスタにより実行され、少なくとも１つの処理リソースは行列アクセラレータを含み、前記スパース第１行列は要素のブロックごとにプルーニングを適用されて、それにより前記スパース第１行列は構造化されたスパース性を持ち、該構造化されたスパース性を持った前記スパース第１行列の要素は、要素の組を含む圧縮表現に圧縮され、前記要素の組は、少なくとも１つの非ゼロ値要素及び該少なくとも１つの非ゼロ値要素の指示を含む、前記実行することと、
前記圧縮表現を、圧縮された形式で前記キャッシュメモリに格納することと、
前記少なくとも１つの処理リソースにより、
前記圧縮表現を前記キャッシュメモリから前記少なくとも１つの処理リソース内のメモリにロードし、
前記第２行列を前記キャッシュメモリから前記少なくとも１つの処理リソース内の前記メモリにロードし、
前記圧縮表現からの要素及び前記第２行列の選択された要素に対して前記内積演算を実行し、前記第２行列の前記選択された要素が、前記圧縮表現内に格納された前記スパース第１行列の非ゼロ値と対応し、前記少なくとも１つの非ゼロ値の前記指示に基づき選択され、
前記内積演算の出力を前記少なくとも１つの処理リソース内の前記メモリに書き込むことと
を有する方法。
前記スパース第１行列の要素を、前記少なくとも１つの処理リソースのメモリ内で、前記圧縮表現に圧縮することを更に有する、
請求項１６に記載の方法。
前記スパース第１行列の要素は、前記構造化されたスパース性に基づき圧縮表現に圧縮される、
請求項１６に記載の方法。
内積演算を実行することは、８ビット整数内積演算を実行することを含む、
請求項１６に記載の方法。
前記スパース第１行列は、８ビット整数要素を含む、
請求項１９に記載の方法。
実行される場合にマシンに請求項１６乃至２０のうち何れか一項に記載の方法を実行させるコンピュータプログラム。
請求項２１に記載のコンピュータプログラムを記憶しているマシン可読記憶媒体。
請求項１６乃至２０のうち何れか一項に記載の方法を実行する手段を有する装置。