JP2022523912A

JP2022523912A - 圧縮技術

Info

Publication number: JP2022523912A
Application number: JP2021544544A
Authority: JP
Inventors: アール．アップ、アビーシェク; コカー、アルトゥグ; アナンタラマン、アラヴィンド; ウルド－アハメド－ヴァル、エルモウスタファ; レイ、ジョイディープ; マクファーソン、マイク; アンドレイ、ヴァレンティン; ヴォンボリース、ニコラスガロッポ; ジョージ、ヴァルギース; マイユラン、スブラマニアム; ランガナサン、ヴァサンス; ピーエス、ジャヤクリシュナ; ケイ、パッタビーラマン; カンマ、スダカル
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-03-15
Filing date: 2020-03-14
Publication date: 2022-04-27
Anticipated expiration: 2040-03-14
Also published as: US20220138101A1; CN117689531A; WO2020190799A2; EP3938912A1; CN113454587A; PL3938912T3; DE112020001256T5; KR102596790B1; US11709793B2; CN113424148A; WO2020190798A1; EP3938894A1; US20220180467A1; DE112020000874T5; EP3938913A1; CN113396401A; CN113439265A; US11954063B2; WO2020190806A1; EP4270201A2

Abstract

データ圧縮技術に関する方法および装置。例では、装置は、プロセッサが、メモリセグメントに対するデータ圧縮命令を受信し、データ圧縮命令に応答して、同一メモリ値のシーケンスが閾値を超える長さを有するとの判定に応答して、同一メモリ値のシーケンスを圧縮する。他の実施形態もまた開示され、特許請求される。

Description

［優先権主張と関連出願の相互参照］
本願は、３５Ｕ．Ｓ．Ｃ．１１９（ｅ）に関連および従属し、ＡｂｈｉｓｈｅｋＡｐｐｕ，ら（弁護士登録番号ＡＣ０２７１－Ｚ）により２０１９年３月１５日に出願され、グラフィック処理と題された米国仮出願６２／８１９，３３７と、ＬａｋｓｈｍｉｎａｒａｙａｎａｎＳｔｒｉｒａｍａｓｓａｒｍａら（弁護士登録番号ＡＣ０２８５－Ｚ）により２０１９年３月１５日に出願され、グラフィックデータ処理と題された６２／８１９，４３５と、ＳｕｂｒａｍａｎｉａｍＭａｉｙｕｒａｎら（弁護士登録番号ＡＣ０２８６－Ｚ）により２０１９年３月１５日に出願され、キャッシュ・アクセス・レイテンシーを低減するためにキャッシュをパーティショニングするシステムおよび方法と題された６２／８１９，３６１の利益と優先権を主張し、これらすべての内容は参照により本明細書に組み込まれる。
［フィールド］

本開示は、概して、データ処理に関し、より具体的には、汎用グラフィック処理ユニットを介したデータ処理に関する。

現在の並列グラフィックデータ処理には、例えば、線形補間、テッセレーション、ラスタライズ、テクスチャマッピング、デプステストなどといった特定の処理をグラフィックデータなどに対し実行するように開発されたシステムおよび方法が含まれる。従来、グラフィックプロセッサは、グラフィックデータを処理するための固定の機能計算ユニットを用いてきたが、しかしながら、より最近には、グラフィックプロセッサの一部がプログラム可能とされ、そのようなプロセッサは、頂点およびフラグメントデータの処理のために、より広い種類の操作をサポートすることを可能とする。

さらに性能を高めるように、グラフィックプロセッサは典型的には、グラフィックパイプラインの異なる部分にわたって可能な限り多くのグラフィックデータを並列に処理しようと試みる、パイプライニングなどの処理技術を実装する。単一の命令で複数のスレッド（ＳＩＭＴ）アーキテクチャによる並列グラフィックプロセッサは、グラフィックパイプラインにおける並列処理量を最大化するように設計される。ＳＩＭＴアーキテクチャにおいて、並列スレッドのグループは、処理効率を高めるように、可能な限り頻繁に、プログラム命令を一緒に同期的に実行しようと試みる。ＳＩＭＴアーキテクチャに関するソフトウェアおよびハードウェアの一般的な概要は、ＳｈａｎｅＣｏｏｋ，ＣＵＤＡプログラミング、第３章、ページ３７－５１（２０１３）に見ることができる。

これにより、本実施形態の上の記載の特徴が詳細に、上に簡潔に要約された実施形態のより具体的な説明において、理解され得る方式が、実施形態を参照することにより示され得、それらのうちいくつかは添付図面において図示される。しかしながら、添付図面は、典型的な実施形態のみを示し、従って、その範囲を限定すると考慮されるべきではないことが、留意されるべきである。

本明細書に説明された実施形態の１またはより多くの態様を実装するように構成された、コンピュータシステムを示すブロック図である。

並列プロセッサコンポーネントを示す。並列プロセッサコンポーネントを示す。並列プロセッサコンポーネントを示す。並列プロセッサコンポーネントを示す。

グラフィックマルチプロセッサおよびマルチプロセッサベースのＧＰＵのブロック図である。グラフィックマルチプロセッサおよびマルチプロセッサベースのＧＰＵのブロック図である。グラフィックマルチプロセッサおよびマルチプロセッサベースのＧＰＵのブロック図である。

複数のＧＰＵが複数のマルチコアプロセッサに通信可能に連結されている例示的なアーキテクチャを示す。複数のＧＰＵが複数のマルチコアプロセッサに通信可能に連結されている例示的なアーキテクチャを示す。複数のＧＰＵが複数のマルチコアプロセッサに通信可能に連結されている例示的なアーキテクチャを示す。複数のＧＰＵが複数のマルチコアプロセッサに通信可能に連結されている例示的なアーキテクチャを示す。複数のＧＰＵが複数のマルチコアプロセッサに通信可能に連結されている例示的なアーキテクチャを示す。複数のＧＰＵが複数のマルチコアプロセッサに通信可能に連結されている例示的なアーキテクチャを示す。

グラフィック処理パイプラインを示す。

機械学習ソフトウェアスタックを示す。

汎用グラフィック処理ユニットを示す。

マルチＧＰＵコンピューティングシステムを示す。

例示的なディープニューラルネットワークの層を示す。例示的なディープニューラルネットワークの層を示す。

例示的な再帰型ニューラルネットワークを示す。

ディープニューラルネットワークの訓練及び展開を示す。

分散型学習を示すブロック図である。

訓練されたモデルを使用して推論を実行するのに好適な例示的な推論システムオンチップ（ＳＯＣ）を示す。

処理システムのブロック図である。

コンピューティングシステムおよびグラフィックプロセッサを示す。コンピューティングシステムおよびグラフィックプロセッサを示す。コンピューティングシステムおよびグラフィックプロセッサを示す。

追加のグラフィックプロセッサおよび計算アクセラレータアーキテクチャのブロック図を示す。追加のグラフィックプロセッサおよび計算アクセラレータアーキテクチャのブロック図を示す。追加のグラフィックプロセッサおよび計算アクセラレータアーキテクチャのブロック図を示す。

グラフィックプロセッサのグラフィック処理エンジンのブロック図である。

グラフィックプロセッサコアで用いられる処理要素のアレイを含むスレッド実行ロジックを示す。グラフィックプロセッサコアで用いられる処理要素のアレイを含むスレッド実行ロジックを示す。

追加の実行ユニットを示す。

グラフィックプロセッサ命令フォーマットを示すブロック図である。

追加のグラフィックプロセッサアーキテクチャのブロック図である。

グラフィックプロセッサコマンドフォーマットおよびコマンドシーケンスを示す。グラフィックプロセッサコマンドフォーマットおよびコマンドシーケンスを示す。

データ処理システムのための例示的なグラフィックソフトウェアアーキテクチャを示す。

ＩＰコア開発システムを示すブロック図である。

集積回路パッケージアセンブリの断面図を示す。

基板に接続されるハードウェアロジックチップレット（例えば、ベースダイ）の複数のユニットを含むパッケージアセンブリを示す。

置き換え可能なチップレットを含むパッケージアセンブリを示す。

チップ集積回路上の例示的なシステムを示すブロック図である。

ＳｏＣ内で用いるための例示的なグラフィックプロセッサを示すブロック図である。ＳｏＣ内で用いるための例示的なグラフィックプロセッサを示すブロック図である。

実施形態に基づく、圧縮技術を実装する方法における処理を示すフローチャートである。実施形態に基づく、圧縮技術を実装する方法における処理を示すフローチャートである。

実施形態に基づく、ビット列の圧縮および圧縮解除の模式図である。

実施形態に基づく、動的バイトサイズ最頻値圧縮を実施する方法における処理を示すフローチャートである。

実施形態に基づく、動的バイトサイズ最頻値圧縮が実装される可能性のあるキャッシュ構造を示す模式図である。

実施形態に基づく、書き込み処理加速技術を実行するように構成されたメモリコントローラの模式図である。

実施形態に基づく、書き込み処理の加速化技術を実装する方法における処理を示すフローチャートである。実施形態に基づく、書き込み処理の加速化技術を実装する方法における処理を示すフローチャートである。実施形態に基づく、書き込み処理の加速化技術を実装する方法における処理を示すフローチャートである。他の例の処理を示す図である。他の例の処理を示す図である。

グラフィック処理ユニット（ＧＰＵ）は、例えば、グラフィック処理、機械学習処理、パターン解析処理および／または様々な汎用ＧＰＵ（ＧＰＧＰＵ）機能を加速化すべく、ホスト／プロセッサコアに通信可能に結合されている。ＧＰＵは、バスまたは別の相互接続（例えば、ＰＣＩｅまたはＮＶリンク等の高速相互接続）経由で、ホストプロセッサ／コアに通信可能に結合されてよい。代替的に、ＧＰＵは、当該コアと同一のパッケージまたはチップ上で統合されてよく、内部プロセッサバス／相互接続（つまり、パッケージまたはチップの内部）経由上でコアに通信可能に結合されてよい。ＧＰＵの接続態様に関わらず、プロセッサコアは、ＧＰＵに対し、ワーク記述子に含まれるコマンド／命令のシーケンスの形態で、ワークをＧＰＵに割り当ててよい。その後、ＧＰＵは、これらのコマンド／命令を効率的に処理するために、専用回路／ロジックを用いる。

以下の説明においては、より完全な理解を提供すべく、多数の具体的な詳細について記載されている。しかしながら、これらの具体的な詳細のうち、１または複数がなくても、本明細書で説明する実施形態を実施可能であることは当業者にとって明らかであろう。他の例においては、本実施形態の詳細を不明瞭にするのを回避するため、周知の機能については説明されていない。
「システムの概要」

図１は、本明細書で説明する実施形態の１または複数の態様を実装するよう構成されたコンピューティングシステム１００を示すブロック図である。コンピューティングシステム１００は、メモリハブ１０５を含んでよい相互接続パスを介して通信する１または複数のプロセッサ１０２およびシステムメモリ１０４を有する処理サブシステム１０１を含む。メモリハブ１０５は、チップセットコンポーネント内の別個のコンポーネントであってよく、または、１または複数のプロセッサ１０２内に統合されていてもよい。メモリハブ１０５は、通信リンク１０６を介してＩ／Ｏサブシステム１１１に結合される。Ｉ／Ｏサブシステム１１１は、コンピューティングシステム１００が、１または複数の入力デバイス１０８から入力を受信できるようにするＩ／Ｏハブ１０７を含む。追加で、Ｉ／Ｏハブ１０７は、１または複数のプロセッサ１０２内に含まれてよいディスプレイコントローラが、１または複数のディスプレイデバイス１１０Ａに出力を提供できるようにしてよい。一実施形態において、Ｉ／Ｏハブ１０７に結合された１または複数のディスプレイデバイス１１０Ａは、ローカルの、内部の、または埋め込みされたディスプレイデバイスを含んでよい。

処理サブシステム１０１は、例えば、バスまたは他の通信リンク１１３を介してメモリハブ１０５に結合された１または複数の並列プロセッサ１１２を含む。通信リンク１１３は、限定ではないが、ＰＣＩＥｘｐｒｅｓｓ等といった、任意の数の標準ベースの通信リンク技術またはプロトコルのうちの１つであってよく、あるいは、ベンダ特有の通信インタフェースまたは通信ファブリックであってよい。１または複数の並列プロセッサ１１２は、多数の集積コア（ＭＩＣ）プロセッサ等の多数のプロセッシングコアおよび／または処理クラスタを含んでよい計算集中的な並列またはベクトル処理システムを形成してよい。例えば、１または複数の並列プロセッサ１１２は、Ｉ／Ｏハブ１０７を介して結合された１または複数のディスプレイデバイス１１０Ａのうちの１つに、画素を出力可能なグラフィック処理サブシステムを形成する。また、１または複数の並列プロセッサ１１２は、１または複数のディスプレイデバイス１１０Ｂへの直接接続を可能にするディスプレイコントローラおよびディスプレイインタフェース（不図示）も含んでよい。

Ｉ／Ｏサブシステム１１１内では、システムストレージユニット１１４が、コンピューティングシステム１００のためのストレージメカニズムを提供すべく、Ｉ／Ｏハブ１０７に接続されてよい。Ｉ／Ｏスイッチ１１６を用いて、Ｉ／Ｏハブ１０７およびプラットフォームに統合可能なネットワークアダプタ１１８および／または無線ネットワークアダプタ１１９等の他のコンポーネントと、１または複数のアドインデバイス１２０を介して追加可能な様々な他のデバイスとの間の接続を可能にするためのインタフェースメカニズムを提供してよい。アドインデバイス１２０はまた、例えば、１または複数の外部グラフィックプロセッサデバイスおよび／または計算アクセラレータも含んでよい。ネットワークアダプタ１１８は、イーサネット（登録商標）アダプタまたは別の有線ネットワークアダプタであってよい。無線ネットワークアダプタ１１９は、Ｗｉ－Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、近距離通信（ＮＦＣ）、または、１または複数の無線装置を含む他のネットワークデバイスのうちの１または複数を含んでよい。

コンピューティングシステム１００は、明示的に示されていない他のコンポーネントを含むことができ、ＵＳＢ又は他のポート接続、光ストレージドライブ、ビデオキャプチャデバイスなどを含んでよく、またＩ／Ｏハブ１０７に接続され得る。図１の様々なコンポーネントを相互接続する通信パスは、ＰＣＩ（ペリフェラルコンポーネントインターコネクト）をベースにしたプロトコル（例えば、ＰＣＩ－Ｅｘｐｒｅｓｓ）、または任意の他のバスまたはポイントツーポイント通信インタフェース、および／または、ＮＶ－リンク高速インターコネクト、または当技術分野で既知の相互接続プロトコルなどのプロトコルなどといった、任意の適したプロトコルを用いて実装されてよい。

１または複数の並列プロセッサ１１２は、例えば、ビデオ出力回路を含む、グラフィック処理およびビデオ処理のために最適化された回路を組み込んでよく、グラフィック処理ユニット（ＧＰＵ）を構成する。代替的または追加的に、１または複数の並列プロセッサ１１２は、本明細書で後に詳しく説明する基礎となる計算アーキテクチャを保持する一方、汎用処理のために最適化された回路を組み込んでよい。コンピューティングシステム１００のコンポーネントは、単一の集積回路上の１または複数の他のシステム要素と統合されてよい。例えば、１または複数の並列プロセッサ１１２、メモリハブ１０５、プロセッサ１０２およびＩ／Ｏハブ１０７は、システムオンチップ（ＳｏＣ）集積回路に統合されてよい。代替的に、コンピューティングシステム１００のコンポーネントは、単一パッケージ内に統合されて、システムインパッケージ（ＳｉＰ）構成を形成してよい。一実施形態において、コンピューティングシステム１００のコンポーネントの少なくとも一部は、マルチチップモジュール（ＭＣＭ）に統合されてよく、ＭＣＭが、モジュール式コンピューティングシステム内の他のマルチチップモジュールと相互接続されてよい。

ここで示すコンピューティングシステム１００は例示であり、変形例および改良例が可能であることを理解されたい。ブリッジの数および構成、プロセッサ１０２の数、および並列プロセッサ１１２の数を含む接続トポロジは、所望の通り修正されてよい。例えば、システムメモリ１０４は、ブリッジを通さずにむしろ直接プロセッサ１０２に接続されてよい一方、他のデバイスは、メモリハブ１０５およびプロセッサ１０２を介してシステムメモリ１０４と通信する。他の代替的なトポロジでは、並列プロセッサ１１２はメモリハブ１０５ではなくむしろ、Ｉ／Ｏハブ１０７に接続され、または、１または複数のプロセッサ１０２のうちの１つに直接接続される。他の実施形態において、Ｉ／Ｏハブ１０７およびメモリハブ１０５は、単一のチップに統合されてよい。２または２より多いセットのプロセッサ１０２が複数のソケットを介して取り付けられることもまた可能であり、当該ソケットは、並列プロセッサ１１２のうちの２または２より多いインスタンスと結合されてよい。

ここで示す具体的なコンポーネントのうちの一部は随意ものであり、コンピューティングシステム１００のすべての実装に含まれていなくもよい。例えば、任意の数のアドインカードまたは周辺機器がサポートされてよく、あるいは、一部のコンポーネントは除去されてよい。さらに、一部のアーキテクチャは、図１に示すコンポーネントと同様のコンポーネントのために、異なる用語を使用してよい。例えば、一部のアーキテクチャにおいて、メモリハブ１０５は、ノースブリッジと称されてよい一方、Ｉ／Ｏハブ１０７は、サウスブリッジと称されてよい。

図２Ａは、並列プロセッサ２００を示す。並列プロセッサ２００は、本明細書で説明されるＧＰＵ、ＧＰＧＰＵなどであってよい。並列プロセッサ２００の様々なコンポーネントは、プログラム可能なプロセッサ、特定用途向け集積回路（ＡＳＩＣ）またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）等の１または複数の集積回路デバイスを用いて実装されてよい。示された並列プロセッサ２００は、図１に示された並列プロセッサ１１２であってもよく、並列プロセッサ１１２のうちの１つであってよい。

並列プロセッサ２００は、並列処理ユニット２０２を含む。並列処理ユニットは、並列処理ユニット２０２の他のインスタンスを含む他のデバイスとの通信を可能にするＩ／Ｏユニット２０４を含む。Ｉ／Ｏユニット２０４は、他のデバイスに直接的に接続されてよい。例えば、Ｉ／Ｏユニット２０４は、メモリハブ１０５等のハブまたはスイッチインタフェースの使用を介して、他のデバイスに接続される。メモリハブ１０５とＩ／Ｏユニット２０４との間の接続は、通信リンク１１３を形成する。並列処理ユニット２０２内で、Ｉ／Ｏユニット２０４は、ホストインタフェース２０６およびメモリクロスバー２１６に接続され、ここでホストインタフェース２０６は、演算処理の実行を指示するコマンドを受信し、メモリクロスバー２１６は、メモリ処理の実行を指示するコマンドを受信する。

ホストインタフェース２０６が、Ｉ／Ｏユニット２０４を介してコマンドバッファを受信する場合、ホストインタフェース２０６は、それらのコマンドを実行するためのワーク動作をフロントエンド２０８に宛ててよい。一実施形態において、フロントエンド２０８は、スケジューラ２１０に結合され、スケジューラ２１０は、処理クラスタアレイ２１２に、複数のコマンドまたは他のワークアイテムを分散するよう構成されている。スケジューラ２１０は、タスクが処理クラスタアレイ２１２の処理クラスタに分散される前に、処理クラスタアレイ２１２が適切に構成されていること、および、有効な状態にあることを保証する。スケジューラ２１０は、マイクロコントローラ上で実行されるファームウェアロジックを介して実装されてよい。マイクロコントローラで実装されるスケジューラ２１０は、複雑なスケジューリング、ならびに、粗い、および細かい粒度での作業配分動作を実行し、処理アレイ２１２上で実行するスレッドの急速なプリエンプションおよびコンテキストスイッチを可能にするように構成可能である。好ましくは、ホストソフトウェアは、複数のグラフィック処理ドアベルのうちの１つを介して、処理アレイ２１２にスケジューリングするワークロードを証明してよい。ワークロードは、次に、スケジューラマイクロコントローラ内のスケジューラ２１０ロジックによって、処理アレイ２１２にわたって自動的に分散され得る。

処理クラスタアレイ２１２は、最大"Ｎ個"の処理クラスタ（例えば、クラスタ２１４Ａ、クラスタ２１４Ｂ、クラスタ２１４Ｎまで）を含んでよい。処理クラスタアレイ２１２の各クラスタ２１４Ａ～２１４Ｎは、多数の並行スレッドを実行してよい。スケジューラ２１０は、様々なスケジューリングおよび／またはワーク分散アルゴリズムを用いて、処理クラスタアレイ２１２のクラスタ２１４Ａ～２１４Ｎにワークを割り当ててよく、様々なスケジューリングおよび／またはワーク分散アルゴリズムは、各タイプのプログラムまたは計算に生じるワークロードに応じて変わってよい。スケジューリングは、スケジューラ２１０によって動的に処理されてよく、あるいは、処理クラスタアレイ２１２による実行用に構成されたプログラムロジックのコンパイル中に、部分的にコンパイラロジックによって支援されてよい。随意で、処理クラスタアレイ２１２の異なるクラスタ２１４Ａ～２１４Ｎは、異なるタイプのプログラムの処理のために、または、異なるタイプの計算を実行するために割り当てられてよい。

処理クラスタアレイ２１２は、様々なタイプの並列演算処理を実行するよう構成されてよい。例えば、処理クラスタアレイ２１２は、汎用の並列計算処理を実行するよう構成されている。例えば、処理クラスタアレイ２１２は、ビデオおよび／またはオーディオデータのフィルタリングを含むタスクの処理、物理処理を含むモデリング処理の実行、および、データ変換の実行を行うためのロジックを含んでよい。

処理クラスタアレイ２１２は、並列グラフィック演算処理を実行するよう構成されている。並列プロセッサ２００が、グラフィック演算処理を実行するよう構成されているかかる実施形態においては、処理クラスタアレイ２１２は、かかるグラフィック演算処理の実行をサポートする追加のロジックを含んでよく、例えば、限定ではないが、テクスチャ処理を実行するためのテクスチャサンプリングロジックに加え、テッセレーションロジックおよび他の頂点処理ロジックが含まれる。追加で、処理クラスタアレイ２１２は、限定ではないが、頂点シェーダ、テッセレーションシェーダ、ジオメトリシェーダ、および画素シェーダ等の、グラフィック処理関連のシェーダプログラムを実行するよう構成されてよい。並列処理ユニット２０２は、Ｉ／Ｏユニット２０４を介して、システムメモリからのデータを処理のために転送してよい。処理中、転送されたデータは、オンチップメモリ（例えば、並列プロセッサメモリ２２２）に格納されてよく、その後、処理中にシステムメモリに書き戻される。

並列処理ユニット２０２を用いてグラフィック処理を実行する実施形態においては、スケジューラ２１０は、グラフィック演算処理を、処理クラスタアレイ２１２の複数のクラスタ２１４Ａ～２１４Ｎにより良く分散できるように、処理ワークロードを、ほぼ等しいサイズのタスクに分割するよう構成されてよい。これらの実施形態のうちのいくつかにおいて、処理クラスタアレイ２１２の一部は、異なるタイプの処理を実行するよう構成されてよい。例えば、第１の部分は、頂点シェーディングおよびトポロジ生成を実行するよう構成されてよく、第２の部分は、テッセレーションおよびジオメトリシェーディングを実行するよう構成されてよく、第３の部分は、表示用のレンダリングイメージを生成すべく、画素シェーディングまたは他のスクリーン空間処理を実行するよう構成されてよい。クラスタ２１４Ａ～２１４Ｎのうちの１または複数によって生成された中間データはバッファに格納されて、中間データがさらなる処理のためにクラスタ２１４Ａ～２１４Ｎ間で伝送されることを可能にしてよい。

処理中、処理クラスタアレイ２１２は、スケジューラ２１０を介して実行されるべき処理タスクを受信してよく、スケジューラ２１０は、フロントエンド２０８から、処理タスクを定義するコマンドを受信する。グラフィック演算処理について、処理タスクは、処理されるべきデータ、例えば、表面（パッチ）データ、プリミティブデータ、頂点データ、および／または画素データのインデックスを含んでよく、並びに、データがどのように処理（例えば、どのプログラムが実行されるべきであるか）されるべきかを定義する状態パラメータおよびコマンドも含んでよい。スケジューラ２１０は、タスクに対応するインデックスをフェッチするよう構成されてよく、または、フロントエンド２０８からインデックスを受信してよい。フロントエンド２０８は、着信するコマンドバッファ（例えば、バッチバッファ、プッシュバッファ等）によって指定されるワークロードが開始される前に、処理クラスタアレイ２１２が有効な状態に構成されていることを保証するよう構成されてよい。

並列処理ユニット２０２の１または複数のインスタンスの各々は、並列プロセッサメモリ２２２に結合されてよい。並列プロセッサメモリ２２２は、メモリクロスバー２１６を介してアクセスされてよく、メモリクロスバー２１６は、処理クラスタアレイ２１２およびＩ／Ｏユニット２０４からのメモリ要求を受信してよい。メモリクロスバー２１６は、メモリインタフェース２１８を介して並列プロセッサメモリ２２２にアクセスしてよい。メモリインタフェース２１８は、複数のパーティションユニット（例えば、パーティションユニット２２０Ａ、パーティションユニット２２０Ｂ、パーティションユニット２２０Ｎまで）を含んでよく、パーティションユニットのそれぞれが、並列プロセッサメモリ２２２の一部（例えば、メモリユニット）に結合されてよい。パーティションユニット２２０Ａ～２２０Ｎの数は、第１のパーティションユニット２２０Ａが対応する第１のメモリユニット２２４Ａを有し、第２のパーティションユニット２２０Ｂが対応するメモリユニット２２４Ｂを有し、Ｎ番目のパーティションユニット２２０Ｎが対応するＮ番目のメモリユニット２２４Ｎを有するように、メモリユニットの数と等しく構成されてよい。他の実施形態においては、パーティションユニット２２０Ａ～２２０Ｎの数は、メモリデバイスの数と等しくなくてよい。

メモリユニット２２４Ａ～２２４Ｎは、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、または、グラフィックダブルデータレート（ＧＤＤＲ）メモリを含む同期グラフィックランダムアクセスメモリ（ＳＧＲＡＭ）等のグラフィックランダムアクセスメモリを含む様々なタイプのメモリデバイスを含んでよい。随意で、メモリユニット２２４Ａ～２２４Ｎは、また、限定ではないが高帯域幅メモリ（ＨＢＭ）を含む３Ｄスタックメモリも含んでよい。当業者であれば、メモリユニット２２４Ａ～２２４Ｎの具体的な実装は可変であってよく、様々な従来の設計のうちの１つから選択されてよいことを理解するであろう。フレームバッファまたはテクスチャマップ等のレンダリングターゲットは、メモリユニット２２４Ａ～２２４Ｎにわたり格納されてよく、パーティションユニット２２０Ａ～２２０Ｎが、各レンダリングターゲットの一部を並列に書き込んで、並列プロセッサメモリ２２２の利用可能な帯域幅を効率的に用いることを可能にする。いくつかの実施形態において、システムメモリをローカルキャッシュメモリと共に用いる一体化メモリの設計を優先して、並列プロセッサメモリ２２２のローカルインスタンスが除外されてよい。

随意で、処理クラスタアレイ２１２のクラスタ２１４Ａ～２１４Ｎの任意の１つは、並列プロセッサメモリ２２２内のメモリユニット２２４Ａ～２２４Ｎの任意のものに書き込まれるデータを処理する能力を有する。メモリクロスバー２１６は、各クラスタ２１４Ａ～２１４Ｎの出力を、任意のパーティションユニット２２０Ａ～２２０Ｎまたは別のクラスタ２１４Ａ～２１４Ｎに転送するよう構成されてよく、これらが、当該出力に対し追加の演算処理を実行してよい。クラスタ２１４Ａ～２１４Ｎの各々は、メモリクロスバー２１６を通してメモリインタフェース２１８と通信して、様々な外部メモリデバイスからの読み取り、または様々な外部メモリデバイスへの書き込みを行ってよい。メモリクロスバー２１６を備える実施形態のうちの１つにおいて、メモリクロスバー２１６は、Ｉ／Ｏユニット２０４と通信すべく、メモリインタフェース２１８への接続を有し、および、並列プロセッサメモリ２２２のローカルインスタンスへの接続を有し、異なる処理クラスタ２１４Ａ～２１４Ｎ内の処理ユニットが、並列処理ユニット２０２に対しローカルでないシステムメモリまたは他のメモリと通信することを可能にする。概して、メモリクロスバー２１６は、例えば、クラスタ２１４Ａ～２１４Ｎと、パーティションユニット２２０Ａ～２２０Ｎとの間のトラフィックストリームを分離すべく、仮想チャネルを用いることが可能であってよい。

並列プロセッサ２００内に並列処理ユニット２０２の単一インスタンスが示されている一方で、並列処理ユニット２０２の任意の数のインスタンスが含まれてよい。例えば、並列処理ユニット２０２の複数のインスタンスが単一のアドインカード上に提供されてよく、あるいは、複数のアドインカードが相互接続されてよい。たとえ並列処理ユニット２０２の異なるインスタンスが、異なる数のプロセッシングコア、異なる量のローカル並列プロセッサメモリ、および／または、他の構成の差異を有する場合であっても、当該異なるインスタンスは相互動作するよう構成されてよい。随意で、並列処理ユニット２０２のいくつかのインスタンスは、他のインスタンスと比較して、より高精度の精度浮動小数点ユニットを含んでよい。並列処理ユニット２０２または並列プロセッサ２００の１または複数のインスタンスを組み込んだシステムは、様々な構成およびフォームファクタにおいて実装されてよく、このようなものとしては、限定ではないが、デスクトップ、ラップトップ、またはハンドヘルドパーソナルコンピュータ、サーバ、ワークステーション、ゲームコンソールおよび／または埋め込みシステムが含まれる。

図２Ｂは、パーティションユニット２２０のブロック図である。パーティションユニット２２０は、図２Ａのパーティションユニット２２０Ａ～２２０Ｎのうちの１つのインスタンスであってよい。図示の通り、パーティションユニット２２０は、Ｌ２キャッシュ２２１、フレームバッファインタフェース２２５、およびＲＯＰ２２６（ラスタ処理ユニット）を含む。Ｌ２キャッシュ２２１は、メモリクロスバー２１６およびＲＯＰ２２６から受信されたロードおよびストア処理を実行するよう構成された読み取り／書き込みキャッシュである。読み取りミスおよび緊急書き戻し要求は、Ｌ２キャッシュ２２１によって、処理のためにフレームバッファインタフェース２２５に出力される。また、更新も、フレームバッファインタフェース２２５を介して、処理のためにフレームバッファに送信されてよい。一実施形態において、フレームバッファインタフェース２２５は、並列プロセッサメモリ内のメモリユニット、例えば、図２Ａのメモリユニット２２４Ａ～２２４Ｎ（例えば、並列プロセッサメモリ２２２内の）等のうちの１つとやり取りする。追加的にまたは代替的に、パーティションユニット２２０は、メモリコントローラ（不図示）を介して、並列プロセッサメモリ内の複数のメモリユニットのうちの１つとやり取りしてよい。

グラフィックアプリケーションにおいて、ＲＯＰ２２６は、ステンシル、ｚ試験、ブレンディング等のようなラスタ処理を実行する処理ユニットである。その後、ＲＯＰ２２６は、処理されたグラフィックデータを出力し、それがグラフィックメモリ内に格納される。いくつかの実施形態において、ＲＯＰ２２６は、メモリに書き込まれた深さまたはカラーデータを圧縮し、メモリから読み出された深さまたはカラーデータを圧縮解除する圧縮ロジックを含む。圧縮ロジックは、複数の圧縮アルゴリズムのうちの１または複数を活用する無損失圧縮ロジックであってよい。ＲＯＰ２２６によって実行される圧縮のタイプは、圧縮されるべきデータの統計的特性に基づいて変わり得る。例えば、一実施形態において、タイル毎に、デルタカラー圧縮がデプスデータおよびカラーデータに実行される。

ＲＯＰ２２６は、パーティションユニット２２０内の代わりに、各処理クラスタ（例えば、図２Ａのクラスタ２１４Ａ～２１４Ｎ）内に含まれてよい。かかる実施形態においては、画素フラグメントデータの代わりに、画素データへの読み取り要求および書き込み要求が、メモリクロスバー２１６経由で伝送される。処理されたグラフィックデータは、図１の１または複数のディスプレイデバイス１１０のうちの１つなどの、ディスプレイデバイス上に表示され得、プロセッサ１０２によってさらなる処理のためにルーティングされ得る。または図２Ａの並列プロセッサ２００内の処理されたエンティティのうちの１つによるさらなる処理のためにルーティングされ得る。

図２Ｃは、並列処理ユニット内の処理クラスタ２１４のブロック図である。例えば、処理クラスタは、図２Ａの処理クラスタ２１４Ａ～２１４Ｎのうちの１つのインスタンスである。処理クラスタ２１４は、多くのスレッドを並列で実行するよう構成されてよく、ここで"スレッド"という用語は、入力データの特定のセット上で実行される特定のプログラムのインスタンスを指す。随意で、複数の独立した命令ユニットを提供することなく、多数のスレッドの並列実行をサポートするために、単一命令、複数データ（ＳＩＭＤ）命令発行技術が用いられてよい。代替的に、各処理クラスタ内の処理エンジンのセットに対し命令を発行するよう構成された共通の命令ユニットを用いて、概して同期された多数のスレッドの並列実行をサポートするために、単一命令、複数スレッド（ＳＩＭＴ）技術が用いられてよい。すべての処理エンジンが通常、同一命令を実行するＳＩＭＤ実行レジームとは異なり、ＳＩＭＴ実行では、特定のスレッドプログラムを通して、異なるスレッドが分岐実行パスをより容易にたどることを可能にする。当業者は、ＳＩＭＤ処理レジームは、ＳＩＭＴ処理レジームの機能的サブセットを表わすことを理解するであろう。

処理クラスタ２１４の処理は、処理タスクをＳＩＭＴ並列プロセッサに分散させるパイプラインマネージャ２３２を介して制御されてよい。パイプラインマネージャ２３２は、図２Ａのスケジューラ２１０から命令を受信し、グラフィックマルチプロセッサ２３４および／またはテクスチャユニット２３６を介して、これらの命令の実行を管理する。示されたグラフィックマルチプロセッサ２３４は、ＳＩＭＴ並列プロセッサの例示的なインスタンスである。しかしながら、異なるアーキテクチャの様々なタイプのＳＩＭＴ並列プロセッサが、処理クラスタ２１４内に含まれてよい。グラフィックマルチプロセッサ２３４の１または複数のインスタンスが、処理クラスタ２１４内に含まれてよい。グラフィックマルチプロセッサ２３４は、データを処理してよく、データクロスバー２４０は、処理されたデータを、他のシェーダユニットを含む複数の考え得るデスティネーションのうちの１つへ分散するために用いられてよい。パイプラインマネージャ２３２は、データクロスバー２４０を介して、分散されるべき処理されたデータのデスティネーションを指定することで、処理されたデータの分散を容易にしてよい。

処理クラスタ２１４内の各グラフィックマルチプロセッサ２３４は、機能実行ロジックの同一セット（例えば、算術論理ユニット、ロード－ストアユニット等）を含んでよい。機能実行ロジックは、前の命令が完了する前に、新しい命令が発行され得るパイプライン化方式で構成されてよい。機能実行ロジックは、整数および浮動小数点算術、比較処理、ブール処理、ビットシフトおよび様々な代数関数の計算を含む様々な処理をサポートする。同一の機能ユニットハードウェアを活用して、異なる処理を実行してよく、機能ユニットの任意の組み合わせが存在してよい。

処理クラスタ２１４に伝送される命令はスレッドを構成する。並列処理エンジンのセット間で実行されるスレッドのセットは、スレッドグループである。スレッドグループは、異なる入力データに対し、同一のプログラムを実行する。スレッドグループ内の各スレッドが、グラフィックマルチプロセッサ２３４内の異なる処理エンジンに割り当てられてよい。スレッドグループは、グラフィックマルチプロセッサ２３４内の処理エンジンの数より少ないスレッドを含んでよい。スレッドグループが処理エンジンの数より少ないスレッドを含む場合、処理エンジンのうちの１または複数は、そのスレッドグループが処理されているサイクル中に、アイドルであってよい。スレッドグループは、グラフィックマルチプロセッサ２３４内の処理エンジンの数より多いスレッドも含んでよい。スレッドグループがグラフィックマルチプロセッサ２３４内の処理エンジンの数より多くのスレッドを含む場合、処理は、連続的なクロックサイクルにわたり実行されてよい。随意で、グラフィックマルチプロセッサ２３４上で、複数のスレッドグループが同時に実行されてよい。

グラフィックマルチプロセッサ２３４は、ロードおよびストア処理を実行するための内部キャッシュメモリを含んでよい。随意で、グラフィックマルチプロセッサ２３４は内部キャッシュより先行してよく、処理クラスタ２１４内のキャッシュメモリ（例えば、Ｌ１キャッシュ２４８）を用いてよい。各グラフィックマルチプロセッサ２３４もまた、すべての処理クラスタ２１４の間で共有され、スレッドの間でデータを転送するのに用いられ得るパーティションユニット（例えば、図２Ａのパーティションユニット２２０Ａ－２２０Ｎ）内のＬ２キャッシュへのアクセスを有する。また、グラフィックマルチプロセッサ２３４は、オフチップグローバルメモリにもアクセスしてよく、オフチップグローバルメモリは、ローカル並列プロセッサメモリおよび／またはシステムメモリのうちの１または複数を含んでよい。並列処理ユニット２０２の外部にある任意のメモリをグローバルメモリとして用いてよい。処理クラスタ２１４がグラフィックマルチプロセッサ２３４の複数のインスタンスを含む実施形態は、共通の命令およびデータを共有してよく、当該命令およびデータは、Ｌ１キャッシュ２４８内に格納されてよい。

各処理クラスタ２１４は、仮想アドレスを物理アドレスにマッピングするよう構成されたＭＭＵ２４５（メモリ管理ユニット）を含んでよい。他の実施形態においては、ＭＭＵ２４５の１または複数のインスタンスは、図２Ａのメモリインタフェース２１８内に存在してよい。ＭＭＵ２４５は、仮想アドレスを、タイルの物理アドレスに、および随意でキャッシュラインインデックスにマッピングするために用いられるページテーブルエントリ（ＰＴＥ）のセットを含む。ＭＭＵ２４５は、アドレストランスレーションルックアサイドバッファ（ＴＬＢ）、または、グラフィックマルチプロセッサ２３４に存在してよいキャッシュ若しくはＬ１キャッシュ若しくは処理クラスタ２１４を含んでよい。物理アドレスが処理されて、サーフェスデータアクセス局所性を分散させ、複数のパーティションユニットにわたる効率的な要求インタリーブを可能にする。キャッシュラインインデックスは、キャッシュラインの要求がヒットか、ミスかを判定するために用いられてよい。

グラフィックおよびコンピューティングアプリケーションにおいて、各グラフィックマルチプロセッサ２３４が、例えば、テクスチャサンプル位置を判定し、テクスチャデータを読み取り、当該テクスチャデータをフィルタリングするといった、テクスチャマッピングの処理を実行するためのテクスチャユニット２３６に結合されるように、処理クラスタ２１４は構成されてよい。テクスチャデータは、内部テクスチャＬ１キャッシュ（不図示）から読み取られ、あるいはいくつかの実施形態においては、テクスチャデータは、グラフィックマルチプロセッサ２３４内のＬ１キャッシュから読み取られ、必要に応じてＬ２キャッシュ、ローカル並列プロセッサメモリまたはシステムメモリからフェッチされる。各グラフィックマルチプロセッサ２３４は、処理されたタスクを別の処理クラスタ２１４にさらなる処理のために提供する、あるいは、処理されたタスクを、メモリクロスバー２１６を介してＬ２キャッシュ、ローカル並列プロセッサメモリ、またはシステムメモリに格納するために、処理されたタスクをデータクロスバー２４０に出力する。プリＲＯＰ２４２（プレラスタ処理ユニット）が、グラフィックマルチプロセッサ２３４からデータを受信し、ＲＯＰユニット宛てにデータを送信するように構成され、ＲＯＰユニットは、本明細書で説明するようなパーティションユニット（例えば、図２Ａのパーティションユニット２２０Ａ～２２０Ｎ）と共に配置されてよい。プリＲＯＰ２４２ユニットは、カラーブレンディングのための最適化を実行してよく、画素カラーデータを編成してよく、アドレス変換を実行してよい。

本明細書で説明するコアアーキテクチャは例示的なものであること、変形例および改良例が可能であることを理解されたい。例えば、グラフィックマルチプロセッサ２３４、テクスチャユニット２３６、プリＲＯＰ２４２等の、任意の数の処理ユニットが処理クラスタ２１４内に含まれてよい。さらに、１つの処理クラスタ２１４のみが示されている一方、本明細書で説明する並列処理ユニットは、任意の数の処理クラスタ２１４のインスタンスを含んでよい。随意で、各処理クラスタ２１４は、別個且つ異なる処理ユニット、Ｌ１キャッシュ等を用いて、他の処理クラスタ２１４とは独立して動作するよう構成されてよい。

図２Ｄは、グラフィックマルチプロセッサ２３４の一例を示し、そこでは、グラフィックマルチプロセッサ２３４は、処理クラスタ２１４のパイプラインマネージャ２３２に結合されている。グラフィックマルチプロセッサ２３４は、限定ではないが、命令キャッシュ２５２、命令ユニット２５４、アドレスマッピングユニット２５６、レジスタファイル２５８、１または複数の汎用グラフィック処理ユニット（ＧＰＧＰＵ）コア２６２、および１または複数のロード／ストアユニット２６６を含む実行パイプラインを有する。ＧＰＧＰＵコア２６２およびロード／ストアユニット２６６は、メモリおよびキャッシュ相互接続２６８を介して、キャッシュメモリ２７２および共有メモリ２７０に結合される。追加的に、グラフィックマルチプロセッサ２３４は、行列および／またはレイトレーシング操作を加速化させるためのハードウェアロジックを含むテンソルおよび／またはレイトレーシングコア２６３を含んでよい。

命令キャッシュ２５２は、パイプラインマネージャ２３２から、実行すべき命令ストリームを受信してよい。当該命令は、命令キャッシュ２５２内にキャッシュされ、命令ユニット２５４によって実行のためにディスパッチされる。命令ユニット２５４は、命令をスレッドグループ（例えば、ワープ）としてディスパッチしてよく、スレッドグループの各スレッドはＧＰＧＰＵコア２６２内の異なる実行ユニットに割り当てられる。命令は、一体化アドレス空間内でアドレスを指定することで、ローカル、共有またはグローバルの任意のアドレス空間にアクセスしてよい。アドレスマッピングユニット２５６を用いて、一体化アドレス空間内のアドレスを、ロード／ストアユニット２６６によりアクセス可能な別個のメモリアドレスに変換してよい。

レジスタファイル２５８は、グラフィックマルチプロセッサ２３４の機能ユニットに対し、レジスタのセットを提供する。レジスタファイル２５８は、グラフィックマルチプロセッサ２３４の機能ユニット（例えば、ＧＰＧＰＵコア２６２、ロード／ストアユニット２６６）のデータパスに接続された、オペランドのための一時ストレージを提供する。各機能ユニットにレジスタファイル２５８の専用部分が割り当てられるように、レジスタファイル２５８は、機能ユニットの各々の間で分割されてよい。例えば、レジスタファイル２５８は、グラフィックマルチプロセッサ２３４によって実行されている異なるワープ間で分割されてよい。

ＧＰＧＰＵコア２６２はそれぞれ、グラフィックマルチプロセッサ２３４の命令を実行するために用いられる浮動小数点ユニット（ＦＰＵ）および／または整数算術論理ユニット（ＡＬＵ）を含んでよい。いくつかの実装において、ＧＰＧＰＵコア２６２は、別の場合にはテンソルおよび／またはレイトレーシングコア２６３に存在し得るハードウェアロジックを含んでよい。ＧＰＧＰＵコア２６２は、アーキテクチャにおいて同様であってよく、または、アーキテクチャにおいて異なってよい。例えば、一実施形態において、ＧＰＧＰＵコア２６２の第１の部分は単精度ＦＰＵおよび整数ＡＬＵを含む一方で、ＧＰＧＰＵコアの第２の部分は倍精度ＦＰＵを含む。随意で、ＦＰＵは、浮動小数点算術のためのＩＥＥＥ７５４－２００８標準を実装してよく、または、可変精度の浮動小数点算術を可能にしてよい。追加的に、グラフィックマルチプロセッサ２３４は、矩形コピー処理または画素ブレンディング処理等の特別な機能を実行するための１または複数の固定機能ユニット、または特別な機能ユニットを含んでよい。ＧＰＧＰＵコアの１または複数はまた、固定または特別な機能ロジックも含んでよい。

ＧＰＧＰＵコア２６２は、複数のセットのデータに対し、単一の命令を実行可能なＳＩＭＤロジックを含んでよい。随意で、ＧＰＧＰＵコア２６２は、物理的に、ＳＩＭＤ４、ＳＩＭＤ８およびＳＩＭＤ１６命令を実行してよく、論理的にＳＩＭＤ１、ＳＩＭＤ２およびＳＩＭＤ３２命令を実行してよい。ＧＰＧＰＵコアのためのＳＩＭＤ命令は、コンパイル時にシェーダコンパイラによって生成されてよく、または、ＳＰＭＤ（ｓｉｎｇｌｅｐｒｏｇｒａｍｍｕｌｔｉｐｌｅｄａｔａ）アーキテクチャ若しくはＳＩＭＴアーキテクチャ用に記述およびコンパイルされたプログラムの実行時に自動的に生成されてよい。ＳＩＭＴ実行モデル用に構成されたプログラムの複数のスレッドは、単一のＳＩＭＤ命令を介して実行されてよい。例えば、一実施形態において、同一または同様の処理を実行する８個のＳＩＭＴスレッドが、単一のＳＩＭＤ８ロジックユニットを介して並列に実行されてよい。

メモリおよびキャッシュ相互接続２６８は、グラフィックマルチプロセッサ２３４の機能ユニットの各々を、レジスタファイル２５８および共有メモリ２７０に接続する相互接続ネットワークである。例えば、メモリおよびキャッシュ相互接続２６８は、ロード／ストアユニット２６６が、共有メモリ２７０とレジスタファイル２５８との間でロードおよびストア処理を実装できるようにするクロスバー相互接続である。レジスタファイル２５８は、ＧＰＧＰＵコア２６２と同一周波数で動作してよく、従って、ＧＰＧＰＵコア２６２とレジスタファイル２５８との間のデータ転送は非常に低レイテンシである。共有メモリ２７０を用いて、グラフィックマルチプロセッサ２３４内の機能ユニット上で実行されるスレッド間の通信を可能にしてよい。キャッシュメモリ２７２は、例えば、機能ユニットとテクスチャユニット２３６との間で通信されるテクスチャデータをキャッシュするためのデータキャッシュとして用いられてよい。共有メモリ２７０は、また、プログラムで管理されるキャッシュとして用いられてよい。ＧＰＧＰＵコア２６２上で実行されるスレッドは、キャッシュメモリ２７２内に格納された自動的にキャッシュされたデータに加え、プログラム的に共有メモリ内にデータを格納してよい。

図３Ａ～３Ｃは、実施形態による、追加のグラフィックマルチプロセッサを示す。図３Ａ～３Ｂは、図２Ｃのグラフィックマルチプロセッサ２３４に関連し、それらのうちの１つの代わりに用いられてよいグラフィックマルチプロセッサ３２５、３５０を示す。従って、本明細書のグラフィックマルチプロセッサ２３４との組み合わせにおける任意の特徴に関する開示内容はまた、グラフィックマルチプロセッサ３２５、３５０との対応する組み合わせも開示しているが、そのように限定はされない。図３Ｃは、グラフィックマルチプロセッサ３２５、３５０に対応するマルチコアグループ３６５Ａ～３６５Ｎ内に配置されるグラフィック処理リソースの専用のセットを含む、グラフィック処理ユニット（ＧＰＵ）３８０を示す。示されたグラフィックマルチプロセッサ３２５、３５０およびマルチコアグループ３６５Ａ～３６５Ｎは、多数の実行スレッドの同時実行が可能なストリーミングマルチプロセッサ（ＳＭ）であってよい。

図３Ａのグラフィックマルチプロセッサ３２５は、図２Ｄのグラフィックマルチプロセッサ２３４と比較して、実行リソースユニットの複数の追加のインスタンスを含む。例えば、グラフィックマルチプロセッサ３２５は、命令ユニット３３２Ａ～３３２Ｂ、レジスタファイル３３４Ａ～３３４Ｂおよびテクスチャユニット３４４Ａ～３４４Ｂの複数のインスタンスを含んでよい。グラフィックマルチプロセッサ３２５はまた、グラフィック実行ユニットまたは計算実行ユニット（例えば、ＧＰＧＰＵコア３３６Ａ～３３６Ｂ、テンソルコア３３７Ａ～３３７Ｂ、レイトレーシングコア３３８Ａ～３３８Ｂ）の複数のセット、および、ロード／ストアユニット３４０Ａ～３４０Ｂの複数のセットも含む。実行リソースユニットは、共通の命令キャッシュ３３０、テクスチャおよび／またはデータキャッシュメモリ３４２、並びに共有メモリ３４６を有する。

様々なコンポーネントは、相互接続ファブリック３２７を介して通信してよい。相互接続ファブリック３２７は、グラフィックマルチプロセッサ３２５の様々なコンポーネント間の通信を可能にするための１または複数のクロスバースイッチを含んでよい。相互接続ファブリック３２７は、グラフィックマルチプロセッサ３２５の各コンポーネントがその上に積み重ねられる別個の高速ネットワークファブリック層であってよい。グラフィックマルチプロセッサ３２５の複数のコンポーネントは、相互接続ファブリック３２７を介して、リモートコンポーネントと通信する。例えば、ＧＰＧＰＵコア３３６Ａ－３３６Ｂ、３３７Ａ－３３７Ｂおよび３３７８Ａ－３３８Ｂは、相互接続ファブリック３２７を介しして共有メモリ３４６と各々通信し得る。相互接続ファブリック３２７は、グラフィックマルチプロセッサ３２５内の通信の調整（ａｒｂｉｔｒａｔｅ）して、コンポーネント間の公平な帯域幅割り当てを保証してよい。

図３Ｂのグラフィックマルチプロセッサ３５０は、実行リソース３５６Ａ～３５６Ｄの複数のセットを含み、実行リソースの各セットは、図２Ｄおよび図３Ａに示されるような、複数の命令ユニット、レジスタファイル、ＧＰＧＰＵコアおよびロードストアユニットを含む。実行リソース３５６Ａ～３５６Ｄは、共有命令キャッシュ３５４および共有メモリ３５３を共有する一方、テクスチャ処理のために、テクスチャユニット３６０Ａ～３６０Ｄと連携して動作してよい。例えば、実行リソース３５６Ａ～３５６Ｄは、命令キャッシュ３５４および共有メモリ３５３、並びに、テクスチャおよび／またはデータキャッシュメモリ３５８Ａ～３５８Ｂの複数のインスタンスを共有してよい。様々なコンポーネントは、図３Ａの相互接続ファブリック３２７と同様の相互接続ファブリック３５２を介して通信してよい。

当業者は、図１、２Ａ～２Ｄおよび３Ａ～３Ｂに記載されたアーキテクチャは説明のためのものであり、本実施形態の範囲を限定するものではないことを理解されたい。故に、本明細書で説明する技術は、任意の適切に構成された処理ユニット上で実装されてよく、このようなものとしては、限定ではないが、１または複数のモバイルアプリケーションプロセッサ、マルチコアＣＰＵを含む１または複数のデスクトップまたはサーバの中央処理ユニット（ＣＰＵ）、図２Ａの並列処理ユニット２０２等の１または複数の並列処理ユニット、および、１または複数のグラフィックプロセッサまたは特定用途向け処理ユニットが含まれ、これは本明細書で説明する実施形態の範囲から逸脱することはない。

本明細書で説明する並列プロセッサまたはＧＰＧＰＵは、グラフィック処理、機械学習処理、パターン解析処理および様々な汎用ＧＰＵ（ＧＰＧＰＵ）機能を加速化させるべく、ホスト／プロセッサコアに通信可能に結合されてよい。ＧＰＵは、バスまたは他の相互接続（例えば、ＰＣＩｅまたはＮＶリンク等の高速相互接続）経由で、ホストプロセッサ／コアに通信可能に結合されてよい。他の実施形態において、ＧＰＵは、コアと同一のパッケージまたはチップ上に統合されてよく、および、内部プロセッサバス／相互接続（つまり、パッケージまたはチップの内部にある）経由でコアに通信可能に結合されてよい。ＧＰＵの接続態様に関わらず、プロセッサコアは、ＧＰＵに対し、ワーク記述子に含まれるコマンド／命令のシーケンスの形態で、ワークをＧＰＵに割り当ててよい。その後、ＧＰＵは、これらのコマンド／命令を効率的に処理するために、専用回路／ロジックを用いる。

図３Ｃは、マルチコアグループ３６５Ａ～３６５Ｎに配置されたグラフィック処理リソースの専用のセットを含む、グラフィック処理ユニット（ＧＰＵ）３８０を示す。単一のマルチコアグループ３６５Ａのみの詳細が記載されている一方、他のマルチコアグループ３６５Ｂ～３６５Ｎに、グラフィック処理リソースの同一または同様のセットが備えられてよいことを理解されたい。マルチコアグループ３６５Ａ－３６５Ｎに関し説明した詳細は、ここで説明する任意のグラフィックマルチプロセッサ２３４、３２５、３５０にも適用されてよい。

図示の通り、マルチコアグループ３６５Ａは、グラフィックコア３７０のセット、テンソルコア３７１のセット、およびレイトレーシングコア３７２のセットを含んでよい。スケジューラ／ディスパッチャ３６８は、様々なコア３７０、３７１、３７２上で実行されるグラフィックスレッドをスケジューリングおよびディスパッチする。レジスタファイル３６９のセットは、グラフィックスレッドの実行時に、コア３７０、３７１、３７２によって用いられるオペランド値を格納する。これらは、例えば、整数値を格納するための整数レジスタ、浮動小数点値を格納するための浮動小数点レジスタ、パックドデータ要素（整数および／または浮動小数点のデータ要素）を格納するためのベクトルレジスタ、および、テンソル／行列値を格納するためのタイルレジスタを含んでよい。タイルレジスタは、ベクトルレジスタの組み合わせセットとして実装されてよい。

１または複数の組み合わされたレベル１（Ｌ１）キャッシュおよび共有メモリユニット３７３は、テクスチャデータ、頂点データ、画素データ、レイデータ、バウンディングボリュームデータ等といったグラフィックデータなどを、各マルチコアグループ３６５Ａ内にローカルに格納する。また、１または複数のテクスチャユニット３７４を用いて、テクスチャマッピングおよびサンプリング等のテクスチャリング処理を実行してよい。マルチコアグループ３６５Ａ～３６５Ｎの全部またはサブセットによって共有されるレベル２（Ｌ２）キャッシュ３７５は、複数の並行グラフィックスレッドのためのグラフィックデータおよび／または命令を格納する。図示の通り、Ｌ２キャッシュ３７５は、複数のマルチコアグループ３６５Ａ～３６５Ｎの間で共有されてよい。１または複数のメモリコントローラ３６７は、ＧＰＵ３８０を、システムメモリ（例えば、ＤＲＡＭ）および／または専用グラフィックメモリ（例えば、ＧＤＤＲ６メモリ）であってよいメモリ３６６に結合する。

入力／出力（Ｉ／Ｏ）回路３６３は、ＧＰＵ３８０を、デジタル信号プロセッサ（ＤＳＰ）、ネットワークコントローラ、またはユーザ入力デバイス等の１または複数のＩ／Ｏデバイス３６２に結合する。オンチップ相互接続を用いて、Ｉ／Ｏデバイス３６２を、ＧＰＵ３８０およびメモリ３６６に結合してよい。Ｉ／Ｏ回路３６３の１または複数のＩ／Ｏメモリ管理ユニット（ＩＯＭＭＵ）３６４は、Ｉ／Ｏデバイス３６２をシステムメモリ３６６に直接結合する。随意で、ＩＯＭＭＵ３６４は、仮想アドレスをシステムメモリ３６６内の物理アドレスにマッピングするためのページテーブルの複数のセットを管理する。その後、Ｉ／Ｏデバイス３６２、ＣＰＵ３６１およびＧＰＵ３８０は、同じ仮想アドレス空間を共有してよい。

ＩＯＭＭＵ３６４の一実装において、ＩＯＭＭＵ３６４は仮想化をサポートする。この場合、ゲスト／グラフィック仮想アドレスをゲスト／グラフィック物理アドレスにマッピングするための第１のセットのページテーブルを管理してよく、ゲスト／グラフィック物理アドレスをシステム／ホスト物理アドレスにマッピングするための第２のセットのページテーブルを管理してよい（例えば、システムメモリ３６６内で）。第１のセットのページテーブルおよび第２のセットのページテーブルの各々のベースアドレスは、制御レジスタ内に格納されてよく、コンテキストスイッチ上でスワップアウトされてよい（例えば、その結果、新しいコンテキストに、関連するページテーブルのセットへのアクセスが提供される）。図３Ｃには不図示である一方、コア３７０、３７１、３７２および／またはマルチコアグループ３６５Ａ～３６５Ｎの各々は、ゲスト仮想からゲスト物理への変換、ゲスト物理からホスト物理への変換およびゲスト仮想からホスト物理への変換をキャッシュするための、トランスレーションルックアサイドバッファ（ＴＬＢ）を含んでよい。

ＣＰＵ３６１、ＧＰＵ３８０およびＩ／Ｏデバイス３６２は、単一の半導体チップおよび／またはチップパッケージ上に統合されてよい。示されたメモリ３６６は、同一チップ上に統合されてよく、または、オフチップインタフェースを介してメモリコントローラ３６７に結合されてよい。一実装において、メモリ３６６は、他の物理システムレベルのメモリと同じ仮想アドレス空間を共有するＧＤＤＲ６メモリを有するが、ここで説明される基礎となる原理は、この具体的な実装に限定されることはない。

テンソルコア３７１は、行列処理を実行するように具体的に設計された複数の実行ユニットを含んでよく、行列処理は、深層学習処理を実行するために用いられる基本的な計算処理である。例えば、同時行列乗算処理は、ニューラルネットワークの訓練及び推論に使用され得る。テンソルコア３７１は、単精度浮動小数点（例えば、３２ビット）、半精度浮動小数点（例えば、１６ビット）、整数ワード（１６ビット）、バイト（８ビット）およびハーフバイト（４ビット）を含む、様々なオペランド精度を用いて、行列処理を実行してよい。例えば、ニューラルネットワーク実装は、各レンダリングされたシーンの特徴を抽出し、潜在的に複数のフレームからの詳細情報と組み合わせて、高品質な最終イメージを構築する。

深層学習の実装においては、並列行列乗算ワークは、テンソルコア３７１上での実行のためにスケジューリングされてよい。具体的には、ニューラルネットワークの訓練には、かなりの数の行列ドット積処理が必要である。ＮｘＮｘＮ行列乗算の内積の公式化を処理するために、テンソルコア３７１は、少なくともＮ個のドット積処理要素を含んでよい。行列乗算が開始される前に、１つの行列全体がタイルレジスタにロードされ、第２の行列の少なくとも１つの列が、Ｎ回サイクルのうちの各サイクルでロードされる。各サイクルにおいて、処理されるＮ個のドット積が存在する。

行列要素は、１６ビットワード、８ビットバイト（例えば、ＩＮＴ８）および４ビットハーフバイト（例えば、ＩＮＴ４）などを含む、特定の実装に応じて異なる精度で格納し得る。異なるワークロード（例えば、バイトおよびハーフバイトへの量子化を許容し得る推論ワークロード等）に、最も効率的な精度が用いられることを保証すべく、異なる精度モードがテンソルコア３７１に指定されてよい。

レイトレーシングコア３７２は、リアルタイムレイトレーシングおよび非リアルタイムレイトレーシングの両方の実装のために、レイトレーシング処理を加速化させてよい。特に、レイトレーシングコア３７２は、バウンディングボリューム階層（ＢＶＨｓ）を用いてレイトラバーサルを実行し、ＢＶＨボリューム内で囲まれたレイおよびプリミティブ間のインタセクションを識別するためのレイトラバーサル／インタセクション回路を含んでよい。レイトレーシングコア３７２は、デプステストおよびカリング（例えば、Ｚバッファまたは同様の構成を用いて）を実行するための回路も含んでよい。一実装において、レイトレーシングコア３７２は、本明細書で説明するイメージノイズ除去技術と連携して、トラバーサルおよびインタセクション処理を実行し、イメージノイズ除去技術の少なくとも一部がテンソルコア３７１上で実行されてよい。例えば、テンソルコア３７１は、レイトレーシングコア３７２により生成されたフレームのノイズ除去を実行すべく、深層学習ニューラルネットワークを実装してよい。しかしながら、また、ＣＰＵ３６１、グラフィックコア３７０および／またはレイトレーシングコア３７２は、当該ノイズ除去および／または深層学習アルゴリズムの全部または一部も実装してよい。

また、上で説明したように、ノイズ除去への分散型アプローチが用いられてよく、そこでは、ＧＰＵ３８０がネットワークまたは高速相互接続を通して他のコンピューティングデバイスに結合されたコンピューティングデバイス内に存在する。この分散型アプローチにおいては、相互接続されたコンピューティングデバイス同士は、ニューラルネットワーク学習／訓練データを共有して、システム全体が、異なるタイプのイメージフレームおよび／または異なるグラフィックアプリケーションのためのノイズ除去の実行を学習する速度を改善してよい。

レイトレーシングコア３７２は、すべてのＢＶＨトラバーサルおよび／またはレイプリミティブインタセクションを処理してよく、グラフィックコア３７０にレイ毎に数千の命令で過負荷がかかるのを避ける。例えば、各レイトレーシングコア３７２は、バウンディングボックス試験（例えば、トラバーサル処理のための）を実行するための第１のセットの専用回路、および／または、レイ三角形インタセクション試験（例えば、トラバース済みのインタセクションするレイ）を実行するための第２のセットの専用回路を含む。故に、例えば、マルチコアグループ３６５Ａは、単にレイプローブを起動するだけでよく、レイトレーシングコア３７２は、レイトラバーサルおよびインタセクションを独立して実行し、ヒットデータ（例えば、ヒット、ヒットなし、複数のヒット等）をスレッドコンテキストに戻す。レイトレーシングコア３７２がトラバーサルおよびインタセクション処理を実行する間、他のコア３７０、３７１は他のグラフィックワークまたは計算ワークを実行すべく解放される。

随意で、各レイトレーシングコア３７２は、ＢＶＨ試験処理を実行するためのトラバーサルユニットおよび／またはレイプリミティブインタセクション試験を実行するインタセクションユニットを含んでよい。インタセクションユニットは、"ヒット"、"ヒットとなし"または"複数のヒット"応答を生成し、インタセクションユニットは、これを適切なスレッドに提供する。トラバーサルおよびインタセクション処理中に、他のコア（例えば、グラフィックコア３７０およびテンソルコア３７１）の実行リソースは、他の形態のグラフィックワークを実行すべく、解放される。

後述する１つの随意の実施形態において、ワークがグラフィックコア３７０とレイトレーシングコア３７２との間で分散されるハイブリッドラスタライズ／レイトレーシングアプローチが用いられる。

レイトレーシングコア３７２（および／または他のコア３７０、３７１）は、マイクロソフト（登録商標）のＤｉｓｐａｔｃｈＲａｙｓコマンドおよびレイ生成、最も近いヒット、任意のヒットおよびミスシェーダを含む、ＤｉｒｅｃｔＸＲａｙＴｒａｃｉｎｇ（ＤＸＲ）等のレイトレーシング命令セットのためのハードウェアサポートを含んでよく、これらが、各オブジェクトのシェーダおよびテクスチャの一意のセットの割り当てを可能にする。レイトレーシングコア３７２、グラフィックコア３７０およびテンソルコア３７１によってサポートされ得る別のレイトレーシングプラットフォームは、Ｖｕｌｋａｎ１．１．８５である。しかしながら、ここで説明される基礎となる原理は任意の特定のレイトレーシングＩＳＡに限定されることはないことを留意されたい。

一般的に、様々なコア３７２、３７１、３７０は、レイ生成、最も近いヒット、任意のヒット、レイプリミティブインタセクション、プリミティブ毎および階層バウンディングボックス構築、ミス、ビジットおよび例外のうちの１または複数のための命令／関数を含むレイトレーシング命令セットをサポートしてよい。より具体的には、好ましい実施形態は、以下の機能のうちの１または複数を実行するためのレイトレーシング命令を含む。

「レイ生成」：画素毎、サンプル毎または他のユーザ定義のワーク割り当て毎に、レイ生成命令が実行されてよい。

「最も近いヒット」：最も近いヒット命令は、シーン内のプリミティブを持つレイの最も近いインタセクションポイントを位置特定するために実行されてよい。

「任意のヒット」：任意のヒット命令は、潜在的に新しい最も近いインタセクションポイントを識別すべく、レイとシーン内のプリミティブとの間の複数のインタセクションを識別する。

「インタセクション」：インタセクション命令は、レイプリミティブインタセクション試験を実行し、結果を出力する。

「プリミティブ毎のバウンディングボックス構築」：この命令は、特定のプリミティブまたはプリミティブのグループの周りに、バウンディングボックスを構築する（例えば、新しいＢＶＨまたは他の加速データ構造の構築時）。

「ミス」：レイはシーン内のまたはシーンの指定領域内のすべてのジオメトリをミスすることを示す。

「ビジット」：レイがトラバースする子ボリュームを示す。

「例外」：様々なタイプの例外ハンドラ（例えば、様々なエラー条件に対し呼び出される）を含む。「ＧＰＵがホストプロセッサを相互接続するための技術」

図４Ａは、例えば、図２Ａに示される並列プロセッサ２００等のような複数のＧＰＵ４１０～４１３が、高速リンク４４０Ａ～４４０Ｄ（例えば、バス、ポイント間相互接続等）を通して、複数のマルチコアプロセッサ４０５～４０６に通信可能に結合されている例示的なアーキテクチャを示す。高速リンク４４０Ａ～４４０Ｄは、実装に応じて、４ＧＢ／ｓ、３０ＧＢ／ｓ、８０ＧＢ／ｓあるいはそれより高い通信スループットをサポートしてよい。様々な相互接続プロトコルが用いられてよく、このようなものとしては、ＰＣＩｅ４．０または５．０およびＮＶＬｉｎｋ２．０が含まれるが、これらに限定はされない。しかしながら、ここで説明される基礎となる原理は、任意の特定の通信プロトコルまたはスループットに限定はされない。

ＧＰＵ４１０～４１３のうちの２または２より多くが、高速リンク４４２Ａ～４４２Ｂを通して相互接続されてよく、これは、高速リンク４４０Ａ～４４０Ｄに用いられるプロトコル／リンクと同一または異なるプロトコル／リンクを用いて実装されてよい。同様に、２またはそれより多くのマルチコアプロセッサ４０５－４０６が、２０ＧＢ／ｓ、３０ＧＢ／ｓ、１２０ＧＢ／ｓ、またはより高い速度で対称マルチプロセッサ（ＳＭＰ）バス動作であり得る高速リンク４４３を介して接続され得る。代替的に、図４Ａに示された様々なシステムコンポーネント間のすべての通信は、同一のプロトコル／リンク（例えば、共通相互接続ファブリックを通して）を用いて実現されてよい。しかしながら、前述のように、ここで説明される基礎となる原理は、任意の特定のタイプの相互接続技術に限定はされない。

各マルチコアプロセッサ４０５～４０６はそれぞれ、メモリ相互接続４３０Ａ～４３０Ｂを介してプロセッサメモリ４０１～４０２に通信可能に結合されてよく、各ＧＰＵ４１０～４１３はそれぞれ、ＧＰＵメモリ相互接続４５０Ａ～４５０Ｄを通してＧＰＵメモリ４２０～４２３に通信可能に結合される。メモリ相互接続４３０Ａ～４３０Ｂおよび４５０Ａ～４５０Ｄは、同一または異なるメモリアクセス技術を用いてよい。限定ではなく例示であるが、プロセッサメモリ４０１～４０２およびＧＰＵメモリ４２０～４２３は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）（スタック型ＤＲＡＭを含む）、グラフィックＤＤＲＳＤＲＡＭ（ＧＤＤＲ）（例えば、ＧＤＤＲ５、ＧＤＤＲ６）または高帯域幅メモリ（ＨＢＭ）等の揮発性メモリであってよく、および／または、３ＤＸＰｏｉｎｔ／ＯｐｔａｎｅまたはＮａｎｏ－Ｒａｍ等の不揮発性メモリであってよい。例えば、複数のメモリの一部のいくつかは揮発性メモリであってよく、別の一部が不揮発性メモリ（例えば、２レベルのメモリ（２ＬＭ）階層を用いる）であってよい。

以下に説明する通り、様々なプロセッサ４０５～４０６およびＧＰＵ４１０～４１３はそれぞれ、特定のメモリ４０１～４０２、４２０～４２３に物理的に結合されてよいが、同一の仮想システムアドレス空間（"有効アドレス"空間とも呼ばれる）が、様々な物理メモリのすべてに分散されている一体化メモリアーキテクチャが実装されてよい。例えば、プロセッサメモリ４０１～４０２はそれぞれ、６４ＧＢのシステムメモリアドレス空間を有してよく、ＧＰＵメモリ４２０～４２３はそれぞれ、３２ＧＢのシステムメモリアドレス空間を有してよい（その結果、この例では、合計で２５６ＧＢのアドレス指定可能メモリをもたらす）。

図４Ｂは、マルチコアプロセッサ４０７とグラフィック加速化モジュール４４６との間の相互接続の追加的オプションの詳細を示す。グラフィック加速化モジュール４４６は、高速リンク４４０を介してプロセッサ４０７に結合されたラインカード上に統合された１または複数のＧＰＵチップを含んでよい。代替的に、グラフィック加速化モジュール４４６は、プロセッサ４０７と同一のパッケージまたはチップに統合されてよい。

示されたプロセッサ４０７は、複数のコア４６０Ａ～４６０Ｄを含み、それぞれは、トランスレーションルックアサイドバッファ４６１Ａ～４６１Ｄおよび１または複数のキャッシュ４６２Ａ～４６２Ｄを備える。コアは、命令を実行し、およびデータを処理するための様々な他のコンポーネント（例えば、命令フェッチユニット、分岐予測ユニット、デコーダ、実行ユニット、リオーダバッファ等）を含んでよいが、ここで説明されるコンポーネントの基礎となる原理を不明瞭にすることを回避すべく、図示されていない。キャッシュ４６２Ａ～４６２Ｄは、レベル１（Ｌ１）キャッシュおよびレベル２（Ｌ２）キャッシュを有してよい。また、１または複数の共有キャッシュ４５６が、キャッシュ階層に含まれてよく、コア４６０Ａ～４６０Ｄのセットにより共有されてよい。例えば、プロセッサ４０７の一実施形態は、２４個のコアを含み、それぞれが独自のＬ１キャッシュ、１２個の共有Ｌ２キャッシュおよび１２個の共有Ｌ３キャッシュを有する。この実施形態においては、Ｌ２キャッシュおよびＬ３キャッシュのうちの１つが、２つの隣接するコアにより共有される。プロセッサ４０７およびグラフィックアクセラレータ統合モジュール４４６は、プロセッサメモリ４０１～４０２を含んでよいシステムメモリ４４１に接続される。

様々なキャッシュ４６２Ａ～４６２Ｄ、４５６およびシステムメモリ４４１内に格納されたデータおよび命令のコヒーレンシは、コヒーレンスバス４６４経由のインタコア通信を介して維持される。例えば、各キャッシュは自身に関連付けられたキャッシュコヒーレンシロジック／回路を有してよく、特定のキャッシュラインからの読み取りまたは書き込みが検出されることに応答して、コヒーレンスバス４６４を通してそれらと通信する。一実装において、キャッシュアクセスをスヌープするためのキャッシュスヌーピングプロトコルがコヒーレンスバス４６４を通して実装される。キャッシュスヌーピング／コヒーレンシ技術は、当業者に十分理解されており、ここで説明される基礎となる原理を不明瞭にすることを回避すべく、ここでは詳しく説明することはしない。

グラフィック加速化モジュール４４６をコヒーレンスバス４６４に通信可能に結合して、グラフィック加速化モジュール４４６が、コアのピアとして、キャッシュコヒーレンスプロトコルに参加できるようにするプロキシ回路４２５が提供されてよい。具体的には、インタフェース４３５が高速リンク４４０（例えば、ＰＣＩｅバス、ＮＶリンク等）を通してプロキシ回路４２５への接続性を提供し、インタフェース４３７がグラフィック加速化モジュール４４６を高速リンク４４０に接続する。

一実装において、アクセラレータ集積回路４３６は、グラフィック加速化モジュール４４６の複数のグラフィック処理エンジン４３１、４３２、Ｎに代わって、キャッシュ管理、メモリアクセス、コンテキスト管理、および割り込み管理サービスを提供する。グラフィック処理エンジン４３１、４３２、Ｎはそれぞれ別個のグラフィック処理ユニット（ＧＰＵ）を有してよい。代替的に、グラフィック処理エンジン４３１、４３２、Ｎは、ＧＰＵ内に、例えば、グラフィック実行ユニット、メディア処理エンジン（例えば、ビデオエンコーダ／デコーダ）、サンプラおよびブリットエンジン等の異なるタイプのグラフィック処理エンジンを有してよい。換言すると、グラフィック加速化モジュールは、複数のグラフィック処理エンジン４３１－４３２、Ｎを持つＧＰＵであってよく、またはグラフィック処理エンジン４３１～４３２、Ｎは共通のパッケージ、ラインカードまたはチップ上に統合された個々のＧＰＵであってよい。

アクセラレータ統合回路４３６は、仮想‐物理メモリ変換（有効－実メモリ変換とも称される）等の様々なメモリ管理機能を実行するためのメモリ管理ユニット（ＭＭＵ）４３９、およびシステムメモリ４４１にアクセスするためのメモリアクセスプロトコルを含んでよい。ＭＭＵ４３９はまた、仮想／有効‐物理／実際のアドレス変換をキャッシュするためのトランスレーションルックアサイドバッファ（ＴＬＢ）（不図示）を含んでよい。一実装において、キャッシュ４３８は、グラフィック処理エンジン４３１－４３２、Ｎによる効率的なアクセスのためにデータおよびコマンドを格納する。キャッシュ４３８およびグラフィックメモリ４３３～４３４、Ｍに格納されたデータは、コアキャッシュ４６２Ａ～４６２Ｄ、４５６およびシステムメモリ４１１とコヒーレントに保持されてよい。前述の通り、これは、キャッシュ４３８およびメモリ４３３～４３４、Ｍの代わりに、キャッシュコヒーレンシメカニズムに参加するプロキシ回路４２５を介して実現されてよい（例えば、プロセッサキャッシュ４６２Ａ～４６２Ｄ、４５６上へのキャッシュラインの修正／アクセスに関する更新をキャッシュ４３８に送信する、および、キャッシュ４３８から更新を受信する）。

レジスタのセット４４５は、グラフィック処理エンジン４３１～４３２、Ｎによって実行されるスレッドのためのコンテキストデータを格納し、コンテキスト管理回路４４８は、当該スレッドコンテキストを管理する。例えば、コンテキスト管理回路４４８は、コンテキストスイッチの最中の様々なスレッドのコンテキストを保存および復元するように、保存および復元動作を実行し得る（第２のスレッドがグラフィック処理エンジンによって実行され得るように、例えば、第１のスレッドがどこに保存されるか、および第２のスレッドがどこに格納されるか）。例えば、コンテキストスイッチ上では、コンテキスト管理回路４４８は、現在のレジスタ値をメモリ内の指定領域（例えば、コンテキストポインタにより識別される）に格納してよい。その後、コンテキストに戻るとき、レジスタ値を復元してよい。割り込み管理回路４４７は、例えば、システムデバイスから受信される割り込みを受信および処理してよい。

一実装において、ＭＭＵ４３９により、グラフィック処理エンジン４３１からの仮想／有効アドレスが、システムメモリ４１１内の実／物理アドレスに変換される。随意で、アクセラレータ統合回路４３６は、複数（例えば、４、８、１６）のグラフィックアクセラレータモジュール４４６および／または他のアクセラレータデバイスをサポートする。グラフィックアクセラレータモジュール４４６は、プロセッサ４０７上で実行される単一のアプリケーション専用に割り当てられてよく、または、複数のアプリケーション間で共有されてよい。随意で、グラフィック処理エンジン４３１～４３２、Ｎのリソースが、複数のアプリケーション、または仮想マシン（ＶＭ）と共有される仮想化グラフィック実行環境が提供される。リソースは、処理要求に基づいて、および、ＶＭおよび／またはアプリケーションに関連付けられた優先度に基づいて、異なるＶＭおよび／またはアプリケーションに割り当てられる「スライス」へと細分化され得る。

故に、アクセラレータ統合回路４３６は、グラフィック加速化モジュール４４６のためのシステムへのブリッジとして機能し、アドレス変換およびシステムメモリキャッシュサービスを提供する。一実施形態において、ブリッジ機能を促進すべく、アクセラレータ統合回路４３６はまた、共有Ｉ／Ｏ４９７（例えば、ＰＣＩｅ、ＵＳＢまたはその他）および電圧、クロック、性能、熱およびセキュリティのシステム制御を可能にするためのハードウェアも含んでよい。共有Ｉ／Ｏ４９７は、複数の別個の物理接続を利用してよく、または、高速リンク４４０を横断してよい。また、アクセラレータ統合回路４３６は、ホストプロセッサのために、グラフィック処理エンジンの仮想化、割り込およびメモリ管理を管理する仮想化機能を提供してよい。

グラフィック処理エンジン４３１～４３２、Ｎのハードウェアリソースは、ホストプロセッサ４０７から見られる実アドレス空間に明示的にマッピングされるので、任意のホストプロセッサは、有効アドレス値を用いて、これらのリソースを直接アドレス指定してよい。アクセラレータ統合回路４３６の１つのオプションの機能は、グラフィック処理エンジン４３１～４３２、Ｎがシステムにとってそれぞれ独立のユニットとして見えるように、それらを物理的に分離することである。

１または複数のグラフィックメモリ４３３～４３４、Ｍはそれぞれ、グラフィック処理エンジン４３１～４３２、Ｎにそれぞれ結合されてよい。グラフィックメモリ４３３～４３４、Ｍは、グラフィック処理エンジン４３１～４３２、Ｎの各々により処理されている命令およびデータを格納する。グラフィックメモリ４３３～４３４、Ｍは、ＤＲＡＭ（スタック型ＤＲＡＭを含む）、ＧＤＤＲメモリ（例えば、ＧＤＤＲ５、ＧＤＤＲ６）またはＨＢＭ等の揮発性メモリであってよく、および／または、３ＤＸＰｏｉｎｔ／Ｏｐｔａｎｅ、またはＮａｎｏ－Ｒａｍ等の不揮発性メモリであってよい。

高速リンク４４０上のデータトラフィックを低減すべく、バイアス技術が用いられて、グラフィックメモリ４３３～４３４、Ｍ内に格納されたデータが、グラフィック処理エンジン４３１～４３２、Ｎによって最も頻繁に用いられ、好ましくは、コア４６０Ａ～４６０Ｄによって用いられない（少なくとも頻繁にではない）データであることを保証してよい。同様に、バイアスメカニズムは、コアおよびシステムメモリ４１１のキャッシュ４６２Ａ～４６２Ｄ、４５６内のコア（好ましくは、グラフィック処理エンジン４３１～４３２、Ｎではない）によって必要とされるデータの保持を試行する。

図４Ｃに示される変形により、アクセラレータ統合回路４３６がプロセッサ４０７内で統合される。グラフィック処理エンジン４３１～４３２、Ｎは、高速リンク４４０経由でインタフェース４３７およびインタフェース４３５を介して、アクセラレータ統合回路４３６と直接通信する（これらは再び任意の形態のバスまたはインタフェースプロトコルを用いてよい）。アクセラレータ集積回路４３６は、図４Ｂに関して説明されるものと同一の処理を実行し得るが、潜在的に、コヒーレンシバス４６４およびキャッシュ４６２Ａ－４６２Ｄ、４５６に近接する、より高い所与のスループットである。

本明細書で説明する実施形態は、専用プロセスプログラミングモデル（グラフィック加速化モジュール仮想化なし）および共有プログラミングモデル（仮想化あり）を含む異なるプログラミングモデルをサポートしてよい。後者は、アクセラレータ集積回路４３６によって制御されるプログラミングモデルと、グラフィック加速化モジュール４４６によって制御されるプログラミングモデルとを含んでよい。

専用プロセスモデルの実施形態において、グラフィック処理エンジン４３１～４３２、Ｎは、単一のオペレーティングシステム下で、単一のアプリケーションまたはプロセスに割り当てられてよい。単一アプリケーションは、他のアプリケーション要求をグラフィックエンジン４３１～４３２、Ｎに送信し、ＶＭ／パーティション内で仮想化を提供できる。

専用プロセスプログラミングモデルにおいて、グラフィック処理エンジン４３１－４３２、Ｎは、複数のＶＭ／アプリケーションパーティションを共有し得る。共有モデルは、グラフィック処理エンジン４３１～４３２、Ｎを仮想化して、各オペレーティングシステムによるアクセスを可能にするためのシステムハイパバイザを必要とする。ハイパーバイザを持たない単一のパーティショニングシステムについては、グラフィック処理エンジン４３１～４３２、Ｎはオペレーティングシステムにより所有される。これら両方の場合において、オペレーティングシステムは、各プロセスまたはアプリケーションへのアクセスを提供すべく、グラフィック処理エンジン４３１～４３２、Ｎを仮想化してよい。

共有プログラミングモデルについては、グラフィック加速化モジュール４４６または個々のグラフィック処理エンジン４３１～４３２、Ｎが、プロセスハンドルを用いてプロセス要素を選択する。プロセス要素はシステムメモリ４１１内に格納されてよく、本明細書で説明する有効アドレス－実際のアドレス変換技術を用いてアドレス指定可能であってよい。プロセスハンドルは、コンテキストをグラフィック処理エンジン４３１～４３２、Ｎに登録するときに、ホストプロセスに提供される実装固有の値であってよい（すなわち、プロセス要素をプロセス要素リンクリストに追加するためにシステムソフトウェアを呼び出す）。プロセスハンドルのうち低いほうの１６ビットは、プロセス要素にリンクしたリスト内のプロセス要素のオフセットであり得る。

図４Ｄは、例示的なアクセラレータ統合スライス４９０を示す。ここで用いられる「スライス」は、アクセラレータ統合回路４３６の処理リソースの特定の一部を有する。システムメモリ４１１内のアプリケーション有効アドレス空間４８２は、プロセス要素４８３を格納する。プロセス要素４８３は、プロセッサ４０７上で実行されるアプリケーション４８０からのＧＰＵ呼び出し４８１に応答して格納されてよい。プロセス要素４８３は、対応するアプリケーション４８０の処理状態を含む。プロセス要素４８３内に含まれるワーク記述子（ＷＤ）４８４は、アプリケーションにより要求される単一のジョブであってよく、または、複数のジョブのキューへのポインタを含んでよい。後者の場合、ＷＤ４８４は、そのアプリケーションのアドレス空間４８２におけるジョブ要求キューへのポインタである。

グラフィック加速化モジュール４４６および／または個々のグラフィック処理エンジン４３１～４３２、Ｎは、システム内のプロセスの全部またはサブセットによって共有されてよい。例えば、ここで説明される技術は、処理状態を設定するための、および、ＷＤ４８４をグラフィック加速化モジュール４４６に送信して仮想化環境内でジョブを開始するためのインフラストラクチャを含んでよい。

一実装において、専用プロセスプログラミングモデルは、実装固有である。このモデルにおいては、単一プロセスは、グラフィック加速化モジュール４４６または個々のグラフィック処理エンジン４３１を所有する。グラフィック加速化モジュール４４６が単一プロセスにより所有されるので、ハイパーバイザは、その所有するパーティショニングのためのアクセラレータ統合回路４３６を初期化し、オペレーティングシステムは、グラフィック加速化モジュール４４６が割り当てられた時点で、所有するプロセスのためのアクセラレータ統合回路４３６を初期化する。

動作中、アクセラレータ統合スライス４９０内のＷＤフェッチユニット４９１は、グラフィック加速化モジュール４４６のグラフィック処理エンジンのうちの１つによって成されるべきワークの指標を含む次のＷＤ４８４をフェッチする。ＷＤ４８４からのデータは、レジスタ４４５内に格納されてよく、図示の通り、ＭＭＵ４３９、割り込み管理回路４４７および／またはコンテキスト管理回路４４８によって用いられてよい。例えば、ＭＭＵ４３９は、ＯＳ仮想アドレス空間４８５内のセグメント／ページテーブル４８６にアクセスするためのセグメント／ページウォーク回路を含んでよい。割り込み管理回路４４７は、グラフィック加速化モジュール４４６から受信した割り込みイベント４９２を処理してよい。グラフィック処理の実行時、グラフィック処理エンジン４３１～４３２、Ｎによって生成される有効アドレス４９３は、ＭＭＵ４３９によって実アドレスに変換される。

各グラフィック処理エンジン４３１～４３２、Ｎおよび／またはグラフィック加速化モジュール４４６に、同一のレジスタのセット４４５が重複されてよく、ハイパーバイザまたはオペレーティングシステムにより初期化されてよい。これらの重複レジスタの各々は、アクセラレータ統合スライス４９０内に含まれてよい。ハイパーバイザにより初期化されてよい例示的なレジスタが、表１に示される。
表１－ハイパーバイザ初期化されたレジスタ

オペレーティングシステムによって初期化されてよい例示的なレジスタが表２に示される。
表２－オペレーティングシステム初期化されたレジスタ

各ＷＤ４８４は、特定のグラフィック加速化モジュール４４６および／またはグラフィック処理エンジン４３１－４３２に固有であってよい。各ＷＤ４８４は、グラフィック処理エンジン４３１～４３２、Ｎがそのワークを行うために必要なすべての情報を含み、または、各ＷＤ４８４は、アプリケーションが完了すべきワークのコマンドキューを設定したメモリ位置へのポインタであってよい。

図４Ｅは、共有モデルの追加のオプションの詳細を示す。これは、プロセス要素リスト４９９が格納されているハイパーバイザ実アドレス空間４９８を含む。ハイパーバイザ実アドレス空間４９８は、オペレーティングシステム４９５のために、グラフィック加速化モジュールエンジンを仮想化するハイパーバイザ４９６を介してアクセス可能である。

共有プログラミングモデルは、システム内のパーティショニングの全部またはサブセットからのプロセスの全部またはサブセットが、グラフィック加速化モジュール４４６を用いることを可能にする。グラフィック加速化モジュール４４６が、複数のプロセスおよびパーティションにより共有されるプログラミングモデルには、タイムスライス共有およびグラフィックにより指示される共有の２つがある。

このモデルでは、システムハイパバイザ４９６は、グラフィック加速化モジュール４４６を所有し、その機能をすべてのオペレーティングシステム４９５に対し利用可能にする。システムハイパバイザ４９６による仮想化をサポートするグラフィック加速化モジュール４４６については、グラフィック加速化モジュール４４６は、以下の要求に従ってよい。１）アプリケーションのジョブ要求は、自律的（つまり、状態はジョブ間で維持される必要がない）である必要がある、または、グラフィック加速化モジュール４４６は、コンテキスト保存および復元メカニズムを提供する必要がある。２）アプリケーションのジョブ要求は、任意の変換障害を含む指定時間内で完了することをグラフィック加速化モジュール４４６により保証される、または、グラフィック加速化モジュール４４６はジョブの処理をプリエンプトできる能力を提供する。３）グラフィック加速化モジュール４４６は、指示される共有プログラミングモデルで動作するとき、プロセス間の公平性を保証される必要がある。

共有モデルについては、アプリケーション４８０は、グラフィック加速化モジュール４４６タイプ、ワーク記述子（ＷＤ）、権限マスクレジスタ（ＡＭＲ）値およびコンテキスト保存／復元領域ポインタ（ＣＳＲＰ）で、オペレーティングシステム４９５のシステム呼び出しを行うことが必要とされてよい。グラフィック加速化モジュール４４６タイプは、システム呼び出しの目的とされる加速化機能を記述する。グラフィック加速化モジュール４４６タイプは、システム固有の値であってよい。ＷＤは、グラフィック加速化モジュール４４６用に具体的にフォーマットされており、グラフィック加速化モジュール４４６のコマンド、ユーザ定義の構造への有効アドレスポインタ、コマンドキューへの有効アドレスポインタ、または、ワークがグラフィック加速化モジュール４４６により実行されるべきであることを記述する任意の他のデータ構造の形態であってよい。一実施形態において、ＡＭＲ値は、現在のプロセスに用いられるＡＭＲ状態である。オペレーティングシステムに渡される値は、ＡＭＲを設定するアプリケーションと同様である。アクセラレータ統合回路４３６実装およびグラフィック加速化モジュール４４６実装が、ユーザ権限マスク上書きレジスタ（ＵＡＭＯＲ）をサポートしない場合、オペレーティングシステムは、ハイパーバイザ呼び出しでＡＭＲを渡す前に、現在のＵＡＭＯＲ値をＡＭＲ値に適用してよい。随意で、ハイパーバイザ４９６は、ＡＭＲを、プロセス要素４８３に配置する前に、現在の権限マスク上書きレジスタ（ＡＭＯＲ）値を適用してよい。ＣＳＲＰは、グラフィック加速化モジュール４４６がコンテキスト状態を保存および復元するためのアプリケーションアドレス空間４８２内の領域の有効アドレスを含むレジスタ４４５のうちの１つであってよい。ジョブ間の状態が保存される必要がない場合、または、あるジョブがプリエンプトされるとき、このポインタは随意である。コンテキスト保存／復元領域は、固定されたシステムメモリ（ｐｉｎｎｅｄｓｙｓｔｅｍｍｅｍｏｒｙ）であってよい。

システム呼び出しを受信すると、オペレーティングシステム４９５は、アプリケーション４８０が登録されており、グラフィック加速化モジュール４４６を使用するための権限が付与されていることを検証してよい。その後、オペレーティングシステム４９５は、表３に示される情報を用いてハイパーバイザ４９６を呼び出す。
表３－ハイパーバイザ呼び出しパラメータへのＯＳ

ハイパーバイザ呼び出しを受信すると、ハイパーバイザ４９６は、オペレーティングシステム４９５が登録されており、グラフィック加速化モジュール４４６を使用する権限が付与されていることを検証する。その後、ハイパーバイザ４９６は、プロセス要素４８３を、対応するグラフィック加速化モジュール４４６タイプのプロセス要素リンクリストに置く。プロセス要素は、表４に示される情報を含んでよい。
表４－プロセス要素情報

ハイパーバイザは、アクセラレータ統合スライス４９０の複数のレジスタ４４５を初期化してよい。

図４Ｆに示される通り、１つのオプションの実装においては、物理プロセッサメモリ４０１～４０２およびＧＰＵメモリ４２０～４２３にアクセスするために用いられる共通仮想メモリアドレス空間を介してアドレス指定可能な一体化メモリを用いる。この実装においては、ＧＰＵ４１０～４１３で実行される処理は、プロセッサメモリ４０１～４０２にアクセスするために、同一の仮想／有効メモリアドレス空間を用い、逆の場合もそうであり、これによりプログラム可能性を単純化させる。仮想／有効アドレス空間の第１の部分がプロセッサメモリ４０１に、第２の部分が第２のプロセッサメモリ４０２に、第３の部分がＧＰＵメモリ４２０（以下同様）に割り当てられてよい。よって、仮想／有効メモリ空間全体（有効アドレス空間とも称される）は、プロセッサメモリ４０１～４０２およびＧＰＵメモリ４２０～４２３の各々の間で分散されてよく、任意のプロセッサまたはＧＰＵが、そのメモリにマッピングされた仮想アドレスを用いて任意の物理メモリにアクセスすることを可能にする。

ホストプロセッサ（例えば、４０５）のキャッシュとＧＰＵ４１０～４１３のキャッシュとの間のキャッシュコヒーレンスを保証し、特定のタイプのデータが格納されるべき物理メモリを示すバイアス技術を実装する、ＭＭＵ４３９Ａ～４３９Ｅの１または複数内のバイアス／コヒーレンス管理回路４９４Ａ～４９４Ｅが提供されてよい。図４Ｆ中にはバイアス／コヒーレンス管理回路４９４Ａ～４９４Ｅの複数のインスタンスが示されている一方、バイアス／コヒーレンス回路は、１または複数のホストプロセッサ４０５のＭＭＵ内および／またはアクセラレータ統合回路４３６内に実装されてもよい。

ＧＰＵ付属メモリ４２０～４２３が、システムメモリの一部としてマッピングされること、および、共有仮想メモリ（ＳＶＭ）技術を用いてアクセスされてよく、フルシステムのキャッシュコヒーレンスに関連する典型的な性能上の欠点には悩まされない。厄介なキャッシュコヒーレンスのオーバヘッドを伴わず、ＧＰＵ付属メモリ４２０～４２３がシステムメモリとしてアクセスできることにより、ＧＰＵオフロードのための有利な動作環境がもたらされる。この構成により、従来のＩ／ＯＤＭＡデータコピーのオーバヘッドを伴うことなく、ホストプロセッサ４０５のソフトウェアがオペランドを設定すること、および、計算結果にアクセスすることを可能にする。かかる従来のコピーは、ドライバ呼び出し、割り込み、メモリにマッピングされたＩ／Ｏ（ＭＭＩＯ）アクセスを必要とし、これらはすべて、簡易なメモリアクセスと比較して非効率的である。同時に、キャッシュコヒーレンスのオーバヘッドを伴わずに、ＧＰＵ付属メモリ４２０～４２３にアクセスできることは、オフロード計算の実行時間にとってクリティカルであってよい。ストリーミング書き込みメモリトラフィックが大きい場合、例えば、キャッシュコヒーレンスのオーバヘッドは、ＧＰＵ４１０～４１３から見える有効書き込み帯域幅を大きく低減させる可能性がある。オペランド設定の効率性、結果へのアクセスの効率性およびＧＰＵ計算の効率性はすべて、ＧＰＵオフロードの有効性を決定づける役割を果たす。

ＧＰＵバイアスおよびホストプロセッサバイアスの間の選択は、バイアストラッカデータ構造により駆動されてよい。例えば、ＧＰＵ付属メモリページ毎に１または２ビットを含むページ粒度の構造（つまり、メモリページの粒度で制御される）であってよい、バイアステーブルが用いられてよい。バイアステーブルは、ＧＰＵ４１０～４１３内のバイアスキャッシュを有するまたは有しない状態で、１または複数のＧＰＵ付属メモリ４２０～４２３のストールンメモリ（ｓｔｏｌｅｎｍｅｍｏｒｙ）範囲内で実装されてよい（例えば、バイアステーブルの頻繁に／最近用いられたエントリをキャッシュすべく）。代替的に、バイアステーブル全体がＧＰＵ内で維持されてよい。

一実装において、ＧＰＵ付属メモリ４２０～４２３への各アクセスに関連付けられたバイアステーブルエントリは、ＧＰＵメモリへの実際のアクセスより前にアクセスされ、以下の処理を生じさせる。第１に、ＧＰＵバイアス内に自身のページを検出したＧＰＵ４１０～４１３からのローカル要求は、対応するＧＰＵメモリ４２０～４２３に直接転送される。ホストバイアス内に自身のページを検出したＧＰＵからのローカル要求は、プロセッサ４０５に転送（例えば、上述のような高速リンクを通して）される。随意で、ホストプロセッサバイアス内に要求されたページを検出したプロセッサ４０５からの要求は、通常のメモリ読み取りと同様に当該要求を完了する。代替的に、ＧＰＵバイアスされたページに宛てられた要求は、ＧＰＵ４１０～４１３に転送されてよい。すると、ＧＰＵが当該ページを現在使用中でない場合は、ＧＰＵは当該ページをホストプロセッサバイアスに遷移させてよい。

ページのバイアス状態は、ソフトウェアベースのメカニズム、ハードウェア支援のソフトウェアベースのメカニズム、あるいは、限定的な場合では純粋なハードウェアベースのメカニズムのいずれかにより変更されてよい。

バイアス状態を変更するための１つのメカニズムがＡＰＩ呼び出し（例えば、ＯｐｅｎＣＬ）を用いると、ＡＰＩ呼び出しによりＧＰＵのデバイスドライバが呼び出され、ＧＰＵのデバイスドライバにより、ＧＰＵに対しバイアス状態を変更し、且ついくつかの遷移のために、ホスト内のキャッシュフラッシュ処理を実行することを指示するメッセージがＧＰＵに送信（またはコマンド記述子をキューに入れる）される。ホストプロセッサ４０５バイアスからＧＰＵバイアスへの遷移には、キャッシュフラッシュ処理が必要とされるが、逆の遷移に対しては、これは必要ではない。

キャッシュコヒーレンシは、ホストプロセッサ４０５により、一時的にＧＰＵバイアスされたページをキャッシュ不可能にレンダリングすることで維持されてよい。これらのページにアクセスすべく、プロセッサ４０５は、ＧＰＵ４１０からのアクセスを要求してよく、実装に応じ、ＧＰＵ４１０は即座にアクセスを許可してもよいし、しなくてもよい。故に、ホストプロセッサ４０５とＧＰＵ４１０との間の通信を低減するには、ＧＰＵバイアスされたページが、ホストプロセッサ４０５ではなく、ＧＰＵにより必要とされるページであることを保証することが有利であり、逆の場合にも当てはまる。「グラフィック処理パイプライン」

図５は、グラフィック処理パイプライン５００を示す。図２Ｄ中のグラフィックマルチプロセッサ２３４、図３Ａのグラフィックマルチプロセッサ３２５、図３Ｂのグラフィックマルチプロセッサ３５０等のグラフィックマルチプロセッサが、図示されたグラフィック処理パイプライン５００を実装してよい。グラフィックマルチプロセッサは、図２Ａの並列プロセッサ２００等の、本明細書で説明する並列処理サブシステム内に含まれてよく、並列処理サブシステムは、図１の並列プロセッサ１１２に関連づけられてよく、それらのうちの１つの代わりに用いられてよい。様々な並列処理システムは、本明細書で説明する並列処理ユニット（例えば、図２Ａの並列処理ユニット２０２）の１または複数のインスタンスを介してグラフィック処理パイプライン５００を実装してよい。例えば、シェーダユニット（例えば、図２Ｃのグラフィックマルチプロセッサ２３４）は、頂点処理ユニット５０４、テッセレーション制御処理ユニット５０８、テッセレーション評価処理ユニット５１２、ジオメトリ処理ユニット５１６およびフラグメント／画素処理ユニット５２４のうちの１または複数の機能を実行するよう構成されてよい。データアセンブラ５０２、プリミティブアセンブラ５０６、５１４、５１８、テッセレーションユニット５１０、ラスタライザ５２２およびラスタ処理ユニット５２６の機能も、処理クラスタ（例えば、図２Ａの処理クラスタ２１４）および対応するパーティションユニット（例えば、図２Ａのパーティションユニット２２０Ａ～２２０Ｎ）内の他の処理エンジンにより実行されてよい。またグラフィック処理パイプライン５００は、１または複数の機能のための専用処理ユニットを用いて実装されてもよい。グラフィック処理パイプライン５００の１または複数の部分は、汎用プロセッサ（例えば、ＣＰＵ）内の並列処理ロジックにより実行されることも可能である。随意で、グラフィック処理パイプライン５００の１または複数の部分は、メモリインタフェース５２８を介してオンチップメモリ（例えば、図２Ａのような並列プロセッサメモリ２２２）にアクセスしてよく、メモリインタフェース５２８は、図２Ａのメモリインタフェース２１８の一例であってよい。グラフィックプロセッサパイプライン５００はまた、図３Ｃにあるようなマルチコアグループ３６５Ａにより実装されてもよい。

データアセンブラ５０２は、表面およびプリミティブのための頂点データを収集してよい処理ユニットである。その後、データアセンブラ５０２は、頂点属性を含む当該頂点データを頂点処理ユニット５０４に出力する。頂点処理ユニット５０４は、頂点シェーダプログラムを実行するプログラマブル実行ユニットであり、頂点シェーダプログラムにより指定される通りに、頂点データをライティングおよび変換する。頂点処理ユニット５０４は、頂点データの処理に用いるために、キャッシュ、ローカルまたはシステムメモリに格納されたデータを読み取り、頂点処理ユニット５０４は、頂点データをオブジェクトベースの座標表現からワールド空間座標空間または正規化されたデバイスの座標空間へ変換するようにプログラムされてよい。

プリミティブアセンブラ５０６の第１のインスタンスは、頂点処理ユニット５０４から頂点属性を受信する。プリミティブアセンブラ５０６は必要に応じて、格納された頂点属性を読み取り、テッセレーション制御処理ユニット５０８による処理のためにグラフィックプリミティブを構築する。グラフィックプリミティブは、様々なグラフィック処理アプリケーションプログラミングインタフェース（ＡＰＩ）によってサポートされるような三角形、線分、ポイントおよびパッチ等を含む。

テッセレーション制御処理ユニット５０８は、入力された頂点をジオメトリックパッチのための制御ポイントとして扱う。制御ポイントは、パッチからの入力表現（例えば、パッチベース）から、テッセレーション評価処理ユニット５１２による表面評価での使用に好適な表現へと変換される。テッセレーション制御処理ユニット５０８は、ジオメトリックパッチのエッジのテッセレーションファクタも計算してよい。テッセレーションファクタは、単一のエッジに適用され、当該エッジに関連付けられた詳細情報のビュー依存レベルを定量化する。テッセレーションユニット５１０は、パッチのエッジのテッセレーションファクタを受信し、且つ、当該パッチを、線、三角形、四辺形のプリミティブ等の複数のジオメトリックプリミティブにテッセレーションするよう構成されており、これらのプリミティブはテッセレーション評価処理ユニット５１２に伝送される。テッセレーション評価処理ユニット５１２は、細分化されたパッチのパラメータ化された座標に対し処理を行い、当該ジオメトリックプリミティブに関連付けられた表面表現および各頂点の頂点属性を生成する。

プリミティブアセンブラ５１４の第２のインスタンスは、テッセレーション評価処理ユニット５１２から頂点属性を受信し、必要に応じて格納された頂点属性を読み取り、ジオメトリ処理ユニット５１６による処理のためのグラフィックプリミティブを構築する。ジオメトリ処理ユニット５１６は、プリミティブアセンブラ５１４から受信されたグラフィックプリミティブを、ジオメトリシェーダプログラムよる指定通りに変換するジオメトリシェーダプログラムを実行するプログラマブル実行ユニットである。ジオメトリ処理ユニット５１６は、グラフィックプリミティブを、１または複数の新しいグラフィックプリミティブに細分化し、且つ、当該新しいグラフィックプリミティブをラスタライズするために用いられるパラメータを計算ようにプログラムされてよい。

ジオメトリ処理ユニット５１６は、ジオメトリストリームに要素を追加または削除できてよい。ジオメトリ処理ユニット５１６は、新しいグラフィックプリミティブを指定するパラメータおよび頂点をプリミティブアセンブラ５１８に出力する。プリミティブアセンブラ５１８は、ジオメトリ処理ユニット５１６から当該パラメータおよび頂点を受信し、ビューポイントスケール、カリングおよびクリップユニット５２０による処理のためのグラフィックプリミティブを構築する。ジオメトリ処理ユニット５１６は、ジオメトリデータを処理するために用いる、並列プロセッサメモリまたはシステムメモリ内に格納されたデータを読み取る。ビューポイントスケール、カリング、クリップユニット５２０は、クリッピング、カリングおよびビューポイントスケーリングを実行し、処理されたグラフィックプリミティブをラスタライザ５２２に出力する。

ラスタライザ５２２は、デプスカリングおよび他のデプスベースの最適化を実行してよい。またラスタライザ５２２は、新しいグラフィックプリミティブに対しスキャン変換を実行してフラグメントを生成し、これらのフラグメントおよび関連するカバレッジデータを、フラグメント／画素処理ユニット５２４に出力する。フラグメント／画素処理ユニット５２４は、フラグメントシェーダプログラムまたは画素シェーダプログラムを実行するよう構成されたプログラマブル実行ユニットである。フラグメント／画素処理ユニット５２４は、ラスタライザ５２２から受信されたフラグメントまたは画素を、フラグメントまたは画素シェーダプログラムにより指定された通りに変換する。例えば、フラグメント／画素処理ユニット５２４は、テクスチャマッピング、シェーディング、ブレンディング、テクスチャ補正およびパースペクティブ補正等（これらに限定はされない）を含む処理を実行して、シェーディングされたフラグメントまたは画素を生成するようプログラムされてよく、当該フラグメントまたは画素はラスタ処理ユニット５２６に出力される。フラグメント／画素処理ユニット５２４は、フラグメントデータを処理するときに用いるために、並列プロセッサメモリまたはシステムメモリのいずれかに格納されたデータを読み取ってよい。フラグメントまたは画素シェーダプログラムは、処理ユニットのために構成されたサンプリングレートに応じ、サンプル粒度、画素粒度、タイル粒度または他の粒度でシェーディングするよう構成されてよい。

ラスタ処理ユニット５２６は、ラスタ処理を実行する処理ユニットであり、ラスタ処理としては、限定ではないが、ステンシル、ｚ検定およびブレンディング等が含まれ、ラスタ処理ユニット５２６は、画素データを、グラフィックメモリ（例えば、図２Ａの並列プロセッサメモリ２２２のような、および／または、図１のシステムメモリ１０４のような）内に格納されるべき処理されたグラフィックデータとして、１または複数のディスプレイデバイス１１０上に表示されるべき処理されたグラフィックデータとして、あるいは、１または複数のプロセッサ１０２または並列プロセッサ１１２のうちの１つによるさらなる処理のために、出力する。ラスタ処理ユニット５２６は、メモリに書き込まれるｚデータまたはカラーデータを圧縮し、メモリから読み取られたｚデータまたはカラーデータを圧縮解除するよう構成されてよい。「機械学習の概要」

上述のアーキテクチャは、機械学習モデルを用いて訓練および推論処理を実行するために適用されてよい。機械学習は、多くの種類のタスクの解決において成功してきた。機械学習アルゴリズム（例えば、ニューラルネットワーク）を訓練および使用する際に生じる計算は、本質的に効率的な並列実装にふさわしい。従って、汎用グラフィック処理ユニット（ＧＰＧＰＵ）等の並列プロセッサは、ディープニューラルネットワークの実用的実装において大きな役割を果たす。単一命令複数スレッド（ＳＩＭＴ）アーキテクチャを持つ並列グラフィックプロセッサが、グラフィックパイプライン内での並列処理量を最大化するよう設計されている。ＳＩＭＴアーキテクチャにおいては、処理効率性を向上させるべく、並列スレッドのグループが、可能な限り頻繁に、複数のプログラム命令を同期して実行することを試みる。並列機械学習アルゴリズム実装によりもたらされる効率性は、高容量ネットワークの使用を可能とし、これらのネットワークがより大型のデータベース上で訓練されることを可能にする。

機械学習アルゴリズムは、データのセットを基に学習可能なアルゴリズムである。例えば、機械学習アルゴリズムは、データセット内の高レベルの抽象化をモデリングするように設計されてよい。例えば、イメージ認識アルゴリズムは、特定の入力がいくつかのカテゴリのうちのいずれに属するかを判定するために用いられてよい。回帰アルゴリズムは、入力が与えられると数値を出力してよい。パターン認識アルゴリズムは、変換されたテキストを生成する、またはテキスト対スピーチ認識および／またはスピーチ認識を実行するために用いられてよい。

機械学習アルゴリズムの例示的なタイプは、ニューラルネットワークである。多くのタイプのニューラルネットワークが存在する。単純なタイプのニューラルネットワークは、フィードフォワードネットワークである。フィードフォワードネットワークは、ノードが複数の層に配置される非巡回グラフとして実装されてよい。典型的には、フィードフォワードネットワークトポロジは、少なくとも１つの隠れ層により分離される入力層および出力層を含む。隠れ層は、入力層により受信された入力を、出力層での出力を生成するために有用な表現に変換する。ネットワークノードは、エッジにより、隣接する層のノードにすべて結合されるが、各層内のノード間にはエッジは存在しない。フィードフォワードネットワークの入力層のノードで受信されるデータは、レイヤ同士を接続する各エッジにそれぞれ関連付けられた係数（"重み"）に基づき、ネットワーク内の連続する各層のノードの状態を計算する活性化関数を介して、出力層のノードに伝播（つまり、"フィードフォワードされ"）される。実行されるアルゴリズムにより表現される特定のモデルに応じ、ニューラルネットワークアルゴリズムからの出力は、様々な形態を取ってよい。

機械学習アルゴリズムを用いて特定の問題をモデリングできるようになる前に、当該アルゴリズムは訓練データセットを用いて訓練される。ニューラルネットワークの訓練には、ネットワークトポロジを選択すること、ニューラルネットワークによりモデリングされている問題を表わす訓練データのセットを用いること、および、ネットワークモデルが当該訓練データのセットのあらゆるインスタンスに対し最小のエラーで実行するようになるまで重みを調整することが含まれる。例えば、ニューラルネットワークのための教師あり学習訓練プロセスの間に、訓練データセット内のあるインスタンスを表わす入力に応答して、ネットワークにより生成された出力は、そのインスタンスの"正解"ラベルの出力と比較され、出力とそのラベル付き出力との間の差を表わすエラー信号が計算され、当該エラー信号がネットワークの層を通って後方伝播される際、そのエラーを最小化すべく、これらの関係に関連付けられた重みが調整される。訓練データセットのインスタンスから生成される各出力に対するエラーが最小化されたら、ネットワークは、"訓練された"とみなされる。

機械学習アルゴリズムの精度は、アルゴリズムを訓練するために用いられるデータセットの品質により大きく影響され得る。訓練プロセスは計算集中的なものであり得、従来の汎用プロセッサに対し多大な時間を要求する可能性がある。従って、並列処理ハードウェアが、多くのタイプの機械学習アルゴリズムを訓練するために用いられる。ニューラルネットワークにおける係数の調整において実行される計算は、本質的に並列実装にふさわしいものであり、これは、ニューラルネットワークの訓練を最適化するために特に有用である。具体的に言うと、多くの機械学習アルゴリズムおよびソフトウェアアプリケーションは、汎用グラフィック処理デバイス内で並列処理ハードウェアを活用するように適合されている。

図６は、機械学習ソフトウェアスタック６００の一般的な図である。機械学習アプリケーション６０２は、訓練データセットを使用してニューラルネットワークを訓練するように、又は訓練されたディープニューラルネットワークを使用してマシンインテリジェンスを実装するように構成されることができる。機械学習アプリケーション６０２は、ニューラルネットワークのための訓練および推論機能、および／または、展開前にニューラルネットワークを訓練するために用いられてよい専用ソフトウェアを含んでよい。機械学習アプリケーション６０２は、限定されることはないが、画像認識、マッピングおよび位置特定、自律航法、音声合成、医用イメージング、または言語変換を含む、任意のタイプのマシンインテリジェンスを実装し得る。

機械学習アプリケーション６０２のためのハードウェア加速化は、機械学習フレームワーク６０４を介して有効化されてよい。機械学習フレームワーク６０４は、機械学習プリミティブのライブラリを提供してよい。機械学習プリミティブは、機械学習アルゴリズムにより共通に実行される基本的な処理である。機械学習フレームワーク６０４がなければ、機械学習アルゴリズムの開発者たちに、機械学習アルゴリズムに関連する主な計算ロジックを作成し且つ最適化することが要求され、新しい並列プロセッサが開発されるにつれ、計算ロジックを再度最適化することが要求されるであろう。代わりに、機械学習アプリケーションは、機械学習フレームワーク６０４により提供されるプリミティブを用いて、必要な計算を実行するよう構成されてよい。例示的なプリミティブには、テンソル畳み込み、活性化関数およびプーリングが含まれ、これらは、畳み込みニューラルネットワーク（ＣＮＮ）を訓練する際に実行される計算処理である。機械学習フレームワーク６０４はまた、行列処理およびベクトル処理等の多くの機械学習アルゴリズムにより行われる基本的な線形代数サブプログラムを実装するためのプリミティブも提供してよい。

機械学習フレームワーク６０４は、機械学習アプリケーション６０２から受信された入力データを処理し、適切な入力を計算フレームワーク６０６に生成してよい。計算フレームワーク６０６は、機械学習フレームワーク６０４に対しがＧＰＧＰＵハードウェア６１０のアーキテクチャの詳細な知識を有することを要求することなく、機械学習フレームワーク６０４がＧＰＧＰＵハードウェア６１０を介してハードウェア加速化を活用できるようにするためのＧＰＧＰＵドライバ６０８に提供される基礎的な命令を要約してよい。追加的に、計算フレームワーク６０６は、様々なタイプおよび世代のＧＰＧＰＵハードウェア６１０にわたり、機械学習フレームワーク６０４のためのハードウェア加速化を可能にしてよい。「ＧＰＧＰＵ機械学習加速化」

図７は、図２Ａの並列プロセッサ２００または図１の並列プロセッサ１１２であってよい汎用グラフィック処理ユニット７００を示す。汎用処理ユニット（ＧＰＧＰＵ）７００は、ディープニューラルネットワークの訓練に関連付けられたタイプの計算ワークロードを、特に効率的に処理するように構成され得る。さらに、ＧＰＧＰＵ７００は、特に、ディープニューラルネットワークに対する訓練スピードを改善させるマルチＧＰＵクラスタを作成するＧＰＧＰＵの他の例に直接関連し得る。

ＧＰＧＰＵ７００は、ホストプロセッサへの接続を可能にするホストインタフェース７０２を含む。ホストインタフェース７０２は、ＰＣＩＥｘｐｒｅｓｓインタフェースであってよい。しかしながら、ホストインタフェースは、ベンダ特有の通信インタフェースまたは通信ファブリックであってもよい。ＧＰＧＰＵ７００は、ホストプロセッサからコマンドを受信し、グローバルスケジューラ７０４を用いて、これらのコマンドに関連付けられた実行スレッドを、処理クラスタ７０６Ａ～７０６Ｈのセットに分散する。処理クラスタ７０６Ａ～７０６Ｈは、キャッシュメモリ７０８を共有する。キャッシュメモリ７０８は、処理クラスタ７０６Ａ～７０６Ｈ内のキャッシュメモリのためのより高レベルのキャッシュとして機能してよい。図示された処理クラスタ７０６Ａ～７０６Ｈは、図２Ａにあるような処理クラスタ２１４Ａ～２１４Ｎと対応してよい。

ＧＰＧＰＵ７００は、メモリコントローラ７１２Ａ～７１２Ｂのセットを介して、処理クラスタ７０６Ａ～Ｈに結合されたメモリ７１４Ａ～７１４Ｂを含む。メモリユニット７１４Ａ～７１４Ｂは、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）を含むメモリデバイス、または、グラフィックダブルデータレート（ＧＤＤＲ）メモリを含む同期グラフィックランダムアクセスメモリ（ＳＧＲＡＭ）等のグラフィックランダムアクセスメモリの様々なタイプのメモリデバイスを含んでよい。メモリ７１４Ａ～７１４Ｂはまた、高帯域幅メモリ（ＨＢＭ）を含む３Ｄスタックメモリも含んでよいが、ＨＢＭに限定はされない。

処理クラスタ７０６Ａ～７０６Ｈの各々は、図２Ｄのグラフィックマルチプロセッサ２３４、図３Ａのグラフィックマルチプロセッサ３２５、図３Ｂのグラフィックマルチプロセッサ３５０等のグラフィックマルチプロセッサのセットを含んでよく、または、図３Ｃのマルチコアグループ３６５Ａ～３６５Ｎを含んでよい。計算クラスタのグラフィックマルチプロセッサは、機械学習計算に好適なものを含む精度範囲において計算処理を実行可能な、複数のタイプの整数および浮動小数点ロジックユニットを含む。例えば、各処理クラスタ７０６Ａ～７０６Ｈ内の浮動小数点ユニットの少なくともサブセットは、１６ビットまたは３２ビットの浮動小数点処理を実行するよう構成されてよい一方、浮動小数点ユニットの異なサブセットは、６４ビットの浮動小数点処理を実行するよう構成されてよい。

ＧＰＧＰＵ７００の複数のインスタンスは、計算クラスタとして動作するよう構成されてよい。同期およびデータ交換用に計算クラスタにより用いられる通信メカニズムは、実施形態にわたり変わる。例えば、ＧＰＧＰＵ７００の複数のインスタンスは、ホストインタフェース７０２を通して通信する。一実施形態において、ＧＰＧＰＵ７００は、ＧＰＧＰＵ７００を、ＧＰＧＰＵの他のインスタンスに直接接続できるようにするＧＰＵリンク７１０に結合するＩ／Ｏハブ７０９を含む。ＧＰＵリンク７１０は、ＧＰＧＰＵ７００の複数のインスタンス間での通信および同期化を可能にする専用のＧＰＵ間ブリッジに結合されてよい。随意で、ＧＰＵリンク７１０は、他のＧＰＧＰＵまたは並列プロセッサへのデータを送信および受信すべく、高速相互接続に結合される。ＧＰＧＰＵ７００の複数のインスタンスは、別個のデータ処理システムに位置してよく、ホストインタフェース７０２を介してアクセス可能なネットワークデバイスを介して通信してよい。ＧＰＵリンク７１０は、ホストインタフェース７０２に加え、または、ホストインタフェース７０２の代わりに、ホストプロセッサへの接続を可能にするよう構成されてよい。

図示されたＧＰＧＰＵ７００の構成は、ニューラルネットワークを訓練するように構成され得るが、高性能または低電力の推論プラットフォーム内で展開するために、ＧＰＧＰＵ７００の代替的な構成が構成されてよい。推論構成においては、ＧＰＧＰＵ７００は、訓練構成と比較して、より少ない数の処理クラスタ７０６Ａ～７０６Ｈを含む。追加的に、メモリ７１４Ａ～７１４Ｂメモリに関連付けするメモリ技術は、推論構成と訓練構成との間で異なってよい。一実施形態において、ＧＰＧＰＵ７００の推論構成は、推論特有の命令をサポートしてよい。例えば、推論構成は、１または複数の８ビット整数ドット積命令のサポートを提供してよく、当該命令は、展開されたニューラルネットワークのための推論処理中に共通で用いられる。

図８は、マルチＧＰＵコンピューティングシステム８００を示す。マルチＧＰＵコンピューティングシステム８００は、ホストインタフェーススイッチ８０４を介して複数のＧＰＧＰＵ８０６Ａ～８０６Ｄに結合されたプロセッサ８０２を含んでよい。ホストインタフェーススイッチ８０４は、プロセッサ８０２をＰＣＩエクスプレスバスに結合するＰＣＩＥｘｐｒｅｓｓスイッチデバイスであってよく、ＰＣＩエクスプレスバスを通して、プロセッサ８０２は、ＧＰＧＰＵ８０６Ａ～８０６Ｄのセットと通信してよい。複数のＧＰＧＰＵ８０６Ａ～８０６Ｄの各々は、図７のＧＰＧＰＵ７００のインスタンスであってよい。ＧＰＧＰＵ８０６Ａ～８０６Ｄは、高速ポイントツーポイントＧＰＵ間リンク８１６のセットを介して相互接続されてよい。高速ＧＰＵ間リンクは、図７のＧＰＵリンク７１０等の専用ＧＰＵリンクを介して、ＧＰＧＰＵ８０６Ａ～８０６Ｄの各々に接続されてよい。Ｐ２ＰＧＰＵリンク８１６は、プロセッサ８０２が接続されたホストインタフェースバス経由での通信を要求することなく、ＧＰＧＰＵ８０６Ａ～８０６Ｄの各々の間での直接通信を可能にする。ＧＰＵ間トラフィックはＰ２ＰＧＰＵリンクに宛てられ、ホストインタフェースバスは、システムメモリアクセスのために、または、マルチＧＰＵコンピューティングシステム８００の他のインスタンスと例えば、１または複数のネットワークデバイスを介して通信すべく、利用可能なままである。図８においては、ＧＰＧＰＵ８０６Ａ～８０６Ｄは、ホストインタフェーススイッチ８０４を介してプロセッサ８０２に接続される一方、プロセッサ８０２は、代替的にＰ２ＰＧＰＵリンク８１６の直接サポートを含んでよく、ＧＰＧＰＵ８０６Ａ～８０６Ｄに直接接続されてよい。「機械学習ニューラルネットワーク実装」

本明細書で説明するコンピューティングアーキテクチャは、機械学習のためのニューラルネットワークの訓練および展開に特に好適なタイプの並列処理を実行するよう構成されてよい。ニューラルネットワークは、グラフ関係を有する機能のネットワークとして一般化されてよい。当技術分野で周知であるように、機械学習において用いられる様々なタイプのニューラルネットワーク実装が存在する。ニューラルネットワークの１つの例示的なタイプは、上述のようなフィードフォワードネットワークである。

第２の例示的なタイプのニューラルネットワークは、畳み込みニューラルネットワーク（ＣＮＮ）である。ＣＮＮは、イメージデータ等の既知のグリッドの様なトポロジを有するデータを処理するための専用のフィードフォワードニューラルネットワークである。従って、ＣＮＮは、コンピュータビジョンアプリケーションおよびイメージ認識アプリケーションで一般的に用いられるが、それらはまた、スピーチ処理および言語処理等の他のタイプのパターン認識に用いられてもよい。ＣＮＮ入力層におけるノードは、"フィルタ"（網膜で見られる受容野によりインスパイアされた機能検出器）のセットに編成され、フィルタの各セットの出力がネットワークの連続層におけるノードへ伝播される。ＣＮＮのための計算は、畳み込み数学処理を各フィルタに適用して、そのフィルタの出力を生成することを含む。畳み込みとは、２つの元の機能のうちの一方の修正版である第３の機能を生成すべく、当該２つの機能により実行される特別な種類の数学処理である。畳み込みネットワークの用語において、畳み込みに対する第１の機能は入力と称されてよい一方、第２の機能は、畳み込みカーネルと称されてよい。出力は、特徴マップと称されてよい。例えば、畳み込み層への入力は、入力イメージの様々なカラー要素を定義するデータの多次元アレイであってよい。畳み込みカーネルは、パラメータの多次元アレイであってよく、当該パラメータは、ニューラルネットワークの訓練プロセスにより適合されている。

再帰型ニューラル（ＲＮＮ）は、層間のフィードバック接続を含むフィードフォワードニューラルネットワークのファミリである。ＲＮＮは、ニューラルネットワークの異なる部分間でパラメータデータを共有することで、シーケンシャルデータのモデリングを可能にする。ＲＮＮのアーキテクチャは、サイクルを含む。ＲＮＮからの出力データの少なくとも一部はシーケンス中の後続の入力を処理するためのフィードバックとして用いられるので、サイクルは変数の現在の値が、将来の時点におけるそれ自体の値への影響を表わす。この機能は、言語データが作成され得る変数の本質に起因し、言語処理にＲＮＮを特に有用にする。

以下に示す図は、例示的なフィードフォワード、ＣＮＮおよびＲＮＮネットワークを示しており、これらのタイプの各ネットワークをそれぞれ訓練および展開するための一般的なプロセスについて説明する。これらの説明は例示であり、ここで説明する特定の実施形態に限定するものではないこと、および、示される概念は、一般にディープニューラルネットワークおよび機械学習技術に概して適用可能であることを理解されたい。

上記の例示的なニューラルネットワークを用いて、深層学習を実行してよい。深層学習は、ディープニューラルネットワークを用いる機械学習である。深層学習で用いられるディープニューラルネットワークは、単一の隠れ層のみを含む浅いニューラルネットワークに対し、複数の隠れ層で構成される人工ニューラルネットワークである。概して、より深いニューラルネットワークは、より訓練のための計算集中的なものとなる。しかしながら、ネットワークの追加の隠れ層は、浅い機械学習技術と比較して、出力エラーの低減をもたらすマルチステップパターン認識を可能にする。

深層学習で用いられるディープニューラルネットワークは典型的に、バックエンドネットワークに結合された特徴認識を実行するためのフロントエンドネットワークを含み、バックエンドネットワークは、モデルに提供された特徴表現に基づく処理（例えば、オブジェクト分類、スピーチ認識等）を実行し得る数学モデルを表わす。深層学習は、手作業で作成される特徴エンジニアリングがモデルに実行されることを必要とせずに、機械学習が実行されることを可能にする。代わりに、ディープニューラルネットワークは、統計構造または入力データ内の相関関係に基づき、特徴を学習してよい。学習された特徴が数学モデルに提供されてよく、数学モデルが検出された特徴を出力にマッピングしてよい。ネットワークにより用いられる数学モデルは概して、実行されるべき特定のタスクに専用のものであり、異なるタスクを実行するために異なるモデルが用いられる。

ニューラルネットワークが構築されると、学習モデルがネットワークに適用され、ネットワークが特定のタスクを実行するよう訓練してよい。学習モデルは、ネットワークの出力エラーを低減すべく、モデル内の重みをいかに調整するかを記述する。誤差逆伝播法は、ニューラルネットワークを訓練するために用いられる一般的方法である。処理するための入力ベクトルがネットワークに示される。ネットワークの出力は、損失関数を用いて所望の値と比較され、出力層における各ニューロンに対し各エラー値が計算される。その後、エラー値は、各ニューロンが、元の出力に対する寄与を大まかに表す関連するエラー値を有するようになるまで、後方伝播される。その後、ネットワークは、確率的勾配降下法アルゴリズム等のアルゴリズムを用いて、これらのエラーから学習して、ニューラルネットワークの重みを更新してよい。

図９Ａ～９Ｂは、例示的な畳み込みニューラルネットワークを示す。図９Ａは、ＣＮＮ内の様々な層を示す。図９Ａに示される通り、イメージプロセッシングをモデリングするために用いられる例示的なＣＮＮは、入力イメージの赤、緑および青（ＲＧＢ）の要素を記述した入力９０２を受信してよい。入力９０２は、複数の畳み込み層（例えば、畳み込み層９０４、畳み込み層９０６）により処理されてよい。随意で、複数の畳み込み層からの出力は、全結合層層のセット９０８により処理されてよい。全結合層におけるニューロンは、フィードフォワードネットワークで前述したように、前の層におけるすべての活性化に対し完全な結合を有している。全結合層９０８からの出力を用いて、ネットワークからの出力結果を生成してよい。全結合層９０８内の活性化は、畳み込みの代わりに行列乗算を用いて計算されてよい。すべてのＣＮＮ実装が、全結合層９０８を利用するわけではない。例えば、いくつかの実装においては、畳み込み層９０６がＣＮＮの出力を生成してよい。

畳み込み層はスパースに接続され、全結合層９０８において見受けられる従来型のニューラルネットワーク構成とは異なる。あらゆる出力ユニットがあらゆる入力ユニットと相互作用するように、従来のニューラルネットワーク層は完全に結合されている。しかしながら、図示の通り、あるフィールドの畳み込みの出力が後続層のノードへ入力（当該フィールドにおける各ノードのそれぞれの状態値の代わりに）されるので、畳み込み層はスパースに接続されている。畳み込み層に関連付けられたカーネルが畳み込み処理を実行し、その出力が次の層へと送信される。畳み込み層内で実行される次元削減は、ＣＮＮが大きなイメージを処理するためにスケーリングできるようにする１つの態様である。

図９Ｂは、ＣＮＮの畳み込み層内での例示的な計算ステージを示す。ＣＮＮの畳み込み層９１２への入力は、畳み込み層９１４の３つのステージで処理されてよい。３つのステージは、畳み込みステージ９１６、検出ステージ９１８、およびプーリングステージ９２０を含んでよい。その後、畳み込み層９１４は、出力データをその後に続く畳み込み層へと出力してよい。ネットワークの最終畳み込み層は、出力特徴マップデータを生成し、または、全結合層へ入力を提供し、例えば、入力の分類値をＣＮＮに生成してよい。

畳み込みステージ９１６において、線形活性化のセットを生成すべく、いくつかの畳み込みを並列で実行する。畳み込みステージ９１６は、アフィン変換を含んでよく、アフィン変換は、線形変換に平行移動を加えたものとして指定され得る任意の変換であってよい。アフィン変換は、回転、平行移動、スケーリングおよびこれらの変換の組み合わせを含む。畳み込みステージは、入力における特定の領域に接続された機能（例えば、ニューロン）の出力を計算し、入力はニューロンに関連付けられた局所領域として決定されてよい。ニューロンは、ニューロンの重みと、ニューロンが接続された局所入力における領域との間のドット積を計算する。畳み込みステージ９１６からの出力は、畳み込み層９１４の連続ステージによって処理される線形活性化のセットを定義する。

線形活性化は、検出ステージ９１８によって処理されてよい。検出ステージ９１８において、各線形活性化は、非線形活性化関数により処理される。非線形活性化関数は、畳み込み層の受容野に影響を及ぼすことなく、ネットワーク全体の非線形プロパティを増やす。いくつかのタイプの非線形活性化関数が用いられてよい。１つの特定のタイプは、正規化線形ユニット（ＲｅＬＵ）であり、ＲｅＬＵは、活性化がゼロに閾値設定されるように、ｆ（ｘ）＝ｍａｘ（０，ｘ）として定義される活性化関数を用いる。

プーリングステージ９２０は、畳み込み層９０６の出力を、近くの出力の要約統計と置き換えるプーリング関数を用いる。入力へのわずかな並進がプールされた出力を変更しないように、プーリング関数を用いて、ニューラルネットワークに並進不変性（ｔｒａｎｓｌａｔｉｏｎｉｎｖａｒｉａｎｃｅ）を導入してよい。入力データ内の特徴の存在が特徴の正確な位置よりも重要なシナリオにおいては、局所的な移動に対する不変性は有用であり得る。様々なタイプのプーリング関数が、最大プーリング、平均プーリングおよびｌ２－ノルムプーリングを含むプーリングステージ９２０中に用いられてよい。追加的に、いくつかのＣＮＮ実装は、プーリングステージを含まない。代わりに、かかる実装は、前の畳み込みステージと比較して、増加したストライドを有する代わりのおよび追加の畳み込みステージである。

その後、畳み込み層９１４からの出力は、次の層９２２により処理されてよい。次の層９２２は、追加の畳み込み層であってよく、または、全結合層９０８のうちの１つであってよい。例えば、図９Ａの第１の畳み込み層９０４は、第２の畳み込み層９０６に出力してよい一方、第２の畳み込み層は、全結合層９０８の第１の層に出力してよい。

図１０は、例示的な再帰型ニューラルネットワーク１０００を示す。再帰型ニューラルネットワーク（ＲＮＮ）においては、ネットワークの１つ前の状態がネットワークの現在の状態の出力に影響する。ＲＮＮは、様々な機能を用いて様々に構築されてよい。ＲＮＮの使用は、概して、入力の前のシーケンスに基づき将来を予測する数学モデルを用いて、循環する。例えば、ＲＮＮを用いて、１つ前の単語シーケンスを与えられると、次に来る単語を予測する統計的言語モデリングを実行してよい。図示されたＲＮＮ１０００は、入力ベクトルを受信する入力層１００２、再帰機能を実装する隠れ層１００４、前の状態の"メモリ"を可能にするフィードバックメカニズム１００５および結果を出力する出力層１００６を有するものとして説明されてよい。ＲＮＮ１０００は、タイムステップに基づき動作する。特定のタイムステップにおけるＲＮＮの状態は、フィードバックメカニズム１００５による前のタイムステップに基づき影響を受ける。特定のタイムステップについて、隠れ層１００４の状態は、前の状態および現在のタイムステップにおける入力により定義される。第１のタイムステップにおける初期入力（ｘ_１）が、隠れ層１００４により処理されてよい。第２の入力（ｘ_２）は、初期入力（ｘ_１）の処理中に判定された状態情報を用いて、隠れ層１００４により処理されてよい。特定の状態は、ｓｔ＝ｆ（Ｕｘｔ＋Ｗｓｔ－１）として計算されてよく、式中ＵおよびＷはパラメータ行列である。概して、関数ｆは、双曲線正接関数（Ｔａｎｈ）または正規化関数ｆ（ｘ）＝ｍａｘ（０，ｘ）の変形例等、非線形性である。しかしながら、隠れ層１００４で用いられる特定の数学関数は、ＲＮＮ１０００の具体的な実装の詳細に応じ変わってよい。

説明される基本的なＣＮＮおよびＲＮＮネットワークに加えて、これらのネットワーク上のバリエーションが可能にされてもよい。一例のＲＮＮの変形例は、長短期記憶（ＬＳＴＭ）ＲＮＮである。ＬＳＴＭＲＮＮは、言語のより長いシーケンスを処理するために必要であり得る長期依存を学習可能である。ＣＮＮの変形例は畳み込みディープビリーフネットワークであり、当該ネットワークは、ＣＮＮと同様の構造を有し、ディープビリーフネットワークと同様の方式で訓練される。ディープビリーフネットワーク（ＤＢＮ）は、確率（ランダム）変数の複数の層で構成される生成系ニューラルネットワーク（ｇｅｎｅｒａｔｉｖｅｎｅｕｒａｌｎｅｔｗｏｒｋ）である。ＤＢＮは、層毎にグリーディ教師なし学習（ｇｒｅｅｄｙｕｎｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）を用いて訓練されてよい。次に、ＤＢＮの学習される重みは、ニューラルネットワークに対する重みの最適な初期セットを決定することにより、事前訓練ニューラルネットワークを提供するために用いられ得る。

図１１は、ディープニューラルネットワークの訓練と展開を示す。あるタスク用に特定のネットワークが構築済みとされたら、ニューラルネットワークは、訓練データセット１１０２を用いて訓練される。訓練プロセスのハードウェア加速化を可能にするための様々な訓練フレームワーク１１０４が開発されている。例えば、図６の機械学習フレームワーク６０４は、訓練フレームワーク６０４として構成されてよい。訓練フレームワーク６０４は、訓練されていないニューラルネットワーク１１０６に接続されてよく、訓練されていないニューラルネットが本明細書で説明する並列処理リソースを用いて訓練できるようにして、訓練されたニューラルネット１１０８を生成してよい。

訓練プロセスを開始すべく、初期の重みがランダムに、または、ディープビリーフネットワークを用いた事前訓練により選択されてよい。その後、訓練サイクルが、教師ありまたは教師なし方式で実行されてよい。

教師あり学習は、例えば、訓練データセット１１０２が、入力に対する所望の出力と組み合わされる入力を含む場合、または、訓練データセットが、既知の出力を有する入力を含み、かつ、ニューラルネットワークの出力が手動で格付けされる場合等の仲介処理として訓練が実行される学習方法である。ネットワークは入力を処理し、得られた出力を、予期されるまたは所望の出力のセットと比較する。その後、エラーがシステムに伝播される。訓練フレームワーク１１０４は、訓練されていないニューラルネットワーク１１０６を制御する重みを調整してよい。訓練フレームワーク１１０４は、うまく訓練されていないニューラルネットワーク１１０６が、既知の入力データに基づき正しい回答を生成するのに適したモデルに収束しつつあるかをモニタリングするツールを提供してよい。ネットワークの重みが、ニューラルネットワークにより生成される出力を絞り込むべく調整されるにつれ、訓練プロセスは繰り返し行われる。訓練プロセスは、訓練されたニューラルネット１１０８に関連付けられた統計的に所望される精度にニューラルネットワークが到達するまで継続されてよい。その後、訓練されたニューラルネットワーク１１０８は、新しいデータ１１１２の入力に基づき、推論結果１１１４を生成するための任意の数の機械学習処理を実装するよう展開されてよい。

教師なし学習は、ネットワークがラベル付けされていないデータを用いて自身を訓練することを試みる学習方法である。故に、教師なし学習については、訓練データセット１１０２は、関連付けられた出力データを持たない入力データを含む。訓練されていないニューラルネットワーク１１０６は、ラベル付けされていない入力内のグループ化を学習してよく、個々の入力がデータセット全体にどのように関係するかを判定してよい。教師なし訓練を用いて、自己組織化マップを生成してよく、当該マップは、データの次元を削減するのに有用な処理を実行可能な訓練されたニューラルネットワーク１１０８の一種である。また、教師なし訓練を用いて、アノマリ検出を実行してもよく、アノマリ検出は、入力データセット内の、データの通常のパターンから逸脱するデータポイントの識別を可能にする。

教師あり学習および教師なし訓練の変形例も、用いられてよい。半教師あり学習は、訓練データセット１１０２が、同一分散のうち、ラベル付けされたデータとラベル付けされていないデータの混在を含む技術である。増分学習は、モデルをさらに訓練すべく、入力データが継続的に用いられる教師あり学習の変形例である。増分学習は、訓練されたニューラルネットワーク１１０８が、初期訓練中にネットワーク内に植え付けられた知識を忘れることなく、新しいデータ１１１２に適合できるようにする。

教師ありまたは教師なしに関わらず、特にディープニューラルネットワークの訓練プロセスは、単一の計算ノードにとって計算集中となり過ぎる可能性がある。単一の計算ノードを用いる代わりに、計算ノードの分散型ネットワークを用いて、訓練プロセスを加速化させてよい。

図１２は、分散型学習を示すブロック図である。分散型学習は、複数の分散コンピューティングノードを用いて、ニューラルネットワークの教師あり訓練または教師なし訓練を実行する訓練モデルである。分散型計算ノードはそれぞれ、１または複数のホストプロセッサ、および図７の高速並列汎用グラフィック処理ユニット７００のような、汎用処理ノードのうちの１または複数を含んでよい。図示されるように、分散型学習は、モデル並列処理１２０２、データ並列処理１２０４、または、モデルおよびデータ並列処理１２０４の組み合わせを実行し得る。

モデル並列処理１２０２においては、分散型システム内の異なる計算ノードが、単一のネットワークの異なる部分の訓練計算を実行してよい。例えば、ニューラルネットワークの各層は、分散型システムの異なる処理ノードによって訓練されてよい。モデル並列処理の利点には、とりわけ大きいモデルにスケーリングできる能力が含まれてよい。ニューラルネットワークの異なる層に関連付けられた計算を分裂させることで、すべての層の重みが単一の計算ノードのメモリに収まらないであろう非常に大きなニューラルネットワークの訓練を可能にする。いくつかの例において、モデル並列処理は、大型ニューラルネットワークの教師なし訓練を実行するのに特に有用であってよい。

データ並列処理１２０４において、分散型ネットワークの異なるノードはモデルの完全なインスタンスを有し、各ノードはデータの異なる部分を受信する。その後、異なるノードからの結果が組み合わされる。データ並列処理に対する異なるアプローチが可能である一方、データ並列訓練アプローチはすべて結果を結合し、且つ、各ノード間のモデルパラメータを同期化する技術を要求する。データを結合する例示的なアプローチには、データ並列処理に基づくパラメータの平均化および更新が含まれる。パラメータの平均化は、訓練データのサブセット上の各ノードを訓練し、グローバルパラメータ（例えば、重み、バイアス）を各ノードからのパラメータの平均に設定する。パラメータの平均化は、パラメータデータを維持する中央のパラメータサーバを用いる。更新ベースのデータ並列処理は、ノードからのパラメータをパラメータサーバに転送する代わりに、モデルへの更新が転送される点を除き、パラメータの平均化と同様である。追加的に、更新ベースのデータ並列処理は、非中央集中方式で実行されてよく、そこでは、更新は圧縮されて、ノード間で転送される。

組み合わされたモデルおよびデータ並列処理１２０６が、例えば、各計算ノードが複数のＧＰＵを含む分散型システム内で実装されてよい。各ノードは、モデルの異なる部分を訓練するために用いられる、各ノード内の別個のＧＰＵを持つモデルの完全なインスタンスを有することができる。

分散型訓練は、単一マシン上での訓練と比較してオーバヘッドを増大させる。しかしながら、本明細書において説明される並列プロセッサおよびＧＰＧＰＵは各々、分散型訓練のオーバヘッドを低減させる様々な技術を実装でき、高帯域幅ＧＰＵ間データ転送および加速されたリモートデータ同期を可能にする技術を含む。「例示的な機械学習アプリケーション」

様々な技術的な問題を解決すべく、機械学習が適用されてよく、このような問題としては、限定ではないが、コンピュータビジョン、自律運転およびナビゲーション、スピーチ認識および言語処理等が含まれる。従来、コンピュータビジョンは、機械学習アプリケーションにとっての最も活発な研究分野のうちの１つである。コンピュータビジョンのアプリケーションは、顔認識等の人間の視覚能力を再生するものから、視覚能力の新たなカテゴリを作成することまでにわたる。例えば、コンピュータビジョンアプリケーションは、ビデオ内の可視オブジェクトに誘導される振動から音波を認識するよう構成されてよい。並列プロセッサにより加速化される機械学習は、コンピュータビジョンアプリケーションが、以前の実行可能なものよりはるかに大型の訓練データセットを用いて訓練されることを可能にし、且つ、推論システムが、低電力並列プロセッサを用いて展開されることを可能にする。

並列プロセッサにより加速化される機械学習は、レーンおよび道路標識の認識、障害回避、ナビゲーションおよび運転制御を含む自律運転アプリケーションを有する。加速化された機械学習技術を用いて、特定の訓練入力に対する適切な応答を定義するデータセットに基づき、運転モデルを訓練してよい。本明細書で説明される並列プロセッサは、自律運転ソリューションに用いられるますます複雑化するニューラルネットワークの迅速な訓練を可能にしてよく、自律走行車に統合するのに適したモバイルプラットフォーム内への低電力推論プロセッサの配備を可能にする。

並列プロセッサにより加速化されるディープニューラルネットワークは、機械学習アプローチを自動スピーチ認識（ＡＳＲ）に可能にしている。ＡＳＲは、入力アコースティックシーケンスが与えられた際、最も確からしい言語シーケンスを計算する機能の作成を含む。ディープニューラルネットワークを用いた加速化された機械学習は、ＡＳＲに前に用いられた非表示Ｍａｒｋｏｖモデル（ＨＭＭ）とガウス混在モデル（ＧＭＭ）の置換を可能にする。

また、並列プロセッサにより加速化された機械学習を用いて、自然言語処理を加速化させてよい。自動学習プロシージャは、統計推論アルゴリズムを活用して、エラーの多い、または見慣れていない入力に対し堅牢なモデルを生成してよい。例示的な自然言語プロセッサアプリケーションは、人間の言語と言語との間の自動機械翻訳を含む。

機械学習に用いられる並列処理プラットフォームが、訓練プラットフォームおよび展開プラットフォームに分割されてよい。概して、訓練プラットフォームは非常に並列的であり、マルチＧＰＵ‐単一ノードの訓練およびマルチノード‐マルチＧＰＵの訓練を加速化させるための最適化を含む。訓練に適した例示的な並列プロセッサは、図７の汎用グラフィック処理ユニット７００および図８のマルチＧＰＵコンピューティングシステム８００を含む。それどころか、展開される機械学習プラットフォームは、一般的に、カメラ、自律ロボットおよび自律走行車などの製品での使用に適した低電力並列プロセッサを含む。

図１３は、訓練されたモデルを用いて、推論を実行するのに適した、システムオンチップ（ＳｏＣ）１３００上の例示的な推論システムを示す。ＳｏＣ１３００は、メディアプロセッサ１３０２、ビジョンプロセッサ１３０４、ＧＰＧＰＵ１３０６およびマルチコアプロセッサ１３０８を含む処理コンポーネントを統合してよい。ＧＰＧＰＵ１３０６はＧＰＧＰＵ７００等のここで説明するようなＧＰＧＰＵであってよく、マルチコアプロセッサ１３０８は、マルチコアプロセッサ４０５～４０６等のここで説明するようなマルチコアプロセッサであってよい。追加的に、ＳｏＣ１３００は、処理コンポーネントの各々によりアクセス可能な共有のオンチップデータプールを可能にし得るオンチップメモリ１３０５を含んでよい。処理コンポーネントは、自律走行車および自律ロボットを含む、様々機械学習プラットフォームへの配備を可能にするために、低電力処理のために最適化されてよい。例えば、ＳｏＣ１３００の一実装が自律走行車のメイン制御システムの一部として用いられてよい。ＳｏＣ１３００が、自律走行車での使用に構成される場合、ＳｏＣは、配備管轄機関の関連する機能的安全性標準に準拠するよう設計され、構成される。

処理中、メディアプロセッサ１３０２およびビジョンプロセッサ１３０４は、コンピュータビジョン処理を加速化させるべく、連携動作してよい。メディアプロセッサ１３０２は、複数の高解像度（例えば、４Ｋ、８Ｋ）ビデオストリームの低レイテンシのデコードを可能にしてよい。デコードされたビデオストリームは、オンチップメモリ１３０５のバッファに書き込まれ得る。その後、ビジョンプロセッサ１３０４がデコードされたビデオを解析してよく、訓練されたイメージ認識モデルを用いてフレームを処理する準備として、デコードされたビデオのフレームに対し予備的な演算処理を実行してよい。例えば、バックエンドモデルの計算がＧＰＧＰＵ１３０６により実行されている間に、ビジョンプロセッサ１３０４は、高解像度のビデオデータでのイメージ認識を実行するために用いられるＣＮＮの畳み込み処理を加速化させてよい。

マルチコアプロセッサ１３０８は、データ転送のシーケンシングおよび同期化、並びに、メディアプロセッサ１３０２およびビジョンプロセッサ１３０４により実行される共有メモリ処理を支援するための制御ロジックを含んでよい。マルチコアプロセッサ１３０８はまた、ＧＰＧＰＵ１３０６の推論計算機能を活用し得るソフトウェアアプリケーションを実行するためのアプリケーションプロセッサとして機能してよい。例えば、ナビゲーションおよび運転ロジックの少なくとも一部が、マルチコアプロセッサ１３０８上で実行されるソフトウェアに実装されてよい。かかるソフトウェアは、計算ワークロードをＧＰＧＰＵ１３０６に直接発行してよく、または、計算ワークロードは、これらの処理の少なくとも一部を、ＧＰＧＰＵ１３０６にオフロードし得るマルチコアプロセッサ１３０８に対して発行されてよい。

ＧＰＧＰＵ１３０６は、汎用グラフィック処理ユニット７００内の低電力構成の処理クラスタ７０６Ａ～７０６Ｈのような計算クラスタを含んでよい。ＧＰＧＰＵ１３０６内の計算クラスタは、訓練されたニューラルネットワーク上で推論計算を実行するために特に最適化された命令をサポートしてよい。例えば、ＧＰＧＰＵ１３０６は、８ビット整数ベクトル処理および４ビット整数ベクトル処理等の低精度計算を実行するための命令をサポートしてよい。「追加のシステム概要」

図１４は、処理システム１４００のブロック図である。本明細書における任意の他の図面の要素と同一または類似の名称を有する図１４の要素は、他の図面にある同一の要素について説明しており、本明細書における他の箇所での説明と同様に、それと同様に動作または機能してよく、同一のコンポーネントを備えてよく、他のエンティティにリンクされてよいが、そのように限定されることはない。システム１４００は、単一プロセッサのデスクトップ、システム、マルチプロセッサワークステーションシステム、または多数ののプロセッサ１４０２若しくはプロセッサコア１４０７を有するサーバシステムで用いられてよい。システム１４００は、モバイル、ハンドヘルド、またはローカルエリアネットワーク若しくはワイドエリアネットワークへの有線若しくは無線接続機能を備えたモノのインターネット（ＩｏＴ）デバイス等の埋め込み型デバイスで用いられるためのシステムオンチップ（ＳｏＣ）集積回路内に組み込まれた処理プラットフォームであってよい。

システム１４００は、図１のコンポーネントに対応するコンポーネントを有する処理システムであってよい。例えば、様々な構成において、プロセッサ１４０２またはプロセッサコア１４０７は、図１のプロセッサ１０２に対応してよい。グラフィックプロセッサ１４０８は、図１の並列プロセッサ１１２に対応してよい。外部グラフィックプロセッサ１４１８は、図１のアドインデバイス１２０のうちの１つであってよい。

システム１４００は、サーバベースのゲームプラットフォーム、ゲームコンソールおよびメディアコンソールを含むゲームコンソール、モバイルゲームコンソール、ハンドヘルドゲームコンソールまたはオンラインゲームコンソールを含んでよい、またはそこに結合されてよい、または、そこに統合されてよい。システム１４００は、モバイルフォン、スマートフォン、タブレットコンピューティングデバイス、または内部ストレージ容量の低いラップトップ等のモバイルインターネット接続デバイスの一部であってよい。処理システム１４００は、スマートウォッチウェアラブルデバイス；実世界のビジュアルエクスペリエンス、オーディオエクスペリエンスまたは触覚エクスペリエンスを補強するビジュアル出力、オーディオ出力または触覚出力を提供するための、あるいはテキストフィードバック、オーディオフィードバック、グラフィックフィードバック、ビデオフィードバック、ホログラムイメージフィードバックまたはビデオフィードバックまたは触覚フィードバックを提供するための、拡張現実（ＡＲ）機能または仮想現実（ＶＲ）機能付きの拡張されたスマートアイウェアまたはスマート衣服；他の拡張現実（ＡＲ）デバイス；他の仮想現実（ＶＲ）デバイス等のウェアラブルデバイスを含んでよい、ウェアラブルデバイスに結合されてよい、またはウェアラブルデバイスに統合されてよい。処理システム１４００は、テレビジョンデバイスまたはセットトップボックスデバイスを含んでよい、または、その一部であってよい。システム１４００は、バス、トラクタトレーラ、車、モータサイクルまたは電力サイクル、飛行機またはグライダ（またはこれらの任意の組み合わせ）等の自動運転ビークルを含んでよい、当該ビークルに結合されてよい、または当該ビークルに統合されてよい。自動運転ビークルは、システム１４００を用いてビークルの周囲で感知された環境を処理してよい。

１または複数のプロセッサ１４０２は、実行時にシステムまたはユーザソフトウェアに、処理を実行する命令を処理するための１または複数のプロセッサコア１４０７を含んでよい。１または複数のプロセッサコア１４０７の少なくとも１つは、特定の命令セット１４０９を処理するよう構成されてよい。命令セット１４０９は、複合命令セットコンピューティング（ＣＩＳＣ）、縮小命令セットコンピューティング（ＲＩＳＣ）、または、超長命令語（ＶＬＩＷ）を介したコンピューティングを促進してよい。１または複数のプロセッサコア１４０７は、異なる命令セット１４０９を処理してよく、当該命令は、他の命令セットのエミュレーションを容易にするための命令を含んでよい。プロセッサコア１４０７はまた、デジタル信号プロセッサ（ＤＳＰ）等の他の処理デバイスを含んでもよい。

プロセッサ１４０２は、キャッシュメモリ１４０４を含んでよい。アーキテクチャに応じ、プロセッサ１４０２は、単一の内部キャッシュまたは複数レベルの内部キャッシュを有してよい。いくつかの実施形態において、キャッシュメモリは、プロセッサ１４０２の様々なコンポーネント間で共有されてよい。いくつかの実施形態において、プロセッサ１４０２はまた、外部キャッシュ（例えば、レベル３（Ｌ３）キャッシュまたはラストレベルキャッシュ（ＬＬＣ））（不図示）も用い、外部キャッシュは、既知のキャッシュコヒーレンシ技術を用いてプロセッサコア１４０７間で共有されてよい。追加的に、レジスタファイル１４０６は、プロセッサ１４０２内に含まれてよく、レジスタファイル１４０６は、異なるタイプのデータを格納するための異なるタイプのレジスタ（例えば、整数レジスタ、浮動小数点レジスタ、状態レジスタおよび命令ポインタレジスタ）を含んでよい。いくつかのレジスタは、汎用レジスタであって良い一方、他のレジスタは、プロセッサ１４０２の設計に固有のものであってよい。

１または複数のプロセッサ１４０２は、アドレス信号、データ信号、制御信号等の通信信号をプロセッサ１４０２とシステム１４００内の他のコンポーネントとの間で伝送するために、１または複数のインタフェースバス１４１０に結合されていてよい。これらの実施形態のうちの１つにおいて、インタフェースバス１４１０は、ダイレクトメディアインタフェース（ＤＭＩ）バスのバージョン等のプロセッサバスであってよい。しかしながら、プロセッサバスはＤＭＩバスに限定されることはなく、１または複数のペリフェラルコンポーネントインターコネクトバス（例えば、ＰＣＩ、ＰＣＩＥｘｐｒｅｓｓ）、メモリバスまたは他のタイプのインタフェースバスを含んでよい。例えば、プロセッサ１４０２は、統合メモリコントローラ１４１６およびプラットフォームコントローラハブ１４３０を含んでよい。メモリコントローラ１４１６は、メモリデバイスとシステム１４００の他のコンポーネントとの間の通信を容易にする一方、プラットフォームコントローラハブ（ＰＣＨ）１４３０は、ローカルＩ／Ｏバスを介してＩ／Ｏデバイスへの接続を提供する。

メモリデバイス１４２０は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）デバイス、スタティックランダムアクセスメモリ（ＳＲＡＭ）デバイス、フラッシュメモリデバイス、相変化メモリデバイスまたはプロセスメモリとして機能する好適な性能を有するいくつかの他のメモリデバイスであってよい。メモリデバイス１４２０は、例えば、システム１４００のシステムメモリとして動作して、１または複数のプロセッサ１４０２がアプリケーションまたはプロセスを実行するときに用いるデータ１４２２および命令１４２１を格納してよい。また、メモリコントローラ１４１６は、オプションの外部グラフィックプロセッサ１４１８に結合され、外部グラフィックプロセッサ１４１８は、グラフィック処理またはメディア処理を実行するために、プロセッサ１４０２内の１または複数のグラフィックプロセッサ１４０８を通信してよい。いくつかの実施形態において、グラフィック処理、メディア処理および／または計算処理は、グラフィック処理、メディア処理または計算処理の特別なセットを実行するよう構成されてよいコプロセッサであるアクセラレータ１４１２により支援されてよい。例えば、アクセラレータ１４１２は、機械学習または計算処理を最適化するために用いられる行列乗算アクセラレータであってよい。アクセラレータ１４１２は、グラフィックプロセッサ１４０８と連携してレイトレーシング処理を実行するために用いられてよいレイトレーシングアクセラレータであってよい。一実施形態において、アクセラレータ１４１２の代わりに、またはアクセラレータ１４１２と連携させて、外部アクセラレータ１４１９が用いられてよい。

プロセッサ１４０２に接続されてよいディスプレイデバイス１４１１が提供されてよい。ディスプレイデバイス１４１１は、モバイル電子デバイスまたはラップトップデバイスまたはディスプレイインタフェース（例えば、ディスプレイポート等）を介して取り付けられた外部ディスプレイデバイス内にあるような、内部ディスプレイデバイスのうちの１または複数であってよい。ディスプレイデバイス１４１１は、ヘッドマウントディスプレイ（ＨＭＤ）、例えば、仮想現実（ＶＲ）アプリケーションまたは拡張現実（ＡＲ）アプリケーションでの使用のための立体表示デバイスであってよい。

プラットフォームコントローラハブ１４３０は、高速Ｉ／Ｏバスを介して、周辺機器をメモリデバイス１４２０およびプロセッサ１４０２に接続できるようにしてよい。Ｉ／Ｏ周辺機器としては、限定ではないが、オーディオコントローラ１４４６、ネットワークコントローラ１４３４、ファームウェアインタフェース１４２８、無線トランシーバ１４２６、タッチセンサ１４２５、データストレージデバイス１４２４（例えば、不揮発性メモリ、揮発性メモリ、ハードディスクドライブ、フラッシュメモリ、ＮＡＮＤ、３ＤＮＡＮＤ、３ＤＸＰｏｉｎｔ／Ｏｐｔａｎｅ等）が含まれる。データストレージデバイス１４２４は、ストレージインタフェース（例えば、ＳＡＴＡ）を介して、またはペリフェラルコンポーネントインターコネクトバス（例えば、ＰＣＩ、ＰＣＩＥｘｐｒｅｓｓ）等の周辺機器バスを介して接続されてよい。タッチセンサ１４２５は、タッチスクリーンセンサ、圧力センサまたは指紋センサを含んでよい。無線トランシーバ１４２６は、Ｗｉ－Ｆｉ（登録商標）トランシーバ、Ｂｌｕｅｔｏｏｔｈ（登録商標）トランシーバ、３Ｇ、４Ｇ、５Ｇ若しくはロングタームエボリューション（ＬＴＥ）トランシーバ等のモバイルネットワークトランシーバであってよい。ファームウェアインタフェース１４２８は、システムファームウェアとの通信を可能にし、例えば、一体化された拡張可能ファームウェアインタフェース（ＵＥＦＩ）であってよい。ネットワークコントローラ１４３４は、有線ネットワークへのネットワーク接続を可能にしてよい。いくつかの実施形態において、高性能ネットワークコントローラ（不図示）は、インタフェースバス１４１０に結合される。オーディオコントローラ１４４６は、マルチチャネル高解像度オーディオコントローラであってよい。これらの実施形態のうちのいくつかにおいて、システム１４００は、レガシ（例えば、パーソナルシステム２（ＰＳ／２））デバイスをシステムに結合するための随意のレガシＩ／Ｏコントローラ１４４０を含む。また、プラットフォームコントローラハブ１４３０は、キーボードおよびマウス１４４３の組み合わせ、カメラ１４４４または他のＵＳＢ入力デバイス等の、１または複数のユニバーサルシリアルバス（ＵＳＢ）コントローラ１４４２の接続入力デバイスに接続されてよい。

図示されたシステム１４００は、例示的なものであり限定的なものでないので、異なる構成の他のタイプのデータ処理システムも用いられてよいことを理解されたい。例えば、メモリコントローラ１４１６およびプラットフォームコントローラハブ１４３０のインスタンスは、外部グラフィックプロセッサ１４１８などの、別個の外部グラフィックプロセッサへと統合されてよい。プラットフォームコントローラハブ１４３０および／またはメモリコントローラ１４１６は、１または複数のプロセッサ１４０２の外部にあってよい。例えば、システム１４００は、外部メモリコントローラ１４１６およびプラットフォームコントローラハブ１４３０を含んでよく、これらは、プロセッサ１４０２と通信するシステムチップセット内のメモリコントローラハブおよび周辺機器コントローラハブとして構成されてよい。

例えば、ＣＰＵ、メモリ等のコンポーネントおよび他のコンポーネントが配置された回路基板（"スレッド（ｓｌｅｄ）"）が、熱性能を高めるために設計される。プロセッサ等の処理コンポーネントは、スレッドの上面に配置される一方、ＤＩＭＭ等のｎｅａｒメモリがスレッドの下面に配置されてよい。この設計によりもたらされるエアフローの拡大の結果、コンポーネントは、典型的なシステムよりも、高い周波数および電力レベルで動作してよく、これにより、性能が上がる。スレッドは、ラック内のパワーおよびデータ通信ケーブルに手探りでリンクされるよう構成されており、これにより、迅速に除去、アップグレード、再設置および／または交換ができる能力を向上させる。同様に、プロセッサ、アクセラレータ、メモリおよびデータストレージドライブ等の、スレッド上に配置された個々のコンポーネントは、それらの互いとの間の間隔が広くなっていることにより、容易にアップグレードされるよう構成されている。示された実施形態では、追加的に、コンポーネントは、これらの認証を証明するためのハードウェア証明機能を含む。

データセンタは、イーサネット（登録商標）およびオムニパスを含む複数の他のネットワークアーキテクチャをサポートする単一のネットワークアーキテクチャ（"ファブリック"）を用いてよい。スレッドは、典型的なツイストペアケーブル配線（例えば、カテゴリ５、カテゴリ５ｅ、カテゴリ６等）よりも、高い帯域幅およびより低いレイテンシをもたらす光ファイバを介してスイッチに結合されてよい。高帯域幅および低レイテンシの相互接続およびネットワークアーキテクチャにより、データセンタは、メモリアクセラレータ（例えば、ＧＰＵ、グラフィックアクセラレータ、ＦＰＧＡ、ＡＳＩＣ、ニューラルネットワークおよび／または人工知能アクセラレータ等）、および、物理的に非集約なデータストレージドライブ等のプールリソースを使用してよく、それらを必要時に応じ、計算リソース（例えば、プロセッサ）に提供し、プールリソースがローカルである場合に、計算リソースがプールリソースにアクセスできるようにしてよい。

電源または電力ソースは、電圧および／または電流をシステム１４００または任意のコンポーネントまたは本明細書で説明するシステムに提供してよい。一例において、電源は、壁のコンセントに差し込むＡＣ‐ＤＣ（交流‐直流）アダプタを含む。このようなＡＣ電力は、再生エネルギー（例えば、太陽光発電）電力源であってよい。一例において、電力源は、外付けのＡＣ‐ＤＣコンバータ等のＤＣ電力源を含む。電力源または電源はまた、充電場に近接させることで充電する無線の充電ハードウェアも含んでよい。電力源は、内蔵バッテリ、交流電源、モーションベースの電源、太陽光発電または燃料電池ソースを含んでよい。

図１５Ａ～図１５Ｃは、コンピューティングシステムおよびグラフィックプロセッサを示す。本明細書の任意の他の図面の要素と同一または類似の名称を有する図１５Ａ～１５Ｃの要素は、他の図面における同一の要素を説明しており、本明細書の他の箇所での説明と同様に、それと同様の態様で動作または機能してよく、同一のコンポーネントを備えてよく、他のエンティティにリンクされてよいが、そのように限定はされない。

図１５Ａは、プロセッサ１５００のブロック図であり、プロセッサ１５００は、プロセッサ１４０２のうちの１つの変形例であってよく、それらのうちの１つの代わりに用いられてよい。従って、ここでのプロセッサ１５００との組み合わせにおける任意の特徴の開示内容はまた、プロセッサ１４０２との対応する組み合わせも開示しているが、そのように限定はされない。プロセッサ１５００は、１または複数のプロセッサコア１５０２Ａ－１５０２Ｎ、統合メモリコントローラ１５１４および統合グラフィックプロセッサ１５０８を有してよい。統合グラフィックプロセッサ１５０８が除外される場合、当該プロセッサを含むシステムは、システムチップセット内にグラフィックプロセッサデバイスを含むか、あるいは、システムバスを介して結合される。プロセッサ１５００は、最大で、破線ボックスで表される追加のコア１５０２Ｎまでを含む追加のコアを含んでよい。プロセッサコア１５０２Ａ～１５０２Ｎの各々は、１または複数の内部キャッシュのユニット１５０４Ａ～１５０４Ｎを含む。いくつかの実施形態において、各プロセッサコア１５０２Ａ～１５０２Ｎは、また１または複数の共有のキャッシュユニット１５０６にアクセスできる。内部キャッシュユニット１５０４Ａ～１５０４Ｎおよび共有キャッシュユニット１５０６は、プロセッサ１５００内のキャッシュメモリ階層を表わす。キャッシュメモリ階層は、各プロセッサコア内に少なくとも１つのレベルの命令およびデータキャッシュ、並びにレベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）等の共有中間レベルキャッシュおよび他のレベルのキャッシュのうちの１または複数のレベルを含んでよく、この場合、外部メモリの前の最高レベルのキャッシュがＬＬＣと分類される。いくつかの実施形態において、キャッシュコヒーレンシロジックが、様々なキャッシュユニット１５０６および１５０４Ａ～１５０４Ｎ間のコヒーレンシを維持する。

プロセッサ１５００は、１または複数のバスコントローラユニット１５１６のセットおよびシステムエージェントコア１５１０を含んでもよい。１または複数のバスコントローラユニット１５１６は、１または複数のＰＣＩまたはＰＣＩＥｘｐｒｅｓｓバス等の周辺機器バスのセットを管理する。システムエージェントコア１５１０は、様々なプロセッサコンポーネントのための管理機能を提供する。システムエージェントコア１５１０は、様々な外部メモリデバイス（不図示）へのアクセスを管理するための１または複数の統合メモリコントローラ１５１４を含んでよい。

例えば、プロセッサコア１５０２Ａ～１５０２Ｎのうちの１または複数は、同時マルチスレッディングのためのサポートを含んでよい。システムエージェントコア１５１０は、マルチスレッド処理中にコア１５０２Ａ～１５０２Ｎを協調させ、動作させるためのコンポーネントを含む。追加的にシステムエージェントコア１５１０は、電力制御ユニット（ＰＣＵ）を含んでよく、ＰＣＵは、プロセッサコア１５０２Ａ～１５０２Ｎおよびグラフィックプロセッサ１５０８の電力状態を制御するためのロジックおよびコンポーネントを含む。

追加的にプロセッサ１５００は、グラフィック演算処理を実行するためのグラフィックプロセッサ１５０８を含んでよい。これらの実施形態うちのいくつかにおいて、グラフィックプロセッサ１５０８は、共有キャッシュユニット１５０６のセットおよび１または複数の統合メモリコントローラ１５１４を含むシステムエージェントコア１５１０に結合される。システムエージェントコア１５１０は、１または複数の結合ディスプレイへのグラフィックプロセッサの出力を駆動するためのディスプレイコントローラ１５１１も含んでよい。ディスプレイコントローラ１５１１は、また少なくとも１つの相互接続を介してグラフィックプロセッサに結合された別個のモジュールであってよく、あるいは、グラフィックプロセッサ１５０８内に統合されてもよい。

リングベースの相互接続ユニット１５１２を用いて、プロセッサ１５００の内部コンポーネントを結合してよい。しかしながら、代替的な相互接続ユニットが使用されてもよく、例えば、ポイント間相互接続、切り替え相互接続、または当技術分野で周知の技術を含む他の技術が用いられてよい。これらの実施形態うちのいくつかにおいて、リングベースの相互接続１５１２を用いて、グラフィックプロセッサ１５０８は、Ｉ／Ｏリンク１５１３を介してリングベース相互接続１５１２に結合される。

例示的なＩ／Ｏリンク１５１３は、複数の様々なＩ／Ｏ相互接続のうちの少なくとも１つを表わし、このようなものとしては、様々なプロセッサコンポーネントと、ｅＤＲＡＭモジュール等の高性能埋め込み型メモリモジュール１５１８との間の通信を促進させるパッケージＩ／Ｏ相互接続が含まれる。随意でプロセッサコア１５０２Ａ～１５０２Ｎおよびグラフィックプロセッサ１５０８の各々は、埋め込み型メモリモジュール１５１８を共有ラストレベルキャッシュとして用いてよい。

例えば、プロセッサコア１５０２Ａ～１５０２Ｎは、同一の命令セットアーキテクチャを実行する同種のコアであってよい。代替的に、プロセッサコア１５０２Ａ～１５０２Ｎは、命令セットアーキテクチャ（ＩＳＡ）の観点から異種であり、プロセッサコア１５０２Ａ～１５０２Ｎのうちの１または複数は、第１の命令セットを実行する一方、他のコアのうちの少なくとも１つは、第１の命令セットのサブセットまたは異なる命令セットを実行する。プロセッサコア１５０２Ａ～１５０２Ｎは、マイクロアーキテクチャの観点から異種であってよく、比較的より高い電力消費量を有する１または複数のコアは、より低い電力消費量を有する１または複数の電力コアに結合される。別の例として、プロセッサコア１５０２Ａ～１５０２Ｎは、計算能力の観点から異種である。追加的に、プロセッサ１５００は、１または複数のチップ上に実装されてよく、あるいは他のコンポーネントに加え、図示されたコンポーネントを有するＳｏＣ集積回路として実装されてよい。

図１５Ｂは、本明細書で説明するいくつかの実施形態により、グラフィックプロセッサコア１５１９のハードウェアロジックのブロック図である。コアスライスとも呼ばれることがあるグラフィックプロセッサコア１５１９は、モジュール式グラフィックプロセッサ内の１または複数のグラフィックコアであってよい。グラフィックプロセッサコア１５１９は、１つのグラフィックコアスライスの例示であり、本明細書で説明されるようなグラフィックプロセッサは、目標とする電力および性能エンベロープに基づき、複数のグラフィックコアスライスを含んでよい。各グラフィックプロセッサコア１５１９は、サブスライスとも称される複数のサブコア１５２１Ａ～１５２１Ｆに結合された固定機能ブロック１５３０を含んでよく、サブコアは、汎用の固定機能ロジックのモジュール式ブロックを含む。

固定機能ブロック１５３０は、グラフィックプロセッサコア１５１９内の、例えば、より低性能および／またはより低電力のグラフィックプロセッサ実装におけるすべてのサブコアで共有可能なジオメトリ／固定機能パイプライン１５３１を含んでよい。ジオメトリ／固定機能パイプライン１５３１は、３Ｄ固定機能パイプライン（例えば、後述する図１６Ａにあるような３Ｄパイプライン１６１２）、ビデオフロントエンドユニット、スレッドスポーナおよびスレッドディスパッチャ、並びに、一体化戻りバッファ（例えば、後述する図１７にあるような一体化戻りバッファ１７１８）を管理する一体化戻りバッファマネージャを含んでよい。

固定機能ブロック１５３０はまた、グラフィックＳｏＣインタフェース１５３２、グラフィックマイクロコントローラ１５３３およびメディアパイプライン１５３４も含んでもよい。グラフィックＳｏＣインタフェース１５３２は、グラフィックプロセッサコア１５１９と、チップ集積回路上のシステム内の他のプロセッサコアとの間のインタフェースを提供する。グラフィックマイクロコントローラ１５３３は、グラフィックプロセッサコア１５１９の様々な機能を管理するよう構成可能なプログラム可能なサブプロセッサであり、当該様々な機能としては、スレッドディスパッチ、スケジューリングおよびプリエンプトが含まれる。メディアパイプライン１５３４（例えば、図１６Ａおよび図１７のメディアパイプライン１６１６）は、イメージビデオデータを含むマルチメディアデータのデコーディング、エンコーディング、前処理および／または後処理を容易化するためのロジックを含む。メディアパイプライン１５３４は、計算の要求を介してメディア処理またはサブコア１５２１－１５２１Ｆ内のサンプリングロジックを実装する。

ＳｏＣインタフェース１５３２は、グラフィックプロセッサコア１５１９が、汎用アプリケーションプロセッサコア（例えば、ＣＰＵ）および／またはＳｏＣ内の他のコンポーネントと通信できるようにしてよく、当該他のコンポーネントには、共有ラストレベルキャッシュメモリ、システムＲＡＭ、および／または、埋め込み型のオンチップ若しくはオンパッケージＤＲＡＭ等のメモリ階層要素を含む。ＳｏＣインタフェース１５３２はまた、カメライメージングパイプライン等のＳｏＣ内の固定機能デバイスとの通信も可能にしてよく、グラフィックプロセッサコア１５１９とＳｏＣ内のＣＰＵとの間で共有可能なグローバルメモリアトミックの使用を可能にし、および／または当該グローバルメモリアトミックを実装する。ＳｏＣインタフェース１５３２はまた、グラフィックプロセッサコア１５１９の電力管理制御も実装してよく、グラフィックコア１５１９のクロック領域と、ＳｏＣ内の他のクロック領域との間のインタフェースを可能にしてよい。随意で、ＳｏＣインタフェース１５３２は、コマンドおよび命令を、グラフィックプロセッサ内の１または複数のグラフィックコアの各々に提供するよう構成されたコマンドストリーマおよびグローバルスレッドディスパッチャからのコマンドバッファの受信を可能にする。コマンドおよび命令は、メディア処理が実行されるときは、メディアパイプライン１５３４にディスパッチされてよく、あるいは、グラフィック処理動作が実行されるときは、ジオメトリおよび固定機能パイプライン（例えば、ジオメトリおよび固定機能パイプライン１５３１、ジオメトリおよび固定機能パイプライン１５３７）にディスパッチさえてよい。

グラフィックマイクロコントローラ１５３３は、グラフィックプロセッサコア１５１９のための様々なスケジューリングおよび管理タスクを実行するよう構成されてよい。一構成において、グラフィックマイクロコントローラ１５３３は、例えば、グラフィックおよび／または計算ワークロードスケジューリングを、サブコア１５２１Ａ～１５２１Ｆ内の実行ユニット（ＥＵ）アレイ１５２２Ａ～１５２２Ｆ、１５２４Ａ～１５２４Ｆ内の様々なグラフィック並列エンジンに実行してよい。このワークロードスケジューリングでは、グラフィックプロセッサコア１５１９を含むＳｏＣのＣＰＵコア上で実行されるホストソフトウェアは、複数のグラフィックプロセッサドアベルのうちの１つにワークロードを送信でき、複数のグラフィックプロセッサドアベルのうちの１つが適切なグラフィックエンジンに対するスケジューリング処理を呼び出す。スケジューリング処理には、次に実行するワークロードの判定、ワークロードのコマンドストリーマへの送信、エンジン上で実行されている既存のワークロードのプリエンプト、ワークロードの進捗のモニタリング、およびワークロードが完了したときのホストソフトウェアへの通知が含まれる。随意で、グラフィックマイクロコントローラ１５３３はまた、グラフィックプロセッサコア１５１９のための低電力またはアイドル状態を促進することができ、システム上のオペレーティングシステムおよび／またはグラフィックドライバソフトウェアから独立して、低電力状態遷移にわたってグラフィックプロセッサコア１５１９内のレジスタを保存および復元する能力をグラフィックプロセッサコア１５１９に提供する。

グラフィックプロセッサコア１５１９は、図示されたサブコア１５２１Ａ～１５２１Ｆよりも多い、または少ないサブコアを有してよく、最大Ｎ個のモジュール式サブコアまで有してよい。Ｎ個のサブコアの各セットについて、グラフィックプロセッサコア１５１９はまた、共有機能ロジック１５３５、共有および／またはキャッシュメモリ１５３６、ジオメトリ／固定機能パイプライン１５３７に加え、追加の固定機能ロジック１５３８も含んでよく、様々なグラフィック計算演算処理を加速化させる。共有機能ロジック１５３５は、グラフィックプロセッサコア１５１９内のＮ個のサブコアの各々により共有可能な図１７の共有機能ロジック１７２０に関連付けられたロジックユニット（例えば、サンプラ、数学および／またはスレッド間通信ロジック）も含んでよい。共有および／またはキャッシュメモリ１５３６は、グラフィックプロセッサコア１５１９内のＮ個のサブコア１５２１Ａ～１５２１Ｆのセットのためのラストレベルキャッシュであってよく、また、複数のサブコアによりアクセス可能な共有メモリとして機能してもよい。ジオメトリ／固定機能パイプライン１５３１の代わりに、ジオメトリ／固定機能パイプライン１５３７が、固定機能ブロック１５３０内に含まれてよく、ジオメトリ／固定機能パイプライン１５３７は同一または同様のロジックユニットを含んでよい。

グラフィックプロセッサコア１５１９は、グラフィックプロセッサコア１５１９により用いられるための様々な固定機能の加速化ロジックを含んでよい追加の固定機能ロジック１５３８を含んでよい。随意で、追加の固定機能ロジック１５３８は、位置のみのシェーディングで用いられるための追加のジオメトリパイプラインを含む。位置のみのシェーディングでは、ジオメトリ／固定機能パイプライン１５３８、１５３１内の完全なジオメトリパイプラインと、カリングパイプラインの２つのジオメトリパイプラインが存在し、カリングパイプラインは、追加の固定機能ロジック１５３８内に含まれてよい追加のジオメトリパイプラインである。例えば、カリングパイプラインは、完全なジオメトリパイプラインの簡易バージョンであってよい。完全なパイプラインおよびカリングパイプラインは、同一のアプリケーションの異なるインスタンスを実行してよく、各インスタンスは別個のコンテキストを有する。位置のみのシェーディングは、破棄された三角形の長いカリング実行を非表示にでき、いくつかの場合において、より早期に完了されるべきシェーディングを可能にする。例えば、追加の固定機能ロジック１５３８内のカリングパイプラインロジックは、メインのアプリケーションと並列で位置シェーダを実行してよく、カリングパイプラインは、フレームバッファの画素のラスタライズおよびレンダリングを実行せずに、頂点の位置属性のみをフェッチし、およびシェーディングするので、概して、重要な結果を完全なパイプラインよりも高速に生成する。カリングパイプラインは、生成された重要な結果を用いて、これらの三角形がカリングされたかどうかに関わらず、すべての三角形の可視情報を計算してよい。完全なパイプライン（この例においては、再生パイプラインとも称されてよい）は、当該可視情報を用いて、カリングされた三角形をスキップして、最終的にラスタライズフェーズに渡される可視三角形のみをシェーディングしてよい。

随意で、追加の固定機能ロジック１５３８はまた、機械学習訓練または推論の最適化を含む実装のために、固定機能行列乗算ロジック等の機械学習加速化ロジックも含んでよい。

各グラフィックサブコア１５２１Ａ－１５２１Ｆ内には、グラフィックパイプライン、メディアパイプラインまたはシェーダプログラムによる要求に応答して、グラフィック処理、メディア処理および計算処理を実行するために用いられてよい実行リソースのセットが含まれる。グラフィックサブコア１５２１Ａ～１５２１Ｆは、複数のＥＵアレイ１５２２Ａ～１５２２Ｆ、１５２４Ａ～１５２４Ｆ、スレッドディスパッチおよびスレッド間通信（ＴＤ／ＩＣ）ロジック１５２３Ａ～１５２３Ｆ、３Ｄ（例えば、テクスチャ）サンプラ１５２５Ａ～１５２５Ｆ、メディアサンプラ１５０６Ａ～１５０６Ｆ、シェーダプロセッサ１５２７Ａ～１５２７Ｆおよび共有ローカルメモリ（ＳＬＭ）１５２８Ａ～１５２８Ｆを含む。ＥＵアレイ１５２２Ａ～１５２２Ｆ、１５２４Ａ～１５２４Ｆはそれぞれ複数の実行ユニットを含み、当該実行ユニットは、グラフィック、メディアまたは計算シェーダプログラムを含む、グラフィック処理、メディア処理または計算処理のサービスにおける浮動小数点および整数／固定小数点ロジック処理を実行可能な汎用グラフィック処理ユニットである。ＴＤ／ＩＣロジック１５２３Ａ－１５２３Ｆは、サブコア内の実行ユニットのためのローカルのスレッドディスパッチおよびスレッド制御の処理を実行し、サブコアの実行ユニット上で実行されるスレッド間の通信を促進させる。３Ｄサンプラ１５２５Ａ～１５２５Ｆは、メモリ内のテクスチャまたは他の３Ｄグラフィック関連データを読み取ってよい。３Ｄサンプラは、構成されたサンプル状態および特定のテクスチャに関連付けられたテクスチャフォーマットに基づき、テクスチャデータを異なって読み取ってよい。メディアサンプラ１５０６Ａ～１５０６Ｆは、メディアデータに関連付けられたタイプおよびフォーマットに基づき、同様の読み取り処理を実行してよい。例えば、各グラフィックサブコア１５２１Ａ－１５２１Ｆは、一体化３Ｄとメディアサンプラとを交互に含んでよい。各サブコア１５２１Ａ～１５２１Ｆ内の実行ユニットに実行されるスレッドは、各サブコア内の共有ローカルメモリ１５２８Ａ～１５２８Ｆを活用して、スレッドグループ内で実行されているスレッドが、オンチップメモリの共通プールを用いて実行されることを可能にしてよい。

図１５Ｃは、本明細書で説明する実施形態により、例えば、グラフィックプロセッサ１５０８等のグラフィックプロセッサおよび／または計算アクセラレータとして構成可能な汎用グラフィック処理ユニット（ＧＰＧＰＵ）１５７０のブロック図である。ＧＰＧＰＵ１５７０は、１または複数のシステムおよび／またはメモリバスを介して、ホストプロセッサ（例えば、１または複数のＣＰＵ１５４６）およびメモリ１５７１、１５７２と相互接続されてよい。メモリ１５７１は、１または複数のＣＰＵ１５４６と共有可能なシステムメモリであってよい一方、メモリ１５７２は、ＧＰＧＰＵ１５７０に専用のデバイスメモリである。例えば、ＧＰＧＰＵ１５７０およびデバイスメモリ１５７２内のコンポーネントは、１または複数のＣＰＵ１５４６にアクセス可能なメモリアドレスにマッピングされてよい。メモリ１５７１および１５７２へのアクセスは、メモリコントローラ１５６８を介して容易化されてよい。メモリコントローラ１５６８は、内部ダイレクトメモリアクセス（ＤＭＡ）コントローラ１５６９を含んでよく、または、ＤＭＡコントローラで実行されるであろう処理を実行するためのロジックを含んでよい。

ＧＰＧＰＵ１５７０は、Ｌ２キャッシュ１５５３、Ｌ１キャッシュ１５５４、命令キャッシュ１５５５および共有メモリ１５５６を含む複数のキャッシュメモリを含み、これらの少なくとも一部は、キャッシュメモリとしてパーティショニングされてもよい。ＧＰＧＰＵ１５７０はまた、複数の計算ユニット１５６０Ａ～１５６０Ｎも含む。計算ユニット１５６０Ａ～１５６０Ｎの各々は、ベクトルレジスタ１５６１、スカラレジスタ１５６２、ベクトルロジックユニット１５６３およびスカラロジックユニット１５６４のセットを含む。計算ユニット１５６０Ａ～１５６０Ｎはまた、ローカル共有メモリ１５６５およびプログラムカウンタ１５６６も含んでよい。計算ユニット１５６０Ａ～１５６０Ｎは、定数データを格納するために用いられてよい定数キャッシュ１５６７に結合されてよく、定数データとは、ＧＰＧＰＵ１５７０上で実行されるカーネルまたはシェーダプログラムの実行中に変更されることのないデータである。定数キャッシュ１５６７は、スカラデータキャッシュであってよく、キャッシュデータは、スカラレジスタ１５６２に直接フェッチされてよい。

処理中、１または複数のＣＰＵ１５４６はコマンドをアクセス可能なアドレス空間にマッピングされたＧＰＧＰＵ１５７０内のレジスタまたはメモリに書き込みしてよい。コマンドプロセッサ１５５７は、レジスタまたはメモリからコマンドを読み取ってよく、これらのコマンドがＧＰＧＰＵ１５７０内でどのように処理されるかを判定してよい。その後、スレッドディスパッチャ１５５８を用いて、スレッドをこれらのコマンドを実行するための計算ユニット１５６０Ａ～１５６０Ｎにディスパッチしてよい。各計算ユニット１５６０Ａ～１５６０Ｎは、他の計算ユニットから独立してスレッドを実行してよい。追加的に、各計算ユニット１５６０Ａ～１５６０Ｎは、条件計算のために独立して構成されてよく、条件的に計算の結果をメモリに出力してよい。コマンドプロセッサ１５５７は、送信されたコマンドが完了するとき、１または複数のＣＰＵ１５４６に割り込みしてよい。

図１６Ａ～１６Ｃは、例えば、図１５Ａ～１５Ｃにより本明細書で説明される実施形態により提供される追加のグラフィックプロセッサおよび計算アクセラレータアーキテクチャのブロック図を示す。任意の他の図面の要素と同一または類似の名称を有する図１６Ａ～１６Ｃの要素は、他の図面にある同一の要素を説明しており、本明細書の他の箇所の説明と同様に、それと同様の態様で動作または機能してよく、同一のコンポーネントを備えてよく、他のエンティティにリンクされてよいが、そのように限定はされない。

図１６Ａは、グラフィックプロセッサ１６００のブロック図であり、グラフィックプロセッサ１６００は、個別のグラフィック処理ユニットであってよく、または、複数のプロセッシングコアと統合されたグラフィックプロセッサ、または他の半導体デバイスなどであってよいが、メモリデバイスまたはネットワークインタフェースに限定はされない。グラフィックプロセッサ１６００は、グラフィックプロセッサ１５０８の変形例であってよく、グラフィックプロセッサ１５０８の代わりに用いられてよい。従って、本明細書におけるグラフィックプロセッサ１５０８との組み合わせにおける任意の特徴の開示内容は、グラフィックプロセッサ１６００との対応する組み合わせも開示しているが、そのように限定はされない。グラフィックプロセッサは、メモリにマッピングされたＩ／Ｏインタフェースを介して、および、プロセッサメモリに配置されたコマンドを用いてグラフィックプロセッサ上のレジスタと通信してよい。グラフィックプロセッサ１６００は、メモリにアクセスするためのメモリインタフェース１６１４を含んでよい。メモリインタフェース１６１４は、ローカルメモリ、１または複数の内部キャッシュ、１または複数の共有外部キャッシュ、および／またはシステムメモリとのインタフェースであってよい。

随意で、グラフィックプロセッサ１６００はまた、ディスプレイの出力データをディスプレイデバイス１６１８に駆動させるためのディスプレイコントローラ１６０２を含む。ディスプレイコントローラ１６０２は、ディスプレイのための１または複数のオーバーレイプレーンのためのハードウェアおよびビデオの複数の層またはユーザインタフェース要素の構成を含む。ディスプレイデバイス１６１８は、内部または外部ディスプレイデバイスであってよい。一実施形態において、ディスプレイデバイス１６１８は、仮想現実（ＶＲ）ディスプレイデバイスまたは拡張現実（ＡＲ）ディスプレイデバイス等の頭に載せるディスプレイデバイスである。グラフィックプロセッサ１６００は、限定されることはないが、ＭＰＥＧ－２などのムービングピクチャエキスパーツグループ（ＭＰＥＧ）フォーマット、Ｈ．２６４／ＭＰＥＧ－４ＡＶＣ、Ｈ．２６５／ＨＥＶＣ、ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）ＶＰ８、ＶＰ９等のアドバンスドビデオコーティング（ＡＶＣ）フォーマット、並びに、米国映画テレビ技術者協会（ＳＭＰＴＥ）４２１Ｍ／ＶＣ－１、および、ＪＰＥＧ等のジョイントフォトグラフィックエキスパートグループ（ＪＰＥＧ）フォーマット、および、モーションＪＰＥＧ（ＭＪＰＥＧ）フォーマットを含む１または複数のメディアエンコードフォーマットに、当該メディアエンコードフォーマットから、または、当該メディアエンコードフォーマット間でメディアをエンコード、デコードまたはトランスコードするビデオコーデックエンジン１６０６を含んでよい。

グラフィックプロセッサ１６００は、例えば、ビット境界ブロック転送を含む２次元（２Ｄ）ラスタライザ処理を実行するためのブロックイメージ転送（ＢＬＩＴ）エンジン１６０４を含んでよい。しかしながら、代替的に、２Ｄグラフィック処理が、グラフィック処理エンジン（ＧＰＥ）１６１０の１または複数のコンポーネントを用いて実行されてよい。いくつかの実施形態において、ＧＰＥ１６１０は、３次元（３Ｄ）グラフィック処理およびメディア処理を含むグラフィック処理を実行するための計算エンジンである。

ＧＰＥ１６１０は、３Ｄプリミティブ形状（例えば、矩形、三角形等）に作用する処理機能を用いる３次元イメージおよびシーンのレンダリング等の、３Ｄ処理を実行するための３Ｄパイプライン１６１２を含んでよい。３Ｄパイプライン１６１２は、要素内で様々なタスクを実行する、および／または実行スレッドを３Ｄ／メディアサブシステム１６１５に生成するプログラム可能な固定された機能要素を含む。３Ｄパイプライン１６１２を用いて、メディア処理を実行してよい一方、ＧＰＥ１６１０の実施形態はまた、ビデオ後処理およびイメージ拡大等のメディア処理を実行するために特に用いられるメディアパイプライン１６１６も含む。

メディアパイプライン１６１６は、ビデオコーデックエンジン１６０６の代わりに、または、その代理で、ビデオデコード加速化、ビデオインタレース解除、およびビデオエンコード加速化等の１または複数の特別なメディア処理を実行するための、固定機能またはプログラム可能ロジックユニットを含んでよい。追加的に、メディアパイプライン１６１６は、３Ｄ／メディアサブシステム１６１５上で実行するためのスレッドを生成するためのスレッド生成ユニットも含んでよい。生成されたスレッドは、３Ｄ／メディアサブシステム１６１５に含まれる１または複数のグラフィック実行ユニット上でのメディア処理に関する計算を実行する。

３Ｄ／メディアサブシステム１６１５は、３Ｄパイプライン１６１２およびメディアパイプライン１６１６により生成されたスレッドを実行するためのロジックを含んでよい。当該パイプラインは、スレッド実行要求を、３Ｄ／メディアサブシステム１６１５に送信してよく、３Ｄ／メディアサブシステム１６１５は、様々な要求を調整し、利用可能なスレッド実行リソースにディスパッチするためのスレッドディスパッチロジックを含む。実行リソースは、３Ｄおよびメディアスレッドを処理するためのグラフィック実行ユニットのアレイを含む。３Ｄ／メディアサブシステム１６１５は、スレッド命令およびデータのための１または複数の内部キャッシュを含んでよい。追加的に、３Ｄ／メディアサブシステム１６１５はまた、スレッド間でデータを共有し、出力データを格納するためのレジスタおよびアドレス指定可能メモリを含む共有メモリも含んでよい。

図１６Ｂは、グラフィックプロセッサ１６００の変形例であり、グラフィックプロセッサ１６００の代わりに用いられてよい、あるいはその逆であってよいグラフィックプロセッサ１６２０を示す。従って、本明細書におけるグラフィックプロセッサ１６００との組み合わせにおける任意の特徴の開示内容は、グラフィックプロセッサ１６２０との対応する組み合わせも開示しているが、そのように限定はされない。グラフィックプロセッサ１６２０は、本明細書に記載の実施形態により、タイルアーキテクチャを有する。グラフィックプロセッサ１６２０は、グラフィックエンジンタイル１６１０Ａ～１６１０Ｄ内に図１６Ａのグラフィック処理エンジン１６１０の複数のインスタンスを有するグラフィック処理エンジンクラスタ１６２２を含んでよい。各グラフィックエンジンタイル１６１０Ａ～１６１０Ｄは、タイル相互接続１６２３Ａ～１６２３Ｆのセットを介して相互接続されてよい。各グラフィックエンジンタイル１６１０Ａ～１６１０Ｄはまた、メモリ相互接続１６２５Ａ～１６２５Ｄを介してメモリモジュールまたはメモリデバイス１６２６Ａ～１６２６Ｄに接続されてもよい。メモリデバイス１６２６Ａ～１６２６Ｄは、任意のグラフィックメモリ技術を用いてよい。例えば、メモリデバイス１６２６Ａ～１６２６Ｄは、グラフィックダブルデータレート（ＧＤＤＲ）メモリであってよい。メモリデバイス１６２６Ａ～１６２６Ｄは、それぞれのグラフィックエンジンタイル１６１０Ａ～１６１０Ｄと共にダイに存在してよい高帯域幅メモリ（ＨＢＭ）モジュールであってよい。メモリデバイス１６２６Ａ～１６２６Ｄは、それぞれのグラフィックエンジンタイル１６１０Ａ～１６１０Ｄ上にスタックされてよいスタックメモリデバイスであってよい。各グラフィックエンジンタイル１６１０Ａ～１６１０Ｄおよび関連付けられたメモリ１６２６Ａ～１６２６Ｄは、別個のチップレットに存在してよく、チップレットは、ベースのダイまたはベースの基板に接合され、これについては、図２４Ｂ～２４Ｄでさらに詳細に説明する。

グラフィックプロセッサ１６２０は、不均一性メメモリアクセス（ＮＵＭＡ）システムで構成されてよく、メモリデバイス１６２６Ａ～１６２６Ｄは、関連するグラフィックエンジンタイル１６１０Ａ～１６１０Ｄに結合される。特定のメモリデバイスは、特定のメモリデバイスが直接接続されたタイル以外のグラフィックエンジンタイルによりアクセスされてよい。しかしながら、メモリデバイス１６２６Ａ～１６２６Ｄへのアクセスレイテンシは、ローカルタイルへのアクセス時に最も低くなってよい。一実施形態において、１またはそれより多くのキャッシュが同一のメモリ位置に格納する場合、グラフィックエンジンタイル１６１０Ａ～１６１０Ｄ内のキャッシュコントローラ間の通信が一貫性のあるメモリイメージを保持できるようにするタイル相互接続１６２３Ａ～１６２３Ｆを用いるキャッシュコヒーレントＮＵＭＡ（ｃｃＮＵＭＡ）システムが有効にされてよい。

グラフィック処理エンジンクラスタ１６２２は、オンチップまたはオンパッケージファブリック相互接続１６２４に接続されてよい。ファブリックインターコネクト１６２４は、グラフィックエンジンタイル１６１０Ａ－１６１０Ｄと、ビデオコーデック１６０６および１または複数のコピーエンジン１６０４などのコンポーネントとの間での通信を可能にし得る。コピーエンジン１６０４を用いて、メモリデバイス１６２６Ａ～１６２６Ｄおよびグラフィックプロセッサ１６２０（例えば、システムメモリ）の外部にあるメモリから、メモリデバイス１６２６Ａ～１６２６Ｄおよびグラフィックプロセッサ１６２０の外部にあるメモリへ、並びにメモリデバイス１６２６Ａ～１６２６Ｄおよびグラフィックプロセッサ１６２０の外部にあるメモリ間でデータを移動させてよい。ファブリック相互接続１６２４も用いて、グラフィックエンジンタイル１６１０Ａ～１６１０Ｄを相互接続してよい。随意でグラフィックプロセッサ１６２０は、外部ディスプレイデバイス１６１８との接続を可能にするためのディスプレイコントローラ１６０２を含んでよい。グラフィックプロセッサはまた、グラフィックアクセラレータまたは計算アクセラレータとして構成されてもよい。アクセラレータ構成において、ディスプレイコントローラ１６０２およびディスプレイデバイス１６１８は省略されてよい。

グラフィックプロセッサ１６２０は、ホストインタフェース１６２８を介してホストシステムに接続されてよい。ホストインタフェース１６２８は、グラフィックプロセッサ１６２０、システムメモリおよび／または他のシステムコンポーネントとの間の通信を可能にしてよい。ホストインタフェース１６２８は、例えば、ＰＣＩエクスプレスバスまたは別のタイプのホストシステムインタフェースであってよい。

図１６Ｃは、本明細書で説明する実施形態による、計算アクセラレータ１６３０を示す。計算アクセラレータ１６３０は、図１６Ｂのグラフィックプロセッサ１６２０と同様のアーキテクチャを含んでよく、計算加速化のために最適化されている。計算エンジンクラスタ１６３２は、並列またはベクトルベースの汎用計算処理に最適化された実行ロジックを含む計算エンジンタイル１６４０Ａ～１６４０Ｄのセットを含んでよい。計算エンジンタイル１６４０Ａ～１６４０Ｄは、固定機能のグラフィック処理ロジックを含まなくてよいが、いくつかの実施形態においては、計算エンジンタイル１６４０Ａ～１６４０Ｄのうちの１または複数は、メディア加速化を実行するためのロジックを含んでよい。計算エンジンタイル１６４０Ａ～１６４０Ｄは、メモリ相互接続１６２５Ａ～１６２５Ｄを介してメモリ１６２６Ａ～１６２６Ｄに接続されてよい。メモリ１６２６Ａ～１６２６Ｄおよびメモリ相互接続１６２５Ａ～１６２５Ｄは、グラフィックプロセッサ１６２０と同様の技術であってよく、または、異なっていてもよい。またグラフィック計算エンジンタイル１６４０Ａ～１６４０Ｄは、タイル相互接続１６２３Ａ～１６２３Ｆのセットを介して相互接続されてもよく、ファブリック相互接続１６２４に接続されてもよく、および／または、ファブリック相互接続１６２４により相互接続されてもよい。一実施形態において、計算アクセラレータ１６３０は、デバイス全体のキャッシュとして構成可能な大型のＬ３キャッシュ１６３６を含む。計算アクセラレータ１６３０は、また、図１６Ｂのグラフィックプロセッサ１６２０と同様の方式で、ホストインタフェース１６２８を介してホストプロセッサおよびメモリに接続されてよい。「グラフィック処理エンジン」

図１７は、いくつかの実施形態による、グラフィックプロセッサのグラフィック処理エンジン１７１０のブロック図である。グラフィック処理エンジン（ＧＰＥ）１７１０は、図１６Ａに示されるＧＰＥ１６１０のバージョンであってよく、図１６Ｂのグラフィックエンジンタイル１６１０Ａ～１６１０Ｄを表わしてもよい。本明細書における任意の他の図面の要素と同一または類似の名称を有する図１７の要素は、他の図面にある同一の要素について説明しており、本明細書における他の箇所での説明と同様に、それと同様に動作または機能してよく、同一のコンポーネントを備えてよく、他のエンティティにリンクされてよいが、そのように限定されることはない。例えば、図１６Ａの３Ｄパイプライン１６１２およびメディアパイプライン１６１６も図１７に図示されている。ＧＰＥ１７１０のいくつかの実施形態において、メディアパイプライン１６１６は随意のものであり、ＧＰＥ１７１０内に明示的に含まれなくてもよい。例えば、少なくとも一実施形態において、別個のメディアプロセッサおよび／またはイメージプロセッサが、ＧＰＥ１７１０に結合される。

ＧＰＥ１７１０は、コマンドストリームを３Ｄパイプライン１６１２および／またはメディアパイプライン１６１６に提供するコマンドストリーマ１７０３に結合されてよく、または、コマンドストリーマ１７０３を含んでよい。代替的にまたは追加的に、コマンドストリーマ１７０３は一体化戻りバッファ１７１８に直接結合されてよい。一体化戻りバッファ１７１８は、グラフィックコアアレイ１７１４に通信可能に結合されてよい。随意で、コマンドストリーマ１７０３はメモリに結合され、メモリは、システムメモリまたは内部キャッシュメモリおよび共有キャッシュメモリのうちの１または複数であってよい。コマンドストリーマ１７０３は、メモリからコマンドを受信してよく、コマンドを３Ｄパイプライン１６１２および／またはメディアパイプライン１６１６に送信する。コマンドは、リングバッファからフェッチされる命令であり、リングバッファは、３Ｄパイプライン１６１２およびメディアパイプライン１６１６のためのコマンドを格納する。追加的にリングバッファは、複数のコマンドのバッチを格納するバッチコマンドバッファを含んでよい。３Ｄパイプライン１６１２に関するコマンドは、限定されることはないが、３Ｄパイプライン１６１２に関する頂点およびジオメトリデータ、および／または、メディアパイプライン３１６に関する画像データおよびメモリオブジェクトなどの、メモリに格納されたデータへの参照もまた含み得る。３Ｄパイプライン１６１２およびメディアパイプライン１６１６は、それぞれのパイプライン内のロジックを介して処理を実行することにより、または、１または複数の実行スレッドをグラフィックコアアレイ１７１４にディスパッチすることにより、コマンドおよびデータを処理する。グラフィックコアアレイ１７１４は、グラフィックコア（例えば、グラフィックコア１７１５Ａ，グラフィックコア１７１５Ｂ）のうちの１または複数のブロックを含み、各ブロックが１または複数のグラフィックコアを含んでよい。各グラフィックコアは、グラフィック処理および計算処理を実行するための汎用実行ロジックおよびグラフィック専用実行ロジックに加え、固定機能テクスチャ処理および／または機械学習および人工知能加速化ロジックを含むグラフィック実行リソースのセットを含む。

様々な実施形態において、３Ｄパイプライン１６１２は、命令を処理し、実行スレッドをグラフィックコアアレイ１７１４にディスパッチすることで、１または複数のシェーダプログラムを処理するための固定機能ロジックおよびプログラム可能ロジックを含んでよく、このようなプログラムとしては、例えば、頂点シェーダ、ジオメトリシェーダ、画素シェーダ、フラグメントシェーダ、計算シェーダまたは他のシェーダプログラム等が含まれる。グラフィックコアアレイ１７１４は、これらのシェーダプログラムを処理する際に用いられるための実行リソースの一体化ブロックを提供する。グラフィックコアアレイ１７１４のグラフィックコア１７１５Ａ－１７１４Ｂ内の多目的実行ロジック（例えば、実行ユニット）は、様々な３ＤＡＰＩシェーダ言語に対するサポートを含み、複数のシェーダに関連付けられる複数の同時実行スレッドを実行することができる。

グラフィックコアアレイ１７１４は、ビデオおよび／または画像処理等のメディア機能を実行するための実行ロジックを含んでよい。実行ユニットは、グラフィック演算処理に加え、並列の汎用計算処理を実行するためにプログラム可能である汎用ロジックも含んでよい。汎用ロジックは、図１４のプロセッサコア１４０７内のまたは図１５Ａのコア１５０２Ａ～１５０２Ｎ内の汎用ロジックと並列でまたはそれと連携して演算処理を実行してよい。

グラフィックコアアレイ１７１４上で実行されるスレッドにより生成された出力データは、一体化戻りバッファ（ＵＲＢ）１７１８内のメモリにデータを出力してよい。ＵＲＢ１７１８は、複数のスレッドのためのデータを格納してよい。ＵＲＢ１７１８を用いて、グラフィックコアアレイ１７１４上で実行される異なるスレッド間でデータを送信してよい。追加的に、ＵＲＢ１７１８は、グラフィックコアアレイ１７１４上のスレッドと、共有機能ロジック１７２０内の固定機能ロジックとの間の同期に用いられてよい。

随意で、アレイが可変数のグラフィックコアを含むように、グラフィックコアアレイ１７１４はスケーラブルであってよく、グラフィックコアの各々は、ＧＰＥ１７１０の目標電力および性能レベルに基づき、可変数の実行ユニットを有する。実行リソースが必要に応じて有効化または無効化され得るように、実行リソースは動的にスケーラブルであってよい。

グラフィックコアアレイ１７１４は、グラフィックコアとグラフィックコアアレイとの間で共有される複数のリソースを含む共有機能ロジック１７２０に結合される。共有機能ロジック１７２０内の共有機能は、特別な補足機能をグラフィックコアアレイ１７１４に提供するハードウェアロジックユニットである。様々な実施形態において、共有機能ロジック１７２０は、限定ではないが、サンプラ１７２１、数学１７２２およびスレッド間通信（ＩＴＣ）１７２３ロジックを含む。追加的に、共有機能ロジック１７２０内の１または複数のキャッシュ１７２５が実装されてよい。

共有機能は、少なくとも、グラフィックコアアレイ１７１４内に含まれる特定の専用機能に対する要求が不十分である場合に実装される。グラフィックコアアレイ１７１４間で共有され、グラフィックコアアレイ１７１４内に含まれる機能の正確なセットは、実施形態により変わる。グラフィックコアアレイ１７１４によって拡張的に用いられる共有機能ロジック１７２０内の特定の共有機能が、グラフィックコアアレイ１７１４内の共有機能ロジック１７１６内に含まれてよい。随意で、グラフィックコアアレイ１７１４内の共有機能ロジック１７１６は、共有機能ロジック１７２０内のロジックの一部のロジックまたは全部のロジックを含んでよい。共有機能ロジック１７２０内のすべてのロジック要素は、グラフィックコアアレイ１７１４の共有機能ロジック１７１６内で重複していてよい。代替的に、グラフィックコアアレイ１７１４内の共有機能ロジック１７１６が優先され、共有機能ロジック１７２０は、除外される。「実行ユニット」

図１８Ａ～１８Ｂは、本明細書で説明する実施形態による、グラフィックプロセッサコア内に用いられる処理要素のアレイを含むスレッド実行ロジック１８００を示す。任意の他の図面の要素と同一または類似の名称を有する図１８Ａ～１８Ｂの要素は、他の図面内の同一の要素を説明しており、本明細書の他の箇所の説明と同様、それと同様に動作または機能してよく、同一のコンポーネントを備えてよく、他のエンティティにリンクされてよいが、それに限定はされない。図１８Ａ～１８Ｂは、スレッド実行ロジック１８００の概要を示し、スレッド実行ロジック１８００は、図１５Ｂの各サブコア１５２１Ａ～１５２１Ｆと共に図示されたハードウェアロジックを表わしてよい。図１８Ａは、汎用グラフィックプロセッサ内の実行ユニットを表わす一方、図１８Ｂは、計算アクセラレータ内で用いられてよい実行ユニットを表わす。

図１８Ａに示される通り、スレッド実行ロジック１８００は、シェーダプロセッサ１８０２、スレッドディスパッチャ１８０４、命令キャッシュ１８０６、複数の実行ユニット１８０８Ａ～１８０８Ｎを含むスケーラブル実行ユニットアレイ、サンプラ１８１０、共有ローカルメモリ１８１１、データキャッシュ１８１２およびデータポート１８１４を含んでよい。随意で、スケーラブル実行ユニットアレイは、ワークロードの計算要件に基づき、１または複数の実行ユニット（例えば、実行ユニット１８０８Ａ、１８０８Ｂ、１８０８Ｃ、１８０８Ｄ、１８０８Ｎ‐１および１８０８Ｎまでの任意のもの）を有効化または無効化することで動的にスケーリングされてよい。含まれるコンポーネントは、各コンポーネントにリンクされた相互接続ファブリックリンクを介して相互接続されてよい。スレッド実行ロジック１８００は、命令キャッシュ１８０６、データポート１８１４、サンプラ１８１０および実行ユニット１８０８Ａ～１８０８Ｎのうちの１または複数を通して、システムメモリまたはキャッシュメモリ等のメモリへの１または複数の接続を含んでよい。各実行ユニット（例えば、１８０８Ａ）は、各スレッドの複数のデータ要素を並列処理する間に、複数の同時ハードウェアスレッドを実行可能であるスタンドアロンのプログラム可能な汎用計算ユニットであってよい。様々な実施形態において、実行ユニット１８０８Ａ～１８０８Ｎのアレイは、任意の数の個々の実行ユニットを含むようにスケーリング可能である。

実行ユニット１８０８Ａ～１８０８Ｎは、シェーダプログラムを実行するために主に用いられてよい。シェーダプロセッサ１８０２は、様々なシェーダプログラムを処理してよく、スレッドディスパッチャ１８０４を介してシェーダプログラムに関連付けられた実行スレッドをディスパッチしてよい。スレッドディスパッチャは、グラフィックおよびメディアパイプラインからのスレッド開始要求を調整し、且つ要求されたスレッドを１または複数の実行ユニット１８０８Ａ～１８０８Ｎでインスタンス化するためのロジックを含んでよい。例えば、ジオメトリパイプラインは、頂点、テッセレーションまたはジオメトリシェーダを処理するためにスレッド実行ロジックにディスパッチしてよい。随意で、スレッドディスパッチャ１８０４はまた、実行シェーダプログラムからのランタイムのスレッド生成要求を処理してもよい。

実行ユニット１８０８Ａ～１８０８Ｎは、グラフィックライブラリ（例えば、ダイレクト３ＤおよびＯｐｅｎＧＬ）からのシェーダプログラムが最小の変換で実行されるように、多くの標準３Ｄグラフィックシェーダ命令のためのネイティブサポートを含む命令セットをサポートしてよい。実行ユニットは、頂点およびジオメトリ処理（例えば、頂点プログラム、ジオメトリプログラム、頂点シェーダ）、画素処理（例えば、画素シェーダ、フラグメントシェーダ）および汎用処理（例えば、計算およびメディアシェーダ）をサポートする。実行ユニット１８０８Ａ－１８０８Ｎのそれぞれは、マルチ発行型の単一命令複数のデータ（ＳＩＭＤ）実行を可能にし、マルチスレッド動作は、より高いレイテンシメモリアクセスにあるにも関わらず効率的な実行環境を可能にする。各実行ユニット内の各ハードウェアスレッドは、専用の高帯域幅レジスタファイルおよび関連付けられた独立のスレッド状態を有する。実行は、整数、単精度および倍精度浮動小数点処理、ＳＩＭＤ分岐機能、論理処理、超越処理および他の各種処理が可能なパイプラインへのクロック毎のマルチ発行である。メモリからのデータまたは共有機能のうちの１つからのデータを待機する間、実行ユニット１８０８Ａ～１８０８Ｎ内の依存性ロジックは、要求したデータが戻されるまで、待機中のスレッドをスリープさせる。待機中のスレッドがスリープしている間に、ハードウェアリソースは、他のスレッドを処理することに専念してよい。例えば、頂点シェーダ処理に関連する遅延中に、実行ユニットは、図２１に図示された頂点シェーダ２１０７等の異なる頂点シェーダを含む、画素シェーダ、フラグメントシェーダまたは別のタイプのシェーダプログラムの処理を実行してよい。様々な実施形態は、ＳＩＭＤの使用の代替として、またはＳＩＭＤの使用に加え、単一命令複数スレッド（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎＭｕｌｔｉｐｌｅＴｈｒｅａｄ：ＳＩＭＴ）の使用による実行の使用に適用されてよい。ＳＩＭＤコアまたは処理への参照はＳＩＭＴにも適用されてよく、あるいは、ＳＩＭＴと組み合わせたＳＩＭＤに適用されてもよい。

実行ユニット１８０８Ａ－１８０８Ｎの各実行ユニットは、データ要素のアレイ上で動作する。データ要素の数は、"実行サイズ"まてゃあ命令のためのチャネルの数である。実行チャネルは、命令内のデータ要素アクセス、マスキングおよびフロー制御のための実行のロジカルユニットである。チャネルの数は、特定のグラフィックプロセッサ用の物理算術論理ユニット（ＡＬＵ）浮動小数点ユニット（ＦＰＵ）または他のロジックユニット（例えば、テンソルコア、レイトレーシングコア等）の数とは独立していてよい。追加的に、実行ユニット１８０８Ａ～１８０８Ｎは、整数および浮動小数点データ型をサポートしてよい。

実行ユニット命令セットは、ＳＩＭＤ命令を含む。様々なデータ要素は、レジスタ内のパックドデータタイプとして格納されることができ、実行ユニットは、要素のデータサイズに基づいて、様々な要素を処理する。例えば、２５６ビット幅のベクトルを操作する場合、ベクトルの２５６ビットがレジスタに格納され、実行ユニットは、４つの別個の１８４ビットパックドデータ要素（クアッドワード（ＱＷ）サイズのデータ要素）、８つの別個の３２ビットパックドデータ要素（ダブルワード（ＤＷ）サイズのデータ要素）、１６個の別個の１６ビットパックドデータ要素（ワード（Ｗ）サイズのデータ要素）または３２個の別個の８ビットデータ要素（バイト（Ｂ）サイズのデータ要素）としてベクトルを操作する。しかしながら、異なベクトル幅およびレジスタサイズも可能である。

随意で、１または複数の実行ユニットは、融合されたＥＵに共通のスレッド制御ロジック（１８０７Ａ～１８０７Ｎ）を有する融合された実行ユニット１８０９Ａ～１８０９Ｎと組み合わせられてよい。複数のＥＵが、１つのＥＵグループに融合されてよい。融合されたＥＵグループ内の各ＥＵは、別個のＳＩＭＤハードウェアスレッドを実行するよう構成されてよい。融合されたＥＵグループ内のＥＵの数は、実施形態により変わってよい。追加的に、ＥＵ毎にＳＩＭＤ８、ＳＩＭＤ１６およびＳＩＭＤ３２を含む、様々なＳＩＭＤ幅が実行されてよいが、これらに限定はされない。各融合されたグラフィック実行ユニット１８０９Ａ～１８０９Ｎは、少なくとも２つの実行ユニットを含む。例えば、融合された実行ユニット１８０９Ａは、第１のＥＵ１８０８Ａ、第２のＥＵ１８０８Ｂ、および第１のＥＵ１８０８Ａと第２のＥＵ１８０８Ｂに共通のスレッド制御ロジック１８０７Ａを含む。スレッド制御ロジック１８０７Ａは、融合されたグラフィック実行ユニット１８０９Ａ上で実行されるスレッドを制御し、融合された実行ユニット１８０９Ａ－１８０９Ｎ内の各ＥＵが、共通命令ポインタレジスタを用いて実行されることを可能にする。

１または複数の内部命令キャッシュ（例えば、１８０６）は、実行ユニットのスレッド命令をキャッシュするためのスレッド実行ロジック１８００に含まれる。スレッド実行中のスレッドデータをキャッシュするために、１または複数のデータキャッシュ（例えば、１８１２）がスレッド実行ロジック１８００内に含まれてよい。実行ロジック１８００で実行されるスレッドはまた、明示的に管理されたデータを共有ローカルメモリ１８１１内に格納してよい。３Ｄ処理用のテクスチャサンプリングおよびメディア処理用のメディアサンプリングを提供するために、サンプラ１８１０が含まれてよい。サンプラ１８１０は、サンプリングされたデータを実行ユニットに提供する前に、サンプリング処理中にテクスチャまたはメディアデータを処理するための専用のテクスチャまたはメディアサンプリング機能を含んでよい。

実行中、グラフィックおよびメディアパイプラインは、スレッド生成およびディスパッチロジックを介して、スレッド開始要求をスレッド実行ロジック１８００にを送信する。一度ジオメトリックオブジェクトのグループが処理されて、画素データへとラスタライズされると、シェーダプロセッサ１８０２内の画素プロセッサロジック（例えば、画素シェーダロジック、フラグメントシェーダロジック等）が、出力情報をさらに計算するために呼び出され、出力サーフェス（例えば、カラーバッファ、デプスバッファ、ステンシルバッファ等）に結果が書き込まれるようにする。画素シェーダまたはフラグメントシェーダは、ラスタライズされたオブジェクトにわたって補間されるべき様々な頂点属性の値を計算してよい。シェーダプロセッサ１８０２内の画素プロセッサロジックは、次に、アプリケーションプログラミングインタフェース（ＡＰＩ）により供給される画素またはフラグメントシェーダプログラムを実行してよい。シェーダプログラムを実行するべく、シェーダプロセッサ１８０２は、スレッドディスパッチャ１８０４を介して、スレッドを実行ユニット（例えば１８０８Ａ）にディスパッチする。シェーダプロセッサ１８０２は、サンプラ１８１０内のテクスチャサンプリングロジックを用いて、メモリに格納されたテクスチャマップ内のテクスチャデータにアクセスしてよい。テクスチャデータおよび入力されたジオメトリデータに対する算術処理は、各ジオメトリックフラグメントに対する画素カラーデータを計算する、または、さらなる処理から１または複数の画素を破棄する。

また、データポート１８１４は、グラフィックプロセッサの出力パイプライン上でさらに処理するために、処理されたデータをメモリに出力するためのメモリアクセスメカニズムをスレッド実行ロジック１８００に提供してよい。データポート１８１４は、データポート１８１４を介するメモリアクセスのために、データをキャッシュするための１または複数のキャッシュメモリ（例えば、データキャッシュ１８１２）を含んでよい、または、そこに結合されてよい。

随意で、実行ロジック１８００はまた、レイトレーシング加速化機能を提供可能なレイトレーサ１８０５も含んでよい。レイトレーサ１８０５は、レイ生成のための命令／機能を含むレイトレーシング命令セットをサポートしてよい。レイトレーシング命令セットは、図３Ｃのレイトレーシングコア３７２によってサポートされるレイトレーシング命令セットと同様であってよく、または、異なってよい。

図１８Ｂは、実行ユニット１８０８の例示的な内部の詳細を示す。グラフィック実行ユニット１８０８は、命令フェッチユニット１８３７、汎用レジスタファイルアレイ（ＧＲＦ）１８２４、アーキテクチャレジスタファイルアレイ（ＡＲＦ）１８２６、スレッドアービタ１８２２、送信ユニット１８３０、分岐ユニット１８３２、ＳＩＭＤ浮動小数点ユニット（ＦＰＵ）のセット１８３４、および随意で専用の整数ＳＩＭＤＡＬＵのセット１８３５を含んでよい。ＧＲＦ１８２４およびＡＲＦ１８２６は、グラフィック実行ユニット１８０８内でアクティブであってよい各同時ハードウェアスレッドと関連付けられた汎用レジスタファイルおよびアーキテクチャレジスタファイルのセットを含む。スレッド毎に、アーキテクチャの状態がＡＲＦ１８２６内で維持されてよい一方、スレッド実行中に用いられるデータは、ＧＲＦ１８２４内に格納される。各スレッドの命令ポインタを含む、各スレッドの実行状態は、ＡＲＦ１８２６内のスレッド特有のレジスタ内に保持されてよい。

グラフィック実行ユニット１８０８は、同時マルチスレッディング（ＳＭＴ）および細粒度のインタリーブ型マルチスレッディング（ＩＭＴ）の組み合わせのアーキテクチャを有してよい。アーキテクチャは、目標の同時スレッドの数および実行ユニット毎のレジスタの数に基づいて、設計時に微調整され得るモジュール構成を有してよく、そこでは、実行ユニットのリソースが複数の同時スレッドを実行するために用いられるロジックに分割される。グラフィック実行ユニット１８０８によって実行可能なロジカルスレッドの数は、ハードウェアスレッドの数に限定はされず、複数のロジカルスレッドが各ハードウェアスレッドに割り当てられてよい。

随意で、グラフィック実行ユニット１８０８は、それぞれが異なる命令であり得る複数の命令を共同発行できる。グラフィック実行ユニットスレッド１８０８のスレッドアービタ１８２２は、実行のために送信ユニット１８３０、分岐ユニット１８３２またはＳＩＭＤＦＰＵ１８３４のうちの１つに命令をディスパッチすることができる。各実行スレッドは、ＧＲＦ１８２４内の１２８個の汎用レジスタにアクセスしてよく、ここで、各レジスタは、３２ビットデータ要素のＳＩＭＤ８要素ベクトルとしてアクセス可能な３２バイトを格納できる。各実行ユニットスレッドは、ＧＲＦ１８２４内の４Ｋバイトにアクセスできてよいが、実施形態はこのようには限定されず、他の実施形態においては、より多いまたはより少ない数のレジスタリソースが提供されてよい。グラフィック実行ユニット１８０８は、計算処理を独立して実行できる７個のハードウェアスレッドにパーティショニングされてよいが、実行ユニット毎のスレッド数は、実施形態により変わってもよく、例えば、最大１６個のハードウェアスレッドがサポートされてよい。７個のスレッドが４Ｋバイトにアクセスしてよい例示的な実施形態においては、ＧＲＦ１８２４は、合計２８Ｋバイトを格納してよい。１６個のスレッドが４Ｋバイトにアクセスし得る別の例示的な実施形態においては、ＧＲＦ１８２４は合計６４Ｋバイトを格納してよい。しかしながら、実行ユニット毎のスレッド数は、これらの例に限定はされず、特定数よりも多いまたは少なくてよい。柔軟なアドレス指定モードにより複数のレジスタが一緒にアドレス指定されることを可能にし、効果的により幅広いレジスタを構築する、または、ストライド矩形ブロックデータ構造を表わす。

追加的にまたは代替的に、メモリ処理、サンプラ処理および他のより長いレイテンシのシステム通信が、メッセージパッシング送信ユニット１８３０により実行される"送信"命令を介してディスパッチされてよい。分岐命令は、ＳＩＭＤ分岐および最終的な収束を促進するための専用分岐ユニット１８３２にディスパッチされてよい。

グラフィック実行ユニット１８０８は、浮動小数点処理を実行する１または複数のＳＩＭＤ浮動小数点ユニット（ＦＰＵ）１８３４を含んでよい。ＦＰＵ１８３４はまた、整数計算もサポートしてよい。いくつかの例において、ＦＰＵ１８３４は、最大Ｍ個の３２ビット浮動小数点（または整数）処理をＳＩＭＤ実行でき、あるいは、最大２Ｍ個の１６ビット整数または１６ビット浮動小数点処理をＳＩＭＤ実行できる。随意で、ＦＰＵのうちの少なくとも１つは、ハイスループットで卓越した数学関数および倍精度の１８４ビット浮動小数点をサポートする拡張数学機能を提供する。８ビット整数ＳＩＭＤＡＬＵ１８３５のセットも存在してよく、具体的には、機械学習計算に関連付けられる処理を実行するように最適化されてよい。

随意で、グラフィック実行ユニット１８０８の複数のインスタンスのアレイは、グラフィックサブコアグループ（例えば、サブスライス）にインスタンス化されてよい。スケーラビリティについては、製品の設計者は、サブコアグループ毎に実行ユニットの正確な数を選択してよい。実行ユニット１８０８は、複数の実行チャネルにわたり命令を実行してよい。また、グラフィック実行ユニット１８０８上で実行される各スレッドは、異なるチャネル上で実行されてよい。

図１９は、さらなる例示的案実行ユニット１９００を示す。本明細書の任意の他の図面の要素と同一または類似の名称を有する図１９の要素は、他の図面における同一の要素を説明しており、本明細書の他の箇所における説明と同様、それと同様に動作または機能してよく、同一のコンポーネントを備えてよく、他のエンティティにリンクされてよいが、そのように限定はされない。実行ユニット１９００は、例えば、図１６Ｃにあるような計算エンジンタイル１６４０Ａ～１６４０Ｄでの使用のための計算に最適化された実行ユニットであってよいが、これに限定はされない。実行ユニット１９００はまた、図１６Ｂにあるようなグラフィックエンジンタイル１６１０Ａ～１６１０Ｄで用いられてもよい。実行ユニット１９００は、スレッド制御ユニット１９０１、スレッドの状態ユニット１９０２、命令フェッチ／プリフェッチユニット１９０３および命令デコードユニット１９０４を含んでよい。追加的に、実行ユニット１９００は、実行ユニット内のハードウェアスレッドに割り当てられ得るレジスタを格納するレジスタファイル１９０６を含んでよい。追加的に、実行ユニット１９００は、送信ユニット１９０７および分岐ユニット１９０８を含んでよい。送信ユニット１９０７および分岐ユニット１９０８は、図１８Ｂのグラフィック実行ユニット１８０８の送信ユニット１８３０および分岐ユニット１８３２と同様に動作してよい。

実行ユニット１９００はまた、複数の異なるタイプの機能ユニットを含む計算ユニット１９１０も含んでよい。計算ユニット１９１０は、算術論理ユニットのアレイを含むＡＬＵユニット１９１１をまた含んでよい。ＡＬＵユニット１９１１は、６４ビット、３２ビット、および１６ビット整数および浮動小数点処理を実行するように構成され得る。整数および浮動小数点処理は、同時に実行され得る。計算ユニット１９１０は、シストリックアレイ１９１２、および数学ユニット１９１３もまた含み得る。シストリックアレイ１９１２は、シストリック方式でベクトルまたは他のデータ並列処理を実行するように用いられ得るデータ処理ユニットの、Ｗの広さおよびＤの深さのネットワークを含む。シストリックアレイ１９１２は、行列ドット積算処理などの、行列処理を実行するように構成され得る。シストリックアレイ１９１２は、１６ビットの浮動小数点処理並びに８ビット、および４ビットの整数処理をサポートしてよい。シストリックアレイ１９１２は、機械学習処理を加速化させるよう構成されてよい。シストリックアレイ１９１２は、ｂｆｌｏａｔ１６の１６ビット浮動小数点フォーマットのためのサポートで構成され得る。数学ユニット１９１３は、ＡＬＵユニット１９１１よりも、効率的且つ低電力方式で数学処理の具体的なサブセットを実行するよう構成されてよい。数学ユニット１９１３は、説明された他の実施形態により提供されるグラフィック処理エンジンの共有機能ロジックに見出される数学ロジック、例えば、図１７の共有機能ロジック１７２０の数学ロジック１７２２を含んでよい。数学ユニット１９１３は、３２ビットおよび６４ビットの浮動小数点処理を実行するよう構成されてよい。

スレッド制御ユニット１９０１は、実行ユニット内のスレッドの実行を制御するためのロジックを含む。スレッド制御ユニット１９０１は、実行ユニット１９００内のスレッドの実行を開始、停止およびプリエンプトするためのスレッドアービトレーションロジックを含んでよい。スレッドの状態ユニット１９０２を用いて、実行ユニット１９００上で実行するように割り当てられたスレッドのスレッドの状態を格納してよい。実行ユニット１９００内のスレッドの状態を格納することで、これらのスレッドがブロックまたはアイドルになったとき、これらのスレッドの迅速なプリエンプトを可能にする。命令フェッチ／プリフェッチユニット１９０３は、より高レベルの実行ロジック（例えば、図１８Ａにあるような命令キャッシュ１８０６）の命令キャッシュから命令をフェッチしてよい。命令フェッチ／プリフェッチユニット１９０３はまた、現在実行中のスレッドの解析に基づき、命令キャッシュにロードされるべき命令のためのプリフェッチ要求を発行してよい。命令デコードユニット１９０４を用いて、計算ユニットにより実行されるべき命令をデコードしてよい。命令デコードユニット１９０４は、複合命令を構成マイクロ処理にデコードするための二次デコーダとして用いられてよい。

追加的に、実行ユニット１９００は、実行ユニット１９００上で実行されるハードウェアスレッドにより用いられてよいレジスタファイル１９０６を含む。レジスタファイル１９０６内のレジスタは、実行ユニット１９００の計算ユニット１９１０内で複数の同時スレッドを実行するために用いられるロジックにわたり分割されてよい。グラフィック実行ユニット１９００によって実行可能なロジカルスレッドの数は、ハードウェアスレッドの数に限定はされず、複数のロジカルスレッドが各ハードウェアスレッドに割り当てられてよい。レジスタファイル１９０６のサイズは、サポートされるハードウェアスレッドの数に基づき、実施形態により変わってよい。レジスタリネーミングを用いて、レジスタをハードウェアスレッドに動的に割り当ててよい。

図２０は、グラフィックプロセッサ命令フォーマット２０００を示すブロック図である。グラフィックプロセッサ実行ユニットは、複数のフォーマットの命令を有する命令セットをサポートする。実線のボックスは、実行ユニット命令に一般的に含まれるコンポーネントを示す一方、破線は随意でありり、または、命令のサブセットにのみ含まれるコンポーネントを含む。説明および図示されたグラフィックプロセッサ命令フォーマット２０００は、命令が処理された時点の命令デコードから得られたマイクロ処理とは対照的に、実行ユニットに供給される命令であるという点で、マクロ命令である。

本明細書で説明するようにグラフィックプロセッサ実行ユニットは、１２８ビットの命令フォーマット２０１０の命令をネイティブサポートしてよい。選択された命令、命令オプションおよびオペランド数に基づき、６４ビットの圧縮命令フォーマット２０３０が、いくつかの命令に利用可能である。ネイティブの１２８ビットの命令フォーマット２０１０はすべての命令オプションへのアクセスを提供する一方、いくつかのオプションおよび処理は、６４ビットフォーマット２０３０に制約される。６４ビットフォーマット２０３０で利用可能なネイティブ命令は、実施形態により変わる。インデックスフィールド２０１３内のインデックス値のセットを部分的に用いて、命令は圧縮される。実行ユニットハードウェアは、インデックス値に基づき、圧縮テーブルのセットを参照し、圧縮テーブルの出力を用いて、１２８ビットの命令フォーマット２０１０のネイティブ命令を再構築する。他のサイズおよびフォーマットの命令も使用可能である。

各フォーマットについて、命令オペコード２０１２は、実行ユニットが実行すべき処理を定義する。実行ユニットは、各オペランドの複数のデータ要素に並行して各命令を実行する。例えば、追加の命令に応答して、実行ユニットは、テクスチャ要素ま又はピクチャ要素を表わす各カラーチャネルにわたって追加の処理を同時に実行する。既定で、実行ユニットは、オペランドのすべてのデータチャネルにわたって各命令を実行する。命令制御フィールド２０１４は、チャネル選択（例えば、予測）およびデータチャネルオーダ（例えば、スウィズル）等の特定の実行オプションに対する制御を可能にしてよい。１２８ビットの命令フォーマット２０１０の命令については、実行サイズフィールド２０１６は、並列に実行されるデータチャネルの数を制限する。実行サイズフィールド２０１６は、６４ビットのコンパクトな命令フォーマット２０３０での使用に対しては利用可能ではない可能性がある。

いくつかの実行ユニット命令は、２つのソースオペランドｓｒｃ０２０２０、ｓｒｃ１２０２２、および１つのデスティネーション２０１８を含む、最大３つのオペランドを有する。実行ユニットは、デュアルデスティネーション命令をサポートしてよく、この場合、デスティネーションのうちの１つが暗示される。データ操作命令は、第３のソースオペランド（例えば、ＳＲＣ２２０２４）を有することができ、この場合、命令オペコード２０１２が、ソースオペランドの数を判定する。命令の最後のソースオペランドは、命令と共に渡される（例えば、ハードコードされた）即値であってよい。

１２８ビットの命令フォーマット２０１０は、例えば、直接レジスタアドレス指定モードまたは間接レジスタアドレス指定モードが用いられるかどうかを特定するアクセス／アドレスモードフィールド２０２６を含んでよい。直接レジスタアドレス指定モードが用いられる場合、１または複数のオペランドのレジスタアドレスは、命令内のビットにより直接提供される。

１２８ビットの命令フォーマット２０１０はまた、アクセス／アドレスモードフィールド２０２６も含んでよく、アクセス／アドレスモードフィールド２０２６が命令のアドレスモードおよび／またはアクセスモードを指定する。アクセスモードは、命令のデータアクセスアライメントを定義するために用いられてよい。１６バイトアライン型のアクセスモードおよび１バイトアライン型のアクセスモードを含むアクセスモードをサポートしてよく、この場合、アクセスモードのバイトアライメントが命令オペランドのアクセスアライメントを決定する。例えば、第１モードの場合、命令はソースオペランドおよびデスティネーションオペランドに、バイトアライン型のアドレス指定を使用してよく、第２モードの場合、命令はすべてのソースオペランドおよびデスティネーションオペランドに対して１６バイトアライン型のアドレス指定を使用してよい。

アクセス／アドレスモードフィールド２０２６のアドレスモード部分は、命令が直接アドレス指定あるいは間接アドレス指定のいずれを使用するかを決定してよい。直接レジスタアドレス指定モードが用いられる場合、命令内のビットが１または複数のオペランドのレジスタアドレスを直接提供する。間接レジスタアドレス指定モードが用いられる場合、１または複数のオペランドのレジスタアドレスは、命令内のアドレスレジスタ値およびアドレス即値フィールドに基づいて計算されてよい。

命令は、オペコードデコード２０４０を単純化するべく、オペコード２０１２ビットフィールドに基づいてグループ化されてよい。８ビットオペコードについては、ビット４、５および６は、実行ユニットがオペコードのタイプを判定することを可能にする。示された正確なオペコードグループ化は、一例に過ぎない。移動およびロジックオペコードグループ２０４２は、データ移動およびロジック命令（例えば、移動（ｍｏｖ）、比較（ｃｍｐ））を含んでよい。移動およびロジックグループ２０４２は、５つの最上位ビット（ＭＳＢ）を共有してよく、ここで、移動（ｍｏｖ）命令は００００ｘｘｘｘｂの形式であり、ロジック命令は０００１ｘｘｘｘｂの形式である。フロー制御命令グループ２０４４（例えば、呼び出し、ジャンプ（ｊｍｐ））は、００１０ｘｘｘｘｂ（例えば、０ｘ２０）の形式の命令を含む。各種命令グループ２０４６は、命令の混在を含み、００１１ｘｘｘｘｂ（例えば、０ｘ３０）の形式の同期命令（例えば、待機、送信）を含む。並列数学命令グループ２０４８は、０１００ｘｘｘｘｂ（例えば、０ｘ４０）の形式のコンポーネントに関する算術命令（例えば、加算、乗算（ｍｕｌ））を含む。並列数学グループ２０４８は、データチャネルに並行して算術処理を実行する。ベクトル数学グループ２０５０は、０１０１ｘｘｘｘｂ（例えば、０ｘ５０）の形式の算術命令（例えば、ｄｐ４）を含む。ベクトル数学グループは、ベクトルオペランドに対するドット積計算等の算術を実行する。一実施形態において、示されたオペコードデコード２０４０を用いて、実行ユニットのどの部分が、デコードされた命令の実行に用いられるかを判定してよい。例えば、いくつかの命令は、シストリックアレイによって実行されるシストリック命令として指定されてよい。レイトレーシング命令（不図示）等の他の命令は、実行ロジックのスライスまたはパーティショニング内のレイトレーシングコアまたはレイトレーシングロジックにルーティングされてよい。「グラフィックパイプライン」

図２１は、別の実施形態による、グラフィックプロセッサ２１００のブロック図である。本明細書の任意の他の図面の要素と同一または類似の名称を有する図２１の要素は、他の図面における同一の要素を説明しており、本明細書の他の箇所の説明と同様、それと同様の態様で動作または機能してよく、同一のコンポーネントを備えてよく、他のエンティティにリンクされてよいが、そのように限定はされない。

グラフィックプロセッサ２１００は、ジオメトリパイプライン２１２０、メディアパイプライン２１３０、ディスプレイエンジン２１４０、スレッド実行ロジック２１５０およびレンダリング出力パイプライン２１７０等の異なるタイプのグラフィック処理パイプラインを含んでよい。グラフィックプロセッサ２１００は、１または複数の汎用プロセッシングコアを含むマルチコア処理システム内のグラフィックプロセッサであってよい。グラフィックプロセッサは、１または複数の制御レジスタ（不図示）へのレジスタへの書き込みにより、または、リング相互接続２１０２を介してグラフィックプロセッサ２１００に発行されたコマンドを介して制御されてよい。リング相互接続２１０２は、グラフィックプロセッサ２１００を、他のグラフィックプロセッサまたは汎用プロセッサ等の他の処理コンポーネントに結合してよい。リング相互接続２１０２からのコマンドがコマンドストリーマ２１０３により解釈され、コマンドストリーマ２１０３は、命令をジオメトリパイプライン２１２０またはメディアパイプライン２１３０の個々のコンポーネントに供給する。

コマンドストリーマ２１０３は、メモリから頂点データを読み取る頂点フェッチャ２１０５の処理を命令してよく、コマンドストリーマ２１０３により提供される頂点処理コマンドを実行する。頂点フェッチャ２１０５は、頂点データを頂点シェーダ２１０７に提供してよく、頂点シェーダ２１０７は、各頂点に座標空間変換およびライティング（ｌｉｇｈｔｉｎｇ）処理を実行する。頂点フェッチャ２１０５および頂点シェーダ２１０７は、スレッドディスパッチャ２１３１を介して実行スレッドを実行ユニット２１５２Ａ～２１５２Ｂにディスパッチすることにより、頂点処理命令を実行してよい。

実行ユニット２１５２Ａ～２１５２Ｂは、グラフィック処理およびメディア処理を実行するための命令セットを有するベクトルプロセッサのアレイであってよい。実行ユニット２１５２Ａ～２１５２Ｂは、それぞれのアレイに固有である、または、アレイ間で共有される付属のＬ１キャッシュ２１５１を有してよい。キャッシュは、データキャッシュ、命令キャッシュ、または、異なるパーティショニングにデータおよび命令を含むようにパーティショニングされたシングルキャッシュとして構成されてよい。

ジオメトリパイプライン２１２０は、３Ｄオブジェクトのハードウェア加速化テッセレーションを実行するテッセレーションコンポーネントを含んでよい。プログラム可能なハルシェーダ２１１１は、テッセレーション処理を構成してよい。プログラム可能ドメインシェーダ２１１７は、テッセレーション出力のバックエンド評価を提供してよい。テッセレータ２１１３は、ハルシェーダ２１１１の指示で動作してよく、入力としてジオメトリパイプライン２１２０に提供される粗いジオメトリックモデルに基づいて、詳細なジオメトリックオブジェクトのセットを生成する特定用途用ロジックを含んでよい。また、テッセレーションが用いられない場合、テッセレーションコンポーネント（例えば、ハルシェーダ２１１１、テッセレータ２１１３およびドメインシェーダ２１１７）はバイパスされてよい。

完全なジオメトリックオブジェクトは、実行ユニット２１５２Ａ～２１５２Ｂにディスパッチされる１または複数のスレッドを介してジオメトリシェーダ２１１９により処理されてよく、またはクリッパ２１２９に直接進んでもよい。ジオメトリシェーダは、グラフィックパイプラインの前のステージにあるような頂点または頂点のパッチではなく、むしろジオメトリックオブジェクト全体に対し処理してよい。テッセレーションが無効化されている場合、ジオメトリシェーダ２１１９は、頂点シェーダ２１０７から入力を受信する。ジオメトリシェーダ２１１９は、テッセレーションユニットが無効化されている場合に、ジオメトリテッセレーションを実行するために、ジオメトリシェーダプログラムによりプログラム可能であってよい。

ラスタライズの前に、クリッパ２１２９は頂点データを処理する。クリッパ２１２９は、固定機能クリッパまたはクリッピングおよびジオメトリシェーダ機能を有するプログラム可能なクリッパであってよい。レンダリング出力パイプライン２１７０内のラスタライザおよびデプス試験コンポーネント２１７３は、ジオメトリックオブジェクトを画素毎の表現へと変換するために、画素シェーダをディスパッチしてよい。画素シェーダロジックは、スレッド実行ロジック２１５０に含まれてよい。随意で、アプリケーションは、ラスタライザおよびデプス試験コンポーネント２１７３をバイパスし、ストリームアウトユニット２１２３を介して、ラスタライズされていない頂点データにアクセスしてよい。

グラフィックプロセッサ２１００は、相互接続バス、相互接続ファブリック、または、プロセッサの主要なコンポーネント間でのデータおよびメッセージの受け渡しを可能にするいくつかの他の相互接続メカニズムを有する。いくつかの実施形態において、実行ユニット２１５２Ａ～２１５２Ｂおよび関連するロジックユニット（例えば、Ｌ１キャッシュ２１５１、サンプラ２１５４、テクスチャキャッシュ２１５８等）は、メモリアクセスを実行して、プロセッサのレンダリング出力パイプラインコンポーネントと通信するために、データポート２１５６を介して相互接続する。サンプラ２１５４、キャッシュ２１５１、２１５８および実行ユニット２１５２Ａ～２１５２Ｂはそれぞれ、別個のメモリアクセスパスを有してよい。随意で、テクスチャキャッシュ２１５８はまた、サンプラキャッシュとしても構成され得る。

レンダリング出力パイプライン２１７０は、頂点ベースのオブジェクトを関連する画素ベースの表現へと変換するラスタライザおよびデプス試験コンポーネント２１７３を含んでよい。ラスタライザロジックは、固定機能三角形および線ラスタライズを実行するウィンドウア（ｗｉｎｄｏｗｅｒ）／マスカ（ｍａｓｋｅｒ）ユニットを含んでよい。いくつかの実施形態において、関連するレンダリングキャッシュ２１７８およびデプスキャッシュ２１７９も利用可能である。画素処理コンポーネント２１７７は、データに対して画素ベースの処理を実行するが、いくつかの例では、２Ｄ処理に関連付けられる画素処理（例えば、ブレンディングを用いたビットブロックイメージ転送）が２Ｄエンジン２１４１により実行される、または、オーバレイディスプレイプレーンを用いてディスプレイコントローラ２１４３により表示時に置き換えられる。共有のＬ３キャッシュ２１７５は、すべてのグラフィックコンポーネントに利用可能であってよく、メインシステムメモリを使用することなく、データの共有を可能にする。

グラフィックプロセッサのメディアパイプライン２１３０は、メディアエンジン２１３７およびビデオフロントエンド２１３４を含んでよい。ビデオフロントエンド２１３４は、コマンドストリーマ２１０３からパイプラインコマンドを受信してよい。メディアパイプライン２１３０は別個のコマンドストリーマを含んでよい。ビデオフロントエンド２１３４は、コマンドをメディアエンジン２１３７に送信する前に、メディアコマンドを処理してよい。メディアエンジン２１３７は、スレッドディスパッチャ２１３１を介してスレッド実行ロジック２１５０にディスパッチするためのスレッドを生成するためのスレッド生成機能を含んでよい。

グラフィックプロセッサ２１００はディスプレイエンジン２１４０を含んでよい。このディスプレイエンジン２１４０は、プロセッサ２１００の外部にあってよく、リング相互接続２１０２またはいくつかの他の相互接続バス若しくはファブリックを介してグラフィックプロセッサと結合してよい。ディスプレイエンジン２１４０は、２Ｄエンジン２１４１およびディスプレイコントローラ２１４３を含んでよい。ディスプレイエンジン２１４０は、３Ｄパイプラインから独立して動作可能な特定用途ロジックを含んでよい。ディスプレイコントローラ２１４３は、ディスプレイデバイス（不図示）に結合されてよく、ディスプレイデバイスは、ラップトップコンピュータにあるようなシステム統合型ディスプレイデバイス、または、ディスプレイデバイスコネクタを介して取り付けられる外部ディスプレイデバイスであってよい。

ジオメトリパイプライン２１２０およびメディアパイプライン２１３０は、複数のグラフィックおよびメディアプログラミングインタフェースに基づいて処理を実行するように構成可能であってよく、いずれかのアプリケーションプログラミングインタフェース（ＡＰＩ）に固有のものではない。グラフィックプロセッサ用のドライバソフトウェアは、グラフィックプロセッサにより処理され得るコマンドに、特定のグラフィックまたはメディアライブラリに固有のＡＰＩ呼び出しを変換してよい。オープングラフィックライブラリ（ＯｐｅｎＧＬ）、オープンコンピューティング言語（ＯｐｅｎＣＬ）、および／または、ＶｕｌｋａｎグラフィックおよびコンピュートＡＰＩに対し、すべてＫｈｒｏｎｏｓグループからサポートが提供されてよい。マイクロソフトコーポレーションのＤｉｒｅｃｔ３Ｄライブラリに対してもサポートが提供され得る。これらのライブラリも組み合わせもサポートされてよい。オープンソースコンピュータビジョンライブラリ（ＯｐｅｎＣＶ）へのサポートも提供されてよい。３Ｄパイプラインとの互換性を有する将来のＡＰＩはまた、将来のＡＰＩのパイプラインからグラフィックプロセッサのパイプラインへとマッピングが行われることができる場合にサポートされるだろう。「グラフィックパイプラインプログラミング」

図２２Ａは、例えば、本明細書で図１６Ａ、１７、２１と共に説明されたパイプライン等のグラフィック処理パイプラインをプログラミングするために用いられる、グラフィックプロセッサコマンドフォーマット２２００を示すブロック図である。図２２Ｂは、一実施形態による、グラフィックプロセッサコマンドシーケンス２２１０を示すブロック図である。図２２Ａの実線のボックスは、概してグラフィックコマンドに含まれるコンポーネントを示す一方、破線は随意であり、または、グラフィックコマンドのサブセットにのみ含まれるコンポーネントを含む。図２２Ａの例示的なグラフィックプロセッサコマンドフォーマット２２００は、クライアント２２０２、コマンド処理コード（オペコード）２２０４およびコマンド用のデータ２２０６を識別するデータフィールドを含む。サブオペコード２２０５およびコマンドサイズ２２０８もいくつかのコマンド内に含まれる。

クライアント２２０２は、コマンドデータを処理するグラフィックデバイスのクライアントユニットを指定してよい。グラフィックプロセッサコマンドパーサは、各コマンドのクライアントフィールドを検査して、コマンドのさらなる処理を条件付けてよく、適切なクライアントユニットにコマンドデータをルーティングする。グラフィックプロセッサクライアントユニットは、メモリインタフェースユニット、レンダリングユニット、２Ｄユニット、３Ｄユニットおよびメディアユニットを含んでよい。各クライアントユニットは、コマンドを処理するための対応するプロセッシングパイプラインを有してよい。コマンドがクライアントユニットにより受信されると、クライアントユニットは、オペコード２２０４、および、存在する場合にはサブオペコード２２０５を読み取って、実行する処理を決定する。クライアントユニットは、データフィールド２２０６内の情報を用いてコマンドを実行する。いくつかのコマンドについては、明示的なコマンドサイズ２２０８は、コマンドのサイズを指定することが予期される。コマンドパーサは、コマンドオペコードに基づいて、コマンドの少なくともいくつかのサイズを自動的に決定してよい。コマンドは、ダブルワードの倍数を用いてアラインされてよい。他のコマンドフォーマットも用いられてよい。

図２２Ｂ中のフロー図は、例示的なグラフィックプロセッサコマンドシーケンス２２１０を示す。例示的なグラフィックプロセッサを特徴付けるデータ処理システムのソフトウェアまたはファームウェアは、グラフィック処理のセットを設定、実行および終了するための図示されたコマンドシーケンスのバージョンを用いてよい。サンプルコマンドシーケンスが、例示の目的のみで示され、説明されるが、これらの特定のコマンドまたはこのコマンドシーケンスに限定されることはない。さらに、当該コマンドは、コマンドシーケンスにおけるコマンドのバッチとして発行されてよく、その結果、グラフィックプロセッサが少なくとも部分的にコヒーレンスな状態でコマンドのシーケンスを処理する。

グラフィックプロセッサコマンドシーケンス２２１０は、任意のアクティブなグラフィックパイプラインにパイプラインに対する現在保留中のコマンドを完了させるパイプラインフラッシュコマンド２２１２から始めてよい。随意で、３Ｄパイプライン２２２２およびメディアパイプライン２２２４は同時に動作しなくてよい。パイプラインフラッシュは、アクティブなグラフィックパイプラインに任意の保留中のコマンドを完了させるために実行される。パイプラインフラッシュに応答して、グラフィックプロセッサに対するコマンドパーサは、アクティブな描画エンジンが保留中の処理を完了し、かつ、関連する読み取りキャッシュが無効にされるまで、コマンド処理を一時停止する。随意で、「ダーティ（ｄｉｒｔｙ）」とマーキングされたレンダリングキャッシュ内の任意のデータがメモリに対してフラッシュされ得る。パイプラインフラッシュコマンド２２１２は、パイプライン同期中に、または、グラフィックプロセッサを低電力状態にする前に用いられ得る。

パイプライン選択コマンド２２１３は、パイプライン間で明示的に切り替えるために、コマンドシーケンスがグラフィックプロセッサを必要とする場合に用いられてよい。パイプライン選択コマンド２２１３は、コンテキストが両方のパイプラインにコマンドを発行しない限り、パイプラインコマンドを発行する前に、実行コンテキスト内で一度のみ必要とされてよい。パイプラインフラッシュコマンド２２１２は、パイプライン選択コマンド２２１３を介したパイプライン切り替えの直前に必要とされてよい。

パイプライン制御コマンド２２１４は、処理のためにグラフィックパイプラインを構成してよく、パイプライン制御コマンド２２１４を用いて、３Ｄパイプライン２２２２およびメディアパイプライン２２２４をプログラムしてよい。パイプライン制御コマンド２２１４は、アクティブなパイプラインのパイプライン状態を構成してよい。パイプライン制御コマンド２２１４は、パイプライン同期中に用いられてよい、または、コマンドのバッチを処理する前に、アクティブなパイプライン内の１または複数のキャッシュメモリからのデータをクリアするために用いられてよい。

戻りバッファ状態コマンド２２１６は、データを書き込むために各パイプラインに対する戻りバッファのセットを構成するために用いられてよい。いくつかのパイプライン処理は、処理が処理中に中間データを書き込む１または複数の戻りバッファの割り当て、選択又は構成を必要とする。グラフィックプロセッサはまた、出力データを格納し、かつ、クロススレッド通信を実行するために１または複数の戻りバッファを用いてよい。戻りバッファ状態２２１６は、パイプライン処理のセットを用いるために、戻りバッファのサイズおよび数を選択することを含んでよい。

コマンドシーケンスにおける残りのコマンドは、処理用のアクティブなパイプラインに基づいて異なる。パイプライン決定２２２０に基づいて、コマンドシーケンスは、３Ｄパイプライン状態２２３０から始まる３Ｄパイプライン２２２２またはメディアパイプライン状態２２４０で始まるメディアパイプライン２２２４に合わせる。

３Ｄパイプライン状態２２３０を構成するコマンドは、頂点バッファ状態、頂点要素状態、一定のカラー状態、デプスバッファ状態、および、３Ｄプリミティブコマンドが処理される前に構成されるべき他の状態変数に対する３Ｄ状態設定コマンドを含む。これらのコマンドの値は、使用中の特定の３ＤＡＰＩに基づいて少なくとも部分的に決定される。３Ｄパイプライン状態２２３０のコマンドは、これらの要素が用いられない場合、特定のパイプライン要素を選択的に無効にするまたはバイパスすることもできてよい。

３Ｄプリミティブ２２３２コマンドは、３Ｄパイプラインにより処理されるべき３Ｄプリミティブを提示するために用いられてよい。３Ｄプリミティブ２２３２コマンドを介してグラフィックプロセッサに渡されるコマンドおよび関連するパラメータは、グラフィックパイプライン内の頂点フェッチ機能に転送される。頂点フェッチ機能は、頂点データ構造を生成するための３Ｄプリミティブ２２３２コマンドデータを用いる。頂点データ構造は、１または複数の戻りバッファ内に格納される。３Ｄプリミティブ２２３２コマンドを用いて、頂点シェーダを介して３Ｄプリミティブに頂点処理を実行してよい。頂点シェーダを処理するために、３Ｄパイプライン２２２２は、シェーダ実行スレッドをグラフィックプロセッサ実行ユニットにディスパッチする。

３Ｄパイプライン２２２２は、実行２２３４コマンドまたはイベントを介してトリガされてよい。レジスタはコマンド実行を書き込みトリガしてよい。実行は、コマンドシーケンス内の"ｇｏ"、"ｋｉｃｋ"コマンドを介してトリガされてよい。コマンド実行は、グラフィックパイプライン中のコマンドシーケンスをフラッシュするためのパイプライン同期コマンドを用いてトリガされてよい。３Ｄパイプラインは、３Ｄプリミティブのためのジオメトリ処理を実行する。一度処理が完了すると、結果として生じるジオメトリックオブジェクトがラスタライズされ、画素エンジンは、結果として生じる画素に色をつける。画素シェーディングおよび画素バックエンド処理を制御する追加のコマンドがこれらの処理のために含まれてもよい。

グラフィックプロセッサコマンドシーケンス２２１０は、メディア処理を実行する場合、メディアパイプライン２２２４のパスに従ってよい。一般的には、メディアパイプライン２２２４に対するプログラミングについての特定の使用および方式は、実行されるメディアまたは計算処理に依存する。特定のメディアデコード処理は、メディアデコード中に、メディアパイプラインにオフロードされてよい。メディアパイプラインはバイパスされることもでき、メディアデコードは、１または複数の汎用プロセッシングコアにより提供されるリソースを全体的にまたは部分的に用いて実行され得る。メディアパイプラインはまた、汎用グラフィックプロセッサユニット（ＧＰＧＰＵ）処理用の要素を含も含んでよく、グラフィックプロセッサは、グラフィックプリミティブのレンダリングに明示的には関連していない計算シェーダプログラムを用いてＳＩＭＤベクトル処理を実行するために用いられる。

メディアパイプライン２２２４は、３Ｄパイプライン２２２２と同様の方式で構成されてよい。メディアパイプライン状態２２４０を構成するためののコマンドのセットは、コマンドキューにメディアオブジェクトコマンド２２４２の前にディスパッチされ、または配置される。メディアパイプラインの状態２２４０のためのコマンドは、メディアオブジェクトを処理するために用いられるメディアパイプライン要素を構成するためのデータを含んでよい。これは、メディアパイプライン内のビデオデコードおよびビデオエンコードロジックを構成するデータ、例えば、エンコードまたはデコードフォーマットを含む。メディアパイプライン状態２２４０に対するコマンドはまた、状態設定のバッチを含む「間接」状態要素に対する１または複数のポインタの使用もサポートしてよい。

メディアオブジェクトコマンド２２４２は、メディアパイプラインによる処理のためのメディアオブジェクトにポインタを供給してよい。メディアオブジェクトは、処理されるべきビデオデータを含むメモリバッファを含む。随意で、すべてのメディアパイプラインの状態は、メディアオブジェクトコマンド２２４２を発行する前に有効である必要がある。一度パイプライン状態が構成され、メディアオブジェクトコマンド２２４２がキューに入れられると、メディアパイプライン２２２４は、実行コマンド２２４４または同等の実行イベント（例えば、レジスタ書き込み）によりトリガされる。次に、メディアパイプライン２２２４からの出力は、３Ｄパイプライン２２２２またはメディアパイプライン２２２４により提供される処理により後処理されてよい。ＧＰＧＰＵ処理が構成されてよく、メディア処理と同様の方式で実行されてよい。「グラフィックソフトウェアアーキテクチャ」

図２３は、データ処理システム２３００のための例示的なグラフィックソフトウェアアーキテクチャを示す。かかるソフトウェアアーキテクチャは、３Ｄグラフィックアプリケーション２３１０、オペレーティングシステム２３２０および少なくとも１つのプロセッサ２３３０を含んでよい。プロセッサ２３３０は、グラフィックプロセッサ２３３２、および１または複数の汎用プロセッサコア２３３４を含んでよい。プロセッサ２３３０は、プロセッサ１４０２または本明細書で説明された任意の他のプロセッサの変形例であってよい。プロセッサ２３３０は、プロセッサ１４０２または本明細書で説明された任意の他のプロセッサの代わりに用いられてよい。従って、プロセッサ１４０２または本明細書で説明された任意の他のプロセッサとの組み合わせにおける任意の特徴の開示内容はまた、グラフィックプロセッサ２３３０との対応する組み合わせも開示しているが、そのように限定されることはない。さらに、本明細書の任意の他の図面の要素を同一または同様の名称を有する図２３の要素は、他の図面の同一の要素を説明しており、本明細書の他の箇所の説明と同様、それと同様に動作または機能してよく、同一のコンポーネントを備えてよく、他のエンティティにリンクされてよいが、そのように限定されることはない。グラフィックアプリケーション２３１０およびオペレーティングシステム２３２０はそれぞれ、データ処理システムのシステムメモリ２３５０内で実行される。

３Ｄグラフィックアプリケーション２３１０は、シェーダ命令２３１２を含む、１または複数のシェーダプログラムを含んでよい。シェーダ言語命令は、例えば、Ｄｉｒｅｃｔ３Ｄの高レベルシェーダ言語（ＨＬＳＬ）またはＯｐｅｎＧＬシェーダ言語（ＧＬＳＬ）等におけるものであってよい。アプリケーションはまた、汎用プロセッサコア２３３４により実行するのに好適な機械言語による実行可能命令２３１４も含んでよい。アプリケーションはまた、頂点データにより定義されるグラフィックオブジェクト２３１６も含んでよい。

いくつかの実施形態において、オペレーティングシステム２３２０は、マイクロソフトコーポレーションのマイクロソフト（登録商標）Ｗｉｎｄｏｗｓ（登録商標）オペレーティングシステム、プロプライエタリＵＮＩＸ（登録商標）様式のオペレーティングシステム、または、Ｌｉｎｕｘ（登録商標）カーネルの変形例を用いたオープンソースＵＮＩＸ（登録商標）様式のオペレーティングシステムであってよい。オペレーティングシステム２３２０は、Ｄｉｒｅｃｔ３ＤＡＰＩ、ＯｐｅｎＧＬＡＰＩまたはＶｕｌｋａｎＡＰＩ等のグラフィックＡＰＩ２３２２をサポートすることができる。Ｄｉｒｅｃｔ３ＤＡＰＩが用いられる場合、オペレーティングシステム２３２０は、フロントエンドシェーダコンパイラ２３２４を用いて、ＨＬＳＬにおける任意のシェーダ命令２３１２を下位レベルのシェーダ言語へとコンパイルする。コンパイルは、ジャストインタイム（ＪＩＴ）コンパイルであってよい、または、アプリケーションは、シェーダプリコンパイルを実行できる。高水準シェーダは、３Ｄグラフィックアプリケーション２３１０のコンパイル中により低水準のシェーダへとコンパイルされてよい。シェーダ命令２３１２は、ＶｕｌｋａｎＡＰＩにより用いられるスタンダードポータブルインターメディエイトレプリゼンテーション（ＳＰＩＲ）のバージョン等の中間形態で提供されてよい。

ユーザモードグラフィックドライバ２３２６は、シェーダ命令２３１２をハードウェア特定表現に変換するためのバックエンドシェーダコンパイラ２３２７を含んでよい。ＯｐｅｎＧＬＡＰＩが用いられる場合、ＧＬＳＬ高水準言語におけるシェーダ命令２３１２は、コンパイルのためにユーザモードグラフィックドライバ２３２６に渡される。ユーザモードグラフィックドライバ２３２６は、オペレーティングシステムカーネルモード機能２３２８を用いて、カーネルモードグラフィックドライバ２３２９と通信してよい。カーネルモードグラフィックドライバ２３２９は、グラフィックプロセッサ２３３２と通信して、コマンドおよび命令をディスパッチしてよい。「ＩＰコア実装」

１または複数の態様は、プロセッサ等の集積回路内のロジックを表わすおよび／または定義する機械可読媒体に格納される代表的なコードにより実装され得る。例えば、機械可読媒体は、プロセッサ内の様々なロジックを表す命令を含んでよい。マシンにより読み取られると、命令は、マシンに、本明細書において説明される技術を実行するロジックを組み立てさせてよい。「ＩＰコア」として知られるそのような表現は、集積回路の構造を説明するハードウェアモデルとして有形の機械可読媒体に格納され得る集積回路用のロジックの再利用可能なユニットである。ハードウェアモデルは、集積回路を製造する製造機械上に当該ハードウェアモデルをロードする様々な顧客または製造施設に供給されてよい。集積回路は、本明細書において説明される実施形態のうちのいずれかと関連して説明された処理を回路が実行するように製造されてよい。

図２４Ａは、一実施形態による、処理を実行する集積回路を製造するために用いられ得るＩＰコア開発システム２４００を示すブロック図である。ＩＰコア開発システム２４００は、より大きな設計へと組み込まれ得るモジュール式の再利用可能な設計を生成するために用いられてよい、または、集積回路（例えば、ＳｏＣ集積回路）全体を構築するために用いられてよい。設計施設２４３０は、高水準プログラミング言語（例えば、Ｃ／Ｃ＋＋）におけるＩＰコア設計のソフトウェアシミュレーション２４１０を生成できる。ソフトウェアシミュレーション２４１０は、シミュレーションモデル２４１２を用いてＩＰコアの挙動を設計、試験および検証するために用いられ得る。シミュレーションモデル２４１２は、機能、挙動および／またはタイミングシミュレーションを含んでよい。その後、レジスタ転送レベル（ＲＴＬ）設計２４１５が作成され、またはシミュレーションモデル２４１２から合成されてよい。ＲＴＬ設計２４１５は、ハードウェアレジスタ間のデジタル信号のフローをモデル化する集積回路の挙動を抽出し、モデル化されたデジタル信号を用いて実行される関連するロジックを含む。ＲＴＬ設計２４１５に加えて、論理レベルまたはトランジスタレベルにおける下位レベルの設計が作成、設計または合成されてもよい。故に、最初の設計およびシミュレーションの特定の詳細は異なってよい。

ＲＴＬ設計２４１５またはこれと同等のものは、ハードウェアモデル２４２０へと設計機能によりさらに合成されてよく、ハードウェアモデル２４２０は、ハードウェア記述言語（ＨＤＬ）または物理的な設計データのいくつか他の表現であってよい。ＨＤＬは、ＩＰコア設計を検証するためにさらにシミュレーションまたは試験されてよい。ＩＰコア設計は、サードパーティの製造施設２４６５へ供給するために、不揮発性メモリ２４４０（例えば、ハードディスク、フラッシュメモリまたは任意の不揮発性ストレージ媒体）を用いて格納されてよい。代替的に、ＩＰコア設計は、有線接続２４５０または無線接続２４６０を通して伝送（例えば、インターネット経由）されてよい。その後、製造施設２４６５は、ＩＰコア設計に少なくとも部分的に基づく集積回路を製造してよい。製造された集積回路は、本明細書で説明される少なくとも１つの実施形態に従って処理を実行するように構成され得る。

図２４Ｂは、集積回路パッケージアセンブリ２４７０の垂直断面図を示す。集積回路パッケージアセンブリ２４７０は、ここで説明する１または複数のプロセッサまたはアクセラレータデバイスの実装を示す。パッケージアセンブリ２４７０は、基板２４８０に接続されたハードウェアロジック２４７２、２４７４の複数のユニットを含む。ロジック２４７２、２４７４は、構成可能なロジックまたは固定機能ロジックハードウェアにおいて少なくとも部分的に実装されてよく、本明細書において説明されるプロセッサコア、グラフィックプロセッサまたは他のアクセラレータデバイスのいずれかの１または複数の部分を含み得る。ロジック２４７２、２４７４の各々ユニットは、半導体ダイ内で実装され、相互接続構造２４７３を介して基板２４８０に結合されてよい。相互接続構造２４７３は、ロジック２４７２、２４７４と基板２４８０との間で電気信号をルーティングするように構成されてよく、限定されることはないが、バンプまたはピラー等の相互接続を含み得る。相互接続構造２４７３は、例えば、ロジック２４７２、２４７４の処理に関連付けられる入力／出力（Ｉ／Ｏ）信号、および／または、電力または地上信号等の電気信号をルーティングするように構成されてよい。随意で、基板２４８０はエポキシベースのラミネート基板であってよい。基板２４８０はまた、他の好適なタイプの基板を含んでもよい。パッケージアセンブリ２４７０は、パッケージ相互接続２４８３を介して他の電気デバイスに接続されてよい。パッケージ相互接続２４８３は、基板２４８０の表面に結合されて、電気信号を、マザーボード、他のチップセットまたはマルチチップモジュール等の他の電気デバイスにルーティングしてよい。

ロジック２４７２、２４７４のユニットは、ロジック２４７２、２４７４間で電気信号をルーティングするよう構成されたブリッジ２４８２に電気的に結合されてよい。ブリッジ２４８２は、電気信号のルーティングを提供する高密度相互接続構造であってよい。ブリッジ２４８２は、ガラスまたは適切な半導体材料から構成されるブリッジ基板を含んでよい。電気的ルーティング機能は、ロジック２４７２、２４７４間のチップ間接続を提供するブリッジ基板上に形成され得る。

ロジック２４７２、２４７４の２つのユニットおよびブリッジ２４８２が示されているが、本明細書において説明される実施形態では、より多いまたはより少ない数のロジックユニットを１または複数のダイ上に含んでよい。単一のダイ上にロジックが含まれる場合はブリッジ２４８２が除外されてよいので、１または複数のダイは、ゼロまたはそれより多いブリッジにより接続されてよい。代替的に、ロジックの複数のダイまたはユニットが１または複数のブリッジにより接続されてよい。追加的に、複数のロジックユニット、ダイおよびブリッジは、３次元構成を含む他の可能な構成において一緒に接続されてよい。

図２４Ｃは、基板２４８０（例えば、ベースのダイ）に接続されたハードウェアロジックチップセットの複数のユニットを含むパッケージアセンブリ２４９０を示す。本明細書で説明するグラフィック処理ユニット、並列プロセッサおよび／または計算アクセラレータは、別個に製造される多様なシリコンチップレットで構成されてよい。この文脈では、チップレットは、他のチップレットと共により大きなパッケージにアセンブルされてよいロジックの別個のユニットを含む、少なくとも部分的なパッケージ統合された回路である。異なるＩＰコアロジックを持つ多様なセットのチップレットが、単一のデバイスにアセンブルされてよい。追加的に、チップレットは、アクティブインタポーザ技術を用いて、ベースのダイまたはベースのチップレットに統合されてよい。本明細書で説明される概念は、ＧＰＵ内のＩＰの異なる形態間での相互接続および通信を可能にする。ＩＰコアは、異なるプロセス技術を用いて製造されてよく、製造中に構成されてよい。これにより、とりわけいくつかのフレーバＩＰを持つ大型のＳｏＣ上の複数のＩＰを、同一の製造プロセスに収束させる複雑さを回避する。複数のプロセス技術を使用できるようにすることで、市場への出荷までの時間を短縮させ、複数のプロダクトＳＫＵを作成するコスト効率的な方法を提供する。さらに、分割されたＩＰは、独立した電力ゲートを設けることにより適しており、所与のワークロードにおいて用いられないコンポーネントは、電源をオフにされることができ、全体の電力消費を減らし得る。

ハードウェアロジックチップセットは、専用ハードウェアロジックチップレット２４７２、ロジックまたはＩ／Ｏチップレット２４７４および／またはメモリチップレット２４７５を含んでよい。ハードウェアロジックチップセット２４７２およびロジックまたはＩ／Ｏチップレット２４７４は、構成可能なロジックまたは固定機能ロジックハードウェアにおいて少なくとも部分的に実装されてよく、本明細書において説明されるプロセッサコア、グラフィックプロセッサ、並列プロセッサまたは他のアクセラレータデバイスのいずれかの１または複数の部分を含み得る。メモリチップレット２４７５は、ＤＲＡＭ（例えば、ＧＤＤＲ、ＨＢＭ）メモリまたはキャッシュ（ＳＲＡＭ）メモリであり得る。

各チップレットは、別個の半導体ダイとして製造され、相互接続構造２４７３を介して基板２４８０と結合され得る。相互接続構造２４７３は、基板２４８０内の様々なチップレットおよびロジック間で電気信号をルーティングするよう構成されてよい。相互接続構造２４７３は、バンプまたはピラー等の相互接続を含んでよいが、これらに限定はされない。いくつかの実施形態において、相互接続構造２４７３は、例えば、ロジック、Ｉ／Ｏおよびメモリチップレットの動作に関連付けられる入力／出力（Ｉ／Ｏ）信号、および／または、電力信号または地上信号などの電気信号をルーティングするように構成されてよい。

基板２４８０はエポキシベースのラミネート基板であってよいが、そのように限定されることはなく、基板２４８０はまた、他の好適なタイプの基板も含んでよい。パッケージアセンブリ２４９０は、パッケージ相互接続２４８３を介して、他の電気デバイスに接続されてよい。パッケージ相互接続２４８３は、基板２４８０の表面に結合されて、電気信号を、マザーボード、他のチップセットまたはマルチチップモジュール等の他の電気デバイスにルーティングしてよい。

ロジックまたはＩ／Ｏチップレット２４７４およびメモリチップレット２４７５は、ロジックまたはＩ／Ｏチップレット２４７４およびメモリチップレット２４７５間で電気信号をルーティングするよう構成されたブリッジ２４８７を介して電気的に結合されてよい。ブリッジ２４８７は、電気信号のルーティングを提供する高密度相互接続構造であってよい。ブリッジ２４８７は、ガラスまたは適切な半導体材料から構成されるブリッジ基板を含んでよい。電気的ルーティング機能は、ロジックまたはＩ／Ｏチップレット２４７４およびメモリチップレット２４７５間のチップ間接続を提供するブリッジ基板上に形成され得る。ブリッジ２４８７は、シリコンブリッジまたは相互接続ブリッジとも称されてよい。例えば、ブリッジ２４８７は、埋め込みマルチダイ相互接続ブリッジ（ＥＭＩＢ）である。代替的に、ブリッジ２４８７は、単に、１つのチップレットから別のチップレットへの直接接続であってよい。

基板２４８０は、Ｉ／Ｏ２４９１、キャッシュメモリ２４９２、および他のハードウェアロジック２４９３に関するハードウェアコンポーネントを含み得る。ファブリック２４８５は、基板２４８０内の様々なロジックチップレットおよびロジック２４９１、２４９３の間の通信を可能するように、基板２４８０に埋め込まれ得る。随意で、Ｉ／Ｏ２４９１、ファブリック２４８５、キャッシュ、ブリッジ、および他のハードウェアロジック２４９３は、基板２４８０の頂部に層状となるベースダイに統合され得る。

さらに、パッケージアセンブリ２４９０は、ファブリック２４８５または１または複数のブリッジ２４８７により相互接続されたコンポーネントまたはチップレットより少ない数または、より多い数のコンポーネントまたはチップレットをまた含んでよい。パッケージアセンブリ２４９０内のチップレットは、３Ｄまたは２．５Ｄ配置で配置され得る。一般的には、ブリッジ構造２４８７は、例えば、ロジックまたはＩ／Ｏチップレットとメモリチップレットとの間でポイントツーポイント相互接続を促すように用いられ得る。ファブリック２４８５は、様々なロジックおよび／またはＩ／Ｏチップレット（例えば、チップレット２４７２、２４７４、２４９１、２４９３）を他のロジックおよび／またはＩ／Ｏチップレットと相互接続するために使用され得る。基板内のキャッシュメモリ２４９２は、パッケージアセンブリ２４９０のためのグローバルキャッシュ、分散されたグローバルキャッシュの一部、またはファブリック２４８５のための専用のキャッシュとして作用し得る。

図２４Ｄは、一実施形態による置き換え可能なチップレット２４９５を含むパッケージアセンブリ２４９４を示す。置き換え可能なチップレット２４９５は、１または複数のベースのチップレット２４９６、２４９８上の標準スロットにアセンブルされてよい。ベースのチップレット２４９６、２４９８は、ブリッジ相互接続２４９７を介して結合されてよく、これは本明細書で説明される他のブリッジ相互接続と同様であってよく、例えば、ＥＭＩＢであってよい。メモリチップレットはまた、ブリッジ相互接続を介してロジックまたはＩ／Ｏチップレットに接続されてもよい。Ｉ／Ｏおよびロジックチップレットは相互接続ファブリックを介して通信してよい。ベースのチップレットはそれぞれ、ロジックまたはＩ／Ｏメモリキャッシュのうちの１つのための標準フォーマットの１または複数のスロットをサポートしてよい。

ＳＲＡＭおよび電力供給回路は、ベースのチップレット２４９６、２４９８のうちの１または複数の内部に製造されてよく、これは、ベースのチップレットの上にスタックされる置き換え可能なチップレット２４９５とは異なるプロセス技術を用いて製造されてよい。例えば、ベースのチップレット２４９６、２４９８は、より大型プロセス技術を用いて製造されてよい一方、置き換え可能なチップレットは、より小型のプロセス技術を用いて製造されてよい。置き換え可能なチップレット２４９５の１または複数は、メモリ（例えば、ＤＲＡＭ）チップレットであってよい。パッケージアセンブリ２４９４を用いるプロダクトをターゲットとする電力および／または性能に基づき、パッケージアセンブリ２４９４のための異なるメモリ密度が選択されてよい。追加的に、異なる数の機能ユニットタイプを持つロジックチップレットが、ターゲットのプロダクトの電力および／または性能に基づきアセンブリ時に選択されてよい。追加的に、異るタイプのＩＰロジックコアを含むチップレットが、置き換え可能なチップレットスロットに挿入されてよく、異なる技術のＩＰブロックを混在可能で、異なる技術のＩＰブロックに合致できるハイブリッドプロセッサ設計を可能にする。「チップ集積回路上の例示的なシステム」

図２５～２６は、１または複数のＩＰコアを用いて製造されてよい例示の集積回路および関連するグラフィックプロセッサを示す。図示されるものに加えて、他のロジックおよび回路が含まれてよく、これらは、追加のグラフィックプロセッサ／コア、周辺機器インタフェースコントローラまたは汎用プロセッサコアを含む。本明細書における任意の他の図面の要素と同一または類似の名称を有する図２５～２６の要素は、他の図面にある同一の要素について説明しており、本明細書における他の箇所での説明と同様に、それと同様に処理または機能してよく、同一のコンポーネントを備えてよく、他のエンティティにリンクされてよいが、そのように限定されることはない。

図２５は、１または複数のＩＰコアを用いて製造され得るチップ集積回路２５００上の例示的なシステムを示すブロック図である。例示的な集積回路２５００は、１または複数のアプリケーションプロセッサ２５０５（例えば、ＣＰＵ）、少なくとも１つのグラフィックプロセッサ２５１０を含み、少なくとも１つのグラフィックプロセッサは、グラフィックプロセッサ１４０８、１５０８、２５１０あるいは本明細書で説明された任意のグラフィックプロセッサの変形例であってよく、本明細書で説明された任意のグラフィックプロセッサの代わりに用いられてよい。従って、本明細書におけるグラフィックプロセッサとの組み合わせにおける任意の特徴の開示内容はまた、グラフィックプロセッサ２５１０との対応する組み合わせも開示しているが、そのように限定はされない。集積回路２５００は、イメージプロセッサ２５１５および／またはビデオプロセッサ２５２０をさらに含んでよく、これらのいずれかは、同じまたは複数の異なる設計施設からのモジュール式のＩＰコアであってよい。集積回路２５００は、ＵＳＢコントローラ２５２５、ＵＡＲＴコントローラ２５３０、ＳＰＩ／ＳＤＩＯコントローラ２５３５およびＩ^２Ｓ／Ｉ^２Ｃコントローラ２５４０を含む周辺機器またはバスロジックを含んでよい。追加的に、集積回路は、高解像度マルチメディアインタフェース（ＨＤＭＩ（登録商標））コントローラ２５５０およびモバイルインダストリプロセッサインタフェース（ＭＩＰＩ）ディスプレイインタフェース２５５５のうちの１または複数に結合されたディスプレイデバイス２５４５を含んでよい。ストレージは、フラッシュメモリおよびフラッシュメモリコントローラを含むフラッシュメモリサブシステム２５６０によって提供されてよい。メモリインタフェースは、ＳＤＲＡＭまたはＳＲＡＭメモリデバイスへのアクセスのためにメモリコントローラ２５６５を介して提供されてよい。いくつかの集積回路は追加で、埋め込みセキュリティエンジン２５７０を含んでよい。

図２６Ａ～２６Ｂは、本明細書で説明する実施形態により、ＳｏＣ内で用いるための例示的なグラフィックプロセッサを示すブロック図である。グラフィックプロセッサは、グラフィックプロセッサ１４０８、１５０８、２５１０または本明細書で説明した任意の他のグラフィックプロセッサの変形例であってよい。グラフィックプロセッサは、グラフィックプロセッサ１４０８、１５０８、２５１０または本明細書で説明した任意の他のグラフィックプロセッサの代わりに用いられてよい。従って、グラフィックプロセッサ１４０８、１５０８、２５１０または本明細書で説明した任意の他のグラフィックプロセッサとの組み合わせにおける任意の特徴の開示内容は、図２６Ａ～図２６Ｂのグラフィックプロセッサとの対応する組み合わせについても開示しているが、そのように限定はされない。図２６Ａは、一実施形態による、１または複数のＩＰコアを用いて製造され得るチップ集積回路上のシステムの例示的なグラフィックプロセッサ２６１０を示す。図２６Ｂは、一実施形態による、１または複数のＩＰコアを用いて製造されてよいチップ集積回路上のシステムの追加の例示的なグラフィックプロセッサ２６４０を示す。図２６Ａのグラフィックプロセッサ２６１０は、低パワーグラフィックプロセッサコアの例である。図２６Ｂのグラフィックプロセッサ２６４０はより高性能のグラフィックプロセッサコアの例である。例えば、グラフィックプロセッサ２６１０および２６４０の各々は、この段落の冒頭で言及した通り、図２５のグラフィックプロセッサ２５１０の変形例であってよい。

図２６Ａに示される通り、グラフィックプロセッサ２６１０は、頂点プロセッサ２６０５および１または複数のフラグメントプロセッサ２６１５Ａ～２６１５Ｎ（例えば、２６１５Ａ、２６１５Ｂ、２６１５Ｃ、２６１５Ｄ、２６１５Ｎ‐１および２６１５Ｎまで）を含む。グラフィックプロセッサ２６１０は、別個のロジックを介して異なるシェーダプログラムを実行でき、頂点プロセッサ２６０５は、頂点シェーダプログラムに対する処理を実行するために最適化され、一方、１または複数のフラグメントプロセッサ２６１５Ａ～２６１５Ｎは、フラグメントまたは画素シェーダプログラムに対するフラグメント（例えば、画素）シェーディング処理を実行してよい。頂点プロセッサ２６０５は、３Ｄグラフィックパイプラインの頂点処理ステージを実行し、プリミティブおよび頂点データを生成する。フラグメントプロセッサ２６１５Ａ～２６１５Ｎは、頂点プロセッサ２６０５により生成されたプリミティブおよび頂点データを用いて、ディスプレイデバイス上に表示されるフレームバッファを生成する。フラグメントプロセッサ２６１５Ａ～２６１５Ｎは、ＯｐｅｎＧＬＡＰＩに提供されるようなフラグメントシェーダプログラムを実行するために最適化されてよく、ダイレクト３ＤＡＰＩにおいて提供されるような画素シェーダプログラムと同様の処理を実行するために用いられてよい。

追加的にグラフィックプロセッサ２６１０は、１または複数のメモリ管理ユニット（ＭＭＵ）２６２０Ａ～２６２０Ｂ、キャッシュ２６２５Ａ～２６２５Ｂおよび回路相互接続２６３０Ａ～２６３０Ｂをさらに含む。１または複数のＭＭＵ２６２０Ａ～２６２０Ｂは、頂点プロセッサ２６０５および／またはフラグメントプロセッサ２６１５Ａ～２６１５Ｎを含むグラフィックプロセッサ２６１０に対する仮想－物理アドレスマッピングを提供し、１または複数のキャッシュ２６２５Ａ～２６２５Ｂに格納される頂点またはイメージ／テクスチャデータに加えて、メモリに格納される参照頂点またはイメージ／テクスチャデータであってよい。各プロセッサ２５０５～２５２０が共有または一体化された仮想メモリシステムに参加できるように、１または複数のＭＭＵ２６２０Ａ～２６２０Ｂは、図２５の１または複数のアプリケーションプロセッサ２５０５、イメージプロセッサ２５１５および／またはビデオプロセッサ２５２０と関連付けられた１または複数のＭＭＵを含む、システム内の他のＭＭＵと同期されてよい。グラフィックプロセッサ２６１０のコンポーネントは、本明細書で説明された他のグラフィックプロセッサのコンポーネントに対応してよい。１または複数のＭＭＵ２６２０Ａ～２６２０Ｂは、図２ＣのＭＭＵ２４５と対応してよい。頂点プロセッサ２６０５およびフラグメントプロセッサ２６１５Ａ～２６１５Ｎは、グラフィックマルチプロセッサ２３４と対応してよい。１または複数の回路相互接続２６３０Ａ～２６３０Ｂは、実施形態に従い、グラフィックプロセッサ２６１０がＳｏＣの内部バスを介してまたは直接接続を介して、ＳｏＣ内の他のＩＰコアとインタフェースを取ることを可能にする。１または複数の回路相互接続２６３０Ａ～２６３０Ｂは、図２Ｃのデータクロスバー２４０に対応してよい。グラフィックプロセッサ２６１０の類似のコンポーネントと、本明細書で説明される様々なグラフィックプロセッサアーキテクチャとの間のさらなる対応関係が見出されてよい。

図２６Ｂに示されるように、グラフィックプロセッサ２６４０は、図２６Ａのグラフィックプロセッサ２６１０の１または複数のＭＭＵ２６２０Ａ～２６２０Ｂ、キャッシュ２６２５Ａ～２６２５Ｂおよび回路相互接続２６３０Ａ～２６３０Ｂを含む。グラフィックプロセッサ２６４０は、１または複数のシェーダコア２６５５Ａ～２６５５Ｎ（例えば、２６５５Ａ、２６５５Ｂ、２６５５Ｃ、２６５５Ｄ、２６５５Ｅ、２６５５Ｆから２６５５Ｎ－１および２６５５Ｎ）を含み、シェーダコアは統合されたシェーダコアアーキテクチャを提供し、そこでは、単一のコアまたはタイプまたはコアが、頂点シェーダ、フラグメントシェーダおよび／または計算シェーダを実装するシェーダプログラムコードを含むあらゆるタイプのプログラム可能なシェーダコードを実行できる。提示する正確な数のシェーダコアは、実施形態および実装間で変化し得る。さらに、グラフィックプロセッサ２６４０は、コア間タスクマネージャ２６４５を含み、コア間タスクマネージャは、１または複数のシェーダコア２６５５Ａ～－２６５５Ｎに実行スレッドをディスパッチするスレッドディスパッチャ、および、タイルベースのレンダリングに対するタイル化処理を加速化させるタイル化ユニット２６５８としての機能を果たし、タイル化ユニットでは、例えば、シーン内の局所空間のコヒーレンスを活用するために、または、内部キャッシュの利用を最適化するために、シーンに対するレンダリング処理がイメージ空間に細分化される。シェーダコア２６５５Ａ～２６５５Ｎは、例えば、図２Ｄにあるようなグラフィックマルチプロセッサ２３４、または、図３Ａおよび３Ｂのグラフィックマルチプロセッサ３２５、３５０のそれぞれ、あるいは、図３Ｃのマルチコアグループ３６５Ａに対応してよい。
［データ圧縮管理］

グラフィック処理デバイス（例えば、ＧＰＵ）は、グラフィック処理デバイスのメモリに格納されるデータ、またはグラフィック処理デバイスと通信可能に結合されるデータに対して、圧縮技術を実装するための処理を呼び出すことができる。いくつかの例では、処理は、グラフィック処理デバイス上の処理リソースによって実行される命令セットアーキテクチャ（ＩＳＡ）の１または複数の命令によって呼び出される。本明細書で使用されるように、「処理リソース」という語句は、ＧＰＵにおける、例えば、処理ユニット、処理エンジン、実行リソース、実行ユニット（ＥＵ）５０８Ａ－Ｎ、５０９Ａ－Ｎ、６００、８５２Ａ－Ｂ、ストリームプロセッサ、ストリーミングマルチプロセッサ（ＳＭ）、グラフィックマルチプロセッサ１９２５、１９５０、マルチコアグループ１９６５Ａ－１９６５Ｎ、コンピュートユニット（グラフィックコアネクストのコンピュートユニット）、を指すと解釈されるものとする。他の例では、処理は、図３Ｃに示されるメモリコントローラ３６７、図７に示されるメモリコントローラ７１２Ａ～７１２Ｂ、または図１５に示されるメモリコントローラ１５１４のうちの１または複数など、グラフィック処理デバイスのメモリコントローラ上の処理リソースによって実装されてもよい。

ここでは、様々な異なる圧縮管理技術について説明する。いくつかの例では、例えば、複数のスレッドが共通の圧縮メモリを共有して実行する場合や、テンソルハードウェアが圧縮メモリを読み出しおよび／または書き込みする場合、レイトレーシングハードウェアが圧縮メモリを読み出しおよび／または書き込みする場合など、技術はグラフィック処理環境での利用が考えられる。
［命令ベースの圧縮］

いくつかの例では、データ圧縮命令は、グラフィック処理デバイスの処理要素および／またはメモリコントローラによって実行され、グラフィック処理デバイスのメモリに格納されたデータを圧縮することができる。命令に応答して、メモリの値を分析し、閾値を超える長さを持つメモリ内の同一な値のシーケンスを見つけることができる。シーケンスが配置された場合、メモリ内のシーケンスは、単一の値と、シーケンス内の値の数を識別する関連するメタデータタグで置き換えられ、これによりメモリに保存されるデータが圧縮される。圧縮データは、メモリから読み出され、またはアクセスされるときに、逆の処理を実行する、すなわち、単一のデータ値を、メタデータタグで識別される長さを持つ一連のデータ値に展開することで、圧縮解除されることがある。

図２７は、実施形態による、圧縮技術を実装する方法における処理を示すフローチャートである。いくつかの例では、図２７に示される処理は、圧縮命令に応答して、上述したように、グラフィック処理ユニットのメモリコントローラによって実装されてもよい。図２７を参照すると、処理２７１０で、メモリ値が分析される。いくつかの例では、メモリは、処理リソースに通信可能に結合されたキャッシュメモリ、またはグラフィック処理デバイスに通信可能に結合されたリモートメモリのうちの１または複数を含んでいてもよい。

処理２７１５では、閾値よりも大きい長さを有する同一メモリ値のシーケンスが配置されているかどうかが判断される。いくつかの例では、閾値は、例えば、グラフィック処理デバイスのユーザによって設定される静的な値であってもよい。閾値は、グラフィック処理デバイス上で実行されるアプリケーションまたはアプリケーションのクラスに固有のものであってもよい。あるいは、閾値は、メモリ内のデータの圧縮が望ましいと思われる度合いに固有のものとすることもできる。例えば、ニューラルネットワーキングモデルの大きな層のデータを小さな層よりも圧縮することや、ニューラルネットワーキングモデルの特定の種類のデータを圧縮することに大きな効用があり得る。他の例では、グラフィック処理デバイスの処理条件に応じて、閾値を動的に設定することができる。

処理２７１５において、同一メモリ値の長さのシーケンスが閾値未満である場合、２７２０に示されるように、次にシーケンスは圧縮されない。対照的に、処理２７１５において、同一メモリ値のシーケンスの長さが閾値未満でない（すなわち、閾値より大きいまたはこれと等しい）場合には、２７２５に例示されているように、次にシーケンスが圧縮される。いくつかの例では、同一データ値のシーケンスを、単一のデータ値と、シーケンスの長さを表すメタデータタグに置き換えることで、シーケンスを圧縮することができる。例えば、メモリが２５個のゼロ（０）のメモリ値のシーケンスで構成されている場合、次にそのシーケンスはゼロ（０）の単一の値と、そのシーケンスが２５個の値を持つことを示すメタデータタグで置き換えられてもよい。いくつかの例では、メタデータタグは、単一の値に隣接してメモリに格納されている場合がある。

図２８は、実施形態による、圧縮解除技術を実施する方法における処理を示すフローチャートである。いくつかの例では、図２８に示される処理は、図２７に示される処理によって生成された圧縮メモリに向けられたデータアクセス要求、例えば、読み取り要求に応答して開始されてもよい。他の例では、図２８に示される処理は、データ圧縮解除命令に応答して実施されてもよい。

図２８を参照すると、処理２８１０において、圧縮されたメモリからメモリ値が読み込まれる。処理２８１５では、処理２８１０で読み込んだメモリ値にメタデータタグが検出されたかどうかが判断される。処理２８１５において、メタデータタグが検出されない場合、２８２０に示されるように、次にメモリ値は圧縮解除されない。対照的に、処理２８１５において、メタデータタグが検出された場合、２８２５に示されるように、次にメモリ値は圧縮解除される。いくつかの例では、メタデータタグを、メタデータタグの値に対応する長さを持つ同一データ値のシーケンスで置き換えることにより、メモリ値を圧縮解除することができる。前述の例を用いると、メタデータタグの値が２５の場合、次にメタデータタグをゼロ（０）のメモリ値２５個のシーケンスで置き換えることで、データを圧縮解除することができる。処理２８２５において、圧縮解除されたメモリ値は、要求元に転送されてもよい。他の例では、圧縮データが要求元に直接伝送され、要求元がデータを圧縮解除してもよい。

図２９は、実施形態による、ビット列の圧縮および圧縮解除の模式図である。図２９に示される例では、閾値を３（３）に設定することができる。圧縮命令に応答して、生（圧縮解除）データ２９１０のメモリ値は、３つのゼロ値のシーケンスを、３（３）の値を持つメタデータタグにリンクされた単一のゼロ値に置き換えることにより、また、４つのゼロ値のシーケンスを、４（４）の値を持つメタデータタグにリンクされた単一のゼロ値に置き換えることにより、圧縮され、圧縮データセット２９２０を生成する。逆に、圧縮解除命令に応答して、圧縮データセット２９２０は、３（３）の値を有するメタデータタグにリンクされた単一のゼロ値を３つのゼロ値のシーケンスに戻して展開して、４（４）の値を有するメタデータタグにリンクされた単一のゼロ値を４つのゼロ値のシーケンスに戻して展開して圧縮解除し、生の（圧縮解除された）データセット２９３０を再作成する。
［動的なバイトサイズの最頻値圧縮］

グラフィック処理装置は、キャッシュメモリに格納されたデータに対して、様々な形式のデータ圧縮を行うことができる。いくつかの例では、圧縮ベースバイトサイズは、少なくとも部分的には、前回の圧縮処理で最も頻繁に使用された圧縮ベースサイズの値に基づいて、動的に選択されることがある。これは、１バイト、２バイト、４バイト、８バイト、１６バイトなどを含む圧縮ベースで実装することができる。圧縮ベースサイズは、圧縮データに論理的に関連付けられたメタデータに格納されていてもよい。

図３０は、実施形態による、動的バイトサイズ最頻値圧縮を実装する方法における処理を示すフローチャートであり、図３１は、実施形態による、動的バイトサイズ最頻値圧縮が実装され得るキャッシュ構造の模式図である。図３０～３１を参照すると、処理３０１０において、キャッシュラインの１２８バイトのセグメント内のデータパターンが分析され、処理３０１５において、キャッシュラインの最頻値バイトサイズが決定される。処理３０２０では、処理３０１５で決定された最頻値のバイトサイズに基づいてマスク長が選択され、処理３０２５では、マスク長がキャッシュラインに関連付けられたメタデータに格納される。処理３０３０では、処理３０１５で決定された最頻値バイトサイズが、キャッシュ内の次の１２８バイトの最頻値バイトサイズを決定するための出発点として使用される。図３０に示される処理は、キャッシュ全体で繰り返してもよいし、キャッシュの一部分だけで繰り返してもよい。図３１に示すように、結果として得られるキャッシュ３０１０は、可変の圧縮ブロックサイズ（すなわち、１Ｂ、２Ｂ、４Ｂ、８Ｂ、１６Ｂ）を用いて圧縮され、そのサイズはメタデータ３０２０によって識別される。
［類似値ベースの書き込み加速化］

いくつかの例では、グラフィック処理デバイスのメモリコントローラは、メモリに指示された書き込み処理のための類似値ベースの加速化を実行する処理を実装することができる。例えば、多くのグラフィック処理では、大きなセグメントのデータにゼロの値が含まれていることが一般的であり、このようなデータがメモリに繰り返し書き込まれることがある。いくつかの例では、メモリコントローラは、ターゲットデータのアドレス範囲にすべて類似値（例えば、すべてゼロまたはすべて１）が含まれている可能性、または信頼性レベルを示すデータを維持することで、書き込み処理を加速することができる。書き込み処理で受信した書き込みデータがすべて類似値（例えば、すべてゼロまたはすべて１）を含み、書き込み処理に関連するターゲットメモリアドレスのデータが同じ値を持つという高い信頼性レベルがある場合、次にメモリコントローラはターゲットメモリアドレスへの読み取り処理を実行し、ターゲットメモリアドレスの現在のデータが書き込み処理の書き込みデータと一致する場合、書き込み処理を取りやめてもよい。

図３２は、実施形態による、書き込み処理加速技術を実行するように構成されたメモリコントローラの模式図である。図３２を参照すると、いくつかの例では、メモリコントローラ３２００は、信頼度予測器３２１０およびアクセラレータ３２２０を含んでもよい。図３２に示される例では、信頼度予測器３２１０は、カウンタのセットを含むハッシュテーブルを維持しており、そのカウンタの各々はメモリアドレスインデックスに関連付けられている。アクセラレータ３２２０は、信頼性予測器の信頼性レベルを使用して、書き込み処理を実行しなければならないか、あるいはそれとは対照的に、書き込み処理をやめることができるかを判断する処理回路を含んでもよい。

図３３～３５は、実施形態による、書き込み処理の加速化技術を実装する方法における処理を示すフローチャートである。いくつかの例では、図３３～３５に示される処理は、メモリコントローラ３２００によって、単独で、またはグラフィック処理デバイスの他の要素と組み合わせて実装されてもよい。図３３は、信頼度予測器のハッシュテーブルを初期化する処理を示している。図３３に示される処理は、例えば、グラフィック処理デバイスの電源投入時や、メモリコントローラ３２００が管理するメモリに新たなワークロードが割り当てられたときに実行されてもよい。図３３を参照すると、処理３３１０において、メモリコントローラ３３００が管理するメモリアドレスのハッシュが計算され、処理３３１５において、メモリアドレスの信頼度カウンタがゼロに設定される。図３３に示される処理は、メモリアドレス範囲のハッシュテーブルが構築されるまで繰り返すことができる。

図３４は、メモリコントローラで読み取り処理が実施された場合に、ハッシュテーブルを更新する方法における処理を示したものである。図３４を参照すると、処理３４１０において、メモリコントローラ３３００において読み取り処理が受信され、その読み取り処理に関連するターゲットメモリアドレスからデータが取り出される。処理３４１５で、メモリから検索されたデータがすべて類似値（例えば、すべてゼロまたはすべて１）である場合、次に処理３４２０が実行され、信頼度予測器は、メモリアドレスに関連付けられたハッシュテーブルのカウンタをインクリメントする。対照的に、処理３４１５において、メモリから検索されたデータがすべて類似値（例えば、すべてのゼロまたはすべての１）でない場合、次に処理３４２０はバイパスされ、処理３４２５が実施され、読み出しデータは要求元に返される。従って、図３４に示される処理は、メモリアドレスへの読み取り処理によって、すべて類似値（例えば、すべてゼロまたはすべて１）のデータが返されるたびに、メモリアドレスに関連付けられたカウンタをインクリメントする役割を果たす。

図３５は、書き込み処理を管理する方法における処理を示したものである。図３５を参照すると、処理３５１０において、メモリコントローラ３３００に書き込み処理が受信される。処理３５１５では、書き込み処理に関連した書き込みデータがすべての類似値（例えば、すべてのゼロまたはすべての１）であるかどうかが判断される。処理３５１５で、書き込み処理に関連付けられた書き込みデータがすべての類似値（例えば、すべてのゼロまたはすべての１）でない場合、次に処理３５２０が実行され、書き込み処理で受信した書き込みデータが、書き込み処理に関連付けられたターゲットメモリアドレスに書き込まれる。対照的に、処理３５１５で、書き込み処理に関連する書き込みデータがすべて類似値（例えば、すべてゼロまたはすべて１）である場合、次に処理３５２５が実行され、信頼度予測器が呼び出されて、ハッシュテーブルを読み、ターゲットメモリアドレスのデータもまたすべて類似値（例えば、すべてゼロまたはすべて１）からなるという信頼性レベルを得る。

ある例では、メモリアドレスに関連付けられたカウンタが、信頼性レベルとして機能することがある。処理３５３０では、カウンタがプログラムされた閾値を超えているかどうかが判断される。いくつかの例では、閾値は静的で、所定の値として設定され得る。他の例では、処理条件の機能に応じて閾値を変化させることができる。例えば、グラフィックワークロードにおいて、書き込み処理がパフォーマンスを制限する要因とならないような処理環境では、閾値を大きくすることができる。逆に、グラフィックワークロードにおいて書き込み処理がパフォーマンスを制限する要因となるような処理環境では、閾値を下げることができる。

処理３５３０において、メモリアドレスに関連するカウンタがプログラムされた閾値を超えていない場合、次に処理３５２０が実行され、書き込み処理で受信した書き込みデータがメモリに書き込まれる。対照的に、処理３５３０において、メモリアドレスに関連付けられたカウンタがプログラムされた閾値以上である場合、次に処理３５３５が実施され、メモリコントローラは、書き込み処理に関連付けられたターゲットメモリアドレスに対して、（書き込み処理の代わりに）読み取り処理を行う。

処理３５４０では、処理３５３５でターゲットメモリアドレスから取り出したデータが、処理３５１０で受信した書き込み処理の書き込みデータと一致するかどうかを判断する。処理３５４０で、データが一致しない場合、次に処理３５４５が実施され、メモリアドレスに関連するカウンタがデクリメントされ、その後、処理３５２０が実施され、処理３５１０の書き込み処理で受信した書き込みデータがメモリに書き込まれる。対照的に、処理３５４０でデータが一致した場合には、次に処理３５４５が実行され、書き込み処理は不要であるため取りやめる。

別の実施形態では、ソフトウェアは、メモリページのすべてのビットが同様の値（例えば、すべてゼロまたはすべて１）に設定されているときにヒントを提供することができ、メモリコントローラは、メモリページのすべてのビットが同様の値（例えば、すべてゼロまたはすべて１）に設定されているメモリページのリストを維持することができる。メモリアクセス要求をページリストと照合し、要求のアドレスがリスト上にあれば、次にメモリコントローラは、メモリ処理を実行せずにデータ値を自動的に返すことができる。受信した書き込み処理をページのリストと照合し得、書き込みのデータがすべて類似値（例えば、すべてゼロまたはすべて１）でない場合、次にそのページはリストから削除される。
［独自のバイトストレージによるＧＰＵデータベース加速化］

いくつかの例では、グラフィック処理装置のメモリに保存された、または通信可能に結合された１または複数のデータベースは、データベースの数値コンテンツを分析し、データベース内の同一な値のシーケンスを識別し、同一な値のシーケンスを単一の値とそのシーケンス内の値の数を識別する関連するメタデータタグで置き換えることにより、圧縮される場合がある。これは、例えば、グラフィック処理環境において、数値化されたカラーデータおよび／またはテクスチャデータを圧縮するのに有効である。カラーデータおよび／またはテクスチャデータは、１または複数のデータベースにｎバイトの値として一般的に保存されており、ここでｎは２の累乗（例えば、３２、６４、１２８、２５６など）である。

図３６および図３７を参照すると、いくつかの例における処理では、データベース内のｎバイト番号（処理３６１０）を分析し、処理３６１５において、ｎバイト番号内の同一な値のシーケンスを１バイトの値として格納し、文字列の開始位置を識別するメタデータを別のデータフィールドに格納することにより、非圧縮ソースファイル３７１０を圧縮することが可能である。処理３６２０では、圧縮された値を圧縮先のファイル３７２０に保存してもよい。

本明細書で紹介する技術の例を以下に示す。技術の実施形態は、以下に説明する例のうち、任意の１または複数、および任意の組み合わせを含むことができる。

例１は、メモリセグメントに対するデータ圧縮命令を受信するプロセッサを備える装置を含み、データ圧縮命令に応答して、同一メモリ値のシーケンスが閾値を超える長さを有するという判定に応答して、同一メモリ値のシーケンスを圧縮する。

例２は、例１の主題を含み、閾値は、装置上で実行可能なアプリケーションのクラスに固有の静的な値であることを特徴とする。

例３は、例１～２のいずれかの主題を含み、閾値は、装置の処理条件に応じて動的に設定される。

例４は、例１～３のいずれかの主題を含み、プロセッサは、同一メモリ値のシーケンスを、メモリ値の単一インスタンスと、シーケンスの長さを識別するメタデータタグとに置き換えて、圧縮データシーケンスを生成する。

例５は、例１～４のいずれかの主題を含み、プロセッサは、メモリ値の単一インスタンスに隣接するメタデータタグを格納する。

例６は、例１～５のいずれかに記載の主題を含み、プロセッサは、メモリセグメントに向けられたデータ圧縮解除命令を受信し、データ圧縮解除命令に応答して、メモリ値の単一インスタンスを、メタデータタグで指定された長さに等しい長さを有する同一メモリ値のシーケンスに置換する。

例７は、例１～６のいずれかに記載の主題を含み、プロセッサは、要求元から、メモリセグメントに向けられた読み取り処理を受信し、読み取り処理に応答して、圧縮データシーケンスを要求元に伝送する。

例８は、コンピュータが実施する方法であって、メモリセグメントに対するデータ圧縮命令を受信することと、データ圧縮命令に応答して、同一メモリ値のシーケンスが閾値を超える長さを有するという判定に応答して、同一メモリ値のシーケンスを圧縮することと、を含む。

例９は、例８の主題を含み、閾値は、装置上で実行可能なアプリケーションのクラスに固有の静的な値である。

例１０は、例８～９のいずれかの主題を含み、閾値は、装置の処理条件に応じて動的に設定される。

例１１は、例８～１０のいずれかの主題を含み、さらに、同一メモリ値のシーケンスを、メモリ値の単一インスタンスと、シーケンスの長さを識別するメタデータタグとに置き換えて、圧縮データシーケンスを生成することを含む。

例１２は、例８～１１のいずれかの主題を含み、メモリ値の単一インスタンスに隣接してメタデータタグを格納することをさらに含む。

例１３は、例８～１２のいずれかの主題を含み、メモリセグメントに向けられたデータ圧縮解除命令を受信することと、データ圧縮解除命令に応答して、メモリ値の単一インスタンスを、メタデータタグで指定された長さに等しい長さを有する同一メモリ値のシーケンスに置き換えることとをさらに含む。

例１４は、例８～１３のいずれかに記載の主題を含み、要求元から、メモリセグメントに向けられた読み取り処理を受信し、読み取り処理に応答して、圧縮データシーケンスを要求元に伝送することをさらに含む。

例１５は、少なくとも１つのプロセッサ上で実行されるとき、メモリセグメントに対するデータ圧縮命令を受信し、データ圧縮命令に応答して、同一メモリ値のシーケンスが閾値を超える長さを有するという判定に応答して、同一メモリ値のシーケンスを圧縮するように、少なくとも１つのプロセッサを構成する１または複数の命令を含む非一時的コンピュータ可読媒体を含む。

例１６は、例１５の主題を含み、閾値は、装置上で実行可能なアプリケーションのクラスに固有の静的な値である。

例１７は、閾値が装置の処理条件に応じて動的に設定される、例１５～１６のいずれかに記載の主題を含む。

例１８は、例１５～１７のいずれかに記載の主題を含み、圧縮データシーケンスを生成するために、同一メモリ値のシーケンスを、メモリ値の単一インスタンスと、シーケンスの長さを識別するメタデータタグとに置き換える命令をさらに含む。

例１９は、例１５～１８のいずれかに記載の主題を含み、メモリ値の単一インスタンスに隣接してメタデータタグを格納する命令をさらに備える。

例２０は、例１５～１９のいずれかに記載の主題を含み、メモリセグメントに向けられたデータ圧縮解除命令を受信し、データ圧縮解除命令に応答して、メモリ値の単一インスタンスを、メタデータタグで指定された長さに等しい長さを有する同一メモリ値のシーケンスに置き換える命令をさらに含む。

例２１は、例１５～２０のいずれかの主題を含み、要求元から、メモリセグメントに向けられた読み取り処理を受信し、読み取り処理に応答して、圧縮データシーケンスを要求元に伝送する命令をさらに含む。

例２２は、キャッシュラインのセグメント内のデータパターンを分析し、最頻値（ＭＦＶ）バイトサイズを決定し、ＭＦＶバイトサイズに基づいてマスク長を選択し、マスク長をメタデータに格納し、ＭＦＶ値に基づいて次の圧縮の開始点を選択するプロセッサを備えた装置である。

例２３は、書き込みデータからなる書き込み処理を受信し、書き込みデータが同類の値からなるかどうかを判断し、確信度予測器を起動してハッシュテーブルを読み、メモリ内の値が書き込み値と一致するという確信度指標を得て、メモリからデータを読み出し、メモリ内の値が書き込み値と一致したときに書き込み処理を中止するプロセッサを備える装置である。

上記の詳細な説明は添付図面の参照を伴い、当該添付図面は発明を実施するための形態の一部を成す。図面には、例示として、実施され得る特定の実施形態が示されている。これらの実施形態は、本明細書において例としても呼ばれることがある。そのような例は、図示または記載された要素に追加される複数の要素を含んでよい。しかし、図示または説明された要素を含む例もまた考えられる。さらに、本明細書で示されるまたは説明される、特定の例（またはそれらの１または複数の態様）に対して、または他の例（またはそれらの１または複数の態様）に対してのどちらかで、示されるまたは説明されるこれらの要素のいくつかの組み合わせまたは置き換えを用いる複数の例（またはそれらの１または複数の態様）も考えられる。

本明細書において参照される複数の出版物、複数の特許、及び複数の特許文献は、参照により個別に組み込まれるかのように、それらの全体において個々で参照により組み込まれる。本明細書と参照により組み込まれるこれらの文献との間に一貫性がない使用がある場合、組み込まれる参照における使用は、本明細書のものへの補足であり、矛盾する不一致については、本明細書における使用が制御する。

この文書では、特許文献で一般的なように、「１つ」という用語は、任意の他の事例や用法とは無関係に、「少なくとも１つ」または「１または複数」の１または複数のものを含むために使用されており、また、「加えて」、「セットの」は１または複数の要素を含む。この文書では、特に断りのない限り、「ＡまたはＢ」には「ＡだがＢではない」、「ＢだがＡではない」、「ＡおよびＢ」が含まれるように、「または」という用語は、非排他的な「または」を指すために使用される。添付の特許請求の範囲では、「含む」および「その中で」という用語は、「有する」および「そこで」というそれぞれの用語の平易な英語での同等物として使用されている。また、以下の特許請求の範囲では、「含む」および「有する」という用語は、オープンエンドであり、すなわち、特許請求の範囲でその用語の後に列挙された要素に加えて要素を含むシステム、デバイス、物品、またはプロセスは、依然としてその特許請求の範囲に含まれるものとみなされる。さらに、以下の特許請求の範囲において、「第１」、「第２」、「第３」などの用語は、単なるラベルとして使用されるにすぎず、その対象物の数値的な順序を示唆するものではない。

本明細書において「ロジック命令」と称される用語は、１または複数の論理処理を実行する１または複数の機械によって理解され得る表現に関する。例えば、ロジック命令は、１または複数のデータオブジェクトに対し、１または複数の処理を実行するプロセッサコンパイラによって解釈可能な命令を備えてよい。しかしながら、これは、機械可読命令の例に過ぎず、複数の例は、この点で限定されるものではない。

本明細書で言う「コンピュータ可読媒体」という用語は、１または複数の機械によって理解可能な複数の表現を維持可能な媒体を指す。例えば、コンピュータ可読媒体は複数のコンピュータ可読命令またはデータを格納する、１または複数のストレージ装置を備えてよい。そのような複数のストレージ装置は、例えば、光学ストレージ媒体、磁気ストレージ媒体、または半導体ストレージ媒体等のストレージ媒体を備えてよい。しかしながら、これは、単にコンピュータ可読媒体の例であり、例は、この点で限定されるものではない。

本明細書において「ロジック」と称される用語は、１又は複数の論理処理を実行する構造に関する。例えば、ロジックは１または複数の入力信号に基づく１または複数の出力信号を提供する回路を備えてよい。そのような回路は、デジタル入力を受信し、デジタル出力を提供する有限状態機械、あるいは１または複数のアナログ入力信号に応じて１または複数のアナログ出力信号を提供する回路を備えてよい。そのような回路は、特定用途向け集積回路（ＡＳＩＣ）またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）に提供されてよい。また、ロジックはそのような複数の機械可読命令を実行するための処理回路と組み合わされたメモリ内に格納された複数の機械可読命令を備えてよい。しかしながら、これらは、ロジックを提供し得る複数の構造の例に過ぎず、これらの例は、この点で限定されるものではない。

本明細書に記載の複数の方法の一部は、コンピュータ可読媒体上の複数のロジック命令として具現化されてよい。プロセッサ上で実行されるとき、ロジック命令は、プロセッサに、説明される方法を実装する特定用途向けの機械としてプログラミングされるようにさせる。プロセッサが本明細書において説明される方法を実行するロジック命令によって構成される場合、プロセッサは、説明される方法を実行する構造を構成する。代替的に、本明細書において説明された方法は、例えば、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路（ＡＳＩＣ）等におけるロジックに縮小されてよい。

詳細な説明および特許請求の範囲において、「結合された」および「接続された」という用語がそれらの派生語とともに、使用される可能性がある。具体例において、「接続される」とは、２または２より多くの要素が、互いに対して物理的に又は電気的に直接接触することを示すために使用されてよい。「結合される」とは、２または２より多くの要素が、物理的にまたは電気的に直接接触する状態にあることを意味してよい。しかしながら、「結合される」とは、２または２より多くの要素が互いに直接接触しなくてよいが、さらに互いに協働又は相互作用し得ることもまた意味してよい。

本明細書で参照される「一例」又は「いくつかの例」という記載は、その例と関連して説明される特定の特徴、構造、又は特性が、少なくとも実装に含まれることを意味する。本明細書の様々な箇所で登場する「一例では」という語句は、全て同じ例を指してもよく、又は指さなくてもよい。

上記の説明は、例示することを意図されているのであって、限定するものではない。例えば、上述の複数の例（またはそれらの１または複数の態様）は、他との組み合わせで用いられてよい。当業者等が上記の説明を読むと、複数の他の実施形態が使用可能である。要約書は、読み手が技術的な開示の本質をすぐに確認するのを可能にする。要約書は、特許請求の範囲に関して、その範囲または意味の解釈または限定には、用いられないという理解の下、提出されている。また、上記の詳細な説明においては、開示を簡素化すべく、様々な特徴が共にグループ化されることがある。しかしながら、実施形態は本明細書で開示された上記の特徴のサブセットを特徴付けてよいので、請求項は、それらのあらゆる特徴を説明しなくてよい。さらに、実施形態は、具体例で開示されたものより少ない特徴を含んでよい。従って、下記の特許請求の範囲はここで、各請求項がそれ自身別個の実施形態として、発明を実施するための形態に組み込まれる。ここに開示された複数の実施形態の範囲は、添付の特許請求の範囲を参照して、権利を与えられるそのような特許請求の範囲の均等物の全範囲と併せて決定されるべきである。

複数の例が、複数の構造的特徴および／または方法論的作用に固有の言語で説明されたが、特許請求の範囲に記載された主題は、説明された複数の具体的な特徴又は処理に限定されなくてよいことを理解されたい。むしろ、特定の複数の特徴及び複数の動作は、特許の請求される主題を実装するサンプルの形として開示されている。

上記の説明および図面は、限定的な意味ではなく、むしろ例示的なものとしてみなされるべきである。当業者は、添付の特許請求の範囲に記載された本発明の、より広い趣旨および範囲から逸脱することなく、本明細書に説明される実施形態に様々な修正および変更が行われ得ることを理解するであろう。

Claims

メモリセグメントに対するデータ圧縮命令を受信する手順、および、
前記データ圧縮命令に応答して、同一メモリ値のシーケンスが閾値を超える長さを有するとの判断に応答して、同一メモリ値の前記シーケンスを圧縮する手順、を行うプロセッサを有する装置。
前記閾値は、前記装置上で実行可能なアプリケーションのクラスに固有の静的な値である、請求項１に記載の装置。
前記閾値は、前記装置の処理条件に応答して動的に設定される、請求項２に記載の装置。
前記プロセッサが、
同一メモリ値の前記シーケンスを、メモリ値の単一インスタンスと、前記シーケンスの長さを識別するメタデータタグとに置き換えて、圧縮データシーケンスを生成する手順を行う、請求項３に記載の装置。
前記プロセッサが、
前記メタデータタグを、前記メモリ値の前記単一インスタンスに隣接して格納する手順を行う、請求項４に記載の装置。
前記プロセッサが、
前記メモリセグメントに向けられたデータ圧縮解除命令を受信する手順、および、
前記データ圧縮解除命令に応答して、前記メモリ値の前記単一インスタンスを、前記メタデータタグで指定された長さに等しい長さを有する同一メモリ値のシーケンスに置き換える手順、を行う請求項５に記載の装置。
前記プロセッサが、
要求元から、前記メモリセグメントに向けられた読み取り処理を受信する手順、および、
前記読み取り処理に応答して、前記要求元に前記圧縮データシーケンスを伝送する手順、を行う請求項６に記載の装置。
メモリセグメントに対するデータ圧縮命令を受信する段階、および、
前記データ圧縮命令に応答して、同一メモリ値のシーケンスが閾値を超える長さを有するとの判断に応答して、同一メモリ値の前記シーケンスを圧縮する段階、を有するプロセッサが実装する方法。
前記閾値は、装置上で実行可能なアプリケーションのクラスに固有の静的な値である、請求項８に記載の方法。
前記閾値は、前記装置の処理条件に応答して動的に設定される、請求項９に記載の方法。
同一メモリ値の前記シーケンスを、メモリ値の単一インスタンスと、前記シーケンスの長さを識別するメタデータタグとに置き換えて、圧縮データシーケンスを生成する段階、をさらに有する、請求項１０に記載の方法。
前記メタデータタグを、前記メモリ値の前記単一インスタンスに隣接して格納する段階、をさらに有する、請求項１１に記載の方法。
前記メモリセグメントに向けられたデータ圧縮解除命令を受信する段階、および、
前記データ圧縮解除命令に応答して、前記メモリ値の前記単一インスタンスを、前記メタデータタグで指定された長さに等しい長さを有する同一メモリ値のシーケンスに置き換える段階、をさらに有する、請求項１２に記載の方法。
要求元から、前記メモリセグメントに向けられた読み取り処理を受信する段階、および、
前記読み取り処理に応答して、前記要求元に前記圧縮データシーケンスを伝送する段階、をさらに有する、請求項１３に記載の方法。
メモリセグメントに対するデータ圧縮命令を受信する手順、および、
前記データ圧縮命令に応答して、同一メモリ値のシーケンスが閾値を超える長さを有するとの判断に応答して、同一メモリ値の前記シーケンスを圧縮する手順、をコンピュータに実行させるプログラム。
前記閾値は、装置上で実行可能なアプリケーションのクラスに固有の静的な値である、請求項１５に記載のプログラム。
前記閾値は、前記装置の処理条件に応答して動的に設定される、請求項１６に記載のプログラム。
同一メモリ値の前記シーケンスを、メモリ値の単一インスタンスと、前記シーケンスの長さを識別するメタデータタグとに置き換えて、圧縮データシーケンスを生成する手順を実行するように構成する１または複数の命令をさらに前記コンピュータに実行させる、請求項１７に記載のプログラム。
前記メタデータタグを、前記メモリ値の前記単一インスタンスに隣接して格納する手順を実行するように構成する１または複数の命令をさらに前記コンピュータに実行させる、請求項１８に記載のプログラム。
前記メモリセグメントに向けられたデータ圧縮解除命令を受信する手順、および、
前記データ圧縮解除命令に応答して、前記メモリ値の前記単一インスタンスを、前記メタデータタグで指定された長さに等しい長さを有する同一メモリ値のシーケンスに置き換える手順、を実行するように構成する１または複数の命令をさらに前記コンピュータに実行させる、請求項１９に記載のプログラム。
要求元から、前記メモリセグメントに向けられた読み取り処理を受信する手順、および、
前記読み取り処理に応答して、前記要求元に前記圧縮データシーケンスを伝送する手順、をさらに前記コンピュータに実行させる、請求項２０に記載のプログラム。
請求項１５から２１のいずれか１項に記載のプログラムを格納した非一時的機械可読媒体。