JP2021099786A

JP2021099786A - 共有ローカルメモリをパーティショニングするメカニズム

Info

Publication number: JP2021099786A
Application number: JP2020156374A
Authority: JP
Inventors: レイジョイディープ; Ray Joydeep; ランガナタンヴァサント; Ranganathan Vasanth; アッシュボーベン; Ashbaugh Ben; ヴァレリオジェイムズ; Valerio James
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-12-23
Filing date: 2020-09-17
Publication date: 2021-07-01
Also published as: DE102020130880A1; CN113094298A; KR20210081230A; BR102020019646A2; US20210191868A1

Abstract

【課題】ローカルメモリのパーティショニングを容易にする装置が開示される。【解決手段】装置は、複数の実行スレッドを実行する複数の実行ユニットと、複数の実行ユニットの間でアクセスを共有するよう結合されたメモリと、キャッシュとして及び共有ローカルメモリ（ＳＬＭ）として使用されるようメモリをパーティショニングするパーティショニングハードウェアとを含み、パーティショニングハードウェアは、アクティブである実行ユニットで実行される複数の実行スレッドの数に基づいて、メモリをパーティショニングする。【選択図】図１５

Description

グラフィクス処理ユニット（ＧＰＵ）は、高スループットを達成するためにプログラムの数百のスレッドが並列に実行される大いにスレッド化された（highly threaded）マシンである。ＧＰＵスレッドグループは、３次元（３Ｄ）レンダリングを実行するようメッシュシェーディング（mesh shading）アプリケーションで実装される。重い計算を要するますます複雑なＧＰＵによれば、メモリバンド幅要件に対応するという課題がある。

本発明の上記の特徴が詳細に理解され得るように、先に簡潔に要約された本発明の更に具体的な説明は、いくつかが添付の図面に表されている実施形態を参照して行われ得る。なお、留意すべきは、添付の図面は、単に本発明の典型的な実施形態を表しているので、その範囲の限定と見なされるべきではなく、本発明は、他の同等の有効な実施形態を認めることができる点である。

実施形態に従う処理システムのブロック図である。本明細書で記載される実施形態によって提供されるコンピュータシステム及びグラフィクスプロセッサを表す。本明細書で記載される実施形態によって提供されるコンピュータシステム及びグラフィクスプロセッサを表す。本明細書で記載される実施形態によって提供されるコンピュータシステム及びグラフィクスプロセッサを表す。本明細書で記載される実施形態によって提供されるコンピュータシステム及びグラフィクスプロセッサを表す。実施形態によって提供される更なるグラフィクスプロセッサ及び計算アクセラレータアーキテクチャのブロック図を表す。実施形態によって提供される更なるグラフィクスプロセッサ及び計算アクセラレータアーキテクチャのブロック図を表す。実施形態によって提供される更なるグラフィクスプロセッサ及び計算アクセラレータアーキテクチャのブロック図を表す。いくつかの実施形態に従うグラフィクスプロセッサのグラフィクス処理エンジンのブロック図である。実施形態に従ってグラフィクスプロセッサで用いられる処理要素のアレイを含むスレッド実行ロジック５００を表す。実施形態に従ってグラフィクスプロセッサで用いられる処理要素のアレイを含むスレッド実行ロジック５００を表す。実施形態に従う更なる実行ユニット６００を表す。いくつかの実施形態に従うグラフィクスプロセッサ命令フォーマットを表すブロック図である。他の実施形態に従うグラフィクスプロセッサのブロック図である。いくつかの実施形態に従うグラフィクスプロセッサコマンドフォーマット及びコマンドシーケンスを表す。いくつかの実施形態に従うグラフィクスプロセッサコマンドフォーマット及びコマンドシーケンスを表す。いくつかの実施形態に従うデータ処理システムのためのグラフィクスソフトウェアアーキテクチャの例を表す。実施形態に従う集積回路パッケージアセンブリを表す。実施形態に従う集積回路パッケージアセンブリを表す。実施形態に従う集積回路パッケージアセンブリを表す。実施形態に従う集積回路パッケージアセンブリを表す。実施形態に従ってチップ集積回路上のシステムの例を表すブロック図である。更なる例となるグラフィクスプロセッサを表すブロック図である。更なる例となるグラフィクスプロセッサを表すブロック図である。コンピュータデバイスの一実施形態を表す。サブスライスの一実施形態を表す。スレッドスポーナロジックの一実施形態を表す。ＳＬＭ割り当ての実施形態を表す。ＳＬＭ割り当ての実施形態を表す。共有ローカルメモリをパーティショニングするプロセスの一実施形態を表すフロー図である。共有ローカルメモリをパーティショニングする擬似コードの一実施形態を表す。

以下の説明では、多数の具体的な詳細が、本発明のより完全な理解をもたらすために示されている。しかし、当業者に明らかなように、本発明は、それらの具体的な詳細のうちの１つ以上によらなくても実施されてよい。他の事例では、よく知られている技術は、本発明を不明りょうにしないように記載されていない。

実施形態において、共有ローカルメモリ（ＳＬＭ）は、ＳＬＭに加えてキャッシュとして動作するよう実装されてよく、そのような実施形態では、ＳＬＭは、アクティブである実行ユニットで実行される複数の実行スレッドの数に基づいてパーティショニングされてよい。

［システム概要］
図１は、実施形態に従う処理システム１００のブロック図である。システム１００は、多数のプロセッサ１０２又はプロセッサコア１０７を具備しながら、単一プロセッサデスクトップシステム、マルチプロセッサワークステーションシステム、又はサーバシステムにおいて使用されてよい。一実施形態において、システム１００は、ローカル又はワイドエリアネットワークへの有線又は無線接続を備えたインターネット・オブ・シングス（ＩｏＴ）デバイス内のように、移動体、携帯型、又は埋め込み型デバイスでの使用のためにシステム・オン・ア・チップ（ＳｏＣ）集積回路内に組み込まれた処理プラットフォームである。

一実施形態において、システム１００は、サーバベースのゲームプラットフォーム；ゲーム及びメディアコンソールを含むゲーム機；モバイルゲーム機、携帯型ゲーム機、又はオンラインゲーム機を含むか、それらと結合するか、あるいは、それらに組み込まれ得る。いくつかの実施形態において、システム１００は、携帯電話機、スマートフォン、タブレットコンピュータデバイス又はモバイルインターネット接続デバイス、例えば、低内部記憶容量のラップトップの部分である。処理システム１００はまた、スマートウォッチウェアラブルデバイスのようなウェアラブルデバイス：現実世界の視覚、音声又は触覚経験を補うよう視覚、オーディオ又は触覚出力を提供するか、あるいは、別なふうに、テキスト、オーディオ、グラフィクス、ビデオ、ホログラフィック画像若しくはビデオ、又は触覚フィードバックを提供する拡張現実（ＡＲ）又は仮想現実（ＶＲ）により増強されたスマートアイウェア又はクロージング；他の拡張現実（ＡＲ）デバイス；又は他の仮想現実（ＶＲ）デバイスを含むか、それらと結合するか、あるいは、それらに組み込まれ得る。いくつかの実施形態において、処理システム１００は、テレビ受像機又はセットトップボックスデバイスを含むか、又はその部分である。一実施形態において、システム１００は、バス、トラクタトレイラー、自動車、オートバイ若しくは電動自転車、飛行機若しくはグライダー（又はそれらの任意の組み合わせ）等の自動運転車両を含むか、それらと結合するか、あるいは、それらに組み込まれ得る。自動運転車両は、車両の周囲で検知された環境を処理するためにシステム１００を使用してよい。

いくつかの実施形態において、１つ以上のプロセッサ１０２は夫々、実行されるときにシステム又はユーザソフトウェアのための動作を実行する命令を処理するよう１つ以上のプロセッサコア１０７を含む。いくつかの実施形態において、１つ以上のプロセッサコア１０７の少なくとも１つは、特定の命令セット１０９を処理するよう構成される。いくつかの実施形態において、命令セット１０９は、複雑命令セットコンピューティング（ＣＩＳＣ）、縮小命令セットコンピューティング（ＲＩＳＣ）、又は超長命令語（ＶＬＩＷ）による計算を助け得る。１つ以上のプロセッサコア１０７は、他の命令セットのエミュレーションを助ける命令を含み得る別の命令セット１０９を処理してもよい。プロセッサコア１０７はまた、デジタル信号プロセッサ（ＤＳＰ）のような他の処理デバイスを含んでもよい。

いくつかの実施形態において、プロセッサ１０２は、キャッシュメモリ１０４を含む。アーキテクチャに応じて、プロセッサ１０２は、単一の内部キャッシュ又は複数のレベルの内部キャッシュを有することができる。いくつかの実施形態において、キャッシュメモリは、プロセッサ１０２の様々なコンポーネントの間で共有される。いくつかの実施形態において、プロセッサ１０２はまた、既知のキャッシュコヒーレンシ技術を用いてプロセッサコア１０７の間で共有され得る外部キャッシュ（例えば、レベル３（Ｌ３）キャッシュ又はラストレベルキャッシュ（ＬＬＣ））を使用する。プロセッサ１０２には更に、レジスタファイル１０６が含まれ得る。レジスタファイル１０６は、種々のタイプのデータ（例えば、整数レジスタ、浮動小数点レジスタ、ステータスレジスタ、及び命令ポインタレジスタ）を記憶する種々のタイプのレジスタを含んでよい。いくつかのレジスタは、汎用のレジスタであってよく、一方、他のレジスタは、プロセッサ１０２の設計に特有であってよい。

いくつかの実施形態において、１つ以上のプロセッサ１０２は、アドレス、データ、又は制御信号等の通信信号をプロセッサ１０２とシステム１００内の他のコンポーネントとの間で伝送するよう１つ以上のインターフェースバス１１０と結合される。インターフェースバス１１０は、一実施形態において、あるバージョンのダイレクト・メディア・インターフェース（ＤＭＩ）バスのようなプロセッサバスであることができる。しかし、プロセッサバスは、ＤＭＩバスに限られず、１つ以上のペリフェラル・コンポーネント・インターコネクトバス（例えば、ＰＣＩ、ＰＣＩエクスプレス）、メモリバス、又は他のタイプのインターフェースバスを含んでもよい。一実施形態において、プロセッサ１０２は、集積メモリコントローラ１１６及びプラットフォームコントローラハブ１３０を含む。メモリコントローラ１１６は、メモリデバイスとシステム１００の他のコンポーネントとの間の通信を助け、一方、プラットフォームコントローラハブ（ＰＣＨ）１３０は、ローカルＩ／Ｏバスを介してＩ／Ｏデバイスへの接続を提供する。

メモリデバイス１２０は、動的ランダムアクセスメモリ（ＤＲＡＭ）デバイス、静的ランダムアクセスメモリ（ＳＲＡＭ）デバイス、フラッシュメモリデバイス、相変化メモリデバイス、又はプロセスメモリとして働くよう適切な性能を備えたその他のメモリデバイスであることができる。一実施形態において、メモリデバイス１２０は、１つ以上のプロセッサ１０２がアプリケーション又はプロセスを実行するときに使用されるデータ１２２及び命令１２１を記憶するよう、システム１００のためのシステムメモリとして動作することができる。メモリコントローラ１１６はまた、任意の外部グラフィクスプロセッサ１１８と結合する。外部グラフィクスプロセッサ１１８は、グラフィクス及びメディア操作を実行するようプロセッサ１０２内の１つ以上のグラフィクスプロセッサ１０８と通信してよい。いくつかの実施形態において、グラフィクス、メディア、及び計算操作は、グラフィクス、メディア、又は計算操作の専門化された組を実行するよう構成され得るコプロセッサであるアクセラレータ１１２によって支援されてよい。例えば、一実施形態において、アクセラレータ１１２は、機械学習又は計算操作を最適化するために使用される行列乗算アクセラレータである。一実施形態において、アクセラレータ１１２は、グラフィクスプロセッサ１０８と一緒にレイトレーシング動作を実行するために使用され得るレイトレーシングアクセラレータである。一実施形態において、外部アクセラレータ１１９は、アクセラレータ１１２の代わりに、又はそれと一緒に使用されてよい。

いくつかの実施形態において、表示デバイス１１１がプロセッサ１０２へ接続することができる。表示デバイス１１１は、モバイル電子デバイス若しくはラップトップデバイスで見られるような内部表示デバイス、又は表示インターフェース（例えば、ＤｉｓｐｌａｙＰｏｒｔ等）を介して取り付けられる外部表示デバイス、のうちの１つ以上であることができる。一実施形態において、表示デバイス１１１は、仮想現実（ＶＲ）アプリケーション又は拡張現実（ＡＲ）アプリケーションで使用される立体表示デバイス等のヘッドマウントディスプレイ（ＨＭＤ）であることができる。

いくつかの実施形態において、プラットフォームコントローラハブ１３０は、周辺機器が高速Ｉ／Ｏバスを介してメモリデバイス１２０及びプロセッサ１０２へ接続することを可能にする。Ｉ／Ｏペリフェラルには、制限なしに、オーディオコントローラ１４６、ネットワークコントローラ１３４、ファームウェアインターフェース１２８、無線トランシーバ１２６、タッチセンサ１２５、データ記憶デバイス１２４（例えば、不揮発性メモリ、揮発性メモリ、ハードディスクドライブ、フラッシュメモリ、ＮＡＮＤ、３ＤＮＡＮＤ、３ＤＸＰｏｉｎｔ、等）が含まれる。データ記憶デバイス１２４は、ストレージインターフェース（例えば、ＳＡＴＡ）を介して、又はペリフェラル・コンポーネント・インターコネクトバス（ＰＣＩ、ＰＣＩエクスプレス）等のペリフェラルバスを介して接続することができる。タッチセンサ１２５は、タッチスクリーンセンサ、圧力センサ、又は指紋センサを含むことができる。無線トランシーバ１２６は、Ｗｉ−Ｆｉトランシーバ、Ｂｌｕｅｔｏｏｔｈ（登録商標）トランシーバ、又は３Ｇ、４Ｇ、５Ｇ、若しくはロング・ターム・エボリューション（ＬＴＥ）トランシーバ等のモバイルネットワークトランシーバであることができる。ファームウェアインターフェース１２８は、システムファームウェアとの通信を可能にし、例えば、ユニファイド・エクステンシブル・ファームウェア・インターフェース（ＵＥＦＩ）であることができる。ネットワークコントローラ１３４は、有線ネットワークへのネットワーク接続を可能にすることができる。いくつかの実施形態において、高性能ネットワークコントローラ（図示せず。）は、インターフェースバス１１０と結合する。オーディオコントローラ１４６は、一実施形態において、マルチチャネルハイデフィニションオーディオコントローラである。一実施形態において、システム１００は、レガシー（例えば、パーソナルシステム２（ＰＳ／２））デバイスをシステムへ結合する任意のレガシーＩ／Ｏコントローラ１４０を含む。プラットフォームコントローラハブ１３０はまた、キーボード及びマウス１４３の組み合わせ、カメラ１４４、又は他のＵＳＢ入力デバイスのような、１つ以上のユニバーサル・シリアル・バス（ＵＳＢ）コントローラ１４２の接続入力デバイスへ接続することができる。

異なるように構成される他のタイプのデータ処理システムも使用されてよいということで、示されているシステム１００は、例であって、限定でないことが理解されるだろう。例えば、メモリコントローラ１１６及びプラットフォームコントローラハブ１３０のインスタンスは、外部グラフィクスプロセッサ１１８などの別個の外部グラフィクスプロセッサに組み込まれてもよい。一実施形態において、プラットフォームコントローラハブ１３０及び／又はメモリコントローラ１１６は、１つ以上のプロセッサ１０２の外にあってよい。例えば、システム１００は、外付けのメモリコントローラ１１６及びプラットフォームコントローラハブ１３０を含むことができ、これらは、プロセッサと通信するシステムチップセット内のメモリコントローラハブ及びペリフェラルコントローラハブとして構成されてよい。

例えば、回路基板（“スレッド”）は、その上にＣＰＵ、メモリ、及び他のコンポーネント等のコンポーネントが配置され、温度性能の向上のため設計される。いくつかの例で、プロセッサのような処理コンポーネントはスレッドの上面に位置付けられ、一方、ＤＩＭＭのようなニアメモリはスレッドの底面に位置付けられる。この設計によってもたらされる強化されたエアフローの結果として、コンポーネントは、典型的なシステムでより高い周波数及び電力レベルで動作することができ、性能は向上する。更に、スレッドは、ラックにおいて電力及びデータ通信ケーブルと盲目的に結合するよう構成され、それによって、直ちに除去され、アップグレードされ、再インストールされ、及び／又は交換されるようそれらの能力を強化する。同様に、プロセッサ、アクセラレータ、メモリ、及びデータ記憶ドライブ等の、スレッドに位置する個々のコンポーネントは、互いの間隔が広くなることで容易にアップグレードされるよう構成される。実例となる実施形態では、コンポーネントは更に、それらの信頼性を証明するようハードウェア証明機構を含む。

データセンタは、Ｅｔｈｅｒｎｅｔ（登録商標）及びＯｍｎｉ−Ｐａｔｈを含む複数の他のネットワークアーキテクチャをサポートする単一ネットワークアーキテクチャ（“ファブリック”）を利用することができる。スレッドは、光ファイバを介してスイッチへ結合され得る。光ファイバは、典型的なツイストペアケーブル（カテゴリ５、カテゴリ５ｅ、カテゴリ６、等）よりも高いバンド幅及び低いレイテンシを提供する。高バンド幅、低レイテンシの相互接続及びネットワークアーキテクチャにより、データセンタは、使用中に、メモリ、アクセラレータ（例えば、ＧＰＵ、グラフィクスアクセラレータ、ＦＰＧＡ、ＡＳＩＣ、ニューラルネットワーク及び／又は人工知能アクセラレータ、等）、及び物理的に脱凝集されているデータ記憶ドライブなどの資源をプールし、それらを必要に応じて計算資源（例えば、プロセッサ）に提供して、計算リソースが、プールされた資源に、それらがあたかもローカルであったかのようにアクセスすることを可能にし得る。

電力供給又はソースは、電圧及び／又は電流をシステム１００又は本明細書で記載される任意のコンポーネント若しくはシステムへ供給することができる。一例で、電力供給は、壁面のコンセント入力にプラグ接続するＡＣ／ＤＣ（交流から直流）アダプタを含む。そのようなＡＣ電力は、再生可能エネルギ（例えば、太陽光）電源であることができる。一例で、電源は、外部ＡＣ／ＤＣコンバータのようなＤＣ電源を含む。一例で、電源又は電力供給は、充電場への近接により充電する無線充電ハードウェアを含む。一例で、電源は、内部バッテリ、交流供給、動きに基づいた電力供給、太陽光電源、又は燃料電池電源を含むことができる。

図２Ａ〜２Ｄは、本明細書で記載される実施形態によって提供されるコンピュータシステム及びグラフィクスプロセッサを表す。本願のいずれかの他の図の要素と同じ参照番号（又は名称）を有している図２Ａ〜２Ｄの要素は、本明細書中のどこかで記載されているのと同様に動作又は機能することができるが、そのように制限されない。

図２Ａは、１つ以上のプロセッサコア２０２Ａ〜２０２Ｎ、集積メモリコントローラ２１４、及び集積グラフィクスプロセッサ２０８を備えるプロセッサ２００の実施形態のブロック図である。プロセッサ２００は、破線ボックスによって表される追加のコア２０２Ｎまでの追加のコアを含むことができる。プロセッサコア２０２Ａ〜２０２Ｎは、１つ以上の内部キャッシュユニット２０４Ａ〜２０４Ｎを含む。いくつかの実施形態において、各プロセッサコアはまた、１つ以上の共有キャッシュユニット２０６へのアクセスを有する。内部キャッシュユニット２０４Ａ〜２０４Ｎ及び共有キャッシュユニット２０６は、プロセッサ２００内のキャッシュメモリヒエラルキを表す。キャッシュメモリヒエラルキは、各プロセッサコア内の少なくとも１レベルの命令及びデータキャッシュと、レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）、又は他のレベルのキャッシュのような、１以上のレベルの共有ミッドレベルキャッシュとを含んでよく、外部メモリの前の最も高いレベルのキャッシュはＬＬＣと分類される。いくつかの実施形態において、キャッシュコヒーレンシロジックは、様々なキャッシュユニット２０６及び２０４Ａ〜２０４Ｎの間のコヒーレンシを維持する。

いくつかの実施形態において、プロセッサ２００はまた、１つ以上のバスコントローラユニット２１６の組と、システムエージェントコア２１０とを含んでよい。１つ以上のバスコントローラユニット２１６は、１つ以上のＰＣＩ又はＰＣＩエクスプレスバスなどのペリフェラルバスの組を管理する。システムエージェントコア２１０は、様々なプロセッサコンポーネントのための管理機能を提供する。いくつかの実施形態において、システムエージェントコア２１０は、様々な外部メモリデバイス（図示せず。）へのアクセスを管理するよう１つ以上の集積メモリコントローラ２１４を含む。

いくつかの実施形態において、プロセッサコア２０２Ａ〜２０２Ｎの１つ以上は、同期マルチスレッディングのためのサポートを含む。そのような実施形態では、システムエージェントコア２１０は、マルチスレッド処理中にコア２０２Ａ〜２０２Ｎを協調及び動作させるコンポーネントを含む。システムエージェントコア２１０は、電力制御ユニット（ＰＣＵ）を更に含んでよい。ＰＣＵは、プロセッサコア２０２Ａ〜２０２Ｎ及びグラフィクスプロセッサ２０８の電力状態を調整するロジック及びコンポーネントを含む。

いくつかの実施形態において、プロセッサ２００は、グラフィクス処理動作を実行するようグラフィクスプロセッサ２０８を更に含む。いくつかの実施形態において、グラフィクスプロセッサ２０８は、共有キャッシュユニット２０６と、１つ以上の集積メモリコントローラ２１４を含むシステムエージェントコア２１０との組と結合する。いくつかの実施形態において、システムエージェントコア２１０はまた、グラフィクスプロセッサ出力を１つ以上の結合されたディスプレイへ駆動するようディスプレイコントローラ２１１を含む。いくつかの実施形態において、ディスプレイコントローラ２１１は、少なくとも１つのインターコネクトを介してグラフィクスプロセッサと結合される別個のモジュールであってもよく、あるいは、グラフィクスプロセッサ２０８内に組み込まれてもよい。

いくつかの実施形態において、プロセッサ２００の内部コンポーネントを結合するために、リングに基づくインターコネクトユニット２１２が使用される。しかし、ポイント・ツー・ポイント・インターコネクト、スイッチド・インターコネクト、又は当該技術でよく知られている技術を含む他の技術のような代替のインターコネクトユニットが使用されてもよい。いくつかの実施形態において、グラフィクスプロセッサ２０８は、Ｉ／Ｏリンク２１３を介してリングインターコネクト２１２と結合する。

例となるＩ／Ｏリンク２１３は、様々なプロセッサコンポーネントとｅＤＲＡＭモジュールのような高性能埋め込みメモリモジュール２１８との間の通信を助けるパッケージＩ／Ｏインターコネクトを含む多種多様なＩ／Ｏインターコネクトのうちの少なくとも１つを表す。いくつかの実施形態において、プロセッサコア２０２Ａ〜２０２Ｎ及びグラフィクスプロセッサ２０８の夫々は、共有ラストレベルキャッシュとして埋め込みメモリモジュール２１８を使用することができる。

いくつかの実施形態において、プロセッサコア２０２Ａ〜２０２Ｎは、同じ命令セットアーキテクチャを実行する同種のコアである。他の実施形態では、プロセッサコア２０２Ａ〜２０２Ｎは、命令セットアーキテクチャ（ＩＳＡ）に関して異種であり、プロセッサコア２０２Ａ〜２０２Ｎの１つ以上は第１命令セットを実行し、一方、残りのコアの少なくとも１つは第１命令セットのサブセット又は別の命令セットを実行する。一実施形態において、プロセッサコア２０２Ａ〜２０２Ｎは、ミクロアーキテクチャに関して異種であり、相対的により高い電力消費を有している１つ以上のコアは、より低い電力消費を有している１つ以上の電力コアと結合する。一実施形態において、プロセッサコア２０２Ａ〜２０２Ｎは、計算能力に関して異種である。更に、プロセッサ２００は、１以上のチップ上で、あるいは、表されているコンポーネントを他のコンポーネントに加えて有しているＳｏＣ集積回路として、実装され得る。

図２Ｂは、本明細書で記載されるいくつかの実施形態に従うグラフィクスプロセッサコア２１９のハードウェアロジックのブロック図である。本願のいずれかの他の図の要素と同じ参照番号（又は名称）を有している２Ｂの要素は、本明細書中のどこかで記載されているのと同様に動作又は機能することができるが、そのように制限されない。時々コアスライスとも呼ばれるグラフィクスプロセッサコア２１９は、モジュラーグラフィクスプロセッサ内の１つ又は複数のグラフィクスコアであることができる。グラフィクスプロセッサコア２１９は、１つのグラフィクスコアスライスの例であり、本明細書で記載されるグラフィクスプロセッサは、目標電力及び性能エンベロープに基づいて複数のグラフィクスコアスライスを含んでよい。各グラフィクスプロセッサコア２１９は、汎用の固定機能ロジックのモジュラーブロックを含む、サブスライスとも呼ばれる複数のサブコア２２１Ａ〜２２１Ｆと結合された固定関数ブロック２３０を含むことができる。

いくつかの実施形態において、固定関数ブロック２３０は、例えば、より低い性能及び／又はより低い電力のグラフィクスプロセッサ実装で、グラフィクスプロセッサコア２１９内の全てのサブコアによって共有され得るジオメトリ／固定関数パイプライン２３１を含む。様々な実施形態で、ジオメトリ／固定関数パイプライン２３１は、３Ｄ固定関数パイプライン（例えば、後述される、図３及び図４で見られる３Ｄパイプライン３１２）と、ビデオフロントエンドユニットと、スレッドスポーナ（spawner）及びスレッドディスパッチャと、統合リターンバッファ（unified return buffer）（例えば、後述される図４の統合リターンバッファ４１８）を管理する統合リターンバッファマネージャとを含む。

一実施形態において、固定関数ブロック２３０はまた、グラフィクスＳｏＣインターフェース２３２、グラフィクスマイクロコントローラ２３３、及びメディアパイプライン２３４を含む。グラフィクスＳｏＣインターフェース２３２は、グラフィクスプロセッサコア２１９とＳｏＣ集積回路内の他のプロセッサコアとの間のインターフェースを提供する。グラフィクスマイクロコントローラ２３３は、スレッドディスパッチ、スケジューリング、及びプリエンプション（pre-emption）を含むグラフィクスプロセッサコア２１９の様々な機能を管理するよう構成可能であるプログラム可能サブプロセッサである。メディアパイプライン２３４（例えば、図３及び図４のメディアパイプライン３１６）は、画像及びビデオデータを含むマルチメディアデータの復号化、符号化、前処理、及び／又は後処理を助けるロジックを含む。メディアパイプライン２３４は、サブコア２２１Ａ〜２２１Ｆ内の計算又はサンプリングロジックへの要求によりメディア操作を実装する。

一実施形態において、ＳｏＣインターフェース２３２は、グラフィクスプロセッサコア２１９が汎用のアプリケーションプロセッサコア（例えば、ＣＰＵ）かつ／あるいは共有ラストレベルキャッシュメモリ、システムＲＡＭ及び／又は埋め込みオンチップ若しくはオンパッケージＤＲＡＭのようなメモリヒエラルキ要素を含むＳｏＣ内の他のコンポーネントと通信することを可能にする。ＳｏＣインターフェース２３２はまた、カメライメージングパイプラインのようなＳｏＣ内の固定関数デバイスとの通信を可能にすることができ、グラフィクスプロセッサコア２１９とＳｏＣ内のＣＰＵとの間で共有され得るグローバルメモリアトミクスの使用を可能にしかつ／あるいはそれを実装する。ＳｏＣインターフェース２３２はまた、グラフィクスプロセッサコア２１９のための電力管理制御を実装し、グラフィクスプロセッサコア２１９のクロックドメインとＳｏＣ内の他のクロックドメインとの間のインターフェースを可能にすることができる。一実施形態において、ＳｏＣインターフェース２３２は、グラフィクスプロセッサ内の１つ以上のグラフィクスコアの夫々へコマンド及び命令を供給するよう構成されるコマンドストリーマ及びグローバルスレッドディスパッチャからのコマンドバッファの受信を可能にする。コマンド及び命令は、メディア操作が実行されるべきであるときには、メディアパイプライン２３４へ、あるいは、グラフィクス処理動作が実行されるべきであるときには、ジオメトリ及び固定関数パイプライン（例えば、ジオメトリ及び固定関数パイプライン２３１、ジオメトリ及び固定関数パイプライン２３７）へディスパッチされ得る。

グラフィクスマイクロコントローラ２３３は、グラフィクスプロセッサコア２１９のための様々なスケジューリング及び管理タスクを実行するよう構成され得る。一実施形態において、グラフィクスマイクロコントローラ２３３は、サブコア２２１Ａ〜２２１Ｆ内の実行ユニット（ＥＵ）アレイ２２２Ａ〜２２２Ｆ、２２４Ａ〜２２４Ｆ内で様々なグラフィクスパラレルエンジンに対してグラフィクス及び／又は計算ワークロードスケジューリングを実行することができる。このスケジューリングモデルにおいて、グラフィクスプロセッサコア２１９を含むＳｏＣのＣＰＵコアで実行されるホストソフトウェアは、複数のグラフィックプロセッサドアベルの１つにワークロードを提起することができ、これは、適切なグラフィクスエンジンに対するスケジューリング動作を呼び出す。スケジューリング動作は、次にどのワークロードを実行すべきかを決定することと、ワークロードをコマンドストリーマへ提起することと、エンジンで実行されている既存のワークロードをプリエンプションすることと、ワークロードの進行をモニタすることと、ワークロードがいつ完了するかをホストソフトウェアに通知することとを含む。一実施形態において、グラフィクスマイクロコントローラ２３３はまた、システム上のオペレーティングシステム及び／又はグラフィクスドライバソフトウェアから独立して低電力状態遷移にわたってグラフィクスプロセッサコア２１９内のレジスタをセーブ及びリストアする能力をグラフィクスプロセッサコア２１９にもらしながら、グラフィクスプロセッサコア２１９のための低電力又はアイドル状態を促進することができる。

グラフィクスプロセッサコア２１９は、表されているサブコア２２１Ａ〜２２１Ｆよりも多い又は少ない、最大Ｎ個までのモジュラーサブコアを有してよい。Ｎ個のサブコアの各セットについて、グラフィクスプロセッサコア２１９はまた、様々なグラフィクス及び計算処理動作をアクセラレーションするよう、共有機能ロジック２３５と、共有及び／又はキャッシュメモリ２３６と、ジオメトリ／固定関数パイプライン２３７と、追加の固定関数ロジック２３８とを含むことができる。共有機能ロジック２３５は、グラフィクスプロセッサコア２１９内の各Ｎ個のサブコアによって共有され得る図４の共有機能ロジック（例えば、サンプラ、マス（math）、及び／又はインタースレッド通信ロジック）に関連したロジックユニットを含むことができる。共有及び／又はキャッシュメモリ２３６は、グラフィクスプロセッサコア２１９内のＮ個のサブコア２２１Ａ〜２２１Ｆの組のためのラストレベルキャッシュであることができ、また、複数のサブコアによってアクセス可能である共有メモリとしても機能することができる。ジオメトリ／固定関数パイプライン２３７は、固定関数ブロック２３０内のジオメトリ／固定関数パイプライン２３１の代わりに含まれてよく、同じ又は類似したロジックユニットを含むことができる。

一実施形態において、グラフィクスプロセッサコア２１９は、グラフィクスプロセッサコア２１９によって使用される様々な固定関数アクセラレーションロジックを含むことができる追加の固定関数ロジック２３８を含む。一実施形態において、追加の固定関数ロジック２３８は、ポジション・オンリー・シェーディング（position only shading）で使用される追加のジオメトリパイプラインを含む。ポジション・オンリー・シェーディングでは、２つのジオメトリパイプラインが存在し、ジオメトリ／固定関数パイプライン２３７、２３１内のフル（full）ジオメトリパイプラインと、追加の固定関数ロジック２３８内に含まれ得る追加のジオメトリパイプラインであるカル（cull）パイプラインとである。一実施形態において、カルパイプラインは、フルジオメトリパイプラインの細分化されたバージョンである。フルパイプライン及びカルパイプラインは、各インスタンスが別個のコンテキストを有している同じアプリケーションの異なるインスタンスを実行することができる。ポジション・オンリー・シェーディングは、破棄された三角形の長いカルランを非表示にできるため、場合によってはシェーディングをより早く完了させることができる。例えば、一実施形態において、追加の固定関数ロジック２３８内のカルパイプラインロジックは、メインアプリケーションと並行してポジションシェーダを実行することができ、一般にフルパイプラインよりも高速に重要な結果を生成する。これは、カルパイプラインが、フレームバッファへのピクセルのラスタライズ及びレンダリングを実行せずに、頂点の位置属性のみをフェッチしてシェーディングするためである。カルパイプラインは、三角形がカリングされているかどうかに関係なく、全ての三角形についての可視性情報を計算するために、生成された重要な結果を使用することができる。フルパイプライン（この例では、リプレイパイプラインとも呼ばれ得る。）は、最終的にラスタライズフェーズに渡される可視の三角形のみをシェーディングするよう、カリングされた三角形をスキップするために可視性情報を消費することができる。

一実施形態において、追加の固定関数ロジック２３８はまた、機械学習トレーニング又は推論のための最適化を含む実装のために、固定関数行列乗算ロジックのような機械学習アクセラレーションロジックを含むことができる。

各グラフィクスサブコア２２１Ａ〜２２１Ｆ内には、グラフィクスパイプライン、メディアパイプライン、又はシェーダパイプラインによる要求に応答してグラフィクス、メディア、及び計算操作を実行するために使用され得る実行資源の組を含む。グラフィクスサブコア２２１Ａ〜２２１Ｆは、複数のＥＵアレイ２２２Ａ〜２２２Ｆ、２２４Ａ〜２２４Ｆと、スレッドディスパッチ及びインタースレッド通信（ＴＤ／ＩＣ）ロジック２２３Ａ〜２２３Ｆと、３Ｄ（例えば、テクスチャ）サンプラ２２５Ａ〜２２５Ｆと、メディアサンプラ２０６Ａ〜２０６Ｆと、シェーダプロセッサ２２７Ａ〜２２７Ｆと、共有ローカルメモリ（ＳＬＭ）２２８Ａ〜２２８Ｆとを含む。ＥＵアレイ２２２Ａ〜２２２Ｆ、２２４Ａ〜２２４Ｆは夫々、グラフィクス、メディア、又は計算シェーダプログラムを含むグラフィクス、メディア、又は計算操作のサービスにおいて浮動小数点及び整数／固定小数点ロジック演算を実行可能な汎用のグラフィクス処理ユニットである複数の実行ユニットを含む。ＴＤ／ＩＣロジック２２３Ａ〜２２３Ｆは、サブコア内の実行ユニットのためのローカルスレッドディスパッチ及びスレッド制御動作を実行し、サブコアの実行ユニットで実行されるスレッド間の通信を助ける。３Ｄサンプラ２２５Ａ〜２２５Ｆは、テクスチャ又は他の３Ｄグラフィクスに関連したデータをメモリに読み込むことができる。３Ｄサンプラは、所与のテクスチャに関連したテクスチャフォーマット及び設定されたサンプル状態に基づいて異なるようにテクスチャデータを読み出すことができる。メディアサンプラ２０６Ａ〜２０６Ｆは、メディアデータに関連したタイプ及びフォーマットに基づいて同様の読み出し動作を実行することができる。一実施形態において、各グラフィクスサブコア２２１Ａ〜２２１Ｆは、代替的に、統合された３Ｄ及びメディアサンプラを含むことができる。サブコア２２１Ａ〜２２１Ｆの夫々の実行ユニットで実行されるスレッドは、スレッドグループ内で実行されるスレッドがオンチップメモリのコモンプールを用いて実行することができるように、各サブコア内の共有ローカルメモリ２２８Ａ〜２２８Ｆを使用することができる。

図２Ｃは、マルチコアグループ２４０Ａ〜２４０Ｎに配置されてるグラフィクス処理資源の専用セットを含むグラフィクス処理ユニット（ＧＰＵ）２３９を表す。単一のマルチコアグループ２４０Ａの詳細が与えられるが、他のマルチコアグループ２４０Ｂ〜２４０Ｎは、同じ又は類似したグラフィクス処理資源のセットを備えられ得ることが理解されるだろう。

表されるように、マルチコアグループ２４０Ａは、グラフィクスコア２４３の組と、テンソルコア２４４の組と、レイトレーシングコア２４５の組とを含んでよい。スケジューラ／ディスパッチャ２４１は、様々なコア２４３、２４４、２４５で実行されるグラフィクススレッドをスケジューリング及びディスパッチする。レジスタファイル２４２の組は、グラフィクススレッドを実行する場合にコア２４３、２４４、２４５によって使用されるオペランド値を記憶する。それらは、例えば、整数値を記憶する整数レジスタ、浮動小数点値を記憶する浮動小数点レジスタ、パックデータ要素（整数及び／又は浮動小数点データ要素）を記憶するベクトルレジスタ、及びテンソル／行列値を記憶するタイルレジスタを含んでよい。一実施形態において、タイルレジスタは、ベクトルレジスタの組み合わされた組として実装される。

１つ以上の組み合わされたレベル１（Ｌ１）キャッシュ及び共有メモリユニット２４７は、テクスチャデータ、頂点データ、ピクセルデータ、光線（ray）データ、バウンディングボリュームデータ、等のようなグラフィクスデータを各マルチコアグループ２４０Ａ内にローカルで記憶する。１つ以上のテクスチャユニット２４７はまた、テクスチャマッピング及びサンプリングのようなテクスチャリング動作を実行するために使用され得る。マルチコアグループ２４０Ａ〜２４０Ｎの全て又は一部によって共有されるレベル２（Ｌ２）キャッシュ２５３は、複数の同時のグラフィクススレッドのためのグラフィクスデータ及び／又は命令を記憶する。表されるように、Ｌ２キャッシュ２５３は、複数のマルチコアグループ２４０Ａ〜２４０Ｎにわたって共有されてよい。１つ以上のメモリコントローラ２４８は、ＧＰＵ２３９をメモリ２４９へ結合する。メモリ２４９は、システムメモリ（例えば、ＤＲＡＭ）及び／又は専用のグラフィクスメモリ（例えば、ＧＤＤＲ６メモリ）であってよい。

入出力（Ｉ／Ｏ）回路２５０は、ＧＰＵ２３９を、デジタル信号プロセッサ（ＤＳＰ）、ネットワークコントローラ、又はユーザ入力デバイス等の１つ以上のＩ／Ｏデバイス２５２へ結合する。オンチップインターコネクトが、Ｉ／Ｏデバイス２５２をＧＰＵ２３９及びメモリ２４９へ結合するために使用されてよい。Ｉ／Ｏ回路２５０の１つ以上のＩ／Ｏメモリ管理ユニット（ＩＯＭＭＵ）２５１は、Ｉ／Ｏデバイス２５２をシステムメモリ２４９へ直接結合する。一実施形態において、ＩＯＭＭＵ２５１は、仮想アドレスをシステムメモリ２４９内の物理アドレスへマッピングするために複数組のページテーブルを管理する。この実施形態では、Ｉ／Ｏデバイス２５２、ＣＰＵ２４６、及びＧＰＵ２３９は、同じ仮想アドレス空間を共有してよい。

一実施において、ＩＯＭＭＵ２５１は、仮想化をサポートする。この場合に、それは、ゲスト／グラフィクス仮想アドレスをゲスト／グラフィクス物理アドレスへマッピングするページテーブルの第１の組と、ゲスト／グラフィクス物理アドレスを（例えば、システムメモリ２４９内の）システム／ホスト物理アドレスへマッピングするページテーブルの第２の組とを管理してよい。ページテーブルの第１及び第２の組の夫々の基本アドレスは、制御レジスタに記憶され、コンテキストスイッチでスワップアウトされ得る（例えば、それにより、新しいコンテキストは、ページテーブルの関連する組へのアクセスを与えられる。）。図２Ｃに示されていないが、コア２４３、２４４、２４５及び／又はマルチコアグループ２４０Ａ〜２４０Ｎの夫々は、ゲスト仮想からゲスト物理への変換、ゲスト物理からホスト物理への変換、及びゲスト仮想からホスト物理への変換をキャッシングするトランスレーション・ルックアサイド・バッファ（ＴＬＢ）を含んでよい。

一実施形態において、ＣＰＵ２４６、ＧＰＵ２３９、及びＩ／Ｏデバイス２５２は、単一の半導体チップ及び／又はチップパッケージ上に集積される。表されているメモリ２４９は、同じチップ上に集積されてよく、あるいは、オフチップインターフェースを介してメモリコントローラ２４８へ結合されてもよい。一実施形態において、メモリ２４９は、他の物理的なシステムレベルメモリと同じ仮想アドレス空間を共有するＧＤＤＲ６メモリを有する。なお、本発明の基礎をなす原理は、この具体的な実施に制限されない。

一実施形態で、テンソルコア２４４は、ディープラーニング演算を実行するために使用される基本的な計算操作である行列演算を実行するよう特に設計された複数の実行ユニットを含む。例えば、同時の行列乗算演算が、ニューラルネットワークトレーニング及び推論のために使用されてよい。テンソルコア２４４は、単精度浮動小数点（例えば、３２ビット）、半精度浮動小数点（例えば、１６ビット）、整数ワード（１６ビット）、バイト（８ビット）、及び半バイト（４ビット）を含む様々なオペランド精度を用いて行列処理を実行してよい。一実施形態において、ニューラルネットワーク実装は、高品質の最終画像を構成するよう複数のフレームからの詳細を潜在的に組み合わせるように、夫々のレンダリングされるシーンの特徴を取り出す。

ディープラーニング実装において、並列行列演算ワークは、テンソルコア２４４での実行のためにスケジューリングされてよい。ニューラルネットワークのトレーニングは、特に、有効数行列ドット積演算を必要とする。Ｎ×Ｎ×Ｎ行列乗算の内積公式化を処理するために、テンソルコア２４４は、少なくともＮ個のドット積処理要素を含んでよい。行列乗算が始まる前に、１つの行列全体がタイルレジスタにロードされ、第２の行列の少なくとも１つの列がＮ周期の各周期でロードされる。周期ごとに、処理されるＮ個のドット積が存在する。

行列要素は、１６ビットのワード、８ビットのバイト（例えば、ＩＮＴ８）、及び４ビットの半バイト（例えば、ＩＮＴ４）を含む、特定の実施に依存する異なる精度で記憶されてよい。異なる精度モードは、最も効率的な精度が異なるワークロードのために使用されることを確かにするために、テンソルコア２４４に対して特定されてよい（例えば、バイト及び半バイトへの量子化を許すことができるワークロードを推論すること、等）。

一実施形態において、レイトレーシングコア２４５は、リアルタイムのレイトレーシング及び非リアルタイムのレイトレーシングの両方の実装のためにレイトレーシング動作をアクセラレーションする。特に、レイトレーシングコア２４５は、バウンディングボリュームヒエラルキ（ＢＶＨ）を用いて光線トラバーサルを実行し、ＢＶＨボリューム内のプリミティブと光線との間の交差を識別する光線トラバーサル／交差回路を含む。レイトレーシングコア２４５はまた、（例えば、Ｚバッファ又は同様の配置を用いて）デプステスト及びカリングを実行する回路を含んでもよい。一実施において、レイトレーシングコア２４５は、本明細書で記載される画像ノイズ除去技術とともにトラバーサル及び交差動作実行する。画像ノイズ除去技術の少なくとも一部は、テンソルコア２４４で実行されてもよい。例えば、一実施形態において、テンソルコア２４４は、レイトレーシングコア２４５によって生成されたフレームのノイズ除去を実行するためにディープラーニングニューラルネットワークを実装する。なお、ＣＰＵ２４６、グラフィクスコア２４３、及び／又はレイトレーシングコア２４５はまた、ノイズ除去及び／又はディープラーニングアルゴリズムの全部又は一部を実装してもよい。

更に、上述されたように、ノイズ除去に対する分散アプローチが用いられてもよく、このとき、ＧＰＵ２３９は、ネットワーク又は高速インターコネクトを介して他のコンピュータデバイスへ結合されたコンピュータデバイスにある。この実施形態では、相互接続されたコンピュータデバイスは、種々のタイプの画像フレーム及び／又は種々のグラフィクスアプリケーションのノイズ除去を実行するためにシ、ステム全体が学習する速度を改善するようニューラルネットワーク学習／トレーニングデータを共有する。

一実施形態において、レイトレーシングコア２４５は、全てのＢＶＨトラバーサル及び光線プリミティブ交差を処理して、グラフィクスコア２４３が光線ごとに数千の命令により過負荷とならないようにする。一実施形態において、各レイトレーシングコア２４５は、（例えば、トラバーサル動作のための）バウンディングボックステストを実行する専用回路の第１の組と、光線トライアングル交差テスト（トラバースされた交差光線）を実行する専用回路の第２の組とを含む。よって、一実施形態において、マルチコアグループ２４０Ａは、単に光線プローブを起動することができ、レイトレーシングコア２４５は、独立して光線トラバーサル及び交差を実行し、ヒットデータ（例えば、ヒット、ノーヒット、マルチヒット、等）をスレッドコンテキストへ返す。レイトレーシングコア２４５がトラバーサル及び交差動作を実行する間、他のコア２４３、２４４は、他のグラフィクス又は計算ワークを実行するよう解放される。

一実施形態において、各レイトレーシングコア２４５は、ＢＶＨ試験動作を実行するトラバーサルユニットと、光線プリミティブ交差テストを実行する交差ユニットとを含む。交差ユニットは、「ヒット」、「ノーヒット」、又は「マルチヒット」応答を生成し、応答は、適切なスレッドへ供給される。トラバーサル及び交差動作中、他のコア（例えば、グラフィクスコア２４３及びテンソルコア２４４）の実行資源は、他の形のグラフィクスワークを実行するよう解放される。

後述される１つの特定の実施形態では、複合型のラスタライゼーション／レイトレーシングアプローチが使用され、ワークは、グラフィクスコア２４３とレイトレーシングコア２４５との間で分配される。

一実施形態において、レイトレーシングコア２４５（及び／又は他のコア２４３、２４４）は、オブジェクトごとのシェーダ及びテクスチャの一意の組の割り当てを可能にするｒａｙ−ｇｅｎｅｒａｔｉｏｎ、ｃｌｏｓｅｓｔ−ｈｉｔ、ａｎｙ−ｈｉｔ及びｍｉｓｓｓｈａｄｅｒｓ並びにＤｉｓｐａｔｃｈＲａｙｓコマンドを含むマイクロソフトのＤｉｒｅｃｔＸＲａｙＴｒａｃｉｎｇ（ＤＸＲ）のようなレイトレーシング命令セットのためのハードウェアサポートを含む。レイトレーシングコア２４５、グラフィクスコア２４３、及びテンソルコア２４４によってサポートされ得る他のレイトレーシングプラットフォームは、Ｖｕｌｋａｎ１．１．８５である。なお、本発明の基礎をなす原理は、如何なる特定のレイトレーシングＩＳＡにも制限されないことに留意されたい。

一般に、様々なコア２４５、２４４、２４３は、ｒａｙ−ｇｅｎｅｒａｔｉｏｎ、ｃｌｏｓｅｓｔ−ｈｉｔ、ａｎｙ−ｈｉｔ、光線プリミティブ交差（intersection）、プリミティブごとの階層的なバウンディングボックス構成（per-primitive and hierarchical bounding box construction）、ｍｉｓｓ、ｖｉｓｉｔ、及び例外（exceptions）のための命令／関数を含むレイトレーシング命令セットをサポートし得る。より具体的には、一実施形態は、次の関数を実行するレイトレーシング命令を含む。

ｒａｙ−ｇｅｎｅｒａｔｉｏｎ：ｒａｙ−ｇｅｎｅｒａｔｉｏｎ命令は、夫々のピクセル、サンプル、又は他のユーザ定義のワーク割り当てについて実行され得る。

ｃｌｏｓｅｓｔ−ｈｉｔ：ｃｌｏｓｅｓｔ−ｈｉｔ命令は、シーン内のプリミティブとの光線の最も近い交差点に位置するよう実行され得る。

ａｎｙ−ｈｉｔ：ａｎｙ−ｈｉｔ命令は、潜在的に、新しい最も近い交差点を識別するために、シーン内のプリミティブと光線との間の複数の交差を識別する。

ｉｎｔｅｒｓｅｃｔｉｏｎ：ｉｎｔｅｒｓｅｃｔｉｏｎ命令は、光線プリミティブ交差テストを実行し、結果を出力する。

ｐｅｒ−ｐｒｉｍｉｔｉｖｅｂｏｕｎｄｉｎｇｂｏｘｃｏｎｓｔｒｕｃｔｉｏｎ：この命令は、（例えば、新しいＢＶＨ又は他のアクセラレーションデータ構造を構築する場合に）所与のプリミティブ又はプリミティブのグループの周りにバウンディングボックスを形成する。

ｍｉｓｓ：シーン又はシーンの特殊化された領域内の全てのジオメトリを光線が見逃すことを示す。

ｖｉｓｉｔ：光線がトラバースする子ボリュームを示す。

ｅｘｃｅｐｔｉｏｎｓ：様々なタイプの例外ハンドラ（例えば、様々なエラー条件について呼び出される。）を示す。

図２Ｄは、本明細書で記載される実施形態に従って、グラフィクスプロセッサ及び／又は計算アクセラレータとして構成され得る汎用のグラフィクス処理ユニット（ＧＰＧＰＵ
）２７０のブロック図である。ＧＰＧＰＵ２７０は、１つ以上のシステム及び／又はメモリバスを介してホストプロセッサ（例えば、１つ以上のＣＰＵ２４６）及びメモリ２７１、２７２と相互接続することができる。一実施形態において、メモリ２７１は、１つ以上のＣＰＵ２４６と共有され得るシステムメモリであり、一方、メモリ２７２は、ＧＰＧＰＵ２７０に専用であるデバイスメモリである。一実施形態において、ＧＰＧＰＵ２７０内のコンポーネントとデバイスメモリ２７２とは、１つ以上のＣＰＵ２４６がアクセス可能であるメモリアドレスにマッピングされてよい。メモリ２７１及び２７２へのアクセスは、メモリコントローラ２６８を介して容易にされ得る。一実施形態において、メモリコントローラ２６８は、内部ダイレクトメモリアクセス（ＤＭＡ）コントローラ２６９を含むか、あるいは、ＤＭＡコントローラによってさもなければ実行される動作を実行するロジックを含むことができる。

ＧＰＧＰＵ２７０は、Ｌ２キャッシュ２５３、Ｌ１キャッシュ２５４、命令キャッシュ２５５、及び一部がキャッシュメモリとしても分割されて得る共有メモリ２５６を含む複数のキャッシュメモリを含む。ＧＰＧＰＵ２７０はまた、複数の計算ユニット２６０Ａ〜２６０Ｎを含む。各計算ユニット２６０Ａ〜２６０Ｎは、ベクトルレジスタ２６１、スカラーレジスタ２６２、ベクトル論理ユニット２６３、及びスカラー論理ユニット２６４を含む。計算ユニット２６０Ａ〜２６０Ｎはまた、ローカル共有メモリ２６５及びプログラムカウンタ２６６を含むことができる。計算ユニット２６０Ａ〜２６０Ｎは、ＧＰＧＰＵ２７０で実行されるカーネル又はシェーダプログラムの実行中に変化しないデータである一定データを記憶するために使用され得るコンスタントキャッシュ２６７と結合することができる。一実施形態において、コンスタントキャッシュ２６７は、スカラーデータキャッシュであり、キャッシングされたデータは、スカラーレジスタ２６２に直接フェッチされ得る。

動作中、１つ以上のＣＰＵ２４６は、アクセス可能なドレス空間にマッピングされているＧＰＧＰＵ２７０内のレジスタ又はメモリにコマンドを書き込むことができる。コマンドプロセッサ２５７は、レジスタ又はメモリからコマンドを読み出し、どのようにそれらのコマンドがＧＰＧＰＵ２７０内で処理されるかを決定することができる。スレッドディスパッチャ２５８は次いで、それらのコマンドを実行するようスレッドを計算ユニット２６０Ａ〜２６０Ｎにディスパッチするために使用され得る。各計算ユニット２６０Ａ〜２６０Ｎは、他の計算ユニットから独立してスレッドを実行することができる。その上、各計算ユニット２６０Ａ〜２６０Ｎは、条件付き計算のために独立して構成され得、計算の結果をメモリへ条件付きで出力することができる。コマンドプロセッサ２５７は、提起されたコマンドが完了する場合に１つ以上のＣＰＵ２４６に割り込むことができる。

図３Ａ〜３Ｃは、本明細書で記載される実施形態によって提供される更なるグラフィクスプロセッサ及び計算アクセラレータアーキテクチャのブロック図を表す。本願のいずれかの他の図の要素と同じ参照番号（又は名称）を有している図３Ａ〜３Ｃの要素は、本明細書中のどこかで記載されているのと同様に動作又は機能することができるが、そのように制限されない。

図３Ａは、グラフィクスプロセッサ３００のブロック図である。グラフィクスプロセッサ３００は、ディスクリートのグラフィクス処理ユニットであってよく、あるいは、複数のプロセッシングコア、又は制限なしに、メモリデバイス若しくはネットワークインターフェースなどの他の半導体デバイスと一体化されたグラフィクスプロセッサであってもよい。いくつかの実施形態において、グラフィクスプロセッサは、メモリにマッピングされたＩ／Ｏインターフェースを介してグラフィクスプロセッサ上のレジスタと、及び、プロセッサメモリ内に置かれたコマンドと通信する。いくつかの実施形態において、グラフィクスプロセッサ３００は、ローカルメモリ、１つ以上の内部キャッシュ、１つ以上の共有外部キャッシュ、及び／又はシステムメモリへのインターフェースであることができる。

いくつかの実施形態において、グラフィクスプロセッサ３００はまた、表示出力データを表示デバイス３１８へ駆動するディスプレイコントローラ３０２を含む。ディスプレイコントローラ３０２は、ビデオ又はユーザインターフェース要素の複数のレイヤの表示及び合成のための１つ以上のオーバーレイプレーンのためのハードウェアを含む。表示デバイス３１８は、内部又は外部表示デバイスであることができる。一実施形態において、表示デバイス３１８は、仮想現実（ＶＲ）表示デバイス又は拡張現実（ＡＲ）表示デバイスなどのヘッドマウントディスプレイデバイスである。いくつかの実施形態において、グラフィクスプロセッサ３００は、メディアを、ＭＰＥＧ−２等のＭＰＥＧ（Moving Picture Experts Group）フォーマット、Ｈ．２６４／ＭＰＥＧ−４ＡＶＣ、Ｈ．２６５／ＨＥＶＣ、ＡＯＭｅｄｉａ（Alliance for Open Media）ＶＰ８、ＶＰ９、及び、ＳＭＰＴＥ（Society of Motion Picture & Television Engineers）４２１Ｍ／ＶＣ１等のＡＶＣ（Advanced Video Coding）、並びに、ＪＰＥＧ及びＭＪＰＥＧ（Motion JPEG）フォーマット等のＪＰＥＧ（Joint Photographic Experts Group）フォーマットを含むがそれらに制限されない１つ以上のメディア符号化フォーマットへ符号化し、又はそのようなフォーマットから復号し、又はそれらのフォーマットの間でトランスコーディングするようビデオコーデックエンジン３０６を含む。

いくつかの実施形態において、グラフィクスプロセッサ３００は、例えば、ビット境界ブロック転送を含む２次元（２Ｄ）ラスタライザ動作を実行するようブロック画像転送（ＢＬＩＴ）エンジン３０４を含む。なお、一実施形態において、２Ｄグラフィクス操作は、グラフィクス処理エンジン（ＧＰＥ）３１０の１つ以上のコンポーネントを用いて実行される。いくつかの実施形態において、ＧＰＥ３１０は、３次元（３Ｄ）グラフィクス操作及びメディア操作を含むグラフィクス操作を実行するための計算エンジンである。

いくつかの実施形態において、ＧＰＥ３１０は、３Ｄプリミティブ形状（例えば、長方形、三角形、等）に作用する処理機能を用いて３次元画像及び場面をレンダリングすること等の３Ｄ操作を実行するための３Ｄパイプライン３１２を含む。３Ｄパイプライン３１２は、３Ｄ／メディアサブシステム３１５への実行スレッドを生成しかつ／あるいは要素内の様々なタスクを実行するプログラム可能な固定関数要素を含む。３Ｄパイプライン３１２が複数の動作を実行するために使用され得る一方で、ＧＰＥ３１０の実施形態はまた、ビデオ後処理及び画像エンハンスメント等のメディア操作を実行するために特に使用されるメディアパイプライン３１６を含む。

いくつかの実施形態において、メディアパイプライン３１６は、ビデオコーデックエンジン３０６の代わりに、又はそれのために、ビデオ復号化アクセラレーション、ビデオインターレース解除、及びビデオ符号化アクセラレーション等の１つ以上の特殊化されたメディア操作を実行するよう固定関数又はプログラム可能論理ユニットを含む。いくつかの実施形態において、メディアパイプライン３１６は、３Ｄ／メディアサブシステム３１５での実行のためにスレッドを生成するようスレッド生成ユニットを更に含む。生成されたスレッドは、３Ｄ／メディアサブシステム３１５に含まれる１つ以上のグラフィクス実行ユニットでのメディア操作のための計算を実行する。

いくつかの実施形態において、３Ｄ／メディアサブシステム３１５は、３Ｄパイプライン３１２及びメディアパイプライン３１６によって生成されたスレッドを実行するためのロジックを含む。一実施形態において、パイプラインは、スレッド実行要求を３Ｄ／メディアサブシステム３１５へ送る。３Ｄ／メディアサブシステム３１５は、利用可能なスレッド実行資源への様々な要求をアービトレーション及びディスパッチするスレッドディスパッチロジックを含む。実行資源は、３Ｄ及びメディアスレッドを処理するグラフィクス実行ユニットのアレイを含む。いくつかの実施形態において、３Ｄ／メディアサブシステム３１５は、スレッド命令及びデータのための１つ以上の内部キャッシュを含む。いくつかの実施形態において、サブシステムはまた、スレッド間でデータを供給するよう、かつ、出力データを記憶するよう、レジスタ及びアドレス可能メモリを含む共有メモリを含む。

図３Ｂは、本明細書で記載される実施形態に従って、タイル状アーキテクチャを有しているグラフィクスプロセッサ３２０を表す。一実施形態において、グラフィクスプロセッサ３２０は、グラフィクスエンジンタイル３１０Ａ〜３１０Ｄ内に図３のグラフィクス処理エンジン３１０の複数のインスタンスを有しているグラフィクス処理エンジンクラスタ３２２を含む。各グラフィクスエンジンタイル３１０Ａ〜３１０Ｄは、タイルインターコネクト３２３Ａ〜３２３Ｆの組を介して相互接続され得る。各グラフィクスエンジンタイル３１０Ａ〜３１０Ｄはまた、メモリインターコネクト３２５Ａ〜３２５Ｄを介してメモリモジュール又はメモリデバイス３２６Ａ〜３２６Ｄへ接続され得る。メモリデバイス３２６Ａ〜３２６Ｄは、如何なるグラフィクスメモリ技術も使用することができる。例えば、メモリデバイス３２６Ａ〜３２６Ｄは、グラフィクス・ダブル・データ・レート（ＧＤＤＲ）メモリであってよい。メモリデバイス３２６Ａ〜３２６Ｄは、一実施形態において、それらの各々のグラフィクスエンジンタイル３１０Ａ〜３１０Ｄとともオンダイであることができる高バンド幅メモリ（ＨＭＢ）モジュールである。一実施形態において、メモリデバイス３２６Ａ〜３２６Ｄは、それらの各々のグラフィクスエンジンタイル３１０Ａ〜３１０Ｄの上にスタックされ得るスタックド・メモリデバイスである。一実施形態において、各グラフィクスエンジンタイル３１０Ａ〜３１０Ｄ及び関連するメモリ３２６Ａ〜３２６Ｄは、図１１Ｂ〜１１Ｄで更に詳細に記載されるように、ベースダイ又はベース基板へボンディングされる別々のチップレット上にある。

グラフィクス処理エンジンクラスタ３２２は、オンチップ又はオンパッケージのファブリックインターコネクト３２４と接続することができる。ファブリックインターコネクト３２４は、グラフィクスエンジンタイル３１０Ａ〜３１０Ｄと、ビデオコーデックエンジン３０６及び１つ以上のコピーエンジン３０４等のコンポーネントとの間の通信を可能にすることができる。コピーエンジン３０４は、メモリデバイス３２６Ａ〜３２６Ｄ及びグラフィクスプロセッサ３２０の外部にあるメモリ（システムメモリ）から、その中に、及びそれらの間でデータを移動するために使用され得る。ファブリックインターコネクト３２４はまた、グラフィクスエンジンタイル３１０Ａ〜３１０Ｄを相互接続するために使用され得る。グラフィクスプロセッサ３２０は、任意に、外部表示デバイス３１８との接続を可能にするようディスプレイコントローラ３０２を含んでもよい。グラフィクスプロセッサはまた、グラフィクス又は計算アクセラレータとしても構成されてよい。アクセラレータ構成では、ディスプレイコントローラ３０２及び表示デバイス３１８は省略され得る。

グラフィクスプロセッサ３２０は、ホストインターフェース３２８を介してホストシステムへ接続することができる。ホストインターフェース３２８は、グラフィクスプロセッサ３２０、システムメモリ、及び／又は他のシステムコンポーネントの間の通信を可能にすることができる。ホストインターフェース３２８は、例えば、ＰＣＩエクスプレスバス又は他のタイプのホストシステムインターフェースであることができる。

図３Ｃは、本明細書で記載される実施形態に従う計算アクセラレータ３３０を表す。計算アクセラレータ３３０は、図３Ｂのグラフィクスプロセッサ３２０とのアーキテクチャ上の類似点を含むことができ、計算アクセラレーションのために最適化される。計算エンジンクラスタ３３２は、並列な又はベクトルベースの汎用の計算操作のために最適化される実行ロジックを含む計算エンジンタイル３４０Ａ〜３４０Ｄの組を含むことができる。いくつかの実施形態において、計算エンジンタイル３４０Ａ〜３４０Ｄは、固定関数グラフィクス処理ロジックを含まないが、一実施形態において、計算エンジンタイル３４０Ａ〜３４０Ｄの１つ以上は、メディアアクセラレーションを実行するロジックを含むことができる。計算エンジンタイル３４０Ａ〜３４０Ｄは、メモリインターコネクト３２５Ａ〜３２５Ｄを介してメモリ３２６Ａ〜３２６Ｄへ接続することができる。メモリ３２６Ａ〜３２６Ｄ及びメモリインターコネクト３２５Ａ〜３２５Ｄは、グラフィクスプロセッサ３２０で見られたのと同様の技術であってよく、あるいは、異なってもよい。グラフィクス計算エンジンタイル３４０Ａ〜３４０Ｄはまた、タイルインターコネクト３２３Ａ〜３２３Ｆの組を介して相互接続され得、ファブリックインターコネクト３２４と接続されかつ／あるいはそれによって相互接続されてよい。一実施形態において、計算アクセラレータ３３０は、デバイスワイドのキャッシュとして構成され得る大規模Ｌ３キャッシュ３３６を含む。計算アクセラレータ３３０はまた、図３Ｂのグラフィクスプロセッサ３２０と同様に、ホストインターフェース３２８を介してホストプロセッサ及びメモリへ接続することができる。

［グラフィクス処理エンジン］
図４は、いくつかの実施形態に従うグラフィクスプロセッサのグラフィクス処理エンジン４１０のブロック図である。一実施形態において、グラフィクス処理エンジン（ＧＰＥ）４１０は、図３Ａに示されたＧＰＥ３１０の変形であり、図３Ｂのグラフィクスエンジンタイル３１０Ａ〜３１０Ｄを表してもよい。本願のいずれかの他の図の要素と同じ参照番号（又は名称）を有している図４の要素は、本明細書中のどこかで記載されているのと同様に動作又は機能することができるが、そのように制限されない。例えば、図３Ａの３Ｄパイプライン３１２及びメディアパイプライン３１６が表されている。メディアパイプライン３１６は、ＧＰＥ４１０のいくつかの実施形態では任意であり、ＧＰＥ４１０内に明示的に含まれなくてもよい。例えば、少なくとも１つの実施形態で、別個のメディア及び／又は画像プロセッサがＧＰＥ４１０へ結合される。

いくつかの実施形態において、ＧＰＥ４１０は、コマンドストリーマ４０３と結合するか、又はそれを含む。コマンドストリーマ４０３は、コマンドストリームを３Ｄパイプライン３１２及び／又はメディアパイプライン３１６へ供給する。いくつかの実施形態において、コマンドストリーマ４０３は、メモリと結合される。メモリは、システムメモリ又は、内部キャッシュメモリ及び共有キャッシュメモリの１つ以上であることができる。いくつかの実施形態において、コマンドストリーマ４０３は、メモリからコマンドを受け取り、コマンドを３Ｄパイプライン３１２及び／又はメディアパイプライン３１６へ送る。コマンドは、３Ｄパイプライン３１２及びメディアパイプライン３１６のためのコマンドを記憶しているリングバッファからフェッチされた指令である。一実施形態において、リングバッファは、複数のコマンドのバッチを記憶しているバッチコマンドバッファを更に含むことができる。３Ｄパイプライン３１２のためのコマンドはまた、例えば、制限なしに、３Ｄパイプライン３１２のための頂点及びジオメトリデータ並びに／又はメディアパイプライン３１６のための画像データ及びメモリオブジェクト等の、メモリに記憶されているデータへの参照を含むことができる。３Ｄパイプライン３１２及びメディアパイプライン３１６は、各々のパイプライン内のロジックを介して動作を実行することによって、又は１つ以上の実行スレッドをグラフィクスコアアレイ４１４にディスパッチすることによって、コマンド及びデータを処理する。一実施形態において、グラフィクスコアアレイ４１４は、グラフィクスコア（例えば、グラフィクスコア４１５Ａ、グラフィクスコア４１５Ｂ）の１つ以上のブロックを含み、各ブロックは１つ以上のグラフィクスコアを含む。各グラフィクスコアは、固定関数テクスチャ処理並びに／又は機械学習及び人工知能アクセラレーションロジックとともに、グラフィクス及び計算操作を実行するための汎用及びグラフィクス特有の実行ロジックを含むグラフィクス実行資源の組を含む。

様々な実施形態で、３Ｄパイプライン３１２は、命令を処理し、実行スレッドをグラフィクスコアアレイ４１４にディスパッチすることによって、頂点シェーダ、ジオメトリシェーダ、ピクセルシェーダ、フラグメントシェーダ、計算シェーダ、又は他のシェーダプログラム等の１つ以上のシェーダプログラムを処理するよう固定関数及びプログラム可能ロジックを含むことができる。グラフィクスコアアレイ４１４は、それらのシェーダプログラムを処理する際に使用される実行資源の統合されたブロックを提供する。グラフィクスコアアレイ４１４のグラフィクスコア４１５Ａ〜４１５Ｂ内の多目的実行ロジック（例えば、実行ユニット）は、様々な３ＤＡＰＩシェーダ言語のためのサポートを含み、複数のシェーダに関連した複数の同時実行スレッドを実行することができる。

いくつかの実施形態において、グラフィクスコアアレイ４１４は、ビデオ及び／又は画像処理等のメディア機能を実行する実行ロジックを含む。一実施形態において、実行ユニットは、グラフィクス処理動作に加えて、並列な汎用計算動作を実行するようプログラム可能である汎用ロジックを含む。汎用ロジックは、図１のプロセッサコア１０７又は図２Ａのコア２０２Ａ〜２０２Ｎ内の汎用ロジックと並列に又はそれとともに処理動作を実行することができる。

グラフィクスコアアレイ４１４でのスレッド実行によって生成された出力データは、統合リターンバッファ（ＵＲＢ）４１８のメモリへデータを出力することができる。ＵＲＢ４１８は、複数のスレッドのデータを記憶することができる。いくつかの実施形態において、ＵＲＢ４１８は、グラフィクスコアアレイ４１４で実行される異なるスレッド間でデータを送るために使用されてよい。いくつかの実施形態において、ＵＲＢ４１８は更に、グラフィクスコアアレイ４１４でのスレッドと、共有機能ロジック４２０内の固定関数ロジックとの間の同期のために使用されてよい。

いくつかの実施形態において、グラフィクスコアアレイ４１４は、アレイがＧＰＥ４１０の目標電力及び性能レベルに基づいて可変数の実行ユニットを夫々有する可変数のグラフィクスコアをアレイが含むように、スケーラブルである。一実施形態において、実行資源は、実行資源が必要に応じて有効又は無効にされ得るように、動的にスケーラブルである。

グラフィクスコアアレイ４１４は、グラフィクスコアアレイ内のグラフィクスコア間で共有される複数の資源を含む共有機能ロジック４２０と結合する。共有機能ロジック４２０内の共有される機能は、特殊化された補助的機能をグラフィクスコアアレイ４１４に提供するハードウェアロジックユニットである。様々な実施形態で、共有機能ロジック４２０は、制限なしに、サンプラ４２１、マス４２２、及びインタースレッド通信（ＩＴＵ）４２３ロジックを含む。更に、いくつかの実施形態は、共有機能ロジック４２０内に１つ以上のキャッシュ４２５を実装する。

共有される機能は、少なくとも、所与の特殊機能に対する要求がグラフィクスコアアレイ４１４内の命令に対して不十分である場合に、実装される。代わりに、その特殊機能の単一のインスタンス化が、共有機能ロジック４２０においてスタンドアロンのエンティティとして実装され、グラフィクスコアアレイ４１４内の実行資源の間で共有される。グラフィクスコアアレイ４１４の間で共有され、グラフィクスコアアレイ４１４内に含まれる機能の厳密な組は、実施形態とともに変化する。いくつかの実施形態において、グラフィクスコアアレイ４１４によって広く使用される共有機能ロジック４２０内の特定の共有される機能は、グラフィクスコアアレイ４１４内の共有機能ロジック４１６内に含まれてもよい。様々な実施形態で、グラフィクスコアアレイ４１４内の共有機能ロジック４１６は、共有機能ロジック４２０内の一部又は全てのロジックを含むことができる。一実施形態において、共有機能ロジック４２０内の全ての論理要素は、グラフィクスコアアレイ４１４の共有機能ロジック４１６内で複製されてよい。一実施形態において、共有機能ロジック４２０は、グラフィクスコアアレイ４１４の共有機能ロジック４１６を支持して除かれる。

［実行ユニット］
図５Ａ〜５Ｂは、本明細書で記載される実施形態に従ってグラフィクスプロセッサで用いられる処理要素のアレイを含むスレッド実行ロジック５００を表す。本願のいずれかの他の図の要素と同じ参照番号（又は名称）を有している図５Ａ〜５Ｂの要素は、本明細書中のどこかで記載されているのと同様に動作又は機能することができるが、そのように制限されない。図５Ａ〜５Ｂは、図２Ｂの各サブコア２２１Ａ〜２２１Ｆにより表されたハードウェアロジックを表すことができるスレッド実行ロジック５００の概要を表す。図５Ａは、汎用グラフィクスプロセッサ内の実行ユニットを表し、図５Ｂは、計算アクセラレータ内で使用され得る実行ユニットを表す。

図５Ａに表されるように、いくつかの実施形態において、スレッド実行ロジック５００は、シェーダプロセッサ５０２と、スレッドディスパッチャ５０４と、命令キャッシュ５０６、複数の実行ユニット５０８Ａ〜５０８Ｎを含むスケーラブルな実行ユニットアレイと、サンプラ５１０と、共有ローカルメモリ５１１と、データキャッシュ５１２と、データポート５１４とを含む。一実施形態において、スケーラブルな実行ユニットアレイは、ワークロードの計算要件に基づいて１つ以上の実行ユニット（例えば、実行ユニット５０８Ａ、５０８Ｂ、５０８Ｃ、５０８Ｄ、乃至５０８Ｎ−１及び５０８Ｎのいずれか）を有効又は無効にすることによって動的にスケーリングされ得る。一実施形態において、含まれているコンポーネントは、コンポーネントの夫々へリンクするインターコネクトファブリックを介して相互接続される。いくつかの実施形態において、スレッド実行ロジック５００は、命令キャッシュ５０６、データポート５１４、サンプラ５１０、及び実行ユニット５０８Ａ〜５０８Ｎを通じて、システムメモリ又はキャッシュメモリ等のメモリへの１つ以上の接続を含む。いくつかの実施形態において、各実行ユニット（例えば、５０８Ａ）は、各スレッドについて並行して複数のデータ要素を処理しながら、複数の同時のハードウェアスレッドを実行可能であるスタンドアロンのプログラム可能な汎用計算ユニットである。様々な実施形態で、実行ユニット５０８Ａ〜５０８Ｎのアレイは、任意の数の個別の実行ユニットを含むようスケーラブルである。

いくつかの実施形態において、実行ユニット５０８Ａ〜５０８Ｎは、シェーダプログラムを実行するために主に使用される。シェーダプロセッサ５０２は、様々なシェーダプログラムを処理し、シェーダプログラムに関連する実行スレッドをスレッドディスパッチャ５０４によりディスパッチすることができる。一実施形態において、スレッドディスパッチャは、グラフィクス及びメディアパイプラインからのスレッド開始要求をアービトレーションし、要求されたスレッドを実行ユニット５０８Ａ〜５０８Ｎの中の１つ以上の実行ユニットでインスタンス化するロジックを含む。例えば、ジオメトリパイプラインは、処理のためにスレッド実行ロジックへ頂点、テッセレーション、又はジオメトリシェーダをディスパッチすることができる。いくつかの実施形態において、スレッドディスパッチャ５０４はまた、実行中のシェーダプログラムからのランタイムスレッド生成要求を処理することができる。

いくつかの実施形態において、実行ユニット５０８Ａ〜５０８Ｎは、グラフィクスファブリック（Ｄｉｒｅｃｔ３Ｄ及びＯｐｅｎＧＬ）からのシェーダプログラムが最小限の変換により実行されるように、多くの標準の３Ｄグラフィクスシェーダ命令のためのネイティブサポートを含む命令セットをサポートする。実行ユニットは、頂点及びジオメトリ処理（例えば、頂点プログラム、ジオメトリプログラム、頂点シェーダ）、ピクセル処理（例えば、ピクセルシェーダ、フラグメントシェーダ）、並びに汎用の処理（例えば、計算及びメディアシェーダ）をサポートする。実行ユニット５０８Ａ〜５０８Ｎの夫々は、マルチイシューなシングルインストラクション・マルチプルデータ（ＳＩＭＤ）実行が可能であり、マルチスレッド動作は、より長い待ち時間のメモリアクセスに直面して効率的な実行環境を可能にする。各実行ユニット内の各ハードウェアスレッドは、専用の高バンド幅レジスタファイル及び関連する独立したスレッド状態を有する。実行は、整数、単精度及び倍精度浮動小数点演算、ＳＩＭＤ分岐機能、論理演算、超越演算、及び他の様々な演算が可能なパイプラインに対してクロックごとにマルチイシューである。メモリ又は共有される機能の１つからのデータを待つ間、実行ユニット５０８Ａ〜５０８Ｎ内の従属ロジックは、要求されたデータが返されるまで活動を休止するよう待機スレッドを引き起こす。待機スレッドが一時停止している間、ハードウェア資源は、他のスレッドを処理することに投じられてよい。例えば、頂点シェーダ演算に関連した遅延中に、実行ユニットは、ピクセルシェーダ、フラグメントシェーダ、又は別の頂点シェーダを含む他のタイプのシェーダプログラムのための演算を実行することができる。様々な実施形態は、ＳＩＭＤの使用に対する代案として、又はＳＩＭＤの使用に加えて、シングルインストラクション・マルチプルスレッド（ＳＩＭＴ）の使用によって実行を使用するよう適用され得る。ＳＩＭＤコア又は演算への言及はまた、ＳＩＭＴも当てはまり、あるいは、ＳＩＭＴに加えされたＳＩＭＤにも当てはまる。

実行ユニット５０８Ａ〜５０８Ｎの中の各実行ユニットは、データ要素のアレイに作用する。データ要素の数は「実行サイズ」、又は命令のためのチャネルの数である。実行チャネルは、データ要素アクセス、マスキング、及び命令内のフロー制御のための実行の論理ユニットである。チャネルの数は、特定のグラフィクスプロセッサのための物理ＡＬＵ（Arithmetic Logic Units）又はＦＰＵ（Floating Point Units）の数に依存しない。いくつかの実施形態において、実行ユニット５０８Ａ〜５０８Ｎは、整数及び浮動小数点データタイプをサポートする。

実行ユニット命令セットは、ＳＩＭＤ命令を含む。様々なデータ要素は、レジスタにおいてパックデータタイプとして記憶され得、実行ユニットは、要素のデータサイズに基づいて様々な要素を処理する。例えば、２５６ビットワイドのベクトルに作用するとき、ベクトルの２５６ビットがレジスタに格納され、実行ユニットは、４つの別々の５４ビットのパックデータ要素（クワッドワード（ＱＷ）サイズデータ要素）、８つの別々の３２ビットのパックデータ要素（ダブルワード（ＤＷ）サイズデータ要素）、１６個の別々の１６ビットのパックデータ要素（ワード（Ｗ）サイズデータ要素）、又は３２個の別々の８ビットのデータ要素（バイト（Ｂ）サイズデータ要素）としてベクトルに作用する。なお、異なるベクトル幅及びレジスタサイズが可能である。

一実施形態において、１つ以上の実行ユニットは、融合されたＥＵに共通するスレッド制御ロジック（５０７Ａ〜５０７Ｎ）を有する融合実行ユニット５０９Ａ〜５０９Ｎにまとめられ得る。複数のＥＵは、ＥＵグループに融合され得る。融合ＥＵグループ内の各ＥＵは、別々のＳＩＭＤハードウェアスレッドを実行するよう構成され得る。融合ＥＵグループ内のＥＵの数は、実施形態に従って様々であることができる。その上、様々なＳＩＭＤ幅がＥＵごとに実行可能であり、制限なしに、ＳＩＭＤ８、ＳＩＭＤ１６、及びＳＩＭＤ３２がある。夫々の融合グラフィクス実行ユニット５０９Ａ〜５０９Ｎは、少なくとも２つの実行ユニットを含む。例えば、融合実行ユニット５０９Ａ〜５０９Ｎは、第１ＥＵ５０８Ａと、第２ＥＵ５０８Ｂと、第１ＥＵ５０８Ａ及び第２ＥＵ５０８Ｂに共通であるスレッド制御ロジック５０７Ａとを含む。スレッド制御ロジック５０７Ａは、融合グラフィクス実行ユニット５０９Ａで実行されるスレッドを制御し、融合実行ユニット５０９Ａ〜５０９Ｎ内の各ＥＵが共通命令ポインタレジスタを用いて実行することを可能にする。

１つ以上の内部命令キャッシュ（例えば、５０６）は、実行ユニットのためのスレッド命令をキャッシングするためにスレッド実行ロジック５００に含まれる。いくつかの実施形態において、１つ以上のデータキャッシュ（例えば、５０２）は、スレッド実行中にスレッドデータをキャッシングするために含まれる。実行ロジック５００で実行されるスレッドはまた、明示的に管理されているデータを共有ローカルメモリ５１１に格納することができる。いくつかの実施形態において、サンプラ５１０は、３Ｄ操作のためのテクスチャサンプリングと、メディア操作のためのメディアサンプリングとを提供するよう含まれる。いくつかの実施形態において、サンプラ５１０は、サンプリングされたデータを実行ユニットへ供給する前に、サンプリングプロセス中にテクスチャ又はメディアデータを処理するよう、特殊化されたテクスチャ又はメディアサンプリング機能を含む。

実行中に、グラフィクス及びメディアパイプラインは、スレッド生成及びディスパッチロジックを介してスレッド実行ロジック５００へスレッド開始要求を送る。幾何学的オブジェクトのグループが処理されピクセルデータにラスタライズされると、シェーダプロセッサ５０２内のピクセルプロセッサロジック（例えば、ピクセルシェーダロジック、フラグメントシェーダロジック、等）は、出力情報を更に計算し、結果が出力サーフェス（例えば、カラーバッファ、デプスバッファ、ステンシルバッファ、等）に書き込まれるようにするために、呼び出される。いくつかの実施形態において、ピクセルシェーダ又はフラグメントシェーダは、ラスタライズされたオブジェクトにわたって補間されるべきである様々な頂点属性の値を計算する。いくつかの実施形態において、シェーダプロセッサ５０２内のピクセルプロセッサロジックは次いで、アプリケーション・プログラミング・インターフェース（ＡＰＩ）によって供給されたピクセル又はフラグメントシェーダプログラムを実行する。シェーダプログラムを実行するよう、シェーダプロセッサ５０２は、スレッドディスパッチャ５０４を介して実行ユニット（例えば、５０８Ａ）へスレッドをディスパッチする。いくつかの実施形態において、シェーダプロセッサ５０２は、メモリに記憶されているテクスチャマップ内のテクスチャデータにアクセスするためにサンプラ５１０内のテクスチャサンプリングロジックを使用する。テクスチャデータ及び入力ジオメトリデータに対する算術演算は、夫々の幾何学的フラグメントについてピクセルカラーデータを計算し、あるいは、更なる処理から１つ以上のピクセルを捨てる。

いくつかの実施形態において、データポート５１４は、スレッド実行ロジック５００が、処理されたデータを、グラフィクスプロセッサ出力パイプラインでの更なる処理のためにメモリへ出力するために、メモリアクセスメカニズムを提供する。いくつかの実施形態において、データポート５１４は、データポートを介したメモリアクセスのためのデータをキャッシングする１つ以上のキャッシュメモリ（例えば、データキャッシュ５１２）を含むか、あるいは、それへ結合する。

一実施形態において、実行ロジック５００はまた、レイトレーシングアクセラレーション機能を提供することができるレイトレーサ５０５を含むことができる。レイトレーサ５０５は、光線生成のための命令／関数を含むレイトレーシング命令セットをサポートすることができる。レイトレーシング命令セットは、図２Ｃのレイトレーシングコア２４５によってサポートされるレイトレーシング命令セットと同様であるか、又はそれとは異なることができる。

図５Ｂは、実施形態に従う実行ユニット５０８の内部の詳細を例示する。グラフィクス実行ユニット５０８は、命令フェッチユニット５３７と、汎用レジスタファイルアレイ（ＧＲＦ）５２４と、アーキテクチャレジスタファイルアレイ（ＡＲＦ）５２６と、スレッドアービタ５２２と、送信ユニット５３０と、分岐ユニット５３２と、ＳＩＭＤ浮動小数点ユニット（ＦＰＵ）５３４の組と、一実施形態では、専用の整数ＳＩＭＤＡＬＵ５３５の組とを含むことができる。ＧＲＦ５２４及びＡＲＦ５２６は、グラフィクス実行ユニット５０８においてアクティブであることができる夫々の同時のハードウェアスレッドに関連した汎用レジスタファイル及びアーキテクチャレジスタファイルの組を含む。一実施形態において、スレッドごとのアーキテクチャ状態はＡＲＦ５２６で保持され、一方、スレッド実行中に使用されるデータはＧＲＦに格納される。各スレッドのための命令ポインタを含む各スレッドの実行状態は、ＡＲＦ５２６内のスレッド固有レジスタにおいて保持され得る。

一実施形態において、グラフィクス実行ユニット５０８は、同時マルチスレッディング（ＳＭＴ）及び細粒度（fine-grained）インターリーブ型（interleaved）マルチスレッディング（ＩＭＴ）の組み合わせであるアーキテクチャを有する。アーキテクチャは、同時スレッドの目標数及び実行ユニットごとのレジスタの数に基づいて設計時に微調整され得るモジュラー構成を有し、実行ユニット資源は、複数の同時スレッドを実行するために使用されるロジックにわたって分割される。グラフィクス実行ユニット５０８によって実行され得る論理スレッドの数は、ハードウェアスレッドの数に制限されず、複数の論理スレッドは、各ハードウェアスレッドに割り当てられ得る。

一実施形態において、グラフィクス実行ユニット５０８は、夫々異なる命令であることができる複数の命令を共同発行（co-issue）することができる。グラフィクス実行ユニットスレッド５０８のスレッドアービタ５２２は、命令を実行のために送信ユニット５３０、分岐ユニット５３２、又はＳＩＭＤＦＰＵ５３４のうちの１つへディスパッチすることができる。各実行スレッドは、ＧＲＦ５２４内の１２８個の汎用レジスタにアクセスすることができ、各レジスタは、３２ビットデータ要素のＳＩＭＤ８要素ベクトルとしてアクセス可能な３２バイトを記憶することができる。一実施形態において、各実行ユニットスレッドは、ＧＲＦ５２４内の４Ｋバイトへのアクセスを有するが、実施形態はそのように制限されず、より多い又はより少ないレジスタ資源が他の実施形態では設けられてよい。一実施形態において、グラフィクス実行ユニット５０８は、独立して計算動作を実行することができる７つのハードウェアスレッドにパーティショニングされるが、実行ユニットごとのスレッドの数も、実施形態に従って様々であることができる。例えば、一実施形態において、最大１６個のハードウェアスレッドがサポートされる。７つのスレッドが４Ｋバイトにアクセスし得る実施形態では、ＧＲＦ５２４は、全部で２８Ｋバイトを記憶することができる。１６個のスレッドが４Ｋバイトにアクセスし得る場合には、ＧＲＦ５２４は、全部で６４Ｋバイトを記憶することができる。フレキシブルアドレッシングモードは、事実上より広いレジスタを構築するために、又はストライドされた矩形ブロックデータ構造を表すために、レジスタが一緒にアドレッシングされることを可能にすることができる。

一実施形態において、メモリ動作、サンプラ動作、及び他のより長い待ち時間のシステム通信は、メッセージ通過送信ユニット５３０によって実行される「送信」命令を介してディスパッチされる。一実施形態において、分岐命令は、ＳＩＭＤ分岐及び最終的な収束を促進するために、専用の分岐ユニット５３２にディスパッチされる。

一実施形態において、グラフィクス実行ユニット５０８は、浮動小数点演算を実行するよう１つ以上のＳＩＭＤ浮動小数点ユニット（ＦＰＵ）５３４を含む。一実施形態において、ＦＰＵ５３４はまた、整数計算もサポートする。一実施形態において、ＦＰＵ５３４は、最大Ｍ回の３２ビット浮動小数点（又は整数）演算をＳＩＭＤ実行するか、あるいは、最大２Ｍ回の１６ビット整数又は１６ビット浮動小数点演算をＳＩＭＤ実行することができる。一実施形態において、ＦＰＵの少なくとも１つは、高スループットの超越マス関数及び倍精度の５４ビット浮動小数点をサポートするよう、拡張されたマス機能を提供する。いくつかの実施形態において、８ビット整数ＳＩＭＤＡＬＵ５３５の組も存在し、具体的に、機械学習計算に関連した演算を実行するよう最適化され得る。

一実施形態において、グラフィクス実行ユニット５０８の複数のインスタンスのアレイは、グラフィクスサブコアグルーピング（例えば、サブスライス）においてインスタンス化され得る。スケーラビリティのために、製品設計者は、サブコアグルーピングごとに実行ユニットの厳密な数を選択することができる。一実施形態において、実行ユニット５０８は、複数の実行チャネルにわたって命令を実行することができる。更なる実施形態では、グラフィクス実行ユニット５０８で実行される各スレッドは、異なるチャネルで実行される。

図６は、実施形態に従う更なる実行ユニット６００を表す。実行ユニット６００は、例えば、図３Ｃの計算エンジンタイル３４０Ａ〜３４０Ｄで使用される計算最適化（compute-optimized）実行ユニットであってよいが、そのようなものとして制限されない。実行ユニット６００の変形も、図３Bのグラフィクスエンジンタイル３１０Ａ〜３１０Ｂで使用されてよい。一実施形態において、実行ユニット６００は、スレッド制御ユニット６０１と、スレッド状態ユニット６０２と、命令フェッチ／プリフェッチユニット６０３と、命令復号化ユニット６０４とを含む。実行ユニット６００は、実行ユニット内のハードウェアスレッドに割り当てられ得るレジスタを記憶するレジスタファイル６０６を更に含む。実行ユニット６００は、送信ユニット６０７及び分岐ユニット６０８を更に含む。一実施形態において、送信ユニット６０７及び分岐ユニット６０８は、図５Ｂのグラフィクス実行ユニット５０８の送信ユニット５３０及び分岐ユニット５３２と同様に動作することができる。

実行ユニット６００はまた、多種多様なタイプの機能ユニットを含む計算ユニット６１０を含む。一実施形態において、計算ユニット６１０は、ＡＬＵのアレイを含むＡＬＵユニット６１１を含む。ＡＬＵユニット６１１は、６４ビット、３２ビット、及び１６ビットの整数及び浮動小数点演算を実行するよう構成され得る。整数及び浮動小数点演算は、同時に実行されてよい。計算ユニット６１０はまた、シストリックアレイ６１２及びマスユニット６１３を含むことができる。シストリックアレイ６１２は、ベクトル又は他のデータ並列演算をシストリックに実行するために使用され得るデータ処理ユニットの幅Ｗ及び深さＤのネットワークを含む。一実施形態において、シストリックアレイ６１２は、行列ドット積演算のような行列演算を実行するよう構成される。一実施形態において、シストリックアレイ６１２は、８ビット及び４ビットの整数演算とともに、１６ビットの浮動小数点演算をサポートする。一実施形態において、シストリックアレイ６１２は、機械学習演算をアクセラレーションするよう構成され得る。そのような実施形態では、シストリックアレイ６１２は、ｂｆｌｏａｔ１６ビット浮動小数点フォーマットのためのサポートを有して構成され得る。一実施形態において、マスユニット６１３は、ＡＬＵユニット６１１よりも効率的かつ低電力で数学演算の特定のサブセットを実行するよう含まれ得る。マスユニット６１３は、他の実施形態によって提供されるグラフィクス処理エンジンの共有機能ロジックで見受けられるマスロジック（例えば、図４の共有機能ロジック４２０のマスロジック４２２）の変形を含むことができる。一実施形態において、マスロジック６１３は、３２ビット及び６４ビット浮動小数点演算を実行するよう構成され得る。

スレッド制御ユニット６０１は、実行ユニット内のスレッドの実行を制御するロジックを含む。スレッド制御ユニット６０１は、実行ユニット６００内のスレッドの実行を開始、停止、及びプリエンプションするようスレッドアービトレーションロジックを含むことができる。スレッド状態ユニット６０２は、実行ユニット６００で実行するために割り当てられたスレッドのスレッド状態を記憶するために使用され得る。実行ユニット６００内のスレッド状態を記憶することは、それらのスレッドがブロック状態又はアイドル状態になる場合にスレッドの高速なプリエンプションを可能にする。命令フェッチ／プリフェッチユニット６０３は、より高位の実行ロジックの命令キャッシュ（例えば、図５Ａの命令キャッシュ５０６）から命令をフェッチすることができる。命令フェッチ／プリフェッチユニット６０３はまた、現在実行中のスレッドの解析に基づいて、命令が命令キャッシュにロードされるためのプリフェッチ命令を発行することができる。命令復号化ユニット６０４は、計算ユニットによって実行される命令を復号するために使用され得る。一実施形態において、命令復号化ユニット６０４は、復号命令を、構成要素であるマイクロオペレーションに復号するために、二次的な復号器として使用され得る。

実行ユニット６００は、実行ユニット６００でのハードウェアスレッド実行によって使用され得るレジスタファイル６０６を更に含む。レジスタファイル６０６内のレジスタは、実行ユニット６００の計算ユニット６１０内で複数の同時スレッドを実行するために使用されるロジックにわたって分割され得る。グラフィクス実行ユニット６００によって実行され得る論理スレッドの数は、ハードウェアスレッドの数に限られず、複数の論理スレッドが各ハードウェアスレッドに割り当てられ得る。レジスタファイル６０６のサイズは、サポートされるハードウェアスレッドの数に基づいて実施形態ごとに様々であることができる。一実施形態において、レジスタリネーミングが、レジスタをハードウェアスレッドに動的に割り当てるために使用されてよい。

図７は、いくつかの実施形態に従うグラフィクスプロセッサ命令フォーマット７００を表すブロック図である。１つ以上の実施形態で、グラフィクスプロセッサ実行ユニットは、複数のフォーマットで命令を有する命令セットをサポートする。実線ボックスは、一般的に実行ユニット命令に含まれるコンポーネントを表し、一方、破線は、任意であるか、又は命令のサブセットにしか含まれないコンポーネントを含む。いくつかの実施形態において、記載及び例示される命令フォーマット７００は、それらが、命令が処理されると命令復号化から得られるマイクロオペレーションとは対照的に、実行ユニットへ供給される点で、マクロ命令である。

いくつかの実施形態において、グラフィクスプロセッサ実行ユニットは、元々、１２８ビット命令フォーマット７１０で命令をサポートする。６４ビット圧縮命令フォーマット７３０は、選択された命令、命令オプション、及びオペランドの数に基づいて，いくつかの命令について利用可能である。生来の１２８ビット命令フォーマット７１０は、全ての命令オプションへのアクセスを提供する一方、いくつかのオプション及び演算は、６４ビットフォーマット７３０では制限される。６４ビットフォーマット７３０で利用可能な生来の命令は、実施形態によって様々である。いくつかの実施形態において、命令は、インデックスフィールド７１３内のインデックス値の組を用いて部分的に圧縮される。実行ユニットハードウェアは、インデックス値に基づいてコンパクションテーブルの組を参照し、コンパクションテーブル出力を使用して、１２８ビット命令フォーマット７１０における生来の命令を再構成する。他のサイズ及びフォーマットの命令が使用可能である。

フォーマットごとに、命令オペコード７１２は、実行ユニットが実行すべき動作を定義する。実行ユニットは、各オペランドの複数のデータ要素にわたって並行して各命令を実行する。例えば、加算命令に応答して、実行ユニットは、テクスチャ要素又はピクチャ要素を表す各カラーチャネルにわたって同時加算演算を実行する。デフォルトで、実行ユニットは、オペランドの全てのデータチャネルにわたって各命令を実行する。いくつかの実施形態において、命令制御フィールド７１４は、チャネル選択（例えば、プリディケーション（predication））及びデータチャネル順序（例えば、スウィズル（swizzle））等の特定の実行オプションに対する制御を有効にする。１２８ビット命令フォーマット７１０における命令の場合に、実行サイズ（exec-size）フィールド７１６は、並列実行されるデータチャネルの数を制限する。いくつかの実施形態において、実行サイズフィールド７１６は、６４ビット圧縮命令フォーマット７３０での使用に対しては利用可能でない。

いくつかの実行ユニット命令は、２つのソースオペランドＳＲＣ０７２０、ＳＲＣ１７２２と、１つのあて先７１８を含む最大３つのオペランドを有する。いくつかの実施形態において、実行ユニットは、二重あて先命令をサポートし、あて先の１つは暗黙である。データ操作命令は第３のソースオペランド（例えば、ＳＲＣ２７２４）を有することができ、命令オペコード７１２は、ソースオペランドの数を決定する。命令の最後のソースオペランドは、命令と一緒に送られる中間の（ハードコーディングされた）値であることができる。

いくつかの実施形態において、１２８ビット命令フォーマット７１０は、例えば、直接レジスタアドレッシングモード又は間接レジスタアドレッシングモードが使用されるかどうかを指定するアクセス／アドレスモードフィールド７２６を含む。直接レジスタアドレッシングモードが使用される場合に、１つ以上のオペランドのレジスタアドレスは、命令内のビットによって直接与えられる。

いくつかの実施形態において、１２８ビット命令フォーマット７１０は、命令のアドレスモード及び／又はアクセスモードを指定するアクセス／アドレスモードフィールド７２６を含む。一実施形態において、アクセスモードは、命令のデータアクセスアライメントを定義するために使用される。いくつかの実施形態は、１６バイトアライメントアクセスモード及び１バイトアライメントアクセスモードを含むアクセスモードをサポートし、アクセスモードのバイトアライメントは、命令オペランドのアクセスアライメントを決定する。例えば、第１モードにある場合に、命令は、ソース及びあて先オペランドのためにバイトアライメントアドレッシングを使用してよく、第２モードにある場合に、命令は、全てのソース及びあて先オペランドのために１６バイトアライメントアドレッシングを使用してよい。

一実施形態において、アクセス／アドレスモードフィールド７２６のアドレスモード部分は、命令が直接又は間接アドレッシングを使用すべきかどうかを決定する。直接レジスタアドレッシングモードが使用される場合に、命令内のビットは、１つ以上のオペランドのレジスタアドレスを直接与える。間接レジスタアドレッシングモードが使用されるばあいに、１つ以上のオペランドのレジスタアドレスは、命令内のアドレスレジスタ値及びアドレス中間フィールドに基づいて計算されてよい。

いくつかの実施形態において、命令は、オペコード復号化７４０を簡単にするためにオペコード７１２のビットフィールドに基づいてグループ化される。８ビットオペコードの場合に、ビット４、５及び６は、実行ユニットがオペコードのタイプを決定することを可能にする。示されている厳密なオペコードグルーピングは、一例に過ぎない。いくつかの実施形態において、移動／論理オペコードグループ７４２は、データ移動命令及び論理命令（例えば、移動（ｍｏｖ）、比較（ｃｍｐ））を含む。いくつかの実施形態において、移動及び論理グループ７４２は、５つの最上位ビット（ＭＳＢ）を共有し、移動（ｍｏｖ）命令は、００００ｘｘｘｘｂの形をとり、論理命令は、０００１ｘｘｘｂの形をとる。フロー制御命令グループ７４４（例えば、呼び出し、ジャンプ（ｊｍｐ））は、００１０ｘｘｘｂ（例えば、０ｘ２０）の形をとる。雑（miscellaneous）命令グループ７４６は、００１１ｘｘｘｂ（例えば、０ｘ３０）の形で同期化命令（例えば、待機、送信）を含む命令の混合を含む。並列マス命令グループ７４８は、０１００ｘｘｘｂ（例えば、０ｘ４０）の形で構成要素ごとの算術命令（例えば、加算、乗算（ｍｕｌ））を含む。並列マス命令グループ７４８は、データチャネルにわたって並列に算術演算を実行する。ベクトルマスグループ７５０は、０１０１ｘｘｘｂ（例えば、０ｘ５０）の形で算術命令（例えば、ｄｐ４）を含む。ベクトルマスグループ７５０は、ベクトルオペランドに対するドット積計算等の計算を実行する。表されているオペコード復号化７４０は、一実施形態において、実行ユニットのどの部分が復号された命令を実行するために使用されるかを決定するために、使用され得る。例えば、いくつかの命令は、シストリックアレイによって実行されるシストリック命令として設計されてよい。レイトレーシング命令（図示せず。）等の他の命令は、実行ロジックのスライス又はパーティション内のレイトレーシングコア又はレイトレーシングロジックへ送られ得る。

［グラフィクスパイプライン］
図８は、グラフィクスプロセッサ８００の他の実施形態のブロック図である。本願のいずれかの他の図の要素と同じ参照番号（又は名称）を有している図８の要素は、本明細書中のどこかで記載されているのと同様に動作又は機能することができるが、そのように制限されない。

いくつかの実施形態において、グラフィクスプロセッサ８００は、ジオメトリパイプライン８２０と、メディアパイプライン８３０と、ディスプレイエンジン８４０と、スレッド実行ロジック８５０と、レンダー出力パイプライン８７０とを含む。いくつかの実施形態において、グラフィクスプロセッサ８００は、１つ以上の汎用のプロセッシングコアを含むマルチコア処理システム内のグラフィクスプロセッサである。グラフィクスプロセッサは、１つ以上の制御レジスタへのレジスタ書き込みによって（図示せず。）、又はリングインターコネクト８０２を介してグラフィクスプロセッサ８００へ発行されたコマンドを介して、制御される。いくつかの実施形態において、リングインターコネクト８０２は、グラフィクスプロセッサ８００を、他のグラフィクスプロセッサ又は汎用プロセッサ等の他の処理コンポーネントへ結合する。リングインターコネクト８０２からのコマンドは、コマンドストリーマ８０３によって解釈される。コマンドストリーマ８０３は、命令をジオメトリパイプライン８２０又はメディアパイプライン８３０の個々のコンポーネントへ供給する。

いくつかの実施形態において、コマンドストリーマ８０３は、メモリから頂点データを読み出し、コマンドストリーマ８０３によって供給された頂点処理コマンドを実行する頂点フェッチャー８０５の動作を指示する。いくつかの実施形態において、頂点フェッチャー８０５は、頂点データを頂点シェーダ８０７へ供給し、頂点シェーダ８０７は、拡張点に対して座標空間変換及びライティング動作を実行する。いくつかの実施形態において、頂点フェッチャー８０５及び頂点シェーダ８０７は、実行スレッドを実行ユニット８５２Ａ〜８５２Ｂへスレッドディスパッチャ８３１を介してディスパッチすることによって、頂点処理命令を実行する。

いくつかの実施形態において、実行ユニット８５２Ａ〜８５２Ｂは、グラフィクス及びメディア演算を実行するための命令セットを有する頂点プロセッサのアレイである。いくつかの実施形態において、実行ユニット８５２Ａ〜８５２Ｂは、各アレイに固有であるか又はアレイ間で共有されるアタッチドＬ１キャッシュ８５１を有する。キャッシュは、データキャッシュ若しくは命令キャッシュ又は、データ及び命令を異なるパーティションに収容するようパーティショニングされている単一のキャッシュとして構成され得る。

いくつかの実施形態において、ジオメトリパイプライン８２０は、３Ｄオブジェクトのハードウェアアクセラレーションされたテッセレーションを実行するようテッセレーションコンポーネントを含む。いくつかの実施形態において、プログラム可能なハル（hull）シェーダ８１７は、テッセレーション出力のバックエンド評価を提供する。テッセレータ８１３は、ハルシェーダ８１１の指示で動作し、ジオメトリパイプライン８２０へ入力として供給される粗幾何モデルに基づいて詳細な幾何学的オブジェクトの組を生成する特別目的のロジックを含む。いくつかの実施形態において、テッセレーションが使用されない場合には、テッセレーションコンポーネント（例えば、ハルシェーダ８１１、テッセレータ８１３、及びドメインシェーダ８１７）はバイパスされ得る。

いくつかの実施形態において、完全な幾何学的オブジェクトは、実行ユニット８５２Ａ〜８５２Ｂへディスパッチされた１つ以上のスレッドを介してジオメトリシェーダ８１９によって処理され得るか、あるいは、クリッパ８２９へ直接進むことができる。いくつかの実施形態において、ジオメトリシェーダは、グラフィクスパイプラインの前の段階で見られるように頂点又は頂点のパッチではなく、幾何学的オブジェクトの全体に作用する。テッセレーションが無効にされる場合に、ジオメトリシェーダ８１９は、頂点シェーダ８０７から入力を受け取る。いくつかの実施形態において、ジオメトリシェーダ８１９は、テッセレーションユニットが無効にされる場合に、ジオメトリテッセレーションを実行するようジオメトリシェーダプログラムによってプログラム可能である。

ラスタライゼーションの前に、クリッパ８２９は、頂点データを処理する。クリッパ８２９は、クリッピング及びジオメトリシェーダ機能を有する固定関数クリッパ又はプログラム可能クリッパであってよい。いくつかの実施形態において、レンダー出力パイプライン８７０内のラスタライザ及びデプステストコンポーネント８７３は、幾何学的オブジェクトをピクセルごとの表現に変換するようピクセルシェーダをディスパッチする。いくつかの実施形態において、ピクセルシェーダロジックは、スレッド実行ロジック８５０に含まれる。いくつかの実施形態において、アプリケーションは、ラスタライザ及びデプステストコンポーネント８７３をバイパスし、ラスタライズされていない頂点データに、ストリーム出力ユニット８２３を介してアクセスすることができる。

グラフィクスプロセッサ８００は、プロセッサの主要なコンポーネントの間のデータ及びメッセージ通過を可能にするインターコネクトバス、インターコネクトファブリック、又はその他のインターコネクトメカニズムを有する。いくつかの実施形態において、実行ユニット８２５Ａ〜８２５Ｂ及び関連する論理ユニット（例えば、Ｌ１キャッシュ８５１、サンプラ８５４、テクスチャキャッシュ８５８、等）は、メモリアクセスを実行しかつプロセッサのレンダー出力パイプラインコンポーネントと通信するために、データポート８５６を介して相互接続する。いくつかの実施形態において、サンプラ８５４、キャッシュ８５１、８５８、及び実行ユニット８５２Ａ〜８５２Ｂは夫々、別々のメモリアクセスパスを有する。一実施形態において、テクスチャキャッシュ８５８はまた、サンプラキャッシュとして構成され得る。

いくつかの実施形態において、レンダー出力パイプライン８７０は、頂点に基づくオブジェクトを関連するピクセルに基づく表現に変換するラスタライザ及びデプステストコンポーネント８７３を含む。いくつかの実施形態において、ラスタライザロジックは、固定関数三角形及び直線ラスタライゼーションを実行するようウィンドウワ（windower）／マーカユニットを含む。関連するレンダーキャッシュ８７８及びデプスキャッシュ８７９も、いくつかの実施形態で利用可能である。ピクセル演算コンポーネント８７７は、データに対してピクセルに基づく演算を実行するが、いくつかの例では、２Ｄ動作（例えば、ブレンディングによるビットブロック画像移動）に関連したピクセル演算が２Ｄエンジン８４１によって実行されるか、あるいは、オーバーレイ表示面を用いてディスプレイコントローラ８４３によって表示時に置換される。いくつかの実施形態において、共有Ｌ３キャッシュ８７５は、全てのグラフィクスコンポーネントに利用可能であり、メインシステムメモリを使用せずにデータの共有を可能にする。

いくつかの実施形態において、グラフィクスプロセッサメディアパイプライン８３０は、メディアエンジン８３７及びビデオフロントエンド８３４を含む。いくつかの実施形態において、ビデオフロントエンド８３４は、コマンドストリーマ８０３からパイプラインコマンドを受け取る。いくつかの実施形態において、メディアパイプライン８３０は、別のコマンドストリーマを含む。いくつかの実施形態において、ビデオフロントエンド８３４は、コマンドをメディアエンジン８３７へ送る前に、メディアコマンドを処理する。いくつかの実施形態において、メディアエンジン８３７は、スレッドディスパッチャ８３１を介したスレッド実行ロジック８５０へのディスパッチのためにスレッドを生成するようスレッド生成機能を含む。

いくつかの実施形態において、グラフィクスプロセッサ８００は、ディスプレイエンジン８４０を含む。いくつかの実施形態において、ディスプレイエンジン８４０は、プロセッサ８００の外にあり、リングインターコネクト８０２又はその他のインターコネクトバス若しくはファブリックを介してグラフィクスプロセッサ８００と結合する。いくつかの実施形態において、ディスプレイエンジン８４０は、２Ｄエンジン８４１及びディスプレイコントローラ８４３を含む。いくつかの実施形態において、ディスプレイエンジン８４０は、３Ｄパイプラインから独立して動作可能な特別目的のロジックを含む。いくつかの実施形態において、ディスプレイコントローラ８４３は、表示デバイス（図示せず。）と結合する。表示デバイスは、ラップトップコンピュータのような、システムに一体化された表示デバイス、又は表示デバイスコネクタを介して取り付けられる外付け表示デバイスであってよい。

いくつかの実施形態において、ジオメトリパイプライン８２０及びメディアパイプライン８３０は、複数のグラフィクス及びメディアプログラミングインターフェースに基づいて動作を実行するよう構成可能であり、いずれか１つのアプリケーションプログラミングインターフェース（ＡＰＩ）に特有ではない。いくつかの実施形態において、グラフィクスプロセッサのためのドライバソフトウェアは、特定のグラフィクス又はメディアライブラリに特有であるＡＰＩコールを、グラフィクスプロセッサによって処理され得るコマンドに変換する。いくつかの実施形態において、サポートは、全てクロノスグループからであるオープン・グラフィクス・ライブラリ（ＯｐｅｎＧＬ）、オープン・コンピューティング言語（ＯｐｅｎＣＬ）、及び／又はヴァルカン（Vulkan）グラフィクス及びコンピュートＡＰＩのために提供される。いくつかの実施形態において、サポートはまた、マイクロソフト・コーポレーションからのＤｉｒｅｃｔ３Ｄライブラリのためにも提供されてよい。いくつかの実施形態において、それらのライブラリの組み合わせがサポートされてよい。サポートはまた、オープン・ソース・コンピュータ・ビジョン（ＯｐｅｎＣＶ）ライブラリのためにも提供されてよい。互換性がある３Ｄパイプラインを備えた将来のＡＰＩも、マッピングが将来のＡＰＩのパイプラインからグラフィクスプロセッサのパイプラインへ行われ得る場合にサポートされ得る。

［グラフィクスパイプラインプログラミング］
図９Ａは、いくつかの実施形態に従うグラフィクスプロセッサコマンドフォーマット９００を表すブロック図である。図９Ｂは、実施形態に従うグラフィクスプロセッサコマンドシーケンス９１０を表すブロック図である。図９Ａの実線ブロックは、一般的にグラフィクスコマンドに含まれるコンポーネントを表し、一方、破線は、任意であるか、又はグラフィクスコマンドのサブセットにしか含まれないコンポーネントを含む。図９Ａの例となるグラフィクスプロセッサコマンドフォーマット９００は、クライアント９０２、コマンド演算コード（オペコード）９０４、及びコマンドのためのデータ９０６を識別するデータフィールドを含む。サブオペコード９０５及びコマンドサイズ９０８も、いくつかのコマンドに含まれる。

いくつかの実施形態において、クライアント９０２は、コマンドデータを処理するグラフィクスデバイスのクライアントユニットを指定する。いくつかの実施形態において、グラフィクスプロセッサコマンドパーサは、コマンドの更なる処理を条件付けし、コマンドデータを適切なクライアントユニットへ送るよう、各コマンドのクライアントフィールドを調べる。いくつかの実施形態において、グラフィクスプロセッサクライアントユニットは、メモリンターフェースユニット、レンダーユニット、２Ｄユニット、３Ｄユニット、及びメディアユニットを含む。各クライアントユニットは、コマンドを処理する対応する処理パイプラインを有する。コマンドがクライアントユニットによって受け取られると、クライアントユニットは、オペコード９０４と、存在する場合には、サブオペコード９０５とを読み出して、実行すべき動作を決定する。クライアントユニットは、フィールド９０６内の情報を用いてコマンドを実行する。いくつかのコマンドについて、明示的なコマンドサイズ９０８が、コマンドのサイズを指定すると予期される。いくつかの実施形態において、コマンドパーサは、コマンドオペコードに基づいてコマンドの少なくともいくつかのサイズを自動的に決定する。いくつかの実施形態において、コマンドは、ダブルワードの倍数によりアライメントされる。他のコマンドフォーマットが使用可能である。

図９Ｂのフロー図は、例となるグラフィクスプロセッサコマンドシーケンス９１０を表す。いくつかの実施形態において、グラフィクスプロセッサの実施形態を特徴付けるデータ処理システムのソフトウェア又はファームウェアは、グラフィクス操作の組をセットアップし、実行し、終了するために、示されているコマンドシーケンスの変形を使用する。サンプルコマンドシーケンスは、実施形態がそれらの特定のコマンドに又はこのコマンドシーケンスに制限されないということで、単に例として図示及び記載されている。更に、コマンドは、グラフィクスプロセッサが少なくとも部分的に同時にコマンドのシーケンスを処理するように、コマンドシーケンス内のコマンドのバッチとして発行されてよい。

いくつかの実施形態において、グラフィクスプロセッサコマンドシーケンス９１０は、任意のアクティブなグラフィクスパイプラインに、パイプラインのための目下ペンディング中のコマンドを完了させるために、パイプラインフラッシュコマンド９１２から開始してよい。いくつかの実施形態において、３Ｄパイプライン９２２及びメディアパイプライン９２４は同時に動作しない。パイプラインフラッシュ（flush）は、アクティブなグラフィクスパイプラインに如何なるペンディング中のコマンドも完了させるよう実行される。パイプラインフラッシュに応答して、グラフィクスプロセッサのためのコマンドパーサは、アクティブな描画エンジンがペンディング中の演算を完了し、関連する読み出しキャッシュが無効にされるまで、コマンド処理を一時停止する。任意に、「ダーティ」（dirty）とマークされているレンダーキャッシュ内の如何なるデータも、メモリにフラッシュされ得る。いくつかの実施形態において、パイプラインフラッシュコマンド９１２は、パイプライン同期化のために、又はグラフィクスプロセッサを低電力状態に置く前に、使用され得る。

いくつかの実施形態において、コマンドシーケンスがグラフィクスプロセッサにパイプラインを明示的に切り替えるよう要求する場合に、パイプライン選択コマンド９１３が使用される。いくつかの実施形態において、パイプライン選択コマンド９１３は、コンテキストが両方のパイプラインに対するコマンドを発行すべきでない限り、パイプラインコマンドを発行する前に、実行コンテキスト内で一度だけ必要とされる。いくつかの実施形態において、パイプラインフラッシュコマンド９１２は、パイプライン選択コマンド９１３によるパイプライン切り替えの直前に必要とされる。

いくつかの実施形態において、パイプライン制御コマンド９１４は、動作のためにグラフィクスパイプラインを構成し、３Ｄパイプライン９２２及びメディアパイプライン９２４をプログラムするために使用される。いくつかの実施形態において、パイプライン制御コマンド９１４は、アクティブなパイプラインのパイプライン状態を構成する。一実施形態において、パイプライン制御コマンド９１４は、パイプライン同期化のために、かつ、コマンドのバッチを処理する前にアクティブなパイプライン内の１つ以上のキャッシュメモリからデータをクリアするために、使用される。

いくつかの実施形態において、リターンバッファ状態コマンド９１６は、各々のパイプラインがデータを書き込むようリターンバッファの組を構成するために使用される。いくつかのパイプライン動作は、動作が処理中に中間データを書き込む１つ以上のリターンバッファの割り当て、選択、又は構成を必要とする。いくつかの実施形態において、グラフィクスプロセッサはまた、出力データを記憶するために、かつ、クロススレッド通信を実行するために、１つ以上のリターンバッファを使用する。いくつかの実施形態において、リターンバッファ状態９１６は、パイプライン動作の組のために使用すべきリターンバッファのサイズ及び数を選択することを含む。

コマンドシーケンス内の残りのコマンドは、動作のためのアクティブなパイプラインに基づいて異なる。パイプライン決定９２０において、コマンドシーケンスは、３Ｄパイプライン９２２が３Ｄパイプライン状態９３０から始まること、又はメディアパイプライン９２４がメディアパイプライン状態９４０から始まることに合わせられる。

３Ｄパイプライン９２２を構成するためのコマンドは、３Ｄプリミティブコマンドが処理される前に構成されるべきである頂点バッファ状態、頂点要素状態、一定カラー状態、デプスバッファ状態、及び他の状態変数のための３Ｄ設定コマンドを含む。これらのコマンドの値は、使用中の特定の３ＤＡＰＩに少なくとも部分的に基づいて決定される。いくつかの実施形態において、３Ｄパイプライン状態９３０コマンドはまた、特定のパイプライン要素が使用されない場合に、それらの要素を選択的に無効にするか又はバイパスすることもできる。

いくつかの実施形態において、３Ｄプリミティブ９３２コマンドが、３Ｄパイプラインによって処理されるべき３Ｄプリミティブを発行するために使用される。３Ｄプリミティブ９３２コマンドを介してグラフィクスプロセッサへ送られるコマンド及び関連するパラメータは、グラフィクスパイプライン内の頂点フェッチ機能へ転送される。頂点フェッチ機能は、３Ｄプリミティブ９３２コマンドを使用して、頂点データ構造を生成する。頂点データ構造は、１つ以上のリターンバッファに格納される。いくつかの実施形態において、３Ｄプリミティブ９３２コマンドは、頂点シェーダにより３Ｄプリミティブに対して頂点演算を実行するために使用される。頂点シェーダを処理するために、３Ｄパイプライン９２２は、シェーダ実行スレッドをグラフィクスプロセッサ実行ユニットにディスパッチする。

いくつかの実施形態において、３Ｄパイプライン９２２は、実行９３４コマンド又はイベントによりトリガされる。いくつかの実施形態において、レジスタ書き込みがコマンド実行をトリガする。いくつかの実施形態において、実行は、コマンドシーケンス内の‘ｇｏ’又は‘ｋｉｃｋ’コマンドによりトリガされる。一実施形態において、コマンド実行は、グラフィクスパイプラインを通るコマンドシーケンスをフラッシュするためにパイプライン同期化コマンドを用いてトリガされる。３Ｄパイプラインは、３Ｄプリミティブのためのジオメトリ処理を実行する。動作が完了すると、結果として得られた幾何学的オブジェクトは、ラスタライズされ、ピクセルエンジンは、結果として得られたピクセルを彩色する。ピクセルシェーディング及びピクセルバックエンド動作を制御するための追加コマンドも、それらの動作に含まれてよい。

いくつかの実施形態において、グラフィクスプロセッサコマンドシーケンス９１０は、メディア演算を実行する場合にメディアパイプライン９２４パスを辿る。一般に、メディアパイプライン９２４のプログラミングの特定の使用及び様式は、実行されるメディア又は計算動作に依存する。特定のメディア復号化動作は、メディア復号化中にメディアパイプラインにオフロードされてよい。いくつかの実施形態において、メディアパイプラインはまた、バイパスされ得、メディア復号化は、全体として又は部分的に、１つ以上の汎用プロセッシングコアによって提供される資源を用いて実行される。一実施形態において、メディアパイプラインはまた、汎用グラフィクスプロセッサユニット（ＧＰＧＰＵ）動作のための要素を含み、グラフィクスプロセッサは、グラフィクスプリミティブのレンダリングに明示的には関係がない計算シェーダプログラムを用いてＳＩＭＤベクトル演算を実行するために使用される。

いくつかの実施形態において、メディアパイプライン９２４は、３Ｄパイプライン９２２と同様に構成される。メディアパイプライン状態９４０を構成するためのコマンドの組は、メディアオブジェクトコマンド９４２の前にコマンドキューにディスパッチ又は配置される。いくつかの実施形態において、メディアパイプライン状態９４０のためのコマンドは、メディアオブジェクトを処理するために使用されるメディアパイプライン要素を構成するデータを含む。これは、符号化又は複合化フォーマットのような、メディアパイプライン内のビデオ復号化及びビデオ符号化ロジックを構成するデータを含む。いくつかの実施形態において、メディアパイプライン状態９４０のためのコマンドはまた、状態設定のバッチを含む“間接的な”状態要素への１つ以上のポインタの使用をサポートする。

いくつかの実施形態において、メディアオブジェクトコマンド９４２は、メディアパイプラインによる処理ためにメディアオブジェクトへのポイントを供給する。メディアオブジェクトは、処理されるべきビデオデータを含むメモリバッファを含む。いくつかの実施形態において、全てのメディアパイプライン状態は、メディアオブジェクトコマンド９４２を発行する前に有効でなければならない。パイプライン状態が構成され、メディアオブジェクトコマンド９４２がキューイングされると、メディアパイプライン９２４は、実行コマンド９４４又は同等の実行イベント（例えば、レジスタ書き込み）によりトリガされる。メディアパイプライン９２４からの出力は次いで、３Ｄパイプライン９２２又はメディアパイプライン９２４によってもたらされる動作によって後処理されてよい。いくつかの実施形態において、ＧＰＧＰＵ動作は、メディア操作と同様に構成及び実行される。

［グラフィクスソフトウェアアーキテクチャ］
いくつかの実施形態に従うデータ処理システム１０００のグラフィクスソフトウェアアーキテクチャの例を表す。いくつかの実施形態において、ソフトウェアアーキテクチャは、３Ｄグラフィクスアプリケーション１０１０と、オペレーティングシステム１０２０と、少なくとも１つのプロセッサ１０３０とを含む。いくつかの実施形態において、プロセッサ１０３０は、グラフィクスプロセッサ１０３２と、１つ以上の汎用プロセッサコア１０３４とを含む。グラフィクスアプリケーション１０１０及びオペレーティングシステム１０２０は夫々、データ処理システムのシステムメモリ１０５０内のプログラムを実行する。

いくつかの実施形態において、３Ｄグラフィクスアプリケーション１０１０は、シェーダ命令１０１２を含む１つ以上のシェーダプログラムを含む。シェーダ言語命令は、Ｄｒｅｃｔ３ＤのＨＬＳＬ（High-Level Shader Language）、ＧＬＳＬ（OpenGL Shader Language）、等のような高位シェーダ言語にあってよい。アプリケーションは又は、汎用プロセッサコア１０３４による実行に適したマシン言語で実行可能命令１０１４を含む。アプリケーションはまた、頂点データによって定義されるグラフィクスオブジェクト１０１６を含む。

いくつかの実施形態において、オペレーティングシステム１０２０は、マイクロソフト・コーポレーションからのＭｉｃｒｏｓｏｆｔ（登録商標）Ｗｉｎｄｏｗｓ（登録商標）オペレーティングシステム、プロプライエタリＵＮＩＸ様のオペレーティングシステム、又はＬｉｎｕｘ（登録商標）カーネルの変形を用いるオープンソースＵＮＩＸ（登録商標）様のオペレーティングシステムである。オペレーティングシステム１０２０は、Ｄｉｒｅｃｔ３ＤＡＰＩ、ＯｐｅｎＧＬＡＰＩ、又はＶｕｌｋａｎＡＰＩのようなグラフィクスＡＰＩ１０２２をサポートすることができる。Ｄｉｒｅｃｔ３Ｄが使用中である場合に、オペレーティングシステム１０２０は、ＨＬＳＬにおける如何なる命令１０１２も下位シェーダ言語にコンパイルするためにフロントエンドシェーダコンパイラ１０２４を使用する。コンパイルは、ジャスト・イン・タイム（ＪＩＴ）のコンパイルであってよく、あるいは、アプリケーションは、シェーダ・プレコンパイルを実行することができる。いくつかの実施形態において、高位シェーダは、３Ｄグラフィクスアプリケーション１０１０のコンパイル中に下位シェーダにコンパイルされる。いくつかの実施形態において、シェーダ命令１０１２は、ＶｕｌｋａｎＡＰＩによって使用されるＳＰＩＲ（Standard Portable Intermediate Representation）の変形のような中間形態で提供される。

いくつかの実施形態において、ユーザモードグラフィクスドライバ１０２６は、シェーダ命令１０１２をハードウェア固有表現に変換するようバックエンドシェーダコンパイラ１０２７を含む。ＯｐｅｎＧＬＡＰＩが使用中である場合に、ＧＬＳＬ高位言語におけるシェーダ命令１０１２は、コンパイルのためにユーザモードグラフィクスドライバ１０２６へ送られる。いくつかの実施形態において、ユーザモードグラフィクスドライバ１０２６は、カーネルモードグラフィクスドライバ１０２９と通信するためにオペレーティングシステムカーネルモード機能１０２８を使用する。いくつかの実施形態において、カーネルモードグラフィクスドライバ１０２９は、コマンド及び命令をディスパッチするためにグラフィクスプロセッサ１０３２通信する。

［ＩＰコア実装］
少なくとも１つの実施形態の１つ以上の態様は、プロセッサのような集積回路内でロジックを表現及び／又は定義するマシン読み出し可能な媒体に記憶された代表コードによって実施されてよい。例えば、マシン読み出し可能な媒体は、プロセッサ内の様々なロジックを表す命令を含んでよい。マシンによって読み出される場合に、命令は、マシンに、本明細書で記載される技術を実行するようロジックを組み立てさせる。“ＩＰコア”として知られているそのような表現は、集積回路の構造を記述するハードウェアモデルとして有形なマシン読み出し可能な媒体に記憶され得る集積回路のためのロジックの再利用可能なユニットである。ハードウェアモデルは、集積回路を製造する製造機械にハードウェアモデルを搭載する製造設備の様々な顧客へ供給されてよい。集積回路は、本明細書で記載されるいずれか実施形態に関連して記載される動作を回路が実行するように組み立てられ得る。

図１１Ａは、実施形態に従う動作を実行するよう集積回路を製造するために使用され得るＩＰコア開発システム１１００を表すブロック図である。ＩＰコア開発システム１１００は、より大きい設計に組み込まれるか、又は集積回路全体（例えば、ＳＯＣ集積回路）を構成するために使用される得るモジュール式の再利用可能な設計を生成するために使用されてよい。設計設備１１３０は、高位プログラミング言語（例えば、Ｃ／Ｃ＋＋）におけるＩＰコア設計のソフトウェアシミュレーション１１１０を生成することができる。ソフトウェアシミュレーション１１１０は、シミュレーションモデル１１１２を用いてＩＰコアの挙動を設計し、試験し、及び検証するために使用され得る。シミュレーションモデル１１１２は、機能的、挙動的、及び／又はタイミング的シミュレーションを含んでよい。レジスタ転送レベル（ＲＴＬ）設計１１１５は、その場合に、シミュレーションモデル１１１２から作成又は合成され得る。ＲＴＬ設計１１１５は、モデル化されたデジタル信号を用いて実行される関連ロジックを含むハードウェアレジスタ間のデジタル信号のフローをモデル化する集積回路の挙動の抽象化である。ＲＴＬ設計１１１５に加えて、ロジックレベル又はトランジスタレベルでの下位設計も、作成、設計、又は合成されてよい。このようにして、初期設計及びシミュレーションの具体的な詳細は、様々であり得る。

ＲＴＬ設計１１１５又は同等物は更に、設計設備によってハードウェアモデル１１２０に合成されてよい。ハードウェアモデル１１２０は、ハードウェア記述言語（ＨＤＬ）又はその他の表現の物理設計データにあってよい。ＨＤＬは、ＩＰコア設計を検証するよう更にシミュレーション又は試験されてよい。ＩＰコア設計は、不揮発性メモリ１１４０（例えば、ハードディスク、フラッシュメモリ、又は任意の不揮発性記憶媒体）を用いてサードパーティの製造設備１１６５への供給のために記憶され得る。代替的に、ＩＰコア設計は、有線接続１１５０又は無線接続１１６０を介して（例えば、インターネットを介して）伝送されてもよい。製造設備１１６５はそれから、ＩＰコア設計に少なくとも部分的に基づく集積回路を製造し得る。製造された集積回路は、本明細書で記載される少なくとも１つの実施形態に従う動作を実行するよう構成され得る。

図１１Ｂは、本明細書で記載されるいくつかの実施形態に従う集積回路パッケージアセンブリ１１７０の断面側面図を表す。集積回路パッケージアセンブリ１１７０は、本明細書で記載される１つ以上のプロセッサ又はアクセラレータの実施を表す。パッケージアセンブリ１１７０は、基板１１８０へ接続されたハードウェアロジック１１７２、１１７４の複数のユニットを含む。ロジック１１７２、１１７４は、構成可能ロジック又は固定機能ロジックハードウェアにおいて少なくとも部分的に実装されてよく、プロセッサコア、グラフィクスプロセッサ、又は本明細書で記載される他のアクセラレータデバイスのいずれかの１つ以上の部分を含むことができる。ロジック１１７２、１１７４の各ユニットは、半導体ダイ内で実装され、インターコネクト構造１１７３を介して基板１１８０と結合され得る。インターコネクト構造１１７３は、ロジック１１７２、１１７４と基板１１８０との間で電気信号を送るよう構成されてよく、例えば、制限なしに、バンプ又はピラーのようなインターコネクトを含むことができる。いくつかの実施形態において、インターコネクト構造１１７３は、例えば、ロジック１１７２、１１７４の動作に関連した入出力（Ｉ／Ｏ）信号及び／又は電力若しくは接地信号のような電気信号を送るよう構成されてよい。いくつかの実施形態において、基板１１８０は、エポキシに基づいた積層基板である。基板１１８０は、他の実施形態では他の適切なタイプの基板を含んでもよい。パッケージアセンブリ１１７０は、パッケージインターコネクト１１８３を介して他の電気デバイスへ接続され得る。パッケージインターコネクト１１８３は、マザーボード、他のチップセット、又はマルチチップモジュールのような他の電気デバイスへ電気信号を送るよう基板１１８０の表面へ結合されてよい。

いくつかの実施形態において、ロジック１１７２、１１７４のユニットは、ロジック１１７２、１１７４の間で電気信号を送るよう構成されるブリッジ１１８２と電気的に結合されている。ブリッジ１１８２は、電気信号の経路を設ける密なインターコネクト構造であってよい。ブリッジ１１８２は、ガラス又は適切な半導体材料から成るブリッジ基板を含んでよい。電気ルーティング機構は、ロジック１１７２、１１７４の間のチップ間接属をもたらすようブリッジ基板上に形成され得る。

ロジック１１７２、１１７４の２つのユニットと、ブリッジ１１８２とが表されているが、本明細書で記載される実施形態は、１つ以上のダイ上により多い又はより少ないロジックを含んでもよい。１つ以上のダイは、ロジックが単一のダイ上に含まれているばあいにはブリッジ１１８２が除かれるということで、ゼロ又はそれ以上のブリッジによって接続され得る。代替的に、複数のダイ又はロジックのユニットが１つ以上のブリッジによって接続され得る。更に、複数のロジック、ユニット、ダイ、及びブリッジは、３次元構成を含む他の可能な構成では、一緒に接続され得る。

図１１Ｃは、基板１１８０（例えば、ベースダイ）へ接続されたハードウェアロジックチップレットの複数のユニットを含むパッケージアセンブリ１１９０を表す。本明細書で記載されるようなグラフィクス処理ユニット、並列プロセッサ、及び／又は計算アクセラレータは、別々に製造される多様なシリコンチップレットから成ることができる。これと関連して、チップレットは、より大きいパッケージに他のチップレットとともに組み立てられ得るロジックの別個のユニットを含む少なくとも部分的にパッケージ化された集積回路である。異なるＩＰコアロジックを備えたチップレットの多様な組が、単一のデバイスに組み立てられ得る。更に、チップレットは、アクティブインターポーザ技術を用いてベースダイ又はベースチップレットに組み込まれ得る。本明細書で記載される概念は、ＧＰＵ内で異なる形態のＩＰ間の相互接続及び通信を可能にする。ＩＰコアは、異なる加工技術を用いて製造され、製造中に組み立てられ得る。これは、特に、いくつかの種類のＩＰを含む大規模ＳｏＣ上で、複数のＩＰを同じ製造プロセスに集める複雑性を回避する。複数の加工技術の使用を可能にすることは、市場に出るまでの時間を改善し、複数の製品ＳＫＵを作る費用対効果の高い方法をもたらす。更に、非集合的なＩＰは、独立してパワーゲーティングされることに対してより従順であり、所与のワークロードに対して使用されていないコンポーネントは電源をオフされ、全体の電力消費を削減する。

ハードウェアロジックチップレットは、特別目的のハードウェアロジックチップレット１１７２、ロジック若しくはＩ／Ｏチップレット１１７４、及び／又はメモリチップレット１１７５を含む。ハードウェアロジックチップレット１１７２及びロジック若しくはＩ／Ｏチップレット１１７４は、構成可能ロジック又は固定機能ロジックハードウェアにおいて少なくとも部分的に実装されてよく、プロセッサコア、グラフィクスプロセッサ、並列プロセッサ、又は本明細書で記載される他のアクセラレータデバイスのいずれかの１つ以上の部分を含むことができる。メモリチップレット１１７５は、ＤＲＡＭ（例えば、ＧＤＤＲ、ＨＢＭ）メモリ又はキャッシュ（ＳＲＡＭ）メモリであることができる。

各チップレットは、別々の半導体ダイとして製造され、インターコネクト構造１１７３を介して基板１１８０と結合され得る。インターコネクト構造１１７３は、様々なチップレットと基板１１８０内のロジックとの間で電気信号を送るよう構成されてよい。インターコネクト構造１１７３は、例えば、制限なしに、バンプ又はピラーのようなインターコネクトを含むことができる。いくつかの実施形態において、インターコネクト構造１１７３は、例えば、ロジック、Ｉ／Ｏ及びメモリチップレット動作に関連した入出力（Ｉ／Ｏ
）信号及び／又は電力若しくは接地信号のような電気信号を送るよう構成されてよい。

いくつかの実施形態において、基板１１８０は、エポキシに基づいた積層基板である。基板１１８０は、他の実施形態では他の適切なタイプの基板を含んでもよい。パッケージアセンブリ１１９０は、パッケージインターコネクト１１８３を介して他の電気デバイスへ接続され得る。パッケージインターコネクト１１８３は、マザーボード、他のチップセット、又はマルチチップモジュールのような他の電気デバイスへ電気信号を送るよう基板１１８０の表面へ結合されてよい。

いくつかの実施形態において、ロジック若しくはＩ／Ｏチップレット１１７４及びメモリチップレット１１７５は、ロジック若しくはＩ／Ｏチップレット１１７４とメモリチップレット１１７５との間で電気信号を送るよう構成されるブリッジ１１８７を介して電気的に結合され得る。ブリッジ１１８７は、電気信号の経路を設ける密なインターコネクト構造であってよい。ブリッジ１１８７は、ガラス又は適切な半導体材料から成るブリッジ基板を含んでよい。電気ルーティング機構は、ロジック若しくはＩ／Ｏチップレット１１７４とメモリチップレット１１７５との間のチップ間接属をもたらすようブリッジ基板上に形成され得る。ブリッジ１１８７はまた、シリコンブリッジ又はインターコネクトブリッジとも呼ばれることがある。例えば、ブリッジ１１８７は、いくつかの実施形態において、ＥＭＩＢ（Embedded Multi-die Interconnect Bridge）である。いくつかの実施形態において、ブリッジ１１８７は、単に、１つのチップレットから他のチップレットへの直接接続であってもよい。

基板１１８０は、Ｉ／Ｏ１１９１、キャッシュメモリ１１９２、及び他のハードウェアロジック１１９３のためのハードウェアコンポーネントを含むことができる。ファブリック１１８５は、様々なロジックチップレットと基板１１８０内のロジック１１９１、１１９３との間の通信を可能にするよう基板１１８０に埋め込まれ得る。一実施形態において、Ｉ／Ｏ１１９１、ファブリック１１８５、キャッシュ、ブリッジ、及び他のハードウェアロジック１１９３は、基板１１８０の上に積層されているベースダイに組み込まれ得る。

様々な実施形態において、パッケージアセンブリ１１９０は、ファブリック１１８５又は１つ以上のブリッジ１１８７によって相互接続されているコンポーネント及びチップレットをより多く又はより少なく含むことができる。パッケージアセンブリ１１９０内のチップレットは、３Ｄ又は２．５Ｄ配置で配置されてよい。一般に、ブリッジ構造１１８７は、例えば、ロジック又はＩ／Ｏチップレットとメモリチップレットとの間の点どうしの接続を容易にするために使用されてよい。ファブリック１１８５は、様々なロジック及び／又はＩ／Ｏチップレット（例えば、チップレット１１７２、１１７４、１１９１、１１９３）を他のロジック及び／又はＩ／Ｏチップレットと相互接続するために使用され得る。一実施形態において、基板内のキャッシュメモリ１１９２は、パッケージアセンブリ１１９０のグローバルキャッシュとして、離散型グローバルキャッシュの部分として、又はファブリック１１８５のための専用のキャッシュとして動作することができる。

図１１Ｄは、実施形態に従って、交換可能なチップレット１１９５を含むパッケージアセンブリ１１９４を表す。交換可能なチップレット１１９５は、１つ以上のベースチップレット１１９６、１１９８の上の標準化されたスロットにアセンブルされ得る。ベースチップレット１１９６、１１９８は、ブリッジインターコネクト１１９７を介して結合され得る。ブリッジインターコネクト１１９７は、本明細書で記載される他のブリッジインターコネクトと同様であることができ、例えば、ＥＭＩＢであってよい。メモリチップレットも、ブリッジインターコネクトを介してロジック又はＩ／Ｏチップレットへ接続され得る。Ｉ／Ｏ及びロジックチップレットは、インターコネクトファブリックを介して通信することができる。ベースチップレットは夫々、ロジック又はＩ／Ｏ又はメモリ／キャッシュの１つのための標準化されたフォーマットで１つ以上のスロットを支持することができる。

一実施形態において、ＳＲＡＭ及び配電回路は、ベースチップレット１１９６、１１９８の１つ以上に製造され得る。これらは、ベースチップレットの上にスタックされる交換可能なチップレット１１９５に対して異なる加工技術を用いて製造され得る。例えば、ベースチップレット１１９６、１１９８は、より大規模な加工技術を用いて製造され得、一方、交換可能なチップレットは、より小規模な加工技術を用いて製造され得る。交換可能なチップレット１１９５の１つ以上は、メモリ（例えば、ＤＲＡＭ）チップレットであってよい。異なるメモリ密度が、パッケージアセンブリ１１９４を使用する製品に目標とされる性能及び／又は電力に基づいて、パッケージアセンブリ１１９４のために選択され得る。更に、多種多様な機能ユニットを備えたロジックチップレットが、製品に目標とされる性能及び／又は電力に基づいて組み立て時に選択され得る。更に、様々なタイプのＩＰロジックコアを含むチップレットが、交換可能なチップレットスロットに挿入可能であり、異なる技術によるＩＰブロックを混合し整合させることができる複合的なプロセッサ設計を可能にする。

［チップ集積回路上のシステムの例］
図１２〜１３は、本明細書で記載される様々な実施形態に従って、１つ以上のＩＰコアを用いて製造され得る集積回路及び関連するグラフィクスプロセッサの例を表す。表されているものに加えて、追加のグラフィクスプロセッサ／コア、ペリフェラルインターフェースコントローラ、又は汎用プロセッサコアを含む他のロジック及び回路が含まれてもよい。

図１２は、実施形態に従って、１つ以上のＩＰコアを用いて製造され得るチップ集積回路１２００上のシステムを例示するブロック図である。例となる集積回路１２００は、１つ以上のアプリケーションプロセッサ１２０５（例えば、ＣＰＵ）及び少なくとも１つのグラフィクスプロセッサ１２１０を含み、更には、画像プロセッサ１２１５及び／又はビデオプロセッサ１２２０を含んでもよい。それらのいずれも、同じか又は複数の異なった設計設備からのモジュラーＩＰコアであってよい。集積回路１２００は、ＵＳＢコントローラ１２２５、ＵＡＲＴコントローラ１２３０、ＳＰＩ／ＳＤＩＯコントローラ１２３５、及びＩ^２Ｓ／Ｉ^２Ｃコントローラ１２４０を含むペリフェラル又はバスロジックを含む。更に、集積回路１２００は、高精細マルチメディアインターフェース（ＨＤＭＩ（登録商標））コントローラ１２５０及びモバイルインダストリプロセッサインターフェース（ＭＩＰＩ）表示インターフェース１２５５のうちの１つ以上へ結合された表示デバイス１２４５を含むことができる。フラッシュメモリ及びフラッシュメモリコントローラを含むフラッシュメモリサブシステム１２６０によって、ストレージが提供され得る。メモリインターフェースは、ＳＤＲＡＭ又はＳＲＡＭメモリデバイスへのアクセスのためにメモリコントローラ１２６５を介して提供され得る。いくつかの集積回路は、埋め込みセキュリティエンジン１２７０を更に含む。

図１３Ａ〜１３Ｂは、本明細書で記載される実施形態に従って、ＳｏＣ内で使用されるグライフィスクプロセッサを例示するブロック図である。図１３Ａは、実施形態に従って、１つ以上のＩＰコアを用いて製造され得るチップ集積回路上のシステムのグラフィクスプロセッサ１３１０を例示する。図１３Ｂは、実施形態に従って、１つ以上のＩＰコアを用いて製造され得るチップ集積回路上のシステムのグラフィクスプロセッサ１３４０の更なる例を表す。図１３Ａのグラフィクスプロセッサ１３１０は、低電力グラフィクスプロセッサコアの一例である。図１３Ｂのグラフィクスプロセッサ１３４０は、より高性能のグラフィクスプロセッサコアの一例である。グラフィクスプロセッサ１３１０、１３４０の夫々は、図１２のグラフィクスプロセッサ１２１０の変形であることができる。

図１３Ａに示されるように、グラフィクスプロセッサ１３１０は、頂点プロセッサ１３０５と、１つ以上のフラグメントプロセッサ１３１５Ａ〜１３１５Ｎ（例えば、１３１５Ａ、１３１５Ｂ、１３１５Ｃ、１３１５Ｄ、乃至１３１５Ｎ−１及び、１３１５Ｎ）とを含む。グラフィクスプロセッサ１３１０は、頂点プロセッサ１３０５が頂点シェーダプログラムの動作を実行するよう最適化され、一方、１つ以上のフラグメントプロセッサ１３１５Ａ〜１３１５Ｎがフラグメント又はピクセルシェーダプログラムのフラグメント（例えば、ピクセル）シェーディング動作を実行するように、別個のロジックを介して異なるシェーダプログラムを実行することができる。頂点プロセッサ１３０５は、３Ｄグラフィクスパイプラインの頂点処理段階を実行し、プリミティブ及び頂点データを生成する。フラグメントプロセッサ１３１５Ａ〜１３１５Ｎは、表示デバイスで表示されるフレームバッファを生成するよう、頂点プロセッサ１３０５によって生成されたプリミティブ及び頂点データを使用する。一実施形態において、フラグメントプロセッサ１３１５Ａ〜１３１５Ｎは、Ｄｉｒｅｃｔ３Ｄにおいて提供されるようなピクセルシェーダプログラムと同様の動作を実行するために使用され得る、ＯｐｅｎＧＬＡＰＩで提供されるようなフラグメントシェーダプログラムを実行するよう最適化される。

グラフィクスプロセッサ１３１０は、１つ以上のメモリ管理ユニット（ＭＭＵ）１３２０Ａ〜１３２０Ｂと、キャッシュ１３２５Ａ〜１３２５Ｂと、回路インターコネクト１３３０Ａ〜１３３０Ｂとを更に含む。１つ以上のＭＭＵ１３２０Ａ〜１３２０Ｂは、頂点プロセッサ１３０５及び／又はフラグメントプロセッサ１３１５Ａ〜１３１５Ｎを含むグラフィクスプロセッサ１３１０のために仮想アドレスから物理アドレスへのマッピングを提供する。グラフィクスプロセッサ１３１０は、１つ以上のキャッシュ１３２５Ａ〜１３２５Ｂに記憶されている頂点又は画像／テクスチャデータに加えて、メモリに記憶されている頂点又は画像／テクスチャデータを参照してよい。一実施形態において、１つ以上のＭＭＵ１３２０Ａ〜１３２０Ｂは、図１２の１つ以上のアプリケーションプロセッサ１２０５、画像プロセッサ１２１５、及び／又はビデオプロセッサ１２２０に関連した１つ以上のＭＭＵを含むシステム内の他のＭＭＵと同期し得る。それにより、各プロセッサ１２０５〜１２２０は、共有又は統合された仮想メモリシステムに参加することができる。１つ以上の回路インターコネクト１３３０Ａ〜１３３０Ｂは、実施形態に従って、グラフィクスプロセッサ１３１０が、ＳｏＣの内部バスを介して、又は直接接続を介して、ＳｏＣ内の他のＩＰコアとインターフェース接続することを可能にする。

図１３Ｂに示されるように、グラフィクスプロセッサ１３４０は、図１３Ａのグラフィクスプロセッサ１３１０の１つ以上のＭＭＵ１３２０Ａ〜１３２０Ｂ、キャッシュ１３２５Ａ〜１３２５Ｂ、及び回路インターコネクト１３３０Ａ〜１３３０Ｂを含む。グラフィクスプロセッサ１３４０は、頂点シェーダ、フラグメントシェーダ、及び／又は計算シェーダを含む全タイプのプログラム可能シェーダコードを単一のコア又は単一のタイプのコアが実行することができる統合されたシェーダコアアーキテクチャを提供する１つ以上のシェーダコア１３５５Ａ〜１３５５Ｎ（例えば、１３５５Ａ、１３５５Ｂ、１３５５Ｃ、１３５５Ｄ、１３５５Ｅ、１３５５Ｆ、乃至１３５５Ｎ−１、及び１３５５Ｎ）を含む。存在するシェーダコアの厳密な数は、実施形態及び実施の間で様々であることができる。更に、グラフィクスプロセッサ１３４０は、１つ以上のシェーダコア１３５５Ａ〜１３５５Ｎに実行スレッドをディスパッチするスレッドディスパッチャとして動作するコア間タスクマネージャ１３４５と、タイルベースのレンダリングのためのタイリング動作をアクセラレーションするタイリングユニット１３５８とを含む。タイルベースのレンダリングにおいて、シーンのレンダリング動作は、例えば、シーン内の局所空間コヒーレンスを利用するために、又は内部キャッシュの使用を最適化するために、画像空間において細分される。

図１４は、コンピュータデバイス１４００の一実施形態を表す。コンピュータデバイス１４００（例えば、スマートウェアラブルデバイス、仮想現実（ＶＲ）デバイス、ヘッドマウントディスプレイ（ＨＤＭ）、モバイルコンピュータ、インターネット・オブ・シングス（ＩｏＴ）デバイス、ラップトップコンピュータ、デスクトップコンピュータ、サーバコンピュータ、等）は、図１のデータ処理システム１００と同じであってよく、従って、簡潔さ、明りょうさ、及び理解の容易のために、図１〜１３を参照して上述された詳細の多くは、以降でこれ以上議論されたり繰り返されたりしない。

コンピュータデバイス１４００は、サーバコンピュータのような大規模コンピュータシステムや、デスクトップコンピュータ等のような、任意の数及びタイプの通信デバイスを含んでよく、セットトップボックス（例えば、インターネットに基づくケーブルテレビセットトップボックス、等）、グローバルポジショニングシステム（ＧＰＵ）に基づくデバイス、等を更に含んでもよい。コンピュータデバイス１４００は、スマートフォンを含む携帯電話機、パーソナルデジタルアシスタント（ＰＤＡ）、タブレットコンピュータ、ラップトップコンピュータ、電子リーダー、スマートテレビ、テレビジョンプラットフォーム、ウェアラブルデバイス（例えば、メガネ、時計、ブレスレット、スマートカード、宝石、洋服小物、等）、メディアプレイヤー、等のような、通信デバイスとして機能するモバイルコンピュータデバイスを含んでもよい。例えば、一実施形態において、コンピュータデバイス１４００は、単一チップ上にコンピュータデバイス１４００の様々なハードウェア及び／又はソフトウェアコンポーネントを組み込むシステム・オン・ア・チップ（“ＳｏＣ”又は“ＳＯＣ”）のような集積回路（“ＩＣ”）をホストするコンピュータプラットフォームを用いるモバイルコンピュータデバイスを含んでよい。

表されているように、一実施形態において、コンピュータデバイス１４００は、例えば、（制限なしに）ＧＰＵ１４１４、グラフィクスドライバ（「ＧＰＵドライバ」、「グラフィクスドライバロジック」、「ドライバロジック」、「ユーザモードドライバ（ＵＭＤ）」、「ＵＭＤ」、「ユーザモードドライバフレームワーク（ＵＭＤＦ）」、「ＵＭＤＦ」、又は単に「ドライバ」とも呼ばれる。）１４１６、ＣＰＵ１４１２、メモリ１４０８、ネットワークデバイス、ドライバ、等、並びにタッチスクリーン、タッチパネル、タッチパッド、仮想若しくは標準キーボード、仮想若しくは標準マウス、ポート、コネクタ、等のような入出力（Ｉ／Ｏ）ソース１４０４といった任意の数及びタイプのハードウェア及び／又はソフトウェアコンポーネントを含んでよい。

コンピュータデバイス１４００は、コンピュータデバイス１９００のハードウェア及び／又は物理資源とユーザとの間のインターフェースとして機能するオペレーティングシステム（ＯＳ）１４０６を含んでよい。ＣＰＵ１４１２は、１つ以上のプロセッサを含んでよく、一方、ＧＰＵ１４１４は、１つ以上のグラフィクスプロセッサを含んでよいことが企図される。

留意されるべきは、「ノード」、「コンピュータノード」、「サーバ」、「サーバデバイス」、「クラウドコンピュータ」、「クラウドサーバ」、「クラウドサーバコンピュータ」、「マシン」、「ホストマシン」、「デバイス」、「コンピュータデバイス」、「コンピュータ」、「コンピュータシステム」等のような用語は、本文書の全体にわたって同義的に使用され得る点である。更に留意されるべきは、「アプリケーション」、「ソフトウェアアプリケーション」、「プログラム」、「ソフトウェアプログラム」、「パッケージ」、「ソフトウェアパッケージ」等のような用語は、本文書の全体にわたって同義的に使用され得る点である。また、「ジョブ」、「入力」、「リクエスト」、「メッセージ」等のような用語は、本文書の全体にわたって同義的に使用され得る。

図１〜１３を参照して更に記載されるように、上記のグラフィクスパイプラインのいくつかのプロセスはソフトウェアで実装され、一方、残りはハードウェアで実装されることが企図される。グラフィクスパイプラインは、ＣＰＵ１４１２が、ＣＰＵ１４１２に含まれるか又はそれと共在し得るＧＰＵ１４１４とともに動作するよう設計されるところのグラフィクスプロセッサ設計で実装されてよい。一実施形態において、ＧＰＵ１４１４は、任意の数及びタイプの命令を実行するための新規のソフトウェア及びハードウェアロジックに加えて、グラフィクスレンダリングに関する従来の機能を実行するための任意の数及びタイプの従来のソフトウェア及びハードウェアロジックを用いてよい。

上述されたように、メモリ１４０８は、オブジェクト情報を有するアプリケーションデータベースを含むランダムアクセスメモリ（ＲＡＭ）を含んでよい。メモリコントローラハブは、ＲＡＭ内のデータにアクセスし、それをグラフィクスパイプライン処理のためにＧＰＵ１４１４へ転送してよい。ＲＡＭは、ダブルデータレートＲＡＭ（ＤＤＲＲＡＭ）、拡張データ出力ＲＡＭ（ＥＤＯＲＡＭ）、等を含んでよい。ＣＰＵ１４１２は、グラフィクスパイプライン機能を共有するようハードウェアグラフィクスパイプラインと相互作用する。

処理されたデータは、ハードウェアグラフィクスパイプライン内のバッファに格納され、状態情報がメモリ１４０８に格納される。結果として得られた画像は、次いで、画像の表示のための表示コンポーネントのようなＩ／Ｏソース１４０４へ転送される。表示デバイスは、情報をユーザに表示するよう、陰極線管（ＣＲＴ）、薄膜トランジスタ（ＴＦＴ）、液晶ディスプレイ（ＬＣＤ）、有機発光ダイオード（ＯＬＥＤ）アレイ、等のような様々なタイプであってよい。

メモリ１４０８は、バッファ（例えば、フレームバッファ）の事前に割り当てられた領域を有し得るが、当業者に当然ながら、実施形態はそのように制限されず、下位グラフィクスパイプラインがアクセス可能な如何なるメモリも使用されてよい。コンピュータデバイス１４００は、１つ以上のＩ／Ｏソース１４０４等として、図１で言及されているプラットコントローラハブ（ＰＣＨ）１３０を更に含んでよい。

ＣＰＵ１４１２は、コンピュータシステムが実装するソフトウェアルーチンは何でも実行するために命令を実行するよう１つ以上のプロセッサを含んでよい。命令はしばしば、データに対して実行された動作の何らかのソートを伴う。データ及び命令は両方とも、システムメモリ１４０８よりも短いレイテンシ時間を有するよう通常は設計され、例えば、キャッシュは、プロセッサと同じシリコンチップ上に組み込まれ、かつ／あるいは、より高速な静的ＲＡＭ（ＳＲＡＭ）セルにより構成されてよく、一方、システムメモリ１４０８は、より遅い動的ＲＡＭ（ＤＲＡＭ）セルにより構成されてよい。システムメモリ１４０８とは対照的に、より頻繁に使用される命令及びデータをキャッシュに格納する傾向があることによって、コンピュータデバイス１４００の全体の性能効率は改善する。いくつかの実施形態において、ＧＰＵ１４１４は、ＣＰＵ１４１２の部分（例えば、物理的なＣＰＵパッケージの部分）として存在してよく、この場合に、メモリ１４０８は、ＣＰＵ１４１２及びＧＰＵ１４１４によって供給されるか、あるいは、分離されたままであってよい、ことが企図される。

システムメモリ１４０８は、コンピュータデバイス１４００内の他のコンポーネントに利用可能にされてもよい。例えば、様々なインターフェースからコンピュータデバイス１４００（例えば、キーボード及びマウス、プリンタポート、ローカルエリアネットワーク（ＬＡＮ）ポート、モデムポート等）へ受け取られた、又はコンピュータデバイス１４００の内部記憶要素（例えば、ハードディスクドライブ）から読み出された如何なるデータ（例えば、入力グラフィクスデータ）も、ソフトウェアプログラムの実施において１つ以上のプロセッサによって作用される前に、しばしばシステムメモリ１４０８に一時的にキューイングされる。同様に、ソフトウェアプログラムが、コンピュータデバイス１４００から外部エンティティへコンピュータシステムインターフェースの１つを通じて送られるか、あるいは、内部記憶要素に格納されるべきであると決定するデータは、しばしば、送信又は記憶される前に、システムメモリ１４０８に一時的にキューイングされる。

更に、例えば、ＰＣＨは、そのようなデータがシステムメモリ１４０８とその適切な対応するコンピュータシステムインターフェース（及びコンピュータシステムがそのように設計される場合には内部記憶デバイス）との間で適切に受け渡しされることを確かにするために使用されてよく、それ自体と監視されるＩ／Ｏソース／デバイス１４０４との間に双方向のポイント・ツー・ポイントリンクを有してよい。同様に、ＭＣＨは、互いに時間的に近接して発生する可能性のあるＣＰＵ１４１２及びＧＰＵ１４１４、インターフェース、並びに内部記憶要素の間のシステムメモリ１４０８のアクセスに対する様々な競合する要求を管理するために使用されてよい。

Ｉ／Ｏソース１４０４は、コンピュータデバイス１４００（例えば、ネットワーキングアダプタ）へ及び／又はそれからデータを転送するために、あるいは、コンピュータデバイス１４００内の大規模不揮発性ストレージ（例えば、ハードディスクドライブ）のために実装される１つ以上のＩ／Ｏデバイスを含んでよい。英数字及び他のキーを含むユーザ入力デバイスは、情報及びコマンド選択をＧＰＵ１４１４へ送るために使用されてよい。他のタイプのユーザ入力デバイスは、マウス、トラックボール、タッチスクリーン、タッチパッド、又はカーソル指示キーのようなカーソルコントロールであり、方向情報及びコマンド選択をＧＰＵ１４１４へ送り、かつ、表示デバイス上でのカーソル移動を制御する。コンピュータデバイス１４００のカメラ及びマイクロホンアレイは、ジェスチャを観測し、音声及び映像を記録し、かつ視覚及び音声コマンドを送受信するために、用いられてよい。

コンピュータデバイス１４００は、ＬＡＮ、ワイドエリアネットワーク（ＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、パーソナルエリアネットワーク（ＰＡＮ）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、クラウドネットワーク、モバイルネットワーク（例えば、第３世代（３Ｇ）、第４世代（４Ｇ）等）、イントラネット、インターネット、等のようなネットワークへのアクセスを提供するようネットワークインターフェースを更に含んでよい。ネットワークインターフェースは、例えば、アンテナを備えた無線ネットワークインターフェースを含んでよく、アンテナは、１つ以上のアンテナに相当してよい。ネットワークインターフェースはまた、例えば、ネットワークケーブルを介して遠隔のデバイスと通信するよう有線ネットワークインターフェースを含んでもよく、ネットワークケーブルは、例えば、Ｅｔｈｅｒｎｅｔ（登録商標）ケーブル、同軸ケーブル、光ファイバ、シリアルケーブル、又はパラレルケーブルであってよい。

ネットワークインターフェースは、例えば、ＩＥＥＥ８０２．１１ｂ及び／又はＩＥＥＥ８０２．１１ｇ標準に従うことによって、ＬＡＮへのアクセスを提供してよく、かつ／あるいは、無線ネットワークインターフェースは、例えば、Ｂｌｕｅｔｏｏｔｈ標準に従うことによって、パーソナルエリアネットワークへのアクセスを提供してよい。従前の及び後続のバージョンの標準を含む他の無線ネットワークインターフェース及び／又はプロトコルもサポートされ得る。無線ＬＡＮ標準による通信に加えて、又はそれに代えて、ネットワークインターフェースは、例えば、時分割多重アクセス（ＴＤＭＡ）プロトコル、ＧＳＭ（Global Systems for Mobile communications）プロトコル、符号分割多重アクセス（ＣＤＭＡ）プロトコル、及び／又はあらゆる他のタイプの無線通信プロトコルを使用して、無線通信を提供してよい。

ネットワークインターフェースは、モデム、ネットワークインターフェースカード、又は他のよく知られたインターフェースデバイス、例えば、Ｅｔｈｅｒｎｅｔ、トークンリング、又はＬＡＮ若しくはＷＡＮをサポートする通信リンクを提供することを目的とした他のタイプの物理有線若しくは無線アタッチメントを結合するために使用されるもののような１つ以上の通信インターフェースを含んでよい。このようにして、コンピュータシステムはまた、多数の周辺機器、クライアント、制御サーフェス、コンソール、又はサーバへ、例えば、イントラネット又はインターネットを含む従来のネットワークインフラストラクチャを介して、結合され得る。

当然ながら、上記の例よりも装備が少ない又は多いシステムが特定の実施のために好まれることがある。従って、コンピュータデバイス１４００の構成は、価格制約、性能要件、技術的改善、又は他の環境のような多数の因子に応じて、実施ごとに変化し得る。電子デバイス又はコンピュータデバイス１４００の例には、（制限なしに）モバイルデバイス、パーソナルデジタルアシスタント、モバイルコンピュータデバイス、スマートフォン、携帯電話機、ハンドセット、１方向ページャー、双方向ページャー、メッセージングデバイス、コンピュータ、パーソナルコンピュータ（ＰＣ）、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、手持ち式コンピュータ、タブレットコンピュータ、サーバ、サーバアレイ又はサーバファーム、ウェブサーバ、ネットワークサーバ、インターネットサーバ、ワークステーション、ミニコンピュータ、メインフレームコンピュータ、スーパーコンピュータ、ネットワークアプライアンス、ウェブアプライアンス、分散コンピュータシステム、マルチプロセッサシステム、プロセッサベースシステム、コンシューマエレクトロニクス、プログラム可能コンシューマエレクトロニクス、テレビ受像機、デジタルテレビ受像機、セットトップボックス、無線アクセスポイント、基地局、加入者局、モバイル加入者センタ、無線ネットワークコントローラ、ルータ、ハブ、ゲートウェイ、ブリッジ、スイッチ、マシン、又はそれらの組み合わせがある。

実施形態は、ペアレントボードを用いて相互接続された１つ以上のマイクロチップ若しくは集積回路、ハードワイヤードロジック、メモリデバイスによって記憶されてマイクロプロセッサによって実行されるソフトウェア、ファームウェア、特定用途向け集積回路（ＡＳＩＣ）、及び／又はフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、のうちのいずれか又は組み合わせとして実装されてよい。語「ロジック」は、例として、ソフトウェア若しくはハードウェア及び／又はソフトウェアとハードウェアとの組み合わせを含んでよい。

実施形態は、コンピュータプログラム製品として提供されてよく、コンピュータプログラム製品は、例えば、コンピュータ、コンピュータのネットワーク、又は他の電子デバイスのような１つ以上のマシンによって実行される場合に、１つ以上のマシンに本明細書で記載される実施形態に従って動作を実行させ得るマシン実行可能な命令が記憶されている１つ以上のマシン読み出し可能な媒体を含んでよい。マシン読み出し可能な媒体は、制限なしに、フロッピー（登録商標）ディスケット、光ディスク、ＣＤ−ＲＯＭ（Compact Disc-Read Only Memories）、及び光学磁気ディスク、ＲＯＭ、ＲＡＭ、ＥＰＲＯＭ（Erasable Programmable Read Only Memories）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memories）、磁気若しくは光学カード、フラッシュメモリ、又はマシン読み出し可能な命令を記憶するのに適した他のタイプの媒体／マシン読み出し可能な媒体を含んでよい。

更に、実施形態は、コンピュータプログラム製品としてダウンロードされてもよく、プログラムは、通信リンク（例えば、モデム及び／又はネットワーク接続）を介して搬送波又は他の伝播媒体によって担持及び／又は変調された１つ以上のデータ信号によって遠隔のコンピュータ（例えば、サーバ）から要求元のコンピュータ（例えば、クライアント）へ転送されてよい。

一実施形態に従って、ＧＰＵ１４１４はスライスに分けられ、各スライスは複数のスライスを含む。そのような実施形態において、各スライスは３つのサブスライスを含む。なお、他の実施形態は、異なる数のサブスライスを特徴としてもよい。図１５は、サブスライス１５００の一実施形態を表す。図１５に示されるように、サブスライス１５００は、実行ユニット（ＥＵ）１５１０と、共有ローカルメモリ（ＳＬＭ）１５２０とを含む。実施形態において、ＥＵ１５１０は、高スループットの浮動小数点及び整数計算のために複数のスレッドにわたってパイプライン化されたマルチイシュー（multiple issue）のＳＩＭＤ（single instruction, multiple data）ＡＬＵ（arithmetic logic unit(s)）を駆動する同時マルチスレッディング（simultaneous multi-threading）（ＳＭＴ）及び細粒度（fine-grained）インターリーブ型マルチスレッディング（interleaved multi-threading）（ＩＭＴ）計算プロセッサの組み合わせである。更なる実施形態では、サブスライス１５００は、８つのＥＵを有する。なお、他の実施形態は、異なる数のＥＵを特徴としてもよい。

ＳＬＭ１５２０は、サブスライス１５００においてＥＵ１５１０からアクセス可能な１２８ＫＢ乃至２５６ＫＢの高度にバンク化されたデータ構造である。ＥＵへの近接は、ＳＬＭトラフィックが他のメモリアクセス（例えば、キャッシュ／メインメモリアクセス）と干渉しないということで、低いレイテンシ及びより高い効率をもたらす。一実施形態において、ＳＬＭ１５２０は、ＥＵ１５１０からの高度なアクセスフレキシビリティを可能にするバイト粒度にバンク化される

一実施形態に従って、ＳＬＭ１５２０は、ＳＬＭ１５２０のメモリ容量の一部（又は全部）が使用されていない場合に、追加のキャッシュウェイを提供するよう実装される。そのような実施形態において、ＳＬＭ１５２０は、ＥＵ１５１０のためのキャッシュとして及び共有メモリとして使用されるようパーティショニングされる。よって、ＳＬＭ１５２０は、ＳＬＭ１５２０の使用が、通常は、様々なアプリケーションで疎であるということで、ワークロードの追加のキャッシュとして実装されてよい。更なる実施形態では、ドライバ１４１６は、ウォーカ（walker）ごと（又はカーネルごと）の粒度でＳＬＭ１５２０の割り当てサイズを制御する。この実施形態で、共有ローカルメモリ（又はＳＬＭ空間）として使用されるべきＳＬＭ１５２０の部分のサイズ（又はＳＬＭサイズ）は、インターフェース記述子データに含まれるコマンド（又は計算ウォーカ（compute walker）コマンド）を介してプログラムされる。

一実施形態において、コマンドは、ＳＬＭ１５２０が全キャッシュ又は非キャッシュとして使用されるべきであることを示してよい。他の実施形態では、ＳＬＭ１５２０は、ＳＬＭサイズが離散ステップ（例えば、０ＫＢ、１６ＫＢ、３２ＫＢ、６４ＫＢ、９６ＫＢ、１２８ＫＢ、２５６ＫＢ）の組として構成され得るように、パーティショニングされる。そのような実施形態において、ドライバ１４１６は、ＳＬＭ構成のためのデフォルト値をセットし、デフォルトは、ＳＬＭ１５２０の全部がキャッシュとして実装されるようにセットされる。なお、他の実施形態では、デフォルトは、アプリケーション又はワークロード要件に基づいて変更されてもよい。

更なる実施形態では、ＳＬＭサイズは、カーネルのＳＬＭ空間要件に基づいて及び／又はキャッシュ構成ヒントに基づいてディスパッチ単位でプログラムされてもよい。一実施形態において、アプリケーションは、追加のＳＬＭの方へ（例えば、実行中のワークグループを増やすことで更なる並列性がもたらされることが有利であるカーネルの場合）、又は追加の従来のキャッシュの方へ（例えば、追加のキャッシュが有利である場合）ＳＬＭ１５２０を偏らせることをアプリケーションに可能にするキャッシュ構成ヒントを（例えば、デバイス単位で）供給し得る。更なる他の実施形態では、ドライバ１４１６はヒントを選択してもよい。他の実施形態では、ハードウェアは、ＳＬＭ利用をモニタし、未使用のＳＬＭブロックを追加のキャッシュウェイに変えることができる。

一実施形態において、各サブスライス（例えば、サブスライス１５００）は、サブスライス内のアクティブなスレッドの量（又は数）に基づいて、ＳＬＭ１５２０をパーティショニングする。更なる実施形態で、サブスライス１５００におけるパーティショニングは、ＥＵ１５１０のスレッドグループへのＳＬＭ１５２０の割り当てを管理するスレッドスポーナロジック（ＴＳＬ）１５６０内で制御される。図１６は、ＳＬＭパーティショニングロジック１６２０を含むＴＳＬ１５６０の一実施形態を表す。一実施形態に従って、ＳＬＭパーティショニングロジック１６２０は、キャッシュとしてマッピングされるようＳＬＭ１５２０をセット（又はリセット）することによって、ＳＬＭ１５２０を起動する。よって、ＳＬＭ１５２０は、最初に、キャッシュとして動作するようセットされる。その後に、ＳＬＭ空間を割り当てるコマンド（例えば、ＳＬＭ＿ｒｅｑｕｅｓｔコマンド）を含むスレッドディスパッチが、ドライバ１４１６からＳＬＭパーティショニングロジック１６２０で受け取られる。一実施形態において、コマンドは、割り当てられるべきＳＬＭ空間のＳＬＭサイズを示すヘッダを含む。

コマンドを受け取ると、ＳＬＭパーティショニングロジック１６２０は、ディスパッチにおいて示された空間をＳＬＭブロックとして取得する。一実施形態において、ＳＬＭパーティショニングロジック１６２０は、スレッドディスパッチを満足するよう割り当てられた既存のＳＬＭ空間が存在するかどうかを判定する。割り当てられたＳＬＭ空間がディスパッチのために十分でないとの決定があると、ＳＬＭパーティショニングロジック１６２０は、更なるＳＬＭ空間を割り当てるよう（例えば、図１５のロードストア及びキャッシュ（load store & cache）（ＬＳＣ）ユニット１５５０に対して）要求を行う。一実施形態において、ディスパッチは、適切なＳＬＭ空間が割り当てられるまでストール（stall）される。ＳＬＭが利用可能であると、スレッドディスパッチユニット１６１０は、取得されたＳＬＭブロックでの動作のためにスレッドグループディスパッチングを実行する。更なる実施形態では、ＳＬＭパーティショニングロジック１６２０は、１ＫＢインクリメントでスレッドグループによるＳＬＭブロックの使用を追跡するようビットベクトル（例えば、ｉｎ＿ｕｓｅ［１２７：０］）を保持する。

割り当てられたＳＬＭ空間が十分である（例えば、ＳＬＭサイズが、現在割り当てられているＳＬＭサイズより小さい）との決定があると、ＳＬＭ空間として割り当てられているＳＬＭ１５２０の部分は、解放（又は自由化）され得る。この実施形態で、解放されたＳＬＭ空間に以前に割り当てられていた全てのスレッドグループは、退去する。ディスパッチキューが、定義されたインターバル（例えば、プログラムされた数の周期）にアイドル状態であると、そのキューに対するＳＬＭ＿ｒｅｑｕｅｓｔはクリアされる。これは、サブスライス１５００に関連した所与のキューに対して新しいディスパッチがない場合に起こる。ディスパッチがクリアされると、ＳＬＭ１５２０は、キャッシュとして動作するよう再マッピングされる。

一実施形態に従って、ＳＬＭパーティショニングロジック１６２０は、夫々のパイプライン化された状態負荷について値（例えば、Ｐｒｅｆｅｒｒｅｄ＿ＳＬＭ＿Ｓｉｚｅ）を割り当てられ、Ｐｒｅｆｅｒｒｅｄ＿ＳＬＭ＿Ｓｉｚｅは、各サブスライス１５００が関連するウォーカを実行するために必要とされる推定された全部のＳＬＭ空間の量を示す。一実施形態において、Ｐｒｅｆｅｒｒｅｄ＿ＳＬＭ＿Ｓｉｚｅは、ドライバ１４１６によって計算される。しかし、他の実施形態では、Ｐｒｅｆｅｒｒｅｄ＿ＳＬＭ＿Ｓｉｚｅは、アプリケーションによってセットされる。

一実施形態において、Ｐｒｅｆｅｒｒｅｄ＿ＳＬＭ＿Ｓｉｚｅ＝ｆｎ（ＳＬＭ＿ｓｉｚｅ＿ｐｅｒ＿ｗｏｒｋｉｎｇｇｒｏｕｐ，ワーキンググループごとのスレッド数，サブスライス１５００内の物理スレッド数）、及びＰｅｒ＿ＴＧ＿ＳＬＭ≦Ｐｒｅｆｅｒｒｅｄ＿ＳＬＭ＿Ｓｉｚｅ≦１２８ＫＢ。更なる実施形態では、ＳＬＭパーティショニングロジック１６２０は、次の状態を保持する：
ｃｕｒｒｅｎｔ＿ＳＬＭ＿ｓｉｚｅ＝現在予約されているＳＬＭサイズ；
ｎｅｗ＿ＳＬＭ＿ｓｉｚｅ＝最後のウォーカの要求に基づく所望のＳＬＭサイズ；
ｉｎ＿ｕｓｅ＝ＳＬＭのどのブロックがディスパッチされたＴＧによって現在使用されているかを追跡するビットベクトル；及び
Ｐｅｒｑｕｅｕｅｈｙｓｔｅｒｅｓｉｓ＿ｃｔｒ＝キューのアイドル“タイムアウト”。

プログラムされた数の周期に所与のキューについてディスパッチがアクティブでない場合に、そのキューに対するＰｒｅｆｅｒｒｅｄ＿ＳＬＭ＿Ｓｉｚｅは０にセットされる。一実施形態において、ＳＬＭ空間は、底辺（０ＫＢ）から割り当てられ、連続的である（例えば、スタック状に上方向に成長する）。更なる実施形態では、ＳＬＭ空間は、現在のスタックの一番上から割り当てを解除される。更なる他の実施形態では、ＳＬＭ割り当てのステップは、１キャッシュウェイサイズの倍数を有する（例えば、典型的なＧＰＵキャッシュ構成では、１ウェイのサイズ＝１６ＫＢ）。ＳＬＭ空間をスタックとして割り当てること／割り当てを解除することは、割り当てられたＳＬＭ空間内の如何なるスパース性（sparsity）も除く。図１７Ａは、上記のＳＬＭスタックの一実施形態を表す。

一実施形態に従って、ＬＳＣ１５５０は、ＳＬＭ１５２０を再パーティショニングするようフラッシュマネージャ１５５５を含む。この実施形態で、フラッシュマネージャ１５５５は、ＳＬＭ割り当て又は解放要求を全てのＳＬＭバンクに報知する。結果として、各バンクは、そのパイプラインをブロックし、続いて、ＳＬＭ空間を割り当てるよう又は解放するよう全てのセットをウォークスルーする。更なる実施形態では、各セットの下位の４つのウェイがＳＬＭＲＡＭにマッピングされる。その上、ウェイがＳＬＭとして現在マッピングされているかどうかを示すタグ内のビットがある（例えば、マッピングされている場合には１、マッピングされていない場合には０）。ウェイがＳＬＭとしてマッピングされているとの決定があると、そのウェイはキャッシュ動作（ルックアップ、割り当て、フラッシュ、等）のために無視される。

上記の実施形態は、パイプライン化されたウォーカが異なるＳＬＭサイズを要求されるプロセスについて記載する。更なる実施形態では、新しいパイプライン化された状態がロード可能である一方で、前のウォーカからのスレッドが依然としてＥＵ１５１０で実行されている。これは、ｎｅｗ＿ＳＬＭ＿ｓｉｚｅをｃｕｒｒｅｎｔ＿ＳＬＭ＿ｓｉｚｅとは異ならせる。この実施形態で、ＳＬＭパーティショニングロジック１６２０は、ｆｒｅｅ（）コマンドをＬＳＣ１５５０へ送る前に、割り当てられたＳＬＭの一番上が解放される（例えば、ｉｎ＿ｕｓｅは０である）まで待つ。更なる実施形態で、最新のウォーカからのスレッドグループのための新しいＳＬＭ割り当ては、ｍｉｎ（ｎｅｗ＿ＳＬＭ＿ｓｉｚｅ，ｃｕｒｒｅｎｔ＿ＳＬＭ＿ｓｉｚｅ）を超えない。図１７Ｂは、新しいＳＬＭサイズが現在の割り当てから低減する場合のＳＬＭスタックの一実施形態を表す。

図１８は、共有ローカルメモリをパーティショニングするプロセスの一実施形態を表すフロー図である。処理ブロック１８１０で、ＳＬＭ１５２０は、最初に、キャッシュにマッピングされる。処理ブロック１８２０で、スレッドディスパッチが受け取られる。上述されたように、ディスパッチは、ＳＬＭ１５２０内のＳＬＭ空間を割り当てるコマンド（例えば、ＳＬＭ＿ｒｅｑｕｅｓｔコマンド）と、割り当てるべきＳＬＭサイズを示すヘッダとを含む。処理ブロック１８３０で、ＳＬＭ空間は、ヘッダで示されているサイズに従って割り当てられる。

決定ブロック１８４０で、ＳＬＭ空間が十分であるかどうかに関して決定が行われる。そうである場合には、処理ブロック１８６０で、新しいスレッドグループがディスパッチされる。そうでない場合には、スレッドグループをディスパッチキューにディスパッチする前に、処理ブロック１８５０で、追加のＳＬＭ空間が割り当てられる。決定ブロック１８７０で、定義されたインターバルにディスパッチキューがアイドル状態であった（スレッドグループはもはやアクティブでない）かどうかに関して決定が行われる。そうである場合には、制御は処理ブロック１８１０へ返され、ＳＬＭ１５２０は、キャッシュへ再マッピングされることによってリセットされる。そうでない場合には、制御は決定ブロック１８７０へ返され、定義されたインターバルにディスパッチキューがアイドル状態であったかどうかが決定される。図１９は、共有ローカルメモリをパーティショニングするための擬似コードの一実施形態を表す。

以下の節及び／又は例は、更なる実施形態又は例に関する。例の中の詳細は、１つ以上の実施形態におけるどこでも使用されてよい。異なる実施形態又は例の様々な特徴は、多種多様な用途に適するよう、いくつかの特徴は含まれ、他は除かれるように、様々に組み合わされてよい。例は、方法、方法の動作を実行する手段、マシンによって実行される場合にマシンに方法の動作を実行させる命令を含む少なくとも１つのマシン読み出し可能な媒体、又は本明細書で記載される実施形態及び例に従ってハイブリッド通信を促進する装置若しくはシステム等の対象を含んでよい。

いくつかの実施形態は、ローカルメモリのパーティショニングを容易にする装置であって、複数の実行スレッドを実行する複数の実行ユニットと、該複数の実行ユニットの間でアクセスを共有するよう結合されたメモリと、キャッシュとして及び共有ローカルメモリ（ＳＬＭ）として使用されるよう前記メモリをパーティショニングするパーティショニングハードウェアであり、アクティブである前記実行ユニットで実行される前記複数の実行スレッドの数に基づいて前記メモリをパーティショニングする前記パーティショニングハードウェアとを有する装置を含む例１に関する。

例２は、例1の対象を含み、前記パーティショニングハードウェアは、前記キャッシュとして動作するよう前記メモリを起動する。

例３は、例１及び２の対象を含み、前記パーティショニングハードウェアは、前記メモリの部分をＳＬＭブロックとして割り当てるコマンドを含むスレッドディスパッチを受け取る。

例４は、例１〜３の対象を含み、前記コマンドは、前記ＳＬＭブロックのサイズを示すヘッダを含む。

例５は、例１〜４の対象を含み、前記パーティショニングハードウェアは、前記ＳＬＭブロックを取得する。

例６は、例１〜５の対象を含み、前記ＳＬＭブロックに作用するよう前記複数の実行スレッドのグループをディスパッチするディスパッチハードウェアを更に有する。

例７は、例１〜６の対象を含み、前記ディスパッチハードウェアは、前記パーティショニングハードウェアが前記メモリの前記部分を取得するまで、前記スレッドディスパッチをストールする。

例８は、例１〜７の対象を含み、前記パーティショニングハードウェアは、前記複数の実行スレッドによる前記ＳＬＭブロックの使用を追跡する。

例９は、例１〜８の対象を含み、前記パーティショニングハードウェアは、前記複数の実行スレッドがもはやアクティブでないとの決定があると、前記キャッシュとして動作するよう前記メモリをリセットする。

いくつかの実施形態は、ローカルメモリのパーティショニングを容易にする方法であって、キャッシュとして及び共有ローカルメモリ（ＳＬＭ）として使用されるようメモリをパーティショニングすることを有し、該パーティショニングすることは、アクティブである複数の実行ユニットで実行される前記複数の実行スレッドの数に基づいて実行される、方法を含む例１０に関する。

例１１は、例１０の対象を含み、前記メモリをパーティショニングすることは、前記キャッシュとして動作するよう前記メモリを起動することと、前記メモリの部分をＳＬＭブロックとして割り当てるコマンドを含むスレッドディスパッチを受け取ることと、前記ＳＬＭブロックを割り当てることと、前記ＳＬＭブロックを取得することとを有する。

例１２は、例１０及び１１の対象を含み、前記コマンドは、前記ＳＬＭブロックのサイズを示すヘッダを含む。

例１３は、例１０〜１２の対象を含み、前記ＳＬＭブロックに作用するよう前記複数の実行スレッドのグループをディスパッチすることを更に有する。

例１４は、例１０〜１３の対象を含み、前記複数の実行スレッドによる前記ＳＬＭブロックの使用を追跡することを更に有する。

例１５は、例１０〜１４の対象を含み、前記複数の実行スレッドがもはやアクティブでないとの決定があると、前記キャッシュとして動作するよう前記メモリをリセットすることを更に有する。

いくつかの実施形態は、複数の実行スレッドを実行する複数の実行ユニットと、前記複数の実行ユニットの間でアクセスを共有するよう結合されたメモリと、キャッシュとして及び共有ローカルメモリ（ＳＬＭ）として使用されるよう前記メモリをパーティショニングするパーティショニングハードウェアであり、アクティブである前記実行ユニットで実行される前記複数の実行スレッドの数に基づいて前記メモリをパーティショニングする前記パーティショニングハードウェアとを含む複数のサブスライスを夫々が有する複数のスライスを有するグラフィクス処理ユニット（ＧＰＵ）を含む例１６に関する。

例１７は、例１６の対象を含み、前記パーティショニングハードウェアは、前記キャッシュとして動作するよう前記メモリを起動する。

例１８は、例１６及び１７の対象を含み、前記パーティショニングハードウェアは、前記メモリの部分をＳＬＭブロックとして割り当てるコマンドを含むスレッドディスパッチを受け取り、前記コマンドは、前記ＳＬＭブロックのサイズを示すヘッダを含む。

例１９は、例１６〜１８の対象を含み、前記ＳＬＭブロックに作用するよう前記複数の実行スレッドのグループをディスパッチするディスパッチハードウェアを更に有する。

例２０は、例１６〜１９の対象を含み、前記パーティショニングハードウェアは、前記複数の実行スレッドによる前記ＳＬＭブロックの使用を追跡し、前記複数の実行スレッドがもはやアクティブでないとの決定があると、前記キャッシュとして動作するよう前記メモリをリセットする。

本発明は、具体的な実施形態を参照して上述された。なお、当業者であれば、様々な改良及び変更が、添付の特許請求の範囲で示されている発明の広範な精神及び範囲から外れることなしに、それらの実施形態に対して行われてよい、と理解するだろう。上記の記載及び図面は、従って、限定の意味ではなく実例の意味で考えられるべきである。

［著作権表示］
本特許文献の開示の一部は、著作権保護の対象である資料を含む。著作権所有者は、特許商標庁の特許出願又は記録で記載されているように、本文献又は本開示の何者による複製も異議がないが、その他の点では全ての著作権を留保する。

１００処理システム
１０２，２００プロセッサ
１０４キャッシュメモリ
１０６レジスタファイル
１０７，２０２プロセッサコア
１０８，２０８グラフィクスプロセッサ
１０９命令セット
１１０インターフェースバス
１１１表示デバイス
１１２アクセラレータ
１１６，２１４集積メモリコントローラ
１２０メモリデバイス
１２１命令
１２２データ
１３０プラットフォームコントローラハブ
２０４内部キャッシュユニット
２０６共有キャッシュユニット
２１９グラフィクスプロセッサコア
３３０計算アクセラレータ
５００実行ロジック
５０８，６００実行ユニット
６１２シストリックアレイ
１４００コンピュータデバイス
１４０６オペレーティングシステム（ＯＳ）
１４０８メモリ
１４１２中央演算処理装置（ＣＰＵ）
１４１４グラフィクス処理ユニット（ＧＰＵ）
１４１６グラフィクスドライバ
１５００サブスライス
１５１０実行ユニット
１５２０共有ローカルメモリ（ＳＬＭ）
１５６０スレッドスポーナロジック（ＴＳＬ）
１６１０スレッドディスパッチユニット
１６２０ＳＬＭパーティショニングロジック

Claims

ローカルメモリのパーティショニングを容易にする装置であって、
複数の実行スレッドを実行する複数の実行ユニットと、
前記複数の実行ユニットの間でアクセスを共有するよう結合されたメモリと、
キャッシュとして及び共有ローカルメモリ（ＳＬＭ）として使用されるよう前記メモリをパーティショニングするパーティショニングハードウェアであり、アクティブである前記実行ユニットで実行される前記複数の実行スレッドの数に基づいて前記メモリをパーティショニングする前記パーティショニングハードウェアと
を有する装置。
前記パーティショニングハードウェアは、前記キャッシュとして動作するよう前記メモリを起動する、
請求項１に記載の装置。
前記パーティショニングハードウェアは、前記メモリの部分をＳＬＭブロックとして割り当てるコマンドを含むスレッドディスパッチを受け取る、
請求項１又は２に記載の装置。
前記コマンドは、前記ＳＬＭブロックのサイズを示すヘッダを含む、
請求項３に記載の装置。
前記パーティショニングハードウェアは、前記ＳＬＭブロックを取得する、
請求項３又は４に記載の装置。
前記ＳＬＭブロックに作用するよう前記複数の実行スレッドのグループをディスパッチするディスパッチハードウェアを更に有する、
請求項３乃至５のうちいずれか一項に記載の装置。
前記ディスパッチハードウェアは、前記パーティショニングハードウェアが前記メモリの前記部分を取得するまで、前記スレッドディスパッチをストールする、
請求項６に記載の装置。
前記パーティショニングハードウェアは、前記複数の実行スレッドによる前記ＳＬＭブロックの使用を追跡する、
請求項３乃至７のうちいずれか一項に記載の装置。
前記パーティショニングハードウェアは、前記複数の実行スレッドがもはやアクティブでないとの決定があると、前記キャッシュとして動作するよう前記メモリをリセットする、
請求項１乃至８のうちいずれか一項に記載の装置。
ローカルメモリのパーティショニングを容易にする方法であって、
キャッシュとして及び共有ローカルメモリ（ＳＬＭ）として使用されるようメモリをパーティショニングすることを有し、
前記パーティショニングすることは、アクティブである複数の実行ユニットで実行される前記複数の実行スレッドの数に基づいて実行される、
方法。
前記メモリをパーティショニングすることは、
前記キャッシュとして動作するよう前記メモリを起動することと、
前記メモリの部分をＳＬＭブロックとして割り当てるコマンドを含むスレッドディスパッチを受け取ることと、
前記ＳＬＭブロックを割り当てることと、
前記ＳＬＭブロックを取得することと
を有する、
請求項１０に記載の方法。
前記コマンドは、前記ＳＬＭブロックのサイズを示すヘッダを含む、
請求項１１に記載の方法。
前記ＳＬＭブロックに作用するよう前記複数の実行スレッドのグループをディスパッチすることを更に有する、
請求項１１又は１２に記載の方法。
前記複数の実行スレッドによる前記ＳＬＭブロックの使用を追跡することを更に有する、
請求項１１乃至１３のうちいずれか一項に記載の方法。
前記複数の実行スレッドがもはやアクティブでないとの決定があると、前記キャッシュとして動作するよう前記メモリをリセットすることを更に有する、
請求項１０乃至１４のうちいずれか一項に記載の方法。
複数の実行スレッドを実行する複数の実行ユニットと、
前記複数の実行ユニットの間でアクセスを共有するよう結合されたメモリと、
キャッシュとして及び共有ローカルメモリ（ＳＬＭ）として使用されるよう前記メモリをパーティショニングするパーティショニングハードウェアであり、アクティブである前記実行ユニットで実行される前記複数の実行スレッドの数に基づいて前記メモリをパーティショニングする前記パーティショニングハードウェアと
を含む複数のサブスライスを夫々が有する複数のスライスを有するグラフィクス処理ユニット（ＧＰＵ）。
前記パーティショニングハードウェアは、前記キャッシュとして動作するよう前記メモリを起動する、
請求項１６に記載のＧＰＵ。
前記パーティショニングハードウェアは、前記メモリの部分をＳＬＭブロックとして割り当てるコマンドを含むスレッドディスパッチを受け取り、前記コマンドは、前記ＳＬＭブロックのサイズを示すヘッダを含む、
請求項１６又は１７に記載のＧＰＵ。
前記ＳＬＭブロックに作用するよう前記複数の実行スレッドのグループをディスパッチするディスパッチハードウェアを更に有する、
請求項１８に記載のＧＰＵ。
前記パーティショニングハードウェアは、前記複数の実行スレッドによる前記ＳＬＭブロックの使用を追跡し、前記複数の実行スレッドがもはやアクティブでないとの決定があると、前記キャッシュとして動作するよう前記メモリをリセットする、
請求項１８又は１９に記載のＧＰＵ。