JP2021077343A

JP2021077343A - 画像のノイズ除去のための、適応型変形可能カーネル予測ネットワーク

Info

Publication number: JP2021077343A
Application number: JP2020150178A
Authority: JP
Inventors: ヤオ、アンバン; Anbang Yao; ル、ミン; Ming Lu; ワン、イカイ; Yikai Wang; チェン、シャオミン; Xiaoming Chen; ホァン、ジュンジエ; Junjie Huang; エルブイ、タオ; Tao Lv; ルオ、ユアンケ; Yuanke Luo; ヤン、イー; Yi Young; チェン、フェン; Feng Chen; ワン、ジミン; Zhiming Wang
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2019-11-07
Filing date: 2020-09-07
Publication date: 2021-05-20
Also published as: US20210142448A1; CN112785486A; DE102020129251A1; KR20210055583A; US11869171B2; US20240127408A1

Abstract

【課題】より低い電算処理コストと良好な画質を実現するように、カーネル予測ネットワークによる画像のノイズ除去における画素のオフセットを適応的に決定する。
【解決手段】畳み込みニューラルネットワークによって画像をノイズ除去する方法であって、複数の画素を含む画像の複数の画素のそれぞれに関して、画素に関する複数のカーネル値を有する畳み込みカーネルを生成する段階と、複数のカーネル値にそれぞれ対応する画素に関する、それぞれが画素の画素位置からの逸脱を示す複数のオフセットを生成する段階と、画素の画素位置および複数のオフセットに基づいて、複数の逸脱した画素位置を決定する段階と、複数の逸脱した画素位置の畳み込みカーネルおよび画素値によって画素をフィルタリングして、ノイズ除去された画素を取得する段階と、を備える。
【選択図】図２９

Description

本実施形態は、一般的に、データ処理に関し、より具体的には、汎用グラフィックス処理ユニットによるデータ処理に関する。

現在、並列グラフィックスデータ処理は、例えば、線形補間、テセレーション、ラスタライゼーション、テクスチャマッピング、ディープテスティングなどの、グラフィックスデータ上で特定の動作を実行するように開発されたシステムおよび方法を含む。これまで、グラフィックスプロセッサは、グラフィックスデータを処理するための固定機能計算ユニットを用いてきたが、しかしながら、より最近には、グラフィックスプロセッサの一部がプログラム可能とされ、そのようなプロセッサは、頂点および断片データの処理のために、より広い種類の操作をサポートすることを可能とする。

さらに性能を高めるように、グラフィックスプロセッサは典型的には、グラフィックスパイプラインの異なる部分にわたって可能な限り多くのグラフィックスデータを並列に処理しようと試みる、パイプライニングなどの処理技術を実装する。単一の命令で複数のスレッド（ＳＩＭＴ）アーキテクチャによるパラレルグラフィックスプロセッサは、グラフィックスパイプラインにおける並行処理量を最大化するように設計される。ＳＩＭＴアーキテクチャにおいて、パラレルスレッドの群は、処理の効率性を高めるように、可能な限り頻繁に、プログラム命令を一緒に同期的に実行しようと試みる。ＳＩＭＴアーキテクチャに関するソフトウェアおよびハードウェアの一般的な概要は、ＳｈａｎｅＣｏｏｋ，ＣＵＤＡプログラミング、第３章、ページ３７−５１（２０１３）に見ることができる。

これにより、本実施形態の上の記載の特徴が詳細に、上に簡潔に要約された実施形態のより具体的な説明において、理解され得る方式が、実施形態を参照することにより示され得、それらのうちいくつかは添付図面において図示される。しかしながら、添付図面は、典型的な実施形態のみを示し、したがって、その範囲を限定すると考慮されるべきではないことが、留意されるべきである。

本明細書に説明された実施形態の１または複数の態様を実装するように構成された、コンピュータシステムを示すブロック図である。

実施形態による、並列プロセッサコンポーネントを示す。実施形態による、並列プロセッサコンポーネントを示す。実施形態による、並列プロセッサコンポーネントを示す。実施形態による、並列プロセッサコンポーネントを示す。

実施形態による、グラフィックスマルチプロセッサおよびマルチプロセッサベースのＧＰＵのブロック図である。実施形態による、グラフィックスマルチプロセッサおよびマルチプロセッサベースのＧＰＵのブロック図である。実施形態による、グラフィックスマルチプロセッサおよびマルチプロセッサベースのＧＰＵのブロック図である。

複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合される、例示的なアーキテクチャを示す。複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合される、例示的なアーキテクチャを示す。複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合される、例示的なアーキテクチャを示す。複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合される、例示的なアーキテクチャを示す。複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合される、例示的なアーキテクチャを示す。複数のＧＰＵが複数のマルチコアプロセッサに通信可能に結合される、例示的なアーキテクチャを示す。

実施形態による、グラフィックス処理パイプラインを示す。

実施形態による、機械学習ソフトウェアスタックを示す。

実施形態による、汎用グラフィックス処理ユニットを示す。

実施形態による、マルチＧＰＵコンピューティングシステムを示す。

例示的なディープニューラルネットワークの層を示す。例示的なディープニューラルネットワークの層を示す。

例示的な再帰型ニューラルネットワークを示す。

ディープニューラルネットワークの訓練および展開を示す。

分散型学習を示すブロック図である。

訓練されたモデルを用いて推論を実行するために適した、例示的な推論システムオンチップ（ＳｏＣ）を示す。

実施形態による、処理システムのブロック図である。

本明細書で説明される実施形態によって提供される、コンピューティングシステムおよびグラフィックスプロセッサを示す。本明細書で説明される実施形態によって提供される、コンピューティングシステムおよびグラフィックスプロセッサを示す。本明細書で説明される実施形態によって提供される、コンピューティングシステムおよびグラフィックスプロセッサを示す。

本明細書で説明される実施形態によって提供される、追加のグラフィックスプロセッサおよび計算アクセラレータアーキテクチャのブロック図を示す。本明細書で説明される実施形態によって提供される、追加のグラフィックスプロセッサおよび計算アクセラレータアーキテクチャのブロック図を示す。本明細書で説明される実施形態によって提供される、追加のグラフィックスプロセッサおよび計算アクセラレータアーキテクチャのブロック図を示す。

いくつかの実施形態によるグラフィックスプロセッサのグラフィックス処理エンジンのブロック図である。

本明細書で説明された実施形態によるグラフィックスプロセッサコアにおいて採用される、処理要素のアレイを含むスレッド実行ロジックを示す。本明細書で説明された実施形態によるグラフィックスプロセッサコアにおいて採用される、処理要素のアレイを含むスレッド実行ロジックを示す。

実施形態による、追加の実行ユニットを示す。

いくつかの実施形態による、グラフィックスプロセッサ指示フォーマットを示すブロック図である。

別の実施形態による、グラフィックスプロセッサのブロック図である。

いくつかの実施形態による、グラフィックスプロセッサコマンドフォーマットおよびコマンドシーケンスを示す。いくつかの実施形態による、グラフィックスプロセッサコマンドフォーマットおよびコマンドシーケンスを示す。

いくつかの実施形態による、データ処理システムのための例示的なグラフィックスソフトウェアアーキテクチャを示す。

実施形態による、ＩＰコア開発システムを示すブロック図である。

本明細書に説明されたいくつかの実施形態による、集積回路パッケージアセンブリの垂直断面図を示す。

基板に接続されるハードウェアロジックチップレット（例えば、ベースダイ）の複数のユニットを含むパッケージアセンブリを示す。

実施形態による、交換可能なチップレットを含むパッケージアセンブリを示す。

実施形態による、チップ集積回路上の例示的なシステムを示すブロック図である。

本明細書に説明された実施形態による、ＳｏＣ内での使用のための例示的なグラフィックスプロセッサを示すブロック図である。本明細書に説明された実施形態による、ＳｏＣ内での使用のための例示的なグラフィックスプロセッサを示すブロック図である。

従来のカーネル予測ネットワーク（ＫＰＮ）を示す概略図である。

従来のＫＰＮによる画素のフィルタリングの例を示す概略図である。

実施形態による、適応型変形可能カーネル予測ネットワーク（ＡＤＫＰＮ）を示す概略図である。

実施形態による、ＡＤＫＰＮによる画素のフィルタリングの例を示す概略図である。

従来のＫＰＮおよびＡＤＫＰＮの間の、訓練および／または試験動作測定の比較を示すグラフである。

実施形態による、ＡＤＫＰＮによる画像のノイズ除去の方法を示すフローチャートである。

実施形態による、入力画像、参照画像、従来のＫＰＮによって生成された出力画像、およびＡＤＫＰＮによって生成された出力画像を、それぞれ示す。実施形態による、入力画像、参照画像、従来のＫＰＮによって生成された出力画像、およびＡＤＫＰＮによって生成された出力画像を、それぞれ示す。実施形態による、入力画像、参照画像、従来のＫＰＮによって生成された出力画像、およびＡＤＫＰＮによって生成された出力画像を、それぞれ示す。実施形態による、入力画像、参照画像、従来のＫＰＮによって生成された出力画像、およびＡＤＫＰＮによって生成された出力画像を、それぞれ示す。

実施形態による、入力画像、参照画像、従来のＫＰＮによって生成された出力画像、ＡＤＫＰＮによって生成された出力画像を、それぞれ示す。実施形態による、入力画像、参照画像、従来のＫＰＮによって生成された出力画像、ＡＤＫＰＮによって生成された出力画像を、それぞれ示す。実施形態による、入力画像、参照画像、従来のＫＰＮによって生成された出力画像、ＡＤＫＰＮによって生成された出力画像を、それぞれ示す。実施形態による、入力画像、参照画像、従来のＫＰＮによって生成された出力画像、ＡＤＫＰＮによって生成された出力画像を、それぞれ示す。

いくつかの実施形態において、グラフィックス処理ユニット（ＧＰＵ）は、グラフィックス演算、機械学習動作、パターン分析動作、および様々な汎用ＧＰＵ（ＧＰＧＰＵ）機能を加速するように、ホスト／プロセッサコアと通信可能に結合される。ＧＰＵは、バスまたは他のインターコネクト（例えば、ＰＣＩｅまたはＮＶＬｉｎｋなどの高速インターコネクト）上でホストプロセッサ／コアと通信可能に結合し得る。他の実施形態において、ＧＰＵは、コアと同一のパッケージまたはチップ上に統合され得、内部プロセッサバス／インターコネクト上のコア（つまり、パッケージまたはチップの内部）に通信可能に結合され得る。ＧＰＵが接続される方式にかかわらず、プロセッサコアは、ワーク記述子に含まれるコマンド／命令のシーケンスの形式で、ＧＰＵに動作を割り当て得る。ＧＰＵは次に、これらコマンド／命令を効果的に処理するための専用の回路／ロジックを用いる。

以下の説明において、様々な具体的な詳細が、より全体的な理解を提供するように記載される。しかしながら、本明細書に説明される実施形態は、１または複数のこれら具体的な詳細なしで実施されてよいことは、当業者には明らかであろう。他の例においては、周知な特徴は、本実施形態の詳細が曖昧になることを回避するように、説明されない。システム概要

図１は、本明細書に説明される実施形態の１または複数の態様を実装するように構成された、コンピューティングシステム１００を示すブロック図である。コンピューティングシステム１００は、１または複数のプロセッサ１０２およびシステムメモリ１０４を有する処理サブシステム１０１を含む。１または複数のプロセッサ１０２およびシステムメモリ１０４は相互接続パスを介して通信し得、該相互接続パスはメモリハブ１０５を含み得る。メモリハブ１０５は、チップセットコンポーネント内の別個のコンポーネントであってよく、または、１または複数のプロセッサ１０２内に統合されてよい。メモリハブ１０５は、通信リンク１０６を介してＩ／Ｏサブシステム１１１と結合する。Ｉ／Ｏサブシステム１１１はＩ／Ｏハブ１０７を含み、それはコンピューティングシステム１００が１または複数の入力デバイス１０８からの入力を受信することを可能にし得る。さらに、Ｉ／Ｏハブ１０７はディスプレイコントローラに、１または複数のディスプレイデバイス１１０Ａへの出力を提供することを可能にすることができ、それは１または複数のプロセッサ１０２に含まれ得る。一実施形態において、Ｉ／Ｏハブ１０７に結合された１または複数のディスプレイデバイス１１０Ａは、ローカルな、内部の、または埋め込まれたディスプレイデバイスを含み得る。

一実施形態において、処理サブシステム１０１は、バスまたは他の通信リンク１１３を介して、メモリハブ１０５と結合される１または複数の並列プロセッサ１１２を含む。通信リンク１１３は、限定されることはないがＰＣＩＥｘｐｒｅｓｓなどの任意の数の規格のうちの１つをベースにした通信リンク技術またはプロトコルであってよく、または、ベンダ特有の通信インタフェースまたは通信ファブリックであってよい。一実施形態において、１または複数の並列プロセッサ１１２は、多くの統合コア（ＭＩＣ）プロセッサなどの多数の処理コアおよび／または処理クラスタを含み得る、計算に重点を置いたパラレルまたはベクトル処理システムを形成する。一実施形態において、１または複数の並列プロセッサ１１２は、Ｉ／Ｏハブ１０７を介して結合される１または複数のディスプレイデバイス１１０Ａのうちの１つに画素を出力し得る、グラフィックス処理サブシステムを形成する。１または複数の並列プロセッサ１１２は、１または複数のディスプレイデバイス１１０Ｂへの直接接続を可能とするように、ディスプレイコントローラおよびディスプレイインタフェース（図示せず）もまた含み得る。

Ｉ／Ｏサブシステム１１１内には、システムストレージユニット１１４が、コンピューティングシステム１００のためのストレージメカニズムを提供するように、Ｉ／Ｏハブ１０７に接続し得る。Ｉ／Ｏスイッチ１１６は、Ｉ／Ｏハブ１０７と、プラットフォームと一体化されてもよいネットワークアダプタ１１８および／または無線ネットワークアダプタ１１９などの他のコンポーネント、および、１または複数のアドインデバイス１２０を介して追加され得る様々な他のデバイスとの間の接続を可能にするインタフェースメカニズムを提供するように用いられ得る。ネットワークアダプタ１１８は、イーサネット（登録商標）アダプタまたは別の有線ネットワークアダプタであってよい。無線ネットワークアダプタ１１９は、１または複数の無線端末を含む、Ｗｉ−Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）、近距離無線通信（ＮＦＣ）、または他ネットワークデバイスのうち１または複数を含み得る。

コンピューティングシステム１００は、ＵＳＢまたは他のポート接続、光ストレージドライブ、ビデオキャプチャデバイス、および同様のものを含む、明示的に示されない他のコンポーネントを含み得、それらはＩ／Ｏハブ１０７にも接続され得る。図１の様々なコンポーネントを相互接続する通信パスは、ＰＣＩ（周辺構成要素インターコネクト）をベースにしたプロトコル（例えば、ＰＣＩ−Ｅｘｐｒｅｓｓ）、または任意の他のバスまたはポイントツーポイント通信インタフェース、および／または、ＮＶ−リンク高速インターコネクト、または当技術分野で既知の相互接続プロトコルなどのプロトコルなどといった、任意の適したプロトコルを用いて実装されてよい。

一実施形態において、１または複数の並列プロセッサ１１２は、例えば、ビデオ出力回路を含むグラフィックスおよびビデオ処理に最適化された回路を組み込み、グラフィックス処理ユニット（ＧＰＵ）を構成する。別の実施形態では、１または複数の並列プロセッサ１１２は、本明細書でより詳細に説明される、基礎計算アーキテクチャを保存する一方で、汎用処理に最適化された回路を組み込む。さらに別の実施形態において、コンピューティングシステム１００のコンポーネントは、単一の集積回路上の１または複数の他のシステム要素と統合されてもよい。例えば、１または複数の並列プロセッサ１１２、メモリハブ１０５、プロセッサ１０２、およびＩ／Ｏハブ１０７は、システムオンチップ（ＳｏＣ）集積回路と統合されてもよい。代替的には、コンピューティングシステム１００のコンポーネントは、システムインパッケージ（ＳＩＰ）構成を形成するように、単一のパッケージに統合され得る。一実施形態において、コンピューティングシステム１００のコンポーネントの少なくとも一部は、マルチチップモジュール（ＭＣＭ）と統合されてよく、それは他のマルチチップモジュールとモジュラーコンピューティングシステムで相互接続されてよい。

本明細書で示されされるコンピューティングシステム１００は例示であり、変更および修正が可能であることが理解されるであろう。ブリッジの数および配置、プロセッサ１０２の数、および並列プロセッサ１１２の数を含む接続トポロジは、所望により修正されてよい。例えば、いくつかの実施形態において、システムメモリ１０４は、ブリッジを介してではなくむしろ直接プロセッサ１０２に接続され、一方、他のデバイスは、メモリハブ１０５およびプロセッサ１０２を介してシステムメモリ１０４と通信する。他の代替的なトポロジにおいて、並列プロセッサ１１２は、メモリハブ１０５ではなくむしろ、Ｉ／Ｏハブ１０７に、または、１または複数のプロセッサ１０２のうちの１つに直接接続される。他の実施形態において、Ｉ／Ｏハブ１０７およびメモリハブ１０５は単一のチップに統合されてよい。いくつかの実施形態は、複数のソケットを介して取り付けられた、２またはそれより多くのセットのプロセッサ１０２を含んでよく、それらは並列プロセッサ１１２の２またはそれより多くのインスタンスと結合されてよい。

本明細書に示される特定のコンポーネントのいくつかは任意選択的であり、コンピューティングシステム１００のすべての実装に含まれなくてもよい。例えば、任意の数のアドインカードまたは周辺機器がサポートされてよく、または、いくつかのコンポーネントは除去されてよい。さらに、いくつかのアーキテクチャは、図１に図示されたものと同様のコンポーネントについて、異な用語を用いることがある。例えば、メモリハブ１０５は、いくつかのアーキテクチャではノースブリッジと称されることがあり、一方、Ｉ／Ｏハブ１０７はサウスブリッジと称されることがある。

図２Ａは、実施形態による並列プロセッサ２００を示す。並列プロセッサ２００の様々なコンポーネントは、プログラム可能なプロセッサ、特定用途向け集積回路（ＡＳＩＣ）、またはフィールドプログラマブルゲートアレイ（ＦＰＧＡ）などの、１または複数の集積回路デバイスを用いて実装され得る。図示の並列プロセッサ２００は、実施形態による、図１に示された１または複数の並列プロセッサ１１２の変形例である。

一実施形態において、並列プロセッサ２００は並列処理ユニット２０２を含む。並列処理ユニットは、他のデバイスとの通信を可能にするＩ／Ｏユニット２０４を含み、それは並列処理ユニット２０２の他の例を含む。Ｉ／Ｏユニット２０４は、他のデバイスと直接接続し得る。一実施形態において、Ｉ／Ｏユニット２０４は、メモリハブ１０５などのハブまたはスイッチインタフェースの使用を介して他のデバイスと接続される。メモリハブ１０５とＩ／Ｏユニット２０４との間の接続は、通信リンク１１３を形成する。並列処理ユニット２０２内で、Ｉ／Ｏユニット２０４はホストインタフェース２０６およびメモリクロスバー２１６と接続し、ホストインタフェース２０６は処理演算の実行に関するコマンドを受信し、メモリクロスバー２１６はメモリ動作の実行に関するコマンドを受信する。

ホストインタフェース２０６がＩ／Ｏユニット２０４を介してコマンドバッファを受信する場合、ホストインタフェース２０６はフロントエンド２０８にこれらコマンドを実行する作業動作を指示することができる。一実施形態において、フロントエンド２０８はスケジューラ２１０と結合し、それはコマンドまたは他の動作アイテムを処理クラスタアレイ２１２に分配するように構成される。一実施形態において、スケジューラ２１０は、タスクが処理クラスタアレイ２１２の処理クラスタに分配される前に、処理クラスタアレイ２１２が適切に、かつ有効状態で構成されることを保証する。一実施形態において、スケジューラ２１０は、マイクロコントローラ上でファームウェアロジックの実行によって実装される。スケジューラ２１０を実装するマイクロコントローラは、複雑なスケジューリング、ならびに、粗い、および細かい粒度での作業配分動作を実行し、処理アレイ２１２上で実行するスレッドの急速なプリエンプションおよびコンテキスト切り替を可能にするように構成可能である。一実施形態において、ホストソフトウェアは、複数のグラフィックス処理ドアベルのうちの１つを介して、処理アレイ２１２上のスケジューリングのためのワークロードを明らかにし得る。ワークロードは、次に、スケジューラマイクロコントローラ内のスケジューラ２１０ロジックによって、処理アレイ２１２にわたって自動的に分配され得る。

処理クラスタアレイ２１２は、最大で「Ｎ」個の処理クラスタ（例えば、クラスタ２１４Ａ、クラスタ２１４Ｂからクラスタ２１４Ｎ）を含み得る。処理クラスタアレイ２１２の各クラスタ２１４Ａ−２１４Ｎは、多数の並列のスレッドを実行し得る。スケジューラ２１０は、様々なスケジューリングおよび／または作業配分アルゴリズムを用いて処理クラスタアレイ２１２のクラスタ２１４Ａ−２１４Ｎに動作を割り当て得、それは、プログラムまたは計算の各タイプに関して生ずるワークロードに応じて変わり得る。スケジューリングは、スケジューラ２１０によって動的に処理され得、または、処理クラスタアレイ２１２による実行のために構成されたプログラムロジックのコンパイルの間に、部分的にコンパイラロジックによってアシストされ得る。一実施形態において、処理クラスタアレイ２１２の異なるクラスタ２１４Ａ−２１４Ｎは、異なるタイプのプログラムを処理するために、または異なるタイプの計算を実行するために、割り当てられ得る。

処理クラスタアレイ２１２は、様々なタイプの並列処理演算を実行するように構成され得る。一実施形態において、処理クラスタアレイ２１２は、汎用並列計算操作を実行するように構成される。例えば、処理クラスタアレイ２１２は、ビデオおよび／または音声データのフィルタリングと、物理的動作を含むモデリング動作の実行と、データ変換の実行とを含む処理タスクを実行するロジックを含み得る。

一実施形態において、処理クラスタアレイ２１２は、並列グラフィックス処理演算を実行するように構成される。並列プロセッサ２００がグラフィックス処理演算を実行するように構成される実施形態において、処理クラスタアレイ２１２は、限定されることはないが、テクスチャ演算を実行するテクスチャサンプリングロジック、ならびにテセレーションロジックおよび他の頂点処理ロジックを含む、そのようなグラフィックス処理演算の実行をサポートする追加のロジックを含み得る。さらに、処理クラスタアレイ２１２は、限定されることはないが、頂点シェーダ、テセレーションシェーダ、ジオメトリシェーダ、および画素シェーダなどのグラフィックス処理関連シェーダプログラムを実行するように構成され得る。並列処理ユニット２０２は、処理のために、データをシステムメモリからＩ／Ｏユニット２０４を介して転送し得る。処理の最中に、転送されるデータはオンチップメモリ（例えば、並列プロセッサメモリ２２２）に格納され、次にシステムメモリに書き戻され得る。

一実施形態において、並列処理ユニット２０２がグラフィックス処理を実行するように用いられる場合、スケジューラ２１０は、ワークロードの処理をほぼ等しいサイズのタスクに分割するように構成され得、グラフィックス処理演算の、処理クラスタアレイ２１２の複数のクラスタ２１４Ａ−２１４Ｎへのより良好な分散を可能にする。いくつかの実施形態において、処理クラスタアレイ２１２の一部は、異なるタイプの処理を実行するように構成され得る。例えば、第１の部分は、頂点シェーディングおよびトポロジ生成を実行するように構成され得、第２の部分は、テセレーションおよびジオメトリシェーディングを実行するように構成され得、第３の部分は、画素シェーディングまたは他のスクリーン空間動作を実行するように構成され得、表示のためにレンダリングされた画像を生成し得る。１または複数のクラスタ２１４Ａ−２１４Ｎによって生成された中間データは、バッファに格納され得、さらなる処理のためにクラスタ２１４Ａ−２１４Ｎの間に中間データが伝送されることを可能にし得る。

動作の最中に、処理クラスタアレイ２１２は、スケジューラ２１０を介して実行されるための処理タスクを受信し得、該スケジューラはフロントエンド２０８からの処理タスクを定義するコマンドを受信する。グラフィックス処理演算に関して、処理タスクは処理されるべきデータ、例えば、サーフェス（パッチ）データ、プリミティブデータ、頂点データ、および／または画素データ、ならびに状態パラメータ、および、データがどのように処理されるべきか（例えば、どのプログラムが実行されるべきか）を定義するコマンドのインデックスを含み得る。スケジューラ２１０は、タスクに対応するインデックスをフェッチするように構成され得、または、フロントエンド２０８からインデックスを受信し得る。フロントエンド２０８は、処理クラスタアレイ２１２が、入来するコマンドバッファ（例えば、バッチバッファ、プッシュバッファなど）によって特定されるワークロードが開始される前に有効状態となるように構成されることを保証するように構成され得る。

並列処理ユニット２０２の１または複数のインスタンスのそれぞれは、並列プロセッサメモリ２２２を結合し得る。並列プロセッサメモリ２２２は、メモリクロスバー２１６を介してアクセスされ得、該メモリクロスバーは、処理クラスタアレイ２１２ならびにＩ／Ｏユニット２０４からのメモリ要求を受信し得る。メモリクロスバー２１６は、メモリインタフェース２１８を介して並列プロセッサメモリ２２２にアクセスし得る。メモリインタフェース２１８は、並列プロセッサメモリ２２２の一部（例えば、メモリユニット）と各々結合し得る複数のパーティションユニット（例えば、パーティションユニット２２０Ａ、パーティションユニット２２０Ｂからパーティションユニット２２０Ｎ）を含み得る。一実装例において、パーティションユニット２２０Ａ−２２０Ｎの数は、メモリユニットの数に等しくなるように、したがって、第１パーティションユニット２２０Ａは対応する第１メモリユニット２２４Ａを有し、第２パーティションユニット２２０Ｂは対応するメモリユニット２２４Ｂを有し、Ｎ番目のパーティションユニット２２０Ｎは対応するＮ番目のメモリユニット２２４Ｎを有するように構成される。他の実施形態において、パーティションユニット２２０Ａ−２２０Ｎの数は、メモリデバイスの数に等しくならなくともよい。

様々な実施形態において、メモリユニット２２４Ａ−２２４Ｎは、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、または、グラフィックスダブルデータレート（ＧＤＤＲ）メモリを含むシンクロナスグラフィックスランダムアクセスメモリ（ＳＧＲＡＭ）などのグラフィックスランダムアクセスメモリを含む様々なタイプのメモリデバイスを含み得る。一実施形態において、メモリユニット２２４Ａ−２２４Ｎは、限定されることはないが高帯域幅メモリ（ＨＢＭ）を含む、３Ｄスタックメモリもまた含んでよい。当業者は、メモリユニット２２４Ａ−２２４Ｎの具体的な実施形態は変わってもよく、様々な従来の設計のうちの１つから選択されてもよいことを理解するであろう。フレームバッファまたはテクスチャマップなどのレンダターゲットは、メモリユニット２２４Ａ−２２４Ｎにわたって格納されてよく、パーティションユニット２２０Ａ−２２０Ｎが、並列プロセッサメモリ２２２の利用可能な帯域幅を効果的に用いて並列に、各レンダターゲットの一部に書き込みを行うことを可能とする。いくつかの実施形態において、ローカルキャッシュメモリと共にシステムメモリを使用するユニファイドメモリ設計を優先して、並列プロセッサメモリ２２２のローカルインスタンスは除外されてよい。

一実施形態において、処理クラスタアレイ２１２のクラスタ２１４Ａ−２１４Ｎのうちの任意の１つは、並列プロセッサメモリ２２２内の任意のメモリユニット２２４Ａ−２２４Ｎに書き込まれるであろうデータを処理し得る。メモリクロスバー２１６は、各クラスタ２１４Ａ−２１４Ｎの出力を、任意パーティションユニット２２０Ａ−２２０Ｎに、または別のクラスタ２１４Ａ−２１４Ｎに転送するように構成され得、それは出力上の追加の処理演算を実行し得る。各クラスタ２１４Ａ−２１４Ｎは、様々な外部メモリデバイスで読み出し、または書き込むように、メモリクロスバー２１６を通じてメモリインタフェース２１８と通信し得る。一実施形態において、メモリクロスバー２１６は、Ｉ／Ｏユニット２０４と通信するためのメモリインタフェース２１８との接続を有し、ならびに、異なる処理クラスタ２１４Ａ−２１４Ｎ内の処理ユニットが、システムメモリまたは並列処理ユニット２０２にローカルではない他のメモリと通信することを可能にする、並列プロセッサメモリ２２２のローカルインスタンスとの接続を有する。一実施形態において、メモリクロスバー２１６は、クラスタ２１４Ａ−２１４Ｎとパーティションユニット２２０Ａ−２２０Ｎとの間のトラフィックストリームを分離するように仮想チャネルを用いてよい。

並列処理ユニット２０２の単一のインスタンスが並列プロセッサ２００内に図示される一方、並列処理ユニット２０２の任意の数のインスタンスが含まれ得る。例えば、並列処理ユニット２０２の複数のインスタンスは、単一のアドインカード上で提供されてよく、または複数のアドインカードが相互接続されされてもよい。並列処理ユニット２０２の異なるインスタンスは、異なるインスタンスが異なる数の処理コア、異なる量のローカル並列プロセッサメモリ、および／または他の構成差を有する場合でも、相互動作するように構成されてよい。例えば、一実施形態において、並列処理ユニット２０２のいくつかのインスタンスは、他のインスタンスと比較してより高い精度の浮動小数点ユニットを含み得る。並列処理ユニット２０２または並列プロセッサ２００の１または複数のインスタンスを組み込んだシステムは、様々な構成および形態の要因で実装され得、限定されることはないが、デスクトップ、ラップトップ、またはハンドヘルド型パーソナルコンピュータ、サーバ、ワークステーション、ゲームコンソール、および／または埋め込まれたシステムを含む。

図２Ｂは、実施形態による、パーティションユニット２２０のブロック図である。一実施形態において、パーティションユニット２２０は、図２Ａのパーティションユニット２２０Ａ−２２０Ｎのうちの１つのインスタンスである。図示されるように、パーティションユニット２２０はＬ２キャッシュ２２１、フレームバッファインタフェース２２５、およびＲＯＰ２２６（ラスタ動作ユニット）を含む。Ｌ２キャッシュ２２１は、メモリクロスバー２１６およびＲＯＰ２２６から受信されるロードアンドストアオペレーションの動作を実行するように構成される、読み出し／書き込みキャッシュである。読み出しミスおよび緊急書き込み戻し要求が、処理のためにフレームバッファインタフェース２２５へとＬ２キャッシュ２２１によって出力される。アップデートもまた、処理のためにフレームバッファインタフェース２２５を介してフレームバッファへと送信され得る。一実施形態において、フレームバッファインタフェース２２５は、図２Ａの（例えば、並列プロセッサメモリ２２２内の）メモリユニット２２４Ａ−２２４Ｎなどの、並列プロセッサメモリにおけるメモリユニットのうちの１つとインタフェースする。

グラフィックスアプリケーションにおいて、ＲＯＰ２２６は、ステンシル、ｚテスト、ブレンディング、および同様のものなどのラスタ動作を実行する処理ユニットである。ＲＯＰ２２６は、次に、グラフィックスメモリに格納された、処理されたグラフィックスデータを出力する。いくつかの実施形態において、ＲＯＰ２２６は、メモリに書き込まれた深さまたは色データを圧縮し、メモリから読み出された深さまたは色データを圧縮解除する圧縮ロジックを含む。圧縮ロジックは、複数の圧縮アルゴリズムのうち１または複数を用いて作成される可逆圧縮ロジックであり得る。ＲＯＰ２２６によって実行される圧縮のタイプは、圧縮されるべきデータの統計的特性に基づいて変わり得る。例えば、一実施形態において、デルタ色圧縮が、タイルごとの基準に基づいてデプス（ｄｅｐｔｈ）および色データ上で実行される。

いくつかの実施形態において、ＲＯＰ２２６は、パーティションユニット２２０内ではなく、各処理クラスタ（例えば、図２Ａのクラスタ２１４Ａ−２１４Ｎ）内に含まれる。そのような実施形態において、画素断片データではなく、画素データの読み出しおよび書き込み要求が、メモリクロスバー２１６を介して伝送される。処理されたグラフィックスデータは、図１の１または複数のディスプレイデバイス１１０のうちの１つなどの、ディスプレイデバイス上に表示され得、プロセッサ１０２によってさらなる処理のために転送され得。または図２Ａの並列プロセッサ２００内の処理されたエンティティのうちの１つによるさらなる処理のために転送され得る。

図２Ｃは、実施形態による、並列処理ユニット内の処理クラスタ２１４のブロック図である。一実施形態において、処理クラスタは図２Ａの処理クラスタの２１４Ａ−２１４Ｎのうちの１つのインスタンスである。処理クラスタ２１４は、並列の多くのスレッドを実行するように構成され得、用語「スレッド」は、特定の入力データのセット上で実行している特定のプログラムのインスタンスを指す。いくつかの実施形態において、単一命令複数データ（ＳＩＭＤ）命令の発行技術が、複数の独立指示部を提供することなく多数のスレッドの並列実行をサポートするように用いられる。他の実施形態において、単一命令複数スレッド（ＳＩＭＴ）技術が、処理クラスタのうちの各１つ内の処理エンジンのセットに命令を発行するように構成された共通命令ユニットを用いて、多数の一般的に同期されたスレッドの並列実行をサポートするように用いられる。すべての処理エンジンが典型的に同一の命令を実行する、ＳＩＭＤ実行状態とは異なり、ＳＩＭＴ実行は、異なるスレッドがより容易に、所与のスレッドプログラムを通じて拡散実行パスに従うことを可能にする。当業者は、ＳＩＭＤ処理状態がＳＩＭＴ処理状態の機能サブセットを表すことを理解するであろう。

処理クラスタ２１４の動作は、ＳＩＭＴ並列プロセッサへと処理タスクを分配するパイプラインマネージャ２３２を介して制御され得る。パイプラインマネージャ２３２は、図２Ａのスケジューラ２１０から命令を受信し、グラフィックスマルチプロセッサ２３４および／またはテクスチャユニット２３６を介して、これらの命令の実行を管理する。示されたグラフィックスマルチプロセッサ２３４は、ＳＩＭＴ並列プロセッサの例示的なインスタンスである。しかしながら、異なるアーキテクチャの、様々なタイプのＳＩＭＴ並列プロセッサが、処理クラスタ２１４内に含まれ得る。グラフィックスマルチプロセッサ２３４の１または複数のインスタンスは、処理クラスタ２１４内に含まれ得る。グラフィックスマルチプロセッサ２３４は、データを処理し得、データクロスバー２４０は、処理済みデータを、他のシェーダユニットを含む複数の可能デスティネーションのうちの１つに分配するように用いられ得る。パイプラインマネージャ２３２は、データクロスバー２４０を介して分配されるべき処理済みデータのためのデスティネーションを特定することによって、処理済みデータの分散を促し得る。

処理クラスタ２１４内の各グラフィックスマルチプロセッサ２３４は、機能実行ロジック（例えば、算術論理ユニット、負荷格納ユニットなど）の同一のセットを含み得る。機能実行ロジックは、以前の命令が完了する前に新たな命令が発行され得るパイプライン方式で構成され得る。機能実行ロジックは、整数および浮動小数点算術、比較動作、ブーリアン動作、ビットシフト、および様々な代数関数の計算を含む、様々な動作をサポートする。一実施形態において、同一の機能ユニットハードウェアが、異な動作を実行するように活用され得、機能ユニットの任意の組み合わせが提示され得る。

処理クラスタ２１４に伝送される命令はスレッドを構成する。並列処理エンジンのセットにわたって実行するスレッドのセットはスレッドグループである。スレッドグループは、異なる入力データ上で同一のプログラムを実行する。スレッドグループ内の各スレッドは、グラフィックスマルチプロセッサ２３４内で異なる処理エンジンに割り当てられてよい。スレッドグループは、グラフィックスマルチプロセッサ２３４内の処理エンジンの数より少ないスレッドを含んでよい。スレッドグループが処理エンジンの数より少ないスレッドを含むとき、処理エンジンのうち１または複数は、スレッドグループが処理されるサイクルの最中にアイドルであってよい。スレッドグループは、グラフィックスマルチプロセッサ２３４内の処理エンジンの数より多いスレッドを含んでもよい。スレッドグループがグラフィックスマルチプロセッサ２３４内の処理エンジンの数より多いスレッドを含むとき、処理は連続クロックサイクルにわたって実行され得る。一実施形態において、複数のスレッドグループが、グラフィックスマルチプロセッサ２３４上で同時に実行され得る。

一実施形態において、グラフィックスマルチプロセッサ２３４は、ロードアンドストアオペレーションを実行する内部キャッシュメモリを含む。一実施形態において、グラフィックスマルチプロセッサ２３４は、内部キャッシュに先行し得、処理クラスタ２１４内でキャッシュメモリ（例えば、Ｌ１キャッシュ２４８）を用い得る。各グラフィックスマルチプロセッサ２３４もまた、すべての処理クラスタ２１４の間で共有され、スレッドの間でデータを転送するのに用いられ得るパーティションユニット（例えば、図２Ａのパーティションユニット２２０Ａ−２２０Ｎ）内のＬ２キャッシュへのアクセスを有する。グラフィックスマルチプロセッサ２３４もまた、オフチップグローバルメモリにアクセスし得、それは１または複数のローカル並列プロセッサメモリおよび／またはシステムメモリを含み得る。並列処理ユニット２０２の外部の任意のメモリが、グローバルメモリとして用いられ得る。処理クラスタ２１４がグラフィックスマルチプロセッサ２３４の複数のインスタンスを含む実施形態は、共通の命令およびデータを共有し得、それはＬ１キャッシュ２４８内に格納され得る。

各処理クラスタ２１４は、仮想アドレスを物理アドレスにマッピングするように構成されるＭＭＵ２４５（メモリ管理ユニット）を含み得る。他の実施形態において、ＭＭＵ２４５の１または複数のインスタンスは、図２Ａのメモリインタフェース２１８に存在し得る。ＭＭＵ２４５は、仮想アドレスをタイルの物理アドレスに、および任意選択的にキャッシュライン指標にマッピングするように用いられるページテーブルのセットエントリ（ＰＴＥｓ）を含む。ＭＭＵ２４５は、アドレストランスレーションルックアサイドバッファ（ＴＬＢ）、またはグラフィックスマルチプロセッサ２３４内に存在し得るキャッシュ、またはＬ１キャッシュ、または処理クラスタ２１４を含んでよい。物理アドレスは、パーティションユニット間でのインタリーブの効率的な要求を可能にする、サーフェスデータアクセス局所性を分配するように処理される。キャッシュライン指標は、キャッシュラインの要求がヒットかミスかを決定するように用いられてよい。

グラフィックスおよびコンピューティングアプリケーションにおいて、処理クラスタ２１４は、各グラフィックスマルチプロセッサ２３４がテクスチャマッピング動作、例えば、テクスチャサンプル位置の決定、テクスチャデータの読み取り、およびテクスチャデータのフィルタリングを実行するためにテクスチャユニット２３６に結合されるように構成され得る。テクスチャデータは、内部テクスチャＬ１キャッシュ（図示せず）から、またはいくつかの実施形態において、グラフィックスマルチプロセッサ２３４内のＬ１キャッシュから読み出され、必要に応じてＬ２キャッシュ、ローカル並列プロセッサメモリ、またはシステムメモリからフェッチされる。各グラフィックスマルチプロセッサ２３４は、さらなる処理のために別の処理クラスタ２１４に処理されたタスクを提供するように、または、Ｌ２キャッシュ、ローカル並列プロセッサメモリ、またはメモリクロスバー２１６を介してシステムメモリに処理されたタスクを格納するように、処理されたタスクをデータクロスバー２４０に出力する。ｐｒｅＲＯＰ２４２（ラスタ動作ユニット）は、グラフィックスマルチプロセッサ２３４からデータを受信し、データをＲＯＰユニットに向けるように構成され、それは本明細書に説明されるようなパーティションユニット（例えば、図２Ａのパーティションユニット２２０Ａ−２２０Ｎ）に位置し得る。ｐｒｅＲＯＰ２４２ユニットは、カラーブレンディングの最適化の実行、画素カラーデータの編成、およびアドレス変換の実行をし得る。

本明細書で説明されされるコアアーキテクチャは、例示のものであり、変更および修正が可能であることが理解されるであろう。任意の数の処理ユニット、例えば、グラフィックスマルチプロセッサ２３４、テクスチャユニット２３６、ｐｒｅＲＯＰ２４２などが、処理クラスタ２１４内に含まれ得る。さらに、１つの処理クラスタ２１４のみが示されている一方、本明細書で説明される並列処理ユニットは、処理クラスタ２１４の任意の数のインスタンスを含み得る。一実施形態において、各処理クラスタ２１４は、分離および別個の処理ユニット、Ｌ１キャッシュなどを用いた他処理クラスタ２１４とは独立して動作するように構成され得る。

図２Ｄは、一実施形態によるグラフィックスマルチプロセッサ２３４を示す。そのような実施形態において、グラフィックスマルチプロセッサ２３４は、処理クラスタ２１４のパイプラインマネージャ２３２と結合する。グラフィックスマルチプロセッサ２３４は、限定されることはないが、命令キャッシュ２５２、指示部２５４、アドレスマッピングユニット２５６、レジスタファイル２５８、１または複数の汎用グラフィックス処理ユニット（ＧＰＧＰＵ）コア２６２、および１または複数のロード／ストアユニット２６６を含む実行パイプラインを有する。ＧＰＧＰＵコア２６２およびロード／ストアユニット２６６は、メモリおよびキャッシュインターコネクト２６８を介して、キャッシュメモリ２７２および共有メモリ２７０と結合する。一実施形態において、グラフィックスマルチプロセッサ２３４は、行列および／またはレイトレーシング動作をアクセラレートするためのハードウェアロジックを含む、テンソルおよび／またはレイトレーシングコア２６３をさらに含む。

一実施形態において、命令キャッシュ２５２は、実行する命令のストリームを、パイプラインマネージャ２３２から受信する。命令は、命令キャッシュ２５２にキャッシュされ、指示部２５４による実行のためにディスパッチされる。指示部２５４は、スレッドグループの各スレッドがＧＰＧＰＵコア２６２内の異なる実行ユニットに割り当てられた状態の、スレッドグループ（例えば、ワープス（ｗａｒｐｓ））として命令をディスパッチし得る。命令は、統一されたアドレススペース内のアドレスを特定することによって、任意のローカルな、共有の、またはグローバルなアドレス空間にアクセスし得る。アドレスマッピングユニット２５６は、統一されたアドレススペースのアドレスを、ロード／ストアユニット２６６によってアクセスされ得る別個のメモリアドレスに変換するように用いられ得る。

レジスタファイル２５８は、グラフィックスマルチプロセッサ２３４の機能ユニットにレジスタのセットを提供する。レジスタファイル２５８は、グラフィックスマルチプロセッサ２３４の機能ユニット（例えば、ＧＰＧＰＵコア２６２、ロード／ストアユニット２６６）のデータパスに接続されるオペランドに一時ストレージを提供する。一実施形態において、レジスタファイル２５８は、各機能ユニットがレジスタファイル２５８の専用の一部に割り当てられるように機能ユニットのそれぞれの間で分割される。一実施形態において、レジスタファイル２５８は、グラフィックスマルチプロセッサ２３４によって実行される異なるワープスの間で分割される。

ＧＰＧＰＵコア２６２は、グラフィックスマルチプロセッサ２３４の命令を実行するように用いられる、浮動小数点ユニット（ＦＰＵ）および／または整数算術論理ユニット（ＡＬＵ）を各々含み得る。実施形態によって、ＧＰＧＰＵコア２６２は、アーキテクチャにおいて同様であってよく、または、アーキテクチャにおいて異なってもよい。例えば、および一実施形態において、ＧＰＧＰＵコア２６２の第１の部分は、単精度ＦＰＵおよび整数ＡＬＵを含み、一方、ＧＰＧＰＵコアの第２の部分は、倍精度ＦＰＵを含む。一実施形態において、ＦＰＵは浮動小数点算術のためのＩＥＥＥ７５４−２００８標準を実装し得、または、可変精度浮動小数点算術を可能にし得る。グラフィックスマルチプロセッサ２３４は、矩形コピーまたは画素ブレンディング演算などの特定の機能を実行する、１または複数の固定機能または特殊関数ユニットをさらに含み得る。一実施形態において、１または複数のＧＰＧＰＵコアは、固定された、または特殊関数のロジックもまた含み得る。

一実施形態において、ＧＰＧＰＵコア２６２は、データの複数のセット上で単一の命令を実行することが可能なＳＩＭＤロジックを含む。一実施形態において、ＧＰＧＰＵコア２６２は、ＳＩＭＤ４、ＳＩＭＤ８、およびＳＩＭＤ１６命令を物理的に実行し得、ＳＩＭＤ１、ＳＩＭＤ２、およびＳＩＭＤ３２命令を論理的に実行し得る。ＧＰＧＰＵコアにおけるＳＩＭＤ命令は、シェーダコンパイラによるコンパイル時間に生成され得、または、単一プログラム複数のデータ（ＳＰＭＤ）またはＳＩＭＴアーキテクチャに関して書き込まれてコンパイルされたプログラムを実行する場合に自動的に生成され得る。ＳＩＭＴ実行モデルのために構成されたプログラムの複数のスレッドは、単一のＳＩＭＤ命令を介して実行され得る。例えば、および一実施形態において、同じまたは類似の動作を実行する８つのＳＩＭＴスレッドが、単一のＳＩＭＤ８ロジックユニットを介して並列に実行され得る。

メモリおよびキャッシュインターコネクト２６８は、グラフィックスマルチプロセッサ２３４の機能ユニットのそれぞれを、レジスタファイル２５８および共有メモリ２７０に接続する、インターコネクトネットワークである。一実施形態において、メモリおよびキャッシュインターコネクト２６８は、共有メモリ２７０とレジスタファイル２５８との間で、ロード／ストアユニット２６６が、ロードアンドストアオペレーションを実装することを可能にするクロスバーインターコネクトである。レジスタファイル２５８は、ＧＰＧＰＵコア２６２と同一の周波数で動作し得、したがって、ＧＰＧＰＵコア２６２とレジスタファイル２５８との間のデータ転送は、非常にレイテンシが低い。共有メモリ２７０は、グラフィックスマルチプロセッサ２３４内の機能ユニット上で実行されるスレッドの間で通信を可能にするように用いられ得る。キャッシュメモリ２７２は、例えば、機能ユニットとテクスチャユニット２３６との間で通信されるテクスチャデータをキャッシュする、データキャッシュとして用いられ得る。共有メモリ２７０は、プログラム管理されたキャッシュとしても用いられ得る。ＧＰＧＰＵコア２６２上で実行されるスレッドは、キャッシュメモリ２７２内に格納されて自動的にキャッシュされたデータに加えて、共有メモリ内でプログラムでデータを格納し得る。

図３Ａから図３Ｃは、実施形態による追加のグラフィックスマルチプロセッサを示す。図３Ａから図３Ｂは、グラフィックスマルチプロセッサ３２５、３５０を示し、それは図２Ｃのグラフィックスマルチプロセッサ２３４の変形例である。図３Ｃは、マルチコアグループ３６５Ａ−３６５Ｎに配置れたグラフィックス処理リソース専用のセットを含む、グラフィックス処理ユニット（ＧＰＵ）３８０を示す。示されたグラフィックスマルチプロセッサ３２５、３５０およびマルチコアグループ３６５Ａ−３６５Ｎは、多数の実行スレッドでの同時実行が可能なストリーミングマルチプロセッサ（ＳＭ）であり得る。

図３Ａは、追加の実施形態によるグラフィックスマルチプロセッサ３２５を示す。グラフィックスマルチプロセッサ３２５は、図２Ｄのグラフィックスマルチプロセッサ２３４と比較して、実行リソースユニットの複数の追加インスタンスを含む。例えば、グラフィックスマルチプロセッサ３２５は、指示部３３２Ａ−３３２Ｂ、レジスタファイル３３４Ａ−３３４Ｂ、およびテクスチャユニット３４４Ａ−３４４Ｂの複数のインスタンスを含み得る。グラフィックスマルチプロセッサ３２５は、グラフィックスまたはコンピュート実行ユニット（例えば、ＧＰＧＰＵコア３３６Ａ−３３６Ｂ、テンソルコア３３７Ａ−３３７Ｂ、レイトレーシングコア３３８Ａ−３３８Ｂ）の複数のセット、および、ロード／ストアユニット３４０Ａ−３４０Ｂの複数のセットもまた含む。一実施形態において、実行リソースユニットは、共通命令キャッシュ３３０、テクスチャおよび／またはデータキャッシュメモリ３４２、および共有メモリ３４６を有する。

様々なコンポーネントが、相互接続ファブリック３２７を介して通信し得る。一実施形態において、相互接続ファブリック３２７は、グラフィックスマルチプロセッサ３２５の様々なコンポーネント間の通信を可能にする、１または複数のクロスバースイッチを含む。一実施形態において、相互接続ファブリック３２７は、グラフィックスマルチプロセッサ３２５の各コンポーネントがスタックされる、別個の高速ネットワークファブリック層である。グラフィックスマルチプロセッサ３２５のコンポーネントは、相互接続ファブリック３２７を介してリモートコンポーネントと通信する。例えば、ＧＰＧＰＵコア３３６Ａ−３３６Ｂ、３３７Ａ−３３７Ｂおよび３３７８Ａ−３３８Ｂは、相互接続ファブリック３２７を介して共有メモリ３４６と各々通信し得る。相互接続ファブリック３２７は、コンポーネント間の公正な帯域幅割り当てを保証するように、グラフィックスマルチプロセッサ３２５内での通信をアービトレートし得る。

図３Ｂは、追加の実施形態によるグラフィックスマルチプロセッサ３５０を示す。グラフィックスプロセッサは、実行リソース３５６Ａ−３５６Ｄの複数のセットを含み、実行リソースの各セットは、図２Ｄおよび図３Ａに図示されたように、複数の命令ユニット、レジスタファイル、ＧＰＧＰＵコア、およびロードストアユニットを含む。実行リソース３５６Ａ−３５６Ｄは、テクスチャ演算のためにテクスチャユニット３６０Ａ−３６０Ｄと連携して動作し得る一方、命令キャッシュ３５４および共有メモリ３５３を共有する。一実施形態において、実行リソース３５６Ａ−３５６Ｄは、命令キャッシュ３５４および共有メモリ３５３、ならびに、テクスチャの複数のインスタンス、および／またはデータキャッシュメモリ３５８Ａ−３５８Ｂを共有し得る。様々なコンポーネントが、図３Ａの相互接続ファブリック３２７と同様に、相互接続ファブリック３５２を介して通信し得る。

当業者は、図１、２Ａ−２Ｄ、および３Ａ−３Ｂに説明されたアーキテクチャは、本実施形態の範囲について説明するものであり、限定するものではないことを、理解するであろう。したがって、本明細書に説明された技術は、本明細書に説明された実施形態の範囲から逸脱せずに、１または複数のモバイルアプリケーションプロセッサ、１または複数のデスクトップまたはマルチコアＣＰＵを含むサーバ中央処理装置（ＣＰＵ）、図２Ａの並列処理ユニット２０２などの１または複数の並列処理ユニット、ならびに、１または複数のグラフィックスプロセッサまたは専用処理ユニットを限定することなく含む、任意の適切に構成された処理ユニット上で実装され得る。

いくつかの実施形態において、本明細書で説明された並列プロセッサまたはＧＰＧＰＵは、グラフィックス演算、機械学習動作、パターン分析動作、および様々な汎用ＧＰＵ（ＧＰＧＰＵ）機能をアクセラレートするように、ホスト／プロセッサコアに通信可能に結合される。ＧＰＵは、バスまたは他のインターコネクト（例えば、ＰＣＩｅまたはＮＶＬｉｎｋなどの高速インターコネクト）上でホストプロセッサ／コアに通信可能に結合され得る。他の実施形態において、ＧＰＵは、コアと同一のパッケージまたはチップ上に統合され得、内部プロセッサバス／インターコネクト上のコア（つまり、パッケージまたはチップの内部）と通信可能に結合され得る。ＧＰＵが接続される方式にかかわらず、プロセッサコアは、ワーク記述子に含まれるコマンド／命令のシーケンスの形式で、動作をＧＰＵに割り当て得る。ＧＰＵは次に、これらコマンド／命令を効果的に処理するための専用の回路／ロジックを用いる。

図３Ｃは、マルチコアグループ３６５Ａ−Ｎに配置されたグラフィックス処理リソースの専用のセットを含む、グラフィックス処理ユニット（ＧＰＵ）３８０を示す。単一マルチコアグループ３６５Ａのみの詳細が提供される一方で、他のマルチコアグループ３６５Ｂ−３６５Ｎが、グラフィックス処理リソースの同じまたは類似のセットによって装備され得ることが、理解されるであろう。

図示されるように、マルチコアグループ３６５Ａは、グラフィックスコア３７０のセット、テンソルコア３７１のセット、およびレイトレーシングコア３７２のセットを含み得る。スケジューラ／ディスパッチャ３６８は、様々なコア３７０、３７１、３７２上での実行のためにグラフィックススレッドをスケジューリングおよびディスパッチする。レジスタファイルのセット３６９は、グラフィックススレッドを実行する場合に、コア３７０、３７１、３７２によって用いられるオペランド値を格納する。これらは、例えば、整数値を格納するための整数レジスタ、浮動小数点値を格納するための浮動小数点レジスタ、パックドデータ要素（整数および／または浮動小数点データ要素）を格納するためのベクトルレジスタ、およびテンソル／行列値を格納するためのタイルレジスタを含み得る。一実施形態において、タイルレジスタはベクトルレジスタのセットの組み合わせとして実装される。

レベル１（Ｌ１）キャッシュおよび共有メモリユニット３７３の１または複数の組み合わせは、テクスチャデータ、頂点データ、画素データ、レイデータ、境界ボリュームデータなどのグラフィックスデータを、各マルチコアグループ３６５Ａ内に局所的に格納する。１または複数のテクスチャユニット３７４もまた、テクスチャマッピングおよびサンプリングなどのテクスチャリング動作の実行のために用いられ得る。レベル２（Ｌ２）キャッシュ３７５は、グラフィックスデータおよび／または複数の並列のグラフィックススレッドに関する命令を格納するマルチコアグループ３６５Ａ−３６５Ｎのすべて、またはサブセットを共有する。図示されるように、Ｌ２キャッシュ３７５は、複数のマルチコアグループ３６５Ａ−３６５Ｎにわたって共有されてよい。１または複数メモリコントローラ３６７は、ＧＰＵ３８０を、システムメモリ（例えば、ＤＲＡＭ）および／または専用のグラフィックスメモリ（例えば、ＧＤＤＲ６メモリ）であってよいメモリ３６６に結合する。

入力／出力（Ｉ／Ｏ）回路３６３は、ＧＰＵ３８０を、デジタル信号プロセッサ（ＤＳＰ）、ネットワークコントローラ、またはユーザ入力デバイスなどの、１または複数のＩ／Ｏデバイス３６２に結合する。オンチップインターコネクトが、Ｉ／Ｏデバイス３６２をＧＰＵ３８０およびメモリ３６６に結合するように用いられてよい。Ｉ／Ｏ回路３６３の１または複数のＩ／Ｏメモリ管理ユニット（ＩＯＭＭＵ）３６４は、Ｉ／Ｏデバイス３６２を、システムメモリ３６６に直接結合する。一実施形態において、ＩＯＭＭＵ３６４は、仮想アドレスをシステムメモリ３６６の物理アドレスにマッピングするように、ページテーブルの複数のセットを管理する。本実施形態において、Ｉ／Ｏデバイス３６２、ＣＰＵ３６１、およびＧＰＵ３８０は、同一の仮想アドレス空間を共有し得る。

一実装例において、ＩＯＭＭＵ３６４は仮想化をサポートする。この場合には、それは、ゲスト／グラフィックス仮想アドレスをゲスト／グラフィックス物理アドレスにマッピングするページテーブルの第１セットと、ゲスト／グラフィックス物理アドレスをシステム／ホスト物理アドレス（例えば、システムメモリ３６６内）にマッピングするページテーブルの第２セットとを管理し得る。ページテーブルの第１および第２セットのそれぞれの基本アドレスは、制御レジスタに格納され得、コンテキストスイッチ上で入れ替えられ得る（例えば、これにより、ページテーブルの関連するセットへのアクセスによって新たなコンテキストが提供される）。図３Ｃにはのそれぞれ不図示である一方、コア３７０、３７１、３７２および／またはマルチコアグループ３６５Ａ−３６５Ｎのそれぞれは、ゲスト仮想をゲスト物理変換にキャッシュし、ゲスト物理をホスト物理変換にキャッシュし、ゲスト仮想をホスト物理変換にキャッシュする、トランスレーションルックアサイドバッファ（ＴＬＢ）を含み得る。

一実施形態において、ＣＰＵ３６１、ＧＰＵ３８０、およびＩ／Ｏデバイス３６２は、単一の半導体チップおよび／またはチップパッケージ上で統合される。図示されるメモリ３６６は、同一のチップ上で統合されてもよく、または、オフチップインタフェースを介してメモリコントローラ３６７に結合されてもよい。一実装例において、メモリ３６６は、他の物理システムレベルメモリと同一の仮想アドレス空間を共有するＧＤＤＲ６メモリを含むが、本発明の基礎となる原理はこの特定の実施形態に限定されることはない。

一実施形態において、テンソルコア３７１は行列演算を実行するように具体的に設計された複数の実行ユニットを含み、それらはディープラーニング動作を実行するのに用いられる基本的な計算操作である。例えば、同時行列乗算演算は、ニューラルネットワーク訓練および推論に用いられ得る。テンソルコア３７１は、単精度浮動小数点（例えば、３２ビット）、半精度浮動小数点（例えば、１６ビット）、整数ワード（１６ビット）、バイト（８ビット）、およびハーフバイト（４ビット）を含む、様々なオペランド精度を用いる行列処理を実行し得る。一実施形態において、ニューラルネットワーク実装は各レンダリングされたシーンの特徴を抽出し、複数のフレームからの詳細を潜在的に組み合わせ、品質の高い最終的な画像を構築する。

深層学習の実装において、並列行列乗算動作が、テンソルコア３７１上での実行のためにスケジューリングされる。ニューラルネットワークの訓練は、特に、著しい数の行列ドット積算演算を要求する。ＮｘＮｘＮ行列乗算の内積定式化を処理するために、テンソルコア３７１は、少なくともＮ個のドット積算処理要素を含み得る。行列乗算が開始する前に、１つの全体行列がタイルレジスタにロードされ、第２行列の少なくとも１つの列がＮ個のサイクルに関して各サイクルでロードされる。各サイクルにおいて、処理されるＮ個のドット積がある。

行列要素は、１６ビットワード、８ビットバイト（例えば、ＩＮＴ８）および４ビットハーフバイト（例えば、ＩＮＴ４）を含む、具体的な実装に応じて異なる精度で格納されてよい。異なるワークロード（例えば、バイトおよびハーフバイトへの量子化を許容し得る推論ワークロードなど）に関して最も効率的な精度が用いられることを保証するように、異なる精度のモードが、テンソルコア３７１に関して特定され得る。

一実施形態において、レイトレーシングコア３７２は、リアルタイムレイトレーシングとノンリアルタイムレイトレーシングの両方の実装に関して、レイトレーシング動作をアクセラレートする。特に、レイトレーシングコア３７２は、境界ボリューム階層（ＢＶＨ）を用いてレイトラバーサルを実行し、ＢＶＨボリューム内にエンクローズされたレイおよびプリミティブの間のインターセクションを識別するための、レイトラバーサル／インターセクション回路を含む。レイトレーシングコア３７２は、ディープテスティングおよびカリング（例えば、Ｚバッファまたは同様の配置を用いて）を実行する回路もまた含み得る。一実装例において、レイトレーシングコア３７２は、本明細書に説明されされた画像のノイズ除去技術と連携したトラバーサルおよび交点演算を実行し、それの少なくとも一部は、テンソルコア３７１上で実行され得る。例えば、一実施形態において、テンソルコア３７１は深層学習ニューラルネットワークを実装し、レイトレーシングコア３７２によって生成されるフレームのノイズ除去を実行する。しかしながら、ＣＰＵ３６１、グラフィックスコア３７０、および／またはレイトレーシングコア３７２は、ノイズ除去および／またはディープラーニングアルゴリズムのすべてまたは一部もまた実装し得る。

さらに、上述されるように、ＧＰＵ３８０がネットワークまたは高速インターコネクト上で他のコンピューティングデバイスに結合されたコンピューティングデバイスにあるという、ノイズ除去のための分配手法が採用され得る。本実施形態において、相互接続されたコンピューティングデバイスは、全体システムが異なるタイプの画像フレームおよび／または異なるグラフィックスアプリケーションに関してノイズ除去を実行することを学習する速度を改善するための、ニューラルネットワーク学習／訓練データを共有する。

一実施形態において、レイトレーシングコア３７２は、すべてのＢＶＨトラバーサルおよびレイプリミティブ交差を処理し、レイにつき数千の命令を有する過負荷からグラフィックスコア３７０を保護する。一実施形態において、各レイトレーシングコア３７２は、境界ボックステスト（例えば、トラバーサル動作のための）を実行するための専用の回路の第１のセット、および、レイトライアングル交差テスト（例えば、トラバースされている交差をしているレイ）を実行する専用の回路の第２のセットを含む。したがって、一実施形態において、マルチコアグループ３６５Ａは、単にレイプローブを起動することができるのみであり、レイトレーシングコア３７２は、独立してレイトラバーサルおよび交差を実行し、スレッドコンテキストにヒットデータ（例えば、ヒット、ノーヒット、複数のヒットなど）を戻すことができる。他のコア３７０、３７１は、他のグラフィックスまたは算出動作を実行するように解放される一方、レイトレーシングコア３７２はトラバーサルおよび交点演算を実行する。

一実施形態において、各レイトレーシングコア３７２は、ＢＶＨ試験演算を実行するトラバーサルユニットと、レイプリミティブ交差テストを実行する交点ユニットとを含む。交点ユニットは、「ヒット」、「ノーヒット」、または「複数ヒット」応答を生成し、それを適切なスレッドへと提供する。トラバーサルおよび交点演算の最中、他のコア（例えば、グラフィックスコア３７０およびテンソルコア３７１）の実行リソースは、他の形式のグラフィックスワークを実行するように解放される。

一特定実施形態において、以下に説明されるハイブリッドラスタライゼーションレイトレーシングアプローチが用いられ、動作はグラフィックスコア３７０とレイトレーシングコア３７２との間で分配される。

一実施形態において、レイトレーシングコア３７２（および／または他のコア３７０、３７１）は、ＤｉｓｐａｔｃｈＲａｙｓコマンド、ならびに、レイ生成、最も近いヒット、任意のヒット、およびミスシェーダを含むマイクロソフト（登録商標）のＤｉｒｅｃｔＸＲａｙＴｒａｃｉｎｇ（ＤＸＲ）などのレイトレーシング命令セットに関するハードウェアサポートを含み、各オブジェクトに関するシェーダおよびテクスチャのユニークなセットの割り当てを可能にする。レイトレーシングコア３７２、グラフィックスコア３７０およびテンソルコア３７１によってサポートされ得る別のレイトレーシングプラットフォームは、Ｖｕｌｋａｎ１．１．８５である。しかしながら、本発明の基礎となる原理は、任意の特定のレイトレーシングＩＳＡに限定されることはないことに留意する。

一般的には、様々なコア３７２、３７１、３７０は、レイ生成、最も近いヒット、任意のヒット、レイプリミティブ交差、パープリミティブ、および階層境界ボックス構成、ミス、ヴィジット、および例外に関する命令／関数を含むレイトレーシング命令セットをサポートし得る。より具体的には、一実施形態は、以下機能を実行するレイトレーシング命令を含む。

レイ生成（ＲａｙＧｅｎｅｒａｔｉｏｎ）−レイ生成命令は、各画素、サンプル、または他のユーザ定義の動作割り当てに関して実行され得る。

最も近いヒット（ＣｌｏｓｅｓｔＨｉｔ）−最も近いヒット命令は、シーン内のプリミティブを有するレイの最も近い交差点の位置決めを実行し得る。

任意のヒット（ＡｎｙＨｉｔ）−任意のヒット命令は、レイとシーン内のプリミティブとの間の複数の交差を識別し、新たな最も近い交差点を潜在的に識別する。

交差（Ｉｎｔｅｒｓｅｃｔｉｏｎ）−交差命令は、レイプリミティブ交差テストを実行し、結果を出力する。

パープリミティブ境界ボックス構成（Ｐｅｒ−ｐｒｉｍｉｔｉｖｅＢｏｕｎｄｉｎｇｂｏｘＣｏｎｓｔｒｕｃｔｉｏｎ）−この命令は、所与のプリミティブまたはプリミティブのグループの周りに境界ボックスを構築する（例えば、新たなＢＶＨまたは他のアクセラレーションデータ構造を構築する場合）。

ミス（Ｍｉｓｓ）−レイが、シーン内のジオメトリのすべて、またはシーンの特定された領域に該当しないことを示す。

ヴィジット（Ｖｉｓｉｔ）−レイが横断するであろう子のボリューム（ｃｈｉｌｄｒｅｎｖｏｌｕｍｅ）を示す。

例外（Ｅｘｃｅｐｔｉｏｎｓ）−様々なタイプの例外ハンドラ（例えば、様々なエラー条件のために起動された）を含む。ＧＰＵに関するホストプロセッサ相互接続の技術

図４Ａは、複数のＧＰＵ４１０−４１３が高速リンク４４０Ａ−４４０Ｄ（例えば、バス、ポイントツーポイントインターコネクトなど）を介して複数のマルチコアプロセッサ４０５−４０６と通信可能に結合される例示的なアーキテクチャを示す。一実施形態において、高速リンク４４０Ａ−４４０Ｄは、実装に応じて、４ＧＢ／ｓ、３０ＧＢ／ｓ、８０ＧＢ／ｓ、またはより高い通信スループットをサポートする。限定されることはないが、ＰＣＩｅ４．０または５．０、およびＮＶＬｉｎｋ２．０を含む、様々なインターコネクトプロトコルが用いられ得る。しかしながら、本発明の基礎となる原理は、任意の特定の通信プロトコルまたはスループットに限定されることはない。

さらに一実施形態において、２またはそれより多くのＧＰＵ４１０−４１３が、高速リンク４４２Ａ−４４２Ｂにおいて相互接続され、それら高速リンク４４０Ａ−４４０Ｄに関して用いられるものとは同一であるかまたは異なるプロトコル／リンクを用いて実装され得る。同様に、２またはそれより多くのマルチコアプロセッサ４０５−４０６が、２０ＧＢ／ｓ、３０ＧＢ／ｓ、１２０ＧＢ／ｓ、またはより高い速度で対称マルチプロセッサ（ＳＭＰ）バス動作であり得る高速リンク４４３を介して接続され得る。代替的に、図４Ａに示される様々なシステムコンポーネントの間のすべての通信が、同一のプロトコル／リンクを用いて（例えば、共通相互接続ファブリックを介して）実現され得る。すでに述べたように、しかしながら、本発明の基礎となる原理は、任意の特定のタイプの相互接続技術に限定されることはない。

一実施形態において、各マルチコアプロセッサ４０５−４０６は、メモリインターコネクト４３０Ａ−４３０Ｂを介して、プロセッサメモリ４０１−４０２とそれぞれ通信可能に結合され、各ＧＰＵ４１０−４１３は、ＧＰＵメモリインターコネクト４５０Ａ−４５０Ｄを介して、ＧＰＵメモリ４２０−４２３とそれぞれ通信可能に結合される。メモリインターコネクト４３０Ａ−４３０Ｂおよび４５０Ａ−４５０Ｄは、同一または異なるメモリアクセス技術を使用し得る。例示の目的で、および限定されないが、プロセッサメモリ４０１−４０２およびＧＰＵメモリ４２０−４２３は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）（スタック型ＤＲＡＭを含む）、グラフィックスＤＤＲＳＤＲＡＭ（ＧＤＤＲ）（例えば、ＧＤＤＲ５、ＧＤＤＲ６）、または高帯域幅メモリ（ＨＢＭ）などの揮発性メモリであってよく、および／または、３ＤＸＰｏｉｎｔまたはＮａｎｏ−Ｒａｍなどの不揮発性メモリであってよい。一実施形態において、メモリのある一部は揮発性メモリであってよく、別の一部は不揮発性メモリであってよい（例えば、２レベルメモリ（２ＬＭ）階層を用いる）。

以下に説明されるように、様々なプロセッサ４０５−４０６およびＧＰＵ４１０−４１３は、特定のメモリ４０１−４０２、４２０−４２３とそれぞれ物理的に結合されてよいが、ユニファイドメモリアーキテクチャが実装され、同一仮想システムアドレス空間（「実効アドレス」空間とも称される）が様々な物理メモリのすべての間で分配される。例えば、プロセッサメモリ４０１−４０２は、各々６４ＧＢのシステムメモリアドレス空間を含み得、ＧＰＵメモリ４２０−４２３は、各々３２ＧＢのシステムメモリアドレス空間を含み得る（この例において、合計で２５６ＧＢのアドレス指定可能メモリがもたらされる）。

図４Ｂは、一実施形態による、マルチコアプロセッサ４０７およびグラフィックス加速モジュール４４６の間の相互接続に関する追加の詳細を示す。グラフィックス加速モジュール４４６は、高速リンク４４０を介してプロセッサ４０７に結合されたラインカード上で統合された１または複数のＧＰＵチップを含み得る。代替的に、グラフィックス加速モジュール４４６は、プロセッサ４０７と同一のパッケージまたはチップ上に統合され得る。

図示されるプロセッサ４０７は、複数のコア４６０Ａ−４６０Ｄを含み、各々がトランスレーションルックアサイドバッファ４６１Ａ−４６１Ｄおよび１または複数のキャッシュ４６２Ａ−４６２Ｄを有する。コアは、本発明の基礎となる原理が曖昧になることを回避するように不図示とされる、命令およびデータの処理を実行するための様々な他のコンポーネントを含み得る（例えば、命令フェッチユニット、分岐予測ユニット、デコーダ、実行ユニット、リオーダバッファなど）。キャッシュ４６２Ａ−４６２Ｄは、レベル１（Ｌ１）およびレベル２（Ｌ２）キャッシュを含み得る。さらに、１または複数の共有キャッシュ４５６は、キャッシュ階層に含まれ得、コア４６０Ａ−４６０Ｄのセットによって共有され得る。例えば、プロセッサ４０７の一実施形態は２４個のコアを含み、各々が独自のＬ１キャッシュ、１２の共有されたＬ２キャッシュ、および１２の共有されたＬ３キャッシュを有する。本実施形態において、Ｌ２、Ｌ３キャッシュのうちの１つは２つの隣接するコアによって共有される。プロセッサ４０７およびグラフィクスアクセラレータ統合モジュール４４６は、システムメモリ４４１と接続し、それはプロセッサメモリ４０１−４０２を含み得る。

コヒーレンシは、コヒーレンスバス４６４を介するインターコア通信を介して、様々なキャッシュ４６２Ａ−４６２Ｄ、４５６およびシステムメモリ４４１に格納されるデータおよび命令に関して維持される。例えば、各キャッシュは、検出された特定のキャッシュラインへの読み出しまたは書き込みに応じてコヒーレンスバス４６４上で通信するように、関連付けられたキャッシュコヒーレンシロジック／回路を有し得る。一実装例において、キャッシュスヌーピングプロトコルが、キャッシュアクセスをスヌープするように、コヒーレンスバス４６４上に実装される。キャッシュスヌーピング／コヒーレンシ技術は、当業者によってよく理解され、本発明の基礎となる原理が曖昧になることを回避するように、ここで詳細には説明されないであろう。

一実施形態において、プロキシ回路４２５は、グラフィックス加速モジュール４４６をコヒーレンスバス４６４に通信可能に結合し、グラフィックス加速モジュール４４６が、コアのピアとしてキャッシュコヒーレンスプロトコルに加わることを可能にする。特に、インタフェース４３５は、高速リンク４４０（例えば、ＰＣＩｅバス、ＮＶＬｉｎｋなど）上でのプロキシ回路４２５への接続性を提供し、インタフェース４３７は、グラフィックス加速モジュール４４６を高速リンク４４０に接続する。

一実装例において、アクセラレータ集積回路４３６は、グラフィックス加速モジュール４４６の複数のグラフィックス処理エンジン４３１、４３２、Ｎに代わって、キャッシュ管理、メモリアクセス、コンテキスト管理、および割り込み管理サービスを提供する。グラフィックス処理エンジン４３１、４３２、Ｎは各々、別個のグラフィックス処理ユニット（ＧＰＵ）を含み得る。代替的に、グラフィックス処理エンジン４３１、４３２、Ｎは、グラフィックス実行ユニット、メディア処理エンジン（例えば、ビデオエンコーダ／デコーダ）、サンプラ、およびブリットエンジンなどのＧＰＵ内の、異なるタイプのグラフィックス処理エンジンを含み得る。言い換えれば、グラフィックス加速モジュールは、複数のグラフィックス処理エンジン４３１−４３２、Ｎを有するＧＰＵであり得、または、グラフィックス処理エンジン４３１−４３２、Ｎは、共通のパッケージ、ラインカード、またはチップ上で統合された個々のＧＰＵであり得る。

一実施形態において、アクセラレータ集積回路４３６は、バーチャルトゥフィジカルメモリトランスレーション（エフェクティブトゥリアルメモリトランスレーションとも称される）およびシステムメモリ４４１にアクセスするためのメモリアクセスプロトコルなどの、様々なメモリ管理機能を実行するためのメモリ管理ユニット（ＭＭＵ）４３９を含む。ＭＭＵ４３９は、仮想／実効からフィジカル／リアルへのアドレス変換をキャッシュするトランスレーションルックアサイドバッファ（ＴＬＢ）（図示せず）も含み得る。一実装例において、キャッシュ４３８は、グラフィックス処理エンジン４３１−４３２、Ｎによる効率的なアクセスのためにデータおよびコマンドを格納する。一実施形態において、キャッシュ４３８およびグラフィックスメモリ４３３−４３４、Ｍに格納されたデータは、コアキャッシュ４６２Ａ−４６２Ｄ、４５６およびシステムメモリ４１１とのコヒーレントを維持される。すでに述べたように、これは、キャッシュ４３８およびメモリ４３３−４３４、Ｍに代わってキャッシュコヒーレンシメカニズム（例えば、プロセッサキャッシュ４６２Ａ−４６２Ｄ、４５６上でのキャッシュラインの修正／アクセスに関連するキャッシュ４３８への更新の送信、およびキャッシュ４３８からの更新の受信）に参加するプロキシ回路４２５を介して実現し得る。

レジスタのセット４４５は、グラフィックス処理エンジン４３１−４３２、Ｎによって実行されるスレッドに関するコンテキストデータを格納し、コンテキスト管理回路４４８は、スレッドコンテキストを管理する。例えば、コンテキスト管理回路４４８は、コンテキストスイッチの最中の様々なスレッドのコンテキストを保存および復元するように、保存および復元動作を実行し得る（第２のスレッドがグラフィックス処理エンジンによって実行され得るように、例えば、第１のスレッドがどこに保存されるか、および第２のスレッドがどこに格納されるか）。例えば、コンテキストスイッチ上で、コンテキスト管理回路４４８は、メモリにおける指定された領域（例えば、コンテキストポインタによって識別される）に現在のレジスタの値を格納し得る。次に、コンテキストに戻るときにレジスタの値を復元する。一実施形態において、割り込み管理回路４４７は、システムデバイスから受信される割り込みを受信および処理する。

一実装例において、グラフィックス処理エンジン４３１からの仮想／実効アドレスが、システムメモリ４１１においてＭＭＵ４３９によってリアル／物理アドレスに変換される。アクセラレータ集積回路４３６の一実施形態は、複数の（例えば、４、８、１６の）グラフィクスアクセラレータモジュール４４６および／または他のアクセラレータデバイスをサポートする。グラフィクスアクセラレータモジュール４４６は、プロセッサ４０７上で実行される単一のアプリケーションに専用であってよく、または、複数のアプリケーション間で共有されてもよい。一実施形態において、グラフィックス処理エンジン４３１−４３２、Ｎのリソースが複数のアプリケーションまたは仮想機械（ＶＭ）と共有される仮想化グラフィックス実行環境が、提示される。リソースは、処理要求に基づいて、および、ＶＭおよび／またはアプリケーションに関連付けられた優先度に基づいて、異なるＶＭおよび／またはアプリケーションに割り当てられる「スライス」へと細分化され得る。

したがって、アクセラレータ集積回路は、グラフィックス加速モジュール４４６のためのシステムへのブリッジとしての機能を果たし、アドレス変換およびシステムメモリキャッシュサービスを提供する。さらに、アクセラレータ集積回路４３６は、グラフィックス処理エンジン、割り込み、およびメモリ管理の仮想化を管理するように、ホストプロセッサに仮想化ファシリティを提供し得る。

グラフィックス処理エンジン４３１−４３２、Ｎのハードウェアリソースが、ホストプロセッサ４０７に見られるリアルアドレス空間に明示的にマッピングされるので、任意のホストプロセッサは、実効アドレス値を用いて直接これらリソースをアドレシングし得る。アクセラレータ集積回路４３６の１つの機能は、一実施形態において、グラフィックス処理エンジン４３１−４３２、Ｎを、それらが独立ユニットとしてシステムに現れるように、物理的に分離することである。

すでに述べたように、示された実施形態において、１または複数のグラフィックスメモリ４３３−４３４、Ｍは、グラフィックス処理エンジン４３１−４３２、Ｎのそれぞれと、それぞれ結合される。グラフィックスメモリ４３３−４３４、Ｍは、グラフィックス処理エンジン４３１−４３２、Ｎのそれぞれによって処理されている命令およびデータを格納する。グラフィックスメモリ４３３−４３４、Ｍは、ＤＲＡＭ（スタック型ＤＲＡＭを含む）、ＧＤＤＲメモリ（例えば、ＧＤＤＲ５、ＧＤＤＲ６）、またはＨＢＭなどの揮発性メモリであってよく、および／または、３ＤＸＰｏｉｎｔまたはＮａｎｏ−Ｒａｍなどの不揮発性メモリであってよい。

一実施形態において、高速リンク４４０を介するデータトラフィックを減らすように、バイアス技術が用いられて、グラフィックスメモリ４３３−４３４、Ｍに格納されたデータが、グラフィックス処理エンジン４３１−４３２、Ｎによって最も頻繁に用いられるであろう、そして、好ましくはコア４６０Ａ−４６０Ｄによって用いられない（少なくとも頻繁にではない）データであることを保証する。同様に、バイアスメカニズムは、コアのキャッシュ４６２Ａ−４６２Ｄ、４５６およびシステムメモリ４１１内で、コアによって必要とされる（そして好ましくは、グラフィックス処理エンジン４３１−４３２、Ｎには必要とされない）データを保持しようと試みる。

図４Ｃは、アクセラレータ集積回路４３６がプロセッサ４０７内に統合される別の実施形態を示す。本実施形態において、グラフィックス処理エンジン４３１−４３２、Ｎは、インタフェース４３７およびインタフェース４３５（さらに、任意の形式のバスまたはインタフェースプロトコルを使用してよい）を介して、アクセラレータ集積回路４３６へと高速リンク４４０を介して直接通信する。アクセラレータ集積回路４３６は、図４Ｂに関して説明されるものと同一の動作を実行し得るが、潜在的に、コヒーレンシバス４６４およびキャッシュ４６２Ａ−４６２Ｄ、４５６に近接する、より高い所与のスループットである。

一実施形態は、専用処理プログラミングモデル（グラフィックス加速モジュール仮想化がない）および共有プログラミングモデル（仮想化を有する）を含む異なるプログラミングモデルをサポートする。後者は、アクセラレータ集積回路４３６によって制御されるプログラミングモデルと、グラフィックス加速モジュール４４６によって制御されるプログラミングモデルとを含んでよい。

専用の処理モデルの一実施形態において、グラフィックス処理エンジン４３１−４３２、Ｎは、単一のアプリケーションに専用の、または単一のオペレーティングシステムでの処理に専用のものである。単一のアプリケーションは、グラフィックスエンジン４３１−４３２、Ｎへの他のアプリケーション要求をファンネルし、ＶＭ／パーティション内での仮想化を提供することができる。

専用処理プログラミングモデルにおいて、グラフィックス処理エンジン４３１−４３２、Ｎは、複数のＶＭ／アプリケーションパーティションを共有し得る。共有モデルは、グラフィックス処理エンジン４３１−４３２、Ｎを仮想化するようにシステムハイパーバイザを要求し、各オペレーティングシステムによるアクセスを可能にする。ハイパーバイザのない単一パーティションシステムに関して、グラフィックス処理エンジン４３１−４３２、Ｎはオペレーティングシステムによって所有される。両方の場合に、オペレーティングシステムはグラフィックス処理エンジン４３１−４３２、Ｎを仮想化して、各処理またはアプリケーションへのアクセスを提供し得る。

共有プログラミングモデルに関して、グラフィックス加速モジュール４４６または個別のグラフィックス処理エンジン４３１−４３２、Ｎは、プロセスハンドルを用いてプロセス要素を選択する。一実施形態において、プロセス要素はシステムメモリ４１１に格納され、本明細書で説明された実効アドレスをリアルアドレスに変換する技術を用いて、アドレス可能である。プロセスハンドルは、グラフィックス処理エンジン４３１−４３２、Ｎ（すなわち、プロセス要素を、プロセス要素にリンクしたリストに追加する呼び出しシステムソフトウェア）によってそのコンテキストを登録する場合、ホスト処理に提供される実装に固有な値であり得る。プロセスハンドルのうち低いほうの１６ビットは、プロセス要素にリンクしたリスト内のプロセス要素のオフセットであり得る。

図４Ｄは、例示的なアクセラレータ一体化スライス４９０を示す。本明細書で用いられるように、「スライス」は、アクセラレータ集積回路４３６の処理リソースの特定の一部を含む。システムメモリ４１１内のアプリケーション実効アドレス空間４８２は、プロセス要素４８３を格納する。一実施形態において、プロセス要素４８３は、プロセッサ４０７上で実行されるアプリケーション４８０からのＧＰＵ起動４８１に応じて格納される。プロセス要素４８３は、対応するアプリケーション４８０の処理状態を含む。プロセス要素４８３に含まれるワーク記述子（ＷＤ）４８４は、アプリケーションによって要求される単一のジョブであってよく、または、ジョブのキューへのポインタを含んでよい。後者の場合、ＷＤ４８４はアプリケーションのアドレス空間４８２におけるジョブ要求キューへのポインタである。

グラフィックス加速モジュール４４６および／または個々のグラフィックス処理エンジン４３１−４３２、Ｎは、システムにおける処理のすべてまたはサブセットによって共有され得る。本発明の実施形態は、処理状態をセットアップし、ＷＤ４８４をグラフィックス加速モジュール４４６に送信し、仮想化環境におけるジョブを開始する、インフラストラクチャを含む。

一実装例において、専用処理プログラミングモデルは実装に固有である。このモデルにおいて、単一プロセスは、グラフィックス加速モジュール４４６または個別のグラフィックス処理エンジン４３１を所有する。グラフィックス加速モジュール４４６は単一プロセスによって所有されるので、グラフィックス加速モジュール４４６が割り当てられる時点において、ハイパーバイザは所有しているパーティションに関してアクセラレータ集積回路４３６を初期化し、オペレーティングシステムは所有している処理に関してアクセラレータ集積回路４３６を初期化する。

動作において、アクセラレータ一体化スライス４９０におけるＷＤフェッチユニット４９１は、グラフィックス加速モジュール４４６のグラフィックス処理エンジンのうちの１つによって成される動作の指標を含む、次のＷＤ４８４をフェッチする。ＷＤ４８４からのデータは、図示されるように、レジスタ４４５に格納され得、ＭＭＵ４３９、割り込み管理回路４４７および／またはコンテキスト管理回路４４８によって用いられ得る。例えば、ＭＭＵ４３９の一実施形態は、ＯＳ仮想アドレス空間４８５内の断片／ページテーブル４８６にアクセスするための断片／ページウォーク回路を含む。割り込み管理回路４４７は、グラフィックス加速モジュール４４６から受信された割り込みイベント４９２を処理し得る。グラフィックス演算を実行するとき、グラフィックス処理エンジン４３１−４３２、Ｎによって生成された実効アドレス４９３が、ＭＭＵ４３９によってリアルアドレスに変換される。

一実施形態において、レジスタ４４５のと同一のセットが、各グラフィックス処理エンジン４３１−４３２、Ｎおよび／またはグラフィックス加速モジュール４４６に関して重複し、ハイパーバイザまたはオペレーティングシステムによって初期化され得る。これらの重複レジスタのそれぞれが、アクセラレータ一体化スライス４９０に含まれ得る。ハイパーバイザによって初期化され得る例示的なレジスタが、表１において示される。
表１−ハイパーバイザ初期化されたレジスタ

オペレーティングシステムによって初期化され得る例示的なレジスタが、表２に示される。
表２−オペレーティングシステム初期化されたレジスタ

一実施形態において、各ＷＤ４８４は、特定のグラフィックス加速モジュール４４６および／またはグラフィックス処理エンジン４３１−４３２、Ｎに固有である。それは、グラフィックス処理エンジン４３１−４３２、Ｎがその動作を行う要求をする情報のすべてを含む、または、それは、アプリケーションが動作のコマンドキューが終了するようにセットアップしたメモリ位置へのポインタであり得る。

図４Ｅは、共有モデルの一実施形態に関する追加の詳細を示す。本実施形態は、プロセス要素リスト４９９が格納されるハイパーバイザリアルアドレススペース４９８を含む。ハイパーバイザリアルアドレススペース４９８は、オペレーティングシステム４９５に関するグラフィックス加速モジュールエンジンを仮想化するハイパーバイザ４９６を介してアクセス可能である。

共有プログラミングモデルは、グラフィックス加速モジュール４４６を用いるシステムにおけるパーティションのすべてまたはサブセットからの、処理のすべてまたはサブセットを可能にする。グラフィックス加速モジュール４４６が複数の処理およびパーティションによって共有されるプログラミングモデルは２つある：タイムスライスされた共有、およびグラフィックスを対象とする共有。

このモデルにおいて、システムハイパーバイザ４９６は、グラフィックス加速モジュール４４６を所有し、その機能を、すべてのオペレーティングシステム４９５が利用可能にする。システムハイパーバイザ４９６による仮想化をサポートするグラフィックス加速モジュール４４６に関して、グラフィックス加速モジュール４４６は、以下の要求を順守し得る。１）アプリケーションのジョブ要求は自律的でなければならない（すなわち、状態はジョブの間に維持される必要はない）、または、グラフィックス加速モジュール４４６は、コンテキスト保存および復元メカニズムを提供しなければならない。２）アプリケーションのジョブ要求は、任意の変換の欠陥を含む特定の量の時間が完了することが、グラフィックス加速モジュール４４６によって保証され、または、グラフィックス加速モジュール４４６は、ジョブの処理を先取りする能力を提供する。３）グラフィックス加速モジュール４４６は、対象とされた共有プログラミングモデルにおいて動作する場合、処理の間の公平性を保証しなければならない。

一実施形態において、共有モデルに関して、アプリケーション４８０は、オペレーティングシステム４９５に、グラフィックス加速モジュール４４６のタイプ、ワーク記述子（ＷＤ）、権限マスクレジスタ（ＡＭＲ）値、およびコンテキスト保存／復元エリアポインタ（ＣＳＲＰ）を有するシステムコールを作成するのに必要とされる。グラフィックス加速モジュール４４６のタイプは、システムコールに関する、目的とされるアクセラレーション機能を説明する。グラフィックス加速モジュール４４６のタイプは、システムに特定の値であり得る。ＷＤは、グラフィックス加速モジュール４４６に関して具体的にフォーマットされ、グラフィックス加速モジュール４４６コマンド、ユーザ定義された構造への実効アドレスポインタ、コマンドのキューへの実効アドレスポインタ、または、グラフィックス加速モジュール４４６によって成されるべき動作を説明する任意の他のデータ構造の形式であり得る。一実施形態において、ＡＭＲ値は、現在の処理に関して用いられるＡＭＲ状態である。オペレーティングシステムへ渡される値は、ＡＭＲを設定するアプリケーションと同様である。アクセラレータ集積回路４３６およびグラフィックス加速モジュール４４６の実装が、ユーザ権限マスクオーバーライドレジスタ（ＵＡＭＯＲ）をサポートしない場合、オペレーティングシステムは、ハイパーバイザ呼び出しにおいてＡＭＲを渡す前のＡＭＲ値に、現在のＵＡＭＯＲ値を適用し得る。ハイパーバイザ４９６は、任意選択的に、ＡＭＲをプロセス要素４８３に配置する前に、現在の権限マスクオーバーライドレジスタ（ＡＭＯＲ）値を適用し得る。一実施形態において、ＣＳＲＰは、コンテキスト状態をセーブおよび復元するための、グラフィックス加速モジュール４４６に関するアプリケーションのアドレス空間４８２の領域の実効アドレスに含まれるレジスタ４４５のうちの１つである。ジョブの間に保存されるために必要とされる状態がない場合、または、ジョブがプリエンプトされた場合は、このポインタは、任意選択的である。コンテキスト保存／復元領域は、ピニングされたシステムメモリであり得る。

システムコールを受信すると、オペレーティングシステム４９５は、アプリケーション４８０が登録されており、グラフィックス加速モジュール４４６を用いる権限を与えられていることを、確認し得る。オペレーティングシステム４９５は次に、表３に示される情報によってハイパーバイザ４９６を呼び出す。
表３−ハイパーバイザ呼び出しパラメータへのＯＳ

ハイパーバイザ呼び出しを受信すると、ハイパーバイザ４９６は、オペレーティングシステム４９５が登録されており、グラフィックス加速モジュール４４６を用いる権限を与えられていることを、確認する。ハイパーバイザ４９６は、次に、対応するグラフィックス加速モジュール４４６のタイプに関するプロセス要素にリンクしたリストに、プロセス要素４８３を入力する。プロセス要素は、表４に示された情報を含み得る。
表４−プロセス要素情報

一実施形態において、ハイパーバイザは、複数のアクセラレータ一体化スライス４９０レジスタ４４５を初期化する。

図４Ｆに図示されるように、本発明の一実施形態は、物理プロセッサメモリ４０１−４０２およびＧＰＵメモリ４２０−４２３にアクセスするように用いられる共通仮想メモリアドレス空間を介してアドレス可能な、ユニファイドメモリを用いる。この実装において、ＧＰＵ４１０−４１３上で実行される動作は、同一の仮想／実効メモリアドレス空間を使用してプロセッサメモリ４０１−４０２にアクセスし、逆も同じであり、これによりプログラミング性を簡略化する。一実施形態において、仮想／実効アドレス空間の第１の部分はプロセッサメモリ４０１に割り当てられ、第２の部分は第２プロセッサメモリ４０２に、第３の部分はＧＰＵメモリ４２０に、などと割り当てられる。仮想／実効メモリ空間の全体（実効アドレス空間と称されることがある）は、これにより、プロセッサメモリ４０１−４０２とＧＰＵメモリ４２０−４２３のそれぞれにわたって分配され、仮想アドレスがそのメモリにマッピングされた状態で、任意のプロセッサまたはＧＰＵが任意の物理メモリにアクセスすることを可能にする。

一実施形態において、１または複数のＭＭＵ４３９Ａ−４３９Ｅ内のバイアス／コヒーレンス管理回路４９４Ａ−４９４Ｅは、ホストプロセッサ（例えば、４０５）のキャッシュとＧＰＵ４１０−４１３のキャッシュとの間のキャッシュコヒーレンスを保証し、特定タイプのデータが格納されるべき物理メモリを示すバイアス技術を実装する。バイアス／コヒーレンス管理回路４９４Ａ−４９４Ｅの複数のインスタンスが図４Ｆに図示される一方、バイアス／コヒーレンス回路は、１または複数のホストプロセッサ４０５のＭＭＵ内に、および／またはアクセラレータ集積回路４３６内に実装され得る。

一実施形態は、ＧＰＵ付属メモリ４２０−４２３がシステムメモリの一部としてマッピングされ、共有仮想メモリ（ＳＶＭ）技術を用いて、完全なシステムキャッシュコヒーレンスに関連付けられる典型的な性能の欠点に苦しむことなく、アクセスされることを可能にする。面倒なキャッシュコヒーレンスオーバヘッドなしにシステムメモリとしてアクセスされるべきＧＰＵ付属メモリ４２０−４２３の能力は、ＧＰＵオフロードに関して有益な動作環境を提供する。この配置は、ホストプロセッサ４０５のソフトウェアが、従来のＩ／ＯＤＭＡデータコピーのオーバヘッドなしに、オペランドをセットアップし、計算結果にアクセスすることを可能にする。そのような従来のコピーは、単純なメモリアクセスと比較してすべてが非効率である、ドライバ呼び出し、割り込み、およびメモリマッピング型Ｉ／Ｏ（ＭＭＩＯ）アクセスを含む。同時に、キャッシュコヒーレンスオーバヘッドなしにＧＰＵ付属メモリ４２０−４２３にアクセスする能力は、オフロード計算の実行時間にきわめて重大なことがある。例えば、実質的なストリーミング書き込みメモリトラフィックの場合、キャッシュコヒーレンスオーバヘッドはＧＰＵ４１０−４１３によって見られる有効書き込み帯域幅を著しく減らすことがある。オペランドセットアップの効率性、結果アクセスの効率性、およびＧＰＵ計算の効率性はすべて、ＧＰＵオフロードの有効性の決定に役割を果たす。

一実装例において、ＧＰＵバイアスとホストプロセッサバイアスとの間の選択は、バイアストラッカーデータ構造によって行われる。例えば、ＧＰＵ付属メモリページにつき１または２ビットを含むページ粒状（ｐａｇｅ−ｇｒａｎｕｌａｒ）の構造であり得る（つまり、メモリページの粒度において制御される）バイアステーブルが、用いられ得る。バイアステーブルは、ＧＰＵ４１０−４１３におけるバイアスキャッシュ（例えば、頻繁に／最近用いられられるバイアステーブルのエントリをキャッシュする）の有無にかかわらず、１または複数のＧＰＵ付属メモリ４２０−４２３のストールン（ｓｔｏｌｅｎ）メモリ範囲において実装され得る。代替的に、全体のバイアステーブルがＧＰＵ内で維持され得る。

一実装例において、ＧＰＵ付属メモリ４２０−４２３への各アクセスに関連付けられるバイアステーブルエントリは、ＧＰＵメモリへの実際のアクセスの前にアクセスされ、以下の動作を発生させる。第１に、ＧＰＵバイアスにおいてこれらのページを見つけるＧＰＵ４１０−４１３からのローカルリクエストは、対応するＧＰＵメモリ４２０−４２３に直接転送される。ホストバイアスにおいてこれらのページを見つけるＧＰＵからのローカルリクエストは、プロセッサ４０５に転送される（例えば、上で検討された高速リンク上で）。一実施形態において、ホストプロセッサバイアスにおいて要求されたページを見つけるプロセッサ４０５への要求は、標準メモリ読み出と同様の要求を完了する。代替的に、ＧＰＵバイアスのあるページに関する要求は、ＧＰＵ４１０−４１３に転送され得る。ＧＰＵは次に、現在はそのページを用いていないホストプロセッサバイアスに、ページを移行し得る。

ページのバイアス状態は、ソフトウェアベースのメカニズム、ハードウェアにアシストされたソフトウェアベースのメカニズム、または、限定された場合のセット、純粋なハードウェアベースのメカニズムのいずれかによって変更される。

バイアス状態の変化に関する１つのメカニズムは、ＡＰＩコール（例えば、ＯｐｅｎＣＬ）を用い、次に、ＧＰＵのデバイスドライバを呼び出し、次に、メッセージをそれに向いているＧＰＵに送信し（またはコマンド記述子をキューに加え）てバイアス状態を変更し、いくつかの移行のために、ホストにおいてキャッシュフラッシュ処理を実行する。キャッシュフラッシュ処理は、ホストプロセッサ４０５バイアスからＧＰＵバイアスへの移行を要求されるが、逆の移行は要求されない。

一実施形態において、キャッシュコヒーレンシは、ＧＰＵバイアスのあるページを、ホストプロセッサ４０５によって一時的にキャッシュ不能にすることを維持する。これらのページにアクセスするように、プロセッサ４０５は、実装に応じて、ただちにアクセスを許可してもしなくてもよいＧＰＵ４１０からのアクセスを要求し得る。したがって、ホストプロセッサ４０５とＧＰＵ４１０との間の通信を減らすように、ＧＰＵバイアスのあるページが、ＧＰＵによって要求されるがホストプロセッサ４０５によっては要求されないものであること、およびその逆を保証するのに有益である。グラフィックス処理パイプライン

図５は、実施形態による、グラフィックス処理パイプライン５００を示す。一実施形態において、グラフィックスプロセッサは、図示されたグラフィックス処理パイプライン５００を実装し得る。グラフィックスプロセッサは、一実施形態において、図１の並列プロセッサ１１２の変形例である、図２Ａの並列プロセッサ２００などの、本明細書に説明された並列処理サブシステム内に含まれ得る。様々な並列処理システムが、本明細書で説明された並列処理ユニット（例えば、図２Ａの並列処理ユニット２０２）の１または複数のインスタンスを介して、グラフィックス処理パイプライン５００を実装し得る。例えば、シェーダユニット（例えば、図２Ｃのグラフィックスマルチプロセッサ２３４）は、頂点処理ユニット５０４、テセレーション制御処理ユニット５０８、テセレーション評価処理ユニット５１２、ジオメトリ処理ユニット５１６、および断片／画素処理ユニット５２４のうち１または複数の機能を実行するように構成され得る。データアセンブラ５０２、プリミティブアセンブラ５０６、５１４、５１８、テセレーションユニット５１０、ラスタライザ５２２、およびラスタ動作ユニット５２６の機能は、処理クラスタ（例えば、図２Ａの処理クラスタ２１４）内、および対応するパーティションユニット（例えば、図２Ａのパーティションユニット２２０Ａ−２２０Ｎ）内の他の処理エンジンによってもまた実行され得る。グラフィックス処理パイプライン５００は、１または複数の機能に関する専用の処理ユニットを用いてもまた実装され得る。一実施形態において、グラフィックス処理パイプライン５００の１または複数の部分は、汎用プロセッサ（例えば、ＣＰＵ）内の並列処理ロジックによって実行され得る。一実施形態において、グラフィックス処理パイプライン５００の１または複数の部分は、図２Ａのメモリインタフェース２１８のインスタンスであり得るメモリインタフェース５２８を介して、オンチップメモリ（例えば、図２Ａにあるような並列プロセッサメモリ２２２）にアクセスし得る。

一実施形態において、データアセンブラ５０２は、表面およびプリミティブに関する頂点データを収集する処理ユニットである。データアセンブラ５０２は次に、頂点アトリビュートを含む頂点データを、頂点処理ユニット５０４に出力する。頂点処理ユニット５０４は、頂点シェーダプログラムを実行し、頂点シェーダプログラムによって特定された頂点データのライティングおよび変換を行う、プログラマブル実行ユニットである。頂点処理ユニット５０４は、頂点データの処理での使用のために、キャッシュ、ローカル、またはシステムメモリに格納されたデータを読み出し、頂点データをオブジェクトベース座標表現からワールドスペース座標空間へ、または正規化デバイス座標空間へと変換するようにプログラミングされてよい。

プリミティブアセンブラ５０６の第１インスタンスは、頂点処理ユニット５０４から頂点アトリビュートを受信する。プリミティブアセンブラ５０６は、必要に応じて格納された頂点アトリビュートを読み取り、テセレーション制御処理ユニット５０８による処理のために初期グラフィックスを構成する。グラフィックスプリミティブは、様々なグラフィックス処理アプリケーションプログラミングインタフェース（ＡＰＩ）によってサポートされるような、三角形、線セグメント、ポイント、パッチなどを含む。

テセレーション制御処理ユニット５０８は、ジオメトリックパッチのためのコントロールポイントとして入力頂点を処理する。コントロールポイントは、パッチからの入力表現（例えば、パッチのベース）から、テセレーション評価処理ユニット５１２によるサーフェス評価での使用に適した表現へと変換される。テセレーション制御処理ユニット５０８は、ジオメトリックパッチのエッジに関するテセレーション要因もまた算出し得る。テセレーション要因は、単一エッジに適用され、エッジに関連付けられる詳細の表示依存レベルを定量化する。テセレーションユニット５１０は、パッチのエッジに関するテセレーション要因を受信するように構成され、パッチを、線、三角形、または四角形プリミティブなどの複数のジオメトリックプリミティブにテセレート（ｔｅｓｓｅｌｌａｔｅ）し、それはテセレーション評価処理ユニット５１２に伝送されされる。テセレーション評価処理ユニット５１２は、細分化されたパッチのパラメータ化された座標上で動作し、ジオメトリックプリミティブに関連付けられた各頂点に関する表面表現および頂点アトリビュートを生成する。

プリミティブアセンブラ５１４の第２インスタンスは、テセレーション評価処理ユニット５１２から頂点アトリビュートを受信し、必要に応じて、格納され頂点アトリビュートを読み取り、ジオメトリ処理ユニット５１６による処理のために初期グラフィックスを構成する。ジオメトリ処理ユニット５１６は、ジオメトリシェーダプログラムによって特定されるように、プリミティブアセンブラ５１４から受信されるグラフィックスプリミティブを変換する、ジオメトリシェーダプログラムを実行するプログラマブル実行ユニットである。一実施形態において、ジオメトリ処理ユニット５１６は、グラフィックスプリミティブを１または複数の新しいグラフィックスプリミティブにさらに分割し、新しいグラフィックスプリミティブをラスタライズするために用いられるパラメータを算出するように、プログラミングされる。

いくつかの実施形態において、ジオメトリ処理ユニット５１６は、ジオメトリストリームに要素を追加または削除し得る。ジオメトリ処理ユニット５１６は、新しいグラフィックスプリミティブを特定するパラメータおよび頂点をプリミティブアセンブラ５１８に出力する。プリミティブアセンブラ５１８は、ジオメトリ処理ユニット５１６からの頂点およびパラメータを受信して、表示域スケール、カル（ｃｕｌｌ）、およびクリップユニット５２０による処理のために初期グラフィックスを構成する。ジオメトリ処理ユニット５１６は、ジオメトリデータの処理での使用のために、並列プロセッサメモリまたはシステムメモリに格納されるデータを読み出す。表示域スケール、カル、およびクリップユニット５２０は、クリッピング、カリング（ｃｕｌｌｉｎｇ）、および視点スケーリングを実行し、処理されたグラフィックスプリミティブをラスタライザ５２２に出力する。

ラスタライザ５２２は、デプスカリング（ｄｅｐｔｈｃｕｌｌｉｎｇ）および他のデプスベースの最適化を実行し得る。ラスタライザ５２２は、新しいグラフィックスプリミティブ上でのスキャン変換もまた実行し、断片を生成し、これら断片および関連付けられたカバレッジデータを断片／画素処理ユニット５２４に出力する。断片／画素処理ユニット５２４は、断片シェーダプログラムまたは画素シェーダプログラムを実行するように構成されたプログラム可能な実行ユニットである。断片／画素処理ユニット５２４は、断片または画素シェーダプログラムによって特定されるように、ラスタライザ５２２から受信た断片または画素を変換する。例えば、断片／画素処理ユニット５２４は、限定されることはないが、ラスタ動作ユニット５２６に出力されるシェードされた断片または画素を生成する、テクスチャマッピング、シェーディング、ブレンディング、テクスチャ訂正、および観点訂正を含む、動作を実行するようにプログラミングされ得る。断片／画素処理ユニット５２４は、断片データを処理する場合に用いるために、並列プロセッサメモリまたはシステムメモリのいずれかに格納されるデータを読み出し得る。断片または画素シェーダプログラムは、処理ユニットに関して構成されたサンプリングレートに応じて、サンプル、画素、タイル、または他の粒度でシェーディングするように構成され得る。

ラスタ動作ユニット５２６は、限定されることはないが、ステンシル、ｚテスト、ブレンディング、および同様のものを含むラスタ動作を実行し、１または複数のディスプレイデバイス１１０上に表示されるように、または１または複数のプロセッサ１０２または並列プロセッサ１１２のうちの１つによるさらなる処理のために、グラフィックスメモリ（例えば、図２Ａにあるような並列プロセッサメモリ２２２、および／または図１にあるようなシステムメモリ１０４）に格納されるべき、処理されたグラフィックスデータとして画素データを出力する処理ユニットである。いくつかの実施形態において、ラスタ動作ユニット５２６は、メモリに書き込まれたｚまたは色データを圧縮し、メモリから読み出されたｚまたは色データを圧縮解除するように構成される。機械学習概要

上述のアーキテクチャは、機械学習モデルを用いて訓練を実行して動作を推論するように適用されてよい。機械学習は、多くの種類のタスクを解決することに成功してきた。機械学習アルゴリズム（例えば、ニューラルネットワーク）を訓練して用いる場合に起こる計算は、もともと、効率的な並列実装に役立つ。したがって、汎用グラフィックス処理ユニット（ＧＰＧＰＵ）などの並列プロセッサは、ディープニューラルネットワークの実際の実装において著しい役割を果たしてきた。単一の命令で複数のスレッド（ＳＩＭＴ）アーキテクチャによるパラレルグラフィックスプロセッサは、グラフィックスパイプラインにおける並行処理量を最大化するように設計される。ＳＩＭＴアーキテクチャにおいて、パラレルスレッドの群は、処理の効率性を高めるように、可能な限り頻繁に、プログラム命令を一緒に同期的に実行しようと試みる。並列機械学習アルゴリズム実装によって提供される効率性は、高容量ネットワークのの使用を可能にし、これらネットワークがより大きいデータセット上で訓練されることを可能にする。

機械学習アルゴリズムは、データのセットに基づいて学習し得るアルゴリズムである。機械学習アルゴリズムの複数の実施形態は、データセット内での高水準な抽出をモデリングするように設計され得る。例えば、画像認識アルゴリズムは、いくつかのカテゴリのうちどれが、所与の入力のどれに属するかを決定するように用いられることができ、回帰アルゴリズムは、入力を与えられると数値を出力することができ、パターン認識アルゴリズムは、変換されたテキストを生成するか、またはテキストを会話および／または音声認識に実行するように用いられることができる。

機械学習アルゴリズムの例示的なタイプはニューラルネットワークである。多くのタイプのニューラルネットワークがあり、ニューラルネットワークのシンプルなタイプはフィードフォワードネットワークである。フィードフォワードネットワークは、ノードが層に配置される非巡回グラフとして実装されてよい。典型的には、フィードフォワードネットワークトポロジは、少なくとも１つの隠れ層により分離される入力層および出力層を含む。隠れ層は、入力層により受信される入力を出力層において出力を生成するために有用な表現へと変換される。ネットワークノードは、隣接する層におけるノードにエッジを介して完全に接続されるが、各層内のノード間にエッジは存在しない。フィードフォワードネットワークの入力層のノードにおいて受信されるデータは、層を接続するエッジのそれぞれに関連付けられる係数（「重み」）に基づいてそれぞれネットワーク内の各連続層のノードの状態を算出する活性化関数を介して出力層のノードに伝搬（つまり、「フィードフォワード」）される。実行されるアルゴリズムにより表される特定のモデルに応じて、ニューラルネットワークアルゴリズムからの出力は、様々な形式を取ることができる。

機械学習アルゴリズムが特定の問題をモデル化するために用いられ得る前に、アルゴリズムは、訓練データセットを用いて訓練される。ニューラルネットワークを訓練することは、ネットワークトポロジを選択すること、訓練データのセットを用いてネットワークによりモデル化される問題を表現すること、訓練データセットのすべてのインスタンスに関する最小限のエラーでネットワークモデルが実行するまで、重みを調整することを含む。例えば、ニューラルネットワークに対する教師あり学習の訓練プロセスの最中に、訓練データセット内のインスタンスを表す入力に応じてネットワークにより生成される出力は、そのインスタンスに対して「正しく」分類された出力と比較され、当該出力と分類された出力と間の差を表すエラー信号が計算され、エラー信号としてのエラーがネットワークの層を通じて後方に伝播されることを最小限に抑えるように、接続に関連付けられる重みが調整される。ネットワークは、訓練データセットのインスタンスから生成される出力のそれぞれに対するエラーが最小限に抑えられる場合に「訓練される」ことが考慮されている。

機械学習アルゴリズムの精度は、アルゴリズムを訓練するために用いられるデータセットの品質により大きく影響され得る。訓練プロセスは、計算集約型であり得、従来の汎用プロセッサ上で膨大な時間を必要とし得る。したがって、並列処理ハードウェアは、多くのタイプの機械学習アルゴリズムを訓練するために用いられる。これは、ニューラルネットワーク内の係数を調整する際に実行される計算が、もともとそれら自体が並列実装に役立つので、ニューラルネットワークの訓練を最適化するために特に有用である。具体的には、多くの機械学習アルゴリズムおよびソフトウェアアプリケーションが、汎用グラフィックス処理デバイス内の並列処理ハードウェアの利用に適合されている。

図６は、機械学習ソフトウェアスタック６００の一般化された図である。機械学習アプリケーション６０２は、訓練データセットを用いてニューラルネットワークを訓練するように構成され得、または、マシンインテリジェンスを実装するように、訓練されたディープニューラルネットワークを用い得る。機械学習アプリケーション６０２は、ニューラルネットワークおよび／または展開前にニューラルネットワークを訓練するために用いられ得る専用のソフトウェアのための訓練および推論機能を含み得る。機械学習アプリケーション６０２は、限定されることはないが、画像認識、マッピングおよび位置特定、自律航法、音声合成、医用イメージング、または言語変換を含む、任意のタイプのマシンインテリジェンスを実装し得る。

機械学習アプリケーション６０２用のハードウェアアクセラレーションは、機械学習フレームワーク６０４を介して可能にされ得る。機械学習フレームワーク６０４は、機械学習プリミティブのライブラリを提供できる。機械学習プリミティブは、機械学習アルゴリズムにより一般的に実行される基本的な動作である。機械学習フレームワーク６０４を用いることなく、機械学習アルゴリズムの開発者は、機械学習アルゴリズムに関連付けられる主計算論理を作成および最適化し、次に、新たな並列プロセッサが開発されるように、計算論理を再度最適化するのに必要とされるであろう。代わりに、機械学習アプリケーションは、機械学習フレームワーク６０４によって提供るプリミティブを用いて必要な計算を実行するように構成され得る。例示的なプリミティブは、テンソル畳み込み、活性化関数、およびプーリングを含み、それらは実行される計算操作である一方で、畳み込みニューラルネットワーク（ＣＮＮ）を訓練している。機械学習フレームワーク６０４は、行列およびベクトル演算などの多くの機械学習アルゴリズムにより実行される基本的な線形代数サブプログラムを実装するためにプリミティブもまた提供できる。

機械学習フレームワーク６０４は、機械学習アプリケーション６０２から受信された入力データを処理し得、コンピュートフレームワーク６０６への適切な入力を生成し得る。コンピュートフレームワーク６０６は、機械学習フレームワーク６０４がＧＰＧＰＵハードウェア６１０のアーキテクチャの詳しい知識を有することを要求することなく、機械学習フレームワーク６０４がＧＰＧＰＵハードウェア６１０を介してハードウェアアクセラレーションを活用することを可能とするように、ＧＰＧＰＵドライバ６０８に提供される基礎的な命令を要約し得る。さらに、コンピュートフレームワーク６０６は、ＧＰＧＰＵハードウェア６１０の様々なタイプの、および様々な生成にわたって、機械学習フレームワーク６０４に関するハードウェアアクセラレーションを可能とし得る。ＧＰＧＰＵ機械学習アクセラレーション

図７は、実施形態による汎用グラフィックス処理ユニット７００を示す。一実施形態において、汎用処理ユニット（ＧＰＧＰＵ）７００は、ディープニューラルネットワークの訓練に関連付けられたタイプの計算ワークロードを、特に効率的に処理するように構成され得る。さらに、ＧＰＧＰＵ７００は、特に、ディープニューラルネットワークに対する訓練スピードを改善させるマルチＧＰＵクラスタを作成するＧＰＧＰＵの他の例に直接関連し得る。

ＧＰＧＰＵ７００は、ホストプロセッサとの接続を可能にするホストインタフェース７０２を含む。一実施形態において、ホストインタフェース７０２はＰＣＩＥｘｐｒｅｓｓインタフェースである。しかしながら、ホストインタフェースはベンダ特有の通信インタフェースまたは通信ファブリックであってもよい。ＧＰＧＰＵ７００は、ホストプロセッサからコマンドを受信し、グローバルスケジューラ７０４を用いて、これらのコマンドに関連付けられる実行スレッドをコンピュートクラスタ７０６Ａ−７０６Ｈのセットに分散させる。コンピュートクラスタ７０６Ａ−７０６Ｈは、キャッシュメモリ７０８を共有する。キャッシュメモリ７０８はコンピュートクラスタ７０６Ａ−７０６Ｈ内でのキャッシュメモリにおいて高レベルキャッシュとしての機能を果たし得る。

ＧＰＧＰＵ７００は、メモリコントローラ７１２Ａ−７１２Ｂのセットを介してコンピュートクラスタ７０６Ａ−Ｈと結合されるメモリ７１４Ａ−Ｂを含む。様々な実施形態において、メモリ７１４Ａ−７１４Ｂは、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、または、グラフィックスダブルデータレート（ＧＤＤＲ）メモリを含むシンクロナスグラフィックスランダムアクセスメモリ（ＳＧＲＡＭ）などのグラフィックスランダムアクセスメモリを含む、様々なタイプのメモリデバイスを含み得る。一実施形態において、メモリ７１４Ａ−７１４Ｎは、限定されることはないが高帯域幅メモリ（ＨＢＭ）を含む、３Ｄスタックメモリもまた含んでよい。

一実施形態において、コンピュートクラスタ７０６Ａ−７０６Ｈのそれぞれは、図４Ａのグラフィックスマルチプロセッサ４００などのグラフィックスマルチプロセッサのセットを含む。コンピュートクラスタのグラフィックスマルチプロセッサは、機械学習計算に適したものを含む精度の範囲で、計算操作を実行し得る複数のタイプの整数および浮動小数点ロジックユニットである。例えば、および、一実施形態において、コンピュートクラスタ７０６Ａ−Ｈのそれぞれにおける浮動小数点ユニットの少なくともあるサブセットについては、１６ビットまたは３２ビット浮動小数点演算を実行するように構成され得、一方、浮動小数点ユニットの異なるサブセットについては、６４ビット浮動小数点演算を実行するように構成され得る。

ＧＰＧＰＵ７００の複数のインスタンスは、コンピュートクラスタとして動作するように構成されてよい。同期およびデータ交換のためにコンピュートクラスタにより用いられる通信メカニズムは、実施形態にわたって変化する。一実施形態において、ＧＰＧＰＵ７００の複数のインスタンスは、ホストインタフェース７０２を介して通信する。一実施形態において、ＧＰＧＰＵ７００は、ＧＰＧＰＵの他のインスタンスと直接接続を可能にするＧＰＵリンク７１０によってＧＰＧＰＵ７００と結合するＩ／Ｏハブ７０９を含む。一実施形態において、ＧＰＵリンク７１０は、ＧＰＧＰＵ７００の複数のインスタンス間の通信および同期を可能にする専用のＧＰＵ間ブリッジに結合される。一実施形態において、ＧＰＵリンク７１０は他のＧＰＧＰＵまたは並列プロセッサとデータを送受信するように、高速インターコネクトと結合する。一実施形態において、ＧＰＧＰＵ７００の複数のインスタンスは、別個のデータ処理システムに位置しており、ホストインタフェース７０２を介してアクセス可能なネットワークデバイスを介して通信する。一実施形態において、ＧＰＵリンク７１０は、ホストインタフェース７０２に加えてまたは代替として、ホストプロセッサへの接続を可能にするように構成され得る。

一方、ＧＰＧＰＵ７００の図示される構成は、ニューラルネットワークを訓練するように構成され得、一実施形態では、高性能または低電力推論プラットフォーム内での展開のために構成され得るＧＰＧＰＵ７００の代替構成を提供する。推論構成において、ＧＰＧＰＵ７００は、訓練構成と比較してより少ない数のコンピュートクラスタ７０６Ａ−７０６Ｈを含む。さらに、メモリ７１４Ａ−７１４Ｂに関連付けられたメモリ技術は、推論と訓練構成との間で異なることがある。一実施形態において、ＧＰＧＰＵ７００の推論構成は、特定の命令を推論することをサポートすることができる。例えば、推論構成は、展開されたニューラルネットワークの推論動作の最中に一般的に用いられる、１または複数の８ビット整数ドット積命令のサポートを提供し得る。

図８は、実施形態による、マルチＧＰＵコンピューティングシステム８００を示す。マルチＧＰＵコンピューティングシステム８００は、ホストインタフェーススイッチ８０４を介して複数のＧＰＧＰＵ８０６Ａ−８０６Ｄと結合されたプロセッサ８０２を含み得る。ホストインタフェーススイッチ８０４は、一実施形態において、プロセッサ８０２を、それを介してプロセッサ８０２がＧＰＧＰＵ８０６Ａ−８０６Ｄのセットと通信し得るＰＣＩエクスプレスバスと、結合するＰＣＩＥｘｐｒｅｓｓスイッチデバイスである。複数のＧＰＧＰＵ８０６Ａ−８０６Ｄのそれぞれは、図７のＧＰＧＰＵ７００のインスタンスであってよい。ＧＰＧＰＵ８０６Ａ−８０６Ｄは、高速ポイントツーポイントＧＰＵ間リンク８１６のセットを介して相互接続できる。高速ＧＰＵ間リンクは、図７にあるようなＧＰＵリンク７１０などの、専用のＧＰＵリンクを介してＧＰＧＰＵ８０６Ａ−８０６Ｄのそれぞれに接続できる。Ｐ２ＰＧＰＵリンク８１６は、プロセッサ８０２が接続されるホストインタフェースバスを介した通信を要求することなく、ＧＰＧＰＵ８０６Ａ−８０６Ｄのそれぞれの間の直接通信を可能にする。Ｐ２ＰＧＰＵリンクに関するＧＰＵ間トラフィックを用いて、ホストインタフェースバスは、システムメモリアクセスに対して依然として利用可能なままである、または、例えば、１または複数のネットワークデバイス介してマルチＧＰＵコンピューティングシステム８００の他のインスタンスと通信する。一方、示された実施形態では、ＧＰＧＰＵ８０６Ａ−Ｄは、ホストインタフェーススイッチ８０４を介してプロセッサ８０２に接続し、一実施形態において、プロセッサ８０２は、Ｐ２ＰＧＰＵリンク８１６の直接的なサポートを含み、ＧＰＧＰＵ８０６Ａ−８０６Ｄに直接接続できる。機械学習ニューラルネットワーク実装

本明細書において説明される実施形態により提供されるコンピューティングアーキテクチャは、特に、機械学習のためにニューラルネットワークを訓練および展開するのに適したタイプの並列処理を実行するように構成され得る。ニューラルネットワークは、グラフ関係を有する関数のネットワークとして一般化され得る。当技術分野で周知のように、様々なタイプのニューラルネットワーク実装が、機械学習において用いられる。ある例示的なタイプのニューラルネットワークは、前に説明したように、フィードフォワードネットワークである。

第２の例示的なタイプのニューラルネットワークは、畳み込みニューラルネットワーク（ＣＮＮ）である。ＣＮＮは、画像データなどの、既知のグリッド式のトポロジを有するデータを処理するための、専用のフィードフォワードニューラルネットワークである。したがって、ＣＮＮは、視覚および画像認識アプリケーションを算出するために一般的に用いられるが、それらは、音声および言語処理などの他のタイプのパターン認識に用いられてもよい。ＣＮＮ入力層におけるノードは、「フィルタ」（網膜に見つけられる受容野から発想を得た特徴検出）のセットにまとめられ、フィルタの各セットの出力は、ネットワークの連続層においてノードに伝搬される。ＣＮＮ用の計算は、そのフィルタの出力を生成するために各フィルタに対する畳み込み数学演算を適用することを含む。畳み込みは、２つのオリジナル関数のうちの一方の修正版である第３の関数を生成するために２つの機能により実行される特殊な数学演算である。畳み込みネットワークの用語において、畳み込みに対する第１の関数は、入力と称され得る一方、第２の関数は、畳み込みカーネルと称され得る。出力は、特徴マップと称されてよい。例えば、畳み込み層への入力は、入力画像の様々な色成分を定義するデータの多次元アレイであり得る。畳み込みカーネルは、パラメータの多次元アレイであり得、パラメータは、ニューラルネットワークのための訓練プロセスにより適合される。

再帰型ニューラルネットワーク（ＲＮＮ）は、層間のフィードバック接続を含むフィードフォワードニューラルネットワークのファミリである。ＲＮＮは、ニューラルネットワークの異なる部分にわたってパラメータデータを共有することにより順次データのモデリングを可能にする。ＲＮＮに関するアーキテクチャは、サイクルを含む。サイクルは、ＲＮＮからの出力データの少なくとも一部が、順番に後続の入力を処理するためのフィードバックとして用いられるように、変数の現在の値が将来の時点でそれ自体の値に及ぼす影響を表す。この特徴は、言語データが構成され得る可変性に起因するＲＮＮの言語処理を特に有用にする。

以下に説明される図は、例示的なフィードフォワード、ＣＮＮおよびＲＮＮネットワークを提示し、ならびに、これらのタイプのネットワークのそれぞれをそれぞれ訓練および展開するための一般的な処理を説明する。これらの説明が例示的なものであり、本明細書において説明される任意の特定の実施形態について限定されなく、図示されるコンセプトは、一般的なディープニューラルネットワークおよび機械学習技術に一般的に適用され得ることが理解されるであろう。

上述した例示的なニューラルネットワークは、深層学習を実行するために用いられ得る。深層学習は、ディープニューラルネットワークを用いた機械学習である。深層学習において用いられるディープニューラルネットワークは、単一の隠れ層のみを含む浅いニューラルネットワークとは対照的に、複数の隠れ層から構成される人工ニューラルネットワークである。より深いニューラルネットワークは、一般的に、訓練するためにより計算集約型である。しかしながら、ネットワークの追加の隠れ層は、浅い機械学習技術と比較して出力エラーを減らす結果になるマルチステップパターン認識を可能にする。

深層学習において用いられるディープニューラルネットワークは、典型的には、数学モデルに提供される特徴表現に基づいて動作（例えば、オブジェクト分類、音声認識など）を実行できる数学モデルを表すバックエンドネットワークに結合される、特徴認識を実行するフロントエンドネットワークを含む。深層学習は、モデルに対して実行される手作りされた機能エンジニアリングを要求することなく実行される機械学習を可能にする。代わりに、ディープニューラルネットワークは、入力データ内の統計的な構成または相関関係に基づいて特徴を学習できる。学習される特徴は、検出された特徴を出力にマッピングすることができる数学モデルに提供され得る。ネットワークにより用いられる数学モデルは、一般的には、実行される特定のタスクに専用のものであり、異なるモデルが、異なるタスクを実行するために用いられるであろう。

一度ニューラルネットワークが構築されると、学習モデルは、ネットワークを訓練して特定のタスクを実行するためにネットワークに適用され得る。学習モデルは、ネットワークの出力エラーを減らすために、モデル内の重みをどのように調整するかを記述する。誤差逆伝播法は、ニューラルネットワークを訓練するために用いられる一般的な方法である。入力ベクトルが、処理のためにネットワークに提示される。ネットワークの出力は、損失関数を用いて所望の出力と比較され、出力層におけるニューロンのそれぞれに対してエラー値が計算される。次に、各ニューロンが元の出力に対するその寄与を大ざっぱに表す関連のエラー値を有するまで、エラー値は、後方に伝搬される。次に、ネットワークは、確率的勾配降下アルゴリズムなどのアルゴリズムを用いてこれらのエラーから学習して、ニューラルネットワークの重みを更新できる。

図９Ａから図９Ｂは、例示的な畳み込みニューラルネットワークを示す。図９Ａは、ＣＮＮ内の様々な層を示す。図９Ａに示されるように、画像処理をモデル化するために用いられる例示的なＣＮＮは、入力画像の赤、緑および青（ＲＧＢ）成分を説明する入力９０２を受信できる。入力９０２は、複数の畳み込み層（例えば、畳み込み層９０４、畳み込み層９０６）により処理され得る。複数の畳み込み層からの出力は、任意選択的に、完全に接続された層９０８のセットによって処理され得る。完全に接続された層におけるニューロンは、フィードフォワードネットワークに関して前に説明したように、前の層におけるすべてのアクティベーションへの完全な接続を有する。完全に接続された層９０８からの出力は、ネットワークからの出力結果を生成するために用いられ得る。完全に接続された層９０８内のアクティベーションは、畳み込みの代わりに、行列乗算を用いて算出され得る。すべてのＣＮＮ実装が、完全に接続された層９０８を利用するとは限らない。例えば、いくつかの実装においては、畳み込み層９０６はＣＮＮに関する出力を生成し得る。

畳み込み層は、疎に接続され、これは、完全に接続された層９０８において見つけられる従来のニューラルネットワーク構成とは異なる。従来のニューラルネットワーク層は、完全に接続されており、したがって、あらゆる出力ユニットがあらゆる入力ユニットとインタラクトする。しかしながら、フィールドの畳み込みの出力は、（フィールド内のそれぞれのノードの状態値それぞれの代わりに）図示されるような後続の層のノードに入力されるので、畳み込み層は疎に接続される。畳み込み層に関連付けられるカーネルは、次の層に送信される出力の畳み込み演算を実行する。畳み込み層内で実行される次元削減は、ＣＮＮがスケーリングして大きな画像を処理することを可能にする一態様である。

図９Ｂは、ＣＮＮの畳み込み層内の例示的な計算ステージを示す。ＣＮＮの畳み込み層９１２の入力は、畳み込み層９１４の３つのステージにおいて処理され得る。３つのステージは、畳み込みステージ９１６、検出ステージ９１８、およびプーリングステージ９２０を含み得る。畳み込み層９１４は、次に、連続畳み込み層にデータを出力し得る。ネットワークの最終的な畳み込み層は、例えば、ＣＮＮへの入力に対する分類値を生成するために、出力特徴マップデータを生成できる、または、完全に接続された層に入力を提供できる。

畳み込みステージ９１６は、いくつかの畳み込みを並列に実行して、線形活性化の組を生成する。畳み込みステージ９１６はアフィン変換を含み得、アフィン変換は、線形変換プラス移動として特定され得る任意の変換である。アフィン変換は、回転、移動、スケーリング、およびこれらの変換の組み合わせを含む。畳み込みステージは、入力内の特定の領域に接続される機能（例えば、ニューロン）の出力を算出し、ニューロンに関連付けられる局所領域として決定され得る。ニューロンは、ニューロンの重みと、ニューロンが接続される局所的な入力における領域の重みとの間のドット積を算出する。畳み込みステージ９１６からの出力は、畳み込み層９１４の連続的なステージにより処理される線形活性化の組を定義する。

線形活性化は、検出ステージ９１８によって処理され得る。検出ステージ９１８において、各線形活性化は非線形活性化関数によって処理される。非線形活性化関数は、畳み込み層の受容野に影響を与えることなく、ネットワーク全体の非線形的性質を高める。いくつかのタイプの非線形活性化関数が用いられ得る。１つの特定のタイプは、正規化線形ユニット（ＲｅＬＵ）であり、これは、アクティベーションがゼロに閾値設定されるように、ｆ（ｘ）＝ｍａｘ（０，ｘ）として定義される活性化関数を用いる。

プーリングステージ９２０は、畳み込み層９０６の出力を、すぐ近くの出力の要約統計量と置き換えるプーリング関数を用いる。プーリング関数は、並進不変性（ｔｒａｎｓｌａｔｉｏｎｉｎｖａｒｉａｎｃｅ）をニューラルネットワークに導入するために用いられることができ、したがって、入力への小さい変換はプールされる出力を変更しない。入力データ内の特徴の存在が特徴の正確な位置よりも重要なシナリオにおいて、局所的な移動に対する不変性は有用であり得る。様々なタイプのプーリング関数は、最大プーリング、平均プーリングおよびｌ２−ノルムプーリングを含むプーリングステージ９２０の最中に用いられ得る。さらに、いくつかのＣＮＮ実装は、プーリングステージを含まない。代わりに、そのような実装は、以前の畳み込みステージと比較して、増加したストライドを有する代わりのおよび追加の畳み込みステージである。

畳み込み層９１４からの出力は、次に、次の層９２２によって処理され得る。次の層９２２は、追加の畳み込み層または完全に接続された層９０８のうちの１つであり得る。例えば、図９Ａの第１の畳み込み層９０４は、第２の畳み込み層９０６へ出力することができ、一方、第２の畳み込み層は、完全に接続された層９０８の第１層に出力することができる。

図１０は、例示的な再帰型ニューラルネットワーク１０００を示す。再帰型ニューラルネットワーク（ＲＮＮ）において、ネットワークの前の状態はネットワークの現在の状態の出力に影響を及ぼす。ＲＮＮは、様々な機能を用いる様々なやり方において構築され得る。ＲＮＮの使用は、一般的に、数学モデルを用いて前の一連の入力に基づいて将来を予測することを中心に展開する。例えば、ＲＮＮは、統計的な言語モデリングを実行して、前の一連のワードが与えられると、次のワードを予測するために用いられ得る。説明され得る図示されるＲＮＮ１０００は、入力ベクトルを受信する入力層１００２と、リカレント機能を実装する隠れ層１００４と、前の状態の「メモリ」を有効にするフィードバックメカニズム１００５と、結果を出力する出力層１００６とを有する。ＲＮＮ１０００は、タイムステップに基づいて動作する。所与のタイムステップにおけるＲＮＮの状態は、フィードバックメカニズム１００５を介して前のタイムステップに基づいて影響を受ける。所与のタイムステップについて、隠れ層１００４の状態は、前の状態と、現在のタイムステップにおける入力とにより定義される。第１タイムステップの初期入力（ｘ_１）は、隠れ層１００４によって処理され得る。第２入力（ｘ_２）は、初期入力（ｘ_１）の処理の最中に決定される状態情報を用いて、隠れ層１００４によって処理され得る。所与の状態は、ｓ_ｔ＝ｆ（Ｕｘ_ｔ＋Ｗｓ_ｔ−１）で算出され得、ここでＵおよびＷはパラメータ行列である。
関数ｆは、一般的に、双曲線正接関数（Ｔａｎｈ）または正規化関数ｆ（ｘ）＝ｍａｘ（０，ｘ）の変形例など、非線形である。
しかしながら、隠れ層１００４において用いられる特定の数学的な関数は、ＲＮＮ１０００についての特定の実施形態の詳細に応じて変化し得る。

説明される基本的なＣＮＮおよびＲＮＮネットワークに加えて、これらのネットワーク上のバリエーションが可能にされてもよい。ある例示的なＲＮＮの変型例は、長・短期メモリ（ＬＳＴＭ）ＲＮＮである。ＬＳＴＭＲＮＮは、より長い並びの言語を処理するために必要とされ得る長期依存の学習を可能にする。ＣＮＮ上の変形例は、畳み込みディープビリーフネットワークであり、ＣＮＮと同様の構造を有し、かつ、ディープビリーフネットワークと同様の方式で訓練される。ディープビリーフネットワーク（ＤＢＮ）は、確率（ランダム）変数の複数の層から構成される生成系ニューラルネットワークである。ＤＢＮは、ｇｒｅｅｄｙ教師なし学習を用いて層ごとに訓練され得る。次に、ＤＢＮの学習される重みは、ニューラルネットワークに対する重みの最適な初期セットを決定することにより、事前訓練ニューラルネットワークを提供するために用いられ得る。

図１１は、ディープニューラルネットワークの訓練および展開を示す。一度所与のネットワークがタスクのために構築されると、ニューラルネットワークは訓練データセット１１０２を用いて訓練される。様々な訓練フレームワーク１１０４が、訓練プロセスのハードウェアアクセラレーションを可能とするように開発されてきた。例えば、図６の機械学習フレームワーク６０４は、訓練フレームワーク６０４として構成され得る。訓練フレームワーク６０４は、訓練されていないニューラルネットワーク１１０６に接続し、訓練されたニューラルネット１１０８を生成するために、訓練されていないニューラルネットが本明細書において説明される並列処理リソースを用いて訓練されることを可能にし得る。

訓練プロセスを開始するために、最初の重みは、ランダムに、または、ディープビリーフネットワークを用いて事前訓練することにより選択されてよい。次に、訓練サイクルは、教師ありまたは教師なし方式のいずれかで実行される。

教師あり学習は、例えば、訓練データセット１１０２が、入力に対する所望の出力と組み合わされる入力を含む場合、または、訓練データセットが、既知の出力を有する入力を含み、かつ、ニューラルネットワークの出力が手動で格付けされる場合などの仲介動作として訓練が実行される学習方法である。ネットワークは、入力を処理して、結果の出力を、予期されるまたは所望の出力のセットに対して比較する。エラーは、次にシステム全体に伝搬される。訓練フレームワーク１１０４は、訓練されていないニューラルネットワーク１１０６を制御する重みを調整するように調整され得る。訓練フレームワーク１１０４は、訓練されていないニューラルネットワーク１１０６が既知の入力データに基づいて正解を生成するのに適したモデルに向けてどれだけうまく収束しているかをモニタリングするツールを提供できる。ニューラルネットワークにより生成される出力を改善するようにネットワークの重みが調整されるように、訓練プロセスは繰り返し行われる。訓練プロセスは、ニューラルネットワークが、訓練されたニューラルネット１１０８に関連付けられた統計的に望ましい精度に達するまで、継続し得る。訓練されたニューラルネットワーク１１０８は、次に、新しいデータ１１１２の入力に基づいて推論結果１１１４を生成する任意の数の機械学習動作を実装するように、展開され得る。

教師なし学習は、ネットワークが分類されていないデータを用いてそれ自体を訓練しようと試す、学習方法である。したがって、教師なし学習に関して、訓練データセット１１０２は任意の関連する出力データなしの入力データを含むであろう。訓練されていないニューラルネットワーク１１０６は、分類されていない入力内のグループ化を学習でき、個々の入力がどのようにデータセット全体に関連するかを決定できる。教師なし訓練は、自己組織化マップを生成するために用いられることができ、あるタイプの訓練されたニューラルネットワーク１１０８は、データの次元を削減するのに有用な動作を実行することが可能である。教師なし訓練はまた、アノマリ検出を実行するために用いられることもでき、データの通常のパターンから逸脱する入力データセット内のデータポイントの識別を可能にする。

教師ありおよび教師なし訓練に対するバリエーションが採用されてもよい。半教師あり学習は、訓練データセット１１０２が同一の分散のうちの分類されているデータおよび分類されていないデータの混合を含む技術である。インクリメンタル学習は、入力データがモデルをさらに訓練するために継続的に用いられる教師あり学習の変形例である。インクリメンタル学習は、訓練されたニューラルネットワーク１１０８が初期訓練の最中にネットワーク内に教え込まれた知識を忘れることなく新しいデータ１１１２に適用することを可能にする。

教師ありであるか、または、教師なしであるかに関わらず、特にディープニューラルネットワークの訓練プロセスは、単一の計算ノードに対してかなり計算集約型であるかもしれない。単一の計算ノードを用いる代わりに、計算ノードの分散型ネットワークが、訓練プロセスをアクセラレートするために用いられ得る。

図１２は、分散型学習を示すブロック図である。分散型学習は、複数の分散型計算ノードを用いて、ニューラルネットワークの教師ありまたは教師なし訓練を実行する訓練モデルである。分散型計算ノードは、１または複数のホストプロセッサと、図７にあるような高並列汎用グラフィックス処理ユニット７００などの汎用処理ノードのうちの１または複数とを各々含むことができる。図示されるように、分散型学習は、モデル並列処理１２０２、データ並列処理１２０４、または、モデルおよびデータ並列処理１２０４の組み合わせを実行し得る。

モデル並列処理１２０２において、分散型システム内の異なる計算ノードは、単一のネットワークの異なる部分に対する訓練計算を実行できる。例えば、ニューラルネットワークの各層は、分散型システムの異なる処理ノードにより訓練され得る。モデル並列処理の利点は、特に大きなモデルにスケーリングする能力を含むことである。ニューラルネットワークの異なる層に関連付けられる計算を分裂することは、すべての層の重みが単一の計算ノードのメモリに適合しない非常に大きなニューラルネットワークの訓練を可能にする。いくつかの例では、モデル並列処理は、大きなニューラルネットワークの教師なし訓練を実行する際に特に有用となり得る。

データ並列処理１２０４において、分散型ネットワークの異なるノードはモデルの完全なインスタンスを有し、各ノードはデータの異なる部分を受信する。異なるノードからの結果は、次に組み合わせられる。データ並列処理に対する異なるアプローチが可能である一方で、データの並列的な訓練アプローチはすべて、結果を組み合わせて、各ノード間のモデルパラメータを同期させる技術を必要とする。データを組み合わることに対する例示的なアプローチは、パラメータの平均化および更新ベースのデータ並列処理を含む。パラメータの平均化は、訓練データのサブセットで各ノードを訓練し、グローバルパラメータ（例えば、重み、バイアス）を各ノードからパラメータの平均に設定する。パラメータの平均化は、パラメータデータを保持する中央パラメータサーバを用いる。更新ベースのデータ並列処理は、ノードからパラメータサーバにパラメータを転送する代わりに、モデルの更新が転送されることを除いてパラメータの平均化と同様である。さらに、更新ベースのデータ並列処理は、分散方式で実行されることができ、更新は、圧縮されてノード間に転送される。

組み合わせられたモデルおよびデータ並列処理１２０６は、例えば、各計算ノードが複数のＧＰＵを含む分散型システムにおいて実装され得る。各ノードは、モデルの異なる部分を訓練するために用いられる各ノード内の別個のＧＰＵと共にモデルの完全なインスタンスを有し得る。

分散型訓練は、単一のマシン上の訓練と比較して増加したオーバヘッドを有する。しかしながら、本明細書において説明される並列プロセッサおよびＧＰＧＰＵは各々、分散型訓練のオーバヘッドを低減させる様々な技術を実装でき、高帯域幅ＧＰＵ間データ転送およびアクセラレートされたリモートデータ同期を可能にする技術を含む。例示的な機械学習アプリケーション

機械学習は、様々な技術的課題を解決するために適用されることができ、限定されることはないが、コンピュータビジョン、自動運転およびナビゲーション、音声認識並びに言語処理を含む。コンピュータビジョンは、これまで、機械学習アプリケーションの大部分のアクティブなリサーチエリアのうちの１つであった。コンピュータビジョンのアプリケーションは、顔を認識することなどの人の視覚能力を再生することから、視覚能力の新たなカテゴリを作成することに及ぶ。例えば、コンピュータビジョンアプリケーションは、ビデオ内で可視のオブジェクトにおいて引き起こされる振動から音波を認識するように構成され得る。並列プロセッサアクセラレート型機械学習は、コンピュータビジョンアプリケーションが以前に実現可能なものよりも膨大な訓練データセットを用いて訓練されることを可能にし、推論システムが低電力並列プロセッサを用いて展開されることを可能にする。

並列プロセッサアクセラレート型機械学習は、レーンおよび道路標識認識、障害物回避、ナビゲーション並びに運転制御を含む自動運転アプリケーションを有する。アクセラレート型機械学習技術は、特定の訓練入力に対する適切な応答を定義するデータセットに基づいて運転モデルを訓練するために用いられ得る。本明細書において説明される並列プロセッサは、自動運転解決方法に用いられるますます複雑なニューラルネットワークの迅速な訓練を可能にし、自律走行車への統合に適したモバイルプラットフォームにおいて、低電力推論プロセッサの展開を可能にし得る。

並列プロセッサアクセラレート型ディープニューラルネットワークは、自動音声認識（ＡＳＲ）への機械学習アプローチを可能にしてきた。ＡＳＲは、入力アコースティックシーケンスを与えられて最も可能性のある言語シーケンスを算出する関数の作成を含む。ディープニューラルネットワークを用いるアクセラレート型機械学習は、ＡＳＲ用に以前に用いられていた隠れマルコフモデル（ＨＭＭ）およびガウス混合モデル（ＧＭＭ）の置換を可能してきた。

並列プロセッサアクセラレート型機械学習もまた、自然言語処理をアクセラレートするために用いられ得る。自動学習プロシージャは、統計的な推論アルゴリズムを利用して、誤ったまたは見知らぬ入力に対してロバストなモデルを生成できる。例示的な自然言語プロセッサアプリケーションは、人間の言語間の自動機械翻訳を含む。

機械学習に用いられる並列処理プラットフォームは、訓練プラットフォームおよびプラットフォーム展開に分割され得る。訓練プラットフォームは、一般的に非常に並列的であり、マルチＧＰＵ単一のノード訓練およびマルチノード、マルチＧＰＵ訓練をアクセラレートするために最適化を含む。訓練に適した例示的な並列プロセッサは、図７の汎用グラフィックス処理ユニット７００および／または図８のマルチＧＰＵコンピューティングシステム８００を含む。それどころか、展開される機械学習プラットフォームは、一般的に、カメラ、自律ロボットおよび自律走行車などの製品での使用に適した低電力並列プロセッサを含む。

図１３は、訓練されたモデルを用いて推論を実行するために適した、例示的な推論システムオンチップ（ＳｏＣ）１３００を示す。ＳｏＣ１３００は、メディアプロセッサ１３０２、ビジョンプロセッサ１３０４、ＧＰＧＰＵ１３０６、およびマルチコアプロセッサ１３０８を含む処理コンポーネントを統合し得る。ＳｏＣ１３００は、処理コンポーネントのそれぞれによってアクセス可能な共有オンチップデータプールを可能にし得るオンチップメモリ１３０５をさらに含み得る。処理コンポーネントは、自律走行車および自律ロボットを含む様々な機械学習プラットフォームへの展開を可能にする低電力動作のために最適化され得る。例えば、ＳｏＣ１３００の一実装例は、自律走行車用の主制御システムの一部として用いられ得る。ＳｏＣ１３００が自律走行車での使用のために構成される場合、ＳｏＣは、展開権限についての関連する機能的な安全性規格に準拠するように設計および構成される。

動作の最中、メディアプロセッサ１３０２およびビジョンプロセッサ１３０４は、コンピュータビジョン動作をアクセラレートするために、同時に動作できる。メディアプロセッサ１３０２は、複数の高解像度（例えば、４Ｋ、８Ｋ）ビデオストリームの低レイテンシなデコードを可能にし得る。デコードされたビデオストリームは、オンチップメモリ１３０５のバッファに書き込まれ得る。次に、ビジョンプロセッサ１３０４は、デコードされたビデオを解析し、訓練された画像認識モデルを用いたフレーム処理の準備の際に、デコードされたビデオのフレームに対して予備処理演算を実行できる。例えば、ビジョンプロセッサ１３０４は、高解像度ビデオデータに対して画像認識を実行するために用いられるＣＮＮの畳み込み演算をアクセラレートすることができる一方、バックエンドモデル計算がＧＰＧＰＵ１３０６により実行される。

マルチコアプロセッサ１３０８は、メディアプロセッサ１３０２およびビジョンプロセッサ１３０４によって実行されるデータ転送および共有メモリ動作のシーケンシングおよび同期を支援する制御ロジックを含み得る。マルチコアプロセッサ１３０８は、ＧＰＧＰＵ１３０６の推論コンピュート機能を利用し得るソフトウェアアプリケーションを実行するアプリケーションプロセッサとしてもまた機能し得る。例えば、ナビゲーションおよび運転ロジックの少なくとも一部は、マルチコアプロセッサ１３０８上で実行するソフトウェアにおいて実装され得る。そのようなソフトウェアはＧＰＧＰＵ１３０６に計算ワークロードを直接発行し得、または、計算ワークロードはマルチコアプロセッサ１３０８に発行され得、それはそれらの動作の少なくとも一部をＧＰＧＰＵ１３０６にオフロードそ得る。

ＧＰＧＰＵ１３０６は、汎用グラフィックス処理ユニット７００内のコンピュートクラスタ７０６Ａ−７０６Ｈの低電力構成などの、コンピュートクラスタを含み得る。ＧＰＧＰＵ１３０６内のコンピュートクラスタは、訓練されたニューラルネットワーク上で推論計算を実行するように具体的に最適化された命令をサポートし得る。例えば、ＧＰＧＰＵ１３０６は、８ビットおよび４ビットの整数ベクトル演算などの低い精度の計算を実行する命令をサポートすることができる。システム概要

図１４は、実施形態による、処理システム１４００のブロック図である。システム１４００は、単一プロセッサのデスクトップシステム、マルチプロセッサ・ワークステーション・システム、または多数のプロセッサ１４０２もしくはプロセッサコア１４０７を有するサーバシステムにおいて用いられてもよい。一実施形態において、システム１４００は、ローカルまたはワイドエリアネットワークへの有線または無線接続性を有するインターネットオブシングズ（ＩｏＴ）デバイスなどの、モバイル、ハンドヘルド型、または埋め込みデバイスでの使用のための、システムオンチップ（ＳｏＣ）集積回路内に組み込まれた処理プラットフォームである。

一実施形態において、システム１４００は、サーバベースのゲームプラットフォーム、すなわち、ゲームおよびメディアコンソール、モバイルゲームコンソール、ハンドヘルドゲームコンソールまたはオンラインゲームコンソールを含むゲームコンソールを含み得、それに結合され得、またはそれの中で統合され得る。いくつかの実施形態において、システム１４００は、低内部ストレージ容量ラップトップなどの、携帯電話、スマートフォン、タブレットコンピューティングデバイス、またはモバイルインターネット接続デバイスの一部である。処理システム１４００は、実際の世界の視覚、聴覚および触覚体験を補足するか、あるいは、テキスト、音声、グラフィックス、ビデオ、ホログラフィック画像またはビデオ、または、触覚フィードバックを提供するように、視覚、聴覚および触覚出力を提供するための、スマートウォッチウェアラブルデバイス、拡張現実（ＡＲ）または仮想現実（ＶＲ）フィーチャで強化されたスマートアイウェアまたはクロージング、その他の拡張現実（ＡＲ）デバイス、または他の仮想現実（ＶＲ）デバイスなどのウェアラブルデバイスを含み、それと結合し、またはそれの中で統合されてもよい。いくつかの実施形態において、処理システム１４００は、テレビまたはセットトップボックスデバイスを含むか、またはそれの一部である。一実施形態において、システム１４００は、バス、トラクタートレイラー、自動車、モーターまたは電気自転車、飛行機またはグライダー（またはこれらの任意の組み合わせ）などの自動運転車を含み得、それと結合し、またはそれの中に統合されてもよい。自動運転車は、車両の周りで感知された環境を処理するように、システム１４００を用いてよい。

いくつかの実施形態において、１または複数のプロセッサ１４０２は各々、実行される場合、システムまたはユーザソフトウェアのための動作を実行する命令を処理する１または複数のプロセッサコア１４０７を含む。いくつかの実施形態において、１または複数のプロセッサコア１４０７のうちの少なくとも１つは、特定の命令セット１４０９を処理するように構成される。いくつかの実施形態において、命令セット１４０９は、複合命令セットコンピューティング（ＣＩＳＣ）、縮小命令セットコンピューティング（ＲＩＳＣ）、または、超長命令語（ＶＬＩＷ）を介したコンピューティングを促進し得る。１または複数のプロセッサコア１４０７は、異なる命令セット１４０９をそれぞれ処理してよく、他の命令セットのエミュレーションを促進する命令を含み得る。プロセッサコア１４０７はまた、デジタル信号プロセッサ（ＤＳＰ）などの、他の処理デバイスを含んでもよい。

いくつかの実施形態において、プロセッサ１４０２はキャッシュメモリ１４０４を含む。アーキテクチャに応じて、プロセッサ１４０２は単一内部キャッシュまたは複数レベルの内部キャッシュを有し得る。いくつかの実施形態において、キャッシュメモリはプロセッサ１４０２の様々なコンポーネントの間で共有される。いくつかの実施形態において、プロセッサ１４０２は、既知の複数のキャッシュコヒーレンシ技術を用いる複数のプロセッサコア１４０７間で共有され得る外部キャッシュ（例えば、レベル３（Ｌ３）キャッシュまたはラストレベルキャッシュ（ＬＬＣ））（図示せず）も用いる。レジスタファイル１４０６は、さらに、プロセッサ１４０２に含まれ得、データの異なるタイプを格納するために、異なるタイプのレジスタ（例えば、整数レジスタ、浮動小数点レジスタ、ステータスレジスタおよび命令ポインタレジスタ）を含み得る。いくつかのレジスタは汎用レジスタであり得るが、一方で、他のレジスタなプロセッサ１４０２の設計に固有であり得る。

いくつかの実施形態において、１または複数のプロセッサ１４０２は、プロセッサ１４０２とシステム１４００の他のコンポーネントとの間で、アドレス、データ、または制御信号などの通信信号を伝送する、１または複数のインタフェースバス１４１０と結合される。インタフェースバス１４１０は、一実施形態において、ダイレクトメディアインタフェース（ＤＭＩ）バスのバージョンなどの、プロセッサバスであり得る。しかしながら、プロセッサバスは、ＤＭＩバスに限定されることはなく、１または複数の周辺構成要素インターコネクトバス（例えば、ＰＣＩ、ＰＣＩＥｘｐｒｅｓｓ）、メモリバスまたは他のタイプのインタフェースバスを含んでよい。一実施形態において、プロセッサ１４０２は、統合メモリコントローラ１４１６およびプラットフォームコントローラハブ１４３０を含む。メモリコントローラ１４１６は、システム１４００のメモリデバイスと他のコンポーネントとの間の通信を促進し、一方、プラットフォームコントローラハブ（ＰＣＨ）１４３０は、ローカルＩ／Ｏバスを介したＩ／Ｏデバイスへの接続を提供する。

メモリデバイス１４２０は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）デバイス、スタティックランダムアクセスメモリ（ＳＲＡＭ）デバイス、フラッシュメモリデバイス、相変化メモリデバイス、または、処理メモリとしての機能を果たすのに適した性能を有するいくつかの他のメモリデバイスであり得る。一実施形態において、メモリデバイス１４２０は、１または複数のプロセッサ１４０２がアプリケーションまたは処理プロセスを実行する場合に用いるためのデータ１４２２および命令１４２１を格納する、システム１４００用のシステムメモリとして動作し得る。メモリコントローラ１４１６はまた、任意選択的な外部グラフィックスプロセッサ１４１８とも結合し、それは、プロセッサ１４０２内の１または複数のグラフィックスプロセッサ１４０８と通信して、グラフィックスおよびメディア演算を実行し得る。いくつかの実施形態において、グラフィックス、メディア、および／または計算操作は、グラフィックス、メディア、または計算操作の専用のセットを実行するように構成され得るコプロセッサである、アクセラレータ１４１２によってアシストされ得る。例えば、一実施形態において、アクセラレータ１４１２は、機械学習または計算操作を最適化するように用いられる行列乗算アクセラレータである。一実施形態において、アクセラレータ１４１２は、グラフィックスプロセッサ１４０８と連携してレイトレーシング動作を実行するように用いられ得るレイトレーシングアクセラレータである。一実施形態において、外部アクセラレータ１４１９は、アクセラレータ１４１２の代わりに、またはそれと連携して用いられ得る。

いくつかの実施形態において、ディスプレイデバイス１４１１はプロセッサ１４０２に接続され得る。ディスプレイデバイス１４１１は、モバイル電子デバイスまたはラップトップデバイスにあるような内部ディスプレイデバイス、または、ディスプレイインタフェースを介して取り付けられる外部ディスプレイデバイス（例えば、ディスプレイポートなど）のうちの１または複数であり得る。一実施形態において、ディスプレイデバイス１４１１は、仮想現実（ＶＲ）アプリケーションまたは拡張現実（ＡＲ）アプリケーションなどの、ヘッドマウントディスプレイ（ＨＭＤ）での使用のための立体表示デバイスであり得る。

いくつかの実施形態において、プラットフォームコントローラハブ１４３０は、周辺機器が高速Ｉ／Ｏバスを介してメモリデバイス１４２０およびプロセッサ１４０２に接続することを可能にする。Ｉ／Ｏ周辺機器は、限定されることはないが、オーディオコントローラ１４４６、ネットワークコントローラ１４３４、ファームウェアインタフェース１４２８、無線トランシーバ１４２６、タッチセンサ１４２５、データストレージデバイス１４２４（例えば、不揮発性メモリ、揮発性メモリ、ハードディスクドライブ、フラッシュメモリ、ＮＡＮＤ、３ＤＮＡＮＤ、３ＤＸＰｏｉｎｔなど）を含む。データストレージデバイス１４２４は、ストレージインタフェース（例えば、ＳＡＴＡ）を介して、または、ペリフェラルコンポーネントインターコネクトバス（例えば、ＰＣＩ、ＰＣＩＥｘｐｒｅｓｓ）などの周辺機器バスを介して接続できる。タッチセンサ１４２５は、タッチスクリーンセンサ、圧力センサまたは指紋センサを含み得る。無線トランシーバ１４２６は、Ｗｉ−Ｆｉ（登録商標）トランシーバ、Ｂｌｕｅｔｏｏｔｈ（登録商標）トランシーバまたは、３Ｇ、４Ｇ、５Ｇまたはロングタームエボリューション（ＬＴＥ）トランシーバなどのモバイルネットワークトランシーバであり得る。ファームウェアインタフェース１４２８は、システムファームウェアとの通信を可能にし、例えば、ユニファイド・エクステンシブル・ファームウェア・インタフェース（ＵＥＦＩ）であり得る。ネットワークコントローラ１４３４は、有線ネットワークへのネットワーク接続を可能にし得る。いくつかの実施形態において、高性能ネットワークコントローラ（図示せず）がインタフェースバス１４１０と結合する。オーディオコントローラ１４４６は、一実施形態において、マルチチャネル高解像度オーディオコントローラである。一実施形態において、システム１４００は、レガシ（例えば、ＰｅｒｓｏｎａｌＳｙｓｔｅｍ２（ＰＳ／２））デバイスをシステムに結合するための任意選択的なレガシＩ／Ｏコントローラ１４４０を含む。プラットフォームコントローラハブ１４３０はまた、キーボードおよびマウス１４４３の組み合わせ、カメラ１４４４または他のＵＳＢ入力デバイスなどの、１または複数のユニバーサルシリアルバス（ＵＳＢ）コントローラ１４４２接続入力デバイスにも接続し得る。

異なって構成される他のタイプのデータ処理システムも用いられてよいので、示されるシステム１４００は、例示であり、限定するものではないことが理解されるであろう。例えば、メモリコントローラ１４１６およびプラットフォームコントローラハブ１４３０のインスタンスは、外部グラフィックスプロセッサ１４１８などの、別個の外部グラフィックスプロセッサへと統合されてよい。一実施形態において、プラットフォームコントローラハブ１４３０および／またはメモリコントローラ１４１６は、１または複数のプロセッサ１４０２の外部にあってよい。例えば、システム１４００は、外部のメモリコントローラ１４１６およびプラットフォームコントローラハブ１４３０を含み得、それらはプロセッサ１４０２と通信するシステムチップセット内のメモリコントローラハブおよび周辺機器コントローラハブとして構成されてもよい。

例えば、ＣＰＵ、メモリ、および他のコンポーネントなどのコンポーネントが、熱的性能を増加させるように配置および設計される、回路基板（「ＳＬＥＤ」）が用いられ得る。いくつかの例において、プロセッサなどの処理コンポーネントは、ＳＬＥＤの上側に位置するが、一方では、ＳＬＥＤの最下層側のＤＩＭＭなどのメモリの近くに位置することもある。この設計によって提供された拡大気流の結果として、コンポーネントは典型的なシステムより高い周波数および電力レベルで動作し得、これにより性能が増大する。さらに、ＳＬＥＤはラックにおいて、電力およびデータ通信ケーブルと無条件にかみ合うように構成され、これにより、迅速に取り除かれ、アップグレードされ、再インストールされ、および／または置換される、これらの能力を拡張する。同様に、プロセッサ、アクセラレータ、メモリ、およびデータストレージデバイスなどの、ＳＬＥＤ上に位置する個々のコンポーネントは、互いから増加したこれらの空間に起因して、容易にアップグレードされるように構成される。例示的な実施形態において、コンポーネントはさらに、これらの真正性を明らかにするハードウェア証明特徴を含む。

データセンタは、イーサネット（登録商標）およびオムニパスを含む複数の他のネットワークアーキテクチャをサポートする、単一のネットワークアーキテクチャ（「ファブリック」）を使用し得る。ＳＬＥＤは、光ファイバを介してスイッチに結合され得、それは、典型的なツイストペアケーブル配線（例えば、カテゴリ５、カテゴリ５ｅ、カテゴリ６など）より高い帯域幅、およびより低いレイテンシを提供する。高帯域幅、低レイテンシ相互接続およびネットワークアーキテクチャに起因して、データセンタは、メモリ、アクセラレータ（例えば、ＧＰＵ、グラフィクスアクセラレータ、ＦＰＧＡ、ＡＳＩＣ、ニューラルネットワークおよび／または人工知能アクセラレータなど）、および物理的に集計されないデータストレージデバイスなどのリソースを、使用において、プールし得、必要に基づいてそれらを計算リソース（例えば、プロセッサ）に提供し得、あたかもそれらがローカルにあるかのようにプールされたリソースに、計算リソースがアクセスすることを可能にし得る。

電力供給または電源は、システム１４００または任意のコンポーネントまたは本明細書に説明されたシステムに、電圧および／または電流を提供し得る。一例において、電力供給は、壁のコンセントに差し込むための、ＡＣからＤＣ（交流から直流）へのアダプタを含む。そのようなＡＣ電力は再生可能エネルギー（例えば、太陽電力）電源であり得る。一例において、電源は外部のＡＣからＤＣへのコンバータなどの、ＤＣ電源を含む。一例において、電源または電力供給は、充電フィールドを近接に介して充電する、無線充電ハードウェアを含む。一例において、電源は内部バッテリ、交流電力供給、動きベースの電力供給、太陽電力供給または燃料電池電源を含み得る。

図１５Ａから図１５Ｃは、本明細書に説明される実施形態によって提供されるコンピューティングシステムおよびグラフィックスプロセッサを示す。本明細書における任意の他の図面の要素と同じ参照番号（または名称）を有する図１５Ａから図１５Ｃの要素は、本明細書においてどこか他の場所で説明されるものと同様な任意の方式で動作または機能することができるが、そのようなものに限定されることはない。

図１５Ａは、１または複数のプロセッサコア１５０２Ａ−１５０２Ｎ、統合メモリコントローラ１５１４、および統合グラフィックスプロセッサ１５０８を有するプロセッサ１５００の実施形態のブロック図である。プロセッサ１５００は、最大で破線の枠により表される追加のコア１５０２Ｎまでを含む追加のコアを含み得る。プロセッサコア１５０２Ａ−１５０２Ｎのそれぞれは、１または複数の内部キャッシュユニット１５０４Ａ−１５０４Ｎを含む。いくつかの実施形態において、各プロセッサコアは、１または複数の共有キャッシュユニット１５０６へのアクセスもまた有する。内部キャッシュユニット１５０４Ａ−１５０４Ｎおよび共有キャッシュユニット１５０６は、プロセッサ１５００内のキャッシュメモリ階層を表している。キャッシュメモリ階層は、各プロセッサコア内の命令およびデータキャッシュの少なくとも１つのレベル、および、キャッシュのレベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）などの、共有される中間レベルのキャッシュ、または、外部メモリがＬＬＣとして分類される前のキャッシュの最高レベルである他のレベルのうちの１または複数のレベルを含んでよい。いくつかの実施形態において、キャッシュコヒーレンシロジックが、様々なキャッシュユニット１５０６および１５０４Ａ−１５０４Ｎの間のコヒーレンシを保持する。

いくつかの実施形態において、プロセッサ１５００は、１または複数のバスコントローラユニット１６１６のセットおよびシステムエージェントコア１５１０もまた含み得る。１または複数のバスコントローラユニット１６１６は、１または複数のＰＣＩまたはＰＣＩＥｘｐｒｅｓｓバスなどの、周辺機器バスのセットを管理する。システムエージェントコア１５１０は、様々なプロセッサコンポーネントのための管理機能を提供する。いくつかの実施形態において、システムエージェントコア１５１０は、様々な外部メモリデバイス（図示せず）へのアクセスを管理する１または複数の統合メモリコントローラ１５１４を含む。

いくつかの実施形態において、１または複数のプロセッサコア１５０２Ａ−１５０２Ｎは、同時マルチスレッディングのためのサポートを含む。そのような実施形態において、システムエージェントコア１５１０は、マルチスレッド処理の最中にコア１５０２Ａ−１５０２Ｎを協調および動作させるためのコンポーネントを含む。システムエージェントコア１５１０は、パワーコントロールユニット（ＰＣＵ）をさらに含んでよく、ＰＣＵは、プロセッサコア１５０２Ａ−１５０２Ｎおよびグラフィックスプロセッサ１５０８の電力状態を調整するロジックおよびコンポーネントを含む。

いくつかの実施形態において、プロセッサ１５００は、グラフィックス処理演算を実行するグラフィックスプロセッサ１５０８をさらに含む。いくつかの実施形態において、グラフィックスプロセッサ１５０８は、共有キャッシュユニット１５０６のセットと結合し、かつ、１または複数の統合メモリコントローラ１５１４を含むシステムエージェントコア１５１０と結合する。いくつかの実施形態において、システムエージェントコア１５１０は、１または複数の結合されたディスプレイへのグラフィックスプロセッサ出力を駆動するディスプレイコントローラ１５１１もまた含む。いくつかの実施形態において、ディスプレイコントローラ１５１１は、少なくとも１つの相互接続を介してグラフィックスプロセッサと結合される別個のモジュールであってもよい、または、グラフィックスプロセッサ１５０８内に統合されてもよい。

いくつかの実施形態において、リングベースの相互接続ユニット１５１２は、プロセッサ１５００の内部コンポーネントを結合するために用いられる。しかしながら、代替の相互接続ユニットは、ポイントツーポイントインターコネクト、スイッチ型インターコネクトまたは当技術分野で周知の技術を含む他の技術などが用いられてもよい。いくつかの実施形態において、グラフィックスプロセッサ１５０８は、Ｉ／Ｏリンク１５１３を介してリング相互接続１５１２と結合する。

例示的なＩ／Ｏリンク１５１３は、様々なプロセッサコンポーネントと、ｅＤＲＡＭモジュールなどの高性能埋め込み型メモリモジュール１５１８との間の通信を促すオンパッケージＩ／Ｏインターコネクトを含む複数の様々なＩ／Ｏインターコネクトのうちの少なくとも１つを表す。いくつかの実施形態において、プロセッサコア１５０２Ａ−１５０２Ｎのそれぞれおよびグラフィックスプロセッサ１５０８は、共有のラストレベルキャッシュとして埋め込み型メモリモジュール１５１８を用いる。

いくつかの実施形態において、プロセッサコア１５０２Ａ−１５０２Ｎは、同じ命令セットアーキテクチャを実行するホモジニアスなコアである。別の実施形態では、プロセッサコア１５０２Ａ−１５０２Ｎは、命令セットアーキテクチャ（ＩＳＡ）の観点からヘテロジニアスであり、プロセッサコア１５０２Ａ−１５０２Ｎの１または複数が第１の命令セットを実行し、一方、他のコアのうちの少なくとも１つが第１の命令セットのサブセットまたは異なる命令セットを実行する。一実施形態において、プロセッサコア１５０２Ａ−１５０２Ｎは、マイクロアーキテクチャの観点からヘテロジニアスであり、相対的に消費電力が高い１または複数のコアは、消費電力が少ない１または複数の電力コアと結合する。一実施形態において、プロセッサコア１５０２Ａ−１５０２Ｎは、計算機能の観点からヘテロジニアスである。さらに、プロセッサ１５００は、１または複数のチップ上に実装され得る、または、他のコンポーネントに加えて図示されるコンポーネントを有するＳｏＣ集積回路として実装され得る。

図１５Ｂは、本明細書に説明されたいくつかの実施形態による、グラフィックスプロセッサコア１５１９のハードウェアロジックのブロック図である。本明細書における任意の他の図面の要素と同じ参照番号（または名称）を有する図１５Ｂの要素は、本明細書においてどこか他の場所で説明されるものと同様な任意の方式で動作または機能することができるが、そのようなものに限定されることはない。グラフィックスプロセッサコア１５１９は、コアスライスと称されることがあり、モジュラーグラフィックスプロセッサ内の１または複数のグラフィックスコアであり得る。グラフィックスプロセッサコア１５１９は、１つのグラフィックスコアスライスを例示したものであり、グラフィックスプロセッサは、本明細書において説明されるように、目標電力および性能限界に基づいて複数のグラフィックスコアスライスを含んでよい。各グラフィックスプロセッサコア１５１９は、汎用および固定機能ロジックのモジュラーブロックを含むサブスライスとも称される複数のサブコア１５２１Ａ−１５２１Ｆと結合される固定機能ブロック１５３０を含み得る。

いくつかの実施形態において、固定機能ブロック１５３０は、例えば、低性能および／または低電力のグラフィックスプロセッサ実装において、グラフィックスプロセッサコア１５１９内のすべてのサブコアにより共有され得るジオメトリ／固定機能パイプライン１５３１を含む。様々な実施形態では、ジオメトリ／固定機能パイプライン１５３１は、３Ｄ固定機能パイプライン（例えば、以下に説明される図１６Ａにあるような３Ｄパイプライン１６１２）、ビデオフロントエンドユニット、スレッドスポーナーおよびスレッドディスパッチャ、並びに、統合リターンバッファ、例えば、以下に説明される図１７の統合リターンバッファ１７１８を管理する統合リターンバッファマネージャを含む。

一実施形態において、固定機能ブロック１５３０は、グラフィックスＳｏＣインタフェース１５３２、グラフィックスマイクロコントローラ１５３３、およびメディアパイプライン１５３４もまた含む。グラフィックスＳｏＣインタフェース１５３２は、グラフィックスプロセッサコア１５１９と、チップ集積回路上のシステム内の他のプロセッサコアとの間のインタフェースを提供する。グラフィックスマイクロコントローラ１５３３は、スレッドディスパッチ、スケジューリングおよびプリエンプションを含む、グラフィックスプロセッサコア１５１９の様々な機能を管理するように構成可能なプログラマブルサブプロセッサである。メディアパイプライン１５３４（例えば、図１６Ａおよび図１７のメディアパイプライン１６１６）は、画像およびビデオデータを含むマルチメディアデータのデコード、エンコード、事前処理および／または事後処理を促すロジックを含む。メディアパイプライン１５３４は、サブコア１５２１Ａ−１５２１Ｆ内のコンピュートまたはサンプリングロジックへの要求を介してメディア演算を実装する。

一実施形態において、ＳｏＣインタフェース１５３２は、共有のラストレベルキャッシュメモリなどのメモリ階層要素、システムＲＡＭ、および／または、埋め込み型オンチップまたはオンパッケージＤＲＡＭを含む、ＳｏＣ内の汎用アプリケーションプロセッサコア（例えば、ＣＰＵ）および／または他のコンポーネントとグラフィックスプロセッサコア１５１９が通信することを可能にする。ＳｏＣインタフェース１５３２はまた、カメライメージングパイプラインなど、ＳｏＣ内の固定機能デバイスとの通信を可能にもでき、グラフィックスプロセッサコア１５１９とＳｏＣ内のＣＰＵとの間で共有され得るグローバルメモリアトミックの使用を可能にするおよび／または当該グローバルメモリアトミックを実装する。ＳｏＣインタフェース１５３２は、グラフィックスプロセッサコア１５１９に対する電力管理制御を実装し、グラフィックスコア１５１９のクロックドメインとＳｏＣ内の他のクロックドメインとの間のインタフェースを有効にすることもできる。一実施形態において、ＳｏＣインタフェース１５３２は、グラフィックスプロセッサ内の１または複数のグラフィックスコアのそれぞれにコマンドおよび命令を提供するように構成されるコマンドストリーマおよびグローバルスレッドディスパッチャからのコマンドバッファの受信を可能にする。コマンドおよび命令は、メディア演算が実行される場合にメディアパイプライン１５３４にディスパッチすることができる、または、グラフィックス処理演算が実行される場合にジオメトリおよび固定機能パイプライン（例えば、ジオメトリおよび固定機能パイプライン１５３１、ジオメトリおよび固定機能パイプライン１５３７）にディスパッチすることができる。

グラフィックスマイクロコントローラ１５３３は、グラフィックスプロセッサコア１５１９のための様々なスケジューリングおよび管理タスクを実行するように構成され得る。一実施形態において、グラフィックスマイクロコントローラ１５３３は、サブコア１５２１Ａ−１５２１Ｆ内の実行ユニット（ＥＵ）アレイ１５２２Ａ−１５２２Ｆ、１５２４Ａ−１５２４Ｆ内の様々なグラフィックス並列エンジン上のグラフィックスおよび／またはコンピュートワークロードスケジューリングを実行し得る。このスケジューリングモデルでは、グラフィックスプロセッサコア１５１９を含むＳｏＣのＣＰＵコア上で実行するホストソフトウェアは、複数のグラフィックスプロセッサドアベルのうちの１つにワークロードを提示でき、適切なグラフィックスエンジンに対するスケジューリングオペレーションを呼び出す。スケジューリングオペレーションは、どのワークロードを次に実行するかを決定すること、ワークロードをコマンドストリーマに提示すること、エンジン上で実行する既存のワークロードをプリエンプトすること、ワークロードの経過をモニタリングすること、および、ワークロードが完了したときをホストソフトウェアに通知することを含む。一実施形態において、グラフィックスマイクロコントローラ１５３３はまた、グラフィックスプロセッサコア１５１９に対する低電力またはアイドル状態を促進することもでき、システム上のオペレーティングシステムおよび／またはグラフィックスドライバソフトウェアから独立して、低電力状態遷移にわたってグラフィックスプロセッサコア１５１９内のレジスタをセーブおよび復元する能力をグラフィックスプロセッサコア１５１９に提供する。

グラフィックスプロセッサコア１５１９は、図示されるサブコア１５２１Ａ−１５２１Ｆより多い、または、より少ない、最大Ｎ個のモジュラーサブコアを有してよい。Ｎ個のサブコアの各セットについて、グラフィックスプロセッサコア１５１９は、共有機能ロジック１５３５、共有および／またはキャッシュメモリ１５３６、ジオメトリ／固定機能パイプライン１５３７、ならびに、様々なグラフィックスをアクセラレートし、かつ、処理演算を算出するさらなる固定機能ロジック１５３８も含むことができる。共有機能ロジック１５３５は、グラフィックスプロセッサコア１５１９内の各Ｎ個のサブコアによって共有され得る、図１７の共有機能ロジック１７２０（例えば、サンプラ、数学、および／またはスレッド間通信ロジック）に関連付けられたロジックユニットを含み得る。共有および／またはキャッシュメモリ１５３６は、グラフィックスプロセッサコア１５１９内のＮ個のサブコア１５２１Ａ−１５２１Ｆのセットに関する最後のレベルキャッシュであり得、複数のサブコアによってアクセス可能な共有メモリとしての機能も果たし得る。ジオメトリ／固定機能パイプライン１５３７は、固定機能ブロック１５３０内のジオメトリ／固定機能パイプライン１５３１の代わりに含まれ得、同じまたは類似のロジックユニットを含み得る。

一実施形態において、グラフィックスプロセッサコア１５１９は、グラフィックスプロセッサコア１５１９による使用のための様々な固定機能アクセラレーションロジックを含み得るさらなる固定機能ロジック１５３８を含む。一実施形態において、さらなる固定機能ロジック１５３８は、位置のみのシェーディングでの使用のためのさらなるジオメトリパイプラインを含む。位置のみのシェーディングにおいて、２つのジオメトリパイプライン、つまり、ジオメトリ／固定機能パイプライン１５３８、１５３１内の完全なジオメトリパイプラインと、さらなる固定機能ロジック１５３８内に含まれ得るさらなるジオメトリパイプラインであるカリングパイプラインが存在する。一実施形態において、カリングパイプラインは、完全なジオメトリパイプラインの縮小バージョンである。完全なパイプラインおよびカリングパイプラインは、同一のアプリケーションの異なるインスタンスを実行でき、各インスタンスは、別個のコンテキストを有する。位置のみのシェーディングは、破棄された三角形の長いカリング実行を隠すことができ、場合によっては、シェーディングをより早く完了させることを可能にする。例えば、および一実施形態において、カリングパイプラインは、フレームバッファに対する画素のラスタライゼーションおよびレンダリングを実行することなく頂点の位置特性のみをフェッチしてシェーディングするので、さらなる固定機能ロジック１５３８内のカリングパイプラインロジックは、主要アプリケーションと並列に位置シェーダを実行することができ、完全なパイプラインよりも速く重要な結果を一般的に生成する。カリングパイプラインは、生成された重要な結果を用いて、すべての三角形がカリングされるか否かに関係なくこれらの三角形に関する可視情報を算出できる。完全なパイプライン（この例において、リプレイパイプラインと称され得る）は、カリングされる三角形をスキップして、ラスタライゼーションフェーズに最終的に渡される可視三角形のみをシェーディングするために可視情報を消費できる。

一実施形態において、さらなる固定機能ロジック１５３８は、機械学習訓練または推論の最適化を含む実装のために、固定機能行列乗算ロジックなどの機械学習アクセラレーションロジックを含むこともできる。

各グラフィックスサブコア１５２１Ａ−１５２１Ｆ内に、グラフィックスパイプライン、メディアパイプラインまたはシェーダプログラムによる要求に応じてグラフィックス、メディアおよび計算操作を実行するために用いられ得る実行リソースのセットを含む。グラフィックスサブコア１５２１Ａ−１５２１Ｆは、複数のＥＵアレイ１５２２Ａ−１５２２Ｆ、１５２４Ａ−１５２４Ｆ、スレッドディスパッチおよびスレッド間通信（ＴＤ／ＩＣ）ロジック１５２３Ａ−１５２３Ｆ、３Ｄ（例えば、テクスチャ）サンプラ１５２５Ａ−１５２５Ｆ、メディアサンプラ１５２６Ａ−１５２６Ｆ、シェーダプロセッサ１５２７Ａ−１５２７Ｆ並びに共有ローカルメモリ（ＳＬＭ）１５２８Ａ−１５２８Ｆを含む。各ＥＵアレイ１５２２Ａ−１５２２Ｆ、１５２４Ａ−１５２４Ｆは、複数の実行ユニットを含み、それらは、グラフィックス、メディアまたはコンピュートシェーダプログラムを含むグラフィックス、メディアまたは計算操作の稼働中に、浮動小数点および整数／固定小数点論理演算を実行することが可能な汎用グラフィックス処理ユニットである。ＴＤ／ＩＣロジック１５２３Ａ−１５２３Ｆは、サブコア内の実行ユニットに対するローカルスレッドディスパッチおよびスレッド制御動作を実行し、サブコアの実行ユニット上で実行するスレッド間の通信を促す。３Ｄサンプラ１５２５Ａ−１５２５Ｆは、テクスチャまたは他の３Ｄグラフィックス関連データをメモリに読み出すことができる。３Ｄサンプラは、所与のテクスチャに関連付けられる構成されたサンプル状態およびテクスチャフォーマットに基づいて、テクスチャデータを別々に読み出すことができる。メディアサンプラ１５２６Ａ−１５２６Ｆは、メディアデータに関連付けられるタイプおよびフォーマットに基づいて同様の読み出し動作を実行できる。一実施形態において、各グラフィックスサブコア１５２１Ａ−１５２１Ｆは、統合された３Ｄおよびメディアサンプラを交互に含むことができる。サブコア１５２１Ａ−１５２１Ｆのそれぞれ内の実行ユニット上で実行するスレッドは、各サブコア内の共有ローカルメモリ１５２８Ａ−１５２８Ｆを利用して、オンチップメモリの共通のプールを用いて実行するスレッドグループ内でのスレッド実行を可能にする。

図１５Ｃは、本明細書に説明された実施形態による、グラフィックスプロセッサおよび／または計算アクセラレータとして構成され得る、汎用グラフィックス処理ユニット（ＧＰＧＰＵ）１５７０のブロック図である。ＧＰＧＰＵ１５７０は、１または複数のシステムおよび／またはメモリバスを介して、ホストプロセッサ（例えば、１または複数のＣＰＵ１５４６）およびメモリ１５７１、１５７２と相互接続され得る。一実施形態において、メモリ１５７１は、１または複数のＣＰＵ１５４６と共有され得るシステムメモリであり、一方で、メモリ１５７２はＧＰＧＰＵ１５７０に専用ののデバイスメモリである。一実施形態において、ＧＰＧＰＵ１５７０およびデバイスメモリ１５７２内のコンポーネントは、１または複数のＣＰＵ１５４６にアクセス可能なメモリアドレスにマッピングされ得る。メモリ１５７１および１５７２へのアクセスは、メモリコントローラ１５６８を介して促され得る。一実施形態において、メモリコントローラ１５６８は、内部直接メモリアクセス（ＤＭＡ）コントローラ１５６９を含み、または、そうでなければＤＭＡコントローラによって実行されるであろう動作を実行するロジックを含み得る。

ＧＰＧＰＵ１５７０は、Ｌ２キャッシュ１５５３、Ｌ１キャッシュ１５５４、命令キャッシュ１５５５、および共有メモリ１５５６を含む、複数のキャッシュメモリを含み、その少なくとも一部もまたキャッシュメモリとしてパーティショニングされ得る。ＧＰＧＰＵ１５７０もまた、複数の計算ユニット１５６０Ａ−１５６０Ｎを含む。各計算ユニット１５６０Ａ−１５６０Ｎは、ベクトルレジスタ１５６１、スカラレジスタ１５６２、ベクトルロジックユニット１５６３、スカラロジックユニット１５６４のセットを含む。計算ユニット１５６０Ａ−１５６０Ｎは、ローカル共有メモリ１５６５およびプログラムカウンタ１５６６もまた含み得る。計算ユニット１５６０Ａ−１５６０Ｎは、定数キャッシュ１５６７と結合され得、それは定数データを格納するように用いられ得、定数データはＧＰＧＰＵ１５７０上で実行するカーネルまたはシェーダプログラムの実行の間変わらないであろうデータである。一実施形態において、定数キャッシュ１５６７はスカラデータキャッシュであり、キャッシュされたデータは、スカラレジスタ１５６２へと直接フェッチされ得る。

動作の間、１または複数のＣＰＵ１５４６は、アクセス可能なアドレス空間にマッピングされたＧＰＧＰＵ１５７０のレジスタまたはメモリにコマンドを書き込み得る。コマンドプロセッサ１５５７は、レジスタまたはメモリからコマンドを読み出し得、どのようにこれらのコマンドがＧＰＧＰＵ１５７０で処理されるであろうかを決定し得る。スレッドディスパッチャ１５５８は次に、これらのコマンドを実行するように計算ユニット１５６０Ａ−１５６０Ｎにスレッドをディスパッチするように用いられ得る。各計算ユニット１５６０Ａ−１５６０Ｎは、他の計算ユニットと独立してスレッドを実行し得る。さらに、各計算ユニット１５６０Ａ−１５６０Ｎは、条件計算のために独立して構成され得、メモリに計算の結果を条件付きで出力し得る。発信されたコマンドが完了した場合、コマンドプロセッサ１５５７は、１または複数のＣＰＵ１５４６に割り込み得る。

図１６Ａから図１６Ｃは、本明細書に説明された実施形態によって提供される、追加のグラフィックスプロセッサおよび計算アクセラレータアーキテクチャのブロック図を示す。本明細書における任意の他の図面の要素と同じ参照番号（または名称）を有する図１６Ａから図１６Ｃの要素は、本明細書においてどこか他の場所で説明されるものと同様な任意の方式で動作または機能することができるが、そのようなものに限定されることはない。

図１６Ａはグラフィックスプロセッサ１６００のブロック図であり、それはディスクリートグラフィックス処理ユニットであり得、または、複数の処理コアと統合されたグラフィックスプロセッサであり得、または、限定されることはないが、メモリデバイスまたはネットワークインタフェースなどの、他の半導体デバイスであり得る。いくつかの実施形態において、グラフィックスプロセッサは、グラフィックスプロセッサ上のレジスタへのメモリマッピング型Ｉ／Ｏインタフェースを介して、プロセッサメモリ内に置かれるコマンドを用いて通信する。いくつかの実施形態において、グラフィックスプロセッサ１６００は、メモリにアクセスするメモリインタフェース１６１４を含む。メモリインタフェース１６１４は、ローカルメモリ、１または複数の内部キャッシュ、１または複数の共有外部キャッシュへのインタフェース、および／または、システムメモリへのインタフェースであり得る。

いくつかの実施形態において、グラフィックスプロセッサ１６００は、ディスプレイ出力データをディスプレイデバイス１６１８に駆動するディスプレイコントローラ１６０２も含む。ディスプレイコントローラ１６０２は、ビデオまたはユーザインタフェース要素の複数の層の表示および構成に関する１または複数のオーバーレイプレーン用のハードウェアを含む。ディスプレイデバイス１６１８は、内部または外部ディスプレイデバイスであり得る。一実施形態において、ディスプレイデバイス１６１８は、仮想現実（ＶＲ）ディスプレイデバイスまたは拡張現実（ＡＲ）ディスプレイデバイスなどの、ヘッドマウントディスプレイデバイスである。いくつかの実施形態において、グラフィックスプロセッサ１６００は、限定されることはないが、ＭＰＥＧ−２などのムービングピクチャエキスパーツグループ（ＭＰＥＧ）フォーマット、Ｈ．２６４／ＭＰＥＧ−４ＡＶＣ、Ｈ．２６５／ＨＥＶＣ、オープンメディアアライアンス（ＡＯＭｅｄｉａ）ＶＰ８、ＶＰ９などのアドバンスドビデオコーティング（ＡＶＣ）フォーマット、ならびに、米国映画テレビ技術者協会（ＳＭＰＴＥ）４２１Ｍ／ＶＣ−１、および、ＪＰＥＧなどのジョイントフォトグラフィックエキスパーツグループ（ＪＰＥＧ）フォーマット、および、モーションＪＰＥＧ（ＭＪＰＥＧ）フォーマットを含む１または複数のメディアエンコードフォーマットに、当該メディアエンコードフォーマットから、または、当該メディアエンコードフォーマット間でメディアをエンコード、デコードまたはトランスコードするビデオコーデックエンジン１６０６を含む。

いくつかの実施形態において、グラフィックスプロセッサ１６００は、例えば、ビット境界ブロック転送を含む２次元（２Ｄ）ラスタライザ演算を実行するブロック画像転送（ＢＬＩＴ）エンジン１６０４を含む。しかしながら、一実施形態において、２Ｄグラフィックス演算は、グラフィックス処理エンジン（ＧＰＥ）１６１０の１または複数のコンポーネントを用いて実行される。いくつかの実施形態において、ＧＰＥ１６１０は、３次元（３Ｄ）グラフィックス演算およびメディア演算を含むグラフィックス演算を実行するためのコンピュートエンジンである。

いくつかの実施形態において、ＧＰＥ１６１０は、３Ｄプリミティブの形状（例えば、矩形、三角形など）に作用する処理機能を用いて３次元画像およびシーンをレンダリングするなどの、３Ｄ演算を実行するための３Ｄパイプライン１６１２を含む。３Ｄパイプライン１６１２は、要素内で様々なタスクを実行する、および／または実行スレッドを３Ｄ／メディアサブシステム１６１５に生成するプログラム可能な固定された機能要素を含む。３Ｄパイプライン１６１２は、メディア演算を実行するために用いられ得る一方、ＧＰＥ１６１０の実施形態はまた、具体的には、ビデオ投稿処理および画像処理などのメディア演算を実行するために用いられるメディアパイプライン１６１６もまた含む。

いくつかの実施形態において、メディアパイプライン１６１６は、ビデオコーデックエンジン１６０６の代わりに、または、ビデオコーデックエンジン１６０６を代表して、ビデオデコードアクセラレーション、ビデオインターレース解除およびビデオエンコードアクセラレーションなどの、１または複数の専用のメディア演算を実行する固定機能またはプログラマブルロジックユニットを含む。いくつかの実施形態において、メディアパイプライン１６１６は、３Ｄ／メディアサブシステム１６１５上での実行のためのスレッドをスポーンするスレッドスポーニングユニットをさらに含む。スポーンされたスレッドは、３Ｄ／メディアサブシステム１６１５に含まれる１または複数のグラフィックス実行ユニット上でのメディア演算に関する計算を実行する。

いくつかの実施形態において、３Ｄ／メディアサブシステム１６１５は、３Ｄパイプライン１６１２およびメディアパイプライン１６１６によりスポーンされたスレッドを実行するためのロジックを含む。一実施形態において、これらのパイプラインは、スレッド実行要求を３Ｄ／メディアサブシステム１６１５に送信し、利用可能なスレッド実行リソースに様々な要求をアービトレートおよびディスパッチするためのスレッドディスパッチロジックを含む。実行リソースは、３Ｄおよびメディアスレッドを処理するためのグラフィックス実行ユニットのアレイを含む。いくつかの実施形態において、３Ｄ／メディアサブシステム１６１５は、スレッド命令およびデータのための１または複数の内部キャッシュを含む。いくつかの実施形態において、サブシステムは、スレッド間のデータを共有して出力データを格納するためのレジスタおよびアドレス指定可能メモリを含む共有メモリもまた含む。

図１６Ｂは、本明細書に説明された実施形態による、タイルドアーキテクチャを有するグラフィックスプロセッサ１６２０を示す。一実施形態において、グラフィックスプロセッサ１６２０は、グラフィックスエンジンタイル１６１０Ａ−１６１０Ｄ内に図１６Ａのグラフィックス処理エンジン１６１０の複数のインスタンスを有するグラフィックス処理エンジンクラスタ１６２２を含む。各グラフィックスエンジンタイル１６１０Ａ−１６１０Ｄは、タイルインターコネクト１６２３Ａ−１６２３Ｆのセットを介して相互接続され得る。各グラフィックスエンジンタイル１６１０Ａ−１６１０Ｄは、メモリインターコネクト１６２５Ａ−１６２５Ｄを介してメモリモジュールまたはメモリデバイス１６２６Ａ−１６２６Ｄにもまた接続され得る。メモリデバイス１６２６Ａ−１６２６Ｄは、任意のグラフィックスメモリ技術を用い得る。例えば、メモリデバイス１６２６Ａ−１６２６Ｄは、グラフィックスダブルデータレート（ＧＤＤＲ）メモリであり得る。メモリデバイス１６２６Ａ−１６２６Ｄは、一実施形態において、これらのそれぞれのグラフィックスエンジンタイル１６１０Ａ−１６１０Ｄとオンダイ（ｏｎ−ｄｉｅ）であり得る高帯域幅メモリ（ＨＢＭ）モジュールである。一実施形態において、メモリデバイス１６２６Ａ−１６２６Ｄは、これらのそれぞれのグラフィックスエンジンタイル１６１０Ａ−１６１０Ｄの頂部にスタックされ得る、スタックメモリデバイスである。一実施形態において、各グラフィックスエンジンタイル１６１０Ａ−１６１０Ｄおよび関連付けられたメモリ１６２６Ａ−１６２６Ｄは、別個のチップレット上に存在し、図２４Ｂから図２４Ｄにさらに詳細に説明されるように、それらはベースダイまたはベース基板にボンディングされる。

グラフィックス処理エンジンクラスタ１６２２は、オンチップまたはオンパッケージファブリックインターコネクト１６２４に接続され得る。ファブリックインターコネクト１６２４は、グラフィックスエンジンタイル１６１０Ａ−１６１０Ｄと、ビデオコーデック１６０６および１または複数のコピーエンジン１６０４などのコンポーネントとの間での通信を可能にし得る。コピーエンジン１６０４は、メモリデバイス１６２６Ａ−１６２６Ｄおよびグラフィックスプロセッサ１６２０の外部にあるメモリ（例えば、システムメモリ）から、それらへ、および、それらの間で、データを移動するように用いられ得る。ファブリックインターコネクト１６２４は、グラフィックスエンジンタイル１６１０Ａ−１６１０Ｄを相互接続するようにも用いられ得る。グラフィックスプロセッサ１６２０は、ディスプレイデバイス１６１８の外部ディスプレイデバイス１６１８への接続を可能とするように、任意選択的にディスプレイコントローラ１６０２を含み得る。グラフィックスプロセッサは、グラフィックスまたは計算アクセラレータとしてもまた構成され得る。アクセラレータ構成において、ディスプレイコントローラ１６０２およびディスプレイデバイス１６１８は省略され得る。

グラフィックスプロセッサ１６２０は、ホストインタフェース１６２８を介してホストシステムに接続され得る。ホストインタフェース１６２８は、グラフィックスプロセッサ１６２０、システムメモリ、および／または他のシステムコンポーネントの間で通信を可能にし得る。ホストインタフェース１６２８は、例えば、ＰＣＩエクスプレスバスまたは別のタイプのホストシステムインタフェースであり得る。

図１６Ｃは、本明細書で説明された実施形態による、計算アクセラレータ１６３０を示す。計算アクセラレータ１６３０は、図１６Ｂのグラフィックスプロセッサ１６２０とのアーキテクチャ的類似点を含み得、計算アクセラレーションのために最適化される。コンピュートエンジンクラスタ１６３２は、パラレルまたはベクトルベースの汎用計算操作を最適化するための実行ロジックを含む計算エンジンタイル１６４０Ａ−１６４０Ｄのセットを含み得る。一実施形態において、１または複数の計算エンジンタイル１６４０Ａ−１６４０Ｄが、メディアアクセラレーションを実行するロジックを含み得るが、いくつかの実施形態において、計算エンジンタイル１６４０Ａ−１６４０Ｄは、固定された機能グラフィックス処理ロジックを含まない。計算エンジンタイル１６４０Ａ−１６４０Ｄは、メモリインターコネクト１６２５Ａ−１６２５Ｄを介してメモリ１６２６Ａ−１６２６Ｄに接続し得る。メモリ１６２６Ａ−１６２６Ｄおよびメモリインターコネクト１６２５Ａ−１６２５Ｄは、グラフィックスプロセッサ１６２０にあるように同様の技術であり得、または異なり得る。グラフィックス計算エンジンタイル１６４０Ａ−１６４０Ｄもまた、タイルインターコネクト１６２３Ａ−１６２３Ｆのセットを介して相互接続され得、ファブリックインターコネクト１６２４と接続され、および／または相互接続され得る。一実施形態において、計算アクセラレータ１６３０は、デバイスワイドのキャッシュとして構成され得る大きなＬ３キャッシュ１６３６を含む。計算アクセラレータ１６３０は、図１６Ｂのグラフィックスプロセッサ１６２０と同様の方式で、ホストインタフェース１６２８を介してホストプロセッサおよびメモリにもまた接続され得る。グラフィックス処理エンジン

図１７は、いくつかの実施形態によるグラフィックスプロセッサのグラフィックス処理エンジン１７１０のブロック図である。一実施形態において、グラフィックス処理エンジン（ＧＰＥ）１７１０は図１５Ａに示されたＧＰＥ１５１０のバージョンであり、また、図１５Ｂのグラフィックスエンジンタイル１５１０Ａ−１５１０Ｄもまた表し得る。本明細書における任意の他の図面の要素と同じ参照番号（または名称）を有する図１７の要素は、本明細書においてどこか他の場所で説明されるものと同様な任意の方式で動作または機能することができるが、そのようなものに限定されることはない。例えば、図１５Ａの３Ｄパイプライン１６１２およびメディアパイプライン１６１６が図示されている。ＧＰＥ１７１０のいくつかの実施形態において、メディアパイプライン１６１６は任意選択的であり、ＧＰＥ１７１０内に明示的に含まれていなくてもよい。例えば、少なくとも１つの実施形態において、別個のメディアおよび／またはイメージプロセッサがＧＰＥ１７１０に結合される。

いくつかの実施形態において、ＧＰＥ１７１０は、コマンドストリーマ１７０３と結合するか、またはそれを含み、コマンドストリーマ１７０３は、コマンドストリームを３Ｄパイプライン１６１２および／またはメディアパイプライン１６１６に提供する。いくつかの実施形態において、コマンドストリーマ１７０３は、システムメモリ、または内部キャッシュメモリおよび共有キャッシュメモリのうちの１または複数であり得るメモリと結合される。いくつかの実施形態において、コマンドストリーマ１７０３は、メモリからコマンドを受信し、これらのコマンドを３Ｄパイプライン１６１２および／またはメディアパイプライン１６１６に送信する。コマンドはリングバッファからフェッチされた指示であり、それは３Ｄパイプライン１６１２およびメディアパイプライン１６１６のためのコマンドを格納する。一実施形態において、リングバッファはさらに、複数のコマンドのバッチを格納するバッチコマンドバッファを含み得る。３Ｄパイプライン１６１２に関するコマンドは、限定されることはないが、３Ｄパイプライン１６１２に関する頂点およびジオメトリデータ、および／または、メディアパイプライン３１６に関する画像データおよびメモリオブジェクトなどの、メモリに格納されたデータへの参照もまた含み得る。３Ｄパイプライン１６１２およびメディアパイプライン１６１６は、各パイプライン内のロジックによる複数の動作を実行し、または１または複数の実行スレッドをグラフィックスコアアレイ１７１４にディスパッチすることにより、コマンドおよびデータを処理する。一実施形態において、グラフィックスコアアレイ１７１４は、１または複数のブロックのグラフィックスコア（例えば、グラフィックスコア１７１５Ａ、グラフィックスコア１７１５Ｂ）を含み、各ブロックは１または複数のグラフィックスコアを含む。各グラフィックスコアは、グラフィックスおよび計算操作、ならびに、固定機能テクスチャ処理を実行する汎用およびグラフィックス固有の実行ロジック、および／または、機械学習および人工知能アクセラレーションロジックを含むグラフィックス実行リソースのセットを含む。

様々な実施形態において、３Ｄパイプライン１６１２は、命令を処理して、実行スレッドをグラフィックスコアアレイ１７１４にディスパッチすることにより、頂点シェーダ、ジオメトリシェーダ、画素シェーダ、断片シェーダ、コンピュートシェーダまたは他のシェーダプログラムなどの、１または複数のシェーダプログラムを処理する固定機能およびプログラマブルロジックを含み得る。グラフィックスコアアレイ１７１４は、これらのシェーダプログラムの処理での使用のために実行リソースの統合されたブロックを提供する。グラフィックスコアアレイ１７１４のグラフィックスコア１７１５Ａ−１７１４Ｂ内の多目的実行ロジック（例えば、実行ユニット）は、様々な３ＤＡＰＩシェーダ言語に対するサポートを含み、複数のシェーダに関連付けられる複数の同時実行スレッドを実行することができる。

いくつかの実施形態において、グラフィックスコアアレイ１７１４はまた、ビデオおよび／または画像処理を実行する実行ロジックなどの、メディア機能を含む。一実施形態において、実行ユニットは、グラフィックス処理演算に加えて、並列の汎用計算操作を実行するようにプログラム可能な汎用ロジックを含む。汎用ロジックは、図１４のプロセッサコア１４０７または図１５Ａにあるようなコア１５０２Ａ−１５０２Ｎ内の汎用ロジックと並列に、または、これらと共に処理演算を実行できる。

グラフィックスコアアレイ１７１４上で実行するスレッドにより生成される出力データは、統合リターンバッファ（ＵＲＢ）１７１８内のメモリにデータを出力できる。ＵＲＢ１７１８は、複数のスレッドに対するデータを格納できる。いくつかの実施形態において、ＵＲＢ１７１８は、グラフィックスコアアレイ１７１４上で実行する異なるスレッド間のデータを送信するために用いられてよい。いくつかの実施形態において、ＵＲＢ１７１８は、グラフィックスコアアレイ上および共有機能ロジック１７２０内の固定機能ロジック上のスレッド間の同期のためにさらに用いられてよい。

いくつかの実施形態において、グラフィックスコアアレイ１７１４はスケーラブルであり、したがって、当該アレイは、可変数のグラフィックスコアを含み、各々がＧＰＥ１７１０の目標電力および性能レベルに基づいて可変数の実行ユニットを有する。一実施形態において、実行リソースは、動的にスケーラブルであり、したがって、実行リソースは、必要に応じてイネーブルまたはディセーブルにされてよい。

グラフィックスコアアレイ１７１４は、グラフィックスコアアレイ内のグラフィックスコア間で共有される複数のリソースを含む共有機能ロジック１７２０と結合する。共有機能ロジック１７２０内の共有機能は、グラフィックスコアアレイ１７１４に専用の補足的な機能を提供するハードウェアロジックユニットである。様々な実施形態において、共有機能ロジック１７２０は、サンプラ１７２１、数学１７２２、およびスレッド間通信（ＩＴＣ）１７２３ロジックを含むが、限定されることはない。さらに、いくつかの実施形態では、共有機能ロジック１７２０内に１または複数のキャシュ１７２５を実装する。

共有機能は、少なくとも、所与の専用の機能に関する需要がグラフィックスコアアレイ１７１４内に含むのに不十分である場合に、実装される。代わりに、その専用の機能の単一のインスタンス化が、共有機能ロジック１７２０のスタンドアロンエンティティとして実装され、グラフィックスコアアレイ１７１４内の実行リソースの間で共有される。グラフィックスコアアレイ１７１４の間で共有され、グラフィックスコアアレイ１７１４内に含まれる機能の正確なセットは、実施形態にわたって変わる。いくつかの実施形態において、グラフィックスコアアレイ１７１４により広く用いられる共有機能ロジック１７２０内の特定の共有機能は、グラフィックスコアアレイ１７１４内の共有機能ロジック１７１６に含まれてよい。様々な実施形態において、グラフィックスコアアレイ１７１４内の共有機能ロジック１７１６は、共有機能ロジック１７２０内の一部またはすべてのロジックを含み得る。一実施形態においては、共有機能ロジック１７２０内のすべてのロジック要素は、グラフィックスコアアレイ１７１４の共有機能ロジック１７１６内で重複してよい。一実施形態において、グラフィックスコアアレイ１７１４内の共有機能ロジック１７１６を優先して、共有機能ロジック１７２０が除外される。実行ユニット

図１８Ａ〜図１８Ｂは、本明細書において説明される実施形態によるグラフィックスプロセッサコアにおいて採用される処理要素のアレイを含むスレッド実行ロジック１８００を示す。本明細書における任意の他の図面の要素と同じ参照番号（または名称）を有する図１８Ａ〜図１８Ｂの要素は、本明細書においてどこか他の場所で説明されるものと同様な任意の方式で動作または機能することができるが、そのようなものに限定されることはない。図１８Ａから図１８Ｂは、スレッド実行ロジック１８００の概要を示し、それは図２Ｂの各サブコア２２１Ａ−２２１Ｆに図示されるハードウェアロジックに表され得る。図１８Ａは、汎用グラフィックスプロセッサ内の実行ユニットを表し、一方、図１８Ｂは、計算アクセラレータ内で用いられ得る実行ユニットを表す。

図１８Ａに図示されるように、いくつかの実施形態において、スレッド実行ロジック１８００は、シェーダプロセッサ１８０２、スレッドディスパッチャ１８０４、命令キャッシュ１８０６、複数の実行ユニット１８０８Ａ−１８０８Ｎを含むスケーラブルな実行ユニットアレイ、サンプラ１８１０、共有ローカルメモリ１８１１、データキャッシュ１８１２、およびデータポート１８１４を含む。一実施形態において、スケーラブルな実行ユニットアレイは、ワークロードの計算要求に基づいて、１または複数の実行ユニット（例えば、実行ユニット１８０８Ａ、１８０８Ｂ、１８０８Ｃ、１８０８Ｄから１８０８Ｎ−１および１８０８Ｎのいずれか）をイネーブルまたはディセーブルにすることによって、動的にスケーリングし得る。一実施形態において、含まれるコンポーネントは、コンポーネントのそれぞれに接続する相互接続ファブリックを介して相互接続される。いくつかの実施形態において、スレッド実行ロジック１８００は、命令キャッシュ１８０６、データポート１８１４、サンプラ１８１０および実行ユニット１８０８Ａ−１８０８Ｎのうちの１または複数を通じた、システムメモリまたはキャッシュメモリなどのメモリへの１または複数の接続を含む。いくつかの実施形態において、各実行ユニット（例えば、１８０８Ａ）は、各スレッドに対して並列に複数のデータ要素を処理している一方で、複数の同時ハードウェアスレッドを実行することが可能なスタンドアロン型のプログラマブル汎用計算ユニットである。様々な実施形態において、実行ユニット１８０８Ａ−１８０８Ｎのアレイは、任意の数の個々の実行ユニットを含むようにスケーラブルである。

いくつかの実施形態において、実行ユニット１８０８Ａ−１８０８Ｎは、主としてシェーダプログラムを実行するために用いられる。シェーダプロセッサ１８０２は、様々なシェーダプログラムを処理し得、スレッドディスパッチャ１８０４を介してシェーダプログラムに関連付けられる実行スレッドをディスパッチし得る。一実施形態において、スレッドディスパッチャは、グラフィックスおよびメディアパイプラインからの複数のスレッド開始要求を調整し、実行ユニット１８０８Ａ−１８０８Ｎのうち１または複数の実行ユニット上で要求された複数のスレッドをインスタンス化する、ロジックを含む。例えば、ジオメトリパイプラインは、頂点、テセレーションまたはジオメトリシェーダを処理用のスレッド実行ロジックにディスパッチすることができる。いくつかの実施形態において、スレッドディスパッチャ１８０４は、実行しているシェーダプログラムからのランタイムスレッドスポーニング要求を処理することもできる。

いくつかの実施形態において、実行ユニット１８０８Ａ−１８０８Ｎは、多くの標準的な３Ｄグラフィックスシェーダ命令に対するネイティブサポートを含む命令セットをサポートしており、したがって、グラフィックスライブラリ（例えば、Ｄｉｒｅｃｔ３ＤおよびＯｐｅｎＧＬ）からのシェーダプログラムが最小限の移動で実行される。実行ユニットは、頂点およびジオメトリ処理（例えば、頂点プログラム、ジオメトリプログラム、頂点シェーダ）、ピクセル処理（例えば、画素シェーダ、断片シェーダ）および汎用処理（例えば、コンピュートおよびメディアシェーダ）をサポートする。実行ユニット１８０８Ａ−１８０８Ｎのそれぞれは、マルチ発行型の単一命令複数データ（ＳＩＭＤ）実行を可能にし、マルチスレッド動作は、より高いレイテンシメモリアクセスにあるにも関わらず効率的な実行環境を可能にする。各実行ユニット内の各ハードウェアスレッドは、専用の高帯域幅レジスタファイルおよび関連する独立したスレッド状態を有する。実行は、整数、単精度および倍精度浮動小数点演算、ＳＩＭＤ分岐性能、論理演算、超越演算および他の寄せ集め演算が可能なパイプラインへのクロック毎のマルチ発行である。メモリからのデータまたは共有機能のうちの１つからのデータを待機している一方で、実行ユニット１８０８Ａ−１８０８Ｎ内の依存性ロジックは、要求したデータが戻ってくるまで待機中のスレッドをスリープさせる。待機中のスレッドがスリープしている一方で、ハードウェアリソースは、他のスレッドを処理することに専念してよい。例えば、頂点シェーダオペレーションに関連付けられる遅延の最中に、実行ユニットは、異なる頂点シェーダを含む画素シェーダ、断片シェーダまたは別のタイプのシェーダプログラムに対する操作を実行できる。様々な実施形態は、ＳＩＭＤの使用の代替として、またはＳＩＭＤの使用に加えて、単一命令複数スレッド（ＳＩＭＴ）の使用による実行を用いるように適用され得る。ＳＩＭＤコアへの参照、または動作は、ＳＩＭＴにもまた適用され得、あるいははＳＩＭＴと組み合わせられたＳＩＭＤにも適用され得る。

実行ユニット１８０８Ａ−１８０８Ｎの各実行ユニットは、データ要素のアレイ上で動作する。データ要素の数は、「実行サイズ」または命令に対するチャネルの数である。実行チャネルは、データ要素アクセス、マスキングおよび命令内のフロー制御のための実行についての論理ユニットである。チャネルの数は、特定のグラフィックスプロセッサ用の物理算術論理ユニット（ＡＬＵ）または浮動小数点ユニット（ＦＰＵ）の数とは無関係であり得る。いくつかの実施形態において、実行ユニット１８０８Ａ−１８０８Ｎは整数および浮動小数点データタイプをサポートする。

実行ユニット命令設定は、ＳＩＭＤ命令を含む。様々なデータ要素は、レジスタ内のパックドデータタイプとして格納されることができ、実行ユニットは、要素のデータサイズに基づいて、様々な要素を処理するであろう。例えば、２５６ビット幅のベクトルを操作する場合、ベクトルの２５６ビットがレジスタに格納され、実行ユニットは、４つの別個の６４ビットパックドデータ要素（クアッドワード（ＱＷ）サイズのデータ要素）、８つの別個の３２ビットパックドデータ要素（ダブルワード（ＤＷ）サイズのデータ要素）、１６個の別個の１６ビットパックドデータ要素（ワード（Ｗ）サイズのデータ要素）または３２個の別個の８ビットデータ要素（バイト（Ｂ）サイズのデータ要素）としてベクトルを操作する。しかしながら、異なるベクトル幅およびレジスタサイズが可能である。

一実施形態において、１または複数の実行ユニットは、融合されたＥＵに共通のスレッド制御ロジック（１８０７Ａ−１８０７Ｎ）を有する融合された実行ユニット１８０９Ａ−１８０９Ｎと組み合わせられ得る。複数のＥＵが、ＥＵグループと融合し得る。融合されたＥＵグループ内の各ＥＵは、別個のＳＩＭＤハードウェアスレッドを実行するように構成され得る。融合されたＥＵグループにおけるＥＵの数は、実施形態によって変わり得る。さらに、様々なＳＩＭＤ幅は、ＥＵ毎に実行され得、限定されることはないが、ＳＩＭＤ８、ＳＩＭＤ１６およびＳＩＭＤ３２を含む。各融合されたグラフィックス実行ユニット１８０９Ａ−１８０９Ｎは、少なくとも２つの実行ユニットを含む。例えば、融合された実行ユニット１８０９Ａは、第１のＥＵ１８０８Ａと、第２のＥＵ１８０８Ｂと、第１のＥＵ１８０８Ａおよび第２のＥＵ１８０８Ｂに共通するスレッド制御ロジック１８０７Ａとを含む。スレッド制御ロジック１８０７Ａは、融合されたグラフィックス実行ユニット１８０９Ａ上で実行されるスレッドを制御し、融合された実行ユニット１８０９Ａ−１８０９Ｎ内の各ＥＵが共通の命令ポインタレジスタを用いて実行することを可能にする。

１または複数の内部命令キャッシュ（例えば、１８０６）は、実行ユニットのためのスレッド命令をキャッシュするスレッド実行ロジック１８００に含まれる。いくつかの実施形態において、スレッド実行の最中のスレッドデータをキャッシュするために、１または複数のデータキャッシュ（例えば、１８１２）が含まれる。実行ロジック１８００上のスレッド実行は、共有ローカルメモリ１８１１において明示的に管理されたデータもまた格納し得る。いくつかの実施形態において、３Ｄ演算用のテクスチャサンプリングおよびメディア演算用のメディアサンプリングを提供するために、サンプラ１８１０が含まれる。いくつかの実施形態において、サンプラ１８１０は、サンプリングされたデータを実行ユニットに提供する前のサンプリング処理の最中にテクスチャまたはメディアデータを処理するために、専用のテクスチャまたはメディアサンプリング機能を含む。

実行の最中、グラフィックスおよびメディアパイプラインは、スレッドスポーニングおよびディスパッチロジックを介してスレッド実行ロジック１８００にスレッド開始要求を送信する。ジオメトリックオブジェクトのグループが処理されて、ひとたび画素データへとラスタライズされると、シェーダプロセッサ１８０２内の画素プロセッサロジック（例えば、画素シェーダロジック、断片シェーダロジックなど）が、出力情報をさらに算出するために起動され、サーフェス（例えば、カラーバッファ、デプスバッファ、ステンシルバッファなど）を出力するために結果を書き込ませる。いくつかの実施形態において、画素シェーダまたは断片シェーダは、ラスタライズされたオブジェクトにわたって補間されるべき様々な頂点特性の値を算出する。いくつかの実施形態において、シェーダプロセッサ１８０２内の画素プロセッサロジックは、次に、アプリケーションプログラミングインタフェース（ＡＰＩ）供給型画素または断片シェーダプログラムを実行する。シェーダプログラムを実行するべく、シェーダプロセッサ１８０２は、スレッドディスパッチャ１８０４を介して複数のスレッドを実行ユニット（例えば、１８０８Ａ）にディスパッチする。いくつかの実施形態において、シェーダプロセッサ１８０２は、メモリに格納された複数のテクスチャマップにおけるテクスチャデータにアクセスするべく、サンプラ１８１０におけるテクスチャサンプリングロジックを用いる。テクスチャデータおよび入力されたジオメトリデータに対する算術演算は、各ジオメトリック断片に対する画素カラーデータを算出する、または、さらなる処理から１または複数の画素を廃棄する。

いくつかの実施形態において、データポート１８１４は、グラフィックスプロセッサの出力パイプライン上でさらに処理するために、処理済みデータをメモリに出力するメモリアクセスメカニズムをスレッド実行ロジック１８００に提供する。いくつかの実施形態において、データポート１８１４は、データポートを介したメモリアクセスのためにデータをキャッシュする１または複数のキャッシュメモリ（例えば、データキャッシュ１８１２）を含む、または、これに結合される。

一実施形態において、実行ロジック１８００は、レイトレーシングアクセラレーション機能を提供し得るレイトレーサ１８０５もまた含み得る。レイトレーサ１８０５は、レイ生成に関する命令／関数を含むレイトレーシング命令セットをサポートし得る。レイトレーシング命令セットは、図２Ｃにおいてレイトレーシングコア２４５によってサポートされるレイトレーシング命令セットと同様であってもよく、または異なっていてもよい。

図１８Ｂは、実施形態による、実行ユニット１８０８の例示的な内部詳細を示す。グラフィックス実行ユニット１８０８は、命令フェッチユニット１８３７、汎用レジスタファイルアレイ（ＧＲＦ）１８２４、アーキテクチャレジスタファイルアレイ（ＡＲＦ）１８２６、スレッドアービタ１８２２、送信ユニット１８３０、分岐ユニット１８３２、ＳＩＭＤ浮動小数点ユニット（ＦＰＵ）１８３４のセット、および、一実施形態において、専用の整数ＳＩＭＤＡＬＵ１８３５のセットを含み得る。ＧＲＦ１８２４およびＡＲＦ１８２６は、グラフィックス実行ユニット１８０８においてアクティブであり得る、それぞれの同時ハードウェアスレッドに関連付けられた汎用レジスタファイルおよびアーキテクチャレジスタファイルのセットを含む。一実施形態において、スレッドごとに、アーキテクチャ状態はＡＲＦ１８２６において維持され、一方、スレッド実行の最中に用いられるデータは、ＧＲＦ１８２４に格納される。各スレッドの命令ポインタを含む、各スレッドの実行状態は、ＡＲＦ１８２６におけるスレッド特有のレジスタに保持され得る。

一実施形態において、グラフィックス実行ユニット１８０８は、同時マルチスレッディング（ＳＭＴ）と、細粒度のインターリーブ型マルチスレッディング（ＩＭＴ）との組み合わせであるアーキテクチャを有する。アーキテクチャは、同時スレッドの目標数および実行ユニット毎のレジスタの数に基づいて設計時に細かくチューニングされ得るモジュラー構成を有し、実行ユニットのリソースが複数の同時スレッドを実行するために用いられるロジックわたって分割される。グラフィックス実行ユニット１８０８によって実行され得る論理スレッドの数は、ハードウェアスレッドの数に限定されることはなく、複数の論理スレッドは、各ハードウェアスレッドに割り当てられ得る。

一実施形態において、グラフィックス実行ユニット１８０８は、各々が異なる命令であり得る複数の命令を共同発行できる。グラフィックス実行ユニットスレッド１８０８のスレッドアービタ１８２２は、実行のために送信ユニット１８３０、分岐ユニット１８３２またはＳＩＭＤＦＰＵ１８３４のうちの１つに命令をディスパッチすることができる。各実行スレッドは、ＧＲＦ１８２４内の１２８個の汎用レジスタにアクセスすることができ、各レジスタは、３２ビットデータ要素のＳＩＭＤ８−要素ベクトルとしてアクセス可能な３２バイトを格納できる。一実施形態において、各実行ユニットのスレッドは、ＧＲＦ１８２４内の４Ｋバイトへのアクセスを有するが、実施形態は、そのように限定されるわけではなく、他の実施形態においては、より多いまたはより少ない数のレジスタリソースが提供されてよい。一実施形態において、グラフィックス実行ユニット１８０８は、独立して計算操作を実行し得る７個のハードウェアスレッドにパーティショニングされるが、実行ユニット毎のスレッドの数もまた、実施形態によって変化させることができる。例えば、一実施形態において、最大１６のハードウェアスレッドがサポートされる。７個のスレッドが４Ｋバイトにアクセスし得る実施形態において、ＧＲＦ１８２４は合計で２８Ｋバイトを格納し得る。１６個のスレッドが４Ｋバイトにアクセスし得る場合、ＧＲＦ１８２４は合計で６４Ｋバイトを格納し得る。フレキシブルなアドレッシングモードは、効果的により広いレジスタを構築する、または、ストライド矩形ブロックデータ構造を表すために、レジスタが一緒にアドレッシングされることを可能にし得る。

一実施形態において、メモリ動作、サンプラ動作、および他のより長いレイテンシのシステム通信が、メッセージパッシング送信ユニット１８３０によって実行される「送信」命令を介してディスパッチされる。一実施形態において、分岐命令が、ＳＩＭＤダイバージェンスおよび最終的なコンバージェンスを促すように、専用の分岐ユニット１８３２にディスパッチされる。

一実施形態において、グラフィックス実行ユニット１８０８は、浮動小数点演算を実行する１または複数のＳＩＭＤ浮動小数点ユニット（ＦＰＵ）１８３４を含む。一実施形態において、ＦＰＵ１８３４は整数計算もサポートする。一実施形態において、ＦＰＵ１８３４は、最大Ｍ個の数の３２ビット浮動小数点（または整数）演算をＳＩＭＤ実行でき、または、最大２Ｍ個の１６ビット整数または１６ビット浮動小数点演算をＳＩＭＤ実行できる。一実施形態において、ＦＰＵのうちの少なくとも１つは、高スループットで卓越した数学関数および倍精度の６４ビット浮動小数点をサポートする拡張数学機能を提供する。いくつかの実施形態において、８ビット整数ＳＩＭＤＡＬＵ１８３５のセットも存在し、具体的には、機械学習計算に関連付けられる操作を実行するように最適化され得る。

一実施形態において、グラフィックス実行ユニット１８０８の複数のインスタンスのアレイは、グラフィックスサブコアグループ（例えば、サブスライス）においてインスタンス化され得る。スケーラビリティについて、製品の設計者は、サブコアグループごとに実行ユニットの正確な数を選択できる。一実施形態において、実行ユニット１８０８は、複数の実行チャネルにわたって命令を実行できる。さらなる実施形態において、グラフィックス実行ユニット１８０８上で実行される各スレッドは、異なるチャネル上で実行される。

図１９は、実施形態による追加の実行ユニット１９００を示す。実行ユニット１９００は、例えば、図１５Ｃにあるように計算エンジンタイル１５４０Ａ−１５４０Ｄでの使用のために計算が最適化された実行ユニットであり得るが、そのように限定されることはない。実行ユニット１９００の変形例は、図１５Ｂにあるようにグラフィックスエンジンタイル１５１０Ａ−１５１０Ｄにおいても用いられ得る。一実施形態において、実行ユニット１９００は、スレッド制御ユニット１９０１、スレッド状態ユニット１９０２、命令フェッチ／プリフェッチユニット１９０３、および命令デコードユニット１９０４を含む。実行ユニット１９００は、実行ユニット内のハードウェアスレッドに割り当てられ得るレジスタを格納する、レジスタファイル１９０６をさらに含む。実行ユニット１９００は、送信ユニット１９０７および分岐ユニット１９０８をさらに含む。一実施形態において、送信ユニット１９０７および分岐ユニット１９０８は、図１８Ｂのグラフィックス実行ユニット１８０８の送信ユニット１８３０および分岐ユニット１８３２と同様に動作し得る。

実行ユニット１９００は、複数の異なるタイプの機能ユニットを含む計算ユニット１９１０もまた含む。一実施形態において、計算ユニット１９１０は、算術論理ユニットのアレイを含むＡＬＵユニット１９１１を含む。ＡＬＵユニット１９１１は、６４ビット、３２ビット、および１６ビット整数演算および浮動小数点演算を実行するように構成され得る。整数演算および浮動小数点演算は、一斉に実行され得る。計算ユニット１９１０は、シストリックアレイ１９１２、および数学ユニット１９１３もまた含み得る。シストリックアレイ１９１２は、シストリック方式でベクトルまたは他のデータ並列演算を実行するように用いられ得るデータ処理ユニットの、Ｗの広さおよびＤの深さのネットワークを含む。一実施形態において、シストリックアレイ１９１２は、行列ドット積算操作などの、行列動作を実行するように構成され得る。一実施形態において、シストリックアレイ１９１２は、１６ビット浮動小数点演算、ならびに８ビットおよび４ビット整数演算をサポートする。一実施形態において、シストリックアレイ１９１２は、機械学習動作をアクセラレートするように構成され得る。そのような実施形態において、シストリックアレイ１９１２は、ｂｆｌｏａｔ１６ビット浮動小数点フォーマットのためのサポートで構成され得る。一実施形態において、ＡＬＵユニット１９１１よりも効率的で低電力な方式で数学演算の特定サブセットを実行するように、数学ユニット１９１３が含まれ得る。数学ユニット１９１３は、他の実施形態によって提供されるグラフィックス処理エンジンの共有機能ロジックにおいて見られ得る、数学ロジックの変形例を含み得る（例えば、図１７の共有機能ロジック１７２０の数学ロジック１７２２）。一実施形態において、数学ユニット１９１３は、３２ビットおよび６４ビット浮動小数点演算を実行するように構成され得る。

スレッド制御ユニット１９０１は、実行ユニット内のスレッドの実行を制御するロジックを含む。スレッド制御ユニット１９０１は、実行ユニット１９００内のスレッドの実行を開始、停止、および先取りするスレッド調整ロジックを含み得る。スレッド状態ユニット１９０２は、実行ユニット１９００上で実行するように割り当てられたスレッドのために、スレッド状態を格納するように用いられ得る。実行ユニット１９００内のスレッド状態の格納は、スレッドがブロックされた、またはアイドルになった場合に、これらのスレッドの急速なプリエンプションを可能にする。命令フェッチ／プリフェッチユニット１９０３は、より高いレベルの実行ロジックの命令キャッシュ（例えば、図１８Ａにあるような命令キャッシュ１８０６）から命令をフェッチし得る。命令フェッチ／プリフェッチユニット１９０３は、現在実行中のスレッドの分析に基づいて、命令キャッシュにロードされるべき命令のプリフェッチ要求もまた発行し得る。命令デコードユニット１９０４は、計算ユニットによって実行されるべき命令をデコードするように用いられ得る。一実施形態において、命令デコードユニット１９０４は、複雑な命令を構成要素のマイクロオペレーションにデコードするためのセカンダリデコーダとして用いられ得る。

実行ユニット１９００はさらに、実行ユニット１９００上で実行するハードウェアスレッドによって用いられ得るレジスタファイル１９０６を含む。レジスタファイル１９０６におけるレジスタは、実行ユニット１９００の計算ユニット１９１０内で複数の同時スレッドを実行するように用いられるロジックにわたって、分割されてよい。グラフィックス実行ユニット１９００によって実行され得る論理スレッドの数は、ハードウェアスレッドの数に限定されることはなく、複数の論理スレッドが、各ハードウェアスレッドに割り当てられてよい。レジスタファイル１９０６のサイズは、サポートハードウェアスレッドの数に基づいた実施形態にわたって変わってよい。一実施形態において、レジスタリネーミングが、レジスタをハードウェアスレッドに動的に割り当てるように用いられてよい。

図２０は、いくつかの実施形態による、グラフィックスプロセッサ指示フォーマット２０００を示すブロック図である。１つまたは複数の実施形態において、グラフィックスプロセッサ実行ユニットは、複数のフォーマットにおける命令を有する命令セットをサポートする。実線の枠は、実行ユニット命令に一般的に含まれるコンポーネントを示し、一方、破線は、任意選択的であり、または、命令のサブセットにのみ含まれるコンポーネントを含む。いくつかの実施形態において、説明されかつ図示される命令フォーマット２０００は、ひとたび命令が処理された時点の命令デコードによるマイクロオペレーションとは対照的に、それらが実行ユニットに供給される命令という点で、マクロ命令である。

いくつかの実施形態において、グラフィックスプロセッサ実行ユニットは、１２８ビットの命令フォーマット２０１０における複数の命令をネイティブにサポートする。６４ビットの圧縮命令フォーマット２０３０は、選択された命令、命令オプションおよびオペランドの数に基づいていくつかの命令が利用可能である。ネイティブな１２８ビットの命令フォーマット２０１０は、すべての命令オプションへのアクセスを提供し、一方、いくつかのオプションおよび操作は、６４ビットフォーマット２０３０に制限される。６４ビットフォーマット２０３０において利用可能なネイティブ命令は、実施形態によって変わる。いくつかの実施形態において、命令は、インデックスフィールド２０１３における複数のインデックス値のセットを用いて部分的に圧縮される。実行ユニットハードウェアは、インデックス値に基づいて圧縮テーブルのセットを参照し、１２８ビットの命令フォーマット２０１０内のネイティブ命令を再構成するために、圧縮テーブル出力を用いる。他のサイズおよびフォーマットの命令が用いられてもよい。

各フォーマットについて、命令オペコード２０１２は、実行ユニットが実行する操作を定義する。実行ユニットは、各オペランドの複数のデータ要素に並行して各命令を実行する。例えば、追加の命令に応じて、実行ユニットは、テクスチャ成分またはピクチャ成分を表す各カラーチャネルにわたって追加の操作を同時に実行する。デフォルトで、実行ユニットは、オペランドのすべてのデータチャネルにわたって各命令を実行する。いくつかの実施形態において、命令制御フィールド２０１４は、チャネル選択（例えば、プレディケーション）およびデータチャネルオーダ（例えば、スウィズル）などの特定の実行オプションにわたる制御を可能にする。１２８ビットの命令フォーマット２０１０内の命令について、実行サイズフィールド２０１６は、並列に実行されるデータチャネルの数を制限するであろう。いくつかの実施形態において、実行サイズフィールド２０１６は、６４ビットのコンパクトな命令フォーマット２０３０での使用のために利用可能ではない。

いくつかの実行ユニット命令は、２つのソースオペランドｓｒｃ０２０２０、ｓｒｃ１２０２２、および１つのデスティネーション２０１８を含む、最大３つのオペランドを有する。いくつかの実施形態において、実行ユニットは、デュアルデスティネーション命令をサポートし、デスティネーションのうちの１つは暗に示されている。データ操作命令は、第３のソースオペランド（例えば、ＳＲＣ２２０２４）を有し得、命令オペコード２０１２は、ソースオペランドの数を決定する。命令の最後のソースオペランドは、命令と共に渡される（例えば、ハードコードされた）即値であり得る。

いくつかの実施形態において、１２８ビットの命令フォーマット２０１０は、例えば、直接レジスタアドレッシングモードまたは間接レジスタアドレッシングモードが用いられるかを特定するアクセス／アドレスモードフィールド２０２６を含む。直接レジスタアドレッシングモードが用いられる場合、１または複数のオペランドのレジスタアドレスは、命令内のビットにより直接提供される。

いくつかの実施形態において、１２８ビットの命令フォーマット２０１０は、アクセス／アドレスモードフィールド２０２６を含み、命令のアドレスモードおよび／またはアクセスモードを規定する。一実施形態において、アクセスモードは、命令のデータアクセスアライメントを定義するために用いられる。いくつかの実施形態では、１６バイトアライン型のアクセスモードおよび１バイトアライン型のアクセスモードを含むアクセスモードをサポートし、アクセスモードのバイトアライメントが命令オペランドのアクセスアライメントを決定する。例えば、第１モードの場合、命令はソースオペランドおよびデスティネーションオペランドに対してバイトアライン型のアドレッシングを使用してよく、第２モードの場合、命令はすべてのソースオペランドおよびデスティネーションオペランドに対して１６バイトアライン型のアドレッシングを使用してよい。

一実施形態において、アクセス／アドレスモードフィールド２０２６のアドレスモードの一部は、命令が直接または間接アドレッシングを使用するか否かを決定する。直接レジスタアドレッシングモードが用いられる場合、命令内のビットが１または複数のオペランドのレジスタアドレスを直接提供する。間接レジスタアドレッシングモードが用いられる場合、１または複数のオペランドのレジスタアドレスは、命令内のアドレスレジスタの値およびアドレス即値フィールドに基づいて算出されてよい。

いくつかの実施形態において、複数の命令は、オペコードデコード２０４０を簡略化するべく、オペコード２０１２ビットフィールドに基づいてグループ化される。８ビットオペコードの場合、ビット４、５、および６は、実行ユニットがオペコードのタイプを決定することを可能にする。示される正確なオペコードグループ化は、例に過ぎない。いくつかの実施形態において、移動およびロジックオペコードグループ２０４２は、データ移動およびロジック命令（例えば、移動（ｍｏｖ）、比較（ｃｍｐ））を含む。いくつかの実施形態において、移動およびロジックグループ２０４２は、５つの最上位ビット（ＭＳＢ）を共有し、移動（ｍｏｖ）命令は００００ｘｘｘｘｂの形式であり、ロジック命令は０００１ｘｘｘｘｂの形式である。フロー制御命令グループ２０４４（例えば、コール、ジャンプ（ｊｍｐ））は、００１０ｘｘｘｘｂ（例えば、０ｘ２０）の形式の命令を含む。寄せ集め命令グループ２０４６は、命令の混合を含み、００１１ｘｘｘｘｂ（例えば、０ｘ３０）の形式の同期命令（例えば、待機、送信）を含む。並列数学命令グループ２０４８は、０１００ｘｘｘｘｂ（例えば、０ｘ４０）の形式のコンポーネントに関する算術命令（例えば、加算、乗算（ｍｕｌ））を含む。並列数学グループ２０４８は、データチャネルに並行して算術演算を実行する。ベクトル数学グループ（ｖｅｃｔｏｒｍａｔｈｇｒｏｕｐ）２０５０は、０１０１ｘｘｘｘｂ（例えば、０ｘ５０）の形式の算術命令（例えば、ｄｐ４）を含む。ベクトル数学グループ（ｖｅｃｔｏｒｍａｔｈｇｒｏｕｐ）は、ベクトルオペランド上でドット積計算などの算術を実行する。図示されたオペコードデコード２０４０は、一実施形態において、実行ユニットのどの一部がデコードされた命令を実行するために用いられるであろうかを、決定するように用いられ得る。例えば、いくつかの命令が、シストリックアレイによって実行されるであろうシストリック命令として指定され得る。レイトレーシング命令（図示せず）などの他の命令は、実行ロジックのスライスまたはパーティショニング内で、レイトレーシングコアまたはレイトレーシングロジックに転送され得る。グラフィックスパイプライン

図２１は、別の実施形態による、グラフィックスプロセッサ２１００のブロック図である。本明細書における任意の他の図面の要素と同じ参照番号（または名称）を有する図２１の要素は、本明細書においてどこか他の場所で説明されるものと同様な任意の方式で動作または機能することができるが、そのようなものに限定されることはない。

いくつかの実施形態において、グラフィックスプロセッサ２１００は、ジオメトリパイプライン２１２０、メディアパイプライン２１３０、ディスプレイエンジン２１４０、スレッド実行ロジック２１５０およびレンダリング出力パイプライン２１７０を含む。いくつかの実施形態において、グラフィックスプロセッサ２１００は、１または複数の汎用プロセッシングコアを含むマルチコア処理システム内のグラフィックスプロセッサである。グラフィックスプロセッサは、１または複数制御レジスタ（図示せず）へのレジスタ書き込みにより制御される、または、リング相互接続２１０２を介してグラフィックスプロセッサ２１００に発行されるコマンドを介して制御される。いくつかの実施形態において、リング相互接続２１０２は、グラフィックスプロセッサ２１００を、他のグラフィックスプロセッサまたは汎用プロセッサなどの他の処理コンポーネント、結合する。リング相互接続２１０２からのコマンドは、コマンドストリーマ２１０３により解釈され、コマンドストリーマ２１０３は、ジオメトリパイプライン２１２０またはメディアパイプライン２１３０の個々のコンポーネントに命令を供給する。

いくつかの実施形態において、コマンドストリーマ２１０３は、頂点データをメモリから読み出し、コマンドストリーマ２１０３により提供された複数の頂点処理コマンドを実行する、頂点フェッチャ２１０５のコンポーネントの操作を指示する。いくつかの実施形態において、頂点フェッチャ２１０５は、頂点シェーダ２１０７に頂点データを提供し、頂点シェーダ２１０７は、各頂点に対する座標空間変換およびライティング操作を実行する。いくつかの実施形態において、頂点フェッチャ２１０５および頂点シェーダ２１０７は、スレッドディスパッチャ２１３１を介して実行ユニット２１５２Ａ−２１５２Ｂに実行スレッドをディスパッチすることにより頂点処理命令を実行する。

いくつかの実施形態において、実行ユニット２１５２Ａ−２１５２Ｂは、グラフィックスおよびメディア演算を実行するための命令セットを有するベクトルプロセッサのアレイである。いくつかの実施形態において、実行ユニット２１５２Ａ−２１５２Ｂは、各アレイに固有であるまたはアレイ間で共有される付属のＬ１キャッシュ２１５１を有する。キャッシュは、データキャッシュ、命令キャッシュ、または、異なるパーティショニングにデータおよび命令を含むようにパーティショニングされる単一キャッシュとして構成され得る。

いくつかの実施形態において、ジオメトリパイプライン２１２０は、３Ｄオブジェクトのハードウェアアクセラレート型テセレーションを実行するテセレーションコンポーネントを含む。いくつかの実施形態において、プログラム可能なハルシェーダ２１１１は、テセレーション動作を構成する。プログラマブルドメインシェーダ２１１７は、テセレーション出力のバックエンド評価を提供する。テセレータ２１１３は、ハルシェーダ２１１１の指示で動作し、入力としてジオメトリパイプライン２１２０に提供される粗ジオメトリックモデルに基づいて、詳細な複数のジオメトリックオブジェクトのセットを生成する専用ロジックを含む。いくつかの実施形態において、テセレーションが用いられない場合、テセレーションコンポーネント（例えば、ハルシェーダ２１１１、テセレータ２１１３、およびドメインシェーダ２１１７）がバイパスされ得る。

いくつかの実施形態において、完全な複数のジオメトリックオブジェクトは、実行ユニット２１５２Ａ、２１５２Ｂにディスパッチされる１または複数のスレッドを通じてジオメトリシェーダ２１１９により処理され得、またはクリッパ２１２９に直接に進み得る。いくつかの実施形態において、ジオメトリシェーダは、グラフィックスパイプラインの前のステージにあるような頂点または頂点のパッチではなくむしろ、ジオメトリックオブジェクト全体で動作する。テセレーションがディセーブルである場合、ジオメトリシェーダ２１１９は、頂点シェーダ２１０７から入力を受信する。いくつかの実施形態において、ジオメトリシェーダ２１１９は、テセレーションユニットがディセーブルである場合にジオメトリテセレーションを実行するために、ジオメトリシェーダプログラムによりプログラム可能である。

ラスタライゼーション前に、クリッパ２１２９は頂点データを処理する。クリッパ２１２９は、クリッピングおよびジオメトリシェーダ機能を有する固定機能クリッパまたはプログラマブルクリッパであってよい。いくつかの実施形態において、レンダリング出力パイプライン２１７０内のラスタライザおよびデプス試験コンポーネント２１７３は、ジオメトリックオブジェクトを画素ごとの表現へと変換するために、画素シェーダをディスパッチする。いくつかの実施形態において、画素シェーダロジックは、スレッド実行ロジック２１５０に含まれる。いくつかの実施形態において、アプリケーションはラスタライザおよびデプス試験コンポーネント２１７３をバイパスし得、ストリームアウトユニット２１２３を介してラスタライズされていない頂点データにアクセスし得る。

グラフィックスプロセッサ２１００は、相互接続バス、相互接続ファブリック、または、プロセッサの主要なコンポーネント間でのデータおよびメッセージパッシングを可能にするいくつかの他の相互接続メカニズムを有する。いくつかの実施形態において、実行ユニット２１５２Ａ−２１５２Ｂおよび関連するロジックユニット（例えば、Ｌ１キャッシュ２１５１、サンプラ２１５４、テクスチャキャッシュ２１５８など）は、メモリアクセスを実行して、プロセッサのレンダリング出力パイプラインコンポーネントと通信するためにデータポート２１５６を介して相互接続する。いくつかの実施形態において、サンプラ２１５４、キャッシュ２１５１、２１５８および実行ユニット２１５２Ａ−２１５２Ｂは各々、別個のメモリアクセスパスを有する。一実施形態において、テクスチャキャッシュ２１５８はまた、サンプラキャッシュとしても構成され得る。

いくつかの実施形態において、レンダリング出力パイプライン２１７０は、頂点ベースのオブジェクトを関連する画素ベースの表現へと変換するラスタライザおよびデプス試験コンポーネント２１７３を含む。いくつかの実施形態において、ラスタライザロジックは、固定機能三角形および線ラスタライゼーションを実行するウィンドウア（ｗｉｎｄｏｗｅｒ）／マスカ（ｍａｓｋｅｒ）ユニットを含む。いくつかの実施形態において、関連するレンダリングキャッシュ２１７８およびデプスキャッシュ２１７９も利用可能である。画素演算コンポーネント２１７７は、データに対して画素ベースの演算を実行するが、いくつかの例では、２Ｄ演算に関連付けられる画素演算（例えば、ブレンディングを用いたビットブロック画像転送）が２Ｄエンジン２１４１により実行される、または、オーバーレイディスプレイプレーンを用いてディスプレイコントローラ２１４３により表示時間に置き換えられる。いくつかの実施形態において、共有のＬ３キャッシュ２１７５は、すべてのグラフィックスコンポーネントに利用可能であり、主システムメモリを使用することなくデータの共有を可能にする。

いくつかの実施形態において、グラフィックスプロセッサのメディアパイプライン２１３０は、メディアエンジン２１３７およびビデオフロントエンド２１３４を含む。いくつかの実施形態において、ビデオフロントエンド２１３４はコマンドストリーマ２１０３からパイプラインコマンドを受信する。いくつかの実施形態において、メディアパイプライン２１３０は別個のコマンドストリーマを含む。いくつかの実施形態において、ビデオフロントエンド２１３４は、コマンドをメディアエンジン２１３７に送信する前に、複数のメディアコマンドを処理する。いくつかの実施形態において、メディアエンジン２１３７は、スレッドディスパッチャ２１３１を通じてスレッド実行ロジック２１５０にディスパッチするための複数のスレッドをスポーンする、スレッドスポーニング機能を含む。

いくつかの実施形態において、グラフィックスプロセッサ２１００はディスプレイエンジン２１４０を含む。いくつかの実施形態において、ディスプレイエンジン２１４０は、プロセッサ２１００の外部にあり、リング相互接続２１０２またはいくつかの他の相互接続バス若しくはファブリックを介してグラフィックスプロセッサと結合する。いくつかの実施形態において、ディスプレイエンジン２１４０は２Ｄエンジン２１４１およびディスプレイコントローラ２１４３を含む。いくつかの実施形態において、ディスプレイエンジン２１４０は、３Ｄパイプラインとは独立して動作することが可能な専用ロジックを含む。いくつかの実施形態において、ディスプレイコントローラ２１４３は、ディスプレイデバイス（図示せず）と結合し、これは、ラップトップコンピュータにあるようなシステム統合型ディスプレイデバイス、または、ディスプレイデバイスコネクタを介して取り付けられる外部ディスプレイデバイスであってよい。

いくつかの実施形態において、ジオメトリパイプライン２１２０およびメディアパイプライン２１３０は、複数のグラフィックスおよびメディアプログラミングインタフェースに基づいて操作を実行するように構成可能であり、任意の１つのアプリケーションプログラミングインタフェース（ＡＰＩ）に固有のものではない。いくつかの実施形態において、グラフィックスプロセッサ用のドライバソフトウェアは、グラフィックスプロセッサにより処理され得るコマンドに、特定のグラフィックスまたはメディアライブラリに固有のＡＰＩコールを変換する。いくつかの実施形態において、すべてがＫｈｒｏｎｏｓグループのオープングラフィックスライブラリ（ＯｐｅｎＧＬ）、オープンコンピューティング言語（ＯｐｅｎＣＬ）、および／または、ＶｕｌｋａｎグラフィックスおよびコンピュートＡＰＩに対して、サポートが提供される。いくつかの実施形態において、マイクロソフトコーポレーションのＤｉｒｅｃｔ３Ｄライブラリに対してもサポートが提供され得る。いくつかの実施形態において、これらのライブラリの組み合わせがサポートされ得る。サポートは、オープンソースのコンピュータビジョンライブラリ（ＯｐｅｎＣＶ）のために提供されてもよい。互換性のある３Ｄパイプラインを有する将来のＡＰＩは、将来のＡＰＩのパイプラインからグラフィックスプロセッサのパイプラインへとマッピングが行われることができる場合にもまたサポートされるであろう。グラフィックスパイプラインプログラミング

図２２Ａは、いくつかの実施形態によるグラフィックスプロセッサコマンドフォーマット２２００を示すブロック図である。図２２Ｂは、実施形態によるグラフィックスプロセッサコマンドシーケンス２２１０を示すブロック図である。図２２Ａにおける実線の枠は、グラフィックスコマンドに一般的に含まれるコンポーネントを示し、一方、破線は、任意選択的である、または、グラフィックスコマンドのサブセットにのみ含まれるコンポーネントを含む。図２２Ａの例示的なグラフィックスプロセッサコマンドフォーマット２２００は、クライアント２２０２、コマンドオペレーションコード（オペコード）２２０４およびコマンド用のデータ２２０６を識別するデータフィールドを含む。サブオペコード２２０５およびコマンドサイズ２２０８もまた、いくつかのコマンドに含まれる。

いくつかの実施形態において、クライアント２２０２は、コマンドデータを処理するグラフィックスデバイスのクライアントユニットを規定する。いくつかの実施形態において、グラフィックスプロセッサコマンドパーサは、コマンドのさらなる処理を調整して適切なクライアントユニットにコマンドデータをルーティングするために、各コマンドのクライアントフィールドを検査する。いくつかの実施形態において、グラフィックスプロセッサクライアントユニットは、メモリインタフェースユニット、レンダリングユニット、２Ｄユニット、３Ｄユニットおよびメディアユニットを含む。各クライアントユニットは、コマンドを処理する対応する処理パイプラインを有する。コマンドがクライアントユニットによりひとたび受信されると、クライアントユニットは、オペコード２２０４、および、存在する場合にはサブオペコード２２０５を読み出して、実行する操作を決定する。クライアントユニットは、データフィールド２２０６における情報を用いてコマンドを実行する。いくつかのコマンドでは、コマンドのサイズを規定するために明示的なコマンドサイズ２２０８が予期される。いくつかの実施形態において、コマンドパーサは、コマンドオペコードに基づいて、コマンドの少なくともいくつかのサイズを自動的に決定する。いくつかの実施形態において、コマンドはダブルワードの倍数を用いてアラインされる。他のコマンドフォーマットも用いられてよい。

図２２Ｂのフロー図は、例示的なグラフィックスプロセッサコマンドシーケンス２２１０を示す。いくつかの実施形態において、グラフィックスプロセッサの実施形態を特徴付けるデータ処理システムのソフトウェアまたはファームウェアは、複数のグラフィックス演算のセットをセットアップ、実行、および終了するように示されたコマンドシーケンスのバージョンを用いる。実施形態は、サンプルコマンドシーケンスが、例示の目的のみで示され、かつ、説明されるが、これらの特定のコマンドまたはこのコマンドシーケンスに限定されることはない。さらに、当該コマンドは、コマンドシーケンスにおけるコマンドのバッチとして発行されてよく、したがって、グラフィックスプロセッサが少なくとも部分的にコヒーレンスな状態でコマンドのシーケンスを処理するであろう。

いくつかの実施形態において、グラフィックスプロセッサコマンドシーケンス２２１０は、任意のアクティブなグラフィックスパイプラインにパイプラインに対する現在保留中のコマンドを完了させるパイプラインフラッシュコマンド２２１２から始めてよい。いくつかの実施形態において、３Ｄパイプライン２２２２およびメディアパイプライン２２２４は同時には動作しない。パイプラインフラッシュは、アクティブなグラフィックスパイプラインが、任意の保留コマンドを完了させるように実行される。パイプラインフラッシュに応じて、グラフィックスプロセッサに対するコマンドパーサは、アクティブなドローイングエンジンが保留中の動作を完了し、かつ、関連する読み出しキャッシュが無効にされるまで、コマンド処理を一時停止するであろう。任意選択的に、「ダーティ（ｄｉｒｔｙ）」とマーキングされたレンダリングキャッシュ内の任意のデータがメモリに対してフラッシュされ得る。いくつかの実施形態において、パイプラインフラッシュコマンド２２１２は、パイプライン同期中に、または、グラフィックスプロセッサを低電力状態にする前に用いられ得る。

いくつかの実施形態において、パイプライン選択コマンド２２１３は、パイプライン間で明示的に切り替えるために、コマンドシーケンスがグラフィックスプロセッサを必要とする場合に用いられる。いくつかの実施形態において、パイプライン選択コマンド２２１３は、コンテキストが両方のパイプラインにコマンドを発行しなければ、パイプラインコマンドを発行する前に、実行コンテキスト内で一度のみ必要とされる。いくつかの実施形態において、パイプラインフラッシュコマンド２２１２は、パイプライン選択コマンド２２１３を介したパイプライン切り替えの直前に必要とされる。

いくつかの実施形態において、パイプライン制御コマンド２２１４は、動作用のグラフィックスパイプラインを構成し、３Ｄパイプライン２２２２およびメディアパイプライン２２２４をプログラムするために用いられる。いくつかの実施形態において、パイプライン制御コマンド２２１４は、アクティブなパイプラインに関するパイプライン状態を構成する。一実施形態においてパイプライン制御コマンド２２１４は、パイプライン同期中に用いられる、または、コマンドのバッチを処理する前に、アクティブなパイプライン内の１または複数のキャッシュメモリからのデータをクリアするために用いられる。

いくつかの実施形態において、リターンバッファ状態コマンド２２１６は、データを書き込むために各パイプラインに対するリターンバッファのセットを構成するために用いられる。いくつかのパイプラインオペレーションは、動作が処理の最中に中間データを書き込む１または複数のリターンバッファの割り当て、選択または構成を必要とする。いくつかの実施形態において、グラフィックスプロセッサは、出力データを格納し、かつ、クロススレッド通信を実行するために１または複数のリターンバッファもまた用いる。いくつかの実施形態において、リターンバッファ状態２２１６は、パイプラインオペレーションのセットを用いるために、リターンバッファのサイズおよび数を選択することを含む。

コマンドシーケンスにおける残りのコマンドは、動作用のアクティブなパイプラインに基づいて異なる。パイプライン決定２２２０に基づいて、コマンドシーケンスは、３Ｄパイプライン状態２２３０から始まる３Ｄパイプライン２２２２またはメディアパイプライン状態２２４０で始まるメディアパイプライン２２２４に調整される。

３Ｄパイプライン状態２２３０を構成するコマンドは、頂点バッファ状態、頂点要素状態、一定のカラー状態、デプスバッファ状態、および、３Ｄプリミティブコマンドが処理される前に構成される他の状態変数に対する３Ｄ状態設定コマンドを含む。これらのコマンドの値は、使用中の特定の３ＤＡＰＩに基づいて少なくとも部分的に決定される。いくつかの実施形態において、３Ｄパイプライン状態２２３０のコマンドは、これらの要素が用いられないであろう場合、特定のパイプライン要素を選択的に無効にするまたはバイパスすることもできる。

いくつかの実施形態において、３Ｄプリミティブ２２３２のコマンドは、３Ｄパイプラインにより処理される３Ｄプリミティブを提示するために用いられる。３Ｄプリミティブ２２３２のコマンドを介してグラフィックスプロセッサに渡されるコマンドおよび関連付けられるパラメータは、グラフィックスパイプライン内の頂点フェッチ機能に転送される。頂点フェッチ機能は、３Ｄプリミティブ２２３２のコマンドデータを用いて頂点データ構造を生成する。頂点データ構造は、１または複数のリターンバッファに格納される。いくつかの実施形態において、３Ｄプリミティブ２２３２のコマンドは、頂点シェーダを介して３Ｄプリミティブに対する頂点操作を実行するために用いられる。頂点シェーダを処理するために、３Ｄパイプライン２２２２は、シェーダ実行スレッドをグラフィックスプロセッサ実行ユニットにディスパッチする。

いくつかの実施形態において、３Ｄパイプライン２２２２は、実行２２３４のコマンドまたはイベントを介してトリガされる。いくつかの実施形態において、レジスタ書き込みはコマンド実行をトリガする。いくつかの実施形態において、実行はコマンドシーケンスにおいて「ｇｏ」または「ｋｉｃｋ」コマンドを介してトリガされる。一実施形態において、コマンド実行は、グラフィックスパイプラインを通じてコマンドシーケンスをフラッシュするために、パイプライン同期コマンドを用いてトリガされる。３Ｄパイプラインは、３Ｄプリミティブに対するジオメトリ処理を実行するであろう。ひとたび動作が完了すると、結果として生じるジオメトリックオブジェクトがラスタライズされ、画素エンジンは、結果として生じる画素に色をつける。画素シェーディングおよび画素バックエンド動作制御する追加のコマンドがこれらの動作のために含まれてもよい。

いくつかの実施形態において、グラフィックスプロセッサコマンドシーケンス２２１０は、メディア演算を実行する場合、メディアパイプライン２２２４のパスに従う。一般的には、メディアパイプライン２２２４に対するプログラミングについての特定の使用および方式は、実行されるメディアまたは計算操作に依存する。特定のメディアデコード演算は、メディアデコードの最中に、メディアパイプラインにオフロードされてよい。いくつかの実施形態において、メディアパイプラインはバイパスされることもでき、メディアデコードは、１または複数の汎用プロセッシングコアにより提供されるリソースを全体的にまたは部分的に用いて実行され得る。一実施形態において、メディアパイプラインは、汎用グラフィックスプロセッサユニット（ＧＰＧＰＵ）演算用の要素もまた含み、グラフィックスプロセッサは、グラフィックスプリミティブのレンダリングに明示的には関連していない計算シェーダプログラムを用いてＳＩＭＤベクトル演算を実行するために用いられる。

いくつかの実施形態において、メディアパイプライン２２２４は、３Ｄパイプライン２２２２と同様の方式で構成される。メディアパイプライン状態２２４０を構成するコマンドのセットは、メディアオブジェクトコマンド２２４２の前にコマンドキューへとディスパッチされるか、または置かれる。いくつかの実施形態において、メディアパイプライン状態２２４０に対するコマンドは、メディアオブジェクトを処理するために用いられるメディアパイプライン要素を構成するデータを含むであろう。これは、メディアパイプライン内のエンコードまたはデコードフォーマットなどの、ビデオデコードおよびビデオエンコードロジックを構成するデータを含む。いくつかの実施形態において、メディアパイプライン状態２２４０に対するコマンドは、状態設定のバッチを含む「間接」状態要素に対する１または複数のポインタの使用もまたサポートする。

いくつかの実施形態において、メディアオブジェクトコマンド２２４２は、メディアパイプラインによる処理のためのメディアオブジェクトにポインタを供給する。メディアオブジェクトは、処理されるビデオデータを含むメモリバッファを含む。いくつかの実施形態において、すべてのメディアパイプライン状態は、メディアオブジェクトコマンド２２４２を発行する前に有効でなければならない。ひとたびパイプライン状態が構成され、かつ、メディアオブジェクトコマンド２２４２がキューイングされると、メディアパイプライン２２２４は、実行コマンド２２４４または同等の実行イベント（例えば、レジスタ書き込み）を介してトリガされる。メディアパイプライン２２２４からの出力は、次に、３Ｄパイプライン２２２２またはメディアパイプライン２２２４により提供される動作によって事後処理されてよい。いくつかの実施形態において、ＧＰＧＰＵ演算は、メディア演算と同様の方式で構成され、実行される。グラフィックスソフトウェアアーキテクチャ

図２３は、いくつかの実施形態による、データ処理システム２３００に関する例示的なグラフィックスソフトウェアアーキテクチャを示す。いくつかの実施形態において、ソフトウェアアーキテクチャは、３Ｄグラフィックスアプリケーション２３１０、オペレーティングシステム２３２０、および少なくとも１つのプロセッサ２３３０を含む。いくつかの実施形態において、プロセッサ２３３０は、グラフィックスプロセッサ２３３２および１または複数の汎用プロセッサコア２３３４を含む。グラフィックスアプリケーション２３１０およびオペレーティングシステム２３２０は各々、データ処理システムのシステムメモリ２３５０において実行する。

いくつかの実施形態において、３Ｄグラフィックスアプリケーション２３１０は、シェーダ命令２３１２を含む１または複数のシェーダプログラムを含む。シェーダ言語命令は、Ｄｉｒｅｃｔ３Ｄの上位レベルシェーダ言語（ＨＬＳＬ）またはＯｐｅｎＧＬシェーダ言語（ＧＬＳＬ）などの、上位レベルシェーダ言語におけるものであってよい。アプリケーションは、汎用プロセッサコア２３３４による実行のために適した機械語の実行可能命令２３１４もまた含む。アプリケーションはまた、頂点データによって定義されるグラフィックスオブジェクト２３１６もまた含む。

いくつかの実施形態において、オペレーティングシステム２３２０は、マイクロソフトコーポレーションのマイクロソフト（登録商標）Ｗｉｎｄｏｗｓ（登録商標）オペレーティングシステム、プロプライエタリＵＮＩＸ（登録商標）様式のオペレーティングシステム、または、Ｌｉｎｕｘ（登録商標）カーネルの変形例を用いたオープンソースＵＮＩＸ（登録商標）様式のオペレーティングシステムである。オペレーティングシステム２３２０は、Ｄｉｒｅｃｔ３ＤＡＰＩ、ＯｐｅｎＧＬＡＰＩまたはＶｕｌｋａｎＡＰＩなどのグラフィックスＡＰＩ２３２２をサポートすることができる。Ｄｉｒｅｃｔ３ＤＡＰＩが用いられる場合、オペレーティングシステム２３２０は、フロントエンドシェーダコンパイラ２３２４を用いて、ＨＬＳＬにおける任意のシェーダ命令２３１２を下位レベルのシェーダ言語へとコンパイルする。コンパイルは、ジャストインタイム（ＪＩＴ）コンパイルであってよい、または、アプリケーションは、シェーダプリコンパイルを実行できる。いくつかの実施形態において、高水準シェーダは、３Ｄグラフィックスアプリケーション２３１０のコンパイルの最中に、より低レベルのシェーダへとコンパイルされる。いくつかの実施形態において、シェーダ命令２３１２は、ＶｕｌｋａｎＡＰＩによって用いられる標準ポータブル中間表現（ＳＰＩＲ）のバージョンなどの中間フォームにおいて提供される。

いくつかの実施形態において、ユーザモードグラフィックスドライバ２３２６は、シェーダ命令２３１２をハードウェア固有の表現へと変換するバックエンドシェーダコンパイラ２３２７を含む。ＯｐｅｎＧＬＡＰＩが用いられる場合、ＧＬＳＬ高水準言語におけるシェーダ命令２３１２は、コンパイルのためにユーザモードグラフィックスドライバ２３２６に渡される。いくつかの実施形態において、ユーザモードグラフィックスドライバ２３２６は、オペレーティングシステムカーネルモード機能２３２８を用いて、カーネルモードグラフィックスドライバ２３２９と通信する。いくつかの実施形態において、カーネルモードグラフィックスドライバ２３２９は、グラフィックスプロセッサ２３３２と通信してコマンドおよび命令をディスパッチする。ＩＰコア実装

少なくとも１つの実施形態の１または複数の態様は、プロセッサなどの集積回路内のロジックを表すおよび／または定義する機械可読媒体に格納される代表的なコードにより実装され得る。例えば、機械可読媒体は、プロセッサ内の様々なロジックを表す命令を含んでよい。機械により読み出される場合、命令は、機械に、本明細書において説明される技術を実行するロジックを組み立てさせる。「ＩＰコア」として知られるそのような表現は、集積回路の構造を説明するハードウェアモデルとして有形の機械可読媒体に格納され得る集積回路用のロジックの再利用可能なユニットである。ハードウェアモデルは、集積回路を製造する組み立て機械上に当該ハードウェアモデルを搭載する様々な顧客または製造施設に供給されてよい。集積回路は、本明細書において説明される実施形態のうちのいずれかと関連して説明された動作を回路が実行するように製造されてよい。

図２４Ａは、実施形態による動作を実行する集積回路を製造するために用いられ得るＩＰコア開発システム２４００を示すブロック図である。ＩＰコア開発システム２４００は、より大きな設計へと組み込まれ得るモジュラー式の再利用可能な設計をもたらすために用いられてよい、または、集積回路（例えば、ＳｏＣ集積回路）全体を構築するために用いられてよい。設計施設２４３０は、高水準プログラミング言語（例えば、Ｃ／Ｃ＋＋）におけるＩＰコア設計のソフトウェアシミュレーション２４１０を生成できる。ソフトウェアシミュレーション２４１０は、シミュレーションモデル２４１２を用いてＩＰコアの挙動を設計、試験および確認するために用いられ得る。シミュレーションモデル２４１２は、機能、挙動および／またはタイミングシミュレーションを含んでよい。次に、レジスタ転送レベル（ＲＴＬ）設計２４１５は、シミュレーションモデル２４１２から作成または合成され得る。ＲＴＬ設計２４１５は、ハードウェアレジスタ間のデジタル信号のフローをモデリングする集積回路の挙動を抽出し、モデリングされたデジタル信号を用いて実行される関連するロジックを含む。ＲＴＬ設計２４１５に加えて、論理レベルまたはトランジスタレベルにおける下位レベルの設計が作成、設計または合成されてもよい。したがって、初期の設計およびシミュレーションの特定の詳細は変わり得る。

ＲＴＬ設計２４１５またはこれと同等のものは、ハードウェアモデル２４２０へと設計施設によりさらに合成されてよく、ハードウェアモデル２４２０は、ハードウェア記述言語（ＨＤＬ）または物理的な設計データのいくつか他の表現であってよい。ＨＤＬは、ＩＰコア設計を確認するためにさらにシミュレーションまたは試験されてよい。ＩＰコア設計は、不揮発性メモリ２４４０（例えば、ハードディスク、フラッシュメモリまたは任意の不揮発性記憶媒体）を用いて、サードパーティの製造施設２４６５への配送のために格納され得る。代替的に、ＩＰコア設計は、有線接続２４５０または無線接続２４６０を介して（例えば、インターネットを介して）伝送され得る。製造施設２４６５は次に、ＩＰコア設計に少なくとも部分的に基づく集積回路を組み立てる。製造された集積回路は、本明細書で説明される少なくとも１つの実施形態によって動作を実行するように構成され得る。

図２４Ｂは、本明細書において説明されるいくつかの実施形態による集積回路パッケージアセンブリ２４７０の垂直断面図を示す。集積回路パッケージアセンブリ２４７０は、本明細書において説明される１または複数のプロセッサまたはアクセラレータデバイスの実装を示す。パッケージアセンブリ２４７０は、基板２４８０に接続されるハードウェアロジック２４７２、２４７４の複数のユニットを含む。ロジック２４７２、２４７４は、構成可能なロジックまたは固定された機能のロジックハードウェアにおいて少なくとも部分的に実装されてよく、本明細書において説明されるプロセッサコア、グラフィックスプロセッサまたは他のアクセラレータデバイスのいずれかの１または複数の部分を含み得る。ロジック２４７２、２４７４の各ユニットは、半導体ダイ内に実装され、かつ、相互接続構造２４７３を介して基板２４８０と結合され得る。相互接続構造２４７３は、ロジック２４７２、２４７４と基板２４８０との間で電気信号をルーティングするように構成されてよく、限定されることはないが、バンプまたはピラーなどの相互接続を含み得る。いくつかの実施形態において、相互接続構造２４７３は、例えば、ロジック２４７２、２４７４の動作に関連付けられる入力／出力（Ｉ／Ｏ）信号、および／または、電源または接地信号などの電気信号をルーティングするように構成されてよい。いくつかの実施形態において、基板２４８０は、エポキシベースの積層基板である。他の実施形態において、パッケージ基板２４８０は他の適切なタイプの基板を含んでよい。パッケージアセンブリ２４７０は、パッケージインターコネクト２４８３を介して他の電気デバイスに接続され得る。パッケージインターコネクト２４８３は、マザーボード、他のチップセットまたはマルチチップモジュールなどの他の電気デバイスに電気信号をルーティングするために基板２４８０の表面に結合されてよい。

いくつかの実施形態において、ロジック２４７２、２４７４のユニットは、ロジック２４７２、２４７４間で電気信号をルーティングするように構成されるブリッジ２４８２と電気的に結合される。ブリッジ２４８２は、電気信号のルーティングを提供する高密度な相互接続構造であってよい。ブリッジ２４８２は、ガラスまたは適切な半導体材料から構成されるブリッジ基板を含んでよい。電気的なルーティング機構は、ロジック２４７２、２４７４間のチップ間接続を提供するブリッジ基板上に形成され得る。

ロジック２４７２、２４７４の２つのユニットおよびブリッジ２４８２が図示されているが、本明細書において説明される実施形態では、より多いまたはより少ない数のロジックユニットを１または複数のダイ上に含んでよい。単一のダイ上にロジックが含まれる場合にブリッジ２４８２が除外されてよいので、１または複数のダイは、ゼロまたはそれより多いブリッジにより接続されてよい。代替的に、ロジックの複数のダイまたはユニットは、１または複数のブリッジにより接続され得る。さらに、複数のロジックユニット、ダイおよびブリッジは、３次元構成を含む他の可能な構成と一緒に接続されることができる。

図２４Ｃは、基板２４８０（例えば、ベースダイ）に接続されるハードウェアロジックチップレットの複数のユニットを含むパッケージアセンブリ２４９０を示す。本明細書に説明されるグラフィックス処理ユニット、並列プロセッサ、および／または計算アクセラレータは、別個に製造される多様なシリコンチップレットから構成され得る。このコンテキストにおいて、チップレットは、他のチップレットとアセンブルされてより大きいパッケージとなり得るロジックの別個のユニットを含む、少なくとも部分的にパッケージされた集積回路である。異なるＩＰコアロジックを有するチップレットの多様なセットは、単一デバイスにアセンブルされ得る。さらに、チップレットは、アクティブインターポーザ技術を用いて、ベースダイまたはベースチップレットと統合され得る。本明細書で説明されるコンセプトは、ＧＰＵ内の異なる形のＩＰの間の相互接続および通信を可能にする。ＩＰコアは、異なるプロセス技術を用いて製造され、製造の最中に構成され得、それは、複数のＩＰを、特にいくつかのフレバーＩＰの大きなＳｏＣ上で、同一の製造処理へと収束させる複雑性を回避する。複数の処理技術の使用を可能にすることは、市場への時間を改善し、コスト効率の高いなやり方を提供し、複数の製品ＳＫＵを作成する。さらに、分割されたＩＰは、独立した電力ゲートを設けることにより適しており、所与のワークロードにおいて用いられないコンポーネントは、電源をオフにされることができ、全体の電力消費を減らし得る。

ハードウェアロジックチップレットは、専用ハードウェアロジックチップレット２４７２、ロジックまたはＩ／Ｏチップレット２４７４、および／またはメモリチップレット２４７５を含み得る。ハードウェアロジックチップレット２４７２およびロジックまたはＩ／Ｏチップレット２４７４は、構成可能なロジックまたは固定された機能のロジックハードウェアにおいて少なくとも部分的に実装されてよく、本明細書において説明されるプロセッサコア、グラフィックスプロセッサ、並列プロセッサ、または他のアクセラレータデバイスのいずれかの１または複数の部分を含み得る。メモリチップレット２４７５は、ＤＲＡＭ（例えば、ＧＤＤＲ、ＨＢＭ）メモリまたはキャッシュ（ＳＲＡＭ）メモリであり得る。

各チップレットは、別個の半導体ダイとして製造され、相互接続構造２４７３を介して基板２４８０と結合され得る。相互接続構造２４７３は、様々なチップレットと基板２４８０内のロジックとの間の電気信号をルーティングするように構成され得る。相互接続構造２４７３は、限定されることはないが凹凸または柱などの、相互接続を含み得る。いくつかの実施形態において、相互接続構造２４７３は、例えば、ロジック、Ｉ／Ｏおよびメモリチップレットの動作に関連付けられる入力／出力（Ｉ／Ｏ）信号、および／または、電源または接地信号などの電気信号をルーティングするように構成されてよい。

いくつかの実施形態において、基板２４８０は、エポキシベースの積層基板である。他の実施形態において、基板２４８０は他の適切なタイプの基板を含んでよい。パッケージアセンブリ２４９０は、パッケージインターコネクト２４８３を介して他の電気デバイスに接続され得る。パッケージインターコネクト２４８３は、マザーボード、他のチップセットまたはマルチチップモジュールなどの他の電気デバイスに電気信号をルーティングするために基板２４８０の表面に結合されてよい。

いくつかの実施形態において、ロジックまたはＩ／Ｏチップレット２４７４およびメモリチップレット２４７５は、ロジックまたはＩ／Ｏチップレット２４７４およびメモリチップレット２４７５の間の電気信号をルーティングするように構成されるブリッジ２４８７を介して電気的に結合され得る。ブリッジ２４８７は、電気信号のルーティングを提供する高密度な相互接続構造であってよい。ブリッジ２４８７は、ガラスまたは適切な半導体材料から構成されるブリッジ基板を含んでよい。電気的なルーティング機構は、ロジックまたはＩ／Ｏチップレット２４７４およびメモリチップレット２４７５間のチップ間接続を提供するブリッジ基板上に形成され得る。ブリッジ２４８７は、シリコンブリッジまたはインターコネクトブリッジとも称され得る。例えば、ブリッジ２４８７は、いくつかの実施形態において、埋め込みマルチダイインターコネクトブリッジ（ＥＭＩＢ）である。いくつかの実施形態において、ブリッジ２４８７は、単に１つのチップレットから別のチップレットへの直接接続であってもよい。

基板２４８０は、Ｉ／Ｏ２４９１、キャッシュメモリ２４９２、および他のハードウェアロジック２４９３に関するハードウェアコンポーネントを含み得る。ファブリック２４８５は、基板２４８０内の様々なロジックチップレットおよびロジック２４９１、２４９３の間の通信を可能するように、基板２４８０に埋め込まれ得る。一実施形態において、Ｉ／Ｏ２４９１、ファブリック２４８５、キャッシュ、ブリッジ、および他のハードウェアロジック２４９３は、基板２４８０の頂部に層状となるベースダイに統合され得る。

様々な実施形態において、パッケージアセンブリ２４９０は、ファブリック２４８５または１または複数のブリッジ２４８７によって相互接続されるコンポーネントおよびチップレットの数より少ないまたはより大きい数を含み得る。パッケージアセンブリ２４９０内のチップレットは、３Ｄまたは２．５Ｄ配置で配置され得る。一般的には、ブリッジ構造２４８７は、例えば、ロジックまたはＩ／Ｏチップレットとメモリチップレットとの間でポイントツーポイントインターコネクトを促すように用いられ得る。ファブリック２４８５は、様々なロジックおよび／またはＩ／Ｏチップレット（例えば、チップレット２４７２、２４７４、２４９１、２４９３）を他のロジックおよび／またはＩ／Ｏチップレットと相互接続するように用いられ得る。一実施形態において、基板内のキャッシュメモリ２４９２は、パッケージアセンブリ２４９０のためのグローバルキャッシュ、分配されたグローバルキャッシュの一部、またはファブリック２４８５のための専用のキャッシュとして作用し得る。

図２４Ｄは、実施形態による、交換可能なチップレット２４９５を含むパッケージアセンブリ２４９４を示す。交換可能なチップレット２４９５は、１または複数のベースチップレット２４９６、２４９８上の標準スロットとアセンブルされ得る。ベースチップレット２４９６、２４９８は、ブリッジインターコネクト２４９７を介して結合され得、それは本明細書に説明された他のブリッジインターコネクトと同様であり得、例えば、ＥＭＩＢであり得る。メモリチップレットは、ブリッジインターコネクトを介ししたロジックまたはＩ／Ｏチップレットにもまた接続され得る。Ｉ／Ｏおよびロジックチップレットは、相互接続ファブリックを介して通信し得る。ベースチップレットは、ロジックまたはＩ／Ｏまたはメモリ／キャッシュのうちの１つの標準フォーマットにおいて、１または複数のスロットを各々サポートし得る。

一実施形態において、ＳＲＡＭおよび電源供給回路は、１または複数のベースチップレット２４９６、２４９８へと製造され得、それはベースチップレットの頂部にスタックされた交換可能なチップレット２４９５と比較して異なるプロセス技術を用いて製造され得る。例えば、ベースチップレット２４９６、２４９８は、より大きな処理技術を用いて製造され得る一方、交換可能なチップレットは、より小さい処理技術を用いて製造され得る。１または複数の交換可能なチップレット２４９５はメモリ（例えば、ＤＲＡＭ）チップレットであり得る。異なるメモリ密度が、パッケージアセンブリ２４９４を用いる製品の目標とする電力および／または性能に基づいてパッケージアセンブリ２４９４に関して選択されてよい。さらに、異なる数のタイプの機能ユニットを有するロジックチップレットが、製品の目標とする電力、および／または性能に基づいてアセンブリの時点に選択され得る。さらに、異なるタイプのＩＰロジックコアを含むチップレットは、交換可能なチップレットスロットに挿入され得、異なる技術ＩＰブロックを混合および合致し得るハイブリッドプロセッサ設計を可能にする。チップ集積回路上の例示的なシステム

図２５から図２６Ｂは、本明細書において説明される様々な実施形態による、１または複数のＩＰコアを用いて製造され得る例示的な集積回路および関連付けられたグラフィックスプロセッサを図示する。図示されるものに加えて、他のロジックおよび回路が含まれてよく、これらは、追加のグラフィックスプロセッサ／コア、周辺機器インタフェースコントローラまたは汎用プロセッサコアを含む。

図２５は、実施形態による、１または複数のＩＰコアを用いて製造され得るチップ集積回路２５００上の例示的なシステムを示すブロック図である。例示的な集積回路２５００は、１または複数のアプリケーションプロセッサ２５０５（例えば、ＣＰＵ）、少なくとも１つのグラフィックスプロセッサ２５１０を含み、イメージプロセッサ２５１５および／またはビデオプロセッサ２５２０をさらに含んでよく、これらのいずれかは、同一または複数の異なる設計施設からのモジュール式のＩＰコアであってよい。集積回路２５００は、ＵＳＢコントローラ２５２５、ＵＡＲＴコントローラ２５３０、ＳＰＩ／ＳＤＩＯコントローラ２５３５、およびＩ^２Ｓ／Ｉ^２Ｃコントローラ２５４０を含む周辺機器またはバスロジックを含む。さらに、集積回路は、１または複数の高精細度マルチメディアインタフェース（ＨＤＭＩ（登録商標））コントローラ２５５０およびモバイル業界プロセッサインタフェース（ＭＩＰＩ）ディスプレイインタフェース２５５５に結合されたディスプレイデバイス２５４５を含み得る。ストレージは、フラッシュメモリおよびフラッシュメモリコントローラを含むフラッシュメモリサブシステム２５６０によって提供され得る。メモリインタフェースは、ＳＤＲＡＭまたはＳＲＡＭメモリデバイスへのアクセスために、メモリコントローラ２５６５を介して提供されてよい。いくつかの集積回路は、埋め込み型のセキュリティエンジン２５７０をさらに含む。

図２６Ａから図２６Ｂは、本明細書において説明される実施形態による、ＳｏＣ内での使用のための例示的なグラフィックスプロセッサを示すブロック図である。図２６Ａは、実施形態による、１または複数のＩＰコアを用いて製造され得るチップ集積回路上のシステムの例示的なグラフィックスプロセッサ２６１０を示す。図２６Ｂは、実施形態による、１または複数のＩＰコアを用いて製造され得るチップ集積回路上のシステムのさらなる例示的なグラフィックスプロセッサ２６４０を示す。図２６Ａのグラフィックスプロセッサ２６１０は、低電力のグラフィックスプロセッサコアの例である。図２６Ｂのグラフィックスプロセッサ２６４０は、より高性能なグラフィックスプロセッサコアの例である。グラフィックスプロセッサ２６１０、２６４０のそれぞれは、図２５のグラフィックスプロセッサ２５１０の変形例であり得る。

図２６Ａに示されるように、グラフィックスプロセッサ２６１０は、頂点プロセッサ２６０５および１または複数の断片プロセッサ２６１５Ａ−２６１５Ｎ（例えば、２６１５Ａ、２６１５Ｂ、２６１５Ｃ、２６１５Ｄから２６１５Ｎ−１および２６１５Ｎ）を含む。グラフィックスプロセッサ２６１０は、別個のロジックを介して異なるシェーダプログラムを実行でき、したがって、頂点プロセッサ２６０５は、頂点シェーダプログラムに対する動作を実行するために最適化され、一方、１または複数の断片プロセッサ２６１５Ａ−２６１５Ｎは、断片または画素シェーダプログラムに対する断片（例えば、画素）シェーディング動作を実行する。頂点プロセッサ２６０５は、３Ｄグラフィックスパイプラインの頂点処理ステージを実行し、プリミティブおよび頂点データを生成する。断片プロセッサ２６１５Ａ−２６１５Ｎは、頂点プロセッサ２６０５により生成されたプリミティブおよび頂点データを用いて、ディスプレイデバイス上に表示されるフレームバッファを生成する。一実施形態において、断片プロセッサ２６１５Ａ−２６１５Ｎは、ＯｐｅｎＧＬＡＰＩに提供されるような断片シェーダプログラムを実行するために最適化され、直接３ＤＡＰＩにおいて提供されるような画素シェーダプログラムと同様の動作を実行するために用いられてよい。

グラフィックスプロセッサ２６１０は、１または複数のメモリ管理ユニット（ＭＭＵ）２６２０Ａ−２６２０Ｂ、キャッシュ２６２５Ａ−２６２５Ｂおよび回路インターコネクト２６３０Ａ−２６３０Ｂをさらに含む。１または複数のＭＭＵ２６２０Ａ−２６２０Ｂは、頂点プロセッサ２６０５および／または断片プロセッサ２６１５Ａ−２６１５Ｎを含むグラフィックスプロセッサ２６１０に対する仮想−物理アドレスマッピングを提供し、１または複数のキャシュ２６２５Ａ−２６２５Ｂに格納される頂点または画像／テクスチャデータに加えて、メモリに格納される参照頂点または画像／テクスチャデータであってよい。一実施形態において、１または複数のＭＭＵ２６２０Ａ−２６２０Ｂは、システム内の他のＭＭＵと同期されてよく、図２５の１または複数のアプリケーションプロセッサ２５０５、イメージプロセッサ２５１５および／またはビデオプロセッサ２５２０に関連付けられる１または複数のＭＭＵを含み、したがって、各プロセッサ２５０５−２５２０は、共有または統合された仮想メモリシステムに加わることができる。１または複数の回路インターコネクト２６３０Ａ−２６３０Ｂは、実施形態によれば、ＳｏＣの内部バスを介してまたは直接接続を介してのいずれかで、グラフィックスプロセッサ２６１０がＳｏＣ内の他のＩＰコアとインタフェース接続することを可能にする。

図２６Ｂに示されるように、グラフィックスプロセッサ２６４０は、図２６Ａのグラフィックスプロセッサ２６１０の１または複数のＭＭＵ２６２０Ａ−２６２０Ｂ、キャッシュ２６２５Ａ−２６２５Ｂおよび回路インターコネクト２６３０Ａ−２６３０Ｂを含む。グラフィックスプロセッサ２６４０は、１または複数のシェーダコア２６５５Ａ−２６５５Ｎ（例えば、２６５５Ａ、２６５５Ｂ、２６５５Ｃ、２６５５Ｄ、２６５５Ｅ、２６５５Ｆから２６５５Ｎ−１および２６５５Ｎ）を含み、グラフィックスプロセッサ２６４０は、シングルコアまたはタイプまたはコアがすべてのタイプのプログラマブルシェーダコードを実行できる統合されたシェーダコアアーキテクチャを提供し、統合されたシェーダコアアーキテクチャは、頂点シェーダ、断片シェーダおよび／またはコンピュートシェーダを実装するシェーダプログラムコードを含む。提示する正確な数のシェーダコアは、実施形態および実装間で変化し得る。さらに、グラフィックスプロセッサ２６４０は、コア間タスクマネージャ２６４５を含み、コア間タスクマネージャ２６４５は、１または複数のシェーダコア２６５５Ａ−２６５５Ｎに実行スレッドをディスパッチするスレッドディスパッチャ、および、タイルベースのレンダリングに対するタイル化操作をアクセラレートするタイル化ユニット２６５８としての機能を果たし、タイル化ユニット２６５８では、例えば、シーン内の局所空間のコヒーレンスを活用するために、または、内部キャッシュの利用を最適化するために、シーンに対するレンダリング操作が画像空間において細分化される。

畳み込みニューラルネットワーク（ＣＮＮ）は、機械レンダリングされた画像のノイズ除去などの、多様な範囲の画像処理タスクにおいて活用されている。カーネル予測ネットワーク（ＫＰＮ）は、レイトレーシングノイズ除去に専用のの深層学習解決方法であるが、ＣＮＮを用いて、近隣画素からノイズ除去された画素を算出するように用いられるローカル重み付けカーネルを推定する。

図２７Ａは、従来のカーネル予測ネットワーク（ＫＰＮ）を示す概略図である。カーネル予測ネットワークは、以下に「ＫＰＮ」と称される。示されるようなＫＰＮ２７００は、畳み込みニューラルネットワークまたは同様のディープラーニングニューラルネットワークに関する好適なコンピューティングエンジンまたは任意のコンピューティングハードウェア上で実装または展開される深く完全な畳み込みニューラルネットワークであり得る。

訓練の最中、ＫＰＮ２７００は前もって収集された、ノイズの多い画像およびそれぞれのノイズの多い画像の地上検証画像とのデータセットによって訓練される。ＫＰＮは、多数の反復に関するデータセットによって訓練およびチューニングされ得、バッチサイズ、ノード情報、バイアスなどの、ＫＰＮのネットワークパラメータを学習する。ＫＰＮの畳み込みカーネルのカーネルサイズは、ＫＰＮの訓練の前に割り当てられている。例えば、ＫＰＮの畳み込みカーネルのカーネルサイズは、ｋ×ｋとして割り当てられてよく、ｋの値は、３、５、７、９、１１、１３、１５、１７、１９、２１、または同様のものなどのうちの１つから選択される。

画像のノイズ除去のランタイム推定の最中、ＫＰＮ２７００は、画像を受信し得、それを入力してノイズ除去し、出力としてノイズ除去された画像を生成する。画像は複数の画素を有してよい。ＫＰＮ２７００は、カーネル生成ロジック２７１０およびフィルタリングロジック２７３０を含み得る。画像が受信された後、ＫＰＮ２７００のカーネル生成ロジック２７１０は、画像の複数の画素のそれぞれに関する畳み込みカーネルを生成し得る。畳み込みカーネルは、複数のカーネル値を有してよい。画像の各画素に関して、ＫＰＮ２７００のフィルタリングロジック２７３０は、カーネル生成ロジック２７１０によって生成された対応する畳み込みカーネルの複数のカーネル値を用い得て、画素をフィルタリングしてノイズ除去された画素を取得する。画像の複数の画素のそれぞれがフィルタリングされた後、ＫＰＮ２７００は、出力としてノイズ除去された画像を生成し得る。前述されたフィルタリングの詳細は、図２７Ｂに関して以下に説明される。

図２７Ｂは、従来のＫＰＮによる画素のフィルタリングの例を示す概略図である。図２７Ａに関して前に検討されたように、画像の各画素に関して、ＫＰＮ２７００のフィルタリングロジック２７３０は、カーネル生成ロジック２７１０によって生成される対応する畳み込みカーネルの複数のカーネル値を用いて、画素をフィルタしてノイズ除去された画素を生成し得る。

より詳細には、図２７Ｂの例において、３×３のカーネルサイズを有する畳み込みカーネル２７７０は、画像の画素位置２７６０−０において画素Ｐ０に関して生成され、畳み込みカーネル２７７０はＷ０からＷ８まで９のカーネル値を有する。図２７Ｂに示されるように、画素Ｐ０に関して、ＫＰＮ２７００は、画像の画素Ｐ０の画素位置２７６０−０を中央とする四角３×３のウィンドウにおける９のカーネル値Ｗ０からＷ８を有する畳み込みカーネル２７７０と、９の画素位置２７６０−０、２７６０−１、２７６０−２、２７６０−３、２７６０−４、２７６０−５、２７６０−６、２７６０−７、２７６０−８の画素値とによって画素Ｐ０をフィルタリングし得、ノイズ除去された画素の画素値を取得する。より具体的には、画素Ｐ０のフィルタリングは、ノイズ除去された画素の画素値

として９の画素位置２７６０−０、２７６０−１、２７６０−２、２７６０−３、２７６０−４、２７６０−５、２７６０−６、２７６０−７、２７６０−８の画素値の加重平均を算出することによって成され得る。
すなわち、ノイズ除去された画素の画素値

が、次式によって計算され得る。

通常、９のカーネル値Ｗ０からＷ８の和は、画像のノイズ除去などの画像処理タスクにおけるものと等しくなり得る。

従来のＫＰＮは、レイトレーシングノイズ除去などの画像処理タスクにおいてそのポテンシャルを示したが、それは、大きなサイズの畳み込みカーネル、例えば、通常用いられるカーネルサイズを２１×２１とした畳み込みカーネルを採用したことに起因して、画質と電算処理コストの間で良好なバランスを提供しないことがある。はるかに低い電算処理コストで、より良好な、または同様の画質を実現するように、オフセットが、ＫＰＮの画像のノイズ除去において用いられる画素位置を適応的に決定するように、導入され得る。詳細は以下に検討されるであろう。

いくつかの実施形態において、適応型変形カーネル予測ネットワーク（ＡＤＫＰＮ）が、画像のノイズ除去などの画像処理タスクにおいて、ＫＰＮの代わりに用いられる。一般的に、ＡＤＫＰＮは、画像の各画素に関して畳み込みカーネルを生成し得るのみではなく、画像のノイズ除去に用いられる画素位置を決定するオフセットもまた生成し得る。ＡＤＫＰＮは、図２７Ｂに示されるような画素Ｐ０の画素位置を中央とする四角いウィンドウにおける、固定された画素位置の画素値を用いるのではなくむしろ、画像の画素のノイズ除去におけるオフセットによって画素位置の画素値を用い得る。そのような、よりスマートな畳み込みカーネルの一般化およびフィルタリングの枠組みは、畳み込みＫＰＮと比較したノイズ除去性能よりはるかに良好であり得る。

図２８Ａは、実施形態による、適応型変形可能カーネル予測ネットワーク（ＡＤＫＰＮ）を示す概略図である。適応型変形可能カーネル予測ネットワークは、以下で「ＡＤＫＰＮ」と称される。示されるＡＤＫＰＮ２８００は、限定されることはないが、グラフィックス処理ユニット（ＧＰＵ）、中央処理装置（ＣＰＵ）、特定用途向け集積回路（ＡＳＩＣ）などを含む、畳み込みニューラルネットワークまたは同様のディープラーニングニューラルネットワークに関して好適なコンピューティングエンジンまたは任意のコンピューティングハードウェア上で、実装されるか展開される畳み込みニューラルネットワークであり得る。

訓練の最中に、ＡＤＫＰＮ２８００は、前もって収集された、ノイズの多い画像および、当該ノイズの多い画像のそれぞれの地上検証画像などの、代表的な画像の訓練データセットによって訓練される。例えば、訓練データセットは、モンテカルロレンダリングまたは任意の他の画像レンダリング解決法によって生成された、機械合成されたノイズの多い画像などの、多数の代表的な画像を含み得る。さらなる例に関して、訓練データセットは、画素ごとに１２８のサンプル（ｓｐｐ）でレンダリングされるテスト画像、ならびに、８１９２ｓｐｐまたはより高いｓｐｐでレンダリングされる参照画像を含み得る。画素ごとのサンプル数（ｓｐｐ）は、モンテカルロレンダリングなどのランダムサンプリングレンダリングアルゴリズムによる画素のレンダリングのために用いられる標本数として、当技術分野で知られる。ｓｐｐがより大きくなると、画像品質がより良好になる。

ＡＤＫＰＮ２８００に関する訓練プロシージャは、確率的勾配降下法（ＳＧＤ）、Ｍｏｍｅｎｔｕｍ、ＡｄａＧｒａｄ、Ａｄａｍなどの、ディープニューラルネットワークに関する典型的な訓練アプローチによって成され得る。ＡＤＫＰＮ２８００は、多数の反復に関する訓練データセットによって、訓練およびチューニングされ得、バッチサイズ、ノード情報、バイアスなどの、ＡＤＫＰＮ２８００のネットワークパラメータを学習する。

画像のノイズ除去のランタイム推定の最中、ＡＤＫＰＮ２８００は、画像を受信し得、それを入力してノイズ除去し、出力としてノイズ除去された画像を生成する。画像は、モンテカルロレンダリングまたは任意の他の画像レンダリング解決法によって生成された、機械合成された画像などの、任意の画像であり得る。画像は複数の画素を含んでよい。

ＡＤＫＰＮ２８００は、カーネル生成ロジック２８１０、オフセット生成ロジック２８２０、およびフィルタリングロジック２８３０を含み得る。画像が受信された後、画像の複数の画素のそれぞれに関して、ＡＤＫＰＮ２８００のカーネル生成ロジック２８１０は、画素に関する複数のカーネル値を有する畳み込みカーネルを生成し得、ＡＤＫＰＮ２８００のオフセット生成ロジック２８２０は、畳み込みカーネルの複数のカーネル値にそれぞれ対応する、画素に関する複数のオフセットを生成し得、複数のオフセットのそれぞれは、画素の画素位置からの逸脱を示す。次に、画像の複数の画素のそれぞれに関して、ＡＤＫＰＮ２８００のフィルタリングロジック２８３０は、画素の画素位置に基づいて、複数の逸脱した画素位置と、オフセット生成ロジック２８２０によって画素に関して生成された複数のオフセットとを決定し得、カーネル生成ロジック２８１０によって画素に関して生成された畳み込みカーネル、ならびに、複数の逸脱した画素位置の画素値を用いて、画素をフィルタリングして、ノイズ除去された画素を取得する。画像の複数の画素のそれぞれがフィルタリングされた後、ＡＤＫＰＮ２８００は、出力としてノイズ除去された画像を生成し得る。前述されたフィルタリングの詳細は、図２８Ｂに関して以下に説明される。

図２８Ｂは、実施形態による、ＡＤＫＰＮによる画素のフィルタリングの例を示す概略図である。図２８Ａに関して前に検討したように、ＡＤＫＰＮ２８００のフィルタリングロジック２８３０は、画素の画素位置に基づいて、複数の逸脱した画素位置と、画素に関して生成された複数のオフセットとを決定し得、画素に関して生成された畳み込みカーネル、ならびに、複数の逸脱した画素位置の画素値を用いて、画素をフィルタリングして、ノイズ除去された画素を取得する。

より詳細には、図２８Ｂの例において、３×３のカーネルサイズを有する畳み込みカーネル２８７０は、画像の画素位置２８４０において画素Ｐ０に関して生成され、畳み込みカーネル２８７０はＷ０からＷ８まで９のカーネル値を有する。９のオフセット２８５０−０、２８５０−１、２８５０−２、２８５０−３、２８５０−４、２８５０−５、２８５０−６、２８５０−７および２８５０−８もまた、画素Ｐ０に関して生成され、９のカーネル値Ｗ０からＷ８にそれぞれ対応する。図２８Ｂに示されるように、画素Ｐ０に関して、ＡＤＫＰＮ２８００のフィルタリングロジック２８３０は、画素Ｐ０の画素位置２８４０、および９のオフセット２８５０−０、２８５０−１、２８５０−２、２８５０−３、２８５０−４、２８５０−５、２８５０−６、２８５０−７および２８５０−８に基づいて、図２８ＢにおいてＰ０'−Ｐ８'としてマーキングされた画像の９の逸脱した画素位置２８６０−０、２８６０−１、２８６０−２、２８６０−３、２８６０−４、２８６０−５、２８６０−６、２８６０−７および２８６０−８を決定し得る。ＡＤＫＰＮ２８００のフィルタリングロジック２８３０は、次に、９のカーネル値Ｗ０からＷ８を有する畳み込みカーネル２８７０と、９の逸脱した画素位置２８６０−０、２８６０−１、２８６０−２、２８６０−３、２８６０−４、２８６０−５、２８６０−６、２８６０−７および２８６０−８の画素値とによって画素Ｐ０をフィルタリングし得、ノイズ除去された画素の画素値

を取得する。より具体的には、画素Ｐ０のフィルタリングは、ノイズ除去された画素の画素値

として画像の９の逸脱した画素位置２８６０−０、２８６０−１、２８６０−２、２８６０−３、２８６０−４、２８６０−５、２８６０−６、２８６０−７および２８６０−８の画素値の加重平均を算出することによって成され得る。
すなわち、ノイズ除去された画素の画素値

が、次式によって計算され得る。

いくつかの実施形態において、画像の画素に関して生成される畳み込みカーネルの複数のカーネル値の和は１であり得る。図２８Ｂの例に関して、畳み込みカーネル２８７０の９のカーネル値Ｗ０からＷ８の和は１であり得る。

いくつかの実施形態において、画像の画素に関して生成される複数のオフセットのそれぞれは、画素の画素位置からの逸脱を示す位置値を含み得る。例えば、９のオフセット２８５０−０、２８５０−１、２８５０−２、２８５０−３、２８５０−４、２８５０−５、２８５０−６、２８５０−７および２８５０−８のそれぞれは、図２８Ｂに示されたように、画素位置２８４０からの逸脱を示す位置値を含み得る。例えば、オフセット２８５０−０は、画素位置２８４０からの逸脱を示す位置値（ｕ０、ｖ０）を含み得る。画素位置２８４０が位置値（ｘ，ｙ）によって表わされるとすれば、画素位置２８６０−０は、画素位置２８４０およびオフセット２８５０−０に基づいて、位置値（ｘ＋ｕ０，ｙ＋ｖ０）によって決定され得る。

いくつかの実施形態において、位置値は浮動小数点値を含み得る。例えば、前述のオフセット２８５０−０は、浮動小数点値（ｕ０，ｖ０）を含み得る。したがって、限定されない例として、位置値が（ｘ＋ｕ０，ｙ＋ｖ０）の画素位置２８６０−０の画素値が、最近傍補間、双一次補間などの当技術分野で既知の画素補間によって決定され得る。

いくつかの実施形態において、畳み込みカーネルの複数のカーネル値は、画像の少なくとも２つの画素に関して異なり得る。

いくつかの実施形態において、複数のオフセットは、画像の少なくとも２つの画素に関して異なり得る。

いくつかの実施形態において、複数のオフセットは、畳み込みカーネルの生成の前に、またはそれと同時に生成され得る。例えば、画像が受信された後、最初に複数のオフセットが画像の複数の画素のそれぞれに関して生成され得、次に、畳み込みカーネルが画像の複数の画素のそれぞれに関して生成され得る。代替的に、複数のオフセットは、画像の複数の画素のそれぞれに関して畳み込みカーネルと同時に生成され得る。

いくつかの実施形態において、前述の逸脱の上限は、例えば畳み込みニューラルネットワークの訓練の前に、予め定められてよい。逸脱の上限は、ＡＤＫＰＮ２８００の訓練／学習プロシージャの電算処理コストを制御するように、予め定められてよい。例えば、ＡＤＫＰＮ２８００の３×３カーネルサイズの畳み込みカーネルに関して、逸脱の上限は、１１画素より大きくならないように、予め定められてよい。

いくつかの実施形態において、畳み込みカーネルのカーネルサイズは、例えば畳み込みニューラルネットワークの訓練の前に、予め割り当てられてよい。いくつかの実施形態において、カーネルサイズは、３×３、５×５、７×７、…、２ｎ−１）×（２ｎ−１）のうちの１つとして予め割り当てられてよく、ここでｎは正の整数、ｎ＞＝２かつｎ＜ｍｉｎ（ｆｌｏｏｒ（Ｗ／２），ｆｌｏｏｒ（Ｈ／２））、およびＷおよびＨは、訓練に用いられる正規化された画像の幅および高さ、または、ランタイム推定においてノイズ除去されるべき画像の幅および高さである。上記数学的関数「ｆｌｏｏｒ（）」は、当技術分野で知られる、切り捨て演算を指す。

図２８Ｃは、従来のＫＰＮおよびＡＤＫＰＮの間の訓練および／または試験動作測定の比較を示すグラフである。特に、図２８Ｃに示されるようなグラフは、従来のＫＰＮおよびＡＤＫＰＮに関する計算的反復（水平軸）に対する損失（垂直軸）を示す。ＡＤＫＰＮが、従来のＫＰＮに対してより良い結果を生成する、つまり、同様の計算的反復に対して、損失が低いことが、明らかに見られ得る。別のやり方が述べられるが、ＡＤＫＰＮは、従来のＫＰＮに対して低い計算コストで同様の結果を実現し得る。

図２９は、実施形態による、ＡＤＫＰＮによる画像のノイズ除去の方法を示すフローチャートである。

ＡＤＫＰＮによる画像のノイズ除去の方法２９００は、畳み込みニューラルネットワークまたは同様のディープラーニングニューラルネットワークのために好適なコンピューティングエンジンまたは任意のコンピューティングハードウェア上で実装され得、限定されることはないが、グラフィックス処理ユニット（ＧＰＵ）、中央処理装置（ＣＰＵ）、特定用途向け集積回路（ＡＳＩＣ）などを含む。画像は、複数の画素を含み得る。いくつかの実施形態において、画像は、モンテカルロレンダリングまたは任意の他の画像レンダリング解決法によって生成される機械合成された画像など、任意の画像であってよい。

方法２９００は、画像の複数の画素のそれぞれの演算２９１０−２９４０を含み得る。

ブロック２９１０において、複数のカーネル値を有する畳み込みカーネルが画素に関して生成され得る。

ブロック２９２０において、それぞれ複数のカーネル値に対応する複数のオフセットは、画素に関して生成され得、複数のオフセットのそれぞれは、画素の画素位置からの逸脱を示す。

ブロック２９３０において、複数の逸脱した画素位置が、画素の画素位置および複数のオフセットに基づいて決定され得る。

ブロック２９４０において、画素は、複数の逸脱した画素位置の畳み込みカーネルおよび画素値によってフィルタリングされ得、ノイズ除去された画素を取得する。

いくつかの実施形態において、複数のオフセットのそれぞれは、画素の画素位置からの逸脱を示す位置値を含み得る。

いくつかの実施形態において、位置値は浮動小数点値を含み得る。

いくつかの実施形態において、複数のカーネル値は、画像の少なくとも２つの画素に関して異なり得る。

いくつかの実施形態において、複数のオフセットは、畳み込みカーネルの生成の前に、またはそれと同時に生成され得る。

いくつかの実施形態において、複数の逸脱した画素位置の畳み込みカーネルおよび画素値を有する画素のフィルタリングは、畳み込みカーネルの複数のカーネル値を複数の逸脱した画素位置の画素値に適用して、複数の画素位置の画素値の加重平均を取得することを含み得る。

いくつかの実施形態において、逸脱の上限は、例えば畳み込みニューラルネットワークの訓練の前に、予め定められてよい。

いくつかの実施形態において、畳み込みカーネルのカーネルサイズは、例えば畳み込みニューラルネットワークの訓練の前に、３×３、５×５、７×７、…（２ｎ−１）×（２ｎ−１）のうちの１つとして予め割り当てられてよく、ここでｎは正の整数、ｎ＞＝２かつｎ＜ｍｉｎ（ｆｌｏｏｒ（Ｗ／２），ｆｌｏｏｒ（Ｈ／２））、およびＷおよびＨは画像の幅および高さである。上記数学的関数「ｆｌｏｏｒ（）」は、当技術分野で知られる、切り捨て演算を指す。

図３０Ａから図３０Ｄは、入力画像、参照画像、従来のＫＰＮによって生成された出力画像、および実施形態によるＡＤＫＰＮによって生成された出力画像を、それぞれ示す。

図３０Ａは、画素ごとに１２８のサンプル（ｓｐｐ）で機械合成された入力画像を示す。図３０Ｂは、８１９２ｓｐｐで機械合成された参照画像を示す。画素ごとのサンプル数（ｓｐｐ）は、モンテカルロレンダリングなどのランダムサンプリングレンダリングアルゴリズムによる画素のレンダリングのために用いられる標本数として、当技術分野で知られる。ｓｐｐがより大きくなると、画像品質がより良好になる。図３０Ａの入力画像はノイズがある一方、図３０Ｂの参照画像は高品質であることが見られ得る。

図３０Ｃは、図３０Ａの入力画像のノイズ除去によって、９×９のカーネルサイズで従来のＫＰＮによって生成された出力画像を示す。楕円３００２内の領域に明らかなアーチファクトがあることが見られ得る。図３０Ｄは、実施形態に係る、図３０Ａの入力画像のノイズ除去によって、５×５のカーネルサイズでＡＤＫＰＮによって生成された出力画像を示す。図３０Ｃの出力画像と対照的に、図３０Ｄの画像は、アーチファクトのない図３０Ｂの参照画像と同様の質を表すことが見られ得る。

同様に、図３１Ａは、画素ごとに１２８のサンプル（ｓｐｐ）で機械合成された、ノイズのある入力画像を示す。図３１Ｂは、８１９２ｓｐｐで機械合成された、品質の高い参照画像を示す。図３１Ｃは、図３１Ａの入力画像のノイズ除去によって、９×９のカーネルサイズで従来のＫＰＮによって生成された出力画像を示す。楕円３１０２、３１０４および３１０６内の領域に明らかなアーチファクトがあることが見られ得る。図３１Ｄは、実施形態に係る、図３１Ａの入力画像のノイズ除去によって、５×５のカーネルサイズでＡＤＫＰＮによって生成された出力画像を示す。図３１Ｃの出力画像と対照的に、図３１Ｄの画像は、アーチファクトのない図３１Ｂの参照画像と同様の質を表すことが見られ得る。

同様に、図３２Ａは、画素ごとに１２８のサンプル（ｓｐｐ）で機械合成された、ノイズのある入力画像を示す。図３２Ｂは、８１９２ｓｐｐで機械合成された、品質の高い参照画像を示す。図３２Ｃは、図３２Ａの入力画像のノイズ除去によって、９×９のカーネルサイズで従来のＫＰＮによって生成された出力画像を示す。楕円３２０２および３２０４内の領域に明らかなアーチファクトがあることが見られ得る。図３２Ｄは、実施形態に係る、図３２Ａの入力画像のノイズ除去によって、５×５のカーネルサイズでＡＤＫＰＮによって生成された出力画像を示す。図３２Ｃの出力画像と対照的に、図３２Ｄの画像は、アーチファクトのない図３２Ｂの参照画像と同様の質を表すことが見られ得る。

同様に、図３３Ａは、画素ごとに１２８のサンプル（ｓｐｐ）で機械合成された、ノイズのある入力画像を示す。図３３Ｂは、８１９２ｓｐｐで機械合成された、品質の高い参照画像を示す。図３３Ｃは、図３３Ａの入力画像のノイズ除去によって、９×９のカーネルサイズで従来のＫＰＮによって生成された出力画像を示す。楕円３３０２内の領域に明らかなアーチファクトがあることが見られ得る。図３３Ｄは、実施形態に係る、図３３Ａの入力画像のノイズ除去によって、５×５のカーネルサイズでＡＤＫＰＮによって生成された出力画像を示す。図３３Ｃの出力画像と対照的に、図３３Ｄの画像は、アーチファクトのない図３３Ｂの参照画像と同様の質を表すことが見られ得る。

さらに、図３０Ｃから図３０Ｄ、図３１Ｃから図３１Ｄ、図３２Ｃから図３２Ｄおよび図３３Ｃから図３３Ｄもまた、それぞれ、出力画像の構造的な相違点（ＤＳＳＩＭ）インデックスを示す。ＤＳＳＩＭは、当技術分野では知られているが、構造的な相違点を指し、構造的な同一点（ＳＳＩＭ）の変形例であり、画像の相違点の指標となる。ＤＳＳＩＭ指標は、出力画像と、地上検証画像との間の構造差を比較するように用いられる。ＤＳＳＩＭ指標がより小さくなると、出力画像がより高品質になる。例えば、図３０ＣのＫＰＮによる出力画像のＤＳＳＩＭ指標が０．０６７２であり得る一方で、図３０ＤのＡＤＫＰＮによる出力画像のＤＳＳＩＭ指標は０．０６１０であり得る。ＡＤＫＰＮによって生成される出力画像はすべて、従来のＫＰＮによって生成されるものより小さいＤＳＳＩＭ指標を有することが、図３０Ｃから図３０Ｄ、図３１Ｃから図３１Ｄ、図３２Ｃから図３２Ｄおよび図３３Ｃから図３３Ｄから見られ得る。言い換えれば、ＡＤＫＰＮによって生成された出力画像はすべて、従来のＫＰＮによって生成されたものより高品質を有する。

したがって、より小さいカーネルサイズのＡＤＫＰＮが、より大きいカーネルサイズのＫＰＮより著しく良好に実行されることが、明らかに見られ得る。

様々な実施形態の一部は、コンピュータプログラム製品として提供されてよく、当該コンピュータプログラム製品は、そこに格納されたコンピュータプログラム命令を有するコンピュータ可読媒体を含んでよく、当該命令を用いて、コンピュータ（または他の電子デバイス）を１または複数のプロセッサによる実行のためにプログラムして、特定の実施形態による処理を実行させてよい。コンピュータ可読媒体は、限定されることはないが、磁気ディスク、光ディスク、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、電気的消去可能プログラマブルリードオンリメモリ（ＥＥＰＲＯＭ）、磁気または光カード、フラッシュメモリ、または電子命令の格納に適した他のタイプのコンピュータ可読媒体を含み得る。さらに、実施形態はまた、コンピュータプログラム製品としてダウンロードしてもよく、プログラムは、離れた場所にあるコンピュータから要求側コンピュータへ転送されてもよい。いくつかの実施形態において、非一時的コンピュータ読み取り可能ストレージ媒体は、命令のシーケンスを表すそこに格納されたデータを有し、それはプロセッサによって実行された場合、プロセッサに特定の動作を実行させる。

当該方法の多くは、これらの最も基本的な形態で説明されているが、本実施形態の基本範囲から逸脱することなく、当該方法のうちの任意のものに処理を追加してよく、またはそこから処理を削除してよく、且つ、当該説明されたメッセージのうちの任意のものに情報を追加してよく、またはそこから情報を減らしてよい。多くのさらなる修正および適応が行われることが可能であることは、当業者に明らかであろう。上記の特定の実施形態は、概念を限定するためにではなく、説明するために提供されている。実施形態の範囲は、上述に提供された特定の例により決定されるものではなく、以下の特許請求の範囲によってのみ決定される。

要素「Ａ」が要素「Ｂ」と結合されるかまたは一緒に結合されると記載された場合、要素Ａは要素Ｂに直接結合されてもよく、または、例えば要素Ｃを通じて間接的に結合されてもよい。明細書または請求項が、コンポーネント、特徴、構造、処理、または特性Ａが、コンポーネント、特徴、構造、処理、または特性Ｂを「引き起こす（ｃａｕｓｅ）」と述べる場合、それは、「Ａ」が「Ｂ」の少なくとも部分的な原因であるが、「Ｂ」の発生を支援する少なくとも１つの他のコンポーネント、特徴、構造、処理、または特性もあり得ることを意味する。明細書が、コンポーネント、特徴、構造、処理、または特性が「してよい（ｍａｙ）」「得る（ｍｉｇｈｔ）」または「しれない（ｃｏｕｌｄ）」が含まれることを示す場合、その特定のコンポーネント、特徴、構造、処理、または特性は、含まれる必要がない。明細書または請求項が、１つの（「ａ」または「ａｎ」）要素を指す場合、これは、説明された要素が１つしかないことを意味しない。

実施形態は、実装または例である。明細書における、「実施形態（ａｎｅｍｂｏｄｉｍｅｎｔ）」「一実施形態（ｏｎｅｅｍｂｏｄｉｍｅｎｔ）」「いくつかの実施形態（ｓｏｍｅｅｍｂｏｄｉｍｅｎｔｓ）」または「他の実施形態（ｏｔｈｅｒｅｍｂｏｄｉｍｅｎｔｓ）」への参照は、その実施形態に関連して説明される特定の特徴、構造、または特性が、少なくともいくつかの実施形態において含まれるが、必ずしもすべての実施形態に含まれるのではないことを、意味する。「実施形態」「一実施形態」または「いくつかの実施形態」という様々な表現は、すべてが必ずしも同一の実施形態を参照しているとは限らない。当然のことながら、例示的実施形態の上記の説明において、様々な特徴が、本開示を簡素化し、様々な新規な態様のうち１または複数の理解を支援する目的で、これらの単一の実施形態、図、または説明にまとめてグループ化されていることがあることは理解されるべきである。しかしながら、この開示方法が、請求項に記載された実施形態が各請求項に明示的に記載されるよりも多くの特徴を必要とするという意図を反映するものとして解釈されるべきではない。むしろ、以下の請求項が反映するように、新規な態様は、前述の開示された単一の実施形態のすべての特徴より少ない。したがって、特許請求の範囲は、この明細書中に明示的に組み込まれ、各請求項は別個の実施形態として独立する。

以下の節および／または例は、さらなる実施形態または例に関連する。当該例における特定内容が、１つまたは複数の実施形態のいずれにおいても使用されてよい。異なる実施形態または例の様々な特徴は、含まれるいくつかの特徴と多様に組み合わされ、他の特徴は、様々な異なる用途に適するように除外されてもよい。例は、方法、方法の実行作用のための手段、機械によって実行された場合に、本明細書に説明された実施形態および例によるハイブリッド通信を容易にする、方法、装置またはシステムの作用を機械に実行させる命令を含む少なくとも１つの機械可読媒体、などの主題を含み得る。

さらなる例

例１は、コンピュートエンジン上に実装される畳み込みニューラルネットワークによって画像をノイズ除去する方法を含み、画像は複数の画素を含み、方法は、画像の複数の画素のそれぞれに関して、画素に関する複数のカーネル値を有する畳み込みカーネルを生成する段階と、複数のカーネル値にそれぞれ対応する画素に関する複数のオフセットを生成する段階であって、複数のオフセットのそれぞれは、画素の画素位置からの逸脱を示す、段階と、画素の画素位置および複数のオフセットに基づいて、複数の逸脱した画素位置を決定する段階と、複数の逸脱した画素位置の畳み込みカーネルおよび画素値によって画素をフィルタリングして、ノイズ除去された画素を取得する段階と、を備える。

例２は、例１の主題を含み、複数のオフセットののそれぞれは、画素の画素位置からの逸脱を示す位置値を含む。

例３は、例２の主題を含み、位置値は、浮動小数点値を含む。

例４は、例１の主題を含み、複数のカーネル値は、画像の少なくとも２つの画素に関して異なる。

例５は、例１の主題を含み、複数のオフセットは、画像の少なくとも２つの画素に関して異なる。

例６は、例１の主題を含み、複数のオフセットは、畳み込みカーネルの生成の前に、または同時に生成される。

例７は、例１の主題を含み、複数の逸脱した画素位置の畳み込みカーネルおよび画素値によって画素をフィルタリングする段階は、畳み込みカーネルの複数のカーネル値を、複数の逸脱した画素位置の画素値に適用して、画素値の加重平均を取得する段階を含む。

例８は、例１の主題を含み、逸脱の上限は予め定められる。

例９は、例１の主題を含み、畳み込みカーネルのカーネルサイズは、３×３、５×５、７×７、…、（２ｎ−１）×（２ｎ−１）のうちの１つとして予め割り当てられ、ここでｎは正の整数、ｎ＞＝２かつｎ＜ｍｉｎ（ｆｌｏｏｒ（Ｗ／２），ｆｌｏｏｒ（Ｈ／２））、ＷおよびＨは、画像の幅および高さである。

例１０は、画像を含むデータを格納するデータストレージであって、画像は複数の画素を含む、データストレージと、データストレージに結合されるコンピュートエンジンとを含み、コンピュートエンジンは畳み込みニューラルネットワークによって画像をノイズ除去し、コンピュートエンジンは、画像の複数の画素のそれぞれに関して、画素に関する複数のカーネル値を有する畳み込みカーネルを生成し、複数のカーネル値にそれぞれ対応する画素に関する複数のオフセットを生成し、複数のオフセットのそれぞれは、画素の画素位置からの逸脱を示し、画素の画素位置および複数のオフセットに基づいて、複数の逸脱した画素位置を決定し、複数の逸脱した画素位置の畳み込みカーネルおよび画素値によって画素をフィルタリングしてノイズ除去された画素を取得する、画像のノイズ除去のための装置を備える。

例１１は、例１０の主題を含み、複数のオフセットのそれぞれは、画素の画素位置からの逸脱を示す位置値を含む。

例１２は例１１の主題を含み、位置値は、浮動小数点値を含む。

例１３は、例１０の主題を含み、複数のカーネル値は、画像の少なくとも２つの画素に関して異なる。

例１４は、例１０の主題を含み、複数のオフセットは、画像の少なくとも２つの画素に関して異なる。

例１５は、例１０の主題を含み、複数のオフセットは、畳み込みカーネルの生成の前に、または同時に生成される。

例１６は、例１０の主題を含み、複数の逸脱した画素位置の畳み込みカーネルおよび画素値によって画素をフィルタリングすることは、畳み込みカーネルの複数のカーネル値を、複数の逸脱した画素位置の画素値に適用して、画素値の加重平均を取得することを含む。

例１７は、例１０の主題を含み、逸脱の上限は予め定められる。

例１８は、例１０の主題を含み、畳み込みカーネルのカーネルサイズは、３×３、５×５、７×７、…、（２ｎ−１）×（２ｎ−１）のうちの１つとして予め割り当てられ、ここでｎは正の整数、ｎ＞＝２かつｎ＜ｍｉｎ（ｆｌｏｏｒ（Ｗ／２），ｆｌｏｏｒ（Ｈ／２））、ＷおよびＨは、画像の幅および高さである。

例１９は、例１−９のいずれかにおいて請求される方法を実行する手段を備える装置を含む。

例２０は、コンピューティングデバイス上で実行されることに応じて、コンピューティングデバイスに、例１−９のいずれかにおいて請求される方法を実行させる、複数の命令を格納されて備える、機械可読媒体を含む。

上記の説明および図面は、限定的意味ではなくむしろ例示であるとみなされるべきである。当業者は、添付の特許請求の範囲に記載された本発明の、より広い趣旨および範囲から逸脱することなく、本明細書に説明される実施形態に様々な修正および変更が行われ得ることを理解するであろう。

Claims

コンピュートエンジン上に実装される畳み込みニューラルネットワークによって画像をノイズ除去する方法であって、前記画像は複数の画素を含み、前記方法は、
前記画像の前記複数の画素のそれぞれに関して、
前記画素に関する複数のカーネル値を有する畳み込みカーネルを生成する段階と、
前記複数のカーネル値にそれぞれ対応する前記画素に関する複数のオフセットを生成する段階であって、前記複数のオフセットのそれぞれは、前記画素の画素位置からの逸脱を示す、段階と、
前記画素の前記画素位置および前記複数のオフセットに基づいて、複数の逸脱した画素位置を決定する段階と、
前記複数の逸脱した画素位置の前記畳み込みカーネルおよび画素値によって前記画素をフィルタリングして、ノイズ除去された画素を取得する段階と、
を備える、方法。
前記複数のオフセットのそれぞれは、前記画素の前記画素位置からの前記逸脱を示す位置値を含む、請求項１に記載の方法。
前記位置値は、浮動小数点値を含む、請求項２に記載の方法。
前記複数のカーネル値は、前記画像の少なくとも２つの画素に関して異なる、請求項１から３のいずれか一項に記載の方法。
前記複数のオフセットは、前記画像の少なくとも２つの画素に関して異なる、請求項１から４のいずれか一項に記載の方法。
前記複数のオフセットは、前記畳み込みカーネルの前記生成の前に、または同時に生成される、請求項１から５のいずれか一項に記載の方法。
前記複数の逸脱した画素位置の前記畳み込みカーネルおよび画素値によって前記画素をフィルタリングする前記段階は、
前記畳み込みカーネルの前記複数のカーネル値を、前記複数の逸脱した画素位置の前記画素値に適用して、前記画素値の加重平均を取得する段階を含む、
請求項１から６のいずれか一項に記載の方法。
前記逸脱の上限は予め定められる、請求項１から７のいずれか一項に記載の方法。
前記畳み込みカーネルのカーネルサイズは、３×３、５×５、７×７、…、（２ｎ−１）×（２ｎ−１）のうちの１つとして予め割り当てられ、ここでｎは正の整数、ｎ＞＝２かつｎ＜ｍｉｎ（ｆｌｏｏｒ（Ｗ／２），ｆｌｏｏｒ（Ｈ／２））、ＷおよびＨは、前記画像の幅および高さである、請求項１から８のいずれか一項に記載の方法。
画像を含むデータを格納するデータストレージであって、前記画像は複数の画素を含む、データストレージと、
前記データストレージに結合されるコンピュートエンジンとを備え、前記コンピュートエンジンは畳み込みニューラルネットワークによって前記画像をノイズ除去し、前記コンピュートエンジンは、
前記画像の複数の画素のそれぞれに関して、
前記画素に関する複数のカーネル値を有する畳み込みカーネルを生成し、
前記複数のカーネル値にそれぞれ対応する前記画素に関する複数のオフセットを生成し、前記複数のオフセットのそれぞれは、前記画素の画素位置からの逸脱を示し、
前記画素の前記画素位置および前記複数のオフセットに基づいて、複数の逸脱した画素位置を決定し、
前記複数の逸脱した画素位置の前記畳み込みカーネルおよび画素値によって前記画素をフィルタリングして、ノイズ除去された画素を取得する、
画像のノイズ除去のための装置。
前記複数のオフセットのそれぞれは、前記画素の前記画素位置からの前記逸脱を示す位置値を含む、請求項１０に記載の装置。
前記位置値は、浮動小数点値を含む、請求項１１に記載の装置。
前記複数のカーネル値は、前記画像の少なくとも２つの画素に関して異なる、請求項１０から１２のいずれか一項に記載の装置。
前記複数のオフセットは、前記画像の少なくとも２つの画素に関して異なる、請求項１０から１３のいずれか一項に記載の装置。
前記複数のオフセットは、前記畳み込みカーネルの前記生成の前に、または同時に生成される、請求項１０から１４のいずれか一項に記載の装置。
前記複数の逸脱した画素位置の前記畳み込みカーネルおよび画素値によって前記画素を前記フィルタリングすることは、
前記畳み込みカーネルの前記複数のカーネル値を、前記複数の逸脱した画素位置の前記画素値に適用して、前記画素値の加重平均を取得することを含む、
請求項１０から１５のいずれか一項に記載の装置。
前記逸脱の上限は予め定められる、請求項１０から１６のいずれか一項に記載の装置。
前記畳み込みカーネルのカーネルサイズは、３×３、５×５、７×７、…、（２ｎ−１）×（２ｎ−１）のうちの１つとして予め割り当てられ、ここでｎは正の整数、ｎ＞＝２かつｎ＜ｍｉｎ（ｆｌｏｏｒ（Ｗ／２），ｆｌｏｏｒ（Ｈ／２））、ＷおよびＨは、前記画像の幅および高さである、請求項１０から１７のいずれか一項に記載の装置。
請求項１−９のいずれか一項において請求される方法を実行する手段を備える装置。
コンピューティングデバイス上で実行されることに応じて、前記コンピューティングデバイス上に、請求項１−９のいずれか一項において請求される方法を実行させる、コンピュータプログラム。
請求項２０に記載のコンピュータプログラムを格納する、機械可読媒体。