JP2021149932A

JP2021149932A - 非同期レイトレーシング用の装置及び方法

Info

Publication number: JP2021149932A
Application number: JP2020195384A
Authority: JP
Inventors: スルティプラスーンクマール; Surti Prasoonkumar; アール．アップアビシェーク; R Appu Abhishek; バイドヤナサンカーティク; Vaidyanathan Karthik; マンダルサイカト; Mandal Saikat; ノリスマイケル; Norris Michael
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2020-03-15
Filing date: 2020-11-25
Publication date: 2021-09-27
Also published as: US20220130097A1; CN113470158A; DE102020132557A1; TW202207166A; KR20210116200A; US11087522B1

Abstract

【課題】非同期レイトレーシング用の装置及び方法を提供する。【解決手段】ルートノードと、複数の内部ノードと、複数のリーフノードを含む、階層的に配置された複数のノードを含むバウンディングボリューム階層（ＢＶＨ）を構築し、内部ノードがルートノード又は別の内部ノードへの子ノードを含み、リーフノードが内部ノードへの子ノードを含む、ＢＶＨ生成部と、第１の複数のエントリ及び第２の複数のエントリの各エントリがＢＶＨをトラバースするレイを格納する第１格納バンク及び第２格納バンクと、入射レイを、第１及び第２格納バンクに現在格納されているレイの相対数に基づいて、第１格納バンク又は第２格納バンクのいずれかに分配する割当回路と、ＢＶＨノードスタックの先頭から次のＢＶＨノードを読み出し、次のレイが前記次のＢＶＨノードに交差するかを判定することによって、次のレイを前記ＢＶＨにトラバースするトラバーサル回路とを備える。【選択図】図５１

Description

本発明は概して、グラフィックスプロセッサの分野に関する。より具体的には、本発明は、非同期レイトレーシング用の装置及び方法に関する。

レイトレーシングとは、光輸送が物理ベースのレンダリングを通じてシミュレーションされる技術である。レイトレーシングは、映画のレンダリングで広く用いられているが、ほんの数年前まで、リアルタイムの実行には非常に多くのリソースを必要とすると考えられていた。レイトレーシングの重要なオペレーションのうちの１つが、「レイトラバーサル」として知られている、レイ−シーン間インターセクションを求める可視性クエリの処理であり、レイトラバーサルとは、バウンディングボリューム階層（ＢＶＨ）においてノードをトラバースして交差することにより、レイ−シーン間インターセクションを計算することである。

以下の図面を併用して、以下の詳細な説明から本発明の十分な理解を得ることができる。

１つ又は複数のプロセッサコアを有するプロセッサとグラフィックスプロセッサとを備えるコンピュータシステムの一実施形態のブロック図である。

１つ又は複数のプロセッサコアと、統合メモリコントローラと、統合グラフィックスプロセッサとを有するプロセッサの１つの実施形態のブロック図である。グラフィックスプロセッサコアのハードウェアロジックの１つの実施形態のブロック図である。マルチコアグループに配置された専用のグラフィックス処理リソースのセットを含むグラフィックス処理ユニットの１つの実施形態のブロック図である。グラフィックスプロセッサ及び／又はコンピュートアクセラレータとして構成され得る汎用グラフィックス処理ユニットの１つの実施形態のブロック図である。

グラフィックスプロセッサの１つの実施形態のブロック図であり、グラフィックスプロセッサは、別個のグラフィックス処理ユニットであってもよく、複数のプロセッシングコアと統合されたグラフィックスプロセッサであってもよい。グラフィックスプロセッサの１つの実施形態のブロック図である。コンピュートアクセラレータの１つの実施形態のブロック図である。

グラフィックスプロセッサ用のグラフィックス処理エンジンの一実施形態のブロック図である。

グラフィックスプロセッサの別の実施形態のブロック図である。グラフィックスプロセッサの別の実施形態のブロック図である。

実行回路及びロジックの例を示す。

一実施形態による、グラフィックスプロセッサ実行ユニットの命令フォーマットを示す。

グラフィックスパイプライン、メディアパイプライン、ディスプレイエンジン、スレッド実行ロジック、及びレンダリング出力パイプラインを含むグラフィックスプロセッサの別の実施形態のブロック図である。

一実施形態による、グラフィックスプロセッサのコマンドフォーマットを示すブロック図である。

一実施形態による、グラフィックスプロセッサのコマンドシーケンスを示すブロック図である。

一実施形態による、データ処理システム用の例示的なグラフィックスソフトウェアアーキテクチャを示す。

集積回路及び例示的なパッケージアセンブリを製造するのに用いられ得る例示的なＩＰコア開発システムを示す。集積回路パッケージアセンブリの垂直断面図を示す。基板に接続されたハードウェアロジックチップレットの複数のユニットを含むパッケージアセンブリを示す。互換性のあるチップレットを含むパッケージアセンブリを示す。

一実施形態による、１つ又は複数のＩＰコアを用いて製造され得る例示的なシステムオンチップ集積回路を示す。

１つ又は複数のＩＰコアを用いて製造され得るシステムオンチップ集積回路の例示的なグラフィックスプロセッサを示す。

例示的なグラフィックスプロセッサアーキテクチャを示す。

機械学習アーキテクチャの初期訓練を実行するアーキテクチャを示す。

ランタイム時にどのように機械学習エンジンが継続的に訓練され、更新されるかを示す。

どのように機械学習データがネットワーク上で共有されるかを示す。どのように機械学習データがネットワーク上で共有されるかを示す。

機械学習エンジンを訓練する方法を示す。

分散ノイズ除去オペレーションを実行するため、どのようにノードがゴースト領域データを交換するかを示す。

複数のノード間で、画像レンダリング及びノイズ除去オペレーションが分散されるアーキテクチャを示す。

レンダリング及びノイズ除去を分散させるアーキテクチャのさらなる詳細を示す。

分散レンダリング及びノイズ除去を実行する方法を示す。

機械学習方法を示す。

複数の相互接続された汎用グラフィックスプロセッサを示す。

機械学習実施態様の畳み込み層及び全結合層のセットを示す。

畳み込み層の例を示す。

機械学習実施態様における、相互接続ノードのセットの例を示す。

訓練データセットを使用して、ニューラルネットワークが学習する、訓練フレームワークを示す。

モデル並列処理と、データ並列処理の例を示す。

システムオンチップ（ＳｏＣ）を示す。

レイトレーシングコア及びテンソルコアを含む処理アーキテクチャを示す。

ビームの例を示す。

ビームトレーシングを実行する装置を示す。

ビーム階層の例を示す。

ビームトレーシングを実行する方法を示す。

分散レイトレーシングエンジンの一例を示す。

レイトレーシングシステムで実行される圧縮を示す。レイトレーシングシステムで実行される圧縮を示す。

レイトレーシングアーキテクチャ上に実装される方法を示す。

例示的なハイブリッドレイトレーシング装置を示す。

レイトレーシングオペレーションに用いられるスタックを示す。

ハイブリッドレイトレーシング装置のさらなる詳細を示す。

バウンディングボリューム階層を示す。

コールスタック及びトラバーサル状態記憶装置を示す。

トラバーサル及び交差方法を示す。

特定のシェーダ実行のため、どのように複数のディスパッチサイクルが必要となるかを示す。特定のシェーダ実行のため、どのように複数のディスパッチサイクルが必要となるかを示す。

単一のディスパッチサイクルがどのように複数のシェーダを実行するかを示す。

レイトレーシング命令を実行するアーキテクチャを示す。

スレッド内でレイトレーシング命令を実行する方法を示す。

非同期レイトレーシングのアーキテクチャの１つの実施形態を示す。

レイトラバーサル回路の１つの実施形態を示す。

１つの実施形態において、レイ格納バンクを管理するために実行される処理を示す。

優先選択回路／ロジックの１つの実施形態を示す。

優先選択回路／ロジックの１つの実施形態を示す。優先選択回路／ロジックの１つの実施形態を示す優先選択回路／ロジックの１つの実施形態を示す。

レイトレーシングパイプラインのアーリーアウトを決定する１つの実施形態を示す。

優先選択回路／ロジックの１つの実施形態を示す。

レイトラバーサルオペレーションに用いられるバウンディングボリューム階層（ＢＶＨ）の一例を示す。

追加のトラバーサルオペレーションを示す。追加のトラバーサルオペレーションを示す。

ＢＶＨスタックを管理するスタック管理回路の１つの実施形態を示す。

例示的なデータ構造、サブ構造、並びにレイ、ヒット、及びスタックに実行されるオペレーションを示す。例示的なデータ構造、サブ構造、並びにレイ、ヒット、及びスタックに実行されるオペレーションを示す。

以下の説明では、説明のために、数多くの具体的な詳細が記載され、後述する本発明の実施形態の十分な理解を提供する。しかしながら、本発明の実施形態はこれらの具体的な詳細の一部がなくても実施され得ることが、当業者には明らかとなるであろう。他の例では、本発明の実施形態の基本的原理を曖昧にしないように、よく知られた構造体及びデバイスがブロック図の形態で示されている。
［例示的なグラフィックスプロセッサアーキテクチャ及びデータ型］
［システム概要］

図１は、一実施形態による処理システム１００のブロック図である。システム１００は、シングルプロセッサのデスクトップシステム、マルチプロセッサのワークステーションシステム、又は多数のプロセッサ１０２若しくはプロセッサコア１０７を有するサーバシステムに用いられてよい。１つの実施形態において、システム１００は、モバイルデバイス、ハンドヘルド型デバイス、又は埋め込み型デバイスに用いるためにシステムオンチップ（ＳｏＣ）集積回路に組み込まれた、例えば、ローカルエリアネットワーク又はワイドエリアネットワークへの有線接続性又は無線接続性を有する「モノのインターネット（ＩｏＴ）」デバイスなどに組み込まれた処理プラットフォームである。

１つの実施形態において、システム１００は、サーバベースのゲーミングプラットフォーム、ゲーム及びメディアコンソールを含むゲームコンソール、モバイルゲーミングコンソール、ハンドヘルド型ゲームコンソール、又はオンラインゲームコンソールを含むことができる、又はこれらと連結することができる、又はこれらに統合されてもよい。いくつかの実施形態において、システム１００は、携帯電話、スマートフォン、タブレット型コンピューティングデバイス、又は低容量の内蔵記憶装置を備えたラップトップなどの、インターネットに接続されたモバイルデバイスの一部である。処理システム１００はまた、スマートウォッチ型ウェアラブルデバイスなどのウェアラブルデバイス、視覚出力、音声出力、若しくは触知出力を提供して現実世界の視覚体験、音声体験、若しくは触知体験を補う、又は別の方法でテキスト、音声、グラフィックス、映像、ホログラフィック画像若しくは映像、若しくは触知フィードバックを提供する拡張現実（ＡＲ）又は仮想現実（ＶＲ）機能で強化されたスマートアイウェア若しくはスマートクローズ、他の拡張現実（ＡＲ）デバイス、あるいは他の仮想現実（ＶＲ）デバイスを含むことができる、又はこれらと連結することができる、又はこれらに統合されてもよい。いくつかの実施形態において、処理システム１００は、テレビ若しくはセットトップボックス型デバイスを含む、又はその一部である。１つの実施形態において、システム１００は、バス、トラクタトレイラ、乗用車、オートバイ若しくは電動アシスト自転車、飛行機、又はグライダ（あるいはこれらの任意の組み合わせ）などの自動運転車を含むことができる、又はこれらと連結することができる、又はこれらに統合されてもよい。自動運転車は、システム１００を用いて、車両の周囲で感知された環境を処理してよい。

いくつかの実施形態において、１つ又は複数のプロセッサ１０２はそれぞれ、実行されると、システム又はユーザソフトウェア用のオペレーションを行う命令を処理する１つ又は複数のプロセッサコア１０７を含む。いくつかの実施形態において、１つ又は複数のプロセッサコア１０７のうちの少なくとも１つが、特定の命令セット１０９を処理するように構成される。いくつかの実施形態において、命令セット１０９は、複合命令セットコンピューティング（ＣＩＳＣ）、縮小命令セットコンピューティング（ＲＩＳＣ）、又は超長命令語（ＶＬＩＷ）を介したコンピューティングを容易にし得る。１つ又は複数のプロセッサコア１０７は、異なる命令セット１０９を処理することができ、この命令セットは他の命令セットのエミュレーションを容易にする命令を含んでよい。プロセッサコア１０７は、デジタル信号プロセッサ（ＤＳＰ）などの、他の処理デバイスも含んでよい。

いくつかの実施形態において、プロセッサ１０２はキャッシュメモリ１０４を含む。アーキテクチャに応じて、プロセッサ１０２は、単一の内蔵キャッシュ又は複数レベルの内蔵キャッシュを備えることができる。いくつかの実施形態において、キャッシュメモリは、プロセッサ１０２の様々なコンポーネントの間で共有される。いくつかの実施形態において、プロセッサ１０２は、外付けキャッシュ（例えば、レベル３（Ｌ３）キャッシュ又はラストレベルキャッシュ（ＬＬＣ））（不図示）も用い、外付けキャッシュは既知のキャッシュコヒーレンシ技術を用いて複数のプロセッサコア１０７の間で共有されてよい。レジスタファイル１０６が、プロセッサ１０２に追加的に含まれてよく、異なる種類のデータを格納する異なる種類のレジスタ（例えば、整数レジスタ、浮動小数点レジスタ、ステータスレジスタ、及び命令ポインタレジスタ）を含んでよい。いくつかのレジスタは汎用レジスタであってよく、他のレジスタはプロセッサ１０２の設計に固有のものであってよい。

いくつかの実施形態において、１つ又は複数のプロセッサ１０２は、プロセッサ１０２とシステム１００の他のコンポーネントとの間で、アドレス信号、データ信号、又は制御信号などの通信信号を伝送する１つ又は複数のインタフェースバス１１０と連結される。インタフェースバス１１０は１つの実施形態において、あるバージョンのダイレクトメディアインタフェース（ＤＭＩ）バスなどのプロセッサバスであってよい。しかしながら、プロセッサバスはＤＭＩバスに限定されることはなく、１つ又は複数のペリフェラルコンポーネントインターコネクトバス（例えば、ＰＣＩ、ＰＣＩＥｘｐｒｅｓｓ）、メモリバス、又は他の種類のインタフェースバスを含んでもよい。１つの実施形態において、プロセッサ１０２は、統合メモリコントローラ１１６とプラットフォームコントローラハブ１３０を含む。メモリコントローラ１１６は、メモリデバイスとシステム１００の他のコンポーネントとの間の通信を容易にし、プラットフォームコントローラハブ（ＰＣＨ）１３０は、ローカルのＩ／Ｏバスを介してＩ／Ｏデバイスへの接続を提供する。

メモリデバイス１２０は、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）デバイス、スタティックランダムアクセスメモリ（ＳＲＡＭ）デバイス、フラッシュメモリデバイス、相変化メモリデバイス、又はプロセスメモリとしての機能を果たすのに好適な性能を有する何らかの他のメモリデバイスであってよい。１つの実施形態において、メモリデバイス１２０は、システム１００用のシステムメモリとして動作し、１つ又は複数のプロセッサ１０２がアプリケーション又は処理を実行するときに用いるデータ１２２及び命令１２１を格納することができる。メモリコントローラ１１６は任意選択の外付けグラフィックスプロセッサ１１８とも連結し、外付けグラフィックスプロセッサ１１８は、プロセッサ１０２の１つ又は複数のグラフィックスプロセッサ１０８と通信して、グラフィックスオペレーション及びメディアオペレーションを実行してよい。いくつかの実施形態において、グラフィックスオペレーション、メディアオペレーション、及び／又はコンピュートオペレーションは、アクセラレータ１１２によって支援されてよく、アクセラレータ１１２は、専用化されたグラフィックスオペレーション、メディアオペレーション、又はコンピュートオペレーションのセットを実行するように構成され得るコプロセッサである。例えば、１つの実施形態において、アクセラレータ１１２は、機械学習又はコンピュートオペレーションを最適化するのに用いられる行列乗算アクセラレータである。１つの実施形態において、アクセラレータ１１２は、グラフィックスプロセッサ１０８と連携してレイトレーシングオペレーションを実行するのに用いられ得るレイトレーシングアクセラレータである。１つの実施形態において、外付けアクセラレータ１１９が、アクセラレータ１１２の代わりに又はそれと連携して用いられてよい。

いくつかの実施形態において、ディスプレイデバイス１１１をプロセッサ１０２に接続することができる。ディスプレイデバイス１１１は、モバイル電子デバイス若しくはラップトップデバイスに見られるような内蔵ディスプレイデバイス、又はディスプレイインタフェース（例えば、ＤｉｓｐｌａｙＰｏｒｔなど）を介して取り付けられる外付けディスプレイデバイスのうちの１つ又は複数であってよい。１つの実施形態において、ディスプレイデバイス１１１は、仮想現実（ＶＲ）アプリケーション又は拡張現実（ＡＲ）アプリケーションに用いるための立体表示デバイスなどのヘッドマウントディスプレイ（ＨＭＤ）であってよい。

いくつかの実施形態において、プラットフォームコントローラハブ１３０は、周辺機器を高速Ｉ／Ｏバスを介してメモリデバイス１２０及びプロセッサ１０２に接続するのを可能にする。Ｉ／Ｏ周辺機器は、限定されることはないが、オーディオコントローラ１４６、ネットワークコントローラ１３４、ファームウェアインタフェース１２８、無線送受信機１２６、タッチセンサ１２５、データ記憶デバイス１２４（例えば、不揮発性メモリ、揮発性メモリ、ハードディスクドライブ、フラッシュメモリ、ＮＡＮＤ、３ＤＮＡＮＤ、３ＤＸＰｏｉｎｔなど）を含む。データ記憶デバイス１２４は、ストレージインタフェース（例えば、ＳＡＴＡ）を介して、又はペリフェラルコンポーネントインターコネクトバス（例えば、ＰＣＩ、ＰＣＩＥｘｐｒｅｓｓ）などのペリフェラルバスを介して接続することができる。タッチセンサ１２５は、タッチスクリーンセンサ、圧力センサ、又は指紋センサを含んでよい。無線送受信機１２６は、Ｗｉ−Ｆｉ（登録商標）送受信機、Ｂｌｕｅｔｏｏｔｈ（登録商標）送受信機、又は３Ｇ、４Ｇ、５Ｇ、若しくはロングタームエボリューション（ＬＴＥ）用の送受信機などのモバイルネットワーク送受信機であってよい。ファームウェアインタフェース１２８は、システムファームウェアとの通信を可能にし、例えば、ユニファイドエクステンシブルファームウェアインタフェース（ＵＥＦＩ）であってよい。ネットワークコントローラ１３４は、有線ネットワークへのネットワーク接続を可能にし得る。いくつかの実施形態において、高性能ネットワークコントローラ（不図示）がインタフェースバス１１０と連結する。オーディオコントローラ１４６は、１つの実施形態において、マルチチャネルハイディフィニションオーディオコントローラである。１つの実施形態において、システム１００はレガシ（例えば、ＰｅｒｓｏｎａｌＳｙｓｔｅｍ２（ＰＳ／２））デバイスを本システムに連結する任意選択のレガシＩ／Ｏコントローラ１４０を含む。プラットフォームコントローラハブ１３０は、１つ又は複数のユニバーサルシリアルバス（ＵＳＢ）コントローラ１４２にも接続して、キーボードとマウス１４３との組み合わせ、カメラ１４４、又は他のＵＳＢ入力デバイスなどの入力デバイスを接続することができる。

図示されたシステム１００は、異なるように構成された他の種類のデータ処理システムが用いられてもよいので、例示的であって限定的ではないことが理解されるであろう。例えば、メモリコントローラ１１６及びプラットフォームコントローラハブ１３０のインスタンスが、外付けグラフィックスプロセッサ１１８などの別個の外付けグラフィックスプロセッサに統合されてよい。１つの実施形態において、プラットフォームコントローラハブ１３０及び／又はメモリコントローラ１１６は、１つ又は複数のプロセッサ１０２の外部にあってよい。例えば、システム１００は、外付けのメモリコントローラ１１６及びプラットフォームコントローラハブ１３０を含むことができ、これらは、プロセッサ１０２と通信するシステムチップセット内のメモリコントローラハブ及びペリフェラルコントローラハブとして構成されてよい。

例えば、ＣＰＵ、メモリ、及び他のコンポーネントなどのコンポーネントが熱性能を高めるように配置及び設計された回路基板（「スレッド」）が用いられ得る。いくつかの例において、プロセッサなどの処理コンポーネントがスレッドの表面側に位置しており、近くにあるＤＩＭＭなどのメモリがスレッドの裏面側に位置している。この設計により提供される気流の改善の結果として、これらのコンポーネントは、典型的なシステムの場合と比べて、より高い周波数及び電力レベルで動作し得るので、性能を高めることができる。さらに、スレッドは、ラックにある電力ケーブル及びデータ通信ケーブルと何も確認せずに接続できるように構成されるので、スレッドを素早く取り外す、アップグレードする、再度取り付ける、且つ／又は置き換える能力を高めることができる。同様に、プロセッサ、アクセラレータ、メモリ、及びデータ記憶ドライブなどの、スレッドに位置する個々のコンポーネントが、互いとの間隔が増したことにより、容易にアップグレードされるように構成される。例示した実施形態において、これらのコンポーネントはさらに、真正性を証明するハードウェア認証機能を含む。

データセンタが、イーサネット（登録商標）及びＯｍｎｉ−Ｐａｔｈを含む複数の他のネットワークアーキテクチャをサポートする単一のネットワークアーキテクチャ（「ファブリック」）を利用できる。スレッドは光ファイバを介してスイッチに連結され得る。光ファイバは、典型的なツイストペアケーブル（例えば、カテゴリ５、カテゴリ５ｅ、カテゴリ６など）より高い帯域幅と低い遅延を提供する。高い帯域幅で低い遅延の相互接続及びネットワークアーキテクチャにより、データセンタは使用時に、メモリ、アクセラレータ（例えば、ＧＰＵ、グラフィックスアクセラレータ、ＦＰＧＡ、ＡＳＩＣ、ニューラルネットワーク、及び／又は人工知能アクセラレータなど）、及び物理的に分かれているデータ記憶ドライブなどのリソースをプールして、必要に応じてこれらのリソースにコンピュートリソース（例えば、プロセッサ）を提供してよく、その結果、プールされたリソースがあたかもローカルにあるかのように、コンピュートリソースがこれらのリソースにアクセスすることが可能になる。

電力供給部又は電源が、システム１００又は本明細書で説明される任意のコンポーネント若しくはシステムに、電圧及び／又は電流を提供できる。１つの例において、電力供給部は、壁コンセントに接続する、ＡＣをＤＣに（交流電流を直流電流に）変換するアダプタを含む。そのようなＡＣ電源は、再生可能エネルギー（例えば、太陽光発電）による電源であってよい。１つの例において、電源は、外付けのＡＣ／ＤＣコンバータなどＤＣ電源を含む。１つの例において、電源又は電力供給部は、充電場に近接させることによって充電するワイヤレス充電ハードウェアを含む。１つの例において、電源は、内蔵バッテリ、交流電流供給部、モーションベースの電力供給部、太陽光発電供給部、又は燃料電池電源を含むことができる。

図２Ａ〜図２Ｄは、本明細書で説明される実施形態によって提供されるコンピューティングシステム及びグラフィックスプロセッサを示す。図２Ａ〜図２Ｄの要素で、本明細書における任意の他の図の要素と同じ参照番号（又は名称）を有する要素は、本明細書のどこか他の箇所で説明される方式と同様な任意の方式で動作する又は機能することができるが、そのように限定されることはない。

図２Ａは、１つ又は複数のプロセッサコア２０２Ａ〜２０２Ｎ、統合メモリコントローラ２１４、及び統合グラフィックスプロセッサ２０８を有するプロセッサ２００の一実施形態のブロック図である。プロセッサ２００は、追加のコアを最大で破線の枠で表された追加のコア２０２Ｎまで（これを含む）含むことができる。プロセッサコア２０２Ａ〜２０２Ｎのそれぞれは、１つ又は複数の内蔵キャッシュユニット２０４Ａ〜２０４Ｎを含む。いくつかの実施形態において、各プロセッサコアは、１つ又は複数の共有キャッシュユニット２０６にもアクセスできる。内蔵キャッシュユニット２０４Ａ〜２０４Ｎ及び共有キャッシュユニット２０６は、プロセッサ２００内のキャッシュメモリ階層を表している。キャッシュメモリ階層は、各プロセッサコア内の少なくとも１つのレベルの命令及びデータキャッシュと、１つ又は複数のレベルの共有中間レベルキャッシュ（レベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）、又は他のレベルのキャッシュなど）とを含んでよく、外付けメモリの前の最高レベルのキャッシュはＬＬＣに分類される。いくつかの実施形態において、キャッシュコヒーレンシロジックが、様々なキャッシュユニット２０６と２０４Ａ〜２０４Ｎとの間でコヒーレンシを維持する。

いくつかの実施形態において、プロセッサ２００は、１つ又は複数のバスコントローラユニット２１６のセット及びシステムエージェントコア２１０も含んでよい。１つ又は複数のバスコントローラユニット２１６は、１つ又は複数のＰＣＩバス又はＰＣＩＥｘｐｒｅｓｓバスなどのペリフェラルバスのセットを管理する。システムエージェントコア２１０は、様々なプロセッサコンポーネントに管理機能を提供する。いくつかの実施形態において、システムエージェントコア２１０は、様々な外付けメモリデバイス（不図示）へのアクセスを管理する１つ又は複数の統合メモリコントローラ２１４を含む。

いくつかの実施形態において、プロセッサコア２０２Ａ〜２０２Ｎのうちの１つ又は複数は、同時マルチスレッディングに対するサポートを含む。そのような実施形態において、システムエージェントコア２１０は、マルチスレッド処理の際に、コア２０２Ａ〜２０２Ｎを調整して動作させるコンポーネントを含む。システムエージェントコア２１０はさらに、パワーコントロールユニット（ＰＣＵ）を含んでよく、ＰＣＵは、プロセッサコア２０２Ａ〜２０２Ｎ及びグラフィックスプロセッサ２０８の電力状態を調整するロジック及びコンポーネントを含む。

いくつかの実施形態において、プロセッサ２００はさらに、グラフィックス処理オペレーションを実行するグラフィックスプロセッサ２０８を含む。いくつかの実施形態において、グラフィックスプロセッサ２０８は、共有キャッシュユニット２０６のセット及びシステムエージェントコア２１０と連結し、１つ又は複数の統合メモリコントローラ２１４を含む。いくつかの実施形態において、システムエージェントコア２１０は、グラフィックスプロセッサを駆動して１つ又は複数の連結されたディスプレイに出力するディスプレイコントローラ２１１も含む。いくつかの実施形態において、ディスプレイコントローラ２１１はまた、少なくとも１つの相互接続を介してグラフィックスプロセッサと連結される別個のモジュールであってもよく、又はグラフィックスプロセッサ２０８に統合されてもよい。

いくつかの実施形態において、リングベースの相互接続ユニット２１２が、プロセッサ２００の内蔵コンポーネントを連結するのに用いられる。しかしながら、ポイントツーポイント相互接続、スイッチ型相互接続、又は他の技術などの、当技術分野でよく知られた技術を含む代替の相互接続ユニットが用いられてもよい。いくつかの実施形態において、グラフィックスプロセッサ２０８は、Ｉ／Ｏリンク２１３を介してリング相互接続２１２と連結する。

例示的なＩ／Ｏリンク２１３は、複数の様々なＩ／Ｏ相互接続のうちの少なくとも１つを表しており、様々なプロセッサコンポーネントとｅＤＲＡＭモジュールなどの高性能な埋め込み型メモリモジュール２１８との間の通信を容易にするオンパッケージＩ／Ｏ相互接続を含む。いくつかの実施形態において、プロセッサコア２０２Ａ〜２０２Ｎのそれぞれとグラフィックスプロセッサ２０８とは、埋め込み型メモリモジュール２１８を共有のラストレベルキャッシュとして用いることができる。

いくつかの実施形態において、プロセッサコア２０２Ａ〜２０２Ｎは、同じ命令セットアーキテクチャを実行する同種のコアである。別の実施形態では、プロセッサコア２０２Ａ〜２０２Ｎは、命令セットアーキテクチャ（ＩＳＡ）の観点から見ると異種であり、プロセッサコア２０２Ａ〜２０２Ｎのうちの１つ又は複数が第１の命令セットを実行し、その他のコアのうちの少なくとも１つが第１の命令セットのサブセット又は異なる命令セットを実行する。１つの実施形態において、プロセッサコア２０２Ａ〜２０２Ｎはマイクロアーキテクチャの観点から見ると異種であり、相対的に消費電力が高い１つ又は複数のコアが、消費電力が少ない１つ又は複数の電力コアと連結する。１つの実施形態において、プロセッサコア２０２Ａ〜２０２Ｎは、計算能力の観点から見ると異種である。さらに、プロセッサ２００は、１つ又は複数のチップに実装されても、示されたコンポーネントを他のコンポーネントのほかに有するＳｏＣ集積回路として実装されてもよい。

図２Ｂは、本明細書において説明されるいくつかの実施形態による、グラフィックスプロセッサコア２１９のハードウェアロジックのブロック図である。図２Ｂの要素で、本明細書における任意の他の図の要素と同じ参照番号（又は名称）を有する要素は、本明細書のどこか他の箇所で説明される方式と同様な任意の方式で動作する又は機能することができるが、そのように限定されることはない。グラフィックスプロセッサコア２１９は、コアスライスと呼ばれることがあり、モジュール式のグラフィックスプロセッサ内の１つ又は複数のグラフィックスコアであってよい。グラフィックスプロセッサコア２１９は、典型的な１つのグラフィックスコアスライスであり、本明細書で説明されるグラフィックスプロセッサは、目標電力及び性能範囲に基づいて複数のグラフィックスコアスライスを含んでよい。各グラフィックスプロセッサコア２１９は、汎用及び固定機能ロジックのモジュール式ブロックを含む、サブスライスとも呼ばれる複数のサブコア２２１Ａ〜２２１Ｆと連結された固定機能ブロック２３０を含んでよい。

いくつかの実施形態において、固定機能ブロック２３０は、例えば、低性能及び／又は低電力グラフィックスプロセッサの実施態様において、グラフィックスプロセッサコア２１９の全てのサブコアにより共有され得るジオメトリ／固定機能パイプライン２３１を含む。様々な実施形態において、ジオメトリ／固定機能パイプライン２３１は、３Ｄ固定機能パイプライン（例えば、後述される図３Ａ及び図４に見られるような３Ｄパイプライン３１２）、ビデオフロントエンドユニット、スレッド生成器及びスレッドディスパッチャ、並びに統合リターンバッファを管理する統合リターンバッファマネージャ（例えば、後述する図４の統合リターンバッファ４１８）を含む。

１つの実施形態において、固定機能ブロック２３０は、グラフィックスＳｏＣインタフェース２３２、グラフィックスマイクロコントローラ２３３、及びメディアパイプライン２３４も含む。グラフィックスＳｏＣインタフェース２３２は、グラフィックスプロセッサコア２１９とシステムオンチップ集積回路内の他のプロセッサコアとの間のインタフェースを提供する。グラフィックスマイクロコントローラ２３３は、グラフィックスプロセッサコア２１９の、スレッドディスパッチ、スケジューリング、プリエンプションを含む様々な機能を管理するように構成可能なプログラム可能型サブプロセッサである。メディアパイプライン２３４（例えば、図３Ａ及び図４のメディアパイプライン３１６）は、画像及び映像データを含むマルチメディアデータの復号、符号化、前処理、及び／又は後処理を容易にするロジックを含む。メディアパイプライン２３４は、サブコア２２１〜２２１Ｆ内のコンピュートロジック又はサンプリングロジックへの要求を介してメディアオペレーションを実施する。

１つの実施形態において、ＳｏＣインタフェース２３２は、グラフィックスプロセッサコア２１９が汎用アプリケーションプロセッサコア（例えば、ＣＰＵ）及び／又はＳｏＣ内の他のコンポーネント（共有のラストレベルキャッシュメモリ、システムＲＡＭ、及び／又は埋め込み型のオンチップ若しくはオンパッケージＤＲＡＭなどのメモリ階層要素を含む）と通信することを可能にする。ＳｏＣインタフェース２３２は、カメライメージングパイプラインなどの、ＳｏＣ内の固定機能デバイスとの通信も可能にすることができ、グラフィックスプロセッサコア２１９とＳｏＣ内のＣＰＵとの間で共有され得るグローバルメモリアトミックスの使用及び／又は実装を可能にする。ＳｏＣインタフェース２３２は、グラフィックスプロセッサコア２１９用の電力管理制御も実装して、グラフィックスコア２１９のクロックドメインとＳｏＣ内の他のクロックドメインとの間のインタフェースを可能にすることができる。１つの実施形態において、ＳｏＣインタフェース２３２は、グラフィックスプロセッサ内の１つ又は複数のグラフィックスコアのそれぞれにコマンド及び命令を提供するように構成されたコマンドストリーマ及びグローバルスレッドディスパッチャからのコマンドバッファの受信を可能にする。コマンド及び命令は、メディアオペレーションが実行されるときに、メディアパイプライン２３４にディスパッチすることができ、又はグラフィックス処理のオペレーションが実行されるときに、ジオメトリ及び固定機能パイプライン（例えば、ジオメトリ及び固定機能パイプライン２３１、ジオメトリ及び固定機能パイプライン２３７）にディスパッチすることができる。

グラフィックスマイクロコントローラ２３３は、グラフィックスプロセッサコア２１９の様々なスケジューリングタスク及び管理タスクを実行するように構成され得る。１つの実施形態において、グラフィックスマイクロコントローラ２３３は、サブコア２２１Ａ〜２２１Ｆ内の実行ユニット（ＥＵ）アレイ２２２Ａ〜２２２Ｆ、２２４Ａ〜２２４Ｆの中の様々なグラフィックスパラレルエンジンに対して、グラフィックス及び／又はコンピュートワークロードスケジューリングを行うことができる。このスケジューリングモデルでは、グラフィックスプロセッサコア２１９を含むＳｏＣのＣＰＵコアで実行するホストソフトウェアが複数のグラフィックスプロセッサドアベルのうちの１つにワークロードを送信することができ、これにより、適切なグラフィックスエンジンにスケジューリングオペレーションを呼び出すことができる。スケジューリングオペレーションは、どのワークロードを次に実行するかを決定すること、ワークロードをコマンドストリーマに送信すること、あるエンジンで実行している既存のワークロードをプリエンプトすること、ワークロードの進行を監視すること、ワークロードが完了したときにホストソフトウェアに通知することを含む。１つの実施形態において、グラフィックスマイクロコントローラ２３３はまた、グラフィックスプロセッサコア２１９の低電力状態又はアイドル状態を容易にすることができ、システム上のオペレーティングシステム及び／又はグラフィックスドライバソフトウェアから独立して、低電力状態への移行時に、グラフィックスプロセッサコア２１９内のレジスタを節約し且つ復元する能力をグラフィックスプロセッサコア２１９に提供することができる。

グラフィックスプロセッサコア２１９は、示されているサブコア２２１Ａ〜２２１Ｆより多くても少なくてもよく、最大でＮ個のモジュール式サブコアを有してよい。Ｎ個のサブコアのセットごとに、グラフィックスプロセッサコア２１９は、共有機能ロジック２３５、共有及び／又はキャッシュメモリ２３６、ジオメトリ／固定機能パイプライン２３７、及び様々なグラフィックス処理オペレーション及びコンピュート処理オペレーションを加速する追加の固定機能ロジック２３８も含むことができる。共有機能ロジック２３５は、図４の共有機能ロジック４２０に関連した論理ユニット（例えば、サンプラ、数学、及び／又はスレッド間通信ロジック）を含むことができ、これらの論理ユニットをグラフィックスプロセッサコア２１９内のＮ個のサブコアのそれぞれが共有できる。共有及び／又はキャッシュメモリ２３６は、グラフィックスプロセッサコア２１９内のＮ個のサブコア２２１Ａ〜２２１Ｆのセット用のラストレベルキャッシュになることができ、複数のサブコアがアクセス可能な共有メモリとしての機能も果たすことができる。ジオメトリ／固定機能パイプライン２３７は、固定機能ブロック２３０内のジオメトリ／固定機能パイプライン２３１の代わりに含まれてよく、同じ又は同様の論理ユニットを含むことができる。

１つの実施形態において、グラフィックスプロセッサコア２１９は、グラフィックスプロセッサコア２１９が用いるための様々な固定機能アクセラレーションロジックを含むことができる追加の固定機能ロジック２３８を含む。１つの実施形態において、追加の固定機能ロジック２３８は、位置専用シェーディングに用いるための追加のジオメトリパイプラインを含む。位置専用シェーディングでは、２つのジオメトリパイプライン、すなわち、ジオメトリ／固定機能パイプライン２３８、２３１内のフルジオメトリパイプラインと、追加の固定機能ロジック２３８に含まれ得る追加のジオメトリパイプラインである間引きパイプラインとが存在する。１つの実施形態において、間引きパイプラインは、フルジオメトリパイプラインの機能限定版である。フルパイプライン及び間引きパイプラインは、同じアプリケーションの異なるインスタンスを実行することができ、各インスタンスは別個のコンテキストを有する。位置専用シェーディングは、破棄された三角形の長い間引き実行を隠すことができ、いくつかの例では、シェーディングをより早く完了することが可能になる。例えば１つの実施形態において、追加の固定機能ロジック２３８内の間引きパイプラインロジックは、主要なアプリケーションと並行して位置シェーダを実行することができ、一般的に、重要な結果をフルパイプラインより速く生成することができる。その理由は、間引きパイプラインは頂点の位置属性だけをフェッチしてシェーディングし、フレームバッファに対するピクセルのラスタ化及びレンダリングを行わないからである。間引きパイプラインは、全ての三角形の可視情報を、これらの三角形が間引きされているかどうかに関係なく計算するのに、生成された重要な結果を用いることができる。フルパイプライン（この例では、リプレイパイプラインと呼ばれることがある）は、間引きされた三角形をスキップし、最終的にラスタ化段階に送られる可視三角形だけをシェーディングするのに可視情報を消費することができる。

１つの実施形態において、追加の固定機能ロジック２３８は、機械学習の訓練又は推論の最適化を含む実施態様について、固定機能の行列乗算ロジックなどの機械学習アクセラレーションロジックも含むことができる。

各グラフィックスサブコア２２１Ａ〜２２１Ｆには、グラフィックスパイプライン、メディアパイプライン、又はシェーダプログラムによる要求に応答してグラフィックスオペレーション、メディアオペレーション、及びコンピュートオペレーションを実行するのに用いられ得る実行リソースのセットが含まれる。グラフィックスサブコア２２１Ａ〜２２１Ｆは、複数のＥＵアレイ２２２Ａ〜２２２Ｆ、２２４Ａ〜２２４Ｆ、スレッドディスパッチ及びスレッド間通信（ＴＤ／ＩＣ）ロジック２２３Ａ〜２２３Ｆ、３Ｄ（例えば、テクスチャ）サンプラ２２５Ａ〜２２５Ｆ、メディアサンプラ２０６Ａ〜２０６Ｆ、シェーダプロセッサ２２７Ａ〜２２７Ｆ、並びに共有ローカルメモリ（ＳＬＭ）２２８Ａ〜２２８Ｆを含む。ＥＵアレイ２２２Ａ〜２２２Ｆ、２２４Ａ〜２２４Ｆはそれぞれ、複数の実行ユニットを含み、これらの実行ユニットは、グラフィックスオペレーション、メディアオペレーション、又はコンピュートオペレーションのサービスにおいて、グラフィックス、メディア、又はコンピュートシェーダプログラムを含む、浮動小数点オペレーション及び整数／固定小数点ロジックオペレーションの実行が可能な汎用グラフィックス処理ユニットである。ＴＤ／ＩＣロジック２２３Ａ〜２２３Ｆは、サブコア内の実行ユニットのためにローカルスレッドディスパッチ及びスレッド制御オペレーションを実行し、サブコアの実行ユニットで実行するスレッド間の通信を容易にする。３Ｄサンプラ２２５Ａ〜２２５Ｆは、テクスチャ又は他の３Ｄグラフィックス関連のデータをメモリに読み出すことができる。３Ｄサンプラは、構成されたサンプル状態及び所与のテクスチャに関連したテクスチャフォーマットに基づいて、異なるテクスチャデータを読み出すことができる。メディアサンプラ２０６Ａ〜２０６Ｆは、メディアデータに関連した種類及びフォーマットに基づいて、同様の読み出しオペレーションを実行することができる。１つの実施形態において、各グラフィックスサブコア２２１Ａ〜２２１Ｆは、統合された３Ｄ及びメディアサンプラを交互に含むことができる。サブコア２２１Ａ〜２２１Ｆのそれぞれの中の実行ユニットで実行するスレッドは、各サブコア内の共有ローカルメモリ２２８Ａ〜２２８Ｆを利用して、スレッドグループ内で実行するスレッドがオンチップメモリの共通プールを用いて実行することを可能にすることができる。

図２Ｃは、マルチコアグループ２４０Ａ〜２４０Ｎに配置された専用のグラフィックス処理リソースのセットを含むグラフィックス処理ユニット（ＧＰＵ）２３９を示す。単一のマルチコアグループ２４０Ａの詳細だけが提供されているが、その他のマルチコアグループ２４０Ｂ〜２４０Ｎも同じ又は同様のグラフィックス処理リソースのセットを備えてよいことが理解されるであろう。

示されているように、マルチコアグループ２４０Ａは、グラフィックスコア２４３のセットと、テンソルコア２４４のセットと、レイトレーシングコア２４５のセットとを含んでよい。スケジューラ／ディスパッチャ２４１が、様々なコア２４３、２４４、２４５で実行するためのグラフィックススレッドをスケジューリングしてディスパッチする。レジスタファイル２４２のセットが、グラフィックススレッドを実行するときに、コア２４３、２４４、２４５が用いるオペランド値を格納する。これらは、例えば、整数値を格納する整数レジスタ、浮動小数点値を格納する浮動小数点レジスタ、パックドデータ要素（整数及び／又は浮動小数点データ要素）を格納するベクトルレジスタ、及びテンソル／行列値を格納するタイルレジスタを含んでよい。１つの実施形態において、タイルレジスタは、複数のベクトルレジスタの組み合わせセットとして実装される。

１つ又は複数のレベル１（Ｌ１）キャッシュと共有メモリユニット２４７との組み合わせが、テクスチャデータ、頂点データ、ピクセルデータ、レイデータ、バウンディングボリュームデータなどのグラフィックスデータを、各マルチコアグループ２４０Ａにローカルに格納する。１つ又は複数のテクスチャユニット２４７は、テクスチャマッピング及びサンプリングなどのテクスチャリングオペレーションの実行にも用いられ得る。マルチコアグループ２４０Ａ〜２４０Ｎの全て又はそのサブセットによって共有されるレベル２（Ｌ２）キャッシュ２５３が、複数のコンカレントグラフィクススレッド用のグラフィックスデータ及び／又は命令を格納する。示されるように、Ｌ２キャッシュ２５３は、複数のマルチコアグループ２４０Ａ〜２４０Ｎ全体で共有されてよい。１つ又は複数のメモリコントローラ２４８が、ＧＰＵ２３９をシステムメモリ（例えば、ＤＲＡＭ）及び／又は専用グラフィックスメモリ（例えば、ＧＤＤＲ６メモリ）であってよいメモリ２４９に連結する。

入力／出力（Ｉ／Ｏ）回路２５０が、デジタル信号プロセッサ（ＤＳＰ）、ネットワークコントローラ、又はユーザ入力デバイスなどの１つ又は複数のＩ／Ｏデバイス２５２にＧＰＵ２３９を連結する。オンチップ相互接続が、Ｉ／Ｏデバイス２５２をＧＰＵ２３９及びメモリ２４９に連結するのに用いられてよい。Ｉ／Ｏ回路２５０の１つ又は複数のＩ／Ｏメモリ管理ユニット（ＩＯＭＭＵ）２５１が、Ｉ／Ｏデバイス２５２をシステムメモリ２４９に直接的に連結する。１つの実施形態において、ＩＯＭＭＵ２５１は、仮想アドレスをシステムメモリ２４９の物理アドレスにマッピングするための複数のセットのページテーブルを管理する。本実施形態において、Ｉ／Ｏデバイス２５２、ＣＰＵ２４６、及びＧＰＵ２３９は、同じ仮想アドレス空間を共有してよい。

１つの実施態様において、ＩＯＭＭＵ２５１は仮想化をサポートする。この場合、ＩＯＭＭＵ２５１は、ゲスト／グラフィックス仮想アドレスをゲスト／グラフィックス物理アドレスにマッピングするための第１セットのページテーブルと、ゲスト／グラフィックス物理アドレスを（例えば、システムメモリ２４９内の）システム／ホスト物理アドレスにマッピングするための第２セットのページテーブルとを管理してよい。第１及び第２セットのページテーブルのそれぞれのベースアドレスは、制御レジスタに格納され、コンテキストスイッチの際にスワップアウトされてよい（例えば、この結果、新しいコンテキストには関係のあるページテーブルのセットへのアクセスが提供される）。図２Ｃには示されていないが、コア２４３、２４４、２４５及び／又はマルチコアグループ２４０Ａ〜２４０Ｎのそれぞれは、ゲスト仮想からゲスト物理への変換、ゲスト物理からホスト物理への変換、及びゲスト仮想からホスト物理への変換をキャッシュに格納するためのトランスレーションルックアサイドバッファ（ＴＬＢ）を含んでよい。

１つの実施形態において、ＣＰＵ２４６、ＧＰＵ２３９、及びＩ／Ｏデバイス２５２は、単一の半導体チップ及び／又はチップパッケージに統合される。示されているメモリ２４９は、同じチップに統合されてもよく、オフチップインタフェースを介してメモリコントローラ２４８に連結されてもよい。１つの実施態様において、メモリ２４９は、他の物理システムレベルのメモリと同じ仮想アドレス空間を共有するＧＤＤＲ６メモリを含むが、本発明の基本的原理はこの特定の実施態様に限定されることはない。

１つの実施形態において、テンソルコア２４４は、ディープラーニングのオペレーションを実行するのに用いられる基本的なコンピュートオペレーションである行列演算を実行するように特に設計された複数の実行ユニットを含む。例えば、同時行列乗算オペレーションが、ニューラルネットワークの訓練及び推論に用いられてよい。テンソルコア２４４は、単精度浮動小数点（例えば、３２ビット）、半精度浮動小数点（例えば、１６ビット）、整数語（１６ビット）、バイト（８ビット）、ハーフバイト（４ビット）を含む様々なオペランド精度を用いて行列処理を実行してよい。１つの実施形態において、ニューラルネットワークの実施態様が、レンダリングされた各シーンの特徴点を、場合によっては複数のフレームから詳細を組み合わせながら抽出し、高品質の最終イメージを構築する。

ディープラーニングの実施態様において、並列行列乗算作業がテンソルコア２４４で実行するためにスケジューリングされてよい。ニューラルネットワークの訓練は、特に、かなりの数の行列ドット積演算を必要とする。Ｎ×Ｎ×Ｎの行列乗算の内積の定式化を処理するために、テンソルコア２４４は、少なくともＮ個のドット積処理要素を含んでよい。行列乗算を開始する前に、１つの行列全体がタイルレジスタにロードされ、第２の行列の少なくとも１つの列が、Ｎ個のサイクルのサイクルごとにロードされる。各サイクルには、処理されたＮ個のドット積がある。

行列要素が、特定の実施態様に応じて、１６ビットワード、８ビットバイト（例えば、ＩＮＴ８）、及び４ビットハーフバイト（例えば、ＩＮＴ４）を含む異なる精度で格納されてよい。異なる精度モードは、最も効率的な精度が異なるワークロード（例えば、バイト及びハーフバイトへの量子化を許容できる推論ワークロードなど）に確実に用いられるようにするために、テンソルコア２４４に対して指定されてよい。

１つの実施形態において、レイトレーシングコア２４５は、リアルタイムレイトレーシングの実施態様及び非リアルタイムレイトレーシングの実施態様の両方に対するレイトレーシングオペレーションを加速する。具体的には、レイトレーシングコア２４５は、バウンディングボリューム階層（ＢＶＨ）を用いてレイトラバーサルを実行し、レイとＢＶＨボリューム内に囲まれたプリミティブとの間の交差を識別するためのレイトラバーサル／インターセクション回路を含む。レイトレーシングコア２４５は、（例えば、Ｚバッファ又は同様の仕組みを用いて）深度テスト及び間引きを行うための回路も含んでよい。１つの実施態様において、レイトレーシングコア２４５は、本明細書で説明される画像ノイズ除去技術と連携して、トラバーサルオペレーション及びインターセクションオペレーションを行い、その少なくとも一部が、テンソルコア２４４で実行されてよい。例えば、１つの実施形態において、テンソルコア２４４は、ディープラーニングニューラルネットワークを実装して、レイトレーシングコア２４５により生成されたフレームのノイズ除去を行う。しかしながら、ＣＰＵ２４６、グラフィックスコア２４３、及び／又はレイトレーシングコア２４５も、ノイズ除去アルゴリズム及び／又はディープラーニングアルゴリズムの全て又は一部を実装してよい。

さらに、上述したように、ノイズ除去への分散型アプローチが利用されてよく、そのアプローチでは、ＧＰＵ２３９はコンピューティングデバイスの中にあり、当該コンピューティングデバイスは、ネットワーク又は高速相互接続を介して他のコンピューティングデバイスに連結されている。本実施形態において、相互接続されたコンピューティングデバイスはニューラルネットワーク学習／訓練用データを共有し、異なる種類の画像フレーム及び／又は異なるグラフィックスアプリケーションに対してノイズ除去を行うことをシステム全体が学習する速度を向上させる。

１つの実施形態において、レイトレーシングコア２４５は、全てのＢＶＨトラバーサル及びレイ−プリミティブ間インターセクションを処理し、グラフィックスコア２４３がレイ当たり数千の命令で過負荷になるのを防ぐ。１つの実施形態において、各レイトレーシングコア２４５は、バウンディングボックステストを行うための第１セットの専用回路（例えば、トラバーサルオペレーション用）と、レイ−三角形間インターセクションテスト（例えば、トラバースしたレイを交差する）を行うための第２セットの専用回路とを含む。したがって、１つの実施形態において、マルチコアグループ２４０Ａはレイプローブを起動するだけでよく、レイトレーシングコア２４５は独立して、レイトラバーサル及び交差を行い、ヒットデータ（例えば、ヒット、ヒットなし、複数ヒットなど）をスレッドコンテキストに戻す。その他のコア２４３、２４４は、他のグラフィックス作業又はコンピュート作業を行うために解放されており、レイトレーシングコア２４５は、トラバーサルオペレーション及びインターセクションオペレーションを行う。

１つの実施形態において、各レイトレーシングコア２４５は、ＢＶＨテストオペレーションを行うためのトラバーサルユニットと、レイ−プリミティブ間インターセクションテストを行うインターセクションユニットとを含む。インターセクションユニットは、「ヒットあり」、「ヒットなし」、又は「複数ヒット」の応答を生成し、それを適切なスレッドに提供する。トラバーサルオペレーション及びインターセクションオペレーションの際に、他のコア（例えば、グラフィックスコア２４３及びテンソルコア２４４）の実行リソースは、他の形態のグラフィックス作業を行うために解放されている。

後述する１つの特定の実施形態において、ハイブリッドラスタ化／レイトレーシング手法が用いられ、その手法では、グラフィックスコア２４３とレイトレーシングコア２４５との間で作業が分散される。

１つの実施形態において、レイトレーシングコア２４５（及び／又は他のコア２４３、２４４）は、Ｍｉｃｒｏｓｏｆｔ（登録商標）のＤｉｒｅｃｔＸレイトレーシング（ＤＸＲ）などのレイトレーシング命令セット用のハードウェアサポートを含む。ＤＸＲには、ＤｉｓｐａｔｃｈＲａｙｓコマンド、並びにｒａｙ−ｇｅｎｅｒａｔｉｏｎシェーダ、ｃｌｏｓｅｓｔ−ｈｉｔシェーダ、ａｎｙ−ｈｉｔシェーダ、及びｍｉｓｓシェーダが含まれ、これらによって、オブジェクトごとに一意のセットのシェーダ及びテクスチャを割り当てることが可能になる。レイトレーシングコア２４５、グラフィックスコア２４３、及びテンソルコア２４４によりサポートされ得る別のレイトレーシングプラットフォームが、Ｖｕｌｋａｎ１．１．８５である。しかしながら、本発明の基本的原理は、いかなる特定のレイトレーシングＩＳＡにも限定されることはないことに留意されたい。

一般的には、様々なコア２４５、２４４、２４３は、レイトレーシング命令セットをサポートしてよく、レイトレーシング命令セットには、ＲａｙＧｅｎｅｒａｔｉｏｎ、ＣｌｏｓｅｓｔＨｉｔ、ＡｎｙＨｉｔ、Ｒａｙ−ｐｒｉｍｉｔｉｖｅＩｎｔｅｒｓｅｃｔｉｏｎ、Ｐｅｒ−ｐｒｉｍｉｔｉｖｅａｎｄｈｉｅｒａｒｃｈｉｃａｌＢｏｕｎｄｉｎｇｂｏｘＣｏｎｓｔｒｕｃｔｉｏｎ、Ｍｉｓｓ、Ｖｉｓｉｔ、及びＥｘｃｅｐｔｉｏｎｓ用の命令／機能が含まれる。より具体的には、１つの実施形態が、以下の機能を実行するためのレイトレーシング命令を含む。
ＲａｙＧｅｎｅｒａｔｉｏｎ：ＲａｙＧｅｎｅｒａｔｉｏｎ命令は、ピクセルごと、サンプルごと、又は他のユーザ定義型作業割り当てごとに実行されてよい。
ＣｌｏｓｅｓｔＨｉｔ：ＣｌｏｓｅｓｔＨｉｔ命令は、シーン内のレイとプリミティブとの最も近い交差ポイントを探し出すために実行されてよい。
ＡｎｙＨｉｔ：ＡｎｙＨｉｔ命令は、シーン内のレイとプリミティブとの間の複数の交差を識別し、場合によっては、新しい最も近い交差ポイントを識別する。
Ｉｎｔｅｒｓｅｃｔｉｏｎ：Ｉｎｔｅｒｓｅｃｔｉｏｎ命令は、レイ−プリミティブ間インターセクションテストを行い、結果を出力する。
Ｐｅｒ−ｐｒｉｍｉｔｉｖｅＢｏｕｎｄｉｎｇｂｏｘＣｏｎｓｔｒｕｃｔｉｏｎ：この命令は、（例えば、新しいＢＶＨ又は他のアクセラレーションデータ構造を構築する場合に）所与のプリミティブ又はプリミティブのグループの周りにバウンディングボックスを構築する。
Ｍｉｓｓ：シーン内又はシーンの指定領域内の全てのジオメトリに、レイが当たらなかったことを示す。
Ｖｉｓｉｔ：レイがトラバースすることになる子ボリュームを示す。
Ｅｘｃｅｐｔｉｏｎｓ：（例えば、様々な誤差条件のために呼び出される）様々な種類の例外ハンドラを含む。

図２Ｄは、本明細書で説明される実施形態による、グラフィックスプロセッサ及び／又はコンピュートアクセラレータとして構成され得る汎用グラフィックス処理ユニット（ＧＰＧＰＵ）２７０のブロック図である。ＧＰＧＰＵ２７０は、１つ又は複数のシステムバス及び／又はメモリバスを介して、ホストプロセッサ（例えば、１つ又は複数のＣＰＵ２４６）及びメモリ２７１、２７２と相互接続することができる。１つの実施形態において、メモリ２７１は、１つ又は複数のＣＰＵ２４６と共有され得るシステムメモリであり、メモリ２７２は、ＧＰＧＰＵ２７０に専用のデバイスメモリである。１つの実施形態において、ＧＰＧＰＵ２７０及びデバイスメモリ２７２内の各コンポーネントは、１つ又は複数のＣＰＵ２４６がアクセス可能なメモリアドレスにマッピングされてよい。メモリ２７１及び２７２へのアクセスが、メモリコントローラ２６８を介して容易になり得る。１つの実施形態において、メモリコントローラ２６８は、内蔵ダイレクトメモリアクセス（ＤＭＡ）コントローラ２６９を含む、又は他になければＤＭＡコントローラが実行するであろうオペレーションを実行するロジックを含んでよい。

ＧＰＧＰＵ２７０は、複数のキャッシュメモリを含み、これらのキャッシュメモリは、Ｌ２キャッシュ２５３、Ｌ１キャッシュ２５４、命令キャッシュ２５５、及び共有メモリ２５６を含み、共有メモリ２５６の少なくとも一部もキャッシュメモリとして区切られてよい。ＧＰＧＰＵ２７０は、複数のコンピュートユニット２６０Ａ〜２６０Ｎも含む。各コンピュートユニット２６０Ａ〜２６０Ｎは、ベクトルレジスタ２６１、スカラレジスタ２６２、ベクトル論理ユニット２６３、及びスカラ論理ユニット２６４のセットを含む。コンピュートユニット２６０Ａ〜２６０Ｎは、ローカル共有メモリ２６５及びプログラムカウンタ２６６も含むことができる。コンピュートユニット２６０Ａ〜２６０Ｎは定数キャッシュ２６７と連結することができ、定数キャッシュ２６７は、定数データを格納するのに用いられてよく、定数データは、ＧＰＧＰＵ２７０で実行するカーネル又はシェーダプログラムの実行時に変化しないデータである。１つの実施形態において、定数キャッシュ２６７はスカラデータキャッシュであり、キャッシュに格納されたデータは、直接的にスカラレジスタ２６２にフェッチされてよい。

オペレーションの際に、１つ又は複数のＣＰＵ２４６は、レジスタ、又はＧＰＧＰＵ２７０内のアクセス可能なアドレス空間にマッピングされているメモリに、コマンドを書き込むことができる。コマンドプロセッサ２５７は、レジスタ又はメモリからコマンドを読み出し、これらのコマンドがＧＰＧＰＵ２７０内でどのように処理されるかを決定することができる。次に、これらのコマンドを実行するために、スレッドディスパッチャ２５８が、コンピュートユニット２６０Ａ〜２６０Ｎにスレッドをディスパッチするのに用いられてよい。各コンピュートユニット２６０Ａ〜２６０Ｎは、他のコンピュートユニットから独立して、スレッドを実行することができる。さらに、各コンピュートユニット２６０Ａ〜２６０Ｎは、条件付き計算用に独立して構成されてよく、条件付きで計算の結果をメモリに出力できる。コマンドプロセッサ２５７は、送信されたコマンドが完了した場合、１つ又は複数のＣＰＵ２４６を中断できる。

図３Ａ〜図３Ｃは、本明細書で説明される実施形態により提供される、追加のグラフィックスプロセッサ及びコンピュートアクセラレータアーキテクチャのブロック図を示す。図３Ａ〜図３Ｃの要素で、本明細書における任意の他の図の要素と同じ参照番号（又は名称）を有する要素は、本明細書のどこか他の箇所で説明される方式と同様な任意の方式で動作する又は機能することができるが、そのように限定されることはない。

図３Ａはグラフィックスプロセッサ３００のブロック図である。グラフィックスプロセッサ３００は、個別のグラフィックス処理ユニットであってもよく、複数のプロセッシングコア又は限定されることはないがメモリデバイス若しくはネットワークインタフェースなどの他の半導体デバイスと統合されたグラフィックスプロセッサであってもよい。いくつかの実施形態において、グラフィックスプロセッサは、グラフィックスプロセッサ上のレジスタへのメモリマップドＩ／Ｏインタフェースを介して、プロセッサメモリに置かれたコマンドを用いて通信する。いくつかの実施形態において、グラフィックスプロセッサ３００は、アクセスメモリへのメモリインタフェース３１４を含む。メモリインタフェース３１４は、ローカルメモリ、１つ又は複数の内蔵キャッシュ、１つ又は複数の共有外付けキャッシュ、及び／又はシステムメモリへのインタフェースであり得る。

いくつかの実施形態において、グラフィックスプロセッサ３００は、ディスプレイ出力データをディスプレイデバイス３１８にドライブするディスプレイコントローラ３０２も含む。ディスプレイコントローラ３０２は、複数層の映像を表示し合成するための１つ又は複数のオーバーレイプレーン用、又はユーザインタフェース要素用のハードウェアを含む。ディスプレイデバイス３１８は、内蔵ディスプレイデバイスでも、外付けディスプレイデバイスでもよい。１つの実施形態において、ディスプレイデバイス３１８は、仮想現実（ＶＲ）ディスプレイデバイス又は拡張現実（ＡＲ）ディスプレイデバイスなどのヘッドマウントディスプレイデバイスである。いくつかの実施形態において、グラフィックスプロセッサ３００は、メディアを、１つ又は複数のメディア符号化フォーマットに符号化する、これらのメディア符号化フォーマットから復号する、又はこれらのメディア符号化フォーマットの間でコード変換するための、ビデオコーデックエンジン３０６を含む。これらのメディア符号化フォーマットには、限定されることはないが、ＭＰＥＧ−２などのＭｏｖｉｎｇＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ（ＭＰＥＧ）フォーマット、Ｈ．２６４／ＭＰＥＧ−４ＡＶＣ及びＨ．２６５／ＨＥＶＣなどのＡｄｖａｎｃｅｄＶｉｄｅｏＣｏｄｉｎｇ（ＡＶＣ）フォーマット、ＡｌｌｉａｎｃｅｆｏｒＯｐｅｎＭｅｄｉａ（ＡＯＭｅｄｉａ）のＶＰ８及びＶＰ９、並びに米国映画テレビ技術者協会（ＳＭＰＴＥ）４２１Ｍ／ＶＣ−１、及びＪＰＥＧなどのＪｏｉｎｔＰｈｏｔｏｇｒａｐｈｉｃＥｘｐｅｒｔｓＧｒｏｕｐ（ＪＰＥＧ）フォーマット、及びＭｏｔｉｏｎＪＰＥＧ（ＭＪＰＥＧ）フォーマットが含まれる。

いくつかの実施形態において、グラフィックスプロセッサ３００は、例えば、ビット境界ブロック転送を含む２次元（２Ｄ）ラスタライザオペレーションを実行するためのブロック画像転送（ＢＬＩＴ）エンジン３０４を含む。しかしながら、１つの実施形態において、２Ｄグラフィックスオペレーションは、グラフィックス処理エンジン（ＧＰＥ）３１０の１つ又は複数のコンポーネントを用いて実行される。いくつかの実施形態において、ＧＰＥ３１０は、３次元（３Ｄ）グラフィックスオペレーション及びメディアオペレーションを含むグラフィックスオペレーションを実行するためのコンピュートエンジンである。

いくつかの実施形態において、ＧＰＥ３１０は、３Ｄプリミティブ形状（例えば、矩形、三角形など）に作用する処理機能を用いて３次元画像及びシーンをレンダリングするなどの、３Ｄオペレーションを実行するための３Ｄパイプライン３１２を含む。３Ｄパイプライン３１２は、プログラム可能要素及び固定機能要素を含む。これらの要素は、要素内の様々なタスクを実行する且つ／又は実行スレッドを３Ｄ／メディアサブシステム３１５に生成する。３Ｄパイプライン３１２はメディアオペレーションを実行するのに用いられ得るが、ＧＰＥ３１０の一実施形態が、映像後処理及び画像補正などのメディアオペレーションを実行するのに特に用いられるメディアパイプライン３１６も含む。

いくつかの実施形態において、メディアパイプライン３１６は、ビデオコーデックエンジン３０６の代わりに又はそれに代わって、映像復号アクセラレーション、映像デインターレーシング、及び映像符号化アクセラレーションなどの１つ又は複数の専用メディアオペレーションを実行するための固定機能又はプログラム可能型ロジックユニットを含む。いくつかの実施形態において、メディアパイプライン３１６はさらに、３Ｄ／メディアサブシステム３１５で実行するためのスレッドを生成するスレッド生成ユニットを含む。生成されたスレッドは、３Ｄ／メディアサブシステム３１５に含まれる１つ又は複数のグラフィックス実行ユニットで、メディアオペレーション用の計算を行う。

いくつかの実施形態において、３Ｄ／メディアサブシステム３１５は、３Ｄパイプライン３１２及びメディアパイプライン３１６により生成されたスレッドを実行するためのロジックを含む。１つの実施形態において、これらのパイプラインはスレッド実行要求を３Ｄ／メディアサブシステム３１５に送信する。３Ｄ／メディアサブシステム３１５は、様々な要求を調整して利用可能なスレッド実行リソースにディスパッチするためのスレッドディスパッチロジックを含む。これらの実行リソースは、３Ｄスレッド及びメディアスレッドを処理するためのグラフィックス実行ユニットのアレイを含む。いくつかの実施形態において、３Ｄ／メディアサブシステム３１５は、スレッド命令及びデータ用の１つ又は複数の内蔵キャッシュを含む。いくつかの実施形態において、サブシステムは、スレッド間でデータを共有し出力データを格納するための、レジスタ及びアドレス指定可能メモリを含む共有メモリも含む。

図３Ｂは、本明細書で説明される実施形態による、タイルアーキテクチャを有するグラフィックスプロセッサ３２０を示す。１つの実施形態において、グラフィックスプロセッサ３２０は、図３Ａのグラフィックス処理エンジン３１０の複数のインスタンスをグラフィックスエンジンタイル３１０Ａ〜３１０Ｄに有するグラフィックス処理エンジンクラスタ３２２を含む。各グラフィックスエンジンタイル３１０Ａ〜３１０Ｄは、タイル相互接続３２３Ａ〜３２３Ｆのセットを介して相互接続され得る。各グラフィックスエンジンタイル３１０Ａ〜３１０Ｄは、メモリ相互接続３２５Ａ〜３２５Ｄを介して、メモリモジュール又はメモリデバイス３２６Ａ〜３２６Ｄにも接続され得る。メモリデバイス３２６Ａ〜３２６Ｄは、任意のグラフィックスメモリ技術を用いることができる。例えば、メモリデバイス３２６Ａ〜３２６Ｄは、グラフィックスダブルデータレート（ＧＤＤＲ）メモリであってよい。メモリデバイス３２６Ａ〜３２６Ｄは、１つの実施形態において、それぞれのグラフィックスエンジンタイル３１０Ａ〜３１０Ｄと共にオンダイになり得る高帯域幅メモリ（ＨＢＭ）モジュールである。１つの実施形態において、メモリデバイス３２６Ａ〜３２６Ｄは、それぞれのグラフィックスエンジンタイル３１０Ａ〜３１０Ｄの上に積層され得る積層メモリデバイスである。１つの実施形態において、各グラフィックスエンジンタイル３１０Ａ〜３１０Ｄ及び関連するメモリ３２６Ａ〜３２６Ｄは別個のチップレットに存在し、これらのチップレットは、図１１Ｂ〜図１１Ｄでさらに詳細に説明されるように、ベースダイ又はベース基板に接合される。

グラフィックス処理エンジンクラスタ３２２は、オンチップ又はオンパッケージファブリック相互接続３２４と接続できる。ファブリック相互接続３２４は、グラフィックスエンジンタイル３１０Ａ〜３１０Ｄと、ビデオコーデック３０６及び１つ又は複数のコピーエンジン３０４などのコンポーネントとの間の通信を可能にし得る。コピーエンジン３０４は、メモリデバイス３２６Ａ〜３２６Ｄとの間で、またメモリデバイス３２６Ａ〜３２６Ｄと、グラフィックスプロセッサ３２０の外部にあるメモリ（例えば、システムメモリ）との間で、データを移動するのに用いられてよい。ファブリック相互接続３２４は、グラフィックスエンジンタイル３１０Ａ〜３１０Ｄを相互接続するのにも用いられてよい。グラフィックスプロセッサ３２０は、外付けディスプレイデバイス３１８との接続を可能にするためのディスプレイコントローラ３０２を任意選択で含んでよい。グラフィックスプロセッサはまた、グラフィックスアクセラレータ又はコンピュートアクセラレータとして構成されてよい。アクセラレータ構成において、ディスプレイコントローラ３０２及びディスプレイデバイス３１８は省略されてよい。

グラフィックスプロセッサ３２０は、ホストインタフェース３２８を介してホストシステムに接続できる。ホストインタフェース３２８は、グラフィックスプロセッサ３２０、システムメモリ、及び／又は他のシステムコンポーネントとの間の通信を可能にし得る。ホストインタフェース３２８は、例えば、ＰＣＩＥｘｐｒｅｓｓバス又は別の種類のホストシステムインタフェースであってよい。

図３Ｃは、本明細書で説明される実施形態によるコンピュートアクセラレータ３３０を示す。コンピュートアクセラレータ３３０は、図３Ｂのグラフィックスプロセッサ３２０とのアーキテクチャ上の類似点を含んでよく、コンピュートアクセラレーション用に最適化されている。コンピュートエンジンクラスタ３３２が、並列又はベクトルベースの汎用コンピュートオペレーション用に最適化された実行ロジックを含むコンピュートエンジンタイル３４０Ａ〜３４０Ｄのセットを含むことができる。いくつかの実施形態において、コンピュートエンジンタイル３４０Ａ〜３４０Ｄは固定機能グラフィックス処理ロジックを含まないが、１つの実施形態において、コンピュートエンジンタイル３４０Ａ〜３４０Ｄのうちの１つ又は複数が、メディアアクセラレーションを行うためのロジックを含むことができる。コンピュートエンジンタイル３４０Ａ〜３４０Ｄは、メモリ相互接続３２５Ａ〜３２５Ｄを介してメモリ３２６Ａ〜３２６Ｄに接続できる。メモリ３２６Ａ〜３２６Ｄ及びメモリ相互接続３２５Ａ〜３２５Ｄは、グラフィックスプロセッサ３２０に見られるのと同様の技術であってよく、又は異なっていてもよい。グラフィックスコンピュートエンジンタイル３４０Ａ〜３４０Ｄは、タイル相互接続３２３Ａ〜３２３Ｆのセットを介して相互接続されてもよく、ファブリック相互接続３２４と接続されてもよく且つ／又はファブリック相互接続３２４によって相互接続されてもよい。１つの実施形態において、コンピュートアクセラレータ３３０は、デバイス全体のキャッシュとして構成され得る大容量のＬ３キャッシュ３３６を含む。コンピュートアクセラレータ３３０は、図３Ｂのグラフィックスプロセッサ３２０と同様の方式で、ホストインタフェース３２８を介してホストプロセッサ及びメモリにも接続できる。
［グラフィックス処理エンジン］

図４は、いくつかの実施形態による、グラフィックスプロセッサのグラフィックス処理エンジン４１０のブロック図である。１つの実施形態において、グラフィックス処理エンジン（ＧＰＥ）４１０は、図３Ａに示すＧＰＥ３１０のあるバージョンであり、図３Ｂのグラフィックスエンジンタイル３１０Ａ〜３１０Ｄを表してもよい。図４の要素で、本明細書における任意の他の図の要素と同じ参照番号（又は名称）を有する要素は、本明細書のどこか他の箇所で説明される方式と同様な任意の方式で動作する又は機能することができるが、そのように限定されることはない。例えば、図３Ａの３Ｄパイプライン３１２及びメディアパイプライン３１６が示されている。メディアパイプライン３１６は、ＧＰＥ４１０のいくつかの実施形態において任意選択であり、ＧＰＥ４１０に明示的に含まれなくてもよい。例えば少なくとも１つの実施形態において、別個のメディア及び／又はイメージプロセッサがＧＰＥ４１０に連結される。

いくつかの実施形態において、ＧＰＥ４１０は、コマンドストリームを３Ｄパイプライン３１２及び／又はメディアパイプライン３１６に提供するコマンドストリーマ４０３と連結する、又はコマンドストリーマ４０３を含む。いくつかの実施形態において、コマンドストリーマ４０３はメモリと連結され、このメモリはシステムメモリであっても、内蔵キャッシュメモリ及び共有キャッシュメモリのうちの１つ又は複数であってもよい。いくつかの実施形態において、コマンドストリーマ４０３はコマンドをメモリから受信し、このコマンドを３Ｄパイプライン３１２及び／又はメディアパイプライン３１６に送信する。これらのコマンドは、リングバッファからフェッチされる命令であり、リングバッファは、３Ｄパイプライン３１２及びメディアパイプライン３１６用のコマンドを格納する。１つの実施形態において、リングバッファはさらに、複数のコマンド群を格納するバッチコマンドバッファを含むことができる。３Ｄパイプライン３１２用のコマンドは、メモリに格納されるデータへの参照も含むことができ、この参照は、限定されることはないが、３Ｄパイプライン３１２用の頂点データ及びジオメトリデータ、並びに／又はメディアパイプライン３１６用の画像データ及びメモリオブジェクトなどである。３Ｄパイプライン３１２及びメディアパイプライン３１６は、それぞれのパイプライン内のロジックを介してオペレーションを行うことにより、又は１つ又は複数の実行スレッドをグラフィックスコアアレイ４１４にディスパッチすることにより、コマンド及びデータを処理する。１つの実施形態において、グラフィックスコアアレイ４１４は、１つ又は複数のブロックのグラフィックスコア（例えば、グラフィックスコア４１５Ａ、グラフィックスコア４１５Ｂ）を含み、各ブロックは１つ又は複数のグラフィックスコアを含む。各グラフィックスコアは、グラフィックスオペレーション及びコンピュートオペレーションを行うための汎用実行ロジック及び特定グラフィックス向け実行ロジック、並びに固定機能テクスチャ処理及び／又は機械学習人工知能アクセラレーションロジックを含むグラフィックス実行リソースのセットを含む。

様々な実施形態において、３Ｄパイプライン３１２は、命令を処理して実行スレッドをグラフィックスコアアレイ４１４にディスパッチすることにより１つ又は複数のシェーダプログラムを処理するための固定機能ロジック及びプログラム可能型ロジックを含むことができる。シェーダプログラムとは、頂点シェーダ、ジオメトリシェーダ、ピクセルシェーダ、フラグメントシェーダ、コンピュートシェーダ、又は他のシェーダプログラムなどである。グラフィックスコアアレイ４１４は、これらのシェーダプログラムの処理に用いるために、統合された実行リソースのブロックを提供する。グラフィックスコアアレイ４１４のグラフィックスコア４１５Ａ〜４１５Ｂ内の多目的実行ロジック（例えば、実行ユニット）が、様々な３ＤＡＰＩシェーダ言語に対するサポートを含み、複数のシェーダに関連した複数の同時実行スレッドを実行できる。

いくつかの実施形態において、グラフィックスコアアレイ４１４は、映像処理及び／又は画像処理などのメディア機能を実行するための実行ロジックを含む。１つの実施形態において、実行ユニットは、グラフィックス処理オペレーションのほかに、並列汎用計算オペレーションを行うようにプログラム可能な汎用ロジックを含む。汎用ロジックは、図１のプロセッサコア１０７又は図２Ａに見られるようなコア２０２Ａ〜２０２Ｎの中にある汎用ロジックと並行して又は連動して、処理オペレーションを実行できる。

グラフィックスコアアレイ４１４で実行するスレッドにより生成される出力データが、統合リターンバッファ（ＵＲＢ）４１８内のメモリにデータを出力できる。ＵＲＢ４１８は、複数のスレッドのデータを格納できる。いくつかの実施形態において、ＵＲＢ４１８は、グラフィックスコアアレイ４１４で実行する異なるスレッド間でデータを送信するのに用いられてよい。いくつかの実施形態において、ＵＲＢ４１８はさらに、グラフィックスコアアレイのスレッドと共有機能ロジック４２０内の固定機能ロジックとの間の同期に用いられてもよい。

いくつかの実施形態において、グラフィックスコアアレイ４１４はスケーラブルなので、このアレイは可変数のグラフィックスコアを含み、それぞれがＧＰＥ４１０の目標電力及び性能レベルに基づいて可変数の実行ユニットを有する。１つの実施形態において、これらの実行リソースは動的にスケーラブルであるため、必要に応じて実行リソースを有効にしても無効にしてもよい。

グラフィックスコアアレイ４１４は、グラフィックスコアアレイ内のグラフィックスコア間で共有される複数のリソースを含む共有機能ロジック４２０と連結する。共有機能ロジック４２０内の共有機能は、専用の補足的な機能をグラフィックスコアアレイ４１４に提供するハードウェアロジックユニットである。様々な実施形態において、共有機能ロジック４２０は、限定されることはないが、サンプラロジック４２１、数学ロジック４２２、及びスレッド間通信（ＩＴＣ）ロジック４２３を含む。さらに、いくつかの実施形態が、共有機能ロジック４２０内に１つ又は複数のキャッシュ４２５を実装する。

共有機能が実装されるのは、少なくとも、所与の専用機能に対する要求がグラフィックスコアアレイ４１４内に含めるには不十分になる場合である。代わりに、この専用機能の単一のインスタンス化が、スタンドアロンエンティティとして共有機能ロジック４２０に実装され、グラフィックスコアアレイ４１４内の実行リソースの間で共有される。グラフィックスコアアレイ４１４の間で共有され、グラフィックスコアアレイ４１４内に含まれる正確な機能のセットは、複数の実施形態全体で変化する。いくつかの実施形態において、グラフィックスコアアレイ４１４によって広く用いられる、共有機能ロジック４２０内の特定の共有機能が、グラフィックスコアアレイ４１４内の共有機能ロジック４１６に含まれてよい。様々な実施形態において、グラフィックスコアアレイ４１４内の共有機能ロジック４１６は、共有機能ロジック４２０内の一部又は全てのロジックを含むことができる。１つの実施形態において、共有機能ロジック４２０内の全てのロジック要素は、グラフィックスコアアレイ４１４の共有機能ロジック４１６内のロジック要素と重複してもよい。１つの実施形態において、共有機能ロジック４２０は、グラフィックスコアアレイ４１４内の共有機能ロジック４１６を優先して除外される。
［実行ユニット］

図５Ａ〜図５Ｂは、本明細書で説明される実施形態による、グラフィックスプロセッサコアで利用される処理要素のアレイを含むスレッド実行ロジック５００を示す。図５Ａ〜図５Ｂの要素で、本明細書における任意の他の図の要素と同じ参照番号（又は名称）を有する要素は、本明細書のどこか他の箇所で説明される方式と同様な任意の方式で動作する又は機能することができるが、そのように限定されることはない。図５Ａ〜図５Ｂは、スレッド実行ロジック５００の概要を示しており、スレッド実行ロジック５００は、図２Ｂの各サブコア２２１Ａ〜２２１Ｆを用いて示されるハードウェアロジックを代表してよい。図５Ａは、汎用グラフィックスプロセッサ内の実行ユニットを代表しており、図５Ｂは、コンピュートアクセラレータ内で用いられ得る実行ユニットを代表している。

図５Ａに示すように、いくつかの実施形態において、スレッド実行ロジック５００は、シェーダプロセッサ５０２と、スレッドディスパッチャ５０４と、命令キャッシュ５０６と、複数の実行ユニット５０８Ａ〜５０８Ｎを含むスケーラブルな実行ユニットアレイと、サンプラ５１０と、共有ローカルメモリ５１１と、データキャッシュ５１２と、データポート５１４とを含む。１つの実施形態において、スケーラブルな実行ユニットアレイは、ワークロードの計算要件に基づいて１つ又は複数の実行ユニット（例えば、実行ユニット５０８Ａ、５０８Ｂ、５０８Ｃ、５０８Ｄ、…、５０８Ｎ−１、及び５０８Ｎのうちのいずれか）を有効にする又は無効にすることにより、動的にスケーリングすることができる。１つの実施形態において、含まれているコンポーネントは、これらのコンポーネントのそれぞれに接続する相互接続ファブリックを介して相互接続される。いくつかの実施形態において、スレッド実行ロジック５００は、命令キャッシュ５０６、データポート５１４、サンプラ５１０、及び実行ユニット５０８Ａ〜５０８Ｎのうちの１つ又は複数を通じて、システムメモリ又はキャッシュメモリなどのメモリへの１つ又は複数の接続部を含む。いくつかの実施形態において、各実行ユニット（例えば、５０８Ａ）は、複数の同時ハードウェアスレッドを実行しながら、並行してスレッドごとに複数のデータ要素を処理できるスタンドアロン型のプログラム可能な汎用計算ユニットである。様々な実施形態において、実行ユニット５０８Ａ〜５０８Ｎのアレイは、任意の数の個々の実行ユニットを含むようにスケーラブルである。

いくつかの実施形態において、実行ユニット５０８Ａ〜５０８Ｎは主として、シェーダプログラムを実行するのに用いられる。シェーダプロセッサ５０２は、様々なシェーダプログラムを処理し、スレッドディスパッチャ５０４を介して、シェーダプログラムに関連した実行スレッドをディスパッチすることができる。１つの実施形態において、スレッドディスパッチャは、グラフィックスパイプライン及びメディアパイプラインからのスレッド開始要求を調整し、要求されたスレッドを実行ユニット５０８Ａ〜５０８Ｎのうちの１つ又は複数の実行ユニット上にインスタンス化するためのロジックを含む。例えば、ジオメトリパイプラインが、頂点シェーダ、テッセレーションシェーダ、又はジオメトリシェーダを処理のためにスレッド実行ロジックにディスパッチできる。いくつかの実施形態において、スレッドディスパッチャ５０４は、実行中のシェーダプログラムからのランタイムスレッド生成要求を処理することもできる。

いくつかの実施形態において、実行ユニット５０８Ａ〜５０８Ｎは、多くの標準的な３Ｄグラフィックスシェーダ命令に対するネイティブサポートを含む命令セットをサポートしているので、グラフィックスライブラリからのシェーダプログラム（例えば、Ｄｉｒｅｃｔ３Ｄ及びＯｐｅｎＧＬ）が最小限の変換で実行されるようになる。実行ユニットは、頂点処理及びジオメトリ処理（例えば、頂点プログラム、ジオメトリプログラム、頂点シェーダ）、ピクセル処理（例えば、ピクセルシェーダ、フラグメントシェーダ）、並びに汎用処理（例えば、コンピュートシェーダ及びメディアシェーダ）をサポートしている。実行ユニット５０８Ａ〜５０８Ｎのそれぞれは、マルチ発行単一命令多重データ（ＳＩＭＤ）実行が可能であり、マルチスレッドオペレーションによって、高遅延のメモリアクセスにもかかわらず効率的な実行環境が可能になる。各実行ユニット内の各ハードウェアスレッドは、専用の高帯域幅レジスタファイル及び関連する独立したスレッド状態を有する。実行は、整数演算、単精度及び倍精度の浮動小数点演算、ＳＩＭＤ分岐性能、論理演算、超越演算、並びに他の雑演算が可能なパイプラインに対して、クロックごとのマルチ発行である。メモリ又は複数の共有機能のうちの１つからのデータを待つ間に、実行ユニット５０８Ａ〜５０８Ｎ内の依存性ロジックが、要求したデータが戻ってくるまで、待機中のスレッドをスリープ状態にさせる。待機中のスレッドがスリープしている間、ハードウェアリソースが他のスレッドの処理に当てられてよい。例えば、頂点シェーダオペレーションに関連した遅延の際に、実行ユニットが、異なる頂点シェーダを含むピクセルシェーダ、フラグメントシェーダ、又は別の種類のシェーダプログラムのオペレーションを実行できる。様々な実施形態が、ＳＩＭＤの使用に対する代替として又はＳＩＭＤの使用に加えて、単一命令多重スレッド（ＳＩＭＴ）を使用して実行を用いるのに適用できる。ＳＩＭＤコア又はオペレーションへの参照が、ＳＩＭＴにも適用でき、ＳＩＭＴと組み合わせてＳＩＭＤにも適用できる。

実行ユニット５０８Ａ〜５０８Ｎ内の各実行ユニットは、データ要素のアレイ上で動作する。データ要素の数は、「実行サイズ」又は命令に対するチャネルの数である。実行チャネルが、データ要素アクセス、マスキング、及び命令内のフロー制御についての実行の論理ユニットである。チャネルの数は、特定のグラフィックスプロセッサ用の物理的な算術論理ユニット（ＡＬＵ）又は浮動小数点ユニット（ＦＰＵ）の数とは無関係であってよい。いくつかの実施形態において、実行ユニット５０８Ａ〜５０８Ｎは、整数データ型及び浮動小数点データ型をサポートする。

実行ユニットの命令セットは、ＳＩＭＤ命令を含む。様々なデータ要素は、パックドデータ型としてレジスタに格納されてよく、実行ユニットは、これらの要素のデータサイズに基づいて様々な要素を処理することになる。例えば、２５６ビット幅のベクトルを処理する場合、２５６ビットのベクトルはレジスタに格納され、実行ユニットは、４個の別個の６４ビットパックドデータ要素（クアッドワード（ＱＷ）サイズのデータ要素）、８個の別個の３２ビットパックドデータ要素（ダブルワード（ＤＷ）サイズのデータ要素）、１６個の別個の１６ビットパックドデータ要素（ワード（Ｗ）サイズのデータ要素）、又は３２個の別個の８ビットデータ要素（バイト（Ｂ）サイズのデータ要素）としてベクトルを処理する。しかしながら、異なるベクトル幅及びレジスタサイズが可能である。

１つの実施形態において、１つ又は複数の実行ユニットは、融合ＥＵに共通なスレッド制御ロジック（５０７Ａ〜５０７Ｎ）を有する融合実行ユニット５０９Ａ〜５０９Ｎに組み合わされ得る。複数のＥＵは、ＥＵグループに融合され得る。融合ＥＵグループ内の各ＥＵは、別個のＳＩＭＤハードウェアスレッドを実行するように構成され得る。融合ＥＵグループ内のＥＵの数は、実施形態に応じて変化し得る。さらに、限定されることはないが、ＳＩＭＤ８、ＳＩＭＤ１６、ＳＩＭＤ３２を含む様々なＳＩＭＤ幅が、ＥＵごとに実行され得る。それぞれの融合されたグラフィックス実行ユニット５０９Ａ〜５０９Ｎは、少なくとも２つの実行ユニットを含む。例えば、融合実行ユニット５０９Ａは、第１のＥＵ５０８Ａと、第２のＥＵ５０８Ｂと、第１のＥＵ５０８Ａ及び第２のＥＵ５０８Ｂに共通なスレッド制御ロジック５０７Ａとを含む。スレッド制御ロジック５０７Ａは、融合されたグラフィックス実行ユニット５０９Ａで実行されるスレッドを制御し、融合実行ユニット５０９Ａ〜５０９Ｎ内の各ＥＵが共通の命令ポインタレジスタを用いて実行することを可能にする。

実行ユニット用のスレッド命令をキャッシュに格納するために、１つ又は複数の内蔵命令キャッシュ（例えば、５０６）がスレッド実行ロジック５００に含まれる。いくつかの実施形態において、スレッド実行時にスレッドデータをキャッシュに格納するために、１つ又は複数のデータキャッシュ（例えば、５１２）が含まれる。実行ロジック５００で実行するスレッドが、明示的に管理されたデータを共有ローカルメモリ５１１に格納することもできる。いくつかの実施形態において、テクスチャサンプリングを３Ｄオペレーションに提供し、またメディアサンプリングをメディアオペレーションに提供するために、サンプラ５１０が含まれる。いくつかの実施形態において、サンプラ５１０は、サンプリングデータを実行ユニットに提供する前のサンプリングプロセスの際にテクスチャデータ又はメディアデータを処理するための、専用のテクスチャ又はメディアサンプリング機能を含む。

グラフィックス及びメディアパイプラインは実行時に、スレッド生成ディスパッチロジックを介して、スレッド開始要求をスレッド実行ロジック５００に送信する。ジオメトリックオブジェクトのグループが処理されてピクセルデータにラスタ化されると、シェーダプロセッサ５０２内のピクセルプロセッサロジック（例えば、ピクセルシェーダロジック、フラグメントシェーダロジックなど）が呼び出され、さらに出力情報を計算して、結果を出力表面（例えば、カラーバッファ、デプスバッファ、ステンシルバッファなど）に書き込ませる。いくつかの実施形態において、ピクセルシェーダ又はフラグメントシェーダが、ラスタ化されたオブジェクト全体で補間される様々な頂点属性の値を計算する。いくつかの実施形態において、シェーダプロセッサ５０２内のピクセルプロセッサロジックが、次いで、アプリケーションプログラミングインタフェース（ＡＰＩ）により供給されるピクセルシェーダプログラム又はフラグメントシェーダプログラムを実行する。シェーダプログラムを実行するために、シェーダプロセッサ５０２は、スレッドディスパッチャ５０４を介して、スレッドを実行ユニット（例えば、５０８Ａ）にディスパッチする。いくつかの実施形態において、シェーダプロセッサ５０２は、サンプラ５１０内のテクスチャサンプリングロジックを用いて、メモリに格納されたテクスチャマップ内のテクスチャデータにアクセスする。テクスチャデータ及び入力ジオメトリデータに対する算術演算が、ジオメトリックフラグメントごとにピクセルカラーデータを計算する、又はさらなる処理から１つ又は複数のピクセルを破棄する。

いくつかの実施形態において、データポート５１４はメモリアクセスメカニズムをスレッド実行ロジック５００に提供し、グラフィックスプロセッサ出力パイプラインでのさらなる処理のために、処理されたデータをメモリに出力する。いくつかの実施形態において、データポート５１４は、データポートを介してメモリアクセス用のデータをキャッシュに格納するための１つ又は複数のキャッシュメモリ（例えば、データキャッシュ５１２）を含む又はこれに連結する。

１つの実施形態において、実行ロジック５００は、レイトレーシングアクセラレーション機能を提供できるレイトレーサ５０５を含むこともできる。レイトレーサ５０５は、レイ生成用の命令／機能を含むレイトレーシング命令セットをサポートできる。レイトレーシング命令セットは、図２Ｃのレイトレーシングコア２４５によりサポートされるレイトレーシング命令セットと同様であっても、異なっていてもよい。

図５Ｂは、複数の実施形態による、実行ユニット５０８の例示的な内部詳細を示す。グラフィックス実行ユニット５０８が、命令フェッチユニット５３７と、汎用レジスタファイルアレイ（ＧＲＦ）５２４と、アーキテクチャレジスタファイルアレイ（ＡＲＦ）５２６と、スレッドアービタ５２２と、送信ユニット５３０と、分岐ユニット５３２と、ＳＩＭＤ浮動小数点ユニット（ＦＰＵ）５３４のセットと、１つの実施形態において専用整数ＳＩＭＤＡＬＵ５３５のセットとを含むことができる。ＧＲＦ５２４及びＡＲＦ５２６は、グラフィックス実行ユニット５０８において有効になり得るそれぞれの同時ハードウェアスレッドに関連した汎用レジスタファイル及びアーキテクチャレジスタファイルのセットを含む。１つの実施形態において、スレッドごとのアーキテクチャ状態がＡＲＦ５２６に維持され、スレッド実行時に用いられるデータがＧＲＦ５２４に格納される。スレッドごとの命令ポインタを含む、各スレッドの実行状態は、ＡＲＦ５２６の特定スレッド向けレジスタに保持され得る。

１つの実施形態において、グラフィックス実行ユニット５０８は、同時マルチスレッディング（ＳＭＴ）と細粒度のインターリーブ型マルチスレッディング（ＩＭＴ）とを組み合わせたアーキテクチャを有する。このアーキテクチャは、同時スレッドの目標数及び実行ユニットごとのレジスタの数に基づいて設計時に微調整され得るモジュール構成を有し、実行ユニットリソースが、複数の同時スレッドを実行するのに用いられるロジック全体にわたって分割される。グラフィックス実行ユニット５０８により実行され得る論理スレッドの数は、ハードウェアスレッドの数に限定されることはなく、複数の論理スレッドが各ハードウェアスレッドに割り当てられ得る。

１つの実施形態において、グラフィックス実行ユニット５０８は複数の命令を同時発行することができ、これらの命令はそれぞれ異なる命令であってよい。グラフィックス実行ユニットスレッド５０８のスレッドアービタ５２２は、送信ユニット５３０、分岐ユニット５３２、又はＳＩＭＤＦＰＵ５３４のうちの１つに命令を実行のためにディスパッチできる。各実行スレッドは、ＧＲＦ５２４内の１２８個の汎用レジスタにアクセスでき、各レジスタは、３２ビットデータ要素のＳＩＭＤ８−要素ベクトルとしてアクセス可能な３２バイトを格納できる。１つの実施形態において、各実行ユニットスレッドは、ＧＲＦ５２４内の４Ｋバイトにアクセスできるが、複数の実施形態はそのように限定されず、他の実施形態では、それより多い又は少ないレジスタリソースが提供されてもよい。１つの実施形態において、グラフィックス実行ユニット５０８は、７個のハードウェアスレッドに区切られ、これらのハードウェアスレッドは計算オペレーションを独立して実行できるが、実行ユニットごとのスレッドの数は実施形態に応じて変化してもよい。例えば、１つの実施形態において、最大１６個のハードウェアスレッドがサポートされる。７個のスレッドが４Ｋバイトにアクセスし得る一実施形態において、ＧＲＦ５２４は合計２８Ｋバイトを格納できる。１６個のスレッドが４Ｋバイトにアクセスし得る場合、ＧＲＦ５２４は、合計６４Ｋバイトを格納できる。柔軟なアドレス指定モードによって、複数のレジスタが一緒にアドレス指定されて、効果的に幅の広いレジスタが構築される又は順次配置された矩形ブロック型データ構造を表すことが可能になり得る。

１つの実施形態において、メモリオペレーション、サンプラオペレーション、及び他の長遅延システム通信が、メッセージ受け渡し送信ユニット５３０により実行される「送信」命令を介してディスパッチされる。１つの実施形態において、ＳＩＭＤダイバージェンス及び最終的なコンバージェンスを容易にするために、分岐命令が専用分岐ユニット５３２にディスパッチされる。

１つの実施形態において、グラフィックス実行ユニット５０８は、浮動小数点演算を実行するために、１つ又は複数のＳＩＭＤ浮動小数点ユニット（ＦＰＵ）５３４を含む。１つの実施形態において、ＦＰＵ５３４は、整数計算もサポートする。１つの実施形態において、ＦＰＵ５３４は、最大Ｍ個の３２ビット浮動小数点（又は整数）演算をＳＩＭＤで実行できる、又は最大２Ｍ個の１６ビット整数演算若しくは１６ビット浮動小数点演算をＳＩＭＤで実行できる。１つの実施形態において、ＦＰＵのうちの少なくとも１つが拡張数学機能を提供して、高スループット超越数学機能及び倍精度５４ビット浮動小数点をサポートする。いくつかの実施形態において、８ビット整数ＳＩＭＤＡＬＵ５３５のセットも存在し、機械学習計算に関連したオペレーションを実行するように特に最適化されてよい。

１つの実施形態において、グラフィックス実行ユニット５０８の複数のインスタンスのアレイが、グラフィックスサブコアグループ（例えば、サブスライス）にインスタンス化され得る。拡張性については、製品設計者がサブコアグループごとに正確な数の実行ユニットを選択できる。１つの実施形態において、実行ユニット５０８は、複数の実行チャネル全体にわたって命令を実行できる。さらなる実施形態において、グラフィックス実行ユニット５０８で実行される各スレッドは、異なるチャネルで実行される。

図６は、一実施形態による追加の実行ユニット６００を示す。実行ユニット６００は、例えば、図３Ｃに見られるようなコンピュートエンジンタイル３４０Ａ〜３４０Ｄに用いるためのコンピュート最適化実行ユニットであってよいが、そのように限定されることはない。実行ユニット６００の変形例も、図３Ｂに見られるようなグラフィックスエンジンタイル３１０Ａ〜３１０Ｄに用いられてよい。１つの実施形態において、実行ユニット６００は、スレッド制御ユニット６０１と、スレッド状態ユニット６０２と、命令フェッチ／プリフェッチユニット６０３と、命令復号ユニット６０４とを含む。実行ユニット６００はさらに、実行ユニット内のハードウェアスレッドに割り当てられ得るレジスタを格納するレジスタファイル６０６を含む。実行ユニット６００はさらに、送信ユニット６０７と分岐ユニット６０８とを含む。１つの実施形態において、送信ユニット６０７及び分岐ユニット６０８は、図５Ｂのグラフィックス実行ユニット５０８の送信ユニット５３０及び分岐ユニット５３２と同様に動作できる。

実行ユニット６００は、複数の異なる種類の機能ユニットを含むコンピュートユニット６１０も含む。１つの実施形態において、コンピュートユニット６１０は、算術論理ユニットのアレイを含むＡＬＵユニット６１１を含む。ＡＬＵユニット６１１は、６４ビット、３２ビット、及び１６ビットの整数演算及び浮動小数点演算を行うように構成され得る。整数演算及び浮動小数点演算は、同時に行われてもよい。コンピュートユニット６１０は、シストリックアレイ６１２及び数学ユニット６１３も含み得る。シストリックアレイ６１２は、シストリック方式でベクトル演算又は他のデータ並列演算を行うのに用いられ得るデータ処理ユニットの広く（Ｗ）深い（Ｄ）ネットワークを含む。１つの実施形態において、シストリックアレイ６１２は、行列ドット積演算などの行列演算を行うように構成され得る。１つの実施形態において、シストリックアレイ６１２は、１６ビット浮動小数点演算、並びに８ビット及び４ビットの整数演算をサポートする。１つの実施形態において、シストリックアレイ６１２は、機械学習オペレーションを加速するように構成され得る。そのような実施形態において、シストリックアレイ６１２は、ｂｆｌｏａｔ１６ビット浮動小数点フォーマットをサポートするように構成され得る。１つの実施形態において、数学ユニット６１３は、数学演算の特定のサブセットを効率的に且つＡＬＵユニット６１１より低電力方式で行うために含まれ得る。数学ユニット６１３は、他の実施形態により提供されるグラフィックス処理エンジンの共有機能ロジックに見られ得る数学ロジック（例えば、図４の共有機能ロジック４２０の数学ロジック４２２）の変形例を含むことができる。１つの実施形態において、数学ユニット６１３は、３２ビット及び６４ビットの浮動小数点演算を実行するように構成され得る。

スレッド制御ユニット６０１は、実行ユニット内のスレッドの実行を制御するためのロジックを含む。スレッド制御ユニット６０１は、実行ユニット６００内のスレッドの実行を開始する、停止する、プリエンプトするためのスレッド調整ロジックを含み得る。スレッド状態ユニット６０２は、実行ユニット６００で実行するように割り当てられたスレッドのスレッド状態を格納するのに用いられ得る。スレッド状態を実行ユニット６００に格納することで、これらのスレッドがブロックされた又はアイドルになったときに、スレッドの迅速なプリエンプションが可能になる。命令フェッチ／プリフェッチユニット６０３は、上位レベルの実行ロジックの命令キャッシュ（例えば、図５Ａに見られるような命令キャッシュ５０６）から命令をフェッチできる。命令フェッチ／プリフェッチユニット６０３は、現在実行中のスレッドの分析に基づいて、命令キャッシュにロードされる命令に対してプリフェッチ要求を発行することもできる。命令復号ユニット６０４は、コンピュートユニットにより実行される命令を復号するのに用いられ得る。１つの実施形態において、命令復号ユニット６０４は、複雑な命令を復号して構成要素のマイクロオペレーションにする二次復号器として用いられ得る。

実行ユニット６００はさらに、実行ユニット６００で実行するハードウェアスレッドにより用いられ得るレジスタファイル６０６を含む。レジスタファイル６０６のレジスタが、実行ユニット６００のコンピュートユニット６１０内の複数の同時スレッドを実行するのに用いられるロジック全体にわたり分割され得る。グラフィックス実行ユニット６００により実行され得る論理スレッドの数は、ハードウェアスレッドの数に限定されることはなく、複数の論理スレッドが各ハードウェアスレッドに割り当てられ得る。レジスタファイル６０６のサイズは、サポートされるハードウェアスレッドの数に基づいて、実施形態によって変化し得る。１つの実施形態において、レジスタリネーミングが、ハードウェアスレッドにレジスタを動的に割り当てるのに用いられてよい。

図７は、いくつかの実施形態によるグラフィックスプロセッサの命令フォーマット７００を示すブロック図である。１つ又は複数の実施形態において、グラフィックスプロセッサ実行ユニットは複数フォーマットの命令を有する命令セットをサポートする。実線の枠は、一般的に実行ユニット命令に含まれるコンポーネントを示し、破線は、任意選択のコンポーネント又は命令のサブセットだけに含まれるコンポーネントを含む。いくつかの実施形態において、説明され且つ示される命令フォーマット７００はマクロ命令である。これらのマクロ命令は実行ユニットに供給される命令であり、命令が処理されるごとに命令を復号して生じるマイクロオペレーションとは異なる。

いくつかの実施形態において、グラフィックスプロセッサ実行ユニットは１２８ビット命令フォーマット７１０の命令をネイティブにサポートする。６４ビット圧縮命令フォーマット７３０が、選択された命令、命令オプション、及びオペランドの数に基づいて、いくつかの命令に利用可能である。ネイティブの１２８ビット命令フォーマット７１０は全ての命令オプションへのアクセスを提供し、いくつかのオプション及びオペレーションが６４ビットフォーマット７３０に制限される。６４ビットフォーマット７３０で利用可能なネイティブ命令は、実施形態によって変わる。いくつかの実施形態において、命令は、インデックスフィールド７１３内のインデックス値のセットを用いて部分的に圧縮される。実行ユニットハードウェアは、インデックス値に基づいて圧縮テーブルのセットを参照し、圧縮テーブルの出力を用いて、ネイティブ命令を１２８ビット命令フォーマット７１０で再構築する。命令の他のサイズ及びフォーマットが用いられてもよい。

フォーマットごとに、命令オペコード７１２が、実行ユニットが実行するオペレーションを定義する。実行ユニットは、各オペランドの複数のデータ要素全体に対して、各命令を並行して実行する。例えば、加算命令に応答して、実行ユニットは、テクスチャエレメント又はピクチャエレメントを表す各カラーチャネルに対して同時加算演算を行う。デフォルトでは、実行ユニットは、オペランドの全てのデータチャネルに対して各命令を行う。いくつかの実施形態において、命令制御フィールド７１４が、チャネル選択（例えば、プレディケーション）、データチャネルオーダ（例えば、スウィズル）などの特定の実行オプションに対する制御を可能にする。１２８ビット命令フォーマット７１０の命令では、実行サイズフィールド７１６が、並行して実行されるデータチャネルの数を制限する。いくつかの実施形態において、実行サイズフィールド７１６は、６４ビット圧縮命令フォーマット７３０に使用できない。

いくつかの実行ユニット命令は、２つのソースオペランドであるｓｒｃ０７２０及びｓｒｃ１７２２と１つのデスティネーション７１８を含む最大３つのオペランドを有する。いくつかの実施形態において、実行ユニットは、デュアルデスティネーション命令をサポートし、これらのデスティネーションのうちの１つが示唆される。データ操作命令が第３のソースオペランド（例えば、ＳＲＣ２７２４）を有することができ、命令オペコード７１２はソースオペランドの数を決定する。命令の最後のソースオペランドが、命令と共に送られる直の（例えば、ハードコードされた）値であってよい。

いくつかの実施形態において、１２８ビット命令フォーマット７１０は、例えば、直接的なレジスタアドレス指定モードが用いられるのか、又は間接的なレジスタアドレス指定モードが用いられるのかを指定するアクセス／アドレスモードフィールド７２６を含む。直接的なレジスタアドレス指定モードが用いられる場合、１つ又は複数のオペランドのレジスタアドレスは、ビットごとに命令で直接的に提供される。

いくつかの実施形態において、１２８ビット命令フォーマット７１０は、命令のアドレスモード及び／又はアクセスモードを指定するアクセス／アドレスモードフィールド７２６を含む。１つの実施形態において、アクセスモードは、命令のデータアクセスアライメントを定義するのに用いられる。いくつかの実施形態が、１６バイト単位で揃えたアクセスモード及び１バイト単位で揃えたアクセスモードを含むアクセスモードをサポートし、アクセスモードのバイトアライメントは、命令オペランドのアクセスアライメントを決定する。例えば、第１のモードの場合、命令は、バイト単位で揃えたアドレス指定をソースオペランド及びデスティネーションオペランドに用いてよく、第２のモードの場合、命令は、１６バイト単位で揃えたアドレス指定を全てのソースオペランド及びデスティネーションオペランドに用いてよい。

１つの実施形態において、アクセス／アドレスモードフィールド７２６のアドレスモード部分は、命令が直接的なアドレス指定を用いるのか又は間接的なアドレス指定を用いるのかを決定する。直接的なレジスタアドレス指定モードが用いられる場合、命令内のビットが１つ又は複数のオペランドのレジスタアドレスを直接的に提供する。間接的なレジスタアドレス指定モードが用いられる場合、１つ又は複数のオペランドのレジスタアドレスは、命令内のアドレスレジスタ値及びアドレス即値フィールドに基づいて計算されてよい。

いくつかの実施形態において、オペコード復号７４０を簡略化するために、命令がオペコード７１２のビットフィールドに基づいてグループ化される。８ビットオペコードの場合、ビット４、５、及び６によって、実行ユニットがオペコードの種類を決定することが可能になる。示されている、まさにそのオペコードのグループ化は、単なる一例である。いくつかの実施形態において、移動及び論理オペコードグループ７４２が、データ移動命令及び論理命令（例えば、移動（ｍｏｖ）、比較（ｃｍｐ））を含む。いくつかの実施形態において、移動及び論理グループ７４２は、５つの最上位ビット（ＭＳＢ）を共有し、移動（ｍｏｖ）命令は００００ｘｘｘｘｂの形態であり、論理命令は０００１ｘｘｘｘｂの形態である。フロー制御命令グループ７４４（例えば、コール、ジャンプ（ｊｍｐ））が、００１０ｘｘｘｘｂ（例えば、０×２０）の形態で命令を含む。雑命令グループ７４６が、複数の命令の混合を含み、同期命令（例えば、待機、送信）を００１１ｘｘｘｘｂ（例えば、０×３０）の形態で含む。並列数学命令グループ７４８が、０１００ｘｘｘｘｂ（例えば、０×４０）の形態で、コンポーネントごとの算術命令（例えば、加算、乗算（ｍｕｌ））を含む。並列数学グループ７４８は、データチャネルに対して算術演算を並行して行う。ベクトル数学グループ７５０は、０１０１ｘｘｘｘｂ（例えば、０×５０）の形態で、算術命令（例えば、ｄｐ４）を含む。ベクトル数学グループは、ベクトルオペランドに対して、ドット積計算などの算術を行う。示されているオペコード復号７４０は、１つの実施形態において、復号された命令を実行するのに実行ユニットのどの部分が用いられるかを決定するのに用いられてよい。例えば、いくつかの命令は、シストリックアレイにより実行されるシストリック命令に指定されてよい。レイトレーシング命令（不図示）などの他の命令が、実行ロジックのスライス又はパーティション内のレイトレーシングコア又はレイトレーシングロジックに送られ得る。
［グラフィックスパイプライン］

図８は、グラフィックスプロセッサ８００の別の実施形態のブロック図である。図８の要素で、本明細書における任意の他の図の要素と同じ参照番号（又は名称）を有する要素は、本明細書のどこか他の箇所で説明される方式と同様な任意の方式で動作する又は機能することができるが、そのように限定されることはない。

いくつかの実施形態において、グラフィックスプロセッサ８００は、ジオメトリパイプライン８２０と、メディアパイプライン８３０と、ディスプレイエンジン８４０と、スレッド実行ロジック８５０と、レンダリング出力パイプライン８７０とを含む。いくつかの実施形態において、グラフィックスプロセッサ８００は、１つ又は複数の汎用処理コアを含むマルチコア処理システム内のグラフィックスプロセッサである。グラフィックスプロセッサは、１つ又は複数の制御レジスタ（不図示）へのレジスタ書き込みによって、又はリング相互接続８０２を介してグラフィックスプロセッサ８００に発行されるコマンドによって制御される。いくつかの実施形態において、リング相互接続８０２は、他のグラフィックスプロセッサ又は汎用プロセッサなどの他の処理コンポーネントにグラフィックスプロセッサ８００を連結する。リング相互接続８０２からのコマンドが、コマンドストリーマ８０３によって解釈され、コマンドストリーマ８０３は、ジオメトリパイプライン８２０又はメディアパイプライン８３０の個々のコンポーネントに命令を供給する。

いくつかの実施形態において、コマンドストリーマ８０３は、頂点データをメモリから読み出して、コマンドストリーマ８０３により提供される頂点処理コマンドを実行する頂点フェッチャ８０５のオペレーションを指揮する。いくつかの実施形態において、頂点フェッチャ８０５は頂点データを頂点シェーダ８０７に提供し、頂点シェーダ８０７は、各頂点に対して座標空間変換及びライティングオペレーションを行う。いくつかの実施形態において、頂点フェッチャ８０５及び頂点シェーダ８０７は、スレッドディスパッチャ８３１を介して実行スレッドを実行ユニット８５２Ａ〜８５２Ｂにディスパッチすることにより、頂点処理命令を実行する。

いくつかの実施形態において、実行ユニット８５２Ａ〜８５２Ｂは、グラフィックスオペレーション及びメディアオペレーションを行うための命令セットを有するベクトルプロセッサのアレイである。いくつかの実施形態において、実行ユニット８５２Ａ〜８５２Ｂには、アレイごとに特有であるか又はアレイ間で共有される付属のＬ１キャッシュ８５１を有する。このキャッシュは、データキャッシュ、命令キャッシュ、又はデータ及び命令を異なるパーティションに含むように区切られた単一のキャッシュとして構成され得る。

いくつかの実施形態において、ジオメトリパイプライン８２０は、３Ｄオブジェクトのハードウェアアクセラレート型テッセレーションを実行するためのテッセレーションコンポーネントを含む。いくつかの実施形態において、プログラム可能型ハルシェーダ８１１が、テッセレーションオペレーションを構成する。プログラム可能型ドメインシェーダ８１７が、テッセレーション出力のバックエンド評価を提供する。テッセレータ８１３が、ハルシェーダ８１１の指示で動作し、ジオメトリパイプライン８２０に入力として提供されるコアースジオメトリックモデルに基づいて、詳細なジオメトリックオブジェクトのセットを生成するための専用ロジックを含む。いくつかの実施形態において、テッセレーションが用いられない場合、テッセレーションコンポーネント（例えば、ハルシェーダ８１１、テッセレータ８１３、及びドメインシェーダ８１７）は無視され得る。

いくつかの実施形態において、完全なジオメトリックオブジェクトが、実行ユニット８５２Ａ〜８５２Ｂにディスパッチされる１つ又は複数のスレッドを介して、ジオメトリシェーダ８１９により処理されてよく、又はクリッパ８２９に直接的に進んでもよい。いくつかの実施形態において、ジオメトリシェーダは、グラフィックスパイプラインの前のステージに見られるような頂点又は頂点のパッチではなく、ジオメトリックオブジェクト全体を処理する。テッセレーションが無効である場合、ジオメトリシェーダ８１９は、頂点シェーダ８０７から入力を受信する。いくつかの実施形態において、ジオメトリシェーダ８１９は、テッセレーションユニットが無効である場合にジオメトリテッセレーションを行うように、ジオメトリシェーダプログラムでプログラム可能である。

ラスタ化の前に、クリッパ８２９が頂点データを処理する。クリッパ８２９は、クリッピング機能及びジオメトリシェーダ機能を有する固定機能クリッパであってもプログラム可能型クリッパであってもよい。いくつかの実施形態において、レンダリング出力パイプライン８７０内のラスタライザ及び深度テストコンポーネント８７３が、ピクセルシェーダをディスパッチして、ジオメトリックオブジェクトをピクセルごとの表現に変換する。いくつかの実施形態において、ピクセルシェーダロジックがスレッド実行ロジック８５０に含まれる。いくつかの実施形態において、アプリケーションが、ラスタライザ及び深度テストコンポーネント８７３を無視して、ラスタ化されていない頂点データにストリームアウトユニット８２３を介してアクセスできる。

グラフィックスプロセッサ８００は、相互接続バス、相互接続ファブリック、又はプロセッサの主要なコンポーネントの間でデータ及びメッセージの受け渡しを可能にする何らかの他相互接続メカニズムを有する。いくつかの実施形態において、実行ユニット８５２Ａ〜８５２Ｂ及び関連する論理ユニット（例えば、Ｌ１キャッシュ８５１、サンプラ８５４、テクスチャキャッシュ８５８など）が、データポート８５６を介して相互接続して、メモリアクセスを実行し、プロセッサのレンダリング出力パイプラインコンポーネントと通信する。いくつかの実施形態において、サンプラ８５４、キャッシュ８５１、８５８、及び実行ユニット８５２Ａ〜８５２Ｂはそれぞれ、別個のメモリアクセスパスを有する。１つの実施形態において、テクスチャキャッシュ８５８は、サンプラキャッシュとして構成されてもよい。

いくつかの実施形態において、レンダリング出力パイプライン８７０は、頂点ベースのオブジェクトを関連するピクセルベースの表現に変換するラスタライザ及び深度テストコンポーネント８７３を含む。いくつかの実施形態において、ラスタライザロジックは、固定機能による三角形及び線のラスタ化を実行するウィンドウ処理／マスク処理ユニットを含む。関連するレンダリングキャッシュ８７８及びデプスキャッシュ８７９も、いくつかの実施形態において利用可能である。ピクセルオペレーションコンポーネント８７７が、データに対してピクセルベースのオペレーションを行うが、いくつかの例において、２Ｄオペレーションに関連したピクセルオペレーション（例えば、ブレンディングを伴うビットブロック画像転送）が２Ｄエンジン８４１により行われるか、又はオーバーレイ表示プレーン用いるディスプレイコントローラ８４３によって表示時に置き換えられる。いくつかの実施形態において、共有Ｌ３キャッシュ８７５が、全てのグラフィックスコンポーネントに利用可能であり、メインシステムメモリを使用することなくデータの共有が可能になる。

いくつかの実施形態において、グラフィックスプロセッサメディアパイプライン８３０が、メディアエンジン８３７とビデオフロントエンド８３４とを含む。いくつかの実施形態において、ビデオフロントエンド８３４は、コマンドストリーマ８０３からパイプラインコマンドを受信する。いくつかの実施形態において、メディアパイプライン８３０は、別個のコマンドストリーマを含む。いくつかの実施形態において、ビデオフロントエンド８３４は、メディアコマンドを処理してから、そのコマンドをメディアエンジン８３７に送信する。いくつかの実施形態において、メディアエンジン８３７は、スレッドディスパッチャ８３１を介してスレッド実行ロジック８５０にディスパッチするためのスレッドを生成するスレッド生成機能を含む。

いくつかの実施形態において、グラフィックスプロセッサ８００はディスプレイエンジン８４０を含む。いくつかの実施形態において、ディスプレイエンジン８４０は、プロセッサ８００の外部にあり、リング相互接続８０２又は何らかの他の相互接続バス若しくはファブリックを介して、グラフィックスプロセッサと連結する。いくつかの実施形態において、ディスプレイエンジン８４０は、２Ｄエンジン８４１とディスプレイコントローラ８４３とを含む。いくつかの実施形態において、ディスプレイエンジン８４０は、３Ｄパイプラインから独立して動作可能な専用ロジックを含む。いくつかの実施形態において、ディスプレイコントローラ８４３はディスプレイデバイス（不図示）と連結する。ディスプレイデバイスは、ラップトップコンピュータに見られるようなシステム統合型ディスプレイデバイスであっても、ディスプレイデバイスコネクタを介して取り付けられる外付けディスプレイデバイスであってもよい。

いくつかの実施形態において、ジオメトリパイプライン８２０及びメディアパイプライン８３０は、複数のグラフィックス及びメディアプログラミングインタフェースに基づいてオペレーションを実行するように構成可能であり、任意の１つのアプリケーションプログラミングインタフェース（ＡＰＩ）に固有のものではない。いくつかの実施形態において、グラフィックスプロセッサのドライバソフトウェアが、特定のグラフィックス又はメディアライブラリに固有なＡＰＩコールをグラフィックスプロセッサにより処理され得るコマンドに変換する。いくつかの実施形態において、オープングラフィックスライブラリ（ＯｐｅｎＧＬ）、オープンコンピューティング言語（ＯｐｅｎＣＬ）、及び／又はＶｕｌｋａｎグラフィックス及びコンピュートＡＰＩにサポートが提供され、これらは全てクロノスグループによるものである。いくつかの実施形態において、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎのＤｉｒｅｃｔ３Ｄライブラリにもサポートが提供されてよい。いくつかの実施形態において、これらのライブラリの組み合わせがサポートされてもよい。オープンソースのコンピュータビジョンライブラリ（ＯｐｅｎＣＶ）にもサポートが提供されてよい。互換性のある３Ｄパイプラインを有する将来のＡＰＩも、将来のＡＰＩのパイプラインからグラフィックスプロセッサのパイプラインにマッピングを行うことができるならば、サポートされるであろう。
［グラフィックスパイプラインプログラミング］

図９Ａは、いくつかの実施形態によるグラフィックスプロセッサコマンドフォーマット９００を示すブロック図である。図９Ｂは、一実施形態によるグラフィックスプロセッサコマンドシーケンス９１０を示すブロック図である。図９Ａの実線の枠は、グラフィックスコマンドに一般的に含まれるコンポーネントを示し、破線は、任意選択のコンポーネント又はグラフィックスコマンドのサブセットにだけ含まれるコンポーネントを含む。図９Ａの例示的なグラフィックスプロセッサコマンドフォーマット９００は、クライアント９０２、コマンドオペレーションコード（オペコード）９０４、及びコマンド用のデータ９０６を識別するデータフィールドを含む。サブオペコード９０５及びコマンドサイズ９０８も、いくつかのコマンドに含まれる。

いくつかの実施形態において、クライアント９０２は、コマンドデータを処理するグラフィックスデバイスのクライアントユニットを指定する。いくつかの実施形態において、グラフィックスプロセッサコマンドパーサが、各コマンドのクライアントフィールドを検査し、コマンドのさらなる処理を決定して、コマンドデータを適切なクライアントユニットにルーティングする。いくつかの実施形態において、グラフィックスプロセッサのクライアントユニットは、メモリインタフェースユニットと、レンダリングユニットと、２Ｄユニットと、３Ｄユニットと、メディアユニットとを含む。各クライアントユニットは対応する処理パイプラインを有し、その処理パイプラインがコマンドを処理する。コマンドがクライアントユニットにより受信されると、クライアントユニットは、オペコード９０４と、存在する場合はサブオペコード９０５とを読み出し、実行するオペレーションを決定する。クライアントユニットは、データフィールド９０６内の情報を用いてコマンドを実行する。いくつかのコマンドでは、明示コマンドサイズ９０８が、コマンドのサイズを指定することが期待される。いくつかの実施形態において、コマンドパーサは、コマンドオペコードに基づいて、複数のコマンドのうちの少なくとも一部のサイズを自動的に決定する。いくつかの実施形態において、コマンドがダブルワードの倍数によって揃えられる。他のコマンドフォーマットが用いられてもよい。

図９Ｂのフロー図は、例示的なグラフィックスプロセッサコマンドシーケンス９１０を示す。いくつかの実施形態において、グラフィックスプロセッサの実施形態を特徴づけるデータ処理システムのソフトウェア又はファームウェアが、グラフィックスオペレーションのセットをセットアップする、実行する、終了するのに、示されるコマンドシーケンスのバージョンを使用する。サンプルコマンドシーケンスが例示のみを目的に示され且つ説明され、実施形態がこれらの特定のコマンド又はこのコマンドシーケンスに限定されることはない。さらに、これらのコマンドは、コマンドシーケンスにおいてコマンドのバッチとして発行されてよく、グラフィックスプロセッサは、一連のコマンドを少なくとも部分的に同時に処理することになる。

いくつかの実施形態において、グラフィックスプロセッサコマンドシーケンス９１０はパイプラインフラッシュコマンド９１２から始めて、任意の有効なグラフィックスパイプラインに現在保留中のパイプラインコマンドを完了させてよい。いくつかの実施形態において、３Ｄパイプライン９２２及びメディアパイプライン９２４は同時に動作しない。パイプラインフラッシュは、有効なグラフィックスパイプラインに任意の保留コマンドを完了させるように実行される。パイプラインフラッシュに応答して、グラフィックスプロセッサのコマンドパーサは、有効な描画エンジンが保留オペレーションを完了して関連する読み出しキャッシュが無効になるまで、コマンド処理を一時停止することになる。任意選択で、レンダリングキャッシュ内の、ダーティ（ｄｉｒｔｙ）とマークされた任意のデータがメモリにフラッシュされ得る。いくつかの実施形態において、パイプラインフラッシュコマンド９１２は、パイプライン同期に用いられ得る、又はグラフィックスプロセッサを低電力状態にする前に用いられ得る。

いくつかの実施形態において、コマンドシーケンスがパイプライン同士を明示的に切り替えるのにグラフィックスプロセッサを必要とする場合、パイプライン選択コマンド９１３が用いられる。いくつかの実施形態において、パイプライン選択コマンド９１３は、パイプラインコマンドを発行する前に実行コンテキストにおいて一度だけ必要とされる。ただし、コンテキストが両方のパイプラインにコマンドを発行する場合を除く。いくつかの実施形態において、パイプラインフラッシュコマンド９１２は、パイプライン選択コマンド９１３を介したパイプライン切り替え直前に必要とされる。

いくつかの実施形態において、パイプライン制御コマンド９１４が、オペレーション用のグラフィックスパイプラインを構成し、３Ｄパイプライン９２２及びメディアパイプライン９２４をプログラムするのに用いられる。いくつかの実施形態において、パイプライン制御コマンド９１４は、有効なパイプライン用のパイプライン状態を構成する。１つの実施形態において、パイプライン制御コマンド９１４は、パイプライン同期に用いられ、またコマンドのバッチを処理する前に、有効なパイプライン内の１つ又は複数のキャッシュメモリからデータを消去するのに用いられる。

いくつかの実施形態において、リターンバッファ状態コマンド９１６が、それぞれのパイプラインがデータを書き込むためのリターンバッファのセットを構成するのに用いられる。いくつかのパイプラインオペレーションは、オペレーションが処理中に中間データを書き込む１つ又は複数のリターンバッファの割り当て、選択、又は構成を必要とする。いくつかの実施形態において、グラフィックスプロセッサは、出力データを格納し且つクロススレッド通信を行うのにも１つ又は複数のリターンバッファを用いる。いくつかの実施形態において、リターンバッファ状態９１６は、パイプラインオペレーションのセットに用いるリターンバッファのサイズ及びその数を選択することを含む。

コマンドシーケンス内の残りのコマンドは、オペレーション用の有効なパイプラインに基づいて異なる。パイプライン決定９２０に基づいて、コマンドシーケンスは、３Ｄパイプライン状態９３０で始まる３Ｄパイプライン９２２に合わせてあるか、又はメディアパイプライン状態９４０で始まるメディアパイプライン９２４に合わせてある。

３Ｄパイプライン状態９３０を構成するコマンドは、頂点バッファ状態、頂点要素状態、一定色状態、デプスバッファ状態、及び３Ｄプリミティブコマンドが処理される前に構成される他の状態変数用の３Ｄ状態設定コマンドを含む。これらのコマンドの値は、使用中の特定の３ＤＡＰＩに基づいて、少なくとも部分的に決定される。いくつかの実施形態において、３Ｄパイプライン状態９３０コマンドはまた、特定のパイプライン要素を、これらの要素が用いられない場合に、選択的に無効にするか又は無視することもできる。

いくつかの実施形態において、３Ｄプリミティブ９３２コマンドが、３Ｄパイプラインにより処理される３Ｄプリミティブを送信するのに用いられる。３Ｄプリミティブ９３２コマンドを介してグラフィックスプロセッサに送られるコマンド及び関連パラメータが、グラフィックスパイプラインの頂点フェッチ機能に転送される。頂点フェッチ機能は、頂点データ構造を生成するのに、３Ｄプリミティブ９３２コマンドデータを使用する。頂点データ構造は、１つ又は複数のリターンバッファに格納される。いくつかの実施形態において、３Ｄプリミティブ９３２コマンドは、頂点シェーダを介して３Ｄプリミティブに対して頂点オペレーションを実行するのに用いられる。頂点シェーダを処理するために、３Ｄパイプライン９２２は、シェーダ実行スレッドをグラフィックスプロセッサ実行ユニットにディスパッチする。

いくつかの実施形態において、３Ｄパイプライン９２２は、実行コマンド９３４又はイベントを介してトリガされる。いくつかの実施形態において、レジスタ書き込みがコマンド実行をトリガする。いくつかの実施形態において、実行がコマンドシーケンスの「ゴー（ｇｏ）」コマンド又は「キック（ｋｉｃｋ）」コマンドを介してトリガされる。１つの実施形態において、コマンド実行が、グラフィックスパイプラインを通じてコマンドシーケンスをフラッシュするように、パイプライン同期コマンドを用いてトリガされる。３Ｄパイプラインは、３Ｄプリミティブに対してジオメトリ処理を行うことになる。オペレーションが完了すると、結果として得られるジオメトリックオブジェクトがラスタ化され、ピクセルエンジンは結果として得られるピクセルに色をつける。ピクセルシェーディング及びピクセルのバックエンドオペレーションを制御する追加のコマンドも、これらのオペレーション用に含まれてよい。

いくつかの実施形態において、グラフィックスプロセッサコマンドシーケンス９１０は、メディアオペレーションを行う場合、メディアパイプライン９２４のパスをたどる。一般的には、メディアパイプライン９２４用のプログラミングの特定の使用法及び方式は、実行されるメディアオペレーション又はコンピュートオペレーションに依存する。特定のメディア復号オペレーションが、メディア復号時にメディアパイプラインにオフロードされてよい。いくつかの実施形態において、メディアパイプラインはまた、無視されてもよく、メディア復号が、１つ又は複数の汎用処理コアにより提供されるリソースを用いて全体的に又は部分的に実行されてもよい。１つの実施形態において、メディアパイプラインは、汎用グラフィックスプロセッサユニット（ＧＰＧＰＵ）オペレーション用の要素も含み、グラフィックスプロセッサは、グラフィックスプリミティブのレンダリングに明示的に関連していない計算シェーダプログラムを用いて、ＳＩＭＤベクトル演算を実行するのに用いられる。

いくつかの実施形態において、メディアパイプライン９２４は、３Ｄパイプライン９２２と同様の方式で構成される。メディアパイプライン状態９４０を構成するコマンドのセットが、メディアオブジェクトコマンド９４２の前にディスパッチされるか、又はコマンドキューに入れられる。いくつかの実施形態において、メディアパイプライン状態９４０用のコマンドが、メディアオブジェクトを処理するのに用いられるメディアパイプライン要素を構成するデータを含む。これは、符号化フォーマット又は復号フォーマットなどの、メディアパイプライン内の映像復号ロジック及び映像符号化ロジックを構成するデータを含む。いくつかの実施形態において、メディアパイプライン状態９４０用のコマンドは、状態設定のバッチを含む「間接的」な状態要素に対する１つ又は複数のポインタの使用もサポートする。

いくつかの実施形態において、メディアオブジェクトコマンド９４２は、メディアパイプラインによる処理のために、ポインタをメディアオブジェクトに供給する。メディアオブジェクトは、処理される映像データを含むメモリバッファを含む。いくつかの実施形態において、全てのメディアパイプライン状態は、メディアオブジェクトコマンド９４２を発行する前に有効でなければならない。パイプライン状態が構成され且つメディアオブジェクトコマンド９４２がキューに入ると、メディアパイプライン９２４は、実行コマンド９４４又は同等の実行イベント（例えば、レジスタ書き込み）によってトリガされる。次いで、メディアパイプライン９２４からの出力が、３Ｄパイプライン９２２又はメディアパイプライン９２４により提供されるオペレーションにより後処理されてよい。いくつかの実施形態において、ＧＰＧＰＵオペレーションが、メディアオペレーションと同様の方式で構成され且つ実行される。
［グラフィックスソフトウェアアーキテクチャ］

図１０は、いくつかの実施形態によるデータ処理システム１０００の例示的なグラフィックスソフトウェアアーキテクチャを示す。いくつかの実施形態において、ソフトウェアアーキテクチャは、３Ｄグラフィックスアプリケーション１０１０と、オペレーティングシステム１０２０と、少なくとも１つのプロセッサ１０３０とを含む。いくつかの実施形態において、プロセッサ１０３０は、グラフィックスプロセッサ１０３２と１つ又は複数の汎用プロセッサコア１０３４とを含む。グラフィックスアプリケーション１０１０及びオペレーティングシステム１０２０はそれぞれ、データ処理システムのシステムメモリ１０５０で実行される。

いくつかの実施形態において、３Ｄグラフィックスアプリケーション１０１０は、シェーダ命令１０１２を含む１つ又は複数のシェーダプログラムを含む。シェーダ言語命令は、Ｄｉｒｅｃｔ３Ｄの高水準シェーダ言語（ＨＬＳＬ）及びＯｐｅｎＧＬシェーダ言語（ＧＬＳＬ）などの高水準シェーダ言語の命令であってよい。アプリケーションは、汎用プロセッサコア１０３４による実行に好適な機械語の実行可能命令１０１４も含む。アプリケーションは、頂点データで定義されるグラフィックスオブジェクト１０１６も含む。

いくつかの実施形態において、オペレーティングシステム１０２０は、ＭｉｃｒｏｓｏｆｔＣｏｒｐｏｒａｔｉｏｎのＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）オペレーティングシステム、専用のＵＮＩＸ（登録商標）様式のオペレーティングシステム、又はＬｉｎｕｘ（登録商標）カーネルの変形を用いるオープンソースのＵＮＩＸ（登録商標）様式のオペレーティングシステムである。オペレーティングシステム１０２０は、Ｄｉｒｅｃｔ３ＤのＡＰＩ、ＯｐｅｎＧＬのＡＰＩ、又はＶｕｌｋａｎのＡＰＩなどのグラフィックスＡＰＩ１０２２をサポートできる。Ｄｉｒｅｃｔ３ＤのＡＰＩが用いられる場合、オペレーティングシステム１０２０はフロントエンドシェーダコンパイラ１０２４を用いて、ＨＬＳＬ内の任意のシェーダ命令１０１２を低水準シェーダ言語にコンパイルする。コンパイルは、ジャストインタイム（ＪＩＴ）コンパイルであってもよく、又はアプリケーションはシェーダプリコンパイルを実行できる。いくつかの実施形態において、高水準シェーダは、３Ｄグラフィックスアプリケーション１０１０のコンパイル時に、低水準シェーダにコンパイルされる。いくつかの実施形態において、シェーダ命令１０１２は、ＶｕｌｋａｎのＡＰＩにより用いられる標準ポータブル中間表現（ＳＰＩＲ）のバージョンなどの中間フォームで提供される。

いくつかの実施形態において、ユーザモードグラフィックスドライバ１０２６が、シェーダ命令１０１２を特定ハードウェア向け表現に変換するためのバックエンドシェーダコンパイラ１０２７を含む。ＯｐｅｎＧＬのＡＰＩが用いられる場合、ＧＬＳＬ高水準言語のシェーダ命令１０１２は、コンパイルのためにユーザモードグラフィックスドライバ１０２６に送られる。いくつかの実施形態において、ユーザモードグラフィックスドライバ１０２６は、オペレーティングシステムのカーネルモード機能１０２８を用いて、カーネルモードグラフィックスドライバ１０２９と通信する。いくつかの実施形態において、カーネルモードグラフィックスドライバ１０２９は、グラフィックスプロセッサ１０３２と通信して、コマンド及び命令をディスパッチする。
［ＩＰコアの実施態様］

少なくとも１つの実施形態のうちの１つ又は複数の態様が、プロセッサなどの集積回路内のロジックを表す且つ／又は定義する、機械可読媒体に格納された代表コードにより実装されてよい。例えば、機械可読媒体は、プロセッサ内の様々なロジックを表す命令を含んでよい。命令は、機械によって読み出される場合、本明細書で説明される技術を実行するロジックを機械に作らせてよい。「ＩＰコア」として知られるそのような表現は、集積回路の構造を記述するハードウェアモデルとして、有形の機械可読媒体に格納され得る、集積回路用ロジックの再利用可能な単位である。ハードウェアモデルは、集積回路を製造する製造機械にハードウェアモデルをロードする様々な顧客又は製造施設に供給されてよい。集積回路は、本明細書において説明される実施形態のうちのいずれかと関連して説明されるオペレーションを回路が実行するように製造されてよい。

図１１Ａは、一実施形態による、オペレーションを実行する集積回路を製造するのに用いられ得るＩＰコア開発システム１１００を示すブロック図である。ＩＰコア開発システム１１００は、より大きい設計図に組み込まれ得るモジュール式の再利用可能な設計図を生成するのに用いられても、集積回路全体（例えば、ＳｏＣ集積回路）を構築するのに用いられてもよい。設計施設１１３０が、ＩＰコア設計のソフトウェアシミュレーション１１１０を高水準プログラミング言語（例えば、Ｃ／Ｃ＋＋）で生成できる。ソフトウェアシミュレーション１１１０は、シミュレーションモデル１１１２を用いて、ＩＰコアの挙動を設計し、テストし、確認するのに用いられ得る。シミュレーションモデル１１１２は、機能シミュレーション、挙動シミュレーション、及び／又はタイミングシミュレーションを含んでよい。レジスタ転送レベル（ＲＴＬ）設計１１１５が次に、シミュレーションモデル１１１２から作成又は合成され得る。ＲＴＬ設計１１１５は、ハードウェアレジスタ間のデジタル信号のフローをモデル化する集積回路の挙動の抽出であり、モデル化されたデジタル信号を用いて実行される関連ロジックを含む。ＲＴＬ設計１１１５のほかに、論理レベル又はトランジスタレベルでの下位レベルの設計も、作成され、設計され、又は合成されてよい。したがって、初期の設計及びシミュレーションの特定の詳細は変化してよい。

ＲＴＬ設計１１１５又は均等物はさらに、設計施設で合成されてハードウェアモデル１１２０になってよく、ハードウェアモデル１１２０は、ハードウェア記述言語（ＨＤＬ）又は物理的な設計データの何らかの他の表現であってよい。ＨＤＬはさらに、ＩＰコア設計を確認するために、シミュレーションされてもテストされてもよい。ＩＰコア設計は、サードパーティの製造施設１１６５に届けるために、不揮発性メモリ１１４０（例えば、ハードディスク、フラッシュメモリ、又は任意の不揮発性記憶媒体）を用いて格納され得る。あるいは、ＩＰコア設計は、有線接続１１５０又は無線接続１１６０によって、（例えば、インターネットを介して）伝送されてよい。製造施設１１６５は次に、ＩＰコア設計に少なくとも部分的に基づく集積回路を製造してよい。製造された集積回路は、本明細書で説明される少なくとも１つの実施形態に従ってオペレーションを実行するように構成され得る。

図１１Ｂは、本明細書で説明されるいくつかの実施形態による、集積回路パッケージアセンブリ１１７０の垂直断面図を示す。集積回路パッケージアセンブリ１１７０は、本明細書で説明される１つ又は複数のプロセッサ又はアクセラレータデバイスの実施態様を示す。パッケージアセンブリ１１７０は、基板１１８０に接続されたハードウェアロジック１１７２、１１７４という複数のユニットを含む。ロジック１１７２、１１７４は、構成可能ロジックハードウェア又は固定機能ロジックハードウェアに少なくとも部分的に実装されてよく、プロセッサコア、グラフィックスプロセッサ、又は本明細書で説明される他のアクセラレータデバイスのうちのいずれかの１つ又は複数の部分を含み得る。ロジック１１７２、１１７４の各ユニットは、半導体ダイに実装され、相互接続構造１１７３を介して基板１１８０と連結され得る。相互接続構造１１７３は、ロジック１１７２、１１７４と、基板１１８０との間に電気信号をルーティングするように構成されてよく、限定されることはないが、バンプ又はピラーなどの相互接続を含み得る。いくつかの実施形態において、相互接続構造１１７３は、例えば、ロジック１１７２、１１７４のオペレーションに関連した入力／出力（Ｉ／Ｏ）信号及び／又は電源信号若しくは接地信号などの電気信号をルーティングするように構成されてよい。いくつかの実施形態において、基板１１８０はエポキシベースの積層基板である。基板１１８０は、他の実施形態において、他の好適な種類の基板を含んでよい。パッケージアセンブリ１１７０は、パッケージ相互接続１１８３を介して、他の電気デバイスに接続され得る。パッケージ相互接続１１８３は、マザーボード、他のチップセット、又はマルチチップモジュールなどの他の電気デバイスに電気信号をルーティングするために、基板１１８０の表面に連結されてよい。

いくつかの実施形態において、ロジック１１７２、１１７４のユニットは、ロジック１１７２と１１７４との間に電気信号をルーティングするように構成されたブリッジ１１８２と電気的に連結される。ブリッジ１１８２は、電気信号の経路を提供する高密度相互接続構造であってよい。ブリッジ１１８２は、ガラス又は好適な半導体材料から構成されるブリッジ基板を含んでよい。ロジック１１７２と１１７４との間にチップ間接続を提供するために、電気的なルーティング機構が、ブリッジ基板に形成され得る。

ロジック１１７２、１１７４の２つのユニットとブリッジ１１８２とが示されているが、本明細書で説明される実施形態が、１つ又は複数のダイにもっと多い又は少ない論理ユニットを含んでもよい。ロジックが単一のダイに含まれる場合、ブリッジ１１８２は除外されてよいので、１つ又は複数のダイは、０又は複数のブリッジで接続されてよい。あるいは、複数のダイ又は複数のロジックユニットが、１つ又は複数のブリッジで接続され得る。さらに、複数の論理ユニット、ダイ、及びブリッジが、３次元構成を含む他の可能な構成で一緒に接続され得る。

図１１Ｃは、基板１１８０（例えば、ベースダイ）に接続されたハードウェアロジックチップレットの複数のユニットを含むパッケージアセンブリ１１９０を示す。本明細書で説明されるグラフィックス処理ユニット、並列プロセッサ、及び／又はコンピュートアクセラレータが、別個に製造される多様なシリコンチップレットから構成され得る。この文脈において、チップレットとは、少なくとも部分的にパッケージ化された集積回路であり、この集積回路には、他のチップレットと共に組み立てられてより大きいパッケージになり得る別個のロジックのユニットが含まれる。異なるＩＰコアロジックを有する多様なチップレットの設定が、単一のデバイスに組み立てられ得る。さらに、これらのチップレットは、アクティブインターポーザ技術を用いて、ベースダイ又はベースチップレットに統合され得る。本明細書で説明されるコンセプトによって、ＧＰＵ内の異なる形態のＩＰ同士の間で相互接続及び通信が可能になる。ＩＰコアは、異なるプロセス技術を用いて製造され、製造時に構成され得る。これによって、複数のＩＰを、特にいくつかの種類のＩＰを有する大きなＳｏＣに同じ製造プロセスで集中させることによる複雑性が回避される。複数のプロセス技術の使用を可能にすることで、市場投入までの時間が改善され、複数の製品ＳＫＵを形成するのに費用対効果の高いやり方が提供される。さらに、ＩＰが分かれている方が、独立してパワーゲーティングするのに適しており、所与のワークロードに使用されていないコンポーネントが電源をオフにされて、全体の電力消費を低減することができる。

ハードウェアロジックチップレットは、特別な目的のハードウェアロジックチップレット１１７２、ロジック又はＩ／Ｏチップレット１１７４、及び／又はメモリチップレット１１７５を含み得る。ハードウェアロジックチップレット１１７２、ロジック又はＩ／Ｏチップレット１１７４は、構成可能ロジックハードウェア又は固定機能ロジックハードウェアに少なくとも部分的に実装されてよく、本明細書で説明されるプロセッサコア、グラフィックスプロセッサ、並列プロセッサ、又は他のアクセラレータデバイスのうちのいずれかの１つ又は複数の部分を含み得る。メモリチップレット１１７５は、ＤＲＡＭ（例えば、ＧＤＤＲ、ＨＢＭ）メモリ又はキャッシュ（ＳＲＡＭ）メモリであってよい。

各チップレットは、別個の半導体ダイとして製造され、相互接続構造１１７３を介して基板１１８０と連結され得る。相互接続構造１１７３は、様々なチップレットと基板１１８０内のロジックとの間に電気信号をルーティングするように構成されてよい。相互接続構造１１７３は、限定されることはないが、バンプ又はピラーなどの相互接続を含み得る。いくつかの実施形態において、相互接続構造１１７３は、例えば、ロジックチップレット、Ｉ／Ｏチップレット、及びメモリチップレットのオペレーションに関連した入力／出力（Ｉ／Ｏ）信号及び／又は電源信号若しくは接地信号などの電気信号をルーティングするように構成されてよい。

いくつかの実施形態において、基板１１８０はエポキシベースの積層基板である。基板１１８０は、他の実施形態において、他の好適な種類の基板を含んでよい。パッケージアセンブリ１１９０は、パッケージ相互接続１１８３を介して、他の電気デバイスに接続され得る。パッケージ相互接続１１８３は、マザーボード、他のチップセット、又はマルチチップモジュールなどの他の電気デバイスに電気信号をルーティングするために、基板１１８０の表面に連結されてよい。

いくつかの実施形態において、ロジック又はＩ／Ｏチップレット１１７４及びメモリチップレット１１７５は、ロジック又はＩ／Ｏチップレット１１７４とメモリチップレット１１７５との間に電気信号をルーティングするように構成されたブリッジ１１８７を介して電気的に連結され得る。ブリッジ１１８７は、電気信号の経路を提供する高密度相互接続構造であってよい。ブリッジ１１８７は、ガラス又は好適な半導体材料から構成されるブリッジ基板を含んでよい。ロジック又はＩ／Ｏチップレット１１７４とメモリチップレット１１７５との間にチップ間接続を提供するために、電気的なルーティング機構が、ブリッジ基板に形成され得る。ブリッジ１１８７は、シリコンブリッジ又は相互接続ブリッジとも呼ばれることがある。例えば、ブリッジ１１８７は、いくつかの実施形態において、埋め込み型マルチダイ相互接続ブリッジ（ＥＭＩＢ）である。いくつかの実施形態において、ブリッジ１１８７は、単に、あるチップレットから別のチップレットへの直接的接続であってよい。

基板１１８０は、Ｉ／Ｏ１１９１、キャッシュメモリ１１９２、及び他のハードウェアロジック１１９３用のハードウェアコンポーネントを含み得る。様々なロジックチップレットと基板１１８０内のロジック１１９１、１１９３との間の通信を可能にするために、ファブリック１１８５が基板１１８０に埋め込まれ得る。１つの実施形態において、Ｉ／Ｏ１１９１、ファブリック１１８５、キャッシュ、ブリッジ、及び他のハードウェアロジック１１９３は、基板１１８０の上に層状に重ねられたベースダイに統合され得る。

様々な実施形態において、パッケージアセンブリ１１９０は、ファブリック１１８５又は１つ又は複数のブリッジ１１８７で相互接続された、より少ない又はより多い数のコンポーネント及びチップレットを含み得る。パッケージアセンブリ１１９０内のチップレットは、３Ｄ配置又は２．５Ｄ配置で配置されてよい。一般的には、ブリッジ構造１１８７は、例えば、ロジック又はＩ／Ｏチップレットとメモリチップレットとの間のポイントツーポイント相互接続を容易にするのに用いられてよい。ファブリック１１８５は、様々なロジック及び／又はＩ／Ｏチップレット（例えば、チップレット１１７２、１１７４、１１９１、１１９３）を他のロジック及び／又はＩ／Ｏチップレットと相互接続するのに用いられ得る。１つの実施形態において、基板内のキャッシュメモリ１１９２は、パッケージアセンブリ１１９０のグローバルキャッシュ、つまり、分散型グローバルキャッシュの一部、又はファブリック１１８５の専用キャッシュとしての機能を果たし得る。

図１１Ｄは、一実施形態による、互換性のあるチップレット１１９５を含むパッケージアセンブリ１１９４を示す。互換性のあるチップレット１１９５は、１つ又は複数のベースチップレット１１９６、１１９８の標準化スロットとして組み立てられ得る。ベースチップレット１１９６、１１９８は、ブリッジ相互接続１１９７を介して連結され得る。ブリッジ相互接続１１９７は、本明細書で説明される他のブリッジ相互接続と同様であってよく、例えば、ＥＭＩＢであってよい。メモリチップレットは、ブリッジ相互接続を介して、ロジックチップレット又はＩ／Ｏチップレットにも接続され得る。Ｉ／Ｏチップレット及びロジックチップレットは、相互接続ファブリックを介して通信できる。ベースチップレットはそれぞれ、ロジック又はＩ／Ｏ又はメモリキャッシュのうちの１つの標準化フォーマットで、１つ又は複数のスロットをサポートできる。

１つの実施形態において、ＳＲＡＭ及び電力供給回路が、ベースチップレット１１９６、１１９８のうちの１つ又は複数として製造され得る。これらの回路は、ベースチップレットの上に積層された互換性のあるチップレット１１９５に対して異なるプロセス技術を用いて製造され得る。例えば、ベースチップレット１１９６、１１９８は、大規模なプロセス技術を用いて製造され得るが、互換性のあるチップレットは、小規模なプロセス技術を用いて製造され得る。互換性のあるチップレット１１９５のうちの１つ又は複数は、メモリ（例えば、ＤＲＡＭチップレット）であってよい。異なるメモリ密度が、能力、及び／又はパッケージアセンブリ１１９４を用いる製品を対象とした性能に基づいて、パッケージアセンブリ１１９４用に選択され得る。さらに、異なる数の種類の機能ユニットを有するロジックチップレットが、当該製品を対象とした能力及び／又は性能に基づいて組み立て時に選択され得る。さらに、異なる種類のＩＰロジックコアを含むチップレットが、互換性のあるチップレットスロットに挿入され得るので、異なる技術ＩＰブロックを併用し適合させ得るハイブリッドプロセッサ設計が可能になり得る。
［例示的なシステムオンチップ集積回路］

図１２〜図１４は、本明細書で説明される様々な実施形態による、１つ又は複数のＩＰコアを用いて製造され得る例示的な集積回路及び関連グラフィックスプロセッサを示す。示されているものに加えて、他のロジック及び回路が含まれてよく、例えば、追加のグラフィックスプロセッサ／コア、ペリフェラルインタフェースコントローラ、又は汎用プロセッサコアが含まれる。

図１２は、一実施形態による、１つ又は複数のＩＰコアを用いて製造され得る例示的なシステムオンチップ集積回路１２００を示すブロック図である。例示的な集積回路１２００は、１つ又は複数のアプリケーションプロセッサ１２０５（例えば、ＣＰＵ）、少なくとも１つのグラフィックスプロセッサ１２１０を含み、さらに、イメージプロセッサ１２１５及び／又はビデオプロセッサ１２２０を含んでよく、それらのうちのいずれかは、同じ設計施設又は複数の異なる設計施設のモジュール式ＩＰコアであってよい。集積回路１２００は、ＵＳＢコントローラ１２２５、ＵＡＲＴコントローラ１２３０、ＳＰＩ／ＳＤＩＯコントローラ１２３５、及びＩ^２Ｓ／Ｉ^２Ｃコントローラ１２４０を含むペリフェラルロジック又はバスロジックを含む。さらに、集積回路は、高精細度マルチメディアインタフェース（ＨＤＭＩ（登録商標））コントローラ１２５０及びモバイル業界向けプロセッサインタフェース（ＭＩＰＩ）ディスプレイインタフェース１２５５のうちの１つ又は複数に連結されたディスプレイデバイス１２４５を含み得る。記憶装置が、フラッシュメモリ及びフラッシュメモリコントローラを含むフラッシュメモリサブシステム１２６０によって提供されてよい。メモリインタフェースが、ＳＤＲＡＭメモリデバイス又はＳＲＡＭメモリデバイスにアクセスするためのメモリコントローラ１２６５を介して提供されてよい。いくつかの集積回路がさらに、埋め込み型セキュリティエンジン１２７０を含む。

図１３〜図１４は、本明細書で説明される実施形態による、ＳｏＣ内で用いる例示的なグラフィックスプロセッサを示すブロック図である。図１３は、一実施形態による、１つ又は複数のＩＰコアを用いて製造され得るシステムオンチップ集積回路の例示的なグラフィックスプロセッサ１３１０を示す。図１４は、一実施形態による、１つ又は複数のＩＰコアを用いて製造され得るシステムオンチップ集積回路の追加の例示的なグラフィックスプロセッサ１３４０を示す。図１３のグラフィックスプロセッサ１３１０は、低電力グラフィックスプロセッサコアの一例である。図１４のグラフィックスプロセッサ１３４０は、高性能グラフィックスプロセッサコアの一例である。グラフィックスプロセッサ１３１０、１３４０のそれぞれは、図１２のグラフィックスプロセッサ１２１０の変形になり得る。

図１３に示すように、グラフィックスプロセッサ１３１０は、頂点プロセッサ１３０５と、１つ又は複数のフラグメントプロセッサ１３１５Ａ〜１３１５Ｎ（例えば、１３１５Ａ、１３１５Ｂ、１３１５Ｃ、１３１５Ｄ、…、１３１５Ｎ−１、及び１３１５Ｎ）とを含む。グラフィックスプロセッサ１３１０は、別個のロジックを介して異なるシェーダプログラムを実行できるので、頂点プロセッサ１３０５は、頂点シェーダプログラムのオペレーションを実行するように最適化され、１つ又は複数のフラグメントプロセッサ１３１５Ａ〜１３１５Ｎは、フラグメントシェーダプログラム又はピクセルシェーダプログラム用のフラグメント（例えば、ピクセル）シェーディングオペレーションを実行する。頂点プロセッサ１３０５は、３Ｄグラフィックスパイプラインの頂点処理ステージを実行し、プリミティブ及び頂点データを生成する。フラグメントプロセッサ１３１５Ａ〜１３１５Ｎは、頂点プロセッサ１３０５により生成されるプリミティブ及び頂点データを用いて、ディスプレイデバイスに表示されるフレームバッファを生成する。１つの実施形態において、フラグメントプロセッサ１３１５Ａ〜１３１５Ｎは、ＯｐｅｎＧＬのＡＰＩに提供されるフラグメントシェーダプログラムを実行するように最適化され、フラグメントシェーダプログラムは、Ｄｉｒｅｃｔ３ＤのＡＰＩに提供されるピクセルシェーダプログラムと同様のオペレーションを実行するのに用いられてよい。

グラフィックスプロセッサ１３１０はさらに、１つ又は複数のメモリ管理ユニット（ＭＭＵ）１３２０Ａ〜１３２０Ｂと、キャッシュ１３２５Ａ〜１３２５Ｂと、回路相互接続１３３０Ａ〜１３３０Ｂとを含む。１つ又は複数のＭＭＵ１３２０Ａ〜１３２０Ｂは、頂点プロセッサ１３０５及び／又はフラグメントプロセッサ１３１５Ａ〜１３１５Ｎを含むグラフィックスプロセッサ１３１０用の仮想アドレス対物理アドレスのマッピングを提供し、グラフィックスプロセッサ１３１０は、１つ又は複数のキャッシュ１３２５Ａ〜１３２５Ｂに格納される頂点データ又は画像／テクスチャデータのほかに、メモリに格納される頂点データ又は画像／テクスチャデータを参照してよい。１つの実施形態において、１つ又は複数のＭＭＵ１３２０Ａ〜１３２０Ｂは、図１２の１つ又は複数のアプリケーションプロセッサ１２０５、イメージプロセッサ１２１５、及び／又はビデオプロセッサ１２２０に関連した１つ又は複数のＭＭＵを含む、システム内の他のＭＭＵと同期し得るので、各プロセッサ１２０５〜１２２０は、共有又は統合された仮想メモリシステムに関与することができる。実施形態に従って、１つ又は複数の回路相互接続１３３０Ａ〜１３３０Ｂは、グラフィックスプロセッサ１３１０が、ＳｏＣの内蔵バスを介して又は直接的接続を介して、ＳｏＣ内の他のＩＰコアとインタフェースで接続することを可能にする。

図１４に示すように、グラフィックスプロセッサ１３４０は、図１３のグラフィックスプロセッサ１３１０の１つ又は複数のＭＭＵ１３２０Ａ〜１３２０Ｂ、キャッシュ１３２５Ａ〜１３２５Ｂ、及び回路相互接続１３３０Ａ〜１３３０Ｂを含む。グラフィックスプロセッサ１３４０は、１つ又は複数のシェーダコア１３５５Ａ〜１３５５Ｎ（例えば、１３５５Ａ、１３５５Ｂ、１３５５Ｃ、１３５５Ｄ、１３５５Ｅ、１３５５Ｆ、…、１３５５Ｎ−１、及び１３５５Ｎ）を含み、これらのシェーダコアは、シングルコア又は種類又はコアが、頂点シェーダ、フラグメントシェーダ、及び／又はコンピュートシェーダを実装するシェーダプログラムコードを含むあらゆる種類のプログラム可能型シェーダコードを実行できる統合シェーダコアアーキテクチャを提供する。存在する正確な数のシェーダコアは、実施形態及び実施態様によって変化し得る。さらに、グラフィックスプロセッサ１３４０は、コア間タスクマネージャ１３４５を含み、これは、１つ又は複数のシェーダコア１３５５Ａ〜１３５５Ｎと、タイルベースのレンダリングのタイリングオペレーションを加速するタイリングユニット１３５８とに実行スレッドをディスパッチするスレッドディスパッチャとしての機能を果たし、タイリングオペレーションでは、例えば、シーン内で局所空間的コヒーレンスを活用する又は内蔵キャッシュの使用を最適化するために、シーンのレンダリングオペレーションが画像空間において細分化される。
［機械学習によるレイトレーシング］

上記で言及したように、レイトレーシングは、物理ベースのレンダリングを通じて光輸送がシミュレーションされるグラフィックス処理技術である。レイトレーシングにおける重要な演算のうちの１つは、バウンディングボリューム階層（ＢＶＨ）におけるノードのトラバーサル及びインターセクションテストが必要な可視性クエリを処理することである。

レイ及びパストレーシングベースの技術は、各ピクセルを通じてレイ及びパスをトレーシングすることにより、及び、ランダムサンプリングを用いて、高度なエフェクト、例えば、陰影、光沢度、間接照明などを計算することにより、画像を計算する。わずかなサンプルのみを用いると、高速になるがノイズのある画像を生成することになり、一方、多くのサンプルを用いると、高品質の画像が生成されるが、コストがかかりすぎる。

機械学習は、特定のタスクの性能を漸進的に向上させることが可能な、又は漸進的により正確な予測又は判断を行うことが可能な任意の回路、プログラムコード、又はその組み合わせを含む。一部の機械学習エンジンは、タスクを実行する又は予測／判断を行うように明示的にプログラミングされることなく、これらのタスクを実行する、又はこれらの予測／判断を行うことができる。多様な機械学習技術が存在し、（限定されることはないが）教師あり、半教師あり学習、教師なし学習、強化学習が含まれる。

過去数年において、リアルタイムの利用のためのレイ／パストレーシングに対する飛躍的な解決方法は、「ノイズ除去」（画像処理技術を用いて、ノイズのある低いサンプルカウントの入力から高品質、フィルタ／ノイズ除去画像を生成する処理）の形式で出現した。最も有効なノイズ除去技術は、より多くのサンプルにより計算された場合に、ノイズのある画像がどのように見えそうかを機械学習エンジンが学習する機械学習技術に依存する。１つの特定の実施態様では、機械学習は畳み込みニューラルネットワーク（ＣＮＮ）により実行されるが、本発明の基本的原理はＣＮＮ実施態様に限定されることはない。そのような実施態様では、訓練用データは低いサンプルカウントの入力及び正解により生成される。ＣＮＮは、該当するピクセルの周りのノイズのあるピクセル入力の近隣から収束したピクセルを予測するように訓練される。

完璧ではないが、このＡＩベースのノイズ除去技術は、驚くべき効果を証明している。しかしながら、ネットワークが間違った結果を予測するかもしれないので、好適な訓練データが要求される点に注意が必要である。例えば、アニメ映画スタジオが陸上のシーンに関して、過去の映画のノイズ除去ＣＮＮを訓練しており、その後水上に関する新しい映画セットからフレームをノイズ除去するために、上記の訓練されたＣＮＮを使用することを試みた場合、ノイズ除去オペレーションは準最適に（ｓｕｂ−ｏｐｔｉｍａｌｌｙ）実行されることになる。

この問題に対処するために、レンダリングしつつ学習データが動的に収集可能で、現在実行中のデータに基づいて、ＣＮＮなどの機械学習エンジンが継続的に訓練され得るので、目下のタスクに対して機械学習エンジンが継続的に改善される。したがって、ランタイムの前に訓練段階をさらに実行してよいが、ランタイム中に必要に応じて機械学習の重みを調整し続ける。その結果、フレーム毎又はＮ個のフレーム毎に学習データの生成を画像のサブ領域に制限することにより、訓練に必要な参照データを計算するのにかかる高いコストを回避する。特に、フレームのノイズのある入力は、現在のネットワークで完全なフレームをノイズ除去するために生成される。さらに、後述されるように、参照ピクセルの小さな領域が継続的な訓練のために生成されて用いられる。

本明細書ではＣＮＮ実施態様が説明されるが、任意の形態の機械学習エンジンが使用されてよく、限定されることはないが、教師あり学習(例えば、入力と、所望の出力の両方を含むデータのセットの数学的モデルを構築)、教師なし学習(例えば、特定の種類の構造について入力データを評価する)、及び／又は教師あり学習と教師なし学習との組み合わせを実行するシステムが含まれる。

既存のノイズ除去の実施態様は、訓練段階及びランタイム段階において動作する。訓練段階中に、ネットワークトポロジは、ピクセルカラー、デプス、標準、標準偏差、プリミティブＩＤ及びアルベドなどの様々なピクセル毎のデータチャネルを用いてＮ×Ｎピクセルの領域をどれが受信するかが定義され、最終的なピクセルカラーを生成する。「代表的な」訓練データのセットが、１フレーム相当の低いサンプルカウントの入力を用いて、かつ、非常に高いサンプルカウントで計算される「所望の」ピクセルカラーを参照して生成される。これらの入力に対してネットワークが訓練されることで、ネットワークの「理想的な」重みのセットを生成する。これらの実施態様において、参照データは、所望の結果に対するネットワークの出力に最も近く一致するネットワークの重みを訓練するために用いられる。

ランタイム時に、所与の予め計算された理想的なネットワークの重みがロードされ、ネットワークが初期化される。フレームごとに、低いサンプルカウントの画像のノイズ除去入力（つまり、訓練のために用いられものと同じ）が生成される。ピクセルごとに、所与の近隣のピクセルの入力が「ノイズ除去」ピクセルカラーを予測するためにネットワークを通じて実行されることで、ノイズ除去されたフレームを生成する。

図１５は、初期訓練の実施態様を示す。機械学習エンジン１５００（例えば、ＣＮＮ）は、ピクセルカラー、デプス、標準、標準偏差、プリミティブＩＤ及びアルベドなどの様々なピクセル毎のデータチャネルを用いて、Ｎ×Ｎピクセルの領域を高いサンプルカウントの画像データ１７０２として受信し、最終的なピクセルカラーを生成する。代表的な訓練データは、１フレーム相当の低いサンプルカウントの入力１５０１を用いて生成される。これらの入力に対してネットワークが訓練され、機械学習エンジン１５００は、ランタイム時に低いサンプルカウントの画像をノイズ除去するためにその後に用いる「理想的な」重み１５０５のセットを生成する。

上記の技術を向上させるために、ノイズ除去段階を増強して、フレーム毎又はフレームのサブセット毎（例えば、Ｎ個のフレーム毎、Ｎ＝２、３、４、１０、２５など）に新しい訓練データを生成する。特に、図１６に示されるように、本実施形態では、高いサンプルカウントで別個の高いサンプルカウントのバッファ１６０４へとレンダリングされる「新しい参照領域」１６０２とここでは称される各フレーム内の１つ又は複数の領域を選択する。低いサンプルカウントのバッファ１６０３は、（新しい参照領域１６０２に対応する低サンプル領域１６０４を含む）低いサンプルカウントの入力フレーム１６０１を格納する。

新しい参照領域１６０２の位置はランダムに選択され得る。あるいは、新しい参照領域１６０２の位置は、新しいフレームごとに予め指定された方式で調整されてよい（例えば、フレーム間の領域の予め定義された動きを用いて、フレームの中央における指定領域に限定されるなど）。

新しい参照領域がどのように選択されるかにかかわらず、それは、ノイズ除去に用いられる訓練された重み１６０５を継続的に改善及び更新するために機械学習エンジン１６００により用いられる。特に、各新しい参照領域１６０２からの参照ピクセルカラー及び対応する低いサンプルカウントの領域１６０７からのノイズのある参照ピクセルの入力がレンダリングされる。次に、高いサンプルカウントの参照領域１６０２及び対応する低いサンプルカウントの領域１６０７を用いて、補足的な訓練が機械学習エンジン１６００上で実行される。初期訓練とは対照的に、この訓練は、それぞれの新しい参照領域１６０２に対してランタイム中継続的に実行され、これにより、機械学習エンジン１６００が正確に訓練されていることを保証する。例えば、ピクセル毎のデータチャネル（例えば、ピクセルカラー、デプス、標準、標準偏差など）が評価されてよく、機械学習エンジン１６００は、それを用いて、訓練された重み１６０５に対する調整を行う。訓練の場合（図１５）にあるように、機械学習エンジン１６００は、低いサンプルカウントの入力フレーム１６０１からノイズを除去するために理想的な重み１６０５のセットに向けて訓練して、ノイズ除去されたフレーム１６２０を生成する。しかしながら、本実施形態では、訓練された重み１６０５は、新しい種類の低いサンプルカウントの入力フレーム１６０１についての新しい画像特性に基づいて継続的に更新される。

機械学習エンジン１６００により実行される再訓練オペレーションは、グラフィックスプロセッサユニット（ＧＰＵ）又はホストプロセッサ上のバックグラウンドプロセスにおいて同時に実行され得る。ドライバコンポーネント及び／又はＧＰＵハードウェアコンポーネントとして実装され得るレンダリングループは、キューに置く新しい訓練データ（例えば、新しい参照領域１６０２の形式で）を継続的に生成し得る。ＧＰＵ又はホストプロセッサ上で実行されるバックグラウンド訓練プロセスは、このキューから新しい訓練データを継続的に読み出して、機械学習エンジン１６００を再訓練して、適切な間隔で新しい重み１６０５を用いてそれを更新し得る。

図１７は、バックグラウンド訓練プロセス１７００がホストＣＰＵ１７１０により実施される１つのそのような実施態様の例を示す。特に、本実施形態において、バックグラウンド訓練プロセス１７００は、高いサンプルカウントの新しい参照領域１６０２及び対応する低サンプル領域１６０４を用いて、訓練された重み１６０５を継続的に更新することで、機械学習エンジン１６００を更新する。

図１８Ａに示されるように、マルチプレイヤーオンラインゲームなどにおける非限定的な例では、異なるホストマシン１８２０〜１８２２は、バックグラウンド訓練プロセス１７００Ａ〜Ｃがサーバ１８００（例えば、ゲームサーバなど）に伝送する参照領域を個々に生成する。次に、サーバ１８００は、ホスト１８２１〜１８２２のそれぞれから受信した新しい参照領域を用いて機械学習エンジン１８１０に対する訓練を実行し、前述したように重み１８０５を更新する。重み１６０５Ａ〜Ｃを格納するホストマシン１８２０にこれらの重み１８０５を伝送することで、個々の機械学習エンジン（不図示）をそれぞれ更新する。サーバ１８００は、短期間に多数の参照領域が提供され得るので、ユーザにより実行される任意の所与のアプリケーション（例えば、オンラインゲーム）に関する重みを効果的かつ正確に更新できる。

図１８Ｂに示されるように、異なるホストマシンは、（例えば、前述した訓練／参照領域１６０２に基づいて）新たに訓練された重みを生成し、新たに訓練された重みをサーバ１８００（例えば、ゲームサーバなど）と共有してよい、又は、あるいは、ピアツーピア共有プロトコルを使用してよい。サーバ上の機械学習管理コンポーネント１８１０は、ホストマシンのそれぞれから受信した新しい重みを用いて組み合わせられた重み１８０５のセットを生成する。組み合わせられた重み１８０５は、例えば、本明細書において説明されるように、新しい重みから生成される平均であり、継続的に更新され得る。一度生成されると、次に、本明細書において説明されたような組み合わせられた重みを使用してノイズ除去オペレーションを実行し得るホストマシン１８２０〜１８２１のそれぞれに組み合わせられた重み１６０５Ａ〜Ｃのコピーが伝送されて格納され得る。

この準閉ループ更新メカニズムはまた、ハードウェア製造業者により用いられ得る。例えば、参照ネットワークは、ハードウェア製造業者が流通させるドライバの一部として含まれてよい。ドライバは、本明細書において説明される技術を用いて新しい訓練データを生成し、これらをハードウェア製造業者に戻して継続的に送信するので、ハードウェア製造業者は、この情報を用いて次のドライバの更新のためにその機械学習の実施態様を改善し続ける。

例示的な一実施態様において（例えば、レンダリングファーム上のバッチ映画レンダリングにおいて）、レンダラは、経時的に複数のレンダリングノードからこのデータを集約する（そのスタジオのレンダリングファーム内の）専用のサーバ又はデータベースに新たに生成された訓練領域を伝送する。別個のマシン上の別個の処理は、スタジオ専用のノイズ除去ネットワークを継続的に改善し、新しいレンダリングジョブは、最新の訓練ネットワークを常に使用する。

機械学習方法が図１９に示される。本方法は、本明細書で説明されるレイトレーシングアーキテクチャに実装されてよいが、いかなる特定のシステム又はグラフィックス処理アーキテクチャにも限定されることはない。

１９０１で、初期訓練段階の一部として、低いサンプルカウントの画像データ及び高いサンプルカウントの画像データが複数の画像フレームに対して生成される。１９０２で、機械学習ノイズ除去エンジンは、高い／低いサンプルカウントの画像データを用いて訓練される。例えば、ピクセルの特徴に関連付けられる畳み込みニューラルネットワークの重みのセットは、訓練に従って更新され得る。しかしながら、任意の機械学習アーキテクチャが用いられてよい。

１９０３で、ランタイム時に、高いサンプルカウントを有する少なくとも１つの参照領域と共に低いサンプルカウントの画像フレームが生成される。１９０４において、機械学習エンジンの訓練を継続的に改善するために、高いサンプルカウントの参照領域が機械学習エンジン及び／又は別個の訓練ロジック（例えば、バックグラウンド訓練モジュール１７００）により用いられる。例えば、どのようにノイズ除去を最も効果的に実行するかを機械学習エンジン１９０４に教え続けるために、高いサンプルカウントの参照領域が低いサンプルカウントの画像の対応する部分と組み合わせて用いられ得る。ＣＮＮ実施態様において、例えば、これは、ＣＮＮに関連付けられる重みを更新することを含み得る。

上述した複数の様々な実施形態は、機械学習エンジンへのフィードバックループが構成される方式、訓練データを生成するエンティティ、訓練データが訓練エンジンにフィードバックされる方式、及び、どのように改善されたネットワークがレンダリングエンジンに提供されるか、などで実施されてよい。さらに、上述した例が単一の参照領域を用いて継続的な訓練を実行するが、任意の数の参照領域が用いられてよい。さらに、上述のように、参照領域は、異なるサイズであってよく、異なる数の画像フレームに対して用いられてよく、異なる技術（例えば、ランダム、予め定められたパターンに従うなど）を用いて画像フレーム内の異なる位置に配置されてよい。

さらに、畳み込みニューラルネットワーク（ＣＮＮ）が、機械学習エンジン１６００の一例として説明されているが、本発明の基本的原理は、新しい訓練データを用いて、その結果を継続的に改善することが可能な機械学習エンジンの任意の形式を用いて実装され得る。例示の目的ではあるが、限定的ではなく、他の機械学習の実施態様は、数例を挙げると、データ処理のグループ方法（ＧｒｏｕｐＭｅｔｈｏｄｏｆＤａｔａＨａｎｄｌｉｎｇ、ＧＭＤＨ）、長・短期メモリ、ディープリザーバ計算、ディープビリーフネットワーク、テンソルディープスタッキングネットワーク及び深層予測符号化ネットワーク（ｄｅｅｐｐｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇｎｅｔｗｏｒｋｓ）を含む。
［効率的な分散型ノイズ除去のための装置及び方法］

上述したように、ノイズ除去は、滑らかでノイズのない画像でリアルタイムレイトレーシングするための重要な機能になってきている。レンダリングは、複数のデバイス上の分散型システムわたって行われ得るが、現状、既存のノイズ除去のフレームワークは全て、単一のマシン上の単一のインスタンスを処理する。複数のデバイスにわたってレンダリングが行われている場合、それらは、画像のノイズ除去される部分を計算するためにアクセス可能なピクセルを全てレンダリングすることができない可能性がある。

人工知能（ＡＩ）及び非ＡＩベースのノイズ除去技術の両方を使って働く分散型ノイズ除去アルゴリズムが提示される。画像の領域は、分散型レンダリングオペレーションからノードにわたって既に分散されている、又は、単一のフレームバッファから分裂及び分散される、のいずれかである。必要な場合に、十分なノイズ除去を計算するために必要とされる近隣領域のゴースト領域が近隣ノードから収集され、最終結果のタイルが最終的な画像に合成される。分散型処理

図２０は、レンダリングを実行する複数のノード２０２１〜２０２３を示す。分かりやすくするために３つのノードのみが図示されているが、本発明の基本的原理は、任意の特定のノード数に限定されることはない。つまり、単一のノードが本発明の特定の実施形態を実施するために用いられてもよい。

ノード２０２１〜２０２３がそれぞれ、画像の一部をレンダリングすることで、この例における領域２０１１〜２０１３を結果的にもたらす。矩形の領域２０１１〜２０１３が図２０に示されているが、任意の形状の領域が用いられてよく、任意のデバイスが任意の数の領域を処理できる。十分に滑らかなノイズ除去オペレーションを実行するためにノードにより必要とされる領域は、ゴースト領域２０１１〜２０１３と称される。言い換えれば、ゴースト領域２００１〜２００３は、特定の品質レベルでノイズ除去を実行するのに必要とされるデータ全体を表す。品質レベルを下げることで、ゴースト領域のサイズ、ひいては、必要なデータ量が低減し、品質レベルを上げることで、要求されるゴースト領域及び必要な対応するデータが増加する。

ノード２０２１などのノードが特定の品質レベルでその領域２０１１をノイズ除去するのに必要とされるゴースト領域２００１の一部のローカルコピーを行う場合、ノードは、図示されるようにゴースト領域２００１の一部を所有するノード２０２２などの１つ又は複数の「隣接」ノードから必要なデータを取り込む。同様に、ノード２０２２が特定の品質レベルでその領域２０１２をノイズ除去するのに必要とされるゴースト領域２００２の一部のローカルコピーを行う場合、ノード２０２２は、ノード２０２１から必要なゴースト領域データ２０３２を取り込む。この取り込みは、バス、相互接続、高速メモリファブリック、ネットワーク（例えば、高速イーサネット（登録商標））を介して実行されてよい、又は（例えば、最も高い解像度又は時間変化のいずれかにおいて大きな画像をレンダリングするために用いられる）複数のコア間のレンダリング作業を分散させることを可能にするマルチコアチップ内のオンチップ相互接続であってもよい。各ノード２０２１〜２０２３は、個々の実行ユニット、又は、グラフィックスプロセッサ内の実行ユニットの特定のセットを有し得る。

送信されるデータの具体的な量は、用いられるノイズ除去技術に依存する。さらに、ゴースト領域からのデータは、それぞれの各領域のノイズ除去を改善するために必要とされる任意のデータを含んでよい。例えば、ゴースト領域データは、画像の色／波長、明度／アルファデータ及び／又は標準を含み得る。しかしながら、本発明の基本的原理は、いかなる特定のセットのゴースト領域データにも限定されることはない。
［さらなる詳細］

より低速なネットワーク又は相互接続のために、このデータの圧縮は、既存の汎用可逆又は不可逆圧縮を用いて利用され得る。例では、ｚｌｉｂ、ｇｚｉｐ及びＬｅｍｐｅｌ−Ｚｉｖ−Ｍａｒｋｏｖチェーンアルゴリズム（ＬＺＭＡ）を含むが、これらに限定されることはない。さらなるコンテンツ固有の圧縮は、フレーム間のレイヒット情報における差分が非常にまばらになり得るということに注目することにより用いられてよく、ノードが前のフレームから収集した差分を既に有している場合、その差分に寄与するサンプルのみが送信される必要がある。これらは、これらのサンプルｉを収集するノードに選択的にプッシュされ得る、又は、ノードｉは、他のノードからサンプルを要求できる。可逆圧縮は、特定の種類のデータ及びプログラムコードに用いられ、不可逆データは、他の種類のデータに用いられる。

図２１は、ノード２０２１〜２０２２の間の相互作用についてのさらなる詳細を示す。各ノード２０２１〜２０２２は、それぞれの画像領域２０１１〜２０１２及びゴースト領域２００１〜２００２をレンダリングするためのレイトレーシングレンダリング回路２０８１〜２０８２を含む。ノイズ除去器２１００〜２１１１は、領域２０１１〜２０１２のそれぞれに対するノイズ除去オペレーションを実行し、各ノード２０２１〜２０２２は、レンダリング及びノイズ除去を担う。ノイズ除去器２０２１〜２０２２は、例えば、ノイズ除去された領域２１２１〜２１２２をそれぞれ生成するために、回路、ソフトウェア又はこれらの任意の組み合わせを有してよい。すでに述べたように、ノイズ除去された領域を生成する場合、ノイズ除去器２０２１〜２０２２は、異なるノードにより所有されるゴースト領域内のデータに依存する必要があり得る（例えば、ノイズ除去器２１００は、ノード２０２２により所有されるゴースト領域２００２からのデータを必要とし得る）。

したがって、ノイズ除去器２１００〜２１１１は、領域２０１１〜２０１２及びゴースト領域２００１〜２００２からのデータ（これらのデータの少なくとも一部は、別のノードから受信されてもよい）をそれぞれ用いてノイズ除去された領域２１２１〜２１２２を生成してよい。領域データマネージャ２１０１〜２１０２は、本明細書において説明されるように、ゴースト領域２００１〜２００２からのデータ転送を管理し得る。圧縮器／伸張器ユニット２１３１〜２１３２は、ノード２０２１〜２０２２間で交換されるゴースト領域データの圧縮及び伸張をそれぞれ実行してよい。

例えば、ノード２０２１の領域データマネージャ２１０１は、ノード２０２２からの要求の際に、ゴースト領域２００１から圧縮器／伸張器２１３１にデータを送信してよく、ノード２０２２に伝送される圧縮したデータ２１０６を生成するためにデータを圧縮することで、相互接続、ネットワーク、バス又は他のデータ通信リンク上の帯域幅を低減する。次に、ノード２０２２の圧縮器／伸張器２１３２は、圧縮したデータ２１０６を伸張し、ノイズ除去器２１１１は、伸張したゴーストデータを用いて領域２０１２からのデータのみで可能なものより高い品質でノイズ除去された領域２０１２を生成する。ノイズ除去された領域２１２２を生成する場合にノイズ除去器２１１１を利用可能にするために、領域データマネージャ２１０２は、伸張したゴースト領域２００１からのデータをキャッシュ、メモリ、レジスタファイル又は他のストレージに格納してよい。より高い品質でノイズ除去された領域２１２１を生成するために領域２０１１からのデータとの組み合わせにおいてデータを用いるノード２０２１のノイズ除去器２１００にゴースト領域２００２からデータを提供するために、同様のオペレーションのセットが実行されてよい。
［ＧＲＡＢデータ又はレンダリング］

ノード２０２１〜２０２２などのデバイス間の接続が遅い（つまり、閾値遅延及び／又は閾値帯域幅よりも低い）場合、他のデバイスから結果を要求するのではなく、ゴースト領域をローカルにレンダリングするほうが速いことがある。これは、ゴースト領域サイズに関するネットワークトランザクション速度及び線形外挿レンダリング時間を追跡することにより、ランタイム時に決定され得る。ゴースト領域全体をレンダリングするほうが速いような場合、複数のデバイスは、最後には画像の同じ部分をレンダリングしてよい。ゴースト領域のレンダリングされた部分の解像度は、ベース領域の分散及び決定されたブラーの度合いに基づいて調整されてよい。
［負荷分散］

静的及び／又は動的な負荷分散方式は、様々なノード２０２１〜２０２３間の処理負荷を分散するために用いられ得る。動的な負荷分散について、ノイズ除去フィルタにより決定される分散は、両方ともノイズ除去に多くの時間を必要とし得るが、画像の低分散かつ不鮮明な領域が少ないサンプルしか必要としない場合には、シーンの特定の領域をレンダリングするのに用いられるサンプルの量をドライブしてよい。特定のノードに割り当てられる特定の領域は、前のフレームからのデータに基づいて動的に調整されてよい、又は、全てのデバイスが同じ作業量を有するようにそれらがレンダリングされるように、デバイスにわたって動的に通信される。

図２２は、各ノード２０２１〜２０２２のそれぞれで実行しているモニタ２２０１〜２２０２が性能測定基準データをどのように収集するかを示し、性能測定基準データには、限定されることはないが、ネットワークインタフェース２２１１〜２２１２を介してデータを伝送するのに費やした時間、（ゴースト領域データの有無に関わらず）領域をノイズ除去したときに費やした時間、及び、各領域／ゴースト領域をレンダリングするのに費やした時間が含まれる。モニタ２２０１〜２２０２は、これらの性能測定基準をマネージャ又は負荷分散ノード２２０１に戻して報告し、各ノード２０２１〜２０２２上の現在のワークロードを識別するためにデータを解析し、様々なノイズ除去された領域２１２１〜２１２２を処理するのにより効率的なモードを場合によっては決定する。次に、マネージャノード２２０１は、検出された負荷に従って、新しい領域に対する新しいワークロードをノード２０２１〜２０２２に分散させる。例えば、マネージャノード２２０１は、負荷が大きくないこれらのノードに多くの作業を伝送してよい、及び／又は、過負荷であるこれらのノードから作業を再度割り当てよい。さらに、負荷分散ノード２２０１は、レンダリング及び／又はノイズ除去がノードのそれぞれにより実行される特定の方式（そのいくつかの例は上述されている）で調整するために、再構成コマンドを伝送してよい。
［ゴースト領域の決定］

ゴースト領域２００１〜２００２のサイズ及び形は、ノイズ除去器２１００〜２１１１により実装されるノイズ除去アルゴリズムに基づいて決定され得る。次に、これらのサイズはそれぞれ、ノイズ除去されたサンプルについての検出された分散に基づいて動的に修正され得る。ＡＩノイズ除去自体のために用いられる学習アルゴリズムは、適切な領域サイズを決定するために用いられてよい、又は、バイラテラルブラーなどのその他の場合には、予め定められたフィルタ幅がゴースト領域２００１〜２００２のサイズを決定する。学習アルゴリズムを用いる例示的実施態様において、機械学習エンジンは、マネージャノード２２０１上で実行されてよい、及び／又は、機械学習の一部が、個々のノード２０２１〜２０２３のそれぞれで実行されてよい（例えば、図１８Ａ〜図１８Ｂ及び上記の関連する文章を参照）。
［最終的な画像の収集］

最終的な画像は、ゴースト領域又は法線を必要とすることなくノード２０２１〜２０２３のそれぞれからレンダリングされてノイズ除去された領域を収集することにより生成され得る。図２２において、例えば、ノイズ除去された領域２１２１〜２１２２は、最終的なノイズ除去された画像２２９０を生成する領域を組み合わせるマネージャノード２２０１の領域プロセッサ２２８０に伝送され、次に、ディスプレイ２２９０上に表示される。領域プロセッサ２２８０は、様々な２Ｄ合成技術を用いて領域を組み合わせてよい。別個のコンポーネントとして図示されているが、領域プロセッサ２２８０及びノイズ除去された画像２２９０は、ディスプレイ２２９０に不可欠であってよい。本実施形態において、様々なノード２０２１〜２０２２は、ダイレクト送信技術を用いて、ノイズ除去された領域２１２１〜２１２２を伝送してよく、場合によっては領域データの様々な不可逆又は可逆圧縮を用いてよい。

ＡＩノイズ除去は、ゲームがクラウドに移っていても、依然としてコストのかかるオペレーションである。したがって、複数のノード２０２１〜２０２２にわたるノイズ除去の分散処理は、より高いフレームレートを必要とする従来のゲーム又は仮想現実（ＶＲ）に対してリアルタイムのフレームレートを実現することが要求されるようになり得る。映画スタジオも、多くの場合、レンダリングをより迅速なノイズ除去に利用され得る大きなレンダリングファームにおいて行っている。

分散型のレンダリング及びノイズ除去を実行するための例示的方法が図２３に示されている。本方法は、上述のシステムアーキテクチャの文脈で実装されてよいが、いかなる特定のシステムアーキテクチャにも限定されることはない。

２３０１で、グラフィックス作業は、レイトレーシングオペレーションを実行して画像フレームの領域をレンダリングする複数のノードにディスパッチされる。各ノードは、オペレーションを実行するのに必要とされるデータをメモリ内に既に有していてよい。例えば、複数のノードのうちの２つ又はそれより多くが、共通のメモリを共有してよい、又は、ノードのローカルメモリは、レイトレーシングオペレーションの前から既に格納されているデータを有していてよい。あるいは又はさらに、特定のデータが各ノードに伝送されてよい。

２３０２で、特定のノイズ除去レベル（つまり、性能の許容レベル）に必要な「ゴースト領域」が決定される。ゴースト領域は、特定のノイズ除去レベルを実行するのに必要とされる任意のデータを有し、１つ又は複数の他のノードにより所有されるデータを含む。

２３０３で、ゴースト領域に関連するデータ（又は、これらの一部）がノード間で交換される。２３０４で、各ノードは、（例えば、交換したデータを用いて）その各領域に対してノイズ除去を実行し、２３０５において、結果が、最終的なノイズ除去された画像フレームを生成するために組み合わせられる。

例えば、図２２に示されるようなマネージャノード又は１次ノードが、ノードに作業をディスパッチし、次に、ノードにより実行される作業を組み合わせて最終的な画像フレームを生成し得る。ノードが、データをやり取りして、最終的な画像フレームをレンダリング及びノイズ除去するピアであるピアベースのアーキテクチャを用いることが可能である。

本明細書において説明されるノード（例えば、ノード２０２１〜２０２３）は、高速ネットワークを介して相互接続されるグラフィックス処理コンピューティングシステムであってよい。あるいは、ノードは、高速メモリファブリックに連結される個々の処理要素であってよい。ノードの全ては、共通の仮想メモリ空間及び／又は共通の物理メモリを共有してよい。あるいは、ノードは、ＣＰＵとＧＰＵとの組み合わせであってよい。例えば、上述したマネージャノード２２０１は、ＣＰＵ及び／又はＣＰＵ上で実行されるソフトウェアであってよく、ノード２０２１〜２０２２は、ＧＰＵ及び／又はＧＰＵ上で実行されるソフトウェアであってよい。様々な異なる種類のノードが、本発明の基本的原理に依然として準拠しつつ用いられてよい。
［例示的なニューラルネットワークの実施態様］

多くの種類のニューラルネットワークがあり、ニューラルネットワークのシンプルな種類はフィードフォワードネットワークである。フィードフォワードネットワークは、ノードが層に配置された非巡回グラフとして実装され得る。通常、フィードフォワードネットワークトポロジには、少なくとも１つの隠れ層で分離された入力層と出力層が含まれる。隠れ層は、入力層が受信した入力を、出力層で出力を生成するのに有用な表現に変換する。ネットワークノードは隣接する層のノードにエッジを介して全結合されているが、各層内のノード間にエッジはない。フィードフォワードネットワークの入力層のノードにおいて受信されるデータは、層を接続するエッジのそれぞれに関連付けられる係数（「重み」）に基づいてそれぞれネットワーク内の各連続層のノードの状態を計算する活性化関数を介して出力層のノードに伝搬（つまり、「フィードフォワード」）される。実行中のアルゴリズムによって表される特定のモデルに応じて、ニューラルネットワークアルゴリズムからの出力は様々な形式を取ることができる。

機械学習アルゴリズムが、特定の問題をモデル化するのに使用可能となる前に、アルゴリズムは訓練データセットを使用して訓練される。ニューラルネットワークの訓練は、ネットワークによってモデル化されている問題を表す訓練データのセットを使用してネットワークトポロジを選択する段階と、訓練データセットの全てのインスタンスについてネットワークモデルが最小限の誤差で実行されるまで重みを調整する段階と、を含む。例えば、ニューラルネットワークの教師あり学習訓練プロセス中に、訓練データセット内のインスタンスを表す入力に応答してネットワークによって生成された出力は、そのインスタンスの「正解」と分類された出力と比較され、出力と分類された出力との間の差を表す誤差信号が計算され、接続に関連付けられた重みが調整されて、誤差信号がネットワークの層を介して後方に伝搬されるため、その誤差が最小限に抑えられる。訓練データセットのインスタンスから生成された出力のそれぞれの誤差が最小限に抑えられる場合、ネットワークは「訓練された」とみなされる。

機械学習アルゴリズムの精度は、アルゴリズムの訓練に使用されるデータセットの品質に大きく影響され得る。訓練プロセスは計算集約的になる可能性があり、従来の汎用プロセッサでは膨大な時間を必要とし得る。したがって、並列処理ハードウェアを使用して、多くの種類の機械学習アルゴリズムを訓練する。これは、ニューラルネットワークの係数の調整で実行される演算がもともと並列実施態様に有用であるため、ニューラルネットワークの訓練を最適化するのに特に役立つ。具体的には、多くの機械学習アルゴリズム及びソフトウェアアプリケーションが、汎用グラフィックス処理デバイス内の並列処理ハードウェアを利用するように適合されている。

図２４は、機械学習ソフトウェアスタック２４００を一般化した図である。機械学習アプリケーション２４０２は、訓練データセットを使用してニューラルネットワークを訓練するように、又は訓練されたディープニューラルネットワークを使用してマシンインテリジェンスを実装するように構成されることができる。機械学習アプリケーション２４０２は、ニューラルネットワークのための訓練及び推論機能、及び／又は展開前にニューラルネットワークを訓練するために使用されることができる専用のソフトウェアを含むことができる。機械学習アプリケーション２４０２は、限定されることはないが、画像認識、マッピング及び位置特定、自律ナビゲーション、音声合成、医用イメージング、又は言語変換を含む任意の種類のマシンインテリジェンスを実装することができる。

機械学習アプリケーション２４０２のハードウェアアクセラレーションは、機械学習フレームワーク２４０４を介して可能になり得る。機械学習フレームワーク２４０４は、本明細書に記載のプロセッサ及びコンポーネントを含む処理システム１００などの、本明細書に記載のハードウェア上に実装され得る。本明細書における任意の他の図の要素と同じ又は同様の名称を有する、図２４に記載の要素は、その他の図にあるのと同じ要素を記載し、それと同様の方式で動作又は機能可能であり、同じコンポーネントを含むことが可能であり、本明細書のどこか他の箇所で説明されたものとして他のエンティティにリンク可能であるが、そのように限定されることはない。機械学習フレームワーク２４０４は、機械学習プリミティブのライブラリを提供することができる。機械学習プリミティブは、機械学習アルゴリズムによって一般的に実行される基本的なオペレーションである。機械学習フレームワーク２４０４がない場合、機械学習アルゴリズムの開発者は、機械学習アルゴリズムに関連付けられた主な計算ロジックを作成及び最適化し、次に、新しい並列プロセッサが開発されるときに計算ロジックを再最適化するのに必要とされるであろう。代わりに、機械学習アプリケーションは、機械学習フレームワーク２４０４によって提供されるプリミティブを使用して必要な演算を実行するように構成されることができる。例示的なプリミティブには、テンソル畳み込み、起動関数、及びプーリングが含まれる。これらは、畳み込みニューラルネットワーク（ＣＮＮ）の訓練中に実行される計算演算である。機械学習フレームワーク２４０４はまた、例えば、行列及びベクトル演算などの多くの機械学習アルゴリズムによって実行される基本的な線形代数サブプログラムを実装するためのプリミティブを提供することができる。

機械学習フレームワーク２４０４は、機械学習アプリケーション２４０２から受信した入力データを処理し、計算フレームワーク２４０６への適切な入力を生成することができる。計算フレームワーク２４０６は、ＧＰＧＰＵドライバ２４０８に提供される基礎的な命令を要約して、機械学習フレームワーク２４０４がＧＰＧＰＵハードウェア２４１０のアーキテクチャの詳しい知識を持つことを必要とすることなく、機械学習フレームワーク２４０４がＧＰＧＰＵハードウェア２４１０を介してハードウェアアクセラレーションを活用するのを可能にすることができる。さらに、計算フレームワーク２４０６は、ＧＰＧＰＵハードウェア２４１０の様々な種類及び世代にわたる機械学習フレームワーク２４０４のハードウェアアクセラレーションを可能にすることができる。

［ＧＰＧＰＵ機械学習アクセラレーション］

図２５は、処理システム１００の変形例であり得る、マルチＧＰＵコンピューティングシステム２５００を示す。したがって、本明細書における処理システム１００と組み合わせた任意の特徴の開示も、マルチＧＰＵコンピューティングシステム２５００との対応する組み合わせを開示するが、そのように限定されることはない。本明細書における任意の他の図の要素と同じ又は同様の名称を有する、図２５に記載の要素は、その他の図にあるのと同じ要素を記載し、それと同様の方式で動作又は機能可能であり、同じコンポーネントを含むことが可能であり、本明細書のどこか他の箇所で説明されたものとして他のエンティティにリンク可能であるが、それに限定されることはない。マルチＧＰＵコンピューティングシステム２５００は、ホストインタフェーススイッチ２５０４を介して複数のＧＰＧＰＵ２５０６Ａ〜Ｄに連結されたプロセッサ２５０２を含むことができる。ホストインタフェーススイッチ２５０４は、例えば、プロセッサ２５０２がＧＰＧＰＵ２５０６Ａ〜Ｄのセットと通信できるＰＣＩＥｘｐｒｅｓｓバスにプロセッサ２５０２を連結するＰＣＩＥｘｐｒｅｓｓスイッチデバイスであってよい。複数のＧＰＧＰＵ２５０６Ａ〜Ｄのそれぞれは、上述したＧＰＧＰＵのインスタンスであり得る。ＧＰＧＰＵ２５０６Ａ〜Ｄは、高速ポイントツーポイントのＧＰＵ間リンク２５１６のセットを介して相互接続することができる。高速ＧＰＵ間リンクは、専用のＧＰＵリンクを介してＧＰＧＰＵ２５０６Ａ〜Ｄのそれぞれに接続できる。Ｐ２ＰのＧＰＵリンク２５１６は、プロセッサ２５０２が接続されるホストインタフェースバスを介した通信を必要とすることなく、ＧＰＧＰＵ２５０６Ａ〜２５０６Ｄの各々の間の直接通信を可能にする。Ｐ２ＰのＧＰＵリンクに関するＧＰＵ間トラフィックにより、ホストインタフェースバスは、システムメモリアクセスのために、又は例えば１つ又は複数のネットワークデバイスを介してマルチＧＰＵコンピューティングシステム２５００の他のインスタンスと通信するために利用可能のままである。プロセッサ２５０２にＧＰＧＰＵ２５０６Ａ〜Ｄを、ホストインタフェーススイッチ２５０４を介して接続する代わりに、プロセッサ２５０２は、Ｐ２ＰＧＰＵリンク２５１６に対する直接サポートを含むので、ＧＰＧＰＵ２５０６Ａ〜Ｄに直接接続することができる。

［機械学習ニューラルネットワークの実施態様］

本明細書において説明される実施形態により提供されるコンピューティングアーキテクチャは、特に、機械学習のためにニューラルネットワークを訓練及び展開するのに適した種類の並列処理を実行するように構成され得る。ニューラルネットワークは、グラフの関係を有する関数のネットワークとして一般化されることができる。当技術分野でよく知られているように、機械学習で使用される様々な種類のニューラルネットワークの実施態様がある。ニューラルネットワークの１つの例示的な種類は、前述したようにフィードフォワードネットワークである。

ニューラルネットワークの第２例示的な種類は、畳み込みニューラルネットワーク（ＣＮＮ）である。ＣＮＮは、例えば、画像データなど、既知のグリッド式のトポロジを有するデータを処理するための専用のフィードフォワードニューラルネットワークである。したがって、ＣＮＮはビジョン計算又は画像認識のアプリケーションに一般的に使用されるが、例えば、それらは音声及び言語処理などの他の種類のパターン認識にも使用され得る。ＣＮＮ入力層のノードは、「フィルタ」のセット（網膜に見られる受容野から発想を得た特徴検出器）に編成され、各フィルタセットの出力は、ネットワークの連続層のノードに伝搬される。ＣＮＮの演算には、畳み込み数学演算を各フィルタに適用して、そのフィルタの出力を生成することが含まれる。畳み込みは、２つの関数によって実行される専用の種類の数学演算であり、第３関数を生成する。これは、２つの元の関数のうちの一方の修正版である。畳み込みネットワークの用語では、畳み込みへの第１関数は入力と称されることができ、第２関数は畳み込みカーネルと称されることができる。出力は、特徴マップと称され得る。例えば、畳み込み層への入力は、入力画像の様々な色成分を規定するデータの多次元配列にすることができる。畳み込みカーネルは、パラメータの多次元配列にすることができる。パラメータは、ニューラルネットワークの訓練プロセスによって適合される。

再帰型ニューラルネットワーク（ＲＮＮ）は、層間のフィードバック接続を含むフィードフォワードニューラルネットワークのファミリである。ＲＮＮは、ニューラルネットワークの異なる部分にわたりパラメータデータを共有することにより、順次データのモデル化を可能にする。ＲＮＮのアーキテクチャはサイクルを含む。サイクルは、ＲＮＮからの出力データの少なくとも一部が順番に後続の入力を処理するためのフィードバックとして使用されるため、将来の時点での変数の現在の値がそれ自体の値に及ぼす影響を表す。この機能により、言語データは構成されることができる可変性により、ＲＮＮは言語処理に特に有用である。

後述される図は、例示的なフィードフォワード、ＣＮＮ、及びＲＮＮネットワークを提示し、及びこれらの種類のネットワークの各々をそれぞれ訓練及び展開するための一般的なプロセスを説明している。これらの説明が例示的なものであり、本明細書において説明される任意の特定の実施形態に限定されることはなく、図示されるコンセプトは、一般的なディープニューラルネットワーク及び機械学習技術に一般的に適用され得ることが理解されるだろう。

上述した例示的なニューラルネットワークは、ディープラーニングを実行するために使用されることができる。ディープラーニングは、ディープニューラルネットワークを使用した機械学習である。ディープラーニングで使用されるディープニューラルネットワークは、単一隠れ層のみを含む浅いニューラルネットワークとは異なり、複数の隠れ層から構成される人工ニューラルネットワークである。より深いニューラルネットワークは、一般的に、訓練するには計算集約的である。しかし、ネットワークの追加の隠れ層により、浅い機械学習技術に対して出力誤差が減少するマルチステップパターン認識が可能になる。

ディープラーニングで使用されるディープニューラルネットワークには、通常、モデルに提供された特徴表現に基づいて演算（例えば、オブジェクト分類、音声認識など）を実行できる数学的モデルを表すバックエンドネットワークに連結された特徴認識を実行するフロントエンドネットワークが含まれる。ディープラーニングは、モデルに対して手作りされた機能エンジニアリングが実行されることを必要とすることなく、機械学習が実行されることを可能にする。その代わり、ディープニューラルネットワークは、入力データ内の統計的構造又は相関関係に基づいて機能を学習できる。学習された特徴は、検出された特徴を出力にマッピングできる数学的モデルに提供されることができる。ネットワークにより使用される数学的モデルは、一般的に、実行される特定のタスクに特化しており、異なるモデルが異なるタスクを実行するのに使用されることになる。

ニューラルネットワークが構築されると、学習モデルはネットワークに適用され、特定のタスクを実行するようにネットワークを訓練できる。学習モデルは、どのようにモデル内の重みを調整してネットワークの出力誤差を減らすかを示す。誤差の逆伝搬は、ニューラルネットワークの訓練に使用される一般的な方法である。入力ベクトルは、処理のためにネットワークに提示される。ネットワークの出力は、損失関数を使用して所望の出力と比較され、出力層のニューロンのそれぞれに対して誤差値が計算される。誤差値は、次に、各ニューロンが元の出力への寄与を大まかに表す関連付けられた誤差値を有するまで、後方に伝搬される。その後ネットワークは、例えば、確率的勾配降下アルゴリズムなどのアルゴリズムを使用してこれらの誤差から学習し、ニューラルネットワークの重みを更新できる。

図２６及び図２７は、例示的な畳み込みニューラルネットワークを示す。図２６は、ＣＮＮ内の様々な層を示す。図２６に示されるように、画像処理をモデル化するために用いられる例示的なＣＮＮは、入力画像の赤、緑及び青（ＲＧＢ）成分を記述する入力２６０２を受信できる。入力２６０２は、複数の畳み込み層（例えば、畳み込み層２６０４、畳み込み層２６０６）により処理され得る。複数の畳み込み層からの出力は、任意選択で、全結合層２６０８のセットによって処理され得る。全結合層のニューロンは、フィードフォワードネットワークに関して前述したように、前の層の全ての起動に完全に接続する。全結合層２６０８からの出力は、ネットワークから出力結果を生成するのに使用され得る。全結合層２６０８内の起動は、畳み込みの代わりに行列乗算を使用して計算されることができる。全てのＣＮＮ実施態様が全結合層を利用するわけではない。例えば、いくつかの実施態様では、畳み込み層２６０６はＣＮＮの出力を生成することができる。

畳み込み層は疎に接続されており、全結合層２６０８に見られる従来のニューラルネットワーク構成とは異なる。従来のニューラルネットワーク層は全結合されているため、全ての出力ユニットはあらゆる入力ユニットとインタラクトする。しかし、図示のように、フィールドの畳み込みの出力が（フィールド内の各々のノードのそれぞれの状態値の代わりに）後続の層のノードに入力されるため、畳み込み層は疎に接続されている。畳み込み層に関連付けられたカーネルは、畳み込み演算を実行し、その出力は次の層に送信される。畳み込み層内で実行される次元削減は、ＣＮＮがスケーリングして大きな画像の処理を可能にする一態様である。

図２７は、ＣＮＮの畳み込み層内の例示的な計算段階を示す。ＣＮＮの畳み込み層２７１２への入力は、畳み込み層２７１４の３つの段階で処理されることができる。３つの段階は、畳み込み段階２７１６、検出段階２７１８、及びプーリング段階２７２０を含むことができる。それにより、畳み込み層２７１４は、連続的畳み込み層にデータを出力することができる。ネットワークの最終の畳み込み層は、出力特徴マップデータを生成し、又は全結合層に入力を提供し、例えばＣＮＮへの入力の分類値を生成できる。

畳み込み段階２７１６では、いくつかの畳み込みを並行して実行して、線形起動のセットを生成する。畳み込み段階２７１６は、線形変換プラス移動として指定されることができる任意の変換であるアフィン変換を含むことができる。アフィン変換には、回転、移動、スケーリング、及びこれらの変換の組み合わせが含まれる。畳み込みステージは、入力内の特定の領域に接続される機能（例えば、ニューロン）の出力を計算し、ニューロンに関連付けられる局所領域として決定され得る。ニューロンは、ニューロンの重みと、ニューロンが接続されているローカル入力の領域との間のドット積を計算する。畳み込み段階２７１６からの出力は、畳み込み層２７１４の連続的段階によって処理される線形起動のセットを規定する。

線形起動は、検出段階２７１８によって処理されることができる。検出段階２７１８では、各線形起動は非線形起動関数によって処理される。非線形起動関数は、畳み込み層の受容野に影響を与えることなく、ネットワーク全体の非線形特性を高める。いくつかの種類の非線形起動関数は、使用され得る。１つの特定の種類は、正規化線形ユニット（ＲｅＬＵ）であり、これは、アクティベーションがゼロに閾値設定されるように、ｆ（ｘ）＝ｍａｘ（０，ｘ）として定義される活性化関数を用いる。

プーリング段階２７２０は、畳み込み層２７０６の出力を近くの出力の要約統計量で置き換えるプーリング関数を使用する。プーリング関数は、ニューラルネットワークに移動不変性を導入するのに使用され得る。その結果、入力への小さな移動は、プールされた出力を変更しない。ローカル移動に対する不変性は、入力データ内の機能の存在が機能の正確な位置よりも重要であるシナリオで有用とすることができる。最大プーリング、平均プーリング、及びｌ２−ノルムプーリングを含む、様々な種類のプーリング関数は、プーリング段階２７２０の間に使用されることができる。さらに、いくつかのＣＮＮ実施態様はプーリング段階を含まない。代わりに、そのような実施態様は、以前の畳み込みステージと比較して、増加したストライドを有する代わりの及び追加の畳み込みステージである。

次に、畳み込み層２７１４からの出力は、次の層２７２２によって処理することができる。次の層２７２２は、追加の畳み込み層又は全結合層２７０８のうちの１つとすることができる。例えば、図２７の第１の畳み込み層２７０４は、第２の畳み込み層２７０６に出力でき、第２の畳み込み層は、全結合層２８０８のうちの第１の層に出力できる。

図２８は、例示的な再帰型ニューラルネットワーク２８００を示す。再帰型ニューラルネットワーク（ＲＮＮ）では、ネットワークの前の状態がネットワークの現在の状態の出力に影響する。ＲＮＮは、様々な機能を使用して様々な方法で構築されることができる。ＲＮＮの使用は、一般的に、数学的モデルを使用して、以前の一連の入力に基づいて将来を予測することを中心に展開する。例えば、ＲＮＮが、統計的言語モデル化を実行し、前の一連のワードが与えられると、次の単語を予測するのに使用され得る。図示のＲＮＮ２８００は、入力ベクトルを受信する入力層２８０２、反復機能を実装するための隠れ層２８０４、フィードバックメカニズム２８０５を有すると説明されることができ、以前の状態の「メモリ」と出力層２８０６とが結果を出力するのを可能にする。ＲＮＮ２８００は時間段階に基づいて動作する。所与の時間ステップでのＲＮＮの状態は、フィードバックメカニズム２８０５を介して先行時間ステップに基づいて影響を受ける。所与の時間ステップについて、隠れ層２８０４の状態は、前の状態及び現在の時間ステップでの入力によって定められる。第１時間ステップでの初期入力（ｘ１）は、隠れ層２８０４で処理されることができる。第２入力（ｘ２）は、初期入力（ｘ１）の処理の間に決定される状態情報を使用して、隠れ層２８０４によって処理されることができる。所与の状態は、ｓ＿ｔ＝ｆ（Ｕｘ＿ｔ＋Ｗｓ＿（ｔ−１））として計算され得、Ｕ及びＷは、パラメータ行列である。関数ｆは、一般的に、双曲線正接関数（Ｔａｎｈ）又は正規化関数ｆ（ｘ）＝ｍａｘ（０，ｘ）の変形例など、非線形である。しかしながら、隠れ層２８０４において用いられる特定の数学的な関数は、ＲＮＮ２８００についての特定の実施態様の詳細に応じて変化し得る。

説明されている基本的なＣＮＮ及びＲＮＮネットワークに加えて、これらのネットワークの変更を有効にし得る。ある例示的なＲＮＮの変形例は、長・短期メモリ（ＬＳＴＭ）ＲＮＮである。ＬＳＴＭＲＮＮは、より長い並びの言語を処理するために必要となり得る長期依存を学習できる。ＣＮＮの変形は、ＣＮＮに類似した構造を有し、ディープビリーフネットワークと同様の方式で訓練される畳み込みディープビリーフネットワークである。ディープビリーフネットワーク（ＤＢＮ）は、確率（ランダム）変数の複数の層から構成される生成系ニューラルネットワークである。ＤＢＮは、貪欲な教師なし学習を使用して、層毎に訓練されることができる。次に、ＤＢＮの学習された重みは、ニューラルネットワークの重みの最適な初期セットを決定することにより、事前訓練ニューラルネットワークを提供するのに使用され得る。

図２９は、ディープニューラルネットワークの訓練及び展開を示す。所与のネットワークがタスク用に構築されると、ニューラルネットワークは訓練データセット２９０２を使用して訓練される。訓練プロセスのハードウェアアクセラレーションを可能にするために、様々な訓練フレームワーク２９０４が開発されている。例えば、上述した機械学習フレームワークは、訓練フレームワークとして構成されてよい。訓練フレームワーク２９０４は、訓練されていないニューラルネットワーク２９０６に接続でき、訓練されていないニューラルネットが本明細書で説明される並列処理リソースを使用して訓練され、訓練されたニューラルネット２９０８を生成可能にする。

訓練プロセスを開始するには、初期重みをランダムに又はディープビリーフネットワークを使用して事前訓練することにより選択され得る。訓練サイクルは、次に、教師あり方式又は教師なし方式のいずれかで実行される。

教師あり学習とは、例えば、訓練データセット２９０２に、入力に所望の出力と組み合わされている入力が含まれる場合、又は訓練データセットに既知の出力を有する入力とニューラルネットワークの出力が含まれ、ネットワークの出力は手動で格付けされる場合など、介入オペレーションとして訓練が実行される学習方法である。ネットワークは入力を処理し、結果の出力を期待される出力又は所望の出力のセットと比較する。次に、誤差はシステムを通じ戻り伝搬される。訓練フレームワーク２９０４は、訓練されていないニューラルネットワーク２９０６を制御する重みを調整するように調整することができる。訓練フレームワーク２９０４は、どのように上手く訓練されていないニューラルネットワーク２９０６が既知の入力データに基づいて正解を生成するのに好適なモデルに対して収束しているかを監視するツールを提供することができる。ニューラルネットワークによって生成された出力を改善するためにネットワークの重みが調整されると、訓練プロセスを繰り返し行う。ニューラルネットワークが、訓練されたニューラルネット２９０８に関連付けられる統計的に所望の精度に達するまで、訓練プロセスを継続することができる。その後、訓練されたニューラルネットワーク２９０８は、任意の数の機械学習オペレーションを実装するように展開可能である。

教師なし学習は、ネットワークが分類されていないデータを使用して自身を訓練しようと試みる学習方法である。したがって、教師なし学習の場合、訓練データセット２９０２には、任意の関連付けられる出力データのない入力データが含まれるであろう。訓練されていないニューラルネットワーク２９０６は、分類されていない入力内のグループ化を学習でき、個々の入力がどのようにデータセット全体に関連するかを決定できる。教師なし訓練は、自己組織化マップを生成するのに使用され得る。自己組織化マップは、データの次元を削減するのに有用なオペレーションを実行できる種類の訓練されたニューラルネットワーク２９０７である。教師なし訓練は、異常検出を実行することにも使用され得る。これにより、データの通常のパターンから逸脱した入力データセット内のデータポイントを識別することが可能になる。

教師あり訓練及び教師なし訓練の変更はまた利用され得る。半教師あり学習は、訓練データセット２９０２に、同じ分散の分類されたデータと分類されていないデータの混合が含まれる技術である。インクリメンタル学習は、教師あり学習の変形であり、入力データが連続して使用され、モデルをさらに訓練する。インクリメンタル学習は、訓練されたニューラルネットワーク２９０８が、初期訓練中にネットワーク内に注ぎ込まれた知識を忘れることなく、新しいデータ２９１２に適合することを可能にする。

教師あり又は教師なしであるかに関わらず、特にディープニューラルネットワークの訓練プロセスは、単一計算ノードにとって非常に計算集約的になり得る。単一計算ノードを使用する代わりに、計算ノードの分散型ネットワークが、訓練プロセスを加速するのに使用され得る。

図３０Ａは、分散型学習を示すブロック図である。分散型学習は、上述したノードなどの複数の分散型計算ノードを用いて、ニューラルネットワークの教師あり又は教師なし訓練を実行する訓練モデルである。分散型計算ノードはそれぞれ、１つ又は複数のホストプロセッサと、高並列汎用グラフィックス処理ユニットなどの汎用処理ノードのうちの１つ又は複数とを含むことができる。図示されるように、分散型学習は、モデル並列処理３００２、データ並列処理３００４、又は、モデル及びデータ並列処理の組み合わせを実行し得る。

モデル並列処理３００２では、分散型システムの異なる計算ノードが、単一のネットワークの異なる部分の訓練演算を実行できる。例えば、ニューラルネットワークの各層は、分散型システムの異なる処理ノードによって訓練されることができる。モデル並列処理の利点には、特に大きなモデルにスケーリングする能力が含まれる。ニューラルネットワークの異なる層に関連付けられた演算を分割すると、全ての層の重みが単一計算ノードのメモリに適合しないであろう非常に大規模なニューラルネットワークの訓練が可能になる。いくつかの例において、モデル並列処理は、大規模なニューラルネットワークの教師なし訓練を実行する際に特に有用とすることができる。

データ並列処理３００４では、分散型ネットワークの異なるノードがモデルの完全なインスタンスを有し、各ノードがデータの異なる部分を受信する。次に、異なるノードからの結果が組み合わされる。データ並列処理には異なるアプローチが可能であるが、データの並列訓練アプローチでは全て、結果を組み合わせて各ノード間でモデルパラメータを同期させる技術が必要である。データを組み合わせるための例示的なアプローチには、パラメータの平均化と更新ベースのデータ並列処理が含まれる。パラメータの平均化は、訓練データのサブセットで各ノードを訓練し、グローバルパラメータ（例えば、重み、バイアス）を各ノードのパラメータの平均に設定する。パラメータの平均化では、パラメータデータを維持する中央パラメータサーバを使用する。更新ベースのデータ並列処理は、ノードからパラメータサーバにパラメータを転送する代わりに、モデルへの更新が転送されることを除いて、パラメータの平均化と同様である。さらに、更新ベースのデータ並列処理は、更新がノード間で圧縮及び転送される分散方式で実行されることができる。

組み合わせモデル及びデータ並列処理３００６は、例えば、各計算ノードが複数のＧＰＵを含む分散型システムで実装されることができる。各ノードはモデルの完全なインスタンスを有することができ、各ノード内の別個のＧＰＵはモデルの異なる部分を訓練するために使用される。

分散型訓練では、単一マシンでの訓練に対してオーバヘッドが増加している。しかし、本明細書で説明された並列プロセッサ及びＧＰＧＰＵは各々、高帯域幅ＧＰＵ間データ転送及び加速されたリモートデータ同期を可能にする技術を含む、分散型訓練のオーバヘッドを削減する様々な技術を実装できる。
［例示的な機械学習アプリケーション］

機械学習は、限定されることはないが、コンピュータビジョン、自動運転及びナビゲーション、音声認識、言語処理を含む様々な技術的問題を解決するために適用されることができる。コンピュータビジョンは、従来、機械学習アプリケーションの最も活発な研究領域のうちの１つであった。コンピュータビジョンのアプリケーションは、例えば、顔の認識などの人の視覚能力の再生から、視覚能力の新しいカテゴリの作成までの範囲にわたる。例えば、コンピュータビジョンアプリケーションは、映像に可視のオブジェクトで引き起こされる振動からの音波を認識するように構成されることができる。並列プロセッサ加速機械学習により、コンピュータビジョンアプリケーションが、既に実現可能であったものよりも膨大な訓練データセットを使用して訓練されることが可能になり、また推論システムが低電力並列プロセッサを使用して展開されることが可能になる。

並列プロセッサ加速機械学習は、レーン及び道路標識認識、障害物回避、ナビゲーション、及び運転制御を含む自動運転アプリケーションを有する。加速機械学習技術が、固有の訓練入力に対する適切な応答を規定するデータセットに基づいて駆動モデルを訓練するのに使用され得る。本明細書で説明される並列プロセッサは、自動運転ソリューションに使用されるますます複雑化するニューラルネットワークの迅速な訓練を可能にすることができ、自律走行車への統合に好適なモバイルプラットフォームでの低電力推論プロセッサの展開を可能にする。

並列プロセッサ加速ディープニューラルネットワークにより、自動音声認識（ＡＳＲ）への機械学習アプローチが可能になった。ＡＳＲには、入力アコースティックシーケンスが与えられたときに最も可能性の高い言語シーケンスを計算する関数の作成が含まれる。ディープニューラルネットワークを使用した加速機械学習により、既にＡＳＲに使用されていた隠れＭａｒｋｏｖモデル（ＨＭＭ）とＧａｕｓｓｉａｎ混合モデル（ＧＭＭ）の置き換えが可能になった。

並列プロセッサ加速機械学習はまた、自然言語処理を加速するために使用されることができる。自動学習手順では、統計的推論アルゴリズムを利用して、誤った又は見知らぬ入力に対してロバストなモデルを生成できる。例示的な自然言語プロセッサアプリケーションには、人間の言語間の自動機械翻訳が含まれる。

機械学習に使用される並列処理プラットフォームは、訓練プラットフォームと展開プラットフォームに分割されることができる。訓練プラットフォームは一般的に非常に並列であり、マルチＧＰＵ単一ノード訓練及びマルチノード、マルチＧＰＵ訓練を加速するための最適化が含まれている。訓練に適した例示的な並列プロセッサは、本明細書において説明される高並列汎用グラフィックス処理ユニット及び／又はマルチＧＰＵコンピューティングシステムを含む。一方、展開された機械学習プラットフォームには、一般的に、例えば、カメラ、自律ロボット、自律走行車などの製品に使用するのに好適な低電力の並列プロセッサが含まれる。

図３０Ｂは、訓練されたモデルを用いて推論を実行するのに適した例示的な推論システムオンチップ（ＳＯＣ）３１００を示す。本明細書における任意の他の図の要素と同じ又は同様の名称を有する、図３０Ｂに記載の要素は、その他の図にあるのと同じ要素を記載し、これと同様な方式で動作又は機能可能であり、同じコンポーネントを含むことが可能であり、本明細書のどこか他の箇所で説明された他のエンティティにリンク可能であるが、そのように限定されることはない。ＳＯＣ３１００は、メディアプロセッサ３１０２、ビジョンプロセッサ３１０４、ＧＰＧＰＵ３１０６及びマルチコアプロセッサ３１０８を含む処理コンポーネントを統合できる。ＳＯＣ３１００は、処理コンポーネントの各々によってアクセス可能な共有オンチップデータプールを可能にすることができるオンチップメモリ３１０５をさらに含むことができる。処理コンポーネントは低電力オペレーション用に最適化され、自律走行車及び自律ロボットを含む様々な機械学習プラットフォームへの展開を可能にすることができる。例えば、ＳＯＣ３１００の一実施態様は、自律走行車の主制御システムの一部として使用されることができる。ＳＯＣ３１００が自律走行車に使用するために構成されている場合、ＳＯＣは、展開管轄区域の関連機能安全性規格に準拠するように設計及び構成されている。

オペレーション中、メディアプロセッサ３１０２及びビジョンプロセッサ３１０４は、コンピュータビジョンオペレーションをアクセラレートするために、同時に動作できる。メディアプロセッサ３１０２は、複数の高解像度（例えば、４Ｋ、８Ｋ）ビデオストリームの低遅延な復号を可能にし得る。復号されたビデオストリームは、オンチップメモリ３１０５内のバッファに書き込み可能である。次に、ビジョンプロセッサ３１０４は、訓練された画像認識モデルを使用してフレームを処理する準備として、復号された映像を解析し、復号された映像のフレームに対して予備処理オペレーションを実行することができる。例えば、ビジョンプロセッサ３１０４は、高解像度映像データに対して画像認識を実行するために使用されるＣＮＮのための畳み込み演算を加速することができ、バックエンドモデル演算は、ＧＰＧＰＵ３１０６によって実行される。

マルチコアプロセッサ３１０８は、メディアプロセッサ３１０２及びビジョンプロセッサ３１０４によって実行されるデータ転送及び共有メモリオペレーションのシーケンシング及び同期を支援する制御ロジックを含むことができる。マルチコアプロセッサ３１０８はまた、ＧＰＧＰＵ３１０６の推論計算機能を利用することができるソフトウェアアプリケーションを実行するためのアプリケーションプロセッサとして機能することができる。例えば、ナビゲーション及びドライブロジックの少なくとも一部は、マルチコアプロセッサ３１０８上で実行されるソフトウェアで実装されることができる。そのようなソフトウェアは、計算ワークロードを直接ＧＰＧＰＵ３１０６に発行することができる、又は計算ワークロードはマルチコアプロセッサ３１０８に発行されることができ、これらのオペレーションの少なくとも一部をＧＰＧＰＵ３１０６にオフロードできる。

ＧＰＧＰＵ３１０６は、高並列汎用グラフィックス処理ユニットＤＰＬＡＢ００内の処理クラスタＤＰＬＡＢ０６Ａ〜ＤＰＬＡＢ０６Ｈの低電力構成などの処理クラスタを含み得る。ＧＰＧＰＵ３１０６内の処理クラスタは、訓練されたニューラルネットワーク上で推論計算を実行するために特に最適化される命令をサポートすることができる。例えば、ＧＰＧＰＵ３１０６は、８ビット及び４ビットの整数ベクトル演算などの低い精度の計算を実行する命令をサポートすることができる。
［レイトレーシングアーキテクチャ］

１つの実施態様において、グラフィックスプロセッサは、リアルタイムレイトレーシングを行うための回路及び／又はプログラムコードを含む。いくつかの実施形態において、レイトラバーサルオペレーション及び／又はレイインターセクションオペレーションを含む、本明細書で説明される様々なレイトレーシングオペレーションを実行する専用のレイトレーシングコアのセットが、グラフィックスプロセッサに含まれ得る。レイトレーシングコアのほかに、プログラム可能型シェーディングオペレーションを行うための複数セットのグラフィックス処理コア、及びテンソルデータに対して行列演算を行うための複数セットのテンソルコアも含まれ得る。

図３１は、マルチコアグループ３１００Ａ〜Ｎに配置された専用のグラフィックス処理リソースのセットを含む１つのそのようなグラフィックス処理ユニット（ＧＰＵ）３１０５の例示的な部分を示す。グラフィックス処理ユニット（ＧＰＵ）３１０５は、グラフィックスプロセッサ３００、ＧＰＧＰＵ１３４０及び／又は本明細書に記載の任意のその他グラフィックスプロセッサの変形例であり得る。したがって、グラフィックスプロセッサの任意の特徴の開示は、ＧＰＵ３１０５との対応する組み合わせも開示するものであるが、そのように限定されることはない。さらに、本明細書における任意の他の図の要素と同じ又は同様の名称を有する、図３１に記載の要素は、その他の図にあるのと同じ要素を記載し、これと同様の方式で動作又は機能可能であり、同じコンポーネントを含むことが可能であり、本明細書のどこか他の箇所で説明された他のエンティティにリンク可能であるが、そのように限定されることはない。単一のマルチコアグループ３１００Ａの詳細だけが提供されているが、その他のマルチコアグループ３１００Ｂ〜Ｎも同じ又は同様のグラフィックス処理リソースのセットを備えてよいことが理解されるであろう。

示されているように、マルチコアグループ３１００Ａは、グラフィックスコア３１３０のセットと、テンソルコア３１４０のセットと、レイトレーシングコア３１５０のセットとを含んでよい。スケジューラ／ディスパッチャ３１１０が、様々なコア３１３０、３１４０、３１５０で実行するためのグラフィックススレッドをスケジューリングしてディスパッチする。レジスタファイル３１２０のセットが、グラフィックススレッドを実行するときに、コア３１３０、３１４０、３１５０が用いるオペランド値を格納する。これらは、例えば、整数値を格納する整数レジスタ、浮動小数点値を格納する浮動小数点レジスタ、パックドデータ要素（整数及び／又は浮動小数点データ要素）を格納するベクトルレジスタ、及びテンソル／行列値を格納するタイルレジスタを含んでよい。タイルレジスタは、複数のベクトルレジスタの組み合わせセットとして実装され得る。

１つ又は複数のレベル１（Ｌ１）キャッシュ及びテクスチャユニット３１６０が、テクスチャデータ、頂点データ、ピクセルデータ、レイデータ、バウンディングボリュームデータなどのグラフィックスデータを、それぞれのマルチコアグループ３１００Ａにローカルに格納する。マルチコアグループ３１００Ａ〜Ｎの全て又はそのサブセットにより共有されるレベル２（Ｌ２）キャッシュ３１８０が、複数のコンカレントグラフィクススレッド用のグラフィックスデータ及び／又は命令を格納する。示されるように、Ｌ２キャッシュ３１８０は、複数のマルチコアグループ３１００Ａ〜Ｎ全体で共有されてよい。１つ又は複数のメモリコントローラ３１７０が、ＧＰＵ３１０５をシステムメモリ（例えば、ＤＲＡＭ）及び／又は専用グラフィックスメモリ（例えば、ＧＤＤＲ６メモリ）であってよいメモリ３１９８に連結する。

入力／出力（ＩＯ）回路３１９５が、デジタル信号プロセッサ（ＤＳＰ）、ネットワークコントローラ、又はユーザ入力デバイスなどの１つ又は複数のＩＯデバイス３１９０にＧＰＵ３１０５を連結する。オンチップ相互接続が、Ｉ／Ｏデバイス３１９０をＧＰＵ３１０５及びメモリ３１９８に連結するのに用いられてよい。ＩＯ回路３１９５の１つ又は複数のＩＯメモリ管理ユニット（ＩＯＭＭＵ）３１７０が、ＩＯデバイス３１９０をシステムメモリ３１９８に直接的に連結する。ＩＯＭＭＵ３１７０は、仮想アドレスをシステムメモリ３１９８の物理アドレスにマッピングするための複数のセットのページテーブルを管理し得る。さらに、ＩＯデバイス３１９０、ＣＰＵ３１９９、及びＧＰＵ３１０５は、同じ仮想アドレス空間を共有してよい。

ＩＯＭＭＵ３１７０は仮想化もサポートし得る。この場合、ＩＯＭＭＵ３１７０は、ゲスト／グラフィックス仮想アドレスをゲスト／グラフィックス物理アドレスにマッピングするための第１セットのページテーブルと、ゲスト／グラフィックス物理アドレスを（例えば、システムメモリ３１９８内の）システム／ホスト物理アドレスにマッピングするための第２セットのページテーブルとを管理してよい。第１及び第２セットのページテーブルのそれぞれのベースアドレスは、制御レジスタに格納され、コンテキストスイッチの際にスワップアウトされてよい（例えば、この結果、新しいコンテキストには関係のあるページテーブルのセットへのアクセスが提供される）。図３１には示されていないが、コア３１３０、３１４０、３１５０及び／又はマルチコアグループ３１００Ａ〜Ｎのそれぞれは、ゲスト仮想からゲスト物理への変換、ゲスト物理からホスト物理への変換、及びゲスト仮想からホスト物理への変換をキャッシュに格納するためのトランスレーションルックアサイドバッファ（ＴＬＢ）を含んでよい。

ＣＰＵ３１９９、ＧＰＵ３１０５、及びＩＯデバイス３１９０は、単一の半導体チップ及び／又はチップパッケージに統合されてよい。示されているメモリ３１９８は、同じチップに統合されてもよく、オフチップインタフェースを介してメモリコントローラ３１７０に連結されてもよい。１つの実施態様において、メモリ３１９８は、他の物理システムレベルのメモリと同じ仮想アドレス空間を共有するＧＤＤＲ６メモリを含むが、本発明の基本的原理はこの特定の実施態様に限定されることはない。

テンソルコア３１４０は、ディープラーニングのオペレーションを実行するのに用いられる基本的なコンピュートオペレーションである行列演算を実行するように特に設計された複数の実行ユニットを含んでよい。例えば、同時行列乗算オペレーションが、ニューラルネットワークの訓練及び推論に用いられてよい。テンソルコア３１４０は、単精度浮動小数点（例えば、３２ビット）、半精度浮動小数点（例えば、１６ビット）、整数語（１６ビット）、バイト（８ビット）、ハーフバイト（４ビット）を含む様々なオペランド精度を用いて行列処理を実行してよい。ニューラルネットワークの実施態様も、レンダリングされた各シーンの特徴点を、場合によっては複数のフレームから詳細を組み合わせながら抽出し、高品質の最終イメージを構築し得る。

ディープラーニングの実施態様において、並列行列乗算作業がテンソルコア３１４０で実行するためにスケジューリングされてよい。ニューラルネットワークの訓練は、特に、かなりの数の行列ドット積演算を必要とする。Ｎ×Ｎ×Ｎの行列乗算の内積の定式化を処理するために、テンソルコア３１４０は、少なくともＮ個のドット積処理要素を含んでよい。行列乗算を開始する前に、１つの行列全体がタイルレジスタにロードされ、第２の行列の少なくとも１つの列が、Ｎ個のサイクルのサイクルごとにロードされる。各サイクルには、処理されたＮ個のドット積がある。

行列要素が、特定の実施態様に応じて、１６ビットワード、８ビットバイト（例えば、ＩＮＴ８）、及び４ビットハーフバイト（例えば、ＩＮＴ４）を含む異なる精度で格納されてよい。異なる精度モードは、最も効率的な精度が異なるワークロード（例えば、バイト及びハーフバイトへの量子化を許容できる推論ワークロードなど）に確実に用いられるようにするために、テンソルコア３１４０に対して指定されてよい。

レイトレーシングコア３１５０は、リアルタイムレイトレーシングの実施態様及び非リアルタイムレイトレーシングの実施態様の両方に対するレイトレーシングオペレーションを加速するように使用され得る。具体的には、レイトレーシングコア３１５０は、バウンディングボリューム階層（ＢＶＨ）を用いてレイトラバーサルを実行し、レイとＢＶＨボリューム内に囲まれたプリミティブとの間の交差を識別するためのレイトラバーサル／インターセクション回路を含み得る。レイトレーシングコア３１５０は、（例えば、Ｚバッファ又は同様の仕組みを用いて）深度テスト及び間引きを行うための回路も含んでよい。１つの実施態様において、レイトレーシングコア３１５０は、本明細書で説明される画像ノイズ除去技術と連携して、トラバーサルオペレーション及びインターセクションオペレーションを行い、その少なくとも一部が、テンソルコア３１４０で実行されてよい。例えば、テンソルコア３１４０は、ディープラーニングニューラルネットワークを実装して、レイトレーシングコア３１５０により生成されたフレームのノイズ除去を行い得る。しかしながら、ＣＰＵ３１９９、グラフィックスコア３１３０、及び／又はレイトレーシングコア３１５０も、ノイズ除去アルゴリズム及び／又はディープラーニングアルゴリズムの全て又は一部を実装してよい。

さらに、上述したように、ノイズ除去への分散型アプローチが利用されてよく、そのアプローチでは、ＧＰＵ３１０５はコンピューティングデバイスの中にあり、当該コンピューティングデバイスは、ネットワーク又は高速相互接続を介して他のコンピューティングデバイスに連結されている。相互接続されたコンピューティングデバイスはさらにニューラルネットワーク学習／訓練用データを共有し、異なる種類の画像フレーム及び／又は異なるグラフィックスアプリケーションに対してノイズ除去を行うことをシステム全体が学習する速度を向上し得る。

レイトレーシングコア３１５０は、全てのＢＶＨトラバーサル及びレイ−プリミティブ間インターセクションを処理し、グラフィックスコア３１３０がレイ当たり数千の命令で過負荷になるのを防ぎ得る。各レイトレーシングコア３１５０は、バウンディングボックステストを行うための第１セットの専用回路（例えば、トラバーサルオペレーション用）と、レイ−三角形間インターセクションテスト（例えば、トラバースしたレイを交差する）を行うための第２セットの専用回路とを含み得る。したがって、マルチコアグループ３１００Ａはレイプローブを起動するだけでよく、レイトレーシングコア３１５０は独立して、レイトラバーサル及び交差を行い、ヒットデータ（例えば、ヒット、ヒットなし、複数ヒットなど）をスレッドコンテキストに戻す。その他のコア３１３０、３１４０は、他のグラフィックス作業又はコンピュート作業を行うために解放され得、レイトレーシングコア３１５０は、トラバーサルオペレーション及びインターセクションオペレーションを行う。

各レイトレーシングコア３１５０は、ＢＶＨテストオペレーションを行うためのトラバーサルユニットと、レイ−プリミティブ間インターセクションテストを行うインターセクションユニットとを含み得る。そしてインターセクションユニットは、「ヒットあり」、「ヒットなし」、又は「複数ヒット」の応答を生成し、それを適切なスレッドに提供し得る。トラバーサルオペレーション及びインターセクションオペレーションの際に、他のコア（例えば、グラフィックスコア３１３０及びテンソルコア３１４０）の実行リソースは、他の形態のグラフィックス作業を行うために解放され得る。

ハイブリッドラスタ化／レイトレーシング手法が用いられ、その手法では、グラフィックスコア３１３０とレイトレーシングコア３１５０との間でも作業が分散され得る。

レイトレーシングコア３１５０（及び／又は他のコア３１３０、３１４０）は、Ｍｉｃｒｏｓｏｆｔ（登録商標）のＤｉｒｅｃｔＸレイトレーシング（ＤＸＲ）などのレイトレーシング命令セット用のハードウェアサポートを含んでよい。ＤＸＲには、ＤｉｓｐａｔｃｈＲａｙｓコマンド、並びにｒａｙ−ｇｅｎｅｒａｔｉｏｎシェーダ、ｃｌｏｓｅｓｔ−ｈｉｔシェーダ、ａｎｙ−ｈｉｔシェーダ、及びｍｉｓｓシェーダが含まれ、これらによって、オブジェクトごとに一意のセットのシェーダ及びテクスチャを割り当てることが可能になる。レイトレーシングコア３１５０、グラフィックスコア３１３０、及びテンソルコア３１４０によりサポートされ得る別のレイトレーシングプラットフォームが、Ｖｕｌｋａｎ１．１．８５である。しかしながら、本発明の基本的原理は、いかなる特定のレイトレーシングＩＳＡにも限定されることはないことに留意されたい。

一般的には、様々なコア３１５０、３１４０、３１３０は、レイトレーシング命令セットをサポートしてよく、レイトレーシング命令セットには、ＲａｙＧｅｎｅｒａｔｉｏｎ、ＣｌｏｓｅｓｔＨｉｔ、ＡｎｙＨｉｔ、Ｒａｙ−ｐｒｉｍｉｔｉｖｅＩｎｔｅｒｓｅｃｔｉｏｎ、Ｐｅｒ−ｐｒｉｍｉｔｉｖｅａｎｄｈｉｅｒａｒｃｈｉｃａｌＢｏｕｎｄｉｎｇｂｏｘＣｏｎｓｔｒｕｃｔｉｏｎ、Ｍｉｓｓ、Ｖｉｓｉｔ、及びＥｘｃｅｐｔｉｏｎｓ用の命令／機能が含まれる。より具体的には、以下の機能を実行するためのレイトレーシング命令を含まれ得る。

ＲａｙＧｅｎｅｒａｔｉｏｎ：ＲａｙＧｅｎｅｒａｔｉｏｎ命令は、ピクセルごと、サンプルごと、又は他のユーザ定義型作業割り当てごとに実行されてよい。

ＣｌｏｓｅｓｔＨｉｔ：ＣｌｏｓｅｓｔＨｉｔ命令は、シーン内のレイとプリミティブとの最も近い交差ポイントを探し出すために実行されてよい。

ＡｎｙＨｉｔ：ＡｎｙＨｉｔ命令は、シーン内のレイとプリミティブとの間の複数の交差を識別し、場合によっては、新しい最も近い交差ポイントを識別する。

Ｉｎｔｅｒｓｅｃｔｉｏｎ：Ｉｎｔｅｒｓｅｃｔｉｏｎ命令は、レイ−プリミティブ間インターセクションテストを行い、結果を出力する。

Ｐｅｒ−ｐｒｉｍｉｔｉｖｅＢｏｕｎｄｉｎｇｂｏｘＣｏｎｓｔｒｕｃｔｉｏｎ：この命令は、（例えば、新しいＢＶＨ又は他のアクセラレーションデータ構造を構築する場合に）所与のプリミティブ又はプリミティブのグループの周りにバウンディングボックスを構築する。

Ｍｉｓｓ：シーン内又はシーンの指定領域内の全てのジオメトリに、レイが当たらなかったことを示す。

Ｖｉｓｉｔ：レイがトラバースすることになる子ボリュームを示す。

Ｅｘｃｅｐｔｉｏｎｓ：（例えば、様々な誤差条件のために呼び出される）様々な種類の例外ハンドラを含む。
［階層的ビームトレーシング］

バウンディングボリューム階層は、グラフィックスプリミティブ及びその他グラフィックスオブジェクトに対してオペレーションを行う際の効率を向上させるのに、一般的に使用される。ＢＶＨは、ジオメトリックオブジェクトのセットに基づいて構築される、階層木構造である。木構造の先頭は、所与のシーンにおける全てのジオメトリックオブジェクトを包含するルートノードとなっている。個々のジオメトリックオブジェクトは、木のリーフノードを形成するバウンディングボリュームに囲まれる。そしてこれらノードは、小セットにグループ化され、より大きなバウンディングボリューム内に囲まれる。次に、これらもグループ化され、他のより大きなバウンディングボリュームに再帰的に囲まれ、最終的に木の先頭のルートノードにより表される単一のバウンディングボリュームを有する木構造となる。バウンディングボリューム階層は、レイトレーシングで使用される衝突検出、プリミティブ間引き、レイトラバーサル／インターセクションオペレーションなどの、ジオメトリックオブジェクトのセットに対する多様なオペレーションを効率的にサポートするために使用される。

レイトレーシングアーキテクチャにおいて、レイ−プリミティブ間インターセクションを判定するため、レイがＢＶＨをトラバースする。例えば、レイがＢＶＨのルートノードを通過しない場合、このレイは、ＢＶＨに囲まれたプリミティブのうちのいずれとも交差せず、このプリミティブのセットに関して、レイにさらなる処理は必要ない。レイがＢＶＨの第１子ノードを通過するが、第２子ノードを通過しない場合、第２子ノードで囲まれた任意のプリミティブに対して、レイを再テストする必要はない。このように、ＢＶＨはレイ−プリミティブ間インターセクションに対するテストを行う効率的なメカニズムを提供する。

個々のレイではなく、「ビーム」と称する連続したレイのグループを、ＢＶＨに対してテストしてもよい。図３２は、４つの異なるレイで形成された例示的ビーム３２０１を示す。この４つのレイで画定されたパッチ３２００に交差するあらゆるレイが、同じビーム内であると考えられる。図３２のビーム３２０１はレイの矩形構成で画定されているが、ビームは、本発明の基本的原理に即した上で、様々な他の方法で画定され得る（例えば、円、楕円など）。

図３３は、ＧＰＵ３３２０のレイトレーシングエンジン３３１０がどのように本明細書に記載のビームトレーシング技術を実施するかを示す。具体的には、レイ生成回路３３０４はトラバーサル及びインターセクションオペレーションが実行される複数のレイを生成する。ただし、トラバーサルオペレーション及びインターセクションオペレーションを個々のレイに対して実行するのではなく、トラバーサルオペレーション及びインターセクションオペレーションは、ビーム階層構築回路３３０５により生成されたビーム３３０７の階層を使用して実行される。ビーム階層はバウンディングボリューム階層（ＢＶＨ）と同様である。例えば図３４は、複数の異なるコンポーネントに細分化され得る一次ビーム３４００の例を提供する。具体的には、一次ビーム３４００は四半部３４０１〜３４０４に分割され得、各四半部自体も、四半部３４０４内のサブ四半部Ａ〜Ｄなどのサブ四半部に分割され得る。一次ビームは、様々な方法で細分化され得る。例えば、一次ビームは（四半部ではなく）半分に分割されてよく、半分に分割したそれぞれも半分に分割されてよい、ということが繰り返され得る。どのように細分化が行われるかに関わらず、ＢＶＨと同様に細分化構造が生成される。例えば、ルートノードが一次ビーム３４００を示し、第１レベル子ノードがそれぞれ四半部３４０１〜３４０４で示され、第２レベル子ノードが各サブ四半部Ａ〜Ｄで示され、以降同様となる。

ビーム階層３３０７が構築されると、トラバーサル／インターセクション回路３３０６はビーム階層３３０７及びＢＶＨ３３０８を使用してトラバーサル／インターセクションオペレーションを実行し得る。具体的には、ＢＶＨに対してビームをテストし、ＢＶＨのどの部分とも交差しないビームの部分を間引きし得る。図３４に示すデータを使用して、例えばＢＶＨ又はＢＶＨの特定の分岐と交差しないサブ領域３４０２及び３４０３に関連するサブビームが、ＢＶＨ又は分岐に関して間引きされ得る。デプス優先探索又はその他探索アルゴリズムを実行することで、残りの部分３４０１、３４０４がＢＶＨに対してテストされ得る。

図３５にレイトレーシングの方法を示す。本方法は、上述のグラフィックス処理アーキテクチャの文脈の範囲で実装されてよいが、いかなる特定のアーキテクチャにも限定されることはない。

３５００で複数のレイを含む一次ビームが構築され、３５０１でビームが細分化され、階層的データ構造が生成されて、ビーム階層が作成される。オペレーション３５００〜３５０１は、複数のレイからビーム階層を構築する、単一の統合されたオペレーションとして実行されてよい。３５０２で、（ビーム階層から）レイを、及び／又はＢＶＨからノード／プリミティブを間引くために、ＢＶＨとともにビーム階層が使用される。３５０３では、残りのレイ及びプリミティブから、レイ−プリミティブ間インターセクションが判定される。
［分散型レイトレーシングシステムの不可逆及び可逆のパケット圧縮］

レイトレーシングオペレーションがネットワークを介して一緒に連結された複数の計算ノード全体に分散され得る。図３６は、例えば、複数のレイトレーシングノード３６１０〜３６１３を含むレイトレーシングクラスタ３６００を示しており、これらのノードは、並行して、場合によっては、これらのノードのうちの１つの結果を組み合わせて、レイトレーシングオペレーションを行う。示されているアーキテクチャにおいて、レイトレーシングノード３６１０〜３６１３は、ゲートウェイを介して、クライアント側のレイトレーシングアプリケーション３６３０に通信可能に連結される。

分散型アーキテクチャの難点のうちの１つは、レイトレーシングノード３６１０〜３６１３のそれぞれの間で伝送されなければならない大量のパケット化されたデータである。可逆圧縮技術と不可逆圧縮技術は両方とも、レイトレーシングノード３６１０〜３６１３の間で伝送されるデータを減らすのに用いられ得る。

可逆圧縮を実施するために、特定の種類のオペレーションの結果で満たされたパケットを送信するのではなく、受信ノードが結果を再構築できるようにするデータ又はコマンドが送信される。例えば、確率的にサンプリングされた領域の光と、アンビエントオクルージョン（ＡＯ）オペレーションとが、必ずしも方向を必要としない。その結果として、伝送ノードがランダムシードを送信するだけでよい、ランダムシードは次に、受信ノードがランダムサンプリングを行うのに用いられる。例えば、シーンがノード３６１０〜３６１２の全体に分散されている場合、ポイントｐ１〜ｐ３で光１をサンプリングするには、光ＩＤ及び原点だけをノード３６１０〜３６１２に送信すればよい。これらのノードのそれぞれは次に、独立して、確率的に光をサンプリングしてよい。ランダムシードは、受信ノードにより生成され得る。同様に、一次レイのヒットポイントでは、アンビエントオクルージョン（ＡＯ）及びソフトシャドーサンプリングが、連続フレームの原点を待つことなく、ノード３６１０〜３６１２で計算され得る。さらに、レイのセットが同じ点光源に進行することが分かっている場合、光源を識別する命令が、光源をレイのセットに適用する受信ノードに送信されてよい。別の例として、単一のポイントに伝送されるアンビエントオクルージョンレイがＮ個ある場合、Ｎ個のサンプルをこのポイントから生成するために、コマンドが送信されてよい。

様々な追加の技術が、不可逆圧縮に適用されてよい。例えば、ＢＶＨ、プリミティブ、及びレイに関連する全ての座標値を量子化するために、量子化ファクタが利用されてよい。さらに、ＢＶＨノード及びプリミティブなどのデータに用いられる３２ビット浮動小数点値が、８ビット整数値に変換されてよい。１つの例示的な実施態様において、レイパケットの境界はフル精度で格納されるが、個々のレイポイントＰ１〜Ｐ３はインデックスオフセットとしてこれらの境界に伝送される。同様に、８ビット整数値をローカル座標として使用する複数のローカル座標系が生成されてよい。これらのローカル座標系のそれぞれの原点の位置は、フル精度（例えば、３２ビット浮動小数点）値を用いて符号化され、グローバル座標系とローカル座標系を効果的に接続してよい。

以下は、可逆圧縮の一例である。レイトレーシングプログラムにおいて内部に用いられるレイデータフォーマットの一例が、次の通りである。

生成されたノードの１つ１つに対して生データを送信する代わりに、このデータは、値をグループ化することにより、また可能であれば適用可能なメタデータを用いて絶対的レイを作成することにより圧縮され得る。

［レイデータのバンドル及びグループ化］フラグが共通データ又は修飾子を有するマスクに用いられ得る。

例えば、ＲａｙＰａｃｋｅｔ．ｒａｙｓ＝ｒａｙ＿１〜ｒａｙ＿２５６
［原点は全て共有される］

全てのレイデータは、単一の原点だけが全てのレイに対して格納されている場合を除いて、パックされている。ＲａｙＰａｃｋｅｔ．ｆｌａｇｓが、ＲＡＹＰＡＣＫＥＴ＿ＣＯＭＭＯＮ＿ＯＲＩＧＩＮに設定される。ＲａｙＰａｃｋｅｔがアンパックされ、受信されると、複数の原点が単一の原点値から書き込まれる。
［原点が一部のレイの間だけで共有される］

全てのレイデータが、原点を共有するレイを除いてパックされる。一意の共有原点のグループごとに、オペレーション（共有原点）を識別し、原点を格納し、どのレイが情報を共有するかをマスクする演算子がパックされる。そのようなオペレーションが、材料ＩＤ、プリミティブＩＤ、原点、方向、法線などの、複数のノードの間の任意の共有値に対して行われ得る。

［絶対的レイの送信］

多くの場合、レイデータが、レイデータを生成するのに最小限のメタ情報が用いられて受信側で得られ得る。非常に一般的な例が、複数の二次レイを生成して、ある領域を確率的にサンプリングしている。送信機が二次レイを生成し、当該二次レイを送信し、受信機が当該二次レイを処理する代わりに、送信機が、レイを生成する必要があるコマンドを任意の依存情報と共に送信することができ、当該レイが受信側で生成される。レイが送信機によってまず生成される必要があり、当該レイをどの受信機に送信するかを決定する場合、レイが生成され、完全に同じレイを再生成するようにランダムシードが送信され得る。

例えば、面光源をサンプリングする６４個のシャドーレイでヒットポイントをサンプリングするために、６４個のレイが全て、同じコンピュートＮ４の領域と交差する。共通の原点及び法線を持つＲａｙＰａｃｋｅｔが作成される。結果として得られるピクセル貢献度を受信機にシェーディングしてほしい場合に、より多くのデータが送信される可能性があるが、この例では、レイが別のノードデータにヒットするかどうかだけを返したいと仮定する。ＲａｙＯｐｅｒａｔｉｏｎがシャドーレイオペレーションを生成のために作成され、サンプリングされるｌｉｇｈｔＩＤの値及び乱数シードを割り当てられる。Ｎ４がレイパケットを受信すると、Ｎ４は、完全に満たされたレイデータを、共有原点データを全てのレイに書き込むことにより、また乱数シードで確率的にサンプリングされたｌｉｇｈｔＩＤに基づいて方向を設定することにより生成し、元の送信機が生成した同じレイを生成する。結果が返されると、レイごとのバイナリ結果だけが返される必要があり、このバイナリ結果は、レイを覆うマスクによって渡され得る。

この例において、元の６４個のレイを送信するとしたら、１０４バイト×６４個のレイ＝６６５６バイトを用いたであろう。返すレイが生の形態でも送信されるとすれば、これも２倍の１３３１２バイトになる。共通レイ原点、法線、並びにシード及びＩＤを有するレイ生成オペレーションを送信するだけの可逆圧縮を用いて、２９バイトだけが送信され、８バイトが交差したマスクに戻される。これにより、ネットワークを介して送信される必要があるデータ圧縮レートが、およそ３６０：１になる。これには、メッセージ自体を処理するオーバヘッドが含まれていない。このオーバヘッドは、何らかのやり方で識別される必要があるが、それは実施態様に委ねられている。他のオペレーションが、レイの原点と、一次レイのｐｉｘｅｌＩＤからの方向とを再計算し、ＲａｙＰａｃｋｅｔの範囲と値の再計算についての多くの他の可能な実施態様とに基づいてｐｉｘｅｌＤを再計算するために行われてよい。同様のオペレーションが、送信される任意の単一又はグループのレイに用いられてよく、シャドー、反射、屈折、アンビエントオクルージョン、交差、ボリュームインターセクション、シェーディング、パストレーシングにおける跳ね返り反射などを含む。

図３７は、レイトレーシングパケットの圧縮及び伸張を行う２つのレイトレーシングノード３７１０〜３７１１のさらなる詳細を示す。具体的には、第１のレイトレーシングエンジン３７３０がデータを第２のレイトレーシングエンジン３７３１に伝送する準備が整うと、レイ圧縮回路３７２０が、本明細書で説明されるレイトレーシングデータの不可逆圧縮及び／又は可逆圧縮を行う（例えば、３２ビット値を８ビット値に変換する、データを再構築する命令の代わりに生データを用いるなど）。圧縮したレイパケット３７０１は、ネットワークインタフェース３７２５からネットワークインタフェース３７２６にローカルネットワーク（例えば、１０Ｇｂ／ｓ、１００Ｇｂ／ｓイーサネット（登録商標）ネットワーク）を介して伝送される。次にレイ伸張回路が、適宜、レイパケットを伸張する。例えば、レイ伸張回路は、（例えば、ライティングオペレーションに対してランダムサンプリングを行うランダムシードを用いて）レイトレーシングデータを再構築するコマンドを実行してよい。次にレイトレーシングエンジン３７３１が、受信したデータを用いて、レイトレーシングオペレーションを行う。

逆方向では、レイ圧縮回路３７４１がレイデータを圧縮し、圧縮したレイデータをネットワークインタフェース３７２６が（例えば、本明細書で説明される技術を用いて）ネットワークを介して伝送し、レイ伸張回路３７４０が必要に応じてレイデータを伸張し、レイトレーシングエンジン３７３０がレイトレーシングオペレーションにデータを用いる。図３７には別個のユニットとして示されているが、レイ伸張回路３７４０〜３７４１はそれぞれ、レイトレーシングエンジン３７３０〜３７３１に統合されてもよい。例えば、圧縮したレイデータがレイデータを再構築するコマンドを含む限りは、これらのコマンドは、それぞれのレイトレーシングエンジン３７３０〜３７３１により実行されてよい。

図３８に示すように、レイ圧縮回路３７２０は、本明細書で説明される不可逆圧縮技術（例えば、３２ビット浮動小数点座標を８ビット整数座標に変換する）を実行するための不可逆圧縮回路３８０１と、可逆圧縮技術（例えば、コマンド及びデータを伝送して、レイ再圧縮回路３８２１がデータを再構築することを可能にする）を実行するための可逆圧縮回路３８０３とを含んでよい。レイ伸張回路３７２１は、不可逆伸張回路３８０２と、可逆伸張を行うための可逆伸張回路３８０４とを含む。

別の例示的方法が図３９に示されている。本方法は、本明細書で説明されるレイトレーシングアーキテクチャ又はその他アーキテクチャに実装されてよいが、いかなる特定のアーキテクチャにも限定されることはない。

３９００で、第１のレイトレーシングノードから第２のレイトレーシングノードに伝送されるレイデータが受信される。３９０１で、不可逆圧縮回路が第１のレイトレーシングデータに対して不可逆圧縮を行い、３９０２で、可逆圧縮回路が第２のレイトレーシングデータに対して可逆圧縮を行う。３９０３で、圧縮したレイトレーシングデータは、第２のレイトレーシングノードに伝送される。３９０４で、不可逆／可逆伸張回路が、レイトレーシングデータの不可逆／可逆伸張を行い、３９０５で、第２のレイトレーシングノードは、伸張したデータに対してレイトレーシングオペレーションを実行する。
［ハードウェアで加速したハイブリッドレイトレーシングを用いるグラフィックスプロセッサ］

グラフィックスコア３１３０でのラスタ化と、レイトレーシングコア３１５０、グラフィックスコア３１３０、及び／又はＣＰＵコア３１９９でのレイトレーシングオペレーションと行うハイブリッドレンダリングパイプラインが次に提示される。例えば、ラスタ化及び深度テストが、一次レイキャスティング段階の代わりにグラフィックスコア３１３０で行われてよい。次にレイトレーシングコア３１５０は、レイの反射、屈折、及びシャドーに対して二次レイを生成してよい。さらに、特定の実施形態では、レイトレーシングコア３１５０がレイトレーシングオペレーションを行うことになるシーンの特定の領域が（例えば、高反射率レベルなどの材料特性閾値に基づいて）選択され、当該シーンの他の領域がグラフィックスコア３１３０でのラスタ化でレンダリングされることになる。このハイブリッドな実施態様は、遅延が重大な問題となるリアルタイムのレイトレーシングアプリケーションに用いられ得る。

後述するレイトラバーサルアーキテクチャは、例えば既存の単一命令多重データ（ＳＩＭＤ）及び／又は単一命令多重スレッド（ＳＩＭＴ）グラフィックスプロセッサを用いたレイトラバーサルのプログラム可能なシェーディング及び制御が行われるとともに、専用ハードウェアを用いた、ＢＶＨトラバーサル及び／又はインターセクションなどの重要機能が加速され得る。本実施形態において、インコヒーレントパスのＳＩＭＤ占有率が、生成されるシェーダをトラバーサル時の特定の時点で且つシェーディングの前に再グループ化することにより向上し得る。これは、シェーダを動的にオンチップでソートする専用ハードウェアを用いて実現される。再帰法が、ＳＩＭＤ占有率の向上についての実行の前に、継続を返して再グループ化する際に実行する継続に機能を分割することにより管理される。

レイトラバーサル／インターセクションのプログラム可能型制御は、トラバーサル機能を、固定機能ハードウェアとして実装され得る内部トラバーサルと、ＧＰＵプロセッサで実行され、ユーザ定義トラバーサルシェーダによるプログラム可能型制御を可能にする外部トラバーサルとに分解することにより実現される。トラバーサルコンテキストをハードウェアとソフトウェアとの間で転送するコストは、内部トラバーサルと外部トラバーサルとの間を移行する際に、内部トラバーサル状態を控えめに切り詰めることにより減少する。

レイトレーシングのプログラム可能型制御は、以下のテーブルＡに列挙される異なるシェーダの種類によって表され得る。種類ごとに複数のシェーダが存在し得る。例えば、各材料が、異なるヒットシェーダを持つことができる。
［テーブルＡ］

再帰的レイトレーシングが、グラフィックスプロセッサに一次シェーダセットを起動するよう命令するＡＰＩ機能又は一次レイに対するレイ−シーン間インターセクションを生成できるインターセクション回路によって開始され得る。これは次に、トラバーサルシェーダ、ヒットシェーダ、又はミスシェーダなどの他のシェーダを生成する。子シェーダを生成するシェーダが、子シェーダからの返り値も受信できる。コール可能なシェーダは、別のシェーダによって直接的に生成され得る汎用機能であり、コーリングシェーダにこれらの値を返すこともできる。

図４０は、シェーダ実行回路４０００と固定機能回路４０１０とを含むグラフィックス処理アーキテクチャを示す。汎用実行ハードウェアサブシステムは、複数の単一命令多重データ（ＳＩＭＤ）及び／又は単一命令多重スレッド（ＳＩＭＴ）コア／実行ユニット（ＥＵ４００１（つまり、各コアは複数の実行ユニットを含んでよい）と、１つ又は複数のサンプラ４００２と、レベル１（Ｌ１）キャッシュ４００３又は他の形態のローカルメモリとを含む。固定機能ハードウェアサブシステム４０１０は、メッセージユニット４００４と、スケジューラ４００７と、レイ−ＢＶＨ間トラバーサル／インターセクション回路４００５と、ソート回路４００８と、ローカルＬ１キャッシュ４００６とを含む。

オペレーション時に、一次ディスパッチャ４００９が一次レイのセットをスケジューラ４００７にディスパッチし、スケジューラ４００７は、ＳＩＭＤ／ＳＩＭＴコア／ＥＵ４００１で実行されるシェーダに作業をスケジューリングする。ＳＩＭＤコア／ＥＵ４００１は、上述したレイトレーシングコア３１５０及び／又はグラフィックスコア３１３０であってよい。一次シェーダの実行で、実行される（例えば、１つ又は複数の子シェーダ及び／又は固定機能ハードウェアにより実行される）追加の作業が生成される。メッセージユニット４００４は、ＳＩＭＤコア／ＥＵ４００１により生成された作業をスケジューラ４００７に分配し、必要に応じてフリースタックプール、ソート回路４００８、又はレイ−ＢＶＨ間インターセクション回路４００５にアクセスする。追加の作業がスケジューラ４００７に送信されない場合、追加の作業は、ＳＩＭＤ／ＳＩＭＴコア／ＥＵ４００１で処理するためにスケジューリングされる。スケジューリングする前に、ソート回路４００８は、複数のレイを本明細書で説明される複数のグループ又はビンにソートしてよい（例えば、複数のレイを同様の特性でグループ化する）。レイ−ＢＶＨ間インターセクション回路４００５は、ＢＶＨボリュームを用いてレイのインターセクションテストを行う。例えば、レイ−ＢＶＨ間インターセクション回路４００５は、レイ座標を各レベルのＢＶＨと比較して、レイが交差するボリュームを識別してよい。

シェーダは、シェーダレコード、エントリ機能に対するポインタを含むユーザ割り当て構造、特定ベンダ向けメタデータ、ＳＩＭＤコア／ＥＵ４００１により実行されるシェーダに対するグローバル引数を用いて参照され得る。シェーダの各実行インスタンスは、親シェーダと子シェーダとの間で送られる引数を格納するのに用いられ得るコールスタックに関連している。コールスタックは、コールが戻ると実行される継続機能への参照も格納してよい。

図４１は、一次シェーダスタック、ヒットシェーダスタック、トラバーサルシェーダスタック、継続機能スタック、及びレイ−ＢＶＨ間インターセクションスタック（これらは、説明したように、固定機能ハードウェア４０１０により実行されてよい）を含む割り当てスタック４１０１のセットの一例を示す。新しいシェーダ呼び出しが、フリースタックプール４１０２から新しいスタックを実装してよい。コールスタック、例えば、割り当てられたスタックのセットにより構成されるスタックは、アクセス遅延を減らすために、ローカルＬ１キャッシュ４００３、４００６にキャッシュされてよい。

コールスタックの数は有限であり得、それぞれには、固定最大サイズ「Ｓｓｔａｃｋ」がメモリの連続した領域に割り当てられている。したがって、スタックのベースアドレスは、スタックインデックス（ＳＩＤ）から、ベースアドレス＝ＳＩＤ×Ｓｓｔａｃｋとして、直接的に計算され得る。ＳＩＭＤコア／ＥＵ４００１に作業をスケジューリングすると、スタックＩＤがスケジューラ４００７により割り当てられ、また割り当てを解除され得る。

一次ディスパッチャ４００９は、ホスト（例えば、ＣＰＵ）からのディスパッチコマンドに応答して、一次シェーダをディスパッチするグラフィックスプロセッサコマンドプロセッサを含み得る。スケジューラ４００７は、これらのディスパッチ要求を受信し得、ＳＩＭＤレーンごとにスタックＩＤを割り当てることができる場合、ＳＩＭＤプロセッサスレッドで一次シェーダを起動し得る。スタックＩＤは、ディスパッチコマンドの初めに初期化されるフリースタックプール４１０２から割り当てられ得る。

実行シェーダは、生成メッセージをメッセージユニット４００４に送信することによって、子シェーダを生成できる。このコマンドは、シェーダに関連したスタックＩＤを含み、有効なＳＩＭＤレーンごとに子シェーダレコードに対するポインタも含む。親シェーダは、このメッセージを有効レーンに対して一度だけ発行できる。関連するレーン全てに生成メッセージを送信した後に、親シェーダが終了し得る。

ＳＩＭＤコア／ＥＵ４００１で実行されるシェーダは、シェーダレコードポインタが固定機能ハードウェア用に予約された生成メッセージを用いて、レイ−ＢＶＨ間インターセクションなどの固定機能タスクも生成できる。すでに述べたように、メッセージユニット４００４は、生成されたレイ−ＢＶＨ間インターセクション作業を固定機能のレイ−ＢＶＨ間インターセクション回路４００５に送信し、またコール可能なシェーダをソート回路４００８に直接的に送信する。ソート回路は、シェーダレコードポインタでシェーダをグループ化して、同様の特性を持つＳＩＭＤバッチを得てもよい。したがって、異なる親シェーダからのスタックＩＤが、ソート回路４００８によって同じバッチにグループ化され得る。ソート回路４００８は、グループ化されたバッチをスケジューラ４００７に送信し、スケジューラ４００７は、グラフィックスメモリ２５１１又はラストレベルキャッシュ（ＬＬＣ）４０２０からシェーダレコードにアクセスし、プロセッサスレッドでシェーダを起動する。

継続がコール可能なシェーダとして扱われてよく、シェーダレコードによっても参照されてよい。子シェーダが生成され、親シェーダに値を返すと、継続シェーダレコードへのポインタが、コールスタック４１０１にプッシュされ得る。子シェーダが戻ると、継続シェーダレコードはコールスタック４１０１からポップされてよく、継続シェーダが生成され得る。任意選択的に、生成された継続は、コール可能なシェーダと同様のソートユニットを通って進み、プロセッサスレッドで起動し得る。

図４２に示すように、ソート回路４００８は、生成されたタスクをシェーダレコードポインタ４２０１Ａ、４２０１Ｂ、４２０１ｎによってグループ化して、シェーディング用のＳＩＭＤバッチを作成する。ソートされたバッチのスタックＩＤ又はコンテキストＩＤは、異なるディスパッチ及び異なる入力ＳＩＭＤレーンからグループ化され得る。グループ化回路４２１０が、各エントリがタグ４２０１で識別される複数のエントリを含むコンテンツアドレス指定可能メモリ（ＣＡＭ）構造４２０１を用いてソートを行い得る。すでに述べたように、タグ４２０１は、対応するシェーダレコードポインタ４２０１Ａ、４２０１Ｂ、４２０１ｎであり得る。ＣＡＭ構造４２０１は、それぞれがシェーダレコードポインタに対応する不完全なＳＩＭＤバッチに関連する限定された数のタグ（例えば３２個、６４個、１２８個など）を格納し得る。

入ってくる生成コマンドに対して、各ＳＩＭＤレーンは、対応するスタックＩＤ（各ＣＡＭエントリに１６個のコンテキストＩＤ０〜１５として示されている）と、シェーダレコードポインタ４２０１Ａ、Ｂ、…ｎ（タグ値としての機能を果たす）とを有する。グループ化回路４２１０は、シェーダレコードポインタをレーンごとにＣＡＭ構造４２０１のタグ４２０１と比較して、一致するバッチを見つけ得る。一致するバッチが見つかった場合、スタックＩＤ／コンテキストＩＤはバッチに追加され得る。そうでなければ、新しいシェーダレコードポインタタグを有する新しいエントリが作成され、場合によっては、不完全なバッチを有する古いエントリを追い出し得る。

実行シェーダは、割り当て解除メッセージをメッセージユニットに送信することで空になると、コールスタックを割り当て解除できる。割り当て解除メッセージは、有効なＳＩＭＤレーンのスタックＩＤ／コンテキストＩＤをフリープールに返すスケジューラに中継される。

固定機能レイトラバーサルとソフトウェアレイトラバーサルとの組み合わせを用いて、レイトラバーサルオペレーション用のハイブリッドアプローチが提示される。その結果として、このハイブリッドアプローチは、ソフトウェアトラバーサルの柔軟性を提供するとともに、固定機能トラバーサルの効率性を維持する。図４３は、ハイブリッドトラバーサルに用いられ得るアクセラレーション構造を示す。ハイブリッドトラバーサルは２段階木であり、単一の上位レベルのＢＶＨ４３００と、いくつかの下位レベルのＢＶＨ４３０１及び４３０２とがある。グラフィカル要素が右に示されており、内部トラバーサルパス４３０３と、外部トラバーサルパス４３０４と、トラバーサルノード４３０５と、三角形を有するリーフノード４３０６と、カスタムプリミティブを有するリーフノード４３０７とを示す。

上位レベルのＢＶＨ４３００にある三角形を有するリーフノード４３０６は、三角形、カスタムプリミティブのインターセクションシェーダレコード、又はトラバーサルシェーダレコードを参照できる。下位レベルのＢＶＨ４３０１〜４３０２の、三角形を有するリーフノード４３０６は、三角形とカスタムプリミティブのインターセクションシェーダレコードだけを参照できる。参照の種類は、リーフノード４３０６内で符号化される。内部トラバーサル４３０３は、各ＢＶＨ４３００〜４３０２内のトラバーサルのことを指す。内部トラバーサルオペレーションは、レイ−ＢＶＨ間インターセクションの計算を含み、ＢＶＨ構造４３００〜４３０２全体にわたるトラバーサルは外部トラバーサルとして知られている。内部トラバーサルオペレーションは、固定機能ハードウェアに効果的に実装されてよく、外部トラバーサルオペレーションは、プログラム可能型シェーダを用いて許容性能で行われてよい。その結果として、内部トラバーサルオペレーションが固定機能回路４０１０を用いて行われてよく、外部トラバーサルオペレーションがプログラム可能型シェーダを実行するためのＳＩＭＤ／ＳＩＭＴコア／ＥＵ４００１を含むシェーダ実行回路４０００を用いて行われ得る。

なお、分かりやすくするために、本明細書ではＳＩＭＤ／ＳＩＭＴコア／ＥＵ４００１は、単に「コア」、「ＳＩＭＤコア」、「ＥＵ」、又は「ＳＩＭＤプロセッサ」と呼ばれることがある。同様に、レイ−ＢＶＨ間トラバーサル／インターセクション回路４００５は、単に「トラバーサルユニット」、「トラバーサル／インターセクションユニット」又は「トラバーサル／インターセクション回路」と呼ばれることがある。代わりの用語を使用した場合でも、それぞれの回路／ロジックを示すのに使用される特定の名称が当該回路／ロジックが実行する本明細書に記載の基本的機能を変えるものではない。

さらに、図４０では説明のために単一のコンポーネントとして示されているが、トラバーサル／インターセクションユニット４００５は別個のトラバーサルユニットと、別個のインターセクションユニットとを含んでよく、そのそれぞれは、本明細書に記載の回路及び／又はロジック内に実装されてよい。

内部トラバーサルの際にレイがトラバーサルノードと交差すると、トラバーサルシェーダが生成され得る。ソート回路４００８は、シェーダレコードポインタ４２０１Ａ、Ｂ、…ｎによってこれらのシェーダをグループ化し、グラフィックスＳＩＭＤコア／ＥＵ４００１でのＳＩＭＤ実行のために、スケジューラ４００７により起動されるＳＩＭＤバッチを作成し得る。トラバーサルシェーダは、いくつかのやり方でトラバーサルを修正でき、幅広い範囲のアプリケーションを可能にする。例えば、トラバーサルシェーダは、粗い詳細度（ＬＯＤ）でＢＶＨを選択できる、又はレイを変換して剛体変換を可能にすることができる。次にトラバーサルシェーダは、選択したＢＶＨ用の内部トラバーサルを生成し得る。

内部トラバーサルは、ＢＶＨをトラバースして、レイ−ボックス間インターセクション及びレイ−三角形間インターセクションを計算することにより、レイ−ＢＶＨ間インターセクションを計算する。内部トラバーサルは、メッセージをメッセージ回路４００４に送信することにより、シェーダと同じ方式で生成される。メッセージ回路４００４は、レイ−ＢＶＨ間インターセクションを計算するレイ−ＢＶＨ間インターセクション回路４００５に、対応する生成メッセージを中継する。

内部トラバーサル用のスタックは、固定機能回路４０１０に（例えば、Ｌ１キャッシュ４００６に）ローカルに格納され得る。トラバーサルシェーダ又はインターセクションシェーダに対応するリーフノードとレイが交差すると、内部トラバーサルが終了し、内部スタックが切り詰められ得る。レイ及びＢＶＨへのポインタと共に、切り詰められたスタックは、コーリングシェーダにより指定された位置でメモリに書き込まれてよく、次いで、対応するトラバーサルシェーダ又はインターセクションシェーダが生成されてよい。内部トラバーサル時にレイが任意の三角形と交差した場合、対応するヒット情報は、以下のコードに示すこれらのシェーダに入力引数として提供され得る。生成されたこれらのシェーダは、ソート回路４００８によりグループ化され、実行用のＳＩＭＤバッチを形成し得る。

内部トラバーサルスタックを切り詰めることで、内部トラバーサルスタックをメモリにスピルするコストが減少する。ＲｅｓｔａｒｔＴｒａｉｌｆｏｒＳｔａｃｋｌｅｓｓＢＶＨＴｒａｖｅｒｓａｌ』（ＨｉｇｈＰｅｒｆｏｒｍａｎｃｅＧｒａｐｈｉｃｓ（２０１０），ｐｐ．１０７〜１１１）で説明されているアプローチを、スタックの先頭でスタックを少数のエントリに、つまり４２ビットリスタートトレイル及び６ビットデプス値に切り詰めるのに適用され得る。リスタートトレイルは、ＢＶＨ内部に既に取り込まれている分岐を示し、デプス値は、最後のスタックエントリに対応するトラバーサルの深度を示す。これは、内部トラバーサルを後で再開するのに十分な情報である。

内部トラバーサルは、内部スタックが空になり、テストするＢＶＨノードがこれ以上ない場合に完了する。この場合、外部スタックの先頭をポップする外部スタックハンドラが生成され、外部スタックが空でなければ、トラバーサルを再開する。

外部トラバーサルが主なトラバーサルステートマシンを実行し得、シェーダ実行回路４０００により実行されるプログラムコードに実装され得る。シェーダ実行回路４０００は、以下の条件下で内部トラバーサルクエリを生成し得る。すなわち、（１）新しいレイがヒットシェーダ又は一次シェーダにより生成された場合、（２）トラバーサルシェーダがトラバーサル用にＢＶＨを選択した場合、（３）外部スタックハンドラがＢＶＨの内部トラバーサルを再開した場合である。

図４４に示すように、内部トラバーサルが生成される前に、固定機能回路４０１０のコールスタック４４０５に空間が割り当てられ、切り詰められた内部スタック４４１０を格納する。コールスタック及び内部スタックの先頭に対するオフセット４４０３〜４４０４が、メモリ２５１１にも格納されるトラバーサル状態４４００に維持される。トラバーサル状態４４００は、ワールド空間４４０１及びオブジェクト空間４４０２、並びに最も近い交差プリミティブのヒット情報にもレイを含む。

トラバーサルシェーダ、インターセクションシェーダ、及び外部スタックハンドラは全て、レイ−ＢＶＨ間インターセクション回路４００５により生成される。トラバーサルシェーダは、第２レベルのＢＶＨの新しい内部トラバーサルを開始する前に、コールスタック４４０５に対して割り当てを行う。外部スタックハンドラは、ヒット情報を更新し、また任意の保留中の内部トラバーサルタスクを再開する役割を担うシェーダである。外部スタックハンドラは、トラバーサルが完了した場合、ヒットシェーダ又はミスシェーダを生成する役割も担う。トラバーサルは、生成する保留中の内部トラバーサルクエリがない場合に完了する。トラバーサルが完了し且つ交差が見つかった場合、ヒットシェーダが生成され、見つからなければミスシェーダが生成される。

上述したハイブリッドトラバーサル方式は２段階のＢＶＨ階層を用いているが、本明細書で説明される本発明の実施形態は、外部トラバーサルの実施態様において対応する変更を伴った、任意の数のＢＶＨレベルを用いてもよい。

さらに、固定機能回路４０１０は、上述の実施形態でレイ−ＢＶＨ間インターセクションを行うように説明されているが、他のシステムコンポーネントも固定機能回路に実装されてよい。例えば、上述した外部スタックハンドラは、場合によっては固定機能ＢＶＨトラバーサル／インターセクション回路４００５に実装され得る内蔵（ユーザには見えない）シェーダであってよい。この実施態様は、ディスパッチシェーダ段階の数と、固定機能インターセクションハードウェア４００５とプロセッサとの間のやり取りを減らすのに用いられてよい。

本明細書に記載の例は、既存及び将来のＧＰＵプロセッサにおいて高いＳＩＭＤ効率で実行できるユーザ定義機能を用いて、プログラム可能型シェーディング及びレイトラバーサル制御を可能にする。レイトラバーサルのプログラム可能型制御によって、手続き型インスタンシング、確率レベルの詳細選択、カスタムプリミティブインターセクション、及びレイジーＢＶＨ更新などのいくつかの重要な機能が可能になる。

ヒット及びインターセクションシェーダの投機的実行をサポートする、プログラム可能な、複数命令複数データ（ＭＩＭＤ）レイトレーシングアーキテクチャも提供される。具体的には、アーキテクチャは、図４０に関連して上述したプログラム可能ＳＩＭＤ／ＳＩＭＴコア／実行ユニット４００１と、ハイブリッドレイトレーシングアーキテクチャ内の固定機能ＭＩＭＤトラバーサル／インターセクションユニット４００５との間のスケジューリング及び通信オーバヘッド低減を主目的とする。トラバーサルハードウェアから単一のバッチでディスパッチ可能で、いくつかのトラバーサル及びシェーディングのやり取りを避ける、ヒット及びインターセクションシェーダの複数の投機的実行方式が後述される。これら技術の実施に、専用回路が使用され得る。

本発明の実施形態が特に有益なのは、専用のハードウェアサポート無しで実施された場合に著しいオーバヘッドが生じるレイトラバーサルクエリから、複数ヒット又はインターセクションシェーダの実行が求められているユースケースである。これらは、限定されることはないが、ｋ近傍ヒットクエリ（ｋ近傍インターセクションに対してヒットシェーダを起動する）、及び複数のプログラム可能インターセクションシェーダを含む。

本明細書に記載の技術は、図４０に示された（そして図４０〜４４に関連して説明された）アーキテクチャの拡張として実施され得る。具体的には、本発明の本実施形態は、上述のユースケースにて、性能を向上するような改良をもって、このアーキテクチャ上に構築される。

ハイブリッドレイトレーシングトラバーサルアーキテクチャの性能を限定するのは、実行ユニットからのトラバーサルクエリを開始する時のオーバヘッドと、レイトレーシングハードウェアからのプログラム可能型シェーダを呼び出す時のオーバヘッドが挙げられる。同じレイのトラバーサル時に複数ヒット又はインターセクションシェーダの呼び出しが生じると、このオーバヘッドはプログラム可能コア４００１及びトラバーサル／インターセクションユニット４００５間の「実行やり取り」を発生させる。これは、個々のシェーダ呼び出しから一貫性のあるＳＩＭＤ／ＳＩＭＴを抽出する必要のあるソートユニット４００８にもさらなる圧力をかけることになる。

レイトレーシングのいくつかの態様は、上述のテーブルＡに列挙された異なるシェーダ種類による表現可能なプログラム可能型制御を必要とする（すなわち、Ｐｒｉｍａｒｙ、Ｈｉｔ、ＡｎｙＨｉｔ、Ｍｉｓｓ、Ｉｎｔｅｒｓｅｃｔｉｏｎ、Ｔｒａｖｅｒｓａｌ、Ｃａｌｌａｂｌｅ）。種類ごとに複数のシェーダが存在し得る。例えば、各材料が、異なるヒットシェーダを持ち得る。これらのシェーダ種類のいくつかは、現在のマイクロソフト（登録商標）レイトレーシングＡＰＩで定義されている。

簡潔にいうと、再帰的レイトレーシングは、一次レイに対してレイ−シーン間インターセクション（ハードウェア及び／又はソフトウェア内に実装）を生成可能な、一次シェーダのセットを起動するように、ＧＰＵに命令するＡＰＩ機能により開始される。これにより、トラバーサルシェーダ、ヒットシェーダ、又はミスシェーダなどの他のシェーダが生成され得る。子シェーダを生成するシェーダが、子シェーダからの返り値も受信できる。コール可能なシェーダは、別のシェーダによって直接的に生成され得る汎用機能であり、コーリングシェーダにこれらの値を返すこともできる。

レイトラバーサルは、バウンディングボリューム階層（ＢＶＨ）内のノードのトラバース及び交差により、レイ−シーン間インターセクションを計算する。最近の研究により、低精度演算、ＢＶＨ圧縮、レイ毎ステートマシン、専用インターセクションパイプライン、及びカスタムキャッシュなどの、固定機能ハードウェアにより適した技術を利用することで、コンピューティングレイ−シーン間インターセクションの効率が１桁以上向上し得ることが示されている。

図４０に示すアーキテクチャは、ＳＩＭＤ／ＳＩＭＴコア／実行ユニット４００１のアレイが、固定機能レイトレーシング／インターセクションユニット４００５と相互作用することで、プログラム可能レイトレーシングを実行するようなシステムを備える。プログラム可能型シェーダは、実行ユニット／コア４００１のＳＩＭＤ／ＳＩＭＴスレッドにマッピングされる。ここで、最適な性能のために、ＳＩＭＤ／ＳＩＭＴ利用、実行、データ一貫性が重要となる。以下のような様々な理由により、レイクエリが一貫性を損ねることが多い。
・トラバーサルに関するばらつき：ＢＶＨトラバーサルの期間は、非同期的レイ処理が望ましいレイ間で大きく異なる。
・実行に関するばらつき：同じＳＩＭＤ／ＳＩＭＴスレッドの異なるレーンで生成されたレイにより、異なるシェーダ呼び出しがもたらされ得る。
・データアクセスに関するばらつき：例えば、異なる表面にヒットするレイにより、異なるＢＶＨノード及びプリミティブがサンプリングされ、シェーダが異なるテクスチャにアクセスする。様々な他の状況により、データアクセスのばらつきが生じ得る。

ＳＩＭＤ／ＳＩＭＴコア／実行ユニット４００１は、グラフィックスコア（複数可）４１５Ａ〜４１５Ｂ、シェーダコア１３５５Ａ〜Ｎ、グラフィックスコア３１３０、グラフィックス実行ユニット６０８、実行ユニット８５２Ａ〜Ｂを含む本明細書に記載のコア／実行ユニット、又は本明細書に記載の任意の他のコア／実行ユニットの変形であり得る。ＳＩＭＤ／ＳＩＭＴコア／実行ユニット４００１は、グラフィックスコア（複数可）４１５Ａ〜４１５Ｂ、シェーダコア１３５５Ａ〜Ｎ、グラフィックスコア３１３０、グラフィックス実行ユニット６０８、実行ユニット８５２Ａ〜Ｂ、又は本明細書に記載の任意の他のコア／実行ユニットの代わりに使用され得る。したがって、グラフィックスコア（複数可）４１５Ａ〜４１５Ｂ、シェーダコア１３５５Ａ〜Ｎ、グラフィックスコア３１３０、グラフィックス実行ユニット６０８、実行ユニット８５２Ａ〜Ｂ、又は本明細書に記載の任意の他のコア／実行ユニットと組み合わせた任意の特徴の開示は、図４０のＳＩＭＤ／ＳＩＭＴコア／実行ユニット４００１との対応する組み合わせも開示するものであるが、そのように限定されることはない。

固定機能レイトレーシング／インターセクションユニット４００５は、各レイを個々に又は順不同で処理することで、最初の２つの問題を克服し得る。しかしこれが、ＳＩＭＤ／ＳＩＭＴグループを壊してしまう。したがって、ソートユニット４００８は、実行ユニットに再度ディスパッチされる、シェーダ呼び出しの新しい一貫性のあるＳＩＭＤ／ＳＩＭＴグループの形成を担う。

純然たるソフトウェア型レイトレーシング実施態様の、ＳＩＭＤ／ＳＩＭＴプロセッサへの直接実装と比較した場合の、このようなアーキテクチャの利点を見出すことは容易である。しかしながら、同アーキテクチャはＳＩＭＤ／ＳＩＭＴコア／実行ユニット４００１（本明細書において、単にＳＩＭＤ／ＳＩＭＴプロセッサ又はコア／ＥＵと呼ばれることがある）と、ＭＩＭＤトラバーサル／インターセクションユニット４００５との間のメッセージやり取りに関連するオーバヘッドを伴ってしまう。さらに、ソートユニット４００８は、一貫性の欠如したシェーダ呼び出しの場合に、完全なＳＩＭＤ／ＳＩＭＴ利用を抽出しない場合があり得る。

トラバーサル時に、特にシェーダ呼び出しが頻繁になり得るユースケースが特定され得る。コア／ＥＵ４００１と、トラバーサル／インターセクションユニット４００５との間の通信のオーバヘッドを大幅に低減する、ハイブリッドＭＩＭＤレイトレーシングプロセッサの改良について説明する。これは、ｋ近傍インターセクション及びプログラム可能インターセクションシェーダの実施態様の発見に関して、特に有益となり得る。しかし、本明細書に記載の技術が、いかなる特定の処理状況に限定されないことに留意されたい。

コア／ＥＵ４００１と、固定機能トラバーサル／インターセクションユニット４００５との間のレイトレーシングコンテキストスイッチの高水準コストの概要が、以下に提供される。パフォーマンスオーバヘッドの大部分が、これらの２つのコンテキストスイッチによって、単一のレイトラバーサル時にシェーダ呼び出しが必要となるたびに引き起こされる。

レイを起動する各ＳＩＭＤ／ＳＩＭＴレーンは、トラバースするＢＶＨに関連付けられたトラバーサル／インターセクションユニット４００５への生成メッセージを生成する。データ（レイトラバーサルコンテキスト）は、生成メッセージ及び（キャッシュ）メモリを介してトラバーサル／インターセクションユニット４００５に中継される。新しいハードウェアスレッドを生成メッセージに割り当てる準備が整うと、トラバーサル／インターセクションユニット４００５はトラバーサル状態をロードし、ＢＶＨにトラバーサルを行う。ＢＶＨへの第１トラバーサル段階の前に実行することが必要なセットアップにもコストがかかる。

図４５は、プログラム可能レイトレーシングパイプラインの動作フローを示す。トラバーサル４５０２及びインターセクション４５０３を含む網掛けした要素は、固定機能回路内に実装されてよく、残りの要素は、プログラム可能コア／実行ユニットとともに実装されてよい。

４５０２で一次レイシェーダ４５０１は、ＢＶＨ（又はその他アクセラレーション構造）に現在のレイ（複数可）をトラバースするトラバーサル回路に作業を送信する。リーフノードに到達すると、４５０３でトラバーサル回路はインターセクション回路を呼び出す。インターセクション回路は、レイ−三角形間インターセクションを識別すると、４５０４でａｎｙ−ｈｉｔシェーダを呼び出す（これは示されているように、結果をトラバーサル回路に戻すように提供し得る）。

あるいは、トラバーサルはリーフノード到達前に終了してよく、４５０７でｃｌｏｓｅｓｔ−ｈｉｔシェーダが呼び出される（ヒットが記録された場合）、又は４５０６でミスシェーダが呼び出される（ミスの場合）。

４５０５に示すように、トラバーサル回路がカスタムプリミティブリーフノードに到達すると、インターセクションシェーダが呼び出され得る。カスタムプリミティブは、多角形又は多面体（例えば、四面体、ボクセル、六面体、ウェッジ、角錐、又はその他「非構造的」ボリューム）などの、任意の非三角形プリミティブであり得る。インターセクションシェーダ４５０５は、レイ及びカスタムプリミティブから、ＡｎｙＨｉｔ処理を実施するａｎｙ−ｈｉｔシェーダ４５０４への任意の交差を識別する。

ハードウェアトラバーサル４５０２がプログラム可能段階に到達すると、トラバーサル／インターセクションユニット４００５は、シェーダを実行するのに用いられる実行ユニット（複数可）の単一ＳＩＭＤレーンに対応する、関連シェーダ４５０５〜４５０７へのシェーダディスパッチメッセージを生成し得る。ディスパッチは、レイの任意の順番で生じ、呼び出すプログラムに関して異なるため、ソートユニット４００８は、一貫性のあるＳＩＭＤバッチを抽出するため、複数のディスパッチコールを蓄積してもよい。トラバーサル／インターセクションユニット４００５により、更新されたトラバーサル状態及び任意選択のシェーダ引数は、メモリ２５１１に書き込まれ得る。

ｋ近傍インターセクション問題では、ｃｌｏｓｅｓｔ−ｈｉｔシェーダ４５０７が最初のｋ個の交差に対して実行される。従来の手法だと、これは最も近い交差を発見するとレイトラバーサルが終了し、ヒットシェーダが呼び出され、次に最も近い交差を見つけるため新しいレイがヒットシェーダから生成されることを意味する（同じ交差が再度生じないように、レイ原点はずらす）。この実施態様の場合、単一のレイに対し、ｋ個のレイの生成が必要であることは容易に理解できるだろう。別の実施態様は、挿入ソート演算を用いて、全ての交差について呼び出され、最も近い交差のグローバルリストを維持するａｎｙ−ｈｉｔシェーダ４５０４で動作する。このアプローチの主問題は、ａｎｙ−ｈｉｔシェーダ呼び出しに対して上限がないことである。

すでに述べたように、インターセクションシェーダ４５０５は非三角形（カスタム）プリミティブに対して呼び出され得る。インターセクションテストの結果及びトラバーサル状態（保留ノード及びプリミティブ交差）に応じて、インターセクションシェーダ４５０５の実行後にも、同じレイのトラバーサルが継続し得る。したがって、ＣｌｏｓｅｓｔＨｉｔを見つけるには、実行ユニットとのいくつかのやり取りが必要となり得る。

トラバーサルハードウェア及びシェーダスケジューリングモデルへの変更を通じて、インターセクションシェーダ４５０５及びヒットシェーダ４５０４、４５０７に対するＳＩＭＤ−ＭＩＭＤコンテキストスイッチ低減にも主眼を置いてもよい。まず、レイトラバーサル回路４００５が生じ得る複数の呼び出しを蓄積し、それをより大きなバッチにディスパッチすることで、シェーダ呼び出しを延期する。さらに、この段階で、不必要となった特定の呼び出しを間引きしてもよい。さらに、シェーダスケジューラ４００７は、単一のレイ生成メッセージとなるように、同じトラバーサルコンテキストからの複数のシェーダ呼び出しを単一のＳＩＭＤバッチに集約してもよい。１つの例示的な実施態様において、トラバーサルハードウェア４００５はトラバーサルスレッドを保留し、複数のシェーダ呼び出しの結果を待つ。このオペレーションモードが本明細書で「投機的」シェーダ実行と呼ばれるのは、複数のシェーダのディスパッチを可能とするからであり、その一部は、連続呼び出しを用いる場合は呼び出されなくてもよい。

図４６Ａは、トラバーサルオペレーションが部分木における複数のカスタムプリミティブ４６５０に遭遇する例を示し、図４６Ｂは、３つのインターセクションディスパッチサイクルＣ１〜Ｃ３でこれがどのように解消可能かの一例を示す。具体的には、スケジューラ４００７はＳＩＭＤプロセッサ４００１に作業を送信するのに３つのサイクルを要し得、トラバーサル回路４００５はソートユニット４００８に結果を提供するのに３つのサイクルを要する。トラバーサル回路４００５が必要とするトラバーサル状態４６０１は、ローカルキャッシュ（例えば、Ｌ１キャッシュ及び／又はＬ２キャッシュ）などのメモリ内に格納され得る。
Ａ．延期されたレイトレーシングシェーダ呼び出し

リスト内に複数生じ得るインターセクション又はヒット呼び出しを蓄積可能とするように、ハードウェアトラバーサル状態４６０１を管理する方法も修正可能である。トラバーサル時の所与の時間において、シェーダ呼び出しを生成するのに、リスト内の各エントリが利用され得る。例えば、ｋ近傍インターセクションポイントがトラバーサルハードウェア４００５上、及び／又はメモリ内のトラバーサル状態４６０１内に蓄積可能であり、トラバーサル完了をもって、要素ごとに対してヒットシェーダが呼び出し可能である。ヒットシェーダについて、複数の生じ得るインターセクションがＢＶＨ内の部分木に対して蓄積され得る。

ｋ近傍ユースケースに対するこのアプローチの利点は、ＳＩＭＤコア／ＥＵ４００１へのｋ−１回のやり取りと、ｋ−１個の新しいレイ生成メッセージの代わりに、トラバーサル回路４００５上の単一のトラバーサルオペレーション時に同じトラバーサルスレッドから全てのヒットシェーダが呼び出されることである。あり得る実施態様の課題として、ヒットシェーダの実行順序の保証が無視できないことが挙げられる（標準的な「やり取り」の手法は、最も近いインターセクションのヒットシェーダがまず実行されることが保証されるなど）。これは、ヒットシェーダの同期又は順番付けの緩和により対処され得る。

インターセクションシェーダユースケースに関して、トラバーサル回路４００５は所与のシェーダが肯定的なインターセクションテストを戻すか否かを事前に把握していない。しかしながら、投機的に複数のインターセクションシェーダを実行することは可能で、少なくとも１つが肯定的なヒット結果を返す場合、それはグローバル最近傍ヒットに統合される。特定の実施態様では、最適な数の延期インターセクションテストを見つけて、ディスパッチの数を減らすが、冗長なインターセクションシェーダを間引きしすぎることを避ける必要がある。
Ｂ．トラバーサル回路からの集約シェーダ呼び出し

トラバーサル回路４００５上に生成された同じレイから複数のシェーダをディスパッチする場合、レイトラバーサルアルゴリズムのフローに分岐が生じ得る。これは、残りのＢＶＨトラバーサルが全てのディスパッチされたインターセクションテストの結果に依存するため、インターセクションシェーダにとって問題となり得る。つまり、シェーダ呼び出しの結果を待つのに同期オペレーションが必要となるが、それは非同期的ハードウェアにとっては困難になり得る。

シェーダ呼び出しの結果をマージする２つのポイントが、ＳＩＭＤプロセッサ４００１及びトラバーサル回路４００５であってよい。標準的なプログラミングモデルを使用して、ＳＩＭＤプロセッサ４００１に関連して、複数のシェーダからの結果が同期かつ集約可能である。これを実現するための比較的簡潔な方法の１つが、グローバルアトミクスを利用してメモリ内の共有データ構造内に結果を集約することであり、複数のシェーダのインターセクション結果を格納することができる。そして、最後のシェーダが、データ構造を解消し、トラバーサルを継続するため、トラバーサル回路４００５を呼び戻し可能である。

より効率的なアプローチも実装され得る。即ち、ＳＩＭＤプロセッサ４００１上の同じＳＩＭＤスレッドのレーンへの複数のシェーダ呼び出しの実行を制限するものである。そしてＳＩＭＤ／ＳＩＭＴ低減オペレーションを使用することで（グローバルアトミクスに依存するのではなく）、インターセクションテストがローカルに低減される。この実施態様は、同じＳＩＭＤバッチ内にシェーダ呼び出しの小バッチが留まるように、ソートユニット４００８内の新しい回路に依存し得る。

トラバーサルスレッドの実行は、さらにトラバーサル回路４００５上で保留され得る。従来の実行モデルを使用して、トラバーサル時にシェーダがディスパッチされると、トラバーサルスレッドが終了し、レイトラバーサル状態がメモリに保存され、実行ユニット４００１のシェーダ処理時に、その他レイ生成コマンドの実行が可能となる。単純にトラバーサルスレッドが保留されると、トラバーサル状態は格納される必要はなく、シェーダ結果ごとに別個に待つことができる。この実施態様は、行き詰まりを避け、十分なハードウェア利用を提供するための回路を含み得る。

図４７〜４８は、３つのシェーダ４７０１を有するＳＩＭＤコア／実行ユニット４００１で単一のシェーダ呼び出しを生じさせる延期モデルの例を示す。全てのインターセクションテストは保存されると、同じＳＩＭＤ／ＳＩＭＴグループ内で評価される。その結果として、最も近い交差もプログラム可能コア／実行ユニット４００１上で計算可能である。

すでに述べたように、シェーダ集約及び／又は延期の全て又は一部は、トラバーサル／インターセクション回路４００５及び／又はコア／ＥＵスケジューラ４００７により実行され得る。図４７は、スケジューラ４００７内のシェーダ延期／集約回路４７０６がどのように、指定されたトリガリングイベントが起きるまで、特定のＳＩＭＤ／ＳＩＭＴスレッド／レーンに関連付けられたシェーダのスケジューリングを延期可能かを示す。トリガリングイベントが検出されると、スケジューラ４００７は単一のＳＩＭＤ／ＳＩＭＴバッチ内の複数の集約シェーダを、コア／ＥＵ４００１にディスパッチする。

図４８は、トラバーサル／インターセクション回路４００５内のシェーダ延期／集約回路４８０５がどのように、指定のトリガリングイベントが起きるまで、特定のＳＩＭＤスレッド／レーンに関連付けられたシェーダのスケジューリングを延期可能かを示す。トリガリングイベントが検出されると、トラバーサル／インターセクション回路４００５は集約シェーダを単一のＳＩＭＤ／ＳＩＭＴバッチ内のソートユニット４００８に送信する。

ただし、シェーダ延期及び集約技術はソートユニット４００８などの様々な他のコンポーネントで実施され得る、又は複数のコンポーネント間で分散され得ることに留意されたい。例えば、ＳＩＭＤスレッドに対するシェーダが、効率的にコア／ＥＵ４００１上にスケジューリングされることを保証するため、トラバーサル／インターセクション回路４００５は第１セットのシェーダ集約オペレーションを実行し得、スケジューラ４００７は第２セットのシェーダ集約オペレーションを実行し得る。

コア／ＥＵに集約されたシェーダをディスパッチさせる「トリガリングイベント」は、特定の数の集約シェーダ又は、特定のスレッドに関連付けられた最小遅延などの処理イベントであり得る。あるいは又はさらに、トリガリングイベントは、第１シェーダの延期からの特定の期間又は特定の数のプロセッササイクルなどの、時間的イベントであり得る。シェーダのＳＩＭＤ／ＳＩＭＴバッチをいつディスパッチするかを判定するため、スケジューラ４００７はコア／ＥＵ４００１及びトラバーサル／インターセクションユニット４００５への現在のワークロードなどのその他変数も評価し得る。

使用される特定のシステムアーキテクチャと、用途の要件に基づいて、上述のアプローチの異なる組み合わせを使用し、本発明の異なる実施形態が実装され得る。
［レイトレーシング命令］

ＣＰＵ３１９９及び／又はＧＰＵ３１０５がサポートする命令セットアーキテクチャ（ＩＳＡ）に、以下に記載のレイトレーシング命令が含まれる。ＣＰＵにより実行されると、単一命令多重データ（ＳＩＭＤ）命令は記載のオペレーションを実行するため、ベクトル／パックソース及びデスティネーションレジスタを利用し得、ＣＰＵコアにより復号及び実行され得る。ＧＰＵ３１０５により実行されると、命令はグラフィックスコア３１３０により実行され得る。例えば、上述の実行ユニット（ＥＵ）４００１のうちのいずれかが、命令を実行し得る。あるいは又はさらに、命令はレイトレーシングコア３１５０及び／又はテンソルコア３１４０上の実行回路で実行され得る。

図４９は、以下に記載のレイトレーシング命令を実行するためのアーキテクチャを示す。図示のアーキテクチャは、上述のコア３１３０、３１４０、３１５０のうちの１つ又は複数内（例えば、図３１及び関連テキストを参照されたい）に統合されてもよく、異なるプロセッサアーキテクチャ内に含まれてもよい。

オペレーション中、命令フェッチユニット４９０３はメモリ３１９８からレイトレーシング命令４９００をフェッチし、復号器４９９５は命令を復号する。１つの実施態様において、復号器４９９５は命令を復号することで、実行可能動作（例えば、マイクロコードコア内のマイクロオペレーション（すなわち、マイクロオペ））を生成する。あるいは、レイトレーシング命令４９００の一部又は全てが、復号無しで実行され得、その場合、復号器４９０４は不要である。

いずれの実施態様でも、スケジューラ／ディスパッチャ４９０５が機能ユニット（ＦＵ）４９１０〜４９１２のセット間で、命令（又はオペレーション）をスケジューリング及びディスパッチする。図示の実施態様は、ベクトルレジスタ４９１５内に格納された複数のパックドデータ要素上で同時に動作する単一命令多重データ（ＳＩＭＤ）命令を実行するためのベクトルＦＵ４９１０と、１つ又は複数のスカラレジスタ４９１６内に格納されたスカラ値を処理するスカラＦＵ４９１１とを含む。任意選択のレイトレーシングＦＵ４９１２は、ベクトルレジスタ４９１５内に格納されたパックデータ値及び／又はスカラレジスタ４９１６内に格納されたスカラ値を処理し得る。専用ＦＵ４９１２のない実施態様では、以下に記載のレイトレーシング命令がベクトルＦＵ４９１０及び、場合によってはスカラＦＵ４９１１とともに実行され得る。

各種ＦＵ４９１０〜４９１２は、ベクトルレジスタ４９１５、スカラレジスタ４９１６及び／又はローカルキャッシュサブシステム４９０８（例えば、Ｌ１キャッシュ）から、レイトレーシング命令４９００の実行に必要なレイトレーシングデータ４９０２（例えば、トラバーサル／インターセクションデータ）にアクセスする。ＦＵ４９１０〜４９１２はさらに、ロードオペレーション及びストアオペレーションを介してメモリ３１９８にアクセスを行ってよく、キャッシュサブシステム４９０８は、データをローカルにキャッシュするため、独立して動作し得る。

レイトラバーサル／インターセクション及びＢＶＨ構築の性能向上のために、レイトレーシング命令が使用され得るが、これらはさらに高性能コンピューティング（ＨＰＣ）及び汎用ＧＰＵ（ＧＰＧＰＵ）実施態様などのその他領域にも適用可能であり得る。

以下の説明において、ダブルワードという用語をｄｗと省略することがあり、符号なしバイトはｕｂと省略され得る。さらに、以下に記載のソース及びデスティネーションレジスタ（例えば、ｓｒｃ０、ｓｒｃ１、ｄｅｓｔ、など）は、ベクトルレジスタ４９１５、又は場合によってはベクトルレジスタ４９１５及びスカラレジスタ４９１６の組み合わせを指し得る。通常、命令により使用されるソース又はデスティネーション値がパックドデータ要素を含む場合（例えば、ソース又はデスティネーションがＮ個のデータ要素を格納する場合）、ベクトルレジスタ４９１５が使用される。その他値がスカラレジスタ４９１６又はベクトルレジスタ４９１５を使用し得る。
［量子化解除］

量子化解除命令の１つの例は、すでに量子化された値を「量子化解除」する。例示の目的で、レイトレーシング実施態様では、ストレージ要件及び帯域幅要件を軽減するため、特定のＢＶＨ部分木が量子化され得る。量子化解除命令は、量子化解除ｄｅｓｔｓｒｃ０ｓｒｃ１ｓｒｃ２の形態を採り得る。即ち、ソースレジスタｓｒｃ０がＮ個の符号なしバイトを格納し、ソースレジスタｓｒｃ１が１つの符号なしバイトを格納し、ソースレジスタｓｒｃ２が１つの浮動小数点値を格納し、デスティネーションレジスタｄｅｓｔがＮ個の浮動小数点値を格納する。これら全てのレジスタが、ベクトルレジスタ４９１５であり得る。あるいは、ｓｒｃ０及びｄｅｓｔがベクトルレジスタ４９１５であり得、ｓｒｃ１及びｓｒｃ２がスカラレジスタ４９１６であり得る。

以下のコードシーケンスは、量子化解除命令の１つの特定の実施態様を定義する。

この例では、ｌｄｅｘｐにより、倍精度浮動小数点値が、指定された２の整数べき乗で乗算される（つまり、ｌｄｅｘｐ（ｘ、ｅｘｐ）＝ｘ＊２^ｅｘｐ）。上述のコードにおいて、現在のＳＩＭＤデータ要素（ｅｘｅｃＭａｓｋ［ｉ］））に関連付けられた実行マスク値が１に設定されると、ｓｒｃ０における位置ｉのＳＩＭＤデータ要素は、浮動小数点値に変換され、ｓｒｃ１（２^{ｓｒｃ１ｖａｌｕｅ}）の値のべき乗で乗算され、この値がｓｒｃ２における対応するＳＩＭＤデータ要素に加えられる。
［選択的最小又は最大］

選択的最小又は最大命令は、ビットマスク内のビットで示されるように、レーン毎の最小又は最大演算を実行し得る（つまり、値のセットの最小又は最大を返す）。ビットマスクは、ベクトルレジスタ４９１５、スカラレジスタ４９１６、又はマスクレジスタの別個のセット（不図示）を利用し得る。以下のコードシーケンスは、ｍｉｎ／ｍａｘ命令の１つの特定の実施態様を定義する。即ち、ｓｅｌ＿ｍｉｎ＿ｍａｘｄｅｓｔｓｒｃ０ｓｒｃ１ｓｒｃ２で、ｓｒｃ０はＮ個のダブルワードを格納し、ｓｒｃ１はＮ個のダブルワードを格納し、ｓｒｃ２は１つのダブルワードを格納し、デスティネーションレジスタはＮ個のダブルワードを格納する。

以下のコードシーケンスは、選択的ｍｉｎ／ｍａｘ命令の１つの特定の実施態様を定義する。

この例において、（１＜＜ｉ）＆ｓｒｃ２（ｉとｓｒｃ２とのＡＮＤをとることで１つ左シフトする）の値を使用して、ｓｒｃ０及びｓｒｃ１におけるｉ番目データ要素の最小、又はｓｒｃ０及びｓｒｃ１におけるｉ番目データ要素の最大のいずれが選択される。現在のＳＩＭＤデータ要素（ｅｘｅｃＭａｓｋ［ｉ］））に関連付けられた実行マスク値が１に設定された場合にのみ、ｉ番目データ要素に対して演算が行われる。
［シャッフルインデックス命令］

シャッフルインデックス命令は、入力レーンの任意のセットを出力レーンにコピー可能である。３２のＳＩＭＤ幅に対して、この命令はより低いスループットで実行可能である。この命令はｓｈｕｆｆｌｅ＿インデックスｄｅｓｔｓｒｃ０ｓｒｃ１＜任意選択フラグ＞の形態を採り、ｓｒｃ０はＮ個のダブルワードを格納し、ｓｒｃ１はＮ個の符号なしバイト（つまり、インデックス値）を格納し、ｄｅｓｔはＮ個のダブルワードを格納する。

以下のコードシーケンスは、シャッフルインデックス命令の１つの特定の実施態様を定義する。

上述のコードでは、ｓｒｃ１内のインデックスにより現在のレーンが識別される。実行マスク内のｉ番目値が１に設定されると、ソースレーンが０からＳＩＭＤ幅の範囲であることを保証するように、チェックが実行される。その場合、フラグが設定され（ｓｒｃＬａｎｅＭｏｄ）、デスティネーションのデータ要素ｉがｓｒｃ０のデータ要素ｉに等しくなるように設定される。レーンが範囲内であると（つまり有効）、ｓｒｃ１からのインデックス値（ｓｒｃＬａｎｅ０）がｓｒｃ０（ｄｓｔ［ｉ］＝ｓｒｃ０［ｓｒｃＬａｎｅ］）内へのインデックスに使用される。
［即時シャッフルＵｐ／Ｄｎ／ＸＯＲ命令］

即時シャッフル命令は、命令の即値に基づいて、入力データ要素／レーンをシャッフルし得る。即時は、即値に基づいて、入力レーンを、１、２、４、８、又は１６位置シフトすることを指定し得る。任意選択で、追加のスカラソースレジスタを充填値として指定可能である。ソースレーンインデックスが無効であれば、充填値（提供されている場合）がデスティネーションのデータ要素位置に格納される。充填値が提供されていない場合、データ要素位置は全て０に設定される。

フラグレジスタをソースマスクとして使用してもよい。ソースレーンに対するフラグビットが１に設定されている場合、ソースレーンは無効とマークされてよく、命令が進められてよい。

以下に即時シャッフル命令の異なる実施態様例を挙げる。

この実施態様では、ｓｒｃ０はＮ個のダブルワードを格納し、ｓｒｃ１は充填値（存在する場合）に対して１つのダブルワードを格納し、ｄｅｓｔは結果を含むＮ個のダブルワードを格納する。

以下のコードシーケンスは、即時シャッフル命令の１つの特定の実施態様を定義する。

ここで、即値に基づいて、入力データ要素／レーンが１、２、４、８、又は１６位置シフトされる。レジスタｓｒｃ１は、ソースレーンインデックスが無効の場合に、デスティネーションのデータ要素位置に格納される充填値として使用される追加のスカラソースレジスタである。充填値が提供されておらず、ソースレーンインデックスが無効であれば、デスティネーションのデータ要素位置は０に設定される。フラグレジスタ（フラグ）がソースマスクとして使用される。ソースレーンに対するフラグビットが１に設定される場合、ソースレーンは無効とマークされ、上述のように命令が進む。
［間接的シャッフルＵｐ／Ｄｎ／ＸＯＲ命令］

間接的シャッフル命令は、ソースレーンからデスティネーションレーンへのマッピングを制御するソースオペランド（ｓｒｃ１）を有する。間接的シャッフル命令はｓｈｕｆｆｌｅ＿＜ｕｐ／ｄｎ／ｘｏｒ＞ｄｅｓｔｓｒｃ０ｓｒｃ１＜任意選択フラグ＞の形態を採り得、ここで、ｓｒｃ０はＮ個のダブルワードを格納し、ｓｒｃ１は１つのダブルワードを格納し、ｄｅｓｔはＮ個のダブルワードを格納する。

したがって、間接的シャッフル命令は上述の即時シャッフル命令と同様に動作するが、ソースレーンからデスティネーションレーンへのマッピングは、即時ではなく、ソースレジスタｓｒｃ１により制御される。
［クロスレーンＭｉｎ／Ｍａｘ命令］

浮動及び整数データ型に対して、クロスレーン最小／最大命令がサポートされ得る。クロスレーン最小命令はｌａｎｅ＿ｍｉｎｄｅｓｔｓｒｃ０の形態を採り得、クロスレーン最大命令はｌａｎｅ＿ｍａｘｄｅｓｔｓｒｃ０の形態を採り得、ｓｒｃ０はＮ個のダブルワードを格納し及びｄｅｓｔは１つのダブルワードを格納する。

例示の目的で、以下のコードシーケンスはクロスレーン最小の１つの特定の実施態様を定義する。

この例において、ソースレジスタのデータ要素位置ｉにおけるダブルワード値が、デスティネーションレジスタ内のデータ要素と比較され、２つの値の内最小のものがデスティネーションレジスタにコピーされる。クロスレーン最大命令は実質的に同じ方式で動作し、唯一の違いは、位置ｉのデータ要素の最大とデスティネーション値とが選択されることである。
［クロスレーン最小／最大インデックス命令］

クロスレーン最小インデックス命令はｌａｎｅ＿ｍｉｎ＿ｉｎｄｅｘｄｅｓｔｓｒｃ０の形態を採り得、クロスレーン最大インデックス命令はｌａｎｅ＿ｍａｘ＿ｉｎｄｅｘｄｅｓｔｓｒｃ０の形態を採り得、ｓｒｃ０Ｎ個のダブルワードを格納し、ｄｅｓｔは１つのダブルワードを格納する。

例示の目的で、以下のコードシーケンスはクロスレーン最小インデックス命令の１つの特定の実施態様を定義する。

この例において、デスティネーションインデックスが、デスティネーションレジスタに亘って０からＳＩＭＤ幅までインクリメントされる。実行マスクビットが設定されると、ソースレジスタ内の位置ｉにおけるデータ要素が一時的格納位置（ｔｍｐ）にコピーされ、デスティネーションインデックスがデータ要素位置ｉに設定される。
［クロスレーンソートネットワーク命令］

クロスレーンソートネットワーク命令は、Ｎ幅（一定）ソートネットワークを利用して、昇順（ｓｏｒｔｎｅｔ＿ｍｉｎ）又は降順（ｓｏｒｔｎｅｔ＿ｍａｘ）で、全てのＮ入力要素をソートし得る。命令のｍｉｎ／ｍａｘバージョンはそれぞれ、ｓｏｒｔｎｅｔ＿ｍｉｎｄｅｓｔｓｒｃ０及びｓｏｒｔｎｅｔ＿ｍａｘｄｅｓｔｓｒｃ０の形態を採り得る。１つの実施態様において、ｓｒｃ０及びｄｅｓｔはＮ個のダブルワードを格納する。ｓｒｃ０のＮ個のダブルワードに対して、最小／最大ソートが実行され、昇順の要素（最小に対応）又は降順の要素（最大に対応）がそれぞれソート順でｄｅｓｔに格納される。命令を定義するコードシーケンスの１つの例は以下のとおりである：ｄｓｔ＝ａｐｐｌｙ＿Ｎ＿ｗｉｄｅ＿ｓｏｒｔｉｎｇ＿ｎｅｔｗｏｒｋ＿ｍｉｎ／ｍａｘ（ｓｒｃ０）。
［クロスレーンソートネットワークインデックス命令］

クロスレーンソートネットワークインデックス命令は、Ｎ幅（一定）ソートネットワークを利用して、昇順（ｓｏｒｔｎｅｔ＿ｍｉｎ）又は降順（ｓｏｒｔｎｅｔ＿ｍａｘ）で、全てのＮ入力要素をソートし、置換インデックスを戻し得る。命令のｍｉｎ／ｍａｘバージョンはそれぞれ、ｓｏｒｔｎｅｔ＿ｍｉｎ＿ｉｎｄｅｘｄｅｓｔｓｒｃ０及びｓｏｒｔｎｅｔ＿ｍａｘ＿ｉｎｄｅｘｄｅｓｔｓｒｃ０の形態を採り得る。ｓｒｃ０とｄｅｓｔはそれぞれ、Ｎ個のダブルワードを格納する。命令を定義するコードシーケンスの１つの例は以下のとおりである：ｄｓｔ＝ａｐｐｌｙ＿Ｎ＿ｗｉｄｅ＿ｓｏｒｔｉｎｇ＿ｎｅｔｗｏｒｋ＿ｍｉｎ／ｍａｘ＿ｉｎｄｅｘ（ｓｒｃ０）。

図５０に、上述の命令のうちのいずれかを実行する方法を示す。本方法は、上述した特定のプロセッサアーキテクチャに実装されてよいが、いかなる特定のプロセッサ又はシステムアーキテクチャにも限定されることはない。

５００１で、一次グラフィックススレッドの命令がプロセッサコアで実行される。これは例えば、上述のコアのうちのいずれかを含み得る（例えば、グラフィックスコア３１３０）。レイトレーシング作業が一次グラフィックススレッドに到達したと５００２で判定されると、レイトレーシング命令は、図４９に関して上述したような機能ユニット（ＦＵ）の形式を採り得る、又は図３１に関して説明した専用レイトレーシングコア３１５０内にあり得るレイトレーシング実行回路にオフロードされる。

５００３で、レイトレーシング命令が復号され、メモリからフェッチされる。５００５で、命令が実行可能なオペレーションに復号される（例えば復号器を要する一実施形態の場合）。５００４で、レイトレーシング命令がスケジューリングされ、レイトレーシング回路による実行用にディスパッチされる。５００５で、レイトレーシング回路によりレイトレーシング命令が実行される。例えば、命令はディスパッチされ、上述のＦＵ（例えば、ベクトルＦＵ４９１０、レイトレーシングＦＵ４９１２、など）、及び／又はグラフィックスコア３１３０又はレイトレーシングコア３１５０上で実行され得る。

レイトレーシング命令に対する実行が完了すると、結果が５００６で格納され（例えば、メモリ３１９８に格納し戻される）、５００７で一次グラフィックススレッドに通知される。５００８で、レイトレーシング結果が一次スレッドのコンテキスト内で処理される（例えば、メモリから読み出され、グラフィックスレンダリング結果に統合される）。

複数の実施形態において、用語「エンジン」又は「モジュール」又は「ロジック」は、１つ又は複数のソフトウェア又はファームウェアプログラムを実行する特定用途向け集積回路（ＡＳＩＣ）、電子回路、プロセッサ（共有、専用、又はグループ）、及び／又はメモリ（共有、専用、又はグループ）、組み合わせ論理回路及び／又は説明した機能を提供する他の好適なコンポーネントのことを指しても、これらの一部であっても、これらを含んでもよい。複数の実施形態において、エンジン、モジュール、又はロジックが、ファームウェア、ハードウェア、ソフトウェア、又はファームウェア、ハードウェア、及びソフトウェアの任意の組み合わせで実装されてもよい。
［非同期レイトレーシング用の装置及び方法］

本発明の実施形態は、レイトレーシングを実行する固定機能アクセラレーション回路及び汎用処理回路の組み合わせを含む。例えば、バウンディングボリューム階層（ＢＶＨ）のレイトラバーサル及びインターセクションテストに関連する特定のオペレーションは、複数の実行回路が各種形式のレイトレーシングシェーダ（例えば、ａｎｙ−ｈｉｔシェーダ、インターセクションシェーダ、ミスシェーダなど）を実行する間に、固定機能アクセラレーション回路により行われ得る。１つの実施形態は、レイを格納する複数のエントリと、ＢＶＨノードを格納する対応するデュアルスタックとを含むデュアル高帯域幅格納バンクを含む。本実施形態において、トラバーサル回路は各クロックサイクルでレイを処理するため、デュアルレイバンクとスタックとを交互に切り替える。さらに、１つの実施形態は、内部ノード、非内部ノード、プリミティブを区別し、この情報を利用して、ＢＶＨノードと、ＢＶＨノードに含まれるプリミティブの処理に合理的に優先順位を付ける、優先選択回路／ロジックを含む。

１つの特定の実施形態は、トラバーサルオペレーション時に、限定された数のＢＶＨノードを格納するため、短いスタックを使用したトラバーサルに必要な高速メモリを低減する。本実施形態は、必要なＢＶＨノードが利用可能であることを保証するため、短いスタックに対してエントリを効率的にプッシュ及びポップするスタック管理回路／ロジックを含む。さらに、追跡データ構造への更新を実行することで、トラバーサルオペレーションが追跡される。トラバーサル回路／ロジックは一時停止すると、追跡データ構造を調べて、それが中断したＢＶＨ内の同じ位置からトラバーサルオペレーションを開始可能である。さらに、データ構造追跡で維持された追跡データが実行されて、トラバーサル回路／ロジックが再開可能となる。

図５１は、シェーダプログラムコードを実行し、関連するレイトレーシングデータ４９０２（例えば、ＢＶＨノードデータ及びレイデータ）を処理するシェーダ実行回路４０００と、トラバーサル及びインターセクションオペレーションを行うためのレイトレーシングアクセラレーション回路５１１０と、ＲＴアクセラレーション回路５１１０及びシェーダ実行回路４０００により処理されるプログラムコード及び関連するデータを格納するメモリ３１９８を含む１つの実施形態を示す。

１つの実施形態において、シェーダ実行回路４０００は、様々な形態のデータ並列オペレーションを行うためのシェーダプログラムコードを実行する複数のコア／実行ユニット４００１を含む。例えば、１つの実施形態において、コア／実行ユニット４００１は複数のレーン間で単一の命令を実行可能で、その場合は命令の各インスタンスが異なるレーンに格納されたデータ上で動作する。ＳＩＭＴ実施態様の場合、例えば命令の各インスタンスは異なるスレッドに関連する。実行中、Ｌ１キャッシュは、効率的なアクセスのため、特定のレイトレーシングデータを格納する（例えば、最近又は頻繁にアクセスされたデータ）。

コア／ＥＵ４００１が実行するシェーダへの作業をスケジューリングするスケジューラ４００７に、一次レイのセットがディスパッチされ得る。コア／ＥＵ４００１は、レイトレーシングコア３１５０、グラフィックスコア３１３０、ＣＰＵコア３１９９、又はシェーダプログラムコードを実行可能な他の種類の回路であり得る。１つ又は複数の一次レイシェーダ５１０１は、一次レイ及びレイトレーシングアクセラレーション回路５１１０及び／又はコア／ＥＵ４００１が実行する（例えば、１つ又は複数の子シェーダにより実行される）生成された追加の作業を処理する。コア／ＥＵ４００１が実行する一次レイシェーダ５１０１又は他のシェーダにより生成される新しい作業は、本明細書に記載のとおり、レイをグループ又はビンにソートする（例えば、同様の特性のレイをグループ化）ソート回路４００８に分配され得る。そしてスケジューラ４００７が新しい作業をコア／ＥＵ４００１にスケジューリングする。

実行され得るその他シェーダは、上述の用にヒット結果を処理するａｎｙ−ｈｉｔシェーダ４５１４及びｃｌｏｓｅｓｔ−ｈｉｔシェーダ４５０７を含む（例えば、所与のレイについてそれぞれＡｎｙＨｉｔ又はＣｌｏｓｅｓｔＨｉｔを識別する）。ミスシェーダ４５０６はレイのミスを処理する（例えば、レイがノード／プリミティブに交差しない場合）。すでに述べたように、１つ又は複数のポインタ、特定ベンダ向けメタデータ、グローバル引数を含み得るシェーダレコードを使用して、様々なシェーダを参照可能である。１つの実施形態において、シェーダレコードは、シェーダレコード識別子（ＳＲＩ）により識別される。１つの実施形態において、シェーダの各実行インスタンスは、親シェーダと子シェーダとの間で送られる引数を格納するのに用いられ得るコールスタック５２０３に関連している。コールスタック５１２１は、コールが戻ると実行される継続機能への参照も格納してよい。

レイトラバーサル回路５１０２は、各レイでＢＶＨのノードをトラバースし、レイがトラバースしたノード／プリミティブを識別するように、（例えば、親ノード、子ノード、リーフノードを通じて）ＢＶＨの階層を順次処理する。レイ−ＢＶＨ間インターセクション回路５１０３は、レイのインターセクションテストを行い、プリミティブ上のヒットポイントを判定し、ヒットに応答して結果を生成する。トラバーサル回路５１０２及びインターセクション回路５１０３は、１つ又は複数のコールスタック５１２１から作業を取得し得る。レイトレーシングアクセラレーション回路５１１０内で、コールスタック５１２１及び関連するレイトレーシングデータ４９０２は、トラバーサル回路５１０２及びインターセクション回路５１０３による効率的なアクセスのため、ローカルレイトレーシングキャッシュ（ＲＴＣ）５１０７又はその他ローカル記憶デバイス内に格納され得る。以下に記載の１つの特定の実施形態は、高帯域幅レイバンクを含む（例えば、図５２Ａ参照）。

レイトレーシングアクセラレーション回路５１１０は、レイ−ＢＶＨ間トラバーサル／インターセクション回路４００５、トラバーサル回路４５０２及びインターセクション回路４５０３、レイトレーシングコア３１５０を含む本明細書に記載の様々なトラバーサル／インターセクション回路の変形例であり得る。レイトレーシングアクセラレーション回路５１１０は、レイ−ＢＶＨ間トラバーサル／インターセクション回路４００５、トラバーサル回路４５０２及びインターセクション回路４５０３、レイトレーシングコア３１５０、又はＢＶＨスタックを処理する及び／又はトラバーサル／インターセクションを実行する任意のその他回路／ロジックの代わりに使用され得る。したがって、本明細書に記載のレイ−ＢＶＨ間トラバーサル／インターセクション回路４００５、トラバーサル回路４５０２及びインターセクション回路４５０３、レイトレーシングコア３１５０と組み合わせた任意の特徴の開示は、レイトレーシングアクセラレーション回路５１１０との対応する組み合わせも開示するものであるが、そのように限定されることはない。

図５２Ａを参照すると、レイトラバーサル回路５１０２の１つの実施形態は、第１及び第２レイ格納バンク５２０１及び５２０２をそれぞれ含み、各バンクは、メモリからロードされた対応する複数の入射レイ５２０６を格納するための複数のエントリを含む。対応する第１及び第２スタック５２０３及び５２０４はそれぞれ、メモリから読み出され、処理のためにローカルに格納される、選択されたＢＶＨノードデータ５２９０〜５２９１を含む。本明細書に記載のとおり、１つの実施形態において、スタック５２０３〜５２０４は、ＢＶＨノードデータを格納する限定された数のエントリ（例えば、１つの実施形態において６個のエントリ）を含む、「短い」スタックである。レイバンク５２０１〜５２０２とは別個に図示されているが、スタック５２０３〜５２０４も対応するレイバンク５２０１〜５２０２内に維持され得る。若しくは、スタック５２０３〜５２０４は別個のローカルメモリ又はキャッシュに格納され得る。

トラバーサル処理回路５２１０の１つの実施形態は、処理のために次のレイ及びノードを選択する際、２つのバンク５２０１〜５２０２及びスタック５２０３〜５２０４を交互に切り替える（例えば、ピンポン方式）。例えば、トラバーサル処理回路５２１０は、各クロックサイクルで、レイバンク／スタックから交互に新しいレイ／ＢＶＨノードを選択し得、これにより非常に効率的なオペレーションが保証される。しかしながら、この特定の構成は、本発明の基本的原理に準拠するのに必須ではないことに留意されたい。

１つの実施形態において、レイ割当部５２０５は、バンク割当カウンタ５２２０のセットの現在の相対値に基づいて、第１及び第２メモリバンク５２０１〜５２０２のそれぞれへの入射レイ５２０６のエントリのバランスをとる。１つの実施形態において、バンク割当カウンタ５２２０はそれぞれ第１及び第２メモリバンク５２０１〜５２０２内のそれぞれ、非交差レイの数のカウントを維持する。例えば、第１バンク割当カウンタは、レイ割当部５２０５が新しいレイを第１バンク５２０１に加えるとインクリメントされてよく、レイが第１バンク５２０１から処理されるとデクリメントされてよい。同様に、第２バンク割当カウンタは、レイ割当部５２０５が新しいレイを第２バンク５２０２に加えるとインクリメントされてよく、レイが第２バンク５２０２から処理されるとデクリメントされてよい。

１つの実施形態において、レイ割当部５２０５は、より小さいカウンタ値に関連するバンクに、現在のレイを割り当てる。２つのカウンタが等しい場合、レイ割当部５２０５はいずれのバンクを選択し得るか、前回カウンタが等しかった際に選択したものと異なるバンクを選択し得る。１つの実施形態において、各レイはバンク５２０１〜５２０２のうちの一方の１つのエントリに格納され、各バンクは最大３２個のレイを格納するための３２個のエントリを含む。しかしながら、本発明の基本的原理は、これらの詳細に限定されることはない。

図５２Ｂは、１つの実施形態において、レイ格納バンク５２０１〜５２０２及びスタック５２０３〜５２０４を管理するために実行される４つの処理５２５１〜５２５４を示す。１つの実施形態において、４つの処理５２５１〜５２５４は、共通のプログラムコードのセット（本明細書では、「トレースレイ」とも称する）の異なる実施態様又は構成である。初期処理５２５１は、レイ５２６１の読み出し、及びルートノードから始まる、ＢＶＨの新しいトップダウントラバーサルを行うために実行され得る。Ａｌｌｏｃ機能は制御ビットを修正し、レイトレーシングスタックへの対応する読み出し要求を発行する。具体的には、新しいエントリの割り当てのため、Ａｌｌｏｃは有効（ＶＬＤ）ビットを設定し、追い出し準備完了（Ｅｖｉｃｔ＿Ｒｄｙ）ビットをリセットする。レイに対するバンクエントリ内で、データ存在（ＤＰ）ビット及びダーティビットがリセットされる。対応するスタックエントリ内のＤＰビットが設定される。対応するヒット情報に対し、ＤＰビットが設定され、ダーティビットがリセットされる。ノードデータに関連するＤＰビット及びシェーダレコード識別子（ＳＲＩ）ＤＰビットがリセットされる。

インスタンス処理５２５２は、ＢＶＨの（ルートノード以外の）ノードのうちの１つの中でトラバーサルを行い、レイと、前回コミットしたヒット５２６２とを読み出す。１つの実施形態において、ヒットシェーダのうちの１つがレイとプリミティブとの間のヒットを識別すると、コミット処理５２５３は結果をコミットするように実行され、レイ、生じ得るヒット、及びスタック５２６３を読み出す。あるいは、継続処理５２５４はレイのトラバーサルを継続するように実行され、レイ、コミットされたヒット、スタック５２６４を読み出す。

シェーダが一連のオペレーションを行う必要があるなど様々な状況で、トラバーサル回路５００２はトラバーサルオペレーションを一時停止し、現在のレイ及び関連するＢＶＨノードを保存する必要がある。例えば、非透明オブジェクトがヒットされるか又はプロシージャルテクスチャである場合、トラバーサル回路５００２はスタック５２０３〜５２０４をメモリに保存し、必要なシェーダを実行する。シェーダによるヒット（又はその他データ）の処理が完了すると、トラバーサル回路５００２はメモリからレイバンク５２０１〜５２０２及びスタック５２０３〜５２０４の状態を復元する。

１つの実施形態において、トラバーサル／スタック追跡部５２４８は継続的にトラバーサル及びスタックオペレーションを監視し、追跡アレイ５２４９内に再開データを格納する。例えば、トラバーサル回路５００２が既にノードＮ、Ｎ０、Ｎ１、Ｎ２、及びＮ００をトラバースして結果を生成した場合、トラバーサル／スタック追跡部５２４８は、これらのノードのトラバーサルが完了したことを示す、及び／又はスタックから処理される次のノードを示すように、追跡アレイを更新する。トラバーサル回路５００２は再開されると、ＢＶＨノードのうちのいずれも繰り返しトラバースする（無駄なサイクルを出す）ことなく、適切な段階からトラバーサルを再開し得るように、追跡アレイ５２４９から再開データを読み出す。追跡アレイ５２４９に格納された再開データは、「リスタートトレイル」又は「ＲＳＴ」とも称される。

図５２Ｂに示すように、様々なトレースレイ処理５２５１〜５２５４は、１つ又は複数の機能を介して、レイ格納バンク５２０１〜５２０２内外への／からの割り当てを管理する。初期処理５２５１について図示されているように、Ａｌｌｏｃ機能は格納バンクエントリ内に有効ビット（ＶＬＤ）を設定し（エントリが現在有効レイを含むことを示す）、追い出し準備完了フラグをリセットする（レイデータを追い出すべきではないことを示す）。レイ機能は、選択されたエントリにレイを格納し、データ存在（ＤＰ）ビット（エントリ内にレイデータが格納されていることを示す）と、ダーティビット（データが修正されていないことを示す）をリセットする。格納バンクからレイを読み出すと、スタック機能はＤＰビットを設定し、スタックから関連するＢＶＨノードを取得する（例えば、初期処理５２５１の場合はルートノード、インスタンス処理５２５２の場合は別のノード）。ヒット情報機能は、初期機能５２５１に対してダーティビットをリセットし、ＤＰビットを設定するか、又は他の全ての機能に対してリセットする。１つの実施形態において、ヒット情報はレイヒットを反映したデータを生成する。ノード機能は、ＤＰビットと、シェーダレコード識別子のＤＰであるＳＲＩ（シェーダレコード識別子）ＤＰをリセットする。１つの実施形態では、ＫＳＰが０に等しくないことを保証するため、ＫｅｒｎｅｌＳｔａｒｔＰｏｉｎｔｅｒ（ＫＳＰ）ルックアップが行われる。等しい場合、非透明クアッドに対して別の取り扱いが実施される。

１つの実施形態において、格納バンク５２０１〜５２０２のうちの１つにレイエントリが割り当てられると、ノードデータ（及び、場合によっては他のデータ）を、レイに関連するスタックから取得するため、フェッチが行われる。１つの実施形態において、レイごとにスタックが維持される。これは、レイがトラバースする現在のノードについてのデータのワーキングセットを含む。

ＢＶＨの次のレベルに移行する際（例えば、レイが親ノードに交差すると判定されると）、スタック５２０３〜５２０４に子ノードがソート及びプッシュされる。子ノードはスタックから順次ポップされ、個々に処理されることで、レイがトラバースする子ノードが識別される（トラバーサル「ヒット」）。１つの実施形態において、ＲＴアクセラレーション回路５１１０及びシェーダ４５０４、４５０６、４５０７、５１０１、５１０５間のハンドオフが生じるたびに、メモリ又はローカルキャッシュ／ストレージに、格納されていたスタックが展開される。

クアッド又は三角形（又はその他種類のプリミティブ）を含むリーフノードがトラバーサル回路５１０２により識別されると、この情報はそれぞれクアッド又は三角形に対してインターセクションテストを行うインターセクション回路５１０３に渡される。プリミティブがクアッドでも三角形でもなければ、１つの実施態様では、トラバーサル回路はトラバーサルを終了し、制御をｃｌｏｓｅｓｔｈｉｔシェーダ４５０７（ヒットが検出された場合）又はミスシェーダ４５０６（ヒットが検出されない場合）に返す。インターセクション回路５１０３が、クアッド及び三角形に加えて様々なプリミティブ（例えば、線、曲線、円など）にインターセクションを行うように設計されている実施態様では、トラバーサル回路５１０２はこれらプリミティブに対するリーフノードをインターセクション回路５１０３に転送する。

１つの実施形態において、ハードウェア又はソフトウェアコンポーネントがメモリ３１９８又はキャッシュへの読み出し要求を生成すると、１６ビットタグが使用されて、データ型及び要求元への情報が提供される。例えば、２ビットコードにより、レイ、スタックデータ、ヒットデータ、ＢＶＨからのノードデータ、又は任意の他の種類のデータに対する要求であるか指定され得る。メモリからレイ、スタック、ヒット情報が戻されると、１つ又は複数のＢＶＨノードにレイがトラバースされ、上述のようにインターセクションテストが実行される。

１つ又は複数のスタック５２０３〜５２０４及びレイ５２０６は、異なる処理段階でメモリからロードされる。例えば、初期処理５２５１及び／又はインスタンス処理５２５２では、トラバーサル用にロードされる新しいＢＶＨを必要とし得る。これら状況では、スタック５２０３〜５２０４はＢＶＨの先頭ノード（又は「ルート」ノード）まで初期化され得る。ＢＶＨ内のレイ継続５２５４のため、スタック５２０３〜５２０４がメモリからロードされ、展開され得る。スタック５２０３〜５２０４が用意されると、ノードデータがスタックからフェッチされる（以下Ｐｒｏｃ＿Ｎｏｄｅ＿Ｆｅｔｃｈとも称されるオペレーション）。

１つの実施形態において、ノードデータは、２つの非内部（ＮＩ）ノード及び２つの内部ノードに対して、並列要求を開始することでフェッチされる。図５３は、ＮＩノード優先選択ロジック（ＰＲＩＳＥＬ）５３１１がデュアルＮＩノードを要求する１つのそのような実施形態を示す（即ち、バンク０から第１ＮＩノード５３０１、バンク１から第２ＮＩノード５３０２）。同時に、内部ノードＰＲＩＳＥＬロジック５３１２はデュアル内部ノードを要求する（即ち、バンク０から第１ノード５３０３、バンク１から第２ノード５３０４）。

１つの実施形態において、ＮＩノード優先選択ロジック（ＰＲＩＳＥＬ）５３１１は、第１ＮＩノード５３０１及び第２ＮＩノード５３０２のうちの１つを優先し、優先結果をレイトレーシングキャッシュ（ＲＴＣ）に格納する。同様に、内部ノードＰＲＩＳＥＬロジック５３１２は、デュアル内部ノードを要求し、第１内部ノード５３０３及び第２内部ノード５３０４から優先結果を選択する。

優先選択ロジック５３１１〜５３１２の各インスタンスは、可能であれば、異なるバンクからの非内部ＢＶＨノード５３０１〜５３０２のうちの１つ、及び内部ＢＶＨノード５３０３〜５３０４のうちの１つを優先する。１つの実施形態において、各バンクから１つの要求のみ選択される（例えば、要求５３０２及び５３０４のうちの１つ、及び要求５３０１及び５３０３のうちの１つ）。これら要求を発行することで、さらに示されたとおりスタックデータ存在（ＤＰ）ビットがリセットされ得、これによりこのエントリがノードフェッチオペレーションに応答して取得されないようになる。１つの実施形態において、インスタンスフェッチオペレーションに対して、レイのデータ存在（ＤＰ）ビットがインスタンス要求送信時にリセットされ、レイがノードフェッチ後に変換されると、最終的に設定される。

１つの実施形態において、ｎｏｄｅ＿ｉｎｆｏは、読み出しの発行時に書き込まれ、読み出し要求に対してａｄｄｒｅｓ／ｔａｇが以下のとおりに計算される。
ｉ．ｒｔｔ＿ｒｔｃ＿ｒｄ＿ａｄｄｒ［４７：６］＝ｒｔ＿ｒａｙ．ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｒｏｏｔ＿ｎｏｄｅ＿ｐｔｒ［４７：６］＋ｃｕｒｒ＿ｓｔａｃｋ．ｃｈｉｌｄ＿ｏｆｆｓｅｔ；（注：ノードの子オフセットは、常に現在のＢＶＨルートノードに関連している）。
ｉｉ．ｒｔｔ＿ｒｔｃ＿ｒｄ＿ｔａｇ［６：０］＝｛ＲＴＴ＿ＩＮＳＴ，ｒｔｔ＿ａｌｌｏｃ＿ｅｎｔｒｙ［５：０］｝；
ｉｉｉ．ｎｏｄｅ．ｎｏｄｅ＿ｉｎｆｏ＝ｃｕｒｒ＿ｓｔａｃｋ．ｎｏｄｅ＿ｉｎｆｏ。１つの実施形態において、戻されたノードデータは、ノード及びスタックに対してＤＰビットを設定する。

読み出しタグに基づいて、以下の場合が区別可能である。
Ａ．内部ノード：これにより内部ノードに書き込みが行われる。
Ｂ．インスタンス：これにより次のレベルのＢＶＨ（１）のｒｔ＿ｒａｙ．ｒｔ＿ｒａｙ＿ｃｔｒｌが更新され、ノード構造が書き込まれる。
ｉ．ｒｏｏｔ＿ｎｏｄｅ＿ｐｔｒ＝ｎｏｄｅ＿ｒｅｔｕｒｎ．ＳｔａｒｔＮｏｄｅＰｔｒ。
ｉｉ．ｈｉｔｇｒｐ＿ｓｒｂａｓｅ＿ｐｔｒ＝ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｈｉｔｇｒｐ＿ｓｒｂａｓｅ＿ｐｔｒ＋ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｓｒｓｔｒｉｄｅ＊ｎｏｄｅ＿ｒｅｔｕｒｎ．ｉｎｓｔａｎｃｅｃｏｎｔｒｉｂｕｔｉｏｎｔｏｈｉｔｇｒｐｉｎｄｅｘ。
ｉｉｉ．ｈｉｔｇｒｐ＿ｓｒ＿ｓｔｒｉｄｅ＝ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｓｒｓｔｒｉｄｅ＊ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｓｈａｄｅ＿ｉｎｄｘ＿ｍｕｌｔ。
ｉｖ．ｉｎｓｔ＿ｌｅａｆ＿ｐｔｒ＝ｒｔ＿ｒａｙ．ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｒｏｏｔ＿ｎｏｄｅ＿ｐｔｒ＋ｓｔａｃｋ．ｃｕｒｒｅｎｔ＿ｎｏｄｅ．ｃｈｉｌｄ＿ｏｆｆｓｅｔ →論理ビューのみ、インスタンスノードのフェッチ要求自体で際に、ノードフェッチアドレスを取り込んで格納する。
ｖ．｛ｍｉｓｓ＿ｓｒ＿ｐｔｒ，ｓｈａｄｅｒ＿ｉｎｄｘ＿ｍｕｌｔ，ｍａｓｋ｝＝｛ｒｔ＿ｒａｙ［０］．ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｍｉｓｓ＿ｓｒ＿ｐｔｒ，ｒｔ＿ｒａｙ［０］．ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｓｈａｄｅｒ＿ｉｎｄｘ＿ｍｕｌｔ，ｒｔ＿ｒａｙ［０］．ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｍａｓｋ｝ＢＶＨ［０］を保存する。
ｖｉ．ｆｌａｇ［０］＝ｒｔ＿ｒａｙ［０］．ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｆｌａｇ［０］｜（〜ｒｔ＿ｒａｙ［０］．ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｆｌａｇ［１］＆Ｎｏｄｅ＿Ｒｅｔｕｒｎ．ｆｌａｇ［２］）；→レイ又はインスタンスフラグ（レイフラグがＦｏｒｃｅＮｏｎ−Ｏｐａｑｕｅではない場合のみ）のいずれかで、透明を保存する。
ｖｉｉ．ｆｌａｇ［１］＝（ｒｔ＿ｒａｙ［０］．ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｆｌａｇ［１］）｜（〜ｒｔ＿ｒａｙ［０］．ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｆｌａｇ［０］＆Ｎｏｄｅ＿Ｒｅｔｕｒｎ．ｆｌａｇ［３］）；→レイ又はインスタンスフラグ（レイフラグがＦｏｒｃｅＯｐａｑｕｅでない場合のみ）のいずれかで、非透明を保存する。
ｖｉｉｉ．ｆｌａｇ［３：２］＝ｒｔ＿ｒａｙ［０］．ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｆｌａｇ［３：２］；→（最初のヒットを受け付け、ＣｌｏｓｅｓｔＨｉｔシェーダを検索又はスキップする）ＢＶＨ［０］を保存する。
ｉｘ．ｆｌａｇ［５：４］＝Ｎｏｄｅ＿Ｒｅｔｕｒｎ．ｆｌａｇ［０］？２'ｄ０：ｒｔ＿ｒａｙ［０］．ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｆｌａｇ［５：４］；→インスタンスにより三角形間引きは無効である。
ｘ．ｆｌａｇ［８：６］＝ｒｔ＿ｒａｙ［０］．ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｆｌａｇ［８：６］；→（インターセクションシェーダの無効化、透明の間引き、又は非透明の間引き）ＢＶＨ［０］を保存する。
ｘｉ．ｎｏｄｅ．ｎｏｄｅ＿ｃｔｒｌ＝インスタンスには不要。
ｘｉｉ．ｎｏｄｅ．ｎｏｄｅ＿ｄａｔａ＝｛'０，ｎｏｄｅ＿ｒｔｎ．ｏｂｊ２ｗｏｒｌｄ＿ｐ，ｗｏｒｌｄ２ｏｂｊ＿ｖｚｙｘ｝。
Ｃ．クアッド：これはノードを以下のとおりに更新する。
ｉ．ｎｏｄｅ．ｎｏｄｅ＿ｃｔｒｌ＝｛ｎｏｄｅ＿ｒｔｎ．ｌｅａｆＤｅｓｃ．ｌａｓｔ，ｎｏｄｅ＿ｒｔｎ．ｌｅａｆＤｅｓｃ．ＰｒｉｍＩｎｄｅｘ１Ｄｅｌｔａ［１５：０］，ｎｏｄｅ＿ｒｔｎ．ｌｅａｆＤｅｓｃ．ＰｒｉｍＩｎｄｅｘ０［３１：０］，ｎｏｄｅ＿ｒｔｎ．ｓｈａｄｅｒ＿ｉｎｄｘ｝；
ｉｉ．ｎｏｄｅ．ｎｏｄｅ＿ｄａｔａ＝｛'０，Ｑｕａｄ＿ｍｏｄｅ，Ｊ［２：０］，Ｖ［３：０］｝；→Ｑｕａｄ＿ｍｏｄｅ＝ｎｏｄｅ＿ｒｔｎ．ｌｅａｆＤｅｓｃ．ＰｒｉｍＩｎｄｅｘ１Ｄｅｌｔａ［１５：０］！＝'０；

レイフラグ、インスタンスフラグ、ジオメトリフラグに基づいて、図５５Ａに示す透明／非透明取り扱いテーブルは、ノードデータのフェッチの際に使用される、結果としてのフラグ（透明又は非透明）を示す。テーブルに示すように、レイフラグは常に優先される。さらに、状態のいくつかは相互排他的である。１つの実施形態において、これらは専用ビットの優先順位により、ハードウェア内で取り扱われる。１つの実施態様において、ｃｕｌｌ＿ｏｐａｑｕｅ及びｆｏｒｃｅ＿ｏｐａｑｕｅの両方が設定されていると、関連するジオメトリが自動的に間引かれる。
透明＝ｒｔ＿ｒａｙ．ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｆｌａｇ［０］｜ｑｕａｄ．ｆｌａｇ［０］（なお、各ＢＶＨレベルに格納されたレイは、インスタンスフラグを既に考慮したものとなっている）
非透明＝ｒｔ＿ｒａｙ．ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｆｌａｇ［１］｜〜ｑｕａｄ．ｆｌａｇ［０］

図５５Ｂは、１つの実施形態に係る、レイフラグの取り扱い及び例外を示すテーブルである。ここで、間引きの判断は、レイフラグ、インスタンスフラグ、ジオメトリフラグの組み合わせに基づく。

マスクに基づく間引きは、１つの実施形態において以下のとおりに実施され得る。

図５５Ｃは、１つの実施形態に係る、最終的な間引きを示すテーブルである。（ｃｕｌｌ＿ｏｐａｑｕｅ及びｆｏｒｃｅ＿ｏｐａｑｕｅ）又は（ｃｕｌｌ＿ｎｏｎ＿ｏｐａｑｕｅ及びｆｏｒｃｅ＿ｎｏｎ＿ｏｐａｑｕｅ）のレイフラグは相互排他的である。しかしながら、この式で、レイフラグは透明／非透明を設定可能なインスタンスフラグにも対応している。間引きできるのはジオメトリのみで、インスタンス及びジオメトリは両方ともマスク可能である。

図５６に示すように、１つの実施形態において、上述の間引き及びｍａｓｋ＿ｋｉｌｌ設定の評価に基づいて、５６０１又は５６０２でアーリーアウトが判定され、結果が５６０３でノードストレージに、及び／又は５６０４でスタックに送信される。

ノードデータが準備完了となると、ボックス／インターセクションテストが行われ得る。これは１つの実施形態において、本明細書でＲａｙ＿Ｔｅｓｔ＿Ｐｒｏｃと称される処理により実現される。この処理では、２つの基本的な処理が同時に実行される。一方はクアッド／インスタンス（ＱＩ）を充填するためで、他方はボックス／インターセクションテストを実行するためである。図５７に示す１つの実施態様において、Ｒａｙ＿Ｔｅｓｔ＿Ｐｒｏｃにより優先選択ロジック（ＰＲＩＳＥＬ）５７０１〜５７０２の２つの並列インスタンスが起動される。即ち、バンク０からのクアッド／インスタンス５７１１及びバンク１からの第２クアッド／インスタンス５７１２の要求及びその間の選択のためのクアッド／インスタンスＰＲＩＳＥＬ５７０１と、バンク０５７１３からの内部ノード及びバンク１５７１４からの内部ノードの要求及びその間の選択のための内部ノードＰＲＩＳＥＬ５７０２である。

１つの実施形態において、クアッド／インスタンス優先選択ロジック５７０１は、第１ＱＩノード５７１１及び第２ＱＩノード５７１２のうちの１つを優先し、優先結果をさらなる処理（例えばインターセクションテスト）のためにレイトレーシングキュー（ＲＴＱ）に格納する。同様に、内部ノードＰＲＩＳＥＬロジック５７０２はレイトレーシングトラバーサル（ＲＴＴ）ボックステストが実行される内部ＢＶＨノード５７１３〜５７１４のうちの１つを優先する。１つの実施形態において、１つの要求のみが各バンクから選択される（例えば、要求５７１１及び５７１２のうちの１つと、要求５７１３及び５７１４のうちの１つ）。これら要求を発行することで、さらに示されたとおりスタックデータ存在（ＤＰ）ビットがリセットされ得、これによりこのエントリがノードフェッチオペレーションに応答して取得されないようになる。１つの実施形態において、インスタンスフェッチオペレーションに対して、レイのデータ存在（ＤＰ）ビットがインスタンス要求送信時にリセットされ、レイがノードフェッチ後に変換されると、最終的に設定される。

この処理の一部として、ノード種類が非透明である全てのクアッドテストディスパッチに対して、以下のシェーダレコード識別子ルックアップアドレスに基づき、バインドレススレッドディスパッチ（ＢＴＤ）として、シェーダレコード識別子ヌルルックアップがディスパッチされる。

１つの実施形態において、一時的スタックＦＩＦＯ充満状態を解消するため、及びスタックＦＩＦＯ（例えば、図６０のスタックＦＩＦＯ６００１参照）にプッシュすることで、ヒット情報／レイに同期的更新を実施するため、クアッド／インスタンス（ＱＩ）分離ＦＩＦＯが含まれる。これにより、レイ／ヒット情報にデータ存在（ＤＰ）ビットが後続の処理で設定されることが保証される。なお、メモリ書き込みに衝突する場合、固定高優先順位がレイ／ヒット情報に割り当てられ得ることに留意されたい。

ＲＴＱからのリターンは、２つの別個のインタフェース上のインスタンス（例えば、インスタンス変換）又はクアッド（つまり、トラバーサル／インターセクションテスト結果）に帰結し得る。１つの実施形態において、結果を処理するのに用いられる２つのリターンＦＩＦＯを以下に示す。
ａ．インスタンスリターンＦＩＦＯ：更新ｒｔ＿ｒａｙ．ｒｔ＿ｒａｙ＿ｄａｔａ＝ｒｔｑ＿ｒｔ＿ｒａｙ＿ｄａｔａ；ｒａｙ＿ｄｉｒｔｙ［Ｅｎｔｒｙ］＝１；
ｂ．クアッドリターンＦＩＦＯｉ．クアッドが非透明で、（Ｔ_ｆａｒ＜Ｐ_ｒｅｖ＿Ｔ_ｆａｒ）の場合→クアッド／インスタンス（ＱＩ）分離ＦＩＦＯからポップ（読み出し）するため、ＳＲＩ＿ＮＵＬＬ＿ＤＰを確認。なお、１つの実施形態において、レイトレーシングキュー（ＲＴＱ）ＦＩＦＯからのヒット情報書き込みは、メモリヒット情報よりも優先されることに留意されたい。
１．（ＫＳＰ＿ＮＵＬＬ＝１）であれば、非透明クアッドを透明であるように扱い、Ｔ_ｆａｒを更新。
２．（ＫＳＰ＿ＮＵＬＬ！＝１）であれば
・有効ビットを１に設定し、生じ得るヒット情報をメモリに書き込み。
・ＲＴＱからＴ、Ｕ、Ｖ、リーフ種類、ＰｒｉｍＬｅａｆＩｎｄｅｘ、フロントフェースを読み出し。
・ノードデータからＰｒｉｍＩｎｄｅｘＤｅｌｔａ、ＰｒｉｍｌｅａｆＰｔｒ読み出し。レイデータからのｉｎｓｔａｎｃｅＬｅａｆＰｔｒを更新。
・上述のとおり計算されたｈｉｔＧｒｏｕｐＲｅｃＰｔｒ
ｉｉ．クアッドが非透明で（Ｔ_ｆａｒ＜Ｐ_ｒｅｖ＿Ｔ_ｆａｒ）であれば
・有効＝１で、コミットされたヒット情報を更新。
・ＲＴＱからＴ、Ｕ、Ｖ、リーフ種類、ＰｒｉｍＬｅａｆＩｎｄｅｘ、フロントフェースを読み出し。
・ノードデータからＰｒｉｍＩｎｄｅｘＤｅｌｔａ、ＰｒｉｍｌｅａｆＰｔｒ読み出し。
・ｒｔ＿ｒａｙ．ｒｔ＿ｒａｙ＿ｃｔｒｌからのｉｎｓｔａｎｃｅＬｅａｆＰｔｒ更新
・上述のとおり計算されたｈｉｔＧｒｏｕｐＲｅｃＰｔｒ

１つの実施形態において、レイトレーシングトラバーサル（ＲＴＴ）ボックスインターセクションテストからのリターンが、さらなる処理のため、スタック０／１（５２０３／５２０４）ＦＩＦＯ６００１にプッシュされ得る。

図５８及び図５９Ａ〜図５９Ｂは、「短い」スタック（例えば、限定された数のローカルスタックエントリを含むスタック５２０３又は５２０４など）を使用したＢＶＨ−レイ処理の一例を示す。短いスタックは、高度なノード管理技術と組み合わせて高速ストレージを維持するために使用される。これにより、高効率な一連のトラバーサルオペレーションが実現される。図示の例では、短いスタック５２０３は６個のＢＶＨノードに対するエントリを含む。ただし、本発明の基本的原理は、様々なサイズの短いスタックを利用して実現され得る。

オペレーション５９４９〜５９７２により、ＢＶＨトラバーサル時に、スタックエントリがプッシュ及びポップされる。１つの実施形態において、スタック処理回路５１２０によりオペレーション５９４９〜５９７２がスタック５２０３に実行される（図５１参照）。ＢＶＨレベル０で、ルートＢＶＨノードＮ５９００から開始する特定のトラバーサルシーケンスが示される。

５９４９で、スタック５２０３はノードＮで初期化され、その後スタックからポップし、処理される。その結果、ＢＶＨのレベル１で子ノードＮ０〜Ｎ２（５９０１〜５９０３）を含むヒットＨ０〜Ｈ２となる（つまり「ヒット」とは、レイが３つの子ノードＮ０〜Ｎ２（５９０１〜５９０３）をトラバースすることを意味する）。ヒット距離に基づいて３つの子ノードヒット５９０１〜５９０３がソートされ、ソート順でスタック５２０３にプッシュされる（オペレーション５９５０）。したがって、本実施形態において、新しい子ノードのセットが評価されるたびに、ヒット距離に基づいてそれらはソートされ、ソート順でスタック５２０３に書き込まれる（つまり、より近い子ノードがスタックの先頭に来る）。

第１子ノードＮ０（５９０１）（つまり、最も近い子ノード）がスタック５２０３からポップされて処理されると、ＢＶＨのレベル２（「レベル」はＢＶＨノードの「デプス」と呼ばれることがある）でさらに３つの子ノードヒットＮ００〜Ｎ０２（５９１１〜５９１３）が得られ、これらはソートされてスタック５２０３にプッシュされる（オペレーション５９５１）。

子ノードＮ００（５９１１）がスタックからポップし処理されて、ＢＶＨのレベル３で単一の子ノードＮ０００（５９２０）を含む単一のヒットが得られる（オペレーション５９５２）。このノードがポップし処理されると、レベル４で６つのヒットＮ００００〜Ｎ０００５（５９３１〜５９３６）が得られ、これらがソートされてスタック５２０３にプッシュされる（オペレーション５９５３）。短いスタック５２０３内にスペースを作るため、示されたとおり、ノードＮ１、Ｎ２、Ｎ０２、Ｎ０１が除去される（つまり、短いスタックを６つのエントリに限定する）。第１のソートされたノードＮ００００（５９３１）がポップし処理されて、ＢＶＨのレベル５で３つのヒットＮ０００００〜Ｎ００００２（５９３１〜５９３３）が生成される（オペレーション５９５４）。なお、短いスタック５２０３に新しいノードのスペースを作るよう、Ｎ０００５が除去されることに留意されたい。

１つの実施形態において、ノードが短いスタック５２０３から除去されるたびに、それをメモリに保存し直す。そして後で（例えば、トラバーサルオペレーションに応じて当該ノードを処理する際に）再度短いスタック５２０３に再ロードされることになる。

処理は図５９Ａに続く。ここではＢＶＨのレベル５でノードＮ００００１及びＮ００００２がポップし、処理される（オペレーション５９５５〜５９５６）。その後、レベル４のノードＮ０００１、Ｎ０００２、Ｎ０００３、Ｎ０００４がポップし処理されて（オペレーション５９５７〜５９６０）、短いスタック５２０３が空になる。

したがって、ポップオペレーションにより、リスタートトレイル（ＲＳＴ）に応じてルートＢＶＨノード、ノードＮが取得されることとなる（オペレーション５９６１）。レベル１からの３つの子ヒットＮ０、Ｎ１、Ｎ２が再度ソートされ、短いスタックにプッシュされる（オペレーション５９６２）。その後ノードＮ０がポップし処理されて、ノードＮ００、Ｎ０００、Ｎ０００５が続く（オペレーション５９６３〜５９６５）。ノードＮ０１がポップし処理されて（オペレーション５９６６）、ノードＮ０２、ノードＮ２、ノードＮ１が続く（オペレーション５９６７〜５９７０）。その結果、再度短いスタックが空になる。その結果として、次のレベル２ノードで、Ｎ１１が短いスタックからポップされ、処理されて、トラバーサルが完了する（つまり、ノードＮ１１の結果がヒットにならなかったため）。

すでに述べたように、トラバーサル追跡部５２４８の１つの実施形態は、現在トラバース中のＢＶＨ階層の各レベルの子ノード／部分木を識別する追跡アレイ５２４９を更新する。１つの実施態様において、追跡アレイ５２４９の長さはＢＶＨのデプスに等しく（図示の例では６）、追跡アレイ５２４９内の各エントリは現在トラバース中の子部分木を識別するインデックス値を含む。１つの特定の実施態様において、Ｎ幅のＢＶＨ（つまり、各内部ノードがＮ個の子ノードを参照する）について、追跡アレイ５２４９内の各エントリが子ノード／部分木を識別するｌｏｇ２（Ｎ）ビット値を含む。１つの実施形態において、現在の子インデックスよりも小さなインデックスが割り当てられた子ノード／部分木は完全にトラバースされているので、再開の場合に再度取り上げられることはない。１つの実施形態において、最後に交差される子がトラバースされている際、その子インデックスは最大値に設定され、スタック上にこれ以上エントリがないことが示される。

短いトラバーサルスタック５２０３は、円形アレイのスタックの、上から数個のエントリを格納し得る。１つの実施態様において、短いトラバーサルスタック５２０３内の各スタックエントリは、ノードへのオフセット、ノードの種類（内部、プリミティブ、インスタンスなど）などのその他情報、及びこの子が親ノード内で最後の（最も遠い）交差子ノードであるかを示す１つのビットを含む。しかしながら、これら具体的な詳細は、本発明の基本的原理に準拠するのに必要なものではない。

図６０は、上述のスタック管理及びトラバーサルオペレーションを行うためのスタック処理回路／ロジック５１２０の１つの実施形態を示す。スタックＦＩＦＯ６００１には、処理を必要とする任意の子ＢＶＨノード６０００がロードされる。例えば、トラバーサル処理回路５２１０がボックステスト又はクアッドテストを完了すると、結果はスタックＦＩＦＯ６００１にプッシュされ、スタック５２０３の更新に使用される。これは、例えば特定のヒットに関連する子ノード６０００のセットなどのヒット情報を更新することを含み得る。

スタック処理回路／ロジック６００３は、ＢＶＨノードが内部ノード又はリーフノードであるかを示すものと、関連するインデックスデータとを含む、各エントリを処理するのに必要なデータとともに、スタック５２０３からエントリを読み出す。ノードがリーフノード／クアッドであれば、データはクアッド記述子、インデックス、及びシェーダインデックスデータを含み得る。その後、スタック処理回路／ロジック６００３は、ヒットに関連する新しいノードを識別する、及びヒット距離に基づいてノードをソートするなど、本明細書に記載のスタック処理オペレーションを実行する。スタック処理回路／ロジック６００３は別個のエンティティとして図示されているが、トラバーサル回路５１０２内に統合してもよい。

示されたとおり、スタック処理回路／ロジック６００３はスタック５２０３からの各ＢＶＨノードの処理が完了すると、スタック更新６０１１を生成する。例えば、スタック５２０３からのエントリ読み出し後、データ存在（ＤＰ）ビット及び有効（ＶＬＤ）ビットなどの様々な制御ビットが更新され得る。図６０は、追い出し準備完了及びデータ存在ビット６０１０が設定されたことを示す。スタック５２０３に、対応するスタック更新６０１１も送信され得る（例えば、新しい子ノードのスペースを作るように古いエントリが除去されることを可能にする）。

スタック更新は、調整回路６０１２を介して制御され得る。当該回路は、現在の処理更新６０１１でスタック５２０３を更新すること、メモリからのスタック５２０３を１つ又は複数の新しいＢＶＨ子ノードで埋めること（ＭｅｍＦｉｌｌ）、メモリからのスタックに初期割り当てを行うこと（例えば、ルートノード及び１つ又は複数の子ノードから始まる）から選択する。

１つの実施形態において、スタック上でクアッド／インスタンス／内部ノードが処理されると、以下のオペレーションのうちの１つ又は複数が行われ得る。
１．新しいＢＶＨに対してインスタンスを下に移動するなど複数の条件、ヒットプロシージャルの処理、ａｎｙ−ｈｉｔシェーダなどによる、スタックエントリの追い出し。
２．ヒットプロシージャル及び／又はａｎｙ−ｈｉｔシェーダによりスタックが追い出された場合に、レイエントリ割り当て解除。
３．そのスタックがヒットプロシージャル及び／又はａｎｙ−ｈｉｔシェーダにより追い出された場合、キャッシュエントリ割り当て解除。
４．インスタンスリーフを介して新しいＢＶＨにレイが送られる必要がある場合に、レイ制御（ＢＶＨのみ）を更新。

図６１Ａ〜図６１Ｂは、全てのレイトレーシングトラバーサル構造に対して、読み出し／書き込みポートを構成し、制御ビットを設定するためのテーブルを示す。具体的には、例示低サブ構造、垂直構造、及び読み出し／書き込み動作が、レイ６１０１、ヒット６１０２、スタック６１０３について示されている。しかしながら、本発明の基本的原理は、これらの具体的なデータ構造／オペレーションに限定されることはないことに留意されたい。

［実施例］

以下は、本発明の異なる実施形態の例示的な実施態様である。

実施例１。
ルートノードと、複数の内部ノードと、プリミティブを含む複数のリーフノードとを含む、階層的に配置された複数のノードを含むバウンディングボリューム階層（ＢＶＨ）を構築するためのＢＶＨ生成部であって、各内部ノードが上記ルートノード又は別の内部ノードへの子ノードを含み、各リーフノードが内部ノードへの子ノードを含む、ＢＶＨ生成部と、第１の複数のエントリとして配置される第１格納バンクと、第２の複数のエントリとして配置される第２格納バンクであって、上記第１の複数のエントリ及び上記第２の複数のエントリの各エントリが上記ＢＶＨをトラバースするレイを格納する、第２格納バンクと、入射レイを、上記第１格納バンク及び上記第２格納バンクに現在格納されているレイの相対数に基づいて、上記第１格納バンク又は上記第２格納バンクのいずれかに分配するための割当回路と、上記第１格納バンク及び上記第２格納バンクから交互に次のレイを選択するトラバーサル回路であって、前記トラバーサル回路は、ＢＶＨノードスタックの先頭から次のＢＶＨノードを読み出し、且つ上記次のレイが上記次のＢＶＨノードに交差するかを判定することによって、上記次のレイを上記ＢＶＨにトラバースする、トラバーサル回路とを備える装置。

実施例２。
上記第１格納バンクに現在格納されている第１の数のレイと、上記第２格納バンクに現在格納されている第２の数のレイとを追跡するためのバンク監視回路をさらに備える、実施例１に記載の装置。

実施例３。
上記バンク監視回路は、上記割当回路により上記第１格納バンクにレイが加えられたことに応じてインクリメントされ、上記トラバーサル回路により上記第１格納バンクからレイが読み出されたことに応じてデクリメントされる第１カウンタと、上記割当回路により上記第２格納バンクにレイが加えられたことに応じてインクリメントされ、上記トラバーサル回路により上記第２格納バンクからレイが読み出されたことに応じてデクリメントされる第２カウンタとをさらに備える、実施例２に記載の装置。

実施例４。
上記割当回路は上記入射レイを、上記第１カウンタ及び上記第２カウンタの相対値に基づいて、上記第１格納バンク又は上記第２格納バンクのいずれかに分配する、実施例３に記載の装置。

実施例５。
上記ＢＶＨノードスタックは第１のＢＶＨノードスタックを含み、上記第１のＢＶＨノードスタックは、上記第１の複数の子ノードの親ノードにヒットしたレイに関連する第１の複数の内部子ノードを格納し、上記装置は、第２の複数の内部子ノード及び／又はリーフノードを格納するための第２のＢＶＨノードスタックをさらに備える、実施例１に記載の装置。

実施例６。
上記第１の複数の内部子ノード及び上記第２の複数の内部子ノードは、各内部子ノードと、上記次のレイに関連する座標値との間の距離に基づいて、上記第１のＢＶＨノードスタック及び上記第２のＢＶＨノードスタック上に順序付けされる、実施例５に記載の装置。

実施例７。
上記第１のＢＶＨノードスタックは、上記第１格納バンクの上記第１の複数のエントリのうちの１つ又は複数に格納され、上記第２のＢＶＨノードスタックは、上記第２格納バンクの上記第２の複数のエントリのうちの１つ又は複数に格納される、実施例５に記載の装置。

実施例８。
上記ＢＶＨノードスタックはＮ個のエントリを含み、Ｎは上記ＢＶＨのノード数未満である、実施例１に記載の装置。

実施例９。
上記トラバーサル回路が、上記ＢＶＨノードスタックの上記先頭から読み出された各ＢＶＨノードに対して、上記次のレイを処理したことに応じて、追跡アレイを更新するためのトラバーサル追跡回路をさらに備える、実施例８に記載の装置。

実施例１０。
上記トラバーサル回路は、シェーダの実行に応じて現在のトラバーサル状態をメモリに保存し、上記現在のトラバーサル状態は、上記第１の複数のエントリと、上記第２の複数のエントリと、上記ＢＶＨノードスタックとを含む、実施例９に記載の装置。

実施例１１。
上記トラバーサル回路は、メモリから上記現在のトラバーサル状態を復元してトラバーサルオペレーションを再開し、上記トラバーサル回路は、上記追跡アレイを読み出して、上記トラバーサルオペレーションを再開する開始点を判定する、実施例１０に記載の装置。

実施例１２。
上記次のレイが上記次のＢＶＨノードに交差する場合、上記次のＢＶＨノードの複数の子ノードを、距離値に基づいてソートすることで、ソート順を生成し、上記ＢＶＨノードスタック内に、上記複数の子ノードを上記ソート順に格納する、実施例１１に記載の装置。

実施例１３。
ルートノードと、複数の内部ノードと、プリミティブを含む複数のリーフノードとを含む、階層的に配置された複数のノードを含むバウンディングボリューム階層（ＢＶＨ）を生成する段階であって、各内部ノードが上記ルートノード又は別の内部ノードへの子ノードを含み、各リーフノードが内部ノードへの子ノードを含む、生成する段階と、第１格納バンク内に第１の複数のエントリを構成する段階と、第２格納バンク内に第２の複数のエントリを構成する段階であって、上記第１の複数のエントリ及び上記第２の複数のエントリの各エントリが上記ＢＶＨをトラバースするレイを格納する、構成する段階と、入射レイを、上記第１格納バンク及び上記第２格納バンクに現在格納されているレイの相対数に基づいて、上記第１格納バンク又は上記第２格納バンクのいずれかに分配する段階と、上記第１格納バンク及び上記第２格納バンクを交互に切り替えることによって、トラバーサル処理を行うために次のレイを選択する段階と、ＢＶＨノードスタックの先頭から次のＢＶＨノードをポップする段階と、上記次のレイが上記次のＢＶＨノードに交差するかを判定する段階とを含む方法。

実施例１４。
上記第１格納バンクに現在格納されている第１の数のレイと、上記第２格納バンクに現在格納されている第２の数のレイとを追跡する段階をさらに含む、実施例１３に記載の方法。

実施例１５。
追跡する段階は、上記第１格納バンクにレイが加えられたことに応じて第１カウンタをインクリメントし、上記第１格納バンクからレイが読み出されたことに応じてデクリメントされる段階と、上記第２格納バンクにレイが加えられたことに応じて第２カウンタをインクリメントし、上記第２格納バンクからレイが読み出されたことに応じてデクリメントされる段階とをさらに含む、実施例１４に記載の方法。

実施例１６。
上記入射レイは、上記第１カウンタ及び上記第２カウンタの相対値に基づいて、上記第１格納バンク又は上記第２格納バンクのいずれかに分配される、実施例１５に記載の方法。

実施例１７。
上記ＢＶＨノードスタックは第１のＢＶＨノードスタックを含み、上記第１のＢＶＨノードスタックは、上記第１の複数の子ノードの親ノードにヒットしたレイに関連する第１の複数の内部子ノードを格納し、上記方法は、第２の複数の内部子ノード及び／又はリーフノードを第２のＢＶＨノードスタックに格納する段階をさらに含む、実施例１３に記載の方法。

実施例１８。
上記第１の複数の内部子ノード及び上記第２の複数の内部子ノードは、各内部子ノードと、上記次のレイに関連する座標値との間の距離に基づいて、上記第１のＢＶＨノードスタック及び上記第２のＢＶＨノードスタック上に順序付けされる、実施例１７に記載の方法。

実施例１９。
上記第１のＢＶＨノードスタックは、上記第１格納バンクの上記第１の複数のエントリのうちの１つ又は複数に格納され、上記第２のＢＶＨノードスタックは、上記第２格納バンクの上記第２の複数のエントリのうちの１つ又は複数に格納される、実施例１７に記載の方法。

実施例２０。
上記ＢＶＨノードスタックはＮ個のエントリを含み、Ｎは上記ＢＶＨのノード数未満である、実施例１３に記載の方法。

実施例２１。
上記次のＢＶＨノードと、上記ＢＶＨノードスタックの上記先頭から読み出された各追加のＢＶＨノードとに対して、上記次のレイを処理したことに応じて、追跡アレイを更新する段階をさらに含む、実施例２０に記載の方法。

実施例２２。
シェーダの実行に応じて現在のトラバーサル状態をメモリに保存する段階であって、上記現在のトラバーサル状態は、上記第１の複数のエントリと、上記第２の複数のエントリと、上記ＢＶＨノードスタックとを含む、保存する段階をさらに含む、実施例２１に記載の方法。

実施例２３。
メモリから上記現在のトラバーサル状態を復元してトラバーサルオペレーションを再開する段階と、上記追跡アレイを読み出して、上記トラバーサルオペレーションを再開する開始点を判定する段階とをさらに含む、実施例２２に記載の方法。

実施例２４。
上記次のレイが上記次のＢＶＨノードに交差する場合、上記次のＢＶＨノードの複数の子ノードを、距離値に基づいてソートすることで、ソート順を生成し、上記ＢＶＨノードスタック内に、上記複数の子ノードを上記ソート順に格納する、実施例２３に記載の方法。

実施例２５。
機械により実行されると、ルートノードと、複数の内部ノードと、プリミティブを含む複数のリーフノードとを含む、階層的に配置された複数のノードを含むバウンディングボリューム階層（ＢＶＨ）を生成するオペレーションであって、各内部ノードが上記ルートノード又は別の内部ノードへの子ノードを含み、各リーフノードが内部ノードへの子ノードを含む、生成するオペレーションと、第１格納バンク内に第１の複数のエントリを構成するオペレーションと、第２格納バンク内に第２の複数のエントリを構成するオペレーションであって、上記第１の複数のエントリ及び上記第２の複数のエントリの各エントリが上記ＢＶＨをトラバースするレイを格納する、構成するオペレーションと、入射レイを、上記第１格納バンク及び上記第２格納バンクに現在格納されているレイの相対数に基づいて、上記第１格納バンク又は上記第２格納バンクのいずれかに分配するオペレーションと、上記第１格納バンク及び上記第２格納バンクを交互に切り替えることによって、トラバーサル処理を行うために次のレイを選択するオペレーションと、ＢＶＨノードスタックの先頭から次のＢＶＨノードをポップするオペレーションと、上記次のレイが上記次のＢＶＨノードに交差するかを判定するオペレーションとを上記機械に行わせるプログラムコードを格納した機械可読媒体。

実施例２６。
本機械可読媒体はさらに、上記第１格納バンクに現在格納されている第１の数のレイと、上記第２格納バンクに現在格納されている第２の数のレイとを追跡するためのオペレーションを上記機械に行わせるプログラムコードを含む、実施例２５に記載の機械可読媒体。

実施例２７。
上記追跡するオペレーションは、上記第１格納バンクにレイが加えられたことに応じて第１カウンタをインクリメントし、上記第１格納バンクからレイが読み出されたことに応じてデクリメントされる段階と、上記第２格納バンクにレイが加えられたことに応じて第２カウンタをインクリメントし、上記第２格納バンクからレイが読み出されたことに応じてデクリメントされる段階とをさらに含む、実施例２６に記載の機械可読媒体。

実施例２８。
上記入射レイは、上記第１カウンタ及び上記第２カウンタの相対値に基づいて、上記第１格納バンク又は上記第２格納バンクのいずれかに分配される、実施例２７に記載の機械可読媒体。

実施例２９。
上記ＢＶＨノードスタックは第１のＢＶＨノードスタックを含み、上記第１のＢＶＨノードスタックは、上記第１の複数の子ノードの親ノードにヒットしたレイに関連する第１の複数の内部子ノードを格納し、本機械可読媒体はさらに、第２の複数の内部子ノード及び／又はリーフノードを第２のＢＶＨノードスタックに格納するためのオペレーションを上記機械に行わせるプログラムコードを含む、実施例２５に記載の機械可読媒体。

実施例３０。
上記第１の複数の内部子ノード及び上記第２の複数の内部子ノードは、各内部子ノードと、上記次のレイに関連する座標値との間の距離に基づいて、上記第１のＢＶＨノードスタック及び上記第２のＢＶＨノードスタック上に順序付けされる、実施例２９に記載の機械可読媒体。

実施例３１。
上記第１のＢＶＨノードスタックは、上記第１格納バンクの上記第１の複数のエントリのうちの１つ又は複数に格納され、上記第２のＢＶＨノードスタックは、上記第２格納バンクの上記第２の複数のエントリのうちの１つ又は複数に格納される、実施例２９に記載の機械可読媒体。

実施例３２。
上記ＢＶＨノードスタックはＮ個のエントリを含み、Ｎは上記ＢＶＨのノード数未満である、実施例２５に記載の機械可読媒体。

実施例３３。
本機械可読媒体はさらに、上記次のＢＶＨノードと、上記ＢＶＨノードスタックの上記先頭から読み出された各追加のＢＶＨノードとに対して、上記次のレイを処理したことに応じて、追跡アレイを更新するためのオペレーションを上記機械に行わせるプログラムコードを含む、実施例３２に記載の機械可読媒体。

実施例３４。
本機械可読媒体はさらに、シェーダの実行に応じて現在のトラバーサル状態をメモリに保存するオペレーションであって、上記現在のトラバーサル状態は、上記第１の複数のエントリと、上記第２の複数のエントリと、上記ＢＶＨノードスタックとを含む、保存するオペレーションを上記機械に行わせるプログラムコードを含む、実施例３３に記載の機械可読媒体。

実施例３５。
本機械可読媒体はさらに、メモリから上記現在のトラバーサル状態を復元し、トラバーサルオペレーションを再開するオペレーションと、上記追跡アレイを読み出して、上記トラバーサルオペレーションを再開する開始点を判定するオペレーションとを上記機械に行わせるプログラムコードを含む、実施例３４に記載の機械可読媒体。

実施例３６。
上記次のレイが上記次のＢＶＨノードに交差する場合、上記次のＢＶＨノードの複数の子ノードを、距離値に基づいてソートすることで、ソート順を生成し、上記ＢＶＨノードスタック内に、上記複数の子ノードを上記ソート順に格納する、実施例３５に記載の機械可読媒体。

本発明の実施形態が、上述された様々な段階を含んでよい。これらの段階は、汎用プロセッサ又は専用プロセッサにこれらの段階を実行させるのに用いられ得る機械実行可能命令で具現化されてよい。あるいは、これらの段階は、これらの段階を行うためのハードワイヤードロジックを含む特定のハードウェアコンポーネントによって、又はプログラム済みコンピュータコンポーネントとカスタムハードウェアコンポーネントとの任意の組み合わせによって実行されてよい。

本明細書で説明されたように、命令は、特定のオペレーションを行うように構成された、若しくは予め定められた機能を有する特定用途向け集積回路（ＡＳＩＣ）などのハードウェアの特定の構成、又は非一時的コンピュータ可読媒体に具現化されるメモリに格納されたソフトウェア命令のことを指してよい。したがって、図に示す技術は、１つ又は複数の電子デバイス（例えば、エンドステーション、ネットワークエレメントなど）に格納され、そこで実行されるコード及びデータを用いて実装され得る。そのような電子デバイスは、コンピュータ機械可読媒体を用いてコード及びデータを格納し、（内部で、及び／又はネットワークを介して他の電子デバイスと）通信する。コンピュータ機械可読媒体には、非一時的コンピュータ機械可読記憶媒体（例えば、磁気ディスク、光ディスク、ランダムアクセスメモリ、リードオンリメモリ、フラッシュメモリデバイス、相変化メモリ）、一時的コンピュータ機械可読通信媒体（例えば、電気信号、光信号、音響信号、又は他の形態の伝搬信号、例えば、搬送波、赤外線信号、デジタル信号など）などがある。

さらに、そのような電子デバイスは通常、１つ又は複数の記憶デバイス（非一時的な機械可読記憶媒体）、ユーザ入力／出力デバイス（例えば、キーボード、タッチスクリーン、及び／又はディスプレイ）、及びネットワーク接続などの１つ又は複数の他のコンポーネントに連結される１つ又は複数のプロセッサのセットを含む。これらのプロセッサのセットと他のコンポーネントとの連結は通常、１つ又は複数のバス及びブリッジ（バスコントローラとも呼ばれる）を介している。記憶デバイスとネットワークトラフィックを搬送する信号とはそれぞれ、１つ又は複数の機械可読記憶媒体と機械可読通信媒体とを表す。したがって、所与の電子デバイスの記憶デバイスは通常、当該電子デバイスの１つ又は複数のプロセッサのセットで実行するためのコード及び／又はデータを格納する。もちろん、本発明の一実施形態の１つ又は複数の部分が、ソフトウェア、ファームウェア、及び／又はハードウェアの異なる組み合わせを用いて実装されてもよい。この詳細な説明の全体を通して、説明のために、数多くの具体的な詳細が、本発明の十分な理解を提供するために記載された。しかしながら、これらの具体的な詳細の一部がなくても本発明は実施され得ることが、当業者には明らかであろう。特定の例においては、本発明の主題を曖昧にしないように、よく知られた構造及び機能が十分詳細に説明されなかった。したがって、本発明の範囲及び趣旨は、続く特許請求の範囲によって判断されるべきである。
（項目１）
ルートノードと、複数の内部ノードと、プリミティブを含む複数のリーフノードとを含む、階層的に配置された複数のノードを含むバウンディングボリューム階層（ＢＶＨ）を構築するためのＢＶＨ生成部であって、各内部ノードが上記ルートノード又は別の内部ノードへの子ノードを含み、各リーフノードが内部ノードへの子ノードを含む、ＢＶＨ生成部と、
第１の複数のエントリとして配置される第１格納バンクと、
第２の複数のエントリとして配置される第２格納バンクであって、上記第１の複数のエントリ及び上記第２の複数のエントリの各エントリが上記ＢＶＨをトラバースするレイを格納する、第２格納バンクと、
入射レイを、上記第１格納バンク及び上記第２格納バンクに現在格納されているレイの相対数に基づいて、上記第１格納バンク又は上記第２格納バンクのいずれかに分配するための割当回路と、
上記第１格納バンク及び上記第２格納バンクから交互に次のレイを選択するトラバーサル回路であって、前記トラバーサル回路は、ＢＶＨノードスタックの先頭から次のＢＶＨノードを読み出し、且つ上記次のレイが上記次のＢＶＨノードに交差するかを判定することによって、上記次のレイを上記ＢＶＨにトラバースする、トラバーサル回路と
を備える装置。
（項目２）
上記第１格納バンクに現在格納されている第１の数のレイと、上記第２格納バンクに現在格納されている第２の数のレイとを追跡するためのバンク監視回路をさらに備える、項目１に記載の装置。
（項目３）
上記バンク監視回路は、
上記割当回路により上記第１格納バンクにレイが加えられたことに応じてインクリメントされ、上記トラバーサル回路により上記第１格納バンクからレイが読み出されたことに応じてデクリメントされる第１カウンタと、
上記割当回路により上記第２格納バンクにレイが加えられたことに応じてインクリメントされ、上記トラバーサル回路により上記第２格納バンクからレイが読み出されたことに応じてデクリメントされる第２カウンタと
をさらに備える、項目２に記載の装置。
（項目４）
上記割当回路は上記入射レイを、上記第１カウンタ及び上記第２カウンタの相対値に基づいて、上記第１格納バンク又は上記第２格納バンクのいずれかに分配する、項目３に記載の装置。
（項目５）
上記ＢＶＨノードスタックは第１のＢＶＨノードスタックを含み、上記第１のＢＶＨノードスタックは、上記第１の複数の子ノードの親ノードにヒットしたレイに関連する第１の複数の内部子ノードを格納し、
上記装置は、第２の複数の内部子ノード及び／又はリーフノードを格納する第２のＢＶＨノードスタックをさらに備える、項目１に記載の装置。
（項目６）
上記内部子ノードは、各内部子ノードと、上記次のレイに関連する座標値との間の距離に基づいて、上記スタック上に順序付けされる、項目５に記載の装置。
（項目７）
上記第１のＢＶＨノードスタックは、上記第１格納バンクの上記第１の複数のエントリのうちの１つ又は複数に格納され、上記第２のＢＶＨノードスタックは、上記第２格納バンクの上記第２の複数のエントリのうちの１つ又は複数に格納される、項目５に記載の装置。
（項目８）
上記ＢＶＨノードスタックはＮ個のエントリを含み、Ｎは上記ＢＶＨのノード数未満である、項目１に記載の装置。
（項目９）
上記ＢＶＨノードスタックの上記先頭から読み出された各ＢＶＨノードに対して、上記トラバーサル回路が上記次のレイを処理したことに応じて、追跡アレイを更新するための、トラバーサル追跡回路をさらに備える、項目８に記載の装置。
（項目１０）
上記トラバーサル回路は、シェーダの実行に応じて現在のトラバーサル状態をメモリに保存し、上記現在のトラバーサル状態は、上記第１の複数のエントリと、上記第２の複数のエントリと、上記ＢＶＨノードスタックとを含む、項目９に記載の装置。
（項目１１）
上記トラバーサル回路は、メモリから上記現在のトラバーサル状態を復元してトラバーサルオペレーションを再開し、上記トラバーサル回路は、上記追跡アレイを読み出して、上記トラバーサルオペレーションを再開する開始点を判定する、項目１０に記載の装置。
（項目１２）
上記次のレイが上記次のＢＶＨノードに交差する場合、上記次のＢＶＨノードの複数の子ノードを、距離値に基づいてソートすることで、ソート順を生成し、上記ＢＶＨノードスタック内に、上記複数の子ノードを上記ソート順に格納する、項目１１に記載の装置。
（項目１３）
ルートノードと、複数の内部ノードと、プリミティブを含む複数のリーフノードとを含む、階層的に配置された複数のノードを含むバウンディングボリューム階層（ＢＶＨ）を生成する段階であって、各内部ノードが上記ルートノード又は別の内部ノードへの子ノードを含み、各リーフノードが内部ノードへの子ノードを含む、生成する段階と、
第１格納バンク内に第１の複数のエントリを構成する段階と、
第２格納バンク内に第２の複数のエントリを構成する段階であって、上記第１の複数のエントリ及び上記第２の複数のエントリの各エントリが上記ＢＶＨをトラバースするレイを格納する、構成する段階と、
入射レイを、上記第１格納バンク及び上記第２格納バンクに現在格納されているレイの相対数に基づいて、上記第１格納バンク又は上記第２格納バンクのいずれかに分配する段階と、
上記第１格納バンク及び上記第２格納バンクを交互に切り替えることによって、トラバーサル処理を行うために次のレイを選択する段階と、
ＢＶＨノードスタックの先頭から次のＢＶＨノードをポップする段階と、
上記次のレイが上記次のＢＶＨノードに交差するかを判定する段階と
を含む方法。
（項目１４）
上記第１格納バンクに現在格納されている第１の数のレイと、上記第２格納バンクに現在格納されている第２の数のレイとを追跡する段階をさらに含む、項目１３に記載の方法。
（項目１５）
追跡する段階は、
上記第１格納バンクにレイが加えられたことに応じて第１カウンタをインクリメントし、上記第１格納バンクからレイが読み出されたことに応じてデクリメントされる段階と、
上記第１格納バンクにレイが加えられたことに応じて第２カウンタをインクリメントし、上記第１格納バンクからレイが読み出されたことに応じてデクリメントされる段階と
をさらに含む、項目１４に記載の方法。
（項目１６）
上記入射レイは、上記第１カウンタ及び上記第２カウンタの相対値に基づいて、上記第１格納バンク又は上記第２格納バンクのいずれかに分配される、項目１５に記載の方法。
（項目１７）
上記ＢＶＨノードスタックは第１のＢＶＨノードスタックを含み、上記第１のＢＶＨノードスタックは、上記第１の複数の子ノードの親ノードにヒットしたレイに関連する第１の複数の内部子ノードを格納し、
上記方法は、第２の複数の内部子ノード及び／又はリーフノードを第２のＢＶＨノードスタックに格納する段階をさらに含む、項目１３に記載の方法。
（項目１８）
上記内部子ノードは、各内部子ノードと、上記次のレイに関連する座標値との間の距離に基づいて、上記スタック上に順序付けされる、項目１７に記載の方法。
（項目１９）
上記第１のＢＶＨノードスタックは、上記第１格納バンクの上記第１の複数のエントリのうちの１つ又は複数に格納され、上記第２のＢＶＨノードスタックは、上記第２格納バンクの上記第２の複数のエントリのうちの１つ又は複数に格納される、項目１７に記載の方法。
（項目２０）
上記ＢＶＨノードスタックはＮ個のエントリを含み、Ｎは上記ＢＶＨのノード数未満である、項目１３に記載の方法。
（項目２１）
上記次のＢＶＨノードと、上記ＢＶＨノードスタックの上記先頭から読み出された各追加のＢＶＨノードとに対して、上記次のレイを処理したことに応じて、追跡アレイを更新する段階をさらに含む、項目２０に記載の方法。
（項目２２）
シェーダの実行に応じて現在のトラバーサル状態をメモリに保存する段階であって、上記現在のトラバーサル状態は、上記第１の複数のエントリと、上記第２の複数のエントリと、上記ＢＶＨノードスタックとを含む、保存する段階をさらに含む、項目２１に記載の方法。
（項目２３）
メモリから上記現在のトラバーサル状態を復元してトラバーサルオペレーションを再開する段階と、
上記追跡アレイを読み出して、上記トラバーサルオペレーションを再開する開始点を判定する段階と
をさらに含む、項目２２に記載の方法。
（項目２４）
上記次のレイが上記次のＢＶＨノードに交差する場合、上記次のＢＶＨノードの複数の子ノードを、距離値に基づいてソートすることで、ソート順を生成し、上記ＢＶＨノードスタック内に、上記複数の子ノードを上記ソート順に格納する、項目２３に記載の方法。
（項目２５）
機械により実行されると、
ルートノードと、複数の内部ノードと、プリミティブを含む複数のリーフノードとを含む、階層的に配置された複数のノードを含むバウンディングボリューム階層（ＢＶＨ）を生成するオペレーションであって、各内部ノードが上記ルートノード又は別の内部ノードへの子ノードを含み、各リーフノードが内部ノードへの子ノードを含む、生成するオペレーションと、
第１格納バンク内に第１の複数のエントリを構成するオペレーションと、
第２格納バンク内に第２の複数のエントリを構成するオペレーションであって、上記第１の複数のエントリ及び上記第２の複数のエントリの各エントリが上記ＢＶＨをトラバースするレイを格納する、構成するオペレーションと、
入射レイを、上記第１格納バンク及び上記第２格納バンクに現在格納されているレイの相対数に基づいて、上記第１格納バンク又は上記第２格納バンクのいずれかに分配するオペレーションと、
上記第１格納バンク及び上記第２格納バンクを交互に切り替えることによって、トラバーサル処理を行うために次のレイを選択するオペレーションと、
ＢＶＨノードスタックの先頭から次のＢＶＨノードをポップするオペレーションと、
上記次のレイが上記次のＢＶＨノードに交差するかを判定するオペレーションと
を上記機械に行わせるプログラムコードを格納した機械可読媒体。
（項目２６）
上記機械可読媒体はさらに、上記第１格納バンクに現在格納されている第１の数のレイと、上記第２格納バンクに現在格納されている第２の数のレイとを追跡するオペレーションを上記機械に行わせるプログラムコードを含む、項目２５に記載の機械可読媒体。
（項目２７）
追跡するオペレーションは、
上記第１格納バンクにレイが加えられたことに応じて第１カウンタをインクリメントし、上記第１格納バンクからレイが読み出されたことに応じてデクリメントされる段階と、
上記第１格納バンクにレイが加えられたことに応じて第２カウンタをインクリメントし、上記第１格納バンクからレイが読み出されたことに応じてデクリメントされる段階と
をさらに含む、項目２６に記載の機械可読媒体。
（項目２８）
上記入射レイは、上記第１カウンタ及び上記第２カウンタの相対値に基づいて、上記第１格納バンク又は上記第２格納バンクのいずれかに分配される、項目２７に記載の機械可読媒体。
（項目２９）
上記ＢＶＨノードスタックは第１のＢＶＨノードスタックを含み、上記第１のＢＶＨノードスタックは、上記第１の複数の子ノードの親ノードにヒットしたレイに関連する第１の複数の内部子ノードを格納し、
上記機械可読媒体はさらに、第２の複数の内部子ノード及び／又はリーフノードを第２のＢＶＨノードスタックに格納するオペレーションを上記機械に行わせるプログラムコードを含む、項目２５に記載の機械可読媒体。
（項目３０）
上記内部子ノードは、各内部子ノードと、上記次のレイに関連する座標値との間の距離に基づいて、上記スタック上に順序付けされる、項目２９に記載の機械可読媒体。
（項目３１）
上記第１のＢＶＨノードスタックは、上記第１格納バンクの上記第１の複数のエントリのうちの１つ又は複数に格納され、上記第２のＢＶＨノードスタックは、上記第２格納バンクの上記第２の複数のエントリのうちの１つ又は複数に格納される、項目２９に記載の機械可読媒体。
（項目３２）
上記ＢＶＨノードスタックはＮ個のエントリを含み、Ｎは上記ＢＶＨのノード数未満である、項目２５に記載の機械可読媒体。
（項目３３）
上記機械可読媒体はさらに、上記次のＢＶＨノードと、上記ＢＶＨノードスタックの上記先頭から読み出された各追加のＢＶＨノードとに対して、上記次のレイを処理したことに応じて、追跡アレイを更新するオペレーションを上記機械に行わせるプログラムコードを含む、項目３２に記載の機械可読媒体。
（項目３４）
上記機械可読媒体はさらに、シェーダの実行に応じて現在のトラバーサル状態をメモリに保存するオペレーションであって、上記現在のトラバーサル状態は、上記第１の複数のエントリと、上記第２の複数のエントリと、上記ＢＶＨノードスタックとを含む、保存するオペレーションを上記機械に行わせるプログラムコードを含む、項目３３に記載の機械可読媒体。
（項目３５）
上記機械可読媒体はさらに、
メモリから上記現在のトラバーサル状態を復元してトラバーサルオペレーションを再開するオペレーションと、
上記追跡アレイを読み出して、上記トラバーサルオペレーションを再開する開始点を判定するオペレーションと
を上記機械に行わせるプログラムコードを含む、項目３４に記載の機械可読媒体。
（項目３６）
上記次のレイが上記次のＢＶＨノードに交差する場合、上記次のＢＶＨノードの複数の子ノードを、距離値に基づいてソートすることで、ソート順を生成し、上記ＢＶＨノードスタック内に、上記複数の子ノードを上記ソート順に格納する、項目３５に記載の機械可読媒体。

優先選択回路／ロジックの１つの実施形態を示す。優先選択回路／ロジックの１つの実施形態を示す。優先選択回路／ロジックの１つの実施形態を示す。

優先選択回路／ロジックの１つの実施形態を示す。

レイフラグ、インスタンスフラグ、ジオメトリフラグに基づいて、図５４Ａに示す透明／非透明取り扱いテーブルは、ノードデータのフェッチの際に使用される、結果としてのフラグ（透明又は非透明）を示す。テーブルに示すように、レイフラグは常に優先される。さらに、状態のいくつかは相互排他的である。１つの実施形態において、これらは専用ビットの優先順位により、ハードウェア内で取り扱われる。１つの実施態様において、ｃｕｌｌ＿ｏｐａｑｕｅ及びｆｏｒｃｅ＿ｏｐａｑｕｅの両方が設定されていると、関連するジオメトリが自動的に間引かれる。
透明＝ｒｔ＿ｒａｙ．ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｆｌａｇ［０］｜ｑｕａｄ．ｆｌａｇ［０］（なお、各ＢＶＨレベルに格納されたレイは、インスタンスフラグを既に考慮したものとなっている）
非透明＝ｒｔ＿ｒａｙ．ｒｔ＿ｒａｙ＿ｃｔｒｌ．ｆｌａｇ［１］｜〜ｑｕａｄ．ｆｌａｇ［０］

図５４Ｂは、１つの実施形態に係る、レイフラグの取り扱い及び例外を示すテーブルである。ここで、間引きの判断は、レイフラグ、インスタンスフラグ、ジオメトリフラグの組み合わせに基づく。

図５４Ｃは、１つの実施形態に係る、最終的な間引きを示すテーブルである。（ｃｕｌｌ＿ｏｐａｑｕｅ及びｆｏｒｃｅ＿ｏｐａｑｕｅ）又は（ｃｕｌｌ＿ｎｏｎ＿ｏｐａｑｕｅ及びｆｏｒｃｅ＿ｎｏｎ＿ｏｐａｑｕｅ）のレイフラグは相互排他的である。しかしながら、この式で、レイフラグは透明／非透明を設定可能なインスタンスフラグにも対応している。間引きできるのはジオメトリのみで、インスタンス及びジオメトリは両方ともマスク可能である。

図５５に示すように、１つの実施形態において、上述の間引き及びｍａｓｋ＿ｋｉｌｌ設定の評価に基づいて、５６０１又は５６０２でアーリーアウトが判定され、結果が５６０３でノードストレージに、及び／又は５６０４でスタックに送信される。

ノードデータが準備完了となると、ボックス／インターセクションテストが行われ得る。これは１つの実施形態において、本明細書でＲａｙ＿Ｔｅｓｔ＿Ｐｒｏｃと称される処理により実現される。この処理では、２つの基本的な処理が同時に実行される。一方はクアッド／インスタンス（ＱＩ）を充填するためで、他方はボックス／インターセクションテストを実行するためである。図５６に示す１つの実施態様において、Ｒａｙ＿Ｔｅｓｔ＿Ｐｒｏｃにより優先選択ロジック（ＰＲＩＳＥＬ）５７０１〜５７０２の２つの並列インスタンスが起動される。即ち、バンク０からのクアッド／インスタンス５７１１及びバンク１からの第２クアッド／インスタンス５７１２の要求及びその間の選択のためのクアッド／インスタンスＰＲＩＳＥＬ５７０１と、バンク０５７１３からの内部ノード及びバンク１５７１４からの内部ノードの要求及びその間の選択のための内部ノードＰＲＩＳＥＬ５７０２である。

１つの実施形態において、一時的スタックＦＩＦＯ充満状態を解消するため、及びスタックＦＩＦＯ（例えば、図５９のスタックＦＩＦＯ６００１参照）にプッシュすることで、ヒット情報／レイに同期的更新を実施するため、クアッド／インスタンス（ＱＩ）分離ＦＩＦＯが含まれる。これにより、レイ／ヒット情報にデータ存在（ＤＰ）ビットが後続の処理で設定されることが保証される。なお、メモリ書き込みに衝突する場合、固定高優先順位がレイ／ヒット情報に割り当てられ得ることに留意されたい。

図５７及び図５８Ａ〜図５８Ｂは、「短い」スタック（例えば、限定された数のローカルスタックエントリを含むスタック５２０３又は５２０４など）を使用したＢＶＨ−レイ処理の一例を示す。短いスタックは、高度なノード管理技術と組み合わせて高速ストレージを維持するために使用される。これにより、高効率な一連のトラバーサルオペレーションが実現される。図示の例では、短いスタック５２０３は６個のＢＶＨノードに対するエントリを含む。ただし、本発明の基本的原理は、様々なサイズの短いスタックを利用して実現され得る。

処理は図５８Ａに続く。ここではＢＶＨのレベル５でノードＮ００００１及びＮ００００２がポップし、処理される（オペレーション５９５５〜５９５６）。その後、レベル４のノードＮ０００１、Ｎ０００２、Ｎ０００３、Ｎ０００４がポップし処理されて（オペレーション５９５７〜５９６０）、短いスタック５２０３が空になる。

図５９は、上述のスタック管理及びトラバーサルオペレーションを行うためのスタック処理回路／ロジック５１２０の１つの実施形態を示す。スタックＦＩＦＯ６００１には、処理を必要とする任意の子ＢＶＨノード６０００がロードされる。例えば、トラバーサル処理回路５２１０がボックステスト又はクアッドテストを完了すると、結果はスタックＦＩＦＯ６００１にプッシュされ、スタック５２０３の更新に使用される。これは、例えば特定のヒットに関連する子ノード６０００のセットなどのヒット情報を更新することを含み得る。

示されたとおり、スタック処理回路／ロジック６００３はスタック５２０３からの各ＢＶＨノードの処理が完了すると、スタック更新６０１１を生成する。例えば、スタック５２０３からのエントリ読み出し後、データ存在（ＤＰ）ビット及び有効（ＶＬＤ）ビットなどの様々な制御ビットが更新され得る。図５９は、追い出し準備完了及びデータ存在ビット６０１０が設定されたことを示す。スタック５２０３に、対応するスタック更新６０１１も送信され得る（例えば、新しい子ノードのスペースを作るように古いエントリが除去されることを可能にする）。

図６０Ａ〜図６０Ｂは、全てのレイトレーシングトラバーサル構造に対して、読み出し／書き込みポートを構成し、制御ビットを設定するためのテーブルを示す。具体的には、例示低サブ構造、垂直構造、及び読み出し／書き込み動作が、レイ６１０１、ヒット６１０２、スタック６１０３について示されている。しかしながら、本発明の基本的原理は、これらの具体的なデータ構造／オペレーションに限定されることはないことに留意されたい。

Claims

ルートノードと、複数の内部ノードと、プリミティブを含む複数のリーフノードとを含む、階層的に配置された複数のノードを含むバウンディングボリューム階層（ＢＶＨ）を構築するためのＢＶＨ生成部であって、各内部ノードが前記ルートノード又は別の内部ノードへの子ノードを含み、各リーフノードが内部ノードへの子ノードを含む、ＢＶＨ生成部と、
第１の複数のエントリとして配置される第１格納バンクと、
第２の複数のエントリとして配置される第２格納バンクであって、前記第１の複数のエントリ及び前記第２の複数のエントリの各エントリが前記ＢＶＨをトラバースするレイを格納する、第２格納バンクと、
入射レイを、前記第１格納バンク及び前記第２格納バンクに現在格納されているレイの相対数に基づいて、前記第１格納バンク又は前記第２格納バンクのいずれかに分配するための割当回路と、
前記第１格納バンク及び前記第２格納バンクから交互に次のレイを選択するトラバーサル回路であって、前記トラバーサル回路は、ＢＶＨノードスタックの先頭から次のＢＶＨノードを読み出し、且つ前記次のレイが前記次のＢＶＨノードに交差するかを判定することによって、前記次のレイを前記ＢＶＨにトラバースする、トラバーサル回路と
を備える装置。
前記第１格納バンクに現在格納されている第１の数のレイと、前記第２格納バンクに現在格納されている第２の数のレイとを追跡するためのバンク監視回路をさらに備える、請求項１に記載の装置。
前記バンク監視回路は、
前記割当回路により前記第１格納バンクにレイが加えられたことに応じてインクリメントされ、前記トラバーサル回路により前記第１格納バンクからレイが読み出されたことに応じてデクリメントされる第１カウンタと、
前記割当回路により前記第２格納バンクにレイが加えられたことに応じてインクリメントされ、前記トラバーサル回路により前記第２格納バンクからレイが読み出されたことに応じてデクリメントされる第２カウンタと
をさらに備える、請求項２に記載の装置。
前記割当回路は前記入射レイを、前記第１カウンタ及び前記第２カウンタの相対値に基づいて、前記第１格納バンク又は前記第２格納バンクのいずれかに分配する、請求項３に記載の装置。
前記ＢＶＨノードスタックは第１のＢＶＨノードスタックを含み、前記第１のＢＶＨノードスタックは、前記第１の複数の子ノードの親ノードにヒットしたレイに関連する第１の複数の内部子ノードを格納し、
前記装置は、第２の複数の内部子ノード及び／又はリーフノードを格納するための第２のＢＶＨノードスタックをさらに備える、請求項１から４のいずれか一項に記載の装置。
前記第１の複数の内部子ノード及び前記第２の複数の内部子ノードは、各内部子ノードと、前記次のレイに関連する座標値との間の距離に基づいて、前記第１のＢＶＨノードスタック及び前記第２のＢＶＨノードスタック上に順序付けされる、請求項５に記載の装置。
前記第１のＢＶＨノードスタックは、前記第１格納バンクの前記第１の複数のエントリのうちの１つ又は複数に格納され、前記第２のＢＶＨノードスタックは、前記第２格納バンクの前記第２の複数のエントリのうちの１つ又は複数に格納される、請求項５に記載の装置。
前記ＢＶＨノードスタックはＮ個のエントリを含み、Ｎは前記ＢＶＨのノード数未満である、請求項１から７のいずれか一項に記載の装置。
前記ＢＶＨノードスタックの前記先頭から読み出された各ＢＶＨノードに対して、前記トラバーサル回路が前記次のレイを処理したことに応じて、追跡アレイを更新するためのトラバーサル追跡回路をさらに備える、請求項８に記載の装置。
前記トラバーサル回路は、シェーダの実行に応じて現在のトラバーサル状態をメモリに保存し、前記現在のトラバーサル状態は、前記第１の複数のエントリと、前記第２の複数のエントリと、前記ＢＶＨノードスタックとを含む、請求項９に記載の装置。
前記トラバーサル回路は、メモリから前記現在のトラバーサル状態を復元してトラバーサルオペレーションを再開し、前記トラバーサル回路は、前記追跡アレイを読み出して、前記トラバーサルオペレーションを再開する開始点を判定する、請求項１０に記載の装置。
前記次のレイが前記次のＢＶＨノードに交差する場合、前記次のＢＶＨノードの複数の子ノードを、距離値に基づいてソートすることで、ソート順を生成し、前記ＢＶＨノードスタック内に、前記複数の子ノードを前記ソート順に格納する、請求項１１に記載の装置。
ルートノードと、複数の内部ノードと、プリミティブを含む複数のリーフノードとを含む、階層的に配置された複数のノードを含むバウンディングボリューム階層（ＢＶＨ）を生成する段階であって、各内部ノードが前記ルートノード又は別の内部ノードへの子ノードを含み、各リーフノードが内部ノードへの子ノードを含む、生成する段階と、
第１格納バンク内に第１の複数のエントリを構成する段階と、
第２格納バンク内に第２の複数のエントリを構成する段階であって、前記第１の複数のエントリ及び前記第２の複数のエントリの各エントリが前記ＢＶＨをトラバースするレイを格納する、構成する段階と、
入射レイを、前記第１格納バンク及び前記第２格納バンクに現在格納されているレイの相対数に基づいて、前記第１格納バンク又は前記第２格納バンクのいずれかに分配する段階と、
前記第１格納バンク及び前記第２格納バンクを交互に切り替えることによってトラバーサル処理を行うために次のレイを選択する段階と、
ＢＶＨノードスタックの先頭から次のＢＶＨノードをポップする段階と、
前記次のレイが前記次のＢＶＨノードに交差するかを判定する段階と
を含む方法。
前記第１格納バンクに現在格納されている第１の数のレイと、前記第２格納バンクに現在格納されている第２の数のレイとを追跡する段階をさらに含む、請求項１３に記載の方法。
前記追跡する段階は、
前記第１格納バンクにレイが加えられたことに応じて第１カウンタをインクリメントし、前記第１格納バンクからレイが読み出されたことに応じてデクリメントされる段階と、
前記第２格納バンクにレイが加えられたことに応じて第２カウンタをインクリメントし、前記第２格納バンクからレイが読み出されたことに応じてデクリメントされる段階と
をさらに含む、請求項１４に記載の方法。
前記入射レイは、前記第１カウンタ及び前記第２カウンタの相対値に基づいて、前記第１格納バンク又は前記第２格納バンクのいずれかに分配される、請求項１５に記載の方法。
前記ＢＶＨノードスタックは第１のＢＶＨノードスタックを含み、前記第１のＢＶＨノードスタックは前記第１の複数の子ノードの親ノードにヒットしたレイに関連する第１の複数の内部子ノードを格納し、
前記方法は、第２の複数の内部子ノード及び／又はリーフノードを第２のＢＶＨノードスタックに格納する段階をさらに含む、請求項１３から１６のいずれか一項に記載の方法。
前記第１の複数の内部子ノード及び前記第２の複数の内部子ノードは、各内部子ノードと、前記次のレイに関連する座標値との間の距離に基づいて、前記第１のＢＶＨノードスタック及び前記第２のＢＶＨノードスタック上に順序付けされる、請求項１７に記載の方法。
前記第１のＢＶＨノードスタックは、前記第１格納バンクの前記第１の複数のエントリのうちの１つ又は複数に格納され、前記第２のＢＶＨノードスタックは、前記第２格納バンクの前記第２の複数のエントリのうちの１つ又は複数に格納される、請求項１７に記載の方法。
前記ＢＶＨノードスタックはＮ個のエントリを含み、Ｎは前記ＢＶＨのノード数未満である、請求項１３から１９のいずれか一項に記載の方法。
前記次のＢＶＨノードと、前記ＢＶＨノードスタックの前記先頭から読み出された各追加のＢＶＨノードとに対して、前記次のレイを処理したことに応じて、追跡アレイを更新する段階をさらに含む、請求項２０に記載の方法。
シェーダの実行に応じて現在のトラバーサル状態をメモリに保存する段階であって、前記現在のトラバーサル状態は、前記第１の複数のエントリと、前記第２の複数のエントリと、前記ＢＶＨノードスタックとを含む、保存する段階をさらに含む、請求項２１に記載の方法。
メモリから前記現在のトラバーサル状態を復元してトラバーサルオペレーションを再開する段階と、
前記追跡アレイを読み出して、前記トラバーサルオペレーションを再開する開始点を判定する段階と
をさらに含む、請求項２２に記載の方法。
前記次のレイが前記次のＢＶＨノードに交差する場合、前記次のＢＶＨノードの複数の子ノードを、距離値に基づいてソートすることで、ソート順を生成し、前記ＢＶＨノードスタック内に、前記複数の子ノードを前記ソート順に格納する、請求項２３に記載の方法。
ルートノードと、複数の内部ノードと、プリミティブを含む複数のリーフノードとを含む、階層的に配置された複数のノードを含むバウンディングボリューム階層（ＢＶＨ）を生成するオペレーションであって、各内部ノードが前記ルートノード又は別の内部ノードへの子ノードを含み、各リーフノードが内部ノードへの子ノードを含む、生成するオペレーションと、
第１格納バンク内に第１の複数のエントリを構成するオペレーションと、
第２格納バンク内に第２の複数のエントリを構成するオペレーションであって、前記第１の複数のエントリ及び前記第２の複数のエントリの各エントリが前記ＢＶＨをトラバースするレイを格納する、構成するオペレーションと、
入射レイを、前記第１格納バンク及び前記第２格納バンクに現在格納されているレイの相対数に基づいて、前記第１格納バンク又は前記第２格納バンクのいずれかに分配するオペレーションと、
前記第１格納バンク及び前記第２格納バンクを交互に切り替えることによってトラバーサル処理を行うために次のレイを選択するオペレーションと、
ＢＶＨノードスタックの先頭から次のＢＶＨノードをポップするオペレーションと、
前記次のレイが前記次のＢＶＨノードに交差するかを判定するオペレーションと
を機械に行わせるプログラム。
請求項２５に記載のプログラムを格納するための機械可読媒体。