JP7515008B2

JP7515008B2 - 深度カリングを呼び出すためのシェーダコア命令

Info

Publication number: JP7515008B2
Application number: JP2023509659A
Authority: JP
Inventors: ジー．ハイダスマットハウス; ジェイ．ブレナンクリストファー
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2020-08-31
Filing date: 2021-08-27
Publication date: 2024-07-11
Anticipated expiration: 2041-08-27

Description

グラフィックスプロセッサは、幾何学的モデルからコンピュータ生成画像を生成するために、コンピュータグラフィックス処理システム内でよく使用される。幾何学的モデルは、仮想シーンの様々なオブジェクト、ディテール、光源及び他の要素を定義する。コンピューティングシステムは、幾何学的モデル及びソフトウェアアプリケーションからの他の入力に基づいて、所定のシーンをどのようにレンダリングするかを決定する。これらの入力は、点、線、多角形、メッシュレット（meshlet）、三次元オブジェクト、及び、他のオブジェクト等の図形オブジェクトを含む。これらのオブジェクトは、より一般的に「プリミティブ」と呼ばれ得る。

グラフィックス処理ユニット（graphics processing unit、ＧＰＵ）又は他のタイプのプロセッサは、入力及び幾何学的モデルを処理して、所望の画像又はビデオフレームを表すピクセルの色値の二次元又は三次元配列を生成する。フレームのそれぞれのピクセルは、色及びテクスチャを含む、それに関連付けられた複数の属性を有する。典型的に、シェーダは、ピクセルを表す最終値を達成するために、それぞれのピクセルの属性に対して算術演算及び論理演算を実行するために使用される。シェーダは、プログラム、固定関数ハードウェア、制御論理、又は、これら及び／若しくは他の処理要素の任意の組合せであり得る。最終値はフレームバッファに入れられ、ピクセルが表示装置に送られるときに使用される。

複数のプリミティブがレンダリングされ、スクリーン上の同じピクセルに投影される場合、レンダリングエンジンは、何れのプリミティブが可視であり、何れのプリミティブが隠されているかを決定する必要がある。オクルージョン問題（occlusion issues）を解決するための１つの技術は、深度バッファを用いて深度テストを実行することを伴う。スクリーン上のそれぞれのピクセルについて、視点から最も近いオブジェクトまでの距離が深度バッファに記憶される。プリミティブがスクリーン空間の所定のピクセルに投影される場合、レンダリングされたプリミティブが、以前にレンダリングされた最も近いプリミティブよりもスクリーン（すなわち、視点）に近いかどうかを決定するために、深度テストが実行される。プリミティブが、以前にレンダリングされたプリミティブよりも視点に近い場合、プリミティブはテストに合格する。そうではなく、プリミティブが、以前にレンダリングされたプリミティブよりも視点から遠く離れている場合、プリミティブはテストに失敗する。視点は、ユーザの視点又は遠近感を表す仮想カメラによって定義される。

以下の開示は上記のコンテキストを対象とするが、本明細書で説明される方法及びメカニズムは、スループットを増加させ、性能を改善し、電力消費を低減し、他の利点を達成するために他のコンテキストにおいても使用され得ることを理解されたい。

本明細書に記載の方法及びメカニズムの利点は、添付の図面と併せて以下の説明を参照することによってよりよく理解され得る。

コンピューティングシステムの一実施形態のブロック図である。コンピューティングシステムの別の実施形態のブロック図である。コンピューティングシステムの別の実施形態のブロック図である。深度カリングを呼び出すためにシェーダコア命令を実行するための方法の一実施形態を示す一般化されたフロー図である。深度カリングを呼び出すためにシェーダコア命令を実行するための方法の一実施形態を示す一般化されたフロー図である。ドローコールをカリング関数クエリに変換するための方法の一実施形態を示す一般化されたフロー図である。カリングユニットのためのクエリを生成する場合にエンティティを合成するための方法の一実施形態を示す一般化されたフロー図である。

以下の説明では、本明細書に提示される方法及びメカニズムの十分な理解を提供するために、多数の具体的な詳細が記載されている。しかしながら、当業者は、これらの具体的な詳細なしに様々な実施形態が実施され得ることを認識するべきである。いくつかの例では、本明細書に記載のアプローチを不明瞭にすることを避けるために、周知の構造、構成要素、信号、コンピュータプログラム命令、及び、技術が詳細に示されていない。説明を簡単且つ明確にするために、図示される要素は必ずしも縮尺どおりに描かれているわけではないことが理解されよう。例えば、いくつかの要素の寸法は、他の要素に対して誇張されている場合がある。

深度カリングを呼び出すためにシェーダコア命令を実行するための様々なシステム、装置、及び、方法が本明細書で開示される。一実施形態では、シェーダコアは、対応するドローコールを完了する前に、１つ以上のエンティティ（例えば、プリミティブ、スクリーン空間矩形）に対するカリング関数を深度カリングユニット上で呼び出すための命令を実行する。シェーダコアは、命令を実行した結果として、モード及び座標を深度カリングユニットに提供する。一実施形態では、深度カリングユニットは、１つ以上のプリミティブが遮蔽（occluded）されているかどうかを決定するためにライブ深度バッファにアクセスするためのカリング関数を実装する。カリングユニットは、１つ以上のエンティティを処理した結果（複数可）に関する指標（複数可）をシェーダコアに返す。カリング関数結果（複数可）に関する指標（複数可）を受信したことに応じて、シェーダコアは、ドローコールを変更するか、取り消すか、又は、継続するかどうかを決定する。例えば、一実施形態では、カリングユニットからの結果が、プリミティブが遮蔽されていることを示す場合、シェーダコアは、プリミティブのためのドローコールを取り消す。他のタイプのアクションは、カリングユニットによって生成された結果に応じて、シェーダコアによって行われ得る。したがって、グラフィックス処理パイプラインは、ドローコールに関連付けられた任意の不要な処理タスクを回避し、グラフィックス処理パイプラインの性能を向上させる。

図１を参照すると、コンピューティングシステム１００の一実施形態のブロック図が示されている。一実施形態では、コンピューティングシステム１００は、少なくともプロセッサ１０５Ａ～１０５Ｎと、入力／出力（input/output、Ｉ／Ｏ）インターフェース１２０と、バス１２５と、メモリコントローラ１３０と、ネットワークインターフェース１３５と、メモリデバイス１４０と、表示コントローラ１５０と、ディスプレイ１５５と、を含む。他の実施形態では、コンピューティングシステム１００は、他の構成要素を含み、及び／又は、コンピューティングシステム１００は、別様に構成される。プロセッサ１０５Ａ～１０５Ｎは、システム１００に含まれる任意の数のプロセッサを表す。

一実施形態では、プロセッサ１０５Ａは、中央処理ユニット（central processing unit、ＣＰＵ）等の汎用プロセッサである。この実施形態では、プロセッサ１０５Ａは、システム１００内の他のプロセッサと通信するため、及び／又は、それらのプロセッサのうち１つ以上の演算を制御するためのドライバ１１０（例えば、グラフィックドライバ）を実行する。実施形態に応じて、ドライバ１１０は、ハードウェア、ソフトウェア及び／又はファームウェアの任意の好適な組み合わせを使用して実装することができることに留意されたい。一実施形態では、プロセッサ１０５Ｎは、高度に並列アーキテクチャを有するデータ並列プロセッサである。データ並列プロセッサは、グラフィックス処理ユニット（ＧＰＵ）、デジタル信号プロセッサ（digital signal processor、ＤＳＰ）、フィールドプログラマブルゲートアレイ（field programmable gate array、ＦＰＧＡ）、特定用途向け集積回路（application specific integrated circuit、ＡＳＩＣ）等を含む。いくつかの実施形態では、プロセッサ１０５Ａ～１０５Ｎは、複数のデータ並列プロセッサを含む。一実施形態では、プロセッサ１０５Ｎは、ディスプレイ１５５に送られるように表示コントローラ１５０にピクセルを提供するＧＰＵである。

メモリコントローラ１３０は、プロセッサ１０５Ａ～１０５Ｎによってアクセス可能な任意の数及びタイプのメモリコントローラを表す。メモリコントローラ１３０は、プロセッサ１０５Ａ～１０５Ｎから分離されているものとして示されているが、これは単に１つの可能な実施形態を表すことを理解されたい。他の実施形態では、メモリコントローラ１３０は、プロセッサ１０５Ａ～１０５Ｎのうち１つ以上の内部に埋め込むことができ、及び／又は、メモリコントローラ１３０は、プロセッサ１０５Ａ～１０５Ｎのうち１つ以上と同じ半導体ダイ上に位置することができる。メモリコントローラ１３０は、任意の数及びタイプのメモリデバイス１４０に結合される。メモリデバイス（複数可）１４０は、任意の数及びタイプのメモリデバイスを表す。例えば、メモリデバイス（複数可）１４０内のメモリのタイプは、ダイナミックランダムアクセスメモリ（Dynamic Random Access Memory、ＤＲＡＭ）、スタティックランダムアクセスメモリ（Static Random Access Memory、ＳＲＡＭ）、ＮＡＮＤフラッシュメモリ、ＮＯＲフラッシュメモリ、強誘電体ランダムアクセスメモリ（Ferroelectric Random Access Memory、ＦｅＲＡＭ）等を含む。

Ｉ／Ｏインターフェース１２０は、任意の数及びタイプのＩ／Ｏインターフェース（例えば、ペリフェラルコンポーネントインターコネクト（peripheral component interconnect、ＰＣＩ）バス、ＰＣＩ－Ｅｘｔｅｎｄｅｄ（ＰＣＩ－Ｘ）、ＰＣＩＥ（ＰＣＩＥｘｐｒｅｓｓ）バス、ギガビットイーサネット（登録商標）（gigabit Ethernet、ＧＢＥ）バス、ユニバーサルシリアルバス（universal serial bus、ＵＳＢ））を表す。様々なタイプの周辺デバイス（図示省略）がＩ／Ｏインターフェース１２０に結合される。そのような周辺デバイスには、ディスプレイ、キーボード、マウス、プリンタ、スキャナ、ジョイスティック、他のタイプのゲームコントローラ、メディア記録デバイス、外部記憶デバイス、ネットワークインターフェースカード等が含まれるが、これらに限定されない。ネットワークインターフェース１３５は、ネットワークを介してネットワークメッセージを受信及び送信することができる。

様々な実施形態において、コンピューティングシステム１００は、コンピュータ、ラップトップ、モバイルデバイス、ゲームコンソール、サーバ、ストリーミングデバイス、ウェアラブルデバイス、又は、様々な他のタイプのコンピューティングシステム又はデバイスのうち何れかである。コンピューティングシステム１００の構成要素の数は、実施形態ごとに変化することに留意されたい。例えば、他の実施形態では、図１に示される数よりも多い又は少ない構成要素が存在する。また、他の実施形態では、コンピューティングシステム１００は、図１に示されていない他の構成要素を含むことにも留意されたい。加えて、他の実施形態では、コンピューティングシステム１００は、図１に示される以外の方法で構築される。

図２を参照すると、コンピューティングシステム２００の別の実施形態のブロック図が示されている。一実施形態では、システム２００は、ＧＰＵ２０５と、システムメモリ２２５と、ローカルメモリ２３０と、を含む。また、システム２００は、図を不明瞭にすることを避けるために示されていない他の構成要素を含み得る。ＧＰＵ２０５は、少なくとも、コマンドプロセッサ２３５と、制御ロジック２４０と、ディスパッチユニット２５０と、計算ユニット２５５Ａ～２５５Ｎと、メモリコントローラ２２０と、グローバルデータシェア２７０と、レベル１（Ｌ１）キャッシュ２６５と、レベル２（Ｌ２）キャッシュ２６０と、を含む。他の実施形態では、ＧＰＵ２０５は、他の構成要素を含み、図示された構成要素のうち１つ以上を省略し、図２に１つのインスタンスのみが示されている場合であっても構成要素の複数のインスタンスを有し、及び／又は、他の適切な方法で編成される。一実施形態では、ＧＰＵ２０５の回路は、（図１の）プロセッサ１０５Ｎに含まれる。

様々な実施形態において、コンピューティングシステム２００は、様々なタイプのソフトウェアアプリケーションの何れかを実行する。所定のソフトウェアアプリケーションを実行することの一部として、コンピューティングシステム２００のホストＣＰＵ（図示省略）は、ＧＰＵ２０５上で実行される作業を開始する。一実施形態では、コマンドプロセッサ２３５は、ホストＣＰＵからドローコールを受信し、コマンドプロセッサ２３５は、ディスパッチユニット２５０を使用して、ドローコールを計算ユニット２５５Ａ～２５５Ｎに発行する。所定のメッシュレットのためのドローコールを開始することに応じて、計算ユニット２５５Ａ～２５５Ｎは、所定のメッシュレットに対する深度カリング関数を呼び出して、所定のメッシュレットのためのドローコールを取り消すか、変更するか、又は、実行するかどうかを決定する。所定のメッシュレットは、任意の数の頂点を含み得る。これら及び他の技術に関する更なる詳細は、本開示の残りの部分全体を通して提供される。

図３を参照すると、コンピューティングシステム３００の別の実施形態のブロック図が示されている。一実施形態では、コンピューティングシステム３００は、少なくとも、制御ユニット３０５と、キャッシュ／メモリサブシステム３１０と、シェーダコア３２０と、ラスタライザ３３０と、カリングユニット３４０と、深度バッファ３４５と、を含む。制御ユニット３０５は、１つ以上のフレーム又はフレームの１つ以上の部分をレンダリングする一環として、システム３００の様々なユニットによって実行される処理を調整する。制御ユニット３０５は、ソフトウェア及び／又はハードウェアの任意の好適な組み合わせを使用して実装され得る。制御ユニット３０５は、制御ロジック３０５と呼ばれ得ることに留意されたい。また、制御ユニット３０５の部分は、シェーダコア３２０及びカリングユニット３４０内に位置することができ、制御ユニット３０５の部分は、シェーダコア３２０及びカリングユニット３４０の外部に位置することができる。システム３００全体に広がる制御ユニット３０５のロジックの任意の好適な構成が実装され得る。コンピューティングシステム３００は、図を不明瞭にすることを避けるために示されていない任意の数の他の構成要素（例えば、メモリデバイス、フレームバッファ、ディスプレイ）を含み得る。

シェーダコア３２０は、１～Ｎまでの任意の数のシェーダユニット３２５Ａ～３２５Ｎを含み、Ｎは１より大きい正の整数である。シェーダユニット３２５Ａ～３２５Ｎは、シェーダステージ３２５Ａ～３２５Ｎと呼ばれ得ることに留意されたい。シェーダユニット３２５Ａ～３２５Ｎは、頂点シェーダ、ハルシェーダ、テッセレータ、ライトシェーダ、ピクセルシェーダ、ジオメトリシェーダ、メッシュシェーダ、増幅シェーダ（amplification shader）、ドメインシェーダ、フラグメントシェーダ、計算シェーダ等のような、任意の数及びタイプのシェーダを含み得る。異なる実施形態における異なるシェーダコア３２０は、個々のシェーダユニット３２５Ａ～３２５Ｎの異なる組み合わせ及び構成を有し得る。シェーダコア３２０は、本明細書ではシェーダパイプライン３２０とも呼ばれ得る。加えて、カリングユニット３４０は、本明細書では深度カリングユニット３４０と呼ばれ得る。

一実施形態では、制御ユニット３０５は、１つ以上のプリミティブについてシェーダコア３２０にドローコールを発行する。ドローコールを受信したことに応じて、シェーダコア３２０は、キャッシュ／メモリサブシステム３１０から対応するプリミティブを取り出す。一実施形態では、シェーダコア３２０は、ドローコール中にカリングユニット３４０にアクセスするための命令を実行する。一実施形態では、命令は、シェーダコア３２０の対応するシェーダ３２５Ａ～３２５Ｎから所定のインターフェース３２２Ａ～３２２Ｎにアクセスする。複数のインターフェース３２２Ａ～３２２Ｎが示されているが、これらは、カリングユニット３４０が任意のシェーダ３２５Ａ～３２５Ｎからアクセス可能であることを表すように意図されている。言い換えれば、インターフェース３２２Ａ～３２２Ｎは、いくつかの実施形態では、実際には単一のインターフェースからなり得る。また、カリングユニット３４０は、シェーダコア３２０から命令及び対応するパラメータを受信するためのインターフェース３４２を含む。

シェーダコア３２０によって実行される命令は、シェーダコア３２０が、シェーディングプロセス中にカリングテストを実行するためにカリングユニット３４０にクエリする（query）ことを可能にする。一実施形態では、クエリは、１つ以上のプリミティブに関連付けられた１つ以上のパラメータを含む。別の実施形態では、クエリは、範囲を有するスクリーン空間矩形（screen-space rectangle）を定義するパラメータを含む。一実施形態では、クエリを受信したことに応じて、カリングユニット３４０は、深度バッファ３４５にアクセスすることによってカリング関数を実行する。シェーダコア３２０によって実行される命令（複数可）に応じてアクセスされる深度バッファ３４５は、実際の深度バッファのコピーではなく、ライブ深度バッファ（live depth buffer）３４５であることに留意されたい。深度バッファ３４５は、キャッシュ、メモリ又は別の場所に記憶され得る。

一実施形態では、カリングユニット３４０は、カリング関数の結果をシェーダコア３２０に返し、シェーダコア３２０は、カリング関数の結果に基づいて、ドローコールを進めるかどうか、及び／又は、どのように進めるかを決定する。例えば、一実施形態では、カリングユニット３４０が、プリミティブがカリングされるべきではないという指標をシェーダコア３２０に返す場合、シェーダコア３２０は、プリミティブに対するドローコールを継続する。プリミティブに対するドローコールを完了した後、シェーダコア３２０は、フレームバッファ（図示省略）のためのシェーディングされたピクセルを生成するラスタライザ３３０にジオメトリをエクスポートする。別の実施形態では、ラスタライザ３３０は、追加の処理のためにピクセルをシェーダコア３２０に戻す。カリングユニット３４０が、所定のプリミティブが遮蔽されるという指標をシェーダコア３２０に返す場合、シェーダコア３２０は、所定のプリミティブのためのドローコールを取り消す。シェーダコア３２０は、カリングユニット３４０に重複するカリング要求を発行し、複数の保留中のカリング要求を有し得ることに留意されたい。シェーダコア３２０は、深度カリングユニットに送信された複数の未処理のカリング要求を、これらの要求への応答を受信する前に追跡する。所定のカリング要求に対する応答が受信されると、所定のカリング要求は、シェーダコア３２０によってリタイアされる。

図４を参照すると、深度カリングを呼び出すためにシェーダコア命令を実行するための方法４００の一実施形態が示されている。説明のために、この実施形態におけるステップ及び図５～図７のステップは、順番に示されている。しかしながら、記載された方法の様々な実施形態において、記載された要素のうち１つ以上が、示されたものとは異なる順序で同時に実行されてもよいし、完全に省略されてもよいことに留意されたい。必要に応じて、他の追加の要素も実行される。本明細書に記載の様々なシステム又は装置の何れも、方法４００を実施するように構成される。

ドローコールがシェーダコアによって受信される（ブロック４０５）。一実施形態では、ドローコールは、１つ以上のプリミティブ、又は、その部分に対するものである。ドローコールを受信した後、シェーダコアは、深度カリングユニット上でカリング関数を呼び出すための命令を実行する（ブロック４１０）。次に、深度カリングユニットは、シェーダコア命令によって呼び出されたカリング関数を実行する（ブロック４１５）。一実施形態では、カリング関数は、プリミティブのピクセル、サブピクセル、フラグメント、又は、他の部分が観察者に最も近いか、又は、別のプリミティブの以前にレンダリングされたピクセルによって隠されているかどうかを決定する。「カリング関数」は、「深度テスト」又は「オクルージョンカリング関数」と呼ばれ得ることに留意されたい。他の実施形態では、錐台カリング（frustum culling）、バックフェースカリング（backface culling）、小プリミティブカリング（small primitive culling）、深度境界カリング（depth bound culling）、又は、他のタイプのカリング演算を実行するための関数等のような、他のカリング関数が採用され得る。一般的に言えば、「カリング関数」は、プリミティブがユーザに提示される最終画像に影響を及ぼさないか、又は、比較的小さい影響しか及ぼさない（例えば、見えない）と決定された場合に、後続のシェーディング操作からプリミティブを除去又はドロップするためのプロセスとして定義される。

次に、深度カリングユニットは、カリング関数の結果をシェーダコアに送り返す（ブロック４２０）。クエリごとに、深度カリングユニットが、カリングが行われることを示す場合（条件ブロック４２５、「はい」）、シェーダコアは、ドローコールを変更（修正）するか又は取り消す（ブロック４３０）。また、シェーダコアは、ブロック４３０において、ドローコールに関連付けられた任意のプリミティブを破棄し得る。これは、シェーダコアを経由し、シェーダコアによって処理されるプリミティブの数を減らすのに役立つ。そうではなく、カリングが行われないことを深度カリングユニットが示す場合（条件ブロック４３０、「はい」）、シェーダコアは、ドローコールを継続する（ブロック４３５）。深度カリングユニットは、任意の可視のプリミティブに基づいて新しい深度値を有するそれらのスクリーンピクセルのための深度バッファを更新し得ることに留意されたい。ブロック４３０及び４３５の後に、方法４００は終了する。

図５を参照すると、深度カリングを呼び出すためにシェーダコア命令を実行するための方法５００の一実施形態が示されている。シェーダコアは、１つ以上のエンティティ（例えば、プリミティブ、スクリーン空間矩形）について、深度カリングユニットによって深度カリングを呼び出すための命令を実行する（ブロック５０５）。命令を実行する一環として、シェーダコアは、１つ以上のエンティティについての少なくともモード及び座標を深度カリングユニットに送信する（ブロック５１０）。例えば、一実施形態では、シェーダコア命令は、深度カリングユニットに渡される以下のパラメータを含む。ｇｅｏｍｅｔｒｙ＿ｃｕｌｌ＿ｑｕａｄ＜ｏｕｔｐｕｔ＞、＜ｓｃｒｅｅｎｍｉｎＸＹ＞、＜ｓｃｒｅｅｎｍａｘＸＹ＞、＜ｄｅｐｔｈｍｉｎ＞、＜ｄｅｐｔｈｍａｘ＞。別の実施形態では、シェーダコア命令は、深度カリングユニットに渡される以下のパラメータを含む。ｇｅｏｍｅｔｒｙ＿ｃｕｌｌ＿ｔｒｉａｎｇｌｅ＜ｏｕｔｐｕｔ＞、＜ｖｅｒｔｅｘ０ＸＹＺ＞、＜ｖｅｒｔｅｘ１ＸＹＺ＞、＜ｖｅｒｔｅｘ２ＸＹＺ＞。他の実施形態では、シェーダコア命令は、他のパラメータを含み、及び／又は、他の適切な方法でフォーマットされる。

次に、深度カリングユニットは、エンティティに対応する１つ以上のプリミティブが遮蔽されているかどうかを決定するためにライブ深度バッファにアクセスする（ブロック５１５）。次いで、深度カリングユニットは、それぞれのプリミティブについて、プリミティブがカリングされるかどうかを示す結果（例えば、ブール結果（Boolean result）、カバレッジ結果（coverage result））をシェーダコアに返す（ブロック５２０）。一実施形態では、深度カリングユニットは、異なる詳細レベルを選択するのに有用な部分的にカバーされた値を返す。これは、例えばプリミティブの大部分が隠されている場合に起こり得る。ブロック５２０の後に、方法５００は終了する。一実施形態では、シェーダコアは、深度カリングユニットによって提供された結果（複数可）を使用して、１つ以上のプリミティブのためのドローコールを変更するか、取り消すか、又は、継続するかどうかを決定する。

図６を参照すると、ドローコールをカリング関数クエリに変換するための方法６００の一実施形態が示されている。ドローコールが制御ユニット（例えば、図３の制御ユニット３０５）によって受信される（ブロック６０５）。制御ユニットは、ハードウェア及び／又はソフトウェアの任意の好適な組み合わせを使用して実装され得る。ドローコールの受信に応じて、制御ユニットは、ドローコールの一部としてカリング関数クエリを発行する（ブロック６１０）。次に、カリング関数がカリングユニット（例えば、図３のカリングユニット３４０）上で実行される（ブロック６１５）。クエリの結果に基づいて、ドローコール又はドローコールの一部は、破棄されるか又はパイプラインの残りの部分全体を通して異なる方法で処理され得る（ブロック６２０）。言い換えれば、カリング関数の結果が、１つ以上のプリミティブ（又はその部分）がカリングされるか、又は、異なる方法で処理されることを示す場合、シェーダコアは、それに応じて１つ以上のプリミティブのためのドローコールを変更する。例えば、増幅シェーダは、カリングクエリの結果に基づいて、ドローコールの一部を取り消し得る。別の例では、メッシュシェーダは、カリングクエリの結果に基づいて、個々のプリミティブを破棄し得る。そうではなく、カリングクエリの結果が、プリミティブ（複数可）がカリングされないことを示す場合、プリミティブ（複数可）のためのドローコールは、シェーダコアによって未変更の形態で実行される。ブロック６２０の後に、方法６００は終了する。

図７を参照すると、カリングユニットについてのクエリを生成する場合にエンティティを合成するための方法７００の一実施形態が示されている。ドローコールがグラフィックスドライバからシェーダコアに伝達される（ブロック７０５）。一実施形態では、「ドローコール」は、１つ以上のプリミティブをレンダリングするための要求として定義され、要求は、グラフィックスアプリケーションプログラミングインターフェース（application programming interface、ＡＰＩ）と互換性がある。次に、シェーダコアは、カリングユニットに問い合わせる（クエリする）ためのエンティティを合成する（すなわち、計算する）（ブロック７１０）。一実施形態では、エンティティは、範囲を有する画面空間矩形である。例えば、一実施形態では、増幅シェーダは、ドローコールによって参照される１つ以上のプリミティブを封入するスクリーン空間境界ボックスを合成する。次いで、シェーダコアは、クエリをカリングユニットに送信し、クエリは、シェーダコアによって合成されたエンティティを含むか又は参照する（ブロック７１５）。一実施形態では、エンティティがスクリーン空間境界ボックスである場合、クエリは、スクリーン空間境界ボックスの最小値及び最大値を指定する。

カリングユニットは、クエリを受信したことに応じて、エンティティについて１つ以上のテストを実行する（ブロック７２０）。例えば、一実施形態では、クエリによって定義されたエンティティがプリミティブである場合、カリングユニットは、Ｚ平面（すなわち、深度平面）に対してプリミティブを検査する。別の実施形態では、クエリによって定義されたエンティティがスクリーン空間矩形である場合、カリングユニットは、矩形を階層タイル（ＨＴｉｌｅ）に対して検査する。ＨＴｉｌｅは、ピクセルのブロック（例えば、８×８ピクセルブロック）についての深度情報を記憶する。次に、カリングユニットは、１つ以上のテストの結果をシェーダコアに送信する（ブロック７２５）。次いで、シェーダコアは、１つ以上のテストの結果に基づいてカリング決定を行う（ブロック７３０）。例えば、一実施形態では、シェーダコアは、カリングユニットから受信された結果に基づいて、ドローコールの一部又は全体を変更するかどうかの決定を行う。一実施形態では、計算シェーダは、結果に基づいて間接描画を行う場合にドローコール全体を停止することを決定し得る。別の実施形態では、ジオメトリシェーダ、ハルシェーダ、増幅シェーダ又は計算シェーダは、個々のプリミティブをカリングし得る。更なる実施形態では、ジオメトリシェーダ、ハルシェーダ又は増幅シェーダは、より少ないプリミティブを生成するか、又は、プリミティブを生成しないことを決定し得る。例えば、この実施形態では、シェーダが、閾値量（例えば、９０％）だけカバーされていると識別される地形タイルをレンダリングしている場合、フルメッシュを生成する代わりに、比較的少数の三角形を使用して近似が実行される。他の実施形態では、カリングユニット結果に応答する他の方法が可能であり、企図される。ブロック７３０の後に、方法７００は終了する。

様々な実施形態では、ソフトウェアアプリケーションのプログラム命令を使用して、本明細書に記載の方法及び／又はメカニズムを実装する。例えば、汎用又は専用プロセッサによって実行可能なプログラム命令が企図される。様々な実施形態では、そのようなプログラム命令は、高レベルプログラミング言語によって表される。他の実施形態では、プログラム命令は、高レベルプログラミング言語からバイナリ、中間又は他の形式にコンパイルされる。あるいは、ハードウェアの動作又は設計を説明するプログラム命令が書かれる。そのようなプログラム命令は、Ｃ等の高レベルプログラミング言語によって表される。あるいは、Ｖｅｒｉｌｏｇ等のハードウェア設計言語（hardware design language、ＨＤＬ）が使用される。様々な実施形態では、プログラム命令は、様々な非一時的なコンピュータ可読記憶媒体のうち何れかに記憶される。記憶媒体は、プログラム実行のためにプログラム命令をコンピューティングシステムに提供するために、使用中にコンピューティングシステムによってアクセス可能である。一般的に言えば、そのようなコンピューティングシステムは、少なくとも１つ以上のメモリと、プログラム命令を実行するように構成された１つ以上のプロセッサと、を含む。

上記の実施形態は、実施形態の非限定的な例に過ぎないことを強調しておきたい。上記の開示が十分に理解されると、多数の変形及び修正が当業者に明らかになるであろう。以下の特許請求の範囲は、全てのそのような変形及び修正を包含すると解釈されることが意図されている。

Claims

装置であって、
インターフェースと、
パイプラインと、を備え、
前記パイプラインは、
出力を伝達するように構成されたシェーダコアと、
前記パイプラインにおいて前記シェーダコアに続くラスタライザであって、前記シェーダコアから前記出力を受信するように構成されたラスタライザと、
前記ラスタライザに接続されたカリングユニットと、を備え、
前記シェーダコアは、
ドローコールを受信することと、
前記ドローコールに応じて、
カリング関数クエリを生成するための命令を実行することと、
前記カリング関数クエリを前記カリングユニットに伝達することと、
前記カリング関数クエリに対する応答を前記カリングユニットから受信することと、
前記カリングユニットから受信した前記応答に基づいて、前記ドローコールを取り消すか、継続するか、又は、変更するかどうかを決定することと、
を行うように構成されている、
装置。
前記カリングユニットは、前記カリング関数クエリに応じて、ライブ深度バッファにアクセスするためにカリング関数を実行するように構成されている、
請求項１の装置。
前記カリングユニットは、前記シェーダコアによって合成されたエンティティに対して前記カリング関数を実行するように構成されている、
請求項２の装置。
前記応答は、ブール値又はカバレッジ値を含む、
請求項１の装置。
前記シェーダコアは、前記命令を実行した結果として、モード及び座標を前記カリングユニットに提供するように更に構成されている、
請求項１の装置。
前記シェーダコアは、前記命令を実行するメッシュシェーダを含む、
請求項１の装置。
前記シェーダコアは、前記カリングユニットに送信された複数の未処理のカリング要求を追跡するように更に構成されている、
請求項１の装置。
シェーダコアが、ドローコールを受信することと、
前記ドローコールに応じて、
前記シェーダコアが、カリング関数クエリを生成するための命令を実行することと、
前記ドローコールに関して、前記カリング関数クエリを前記シェーダコアからカリングユニットに伝達することであって、前記カリングユニットは、パイプラインにおいて前記シェーダコアの後に存在する、ことと、
前記カリング関数クエリに対する応答を前記カリングユニットから受信することと、
インターフェースを介して前記カリングユニットから受信した前記カリング関数クエリに対する応答に基づいて、前記ドローコールを取り消すか、継続するか、又は、変更するかどうかを決定することと、
レンダリングされたプリミティブに対応するデータを、前記シェーダコアから、前記パイプラインにおいて前記シェーダコアに続くラスタライザに伝達することと、を含む、
方法。
前記カリングユニットが、前記カリング関数クエリに応じて、ライブ深度バッファにアクセスするためにカリング関数を実行することを更に含む、
請求項８の方法。
前記カリングユニットが、前記シェーダコアによって合成されたエンティティに対して前記カリング関数を実行することを更に含む、
請求項９の方法。
前記応答は、ブール値又はカバレッジ値を含む、
請求項８の方法。
前記シェーダコアが、前記命令を実行した結果として、モード及び座標を前記カリングユニットに提供することを更に含む、
請求項８の方法。
メッシュシェーダが前記命令を実行することを更に含む、
請求項８の方法。
前記シェーダコアが、前記カリングユニットに送信された複数の未処理のカリング要求を追跡することを更に含む、
請求項８の方法。
システムであって、
カリングユニットと、
ラスタライザと、
シェーダコアと、を備え、
前記シェーダコアは、パイプラインにおいて前記カリングユニットの前に存在し、
第１のインターフェースを介して、レンダリングされたプリミティブに対応するデータを前記ラスタライザに伝達することと、
ドローコールを受信することと、
前記ドローコールを受信したことに応じて、
カリング関数クエリを生成するための命令を実行することと、
前記第１のインターフェースとは異なる第２のインターフェースを介して、前記カリング関数クエリを前記カリングユニットに伝達することと、
前記第２のインターフェースを介して前記カリングユニットから受信した前記カリング関数クエリに対する応答に基づいて、前記ドローコールを取り消すか、継続するか、又は、変更するかどうかを決定することと、
を行うように構成されている、
システム。
前記カリングユニットは、前記カリング関数クエリに応じて、深度バッファにアクセスするためにカリング関数を実行するように構成されている、
請求項１５のシステム。
前記カリングユニットは、前記シェーダコアによって合成されたエンティティに対して前記カリング関数を実行するように構成されている、
請求項１６のシステム。
前記応答は、ブール値又はカバレッジ値を含む、
請求項１５のシステム。
前記シェーダコアは、前記命令を実行した結果として、モード及び座標を前記カリングユニットに提供するように更に構成されている、
請求項１５のシステム。
前記シェーダコアは、前記カリングユニットに送信された複数の未処理のカリング要求を追跡するように更に構成されている、
請求項１５のシステム。