JP2023554314A

JP2023554314A - グラフィックスパイプラインにおけるリソース使用量に基づくシェーダのスロットリング

Info

Publication number: JP2023554314A
Application number: JP2023535353A
Authority: JP
Inventors: パータクニシャンク; ウェインラムセイランディー; リトウィラータッド; エルドンマクラリーレックス
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2020-12-16
Filing date: 2021-12-14
Publication date: 2023-12-27
Also published as: EP4264558A1; KR20230125232A; CN116710953A; WO2022132725A1; US11776085B2; EP4264558A4; US20220188963A1

Abstract

処理システム［１００］は、第１のタイプの第１のシェーダ［２２６］及び第２のタイプの第２のシェーダ［２３４］を実行するグラフィックスパイプライン［２００］を含む。場合によっては、第１のシェーダはジオメトリシェーダであり、第２のシェーダはピクセルシェーダである。処理システムは、第１のシェーダによって生成されたプリミティブを保持し、プリミティブを第２のシェーダに提供するバッファ［４１５］を含む。処理システムは、バッファのフルネスを監視するプリミティブハブ［３２５］を含む。第１のシェーダからのウェーブの送出は、バッファのフルネスに基づいてスロットリングされる。シェーダプロセッサ入力（ＳＰＩ）［３０３］は、フルネスを示すプリミティブハブからの信号、グラフィックスパイプラインにおけるジオメトリウェーブ及びピクセルウェーブの相対的なリソース使用量の指標、又は、ジオメトリウェーブの寿命の指標に基づいて、ジオメトリシェーダによって送出されたウェーブを選択的にスロットリングする。【選択図】図４

Description

グラフィックス処理ユニット（graphics processing unit、ＧＰＵ）は、コマンドバッファから取り出されたコマンドのコピーを同時に処理するグラフィックス処理パイプラインを実装する。グラフィックスパイプラインは、グラフィックスパイプラインのリソース及び１つ以上の固定機能ハードウェアブロックを使用して実行する１つ以上のシェーダを含む。グラフィックスパイプラインは、通常、ジオメトリ部分に分割され、頂点及び辺から形成されて画像の部分を表す三角形等のパッチ又は他のプリミティブに対してジオメトリ演算を実行する。ジオメトリ部分内のシェーダは、頂点シェーダ、全体シェーダ、ドメインシェーダ及びジオメトリシェーダを含み得る。グラフィックスパイプラインのジオメトリ部分は、パイプラインのジオメトリ部分によって生成されたプリミティブがラスタ化されて（例えば、１つ以上のスキャンコンバータによって）、画像の部分を表すピクセルのセットを形成する場合に完了する。ピクセルに対する後続の処理は、ピクセル処理と称され、グラフィックスパイプラインのリソースを使用して実行するピクセルシェーダ等のシェーダによって実行される動作を含む。ＧＰＵ及び他のマルチスレッド処理ユニットは、通常、単一のウェーブとして複数のデータセットに対して単一のプログラムの複数のインスタンスを同時に実行する複数の処理要素（プロセッサコア又は計算ユニットとも称される）を実装する。ハードウェアに実装された階層に適合するように、階層実行モデルが使用される。実行モデルは、全てのウェーブ（ウェーブフロント、スレッド、ストリーム又はワークアイテムとも称される）によって実行される命令のカーネルを定義する。

本開示は、添付の図面を参照することによってより良好に理解され、その数々の特徴及び利点が当業者に明らかになり得る。異なる図面における同じ符号の使用は、類似又は同一のアイテムを示す。

いくつかの実施形態による、処理システムのブロック図である。いくつかの実施形態による、高次ジオメトリプリミティブの処理を提供して、所定の解像度で三次元（three－dimensional、３Ｄ）シーンのラスタ化された画像を生成するように構成されたグラフィックスパイプラインを示す図である。いくつかの実施形態による、異なるタイプのシェーダのリソース使用量に基づいてシェーダスロットリングを実装するグラフィックスパイプラインの一部分のブロック図である。いくつかの実施形態による、グラフィックスパイプラインにおけるリソース使用量に基づいてジオメトリウェーブを選択的に送出（launches）するグラフィックスパイプラインの一部分のブロック図である。いくつかの実施形態による、バッファフルネスに基づいてジオメトリウェーブを選択的にスロットリングするためのカウンタ値を決定する方法のフロー図である。いくつかの実施形態による、ジオメトリシェーダウェーブ及びピクセルシェーダウェーブの相対的なリソース使用量に基づいて、ジオメトリウェーブを選択的にスロットリングするためのカウンタ値を決定する方法のフロー図である。いくつかの実施形態による、ジオメトリシェーダウェーブ又はそのグループの寿命（lifetimes）に基づいて、ジオメトリウェーブを選択的にスロットリングするためのカウンタ値を決定する方法のフロー図である。いくつかの実施形態による、ジオメトリシェーダウェーブをスロットリングする前の「スロットリングなし（no throttle）」状態を表す第１の時間間隔を示す図である。図示した実施形態では、サンプリングロジックがサンプリングを開始する。いくつかの実施形態による、ジオメトリシェーダウェーブのためのスロットリングなしからスロットリングありへの遷移を含む第２の時間間隔を示す図である。いくつかの実施形態による、プリミティブハブからのバックプレッシャの低減によるスロットリングありからスロットリングなしへの遷移を含む第３の時間間隔を示す図である。いくつかの実施形態による、スロットリングありからスロットリングなしへの遷移が完了する第４の時間間隔を示す図である。

ＧＰＵのグラフィックスパイプラインのジオメトリ部分におけるジオメトリシェーダ等のシェーダは、シェーダによって処理されるウェーブを送出する。シェーダ処理の結果は、パイプライン内の他のシェーダ等の下流エンティティに渡される。例えば、ジオメトリシェーダウェーブジェネレータは、グラフィックスパイプラインのリソースを可能な限り多く使用しようと試みる貪欲アルゴリズム（greedy algorithm）を使用してウェーブを送出する。ジオメトリシェーダによって処理されたプリミティブは、ピクセルシェーダにおける処理のためにプリミティブをピクセルに変換する１つ以上のスキャンコンバータに渡される。１つのシェーダにおける処理のために貪欲アルゴリズムに基づいてウェーブを送出することは、プリミティブ又はピクセルに対するそれらの演算を完了するために必要とされるリソースを下流シェーダから奪うことができる。例えば、ジオメトリシェーダウェーブジェネレータがあまりにも多くのウェーブを送出し、ジオメトリシェーダがグラフィックスパイプラインのリソースを独占する場合、ピクセルシェーダは、スキャンコンバータから受信されたピクセルに対してシェーディングを実行するためにグラフィックスパイプラインのリソースにアクセスすることができないことがある。いくつかのグラフィックスパイプラインは、ウェーブを処理するためにシェーダに割り当てられ得る計算ユニットの数を制約することによって、インフライトのウェーブの数を制限するように構成されている。しかしながら、利用可能な計算ユニットの数に対する静的な制限は、より多数の計算ユニットを必要とするドローコールを実行する場合に、グラフィックスパイプラインの性能を、通常低下させる。

図１～図１１は、第１のタイプの第１のシェーダ及び第２のタイプの第２のシェーダによって消費されるグラフィックスパイプラインリソースの測度に基づいて第１のシェーダからウェーブを選択的に送出することによって、第１のシェーダ及び第２のシェーダによって消費されるリソース間のバランスを維持するグラフィックスパイプラインの実施形態を開示する。いくつかの実施形態では、第１のシェーダはジオメトリシェーダであり、第２のシェーダはピクセルシェーダである。ジオメトリシェーダは、プリミティブをスキャンコンバータに提供するバッファのフルネスと、ジオメトリシェーダ及びピクセルシェーダへのリソースの相対割り当ての測度とに基づいて、ジオメトリウェーブを選択的に送出する。プリミティブハブは、ジオメトリシェーダからプリミティブを受信し、受信されたプリミティブに基づいてピクセルを生成するスキャンコンバータのセットにプリミティブを提供する先入れ先出し（first－in－first－out、ＦＩＦＯ）バッファのセットのフルネスを監視する。プリミティブハブは、「デッド」サイクルの数を示すためにインクリメントされるストールカウンタとして実装されるストール信号を使用して、ジオメトリシェーダによって送出されるウェーブをスロットリングする。デッドサイクルの数は、ＦＩＦＯバッファの少なくとも１つのフルネスに基づいて決定され、次いで、各クロックサイクルにおいてデクリメントされる。ジオメトリシェーダは、ストールカウンタが０等の所定の値を有することに応じてウェーブを送出する。

プリミティブハブは、シェーダプロセッサ入力（shader processor input、ＳＰＩ）にフルネスを示すフィードバックを提供し、ＳＰＩは、ジオメトリシェーダ及びピクセルシェーダのリソース使用量に基づいてジオメトリシェーダウェーブを選択的にスロットリングする。ＳＰＩのいくつかの実施形態は、インフライトジオメトリシェーダウェーブ及びインフライトピクセルシェーダウェーブへのローカルデータストア（local data store、ＬＤＳ）リソースの相対割り当て、インフライトジオメトリシェーダウェーブ及びインフライトピクセルシェーダウェーブへのベクトル汎用レジスタ（vector general－purpose registers、ＶＧＰＲ）等のレジスタの相対割り当て、又は、それらの組み合わせを決定する。ＳＰＩは、インフライトジオメトリシェーダウェーブ及びインフライトピクセルシェーダウェーブへのリソースの相対割り当てが、インフライトジオメトリシェーダウェーブがリソースを消費して、インフライトピクセルシェーダウェーブの処理を妨げていることを示す閾値を超えたことに応じて、ストールカウンタをインクリメントする。いくつかの実施形態では、ストールカウンタの値は、１つ以上のジオメトリシェーダグループ内のジオメトリシェーダウェーブの寿命に基づいて決定され、寿命が閾値を超えた場合にストールカウンタがインクリメントされる。

図１は、いくつかの実施形態による、処理システム１００のブロック図である。処理システム１００は、ダイナミックランダムアクセスメモリ（Dynamic Random－Access Memory、ＤＲＡＭ）等の非一時的なコンピュータ可読記憶媒体を使用して実装されるメモリ１０５又は他の記憶構成要素を含むか、又は、それらへのアクセスを有する。しかしながら、場合によっては、メモリ１０５は、スタティックランダムアクセスメモリ（Static Random－Access Memory、ＳＲＡＭ）、不揮発性ＲＡＭ等を含む他のタイプのメモリを使用して実装することもできる。メモリ１０５は、処理システム１００において実装される処理ユニットの外部に実装されるために外部メモリと称される。また、処理システム１００は、メモリ１０５等のように、処理システム１００において実装されるエンティティ間の通信をサポートするためのバス１１０を含む。処理システム１００のいくつかの実施形態は、他のバス、ブリッジ、スイッチ、ルータ等を含むが、これらは明確にするために図１には示されていない。

本明細書で説明される技術は、様々な実施形態では、様々な並列プロセッサ、例えば、ベクトルプロセッサ、グラフィックス処理ユニット（ＧＰＵ）、汎用ＧＰＵ（general－purpose GPU、ＧＰＧＰＵ）、非スカラプロセッサ、高並列プロセッサ、人工知能（artificial intelligence、ＡＩ）プロセッサ、推論エンジン、機械学習プロセッサ、他のマルチスレッド処理ユニット等の何れかで利用される。図１は、いくつかの実施形態による、並列プロセッサ、特に、グラフィックス処理ユニット（ＧＰＵ）１１５の一例を示す。グラフィックス処理ユニット（ＧＰＵ）１１５は、ディスプレイ１２０上に提示するための画像をレンダリングする。例えば、ＧＰＵ１１５は、オブジェクトをレンダリングして、ディスプレイ１２０に提供されるピクセルの値を生成し、ディスプレイ１２０は、ピクセル値を使用して、レンダリングされたオブジェクトを表す画像を表示する。ＧＰＵ１１５は、命令を同時に又は並列に実行する複数の計算ユニット（compute unit、ＣＵ）１２１、１２２、１２３（本明細書ではまとめて「計算ユニット１２１～１２３」と称される）を実装する。いくつかの実施形態では、計算ユニット１２１～１２３は、１つ以上の単一命令複数データ（ＳＩＭＤ）ユニットを含み、計算ユニット１２１～１２３は、ワークグループプロセッサ、シェーダアレイ、シェーダエンジン等に集約される。ＧＰＵ１１５において実装される計算ユニット１２１～１２３の数は、設計上の選択の問題であり、ＧＰＵ１１５のいくつかの実施形態は、図１に示されるよりも多い又は少ない計算ユニットを含む。計算ユニット１２１～１２３は、本明細書で説明するように、グラフィックスパイプラインを実装するために使用することができる。ＧＰＵ１１５のいくつかの実施形態は、汎用コンピューティングのために使用される。ＧＰＵ１１５は、メモリ１０５に記憶されたプログラムコード１２５等の命令を実行し、ＧＰＵ１１５は、実行された命令の結果等の情報をメモリ１０５に記憶する。

また、処理システム１００は、バス１１０に接続され、したがってバス１１０を介してＧＰＵ１１５及びメモリ１０５と通信する中央処理装置（Central Processing Unit、ＣＰＵ）１３０を含む。ＣＰＵ１３０は、命令を同時に又は並列に実行する複数のプロセッサコア１３１、１３２、１３３（本明細書ではまとめて「プロセッサコア１３１～１３３」と称される）を実装する。ＣＰＵ１３０において実装されるプロセッサコア１３１～１３３の数は、設計上の選択の問題であり、いくつかの実施形態は、図１に示されるよりも多い又は少ないプロセッサコアを含む。プロセッサコア１３１～１３３は、メモリ１０５に記憶されたプログラムコード１３５等の命令を実行し、ＣＰＵ１３０は、実行された命令の結果等の情報をメモリ１０５に記憶する。また、ＣＰＵ１３０は、ＧＰＵ１１５にドローコールを発行することによって、グラフィックス処理を開始することができる。ＣＰＵ１３０のいくつかの実施形態は、同時に又は並列に命令を独立して実行する複数のプロセッサコア（明確化のために図１には示さず）を含む。

入力／出力（Input／Output、Ｉ／Ｏ）エンジン１４５は、ディスプレイ１２０と関連付けられた入力又は出力動作、並びに、キーボード、マウス、プリンタ、外部ディスク等のような処理システム１００の他の要素を扱う。Ｉ／Ｏエンジン１４５は、Ｉ／Ｏエンジン１４５がメモリ１０５、ＧＰＵ１１５又はＣＰＵ１３０と通信するようにバス１１０に結合される。図示した実施形態では、Ｉ／Ｏエンジン１４５は、コンパクトディスク（Compact Disk、ＣＤ）、デジタルビデオディスク（Digital Video Disc、ＤＶＤ）等の非一時的なコンピュータ可読記憶媒体を使用して実装される、外部記憶コンポーネント１５０上に記憶される情報を読み取る。また、Ｉ／Ｏエンジン１４５は、ＧＰＵ１１５又はＣＰＵ１３０による処理の結果等の情報を外部記憶コンポーネント１５０に書き込むことができる。

処理システム１００は、パイプラインの複数のステージにおいて命令を実行するためのパイプライン回路を実装する。パイプライン回路は、計算ユニット１２１～１２３又はプロセッサコア１３１～１３３のいくつかの実施形態において実装される。いくつかの実施形態では、パイプライン回路は、限定はしないが、頂点シェーダ、ハルシェーダ、ドメインシェーダ、ジオメトリシェーダ及びピクセルシェーダを含む異なるタイプのシェーダを実行するグラフィックスパイプラインを実装するために使用される。また、パイプライン回路は、シェーダによって生成されたプリミティブを保持するバッファ含む。いくつかの実施形態では、１つ以上のバッファが、ジオメトリシェーダによって生成されたプリミティブを保持し、次いで、これらのプリミティブをピクセルシェーダに提供する。また、パイプライン回路は、バッファのフルネスを監視するプリミティブハブを含む。ジオメトリシェーダからのウェーブの送出は、バッファのフルネスに基づいてスロットリングされる。シェーダプロセッサ入力（ＳＰＩ）は、フルネスを示すプリミティブハブからの信号、グラフィックスパイプラインにおけるジオメトリウェーブ及びピクセルウェーブの相対的なリソース使用量の指標、又は、ジオメトリウェーブの寿命の指標に基づいて、ジオメトリシェーダによって送出されたウェーブを選択的にスロットリングする。

図２は、いくつかの実施形態による、高次ジオメトリプリミティブを処理して、所定の解像度で三次元（３Ｄ）シーンのラスタ化された画像を生成するように構成されたグラフィックスパイプライン２００を示す。グラフィックスパイプライン２００は、図１に示される処理システム１００のいくつかの実施形態で実施される。グラフィックスパイプライン２００の図示した実施形態は、ＤＸ１１仕様に従って実装される。グラフィックスパイプライン２００の他の実施形態は、Ｖｕｌｋａｎ、Ｍｅｔａｌ、ＤＸ１２等の他のアプリケーションプログラミングインターフェース（Application Programming Interfaces、ＡＰＩ）に従って実装される。グラフィックスパイプライン２００は、ラスタ化前のグラフィックスパイプライン２００の部分を含むジオメトリ部２０１と、ラスタ化後のグラフィックスパイプライン２００の部分を含むピクセル処理部２０２と、に細分される。

グラフィックスパイプライン２００は、バッファを実装し、頂点データ、テクスチャデータ等を記憶するために使用される１つ以上のメモリ又はキャッシュの階層等のストレージリソース２０５にアクセスすることができる。図示した実施形態では、ストレージリソース２０５は、データを記憶するために使用されるローカルデータストア（ＬＤＳ）２０６回路と、グラフィックスパイプライン２００によるレンダリング中に使用されるレジスタ値を記憶するために使用されるベクトル汎用レジスタ（ＶＧＰＲ）と、を含む。ストレージリソース２０５は、図１に示されるメモリ１０５のいくつかの実施形態を使用して実装され得る。

入力アセンブラ２１０は、シーンのモデルの部分を表すオブジェクトを定義するために使用される、ストレージリソース２０５から情報にアクセスする。プリミティブの一例が三角形２１１として図２に示されているが、グラフィックスパイプライン２００のいくつかの実施形態では、他のタイプのプリミティブが処理される。三角形２０３は、１つ以上の辺２１４によって接続された１つ以上の頂点２１２を含む（明確にするために、図２には各々の１つのみが示されている）。頂点２１２は、グラフィックスパイプライン２００のジオメトリ処理部２０１中にシェーディングされる。

頂点シェーダ２１５は、図示した実施形態ではソフトウェアで実装されており、プリミティブの単一の頂点２１２を入力として論理的に受信し、単一の頂点を出力する。頂点シェーダ２１５等のシェーダのいくつかの実施形態は、複数の頂点が同時に処理されるように、単一命令－複数データ（ＳＩＭＤ）処理を実装する。グラフィックスパイプライン２００は、グラフィックスパイプライン２００に含まれる全てのシェーダが、共有大規模ＳＩＭＤ計算ユニット上に同じ実行プラットフォームを有するように、統一されたシェーダモデルを実装する。したがって、頂点シェーダ２１５を含むシェーダは、本明細書では統一されたシェーダプール２１６と称される一般的なリソースのセットを使用して実装される。

ハルシェーダ２１８は、入力パッチを定義するために使用される入力高次パッチ又は制御ポイント上で動作する。ハルシェーダ２１８は、テッセレーション係数及び他のパッチデータを出力する。いくつかの実施形態では、ハルシェーダ２１８によって生成されたプリミティブは、テッセレータ２２０に提供される。テッセレータ２２０は、ハルシェーダ２１８からオブジェクト（パッチ等）を受信し、例えば、ハルシェーダ２１８によってテッセレータ２２０に提供されたテッセレーション係数に基づいて、入力オブジェクトをテッセレーションすることにより、入力オブジェクトに対応するプリミティブを識別する情報を生成する。テッセレーションは、例えば、テッセレーションプロセスによって生成されたプリミティブの粒度を指定するテッセレーション係数によって示されるように、パッチ等の入力高次プリミティブを、より細かいレベルの詳細を表す低次出力プリミティブのセットに細分する。したがって、シーンのモデルは、（メモリ又は帯域幅を節約するため）より少数の高次プリミティブによって表され、追加の詳細は、高次プリミティブをテッセレーションすることによって追加される。

ドメインシェーダ２２４は、ドメインの場所及び（オプションで）他のパッチデータを入力する。ドメインシェーダ２２４は、提供された情報で動作し、入力ドメインの場所及び他の情報に基づいて、出力のための単一の頂点を生成する。図示した実施形態では、ドメインシェーダ２２４は、三角形２１１及びテッセレーション係数に基づいてプリミティブ２２２を生成する。ジオメトリシェーダ２２６は、入力プリミティブを受信し、入力プリミティブに基づいてジオメトリシェーダ２２６によって生成される最大４つのプリミティブを出力する。図示した実施形態では、ジオメトリシェーダ２２６は、テッセレートされたプリミティブ２２２に基づいて出力プリミティブ２２８を生成する。

プリミティブの１つのストリームが１つ以上のスキャンコンバータ２３０に提供され、いくつかの実施形態では、プリミティブの最大４つのストリームは、ストレージリソース２０５内のバッファに連結される。スキャンコンバータ２３０は、シェーディング動作、並びに、クリッピング、透視分割、切断及びビューポート選択等の他の動作を実行する。スキャンコンバータ２３０は、グラフィックスパイプライン２００のピクセル処理部２０２において後で処理されるピクセルのセット２３２を生成する。

図示した実施形態では、ピクセルシェーダ２３４は、ピクセルフロー（例えば、ピクセルのセット２３２を含む）を入力し、入力ピクセルフローに応じて０又は別のピクセルフローを出力する。出力マージャブロック２３６は、ピクセルシェーダ２３４から受信したピクセルに対してブレンド、深度、ステンシル又は他の動作を実行する。

グラフィックスパイプライン２００内のシェーダの一部又は全部は、ストレージリソース２０５に記憶されたテクスチャデータを使用してテクスチャマッピングを実行する。例えば、ピクセルシェーダ２３４は、ストレージリソース２０５からテクスチャデータを読み取り、テクスチャデータを使用して１つ以上のピクセルをシェーディングすることができる。次いで、シェーディングされたピクセルは、ユーザに提示するためにディスプレイに提供される。

図３は、いくつかの実施形態による、異なるタイプのシェーダのリソース使用量に基づいてシェーダスロットリングを実装するグラフィックスパイプラインの一部分３００のブロック図である。部分３００は、図２に示されるグラフィックスパイプライン２００のいくつかの実施形態を実装するために使用される。コマンドは、シェーダプロセッサ入力（ＳＰＩ）回路３０１、３０２、３０３（本明細書ではまとめて「ＳＰＩ３０１～３０３」と称される）に分配され、これらの回路は、対応するシェーダ３１１、３１２、３１３（本明細書ではまとめて「シェーダ３１１～３１３」と称される）による処理のためにウェーブを送出する。図示した実施形態では、シェーダ３１１～３１３は、ジオメトリシェーダとして実装される。明確にするために、図３には示されていないが、ＳＰＩ３０１～３０３は、本明細書で説明するように、シェーダ３１１～３１３のためのウェーブ送出をスロットリングするために使用されるカウンタを含む（又はカウンタに関連付けられる）。シェーダ３１１～３１３は、本明細書ではまとめて「ＰＡ３２１～３２３」と称される、対応するプリミティブアセンブラ（primitive assembler、ＰＡ）３２１、３２２、３２３に提供される点、線、三角形又は他のプリミティブを含む出力を生成する。

プリミティブハブ３２５は、ＰＡ３２１～３２３からプリミティブを受信し、本明細書ではまとめて「スキャンコンバータ３３１～３３２」と称されるスキャンコンバータ３３１、３３３、３３３にプリミティブを分配する。プリミティブハブ３２５のいくつかの実施形態は、ＰＡ３２０１２３の各々に関連付けられた先入れ先出し（ＦＩＦＯ）バッファのセットから構成されるバッファ複合体（明確にするために図３には示されていない）を含む。プリミティブハブ３２３が、対応するＦＩＦＯバッファを介して、ＰＡ３２１～３２３のいずれかからスキャンコンバータ３３１～３３３のいずれかにプリミティブを選択的に提供することができるように、バッファの各セットは、スキャンコンバータ３３１～３３３のうち対応する１つに関連付けられる。また、プリミティブハブ３２３は、ＦＩＦＯバッファのフルネスを示す信号をＳＰＩ３０１～３０３に提供し、これらの信号を使用して、本明細書で説明するように、ウェーブ送出を選択的にスロットリングする。スキャンコンバータ３３１～３３３は、受け取ったプリミティブをラスタ化して、表示のためのプリミティブを表すピクセルのセットを生成する。

ＳＰＩ３０１～３０３のいくつかの実施形態は、ジオメトリシェーダ（図２に示されるジオメトリシェーダ２２６等）及びピクセルシェーダ（図２に示されるピクセルシェーダ２３４等）を含むシェーダによるリソース使用量を示すデータを収集する。次いで、リソース使用量データは、ウェーブ送出を選択的にスロットリングするために使用される。いくつかの実施形態では、ＳＰＩ３０１～３０３は、ジオメトリシェーダによるリソース使用量がピクセルシェーダウェーブに悪影響を及ぼしていると判定したことに応じて、ジオメトリシェーダウェーブの送出レートを低減するために使用されるリソース使用量カウンタ（明確にするために図３には図示せず）を実装する。ＳＰＩ３０１～３０３によって取得されるデータは、以下を含む。
１．ＬＤＳ及びＶＧＰＲ消費を考慮することによる、インフライトのジオメトリシェーダウェーブ及びピクセルシェーダウェーブによって使用されるリソースの量。スロットリング回路は、以下を考慮する。
ａ．インフライトのジオメトリシェーダウェーブによって使用されるＶＧＰＲの数
ｂ．インフライトのピクセルシェーダウェーブによって使用されるＶＧＰＲの数
ｃ．インフライトのジオメトリシェーダウェーブによって使用されるＬＤＳチャンクの数
ｄ．インフライトのピクセルシェーダウェーブによって使用されるＬＤＳチャンクの数

データ収集ロジックは、ＳＰＩによってアクセス可能且つ変更可能なパラメータ値によって制御される２つの使用量モードを有する。
・モード０－ロジックは、シェーダエンジンに利用可能なＶＧＰＲの総数に対するジオメトリシェーダウェーブによって使用されるリソースの比を見る。この情報は、シェーダエンジン内のジオメトリシェーダによるリソース使用量を制限するために使用され得る。
・モード１－ロジックは、ジオメトリシェーダによって使用されるリソースと、ジオメトリシェーダリソース及びピクセルシェーダリソースの合計と、の比を見る。この情報は、ジオメトリシェーダ及びピクセルシェーダの相対的なリソース使用量を制限するために使用される。
２．ワークグループプロセッサにおいてリソースが利用可能でないため、ピクセルシェーダウェーブがストールされるサイクル数。ピクセルシェーダのスタイルカウントは、次のように決定される。
・スロットリングロジックはリソースアロケータロジックからストール信号を得る。
・ストールカウンタは、ストール信号がハイであるサイクル数をカウントし、次のサンプルにフロップされるストールカウントを生成する。
・フロップされたストールカウントは、ピクセルシェーダがウェーブ６４である場合、２の係数で乗算される。ストールカウントの最大値は、ウェーブ３２ピクセルシェーダについてはプログラムされたサンプル間隔に等しく、ウェーブ６４ピクセルシェーダについてはその値の２倍である。
・ストールカウンタはサンプル時に０にリセットする。

グラフィックスパイプラインの部分３００は、ジオメトリシェーダから送出されたウェーブのグループ内の何らかのレイテンシを隠すことができる。しかしながら、ウェーブ（又は対応するグループ）の実際の寿命がこの値を超える場合、グラフィックスパイプラインの性能は低下し、ジオメトリシェーダウェーブグループは、より長い持続時間にわたってリソースをブロックし始める。したがって、ピクセルシェーダウェーブがリソースについて不足している場合、より長い寿命を有するジオメトリシェーダグループは、より短い寿命を有するジオメトリシェーダグループよりもピクセルについて長いストールを潜在的に生成する。したがって、ＳＰＩ３０１～３０３のいくつかの実施形態は、ジオメトリシェーダグループの寿命を監視し、寿命を閾値と比較する。ＳＰＩ３０１～３０３は、ジオメトリシェーダグループの寿命が閾値を超えたことに応じて、ジオメトリシェーダからのウェーブ送出をスロットリングするために、より長いストールを生成する。

図４は、いくつかの実施形態による、グラフィックスパイプラインにおけるリソース使用量に基づいてジオメトリウェーブを選択的に送出するグラフィックスパイプラインの一部分４００のブロック図である。グラフィックスパイプラインの部分４００は、図１に示されるグラフィックスパイプライン２００及び図３に示されるグラフィックスパイプラインの部分３００のいくつかの実施形態を実装するために使用される。部分４００は、プリミティブアセンブラ（ＰＡ）４０１、４０２、４０３を含み、これらは、本明細書ではまとめて「ＰＡ４０１～４０３」と称され、図３に示すシェーダ３１１～３１３等の対応するシェーダからプリミティブを受信する。

プリミティブハブ４０５は、バッファ４１５のセット４１１、４１２、４１３（明確にするために１つのみが符号によって示される）を含み、セット４１１～４１３の各々は、本明細書ではまとめて「スキャンコンバータ４２１～４２３」と称される、対応するスキャンコンバータ４２１、４２２、４２３に関連付けられる。プリミティブハブ４０５は、ＰＡ４０１～４０３からプリミティブを受信し、セット４１１～４１３の各々における対応するバッファにプリミティブのコピーを記憶する。また、プリミティブハブ４０５は、バッファ４１５のフルネスを監視し、フルネスに基づいてウェーブ送出をスロットリングするかどうかを決定する。いくつかの実施形態において、プリミティブハブ４０５内のポーリングロジック４２５は、１０００クロックサイクル毎等のプログラムされた時間間隔で、セット４１１～４１３内のバッファ４１５にポーリングして、それらのフルネスを決定する。プリミティブハブ４０５内のレートリミッタ４３０は、ジオメトリシェーダのためのウェーブ送出をスロットリングするために使用されるデッドサイクルの数をインクリメントする。いくつかの実施形態では、レートリミッタ４３０は、インクリメント毎に追加されるデッドサイクルの数を示す第１の値と、インクリメントステップを示す第２の値と、を使用する。したがって、インクリメント毎に、デッドサイクルの数は第２の値だけインクリメントされ、デクリメントパルス毎に、デッドサイクルは第２の値だけ減少される。

グラフィックスパイプラインの部分４００は、ウェーブ送出を選択的にスロットリングするために使用されるデッドサイクルの数を示すカウンタ４３５を含む。カウンタ４３５のいくつかの実施形態は、図３に示されるＳＰＩ３０１～３０３等の対応するＳＰＩ内に実装される。プリミティブハブ４０５は、監視されたバッファフルネスを示す信号（例えば、バックプレッシャ）をＳＰＩに提供する。いくつかの実施形態では、バックプレッシャは、プリミティブハブ４０５とＰＡ４０１～４０３との間のインターフェース上で提供される。バックプレッシャは、カリング後に消費されるのを待っているジオメトリ作業の量の推定値を示す。例えば、バックプレッシャは、プリミティブハブ４０５から各ＳＰＩに伝達される２ビットステータス信号として伝達される。２ビットは、バッファ４１５のステータスを表す。いくつかの実施形態では、ステータスロジックは、各ＰＡ４０１に対応するセット４１１～４１３内の全てのバッファ４１５を見て、最も多くのエントリを有し、したがって最も「フル」であるバッファ４１５に基づいてステータスを生成する。本明細書で説明するように、ＳＰＩは異なるモードで動作することができる。表１は、いくつかの実施形態におけるステータスビットによって表されるステータスを示す。ステータスロジックは、ＰＡ４０１～４０３毎に複製される。

図５は、いくつかの実施形態による、バッファフルネスに基づいてジオメトリウェーブを選択的にスロットリングするためのカウンタ値を決定する方法５００のフロー図である。方法５００は、図１に示される処理システム１００、図２に示されるグラフィックスパイプライン２００、図３に示される処理システムの一部分３００、及び、図４に示される処理システムの一部分４００のいくつかの実施形態において実装される。

ブロック５０５において、プリミティブハブは、１つ以上のプリミティブアセンブラからデータを受信し、ラスタ化のために１つ以上のスキャンコンバータにデータを提供するＦＩＦＯバッファのセットのバッファフルネスを監視する。ブロック５１０において、プリミティブハブは、バッファフルネスに基づいてステータス信号を生成する。本明細書で説明するように、ステータス信号は、バッファフルネスの異なる範囲を示す値を有するビット（例えば、２ビット）のセットを含むことができる。

ブロック５１５において、プリミティブハブは、ステータス信号を１つ以上のＳＰＩに提供する。ブロック５２０において、カウンタ値がステータス信号に基づいて決定される。例えば、カウンタ値は、ステータス信号によって示されるバッファフルネスの範囲に基づいて決定される値を与えられることができ、その結果、カウンタ値は、バッファフルネスがより大きい場合、より大きい量だけインクリメントされる。本明細書で説明するように、ジオメトリウェーブの選択的なスロットリングは、ジオメトリシェーダウェーブ及びピクセルシェーダウェーブの相対的なリソース使用量に基づいて決定されたカウンタ値、並びに、ジオメトリシェーダウェーブ又はそのグループの寿命に基づいて決定されたカウンタ値と併せて、バッファフルネスに基づいて決定されたカウンタ値を使用して実行される。

図６は、いくつかの実施形態による、ジオメトリシェーダウェーブ及びピクセルシェーダウェーブの相対的なリソース使用量に基づいて、ジオメトリウェーブを選択的にスロットリングするためのカウンタ値を決定する方法６００のフロー図である。方法６００は、図１に示される処理システム１００、図２に示されるグラフィックスパイプライン２００、図３に示される処理システムの一部分３００、及び、図４に示される処理システムの一部分４００のいくつかの実施形態において実装される。

ブロック６０５において、ＳＰＩは、ジオメトリシェーダウェーブ及びピクセルシェーダウェーブによるリソース使用量を監視する。図示した実施形態では、ＳＰＩは、ジオメトリシェーダウェーブ及びピクセルシェーダウェーブによるＬＤＳ使用量、ＶＧＰＲ使用量、又は、それらの組み合わせを監視する。ブロック６１０において、ＳＰＩは、本明細書で説明するように、ＬＤＳ使用量、ＶＧＰＲ使用量、又は、それらの組み合わせに基づいて、ジオメトリシェーダウェーブ及びピクセルシェーダウェーブへの相対的なリソース割り当てを決定する。

決定ブロック６１５において、ＳＰＩは、相対割り当てが閾値を上回っているかどうかを決定する。上回っている場合、方法６００はブロック６２０に進み、ＳＰＩは、ジオメトリシェーダウェーブの送出を選択的にスロットリングするためのカウンタを設定するために使用される値をインクリメントする。相対割り当てが閾値を上回っていない場合、方法６００はブロック６２５に進み、ＳＰＩはカウンタをその現在の値に維持する。本明細書で説明するように、ジオメトリウェーブの選択的なスロットリングは、プリミティブハブにおけるバッファフルネスに基づいて決定されたカウンタ値、及び、ジオメトリシェーダウェーブ又はそのグループの寿命に基づいて決定されたカウンタ値と併せて、ジオメトリシェーダウェーブ及びピクセルシェーダウェーブの相対的なリソース使用量に基づいて決定されたカウンタ値を使用して実行される。

図７は、いくつかの実施形態による、ジオメトリシェーダウェーブ又はそのグループの寿命に基づいて、ジオメトリウェーブを選択的にスロットリングするためのカウンタ値を決定する方法７００のフロー図である。方法７００は、図１に示される処理システム１００、図２に示されるグラフィックスパイプライン２００、図３に示される処理システムの一部分３００、及び、図４に示される処理システムの一部分４００のいくつかの実施形態において実装される。

ブロック７０５において、ジオメトリシェーダウェーブ（又はジオメトリシェーダウェーブのグループ）が、グラフィックスパイプラインにおいて送出される。ブロック７１０において、ＳＰＩは、本明細書で説明するように、ジオメトリシェーダウェーブ（又はグループ）の寿命を決定する。決定ブロック７１５において、ＳＰＩは、寿命が閾値を上回っているかどうかを決定する。上回っている場合、方法７００はブロック７２０に進み、ＳＰＩは、ジオメトリシェーダウェーブの送出を選択的にスロットリングするためのカウンタを設定するために使用される値をインクリメントする。寿命が閾値を上回っていない場合、方法６００はブロック７２５に進み、ＳＰＩはカウンタをその現在の値に維持する。本明細書で説明するように、ジオメトリウェーブの選択的なスロットリングは、プリミティブハブにおけるバッファフルネスに基づいて決定されたカウンタ値、及び、ジオメトリシェーダウェーブ及びピクセルシェーダウェーブの相対的なリソース使用量に基づいて決定されたカウンタ値と併せて、ジオメトリシェーダウェーブ（又はグループ）の寿命に基づいて決定されたカウンタ値を使用して実行される。

いくつかの実施形態では、ジオメトリシェーダウェーブは、ストールカウントが０等の別の所定の値になるまで維持される所定の値（例えば、高い値又は１）を有するストール信号を追加することによってスロットリングされる。ストール信号がハイのままである間、リソースはグラントされず、ジオメトリシェーダウェーブに割り当てられる。ストールカウントは、プリミティブハブによって生成されたＦＩＦＯステータスデータ、ＳＰＩによって生成されたリソース使用量データ、及び、ジオメトリウェーブの寿命に基づいて決定される。例えば、ストールカウントは、上に開示された３つのオプションの中から最大のストールカウントを選択するためにＯＲ演算を適用することによって生成され得る。いくつかの実施形態では、最小ストールカウントは０に設定され、１０２４の最大ストールカウントが使用される。

プリミティブハブによる（又はプリミティブハブによって生成されたバックプレッシャに基づく）スロットリングは、ストールカウンタによって示されるデッドサイクルの数を制御するレジスタフィールドの値に基づいて実行される。第１のフィールドは、「スロットリングなし」状態からスロットリングあり状態への遷移時に追加されるデッドサイクルの数を示す。第２のフィールドは、各サンプル上のデッドサイクルに対するインクリメント又はデクリメントを示す。スロットリングが有効にされ、次のジオメトリシェーダウェーブがリソースをグラントされている場合、ストールカウンタにストールカウントがロードされ、ダウンカウントを開始する。追加されるデッドサイクルの数は、サンプル上で決定されるが、そのカウントは、次のジオメトリシェーダウェーブがリソースをグラントされていることに応じて使用される。

ＳＰＩによるスロットリングは、本明細書で説明するように、リソース使用量情報に基づいて決定される。いくつかの実施形態では、ジオメトリシェーダウェーブ送出をスロットリングするための複数のトリガが存在する。

第１のトリガは、ジオメトリシェーダウェーブによるＬＤＳ使用量に基づく。測定された使用量が閾値を超えたことに応じて、ジオメトリシェーダウェーブ送出はスロットリングされる。トリガ生成ロジックのいくつかの実施形態は、以下のモードを使用する。
・モード０－このモードは、シェーダエンジンにおいて利用可能な総ＬＤＳと比較したジオメトリシェーダグループのＬＤＳ使用量を見る。この比が閾値以上である場合、第１のトリガが設定される。有効レジスタ値は、０～９である。この値は、比較の前に１０倍される。
・モード１－このモードは、シェーダエンジン内のジオメトリシェーダウェーブ及びピクセルシェーダウェーブによって使用される総ＬＤＳと比較したジオメトリシェーダウェーブのＬＤＳ使用量を見る。この比が閾値以上である場合、第２のトリガが設定される。有効レジスタ値は、０～９である。この値は、比較の前に１０倍される。
・モード２－このモードは、使用量を見ない。第１のトリガは、常にこのモードに設定される。ＧＳリソース使用量にかかわらず、ＰＳウェーブがストールしている場合、ジオメトリシェーダウェーブの送出はスロットリングされる。

第２のトリガは、ジオメトリシェーダウェーブによるＶＧＰＲ使用量に基づく。測定された使用量が閾値を超えたことに応じて、ジオメトリシェーダウェーブ送出はスロットリングされる。トリガ生成ロジックのいくつかの実施形態は、以下のモードを使用する。
・モード０－このモードは、ジオメトリシェーダウェーブによって使用されるＶＧＰＲの数を見て、それをシェーダエンジンにおいて利用可能なＶＧＰＲの総数と比較する。この比が閾値以上である場合、第２のトリガが設定される。有効レジスタ値は、０～９である。この値は、比較の前に１０倍される。
・モード１－このモードは、ジオメトリシェーダウェーブによって使用されるＶＧＰＲの数を見て、それをシェーダエンジン内のジオメトリシェーダウェーブ及びピクセルシェーダウェーブによって使用されるＶＧＰＲの総数と比較する。この比が閾値以上である場合、第２のトリガが設定される。有効レジスタ値は、０～９である。この値は、比較の前に１０倍される。
・モード２－このモードは、使用量を見ない。第２のトリガは、常にこのモードに設定される。ジオメトリシェーダリソース使用量にかかわらず、ピクセルシェーダウェーブがストールしている場合、ジオメトリシェーダウェーブの送出がスロットリングされる。

第３のトリガは、ピクセルシェーダウェーブがストールされるサイクルの平均数に基づいて設定される。ピクセルシェーダウェーブストールのサイクル数は、所定の時間間隔で、例えば、所定数のクロックサイクル後にサンプリングされる。第３のトリガは、以下の条件が満たされる場合に設定される。
１．ピクセルシェーダストールサイクルの現在の数が、計算された平均ストールサイクル以上であるか又は最大サンプルカウントに等しい。
２．ピクセルシェーダストールサイクルの現在の数が閾値以上である。
ＳＰＩスロットルが有効にされ、第３のトリガが設定され、第１のトリガ又は第２のトリガの何れかが設定された場合、ＳＰＩスロットルはアクティブである。スロットリングロジック及びＳＰＩは、ストールカウンタによって示されるデッドサイクルの数を制御するレジスタフィールドを使用する。第１のフィールドは、「スロットリングなし」状態からスロットリングあり状態への遷移時に追加されるデッドサイクルの数を示す。第２のフィールドは、各サンプル上のデッドサイクルに対するインクリメント又はデクリメントを示す。スロットリングが有効にされ、次のジオメトリシェーダウェーブがリソースをグラントされている場合、ストールカウンタにストールカウントがロードされ、ダウンカウントを開始する。追加されるデッドサイクルの数は、サンプル上で決定されるが、そのカウントは、次のジオメトリシェーダウェーブがリソースをグラントされていることに応じて使用される。

図８は、いくつかの実施形態による、ジオメトリシェーダウェーブをスロットリングする前の「スロットリングなし」状態を表す第１の時間間隔８００を示す。図示した実施形態では、サンプリングロジックがサンプリングを開始する。１００クロックサイクル後、サンプリングロジックは、ＦＩＦＯバッファのステータスが００のプリミティブにあることを示す信号を検出する。スロットリングは適用されない。

図９は、いくつかの実施形態による、ジオメトリシェーダウェーブのためのスロットリングなしからスロットリングありへの遷移を含む第２の時間間隔９００を示す。１０００クロック後、プリミティブハブ内のＦＩＦＯバッファのステータスは００から１０に変化する。最大カウンタ値は、スロットル基数＊４に等しい２５６に設定される。次のジオメトリシェーダウェーブは、１２００クロック後にリソースをグラントされる。これは、スロットリングなし状態からスロットリングあり状態への最初の遷移である。カウンタはダウンカウントを開始し、カウンタが０の所定の値になるまでストールを設定する。

図１０は、いくつかの実施形態による、プリミティブハブからのバックプレッシャの低減によるスロットリングありからスロットリングなしへの遷移を含む第３の時間間隔１０００を示す。３０００クロックで、サンプルは、プリミティブハブ内のＦＩＦＯバッファのステータスの１０から０１への変化を検出する。最大カウンタ値は１２８に設定される。次のジオメトリシェーダウェーブは、３１００クロックでグラントされる。カウンタはカウントを開始し、ストールは１２８クロックの間ハイのままである。

図１１は、いくつかの実施形態による、スロットリングありからスロットリングなしへの遷移が完了する第４の時間間隔１１００を示す。３５００クロックで、サンプリングは、プリミティブハブ内のＦＩＦＯバッファのステータスの０１から００への変化を検出する。最大カウンタ値は０に設定される。３６００クロックで、サンプリングは、プリミティブハブ内のＦＩＦＯバッファのステータスの変化を検出しない。最大カウンタ値は０のままである。

本明細書で開示されるように、いくつかの実施形態では、装置は、第１のタイプの第１のシェーダ及び第２のタイプの第２のシェーダを実行するように構成されたグラフィックスパイプラインと、第１のシェーダによって生成されたプリミティブを保持し、プリミティブを第２のシェーダに提供するように構成された少なくとも１つのバッファと、少なくとも１つのバッファの少なくとも１つのフルネスを監視するように構成されたプリミティブハブと、を含み、第１のシェーダからのウェーブの送出は、少なくとも１つのフルネスに基づいてスロットリングされる。一態様では、第１のシェーダはジオメトリシェーダであり、第２のシェーダはピクセルシェーダであり、少なくとも１つのバッファは先入れ先出し（ＦＩＦＯ）バッファである。別の態様では、本装置は、デッドサイクルの数を示すように構成されたカウンタと、カウンタに基づいて、ジオメトリシェーダによって送出されたウェーブを選択的にスロットリングするように構成されたシェーダプロセッサ入力（ＳＰＩ）と、を含む。更に別の態様では、プリミティブハブが、少なくとも１つのフルネスを示すフィードバック信号をＳＰＩに提供するように構成され、デッドサイクルの第１の数は、フィードバック信号に基づいて決定される。

一態様では、ＳＰＩが、インフライトジオメトリシェーダウェーブ及びインフライトピクセルシェーダウェーブへのローカルデータストア（ＬＤＳ）リソースの第１の相対割り当て、並びに、インフライトジオメトリシェーダウェーブ及びインフライトピクセルシェーダウェーブへのベクトル汎用レジスタ（ＶＧＰＲ）の第２の相対割り当てのうち少なくとも１つを決定するように構成されている。別の態様では、ＳＰＩが、第１の相対割り当てを第１の閾値と比較すること、第２の相対割り当てを第２の閾値と比較すること、又は、それらの組み合わせによって、デッドサイクルの第２の数を決定するように構成されている。更に別の態様では、ＳＰＩが、ジオメトリシェーダによって送出された少なくとも１つのウェーブの少なくとも１つの寿命を決定し、少なくとも１つの寿命を少なくとも１つの第３の閾値と比較することに基づいて、デッドサイクルの第３の数を決定するように構成されている。更に別の態様では、カウンタは、デッドサイクルの第１の数、第２の数及び第３の数のうち少なくとも１つに基づいてインクリメントされ、カウンタは、各クロックサイクルにおいてデクリメントされる。更に別の態様では、ジオメトリシェーダは、カウンタが所定の値を有することに応じてウェーブを送出する。

いくつかの実施形態では、方法は、第１のタイプの第１のシェーダ及び第２のタイプの第２のシェーダをグラフィックスパイプライン上で実行することと、グラフィックスパイプラインのプリミティブハブにおいて、第１のシェーダによって生成されたプリミティブを保持し、プリミティブを第２のシェーダに提供するように構成された少なくとも１つのバッファの少なくとも１つのフルネスを監視することと、少なくとも１つのフルネスに基づいて、第１のシェーダから送出されたウェーブを選択的にスロットリングすることと、を含む。一態様では、第１のシェーダはジオメトリシェーダであり、第２のシェーダはピクセルシェーダであり、少なくとも１つのバッファは先入れ先出し（ＦＩＦＯ）バッファである。別の態様では、本方法は、デッドサイクルの数を示すようにカウンタを変更することと、シェーダプロセッサ入力（ＳＰＩ）において、カウンタに基づいて、ジオメトリシェーダによって送出されたウェーブを選択的にスロットリングすることと、を含む。更に別の態様では、本方法は、少なくとも１つのフルネスを示すために、プリミティブハブからＳＰＩにフィードバック信号を提供することと、フィードバック信号に基づいてデッドサイクルの第１の数を決定することと、を含む。

一態様では、本方法は、ＳＰＩにおいて、インフライトジオメトリシェーダウェーブ及びインフライトピクセルシェーダウェーブへのローカルデータストア（ＬＤＳ）リソースの第１の相対割り当て、並びに、インフライトジオメトリシェーダウェーブ及びインフライトピクセルシェーダウェーブへのベクトル汎用レジスタ（ＶＧＰＲ）の第２の相対割り当てのうち少なくとも１つを決定することを含む。別の態様では、本方法は、ＳＰＩにおいて、第１の相対割り当てを第１の閾値と比較すること、第２の相対割り当てを第２の閾値と比較すること、又は、それらの組み合わせによって、デッドサイクルの第２の数を決定することを含む。更に別の態様では、本方法は、ＳＰＩにおいて、ジオメトリシェーダによって送出された少なくとも１つのウェーブの少なくとも１つの寿命を決定することと、ＳＰＩにおいて、少なくとも１つの寿命を少なくとも１つの第３の閾値と比較することに基づいて、デッドサイクルの第３の数を決定することと、を含む。

一態様では、本方法は、デッドサイクルの第１の数、第２の数及び第３の数のうち少なくとも１つに基づいてカウンタをインクリメントすることを含み、カウンタは、各クロックサイクルにおいてデクリメントされる。別の態様では、ジオメトリシェーダによって送出されたウェーブを選択的にスロットリングすることは、カウンタが所定の値を有することに応じてジオメトリシェーダからウェーブを送出することを含む。

いくつかの実施形態では、装置は、グラフィックスパイプラインにおいて、ジオメトリシェーダによって生成されたプリミティブを保持し、プリミティブをピクセルシェーダに提供するように構成された少なくとも１つのバッファの少なくとも１つのフルネスを監視するように構成されたプリミティブハブと、少なくとも１つのフルネスを示すプリミティブハブからの信号、グラフィックスパイプラインにおけるジオメトリウェーブ及びピクセルウェーブの相対的なリソース使用量の指標、及び、ジオメトリウェーブの寿命の指標のうち少なくとも１つに基づいて、ジオメトリシェーダによって送出されたウェーブを選択的にスロットリングするように構成されたシェーダプロセッサ入力（ＳＰＩ）と、を含む。一態様では、プリミティブハブからの信号は、少なくとも１つのフルネスの異なる範囲にマッピングされた値を有する２ビットを含む。

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

いくつかの実施形態では、上述した技術の特定の態様は、ソフトウェアを実行する処理システムの１つ以上のプロセッサによって実装される。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶されるか、別の方法で明確に具体化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、命令及び特定のデータを含んでもよく、当該命令及び特定のデータは、１つ以上のプロセッサによって実行されると、上述した技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する。非一時的なコンピュータ可読記憶媒体は、例えば、磁気又は光ディスク記憶デバイス、フラッシュメモリ等のソリッドステート記憶デバイス、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）、又は、他の不揮発性メモリデバイス（単数又は複数）等を含み得る。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈され若しくは別の方法で実行可能な他の命令形式で実装可能である。

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

Claims

装置であって、
第１のタイプの第１のシェーダ及び第２のタイプの第２のシェーダを実行するように構成されたグラフィックスパイプラインと、
前記第１のシェーダによって生成されたプリミティブを保持し、前記プリミティブを前記第２のシェーダに提供するように構成された少なくとも１つのバッファと、
前記少なくとも１つのバッファの少なくとも１つのフルネスを監視するように構成されたプリミティブハブと、を備え、
前記第１のシェーダからのウェーブの送出は、前記少なくとも１つのフルネスに基づいてスロットリングされる、
装置。
前記第１のシェーダはジオメトリシェーダであり、前記第２のシェーダはピクセルシェーダであり、前記少なくとも１つのバッファは先入れ先出し（ＦＩＦＯ）バッファである、
請求項１の装置。
デッドサイクルの数を示すように構成されたカウンタと、
前記カウンタに基づいて、前記ジオメトリシェーダによって送出されたウェーブを選択的にスロットリングするように構成されたシェーダプロセッサ入力（ＳＰＩ）と、を備える、
請求項２の装置。
前記プリミティブハブは、前記少なくとも１つのフルネスを示すフィードバック信号を前記ＳＰＩに提供するように構成されており、デッドサイクルの第１の数は、前記フィードバック信号に基づいて決定される、
請求項３の装置。
前記ＳＰＩは、インフライトジオメトリシェーダウェーブ及びインフライトピクセルシェーダウェーブへのローカルデータストア（ＬＤＳ）リソースの第１の相対割り当てと、前記インフライトジオメトリシェーダウェーブ及び前記インフライトピクセルシェーダウェーブへのベクトル汎用レジスタ（ＶＧＰＲ）の第２の相対割り当てと、のうち少なくとも１つを決定するように構成されている、
請求項４の装置。
前記ＳＰＩは、前記第１の相対割り当てを第１の閾値と比較すること、前記第２の相対割り当てを第２の閾値と比較すること、又は、これらの組み合わせによって、デッドサイクルの第２の数を決定するように構成されている、
請求項５の装置。
前記ＳＰＩは、前記ジオメトリシェーダによって送出された少なくとも１つのウェーブの少なくとも１つの寿命を決定し、前記少なくとも１つの寿命を少なくとも１つの第３の閾値と比較することによってデッドサイクルの第３の数を決定するように構成されている、
請求項６の装置。
前記カウンタは、デッドサイクルの前記第１の数、前記第２の数及び前記第３の数のうち少なくとも１つに基づいてインクリメントされ、前記カウンタは、各クロックサイクルにおいてデクリメントされる、
請求項７の装置。
前記ジオメトリシェーダは、前記カウンタが所定の値を有することに応じてウェーブを送出する、
請求項８の装置。
方法であって、
第１のタイプの第１のシェーダ及び第２のタイプの第２のシェーダをグラフィックスパイプライン上で実行することと、
前記グラフィックスパイプラインのプリミティブハブにおいて、前記第１のシェーダによって生成されたプリミティブを保持し、前記プリミティブを前記第２のシェーダに提供するように構成された少なくとも１つのバッファの少なくとも１つのフルネスを監視することと、
前記少なくとも１つのフルネスに基づいて、前記第１のシェーダから送出されたウェーブを選択的にスロットリングすることと、を含む、
方法。
前記第１のシェーダはジオメトリシェーダであり、前記第２のシェーダはピクセルシェーダであり、前記少なくとも１つのバッファは先入れ先出し（ＦＩＦＯ）バッファである、
請求項１０の方法。
デッドサイクルの数を示すようにカウンタを変更することと、
シェーダプロセッサ入力（ＳＰＩ）において、前記カウンタに基づいて、前記ジオメトリシェーダによって送出された前記ウェーブを選択的にスロットリングすることと、を含む、
請求項１１の方法。
前記少なくとも１つのフルネスを示すために、前記プリミティブハブから前記ＳＰＩにフィードバック信号を提供することと、
前記フィードバック信号に基づいてデッドサイクルの第１の数を決定することと、を含む、
請求項１２の方法。
前記ＳＰＩにおいて、インフライトジオメトリシェーダウェーブ及びインフライトピクセルシェーダウェーブへのローカルデータストア（ＬＤＳ）リソースの第１の相対割り当てと、前記インフライトジオメトリシェーダウェーブ及び前記インフライトピクセルシェーダウェーブへのベクトル汎用レジスタ（ＶＧＰＲ）の第２の相対割り当てと、のうち少なくとも１つを決定することを含む、
請求項１３の方法。
前記ＳＰＩにおいて、前記第１の相対割り当てを第１の閾値と比較すること、前記第２の相対割り当てを第２の閾値と比較すること、又は、これらの組み合わせによって、デッドサイクルの第２の数を決定することを含む、
請求項１４の方法。
前記ＳＰＩにおいて、前記ジオメトリシェーダによって送出された少なくとも１つのウェーブの少なくとも１つの寿命を決定することと、
前記ＳＰＩにおいて、前記少なくとも１つの寿命を少なくとも１つの第３の閾値と比較することによってデッドサイクルの第３の数を決定することと、を含む、
請求項１５の方法。
デッドサイクルの前記第１の数、前記第２の数及び前記第３の数のうち少なくとも１つに基づいて前記カウンタをインクリメントすることを含み、
前記カウンタは、各クロックサイクルにおいてデクリメントされる、
請求項１６の方法。
前記ジオメトリシェーダによって送出された前記ウェーブを選択的にスロットリングすることは、前記カウンタが所定の値を有することに応じて前記ジオメトリシェーダからウェーブを送出することを含む、
請求項１７の方法。
装置であって、
グラフィックスパイプラインにおいて、ジオメトリシェーダによって生成されたプリミティブを保持し、前記プリミティブをピクセルシェーダに提供するように構成された少なくとも１つのバッファの少なくとも１つのフルネスを監視するように構成されたプリミティブハブと、
前記少なくとも１つのフルネスを示す前記プリミティブハブからの信号と、前記グラフィックスパイプラインにおけるジオメトリウェーブ及びピクセルウェーブの相対的なリソース使用量の指標と、前記ジオメトリウェーブの寿命の指標と、のうち少なくとも１つに基づいて、前記ジオメトリシェーダによって送出されたウェーブを選択的にスロットリングするように構成されたシェーダプロセッサ入力（ＳＰＩ）と、を備える、
装置。
前記プリミティブハブからの信号は、前記少なくとも１つのフルネスの異なる範囲にマッピングされた値を有する２ビットを含む、
請求項１９の装置。