JP2024512466A

JP2024512466A - パラメータバッファに基づくウェーブスロットリング

Info

Publication number: JP2024512466A
Application number: JP2023556932A
Authority: JP
Inventors: ジェイ．ブレナンクリストファー; パータクニシャンク
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2021-03-30
Filing date: 2022-02-21
Publication date: 2024-03-19
Also published as: CN117377973A; US11710207B2; US20220318944A1; KR20240004302A; WO2022211926A1; EP4315228A1

Abstract

グラフィックスパイプライン（３００）は、第１のウェーブ群を生成する第１のシェーダ（３０５）と、実行のために第１のウェーブ群を起動するシェーダプロセッサ入力（ＳＰＩ）（３１０）と、第１のウェーブ群が１つ以上のシェーダで処理した結果に基づいて、実行のために第２のウェーブを生成するスキャンコンバータ（３６０）と、を含む。第１のウェーブ群は、インフライトの第１のウェーブ群と、少なくとも１つの第２のシェーダ上での実行を保留している第２のウェーブと、の比較に基づいて選択的にスロットリングされる。キャッシュ（３４０）は、第１のウェーブ群がシェーダ上での実行を終了することに応じてキャッシュに書き込まれる情報を保持する。情報は、第２のウェーブによって発行された読み取り要求に応じてキャッシュから読み取られる。場合によっては、第１のウェーブ群は、いくつの第１のウェーブ群がインフライトであり、キャッシュへのいくつの読み取り要求が保留中であるかを比較することによって選択的にスロットリングされる。【選択図】図２

Description

グラフィックス処理ユニット（graphics processing unit、ＧＰＵ）は、コマンドバッファから取り出されたコマンドのコピーを同時に処理するグラフィックス処理パイプラインを実装する。ＧＰＵ及び他のマルチスレッド処理ユニットは、典型的には、単一のウェーブ（wave）として、複数のデータセットに対して単一のプログラムの複数のインスタンスを同時に実行する複数の処理要素（プロセッサコア又は計算ユニットとも称される）を実装する。ハードウェアに実装された階層に適合するように、階層実行モデルが使用される。実行モデルは、全てのウェーブ（ウェーブフロント（wavefronts）、スレッド、ストリーム又はワークアイテムとも称される）によって実行される命令のカーネルを定義する。ＧＰＵ内のグラフィックスパイプラインは、計算ユニット、メモリ及びキャッシュ等のグラフィックスパイプラインのリソースを使用して実行する１つ以上のシェーダを含む。グラフィックスパイプラインは、通常、画像の部分を表すパッチ又は他のプリミティブに対してジオメトリ演算を実行するジオメトリ部分に分割される。ジオメトリ部分内のシェーダは、頂点シェーダ、ハルシェーダ、ドメインシェーダ及びジオメトリシェーダを含むことができる。グラフィックスパイプラインのジオメトリ部分は、パイプラインのジオメトリ部分によって生成されたプリミティブがラスタ化されて（例えば、１つ以上のスキャンコンバータによって）、画像の部分を表すピクセルのセットを形成する場合に完了する。ピクセルに対する後続の処理は、ピクセル処理と呼ばれ、グラフィックスパイプラインのリソースを使用して実行するピクセルシェーダ等のシェーダによって実行される動作を含む。

本開示は、添付の図面を参照することによってより良好に理解され、その多くの特徴及び利点が当業者に明らかになる。異なる図面における同じ符号の使用は、類似又は同一のアイテムを示す。

いくつかの実施形態による、処理システムのブロック図である。いくつかの実施形態による、高次ジオメトリプリミティブを処理して、所定の解像度で三次元（three-dimensional、３Ｄ）シーンのラスタ化された画像を生成することができるグラフィックスパイプラインを示す図である。いくつかの実施形態による、ジオメトリシェーダによって起動されたウェーブ又はウェーブ群を選択的にスロットリングするグラフィックスパイプラインの一部分のブロック図である。いくつかの実施形態による、ウェーブ又はウェーブ群を選択的にスロットリングする管理回路の第１の実施形態のブロック図である。いくつかの実施形態による、ウェーブ又はウェーブ群を選択的にスロットリングする管理回路の第２の実施形態のブロック図である。いくつかの実施形態による、ジオメトリシェーダウェーブ又はウェーブ群を選択的に起動する方法のフロー図である。

シェーダハブ内の計算ユニットによって実装される１つ以上のシェーダによる処理のために（１つ以上のウェーブを含む）ウェーブ群をディスパッチする前に、ジオメトリエンジンは、シェーダ内のウェーブ群を処理することによって生成された出力を記憶するためにメモリ又はキャッシュ内に空間を予約する。例えば、ジオメトリエンジンは、パラメータバッファを保持するためのスペースを求める予約要求をＰＣマネージャに送信することができる。ＰＣマネージャは、要求された空間をレベル２（level 2、Ｌ２）キャッシュ内に予約し、Ｌ２キャッシュ内の予約された空間を識別する情報をジオメトリエンジンに戻す。予約確認を受信することに応じて、ジオメトリエンジンは、シェーダプロセッサ入力（shader processor input、ＳＰＩ）にウェーブ群を提供し、ＳＰＩは、シェーダハブ内の計算ユニットによる処理のためにウェーブ群を起動する。シェーダ出力からの属性は、Ｌ２キャッシュ内の予約された空間に記憶される。位置がプリミティブアセンブラに提供され、プリミティブアセンブラは、プリミティブ（三角形等）をアセンブルし、プリミティブハブを介してプリミティブをスキャンコンバータに送る。スキャンコンバータは、ピクセルウェーブを生成し、このピクセルウェーブは、Ｌ２キャッシュから属性をフェッチするＳＰＩに戻される。次いで、シェーダハブ内の計算ユニットは、Ｌ２キャッシュから取り出された属性を使用して、ピクセルウェーブに対してピクセル処理を実行する。したがって、ジオメトリエンジンによって生成されるグラフィックスシェーダウェーブ群と、スキャンコンバータによって生成されるピクセルウェーブと、の間には依存性がある。この依存性は、ジオメトリエンジンが、あまりにも多くのデータをＬ２キャッシュに書き込むあまりにも多くのウェーブ群を起動する場合、Ｌ２キャッシュ内の他のデータタイプの空間を枯渇させる可能性があり、これは、過度のキャッシュスラッシングにつながり、グラフィックスパイプラインの性能を低下させる。

図１～図６は、スキャンコンバータによって生成されたインフライト（in-flight）のＧＳ作業と保留中のピクセルシェーダ（pixel shader、ＰＳ）作業との比較に基づいて、シェーダプロセッサ入力（ＳＰＩ）によって起動されたジオメトリシェーダ（geometry shader、ＧＳ）ウェーブ群（又は、頂点シェーダ等の他のシェーダに関連付けられたウェーブ群）を選択的にスロットリングすることによって、ジオメトリシェーダとピクセルシェーダとによって共有されるキャッシュのスラッシングを低減するためのシステム及び技術を開示する。スキャンコンバータは、キャッシュから情報を読み取る要求をＳＰＩに提供する。管理回路のいくつかの実施形態は、以下の３つのイベントのためのカウンタを維持する。（１）ＧＳウェーブ群の起動のための第１のカウンタ、（２）キャッシュに書き込むことによってシェーダ上での実行を終了したＧＳウェーブ群の第２のカウンタ、及び、（３）スキャンコンバータによって生成されたＰＳウェーブのためにキャッシュから読み取る要求の数の第３のカウンタ。カウンタは、ウィンドウイング先入れ先出し（first-in-first-out、ＦＩＦＯ）バッファに書き込まれる対応するイベントに応じてインクリメントされ、ウィンドウイングＦＩＦＯから読み出される対応するイベントに応じてデクリメントされる。管理回路は、第１のカウンタと第２のカウンタとの間の差に基づいて、インフライトのＧＳ作業の量を判定する。管理回路は、第２のカウンタと第３のカウンタとの間の差に基づいて、保留中のＰＳ作業の量を判定する。管理回路は、飛行中のＧＳ作業の量が保留中のＰＳ作業の量より多い場合、ＳＰＩによって起動されるウェーブ群をスロットリングする。そうでない場合、ＳＰＩは、貪欲アルゴリズム（greedy algorithm）等のアルゴリズムに従ってウェーブ群を自由に起動することができる。いくつかの実施形態では、ウェーブ群をスロットリングするための基準は、インフライトのＧＳ作業の量が、保留中のＰＳ作業の量に追加の係数を加えたものより多い場合に、管理回路が、ＳＰＩによって起動されるウェーブ群をスロットリングして、スロットリングがグラフィックスパイプラインの作業を枯渇させる可能性を減少させるように変更される。例えば、追加の係数は、保留中のＰＳ作業によって要求された読み取りの数のバースト性の尺度に基づいて判定することができる。

図１は、いくつかの実施形態による、処理システム１００のブロック図である。処理システム１００は、ダイナミックランダムアクセスメモリ（Dynamic Random-Access Memory、ＤＲＡＭ）等の非一時的なコンピュータ可読記憶媒体を使用して実装されるメモリ１０５又は他の記憶構成要素を含むか、それらへのアクセスを有する。しかしながら、場合によっては、メモリ１０５は、スタティックランダムアクセスメモリ（Static Random-Access Memory、ＳＲＡＭ）、不揮発性ＲＡＭ等を含む他のタイプのメモリを使用して実装することもできる。メモリ１０５は、処理システム１００において実装される処理ユニットの外部に実装されるために外部メモリと呼ばれる。また、処理システム１００は、メモリ１０５等のように、処理システム１００において実装されるエンティティ間の通信をサポートするためのバス１１０を含む。処理システム１００のいくつかの実施形態は、他のバス、ブリッジ、スイッチ、ルータ等を含むが、これらは明確にするために図１に示されていない。

本明細書で説明される技術は、様々な実施形態では、様々な並列プロセッサ（例えば、ベクトルプロセッサ、グラフィックス処理ユニット（ＧＰＵ）、汎用ＧＰＵ（general-purpose GPU、ＧＰＧＰＵ）、非スカラプロセッサ、高並列プロセッサ、人工知能（artificial intelligence、ＡＩ）プロセッサ、推論エンジン、機械学習プロセッサ、他のマルチスレッド処理ユニット等）の何れかで利用される。図１は、いくつかの実施形態による、並列プロセッサ、特に、グラフィックス処理ユニット（ＧＰＵ）１１５の一例を示している。グラフィックス処理ユニット（ＧＰＵ）１１５は、ディスプレイ１２０上に提示するための画像をレンダリングする。例えば、ＧＰＵ１１５は、オブジェクトをレンダリングして、ディスプレイ１２０に提供されるピクセルの値を生成し、ディスプレイ１２０は、ピクセル値を使用して、レンダリングされたオブジェクトを表す画像を表示する。ＧＰＵ１１５は、命令を同時に又は並列に実行する複数の計算ユニット（compute unit、ＣＵ）１２１、１２２、１２３（本明細書ではまとめて「計算ユニット１２１～１２３」と呼ぶ）を実装する。いくつかの実施形態では、計算ユニット１２１～１２３は、１つ以上の単一命令複数データ（single-instruction-multiple-data、ＳＩＭＤ）ユニットを含み、計算ユニット１２１～１２３は、ワークグループプロセッサ、シェーダアレイ、シェーダエンジン等に集約される。ＧＰＵ１１５において実装される計算ユニット１２１～１２３の数は、設計上の選択の問題であり、ＧＰＵ１１５のいくつかの実施形態は、図１に示されるよりも多い又は少ない計算ユニットを含む。計算ユニット１２１～１２３は、本明細書で説明されるように、グラフィックスパイプラインを実装するために使用することができる。ＧＰＵ１１５のいくつかの実施形態は、汎用コンピューティングのために使用される。ＧＰＵ１１５は、メモリ１０５に記憶されたプログラムコード１２５等の命令を実行し、ＧＰＵ１１５は、実行された命令の結果等の情報をメモリ１０５に記憶する。

また、処理システム１００は、バス１１０に接続され、したがってバス１１０を介してＧＰＵ１１５及びメモリ１０５と通信する中央処理ユニット（Central Processing Unit、ＣＰＵ）１３０を含む。ＣＰＵ１３０は、命令を同時に又は並列に実行する複数のプロセッサコア１３１、１３２、１３３（本明細書ではまとめて「プロセッサコア１３１～１３３」と呼ぶ）を実装する。ＣＰＵ１３０において実装されるプロセッサコア１３１～１３３の数は、設計上の選択の問題であり、いくつかの実施形態は、図１に示されるよりも多い又は少ないプロセッサコアを含む。プロセッサコア１３１～１３３は、メモリ１０５に記憶されたプログラムコード１３５等の命令を実行し、ＣＰＵ１３０は、実行された命令の結果等の情報をメモリ１０５に記憶する。また、ＣＰＵ１３０は、ＧＰＵ１１５にドローコールを発行することによって、グラフィックス処理を開始することができる。ＣＰＵ１３０のいくつかの実施形態は、同時に又は並列に命令を独立して実行する複数のプロセッサコア（明確化のために図１には示さず）を実装する。

入力／出力（Input/Output、Ｉ／Ｏ）エンジン１４５は、ディスプレイ１２０に関連付けられた入力又は出力動作、並びに、キーボード、マウス、プリンタ、外部ディスク等のような処理システム１００の他の要素を扱う。Ｉ／Ｏエンジン１４５は、Ｉ／Ｏエンジン１４５がメモリ１０５、ＧＰＵ１１５又はＣＰＵ１３０と通信するようにバス１１０に結合される。図示した実施形態では、Ｉ／Ｏエンジン１４５は、コンパクトディスク（Compact Disk、ＣＤ）、デジタルビデオディスク（Digital Video Disc、ＤＶＤ）等の非一時的なコンピュータ可読記憶媒体を使用して実装される外部記憶コンポーネント１５０に記憶された情報を読み取る。また、Ｉ／Ｏエンジン１４５は、ＧＰＵ１１５又はＣＰＵ１３０による処理の結果等の情報を外部記憶コンポーネント１５０に書き込むことができる。

処理システム１００は、パイプラインの複数のステージにおいて命令を実行するためのパイプライン回路を実装する。パイプライン回路は、計算ユニット１２１～１２３又はプロセッサコア１３１～１３３のいくつかの実施形態において実装される。いくつかの実施形態では、計算ユニット１２１～１２３を含むパイプライン回路は、限定はしないが、頂点シェーダ、ハルシェーダ、ドメインシェーダ、ジオメトリシェーダ及びピクセルシェーダを含む異なるタイプのシェーダを実行するグラフィックスパイプラインを実装するために使用される。処理システム１００のいくつかの実施形態は、ウェーブ又はジオメトリシェーダウェーブ群等のウェーブ群の実行の完了に応じて、シェーダによってキャッシュに書き込まれた情報を保持する１つ以上のキャッシュを含む。キャッシュに書き込まれた情報は、その後、ピクセルシェーダウェーブ等の他のウェーブ又はウェーブ群の実行中に読み出される。ジオメトリシェーダのいくつかの実施形態は、第１のウェーブ群を生成し、シェーダプロセッサ入力（ＳＰＩ）は、シェーダによる実行のために第１のウェーブ群を起動する。スキャンコンバータは、第１のウェーブ群、１つ以上のシェーダを処理した結果に基づいて、シェーダ上での実行のために第２のウェーブを生成する。第１のウェーブ群は、インフライトの第１のウェーブ群と、少なくとも１つのシェーダ上での実行を保留している第２のウェーブと、の比較に基づいて選択的にスロットリングされる。キャッシュは、第１のウェーブ群がシェーダ上での実行を終了することに応じてキャッシュに書き込まれる情報を保持する。情報は、第２のウェーブによって発行された読み取り要求に応じてキャッシュから読み取られる。場合によっては、第１のウェーブ群は、いくつの第１のウェーブ群がインフライトであり、キャッシュへのいくつの読み取り要求が保留中であるかを比較することによって、選択的にスロットリングされる。

図２は、いくつかの実施形態による、高次ジオメトリプリミティブを処理して、所定の解像度で三次元（３Ｄ）シーンのラスタ化された画像を生成することができるグラフィックスパイプライン２００を示している。グラフィックスパイプライン２００は、図１に示される処理システム１００のいくつかの実施形態で実装される。グラフィックスパイプライン２００の図示した実施形態は、ＤＸ１１仕様に従って実装される。グラフィックスパイプライン２００の他の実施形態は、Ｖｕｌｋａｎ、Ｍｅｔａｌ、ＤＸ１２等の他のアプリケーションプログラミングインターフェース（Application Programming Interfaces、ＡＰＩ）に従って実装される。グラフィックスパイプライン２００は、ラスタ化前のグラフィックスパイプライン２００の部分を含むジオメトリ処理部２０１と、ラスタ化後のグラフィックスパイプライン２００の部分を含むピクセル処理部２０２と、に細分される。

グラフィックスパイプライン２００は、バッファを実装し、頂点データ、テクスチャデータ等を記憶するために使用される１つ以上のメモリ又はキャッシュの階層等のストレージリソース２０５へのアクセスを有する。図示した実施形態において、ストレージリソース２０５は、データを記憶するために使用されるロードデータストア（load data store、ＬＤＳ）２０６回路を含む。また、ストレージリソース２０５は、頻繁に使用されるデータをキャッシュする１つ以上のキャッシュ２０７を含む。キャッシュ２０７は、パラメータバッファを実装するために使用される。本明細書で説明されるように、グラフィックスパイプライン２００のシェーダ上で実行されているウェーブ又はウェーブ群は、ウェーブ又はウェーブ群を処理した結果をキャッシュ２０７に書き込むことによって実行を終了する。グラフィックスパイプライン２００の更に下流のシェーダは、シェーダ上で以前に実行を終了したウェーブ又はウェーブ群による処理の結果等のように、キャッシュ２０７から情報を読み取るための読み取り要求を発行することができる。ストレージリソース２０５は、図１に示されるメモリ１０５のいくつかの実施形態を使用して実装され得る。

入力アセンブラ２１０は、シーンのモデルの部分を表すオブジェクトを定義するために使用される、ストレージリソース２０５からの情報にアクセスする。プリミティブの一例が三角形２１１として図２に示されているが、グラフィックスパイプライン２００のいくつかの実施形態では、他のタイプのプリミティブが処理される。三角形２０３は、１つ以上の辺２１４によって接続された１つ以上の頂点２１２を含む（明確にするために、図２には各々の１つのみが示されている）。頂点２１２は、グラフィックスパイプライン２００のジオメトリ処理部２０１中にシェーディングされる。

頂点シェーダ２１５は、図示した実施形態ではソフトウェアで実装されており、プリミティブの単一の頂点２１２を入力として論理的に受信し、単一の頂点を出力する。頂点シェーダ２１５等のシェーダのいくつかの実施形態は、複数の頂点が同時に処理されるように、単一命令－複数データ（ＳＩＭＤ）処理を実施する。グラフィックスパイプライン２００は、グラフィックスパイプライン２００に含まれる全てのシェーダが、共有大規模ＳＩＭＤ計算ユニット上に同じ実行プラットフォームを有するように、統一されたシェーダモデルを実装する。したがって、頂点シェーダ２１５を含むシェーダは、本明細書では統一されたシェーダプール２１６と呼ばれるリソースの共通セットを使用して実装される。

ハルシェーダ２１８は、入力パッチを定義するために使用される入力高次パッチ又は制御ポイント上で動作する。ハルシェーダ２１８は、テッセレーション係数と、ハルシェーダ２１８において処理されるパッチの制御点等の他のパッチデータと、を出力する。テッセレーション係数は、グラフィックスパイプライン２００内の他のエンティティによってアクセスされ得るように、ストレージリソース２０５内に記憶される。

テッセレータ２２０は、ハルシェーダ２１８からオブジェクト（パッチ等）を受信する。いくつかの実施形態では、ハルシェーダ２１８によって生成されたプリミティブは、テッセレータ２２０に提供される。テッセレータ２２０は、例えば、ハルシェーダ２１８によって生成されたテッセレーション係数に基づいて入力オブジェクトをテッセレーションすることにより、入力オブジェクトに対応するプリミティブを識別する情報を生成する。テッセレーションは、例えば、テッセレーションプロセスによって生成されたプリミティブの粒度を指定するテッセレーション係数によって示されるように、パッチ等の入力高次プリミティブを、より細かいレベルの詳細を表す低次出力プリミティブのセットに細分する。したがって、シーンのモデルは、（メモリ又は帯域幅を節約するため）より少数の高次プリミティブによって表され、追加の詳細は、高次プリミティブをテッセレーションすることによって追加される。

ドメインシェーダ２２４は、ドメインの場所及び（オプションで）他のパッチデータを入力する。ドメインシェーダ２２４は、提供された情報で動作し、入力ドメインの場所及び他の情報に基づいて、出力のための単一の頂点を生成する。図示した実施形態では、ドメインシェーダ２２４は、三角形２１１及びテッセレーション係数に基づいてプリミティブ２２２を生成する。ドメインシェーダ２２４は、処理の完了に応じてプリミティブ２２２を起動する。

ジオメトリシェーダ２２６は、ドメインシェーダ２２４から入力プリミティブを受け取り、入力プリミティブに基づいてジオメトリシェーダ２２６によって生成された（入力プリミティブごとの）最大４つのプリミティブを出力する。図示した実施形態では、ジオメトリシェーダ２２６は、テッセレートされたプリミティブ２２２に基づいて出力プリミティブ２２８を生成する。ジオメトリシェーダ２２６のいくつかの実施形態は、対応するシェーダプロセッサ入力（ＳＰＩ、明確にするために図２には図示せず）によって起動されるウェーブ群（本明細書では「ＧＳウェーブ群」と呼ばれる）を生成する。シェーダエンジン上での実行の終了に応じて、ウェーブ群は、出力をキャッシュ２０７に書き戻す。

プリミティブの１つのストリームが１つ以上のスキャンコンバータ２３０に提供され、いくつかの実施形態では、プリミティブの最大４つのストリームは、ストレージリソース２０５内のバッファに連結される。スキャンコンバータ２３０は、シェーディング動作、クリッピング、透視分割、切断及びビューポート選択等の他の動作を実行する。スキャンコンバータ２３０は、グラフィックスパイプライン２００のピクセル処理部２０２において後で処理されるピクセルのセット２３２を生成する。スキャンコンバータ２３０のいくつかの実施形態は、例えば、グラフィックスパイプライン２００に実装されたＳＰＩに要求を送信することによって、キャッシュ２０７から情報を読み取る要求を提供する。

図示した実施形態では、ピクセルシェーダ２３４は、ピクセルフロー（例えば、ピクセルのセット２３２を含む）を入力し、入力ピクセルフローに応じて０又は別のピクセルフローを出力する。出力マージャブロック２３６は、ピクセルシェーダ２３４から受信したピクセルに対してブレンド、深度、ステンシル又は他の動作を実行する。

グラフィックスパイプライン２００内のシェーダの一部又は全ては、ストレージリソース２０５に記憶されたテクスチャデータを使用してテクスチャマッピングを実行する。例えば、ピクセルシェーダ２３４は、ストレージリソース２０５からテクスチャデータを読み取り、テクスチャデータを使用して１つ以上のピクセルをシェーディングすることができる。次いで、シェーディングされたピクセルは、ユーザに提示するためにディスプレイに提供される。

図３は、いくつかの実施形態による、ジオメトリシェーダによって起動されたウェーブ又はウェーブ群を選択的にスロットリングするグラフィックスパイプライン３００の一部のブロック図である。グラフィックスパイプライン３００は、図１に示される処理システム１００及び図２に示されるグラフィックスパイプライン２００のいくつかの実施形態で実装される。

ジオメトリエンジン３０５は、ジオメトリシェーダのためにウェーブ又はウェーブ群を生成する。したがって、ジオメトリエンジン３０５によって生成されるウェーブ又はウェーブ群は、ＧＳウェーブ群と呼ばれる。しかしながら、いくつかの実施形態では、ウェーブ又はウェーブ群は、頂点シェーダ等の他のシェーダによって又は他のシェーダのために生成され、その場合、ウェーブ又はウェーブ群は、ＶＳウェーブ群等の他の名前で呼ばれる。ジオメトリエンジン３０５は、本明細書で説明されるように、ＧＳウェーブ群を選択的に起動又はスロットリングするＳＰＩ３１０に、ＧＳウェーブ群を提供する。また、ジオメトリエンジン３０５は、矢印３２０によって示されるように、ＧＳウェーブ群の起動をシグナリングするための情報を管理回路３１５に提供する。管理回路３１５は、起動イベントがウィンドウイングバッファ３３０に書き込まれることに応じて、第１のカウンタ３２５をインクリメントする。また、管理回路３１５は、起動イベントがウィンドウイングバッファ３３０から読み出されることに応じて、第１のカウンタ３２５をデクリメントする。

ＳＰＩ３１０は、シェーダハブ３３５内の１つ以上のシェーダ上で実行するためにＧＳウェーブ群を起動する。ＧＳウェーブ群は、シェーダハブ３３５によって実行され、実行の終了に応じて、ＧＳウェーブ群は、結果をキャッシュ３４０に書き込む。シェーダハブ３３５は、結果をキャッシュ３４０に書き込むことに応じて、ＧＳウェーブ群が実行を終了したことをＳＰＩ３１０にシグナリングする。シェーダハブ３３５は、ＧＳウェーブ群の完了の指標をＳＰＩ３１０に送信し、ＳＰＩ３１０は、矢印３４５によって示されるように、ＧＳウェーブ群が実行を終了したことを示すために、信号（本明細書では「終了」信号又は「完了」信号と呼ばれる）を管理回路３１５に送信する。管理回路３１５は、実行終了イベントがウィンドウイングバッファ３３０に書き込まれることに応じて、第２のカウンタ３２６をインクリメントする。また、管理回路３１５は、実行終了イベントがウィンドウイングバッファ３３０から読み出されることに応じて、第２のカウンタ３２６をデクリメントする。

プリミティブアセンブラ３５０は、ＧＳウェーブ群を処理することによってプリミティブを生成し、プリミティブをクロスバー３５５（プリミティブハブとも呼ばれる）に提供し、クロスバー３５５は、アセンブルされたプリミティブをスキャンコンバータ３６０に提供する。スキャンコンバータ３６０は、シェーダハブ３３５内のシェーダによる実行のためのピクセルシェーダ（ＰＳ）ウェーブを生成する。したがって、スキャンコンバータ３６０は、３６５によって示されるように、ＳＰＩ３１０に信号を送り、ＳＰＩ３１０は、シェーダハブ３３５における実行のためにＰＳウェーブを起動することができる。また、ＳＰＩ３１０は、ＰＳウェーブを処理するためにシェーダハブ３３５によって使用されるキャッシュ３４０からの情報を読み取るための読み取り要求を生成する。読み取り要求を生成することに応じて、ＳＰＩ３１０は、矢印３７０によって示されるように、読み取り要求がキャッシュ３４０に対して保留中であることを示す信号を管理回路３１５に送信する。管理回路３１５は、読み取り要求イベントがウィンドウイングバッファ３３０に書き込まれることに応じて、第３のカウンタ３２７をインクリメントする。また、管理回路３１５は、読み取り要求イベントがウィンドウイングバッファ３３０から読み出されることに応じて、第３のカウンタ３２７をデクリメントする。読み出し要求は、ＳＰＩ３１０が管理回路３１５から「ＧＳウェーブ完了」信号を受信するまで、ＳＰＩ３１０から出ない。

管理回路３１５のいくつかの実施形態は、インフライトのＧＳウェーブ群と保留中のＰＳウェーブとの数の比較に基づいて、ＳＰＩ３１０からの起動を選択的にスロットリングする（又は、起動を選択的にスロットリングするようにＳＰＩ３１０に命令する）。管理回路３１５は、第１のカウンタ３２５と第２のカウンタ３２６との間の差に基づいて、インフライトの第１のウェーブ群の第１の数を判定する。また、管理回路３１５は、第２のカウンタ３２６と第３のカウンタ３２７との間の差に基づいて、シェーダハブ３３５内のシェーダ上での実行を保留しているＰＳウェーブの第２の数を判定する。管理回路３１５は、第１の数が第２の数よりも小さいことに応じて、ＧＳウェーブ群をスロットリングする（又は、スロットリングするようにＳＰＩ３１０に命令する）。管理回路３１５のいくつかの実施形態は、ＧＳウェーブ群のスロットリングがグラフィックスパイプライン３００の作業を枯渇させる可能性を減少させるために適用される追加の「バースト性」係数を判定する。この追加の係数は、ＰＳウェーブに関連付けられた読み取り要求のバースト性の推定値に基づいて判定される。その場合、管理回路３１５は、第１の数が第２の数と追加のバースト性係数との和よりも小さいことに応じて、ＧＳウェーブ群をスロットリングする（又は、スロットリングするようにＳＰＩ３１０に命令する）。

図４は、いくつかの実施形態による、ウェーブ又はウェーブ群を選択的にスロットリングする管理回路４００の第１の実施形態のブロック図である。管理回路４００の第１の実施形態は、図３に示される管理回路３１５のいくつかの実施形態を実装するために使用される。管理回路４００は、イベント生成回路４０５からイベントに関連付けられた情報を受信する。いくつかの実施形態では、情報は、起動イベント、終了実行イベント、読み取り要求イベント等を示すシグナリングを含む。

ウィンドウイングバッファ（windowing buffer）４１０は、イベントを表す情報を、ウィンドウイングバッファ４１０のエントリに記憶する。ウィンドウイングバッファ４１０のいくつかの実施形態は、イベント生成回路４０５から受信されたイベントがウィンドウイングバッファ４１０の末尾のエントリに追加（又はプッシュ）され、ウィンドウイングバッファ４１０の先頭のエントリから除去（又はポップ）されるように、先入れ先出し（ＦＩＦＯ）バッファとして実装される。

管理回路４００は、ウィンドウイングバッファ４１０に追加されるエントリに応じてイベントをカウントするために使用されるカウンタのセット４１５を含む。図示した実施形態では、セット４１５は、１つ以上のシェーダにおいて実行するために起動されるＧＳウェーブ又はウェーブ群をカウントする起動カウンタ４１６と、キャッシュに書き込むことによって実行を終了するＧＳウェーブ又はウェーブ群をカウントする生成カウンタ４１７と、例えば、ＰＳウェーブに対してキャッシュへの読み取り要求をカウントする消費カウンタ４１８と、を含む。起動カウンタ４１６、生成カウンタ４１７及び消費カウンタ４１８は、ウィンドウイングバッファ４１０に追加される対応するイベントに応じてインクリメントされる。セット４１５内のカウンタ４１６～４１８は、アイドル時に０（又は、他の所定の値）にリセットされる。

また、管理回路４００は、ウィンドウイングバッファ４１０に含まれる起動イベント、生成イベント及び消費イベントの数をカウントするために使用されるカウンタのセット４２０を含む。セット４２０は、ウィンドウイングバッファ４１０に書き込まれる起動イベントの数だけインクリメントし、ウィンドウイングバッファ４１０から読み取られる起動イベントの数だけデクリメントする起動イベントカウンタ４２１を含む。また、セット４２０は、ウィンドウイングバッファ４１０に書き込まれる生成イベントの数だけインクリメントし、ウィンドウイングバッファ４１０から読み取られる生成イベントの数だけデクリメントする生成イベントカウンタ４２２を含む。セット４２０は、ウィンドウイングバッファ４１０に書き込まれる消費イベントの数だけインクリメントし、ウィンドウイングバッファ４１０から読み取られる消費イベントの数だけデクリメントする消費イベントカウンタ４２３を更に含む。

管理回路４００は、イベントタイプ（例えば、起動イベント、生成イベント及び消費イベント）の各々のためのイベントランカウンタ４２５を更に含む。イベントランカウンタ４２５は、各イベントのバースト性をカウントする。イベントのためのイベントランカウンタ４２５は、ウィンドウイングバッファ４１０の書き込み側でイベントランがブレークされる毎に１つだけインクリメントする。例えば、如何なる生成イベントも消費イベントもなしに５０回の起動イベントがある場合、イベントランカウンタ４２５内のＬａｕｎｃｈＲｕｎＣｏｕｎｔｅｒは、１つだけインクリメントされる。５０回の起動の後に、次の５０サイクルにおいて５０回の起動イベント及び５０回の生成イベントがある場合、ＬａｕｎｃｈＲｕｎＣｏｕｎｔｅｒは、５１の値を有し、ＰｒｏｄｕｃｅＲｕｎＣｏｕｎｔｅｒは、５０の値を有する。

管理回路４００は、カウンタ４１５、４２０、４２５の値を使用して、イベントのバースト性を示すパラメータを計算する。平均バースト回路４３０は、以下のようにイベントごとのメトリックを計算する。
ＡｖｅｒａｇｅＢｕｒｓｔ＝ＥｖｅｎｔＣｏｕｎｔ／ＥｖｅｎｔＲｕｎＣｏｕｎｔ

高レート回路４３５は、以下のように別のイベントごとのメトリックを計算する。
ＨｉｇｈＲａｔｅ＝ＥｖｅｎｔＣｏｕｎｔ＋Ｅｖｅｎｔ＞ＡｖｅｒａｇｅＢｕｒｓｔ

平均バースト回路４３０及び高レート回路４３５によって生成された値は、起動決定回路４４０に提供され、起動決定回路４４０は、この情報をカウンタ４１５、４２０、４２５の値と組み合わせて使用して、ＧＳウェーブ又はウェーブ群の起動を選択的にスロットリングする。

起動決定回路４４０のいくつかの実施形態は、インフライトのＧＳ作業と保留中のＰＳ作業との比較に基づいて、ＧＳウェーブ又はウェーブ群の起動を選択的にスロットリングする。インフライトのＧＳ作業（ＷｏｒｋＩｎＦｌｉｇｈｔ）は、起動カウンタ４１６と生成カウンタ４１７との値の差に基づいて推定される。保留中のＰＳ作業（ＷｏｒｋＲｅａｄｙ）は、生成カウンタ４１７と消費カウンタ４１８との値の差に基づいて推定される。起動決定回路４４０は、インフライトのＧＳ作業が保留中のＰＳ作業より大きい場合、ＧＳウェーブ又はウェーブ群の起動をスロットリングする。いくつかの実施形態では、起動決定回路４４０は、以下の基準が満たされる場合、ＧＳウェーブ又はウェーブ群の起動をスロットリングする。
ＷｏｒｋＩｎＦｌｉｇｈｔ＞ＷｏｒｋＲｅａｄｙ＋ＨｉｇｈＲａｔｅ［Ｒｅａｄ］

追加の係数（ＨｉｇｈＲａｔｅ［Ｒｅａｄ］）は、保留中のＰＳ作業、例えば、ＰＳウェーブに対する読み取り要求の潜在的なバースト性を考慮するために含まれる。

図５は、いくつかの実施形態による、ウェーブ又はウェーブ群を選択的にスロットリングする管理回路５００の第２の実施形態のブロック図である。管理回路５００の第２の実施形態は、図３に示す管理回路３１５のいくつかの実施形態を実装するために使用される。管理回路５００は、イベント生成回路５０５からイベントに関連付けられた情報を受信する。いくつかの実施形態では、情報は、起動イベント、終了実行イベント、読み取り要求イベント等を示すシグナリングを含む。管理回路５００は、ウィンドウイングバッファ５１０に追加されるエントリに応じてイベントをカウントするために使用されるカウンタのセット５１５を含む。セット５１５は、起動カウンタ５１６、生成カウンタ５１７及び消費カウンタ５１８を含む。また、管理回路５００は、ウィンドウイングバッファ５１０に含まれる起動イベント、生成イベント及び消費イベントの数をカウントするために使用されるカウンタ５２１、５２２、５２３のセット５２０を含む。イベントランカウンタ５２５は、起動イベント、生成イベント及び消費イベントを含む各イベントのバースト性をカウントする。

管理回路５００は、カウンタ５１５、５２０、５２５の値を使用して、イベントのバースト性を示すパラメータを計算する。平均バースト回路５３０は、以下のようにイベントごとのメトリックを計算する。
ＡｖｅｒａｇｅＢｕｒｓｔ＝ＥｖｅｎｔＣｏｕｎｔ／ＥｖｅｎｔＲｕｎＣｏｕｎｔ

高レート回路５３５は、以下のように別のイベントごとのメトリックを計算する。
ＨｉｇｈＲａｔｅ＝ＥｖｅｎｔＣｏｕｎｔ＋ＥｖｅｎｔＡｖｅｒａｇｅＢｕｒｓｔ

低レート回路５４０は、以下のように別のイベントごとのメトリックを計算する。
ＬｏｗＲａｔｅ＝ＥｖｅｎｔＣｏｕｎｔ－ＥｖｅｎｔＡｖｅｒａｇｅＢｕｒｓｔ

平均バースト回路５３０、高レート回路５３５及び低レート回路５４０によって生成された値は、起動決定回路５４５に提供され、起動決定回路５４５は、この情報をカウンタ５１５、５２０、５２５の値と組み合わせて使用して、ＧＳウェーブ又はウェーブ群の起動を選択的にスロットリングする。

起動決定回路５４５のいくつかの実施形態は、インフライトのＧＳ作業と保留中のＰＳ作業との比較に基づいて、ＧＳウェーブ又はウェーブ群の起動を選択的にスロットリングする。インフライトのＧＳ作業（ＷｏｒｋＩｎＦｌｉｇｈｔ）は、起動カウンタ５１６と生成カウンタ５１７との値の差に基づいて推定される。保留中のＰＳ作業（ＷｏｒｋＲｅａｄｙ）は、生成カウンタ５１７と消費カウンタ５１８との値の差に基づいて推定される。図示した実施形態では、起動決定回路５４５は、消費レートを次のように定義する。
ＣｏｎｓｕｍｅＲａｔｅ＝ＨｉｇｈＲａｔｅ［Ｃｏｎｓｕｍｅ］－ＬｏｗＲａｔｅ［Ｐｒｏｄｕｃｅ］

次に、起動決定回路５４５は、例えば、以下の定義を使用して、準備ができている作業の量を推定又は予測する。
ＲｅａｄｙＦｏｒｅｃａｓｔ＝ＷｏｒｋＲｅａｄｙ－ＣｏｎｓｕｍｅＲａｔｅ

起動決定回路５４５は、以下の基準が満たされる場合、ＧＳウェーブ又はウェーブ群の起動をスロットリングする。
ＷｏｒｋＩｎＦｌｉｇｈｔ＞ＬｏｗＲａｔｅ［Ｌａｕｎｃｈ］－ＲｅａｄｙＦｏｒｅｃａｓｔ

この基準が満たされない場合、追加のＧＳウェーブ又はウェーブ群が起動される。

図６は、いくつかの実施形態による、ＧＳウェーブ又はウェーブ群を選択的に起動する方法６００のフロー図である。方法６００は、図１に示される処理システム１００、図２に示されるグラフィックスパイプライン２００、図３に示されるグラフィックスパイプライン３００、図４に示される管理回路４００、及び、図５に示される管理回路５００のいくつかの実施形態において実装される。

ブロック６０５において、管理回路は、ＧＳウェーブ群起動をカウントする。ブロック６１０において、管理回路は、ＧＳウェーブ群終了をカウントする。ブロック６１５において、管理回路は、ＰＳウェーブに対する読み取り要求をカウントする。決定ブロック６２０において、管理回路は、（ＧＳウェーブ群起動及び終了の数に基づいて判定された）インフライト（図６では、飛行中）のＧＳ作業の量を、（ＧＳウェーブ群終了及びＰＳウェーブに対する読み取り要求の数に基づいて判定された）保留中ＰＳ作業の量と比較する。いくつかの実施形態では、管理回路は、本明細書で説明するように、インフライトのＧＳ作業の量を、保留中のＰＳ作業の量、及び、ＰＳ作業のバースト性を考慮するための追加の係数の合計と比較する。インフライトのＧＳ作業が（場合によっては追加の係数によって増強された）保留中のＰＳ作業を超える場合、方法６００は、ブロック６２５に流れ、管理回路は、ＧＳウェーブ群の起動をスロットリングする。インフライトのＧＳ作業が（場合によっては追加の係数によって増強された）保留中のＰＳ作業より少ない場合、方法６００は、ブロック６３０に流れ、管理回路は、ＧＳウェーブ群の起動をスロットリングしない。

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

いくつかの実施形態では、上述した技術の特定の態様は、ソフトウェアを実行する処理システムの１つ以上のプロセッサによって実装される。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶されるか、別の方法で明確に具体化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、命令及び特定のデータを含んでもよく、当該命令及び特定のデータは、１つ以上のプロセッサによって実行されると、上述した技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する。非一時的なコンピュータ可読記憶媒体は、例えば、磁気又は光ディスク記憶デバイス、フラッシュメモリ等のソリッドステート記憶デバイス、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）、又は、他の不揮発性メモリデバイス（単数又は複数）等を含み得る。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈され若しくは別の方法で実行可能な他の命令形式で実装可能である。

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

Claims

装置であって、
第１のウェーブ群を生成するように構成された第１のシェーダと、
前記第１のウェーブ群を起動するように構成されたシェーダプロセッサ入力（ＳＰＩ）と、
少なくとも１つの第２のシェーダにおいて前記第１のウェーブ群を処理した結果に基づいて第２のウェーブを生成するように構成されたスキャンコンバータと、を備え、
前記第１のウェーブ群は、インフライトの第１のウェーブ群と、前記少なくとも１つの第２のシェーダ上での実行を保留している第２のウェーブと、の比較に基づいて選択的にスロットリングされる、
装置。
前記第１のウェーブ群が前記少なくとも１つの第２のシェーダ上での実行を終了することに応じて、記憶された情報を保持するように構成されたキャッシュを更に備え、
前記情報は、対応する第２のウェーブによって読み取られる、
請求項１の装置。
前記第１のウェーブ群の起動をカウントするように構成された第１のカウンタと、
前記キャッシュに書き込むことによって前記少なくとも１つの第２のシェーダ上での実行を終了した前記第１のウェーブ群をカウントするように構成された第２のカウンタと、
前記キャッシュから読み取るための前記第２のウェーブからの要求をカウントするように構成された第３のカウンタと、を更に備える、
請求項２の装置。
前記第１のカウンタ、前記第２のカウンタ及び前記第３のカウンタの各々は、ウィンドウイングバッファに書き込まれる起動イベント、実行終了イベント及び読み取り要求イベントに応じてインクリメントされる、
請求項３の装置。
前記第１のカウンタ、前記第２のカウンタ及び前記第３のカウンタの各々は、前記ウィンドウイングバッファから読み出される前記起動イベント、前記実行終了イベント及び前記読み取り要求イベントに応じてデクリメントされる、
請求項４の装置。
前記第１のカウンタと前記第２のカウンタとの間の差に基づいて、インフライトの第１のウェーブ群の第１の数を判定し、前記第２のカウンタと前記第３のカウンタとの間の差に基づいて、前記少なくとも１つの第２のシェーダ上での実行を保留している第２のウェーブの第２の数を判定するように構成された管理回路を更に備える、
請求項５の装置。
前記管理回路は、前記第１の数が前記第２の数よりも小さいことに応じて、前記ＳＰＩによって起動された前記第１のウェーブ群をスロットリングするように構成されている、
請求項６の装置。
前記管理回路は、前記第１の数が、前記第２の数に対して、前記第２のウェーブに関連付けられた読み取り要求のバースト性に基づいて推定される追加の係数を加えたものよりも小さいことに応じて、前記ＳＰＩによって起動された前記第１のウェーブ群をスロットリングするように構成されている、
請求項７の装置。
前記管理回路は、スロットリングがグラフィックスパイプラインの作業を枯渇させる可能性を減少させるために前記追加の係数を判定するように構成されている、
請求項８の装置。
方法であって、
第１のシェーダにおいて、シェーダプロセッサ入力（ＳＰＩ）による起動のための第１のウェーブ群を生成することと、
スキャンコンバータにおいて、少なくとも１つの第２のシェーダにおいて前記第１のウェーブ群を処理した結果に基づいて第２のウェーブを生成することと、
インフライトの第１のウェーブ群と、前記少なくとも１つの第２のシェーダ上での実行を保留している第２のウェーブと、の比較に基づいて、前記第１のウェーブ群を選択的にスロットリングすることと、を含む、
方法。
前記第１のウェーブ群が前記少なくとも１つの第２のシェーダ上での実行を終了することに応じて、キャッシュに情報を書き込むことを更に含み、
前記情報は、対応する第２のウェーブによって読み取られる、
請求項１０の方法。
第１のカウンタにおいて、前記第１のウェーブ群の起動をカウントすることと、
第２のカウンタにおいて、前記キャッシュに書き込むことによって前記少なくとも１つの第２のシェーダ上での実行を終了した前記第１のウェーブ群をカウントすることと、
第３のカウンタにおいて、前記キャッシュから読み取るための前記第２のウェーブからの要求をカウントすることと、を更に含む、
請求項１１の方法。
ウィンドウイングバッファに起動イベントを書き込むことであって、前記第１のウェーブ群の起動をカウントすることは、前記ウィンドウイングバッファに前記起動イベントを書き込むことに応じて前記第１のカウンタをインクリメントすることを含む、ことと、
前記ウィンドウイングバッファから前記起動イベントを読み取ることであって、前記第１のウェーブ群の起動をカウントすることは、前記ウィンドウイングバッファから前記起動イベントを読み取ることに応じて前記第１のカウンタをデクリメントすることを含む、ことと、を更に含む、
請求項１２の方法。
前記ウィンドウイングバッファに実行終了イベントを書き込むことであって、実行を終了した前記第１のウェーブ群をカウントすることは、前記ウィンドウイングバッファに前記実行終了イベントを書き込むことに応じて前記第２のカウンタをインクリメントすることを含む、ことと、
前記ウィンドウイングバッファから前記実行終了イベントを読み取ることであって、実行を終了した前記第１のウェーブ群をカウントすることは、前記ウィンドウイングバッファから前記実行終了イベントを読み取ることに応じて前記第２のカウンタをデクリメントすることを含む、ことと、
のうち何れかを更に含む、
請求項１３の方法。
前記ウィンドウイングバッファに読み取り要求イベントを書き込むことであって、前記第２のウェーブからの要求をカウントすることは、前記ウィンドウイングバッファに前記読み取り要求イベントを書き込むことに応じて前記第３のカウンタをインクリメントすることを含む、ことと、
前記ウィンドウイングバッファから前記読み取り要求イベントを読み取ることであって、前記第２のウェーブからの要求をカウントすることは、前記ウィンドウイングバッファから前記読み取り要求イベントを読み取ることに応じて前記第３のカウンタをデクリメントすることを含む、ことと、を更に含む、
請求項１３の方法。
前記第１のカウンタと前記第２のカウンタとの間の差に基づいて、インフライトの第１のウェーブ群の第１の数を判定することと、
前記第２のカウンタと前記第３のカウンタとの間の差に基づいて、前記少なくとも１つの第２のシェーダ上での実行を保留している第２のウェーブの第２の数を判定することと、を更に含む、
請求項１５の方法。
前記第１のウェーブ群を選択的にスロットリングすることは、前記第１の数が前記第２の数よりも小さいことに応じて、前記ＳＰＩによって起動された前記第１のウェーブ群をスロットリングすることを含む、
請求項１６の方法。
前記第１のウェーブ群を選択的にスロットリングすることは、前記第１の数が、前記第２の数に対して、前記読み取り要求のバースト性に基づいて推定される追加の係数を加えたものよりも小さいことに応じて、前記ＳＰＩによって起動された前記第１のウェーブ群をスロットリングすることを含む、
請求項１７の方法。
スロットリングがグラフィックスパイプラインの作業を枯渇させる可能性を減少させるために、前記追加の係数を判定することを更に含む、
請求項１８の方法。
装置であって、
第１のウェーブ群を生成するように構成された第１のシェーダと、
少なくとも１つの第２のシェーダにおいて前記第１のウェーブ群を処理した結果に基づいて第２のウェーブを生成するように構成されたスキャンコンバータと、
前記第１のウェーブ群が前記少なくとも１つの第２のシェーダ上での実行を終了することに応じて、記憶された情報を保持するように構成されたキャッシュと、を備え、
起動されており、前記キャッシュに書き込むことによって実行を終了していない前記第１のウェーブ群の第１の数と、前記少なくとも１つの第２のシェーダ上での実行を保留している第２のウェーブから前記キャッシュへの読み取り要求の第２の数と、の比較に基づいて、前記第１のウェーブ群が選択的にスロットリングされる、
装置。