JP2023553151A

JP2023553151A - グラフィックスパイプラインにおけるテッセレーション係数に基づくハルシェーダのスロットリング

Info

Publication number: JP2023553151A
Application number: JP2023535510A
Authority: JP
Inventors: パータクニシャンク
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2020-12-15
Filing date: 2021-12-01
Publication date: 2023-12-20
Also published as: US20220189112A1; KR20230125231A; CN116745801A; US20230169728A1; EP4264534A1; US11508124B2; US11948251B2; WO2022132435A1

Abstract

処理システム（３００）は、１つ以上のプリミティブを含むスレッドグループを開始するハルシェーダ回路（１２１～１２３）を含む。ハルシェーダ回路は、プリミティブのサブディビジョンを示すテッセレーション係数を生成する。処理システムは、テッセレーション係数に基づいてドメインシェーダ（２２４）のプリミティブ開始時間間隔を推定し、ドメインシェーダのプリミティブ開始時間間隔及びハルシェーダレイテンシに基づいて、ハルシェーダ回路からのスレッドグループの開始を選択的にスロットリングするスロットリング回路（４３０）を含む。場合によっては、スロットリング回路は、バッファからスレッドグループを開始することに応じてインクリメントされる第１のカウンタと、ドメインシェーダの測定されたレイテンシに基づいて第１のカウンタ（４３５）を変更する第２のカウンタ（４４０）と、を含む。【選択図】図４

Description

グラフィックス処理ユニット（ＧＰＵ）は、コマンドバッファから取り出されたコマンドのコピーを同時に処理するグラフィックス処理パイプラインを実装する。グラフィックスパイプラインは、グラフィックスパイプラインのリソース及び１つ以上の固定機能ハードウェアブロックを使用して実行する１つ以上のシェーダを含む。グラフィックスパイプラインは、通常、頂点及び辺から形成され、画像の部分を表す三角形等のパッチ又は他のプリミティブに対してジオメトリ演算を実行するジオメトリ部分に分割される。ジオメトリ部分内のシェーダは、頂点シェーダ、ハルシェーダ、ドメインシェーダ及びジオメトリシェーダを含むことができる。グラフィックスパイプラインのジオメトリ部分は、パイプラインのジオメトリ部分によって生成されたプリミティブがラスタ化されて（例えば、１つ以上のスキャンコンバータによって）、画像の部分を表すピクセルのセットを形成する場合に完了する。ピクセルに対する後続の処理は、ピクセル処理と呼ばれ、グラフィックスパイプラインのリソースを使用して実行するピクセルシェーダ等のシェーダによって実行される動作を含む。ＧＰＵ及び他のマルチスレッド処理ユニットは、典型的には、単一のウェーブとして、複数のデータセットに対して単一のプログラムの複数のインスタンスを同時に実行する複数の処理要素（プロセッサコア又は計算ユニットとも称される）を実装する。ハードウェアに実装された階層に適合するように、階層実行モデルが使用される。実行モデルは、全てのウェーブ（ウェーブフロント、スレッド、ストリーム又はワークアイテムとも称される）によって実行される命令のカーネルを定義する。

本開示は、添付の図面を参照することによってより良好に理解され、その数々の特徴及び利点が当業者に明らかになり得る。異なる図面における同じ符号の使用は、類似又は同一のアイテムを示す。

いくつかの実施形態による処理システムのブロック図である。いくつかの実施形態による、高次ジオメトリプリミティブを処理して、所定の解像度で三次元（３Ｄ）シーンのラスタ化された画像を生成することができるグラフィックスパイプラインを示す図である。いくつかの実施形態による、ハルシェーダ回路によって開始されたスレッドグループを選択的にスロットリングする処理システムの第１の部分のブロック図である。いくつかの実施形態による、ハルシェーダ回路によって開始されたスレッドグループを選択的にスロットリングする処理システムの第２の部分のブロック図である。いくつかの実施形態による、合計カウント及びエラーカウントを使用してドメインシェーダについてのプリミティブ開始時間間隔を推定する方法の第１の部分のフロー図である。いくつかの実施形態による、合計カウント及びエラーカウントを使用してドメインシェーダについてのプリミティブ開始時間間隔を推定する方法の第２の部分のフロー図である。いくつかの実施形態による、ハルシェーダからのウェーブ開始を選択的にスロットリングする方法のフロー図である。

グラフィックスパイプラインのジオメトリ部分におけるハルシェーダ回路は、ハルシェーダによって処理されるパッチの制御点のウェーブを開始する。また、ハルシェーダは、パッチの細分（サブディビジョン）（subdivisions）を示すテッセレーション係数を生成する。ハルシェーダによって処理されたパッチ及びテッセレーション係数は、グラフィックスパイプライン内のテッセレータに渡される。テッセレータは、テッセレーション係数を使用して、ドメインシェーダにおいてテッセレートされたプリミティブを処理する前に、パッチを三角形等の他のプリミティブに細分する。したがって、ドメインシェーダは、通常、ハルシェーダよりも多数のプリミティブを処理する。例えば、ハルシェーダによって処理されたクワッドパッチについてテッセレーション係数が１６である場合、ドメインシェーダは、ハルシェーダからパッチを受信したことに応じて、５１２個の三角形を処理する。パッチは、グラフィックスパイプラインのリソースをできるだけ多く使用しようと試みる貪欲アルゴリズム（greedy algorithm）に基づいて、ハルシェーダ回路によって開始される。貪欲アルゴリズムに基づいてハルシェーダウェーブを開始することは、テッセレートされたプリミティブを処理するために必要とされるリソースのドメインシェーダを枯渇させることができる。いくつかのグラフィックスパイプラインは、ウェーブを処理するためにハルシェーダに割り振られ得る計算ユニットの数を制約することによって、飛行中のウェーブの数を制限するように構成されている。しかしながら、利用可能な計算ユニットの数に対する静的な制限は、ハルシェーダによって開始されたプリミティブの増幅がほとんど又は全くない場合、例えば、テッセレーション係数が１以下である場合、グラフィックスパイプラインの性能を低下させる。

図１～図７は、第１のタイプの第１のシェーダ及び第２のタイプの第２のシェーダによって消費されるグラフィックスパイプラインリソースの測定値に基づいて第１のシェーダからウェーブを選択的に開始することによって、第１のシェーダ及び第２のシェーダによって消費されるグラフィックスパイプラインリソース間のバランスを維持するシステム及び技術を開示する。いくつかの実施形態では、第１のシェーダはハルシェーダであり、第２のシェーダは、テッセレータからプリミティブを受信するドメインシェーダである。ハルシェーダは、テッセレーション係数を生成し、テッセレータは、複数のより高い解像度のプリミティブを生成するために、テッセレーション係数に基づいてプリミティブを細分（又はテッセレート）する。ハルシェーダ回路によって開始されたパッチのテッセレーション係数は、プリミティブをドメインシェーダに提供するバッファに保持される。スロットリング回路は、テッセレーション係数を使用して、ドメインシェーダから全てのプリミティブを開始するためにドメインシェーダによって必要とされる時間間隔、例えば、ドメインシェーダにおいてより高い解像度のプリミティブを処理するために必要とされるサイクル数を推定する。この時間間隔は、本明細書では「プリミティブ開始時間間隔」と呼ばれる。スロットリング回路のいくつかの実施形態は、バッファ内の対応するエントリに関連付けられたウェーブのための高解像度プリミティブ（又は高解像度プリミティブを処理するために必要とされるサイクル）の数を示す情報を記憶するレジスタのバンクを含む。記憶された情報は、ドメインシェーダについてのプリミティブ開始時間間隔を表すカウンタの値を設定するために使用される。例えば、合計カウンタは、処理のためにテッセレータに書き込まれるバッファエントリに関連付けられたレジスタ内の高解像度プリミティブを処理すると推定されるサイクル数だけインクリメントされる。合計カウンタは、ドメインシェーダ開始ロジックがパッチに関連付けられたより高い解像度のプリミティブの処理を完了したことに応じて、（ドメインシェーダ開始ロジックの推定されたプリミティブ処理レートによって）反復的にデクリメントされる。いくつかの実施形態では、エラーカウンタを使用して、ドメインシェーダから開始する前にドメインシェーダ内でプリミティブを処理するのに必要な実際の時間の測定値に基づいて合計カウンタを変更する。エラーカウンタの値は、ドメインシェーダへの背圧（back pressure）に起因して、例えば合計カウンタの値に対応するレイテンシよりも大きい測定されたレイテンシに応じて増加される。エラーカウンタの値は、測定された処理時間が合計カウンタの値以下であることに応じて減少される（又は０に設定される）。結合された合計カウンタ及びエラーカウンタは、次いで、完成したパッチのテッセレーション係数に基づいてデクリメントされる。ウェーブは、合計カウンタの値と、存在する場合にはエラーカウンタの値とに基づいて、ハルシェーダから選択的に開始される。

図１は、いくつかの実施形態による処理システム１００のブロック図である。処理システム１００は、ダイナミックランダムアクセスメモリ（Dynamic Random-Access Memory、ＤＲＡＭ）等の非一時的なコンピュータ可読記憶媒体を使用して実装されるメモリ１０５又は他の記憶構成要素を含むか、それらへのアクセスを有する。しかしながら、場合によっては、メモリ１０５は、スタティックランダムアクセスメモリ（Static Random－Access Memory、ＳＲＡＭ）、不揮発性ＲＡＭ等を含む他のタイプのメモリを使用して実装することもできる。メモリ１０５は、処理システム１００において実装される処理ユニットの外部に実装されるために外部メモリと呼ばれる。また、処理システム１００は、メモリ１０５等のように、処理システム１００において実装されるエンティティ間の通信をサポートするためのバス１１０を含む。処理システム１００のいくつかの実施形態は、他のバス、ブリッジ、スイッチ、ルータ等を含むが、これらは明確にするために図１には示されていない。

本明細書で説明される技術は、様々な実施形態では、様々な並列プロセッサ、例えば、ベクトルプロセッサ、グラフィックス処理ユニット（ＧＰＵ）、汎用ＧＰＵ（ＧＰＧＰＵ）、非スカラプロセッサ、高並列プロセッサ、人工知能（ＡＩ）プロセッサ、推論エンジン、機械学習プロセッサ、他のマルチスレッド処理ユニット等の何れかで利用される。図１は、いくつかの実施形態による、並列プロセッサ、特に、グラフィックス処理ユニット（ＧＰＵ）１１５の一例を示す。グラフィックス処理ユニット（ＧＰＵ）１１５は、ディスプレイ１２０上に提示するための画像をレンダリングする。例えば、ＧＰＵ１１５は、オブジェクトをレンダリングして、ディスプレイ１２０に提供されるピクセルの値を生成し、ディスプレイ１２０は、ピクセル値を使用して、レンダリングされたオブジェクトを表す画像を表示する。ＧＰＵ１１５は、命令を同時に又は並列に実行する複数の計算ユニット（ＣＵ）１２１、１２２、１２３（本明細書ではまとめて「計算ユニット１２１～１２３」と呼ぶ）を実装する。いくつかの実施形態では、計算ユニット１２１～１２３は、１つ以上の単一命令複数データ（ＳＩＭＤ）ユニットを含み、計算ユニット１２１～１２３は、ワークグループプロセッサ、シェーダアレイ、シェーダエンジン等に集約される。ＧＰＵ１１５において実装される計算ユニット１２１～１２３の数は、設計上の選択の問題であり、ＧＰＵ１１５のいくつかの実施形態は、図１に示されるよりも多い又は少ない計算ユニットを含む。計算ユニット１２１～１２３は、本明細書で説明するように、グラフィックスパイプラインを実装するために使用することができる。ＧＰＵ１１５のいくつかの実施形態は、汎用コンピューティングのために使用される。ＧＰＵ１１５は、メモリ１０５に記憶されたプログラムコード１２５等の命令を実行し、ＧＰＵ１１５は、実行された命令の結果等の情報をメモリ１０５に記憶する。

また、処理システム１００は、バス１１０に接続され、したがってバス１１０を介してＧＰＵ１１５及びメモリ１０５と通信する中央処理装置（Central Processing Unit、ＣＰＵ）１３０を含む。ＣＰＵ１３０は、命令を同時に又は並列に実行する複数のプロセッサコア１３１、１３２、１３３（本明細書ではまとめて「プロセッサコア１３１～１３３」と呼ぶ）を実装する。ＣＰＵ１３０において実装されるプロセッサコア１３１～１３３の数は、設計上の選択の問題であり、いくつかの実施形態は、図１に示されるよりも多い又は少ないプロセッサコアを含む。プロセッサコア１３１～１３３は、メモリ１０５に記憶されたプログラムコード１３５等の命令を実行し、ＣＰＵ１３０は、実行された命令の結果等の情報をメモリ１０５に記憶する。また、ＣＰＵ１３０は、ＧＰＵ１１５にドローコールを発行することによって、グラフィックス処理を開始することができる。ＣＰＵ１３０のいくつかの実施形態は、同時に又は並列に命令を独立して実行する複数のプロセッサコア（明確化のために図１には示さず）を含む。

入力／出力（Input／Output、Ｉ／Ｏ）エンジン１４５は、ディスプレイ１２０と関連付けられた入力又は出力動作、及び、キーボード、マウス、プリンタ、外部ディスク等のような処理システム１００の他の要素を扱う。Ｉ／Ｏエンジン１４５は、Ｉ／Ｏエンジン１４５がメモリ１０５、ＧＰＵ１１５又はＣＰＵ１３０と通信するようにバス１１０に結合される。図示した実施形態では、Ｉ／Ｏエンジン１４５は、コンパクトディスク（Compact Disk、ＣＤ）、デジタルビデオディスク（Digital Video Disc、ＤＶＤ）等の非一時的なコンピュータ可読記憶媒体を使用して実装される、外部記憶コンポーネント１５０上に記憶される情報を読み取る。また、Ｉ／Ｏエンジン１４５は、ＧＰＵ１１５又はＣＰＵ１３０による処理の結果等の情報を外部記憶コンポーネント１５０に書き込むことができる。

処理システム１００は、パイプラインの複数のステージにおいて命令を実行するためのパイプライン回路を実装する。パイプライン回路は、計算ユニット１２１～１２３又はプロセッサコア１３１～１３３のいくつかの実施形態において実装される。いくつかの実施形態では、パイプライン回路は、限定はしないが、頂点シェーダ、ハルシェーダ、ドメインシェーダ、ジオメトリシェーダ及びピクセルシェーダを含む異なるタイプのシェーダを実行するグラフィックスパイプラインを実装するために使用される。処理システム１００のいくつかの実施形態は、１つ以上のプリミティブを含むスレッドグループを開始するハルシェーダ回路を含む。例えば、ＧＰＵ１１５内の計算ユニット１２１～１２３は、本明細書で説明されるように、ハルシェーダ回路、並びに、他のシェーダのための回路及びウェーブ開始のスロットリングを実装するために使用され得る。また、ハルシェーダ回路は、プリミティブの細分（サブディビジョン）を示すテッセレーション係数を生成する。処理システム１００内のスロットリング回路は、テッセレーション係数に基づいてドメインシェーダについてのプリミティブ開始時間間隔を推定し、ドメインシェーダのレイテンシ及びハルシェーダレイテンシに基づいて、ハルシェーダ回路からのスレッドグループの開始を選択的にスロットリングする。場合によっては、スロットリング回路は、バッファからスレッドグループを開始することに応じてインクリメントされる第１のカウンタと、ドメインシェーダの測定されたレイテンシに基づいて第１のカウンタを変更する第２のカウンタと、を含む。

図２は、いくつかの実施形態による、高次ジオメトリプリミティブを処理して、所定の解像度で三次元（３Ｄ）シーンのラスタ化された画像を生成することができるグラフィックスパイプライン２００を示す。グラフィックスパイプライン２００は、図１に示される処理システム１００のいくつかの実施形態で実施される。グラフィックスパイプライン２００の図示した実施形態は、ＤＸ１１仕様に従って実装される。グラフィックスパイプライン２００の他の実施形態は、Ｖｕｌｋａｎ、Ｍｅｔａｌ、ＤＸ１２等の他のアプリケーションプログラミングインターフェース（Application Programming Interfaces、ＡＰＩ）に従って実装される。グラフィックスパイプライン２００は、ラスタ化前のグラフィックスパイプライン２００の部分を含むジオメトリ処理部２０１と、ラスタ化後のグラフィックスパイプライン２００の部分を含むピクセル処理部２０２と、に細分される。

グラフィックスパイプライン２００は、バッファを実装し、頂点データ、テクスチャデータ等を記憶するために使用される１つ以上のメモリ又はキャッシュの階層等のストレージリソース２０５へのアクセスを有する。図示した実施形態では、ストレージリソース２０５は、データを記憶するために使用されるロードデータストア（ＬＤＳ）２０６回路と、グラフィックスパイプライン２００によるレンダリング中に使用されるレジスタ値を記憶するために使用されるベクトル汎用レジスタ（ＶＧＰＲ）と、を含む。ストレージリソース２０５は、図１に示されるメモリ１０５のいくつかの実施形態を使用して実装され得る。

入力アセンブラ２１０は、シーンのモデルの部分を表すオブジェクトを定義するために使用される、ストレージリソース２０５から情報にアクセスする。プリミティブの一例が三角形２１１として図２に示されているが、グラフィックスパイプライン２００のいくつかの実施形態では、他のタイプのプリミティブが処理される。三角形２０３は、１つ以上の辺２１４によって接続された１つ以上の頂点２１２を含む（明確にするために、図２には各々の１つのみが示されている）。頂点２１２は、グラフィックスパイプライン２００のジオメトリ処理部２０１中にシェーディングされる。

頂点シェーダ２１５は、図示した実施形態ではソフトウェアで実装されており、プリミティブの単一の頂点２１２を入力として論理的に受信し、単一の頂点を出力する。頂点シェーダ２１５等のシェーダのいくつかの実施形態は、複数の頂点が同時に処理されるように、単一命令－複数データ（ＳＩＭＤ）処理を実装する。グラフィックスパイプライン２００は、グラフィックスパイプライン２００に含まれる全てのシェーダが、共有大規模ＳＩＭＤ計算ユニット上に同じ実行プラットフォームを有するように、統一されたシェーダモデルを実装する。したがって、頂点シェーダ２１５を含むシェーダは、本明細書では統一されたシェーダプール２１６と呼ばれるリソースの共通セットを使用して実装される。

ハルシェーダ２１８は、入力パッチを定義するために使用される入力高次パッチ又は制御ポイント上で動作する。ハルシェーダ２１８は、テッセレーション係数と、ハルシェーダ２１８において処理されるパッチの制御点等の他のパッチデータと、を出力する。テッセレーション係数は、グラフィックスパイプライン２００内の他のエンティティによってアクセスされ得るように、ストレージリソース２０５内に記憶される。いくつかの実施形態では、ハルシェーダ２１８によって生成されたプリミティブは、テッセレータ２２０に提供される。テッセレータ２２０は、ハルシェーダ２１８からオブジェクト（パッチ等）を受信し、例えば、ハルシェーダ２１８によって生成されたテッセレーション係数に基づいて、入力オブジェクトをテッセレーションすることにより、入力オブジェクトに対応するプリミティブを識別する情報を生成する。テッセレーションは、例えば、テッセレーションプロセスによって生成されたプリミティブの粒度を指定するテッセレーション係数によって示されるように、パッチ等の入力高次プリミティブを、より細かいレベルの詳細を表す低次出力プリミティブのセットに細分する。したがって、シーンのモデルは、（メモリ又は帯域幅を節約するため）より少数の高次プリミティブによって表され、追加の詳細は、高次プリミティブをテッセレーションすることによって追加される。

ドメインシェーダ２２４は、ドメインの場所及び（オプションで）他のパッチデータを入力する。ドメインシェーダ２２４は、提供された情報で動作し、入力ドメインの場所及び他の情報に基づいて、出力のための単一の頂点を生成する。図示した実施形態では、ドメインシェーダ２２４は、三角形２１１及びテッセレーション係数に基づいてプリミティブ２２２を生成する。ドメインシェーダ２２４は、処理の完了に応じてプリミティブ２２２を開始する。ジオメトリシェーダ２２６は、ドメインシェーダ２２４から入力プリミティブを受け取り、入力プリミティブに基づいてジオメトリシェーダ２２６によって生成された（入力プリミティブごとの）最大４つのプリミティブを出力する。図示した実施形態では、ジオメトリシェーダ２２６は、テッセレートされたプリミティブ２２２に基づいて出力プリミティブ２２８を生成する。

プリミティブの１つのストリームが１つ以上のスキャンコンバータ２３０に提供され、いくつかの実施形態では、プリミティブの最大４つのストリームは、ストレージリソース２０５内のバッファに連結される。スキャンコンバータ２３０は、シェーディング動作、クリッピング、透視分割、切断及びビューポート選択等の他の動作を実行する。スキャンコンバータ２３０は、グラフィックスパイプライン２００のピクセル処理部２０２において後で処理されるピクセルのセット２３２を生成する。

図示した実施形態では、ピクセルシェーダ２３４は、ピクセルフロー（例えば、ピクセルのセット２３２を含む）を入力し、入力ピクセルフローに応じて０又は別のピクセルフローを出力する。出力マージャブロック２３６は、ピクセルシェーダ２３４から受信したピクセルに対してブレンド、深度、ステンシル又は他の動作を実行する。

グラフィックスパイプライン２００内のシェーダの一部又は全部は、ストレージリソース２０５に記憶されたテクスチャデータを使用してテクスチャマッピングを実行する。例えば、ピクセルシェーダ２３４は、ストレージリソース２０５からテクスチャデータを読み取り、テクスチャデータを使用して１つ以上のピクセルをシェーディングすることができる。次いで、シェーディングされたピクセルは、ユーザに提示するためにディスプレイに提供される。

図３は、いくつかの実施形態による、ハルシェーダ回路によって開始されたスレッドグループを選択的にスロットリングする処理システム３００の第１の部分のブロック図である。処理システム３００の第１の部分は、図１に示される処理システム１００及び図２に示されるグラフィックスパイプライン２００のいくつかの実施形態で実施される。

バッファ３０１、３０２、３０３、３０４（本明細書ではまとめて「バッファ３０１～３０４」と呼ぶ）のセットは、図２に示すハルシェーダ２１８等のハルシェーダ回路によって開始されたスレッドグループに関連付けられたメタデータを記憶するために使用される。バッファ３０１～３０４は、パッチ等のプリミティブの１つ以上のウェーブを含むスレッドグループを開始する異なるハルシェーダ回路（明確にするために図３には図示せず）に関連付けられる。計算ユニット又はＳＩＭＤ上での実行のためにスレッドグループを開始することに応じて、ハルシェーダ回路は、スレッドグループに関連付けられたメタデータをバッファ３０１～３０４のうち対応する１つに提供する。したがって、バッファ３０１～３０４内の各エントリは、対応するスレッドグループのメタデータを含む。

バッファ３０１～３０４は、ハルシェーダにおいて対応するスレッドグループを処理するための測定された時間間隔又はレイテンシを表す値を有するカウンタのセット３１１、３１２、３１３、３１４（本明細書ではまとめて「カウンタセット３１１～３１４」と呼ぶ）に関連付けられる。カウンタセット３１１～３１４内のカウンタの各々は、バッファ３０１～３０４のうち対応する１つ内のエントリに関連付けられる。例えば、カウンタセット３１１内の第１のカウンタは、バッファ３０１内の第１のエントリに関連付けられる。カウンタは、ハルシェーダ回路がスレッドグループを開始したことに応じて、バッファ３０１～３０４のうち１つにおける対応するエントリにメタデータが追加されると、カウントを開始する（例えば、インクリメント又はデクリメントする）。

別のセットのバッファ３２１～３２４は、対応するスレッドグループが処理を完了したことを示す値を記憶するエントリを有する。例えば、バッファ３２１内のエントリは、対応するハルシェーダ回路によって開始されたスレッドグループが計算ユニット上で実行を完了したことに応じて書き込まれる。バッファ内のエントリは、カウンタセット３１１～３１４のうち１つにおける対応するカウンタによるカウントを停止するために使用される。したがって、カウンタは、例えばスレッドグループを処理するために使用されるサイクル数として、スレッドグループの測定されたレイテンシを表す値を保持する。カウンタセット３１１～３１４内のカウンタの値のサブセットは、図４に関して本明細書で説明するように、ノード１を介して処理システム３００の第２の部分に提供される。

アービタ３３０は、スレッドグループがハルシェーダ回路によってディスパッチされる順序で、バッファ３０１～３０４からスレッドグループメタデータを選択する。例えば、第１のスレッドグループがバッファ３０１に関連付けられたハルシェーダ回路によってディスパッチされ、その後、第２のスレッドグループがバッファ３０２に関連付けられたハルシェーダ回路によってディスパッチされる場合、アービタ３３０は、バッファ３０２からスレッドグループメタデータを選択する前に、バッファ３０１からスレッドグループメタデータを選択する。アービタ３３０は、図４に関して本明細書で説明するように、スレッドグループに関連付けられたメタデータを、ノード２を介してスレッドグループのためのテッセレーション係数をフェッチする回路に提供する。

図４は、いくつかの実施形態による、ハルシェーダ回路によって開始されたスレッドグループを選択的にスロットリングする処理システム３００の第２の部分のブロック図である。処理システム３００の第２の部分は、図１に示される処理システム１００及び図２に示されるグラフィックスパイプライン２００のいくつかの実施形態で実施される。

図４に示される処理システム３００の第２の部分は、メモリ４１０からテッセレーション係数をフェッチし、図３に示されるアービタ３３０から受信されたテッセレーション係数及びメタデータに対して処理を実行する回路４０５を含む。アービタ３３０から受信されたメタデータの処理は、スレッドグループに含まれるプリミティブ（パッチ等）を識別するために、受信されたスレッドグループを解析することを含む。パッチ、テッセレーション係数及び関連するメタデータは、次いで、バッファ４１５に提供される。バッファ４１５内の各エントリは、パッチと、その関連付けられたテッセレーション係数と、メタデータと、を含む。バッファ４１５のエントリ内の情報は、次いで、１つ以上のテッセレータ（図２に示すテッセレータ２２０等）及びドメインシェーダ（図２に示すドメインシェーダ２２４等）に関連付けられた出力バッファに情報を分配するパッチ分配器４２０に提供される。

また、回路４０５は、スレッドグループ内のプリミティブ又はパッチのためのテッセレーション係数を、ハルシェーダスロットル回路４３０内のレジスタ４２５に提供する。レジスタのセット４２５内の各レジスタは、バッファ４１５の対応するエントリ内のスレッドグループのパッチに適用されるテッセレーション係数の値に基づいてパッチから生成されたプリミティブ（三角形等）の数の推定値を記憶する。また、ハルシェーダスロットル回路４３０は、ハルシェーダから開始されたスレッドグループをスロットリングするために使用される２つのカウンタを含む。第１のカウンタ４３５は、ドメインシェーダ回路のためのプリミティブ開始時間間隔、例えば、ハルシェーダによって提供される１つ以上のプリミティブに関連付けられたプリミティブのセットを処理及び開始するためにドメインシェーダによって使用される時間間隔を表す合計カウントの値を有する。第１のカウンタ４３５は、バッファ４１５からパッチ分配器４２０にパッチ（及び関連付けられたテッセレーション係数及びメタデータ）を提供することに応じてインクリメントされる。いくつかの実施形態では、第１のカウンタ４３５は、レジスタ４２５のセット内の対応するレジスタによって示される量だけインクリメントされる。例えば、第１のカウンタ４３５は、バッファ４１５内のエントリから提供されるパッチに対応するレジスタ内のプリミティブ又はパッチの数だけインクリメントされ得る。

ハルシェーダスロットル回路４３０内の第２のカウンタ４４０は、パッチについて測定されたダウンストリームレイテンシ（例えば、ドメインシェーダによってプリミティブを処理するための時間間隔）と、テッセレーション係数によって、例えば、テッセレーション係数に基づいてパッチから生成されたプリミティブの数によって示される予測されたダウンストリームプリミティブ開始時間間隔との間の差を示すエラーカウントを表す値を有する。いくつかの実施形態では、第２のカウンタ４４０は、スレッドグループに関連付けられた読み取りイネーブル信号が、第２のカウンタ４４０が０等の所定の値までカウントダウンする前に到着するか又は後に到着するかに基づいてインクリメント又はデクリメントされる。本明細書で説明するように、第２のカウンタ４４０内の値は、第１のカウンタ４３５内の値が、テッセレーション後にプリミティブを処理するためにドメインシェーダによって必要とされるプリミティブ開始時間間隔を示すように、測定されたドメインシェーダレイテンシに基づいて第１のカウンタ４３５を変更するために使用される。

ハルシェーダスロットリング回路４３０は、ハルシェーダから開始されたスレッドグループの測定されたレイテンシを示すカウンタの値に基づいて、ハルシェーダのレイテンシを決定する。カウンタの値は、ハルシェーダにおけるプリミティブを処理するシェーダエンジンに関連付けられたレジスタから（ノード１を介して）、例えば、図３に示されたカウンタセット３１１－３１４内のカウンタにおける値から受信される。図示した実施形態では、カウンタの値は、対応するスレッドグループを処理するのに必要なクロックサイクル数としてレイテンシを示す。比較回路４４５は、ハルシェーダによって開始された最後の８つのスレッドグループのための８つのカウンタ値等の所定の数のカウンタ値を取り出し、取り出された値を使用して、ハルシェーダの平均レイテンシを決定する。レイテンシ比較回路４４５は、ハルシェーダの平均レイテンシを、第１のカウンタ４３５内の合計カウントによって示されるドメインシェーダのプリミティブ開始時間間隔と比較する。次いで、ハルシェーダスロットル回路４３０は、本明細書で説明するように、比較に基づいて、ハルシェーダ回路からのスレッドグループの開始を選択的にスロットリングする。

図５は、いくつかの実施形態による、合計カウント及びエラーカウントを使用してドメインシェーダについてのプリミティブ開始時間間隔を推定する方法５００の第１の部分のフロー図である。方法５００は、図１に示される処理システム１００、図２に示されるグラフィックスパイプライン２００、並びに、図３及び図４に示される処理システム３００のいくつかの実施形態で実施される。図示した実施形態では、方法５００を実施するためにスロットリング回路が使用される。

ブロック５０５において、スロットリング回路は、スレッドグループのための書き込みデータが図４に示されるバッファ４１５等のＦＩＦＯバッファに書き込まれる前に、書き込みデータをインターセプトする。スロットリング回路は、この情報を使用して、スレッドグループに関連付けられたテッセレーション係数（ｔｆ１、ｔｆ２）に基づいて生成されているプリミティブの数を推定する。例えば、プリミティブの数は、以下に等しい。
２＊ｉｎｓｉｄｅ＿ｔｆ１＊ｉｎｓｉｄｅ＿ｔｆ２（クワッドパッチの場合）
ｆｌｏｏｒ（１．５＊ｉｎｓｉｄｅ＿ｔｆ１＾２）（三角形の場合）
ｆａｃｔｏｒ１＊ｆａｃｔｏｒ２（等値線の場合）
次に、プリミティブの数は、スレッドグループデータを記憶するために使用されるＦＩＦＯバッファ内のエントリに対応するレジスタ、例えば、図４に示されるレジスタ４２５のうち１つに格納される。

ブロック５１０において、合計カウントを示す第１のカウンタは、対応するスレッドグループが書き込まれていることに応じて、プリミティブの数だけインクリメントされる。第１の読み取り動作では、エラーカウントを示す第２のカウンタに、バッファ内の現在位置のプリミティブの数に等しい値がロードされる。

ブロック５１５において、第１のカウンタ（合計カウント）及び第２のカウンタ（エラーカウント）のダウンカウント（又はデクリメント）が開始する。いくつかの実施形態では、第１及び第２のカウンタは、テッセレータのプリミティブレートとテッセレータの数との積だけダウンカウントする。

決定ブロック５２０において、スロットリング回路は、スロットリング回路が読み取りイネーブル信号を受信する前に、第２のカウンタの値（エラーカウント）が０に達したかどうかを判定する。そうである場合、方法５００はブロック５４０に進む。ドメインシェーダのプリミティブ開始時間間隔が過小評価されていることを示す読み取りイネーブル信号の受信前に第２のカウンタが０に達した場合、方法５００はブロック５２５に進む。

ブロック５２５において、スロットリング回路は、読み取りイネーブル信号が受信されるまで、各クロックサイクルにおいて第２のカウンタ（エラーカウント）をインクリメントする。第２のカウンタの値が最大値に達する場合、第２のカウンタの値は、第２のカウンタがロールオーバしないように最大値にクランプされる。ブロック５３０において、スロットリング回路は、読み取りイネーブル信号を受信する。ブロック５３５において、スロットリング回路は、第２のカウンタの値を第１のカウンタの現在の値に加算する。次いで、方法５００はブロック５１５に進む。

ブロック５４０において、スロットリング回路は、第２のカウンタの値が０に達する前に読み取りイネーブル信号を受信する。次に、方法５００は、ブロック５４０を図６の決定ブロック６０５に接続するノード１に進む。

図６は、いくつかの実施形態による、合計カウント及びエラーカウントを使用してドメインシェーダについてのプリミティブ開始時間間隔を推定する方法５００の第２の部分のフロー図である。決定ブロック６０５は、ノード１を介して図５のブロック５４０に接続される。

決定ブロック６０５において、スロットリング回路は、読み取りイネーブル信号が受信された場合にエラーカウントが０に等しいかどうかを判定する。そうである場合、方法５００はブロック６１０に進み、次の位置が第２のカウンタにロードされる。次に、方法５００は、ノード２を介して図５のブロック５１５に進む。

読み取りイネーブル信号が受信された場合にエラーカウントが０に等しくない場合、すなわち、エラーカウントの値が０より大きい場合、方法５００はブロック６１５に進む。０より大きいエラーカウントは、ドメインシェーダのプリミティブ開始時間間隔が過大評価されていることを示す。したがって、ブロック６１５において、スロットリング回路は、第１のカウンタの値（合計カウント）から第２のカウンタの値を減算する。次に、方法５００は、ノード２を介して図５のブロック５１５に進む。

したがって、第１のカウンタは、スレッドグループの書込みと後続の読み取りイネーブル信号の受信との間のサイクル数を示す値を有する。したがって、第１のカウンタ内の合計カウントは、テッセレーション後に生成されるスレッドグループ内のプリミティブを処理するために必要とされる合計ドメインシェーダ時間／レイテンシを示す。したがって、合計カウントは、ドメインシェーダレイテンシをハルシェーダレイテンシと比較し、ハルシェーダからのウェーブの開始を選択的にスロットリングして、ハルシェーダ及びドメインシェーダにおけるスレッドグループ消費のレート間のバランスを維持するために使用され得る。

図７は、いくつかの実施形態による、ハルシェーダからのウェーブ開始を選択的にスロットリングする方法７００のフロー図である。方法７００は、図１に示される処理システム１００、図２に示されるグラフィックスパイプライン２００、並びに、図３及び図４に示される処理システム３００のいくつかの実施形態で実施される。図示した実施形態では、方法５００を実施するためにスロットリング回路が使用される。

ブロック７０５において、スロットリング回路は、ドメインシェーダについてのプリミティブ開始時間間隔を示す、スロットリング回路内の第１のカウンタによって示される合計カウントを決定する。ブロック７１０において、スロットリング回路は、本明細書で説明されるように、シェーダエンジンによって処理されるスレッドグループに関連付けられたカウンタの値を使用して、例えば、平均ハルシェーダレイテンシを決定する。

決定ブロック７１５において、スロットリング回路は、合計カウントとハルシェーダレイテンシとを比較し、合計カウントがハルシェーダレイテンシよりも８倍よりも大きいかどうかを決定する。そうである場合、比較は、ハルシェーダがドメインシェーダよりも先に実行されており、スロットリングされるべきであることを示す。したがって、方法７００はブロック７２０に進み、ハルシェーダは、シェーダエンジンごとに２つのインフライト中のスレッドグループを可能にするようにスロットリングされる。合計カウントがハルシェーダレイテンシの８倍以下である場合、方法７００は決定ブロック７２５に進む。

決定ブロック７２５において、スロットリング回路は、合計カウントとハルシェーダレイテンシとを比較し、合計カウントがハルシェーダレイテンシよりも４倍よりも大きいかどうかを決定する。そうである場合、比較は、ハルシェーダがドメインシェーダより先に実行されていることを示すが、合計カウントがハルシェーダレイテンシの８倍よりも大きい場合ほど先に実行されていない。それにもかかわらず、ハルシェーダはスロットリングされるべきである。したがって、方法７００はブロック７３０に進み、ハルシェーダは、シェーダエンジンごとに４つの飛行中のスレッドグループを可能にするようにスロットリングされる。合計カウントがハルシェーダレイテンシの４倍以下である場合、方法７００は決定ブロック７３５に進む。

決定ブロック７３５において、スロットリング回路は、合計カウントとハルシェーダレイテンシとを比較し、合計カウントがハルシェーダレイテンシよりも２倍よりも大きいかどうかを決定する。そうである場合、比較は、ハルシェーダがドメインシェーダより先に実行されていることを示すが、合計カウントがハルシェーダレイテンシの４倍よりも大きい場合ほど先に実行されていない。それにもかかわらず、ハルシェーダはスロットリングされるべきである。したがって、方法７００はブロック７４０に進み、ハルシェーダは、シェーダエンジンごとに８つのインフライト中のスレッドグループを可能にするようにスロットリングされる。合計カウントがハルシェーダレイテンシの２倍以下である場合、方法７００はブロック７４５に進み、ハルシェーダのスロットリングが無効化される。

コンピュータ可読記憶媒体は、命令及び／又はデータをコンピュータシステムに提供するために、使用中にコンピュータシステムによってアクセス可能な任意の非一時的な記憶媒体又は非一時的な記憶媒体の組み合わせを含む。このような記憶媒体には、限定されないが、光学媒体（例えば、コンパクトディスク（ＣＤ）、デジタル多用途ディスク（ＤＶＤ）、ブルーレイ（登録商標）ディスク）、磁気媒体（例えば、フロッピー（登録商標）ディスク、磁気テープ、磁気ハードドライブ）、揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）若しくはキャッシュ）、不揮発性メモリ（例えば、読取専用メモリ（ＲＯＭ）若しくはフラッシュメモリ）、又は、微小電気機械システム（ＭＥＭＳ）ベースの記憶媒体が含まれ得る。コンピュータ可読記憶媒体（例えば、システムＲＡＭ又はＲＯＭ）はコンピューティングシステムに内蔵されてもよいし、コンピュータ可読記憶媒体（例えば、磁気ハードドライブ）はコンピューティングシステムに固定的に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、光学ディスク又はユニバーサルシリアルバス（ＵＳＢ）ベースのフラッシュメモリ）はコンピューティングシステムに着脱可能に取り付けられてもよいし、コンピュータ可読記憶媒体（例えば、ネットワークアクセス可能ストレージ（ＮＡＳ））は有線又は無線ネットワークを介してコンピュータシステムに結合されてもよい。

いくつかの実施形態では、上述した技術の特定の態様は、ソフトウェアを実行する処理システムの１つ以上のプロセッサによって実装される。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶されるか、別の方法で明確に具体化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、命令及び特定のデータを含んでもよく、当該命令及び特定のデータは、１つ以上のプロセッサによって実行されると、上述した技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する。非一時的なコンピュータ可読記憶媒体は、例えば、磁気又は光ディスク記憶デバイス、フラッシュメモリ等のソリッドステート記憶デバイス、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）、又は、他の不揮発性メモリデバイス（単数又は複数）等を含み得る。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈され若しくは別の方法で実行可能な他の命令形式で実装可能である。

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

Claims

装置であって、
１つ以上のプリミティブを含むスレッドグループを開始し、前記プリミティブのサブディビジョンを示すテッセレーション係数を生成するように構成されたハルシェーダ回路と、
前記テッセレーション係数に基づいてドメインシェーダのプリミティブ開始時間間隔を推定し、前記プリミティブ開始時間間隔及びハルシェーダのレイテンシに基づいて前記ハルシェーダ回路からの前記スレッドグループの開始を選択的にスロットリングするように構成されたスロットリング回路と、を備える、
装置。
前記テッセレーション係数に基づいて前記プリミティブをより高い解像度のプリミティブに細分するように構成されたテッセレータを更に備え、
前記スロットリング回路は、前記テッセレーション係数に基づいて前記ドメインシェーダにおいて前記より高い解像度のプリミティブを処理するためのサイクル数を推定し、前記サイクル数に基づいて前記スレッドグループに対する前記ドメインシェーダの前記プリミティブ開始時間間隔を推定するように構成されている、
請求項１の装置。
前記ハルシェーダ回路によって開始された前記スレッドグループを記憶するように構成されたエントリを含むバッファと、
前記バッファ内の前記エントリに対応するレジスタのセットであって、前記エントリ内の前記スレッドグループについて推定された前記プリミティブ開始時間間隔を示す情報を記憶するレジスタのセットと、を更に備える、
請求項２の装置。
前記レジスタのセット内の各レジスタは、前記レジスタに関連付けられた前記スレッドグループ内の前記より高い解像度のプリミティブの数と、前記レジスタに関連付けられた前記スレッドグループ内の前記より高い解像度のプリミティブを処理するために必要とされるサイクル数と、のうち少なくとも１つを示す情報を記憶するように構成されている、
請求項３の装置。
前記スロットリング回路は、
前記バッファからスレッドグループを開始することに応じてインクリメントされる第１のカウンタであって、前記第１のカウンタは、前記レジスタのセットのうち対応するレジスタによって示される量だけインクリメントされる、第１のカウンタと、
前記ドメインシェーダの測定されたレイテンシに基づいて前記第１のカウンタを変更するように構成された第２のカウンタと、を更に備える、
請求項４の装置。
前記第１のカウンタは、前記ドメインシェーダがテッセレーション後にプリミティブを処理するための前記プリミティブ開始時間間隔を示す、
請求項５の装置。
前記第２のカウンタは、前記スレッドグループに関連付けられた読み取りイネーブル信号が、前記第２のカウンタが０までカウントダウンする前に到着するか又は後に到着するかに基づいて、インクリメント又はデクリメントされる、
請求項６の装置。
前記スロットリング回路は、前記ハルシェーダ回路から開始された前記スレッドグループ内のプリミティブの数を示すカウンタの値に基づいて、前記ハルシェーダの前記レイテンシを決定するように構成されている、
請求項１の装置。
前記スロットリング回路は、前記ドメインシェーダの前記プリミティブ開始時間間隔と前記ハルシェーダの前記レイテンシとの比較に基づいて、前記ハルシェーダ回路によって開始されるスレッドグループの数を決定するように構成されている、
請求項８の装置。
方法であって、
ハルシェーダ回路から１つ以上のプリミティブを含むスレッドグループを開始することと、
前記ハルシェーダ回路において、前記プリミティブのサブディビジョンを示すテッセレーション係数を生成することと、
前記テッセレーション係数に基づいて、ドメインシェーダのプリミティブ開始時間間隔を推定することと、
前記プリミティブ開始時間間隔及び前記ハルシェーダ回路のレイテンシに基づいて、前記ハルシェーダ回路からの前記スレッドグループの開始を選択的にスロットリングすることと、を含む、
方法。
前記テッセレーション係数に基づいて、前記プリミティブをより高い解像度のプリミティブに細分することと、
前記テッセレーション係数に基づいて、前記ドメインシェーダにおいて前記より高い解像度のプリミティブを処理するためのサイクル数を推定することと、
前記サイクル数に基づいて前記スレッドグループの前記プリミティブ開始時間間隔を推定することと、を更に含む、
請求項１０の方法。
前記ハルシェーダ回路によって開始された前記スレッドグループをバッファのエントリに記憶することと、
前記バッファ内の前記エントリに対応するレジスタのセットに、前記エントリ内の前記スレッドグループについて推定された前記プリミティブ開始時間間隔を示す情報を記憶することと、を更に含む、
請求項１１の方法。
前記レジスタのセット内の各レジスタに、前記レジスタに関連付けられた前記スレッドグループ内の前記より高い解像度のプリミティブの数と、前記レジスタに関連付けられた前記スレッドグループ内の前記より高い解像度のプリミティブを処理するために必要とされるサイクル数と、のうち少なくとも１つを示す情報を記憶することを更に含む、
請求項１２の方法。
前記バッファからスレッドグループを開始することに応じて第１のカウンタをインクリメントすることであって、前記第１のカウンタは、前記レジスタのセットのうち対応するレジスタによって示される量だけインクリメントされる、ことと、
前記第１のカウンタを、第２のカウンタに記憶された値で変更することであって、前記値は、前記ドメインシェーダについて測定されたプリミティブ開始時間間隔に基づいて決定される、ことと、を更に含む、
請求項１３の方法。
前記スレッドグループを開始することに応じて、前記スレッドグループに関連付けられた読み取りイネーブル信号を受信することと、
前記第２のカウンタが０にカウントダウンする前に前記読み取りイネーブル信号が到着するか、又は、前記第２のカウンタが０にカウントダウンした後に前記読み取りイネーブル信号が到着するかに基づいて、前記第２のカウンタを選択的にインクリメント又はデクリメントすることと、を更に含む、
請求項１４の方法。
前記ハルシェーダ回路から開始された前記スレッドグループ内のプリミティブの数を示すカウンタの値に基づいて、前記ハルシェーダ回路の前記レイテンシを決定することを更に含む、
請求項１０の方法。
前記スレッドグループの開始を選択的にスロットリングすることは、前記ドメインシェーダの前記プリミティブ開始時間間隔と前記ハルシェーダ回路の前記レイテンシとの比較に基づいて、前記ハルシェーダ回路によって開始されるスレッドグループの数を決定することを含む、
請求項１６の方法。
装置であって、
ハルシェーダ回路によって開始され、バッファに記憶されたスレッドグループについて推定されたドメインシェーダレイテンシを示す情報を記憶するように構成されたレジスタのセットと、
前記バッファからスレッドグループを開始することに応じてインクリメントされる第１のカウンタであって、前記第１のカウンタは、前記レジスタのセットのうち対応するレジスタによって示される量だけインクリメントされる、第１のカウンタと、
ドメインシェーダの測定されたプリミティブ開始時間間隔に基づいて前記第１のカウンタを変更するように構成された第２のカウンタと、
前記プリミティブ開始時間間隔とハルシェーダのレイテンシとを比較するように構成されたレイテンシ比較回路であって、前記ハルシェーダ回路からの前記スレッドグループの開始は前記比較に基づいて選択的にスロットリングされる、レイテンシ比較回路と、を備える、
装置。
前記第１のカウンタは、前記ドメインシェーダがテッセレーション後にプリミティブを処理するための前記プリミティブ開始時間間隔を示す、
請求項１８の装置。
前記第２のカウンタは、前記スレッドグループに関連付けられた読み取りイネーブル信号が、前記第２のカウンタが０までカウントダウンする前に到着するか又は後に到着するかに基づいて、インクリメント又はデクリメントされる、
請求項１９の装置。