JP2023527322A

JP2023527322A - ワークロード処理のためのタスクグラフスケジューリング

Info

Publication number: JP2023527322A
Application number: JP2022571760A
Authority: JP
Inventors: ジェイ．トービースティーブン; チェンズオ; ロナルドオールドコーンデイビッド
Original assignee: ATI Technologies ULC; Advanced Micro Devices Inc
Current assignee: ATI Technologies ULC; Advanced Micro Devices Inc
Priority date: 2020-05-29
Filing date: 2021-05-18
Publication date: 2023-06-28
Also published as: EP4158584A1; KR20230017212A; US20210373957A1; WO2021242577A1; US11481256B2; EP4158584A4; CN115699072A

Abstract

処理デバイス上のタスクグラフの動作をスケジューリングするための技術が提供される。技術は、１つ以上のパスと、１つ以上のリソースと、パスとリソースとの間の１つ以上の有向エッジと、を指定するタスクグラフを受信することと、タスクグラフの独立したパス及び依存的なパスを識別することと、処理デバイスの性能基準に基づいて、パスを実行するためのコマンドをスケジューリングすることと、スケジューリング通りに実行するために、スケジューリングされたコマンドを処理デバイスに送信することと、を含む。【選択図】図５

Description

（関連出願の相互参照）
本願は、２０２０年５月２９日に出願された米国特許出願第１６／８８８，５４０号の利益を主張し、本明細書に完全に記載されているように参照により組み込まれる。

三次元（three-dimensional、「３Ｄ」）グラフィックス処理パイプラインは、入力ジオメトリを画面上に表示するための二次元（two-dimensional、「２Ｄ」）画像に変換するために一連のステップを実行する。いくつかの例では、これらのステップは、アプリケーションを実行する中央処理ユニット等のホストによってコマンドとして指定される。多くのレンダリングワークロードは、大きなコマンドシーケンスを必要とし、したがって、これらのシーケンスを生成及び処理することは、複雑なタスクである。

添付の図面と共に例として与えられる以下の説明から、より詳細な理解を得ることができる。

本開示の１つ以上の特徴が実装され得る例示的なデバイスのブロック図である。一例による、図１のデバイスの詳細を示す図である。図２に示すグラフィックス処理パイプラインの追加の詳細を示すブロック図である。タスクグラフ指定プロセッサ４０２及び図２の加速処理デバイス等の処理デバイス上のタスクグラフ及びスケジューリングワークロードを生成するためのコマンドスケジューラ４０４の構成を示す図である。タスクグラフ指定プロセッサ４０２及び図２の加速処理デバイス等の処理デバイス上のタスクグラフ及びスケジューリングワークロードを生成するためのコマンドスケジューラ４０４の構成を示す図である。タスクグラフ指定プロセッサ４０２及び図２の加速処理デバイス等の処理デバイス上のタスクグラフ及びスケジューリングワークロードを生成するためのコマンドスケジューラ４０４の構成を示す図でる。例示的なタスクグラフを示す図である。例示的な技術による、タスクグラフ指定プログラムからのタスクグラフの生成を示す図である。例示的な技術による、タスクグラフ指定プログラムからのタスクグラフの生成を示す図である。別の例示的な技術による、タスクグラフ指定プログラムからのタスクグラフの生成を示す図である。別の例示的な技術による、タスクグラフ指定プログラムからのタスクグラフの生成を示す図である。タスクグラフによる、処理デバイス上でタスクをスケジューリングすることを示す図である。タスクグラフによる、処理デバイス上でタスクをスケジューリングすることを示す図である。タスクグラフ指定プログラムからタスクグラフを生成する方法のフロー図である。タスクグラフによる、処理デバイス上でタスクをスケジューリングする方法のフロー図である。

処理デバイス上のタスクグラフの動作をスケジューリングするための技術が提供される。技術は、１つ以上のパス、１つ以上のリソース、及び、パスとリソースとの間の１つ以上の有向エッジを指定するタスクグラフを受信することと、タスクグラフの独立したパス及び依存的なパスを識別することと、処理デバイスの性能基準に基づいて、パスを実行するためのコマンドをスケジューリングすることと、スケジューリングされたような実行のために、スケジューリングされたコマンドを処理デバイスに送信することと、を含む。

図１は、本開示の１つ以上の特徴を実装することができる例示的なデバイス１００のブロック図である。デバイス１００は、例えば、コンピュータ、ゲームデバイス、ハンドヘルドデバイス、セットトップボックス、テレビ、携帯電話、タブレットコンピュータ、又は、他のコンピューティングデバイスのうち何れかであり得るが、これらに限定されない。デバイス１００は、プロセッサ１０２と、メモリ１０４と、記憶装置１０６と、１つ以上の入力デバイス１０８と、１つ以上の出力デバイス１１０と、を含む。また、デバイス１００は、１つ以上の入力ドライバ１１２及び１つ以上の出力ドライバ１１４を含む。入力ドライバ１１２の何れも、ハードウェア、ハードウェアとソフトウェアとの組み合わせ、又は、ソフトウェアとして具体化され、入力デバイス１０８を制御する（例えば、動作を制御し、入力ドライバ１１２からの入力を受信し、入力ドライバ１１２にデータを提供する）役割を果たす。同様に、出力ドライバ１１４の何れも、ハードウェア、ハードウェアとソフトウェアとの組み合わせ、又は、ソフトウェアとして具体化され、出力デバイス１１０を制御する（例えば、動作を制御し、出力ドライバ１１４からの入力を受信し、出力ドライバ１１４にデータを提供する）役割を果たす。デバイス１００は、図１に示されていない追加の構成要素を含むことができることを理解されたい。

様々な代替例では、プロセッサ１０２は、中央処理ユニット（central processing unit、ＣＰＵ）、グラフィック処理ユニット（graphics processing unit、ＧＰＵ）、同じダイ上に位置するＣＰＵ及びＧＰＵ、又は、１つ以上のプロセッサコアを含み、各プロセッサコアは、ＣＰＵ又はＧＰＵであってもよい。様々な代替例では、メモリ１０４は、プロセッサ１０２と同じダイ上に位置してもよいし、プロセッサ１０２と別に位置してもよい。メモリ１０４は、揮発性又は不揮発性メモリ（例えば、ランダムアクセスメモリ（random access memory、ＲＡＭ）、ダイナミックＲＡＭ、キャッシュ）を含む。

記憶装置１０６は、固定又はリムーバブル記憶装置（例えば、限定するものではないが、ハードディスクドライブ、ソリッドステートドライブ、光ディスク、フラッシュドライブ）を含む。入力デバイス１０８は、キーボード、キーパッド、タッチスクリーン、タッチパッド、検出器、マイクロフォン、加速度計、ジャイロスコープ、生体認証スキャナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信及び／又は受信のための無線ローカルエリアネットワークカード）を含むが、これらに限定されない。出力デバイス１１０は、ディスプレイ、スピーカ、プリンタ、触覚フィードバックデバイス、１つ以上の光、アンテナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信及び／又は受信のための無線ローカルエリアネットワークカード）を含むが、これらに限定されない。

入力ドライバ１１２及び出力ドライバ１１４は、それぞれ、入力デバイス１０８及び出力デバイス１１０とインターフェースし、それらをドライブするように構成された１つ以上のハードウェア、ソフトウェア、及び／又は、ファームウェア構成要素を含む。入力ドライバ１１２は、プロセッサ１０２及び入力デバイス１０８と通信し、プロセッサ１０２が入力デバイス１０８から入力を受信することを可能にする。出力ドライバ１１４は、プロセッサ１０２及び出力デバイス１１０と通信し、プロセッサ１０２が出力デバイス１１０に出力を送信することを可能にする。出力ドライバ１１４は、表示デバイス１１８に結合された加速処理デバイス（「accelerated processing device、ＡＰＤ」）１１６を含み、これは、いくつかの例では、物理表示デバイス又はリモートディスプレイプロトコルを使用して出力を示す模擬デバイスである。ＡＰＤ１１６は、プロセッサ１０２から計算コマンド及びグラフィックスレンダリングコマンドを受け入れて、それらの計算及びグラフィックスレンダリングコマンドを処理し、表示のために表示デバイス１１８にピクセル出力を提供するように構成されている。以下で更に詳細に説明するように、ＡＰＤ１１６は、単一命令複数データ（「single-instruction-multiple-data、ＳＩＭＤ」）パラダイムに従って計算を行うように構成された１つ以上の並列処理ユニットを含む。こうして、様々な機能は、本明細書では、ＡＰＤ１１６によって、又は、ＡＰＤ１１６と併せて行われるものとして説明されているが、様々な代替例では、ＡＰＤ１１６によって行われるものとして説明される機能は、ホストプロセッサ（例えば、プロセッサ１０２）によってドライブされず、表示デバイス１１８にグラフィック出力を提供するように構成された同様の能力を有する他のコンピューティングデバイスによって追加的又は代替的に行われる。例えば、ＳＩＭＤパラダイムに従って処理タスクを行う任意の処理システムが、本明細書に説明される機能を行うように構成されてもよいことが企図される。代替的に、ＳＩＭＤパラダイムに従って処理タスクを行わないコンピューティングシステムが、本明細書に説明される機能を行うことが企図される。

図２は、一例による、デバイス１００及びＡＰＤ１１６の詳細を示す図である。プロセッサ１０２（図１）は、オペレーティングシステム１２０、ドライバ１２２及びアプリケーション１２６を実行し、また、代替的又は追加的に他のソフトウェアを実行してもよい。オペレーティングシステム１２０は、ハードウェアリソースを管理すること、サービス要求を処理すること、プロセス実行をスケジュールし、制御すること、及び、他の動作を行うこと等のように、デバイス１００の様々な態様を制御する。ＡＰＤドライバ１２２は、ＡＰＤ１１６の動作を制御し、グラフィックスレンダリングタスク又は他のワーク等のタスクを処理のためにＡＰＤ１１６に送信する。また、ＡＰＤドライバ１２２は、ＡＰＤ１１６の処理構成要素（以下で更に詳細に説明するＳＩＭＤユニット１３８等）によって実行するためのプログラムをコンパイルするジャストインタイムコンパイラを含む。

ＡＰＤ１１６は、並列処理に適し得るグラフィック操作及び非グラフィック操作等の選択された機能のためのコマンド及びプログラムを実行する。ＡＰＤ１１６は、プロセッサ１０２から受信したコマンドに基づいて、ピクセル動作、幾何学計算及び表示デバイス１１８への画像のレンダリング等のグラフィックスパイプライン動作を実行するために使用することができる。また、ＡＰＤ１１６は、プロセッサ１０２から受信したコマンドに基づいて、ビデオ、物理シミュレーション、計算流体力学又は他のタスクに関連する動作等のように、グラフィック動作に直接関連しない計算処理動作を実行する。

ＡＰＤ１１６は、プロセッサ１０２（又は別のユニット）の要求で、ＳＩＭＤパラダイムに従って並列の様態で演算を行うように構成された１つ以上のＳＩＭＤユニット１３８を含む計算ユニット１３２を含む。ＳＩＭＤパラダイムは、複数の処理要素が単一のプログラム制御フローユニット及びプログラムカウンタを共有し、したがって同じプログラムを実行するが、そのプログラムを異なるデータで実行することができるものである。一例では、各ＳＩＭＤユニット１３８は、１６個のレーンを含み、各レーンは、ＳＩＭＤユニット１３８内の他のレーンと同時に同じ命令を実行するが、その命令を異なるデータで実行することができる。レーンは、全てのレーンが所定の命令を実行する必要がない場合、予測でオフに切り替えることができる。また、予測は、分岐制御フローを有するプログラムを実行するために使用することができる。より具体的には、制御フローが個々のレーンによって行われる計算に基づいている条件付き分岐又は他の命令を有するプログラムについては、現在実行されていない制御フローパスに対応するレーンの予測、及び、異なる制御フローパスのシリアル実行が、任意の制御フローを可能にする。

計算ユニット１３２内の実行の基本的単位は、ワークアイテムである。各ワークアイテムは、特定のレーンにおいて並列で実行されるプログラムの単一のインスタンス化を表す。ワークアイテムは、単一のＳＩＭＤユニット１３８上の「ウェーブフロント（wavefront）」として同時に（又は部分的に同時に、及び部分的に順次に）実行することができる。１つ以上のウェーブフロントが「ワークグループ」に含まれ、これは、同じプログラムを実行するように指定されたワークアイテムの集合体を含む。ワークグループは、ワークグループを構成するウェーブフロントの各々を実行することによって実行することができる。代替例では、ウェーブフロントは、単一のＳＩＭＤユニット１３８上で、又は、異なるＳＩＭＤユニット１３８上で実行される。ウェーブフロントは、単一のＳＩＭＤユニット１３８上で同時に（又は擬似同時に）実行することができるワークアイテムの最大集合体と考えることができる。「擬似同時」実行は、ＳＩＭＤユニット１３８内のレーンの数よりも大きいウェーブフロントの場合に生じる。そのような状況では、ウェーブフロントは、複数のサイクルにわたって実行され、ワークアイテムの異なる集合体が、異なるサイクルで実行される。ＡＰＤスケジューラ１３６は、計算ユニット１３２及びＳＩＭＤユニット１３８上の様々なワークグループ及びウェーブフロントのスケジューリングに関連する動作を行うように構成されている。

計算ユニット１３２によって与えられる並列処理は、ピクセル値計算、頂点変換及び他のグラフィック動作等のグラフィック関連動作に好適である。したがって、場合によっては、プロセッサ１０２からのグラフィック処理コマンドを受け入れるグラフィックス処理パイプライン１３４は、並列で実行するために計算タスクを計算ユニット１３２に提供する。

また、計算ユニット１３２は、グラフィックに関連しないか、又は、グラフィックス処理パイプライン１３４の「通常の」動作の一部（例えば、グラフィックス処理パイプライン１３４の動作に対して行われる処理を補足するために行われるカスタム動作）として行われない計算タスクを行うために使用される。プロセッサ１０２上で実行されるアプリケーション１２６又は他のソフトウェアは、そのような計算タスクを定義するプログラムを、実行のためにＡＰＤ１１６に送信する。

図３は、図２に示すグラフィックス処理パイプライン１３４の追加の詳細を示すブロック図である。グラフィックス処理パイプライン１３４は、各々がグラフィックス処理パイプライン１３４の特定の機能を実行する段階（ステージ）を含む。各段階は、プログラマブル計算ユニット１３２内で実行されるシェーダプログラムとして部分的若しくは完全に、又は、計算ユニット１３２の外部の固定機能非プログラマブルハードウェアとして部分的若しくは完全に実装される。

入力アセンブラ段階３０２は、ユーザが満たしたバッファ（例えば、アプリケーション１２６等のプロセッサ１０２によって実行されるソフトウェアの要求で満たされたバッファ）を読み取り、そのデータを、パイプラインの残りの部分によって使用されるプリミティブに組み立てる（アセンブルする）。入力アセンブラ段階３０２は、ユーザが満たしたバッファに含まれるプリミティブデータに基づいて、異なるタイプのプリミティブを生成することができる。入力アセンブラ段階３０２は、パイプラインの残りの部分によって使用するための組み立てられた（アセンブルされた）プリミティブをフォーマットする。

頂点シェーダ段階３０４は、入力アセンブラ段階３０２によって組み立てられたプリミティブの頂点を処理する。頂点シェーダ段階３０４は、変換、スキニング、モーフィング、及び、各々の頂点照明等の様々な頂点毎の動作を実行する。変換動作は、頂点の座標を変換するための様々な動作を含む。これらの動作は、モデリング変換、表示変換、投影変換、視点分割、頂点座標を修正するビューポート変換、及び、非座標属性を修正する他の動作のうち１つ以上を含む。

頂点シェーダ段階３０４は、１つ以上の計算ユニット１３２上で実行される頂点シェーダプログラムとして部分的又は完全に実装される。頂点シェーダプログラムは、プロセッサ１０２によって提供され、コンピュータプログラマによって事前に書き込まれたプログラムに基づいている。ドライバ１２２は、そのようなコンピュータプログラムをコンパイルして、計算ユニット１３２内での実行に適した形式を有する頂点シェーダプログラムを生成する。

ハルシェーダ段階３０６、モザイク化器段階３０８及びドメインシェーダ段階３１０は、モザイク化（テッセレーション）を実装するために共に動作し、モザイク化（テッセレーション）は、プリミティブを細分することによって、単純なプリミティブをより複雑なプリミティブに変換する。ハルシェーダ段階３０６は、入力プリミティブに基づいて、モザイク化のためのパッチを生成する。モザイク化器（テッセレータ）段階３０８は、パッチのためのサンプルセットを生成する。ドメインシェーダ段階３１０は、パッチのサンプルに対応する頂点の頂点位置を計算する。ハルシェーダ段階３０６及びドメインシェーダ段階３１０は、頂点シェーダ段階３０４と共にドライバ１２２によってコンパイルされる計算ユニット１３２上で実行されるシェーダプログラムとして実装することができる。

ジオメトリシェーダ段階３１２は、プリミティブ基準で頂点動作を実行する。ポイントスプライト拡張（point sprite expansion）、動的粒子システム操作（dynamic particle system operations）、ファーフィン生成（fur-fin generation）、シャドウボリューム生成（shadow volume generation）、シングルパスレンダリング－キューブマップ（single pass render-to-cubemap）、プリミティブ毎の材料交換（per-primitive material swapping）、及び、プリミティブ毎の材料設定（per-primitive material setup）等の動作を含む様々な異なるタイプの動作が、ジオメトリシェーダ段階３１２によって実行され得る。場合によっては、ドライバ１２２によってコンパイルされ、計算ユニット１３２上で実行されるジオメトリシェーダプログラムは、ジオメトリシェーダ段階３１２の動作を実行する。

ラスタライザ段階３１４は、ラスタライザ段階３１４から上流に生成された単純なプリミティブ（三角形）を受け入れて、ラスタリングする。ラスタライズは、何れのスクリーンピクセル（又はサブピクセルサンプル）が特定のプリミティブによってカバーされることを決定することからなる。ラスタライズは、固定機能ハードウェアによって行われる。

ピクセルシェーダ段階３１６は、上流に生成されたプリミティブ及びラスタライズの結果に基づいて、スクリーンピクセルの出力値を計算する。ピクセルシェーダ段階３１６は、テクスチャメモリからテクスチャを適用することができる。ピクセルシェーダ段階３１６の動作は、ドライバ１２２によってコンパイルされ、計算ユニット１３２上で実行されるピクセルシェーダプログラムによって実行される。

出力マージ段階３１８は、ピクセルシェーダ段階３１６からの出力を受け入れ、それらの出力をフレームバッファ内にマージし、ｚ試験及びアルファブレンド等の動作を実行して、スクリーンピクセルの最終色を決定する。

多くの場合、ＡＰＤ１１６上の処理ワークロードは、複数の「パス」を実行することを伴う。「パス」は、いくつかの入力（例えば、別のパスから、又は、処理ワークロード全体への入力として）を受け入れる処理の単位であり、入力を処理し、出力を生成する。いくつかの出力は、他のパスへの出力を含み、他の出力は、画面上に表示するための画像等の処理ワークロードの最終出力を含む。したがって、特定のパス順序、それらのパスが使用する入力、及び、それらのパスが生成する出力は、処理ワークロード全体を指定する。

パスの一例は、特定の方法で構成されたグラフィックス処理パイプライン１３４を介したデータの処理である（例えば、特定の段階が有効又は無効にされ、特定のプログラマブル段階は、実行のために特定の選択されたシェーダプログラムを有する）。グラフィックス処理パイプライン１３４を通る任意の特定のパスのための入力又は出力は、グラフィックス処理パイプライン１３４の指定された動作に基づいて構成可能である。例示的なグラフィックス処理パスは、メッシュをレンダリングターゲットのセット及び深度バッファに描画するジオメトリパス、並びに、頂点及びピクセルシェーダプログラムを有するスクリーン空間四重線（screen space quad）を描画する後処理パスを含む。パスの別の例は、特定の計算シェーダプログラムを実行する計算ワークロードである。計算シェーダプログラムは、計算ユニット１３２上で実行されるが、グラフィックス処理パイプライン１３４の一部として実行されないシェーダプログラムである。計算ワークロードは、入力データの特定のセットのための計算シェーダプログラムの実行であり、出力データの特定のセットを生成する。

処理ワークロードのパスの個々のコマンドの各々を「手動で」指定することが可能である。より具体的には、アプリケーション１２６（又はドライバ１２２等の他のエンティティ）が、ドライバ１２２及び／又は加速処理デバイス１１６にコマンドを発行して、アドホック様式でパスを実行することが可能である。しかしながら、本開示は、マルチパス処理ワークロードを指定するためのより自動化された方法の技術を提示する。

具体的には、本開示は、タスクグループとして処理ワークロードをプログラム可能に指定するための技術を提示する。図４Ａは、タスクグラフ指定プログラムを実行してタスクグラフを生成し、生成されたタスクグラフに基づいて、ＡＰＤ１１６上で実行するための動作をスケジューリングするように構成された、図２のＡＰＤスケジューラ１３６を示す。

ＡＰＤスケジューラ１３６は、タスクグラフ指定プロセッサ４０２及びコマンドスケジューラ４０４を含む。タスクグラフ指定プロセッサ４０２は、タスクグラフ指定プログラムを入力として受け入れる。タスクグラフ指定プログラムは、プログラム可能に、処理ワークロードを説明するタスクグラフを生成する方法を指定する。処理ワークロードは、本明細書で更に説明される（例えば、図５に関して）タスク及びリソースのグラフを含む。タスクグラフ指定プロセッサ４０２は、タスクグラフ指定プログラムを実行し、これは、実行されると、タスクグラフとして処理ロードを指定するタスクグラフを生成する。

コマンドスケジューラ４０４は、タスクグラフを入力として受け入れ、タスクグラフによって指定された処理ワークロードを実行する動作のスケジューリングを実行し、それらの動作を実行するようにＡＰＤ１１６に指示する。いくつかの実装形態では、コマンドスケジューラ４０４は、ＡＰＤフィードバック情報を受け入れ、そのフィードバック情報を使用して、ＡＰＤ１１６上の動作をスケジューリングする。ＡＰＤフィードバック情報は、性能メトリック、占有メトリック、リソース利用及び他のタイプの情報等のように、ＡＰＤ１１６の状態に関する様々な情報を含む。ＡＰＤ１１６の状態に関する情報のいくつかの例示的なアイテムは、ワークが、グラフィックス処理パイプライン１３４、ＳＩＭＤユニット１３８のハードウェア性能カウンタ、そのような様々なハードウェアユニットがビジーである時間パーセンテージ、及び、メモリバンド幅利用を入力し、それらによって完了されたときのタイムスタンプを含む。コマンドスケジューラ４０４は、タイムスタンプを利用して、タスクのスケジューリングの全体的な有効性を評価する。加えて、タイムスタンプは、パスの全体的な持続時間５０２を示す。したがって、いくつかの実装形態では、コマンドスケジューラ４０４は、スケジューリング時により長いパスを優先する。ハードウェアブロック利用カウンタは、より良好な全体的な利用を達成するために、異なるハードウェアブロックでボトルネックされているグループパスを補助するために使用される。いくつかの例では、コマンドスケジューラ４０４は、ＡＰＤ１１６の一部であり、プロセッサ１０２、アプリケーション、ドライバ又はオペレーティングシステムによる介入なしに、ＡＰＤの他の構成要素からそのような性能メトリックを直接取得することができる。

図４Ａの例では、タスクグラフ指定プロセッサ４０２及びコマンドスケジューラ４０４の何れか又は両方は、プロセッサ上で実行されるソフトウェア、本明細書に記載の動作を実行するように構成されたハードウェア回路、又は、それらの組み合わせとして実装される。２つの別のユニットとして記載されているが、タスクグラフ指定プロセッサ４０２及びコマンドスケジューラ４０４は、いくつかの実装形態では、同じユニットである。図４Ａは、タスクグラフ指定プロセッサ４０２及びコマンドスケジューラ４０４がＡＰＤ１１６内にある例を示す。図４Ｂは、タスクグラフ指定プロセッサ４０２がプロセッサ１０２上で実行されるソフトウェアであり、コマンドスケジューラ４０４が図４Ａに関して説明されるようにＡＰＤ１１６内に実装される例を示している。図４Ｃは、タスクグラフ指定プロセッサ４０２及びコマンドスケジューラ４０４がプロセッサ１０２上で実行されるプログラムである例を示す。

コマンドスケジューラ４０４は、ＡＰＤ１１６上での実行のためのコマンドを出力するように説明されているが、本明細書に記載される技術は、中央処理ユニット（例えば、プロセッサ１０２）又は別のユニット等のＡＰＤ１１６以外のプロセッサ上での実行のためのコマンドを生成するために適用され得ることを理解されたい。

図５は、例示的なタスクグラフ５００を示す。タスクグラフ５００は、パス５０２及びバッファ５０４の有向非巡回グラフとして処理ワークロードを指定する。パス５０２は、上述したように、特定の様式で構成されたグラフィックス処理パイプライン１３４を介した特定のデータの処理等の特定の作業単位、又は、計算シェーダプログラムを含む。バッファ５０４は、パス５０２の入力として及び／又はパス５０２の出力として使用されるデータを含む。バッファ５０４は、１つのパス５０２への入力及び別のパスへの出力であり得るか、又は、（単一のタスクグラフに対応する）処理ワークロード全体に対する入力若しくは出力であり得る。バッファのいくつかの例は、グラフィックス処理パイプライン１３４を介して特定のパス５０２によって生成された画像、計算シェーダプログラムによって生成されたデータ、又は、グラフィックス処理パイプライン１３４を介してパス５０２によって生成された画像以外のデータを含む。

タスクグラフ５００は、パス５０２とバッファ５０４との間の矢印を含む。バッファ５０４からパス５０２への矢印は、パス５０２が、そのバッファ５０４内のデータを入力として受け入れることを意味する。パス５０２からバッファ５０４への矢印は、パス５０２が、バッファ５０４内のデータを出力として生成することを意味する。したがって、タスクグラフ５００は、パス５０２間の依存関係を指定する。より具体的には、入力として別のパス５０２によって生成されたバッファ５０４を受け入れるパス５０２は、バッファ５０４が実際に生成されるまで実行を待機する必要がある。したがって、バッファ５０４を入力として受け入れるパス５０２は、それらのバッファ５０４を出力として生成する他のパス５０２に依存する。第３のパス５０２が第２のパス５０２に依存し、第１のパス５０２が第３のパス５０２に依存する場合、第１のパス５０２も第２のパス５０２に依存して考慮される。言い換えれば、依存関係は、タスクグラフ５００の矢印を通って伝播する。２つのパス５０２は、他方に依存しない場合に独立している。

上述したように、タスクグラフ指定プログラムは、タスクグラフ５００を構築する方法を指定するプログラムである。したがって、タスクグラフ指定プログラムは、何れのパス５０２が発生するかを示し、バッファ５０４は、パス５０２の入力及び出力である。タスクグラフ指定プログラムは、特定のパス５０２及び／又はバッファ５０４をタスクグラフ５００内に含むかどうか、並びに、パス５０２がバッファ５０４をどのように消費及び／又は生成するかに関する決定を行う際に、ユーザ定義のランタイムデータ、ＡＰＤ１１６によって生成されたデータ又は他のデータ等のランタイムデータを考慮することができる。したがって、タスクグラフ指定プログラムは、タスクグラフ指定プロセッサ４０２によって評価されるタスクグラフ５００の静的な説明だけではない。代わりに、タスクグラフ指定プログラムは、ランタイムパラメータに基づいて、タスクグラフ５００を可変的に構築することができる。

図６Ａ及び図６Ｂは、例示的なタスクグラフ指定プログラム形式を示し、図７Ａ及び図７Ｂは、代替タスクグラフ指定プログラム形式を示す。図６Ａでは、タスクグラフ指定プログラムは、パス定義６０５、パス呼び出し６０６及びプログラム制御フロー命令６０４を含む。パス定義６０５は、ＡＰＤ１１６上のパスの実行に関与する動作及び方法を定義する。パス呼び出し６０６は、タスクグラフ指定プロセッサ４０２への命令を表し、出力されるタスクグラフ５００のパス５０２を生成する。制御フロー命令６０４は、パス呼び出し６０６がいつ、どのように生成されるかを制御するための命令である。上述したように、タスクグラフ指定プロセッサ４０２は、制御フロー命令６０４及びパス呼び出し６０６を実行して、コマンドスケジューラ４０４によってスケジューリングし、ＡＰＤ１１６による実行のためのタスクグラフ５００を構築する。

いくつかの実装形態では、パス定義６０５は、リソースインポート／エクスポート命令６０８、状態命令６１０及びパスコマンド６１２を含む。いくつかの実装形態では、パス定義６０５は、状態命令６１０を省略する。リソースインポート／エクスポート命令６０８は、ＡＰＤ１１６上で実行される場合に、パス定義６０５によってインポート（読み取り）及び／又はエクスポート（書き込み）される１つ以上のリソースを指定する。「リソース」という用語は、「バッファ」という用語（すなわち、図５のバッファ５０４）と同じ意味を有する。いくつかの実装形態では、状態命令６１０は、ＡＰＤ１１６上で実行される場合、一方又は両方のシェーダがグラフィックスのために使用されるか、若しくはパスの動作を計算するか、又は、ＡＰＤ１１６上で実行される場合、何れのパイプライン状態がパスのために使用され、他の状態が同様に考えられるか、を示す。パスコマンド６１２は、パス６０６に対して実行される実際の作業である。１つ以上のインポートされたリソースから入力されたパスコマンド６１２は、それらの１つ以上のインポートされたリソースを処理し、１つ以上のエクスポートされたリソースに出力する。いくつかの実装形態では、パスコマンド６１２は、（例えば、特定の構成のグラフィックス処理パイプライン１３４を介してジオメトリを送信することによって、ジオメトリを描画するための）描画コマンド、（実行のための汎用計算ワークロードをディスパッチするための）ディスパッチコマンド、（メモリの１つ以上の部分を１つ以上の他の場所にコピーするための）コピーコマンド、（メモリの１つ以上の部分をクリアするための）クリアコマンド、（１つ以上のリソースのレイアウトを修正するための）リソースレイアウト遷移、（キャッシュデータをフラッシュ又はプリフェッチするための）キャッシュアクション、（ＡＰＤ１１６ハードウェアブロック又はイベント間の同期等、例えば、描画コマンド及びディスパッチコマンドは、記憶帯域幅について競合することができる、したがって、これらのアイテムが並行して論理的に実行できるという事実にもかかわらず、プログラマは、時には、他方の完了後にのみ一方の開始を強制する明示的な同期コマンドを挿入する）同期動作、又は、ＡＰＤ１１６によって実行可能な他のコマンドを含む。キャッシュアクション及び同期動作の場合、コマンドスケジューラ４０４は、そのようなアクション／動作を自動的に生成することができ、時にはそのようなアクション／動作を生成する。しかしながら、プログラマは、これらのアクションを明示的に指定してもよい。

制御フロー命令６０４は、タスクグラフ指定プロセッサ４０２による実行中に、タスクグラフ指定プログラム６００のプログラムフローを制御する。制御フロー命令６０４は、条件付き記述（例えば、ｉｆ記述）、ループ等の制御フロー命令を含む。制御フロー命令６０４は、タスクグラフ指定プログラム６００がランタイムで、ランタイムパラメータに基づいて、タスクグラフ５００を構築することを可能にする。ループは、各々が異なるパラメータ（インポート／エクスポートデータ、及びシェーダ／パイプライン構成）を有する単一のパス定義６０５からの複数のパス５０２の生成を可能にする。条件付きは、特定のノード定義６０５が、ノードとして実際にインスタンス化されているかどうかを指定することができる。

いくつかの状況では、パス呼び出し６０６は、リソースインポート／エクスポート命令６０８又は状態命令６１０のうち１つ以上についての引数を指定する。そのような状況では、引数は、パス呼び出し６０６の結果として生成された特定のパスについて使用するための何れの状態（例えば、シェーダプログラム、グラフィックス処理パイプライン１３４構成）のうち１つ以上、パス呼び出し６０６の結果として生成されたパスにインポートするための１つ以上のリソース、又は、パス呼び出し６０６の結果として生成されたパスからエクスポートするための１つ以上のリソースを指定する。更に、いくつかの状況では、引数は変数として指定され、これは、引数の値が（例えば、タスクグラフ指定プログラム６００に利用可能なデータに基づいて、及び／又は、制御フロー命令６０４の実行からの特定の結果として）ランタイムで決定されることを意味する。要するに、引数、したがって状態、インポートデータ及びエクスポートデータは、ランタイムで特定可能な要素である（すなわち、タスクグラフ指定プログラム６００を実行する時間は、タスクグラフ指定プログラム６００を書き込むプログラマがそのような情報をハードコードする必要がないことを意味する）。

図６Ｂは、図６Ａに記載された形式のタスクグラフ指定プログラム６００に基づいて生成された例示的なタスクグラフ６５０を示す。コードに例示される例示的なタスクグラフ指定プログラムが、ここで提供される。

上記のタスクグラフ指定プログラムは、Ｄｒａｗ１（）を呼び出すパスＡのための１つ、並びに、Ｄｒａｗ２（）及びＤｒａｗ３（）を呼び出すパスＢのための１つの２つのパス定義を指定する。パス呼び出しは、リソースｒ１を入力し、リソースｒ２を出力する場合に、グラフ上のパスＡをインスタンス化する。特定の条件に基づいて、パス呼び出しは、パスＢのゼロ、１つ、又は、２つのインスタンスをインスタンス化し、リソースｒ２を入力し、ｒ３を出力する。Ｄｒａｗ３（）は、Ｄｒａｗ２（）によって生成されたデータを内部で使用するが、このデータは、パスＢ内で完全に生成及び消費されるデータのためにリソースとして指定されないことに留意されたい。

図６Ｂは、表１のタスクグラフ指定の２つの異なる実行から生成された２つの異なるタスクグラフ６５０を示す。第１のタスクグラフ６５０（１）では、条件Ａ及び条件Ｂの両方が真である。したがって、生成されたグラフは、リソース１６５４（１）から読み取られ、リソース２６５４（２）に出力されるパスＡ６５２（１）、並びに、リソース２６５４（２）からの読み取り、リソース３６５４（３）への出力の両方を行うパスＢ６５２（２）の２つのインスタンスを含む。タスクグラフ６５０（２）の場合、条件Ａのみが真である。したがって、パスＢ６５２（２）の一例のみが生成される。

図７Ａ及び図７Ｂは、別の形式によるタスクグラフ指定プログラム７００、及び、タスクグラフ指定プロセッサ４０２によるタスクグラフ指定プログラム７００の実行の結果として生成されたタスクグラフ７５０を示す。

タスクグラフ指定プログラム７００は、制御フロー命令７０２、リソースインポート／エクスポート命令７０４、状態命令７０６、及び、パスコマンド７０８を含む。パスコマンド７０８は、ＡＰＤ１１６によって実行可能な個々のコマンドである。いくつかの例示的なパスコマンド７０８は、（例えば、特定の構成のグラフィックス処理パイプライン１３４を介してジオメトリを送信することによって、ジオメトリを描画するための）Ａリソースインポート／エクスポート命令７０４描画コマンド、（実行のための汎用計算ワークロードをディスパッチするための）ディスパッチコマンド、（メモリの１つ以上の部分を１つ以上の他の場所にコピーするための）コピーコマンド、（メモリの１つ以上の部分をクリアするための）クリアコマンド、（１つ以上のリソースのレイアウトを修正するための）リソースレイアウト遷移、（キャッシュデータをフラッシュ又はプリフェッチするための）キャッシュアクション、（ＡＰＤ１１６ハードウェアブロック又はイベント間の同期等、例えば、描画コマンド及びディスパッチコマンドは、記憶帯域幅について競合することができる、したがって、これらのアイテムが並行して論理的に実行できるという事実にもかかわらず、プログラマは、時には、他方の完了後にのみ一方の開始を強制する明示的な同期コマンドを挿入する）同期動作、又は、ＡＰＤ１１６によって実行可能な他のコマンドを含む。キャッシュアクション及び同期動作の場合、コマンドスケジューラ４０４は、そのようなアクション／動作を自動的に生成することができ、時にはそのようなアクション／動作を生成する。しかしながら、プログラマは、これらのアクションを明示的に指定してもよい。

リソースインポート／エクスポートコマンド７０４は、パスコマンド７０８によって読み取られ及び／又は書き込まれるリソースを指定する。状態命令７０６は、ＡＰＤ１１６の状態（グラフィックス処理パイプライン１３４の状態等、何れのシェーダプログラムがグラフィックス処理パイプライン１３４又は計算シェーダディスパッチ、又は、他の状態に使用されるか）を定義及び／又は修正する命令である。制御フロー命令７０２は、タスクグラフ指定プロセッサ４０２がタスクグラフ指定プログラム７００を実行する場合に、プログラムフローを制御する。

実行中、タスクグラフ指定プロセッサ４０２は、タスクグラフ指定プログラム７００を横断して、タスクグラフ指定プログラム７００が対応するタスクグラフのためのパス５０２を生成するパスブロック７１０を識別する。いくつかの例では、パスブロック７１０は、パスコマンドの１つ（又は指定された数）を含み、パスコマンドで終了し、タスクグラフ指定プロセッサ４０２による実行のための制御フロー命令を含まない、タスクグラフ指定プログラム７００の一部分である。他の例では、パスブロック７１０は、異なる固定数のパスコマンド７０８、又は、可変数のパスコマンド７０８を含む。いくつかの例では、パスブロック７１０は、パスコマンド７０８で終了する必要はない。いくつかの例では、タスクグラフ指定プロセッサ４０２は、少なくとも１つのパスコマンド７０８を含み、パスコマンド７０８で終了し、そのような各部分をパスブロック７１０へのパスコマンド７０８の場所に基づいて分割する、タスクグラフ指定プログラム７００の部分を識別する。より具体的には、部分から、タスクグラフ指定プログラム７００は、指定された数のパスコマンド７０８毎に１つのパスブロック７１０を生成する。いくつかの例では、そのような各パスブロック７１０は、前のパスブロック７１０からパスブロック７１０内の最後のパスコマンド７０８までの全ての命令を含むが、制御フロー命令７０２を含まない。

パスブロック７１０が識別された状態で、タスクグラフ指定プロセッサ７０２は、以下のようにタスクグラフ５００を生成する。各パスブロック７１０は、１つ以上のインポートリソース及び１つ以上の出力リソースの定義を含む。これらのリソースは、タスクグラフのバッファ５０４を構成する。リソース読み取り及び書き込みは、タスクグラフの有向エッジを構成する。バッファ５０４からパス５０２に向けられたエッジは、リソース読み取りであり、パス５０２からバッファ５０４に向けられたエッジは、リソース書き込みである。

以下の表は、図７Ａに記載の形式のタスクグラフ指定プログラムの例示的なコードリスティングを含む。図７Ｂは、プログラムから生成された例示的なタスクグラフ７５０を示す。

この例では、パスブロックは、１つのパスコマンドのみを含む。パスコマンドは、本明細書の他の箇所に記載されているもの等のように、パスコマンドとして指定されたコマンドのセットのうち１つであるコマンドとして識別される。言い換えれば、タスクグラフ指定プロセッサ４０２は、パスコマンドと見なされ、リスト内に見出されるプログラムの全てのコマンドをパスコマンドとして識別するコマンドタイプのリストへのアクセスを有する。表２の例示的なタスクグラフ指定プログラムは、３つの異なるパスブロックを含む。第１のパスブロックは、ＳｅｔＳｔａｔｅ（Ｓｔａｔｅ１）記述から第１のパスコマンドＤｒａｗ１（）への部分である。第２のパスブロックは、ＳｅｔＳｔａｔｅ（Ｓｔａｔｅ２）記述で始まり、Ｄｒａｗ２（）パスコマンドで終了する、ｉｆ記述における部分である。第３のパスブロックは、ＳｅｔＲｅｓｏｕｒｃｅ（ｒｅａｄ：ｒ５、ｗｒｉｔｅ：ｒ３）で始まり、Ｄｒａｗ３（）で終了する、ｉｆ記述の部分である。

タスクグラフ７５０（１）として示される、表２のタスクグラフ指定プログラムの実行の一例では、条件Ｂは真である。したがって、タスクグラフ指定プロセッサ４０２は、リソース１７５４（１）を入力し、リソース２７５４（２）を出力するパス１、リソース２７５４（２）を入力し、リソース５７５４（５）を出力するパス２、及び、リソース５７５４（５）を入力し、リソース３７５４（３）を出力するパス３を含む、タスクグラフ７５０（１）においてパスを生成する。

タスクグラフ７５０（２）として示される、表２のタスクグラフ指定プログラムの実行の別の例では、条件Ｂは偽である。したがって、タスクグラフ指定プロセッサ４０２は、リソース１７５４（１）を入力し、リソース２７５４（２）７５４（２）を出力するが、パス２又は３を生成しないパス１を生成する。

上述したように、コマンドスケジューラ４０４は、タスクグラフ指定プロセッサ４０２によって出力されたタスクグラフに基づいて、ＡＰＤ１１６上での実行のためのタスクをスケジューリングする。コマンドスケジューラ４０４は、特定の考慮事項に基づいて、パスの実行順序を決定する。考慮事項の１つは、パス５０２の依存性を含む。より具体的には、１つ以上の依存性を有するパス５０２は、互いに対して再順序付けすることができない。例えば、第１のパス５０２が第２のパス５０２に依存する場合、コマンドスケジューラ４０４は、次いで、第２のパス５０２が完了した後に第１のパス５０２を実行させる。いくつかの例では、コマンドスケジューラ４０４は、バリア命令又はプリミティブ等の適切な命令又はマーカを挿入して、パス５０２間で順序付けを施す。第１のパス５０２が第２のパス５０２に依存せず、第２のパスが第１のパス５０２に依存しない場合、コマンドスケジューラ４０４は、次いで、任意の技術的に実現可能な方法で、互いに対する第１のパス５０２及び第２のパス５０２の実行を自由に順序付けることができ、いくつかの状況では、それを行う。例えば、場合によっては、コマンドスケジューラ４０４は、独立したパスを次々に実行させ、他の場合によっては、コマンドスケジューラ４０４は、少なくとも部分的に重複する期間中に独立したパスを実行させる。多くの場合、コマンドスケジューラ４０４は、メモリ使用、処理ユニットリソース、レジスタ使用等の特定の所望のリソースを最適化するか、又は実行時間を最小限に抑えるために、一緒に実行するためにパス５０２を選択する。

図８Ａは、一例による、タスクグラフ８００を示す。第１のパス８０２（１）は、リソース１８０４（１）を読み取り、リソース２８０４（２）を出力する。パス２８０２（２）は、リソース２８０４（２）を入力し、リソース３８０４（３）を出力する。パス３８０２（３）は、リソース２８０４（２）を入力し、リソース４８０４（４）を出力する。パス４８０２（４）は、リソース２８０４（２）を入力し、リソース５８０４（５）を出力する。パス５は、８０２（５）を入力し、リソース６８０４（６）を出力する。

パス２８０２（２）、パス３８０２（３）及びパス４８０２（４）は独立しており、パス２８０２（１）に依存する。パス５８０２（５）は、パス１８０２（１）、パス２８０４（２）、パス３８０２（３）及びパス４８０２（４）に依存する。パス２８０２（２）、パス３８０２（３）及びパス４８０２（４）は独立しているため、コマンドスケジューラ４０４は、これらのパス８０２の互いに対する実行を再順序付けすることができる。しかしながら、コマンドスケジューラ４０４は、依存パス間の順序を施し、パス１４０２（１）が、パス２８０２（２）、パス３８０２（３）及びパス４８０２（４）の前に実行され、パス２８０２（２）、パス３８０２（３）及びパス４８０２（４）が、パス５８０２（５）の前に実行されることを意味する。

図８Ｂは、コマンドスケジューラ４０４によってスケジューリングされたように、パス８０２の例示的な実行順序８５０を示す。図示したように、時間は右に進む。実施例１８５０（１）では、パス１８０２（１）は、パス２８０２（２）、パス３８０２（３）及びパス４８０２（４）の前に実行され、パス２８０２（２）、パス３８０２（３）及びパス４８０２（４）は、同時に実行される。実施例２８５０（２）では、パス１８０２（１）は、パス２８０２（２）及びパス３８０２（３）の前に実行される。パス４８０２（４）は、パス２８０２（２）及びパス３８０２（３）の後に実行され、パス５８０２（５）の前に実行される。実施例３８５０（３）では、パス８０２は順次実行される。

いくつかの実装形態では、図７Ａ及び図７Ｂの技術、並びに、図６Ａ及び図６Ｂの制御フロー命令６０４及びパス呼び出し６０６のための（しかし、パス定義６０５のためではない）タスクグラフ指定プログラム全体に、特定のプログラミング言語が使用される。そのような実装形態では、図６Ａ及び図６Ｂの例では、パス定義６０５は、コンパイルされる異なるプログラミング言語で書き込まれる。これらのパス定義６０５は、対応するパスが実行される場合に、ＡＰＤ１１６によって呼び出される。

独立したパスをスケジューリングする方法８０２を決定するために、コマンドスケジューラ４０４は、ＡＰＤ１１６の状態及びパス８０２の性能メトリックを考慮する。ＡＰＤ１１６の「状態」を構成する情報のいくつかの異なるアイテムが存在する。性能メトリックのいくつかの例には、リソース使用及び実行速度が含まれる。リソースは、メモリ、レジスタ及び処理ユニット（ＳＩＭＤユニット１３８等）を含む。いくつかの例では、コマンドスケジューラ４０４は、将来の同じパス８０２のスケジューリング中の使用のために、実行中にパス８０２の性能メトリックを記録する。より具体的には、コマンドスケジューラ４０４は、それらのパスのために事前に知られているリソース使用に基づいて、特定のパスの推定リソース使用データを更新し、そのような更新された推定リソース使用データを利用して、将来のスケジューリング決定を行う。

上述したように、コマンドスケジューラ４０４は、時には、１つ以上の計算ユニット１３２上での同時の実行のために独立したパス５０２をスケジューリングする。コマンドスケジューラ４０４は、パス５０２の性質並びにＡＰＤ１１６の能力及び状態に基づいて、異なるパス５０２を同時にスケジューリングするかどうかを決定する。より具体的には、いくつかの状況では、独立したパス５０２を同時にスケジューリングし、他の状況では、独立したパス５０２を同時にスケジューリングすることが有利である。「同時に」という用語は、２つ（又はそれ以上）のパス５０２が少なくとも部分的に重複する期間で実行することを意味する。

パス５０２は、メモリ、処理ユニット（例えば、ＳＩＭＤユニット１３８）、レジスタ等のようなリソースを消費する。したがって、ＡＰＤ１１６が特定のリソースに制限され、実行パス５０２が同時に利用可能なリソースの数を超える状況では、コマンドスケジューラ４０４は、そのようなパス５０２を同時にスケジューリングしない。逆に、リソースが同時実行のために利用可能である状況では、コマンドスケジューラ４０４は、時には、そのようなパス５０２を同時にスケジューリングする。加えて、動作中、コマンドスケジューラ４０４は、そのような決定に基づいて、速度又はリソースの使用等の態様を強調し、独立したパス５０２をスケジューリングするかどうかを決定する。一例では、複数のパス５０２を同時に実行することは、それらのパス５０２の総実行時間を同時に低減させるが、任意の所与の時間に総リソース使用を増加させる。複数のパス５０２を実行することは、合計実行時間を連続的に増加させるが、所定の時間に総リソース使用を低減させる。逆に、複数のパス５０２を同時に実行することは、合計実行時間を同時に減少させるが、所定の時間に総リソース使用を増加させる。

コマンドスケジューラ４０４の別の考慮事項は、異なるパス５０２が異なるリソースを使用するかどうかである。より具体的には、異なるパス５０２が異なるタイプのリソースを使用する場合、又は、１つのパス５０２が少量の特定のリソースを使用し、別のパス５０２が多量のリソースを使用する場合、次いで、それらを一緒にスケジューリングすることが有益であろう。一例では、１つのパス５０２は、ＳＩＭＤユニット１３８の非常に重い使用を有し、一方、別のパス５０２は、ＳＩＭＤユニット１３８の軽い使用を有する。この状況では、場合によっては、コマンドスケジューラ４０４は、実行のためのこれらの２つのパスを同時にスケジューリングする。

更に、コマンドスケジューラ４０４は、特定のバッファ５０４が使用される期間を低減することによって、所定の時間にメモリ使用を低減させることができる。より具体的には、タスクグラフ５００を分析することによって、コマンドスケジューラは、任意の特定のバッファ５０４の寿命を決定することができる。バッファ５０４の寿命は、バッファ５０４を生成するパス５０２と、そのバッファ５０４を消費する最後のパス５０２との間の期間である。いくつかの実装形態では、メモリ使用が高い場合等のいくつかの状況では、コマンドスケジューラ４０４は、完了がその寿命を終了させる傾向があるパス５０２を同時にスケジューリングすることによって、バッファ５０４の寿命を最小化する。言い換えれば、バッファ５０４の寿命を低減させるために、コマンドスケジューラ４０４は、バッファ５０４を使用するための可能性のある最後のパス５０２であるパス５０２を識別し、コマンドスケジューラ４０４は、可能な最後のパス５０２が依存するパス５０２を識別する。次いで、コマンドスケジューラ４０４は、可能な場合の同時の実行のために、そのような識別されたパス５０２をスケジューリングすることを試みる（例えば、独立したパス５０２は、同時の実行のためにスケジューリングされ得る）。「可能性のある最後のパス」は、バッファ５０４を使用するための、トポロジーソート順序で最後のパスであるパス、又は、バッファ５０４を使用するための、トポロジーソート順序で最後のパスであり得る独立したパス５０２のうち何れかである。この技術を使用して、リソース作業セットを、キャッシュ又は他のメモリ等のメモリ階層の特定の部分に留まるように保つことも可能である。言い換えれば、上記技術を使用して、メモリ利用がメモリ階層の特定の部分内に適合するように、パス５０２のメモリ利用を制限することが可能である（例えば、全てのレベル０キャッシュ、全てのレベル１キャッシュ等）。

トポロジーソートは、有向非巡回グラフのノードがグラフの有向エッジに基づいて順序付けられる技術である。ソートにおいて、有向エッジの開始時のノードは、常に、それらの有向エッジの終了のノードの前にある。それらの間に有向エッジを有さないノードのための任意の順序は、有効なトポロジーソートを生成する。したがって、複数のパス５０２がバッファ５０４を使用するが独立している場合、そのようなパス５０２は、バッファ５０４を有効なトポロジーソート順序で使用するための最後のものであってもよく、次いで、そのような各パス５０２は、可能な最後のパス５０２である。

いくつかの実装形態では、その寿命中に存在するパス５０２は、全ての使用バッファ５０４を含む複数の独立したパス５０２を含む。早期に実行するためにバッファ５０４の消費者を積極的にスケジューリングすることにより、バッファ５０４の寿命が低減される。

追加のスケジューリング技術では、コマンドスケジューラ４０４は、大きなパスをいくつかのより小さなパスに自動的に分解し、それらを独立してスケジューリングする。

図９は、一例による、スケジューリングのためのタスクグラフを構築する方法９００のフロー図である。図１～図８Ｂのシステムに関して説明したが、当業者であれば、任意の技術的に実現可能な順序で方法９００のステップを行うように構成された任意のシステムが本開示の範囲内にあることを認識するであろう。

方法９００は、ステップ９０２で始まり、タスクグラフ指定プロセッサ４０２は、実行のためにタスクグラフ指定プログラム９０２を受信する。タスクグラフ指定プログラムは、ＡＰＤ１１６上でのスケジューリング及び実行のためにタスクグラフを生成する方法をプログラム的に指定する。ステップ９０４で、タスクグラフ指定プログラム９０２は、タスクグラフ指定プログラム９０２において指定されたように、制御フロー命令を実行して、タスクグラフ指定プログラム９０２を横断する。これらの制御フロー命令には、条件付き命令、ループ等の命令が含まれる。ステップ９０６～９１０の前のように、図９内のステップ９０４の順序は、ステップ９０４がその順序で１回のみ実行されることを必ずしも意味するものではない。代わりに、ステップ９０４は、制御フロー命令が、そのプログラム内に見出される何れかの順序で、タスクグラフ指定プログラムによって指定されるように実行されることを示すことを理解されたい。

ステップ９０６で、タスクグラフ指定プロセッサ４０２は、タスクグラフ指定プログラムのパス命令に基づいて、（パス５０２に対応する）ノードを生成する。図６Ａ～図６Ｂの形式では、パス命令は、パス呼び出し６０６である。パス呼び出しの各実行は、制御フロー命令によって指定された順序で、タスクグラフのノードを生成する。図７Ａ～図７Ｂの形式については、パス命令は、パスブロック７１０である。具体的には、タスクグラフ指定プロセッサ４０２は、本明細書の他の場所で指定された方法でこれらのパスブロック７１０を識別し、これらのパスブロック７１０からノードを生成する。

ステップ９０８で、タスクグラフ指定プロセッサ４０２は、タスクグラフが生成される際に、各ノードのリソース利用に基づいて、生成されたノード間のリソース及び有向エッジを生成する。ノードによって読み取られるリソースの場合、タスクグラフ指定プロセッサ４０２は、そのリソースからノードへの有向エッジを生成する。ノードによって書き込まれるリソースの場合、タスクグラフ指定プロセッサ４０２は、ノードからそのリソースへの有向エッジを生成する。ステップ９１０で、タスクグラフ指定プロセッサ４０２は、タスクグラフを、ＡＰＤ１１６又は他のデバイス上でスケジューリングするためにコマンドスケジューラ４０４に出力する。

図１０は、一例による、タスクグラフに基づく処理デバイス上の動作をスケジューリングするための方法１０００のフロー図である。図１～図８Ｂのシステムに関して説明したが、当業者であれば、任意の技術的に実現可能な順序で方法１０００のステップを行うように構成された任意のシステムが本開示の範囲内にあることを認識するであろう。

方法１０００は、ステップ１００２で始まり、コマンドスケジューラ４０４は、タスクグラフを受信する。いくつかの例では、タスクグラフは、タスクグラフ指定プロセッサ４０２によって生成される。いくつかの例では、コマンドスケジューラ４０４は、タスクグラフ指定プロセッサ４０２と同じ処理デバイス、又は、タスクグラフ指定プロセッサ４０２とは異なる処理デバイス上にある。様々な例示的な構成を図４Ａ～図４Ｃに示す。

ステップ１００４で、コマンドスケジューラ４０４は、タスクグラフの独立した及び依存的なパスを識別する。そのようなパスを識別するための技術は、本明細書の他の箇所に記載されている。ステップ１００６で、コマンドスケジューラ４０４は、性能基準に基づいて、処理デバイス上での実行のためにどのようにスケジューリングするかを決定する。パスをスケジューリングするためのいくつかの技術及び考慮事項は、図９の説明の前等の本明細書の他の場所で説明され、図８Ａ及び図８Ｂに関連する説明を含む。スケジューリングステップ１００６は、これらの技術のうち何れか１つ以上を実行することを伴う。一般に、コマンドスケジューラ４０４は、独立したパスをスケジューリングして、特定のリソースの最良の利用（例えば、メモリ、レジスタ、処理時間等）及び／又は処理デバイスの他の要因（例えば、ハードウェアユニット）であると見なされるものを提供する。更に、依存性に起因して連続的に発生しなければならないパスについては、コマンドスケジューラ４０４は、そのようなパスを連続的に発生させる。いくつかの例では、コマンドスケジューラ４０４は、依存的なパスが完了を開始する前に１つのパスの全ての動作を完了させるバリアコマンドを介して、そのようなパスを連続的に発生させる。ステップ１００８で、コマンドスケジューラ４０４は、スケジューリングされたコマンドを、スケジューリングされたような実行のために処理デバイスに送信する。

本明細書で提供される本開示では、タスクグラフの実行のためにスケジューリングされたコマンドを最終的に実行するデバイスは、ＡＰＤ１１６である。しかしながら、実装形態は、具体的に説明されたもの以外の処理デバイスがこれらのコマンドを実行する本明細書によって企図されることを理解されたい。いくつかの例では、ＡＰＤ１１６と同様であるが、グラフィックス能力がないデバイス（例えば、グラフィックス処理パイプライン１３４を含まず、計算ワークロードを実行することができる）は、処理デバイスである。他の例では、中央処理ユニットは、処理デバイスである。他の例では、任意の他の処理ユニットは、処理デバイスである。

図３のプロセッサ１０２、記憶装置１０６、メモリ１０４、入力ドライバ１１２、入力デバイス１０８、出力ドライバ１１４、ＡＰＤ１１６、表示デバイス１１８、出力デバイス１１０、ドライバ１２２、オペレーティングシステム１２０、アプリケーション１２６、グラフィックス処理パイプライン１３４、計算ユニット１３２、ＳＩＭＤユニット１３８、ＡＰＤスケジューラ１３６、及び、グラフィックス処理パイプライン１３４の各段階を含む図のユニットの何れかは、適切な場合、記載された動作を実行するように構成されたハードウェアとして実装可能であり、プロセッサ上で実行させるソフトウェアとして実装可能であり、記載された動作を実行するように構成されているソフトウェア、又は、ハードウェアとソフトウェアとの組み合わせである。

本明細書の開示に基づいて、多くの変形が可能であることを理解されたい。特徴及び要素が特定の組み合わせで上述されているが、各特徴又は要素は、他の特徴及び要素を用いずに単独で、又は、他の特徴及び要素を用いて若しくは用いずに様々な組み合わせで使用することができる。

提供される方法は、汎用コンピュータ、プロセッサ又はプロセッサコアにおいて実装することができる。好適なプロセッサとしては、例として、汎用プロセッサ、専用プロセッサ、従来型プロセッサ、デジタル信号プロセッサ（digital signal processor、ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアと関連する１つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（Application Specific Integrated Circuit、ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（Field Programmable Gate Array、ＦＰＧＡ）回路、任意の他のタイプの集積回路（integrated circuit、ＩＣ）、及び／又は、状態機械が挙げられる。そのようなプロセッサは、処理されたハードウェア記述言語（hardware description language、ＨＤＬ）命令及びネットリスト等の他の中間データ（そのような命令は、コンピュータ可読媒体に記憶させることが可能である）の結果を使用して製造プロセスを構成することによって製造することができる。そのような処理の結果はマスクワークであることができ、このマスクワークをその後半導体製造プロセスにおいて使用して、本開示の特徴を実装するプロセッサを製造する。

本明細書に提供される方法又はフロー図は、汎用コンピュータ又はプロセッサによる実行のために非一時的なコンピュータ可読記憶媒体に組み込まれるコンピュータプログラム、ソフトウェア又はファームウェアにおいて実装することができる。非一時的なコンピュータ可読記憶媒体の例としては、読み取り専用メモリ（read only memory、ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリデバイス、磁気媒体（例えば、内蔵ハードディスク及びリムーバブルディスク）、磁気光学媒体、並びに、光学媒体（例えば、ＣＤ－ＲＯＭディスク及びデジタル多用途ディスク（digital versatile disk、ＤＶＤ））が挙げられる。

Claims

処理デバイス上のタスクグラフの動作をスケジューリングする方法であって、
１つ以上のパスと、１つ以上のリソースと、パスとリソースとの間の１つ以上の有向エッジと、を指定するタスクグラフを受信することと、
前記タスクグラフの独立したパス及び依存的なパスを識別することと、
前記処理デバイスの性能基準に基づいて、前記パスを実行するためのコマンドをスケジューリングすることと、
スケジュール通りに実行するために、スケジューリングされたコマンドを前記処理デバイスに送信することと、を含む、
方法。
独立したパスを識別することは、互いに依存関係がないパスのセットを識別することを含む、
請求項１の方法。
前記パスを実行するためのコマンドをスケジューリングすることは、
前記パスのセットのうち少なくとも２つのパスを少なくとも部分的に同時に実行するようにスケジューリングすることを含む、
請求項２の方法。
前記２つのパスを少なくとも部分的に同時にスケジューリングすることは、前記２つのパスのうち一方が前記処理デバイスの少数のリソースを利用し、前記２つのパスのうち他方が前記処理デバイスの多数のリソースを利用することを決定したことに応じて実行される、
請求項３の方法。
前記性能基準は、前記処理デバイスのリソースの利用を低減するための要件を含む、
請求項３の方法。
前記リソースは、メモリ利用又はレジスタ利用のうち何れかを含む、
請求項５の方法。
前記リソースは、前記２つのパスによって読み取られるバッファのメモリ利用を含み、前記２つのパスを少なくとも部分的に同時にスケジューリングすることは、前記バッファの寿命を低減させる、
請求項５の方法。
前記１つ以上のパスのうち第２のパスに依存する、前記１つ以上のパスのうち第１のパスを識別することを更に含む、
請求項１の方法。
前記第２のパスが完了した後に前記第１のパスを実行させるように、前記処理デバイスにバリアコマンドを送信することを更に含む、
請求項８の方法。
前記スケジューリングすることは、オペレーティングシステムによる介入なしに前記処理デバイスから処理メトリックを取得することができる前記処理デバイス内のスケジューラによって実行される、
請求項１の方法。
処理デバイス上のタスクグラフの動作をスケジューリングするためのシステムであって、
コマンドスケジューラを備え、
前記コマンドスケジューラは、
１つ以上のパスと、１つ以上のリソースと、パスとリソースとの間の１つ以上の有向エッジと、を指定するタスクグラフを受信することと、
前記タスクグラフの独立したパス及び依存的なパスを識別することと、
前記処理デバイスの性能基準に基づいて、前記パスを実行するためのコマンドをスケジューリングすることと、
スケジューリング通りに実行するために、スケジューリングされたコマンドを前記処理デバイスに送信することと、
を行うように構成されている、
システム。
独立したパスを識別することは、互いに依存関係がないパスのセットを識別することを含む、
請求項１１のシステム。
前記パスを実行するためのコマンドをスケジューリングすることは、
前記パスのセットのうち少なくとも２つのパスを少なくとも部分的に同時に実行するようにスケジューリングすることを含む、
請求項１２のシステム。
前記２つのパスを少なくとも部分的に同時にスケジューリングすることは、前記２つのパスのうち一方が前記処理デバイスの少数のリソースを利用し、前記２つのパスのうち他方が前記処理デバイスの多数のリソースを利用することを決定したことに応じて実行される、
請求項１３のシステム。
前記性能基準は、前記処理デバイスのリソースの利用を低減するための要件を含む、
請求項１３のシステム。
前記リソースは、メモリ利用又はレジスタ利用のうち何れかを含む、
請求項１５のシステム。
前記リソースは、前記２つのパスによって読み取られるバッファのメモリ利用を含み、前記２つのパスを少なくとも部分的に同時にスケジューリングすることは、前記バッファの寿命を低減させる、
請求項１５のシステム。
前記コマンドスケジューラは、前記１つ以上のパスのうち第２のパスに依存する、前記１つ以上のパスのうち第１のパスを識別するように更に構成されている、
請求項１１のシステム。
前記コマンドスケジューラは、前記第２のパスが完了した後に前記第１のパスを実行させるように、前記処理デバイスにバリアコマンドを送信するように更に構成されている、
請求項１８のシステム。
命令を記憶するコンピュータ可読記憶媒体であって、
前記命令は、プロセッサによって実行されると、
１つ以上のパスと、１つ以上のリソースと、パスとリソースとの間の１つ以上の有向エッジと、を指定するタスクグラフを受信することと、
前記タスクグラフの独立したパス及び依存的なパスを識別することと、
前記処理デバイスの性能基準に基づいて、前記パスを実行するためのコマンドをスケジューリングすることと、
スケジューリング通りに実行するために、スケジューリングされたコマンドを前記処理デバイスに送信することと、
によって、処理デバイス上のタスクグラフの動作を前記プロセッサにスケジューリングさせる、
コンピュータ可読記憶媒体。