JP2022539951A

JP2022539951A - 減少した分岐をソートする計算ユニット

Info

Publication number: JP2022539951A
Application number: JP2021570323A
Authority: JP
Inventors: ロナルドオールドコーンデイビッド; ジョナサンサレハスカイラー
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2019-06-28
Filing date: 2020-05-07
Publication date: 2022-09-14
Also published as: KR20220027154A; CN114096949A; WO2020263425A1; US20200409695A1; EP3991031A1; EP3991031A4

Abstract

本明細書では、単一命令多重データプロセッサにおいて制御フローの分岐を減少させる技術について説明する。方法は、分岐する制御フローのポイントにおいて、異なる実行アイテムの制御フローターゲットを識別することと、制御フローターゲットに基づいて、実行アイテムをソートすることと、ソートに基づいて、実行アイテムを再編成することと、再編成された実行アイテムを、分岐する制御フローポイントの後に実行することと、を含む。【選択図】図７

Description

（関連出願の相互参照）
本願は、２０１９年６月２８日に出願された米国特許出願第１６／４５７，８７３号の利益を主張し、その内容は、参照することによって本明細書に組み込まれる。

（関連技術の説明）
単一命令多重データ（ＳＩＭＤ）プロセッサは、データの複数のアイテムを用いて単一の制御フローを使用することによって、実行の並列化を達成する。異なるスレッドの実行が、制御フローが依存するデータについて異なる値を有することがあるので、制御フローがデータに依存ずる場合に制御フローが分岐する可能性がある。このような状況では、異なる制御フローパスが直列化され、結果としてスローダウンをもたらす。

添付図面と共に例として与えられる以下の説明から、より詳細な理解を得ることができる。

本開示の１つ以上の機能を実装することができる例示的なデバイスのブロック図である。一例による、アクセラレーテッド処理デバイス上での処理タスクの実行に関連する追加の詳細を示すデバイスのブロック図である。一例による、レイトレーシング技術を使用してグラフィックをレンダリングするレイトレーシングパイプラインを示す図である。一例による、分岐する制御フローから結果として生じる直列化を示す図である。一例による、ワークグループのウェーブフロントに亘って実行アイテムを再編成することによって制御フロー分岐を減少させる技術を示す図である。再編成無しに発生することがある制御フロー分岐を示す図である。一例による、ウェーブフロント内で実行アイテムを再編成することによって制御フロー分岐を減少させる技術を示す図である。再編成無しに発生することがある制御フロー分岐を示す図である。一例による、ＡＰＤにおいて実行アイテムを再編成する方法のフローチャートである。

本明細書では、単一命令多重データプロセッサにおいて制御フローの分岐を減少させる技術を説明する。方法は、分岐する制御フローのポイントにおいて、異なる実行アイテムに対する制御フローターゲットを識別することと、制御フローターゲットに基づいて、実行アイテムをソートすることと、ソートに基づいて実行アイテムを再編成することと、再編成された実行アイテムを用いて、分岐する制御フローのポイントの後に実行することと、を含む。

図１は、本開示の１つ以上の機能を実装することができる例示的なデバイス１００のブロック図である。デバイス１００は、例えば、コンピュータ、ゲーミングデバイス、ハンドヘルドデバイス、セットトップボックス、テレビ、携帯電話、又は、タブレットコンピュータを含む。デバイス１００は、プロセッサ１０２と、メモリ１０４と、記憶装置１０６と、１つ以上の入力デバイス１０８と、１つ以上の出力デバイス１１０と、を含む。デバイス１００は、オプションで、入力ドライバ１１２及び出力ドライバ１１４を含む。デバイス１００は、図１に示されていない追加のコンポーネントを含むことを理解されたい。

様々な代替例では、プロセッサ１０２は、中央処理装置（ＣＰＵ）、グラフィックスプロセッシングユニット（ＧＰＵ）、同一のダイ上に配置されたＣＰＵ及びＧＰＵ、又は、１つ以上のプロセッサコアを含み、各プロセッサコアは、ＣＰＵ又はＧＰＵであってもよい。様々な代替例では、メモリ１０４は、プロセッサ１０２と同一のダイ上に配置されてもよいし、プロセッサ１０２とは別個に配置されてもよい。メモリ１０４は、揮発性メモリ又は不揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）、動的ＲＡＭ、キャッシュ）を含む。

記憶装置１０６は、固定記憶装置又はリムーバブル記憶装置（例えば、ハードディスクドライブ、ソリッドステートドライブ、光学ディスク、フラッシュドライブ）を含む。入力デバイス１０８は、限定されないが、キーボード、キーパッド、タッチスクリーン、タッチパッド、検出器、マイクロフォン、加速度計、ジャイロスコープ、生体スキャナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信及び／若しくは受信のための無線ローカルエリアネットワークカード）を含む。出力デバイス１１０は、限定されないが、ディスプレイデバイス１１８、スピーカ、プリンタ、触覚フィードバックデバイス、１つ以上のライト、アンテナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信及び／若しくは受信のための無線ローカルエリアネットワークカード）を含む。

入力ドライバ１１２は、プロセッサ１０２及び入力デバイス１０８と通信し、プロセッサ１０２が入力デバイス１０８から入力を受信することを可能にする。出力ドライバ１１４は、プロセッサ１０２及び出力デバイス１１０と通信し、プロセッサ１０２が出力デバイス１１０に出力を送信することを可能にする。入力ドライバ１１２及び出力ドライバ１１４がオプションのコンポーネントであることと、入力ドライバ１１２及び出力ドライバ１１４が存在しない場合にはデバイス１００が同様に動作することと、に留意されたい。出力ドライバ１１４は、ディスプレイデバイス１１８に結合されたアクセラレーテッド処理デバイス（ＡＰＤ）１１６を含む。ＡＰＤ１１６は、プロセッサ１０２から計算コマンド及びグラフィックスレンダリングコマンドを受け付けて、これらの計算コマンド及びグラフィックスレンダリングコマンドを処理し、表示のためにディスプレイデバイス１１８に画素出力を提供するように構成されている。以下で更に説明するように、ＡＰＤ１１６は、単一命令多重データ（ＳＩＭＤ）パラダイムに従って計算を実行するように構成された１つ以上の並列プロセッシングユニットを含む。よって、様々な機能がＡＰＤ１１６によって実行され或いはＡＰＤ１１６と共に実行されるものとして本明細書で説明するが、様々な代替例では、ＡＰＤ１１６によって実行されるものとして説明する機能は、追加的に又は代替的に、ホストプロセッサ（例えば、プロセッサ１０２）によって駆動されず、ディスプレイデバイス１１８に（グラフィカル）出力を提供するように構成された同様の機能を有する他のコンピューティングデバイスによって実行される。例えば、ＳＩＭＤパラダイムに従って処理タスクを実行する任意の処理システムは、本明細書で説明する機能を実行するように構成されてもよいことが考慮される。

図２は、一例による、ＡＰＤ１１６上での処理タスクの実行に関連する追加の詳細を示すデバイス１００のブロック図である。プロセッサ１０２は、システムメモリ１０４において、プロセッサ１０２による実行のための１つ以上の制御論理モジュールを維持する。制御論理モジュールは、オペレーティングシステム１２０と、ドライバ１２２と、アプリケーション１２６と、を含む。これらの制御論理モジュールは、プロセッサ１０２及びＡＰＤ１１６の演算の様々な機能を制御する。例えば、オペレーティングシステム１２０は、ハードウェアと直接通信し、他のソフトウェアがプロセッサ１０２上で実行するためのハードウェアへのインタフェースを提供する。ドライバ１２２は、例えば、ＡＰＤ１１６の様々な機能にアクセスするための、プロセッサ１０２上で実行されるソフトウェア（例えば、アプリケーション１２６）へのアプリケーションプログラミングインタフェース（ＡＰＩ）を提供することによって、ＡＰＤ１１６の演算を制御する。いくつかの実施形態では、ドライバ１２２は、ＡＰＤ１１６のコンポーネント（以下により詳細に説明するＳＩＭＤユニット等）を処理することによって、実行されるプログラムをコンパイルするジャストインタイムコンパイラを含む。他の実施形態では、プログラムをコンパイルするためにジャストインタイムコンパイラが使用されず、標準的なアプリケーションコンパイラが、ＡＰＤ１１６上で実行されるシェーダプログラムをコンパイルする。

ＡＰＤ１１６は、並列処理及び／又は順序付けられていない処理（non-ordered processing）に適切なグラフィックス演算及び非グラフィックス演算等の選択された関数のためのコマンド及びプログラムを実行する。プロセッサ１０２から受信したコマンドに基づいて、画素演算、幾何学計算、及び、ディスプレイデバイス１１８への画像のレンダリング等のグラフィックスパイプライン演算を実行するために、ＡＰＤ１１６が使用される。また、ＡＰＤ１１６は、プロセッサ１０２から受信したコマンドに基づいて、ビデオに関連する演算、物理シミュレーション、数値流体力学、又は、他のタスク等のように、グラフィックス演算に関連せず又はグラフィックス演算に直接関連しない計算処理演算を実行する。また、ＡＰＤ１１６は、レイトレーシングに基づくグラフィックスレンダリングに関連する計算処理演算を実行する。

ＡＰＤ１１６は、ＳＩＭＤパラダイムに従って並列方式においてプロセッサ１０２の要求における演算を実行する１つ以上のＳＩＭＤユニット１３８を含む計算ユニット１３２を含む。ＳＩＭＤパラダイムは、複数の処理要素が単一のプログラム制御フローユニット及びプログラムカウンタを共有し、よって、同一のプログラムを実行するが、異なるデータでそのプログラムを実行することが可能である。一例では、各ＳＩＭＤユニット１３８は、１６個のレーンを含み、各レーンは、ＳＩＭＤユニット１３８において他のレーンと同時に同一の命令を実行するが、異なるデータを用いてその命令を実行する。全てのレーンが所定の命令を実行する必要がない場合、条件付き実行制御によりレーンがスイッチオフされる。分岐する制御フローによりプログラムを実行するために、条件付き実行制御が使用されてもよい。より具体的には、条件付き分岐又は個々のレーンによって実行される計算に制御フローが基づいている他の命令を有するプログラムについて、現在実行されていない制御フローパスに対応するレーンの条件付き実行制御、及び、異なる制御フローパスの直列実行は、任意の制御フローを許容する。実施形態では、計算ユニット１３２の各々は、ローカルＬ１キャッシュを有してもよい。実施形態では、複数の計算ユニット１３２は、Ｌ２キャッシュを共有する。

計算ユニット１３２における実行の基本単位は、ワークアイテムである。各ワークアイテムは、特定のレーンにおいて並列に実行されることになるプログラムの単一のインスタンス化を表す。ワークアイテムは、単一のＳＩＭＤプロセッシングユニット１３８上で「ウェーブフロント」として共に実行されてもよい。ＳＩＭＤプロセッシングユニット１３８のＳＩＭＤの性質は、複数のワークアイテムが同時に並列に実行することができることを意味する。単一のＳＩＭＤユニット上でこの方式において共に実行されるワークアイテムは、同一のウェーブフロントの一部である。いくつかの実施形態又は演算のモードでは、ＳＩＭＤユニット１３８は、ウェーブフロントのワークアイテムの各々を同時に実行することによって、ウェーブフロントを実行する。他の実施形態又は演算のモードでは、ＳＩＭＤユニット１３８は、ウェーブフロントにおいてワークアイテムの異なるサブセットを並列に実行する。一例では、ウェーブフロントは、６４個のワークアイテムを含み、ＳＩＭＤユニット１３８は、１６個のレーンを有する（各レーンは、単一のワークアイテムを実行するようなサイズとされたハードウェアの単位である）。この例では、ＳＩＭＤユニット１３８は、１６個のワークアイテムを同時に４回実行することによって、ウェーブフロントを実行する。

１つ以上のウェーブフロントが「ワークグループ」に含まれ、「ワークグループ」は、同一のプログラムを実行するように指定されたワークアイテムの集合を含む。アプリケーション又は他のエンティティ（ホスト）は、シェーダプログラムがアクセラレーテッド処理デバイス１１６によって実行されることを要求し、「サイズ」（ワークアイテムの数）を規定し、コマンドプロセッサ１３６は、そのワークを実行するための１つ以上のワークグループを生成する。ワークグループの数、各ワークグループにおけるウェーブフロントの数、及び、各ウェーブフロントにおけるワークアイテムの数は、ホストによって要求されたワークのサイズに相関付けられる。いくつかの実施形態では、ホストは、ワークを実行するための特定の要求について、各ワークグループにおけるワークアイテムの数を規定してもよく、この規定は、ワークを実行するためにコマンドプロセッサ１３６によって生成されるワークグループの数を示す。上述したように、コマンドプロセッサ１３６は、１つ以上の計算ユニット１３２にワークグループをディスパッチし、１つ以上の計算ユニット１３２は、ワークグループを完了するように、適切な数のウェーブフロントを実行する。

計算ユニット１３２によって与えられる並列性は、画素値計算、頂点変換及び他のグラフィックス演算等のグラフィック関連演算に適切である。よって、いくつかの例では、プロセッサ１０２からのグラフィック処理コマンドを受け付けるグラフィックスパイプライン１３４は、並列実行のために、計算ユニット１３２に計算タスクを提供する。

いくつかの実施形態では、アクセラレーテッド処理デバイス１１６は、レイトレーシングを実装し、レイトレーシングは、シミュレートされた光線とシーン内のオブジェクトとの間の交差について試験することによって、３Ｄシーンをレンダリングする技術である。レイトレーシングに関与するワークの多くは、計算ユニット１３２におけるＳＩＭＤユニット１３８上で実行されるプログラム可能シェーダプログラムによって実行される。本明細書で示すいくつかの教示が、ＡＰＤ１１６上で実行されるレイトレーシングワークのコンテキストにおいて説明されるが、本明細書で示す様々な教示が、レイトレーシングワークロード以外のワークロードにおいて適用されてもよいことを理解されたい。

図３は、一例による、レイトレーシング技術を使用してグラフィックスをレンダリングするレイトレーシングパイプライン３００を示す図である。レイトレーシングパイプライン３００は、レイトレーシングを利用してシーンをレンダリングすることに関与する演算及びエンティティの概要を提供する。レイ生成シェーダ（ray generation shader）３０２、任意ヒットシェーダ（any hit shader）３０６、最近ヒットシェーダ（closest hit shader）３１０、及び、ミスシェーダ（miss shader）３１２は、ＳＩＭＤユニット１３８において実行するシェーダプログラムによってその機能が実行されるレイトレーシングパイプラインステージを表すシェーダ実装ステージである。各々の特定のシェーダ実装ステージにおける特定のシェーダプログラムの何れかは、アプリケーション提供コード（すなわち、アプリケーションコンパイラによって事前コンパイルされ、及び／又は、ドライバ１２２によってコンパイルされた、アプリケーション開発者によって提供されるコード）によって定義される。レイトレースステージ３０４は、レイが三角形にヒットするかどうかを判別するように、レイ交差試験を実行する。レイトレースステージ３０４は、ＳＩＭＤユニット１３８において実行するシェーダプログラムによって、又は、レイ交差試験を実行するように構成された固定機能ハードウェアによって実行されてもよい。

様々なプログラム可能シェーダ（レイ生成シェーダ３０２、任意ヒットシェーダ３０６、最近ヒットシェーダ３１０、ミスシェーダ３１２）は、ＳＩＭＤユニット１３８上で実行するシェーダプログラムとして実装される。コマンドプロセッサ１３６は、レイトレーシングパイプライン３００の実行を指揮する。特に、コマンドプロセッサ１３６は、レイトレーシングパイプライン３００の様々なステージをＡＰＤ１１６上で実行させる命令を実行するプログラム可能ユニットである。更なる詳細が本明細書の他の箇所で提供される。

レイトレーシングパイプライン３００は、以下のように動作する。１つ以上の計算ユニット１３２は、レイ生成シェーダ３０２を実行する。レイ生成シェーダ３０２は、１つ以上のレイ交差試験を実行するようにレイトレースステージ３０４に要求する。各レイ交差試験は、レイトレース演算についての発生元及び方向を定義し、レイトレース演算は、レイが１つ以上の三角形にヒットするかどうか、或いは、レイが何れの三角形にもヒットしないかどうかを判別する。

レイトレースステージ３０４は、レイ交差試験についてレイによって交差した１つ以上の三角形を識別し、又は、三角形が所定の距離までレイによって交差しない場合、レイが何れの三角形にもヒットしない（すなわち、レイが「外れる（misses）」）と判別する。レイトレースステージ３０４は、任意の技術的に実現可能な方式において実装されてもよい。一例では、レイトレースステージ３０４は、１つ以上の計算ユニット１３２上で実行するシェーダプログラムとして実装される。別の例では、レイトレースステージ３０４は、固定機能ハードウェアとして実装される。

レイトレースステージ３０４は、レイがヒットしたレイの発生元に最も近い三角形について最近ヒットシェーダ３１０の実行をトリガし、又は、三角形がヒットしなかった場合、ミスシェーダをトリガする。最近ヒットシェーダ３１０についての典型的な使用は、マテリアルについてのテキスチャに基づいて、マテリアルを色付けすることである。ミスシェーダ３１２についての典型的な使用は、スカイボックスによって設定された色により画素を色付けすることである。最近ヒットシェーダ３１０及びミスシェーダ３１２について定義されたシェーダプログラムが、画素を色付けし、及び／又は、他の演算を実行するための広範囲の技術を実装してもよいことを理解されたい。

レイ生成シェーダ３０２がレイを生成する典型的な様式は、後方レイトレーシングと呼ばれる技術によるものである。後方レイトレーシングでは、カメラに対応するポイントにおいて発生元を有するレイを生成する。スクリーンに対応するように定義された平面にレイが交差するポイントは、レイを判別するためにその色が使用されているスクリーン上の画素を定義する。レイがオブジェクトにヒットする場合、画素が最近ヒットシェーダ３１０に基づいて色付けされる。レイがオブジェクトにヒットしない場合、画素がミスシェーダ３１２に基づいて色付けされる。複数のレイが画素毎に投じられてもよく、画素の最終的な色は、画素のレイの各々について判別された色の何らかの組み合わせ（例えば、平均）によって判別される。任意の特定のレイ生成シェーダ３０２（又は、任意の他のシェーダ）は、レイと三角形との間の任意のヒットについて、かかるヒットが最近のヒットでない場合であっても、任意ヒットシェーダ３０６が実行されることになると規定してもよい。

最近ヒットシェーダ３１０及び／又はミスシェーダ３１２は、レイ試験ポイントにおいて、レイトレーシングパイプライン３００に入射するそれら自身のレイを生成する（spawn）ことが可能である。それらのレイは、あらゆる目的に使用されてもよい。１つの一般的な使用は、環境的照明又は環境的反射を実装することである。一例では、最近ヒットシェーダ３１０が呼び出される場合、最近ヒットシェーダ３１０は、様々な方向にレイを引き起こす。引き起こされたレイによってヒットされた各オブジェクト又は光について、最近ヒットシェーダ３１０は、レイを引き起こした最近ヒットシェーダ３１０に対応する画素に、ヒット位置における照明強度及び色を追加する。シーンをレンダリングするためにレイトレーシングパイプライン３００の様々なコンポーネントを使用することができる様式のいくつかの例を説明してきたが、広範囲の技術の何れかが代わりに使用されてもよいことを理解されたい。

最近ヒットシェーダステージ３１０、ミスシェーダステージ３１２又は任意ヒットシェーダステージ３０６について説明した何れかのシェーダプログラムが、レイ生成ステージ３０２について説明したシェーダプログラムによって実行されるものとして、本明細書において他に説明される任意の演算を実装することができることを理解されたい。例えば、レイトレースステージ３０４を試験するためのレイ試験ポイントに提供されることになる新たなレイを引き起こすことに加えて、このようなシェーダプログラムは、ミス又はヒットがトレースする追加のレイを引き起こすかどうか（レイ試験ポイントにおいて再度開始して）、任意のそのような追加のレイについて何れのシェーダプログラムを実行するか、このような追加のシェーダプログラム実行によって生成された色値及び／又は光度値をどのように組み合わせるか、並びに、レイ生成シェーダ３０２によって実行される任意の他の演算を規定してもよい。

シェーダプログラムは、ＡＰＤ１１６上で「カーネル」として起動される。カーネルは、特定のシェーダプログラム（例えば、ステッチされたシェーダプログラム）と共に、カーネルの一部として実行されるワークアイテムの数を規定する。スケジューラ１３６は、カーネルをワークグループに分解し、実行のために１つ以上の計算ユニット１３２にワークグループを割り当てる。カーネルのワークグループは、実行を開始し、それらの命令を実行し、次いで、実行を終結する。ワークグループは、計算ユニット１３２内で１つ以上のウェーブフロントとして実行する。ウェーブフロントは、同時に実行する複数のワークアイテムとして、ＳＩＭＤユニット１３８上で実行する。

各ウェーブフロントは、単一命令多重データ（ＳＩＭＤ）方式において同時に実行するワークアイテムを含む。より具体的には、ＳＩＭＤユニット１３８は、複数のワークアイテムについてのプログラム実行を制御するために単一の命令ポインタが使用され、したがって、複数の命令を同時に実行することができる方式においてシェーダプログラムを実行する。一例では、ウェーブフロントの４個のワークアイテムは、ＳＩＭＤユニット上で実行する。実行制御フローの一部は、以下の擬似コードに示されるセクションにおいて開始する。

第１の命令は、ｒ２の値をｒ３の値に追加し、結果をｒ１に記憶する。第２の命令は、ｒ１の値をｒ５に追加し、結果をｒ４に記憶する。第３の命令は、ｒ４の値を、ｒ６で規定されたアドレスに記憶する。レーン毎に一度、複数の加算、乗算及び記憶が同時に実行されるように、この擬似コードを実行するウェーブフロントのレーンが同時に実行する。「ｒ１」～「ｒ６」は、レジスタ名を表す。

制御フローがＳＩＭＤユニット１３８においてレーンに亘って分岐する可能性があり、よって、ウェーブフロントのワークアイテムに亘って分岐する可能性がある。より具体的には、いくつかの命令は、特定の変数の値に基づいて、命令ポインタを修正する。一例では、条件付き分岐は、そのジャンプターゲットが条件の評価の結果に基づいている命令である。別の例では、ジャンプは、変数において規定されたアドレスをターゲットとしてもよい。制御フローがこの方式において分岐するとき、ＳＩＭＤユニット１３８は、少なくとも１つのレーンが実行することになる、とり得るパスの各々を直列化する。以下の例の擬似コードは、分岐する制御フローを結果としてもたらすことがある状況を示す。

表２では、各レーンは、５の値をｒ２に追加し、結果をｒ１に記憶する、ａｄｄｒ１、ｒ２、５の命令を実行する。ｂｌｚ命令は、ｒ１の値がゼロ未満である場合に分岐する条件付き分岐である。ｒ１の値がゼロよりも大きい場合、制御フローは、いくつかの命令、次いで、「ｒｅｃｏｎｖｅｒｇｅ」ラベルへのジャンプ命令を含む、ｓｅｃｔｉｏｎ１を通る。条件付き分岐を再度参照すると、ｒ１の値がゼロ未満である場合、制御フローは、ラベルＬＥＳＳ＿ＴＨＡＮ＿ＺＥＲＯに進み、ｓｅｃｔｉｏｎ２が実行される。ラベル「ＲＥＣＯＮＶＥＲＧＥ」において、制御フローが再収束（reconverges）する。

図示した第１の命令が実行されたときにウェーブフロントにおいて実行する第１のレーンがｒ２に記憶された値－１０を有していた場合、そのレーンについてのレジスタｒ１は、その第１の命令の後に値－５を記憶し、それは、第１のレーンに、「ＬＥＳＳ＿ＴＨＡＮ＿ＺＥＲＯ」においてｓｅｃｔｉｏｎ２を実行させる。第１の命令が実行されたときに同一のウェーブフロントにおいて実行する第２のレーンがｒ２に値１を有していた場合、そのレーンについてのレジスタｒ１は、値６を記憶し、それは、そのレーンに分岐させず、ｓｅｃｔｉｏｎ１を実行させない。異なるレーンによるｓｅｃｔｉｏｎ１及びｓｅｃｔｉｏｎ２の実行は、各々のセクションを直列に実行することによって達成されると共に、特定のセクションを実行しないレーンがスイッチオフされる。より具体的には、分岐は、ＳＩＭＤユニット１３８に、第２のレーンについてｓｅｃｔｉｏｎ１を実行させると共に、第１のレーンがスイッチオフされ、次いで、第１のレーンについてｓｅｃｔｉｏｎ２を実行させると共に、第２のレーンがスイッチオフされ、他に同時に実行することができる複数のレーンがなおも直列化されることを理由に、それは、処理の効率性を下げる。

分岐する制御フローの別の例が表３に示される。

表３の例では、各レーンは、三角形交差を検出するようにレイトレースを実行する。次いで、各レーンは、交差した三角形のマテリアルを識別し、識別されたマテリアルについてのマテリアルシェーダのアドレスをレジスタｒ１に記憶する。次いで、各レーンは、ｒ１に記憶されたアドレスにジャンプする。それらのアドレスは、示される様々なマテリアルシェーダ（「ＭＡＴＥＲＩＡＬ＿ＳＨＡＤＥＲ＿１」、「ＭＡＴＥＲＩＡＬ＿ＳＨＡＤＥＲ＿２」等）であってもよい。マテリアルシェーダを実行した後、レーンは、「ｅｎｄ＿ｍａｔｅｒｉａｌ＿ｓｈａｄｅｒｓ」にジャンプする。各レーンが異なるマテリアルシェーダを有する三角形にヒットする場合、それらのマテリアルシェーダの各々が直列化され、全体的な非並列化（deparallelization）を表す、ウェーブフロントにおけるレーンの数に等しいスローダウンを結果としてもたらす。マテリアルシェーダが、三角形に交差する（例えば、最近ヒットシェーダステージにおいて）レイについての色を提供するように実行されるレイトレーシング、又は、三角形に外れ、よって、スカイボックスによって色付けされる（例えば、ミスステージにおいて）レイトレーシングについて使用されるコードのセクションであることに留意されたい。

いくつかの例では、ＳＩＭＤプロセッサ上で、分岐命令が存在するポイントは、「分岐ポイント」である。分岐ポイントにおける分岐は、１つ以上の分岐ターゲットを指す。固定ターゲットを有する分岐は、単一の分岐ターゲットを有し、可変ターゲットを有する分岐は、複数の分岐ターゲットを有してもよい。異なる分岐パスを通ること（taking different branch paths）に起因して分岐したレーンが必然的に再収束するポイントである再収束ポイントも存在する。分岐ターゲットにおいて開始する命令のシーケンスは、本明細書では「通過パス（taken path）」と呼ばれる。条件付き分岐の直後の命令（「通過していないポイント（not-taken point）」）において開始する命令のシーケンスは、「通過していないパス（not-taken path）」と呼ばれる。通過パス及び通過していないパスは、まとめて「コードパス（code paths）」と呼ばれる。各コードパスは、分岐ターゲット又は通過していないパスから再収束ポイント又は分岐ポイントまで広がる。基本的に、各コードパスは、その中でそのコードパスを実行するレーンの組み合わせを変更することができない（変更は分岐又は再収束に起因して発生する）命令のシーケンスを定義する。

分岐を含む命令のシーケンスを実行するために、ＳＩＭＤプロセッサは、レーン毎に分岐命令を評価し、その結果に基づいて、分岐から到達可能なコードパス毎に実行ビットマスク内のビット値を設定する。ビットマスク内の各ビットは、実行されるウェーブフロントの１つのレーンに関連付けられる。ビットマスク内の１つのビット値（「１」等）は、対応するレーンがそのコードパスを実行することを示す。ビットマスク内の他のビット値（「０」等）は、対応するレーンがそのコードパスを実行しないことを示す。

異なるコードパスについてのビットマスクを決定した後、ＳＩＭＤプロセッサは、少なくとも１つのレーンが実行する全てのコードパスが実際に実行されるまで、必要に応じて命令ポインタを進め又は修正する。レーンがコードパスを実行しないことをビットマスクが示すコードパスについて、ＳＩＭＤプロセッサは、そのコードパスをスキップするように命令ポインタを修正する。概して、必要に応じて命令ポインタを修正することは、少なくとも１つのレーンによって実行される１つのコードパスの最後の命令のアドレスから、少なくとも１つのレーンによって実行される別のコードパスのアドレスに命令ポインタを修正することを含む。そのような修正は、実行される２つのコードパスがメモリ内に直列にレイアウトされる場合に命令ポインタを単に増分することを含んでもよく、又は、実行されるコードパスの第１の命令のアドレスに命令ポインタを設定することによって、命令ポインタを単に増分すること以外の方法で命令ポインタが修正されることを意味する「真の分岐」を含んでもよい。

図４は、一例による、分岐する制御フローから結果として生じる直列化を示す図である。表４００は、「収束セクション」、「Ｆ１」、「Ｆ２」、「Ｆ３」及び「Ｆ４」とリスト化されたいくつかのコードのセクションを示す。図では、時間が下方向に進む。所定のボックス内のマーク「Ｏ」は、レーンが所定の時間セクション内でコードのセクションを実行することを示す。収束セクションでは、レーン１～４の各々がそのセクションを共に実行することが想定される。よって、収束セクションの各レーンにはマーク「Ｏ」が存在する。収束セクションの結果に起因して、レーン１がＦ１を実行し、Ｆ２、Ｆ３又はＦ４を実行せず、レーン２がＦ２を実行し、Ｆ１、Ｆ３又はＦ４を実行せず、レーン３がＦ３を実行し、Ｆ１、Ｆ２又はＦ４を実行せず、レーン４がＦ４を実行し、Ｆ１、Ｆ２又はＦ３を実行しないと決定される。このように、Ｆ１、Ｆ２、Ｆ３及びＦ４の各々は、異なる時間セクションで実行されるため、レーン１～４を含むウェーブフロントの実行が非並列化される。より具体的には、第１の時間セクション内に、レーン１が関数Ｆ１を実行すると共に、レーン２～４がスイッチオフされる。第２の時間セクション内に、レーン２が関数Ｆ２を実行すると共に、レーン１，３～４がスイッチオフされる。第３の時間セクション内に、レーン３が関数Ｆ３を実行すると共に、レーン１～２，４がスイッチオフされる。第４の時間セクション内に、レーン４が関数Ｆ４を実行すると共に、レーン１～３がスイッチオフされる。

制御フロー分岐を減少させるために、計算ユニット１３２は、制御フロー分岐ポイントにおいて実行アイテムを再編成する。いくつかの実施形態では、「実行アイテム」という用語は、ワークアイテムを指す。他の実施形態では、「実行アイテム」という用語は、ワークアイテムよりも粒度の細かい実行のスレッドを指す。より具体的には、このような複数の論理スレッドを直列に実行することによって、単一のワークアイテム内で複数の論理スレッドを実行することができる。このような例では、複数の論理スレッドの各々が、実行アイテムである。分岐ポイントにおいて実行アイテムを再編成する２つの技術は、計算ユニット１３２がワークグループの異なるウェーブフロントに亘って実行アイテムを再編成する技術と、計算ユニット１３２がウェーブフロント内の実行アイテムを再編成する技術と、を含む。

図５Ａは、一例による、ワークグループのウェーブフロントに亘って実行アイテムを再編成することによって、制御フロー分岐を減少させる技術を示す図である。この例では、ワークアイテムと実行アイテムとの間に１対１の対応関係が存在し、各ワークアイテムが１つの実行アイテムを実行する。図５Ａのシナリオでは、１つのワークグループ５０２は、２つのウェーブフロント（ウェーブフロント１５０４（１）及びウェーブフロント２５０４（２））を含む。ワークグループ５０２は、単一の計算ユニット１３２において共に実行されるワークアイテムの集合である。ワークグループ５０２のワークアイテムは、ウェーブフロントとして共に実行される。ウェーブフロントは、例えば図４に関して説明したように、ＳＩＭＤユニット１３８上で同時に実行されるワークアイテムを含む。ウェーブフロントのワークアイテムの全てをＳＩＭＤユニット１３８において同時に実行することが可能であるが、ウェーブフロントがＳＩＭＤユニット１３８におけるデータレーンの数よりも多い数のワークアイテムを含むことも可能である。典型的には、そのようなウェーブフロントは、ＳＩＭＤユニット１３８におけるデータレーンの数の整数倍に等しい数のワークアイテムを含む。そのようなウェーブフロントの実行は、ウェーブフロントのワークアイテムのサブセットを直列に実行することによって行われる。一例では、ウェーブフロントは、６４個のワークアイテムを含み、ＳＩＭＤユニット１３８は、１６個のデータレーンを含む。この例では、ウェーブフロントは、ワークアイテム１～１６、次いでワークアイテム１７～３２、次いでワークアイテム３３～４８、次いでワークアイテム４９～６４を実行することによって実行される。

単一のワークグループの異なるウェーブフロントは、本明細書で説明する同時ＳＩＭＤ方式では実行しないが、そのようなウェーブフロントは、単一の計算ユニット１３２の異なるＳＩＭＤユニット１３８上で同時に実行することができる。しかしながら、ワークグループの１つの特徴は、計算ユニット１３２が異なるワークグループ間の同期をサポートすることである。「同期」とは、いくつかの条件が満たされるまで、バリアに関与する全てのウェーブフロントの実行を中断するバリアをウェーブフロントが実行するための能力を指す。ワークグループ内のウェーブフロントは、計算ユニット１３２内のローカルメモリを介して実行中に通信する能力も有する。

図５Ａでは、表５００は、ワークグループ５０２による実行を示す。図示したワークグループ５０２は、２つのウェーブフロント５０４を含む。ウェーブフロント１５０４（１）は、ワークアイテム１～４を含み、ウェーブフロント２５０４（２）は、ワークアイテム５～８を含む。命令ポインタは、所定の時点において各ウェーブフロント５０４が実行するコードのセクションを示す。時間は上から下に進む。表内のエントリのいくつかは、特定のワークアイテムによって実行される場合と実行されない場合があるコードの部分に対応する。それらの部分は、１つ以上のワークアイテムによって実行される関数Ｆ１～Ｆ４を含む。収束部分は、ウェーブフロント５０４の全てのワークアイテムによって実行される。「Ｏ」のマークは、特定のワークアイテムがコードのそれらの部分の１つを実行することを示し、空白の長方形は、特定のワークアイテムがコードのそれらの部分の１つを実行しないことを示す。

収束部分では、各ワークアイテムは、ワークアイテムが関数Ｆ１～Ｆ４の何れを実行するかを決定する。「関数」という用語は、ワークグループ５０２によって実行されるシェーダプログラムの部分を指す。バリア及び再編成ステージは、収束部分の後に実行する。バリア及び再編成ステージは、再編成が行われているウェーブフロント５０４毎にバリア及び再編成ステージが完了するまで、各ウェーブフロント５０４の実行を中断する。それらのウェーブフロント５０４は、図５Ａの例では、ウェーブフロント１５０４（１）及びウェーブフロント２５０４（２）を含む。バリア及び再編成ステージは、ワークアイテムが関数Ｆ１～Ｆ４の何れを実行するかを示す収束部分の結果に基づいて、異なるウェーブフロント５０４に亘ってワークアイテムを再編成する。概して、再編成の目標は、ウェーブフロント間でワークアイテムを入れ替えることによって、ウェーブフロントについての分岐を減少させることである（この例では、実行される関数の総数が多いほど、分岐が多くなる）。概して、分岐を減少させることは、少なくとも１つのウェーブフロントにおける制御フローターゲットの数を減少させることによって達成される。

図示した例では、ウェーブフロント１５０４（１）及びウェーブフロント２５０４（２）の両方におけるワークアイテムは、関数Ｆ１～Ｆ４の全てを実行する。それらのワークアイテムを実行する計算ユニット１３２が関数Ｆ１～Ｆ４の各々を直列化する必要があるので、これは４倍の分岐と考えられる。再編成は、同一の制御フローターゲットに分岐するワークアイテムをグループ化することによって、ウェーブフロントにおいて実行する関数の総数を減少させる。この例の再編成は、関数Ｆ１及びＦ２を実行し、関数Ｆ３及びＦ４を実行しないように指定されたワークアイテムを有するウェーブフロント１５０４（１）、並びに、関数Ｆ３及びＦ４を実行し、関数Ｆ１及びＦ２を実行しないように指定されたワークアイテムを有するウェーブフロント２５０４（２）を結果としてもたらす。特に、ウェーブフロント１５０４（１）は、各々がＦ１又はＦ２の何れかを実行し、Ｆ３又はＦ４を実行しないように指定されたワークアイテム１，２，５，６を含み、ウェーブフロント２５０４（２）は、各々がＦ３又はＦ４の何れかを実行し、Ｆ１又はＦ２を実行しないように指定されたワークアイテム３，４，７，８を含む。この再編成により、各ウェーブフロント５０４は、２倍の分岐となる。各ウェーブフロント５０４によって実行されるコードは、依然として、特定のワークアイテムによって実行されない関数を含むが、このコードがスキップされ、それらの関数を実行しないワークアイテムを有するウェーブフロント５０４のためにそれらの関数の実行時間がほとんど費やされず、又は、全く費やされないことを結果としてもたらす。

特定の例の命令のシーケンスが示されているが、この特定のシーケンスは、ワークアイテム毎に実行する関数を決定することと、ワークアイテムによって関数を実行することと、を含むが、図５Ａに関して説明した技術は、分岐する制御フローを結果としてもたらす任意の命令のシーケンスに適用されてもよいことを理解されたい。何れの状況においても、バリア及び再編成ステージは、ワークグループ５０２内の分岐する制御フローターゲットの総数を検査し、各ウェーブフロント５０４にできるだけ少ない数を割り当てることを試みる。制御フローターゲットは、分岐命令によりターゲットとされた命令ポインタアドレスによって、条件付き分岐が取られるか（taken）否かの決定によって、又は、任意の他の技術的に実現可能な手段を通じて識別されてもよい。各ウェーブフロント５０４にできるだけ少ない数の分岐する制御フローターゲットを割り当てることは、ターゲットに基づいてウェーブフロントをソートし、ソートされたリストを各ウェーブフロント５０４におけるワークアイテムの数で除算し、除算されたワークアイテムを異なるウェーブフロント５０４に割り当てることによって達成されてもよい。１つのウェーブフロント５０４から別のウェーブフロントにワークアイテムを移動させることは、各ウェーブフロント５０４に割り当てられたワークアイテムのリストを修正することによって、ワークアイテムが以前に実行していた位置からワークアイテムが移動されることになる位置にレジスタ値及びフラグ値等の実行状態データをコピーすることによって等のように、任意の技術的に実現可能な方法で達成されてもよい。

バリア及び再編成ステージは、例えば、ランタイム又はオフラインコンパイラによって挿入された命令によりソフトウェアで完全に実装されてもよいし、特殊ハードウェアサポートで実装されてもよい。一例では、実行アイテムの宛先及び再編成によるソートの何れか又は両方は、ワークグループ５０２の各ウェーブフロント５０４による特殊命令の実行によってトリガされる固定機能ハードウェアによって達成されてもよい。

図５Ｂは、図５Ａに示された再編成無しで発生する実行を示す図である。上述したように、各ウェーブフロント５０２は、関数Ｆ１～Ｆ４を実行するワークアイテムを含む。よって、再編成無しでそれらの関数を実行すると、各関数が順に実行されるので、４倍の分岐である。

図６Ａは、一例による、ウェーブフロント内で実行アイテムを再編成することによって制御フロー分岐を減少させる技術を示す図である。図示した例では、各ワークアイテムは、２つの実行アイテムを実行する。より具体的には、ウェーブフロントによって実行されるシェーダプログラムは、特定のワークロードの２つのインスタンス（２つの実行アイテム）が直列に実行されるように構成される。特定のワークアイテムの一部として実行される各実行アイテムは、特定の時間スロット内に実行される。もちろん、複数の異なるワークアイテムが同時に実行され得ることに留意されたい。よって、複数のワークアイテムは、それらのスロット１を同時に実行することができ、次いで、それらのスロット２を同時に実行することができる。レイトレーシングの例では、各スロットは、異なるレイに対応してもよい。この例では、シェーダプログラムは、レイが交差する三角形を決定する。シェーダプログラムは、交差した三角形のマテリアルに基づいて、マテリアルシェーダを実行する。ワークアイテムの各々のスロットは、異なるレイに対応するため、単一のワークアイテムの異なるスロットにおいて異なるマテリアルシェーダを実行することが可能である。

２つの実行アイテムのシーケンシャルパフォーマンスは、スロット間で入り替えが発生することを可能になり、分岐を減少させる。図６Ａにおける例は、そのような入り替えを示す。この例では、ウェーブフロント６０２の４個のレーンは、２つの実行アイテムの各々を実行している。レーン１が実行アイテム１及び２を実行し、レーン２が実行アイテム３及び４を実行し、レーン３が実行アイテム５及び６を実行し、レーン４が実行アイテム７及び８を実行する。レーンは、各実行アイテムが関数Ｆ１、Ｆ２、Ｆ３及びＦ４の何れを実行するかを識別するために、収束部分を実行する。図示していないが、収束部分は、実行アイテム毎に１回実行されてもよい。

収束部分の結果が示され、実行アイテム１は、関数Ｆ１を実行することになり、実行アイテム２は、関数Ｆ２を実行することになり、実行アイテム３は、関数Ｆ２を実行することになり、実行アイテム４は、関数Ｆ３を実行することになり、実行アイテム５は、関数Ｆ１を実行することになり、実行アイテム６は、関数Ｆ４を実行することになり、実行アイテム７は、関数Ｆ３を実行することになり、実行アイテム８は、関数Ｆ４を実行することになる。スロット１では、実行される関数が合計で３つ存在し、スロット２では、実行される関数が合計で３つ存在する。これは、各スロットにおいて、３の分岐因子が存在することを意味する。再編成ステージにおいて、計算ユニット１３２は、分岐を減少させるために、異なるレーンに亘って実行アイテムを再編成する。特に、再編成ステージは、実行アイテムのターゲットによって実行アイテムをソートし、ソートされた実行アイテムを分割し、分割されソートされた実行アイテムをスロットに割り当てる。図示した例では、ソートされたターゲットは、Ｆ１（Ｉｔｅｍ１）、Ｆ１（Ｉｔｅｍ５）、Ｆ２（Ｉｔｅｍ３）、Ｆ３（Ｉｔｅｍ４）、Ｆ３（Ｉｔｅｍ７）、Ｆ４（Ｉｔｅｍ６）及びＦ４（Ｉｔｅｍ８）である。再編成ステージは、関数Ｆ１及びＦ３を実行する実行アイテムをスロット１に割り当て、関数Ｆ２及びＦ４を実行する実行アイテムをスロット２に割り当てる。スロット１が実行され、次いで、スロット２が実行され、各々が２つの関数（２の分岐因子）を得る。特に、関数Ｆ１～Ｆ４は、図示したように直列に実行される。このシーケンスは、スロット毎に１回ずつ、２回発生する。スロット１では、アイテム１及び５は、関数Ｆ１を同時に実行し、アイテム４及び７は、関数Ｆ３を同時に実行する。スロット１では、レーンが関数Ｆ２及びＦ４を実行しないので、それらの関数がスキップされる。スロット２では、アイテム２及び３は、Ｆ２を同時に実行し、アイテム６及び８は、関数Ｆ４を同時に実行するし、関数Ｆ１及びＦ３がスキップされる。

特定の例の命令のシーケンスが示されるが、概して、以下のようにイントラウェーブフロント技術が実行される。コンパイラは、２つ以上の時間スロットを有するシェーダプログラムを生成し、各時間スロットは、異なる実行アイテムについて実行される特定のワークロードのコピーである。分岐する制御フローのポイントにおいて、コンパイラは、時間スロットにわたって実行アイテムを再編成するように、再編成コードを挿入する。再編成コードは、制御フロー宛先によって実行アイテムを実行アイテムグループにソートする。再編成コードは、各時間スロットにできるだけ少ないグループを割り当てることを試みる。この再編成は、少なくとも１つの時間スロットにおける分岐を減少させ、それによって、総実行時間を減少させる。

再編成ステージは、ソフトウェアによって（ランタイム若しくはオフラインコンパイラによりシェーダプログラムに挿入された命令によって）、又は、少なくとも部分的なハードウェアサポートにより実装されてもよい。一例では、シェーダプログラムは、特殊命令を実行し、特殊命令は、固定機能ハードウェアに、説明したような時間スロットに亘って実行アイテムを再編成させる。

時間スロットにおける関数が、各時間スロット内に直列に実行されるように示されているが、各関数が時間スロット毎に繰り返されることが可能であることに留意されたい。一例では、時間スロット１が関数１を実行し、次いで、時間スロット２が関数１を実行し、次いで、時間スロット１が関数２を実行し、時間スロット２が関数２を実行する、等である。本明細書の教示は、分岐する制御フローの特定のセクションの複数回の反復を実行する任意の技術に適用される。様々な例では、ランタイム又はオフラインコンパイラは、説明したような分岐する制御フローのセクションの複数回の分岐が実行されるように、シェーダプログラムを変換する。

図６Ｂは、図６Ａの再編成無しに発生する実行を示す図である。特に、３つの異なる関数を実行するレーンが各時間スロットに存在するため、各時間スロットは３倍の分岐で実行され、それは、図６Ａにおいて発生する実行と比較して低速（slow-down）である。

図７は、一例による、ＡＰＤ１１６において実行アイテムを再編成する方法７００のフローチャートである。図１～図６のシステムに関して説明するが、任意の技術的に実現可能な順序で方法７００のステップを実行するように構成された任意のシステムが、本開示の範囲内に収まることを理解されたい。

方法７００は、ステップ７０２において開始し、計算ユニット１３２は、分岐する制御フローのポイントにおいて異なる実行アイテムについての制御フローターゲットを識別する。本明細書において他に説明したように、実行アイテムを再編成する２つの技術が開示される。第１の技術では、単一のウェーブフロント内の時間スロット間で実行アイテムが再編成される。この第１の技術は、本明細書で「イントラウェーブフロント技術」と呼ばれる。第２の技術では、実行アイテムは、ウェーブグループのウェーブフロントに亘って再編成される。この第２の技術は、本明細書で「インターウェーブフロント技術」と呼ばれる。何れの技術でも、実行中のシェーダプログラムは、分岐する制御フローのポイントに到達し、分岐する制御フローのポイントは、異なる分岐ターゲットを有することに起因して（例えば、異なる条件結果に起因して、又は、可変ターゲットジャンプ命令についての異なるアドレスターゲットに起因して）シェーダプログラムの異なる部分を異なる実行アイテムが実行するポイントである。ステップ７０２において、それらの異なる分岐ターゲットは、異なる実行アイテムについて識別される。いくつかの例では、特定の実行アイテムについての分岐ターゲットは、その実行アイテムについての宛先のアドレスを含む。他の例では、分岐ターゲットは、条件付き分岐が取られるか否か（すなわち、条件が満たされるかどうか）の指標を含む。

一例では、各実行アイテムは、レイによって交差された三角形のマテリアルを識別するために、レイトレース演算を実行する。このポイントにおいて、異なる実行アイテムは、異なるマテリアルを有する異なる三角形に直面する（encounter）ため、異なるマテリアルシェーダを実行する。現在のシェーダの実行を停止し、マテリアルシェーダを起動するのではなく、適切なインライン関数にジャンプすることによって、特定のマテリアルシェーダを実行することが達成されるように、異なるマテリアルシェーダが、実行されるシェーダプログラムにインラインされることに留意されたい。言い換えると、レイトレーシングパイプラインの少なくとも一部は、レイトレーシングパイプラインの異なるステージにおいてシェーダを含む単一の「モノリシック」シェーダプログラムと共に、異なるステージ間で実行フローを制御し、異なるステージ間でデータを移動させるための命令によって実装される。

ステップ７０４において、計算ユニット１３２は、制御フローターゲットに基づいて、実行アイテムをソートする。分岐が可変ターゲットへのジャンプに基づく例では、制御フローターゲットは、ジャンプのターゲットである。分岐が条件付き分岐に基づく例では、制御フローターゲットは、条件の結果である。制御フローターゲットに基づいてソートすることは、同一の制御フローターゲットを有する実行アイテムが共にグループ化されるように実行アイテムをソートすることを含む。ソートの結果は、実行アイテムのソートされた順序を示すデータである。この例では、実行アイテム１～８が存在し、条件付き分岐を実行する。実行アイテム１、３、４、７は、分岐を取り、実行アイテム２、５、６、８は、分岐を取らない。ソートされた順序を示すデータは、実行アイテム１、３、４、７が第１のグループにあることと、実行アイテム２、５、６、８が第２のグループにあることを示す。

ステップ７０６において、計算ユニット１３２は、ソート演算に基づいて、実行アイテムを再編成する。実行アイテムが時間スロットに亘って再編成されるイントラウェーブフロント技術では、実行アイテムを再編成することは、ソートされた実行アイテムの各グループを特定の時間スロットに割り当てることを含む。上記の例では、実行アイテム１、３、４、７は、第１の時間スロットに割り当てられ、実行アイテム２、５、６、８は、第２の時間スロットに割り当てられる。本明細書において他に説明したように、時間スロットは、シェーダプログラムの直列に繰り返される部分の反復である。より具体的には、ウェーブフロント内で実行アイテムの再編成を可能にするために、シェーダプログラムの少なくともいくつかの部分は、２回または２回以上の反復において実行するように構成され、各反復は、異なる時間スロットに対応する。分岐が、特定の時間において実行されるコードの異なるセグメントの数に関連するので、複数の時間スロットを有することは、同一の制御フローターゲットを有するより多くの実行アイテムが同一の時間スロット内に実行されるように、時間スロット間での実行アイテムの再編成を可能にする。もちろん、ソートされた各グループにおける実行アイテムの数がウェーブフロントにおける実行アイテムの数と同一でない可能性がある。しかしながら、このシナリオでは、２つ以上のグループが特定の時間スロットに割り当てられる場合でも、ソートによって分岐が減少し、総実行時間が減少する。

いくつかの実施形態では、コンパイラは、シェーダプログラムへの時間スロット構築を導入する。コンパイラの一例は、例えば、ドライバ１２２の一部として実行するランタイムコンパイラである。コンパイラの別の例は、シェーダプログラムの実行をトリガするアプリケーションをコンパイルするアプリケーションコンパイラの一部として実行するオフラインコンパイラである。コンパイラは、シェーダプログラムの少なくとも一部を２つ以上の反復（時間スロットごとに１回の反復）で実行させることによって、時間スロット構造を導入する。反復毎に、異なる実行アイテムは、シェーダプログラムの一部を実行する。さらに、時間スロットの目的が、異なる制御フローパスを取る異なる実行アイテムから結果として生じる制御フロー分岐の減少を可能にすることであるので、各反復は、とり得る分岐パスの何れかを選択することが可能である（各実行アイテムがそのようなパスを１つしか取ることがでないとしても）。例えば、コードのとり得るセグメントの１つをターゲットとする可変ジャンプがあり、シェーダプログラムの所定の部分において実行されるコードの４個の異なるセグメントが存在する場合、実行アイテムは、各時間スロットで、コードのとり得るセグメントの何れかを実行する。分岐する制御フローは、依然として、所定の時間スロット内で発生することがあり、これは、分岐する制御フローについて通常であるように、異なるとり得る制御フローパスの各々を直列化するＳＩＭＤユニット１３８によって実装される。

インターウェーブフロント技術では、実行アイテムの再編成は、ウェーブフロントに亘って行われる。より具体的には、上述したデータをソートすることは、依然として、実行アイテムをグループ化するために使用される。しかしながら、単一のウェーブフロントにおいて時間スロットに亘って実行アイテムを再編成する代わりに、特定のウェーブフロントにグループが共に割り当てられる。上記の例では、各ウェーブフロントが４個のワークアイテムの幅を有する場合、実行アイテム１、３、４、７が第１のウェーブフロントに割り当てられ、実行アイテム２、５、６、８が第２のウェーブフロントに割り当てられる。イントラウェーブフロント技術と同様に、複数のグループが各ウェーブフロントに割り当てられてもよいが、それでも分岐が減少する。ステップ７０８において、シェーダプログラムは、再編成された実行アイテムにより、分岐する制御フローのポイントを過ぎて実行する。

本明細書における開示に基づいて、多数の変形が可能であることが理解されたい。特徴及び要素は、特定の組み合わせで上述されているが、各特徴又は要素は、他の特徴及び要素無し単独で使用されてもよいし、他の特徴及び要素を伴う若しくは伴わない様々な組み合わせで使用されてもよい。一例では、技術がＳＩＭＤプロセッサのコンテキストにおいて説明されているが、その技術は、複数命令多重データ（ＭＩＭＤ）プロセッサについても使用されてもよい。別の例では、ソートは、実行されるコードセクションに基づいて実行されるように記載されているが、代わりに、レーンがフェッチするテキスチャ又はレーンに関連するレイの方向等の他の基準に基づいてソートすることも可能である。そのような基準に基づいてソートすることは、何れのコードセクションがレーンによって実行されるかに基づいてソートすることに直接関連しない。しかしながら、そのようなソートは、同様の実行フローを有するレーンを共にグループ化する可能性がより高い。例えば、同様のレイ方向を有するレーンが同一の三角形にヒットし、よって、同一のマテリアルシェーダを実行する可能性がある。また、同一のテキスチャをフェッチすることが、レーンが同一のシェーダ（例えば、マテリアルシェーダ）を実行することを示すことがあるので、同一のテキスチャをフェッチするレーンが同様の命令のシーケンスを実行する可能性がある。

図に示され、本明細書で説明した様々な機能ユニット（限定されないが、プロセッサ１０２、入力ドライバ１１２、入力デバイス１０８、出力ドライバ１１４、出力デバイス１１０、アクセラレーテッド処理デバイス１１６、スケジューラ１３６、グラフィックスプロセッシングパイプライン１３４、計算ユニット１３２、ＳＩＭＤユニット１３８、レイトレーシングパイプライン３００、レイ生成シェーダ３０２、レイトレースステージ３０４、任意ヒットシェーダ３０６、ミスシェーダ３１２、又は、最近ヒットシェーダ３１０を含む）は、汎用コンピュータ、プロセッサ又はプロセッサコアとして実装されてもよいし、汎用コンピュータ、プロセッサ又はプロセッサコアによって実行可能な非一時的コンピュータ可読媒体若しくは別の媒体に記憶されたプログラム、ソフトウェア、ファームウェアとして実装されてもよい。提供する方法は、汎用コンピュータ、プロセッサ又はプロセッサコアにおいて実施されてもよい。適切なプロセッサは、例として、汎用プロセッサ、特殊目的プロセッサ、従来のプロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアに関連する１つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）回路、他のタイプの集積回路（ＩＣ）、及び／又は、状態機械を含む。このようなプロセッサは、処理されたハードウェア記述言語（ＨＤＬ）命令の結果及びネットリストを含む他の中間データを使用して製造プロセスを構成することによって製造されてもよい（このような命令は、コンピュータ可読媒体に記憶されることが可能である）。このような処理の結果は、マスクワークであってもよく、マスクワークは、半導体製造プロセスにおいて、実施形態の態様を実施するプロセッサを製造するために使用される。

本明細書で提供する方法又はフローチャートは、汎用コンピュータ又はプロセッサによる実行のために非一時的なコンピュータ可読記憶媒体に組み込まれたコンピュータプログラム、ソフトウェア、ファームウェアにおいて実装されてもよい。非一時的なコンピュータ可読記憶媒体の例は、例えばリードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスク及びリムーバブルディスク等の磁気媒体、磁気光学媒体、例えばＣＤ－ＲＯＭディスク及びデジタル多用途ディスク（ＤＶＤ）等の光学媒体を含む。

Claims

単一命令多重データプロセッサにおいて制御フローの分岐を減少させる方法であって、
分岐する制御フローのポイントにおいて、異なる実行アイテムの制御フローターゲットを識別することと、
前記実行アイテムをソートして、ソートされた実行アイテムグループを生成することと、
前記ソートされた実行アイテムグループに基づいて、前記実行アイテムを再編成することと、
前記再編成された実行アイテムを、前記分岐する制御フローのポイントの後に実行することと、を含む、
方法。
前記異なる実行アイテムの制御フローターゲットを識別することは、前記異なる実行アイテムが分岐を取るか否かを識別することを含む、
請求項１の方法。
前記異なる実行アイテムの制御フローターゲットを識別することは、ジャンプのターゲットアドレスを識別することを含む、
請求項１の方法。
前記実行アイテムをソートすることは、同一の制御フローターゲットを有する実行アイテムを前記実行アイテムグループにグループ化することを含む、
請求項１の方法。
前記再編成することは、ワークグループのウェーブフロントに亘って実行アイテムを再編成するインターウェーブフロント技術を含む、
請求項１の方法。
前記ソートに基づいて前記実行アイテムを再編成することは、実行アイテムグループを前記ワークグループの前記ウェーブフロントに割り当てることを含む、
請求項５の方法。
前記再編成することは、ウェーブフロントの時間スロットに亘って実行アイテムを再編成するイントラウェーブフロント技術を含む、
請求項１の方法。
前記ソートに基づいて前記実行アイテムを再編成することは、実行アイテムグループを前記ウェーブフロントの前記時間スロットに割り当てることを含む、
請求項７の方法。
コンパイラが、前記ソートすることと前記再編成することとを実施する命令をシェーダプログラムに追加することを更に含む、
請求項１の方法。
単一命令多重データ（ＳＩＭＤ）プロセッサにおいて制御フローの分岐を減少させるデバイスであって、
シェーダプログラムを記憶するように構成されたメモリと、
複数の実行アイテムで前記シェーダプログラムを実行するように構成されたＳＩＭＤプロセッサと、を備え、
前記ＳＩＭＤプロセッサは、
分岐する制御フローのポイントにおいて、前記複数の実行アイテムの異なる実行アイテムの制御フローターゲットを識別することと、
前記実行アイテムをソートして、ソートされた実行アイテムグループを生成することと、
前記ソートされた実行アイテムグループに基づいて、前記実行アイテムを再編成することと、
前記再編成された実行アイテムを、前記分岐する制御フローのポイントの後に実行することと、
を行うように構成されている、
デバイス。
前記異なる実行アイテムの制御フローターゲットを識別することは、前記異なる実行アイテムが分岐を取るか否かを識別することを含む、
請求項１０のデバイス。
前記異なる実行アイテムの制御フローターゲットを識別することは、ジャンプのターゲットアドレスを識別することを含む、
請求項１０のデバイス。
前記実行アイテムをソートすることは、前記同一の制御フローターゲットを有する実行アイテムを前記実行アイテムグループにグループ化することを含む、
請求項１０のデバイス。
前記再編成することは、ワークグループのウェーブフロントに亘って実行アイテムを再編成するインターウェーブフロント技術を含む、
請求項１０のデバイス。
前記ソートに基づいて前記実行アイテムを再編成することは、実行アイテムグループを前記ワークグループの前記ウェーブフロントに割り当てることを含む、
請求項１４のデバイス。
前記再編成することは、ウェーブフロントの時間スロットに亘って実行アイテムを再編成するイントラウェーブフロント技術を含む、
請求項１０のデバイス。
前記ソートに基づいて前記実行アイテムを再編成することは、前記ウェーブフロントの前記時間スロットに実行アイテムグループを割り当てることを含む、請求項１６に記載のデバイス。
命令を記憶するコンピュータ可読記憶媒体であって、
前記命令は、プロセッサによって実行されると、
分岐する制御フローのポイントにおいて、異なる実行アイテムの制御フローターゲットを識別することと、
前記実行アイテムをソートして、ソートされた実行アイテムグループを生成することと、
前記ソートされた実行アイテムグループに基づいて、前記実行アイテムを再編成することと、
前記再編成された実行アイテムを、前記分岐する制御フローのポイントの後に実行することと、
によって、単一命令多重データ（ＳＩＭＤ）プロセッサにおいて制御フローの分岐を減少させることを前記プロセッサに行わせる、
コンピュータ可読記憶媒体。
前記異なる実行アイテムの制御フローターゲットを識別することは、前記異なる実行アイテムが分岐を取るか否かを識別することを含む、
請求項１８のコンピュータ可読記憶媒体。
前記異なる実行アイテムの制御フローターゲットを識別することは、ジャンプのターゲットアドレスを識別することを含む、
請求項１８のコンピュータ可読記憶媒体。