JP2023542935A

JP2023542935A - 早期解放を伴うレジスタ圧縮

Info

Publication number: JP2023542935A
Application number: JP2023518224A
Authority: JP
Inventors: ディー．エンバーリンブライアン; リーグレイトハウスジョセフ; トーマスグティエレスアンソニー
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2020-09-24
Filing date: 2021-09-23
Publication date: 2023-10-12
Also published as: WO2022066954A1; US20220092725A1; CN116324717A; EP4217853A1; KR20230070462A

Abstract

早期解放を伴うレジスタ圧縮を実装するためのシステム、装置及び方法が開示される。プロセッサは、少なくともコマンドプロセッサと、複数の計算ユニットと、複数のレジスタと、制御ユニットと、を含む。レジスタは、ウェーブフロントが計算ユニット上のコマンドプロセッサによって開始される場合に、制御ユニットによってウェーブフロントに静的に割り振られる。第１のウェーブフロントに以前に割り振られた第１のセットのレジスタがもはや必要でないと判定したことに応じて、第１のウェーブフロントは、レジスタの第１のセットを解放するための命令を実行する。制御ユニットは、実行された命令を検出し、第１のセットのレジスタを、他のウェーブフロントによって潜在的に使用されるためにレジスタの利用可能なプールに解放する。次いで、制御ユニットは、第１のウェーブフロントが依然としてアクティブである間に、第２のウェーブフロントのスレッドによる使用のためにレジスタの第１のセットを第２のウェーブフロントに割り振ることができる。【選択図】図８

Description

（関連技術の説明）
グラフィックス処理ユニット（Graphics Processing Unit、ＧＰＵ）及び他のマルチスレッド処理ユニットは、通常、複数のデータセットに対して単一のプログラムの複数のインスタンスを同時に実行する複数の処理要素（プロセッサコア又は計算ユニットとも呼ばれる）を含む。インスタンスは、スレッド、ウェーブ又はウェーブフロントと呼ばれる。いくつかのウェーブが作成（又は生成）され、次いで、マルチスレッド処理ユニット内の各処理要素にディスパッチされる。処理ユニットは、何千ものスレッドが処理ユニット内のプログラムを同時に実行するように、何百もの処理要素を含むことができる。マルチスレッドＧＰＵでは、スレッドがカーネルの異なるインスタンスを実行して、同時に又は並列に計算を実行する。マルチスレッド処理ユニット内で同時に実行されているスレッドは、処理ユニットのリソースの一部を共有する。共有リソースは、スレッドの状態情報を記憶するベクトル汎用レジスタ（vector general-purpose register、ＶＧＰＲ）、スレッドのデータを記憶するために使用されるローカルデータシェア（local data share、ＬＤＳ）、ローカルキャッシュ階層とメモリとの間で情報を移動させるために利用可能な帯域幅等を含む。

スレッドに割り振られるレジスタの数は、通常、開始時に決定される。例えば、スレッドに割り振られるレジスタの数は、対応するカーネルのメタデータに含めることができる。スレッドによって必要とされるレジスタの数は、コンパイラによって、プログラマによって、実行時に又は他の方法で決定され得る。いくつかのレジスタをスレッドに静的に割り振ることに伴う問題は、利用可能なレジスタの数が限られており、スレッドがこの限られた数のレジスタをめぐって互いに競合することである。代替的に、スレッドは、割り振られたよりも少ないレジスタを使用してしまうことがある。そのような場合、他のスレッドによって使用されてしまう場合があるレジスタリソースは使用されないままになる。

本明細書に記載の方法及びメカニズムの利点は、添付の図面と併せて以下の説明を参照することによってよりよく理解され得る。

コンピューティングシステムの一実施形態のブロック図である。コンピューティングシステムの別の実施形態のブロック図である。グラフィックス処理ユニット（ＧＰＵ）の一実施形態のブロック図である。ＳＭＩＤユニット上で実行しているウェーブフロントの一実施形態のブロック図である。ＳＩＭＤユニット上で実行しているウェーブフロントの一実施形態のブロック図である。ウェーブフロントによるレジスタの早期解放を実行するための方法の一実施形態を示す一般化されたフロー図である。メモリからの肯定応答を待つ間にレジスタを解放するための方法の一実施形態を示す一般化されたフロー図である。早期レジスタ解放中にレジスタ圧縮を実行するための方法の一実施形態を示す一般化されたフロー図である。

以下の説明では、本明細書に提示される方法及びメカニズムの十分な理解を提供するために、多数の具体的な詳細が記載されている。しかしながら、当業者は、これらの具体的な詳細なしに様々な実施形態が実施され得ることを認識すべきである。いくつかの例では、本明細書に記載のアプローチを不明瞭にすることを避けるために、周知の構造、構成要素、信号、コンピュータプログラム命令及び手法が詳細に示されていない。説明を簡単且つ明確にするために、図に示される要素は必ずしも縮尺どおりに描かれているわけではないことが理解されよう。例えば、いくつかの要素の寸法は、他の要素に対して誇張されている場合がある。

早期解放を伴うレジスタ圧縮を実装するための様々なシステム、装置及び方法が本明細書で開示される。一実施形態では、プロセッサは、少なくとも、コマンドプロセッサと、複数の計算ユニットと、複数のレジスタと、制御ユニットと、を含む。レジスタは、ウェーブフロントが計算ユニット上のコマンドプロセッサによって開始される場合に、制御ユニットによってウェーブフロントに静的に割り振られる。第１のウェーブフロントに以前に割り振られた第１のセットのレジスタがもはや必要でないと判定したことに応じて、第１のウェーブフロントは、命令を実行するか、又は、第１のセットのレジスタを解放することができるというメッセージを制御ユニットに送信する。制御ユニットはメッセージを受信し、第１のセットのレジスタをレジスタの利用可能なプールに解放して、他のウェーブフロントによって潜在的に使用されるようにする。例えば、制御ユニットは、第１のウェーブフロントが依然としてアクティブである間に、第２のウェーブフロントのスレッドによる使用のために第１のセットのレジスタを第２のウェーブフロントに割り振ることができる。

図１を参照すると、コンピューティングシステム１００の一実施形態のブロック図が示されている。一実施形態では、コンピューティングシステム１００は、少なくともプロセッサ１０５Ａ～１０５Ｎと、入力／出力（input/output、Ｉ／Ｏ）インターフェース１２０と、バス１２５と、メモリコントローラ１３０と、ネットワークインターフェース１３５と、メモリデバイス１４０と、表示コントローラ１５０と、ディスプレイ１５５と、を含む。他の実施形態では、コンピューティングシステム１００は、他の構成要素を含み、及び／又は、コンピューティングシステム１００は、別の態様で構成される。プロセッサ１０５Ａ～１０５Ｎは、システム１００に含まれる任意の数のプロセッサを表す。

一実施形態では、プロセッサ１０５Ａは、中央処理ユニット（central processing unit、ＣＰＵ）等の汎用プロセッサである。この実施形態では、プロセッサ１０５Ａは、システム１００内の他のプロセッサと通信するため、及び／又は、それらのプロセッサのうち１つ以上の演算を制御するためのドライバ１１０（例えば、グラフィックドライバ）を実行する。実施形態に応じて、ドライバ１１０は、ハードウェア、ソフトウェア及び／又はファームウェアの任意の好適な組み合わせを使用して実装することができることに留意されたい。一実施形態では、プロセッサ１０５Ｎは、高度に並列アーキテクチャを有するデータ並列プロセッサである。データ並列プロセッサは、グラフィックス処理ユニット（ＧＰＵ）、デジタル信号プロセッサ（digital signal processor、ＤＳＰ）、フィールドプログラマブルゲートアレイ（field programmable gate array、ＦＰＧＡ）、特定用途向け集積回路（application specific integrated circuit、ＡＳＩＣ）等を含む。いくつかの実施形態では、プロセッサ１０５Ａ～１０５Ｎは、複数のデータ並列プロセッサを含む。一実施形態では、プロセッサ１０５Ｎは、ディスプレイ１５５に送られるように表示コントローラ１５０にピクセルを提供するＧＰＵである。

メモリコントローラ１３０は、プロセッサ１０５Ａ～１０５Ｎによってアクセス可能な任意の数及びタイプのメモリコントローラを表す。メモリコントローラ１３０は、プロセッサ１０５Ａ～１０５Ｎから分離されているものとして示されているが、これは単に１つの可能な実施形態を表すことを理解されたい。他の実施形態では、メモリコントローラ１３０は、プロセッサ１０５Ａ～１０５Ｎのうち１つ以上の内部に埋め込むことができ、及び／又は、メモリコントローラ１３０は、プロセッサ１０５Ａ～１０５Ｎのうち１つ以上と同じ半導体ダイ上に位置することができる。メモリコントローラ１３０は、任意の数及びタイプのメモリデバイス１４０に結合される。メモリデバイス１４０は、任意の数及びタイプのメモリデバイスを表す。例えば、メモリデバイス１４０内のメモリのタイプは、ダイナミックランダムアクセスメモリ（Dynamic Random Access Memory、ＤＲＡＭ）、スタティックランダムアクセスメモリ（Static Random Access Memory、ＳＲＡＭ）、ＮＡＮＤフラッシュメモリ、ＮＯＲフラッシュメモリ、強誘電体ランダムアクセスメモリ（Ferroelectric Random Access Memory、ＦｅＲＡＭ）等を含む。

Ｉ／Ｏインターフェース１２０は、任意の数及びタイプのＩ／Ｏインターフェース（例えば、ペリフェラルコンポーネントインターコネクト（peripheral component interconnect、ＰＣＩ）バス、ＰＣＩ拡張（ＰＣＩ－Ｘ）、ＰＣＩＥ（ＰＣＩＥｘｐｒｅｓｓ）（ＰＣＩエクスプレス）バス、ギガビットイーサネット（登録商標）（gigabit Ethernet、ＧＢＥ）バス、ユニバーサルシリアルバス（universal serial bus、ＵＳＢ））を表す。様々なタイプの周辺デバイス（図示省略）が、Ｉ／Ｏインターフェース１２０に結合される。そのような周辺デバイスには、ディスプレイ、キーボード、マウス、プリンタ、スキャナ、ジョイスティック、他のタイプのゲームコントローラ、メディア記録デバイス、外部記憶デバイス、ネットワークインターフェースカード等が含まれるが、これらに限定されない。ネットワークインターフェース１３５は、ネットワークを介してネットワークメッセージを受信及び送信することができる。

様々な実施形態において、コンピューティングシステム１００は、コンピュータ、ラップトップ、モバイルデバイス、ゲームコンソール、サーバ、ストリーミングデバイス、ウェアラブルデバイス、又は、様々な他のタイプのコンピューティングシステム又はデバイスのうち何れかである。コンピューティングシステム１００の構成要素の数は、実施形態ごとに変化することに留意されたい。例えば、他の実施形態では、図１に示される数よりも多い又は少ない各構成要素が存在する。また、他の実施形態では、コンピューティングシステム１００は、図１に示されていない他の構成要素を含むことにも留意されたい。加えて、他の実施形態では、コンピューティングシステム１００は、図１に示される以外の方法で構成される。

図２を参照すると、コンピューティングシステム２００の別の実施形態のブロック図が示されている。一実施形態では、システム２００は、ＧＰＵ２０５と、システムメモリ２２５と、ローカルメモリ２３０と、を含む。また、システム２００は、図を不明瞭にすることを避けるために示されていない他の構成要素を含み得る。ＧＰＵ２０５は、少なくとも、コマンドプロセッサ２３５と、制御ロジック２４０と、ディスパッチユニット２５０と、計算ユニット２５５Ａ～２５５Ｎと、メモリコントローラ２２０と、グローバルデータシェア２７０と、レベル１（Ｌ１）キャッシュ２６５と、レベル２（Ｌ２）キャッシュ２６０と、を含む。他の実施形態では、ＧＰＵ２０５は、他の構成要素を含み、図示された構成要素のうち１つ以上を省略し、図２に１つのインスタンスのみが示されている場合であっても構成要素の複数のインスタンスを有し、及び／又は、他の適切な方法で編成される。一実施形態では、ＧＰＵ２０５の回路は、（図１の）プロセッサ１０５Ｎに含まれる。

様々な実施形態において、コンピューティングシステム２００は、様々なタイプのソフトウェアアプリケーションのうち何れかを実行する。所定のソフトウェアアプリケーションを実行することの一部として、コンピューティングシステム２００のホストＣＰＵ（図示省略）は、ＧＰＵ２０５上で実行される作業を開始する。一実施形態では、コマンドプロセッサ２３５は、ホストＣＰＵからカーネルを受信し、コマンドプロセッサ２３５は、ディスパッチユニット２５０を使用して、対応するウェーブフロントを計算ユニット２５５Ａ～２５５Ｎに発行する。通常、計算ユニット２５５Ａのベクトル汎用レジスタ（ＶＧＰＲ）２５６等のレジスタは、計算ユニット２５５Ａ～２５５Ｎ上で実行されるウェーブフロントに静的に割り振られる。しかしながら、いくつかのウェーブフロントは、それらのレジスタの全てを使用しない場合があり、一方で、他のウェーブフロントは、それらのレジスタを完全に利用し、より多くのレジスタが利用可能になるのを待っている。このシナリオを緩和するために、アクティブなウェーブフロントは、それらのレジスタの一部又は全部を、他のウェーブフロントに再割り振りされることになる未使用プールに解放する命令を実行することができる。これにより、計算ユニット２５５ＢのＶＧＰＲ２５６、ＶＧＰＲ２５７及び計算ユニット２５５ＮのＶＧＰＲ２５８が、計算ユニット２５５Ａ～２５５Ｎによって実行されている様々なウェーブフロントによって、より効率的に使用されることが可能になる。ＶＧＰＲ２５６～２５８は、任意の数のＶＧＰＲを表すことに留意されたい。

図３を参照すると、グラフィックス処理ユニット（ＧＰＵ）３００の一実施形態のブロック図が示されている。一実施形態では、ＧＰＵ３００は、少なくともＳＩＭＤ３１０Ａ～３１０Ｎと、スケジューラユニット３４５と、命令バッファ３５５と、制御ユニット３６０と、を含む。ＧＰＵ３００は、図を不明瞭にすることを避けるために図３に示されていない他のロジックを含み得ることに留意されたい。他のプロセッサ（例えば、ＦＰＧＡ、ＡＳＩＣ、ＤＳＰ）が、ＧＰＵ３００に示される回路を含み得ることにも留意されたい。

一実施形態では、ＧＰＵ３００は、任意の数のウェーブフロント上でカーネルの命令を実行する。これらの命令は、命令バッファ３５５に記憶され、スケジューラユニット３４５によってＳＩＭＤ３１０Ａ～３１０Ｎ上での実行のためにスケジュールされる。一実施形態では、各ウェーブフロントは、ＳＩＭＤ３１０Ａ～３１０Ｎ内のレーン３１５Ａ～３１５Ｎ、３２０Ａ～３２０Ｎ、３２５Ａ～３２５Ｎ上で実行されるいくつかのワークアイテムを含む。ＳＩＭＤ３１０Ａ～３１０Ｎの各レーン３１５Ａ～３１５Ｎ、３２０Ａ～３２０Ｎ及び３２５Ａ～３２５Ｎは、「実行ユニット」とも呼ばれ得る。

一実施形態では、ＧＰＵ３００は、いくつかのワークアイテムを有するウェーブフロントのための複数の命令を受信する。ワークアイテムがＳＩＭＤ３１０Ａ～３１０Ｎ上で実行される場合、各ワークアイテムには、ベクトル汎用レジスタ（ＶＧＰＲ）３３０Ａ～３３０Ｎの対応する部分が割り当てられる。ワークアイテムが、ワークアイテムに割り当てられたいくつかのＶＧＰＲ３３０Ａ～３３０Ｎを解放することができる場合、ワークアイテムは、そのいくつかのＶＧＰＲを解放する命令を実行する。一実施形態では、制御ユニット３６０は、命令が実行されたという指標を受信し、制御ユニット３６０は、指標の受信に応じて、これらの解放されたＶＧＰＲを１つ以上のワークアイテムに再割り当てする。これにより、ＶＧＰＲを解放したワークアイテムが依然としてアクティブである間に、他のワークアイテムがこれらのＶＧＰＲを使用することが可能になる。制御ユニット３６０は、ＳＩＭＤ３１０Ａ～３１０Ｎの外部にあるものとして示されているが、これは単一の実施形態のみを表すことを理解されたい。他の実施形態では、制御ユニット３６０を他の場所に位置することができ、及び／又は、制御ユニット３６０を複数の異なる制御ユニットに分割することができる。例えば、別の実施形態では、別の制御ユニット３６０が各ＳＩＭＤ３１０Ａ～３１０Ｎ内に位置する。

文字「Ｎ」は、本明細書において様々な構造の隣に表示される場合、その構造についての任意の数の要素（例えば、任意の数のＳＩＭＤ３１０Ａ～３１０Ｎ）を概して示すことを意味することに留意されたい。加えて、文字「Ｎ」を使用する図３内の異なる参照（例えば、ＳＩＭＤ３１０Ａ～３１０Ｎ及びレーン３１５Ａ～３１５Ｎ）は、等しい数の異なる要素が提供されることを示すように意図されていない（例えば、ＳＩＭＤ３１０Ａ～３１０Ｎの数は、レーン３１５Ａ～３１５Ｎの数と異なり得る）。

図４を参照すると、ＳＩＭＤユニット４００Ａ上で実行しているウェーブフロント４２５Ａ～４２５Ｂの一実施形態のブロック図が示されている。一実施形態では、ＳＩＭＤユニット４００Ａは、任意の数のＳＩＭＤユニットと共に計算ユニット（例えば、図２の計算ユニット２５５Ａ～２５５Ｎ）内に含まれる。図４に示すように、ＳＩＭＤユニット４００Ａは、ウェーブフロント４２５Ａ～４２５Ｂを実行している実行レーン４２０Ａ～４２０Ｂを含む。２つの実行レーン４２０Ａ～４２０ＢのみがＳＩＭＤユニット４００Ａに示されているが、これは単に例示の目的で示されていることを理解されたい。実行レーン４２０Ａ～４２０Ｂは、任意の数のレーンを表す。また、図４には１６個のＶＧＰＲ４４０～４５５が示されているが、他の実施形態は、１６以外の数のＶＧＰＲを含み得ることを理解されたい。

一実施形態では、ＶＧＰＲ４４０～４４７は、ウェーブフロント４２５Ａが開始される場合にウェーブフロント４２５Ａに割り振られ、ＶＧＰＲ４４８～４５５は、ウェーブフロント４２５Ｂが開始される場合にウェーブフロント４２５Ｂに割り振られる。一実施形態では、制御ユニット４３０は、ＶＧＰＲへのアクセスを制御し、各ウェーブフロント４２５Ａ～４２５Ｂがそのウェーブフロントに割り当てられたレジスタのみにアクセスすることを保証する。しかしながら、様々な実施形態では、１つのＶＧＰＲは、それに割り振られたレジスタの総数よりも少ない数を使用することがあり、別のウェーブフロントは、それに割り振られたレジスタの全てを使用し、追加のレジスタを使用できないことに起因して非効率的に動作することがある。そのような場合がウェーブフロント４２５Ａ～４２５Ｂに関して図４に示されている。

図４に示すように、ＶＧＰＲ４４０～４４３はウェーブフロント４２５Ａによってアクティブ（すなわち、使用中）であるが、ＶＰＧＲ４４４～４４７は非アクティブである（すなわち、使用されていない）。これは、ＶＧＰＲ４４０～４４３にわたって破線によって示され、ＶＰＧＲ４４４～４４７は、クリアな背景を有する。ＶＧＰＲ凡例（VGPR legend）４６０は、図４に示された実施形態に対するＶＧＰＲの異なる陰影付けの意味を示す。一実施形態では、レジスタのブロックが未使用であることをウェーブフロント４２５Ａが検出すると、ウェーブフロント４２５Ａは命令を実行し、このレジスタのブロックが解放されていて、別のウェーブフロントに再割り振りすることができることを制御ユニット４３０に通知する。図４に示す例では、未使用レジスタのこのブロックは、ＶＰＧＲ４４４～４４７を含む。別の実施形態では、レジスタ４４４～４４７のブロックが未使用であることを検出したことに応じて、ウェーブフロント４２５Ａは、制御ユニット４３０に通知するために制御ユニット４３０にメッセージを送信する。レジスタ４４４～４４７のブロックが未使用であることを検出することは、コンパイラ、プログラマによって、又は、ウェーブフロント４２５Ａ、制御ユニット４３０若しくは他の回路によってリアルタイムで実行することができる。例えば、デッドレジスタを識別するためのライブネス分析（liveness analysis）又は他の方法等のコンパイル技術が、レジスタ値がもはや必要とされず、レジスタが解放され得るときを判定するために使用されてもよい。いくつかの実施形態では、このコンパイルは、実行時にカーネル上で実行される。そのような場合、コンパイラは、レジスタ（又は複数のレジスタ）が必要又は所望に応じて解放され、再割り振りされ得ることを示す命令を挿入する。他の実施形態では、これらのコンパイル技術は、異なる時間に実行される。いくつかの実施形態では、コンパイラは、処理中により早くデッド状態になったものとして識別されたレジスタが割り振り範囲においてより早く配置されるようにコードをコンパイルする。このようにして、レジスタの範囲がより早く解放に利用可能になる確率が増加する。これら及び他の技術が既知であり、企図される。

制御ユニット４３０が、レジスタ４４４～４４７のブロックが未使用であるという通知を受信すると、制御ユニット４３０は、レジスタ４４４～４４７のこのブロックがもはやウェーブフロント４２５Ａに割り当てられていないことを示すようにレジスタ割り振りマッピングテーブル４３５を更新する。更に、制御ユニット４３０は、レジスタ４４４～４４７のこのブロックを別のウェーブフロントに割り当てることができる。図４に示す例では、ウェーブフロント４２５Ｂに割り振られたレジスタの全てがアクティブである。ウェーブフロント４２５Ｂに割り振られたレジスタの全てがアクティブであることを検出すること、又は、このシナリオの指標若しくは通知を受信することに応じて、一実施形態では、制御ユニット４３０は、ＶＰＧＲ４４４～４４７をウェーブフロント４２５Ｂに再割り当てする。

図５を参照すると、ＳＩＭＤユニット４００Ｂ上で実行しているウェーブフロント４２５Ａ～４２５Ｂの一実施形態のブロック図が示されている。図５の説明は、図４の説明の続きであることを意図している。したがって、ＳＩＭＤユニット４００Ｂは、ウェーブフロント４２５Ａがアクティブのままである間にＶＧＰＲ４４４～４４７がウェーブフロント４２５Ａからウェーブフロント４２５Ｂに再割り当てされた後の時点における（図４の）ＳＩＭＤユニット４００Ａを表すことが意図されている。また、図５に示す時点では、ＶＧＰＲ４４４～４４７は、ウェーブフロント４２５Ｂによって現在使用されている。これは、ＶＧＰＲ４４４～４４７を表すブロックの背景に破線で示されている。

図６を参照すると、ウェーブフロントによってレジスタの早期解放を実行するための方法６００の一実施形態が示されている。説明のために、この実施形態におけるステップ及び図７のステップが順番に示されている。しかしながら、記載された方法の様々な実施形態において、記載された要素のうち１つ以上が、図示したものとは異なる順序で同時に実行されてもよいし、完全に省略されてもよいことに留意されたい。必要に応じて、他の追加の要素も実行される。本明細書に記載の様々なシステム又は装置の何れも、方法６００を実装するように構成されている。

プロセッサは、第１のウェーブフロントが依然としてアクティブである（すなわち、命令を実行している）間に、第１のウェーブフロントの第１のセットのレジスタ（例えば、ＶＧＰＲ）を解放するための条件を検出する（ブロック６０５）。一実施形態では、第１のセットのレジスタを解放するための条件は、終了を完了する前に、第１のウェーブフロントがメモリからの肯定応答（ａｃｋ）を待つことである。別の実施形態では、第１のセットのレジスタを解放するための条件は、第１のウェーブフロントがその割り当てられたレジスタの一部分のみを使用することである。他の実施形態では、第１のセットのレジスタを解放するための他の条件が検出され得る。一実施形態では、第１のセットのレジスタは、第１のウェーブフロントに割り振られたレジスタの全体である。別の実施形態では、第１のセットのレジスタは、第１のウェーブフロントに割り振られたレジスタの一部である。

条件を検出することに応じて、計算ユニットは、第１のウェーブフロントが第１のセットのレジスタを解放してレジスタの未使用プールに戻すというメッセージを制御ユニットに送信する（ブロック６１０）。次いで、制御ユニットは、解放された第１のセットのレジスタを、他のウェーブフロントに利用可能であるものとしてマークする（ブロック６１５）。それに応じて、１つ以上の他のウェーブフロントは、第１のウェーブフロントが依然としてアクティブである間に、解放された第１のセットのレジスタを使用することができる（ブロック６２０）。ブロック６２０の後、方法６００は終了する。

図７を参照すると、メモリからの肯定応答を待っている間にレジスタを解放するための方法７００の一実施形態が示されている。ウェーブフロントは、１つ以上のメモリ書き込み動作を実行する（ブロック７０５）。実施形態に応じて、ウェーブフロントは、１～Ｎの任意の数のスレッドを含み、ここで、Ｎは、１より大きい正の整数である。次に、ウェーブフロントは、メモリ書き込み動作に関するメモリからの肯定応答（又は、略してａｃｋ）を受信するのを待つ（ブロック７１０）。ａｃｋを待っている間に、ウェーブフロントは、メモリからの肯定応答を待つ以外の命令が更にあるかどうかを判定する（条件ブロック７１５）。

メモリからの肯定応答を待つ以外に、ウェーブフロントの命令がそれ以上ない場合（条件ブロック７１５、「いいえ」）、ウェーブフロントは、ＶＧＰＲ割り振り解除メッセージを制御ユニットに送信する（ブロック７２０）。一実施形態では、ＶＧＰＲ割り振り解除メッセージは、コンパイラによってウェーブフロント命令に挿入される。別の実施形態では、ＶＧＰＲ割り振り解除メッセージは、プログラマによって追加される。一実施形態では、ＶＧＰＲ割り振り解除メッセージは、全てのＶＧＰＲが割り振り解除されるべきであることを指定する。別の実施形態では、ＶＧＰＲ割り振り解除メッセージは、割り振り解除されるべきＶＧＰＲの１つ以上又はその範囲の識別情報を含む。例えば、この実施形態では、メッセージは、第１のレジスタ、オフセット及び／又は範囲の識別を含む。他の実施形態では、他のパラメータが、ＶＧＰＲ割り振り解除メッセージ内に含まれ得る。

ＶＧＰＲ割り振り解除メッセージの受信に応じて、制御ユニットは、ＶＧＰＲを１つ以上の他のウェーブフロントに再割り当てする（ブロック７２５）。ブロック７２５の後、方法７００は終了する。そうではなく、実行されるべきウェーブフロントの後続の命令がまだある場合（条件ブロック７１５、「はい」）、ウェーブフロントは、ＶＧＰＲ割り振り解除メッセージを送信することなく実行を継続する（ブロック７３０）。ブロック７３０の後、方法７００は終了する。

図８を参照すると、早期レジスタ解放中にレジスタ圧縮を実行するための方法８００の一実施形態が示されている。プロセッサは、スレッドがレジスタの一部の早期解放を開始するための条件が満たされたかどうかを判定する（ブロック８０５）。１つ以上の条件は、閾値数を超える非アクティブなレジスタを有すること、メモリからの肯定応答（ａｃｋ）を待つこと、スレッドが特定の実行段階に達すること等を含むことができる。非アクティブなレジスタは、スレッドに割り振られているが、スレッドによって使用される値を記憶するために使用されていないレジスタを指す。この説明の目的で、レジスタの一部の早期解放を実行するための条件が満たされたと仮定する。

レジスタの一部の早期解放を実行するための条件が満たされたと判定したことに応じて、プロセッサは、スレッドのアクティブなレジスタを連続ブロックに圧縮することができるかどうかを判定する（ブロック８１０）。例えば、スレッドにレジスタ０～６３が割り振られており、ほとんどのアクティブなレジスタがレジスタ０～３１の範囲内にあるが、３２～６３の範囲内では少数のレジスタのみがアクティブである場合、これは、隣接するブロックが解放されて他のスレッドのためにレジスタプールに戻され得るように、レジスタが互いにより近くに移動され得ることを示す。

アクティブなレジスタを連続ブロックに圧縮することができる場合（条件ブロック８１５、「はい」）、スレッドは、１つ以上の移動命令を実行して、レジスタ範囲の比較的低い占有エリア内のアクティブなレジスタからレジスタ範囲の比較的高い占有エリア内のレジスタにデータ値を移動させる（ブロック８２０）。一実施形態では、アクティブ値は、レジスタ範囲の上位部分（例えば、上半分）内のレジスタからレジスタ範囲の下位部分（例えば、下半分）内のレジスタに移動される。別の実施形態では、アクティブ値は、レジスタ範囲の下位部分のレジスタからレジスタ範囲の上位部分のレジスタに移動される。

実施形態に応じて、条件ブロック８１５及びブロック８２０を実行する異なる方法を採用することができる。一実施形態では、コンパイラが、これらのステップを実行するために命令をスレッドのコードに挿入する。この実施形態では、コンパイラは、早期解放を実行するための条件を検出し、アクティブなレジスタが圧縮される必要があるかどうかを判定し、レジスタ圧縮を達成するためにレジスタを移動させるための移動命令を挿入する。別の実施形態では、プログラマが、ブロック８１５及び８２０を実行するための命令をスレッドのコードに挿入する。更なる実施形態では、ハードウェア内の回路がブロック８１５及び８２０を実行する。例えば、一実施形態では、スレッドのためのレジスタウィンドウは、レジスタ範囲の比較的高い占有エリアのみをカバーするように縮小される。この実施形態では、スレッドのためのレジスタウィンドウは、レジスタ範囲の比較的低い占有エリアをもはやカバーしないように縮小される。これにより、レジスタ範囲のこの比較的低い占有エリア内のレジスタへの今後のアクセスをメモリに向かわせる。例えば、一実施形態では、スレッドのレジスタウィンドウは、レジスタ０～１２７をカバーすることからレジスタ０～６３のみをカバーすることに縮小される。また、条件ブロック８１５及びブロック８２０を実行するこれらの方法の任意の組み合わせを、単一の実施形態で使用することができる。また、条件ブロック８１５及びブロック８２０を実行する他の方法も可能であり、企図される。

ブロック８２０の後、スレッドは、レジスタ範囲の部分を解放してレジスタの未使用プールに戻す命令を実行する（ブロック８２５）。代替的に、ブロック８２５において、スレッドは、レジスタ範囲の部分を解放してレジスタの未使用プールに戻すために、メッセージを送信するか又は信号をアクティブにする。ブロック８２５の後、方法８００は終了する。アクティブなレジスタを連続ブロックに圧縮することができない場合（条件ブロック８１５、「いいえ」）、スレッドは、複数の命令を実行して、レジスタ範囲の異なる部分を解放してレジスタの未使用プールに戻す（ブロック８３０）。代替的に、スレッドは、ブロック８３０において、レジスタ範囲の最大未使用部分を解放してレジスタの未使用プールに戻すために単一の命令を実行することができる。ブロック８３０の後、方法８００は終了する。

様々な実施形態では、ソフトウェアアプリケーションのプログラム命令を使用して、本明細書に記載の方法及び／又はメカニズムを実装する。例えば、汎用又は専用プロセッサによって実行可能なプログラム命令が企図される。様々な実施形態では、そのようなプログラム命令は、高レベルプログラミング言語によって表される。他の実施形態では、プログラム命令は、高レベルプログラミング言語からバイナリ、中間又は他の形式にコンパイルされる。あるいは、ハードウェアの挙動又は設計を説明するプログラム命令が書かれる。そのようなプログラム命令は、Ｃ等の高レベルプログラミング言語によって表される。あるいは、Ｖｅｒｉｌｏｇ等のハードウェア設計言語（hardware design language、ＨＤＬ）が使用される。様々な実施形態では、プログラム命令は、様々な非一時的なコンピュータ可読記憶媒体の何れかに記憶される。記憶媒体は、プログラム実行のためにプログラム命令をコンピューティングシステムに提供するために、使用中にコンピューティングシステムによってアクセス可能である。一般的に言えば、そのようなコンピューティングシステムは、少なくとも１つ以上のメモリと、プログラム命令を実行するように構成された１つ以上のプロセッサと、を含む。

上記の実施形態は、実施形態の非限定的な例にすぎないことを強調しておきたい。上記の開示が十分に理解されると、多数の変形及び修正が当業者に明らかになるであろう。以下の特許請求の範囲は、全てのそのような変形及び修正を包含すると解釈されることが意図されている。

Claims

プロセッサであって、
複数のレジスタと、
制御ユニットと、を備え、
前記制御ユニットは、
複数の計算ユニットのうち第１の計算ユニット上で開始されている第１のウェーブフロントにレジスタの第１のセットを割り当てることと、
前記第１の計算ユニット上で開始されている第２のウェーブフロントにレジスタの第２のセットを割り当てることと、
前記第１のウェーブフロントの１つ以上のスレッドがアクティブのままである間に第１の条件を検出したことに応じて、前記レジスタの第１のセットのうち１つ以上のレジスタを前記第１のウェーブフロントから前記第２のウェーブフロントに再割り当てすることであって、前記第２のウェーブフロントは、前記１つ以上のレジスタが再割り当てされた後に、前記レジスタの第１のセットのうち前記１つ以上のレジスタにデータを記憶する、ことと、
を行うように構成されている、
プロセッサ。
前記第１の条件は、前記第１の計算ユニットが前記１つ以上のレジスタを解放するための前記第１のウェーブフロントの命令を実行することである、
請求項１のプロセッサ。
前記第１の計算ユニットは、前記レジスタの第１のセットの全てを解放するための命令を実行するように構成されている、
請求項２のプロセッサ。
前記第１のウェーブフロントは、前記第１の計算ユニットが前記命令を実行した後もアクティブなままである、
請求項３のプロセッサ。
前記第１の条件は、前記第１の計算ユニットが前記１つ以上のレジスタを解放するために前記制御ユニットにメッセージを送信することである、
請求項１のプロセッサ。
前記メッセージは、前記第１のウェーブフロントのレジスタベースアドレス、サイズ及び識別子（ＩＤ）を含む、
請求項５のプロセッサ。
前記第１の計算ユニットが、所定のレジスタを解放した後に前記所定のレジスタにアクセスするための前記第１のウェーブフロントの命令を実行する場合に、前記制御ユニットは、前記所定のレジスタへのアクセスをブロックするように構成されている、
請求項１のプロセッサ。
方法であって、
制御ユニットが、計算ユニット上で開始されている第１のウェーブフロントにレジスタの第１のセットを割り当てることと、
前記第１の計算ユニット上で開始されている第２のウェーブフロントにレジスタの第２のセットを割り当てることと、
前記第１のウェーブフロントの１つ以上のスレッドがアクティブのままである間に第１の条件を検出したことに応じて、前記レジスタの第１のセットのうち１つ以上のレジスタを前記第２のウェーブフロントに再割り当てすることであって、前記第２のウェーブフロントは、前記１つ以上のレジスタが再割り当てされた後に、前記レジスタの第１のセットのうち前記１つ以上のレジスタにデータを記憶する、ことと、を含む、
方法。
前記第１の条件は、前記計算ユニットが前記１つ以上のレジスタを解放するための前記第１のウェーブフロントの命令を実行することである、
請求項８の方法。
前記計算ユニットが、前記レジスタの第１のセットの全てを解放するための命令を実行することを更に含む、
請求項９の方法。
前記第１のウェーブフロントは、前記計算ユニットが前記命令を実行した後もアクティブなままである、
請求項１０の方法。
前記第１の条件は、前記第１の計算ユニットが前記１つ以上のレジスタを解放するために前記制御ユニットにメッセージを送信することである、
請求項８の方法。
前記メッセージは、前記第１のウェーブフロントのレジスタベースアドレス、サイズ及び識別子（ＩＤ）を含む、
請求項１２の方法。
前記方法は、前記計算ユニットが、所定のレジスタを解放した後に前記所定のレジスタにアクセスするための前記第１のウェーブフロントの命令を実行する場合に、前記所定のレジスタへのアクセスをブロックすることを更に含む、
請求項８の方法。
システムであって、
メモリと、
前記メモリに結合されたプロセッサと、を備え、
前記プロセッサは、
計算ユニット上で開始されている第１のウェーブフロントにレジスタの第１のセットを割り当てることと、
前記計算ユニット上で開始されている第２のウェーブフロントにレジスタの第２のセットを割り当てることと、
前記第１のウェーブフロントの１つ以上のスレッドがアクティブのままである間に第１の条件を検出したことに応じて、前記レジスタの第１のセットのうち１つ以上のレジスタを前記第２のウェーブフロントに再割り当てすることであって、前記第２のウェーブフロントは、前記１つ以上のレジスタに再割り当てされた後に、前記レジスタの第１のセットのうち前記１つ以上のレジスタにデータを記憶する、ことと、
を行うように構成されている、
システム。
前記第１の条件は、前記計算ユニットが前記１つ以上のレジスタを解放するための前記第１のウェーブフロントの命令を実行することである、
請求項１５のシステム。
前記計算ユニットは、前記レジスタの第１のセットの全てを解放するための命令を実行するように構成されている、
請求項１６のシステム。
前記第１のウェーブフロントは、前記計算ユニットが前記命令を実行した後もアクティブなままである、
請求項１７のシステム。
前記第１の条件は、前記計算ユニットが前記１つ以上のレジスタを解放するために前記制御ユニットにメッセージを送信することである、
請求項１５のシステム。
前記メッセージは、前記第１のウェーブフロントのレジスタベースアドレス、サイズ及び識別子（ＩＤ）を含む、
請求項１９のシステム。