JP2023502574A

JP2023502574A - 演算論理回路レジスタの順序付け

Info

Publication number: JP2023502574A
Application number: JP2022524020A
Authority: JP
Inventors: ホービン; チェンジャーシェン; ファンジャン
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2019-11-26
Filing date: 2020-11-24
Publication date: 2023-01-25
Anticipated expiration: 2040-11-24
Also published as: WO2021108384A1; US11789732B2; US20220171621A1; EP4066105A4; CN114868110A; EP4066105A1; JP7490766B2; KR102644951B1; KR20220100891A; US11237827B2; US20210157581A1

Abstract

グラフィックス処理ユニット（ＧＰＵ）［１００］は、オペランドレジスタのセット［１０６］へのオペランドの提供を順序付けし、ＧＰＵがオペランドレジスタの少なくとも１つを処理間で共有することを可能にする。ＧＰＵは、複数の演算論理回路（ＡＬＵ）［１０８］を含み、少なくとも１つのＡＬＵ［１１６］は倍精度演算を実行するように構成されている。ＧＰＵは、単精度オペランドを記憶するように構成されたオペランドレジスタのセットを含む。倍精度演算を要求する複数の実行スレッドの場合、ＧＰＵは、対応するオペランドをオペランドレジスタに記憶する。ＧＰＵは、オペランドレジスタのセットから指定された倍精度オペランドレジスタへのオペランドの転送を、複数の実行サイクルにわたって順序付けする。各実行サイクル中、倍精度ＡＬＵは、倍精度オペランドレジスタに記憶されたオペランドを使用して倍精度演算を実行する。【選択図】図１

Description

プロセッサは、プロセッサに代わって指定された操作を実行するように特別に設計され、構成された１つ以上の処理ユニットを使用する。例えば、一部のプロセッサは、グラフィックス及びベクトル処理操作を実行するためにグラフィックス処理ユニット（ＧＰＵ）を採用している。プロセッサの中央処理装置（ＣＰＵ）は、ＧＰＵにコマンドを提供し、ＧＰＵのコマンドプロセッサ（ＣＰ）は、コマンドを１つ以上の操作にデコードする。１つ以上の演算論理回路（ＡＬＵ）等のＧＰＵの実行ユニットは、グラフィックス及びベクトル処理操作を実行するための操作を実行する。ＡＬＵは、オペランドレジスタを使用して、処理用のオペランドを記憶する。特に、スレッドがＧＰＵで実行されると、スレッドは、オペランドレジスタにオペランドを記憶し、オペコード又は他の制御情報をＡＬＵに提供して、オペランドを使用してＡＬＵにより実行される数学演算を制御する。多数のオペランドレジスタを使用することにより、ＧＰＵは、比較的多数のスレッドの同時実行をサポートすることができる。ただし、このような多数のオペランドレジスタは、電力や回路面積等の処理リソースを大量に消費する。

本開示は、添付図面を参照することによってより良好に理解することができ、その多くの特徴及び利点が当業者に明らかになる。異なる図面で同一の符号が使用されている場合、類似又は同一のアイテムを示している。

いくつかの実施形態による、オペランドレジスタの１つのセットからオペランドレジスタの別のセットへのオペランドの提供を順序付ける（sequence）ように構成されたグラフィックス処理ユニット（ＧＰＵ）のブロック図である。いくつかの実施形態による、図１のＧＰＵのレジスタへのオペランドの提供を示すブロック図である。いくつかの実施形態による、図１のＧＰＵのオペランドレジスタ及び対応するＡＬＵの構成を示すブロック図である。いくつかの実施形態による、図３のオペランドレジスタでのオペランド提供の例示的な順序付けの一部を示すブロック図である。いくつかの実施形態による、図４の例示的な順序付けの別の一部を示すブロック図である。いくつかの実施形態による、図４の例示的な順序付けのさらに別の一部を示すブロック図である。いくつかの実施形態による、図５の例示的な順序付けのさらに別の一部を示すブロック図である。

図１～図７は、グラフィックス処理ユニット（ＧＰＵ）がオペランドレジスタのセットへのオペランドの提供を順序付けし、それによってＧＰＵがオペランドレジスタの少なくとも１つを処理間で共有することを可能にする技術を示す。ＧＰＵは、複数の演算論理回路（ＡＬＵ）を含み、そのうち少なくとも１つのＡＬＵは、倍精度演算を実行するように構成されている。さらに、ＧＰＵは、単精度オペランドを記憶するように構成されたオペランドレジスタのセットを含む。倍精度演算を要求する複数の実行スレッドの場合、ＧＰＵは、対応するオペランドをオペランドレジスタに記憶する。ＧＰＵは、オペランドレジスタのセットから指定された倍精度オペランドレジスタへのオペランドの転送を、複数の実行サイクルにわたって順序付けする。各実行サイクル中、倍精度ＡＬＵは、倍精度オペランドレジスタに記憶されているオペランドを使用して倍精度演算を実行する。ＧＰＵは、このようにレジスタ間のオペランドの提供を順番付けすることにより、複数の処理ブロック（例えば、複数のベクトルシェーダプロセッサ等）が倍精度オペランドレジスタを共有することが可能になり、オペランドレジスタによって消費される回路領域及び電力が削減される。

図１は、いくつかの実施形態による、倍精度数学演算のためのオペランド提供の順序付けをサポートするＧＰＵ１００を示す図である。説明のために、ＧＰＵ１００は、命令セット（例えば、コンピュータプログラム）を実行して、電子デバイスの代わりにタスクを実行するプロセッサの一部である。したがって、異なる実施形態において、ＧＰＵ１００は、デスクトップコンピュータ、ラップトップコンピュータ、サーバ、タブレット、スマートフォン、ゲームコンソール等の電子デバイスの一部である。さらに、ＧＰＵ１００を含むプロセッサは、命令のセットを実行する中央処理装置（ＣＰＵ）を含む。

ＧＰＵ１００は、指定された操作をＣＰＵに代わって実行するように設計され、製造されている。特に、ＧＰＵ１００は、ＣＰＵに代わってグラフィックス処理及びベクトル処理操作を実行する。例えば、いくつかの実施形態では、ＣＰＵは、命令を実行する過程で、グラフィックス及びベクトル処理操作に関連するコマンドを生成する。ＣＰＵは、ＧＰＵ１００にコマンドを提供し、ＧＰＵ１００は、コマンドプロセッサ（図示省略）を使用して、コマンドを、ＧＰＵ１００で実行するための命令セットにデコードする。

命令の実行を容易にするために、ＧＰＵ１００は、複数の計算ユニット（例えば、１つ以上の単一命令複数データ（ＳＩＭＤ）ブロック）を含み、各ＳＩＭＤブロックは、対応する操作のスレッドを実行するように構成されている。いくつかの実施形態では、ＣＰＵから受信したコマンドをＧＰＵのコマンドプロセッサがデコードし、コマンドに基づいてＳＩＭＤブロックで実行されるスレッドのセットを生成しスケジュールする。各ＳＩＭＤブロックは、複数のベクトルシェーダプロセッサ（ＶＳＰ）（例えば、ＶＳＰ１０２，１０３，１０４）を含む。いくつかの実施形態では、各ＳＩＭＤブロックは、４つの異なるＶＳＰを含み、それにより、４つの異なるスレッドの同時実行をサポートする。したがって、各計算ユニットに４つのＳＩＭＤブロックが含まれ、各ＳＩＭＤブロックに４つのＶＳＰが含まれているとすると、各計算ユニットは、１６スレッドの同時実行をサポートする。

実行中、スレッドは、対応するオペランドを使用して実行するための数学演算を生成する。数学演算の実行をサポートするために、ＧＰＵ１００は、オペランドレジスタのセット１０６（例えば、オペランドレジスタ１１１，１１２）及びＡＬＵのセット１０８（例えば、ＡＬＵ１１４，１１６）を含む。オペランドレジスタ１０６は、数学演算のためのオペランドを記憶し、ＡＬＵ１０８は、記憶されたオペランドを使用して数学演算を実行する。特に、数学演算を実行するために、スレッドは、以下でさらに説明するように、対応するオペランドを何れかのオペランドレジスタ１０６に記憶し、制御情報（図示省略）を何れかのＡＬＵ１０８に提供する。制御情報に基づいて、ＡＬＵは、記憶されたオペランドを使用して数学演算を実行し、スレッドによる取得のために結果を結果レジスタ（図示省略）に記憶する。

本明細書では、説明を明確にするために、各オペランドレジスタ１０６が単一のブロックとして示されていることを理解されたい。しかしながら、いくつかの実施形態では、各オペランドレジスタ１０６が複数のオペランドを記憶する。一例が図２に示されており、ＡＬＵ１１４のためにオペランドを記憶するオペランドレジスタ１１１を示している。図示した実施形態では、オペランドレジスタ１１１は３つのオペランドを記憶し、各オペランドは、対応するスレッドに対して「Ａ」、「Ｂ」及び「Ｃ」と指定されている。

図１に戻ると、この図は、オペランドレジスタ１０６及びＡＬＵ１０８がＶＳＰ１０２～１０４間で共有されていることを示すことが理解されよう。しかしながら、他の実施形態では、１つ以上のオペランドレジスタ１０６又は１つ以上のＡＬＵ１０８が、個々のＶＳＰ専用とされる。したがって、例えば、いくつかの実施形態では、オペランドレジスタ１０６のサブセットがＶＳＰ１０２に割り当てられ、ＶＳＰ１０３には異なるオペランドレジスタのサブセットが割り当てられる。その結果、各ＶＳＰは、別のＶＳＰに割り当てられたオペランドレジスタを使用することができない。同様に、いくつかの実施形態では、ＡＬＵ１０８のサブセットがＶＳＰ１０２に割り当てられ、ＶＳＰ１０３には異なるＡＬＵ１０８のサブセットが割り当てられる。その結果、各ＶＳＰは、別のＶＳＰに割り当てられたＡＬＵに数学演算を割り当てることができない。

いくつかの実施形態では、実行中のスレッドによって生成される異なる数学演算のうち少なくともいくつかは、対応するオペランドの精度のレベルを示す、異なる精度に関連付けられている。例えば、いくつかの実施形態では、実行スレッドは、単精度数学演算及び倍精度数学演算を生成し、倍精度オペランド（すなわち、倍精度演算に使用されるオペランド）は、単精度オペランドの２倍の大きさである。オペランドレジスタ１０６のサブセットの各々は、単精度オペランドを記憶するサイズとされ、一方、オペランドレジスタ１０６の別のサブセットの各々は、倍精度オペランドを記憶するサイズとされる。いくつかの実施形態では、以下でより詳細に説明するように、オペランドレジスタ１０６の単精度オペランドレジスタは、倍精度オペランドの一部を記憶し、１つ以上のＡＬＵ１０８による処理を待つ間、これらのオペランドを記憶する。

ＡＬＵ１０８のサブセットの各々は、対応する精度による数学演算を、その精度のオペランドを使用して実行するための回路を含む。したがって、例えば、ＡＬＵ１１４には、単精度の数学演算を（単精度のオペランドを使用して）実行する回路が含まれ、ＡＬＵ１１６には、倍精度演算を（倍精度のオペランドを使用して）実行する回路が含まれる。いくつかの実施形態では、ＧＰＵ１００で実行されるスレッドは、比較的多数の単精度演算を要求し、比較的少数の倍精度演算を要求することが予想される。したがって、ＡＬＵ１０８は、より多数の単精度ＡＬＵと、より少数の倍精度ＡＬＵと、を含む。さらに、オペランドレジスタ１０６は、より多数の単精度オペランドレジスタと、倍精度オペランドを記憶するより少数のオペランドレジスタと、を含む。いくつかの実施形態による例を図３に示す。図示した例では、ＡＬＵ１０８は、１５個の単精度（ＳＰ）ＡＬＵと、１個の倍精度ＡＬＵと、を含む。オペランドレジスタ１０６は、倍精度ＡＬＵ１１６のための倍精度オペランドを記憶する、指定されたオペランドレジスタ３２１，３２２である１対のオペランドレジスタと共に、複数の単精度オペランドレジスタを含む。いくつかの実施形態では、オペランドレジスタ３２１は、倍精度オペランドの「上位」又は最上位ビットを記憶し、オペランドレジスタ３２２は、倍精度オペランドの「下位」又は最下位ビットを記憶する。いくつかの実施形態では、レジスタ３２１，３２２は、１つ以上のＳＰＡＬＵのための単精度オペランドを異なる時間に記憶する。すなわち、実行されている所定の数値演算の精度に応じて、レジスタ３２１，３２２は、１つ以上のＳＰＡＬＵ（例えば、ＳＰＡＬＵ３２３）による処理のための単精度オペランドを記憶するか、ＤＰＡＬＵ１１６による処理のための倍精度のセットを一緒に記憶する。

上記のように、多くの場合、ＧＰＵ１００は、比較的多数の単精度演算を実行し、比較的少数の倍精度演算を実行することが予想される。したがって、専用の倍精度レジスタのセットを実行スレッド毎に有するコストを節約するため、ＧＰＵ１００は、レジスタ３２１，３２２への倍精度オペランドの順序付け（sequencing）を制御するためのオペランド順序付け制御モジュール１１０を含む。説明すると、いくつかの実施形態では、オペランドレジスタの少なくともサブセットが接続されており、オペランド順序付け制御モジュール１１０からの制御信号に応じて、制御信号を受信したオペランドレジスタの各々は、その記憶されたデータを別のオペランドレジスタに転送する。オペランドレジスタ間のデータ転送を制御することにより、オペランド順序付け制御モジュール１１０は、比較的少数のオペランドレジスタ及び倍精度ＡＬＵ回路を使用しながら、複数の実行サイクルにわたる複数のスレッドに対する倍精度演算の実行をスケジュールし、それによってＧＰＵ１００のリソースを節約する。いくつかの実施形態では、オペランド順序付け制御モジュール１１０は、ＶＳＰ１０２～１０４でのスレッドの実行をスケジュールするＧＰＵ１００のスケジューラ（図示省略）の一部である。

図４～図７は、合わせて、いくつかの実施形態による、ＧＰＵ１００が、レジスタ３２１，３２２への倍精度オペランドの提供を順序付けする例を示している。図４～図７の例は、ＧＰＵ１００の複数の実行サイクルを示している。いくつかの実施形態では、各実行サイクルは、ＧＰＵ１００の動作を同期させるために使用されるクロック（図示省略）の単一のクロックサイクルに対応する。他の実施形態では、各実行サイクルは、複数のクロックサイクルに対応する。図４～図７による例示のために、ＶＳＰ１０２～１０４が集合的且つ同時に１６個のスレッドを実行し、各スレッドは、ＤＰＡＬＵ１１６で倍精度数値演算が実行されることを必要とする。演算を実行するために、ＧＰＵは、オペランドレジスタ１０６のうち、オペランドレジスタ４３０～４３９及びオペランドレジスタ３２１，３２２を使用する。いくつかの実施形態では、オペランドレジスタ３２１，３２２，４３０～４３９の各々は、独立した読み取り及び書き込みポートを含み、その結果、データは、単一の実行サイクル中にオペランドレジスタから読み取られ、オペランドレジスタに書き込まれる。

この例では、実行中の各スレッドは、ＤＰＡＬＵ１１６で処理するための倍精度オペランドのセットを１つ提供する。以下でさらに説明するように、各スレッドは、対応する倍精度オペランドを２つの部分（すなわち、倍精度オペランドの最下位ビットを表す下位部分、及び、倍精度オペランドの最上位ビットを表す上位部分）において提供する。したがって、倍精度オペランドがそれぞれ６４ビットであるとすると、オペランドの上位部分はオペランドの最上位３２ビットであり、オペランドの下位部分はオペランドの最下位３２ビットである。

図４は、いくつかの実施形態による、ＣＹＣＬＥ０及びＣＹＣＬＥ１と呼ぶ、例示的な最初の２つの実行サイクルを示す。ＣＹＣＬＥ０の間、ＧＰＵ１００のスケジューラは、スレッド０，４，８，１２の倍精度オペランドの下位部分（それぞれ、０Ｌ，４Ｌ，８Ｌ，１２Ｌと呼ぶ。）がオペランドレジスタに読み込まれるように、これらのスレッドの実行をスケジュールする。特に、下位部分のオペランド４Ｌがオペランドレジスタ４３０に記憶され、下位部分のオペランド０Ｌがオペランドレジスタ４３３に記憶され、下位部分のオペランド８Ｌがオペランドレジスタ４３４に記憶され、下位部分のオペランド１２Ｌがオペランドレジスタ４３７に記憶される。少なくともいくつかの実施形態では、スレッド０，４，８，１２の各々は、ＧＰＵ１００の異なるＶＳＰで実行される。

ＣＹＣＬＥ１の間、オペランド順序付け制御モジュール１１０は、オペランドレジスタ間でデータを転送するための制御信号を提供する。特に、オペランド０Ｌがオペランドレジスタ４３３からオペランドレジスタ３２１に転送され、オペランド８Ｌがオペランドレジスタ４３４からオペランドレジスタ４３３に転送され、オペランド１２Ｌがオペランドレジスタ４３７からオペランドレジスタ４３４に転送される。

さらに、ＣＹＣＬＥ１の間、スレッド０，４，８，１２の倍精度オペランドの上位部分（それぞれ０Ｈ，４Ｈ，８Ｈ，１２Ｈと呼ぶ。）がオペランドレジスタのサブセットに読み込まれる。特に、上位部分のオペランド４Ｈがオペランドレジスタ４３２に記憶され、上位部分のオペランド０Ｈがオペランドレジスタ３２２に記憶され、上位部分のオペランド８Ｈがオペランドレジスタ４３６に記憶され、上位部分のオペランド１２Ｈがオペランドレジスタ４３９に記憶される。

ＣＹＣＬＥ１の間、０Ｌ，０Ｈのオペランドが、オペランドレジスタ３２１，３２２に記憶され、したがって、ＤＰＡＬＵ１１６による処理可能な状態にある。したがって、ＣＹＣＬＥ１の間に、ＤＰＡＬＵ１１６は、スレッド０によって要求された、０Ｌ，０Ｈのオペランドを使用する倍精度演算を開始する。特に、ＤＰＡＬＵ１１６は、０Ｌ，０Ｈオペランドに基づいて、Ａ、Ｂ及びＣオペランドの上位部分と下位部分を連結し、結果として得られるＡ、Ｂ及びＣオペランドを倍精度演算に使用する。

図５は、いくつかの実施形態による、例示的な順序付け操作の次の２つのサイクルである、ＣＹＣＬＥ２及びＣＹＣＬＥ３と呼ばれるサイクルを示す。ＣＹＣＬＥ２の間、オペランド順序付け制御モジュール１１０は、オペランドレジスタ間でさらにデータを転送するための制御信号を提供する。特に、オペランド４Ｌがオペランドレジスタ４３０からオペランドレジスタ４３３に転送され、オペランド８Ｌがオペランドレジスタ４３３からオペランドレジスタ３２１に転送され、オペランド８Ｈがオペランドレジスタ４３６からオペランドレジスタ３２２に転送され、オペランド１２Ｈがオペランドレジスタ４３９からオペランドレジスタ４３６に転送される。したがって、ＣＹＣＬＥ２の間、８Ｌ，８Ｈオペランドが、オペランドレジスタ３２１，３２２に記憶される。したがって、ＣＹＣＬＥ２の間、ＤＰＡＬＵ１１６は、スレッド８によって要求された８Ｌ，８Ｈオペランドを使用する倍精度演算を開始する。

ＣＹＣＬＥ３の間、前の２つのサイクルと同様に、オペランド順序付け制御モジュール１１０は、オペランドレジスタ間でデータをさらに転送するための制御信号を提供する。特に、オペランド４Ｌがオペランドレジスタ４３３からオペランドレジスタ３２１に転送され、オペランド４Ｈがオペランドレジスタ４３２からオペランドレジスタ３２２に転送され、オペランド１２Ｌがオペランドレジスタ４３４からオペランドレジスタ４３３に転送される。したがって、ＣＹＣＬＥ３の間、４Ｌ，４Ｈオペランドがオペランドレジスタ３２１，３２２に記憶され、ＤＰＡＬＵ１１６はスレッド４によって要求された４Ｌ，４Ｈオペランドを使用する倍精度演算を開始する。

図６は、いくつかの実施形態による、例示的な順序付け操作の次の２つのサイクルである、ＣＹＣＬＥ４及びＣＹＣＬＥ５と呼ばれるサイクルを示す。ＣＹＣＬＥ４の間、オペランド順序付け制御モジュール１１０は、オペランドの初期セットのうち最後のものをオペランドレジスタ間で転送するための制御信号を提供する。特に、オペランド１２Ｈがオペランドレジスタ４３６からオペランドレジスタ３２２に転送され、オペランド１２Ｌがオペランドレジスタ４３３からオペランドレジスタ３２１に転送される。したがって、ＣＹＣＬＥ４の間、１２Ｌ，１２Ｈのオペランドが、オペランドレジスタ３２１，３２２に記憶される。したがって、ＣＹＣＬＥ４の間、ＤＰＡＬＵ１１６は、スレッド１２によって要求された１２Ｌ，１２Ｈのオペランドを使用する倍精度演算を開始する。

さらに、ＣＹＣＬＥ４の間、処理するオペランドの次のセットがオペランドレジスタに記憶される。図示するように、スレッド５，１，９，１３の倍精度オペランドの下位部分（それぞれ５Ｌ，１Ｌ，９Ｌ，１３Ｌと呼ぶ。）が、オペランドレジスタに読み込まれる。特に、オペランド５Ｌがオペランドレジスタ４３０に記憶され、オペランド１Ｌがオペランドレジスタ４３３に記憶され、オペランド９Ｌがオペランドレジスタ４３４に記憶され、オペランド１３Ｌがオペランドレジスタ４３７に記憶される。

ＣＹＣＬＥ５を参照すると、オペランド順序付け制御モジュール１１０は、オペランドレジスタ間でデータを転送するための制御信号を提供し、その結果、オペランド１Ｌがオペランドレジスタ４３３からオペランドレジスタ３２１に転送され、オペランド９Ｌがオペランドレジスタ４３４からオペランドレジスタ４３３に転送され、オペランド１３Ｌがオペランドレジスタ４３７からオペランドレジスタ４３４に転送される。

さらに、ＣＹＣＬＥ５の間に、スレッド５，１，９，１３の倍精度オペランドの上位部分（それぞれ５Ｈ，１Ｈ，９Ｈ，１３Ｈと呼ぶ。）がオペランドレジスタのサブセットに読み込まれる。特に、オペランド５Ｈがオペランドレジスタ４３２に記憶され、オペランド１Ｈがオペランドレジスタ３２２に記憶され、オペランド９Ｈがオペランドレジスタ４３６に記憶され、オペランド１３Ｈがオペランドレジスタ４３９に記憶される。したがって、ＣＹＣＬＥ５の間、１Ｌ，１Ｈのオペランドが、オペランドレジスタ３２１，３２２に記憶され、したがって、ＤＰＡＬＵ１１６による処理可能な状態にある。したがって、ＣＹＣＬＥ５の間に、ＤＰＡＬＵ１１６は、スレッド１によって要求された１Ｌ，１Ｈオペランドを使用する倍精度演算を開始する。

図７は、いくつかの実施形態による、例示的な順序付け操作の次の３つのサイクルである、ＣＹＣＬＥ６、ＣＹＣＬＥ７及びＣＹＣＬＥ８と呼ばれるサイクルを示す。ＣＹＣＬＥ６の間、オペランド順序付け制御モジュール１１０は、オペランドレジスタ間でデータをさらに転送するための制御信号を提供する。特に、オペランド５Ｌがオペランドレジスタ４３０からオペランドレジスタ４３３に転送され、オペランド９Ｌがオペランドレジスタ４３３からオペランドレジスタ３２１に転送され、オペランド９Ｈがオペランドレジスタ４３６からオペランドレジスタ３２２に転送され、オペランド１３Ｈがオペランドレジスタ４３９からオペランドレジスタ４３６に転送される。したがって、ＣＹＣＬＥ６の間、９Ｌ，９Ｈのオペランドが、オペランドレジスタ３２１，３２２に記憶される。したがって、ＣＹＣＬＥ６の間に、ＤＰＡＬＵ１１６は、スレッド９によって要求された９Ｌ，９Ｈのオペランドを使用する倍精度演算を開始する。

ＣＹＣＬＥ７を参照すると、オペランド順序付け制御モジュール１１０は、オペランドレジスタ間でデータをさらに転送するための制御信号を提供する。特に、オペランド５Ｌがオペランドレジスタ４３３からオペランドレジスタ３２１に転送され、オペランド５Ｈがオペランドレジスタ４３２からオペランドレジスタ３２２に転送され、オペランド１３Ｌがオペランドレジスタ４３４からオペランドレジスタ４３３に転送される。したがって、ＣＹＣＬＥ７の間、５Ｌ，５Ｈのオペランドが、オペランドレジスタ３２１，３２２に記憶され、ＤＰＡＬＵ１１６は、スレッド５によって要求された５Ｌ，５Ｈオペランドを使用する倍精度演算を開始する。

ＣＹＣＬＥ８を参照すると、オペランド順序付け制御モジュール１１０は、オペランドセットの第２のセットのうち最後のものをオペランドレジスタ間で転送するための制御信号を提供する。特に、オペランド１３Ｈがオペランドレジスタ４３６からオペランドレジスタ３２２に転送され、オペランド１２Ｌがオペランドレジスタ４３３からオペランドレジスタ３２１に転送される。したがって、ＣＹＣＬＥ８の間、１３Ｌ，１３Ｈのオペランドが、オペランドレジスタ３２１，３２２に記憶される。したがって、ＣＹＣＬＥ８の間、ＤＰＡＬＵ１１６は、スレッド１３によって要求された１３Ｌ，１３Ｈオペランドを使用する倍精度演算を開始する。

さらに、ＣＹＣＬＥ８の間、処理するオペランドの次のセットがオペランドレジスタに記憶される。図示するように、スレッド６，２，１０，１４の倍精度オペランドの下位部分（それぞれ６Ｌ，２Ｌ，９Ｌ，１４Ｌと呼ぶ。）が、オペランドレジスタに読み込まれる。特に、オペランド６Ｌがオペランドレジスタ４３０に記憶され、オペランド２Ｌがオペランドレジスタ４３３に記憶され、オペランド１０Ｌがオペランドレジスタ４３４に記憶され、オペランド１４Ｌがオペランドレジスタ４３７に記憶される。

いくつかの実施形態では、ＧＰＵ１００は、図示したＣＹＣＬＥ０～ＣＹＣＬＥ８と同様の方法で、オペランドレジスタへの及びオペランドレジスタ間でのオペランド提供の順序付けを継続して、スレッド２，３，６，７，１０，１１，１４，１５を含む残りのスレッドのオペランドを処理する。したがって、ＧＰＵ１００は、ＶＳＰ１０２～１０４間で共有される倍精度オペランドレジスタの単一のセットを使用して、１６個の同時に実行されるスレッドの各々についての倍精度演算の実行をサポートする。これにより、ＧＰＵ１００は、比較的少数のオペランドレジスタのセットで倍精度演算をサポートできるため、面積や電力等のプロセッサリソースを節約することができる。

いくつかの実施形態では、方法は、処理装置で実行される複数のスレッドについて、第１の演算論理回路（ＡＬＵ）で処理するための複数のオペランドを受信することと、複数のオペランドを複数のレジスタに記憶することと、複数の実行サイクルにわたって、ＡＬＵで処理するために、複数のレジスタから第１のオペランドレジスタへの複数のオペランドの提供を順序付けすることと、を含む。一態様では、順序付けは、第１の実行サイクル中に、複数のオペランドのうち第１のオペランドの第１の部分を第１のオペランドレジスタに記憶することと、第２の実行サイクル中に、複数のオペランドのうち第２のオペランドの第１の部分を、複数のレジスタのうち第１のレジスタから第１のオペランドレジスタに転送することと、を含む。別の態様では、順序付けは、第１の実行サイクル中に、第１のオペランドの第２の部分を複数のレジスタのうち第２のレジスタに記憶することと、第２の実行サイクル中に、第１のオペランドの第２の部分を、ＡＬＵで処理するために第２のオペランドレジスタに転送することと、をさらに含む。

さらに別の態様では、方法は、第２の実行サイクル中に、ＡＬＵの第１のオペランドレジスタ及び第２のオペランドレジスタから第１のオペランドを読み取ることを含む。さらに別の態様では、第１のオペランドは倍精度オペランドであり、複数のレジスタの各々は、単精度オペランドを記憶するように構成されている。別の態様では、順序付けは、第２の実行サイクル中に、第３のオペランドの第１の部分を、複数のレジスタのうち第２のレジスタから複数のレジスタのうち第１のレジスタに転送することをさらに含む。さらに別の態様では、順序付けは、第３の実行サイクル中に、第３のオペランドの第１の部分を、複数のレジスタのうち第１のレジスタから第１のオペランドレジスタに転送することをさらに含む。さらに別の態様では、順序付けは、第２の実行サイクル中に、第４のオペランドの第１の部分を、複数のレジスタのうち第３のレジスタから複数のレジスタのうち第２のレジスタに転送することをさらに含む。

いくつかの実施形態では、プロセッサは、演算論理回路（ＡＬＵ）を含む処理ユニットであって、対応する複数のスレッドを実行し、複数のスレッドは、ＡＬＵで処理される複数のオペランドを生成するように実行する、処理ユニットと、複数のオペランドを記憶するように構成された複数のレジスタと、複数の実行サイクルにわたって、ＡＬＵで処理するために、複数のレジスタから第１のオペランドレジスタへの複数のオペランドの提供を順序付けするように構成された順序付け制御モジュールと、を備える。一態様では、順序付けは、第１の実行サイクル中に、複数のオペランドのうち第１のオペランドの第１の部分を第１のオペランドレジスタに記憶することと、第２の実行サイクル中に、複数のオペランドのうち第２のオペランドの第１の部分を、複数のレジスタのうち第１のレジスタから第１のオペランドレジスタに転送することと、を含む。

一態様では、順序付けは、第１の実行サイクル中に、第１のオペランドの第２の部分を複数のレジスタのうち第２のレジスタに記憶することと、第２の実行サイクル中に、第１のオペランドの第２の部分を、ＡＬＵで処理するために第２のオペランドレジスタに転送することと、をさらに含む。別の態様では、ＡＬＵは、第２の実行サイクル中に、処理のために第１のオペランドレジスタ及び第２のオペランドレジスタから第１のオペランドを読み取るように構成されている。さらに別の態様では、第１のオペランドは倍精度オペランドであり、複数のレジスタの各々は、単精度オペランドを記憶するように構成されている。

一態様では、順序付けは、第２の実行サイクル中に、第３のオペランドの第１の部分を、複数のレジスタのうち第２のレジスタから複数のレジスタのうち第１のレジスタに転送することをさらに含む。別の態様では、順序付けは、第３の実行サイクル中に、第３のオペランドの第１の部分を、複数のレジスタのうち第１のレジスタから第１のオペランドレジスタに転送することをさらに含む。さらに別の態様では、順序付けは、第２の実行サイクル中に、第４のオペランドの第１の部分を、複数のレジスタのうち第３のレジスタから複数のレジスタのうち第２のレジスタに転送することをさらに含む。

いくつかの実施形態では、グラフィックス処理ユニット（ＧＰＵ）は、対応する複数のスレッドを実行する複数のシェーダプロセッサであって、複数のスレッドは、複数のオペランドを生成するように実行する、複数のシェーダプロセッサと、演算論理回路（ＡＬＵ）と、複数のオペランドを記憶するように構成された複数のレジスタと、複数の実行サイクルにわたって、複数のレジスタから第１のオペランドレジスタへの複数のオペランドの提供を順序付けしてＡＬＵで処理するように構成された順序付け制御モジュールと、を備える。一態様では、順序付けは、第１の実行サイクル中に、複数のオペランドのうち第１のオペランドの第１の部分を第１のオペランドレジスタに記憶することと、第２の実行サイクル中に、複数のオペランドのうち第２のオペランドの第１の部分を、複数のレジスタのうち第１のレジスタから第１のオペランドレジスタに転送することと、を含む。別の態様では、順序付けは、第１の実行サイクル中に、第１のオペランドの第２の部分を複数のレジスタのうち第２のレジスタに記憶することと、第２の実行サイクル中に、第１のオペランドの第２の部分を、ＡＬＵで処理するために第２のオペランドレジスタに転送することと、をさらに含む。さらに別の態様では、ＡＬＵは、第２の実行サイクル中に、処理のために第１のオペランドレジスタ及び第２のオペランドレジスタから第１のオペランドを読み取るように構成されている。

いくつかの実施形態では、上記の技術のいくつかの態様は、ソフトウェアを実行するプロセッシングシステムの１つ以上のプロセッサによって実装されてもよい。ソフトウェアは、非一時的なコンピュータ可読記憶媒体に記憶され、又は、非一時的なコンピュータ可読記憶媒体上で有形に具現化された実行可能命令の１つ以上のセットを含む。ソフトウェアは、１つ以上のプロセッサによって実行されると、上記の技術の１つ以上の態様を実行するように１つ以上のプロセッサを操作する命令及び特定のデータを含むことができる。非一時的なコンピュータ可読記憶媒体は、例えば、磁気若しくは光ディスク記憶デバイス、例えばフラッシュメモリ、キャッシュ、ランダムアクセスメモリ（ＲＡＭ）等のソリッドステート記憶デバイス、又は、他の１つ以上の不揮発性メモリデバイス等を含むことができる。非一時的なコンピュータ可読記憶媒体に記憶された実行可能命令は、ソースコード、アセンブリ言語コード、オブジェクトコード、又は、１つ以上のプロセッサによって解釈若しくは実行可能な他の命令フォーマットであってもよい。

上述したものに加えて、概要説明において説明した全てのアクティビティ又は要素が必要とされているわけではなく、特定のアクティビティ又はデバイスの一部が必要とされない場合があり、１つ以上のさらなるアクティビティが実行される場合があり、１つ以上のさらなる要素が含まれる場合があることに留意されたい。さらに、アクティビティが列挙された順序は、必ずしもそれらが実行される順序ではない。また、概念は、特定の実施形態を参照して説明された。しかしながら、当業者であれば、特許請求の範囲に記載されているような本発明の範囲から逸脱することなく、様々な変更及び変形を行うことができるのを理解するであろう。したがって、明細書及び図面は、限定的な意味ではなく例示的な意味で考慮されるべきであり、これらの変更形態の全ては、本発明の範囲内に含まれることが意図される。

利益、他の利点及び問題に対する解決手段を、特定の実施形態に関して上述した。しかし、利益、利点、問題に対する解決手段、及び、何かしらの利益、利点若しくは解決手段が発生又は顕在化する可能性のある特徴は、何れか若しくは全ての請求項に重要な、必須の、又は、不可欠な特徴と解釈されない。さらに、開示された発明は、本明細書の教示の利益を有する当業者には明らかな方法であって、異なっているが同様の方法で修正され実施され得ることから、上述した特定の実施形態は例示にすぎない。添付の特許請求の範囲に記載されている以外に本明細書に示されている構成又は設計の詳細については限定がない。したがって、上述した特定の実施形態は、変更又は修正されてもよく、かかる変更形態の全ては、開示された発明の範囲内にあると考えられることが明らかである。したがって、ここで要求される保護は、添付の特許請求の範囲に記載されている。

Claims

処理装置で実行される複数のスレッドについて、演算論理回路（ＡＬＵ）で処理するための複数のオペランドを受信することと、
前記複数のオペランドを複数のレジスタに記憶することと、
複数の実行サイクルにわたって、前記ＡＬＵで処理するために、前記複数のレジスタから第１のオペランドレジスタへの前記複数のオペランドの提供を順序付けすることと、を含む、
方法。
前記順序付けすることは、
第１の実行サイクル中に、前記複数のオペランドのうち第１のオペランドの第１の部分を前記第１のオペランドレジスタに記憶することと、
第２の実行サイクル中に、前記複数のオペランドのうち第２のオペランドの第１の部分を、前記複数のレジスタのうち第１のレジスタから前記第１のオペランドレジスタに転送することと、を含む、
請求項１の方法。
前記順序付けすることは、
前記第１の実行サイクル中に、前記第１のオペランドの第２の部分を、前記複数のレジスタのうち第２のレジスタに記憶することと、
前記第２の実行サイクル中に、前記第１のオペランドの前記第２の部分を、前記ＡＬＵで処理するために第２のオペランドレジスタに転送することと、を含む、
請求項２の方法。
前記第２の実行サイクル中に、前記ＡＬＵの前記第１のオペランドレジスタ及び前記第２のオペランドレジスタから前記第１のオペランドを読み取ることを含む、
請求項３の方法。
前記第１のオペランドは倍精度オペランドであり、前記複数のレジスタの各々は、単精度オペランドを記憶するように構成されている、
請求項４の方法。
前記順序付けすることは、前記第２の実行サイクル中に、第３のオペランドの第１の部分を、前記複数のレジスタのうち第２のレジスタから前記複数のレジスタのうち前記第１のレジスタに転送することを含む、
請求項２の方法。
前記順序付けすることは、第３の実行サイクル中に、前記第３のオペランドの前記第１の部分を、前記複数のレジスタのうち前記第１のレジスタから前記第１のオペランドレジスタに転送することを含む、
請求項６の方法。
前記順序付けすることは、前記第２の実行サイクル中に、第４のオペランドの第１の部分を、前記複数のレジスタのうち第３のレジスタから前記複数のレジスタのうち前記第２のレジスタに転送することを含む、
請求項６の方法。
演算論理回路（ＡＬＵ）を含む処理ユニットであって、対応する複数のスレッドを実行し、前記複数のスレッドは、前記ＡＬＵで処理される複数のオペランドを生成するように実行する、処理ユニットと、
前記複数のオペランドを記憶するように構成された複数のレジスタと、
複数の実行サイクルにわたって、前記ＡＬＵで処理するために、前記複数のレジスタから第１のオペランドレジスタへの前記複数のオペランドの提供を順序付けするように構成された順序付け制御モジュールと、を備える、
プロセッサ。
前記順序付けすることは、
第１の実行サイクル中に、前記複数のオペランドのうち第１のオペランドの第１の部分を前記第１のオペランドレジスタに記憶することと、
第２の実行サイクル中に、前記複数のオペランドのうち第２のオペランドの第１の部分を、前記複数のレジスタのうち第１のレジスタから前記第１のオペランドレジスタに転送することと、を含む、
請求項９のプロセッサ。
前記順序付けすることは、
前記第１の実行サイクル中に、前記第１のオペランドの第２の部分を、前記複数のレジスタのうち第２のレジスタに記憶することと、
前記第２の実行サイクル中に、前記第１のオペランドの前記第２の部分を、前記ＡＬＵで処理するために第２のオペランドレジスタに転送することと、を含む、
請求項１０のプロセッサ。
前記ＡＬＵは、前記第２の実行サイクル中に、処理するために前記第１のオペランドレジスタ及び前記第２のオペランドレジスタから前記第１のオペランドを読み取るように構成されている、
請求項１１のプロセッサ。
前記第１のオペランドは倍精度オペランドであり、前記複数のレジスタの各々は、単精度オペランドを記憶するように構成されている、
請求項１２のプロセッサ。
前記順序付けすることは、前記第２の実行サイクル中に、第３のオペランドの第１の部分を、前記複数のレジスタのうち第２のレジスタから前記複数のレジスタのうち前記第１のレジスタに転送することを含む、
請求項１０のプロセッサ。
前記順序付けすることは、第３の実行サイクル中に、前記第３のオペランドの前記第１の部分を、前記複数のレジスタのうち前記第１のレジスタから前記第１のオペランドレジスタに転送することを含む、
請求項１４のプロセッサ。
前記順序付けすることは、前記第２の実行サイクル中に、第４のオペランドの第１の部分を、前記複数のレジスタのうち第３のレジスタから前記複数のレジスタのうち前記第２のレジスタに転送することを含む、
請求項１４のプロセッサ。
対応する複数のスレッドを実行する複数のシェーダプロセッサであって、前記複数のスレッドは、複数のオペランドを生成するように実行する、複数のシェーダプロセッサと、
演算論理回路（ＡＬＵ）と、
前記複数のオペランドを記憶するように構成された複数のレジスタと、
複数の実行サイクルにわたって、前記ＡＬＵで処理するために、前記複数のレジスタから第１のオペランドレジスタへの前記複数のオペランドの提供を順序付けするように構成された順序付け制御モジュールと、を備える、
グラフィックス処理ユニット（ＧＰＵ）。
前記順序付けすることは、
第１の実行サイクル中に、前記複数のオペランドのうち第１のオペランドの第１の部分を前記第１のオペランドレジスタに記憶することと、
第２の実行サイクル中に、前記複数のオペランドのうち第２のオペランドの第１の部分を、前記複数のレジスタのうち第１のレジスタから前記第１のオペランドレジスタに転送することと、を含む、
請求項１７のＧＰＵ。
前記順序付けすることは、
前記第１の実行サイクル中に、前記第１のオペランドの第２の部分を、前記複数のレジスタのうち第２のレジスタに記憶することと、
前記第２の実行サイクル中に、前記第１のオペランドの前記第２の部分を、前記ＡＬＵで処理するために第２のオペランドレジスタに転送することと、を含む、
請求項１８のプロセッサ。
前記ＡＬＵは、前記第２の実行サイクル中に、処理するために前記第１のオペランドレジスタ及び前記第２のオペランドレジスタから前記第１のオペランドを読み取るように構成されている、
請求項１９のプロセッサ。