JP2022546250A

JP2022546250A - 電力に基づいたｓｒａｍの適応割り当て

Info

Publication number: JP2022546250A
Application number: JP2022510106A
Authority: JP
Inventors: ゴッドラットファタネー; イー．ウェイティエン
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2019-08-29
Filing date: 2020-08-24
Publication date: 2022-11-04
Also published as: EP4022417A1; EP4022417A4; US20210065758A1; CN114258522A; KR20220051358A; WO2021041334A1

Abstract

コンピュータ命令を処理する技術が提供される。本技術は、命令に関する命令状態メモリエントリの情報を取得することと、クラスタリング基準に基づいて、命令状態メモリエントリについて、選択可能に電力供給される行及びブロックを有する命令状態メモリ内のスロットを識別することと、命令状態メモリエントリを、識別されたスロットに配置することと、を含む。【選択図】図３

Description

（関連出願への相互参照）
本願は、２０１９年８月２９日に出願された「ＡＤＡＰＴＡＢＬＥＡＬＬＯＣＡＴＩＯＮＯＦＳＲＡＭＢＡＳＥＤＰＯＷＥＲ」と題する米国特許出願第１６／５５６，１３９号の利益を主張するものであり、その全ての内容は、言及することによって本明細書に組み込まれる。

コンピュータシステムにおいて、スタティックランダムアクセスメモリ等の揮発性メモリは、パワーオンされると電力を消費する。揮発性メモリの電力消費を改善するための技術が常に開発されている。

添付図面と共に例として与えられる以下の説明から、より詳細な理解を得ることができる。

開示の１つ以上の特徴を実装することができる例示的なデバイスのブロック図である。一例による、図１のデバイスの詳細を示す図である。一例による、命令ディスパッチユニットのブロック図である。一例による、命令状態メモリのブロック図である。一例による、命令状態メモリのためのエントリ挿入演算を示す図である。命令状態メモリの例示的な実施形態のブロック図である。一例による、命令状態メモリにエントリを配置する方法のフローチャートである。

コンピュータ命令を処理する技術が提供される。技術は、命令のための命令状態メモリエントリについての情報を取得することと、クラスタリング基準に基づいて、命令状態メモリエントリに対して、選択可能に電力供給される行及びブロックを有する命令状態メモリ内のスロットを識別することと、識別されたスロットに命令状態メモリエントリを配置することと、を含む。

図１は、開示の１つ以上の特徴を実装することができる例示的なデバイス１００のブロック図である。デバイス１００は、限定されないが、例えば、コンピュータ、ゲーミングデバイス、ハンドヘルドデバイス、セットトップボックス、テレビ、携帯電話、タブレットコンピュータ、又は、他のコンピューティングデバイスのうち何れかであってもよい。デバイス１００は、プロセッサ１０２と、メモリ１０４と、記憶装置１０６と、１つ以上の入力デバイス１０８と、１つ以上の出力デバイス１１０と、を含む。また、デバイス１００は、１つ以上の入力ドライバ１１２及び１つ以上の出力ドライバ１１４を含む。何れかの入力ドライバ１１２は、ハードウェア、ハードウェア及びソフトウェアの組み合わせ、又は、ソフトウェアとして具体化され、入力デバイス１０８を制御する（例えば、動作を制御すること、入力ドライバ１１２から入力を受信すること、及び、入力ドライバ１１２に入力を提供すること）目的を果たす。同様に、何れかの出力ドライバ１１４は、ハードウェア、ハードウェア及びソフトウェアの組み合わせ、又は、ソフトウェアとして具体化され、出力デバイス１１０を制御する（例えば、動作を制御すること、出力ドライバ１１４から入力を受信すること、及び、出力ドライバ１１４に入力を提供すること）目的を果たす。デバイス１００が、図１に示されていない追加のコンポーネントを含んでもよいことが理解されよう。

様々な代替例では、プロセッサ１０２は、セントラルプロセシングユニット（ＣＰＵ）、グラフィックプロセシングユニット（ＧＰＵ）、同一のダイ上に配置されたＣＰＵ及びＧＰＵ、又は、１つ以上のプロセッサコアを含み、各々のプロセッサコアは、ＣＰＵ又はＧＰＵであってもよい。様々な代替例では、メモリ１０４は、プロセッサ１０２と同一のダイ上に位置し、又は、プロセッサ１０２とは別に位置する。メモリ１０４は、揮発性メモリ又は不揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）、動的ＲＡＭ、キャッシュ）を含む。

記憶装置１０６は、固定記憶装置又は着脱可能記憶装置、例えば、限定されないが、ハードディスクドライブ、ソリッドステートドライブ、光学ディスク、又は、フラッシュドライブを含む。入力デバイス１０８は、限定されないが、キーボード、キーパッド、タッチスクリーン、タッチパッド、検出器、マイクロフォン、加速度計、ジャイロスコープ、生体スキャナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信及び／若しくは受信のための無線ローカルエリアネットワークカード）を含む。出力デバイス１１０は、限定されないが、ディスプレイ、スピーカ、プリンタ、触覚フィードバックデバイス、１つ以上のライト、アンテナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信及び／若しくは受信のための無線ローカルエリアネットワークカード）を含む。

入力ドライバ１１２及び出力ドライバ１１４は、入力デバイス１０８及び出力デバイス１１０の各々とインタフェースし、入力デバイス１０８及び出力デバイス１１０の各々を駆動するように構成された１つ以上のハードウェアコンポーネント、ソフトウェアコンポーネント、及び／又は、ファームウェアコンポーネントを含む。入力ドライバ１１２は、プロセッサ１０２及び入力デバイス１０８と通信し、プロセッサ１０２が入力デバイス１０８から入力を受信することを可能にする。出力ドライバ１１４は、プロセッサ１０２及び出力デバイス１１０と通信し、プロセッサ１０２が出力デバイス１１０に出力を送信することを可能にする。出力ドライバ１１４は、ディスプレイデバイスに結合されたアクセラレーテッドプロセシングデバイス（ＡＰＤ）１１６を含み、ディスプレイデバイス１１８は、いくつかの例では、出力を示すためにリモートディスプレイプロトコルを使用する物理ディスプレイデバイス又はシミュレートされたデバイスである。ＡＰＤ１１６は、計算コマンド及びグラフィックレンダリングコマンドを処理するために、プロセッサ１０２からそれらの計算コマンド及びグラフィックレンダリングコマンドを受け付け、表示のためにディスプレイデバイス１１８に画素出力を提供するように構成されている。以下に更に詳細に説明するように、ＡＰＤ１１６は、単一命令複数データ（ＳＩＭＤ）パラダイムに従って計算を実行するように構成された１つ以上の並列プロセシングユニットを含む。よって、ＡＰＤ１１６によって実行され、又は、ＡＰＤ１１６と共に実行されるものとして様々な機能が本明細書で説明されているが、様々な例では、ＡＰＤ１１６によって実行されるものとして説明する機能は、加えて又は代わりに、ホストプロセッサ（例えば、プロセッサ１０２）によって駆動されない類似の機能を有し、ディスプレイデバイス１１８にグラフィカル出力を提供するように構成された他のコンピューティングデバイスによって実行される。例えば、ＳＩＭＤパラダイムに従ってプロセシングタスクを実行する任意のプロセシングシステムが、本明細書で説明する機能を実行するように構成されてもよいことが企図される。代わりに、ＳＩＭＤパラダイムに従ってプロセシングタスクを実行しないコンピューティングシステムが、本明細書で説明する機能を実行することが企図される。

図２は、一例による、デバイス１００及びＡＰＤ１１６の詳細を示す図である。プロセッサ１０２（図１）は、オペレーティングシステム１２０、ドライバ１２２及びアプリケーション１２６を実行し、代わりに又は加えて、他のソフトウェアも実行してもよい。オペレーティングシステム１２０は、ハードウェアリソースを管理すること、サービス要求を処理すること、処理の実行をスケジューリング及び制御すること、並びに、他の演算を実行すること等のように、デバイス１００の様々な態様を制御する。ＡＰＤドライバ１２２は、ＡＰＤ１１６の演算を制御し、処理のためにＡＰＤ１１６にグラフィックレンダリングタスク等のタスク又は他のワークを送信する。いくつかの実施形態では、ＡＰＤドライバ１２２は、ＡＰＤ１１６のプロセシングコンポーネント（以下に更に詳細に説明するＳＩＭＤユニット１３８等）による実行のためにプログラムをコンパイルするジャストインタイムコンパイラを含む。

ＡＰＤ１１６は、並列処理に適切であることができるグラフィック演算及び非グラフィック演算等のように、選択された機能についてのコマンド及びプログラムを実行する。ＡＰＤ１１６は、プロセッサ１０２から受信したコマンドに基づいて、画素演算、幾何学計算、及び、ディスプレイデバイスに画像をレンダリングすること等のようなグラフィックパイプライン演算を実行するために使用されてもよい。また、ＡＰＤ１１６は、プロセッサ１０２から受信したコマンドに基づいて、ビデオに関連する演算、物理シミュレーション、数値流体力学、又は、他のタスク等のように、グラフィック演算に直接関連しない計算処理演算を実行する。

ＡＰＤ１１６は、ＳＩＭＤパラダイムに従って並列方式でプロセッサ１０２の要求において演算を実行するように構成された１つ以上のＳＩＭＤユニット１３８（又は、別のユニット）を含む計算ユニット１３２を含む。ＳＩＭＤパラダイムは、複数のプロセシング要素が単一のプログラム制御フローユニット及びプログラムカウンタを共有し、よって、異なるデータによりそのプログラムを実行することが可能であることを除いて、同一のプログラムを実行する。一例では、各々のＳＩＭＤユニット１３８は、１６個のレーンを含み、各々のレーンは、異なるデータによりその命令を実行することができることを除いて、ＳＩＭＤユニット１３８内の他のレーンと同時に同一の命令を実行する。全てのレーンが所定の命令を実行する必要がない場合、レーンは、プレディケーションによりスイッチオフされてもよい。また、プレディケーションは、分岐制御フローによりプログラムを実行するために使用されてもよい。より詳細には、条件付き分岐又は個々のレーンによって実行される計算に制御フローが基づいている他の命令によるプログラムについて、制御フローパスに対応するレーンのプレディケーションが現在実行されておらず、異なる制御フローパスの直列実行は、任意の制御フローを可能にする。

ＡＰＤ１１６は、計算ユニット１３２にアクセス可能な１つ以上のキャッシュ１４２を含む。キャッシュ１４２は、個々のキャッシュ１４２の何れかに記憶されたデータが計算ユニット１３２の何れかにアクセス可能であることを可能にするように、キャッシュコヒーレントプロトコルを実装する。

計算ユニット１３２によって与えられる並列性は、画素値計算、頂点変換、及び、他のグラフィック演算等のグラフィック関連演算に適切である。よって、いくつかのインスタンスでは、プロセッサ１０２（又は、別のエンティティ）からグラフィックプロセシングコマンドを受け付けるグラフィックパイプライン１３４は、並列に実行するために計算ユニット１３２に計算タスクを提供する。

また、計算ユニット１３２は、グラフィックに関連しない計算タスク、又は、グラフィックパイプライン１３４の「通常（normal）」演算（例えば、グラフィックパイプライン１３４の演算のために実行される処理を補足するように実行されるカスタム演算）の一部として実行されない計算タスクを実行するために使用される。プロセッサ１０２上で実行されるアプリケーション１２６又は他のソフトウェアは、実行のために、そのような計算タスクを定義したプログラム（カーネル）をＡＰＤ１１６に送信する。

計算ユニット１３２における実行の基本単位は、ワークアイテムである。各々のワークアイテムは、特定のレーン内で並列に実行されることになるプログラムの単一のインスタンス化（「カーネル」とも呼ばれることがある）を表す。ワークアイテムは、単一のＳＩＭＤプロセシングユニット１３８上の「ウェーブフロント」として同時に（又は、部分的に同時に、及び、部分的に直列に）実行されてもよい。１つ以上のウェーブフロントは、同一のプログラムを実行するように設計されたワークアイテムの集合を含む「ワークグループ」に含まれる。ワークグループは、ワークグループを構成するウェーブフロントの各々を実行することによって実行されてもよい。代替例では、ウェーブフロントは、単一のＳＩＭＤユニット１３８又は異なるＳＩＭＤユニット１３８上で実行される。ＡＰＤスケジューラ１３６は、計算ユニット１３２及びＳＩＭＤユニット１３８上で様々なワークグループ及びウェーブフロントをスケジューリングすることに関連する演算を実行するように構成されている。使用例では、アプリケーション１２６は、カーネルの実行の「サイズ」に関してカーネルを実行するための方式をＡＰＤ１１６に示し、「サイズ」は、ワークアイテムの数を示す。演算のいくつかのモードでは、アプリケーション１２６は、ワークアイテムがワークグループにどのように分割されるかを決定する。演算の他のモードでは、ＡＰＤ１１６及び／又はドライバ１２２は、ワークアイテムをワークグループにどのように分割するかを決定する。カーネルの実行のサイズ、及び、ワークグループ毎に実行されることになるワークアイテムの数は、何個のワークグループが所定のカーネル実行のために実行されることになるかを決定する。それらのワークグループは、ＡＰＤ１１６によって実行される。ＡＰＤスケジューラ１３６は、コンピューティングリソースの可用性に基づいて（例えば、何個のワークグループが特定の計算ユニット１３２に割り当てられるか、メモリ、レジスタ又は他のリソース等の他のリソースが利用可能であるかどうか）、実行のために計算ユニット１３２にワークグループを割り当てる。

図３は、一例による、命令ディスパッチユニット３００のブロック図である。命令ディスパッチユニット３００は、ＳＩＭＤユニット１３８、プロセッサ１０２、又は、ここで説明されない別のプロセッサ等のプロセッサに含まれている。

命令ディスパッチユニット３００は、命令フェッチブロック３０２と、復号ブロック（デコーダ）３０４と、命令状態メモリ３１０と、を含む。また、命令ディスパッチユニット３００は、低待ち時間（レイテンシ）ブロック３０６及び高待ち時間（レイテンシ）ブロック３０８を含む。低待ち時間ブロックは、復号ユニット３０４の要求において命令状態メモリ３１０に低待ち時間データを提供する。低待ち時間データは、フェッチされることになるその待ち時間が、高待ち時間データのフェッチされることになる待ち時間よりも低い、命令の実行のために必要なデータである。高待ち時間ブロックは、復号ユニット３０４の要求において命令状態メモリ３１０に高待ち時間データを提供する。概して、低待ち時間データは、信号伝播待ち時間に関して復号ユニット３０４に近い構造から取り出すことができるデータである。そのような構造の１つの例は、復号ユニット３０４から特定の値を計算する演算を受信し、それらの値を計算し、命令状態メモリ３１０にそれらの値を提供するカスタム計算回路を含む。低待ち時間構造の別の例は、復号ユニット３０４及び命令状態メモリ３１０に「近い」メモリを含み、その結果、それらのメモリへのアクセス待ち時間は、高待ち時間データユニット３０８の何れかのメモリについての最速のアクセス待ち時間よりも短い。低待ち時間データブロック３０６は、そのような低待ち時間データを提供するプロセシング回路又は低待ち時間メモリ等を含む任意の構造の集合を含む。高待ち時間データは、低待ち時間データユニット３０６の最長待ち時間よりも長い待ち時間を有する、構造から取り出されるデータである。高待ち時間データ構造の例は、キャッシュ（レベル０キャッシュ等の最低レベルのキャッシュを含む）、システムメモリ、不揮発性記憶装置、又は、他の構造を含む。高待ち時間データブロック３０８は、全てのそのような構造を含み、又は、そのような構造が命令ディスパッチユニット３００に対して物理的に外側にある場合、そのような構造への命令ディスパッチユニット３００内のインタフェース（すなわち、高待ち時間データについての要求を送信し、それに応じて高待ち時間データを受信するハードウェア回路）を含む。

動作中、命令フェッチユニット３０２は、実行されることになる命令をフェッチし、復号ユニット３０４にそれらの命令を提供する。復号ユニット３０４は、詳細に示されていない機能ユニットによる実行のためのマイクロ演算を生成するように、命令を分析する。機能ユニットは、算術論理ユニット（ＡＬＵ）、メモリから読み込み若しくはメモリに書き込むロード／ストアユニット、又は、他のユニット等のように、命令についての処理を実行する様々なユニットのうち何れかである。事実上、命令セットアーキテクチャから選択された命令から構成されたプログラムを実行する全てのプロセッサは、復号ユニット及び機能ユニットを有する。

実行されることになる命令は、低待ち時間データ及び高待ち時間データの何れか又は両方を消費する。様々なプロセッサは、低待ち時間データを消費するが高待ち時間データを消費しないいくつかの命令、高待ち時間データを消費するが低待ち時間データを消費しないいくつかの命令、高待ち時間データ及び低待ち時間データを消費するいくつかの命令、及び、高待ち時間データも低待ち時間データも消費しないいくつかの命令を含む命令セットを有する。

復号ユニット３０４が命令を復号した後に、命令が低待ち時間データを必要とする場合、復号ユニット３０４は、低待ち時間データブロック３０６から低待ち時間データをフェッチする。低待ち時間データが取得されると、復号ユニット３０４は、命令についてのマイクロ演算及び低待ち時間データを含むエントリを、命令状態メモリ３１０に配置する。また、復号ユニット３０４は、高待ち時間データブロック３０８から高待ち時間データをフェッチすることをトリガする。高待ち時間データが高待ち時間データブロック３０８から取り出されると、命令は、実行の準備ができており、命令状態メモリ３１０は、機能ユニットに命令を送信する。単一の命令セットアーキテクチャ命令が命令状態メモリ３１０内での複数のエントリを結果としてもたらすことが可能である。言い換えると、復号ユニット３０４が各々の命令セットアーキテクチャ命令についての複数のマイクロ演算を生成し、命令状態メモリ３１０内で各々のマイクロ演算についてのエントリを生成することが可能である。

マイクロ演算及び低待ち時間データを命令状態メモリ３１０に送信する場合、これに加えて、復号ユニット３０４は、電力制御についての情報を命令状態メモリ３１０に送信する。命令状態メモリ３１０は、命令状態メモリ３１０のコンテンツに応じて、及び、復号ユニット３０４から受信した電力制御情報に応じてパワーオン及びパワーオフする、個々に電力供給可能な複数のブロックを含む。

図４は、一例による、命令状態メモリ３１０の詳細なブロック図である。命令状態メモリ３１０は、複数の行（rows）４０４内に編成された複数のブロック４０２を含む。各々の行４０４は、１つ以上のエントリを含む。行４０４内で、各々のブロック４０２は、他のブロック４０２とは異なるタイプのデータを記憶する。特に、ブロック４０２は、エントリが対象とするマイクロ演算を識別するデータである「コア命令状態」、又は、特定のタイプの低待ち時間データを記憶する。各々のブロック４０２は、各々の他のブロックとは別にパワーオン又はパワーオフされてもよい。「パワーオン又はパワーオフ」という用語は、クロックゲーティング（メモリ素子内のデータを保持するようにクロックを中断若しくは再開するが、読み込み若しくは書き込みを防止する）又は電力ゲーティング（ブロック４０２に電力をスイッチオン若しくはスイッチオフする）の何れかを実行することを集合的に差す。各々の行４０４も、個々にパワーオン又はパワーオフされてもよい。コントローラ４０１は、エントリが特定の行４０４に配置され、又は、特定の行４０４から除去されるかに関わらず、メモリ４００のコンテンツに応じて、及び、復号ユニット２０４から受信した電力制御についての情報に応じて、行をパワーオン及びパワーオフする。

図４では、各々の行内の同一の位置にあるブロック４０２は、同一のタイプのデータを記憶する。一例では、状態１についてのブロック４０２は、同一のタイプのデータを記憶し、状態２についてのブロック４０２の全ては、同一のタイプのデータを記憶する、等である。特定の命令は、行４０４に記憶することができるタイプのデータの何れかのサブセットを必要とすることがある。より具体的には、１つのタイプの命令は、状態１についてのブロックに記憶されるデータ、及び、状態３についてのブロックに記憶されるデータを必要とすることがあるが、状態２についてのブロック等の他のブロックに記憶されるデータを必要としないことがある。よって、その命令についての命令状態メモリ３１０内のエントリは、状態１についてのブロック及び状態２についてのブロックにデータを記憶するが、他のブロックに記憶しない。

いくつかの状況では、コントローラ４０１は、行４０４内のエントリがブロック４０２のタイプのデータを記憶しない場合、その行内のそのブロックをパワーオフする。特定のブロック４０２についてのデータを使用する行４０４内の最後のエントリが行４０４から削除されたことを検出した後に、コントローラは、そのブロック４０２を即時にパワーダウンする。いくつかの実施形態では、特定のブロック４０２についてのデータを使用する行４０４内の最後のエントリが行４０４から削除されたことを検出した後に、コントローラは、待機期間に移行する。待機期間の間、ブロック４０２と関連付けられたデータを使用する行４０４に別のエントリが配置されることになるとコントローラ４０１が判別した場合、コントローラ４０１は、ブロック４０２をパワーダウンしない。待機期間の間、ブロック４０２と関連付けられたデータを使用する行４０４にエントリが配置されないことになるとコントローラ４０１が判別した場合、コントローラ４０１は、ブロック４０２をパワーダウンする。

ブロック４０２のパワーダウンについての待機期間は、任意の技術的に実現可能な方法で判別されてもよい。待機期間は、命令状態メモリ３１０の状態に関わらず一定であってもよいし、命令状態メモリ３１０の状態及び／又は復号ユニット３０４によって復号される命令の状態に応じて可変であってもよい。いくつかの実施形態では、ブロック４０２のパワーダウンについての待機期間は、アイドル期間の間にブロック４０２をパワーオンしたままにすることによって消費される電力と、ブロック４０２をターンオフし、次いで、アイドル期間の間に再度ターンオンすることによって保存される電力と、の間の比較に基づいている。アイドル期間は、ブロック４０２がエンプティになるときと、新たなエントリがブロック４０２に配置されるときと、の間のサイクルの回数である。いくつかの例では、アイドル期間は、命令ディスパッチユニット３００の状態から既知である。特に、ブロック４０２がエンプティになるとき、それに対してブロック４０２を使用したエントリが命令状態メモリ３１０において未だ生成されていない（例えば、低待ち時間データがフェッチされている）命令ディスパッチユニット３００において処理される命令が存在するが、ブロック４０２がエンプティになった後に特定の回数のサイクル内にブロック４０２内のエントリを命令が必要とすることが既知である場合、特定の回数のサイクルは、アイドル期間の持続時間である。命令ディスパッチユニット３００において命令が存在しない場合、アイドル期間は、デフォルトのアイドル期間であり、デフォルトのアイドル期間は、いくつかの実施形態では、ブロック４０２内で空間を必要とする命令を命令ディスパッチユニット受信するときから、命令が実際にそのブロック４０２を占有することになるときまでの最小回数のサイクルである。いくつかの実施形態では、ブロック４０２をパワーオフし、次いで、アイドル期間の間にパワーオンすることによって消費される電力量に対する、アイドル期間内にブロック４０２をパワーオンしたままにすることによって消費される電力量は、設計者によって予め定められている。その状況では、命令状態メモリ３１０は、パワーオフされ、アイドル期間が閾値を上回る場合に再度パワーオンされるように構成され、アイドル期間が閾値以下である場合、パワーオンされたままであるように構成され、閾値は、クロスオーバポイントであり、クロスオーバポイントでは、ブロック４０２をパワーオフし、次いで、ブロック４０２をパワーオンする代わりに、それがブロック４０２をパワーオンしたままにするために、電力コストがより高くなる。いくつかの例では、閾値は、例えば、構成レジスタを介してプログラム可能である。

いくつかの状況では、行がエントリを記憶しない場合、コントローラ４０１は、行４０４をパワーオフする。いくつかの実施形態では、行４０４内の最後のエントリが行４０４から削除されたことを検出した後に、コントローラは、その行４０４を即時にパワーダウンする。いくつかの実施形態では、行４０４内の最後のエントリが行４０４から削除されたことを検出した後に、コントローラは、待機期間に移行する。待機期間の間、別のエントリが行４０４に配置されることになるとコントローラ４０１が判別した場合、コントローラ４０１は、行４０４をパワーダウンしない。待機期間の間、他のエントリが行４０４に配置されないことになるとコントローラが判別した場合、コントローラ４０１は、行４０４をパワーダウンする。

行４０４のパワーダウンについての待機期間は、任意の技術的に実現可能な方法において判別されてもよい。待機期間は、命令状態メモリ３１０の状態に関わらず一定であってもよいし、命令状態メモリ３１０の状態及び／又は復号ユニット３０４によって復号される命令の状態に応じて可変であってもよい。いくつかの実施形態では、行４０４のパワーダウンについての待機期間は、パワーオンされる行４０４の数に基づいている。特に、パワーオンされる行が多いと、遅延４０４が短くなる。いくつかの実施形態では、行４０４のパワーダウンについての待機期間は、パワーオンされる他の行４０４内の解放されたエントリの数に基づいている。パワーオンされる他の行４０４に存在する解放されたエントリが多いと、遅延が短くなる。いくつかの実施形態では、待機期間は、何個のエントリがインフライト命令に対して必要とされるかに基づいている。いくつかの実施形態では、命令状態メモリ３１０は、ブロック４０２をパワーダウンするかどうかに関わらず、上述した説明と同様の方法で行４０４をどのようにパワーダウンするかを判別し、「行４０４」は、「ブロック４０２」と置き換えられる。

図５は、一例による、命令状態メモリ３１０に新たなエントリを配置する演算を示す図である。コントローラ４０１は、ターンオフすることができる行４０４の数を最大にするために、行４０４内でエントリを共にクラスタすることを試みる。特に、コントローラ４０１が命令状態メモリ３１０に配置する新たなエントリを受信するとき、コントローラ４０１は、最小のエンプティエントリスロットを有すると共に、少なくとも１つのエンプティエントリスロットをなおも有する行４０４を判別し、識別された行４０４内でエンプティエントリスロットの１つに新たなエントリを配置する。一例では、２つの行４０４が同一の数のエンプティエントリを有する場合、コントローラ４０１は、最新のエントリを有する行４０４を選択する。新たなエントリを受信するためにエンプティエントリスロットの数が最小の行４０４を選択することは、アクティブな行４０４の総数が少なくなり、より多くの数の行４０４がパワーダウンされることを可能にする。

いくつかの状況では、新たなエントリが特定のタイプの低待ち時間データを必要とし、よって、エントリが配置される行４０４内で特定のブロック４０２がパワーオンされる必要があることを必要とすると判別すると、コントローラ４０１は、パワーオフされたそのブロック４０２を有する行４０４の代わりに、既にパワーオンされたブロック４０２を有する行４０４を選択する。いくつかの実施形態では、２つの行４０４が同一の数のエンプティエントリを有するが、１つがパワーオンされた新たなエントリによって必要なブロック４０２を有し、１つがパワーオンされたそのブロック４０２を有さない場合、コントローラ４０１は、パワーオンされた必要なブロック４０２を有する行４０４を選択する。いくつかの実施形態では、選択された行４０４が、パワーオンされた必要なブロック４０２を有する最小数のエンプティエントリを有する行４０４である限り、その行４０４が別の行４０４よりも多いエンプティエントリを有する場合でさえ、コントローラ４０１は、パワーオンされた必要なブロック４０２を有する行４０４を選択する。いくつかの実施形態では、選択されることになる行４０４内のエンプティエントリの数が、パワーオフされた必要なブロック４０２を有する行４０４内のエンプティエントリの数の閾値数内又は閾値割合内にある限り、パワーオフされた必要なブロック４０２を有する別の行４０４よりもその行が多くのエンプティエントリを有する場合、コントローラ４０１は、パワーオンされた必要なブロック４０２を有する行４０４を選択する。

図６は、命令状態メモリ３１０、ＳＩＭＤユニット命令状態メモリ６００の例示的な実施形態のブロック図である。ＳＩＭＤユニット命令状態メモリ６００は、コア命令状態についてのブロック６０２と、フィルタリング重みについてのブロック６０４と、参照データについてのブロック６０６と、を含む。

上述したように、ＳＩＭＤユニット１３８は、一連の命令を含むシェーダプログラムを実行する。命令状態メモリ３１０を含む命令ディスパッチユニット３００は、命令をフェッチ及び復号し、復号した命令及び状態データを命令状態メモリ３１０に配置する。

コア命令状態は、実行されることになる命令に対して実行される必要がある演算を識別する情報である。一例では、命令は、加算命令であり、コア命令状態は、加算演算が実行される必要があることを示す。フィルタリング重みについてのブロック６０４は、テキスチャ命令についてのフィルタリング重みを記憶する。より具体的には、いくつかの命令は、フィルタの適用による、テキスチャデータの操作を必要とする。フィルタは、命令識別子に基づいて決定された重みを含んでもよく、それらの重みは、テクセル等のオペランドに適用されてもよい。この例では、フィルタ重みは、低待ち時間データであり、テクセルは、高待ち時間データである。フィルタ重みは、低待ち時間データブロック３０６から取り出されたことに応じて、フィルタリング重み６０４についてのブロックに配置される。

参照データ６０６についてのブロック６０６は、命令によって使用されることになる参照データを記憶する。参照データは、高待ち時間データのアイテム等のように、別の値と比較されることになるデータである。一例では、参照データについてのブロック６０６は、Ｚテスト（深度テストとも呼ばれることがある）のために使用される画素についての深度値を記憶する。いくつかの例では、画素シェーダプログラムは、深度バッファに記憶された値に対して深度テストを実行する。特に、画素シェーダは、処理される画素の深度値を深度バッファ内の値と比較し、画素を破棄してもよいし、及び／又は、結果として深度バッファを修正してもよい。参照データは、画素についての深度値であり、オペランドは、深度バッファから取り出された値である。

命令は、典型的には、コア命令状態についてのブロック６０２を使用する。よって、いくつかの実施形態では、行４０４がパワーオンされるとき、コア命令状態についてのブロック６０２はパワーオフされない。命令は、命令の識別子に応じて、フィルタリング重みについてのブロック６０４又は参照データについてのブロック６０６の何れか又は両方を使用してもよい。よって、命令が特定の行４０４内にあるとき、その命令によって使用される低待ち時間データについてのブロックは、スイッチオンされる。様々な実施形態では、フィルタリング重み又は参照データの何れか又は両方を使用する命令がパワーオフされたそれらのブロックと共に行４０４に配置されることになるとコントローラ４０１が判別した場合、コントローラ４０１は、それらのブロックをパワーオンさせる。

図７は、一例による、命令状態メモリ３１０にエントリを配置する方法７００のフローチャートである。図１～図６のシステムに関して説明するが、当業者は、任意の技術的に実現可能な順序で方法７００のステップを実行するように構成された任意のシステムが本開示の範囲内に含まれることを理解するであろう。

方法７００は、ステップ７０２において開始し、ステップ７０２では、命令状態メモリ３１０のコントローラ４０１は、命令のための命令状態メモリエントリについての情報を受信する。この情報は、デコーダ３０４から受信され、何れのタイプの低待ち時間データが命令状態メモリエントリと関連付けられた命令によって使用されるかを示す。フェッチされることになる低待ち時間データを命令が必要とする場合、デコーダ３０４は、低待ち時間データブロック３０６からその情報を要求する。また、デコーダ３０４は、高待ち時間データブロック３０８から高待ち時間データを要求する。デコーダ３０４が複数のマイクロ演算に命令を拡大してもよいこと、及び、各々のマイクロ演算が命令状態メモリエントリを必要とすることがあることに留意されたい。このケースでは、方法７００の態様（ステップ７０４及び７０６等）、又は、方法７００の全ては、命令から生成されたマイクロ演算毎に繰り返される。いくつかの実施形態では、クラスタリング基準は、１つのみのスロットの代わりに、命令について必要な総数のスロットを考慮する。

ステップ７０４において、コントローラ４０１は、クラスタリング基準に基づいて、命令状態メモリ３１０内のスロットを識別する。クラスタリング基準は、より少ない行４０４内でより多くのエントリをクラスタリングさせて、より多くの行４０４がパワーオフされることを可能にするために存在する。いくつかの実施形態では、クラスタリング基準は、パワーオンされた同一のブロック４０２及びパワーオフされた同一のブロック４０２を有する行４０４内でエントリをクラスタリングさせる。

いくつかの実施形態では、クラスタリング基準は以下の通りである。コントローラ４０１は、最小の、非ゼロの数のエンプティエントリを有する行４０４に新たなエントリを配置することを試みる。このアクションは、行４０４内のエントリの集中を結果としてもたらす。

いくつかの実施形態では、クラスタリング基準は、使用される行４０４内でパワーオンされたブロック４０２を考慮に入れる。一例では、最小数のエントリを有する複数の行４０４が存在する場合（すなわち、２つ以上の行４０４が最小数のエンプティエントリでもある同一の数のエンプティエントリを有する場合）、コントローラ４０１は、パワーオンされる最小数のブロック４０２を結果としてもたらす行４０４を選択する。例えば、命令についての新たなエントリがブロック２についての低待ち時間データを必要とする場合、及び、最小数のエントリを有する１つの行４０４がパワーオンされたブロック２を有し、最小数のエントリを有する１つの行４０４がパワーオフされたブロックを有する場合、コントローラ４０１は、新たなエントリを配置するためにパワーオンされたブロック２を有する行４０４を選択する。いくつかの実施形態では、行４０４は、同一の数のエンプティエントリを有する必要がなく、行４０４が行４０４内での最小数のエンプティエントリの閾値数内又は閾値割合内の数のエンプティエントリを有し、その行４０４がパワーオンされた必要とされるブロックを有するが、より小数のエンプティエントリを有する行４０４がパワーオンされた必要とされるブロックを有さない場合、コントローラ４０１は、より小数のエンプティエントリを有する行４０４の代わりに、パワーオンされた必要とされるブロックを有する行４０４を選択する。いくつかの実施形態では、コントローラ４０１は、パワーオンすることができるブロック４０２の考えられる組み合わせ毎に、又は、パワーオンすることができるブロック４０２の組み合わせのサブセットについて、１つの行４０４をパワーオンしたままにする。この実施形態では、新たなエントリについて、コントローラ４０１は、その上で必要とされるブロック４０２をも有し、又は、それに対して最小数のブロック４０２がパワーオンされる必要がある最小数のエントリを有する行４０４を選択する。エンプティエントリを有する行４０４が存在しない場合、コントローラ４０１は、行４０４をパワーオンする。同様に、エントリについて必要とされるパワーオンされたブロック４０２を行４０４が有さない場合、コントローラ４０１は、少なくとも１つのブロック４０２をパワーオンする。ステップ７０６において、コントローラ４０１は、識別されたスロットに命令状態メモリエントリを配置する。

命令についての全ての高待ち時間データが命令状態メモリ３１０内に入る場合、命令状態メモリ３１０は、機能ユニットに命令を送信する。さらに、命令が行４０４内で最後の命令であった場合、又は、行４０４内で特定のブロック４０２を使用する最後の命令であった場合、コントローラ４０１は、行４０４又はブロック４０２をパワーダウンする。パワーダウンは、本明細書で他に説明したように遅延の後に行われてもよい。また、遅延の間、行４０４又はブロック４０２を必要とする新たな命令が入る場合、パワーダウンが行われない。さらに、いくつかの実施形態では、命令についての情報が実行のために機能ユニットに送信される場合、命令について実際にパワーオンされたブロック４０２のみが読み込まれ、よって、電力供給されていないブロックから読み込むための電力が消費されない。

本明細書における開示に基づいて、多くの変形が可能であることを理解されたい。特徴及び要素を特定の組み合わせで上述したが、各々の特徴又は要素は、他の特徴及び要素なしに単独で使用されてもよいし、他の特徴及び要素との様々な組み合わせ又は他の特徴及び要素なしの様々な組み合わせで使用されてもよい。

図に示され、及び／又は、本明細書で説明した様々な機能ユニット（限定されないが、プロセッサ１０２、入力ドライバ１１２、入力デバイス１０８、出力ドライバ１１４、出力デバイス１１０、アクセラレーテッドプロセシングデバイス１１６、スケジューラ１３６、グラフィックプロセシングパイプライン１３４、計算ユニット１３２、ＳＩＭＤユニット１３８、命令ディスパッチユニット３００、命令フェッチユニット３０２、復号ユニット３０４、低待ち時間データユニット３０６、高待ち時間データユニット３０８、命令状態メモリ３１０、又は、コントローラ４０１を含む）は、汎用コンピュータ、プロセッサ又はプロセッサコアとして実装されてもよいし、汎用コンピュータ、プロセッサ又はプロセッサコアによって実行可能な非一時的なコンピュータ可読記憶媒体や別の媒体に記憶されたプログラム、ソフトウェア又はファームウェアとして実装されてもよい。提供される方法は、汎用コンピュータ、プロセッサ又はプロセッサコアにおいて実施されてもよい。適切なプロセッサは、例として、汎用プロセッサ、特殊目的プロセッサ、従来型のプロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアと関連した１つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）回路、の他のタイプの集積回路（ＩＣ）、及び／又は、状態機械を含む。このようなプロセッサは、ネットリストを含む処理されたハードウェア記述言語（ＨＤＬ）命令及び他の中間データ（コンピュータ可読媒体に記憶されることが可能な命令）の結果を使用して製造工程を構成することによって、製造されてもよい。このような処理の結果は、マスクワークであってもよく、マスクワークは、開示した特徴を実装するプロセッサを製造する半導体製造工程において使用される。

本明細書で提供される方法又はフローチャートは、汎用コンピュータ又はプロセッサによる実行のために非一時的なコンピュータ可読記憶媒体に組み込まれたコンピュータプログラム、ソフトウェア又はファームウェアにおいて実装されてもよい。非一時的なコンピュータ可読記憶媒体の例は、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスク及び着脱可能ディスク等の磁気媒体、磁気光学媒体、並びに、ＣＤ－ＲＯＭディスク及びデジタル多用途ディスク（ＤＶＤ）等の光学媒体を含む。

Claims

コンピュータ命令を処理する方法であって、
命令に関する命令状態メモリエントリの情報を取得することと、
クラスタリング基準に基づいて、前記命令状態メモリエントリについて、選択可能に電力供給される行及びブロックを有する命令状態メモリ内のスロットを識別することと、
前記命令状態メモリエントリを、識別されたスロットに配置することと、を含む、
方法。
前記命令状態メモリエントリの情報は、前記命令に関する１つ以上の演算を含む、
請求項１の方法。
前記命令状態メモリエントリの高待ち時間データを受信すると、前記命令状態メモリエントリ内のデータ及び前記高待ち時間データを、実行のために１つ以上の機能ユニットに送信することをさらに含み、
前記高待ち時間データは、前記命令状態メモリエントリに記憶された低待ち時間データよりも高いアクセス待ち時間を有する、
請求項１の方法。
前記命令状態メモリエントリ内の前記データを、実行のために前記１つ以上の機能ユニットに送信した後に、前記データが送信された行に占有されたスロットがないと判別することと、
前記行をパワーダウンすることと、をさらに含む、
請求項３の方法。
前記パワーダウンは、待機期間の後に行われる、
請求項４の方法。
前記クラスタリング基準に基づいて、前記命令状態メモリ内のスロットを識別することは、
前記命令状態メモリ内の行のうち、最小の、非ゼロの数の空きスロットを有する行を識別することと、
識別された行の空きスロットを、前記命令状態メモリエントリ用のスロットとして識別することと、を含む、
請求項１の方法。
前記命令状態メモリエントリは、第１のタイプのデータのアイテムを含み、
前記命令状態メモリにおいて、第１のパワーオンされた行は、前記第１のタイプのデータについての第１のブロックを含み、前記第１のブロックはパワーオンされており、第２のパワーオンされた行は、前記第１のタイプのデータについての第２のブロックを含み、前記第２のブロックはパワーオフされており、
前記スロットを識別することは、前記第１のパワーオンされた行内のスロットを識別することを含む、
請求項１の方法。
前記第２のパワーオンされた行は、前記第１のパワーオンされた行よりも多くの空きスロットを含む、
請求項７の方法。
前記スロットを識別することは、
パワーオンされた行が空きスロットを有していないと判別することと、
パワーオフされた行をパワーオンすることと、を含む、
請求項１の方法。
命令状態メモリであって、
複数の選択可能に電力供給される行であって、各々の行は、複数の選択可能に電力供給されるブロックを有する、複数の選択可能に電力供給される行と、
コントローラと、を備え、
前記コントローラは、
命令に関する命令状態メモリエントリの情報を取得することと、
クラスタリング基準に基づいて、前記命令状態メモリエントリについて、選択可能に電力供給される行及びブロックを有する命令状態メモリ内のスロットを識別することと、
前記命令状態メモリエントリを、識別されたスロットに配置することと、
を行うように構成されている、
命令状態メモリ。
前記命令状態メモリエントリの情報は、前記命令に関する１つ以上の演算を含む、
請求項１０の命令状態メモリ。
前記コントローラは、
前記命令状態メモリエントリの高待ち時間データを受信すると、前記命令状態メモリエントリ内のデータ及び前記高待ち時間データを、実行のために１つ以上の機能ユニットに送信するように構成されており、
前記高待ち時間データは、前記命令状態メモリエントリに記憶された低待ち時間データよりも高いアクセス待ち時間を有する、
請求項１０の命令状態メモリ。
前記コントローラは、
前記命令状態メモリエントリ内の前記データを、実行のために前記１つ以上の機能ユニットに送信した後に、前記データが送信された行に占有されたスロットがないと判別することと、
前記行をパワーダウンすることと、
を行うように構成されている、
請求項１２の命令状態メモリ。
前記パワーダウンは、待機期間の後に行われる、
請求項１３の命令状態メモリ。
前記クラスタリング基準に基づいて、前記命令状態メモリ内のスロットを識別することは、
前記命令状態メモリ内の行のうち、最小の、非ゼロの数の空きスロットを有する行を識別することと、
識別された行の空きスロットを、前記命令状態メモリエントリ用のスロットとして識別することと、を含む、
請求項１０の命令状態メモリ。
前記命令状態メモリエントリは、第１のタイプのデータのアイテムを含み、
前記命令状態メモリにおいて、第１のパワーオンされた行は、前記第１のタイプのデータについての第１のブロックを含み、前記第１のブロックはパワーオンされており、第２のパワーオンされた行は、前記第１のタイプのデータについての第２のブロックを含み、前記第２のブロックはパワーオフされており、
前記スロットを識別することは、前記第１のパワーオンされた行内のスロットを識別することを含む、
請求項１０の命令状態メモリ。
前記第２のパワーオンされた行は、前記第１のパワーオンされた行よりも多くの空きスロットを含む、
請求項１６の命令状態メモリ。
前記スロットを識別することは、
パワーオンされた行が空きスロットを有していないと判別することと、
パワーオフされた行をパワーオンすることと、を含む、
請求項１０の命令状態メモリ。
命令状態メモリと、
機能ユニットと、
を備えるプロセッサであって、
前記命令状態メモリは、
複数の選択可能に電力供給される行であって、各々の行は、複数の選択可能に電力供給されるブロックを有する、複数の選択可能に電力供給される行と、
コントローラと、を備え、
前記コントローラは、
命令に関する命令状態メモリエントリの情報を取得することと、
クラスタリング基準に基づいて、前記命令状態メモリエントリについて、選択可能に電力供給される行及びブロックを有する命令状態メモリ内のスロットを識別することと、
前記命令状態メモリエントリを、識別されたスロットに配置することと、
を行うように構成されており、
前記機能ユニットは、
前記命令を実行するように構成されている、
プロセッサ。
前記コントローラは、
前記命令状態メモリエントリの高待ち時間データを受信した後に、前記命令状態メモリエントリ内のデータ及び前記高待ち時間データを、実行のために前記機能ユニットに送信するように構成されており、
前記高待ち時間データは、前記命令状態メモリエントリに記憶された低待ち時間データよりも高いアクセス待ち時間を有する、
請求項１９のプロセッサ。