JP2022548563A

JP2022548563A - フレキシブルマルチユーザグラフィックアーキテクチャ

Info

Publication number: JP2022548563A
Application number: JP2022515814A
Authority: JP
Inventors: ウ― ルイジン; ジョナソンサレハスカイラー; ゴエルヴィニート
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2019-09-24
Filing date: 2020-09-18
Publication date: 2022-11-21
Also published as: WO2021061532A1; KR20220062020A; EP4035001A1; CN114402302A; EP4035001A4; US20210089423A1

Abstract

複数のコアを含むプロセッサを動作させる技術が提供される。技術は、アクティブアプリケーションの数を判定することと、アクティブアプリケーションの数に基づいて、プロセッサ用のプロセッサ構成を選択することと、選択されたプロセッサ構成に従ってプロセッサを構成することと、構成されたプロセッサを用いてアクティブアプリケーションを実行することと、を含む。
【選択図】図１Ｃ

Description

（関連出願への相互参照）
本願は、その全体が本明細書で参照によって以下に組み込まれる、２０１９年９月２４日に出願された「ＦＬＥＸＩＢＬＥＭＵＬＴＩ－ＵＳＥＲＧＲＡＰＨＩＣＳＡＲＣＨＩＴＥＣＴＵＲＥ」と題する係属中の米国仮特許出願第６２／９０５，０１０号、及び、２０２０年６月２６日に出願された「ＦＬＥＸＩＢＬＥＭＵＬＴＩ－ＵＳＥＲＧＲＡＰＨＩＣＳＡＲＣＨＩＴＥＣＴＵＲＥ」と題する係属中の米国特許出願第１６／９１３，５６２号の利益を主張する。

グラフィック処理ハードウェアは、アプリケーションのグラフィックレンダリングタスクを高速化する。サーバサイズのハードウェアベースのレンダリングがますます一般的になっており、そのようなレンダリングの改善が頻繁に行われている。

添付図面と共に以下の説明からより詳細な理解を得ることができる。

一例による、クラウドゲーミングシステムのブロック図である。開示された１つ以上の特徴を実装することができる例示的なデバイスのブロック図である。一例による、サーバの追加の詳細を示す図である。一例による、グラフィックコアの詳細を示すブロック図である。図２に示すグラフィック処理パイプラインの追加の詳細を示すブロック図である。一例による、複数のグラフィックコアを有するグラフィックプロセッサを動作させる方法のフローチャートである。

複数のコアを含むプロセッサを動作させる技術が提供される。技術は、アクティブアプリケーションの数を判定することと、アクティブアプリケーションの数に基づいて、プロセッサについてのプロセッサ構成を選択することと、選択されたプロセッサ構成に従ってプロセッサを構成することと、構成されたプロセッサを用いてアクティブアプリケーションを実行することと、を含む。

図１Ａは、一例による、クラウドゲーミングシステム１０１のブロック図である。サーバ１０３は、１つ以上のクライアント１０５と通信する。サーバ１０３は、グラフィックハードウェアを少なくとも部分的に使用して、ゲーミングアプリケーションを実行する。サーバ１０３は、１つ以上のクライアント１０５から、ボタン押下及びマウス移動等の入力を受信する。サーバ１０３は、サーバ１０３上で実行されるアプリケーションにそれらの入力を提供し、サーバ１０３は、入力を処理し、クライアント１０５への送信のためのビデオデータを生成する。サーバ１０３は、表示のためにクライアント１０５にこのビデオデータを送信し、クライアント１０５は、ビデオデータを表示する。

図１Ｂは、開示された１つ以上の特徴を実装することができる例示的なデバイス１００のブロック図である。様々な実施形態では、図１Ａのサーバ１０３及び／又はクライアント１０５は、デバイス１００として実装される。サーバは、グラフィックプロセッサ１０７を含む。異なる実施形態では、クライアント１０５は、グラフィックプロセッサ１０７を含む又は含まない。様々な実施形態では、デバイス１００は、例えば、コンピュータ、ゲーミングデバイス、ハンドヘルドデバイス、セットトップボックス、テレビ、携帯電話又はタブレットコンピュータを含む。デバイス１００は、プロセッサ１０２と、メモリ１０４と、記憶装置１０６と、１つ以上の入力デバイス１０８と、１つ以上の出力デバイス１１０と、を含む。また、デバイス１００は、オプションで入力ドライバ１１２及び出力ドライバ１１４を含む。デバイス１００は、図１Ｂに示されていない追加の構成要素を含んでもよいことを理解されたい。

様々な代替例では、プロセッサ１０２は、中央処理ユニット（ＣＰＵ）、グラフィックプロセシングユニット（ＧＰＵ）、同一のダイ上に位置するＣＰＵ及びＧＰＵ、又は、１つ以上のプロセッサコアを含み、各プロセッサコアは、ＣＰＵ又はＧＰＵであってもよい。様々な代替例では、メモリ１０４は、プロセッサ１０２と同一のダイ上に位置し、又は、プロセッサ１０２とは別に位置する。メモリ１０４は、揮発性メモリ又は不揮発性メモリ（例えば、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックＲＡＭ、キャッシュ）を含む。

記憶装置１０６は、固定記憶装置又は着脱可能記憶装置（例えば、ハードディスクドライブ、ソリッドステートドライブ、光学ディスク、フラッシュドライブ）を含む。入力デバイス１０８は、限定されないが、キーボード、キーパッド、タッチスクリーン、タッチパッド、検出器、マイクロフォン、加速度計、ジャイロスコープ、生体スキャナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信及び／若しくは受信のための無線ローカルエリアネットワークカード）を含む。出力デバイス１１０は、限定されないが、ディスプレイ、スピーカ、プリンタ、触覚フィードバックデバイス、１つ以上のライト、アンテナ、又は、ネットワーク接続（例えば、無線ＩＥＥＥ８０２信号の送信及び／若しくは受信のための無線ローカルエリアネットワークカード）を含む。

入力ドライバ１１２は、プロセッサ１０２及び入力デバイス１０８と通信し、プロセッサ１０２が入力デバイス１０８から入力を受信することを可能にする。出力ドライバ１１４は、プロセッサ１０２及び出力デバイス１１０と通信し、プロセッサ１０２が出力デバイス１１０に出力を送信することを可能にする。出力ドライバ１１４は、グラフィックプロセッサ１０７を含む。グラフィックプロセッサ１０７は、プロセッサ１０２からグラフィックレンダリングコマンドを受け付け、それらの計算及びグラフィックレンダリングコマンドを処理し、表示のためにディスプレイデバイスに画素出力を提供するように構成されている。

図１Ｃは、一例による、サーバ１０３の追加の詳細を示す図である。プロセッサ１０２は、複数の仮想マシンがプロセッサ１０２上で実行される仮想化スキームをサポートするように構成されている。各仮想マシン（ＶＭ）は、そのＶＭ内で実行されるソフトウェアには、完全に「本物の（rial）」ハードウェアコンピュータシステムとして「見える」が、実際には、他の仮想マシンとデバイス１００を共有し得る仮想化コンピューティング環境を含む。仮想化は、ソフトウェアにおいて完全に、ハードウェアにおいて部分的に、ソフトウェアにおいて部分的に、又は、ハードウェアにおいて完全にサポートされてもよい。グラフィックプロセッサ１０７は、仮想化をサポートし、仮想化は、プロセッサ１０２上で実行される複数の仮想マシンにわたってグラフィックプロセッサ１０７を共有することができると共に、ＶＭが実際のハードウェアグラフィックプロセッサ１０７の完全な所有権を有すると各ＶＭが「信じる」ことを意味する。グラフィックプロセッサ１０７は、グラフィックプロセッサ１０７の異なるグラフィックコア１１６を各アクティブゲストＶＭ２０４に割り当てることによって、仮想化をサポートする。各グラフィックコア１１６は、関連するゲストＶＭ２０４のためにグラフィック演算を実行し、他のゲストＶＭ２０４のために実行しない。

プロセッサ１０２は、１つ以上のゲストＶＭ２０４と、いくつかの実施形態ではホストＶＭ２０２と、を含む複数の仮想マシンをサポートする。ホストＶＭ２０２は、ゲストＶＭ２０４に対してグラフィックプロセッサ１０７の仮想化を管理することに関連する１つ以上の態様を実行する。ハイパーバイザ２０６は、仮想マシンに割り当てられたリソースを管理すること、仮想マシンをスポーン（spawning）及びキル（killing）すること、システムコールを処理すること、周辺デバイスへのアクセスを管理すること、メモリ及びページテーブルを管理すること、並びに、様々な他の機能等の多種多様な機能を実行することによって、仮想マシンに対する仮想化サポートを提供する。いくつかの実施形態では、ホストＶＭ２０２は、アドミニストレータ又は管理ソフトウェアが、仮想化に関連するグラフィックプロセッサ１０７の構成動作を制御するためのインタフェースを提供する。いくつかのシステムでは、本明細書で説明するホストＶＭ２０２の機能は、代わりにハイパーバイザ２０６によって実行される（これが、ＧＰＵ仮想化ドライバ１２１がハイパーバイザ２０６において点線で示される理由である）。

ホストＶＭ２０２及びゲストＶＭ２０４は、オペレーティングシステム１２０を有する。ホストＶＭ２０２は、管理アプリケーション１２３及びＧＰＵ仮想化ドライバ１２１を有する。ゲストＶＭ２０４は、アプリケーション１２６、オペレーティングシステム１２０及びＧＰＵドライバ１２２を有する。それらの要素は、プロセッサ１０２及びグラフィックプロセッサ１０７の動作の様々な特徴を制御する。

ホストＶＭ２０２のＧＰＵ仮想化ドライバ１２１は、グラフィックプロセッサ１０７の仮想化の態様を理解することなく、単にグラフィックプロセッサ１０７と通信し、グラフィックレンダリング（又は、他の）コマンドをグラフィックプロセッサ１０７に送信する、従来のグラフィックドライバではない。その代わりに、ＧＰＵ仮想化ドライバ１２１は、仮想化のためにグラフィックプロセッサ１０７の様々な態様を構成するように、グラフィックプロセッサ１０７と通信する。いくつかの例では、構成機能を実行することに加えて、ＧＰＵ仮想化ドライバ１２１は、グラフィックプロセッサ１０７に対して従来のグラフィックレンダリングコマンドを発行し、又は、グラフィックプロセッサ１０７の構成に直接関連しない他のコマンドを発行する。

ゲストＶＭ２０４は、オペレーティングシステム１２０、ＧＰＵドライバ１２２及びアプリケーション１２６を含む。オペレーティングシステム１２０は、プロセッサ１０２上で実行される任意のタイプのオペレーティングシステムである。ＧＰＵドライバ１２２は、ＧＰＵドライバ１２２が実行されているゲストＶＭ２０４に対してグラフィックプロセッサ１０７の動作を制御し、グラフィックレンダリングタスク又は他のワーク等のタスクを、処理のためにグラフィックプロセッサ１０７に送信するという点で、グラフィックプロセッサ１０７の「ネイティブ」ドライバである。ネイティブドライバは、必要最小限の仮想化されていないコンピューティングシステムに存在する、ＧＰＵ用デバイスドライバの未修正又は僅かに修正されたバージョンであってもよい。

ＧＰＵ仮想化ドライバ１２１は、ホストＶＭ２０２内に含まれるものとして説明しているが、他の実施形態では、ＧＰＵ仮想化ドライバ１２１は、代わりにハイパーバイザ２０６に含まれてもよい。そのような実施形態では、ホストＶＭ２０２が存在せず、ホストＶＭ２０２の機能がハイパーバイザ２０６によって実行されてもよい。

ホストＶＭ２０２及びゲストＶＭ２０４のオペレーティングシステム１２０は、ハードウェアと通信すること、リソース及びファイルシステムを管理すること、仮想メモリを管理すること、ネットワークスタックを管理すること、並びに、多くの他の機能等のように、仮想化環境内でオペレーティングシステムの標準的な機能を実行する。ＧＰＵドライバ１２２は、例えば、グラフィックプロセッサ１０７の様々な機能にアクセスするために、ソフトウェア（例えば、アプリケーション１２６）にアプリケーションプログラミングインタフェース（ＡＰＩ）を提供することによって、何れかの特定のゲストＶＭ２０４に対してグラフィックプロセッサ１０７の動作を制御する。いくつかの実施形態では、ドライバ１２２は、グラフィックコア１１６の処理構成要素（以下で更に詳細に説明するＳＩＭＤユニット１３８等）によって、実行のためにプログラムをコンパイルするジャストインタイムコンパイラを含む。何れかの特定のゲストＶＭ２０４に対し、ＧＰＵドライバ１２２は、他のＶＭに対してではなく、そのゲストＶＭ２０４に関連するグラフィックコア１１６に対する機能を制御する。

グラフィックプロセッサ１０７は、複数のグラフィックコア１１６、共有データファブリック１４４、共有物理インタフェース１４２、共有キャッシュ１４０、共有マルチメディアプロセッサ１４６及び共有グラフィックプロセッサメモリ１１８を含む。

グラフィックプロセッサ１０７のグラフィックコア１１６は、異なるゲストＶＭ２０４に個々に割り当て可能である。より具体的には、ＧＰＵ仮想化ドライバ１２１は、グラフィック処理及び計算処理等の処理タスクを実行する際の使用のために、特定のゲストＶＭ２０４に物理グラフィックコア１１６を排他的に割り当てる。

共有マルチメディアプロセッサ１４６、グラフィックプロセッサメモリ１１８、共有キャッシュ１４０、共有物理インタフェース１４２及び共有データファブリック１４４の全ては、異なるグラフィックコア間で割り当て可能である。

グラフィックプロセッサメモリ１１８は、複数のメモリ部分を含む。いくつかの構成では、グラフィックプロセッサメモリ１１８は、その各々が異なるグラフィックコア１１６に割り当てられる部分に分割される。そのような構成では、ＧＰＵ仮想化ドライバ１２１は、特定のグラフィックコア１１６にグラフィックプロセッサメモリ１１８の特定の部分を割り当てる。そのような構成では、グラフィックコア１１６は、そのグラフィックコア１１６に割り当てられたグラフィックプロセッサメモリ１１８の部分にアクセスすることが可能であり、グラフィックコア１１６は、そのグラフィックコア１１６に割り当てられていないグラフィックプロセッサメモリ１１８の部分にアクセスできない。いくつかの実施形態では、異なるグラフィックコア１１６に割り当て可能である部分は、特定のメモリバンク等のように、グラフィック処理メモリ１１８の物理的な小区画（subdivisions）である。いくつかの実施形態では、メモリの複数の部分は、単一のグラフィックコア１１６に割り当てられ、いくつかの実施形態では、全ての（又は、複数の）グラフィックコア１１６に割り当てられる。

異なるグラフィックコア１１６が共有キャッシュ１４０の何れかの部分にデータをキャッシュすることが可能である点で、共有キャッシュ１４０は、共有可能である。しかしながら、代替的な実施形態では、共有キャッシュ１４０は、異なるように構成される。より具体的には、一実施形態では、キャッシュ１４０は、部分に区画化され、各部分は、グラフィックコア１１６に割り当てられる（例えば、排他的使用のために）。別の実施形態では、グラフィックコア１１６が同一のデータにアクセスする場合、キャッシュ１４０全体が、外部メモリトラフィックを低減させるために、グラフィックコア１１６間で共有される。共有物理インタフェース１４２は、グラフィックプロセッサ１０７の外部の構成要素に対する入力／出力インタフェースである。グラフィックプロセッサ１０７の外部の構成要素にグラフィックコア１１６毎のデータ及びコマンドを共有物理インタフェース１４２がルーティングすることが可能である点で、共有物理インタフェース１４２は、グラフィックコア１１６間で共有可能である。共有データファブリック１１４は、グラフィックコア１１６とグラフィックプロセッサメモリ１１８との間でメモリトランザクションをルーティングする。各グラフィックコア１１６が、そのグラフィックコア１１６に割り当てられたグラフィックプロセッサメモリ１１８の部分にアクセスするように共有データファブリック１１４と連動する点で、共有データファブリック１１４は、異なるグラフィックコア１１６間で共有可能である。

様々な構成では、グラフィックコア１１６は、異なる性能レベルにおいて動作可能である。いくつかの実施形態では、そのグラフィックコア内で物理的に存在するリソースの数に関して、グラフィックコア１１６のうち１つ以上は、他のグラフィックコア１１６のうち１つ以上とは異なる。いくつかの例では、それらのリソースは、或る量のメモリ、或る量のキャッシュメモリ、及び／又は、或る数の計算ユニット１３２のうち１つ以上を含む。

いくつかの例では、グラフィックコア１１６は、ランタイムにおいて異なる性能レベル間で切り替え可能である。いくつかの実施形態では、各グラフィックコア１１６は、クロック速度又は有効にされる構成要素の数のうち１つ以上に関して調整可能な性能レベルを有する。いくつかの実施形態では、グラフィックコア１１６に適用されるよりも高いクロック速度又はグラフィックコア１１６に対して有効にされるよりも多くの数の構成要素は、グラフィックコア１１６に対するより大きな電力使用及び／又はグラフィックコア１１６に対するより多くの量の熱放散を結果としてもたらす。概して、グラフィックコア１１６の性能レベルが高いほど、電力使用量及び熱放散量が多くなる。

いくつかの例では、ハイパーバイザ２０６は、特定の数のアクティブゲストＶＭ２０４による使用のためにデバイス１０３を構成する。アクティブなゲストＶＭ２０４の数及びゲストＶＭ２０４の性能要件に応じて、ハイパーバイザ２０６は、異なるグラフィックコア１１６の性能レベルを構成する。いくつかの実施形態では、ハイパーバイザ２０６は、グラフィックプロセッサ１０７全体についての電力バジェット及びサーマルバジェットを識別し、総電力バジェット及び総サーマルバジェットに基づいて、有効にされるグラフィックコア１１６の性能レベルを設定する。よって、いくつかの実施形態では、より多くのゲストＶＭ２０４が有効にされる状況では、ハイパーバイザ２０６は、１つ以上のグラフィックコア１１６の性能レベルを、より少ないゲストＶＭ２０４が有効にされる状況よりも低い性能レベルに設定する。

いくつかの実施形態では、グラフィックプロセッサ１０７は、固定数の構成のセット間で切り替え可能である。そのような各構成は、有効にされるグラフィックコア１１６の数を示し、有効にされるグラフィックコア１１６毎の特定の性能レベルを示す。

いくつかの実施形態では、固定された構成のセットは、第１のグラフィックコア１１６が有効にされ、第２のグラフィックコア１１６が無効にされる少なくとも１つの構成と、第１のグラフィックコア１１６及び第２のグラフィックコア１１６の両方が有効にされる別の構成と、を含み、１つ目の構成では、第１のグラフィックコアは、２つ目の構成での第１のグラフィックコアよりも高い性能レベルを有する。

グラフィックプロセッサメモリ１１８は、グラフィックコア１１６に対して特定の量の帯域幅を有する。複数のグラフィックコア１１６が有効にされる構成では、帯域幅は、異なるグラフィックコア１１６間で分割される。１つのグラフィックコア１１６が有効にされる場合、グラフィックコア１１６は、全てのメモリ帯域幅へのアクセスを有する。いくつかの構成では、各グラフィックコア１１６がグラフィックプロセッサメモリ１１８の全体にアクセスすることが可能である。いくつかの構成では、グラフィックプロセッサ１０７の構成要素の全ては、単一のダイ上に含まれている。いくつかの実施形態では、各グラフィックコア１１６、共有キャッシュ１４０、共有物理インタフェース１４２、共有データファブリック１４４、共有マルチメディアプロセッサ１４６及びグラフィックプロセッサメモリ１１８は、それら自身を個々に調整可能なクロックを有する。

図２は、一例による、グラフィックコア１１６の詳細を示すブロック図である。グラフィックコア１１６は、並列処理に適し得るグラフィック演算及び非グラフィック演算等のような選択された機能のコマンド及びプログラムを実行する。グラフィックコア１１６は、プロセッサ１０２から受信したコマンドに基づいて、画素演算、幾何学計算、及び、ディスプレイデバイスへの画像をレンダリングすること等のグラフィックパイプライン演算を実行するために使用されてもよい。また、グラフィックコア１１６は、プロセッサ１０２から受信したコマンドに基づいて、ビデオに関連する演算、物理シミュレーション、計算流体力学、又は、他のタスク等のように、グラフィック演算に直接関連しない計算処理演算を実行する。コマンドプロセッサ２１３は、プロセッサ１０２（又は、別のソース）からコマンドを受け付け、それらのコマンドに関連するタスクを、グラフィック処理パイプライン１３４及び計算ユニット１３２等のグラフィックコア１１６の様々な要素に委ねる。

グラフィックコア１１６は、プロセッサ１０２の要求に応じてＳＩＭＤパラダイムに従って並列に演算を実行するように構成された１つ以上のＳＩＭＤユニット１３８を含む計算ユニット１３２を含む。ＳＩＭＤパラダイムは、複数の処理要素が単一のプログラム制御フローユニット及びプログラムカウンタを共有し、よって、同一のプログラムを実行するが、異なるデータでそのプログラムを実行することができるものである。一例では、各ＳＩＭＤユニット１３８は、１６個のレーンを含み、各レーンは、ＳＩＭＤユニット１３８内の他のレーンと同時に同一の命令を実行するが、異なるデータでその命令を実行することができる。全てのレーンが所定の命令を実行する必要がない場合、レーンは、条件付き実行制御（predication）によりオフに切り替えられてもよい。条件付き実行制御は、分岐制御フローによりプログラムを実行するためにも使用されてもよい。より具体的には、制御フローが個々のレーンによって実行される計算に基づいている条件付き分岐等の命令を有するプログラムに対し、現在実行されていない制御フローパスに対応するレーンを条件付き実行制御し、異なる制御フローパスをシリアル実行することにより、任意の制御フローを可能にする。

計算ユニット１３２における実行の基本的単位は、ワークアイテムである。各ワークアイテムは、特定のレーン内で並列に実行されるプログラムの単一のインスタンス化を表す。ワークアイテムは、単一のＳＩＭＤプロセシングユニット１３８上で「ウェーブフロント（wavefront）」として同時に実行されてもよい。１つ以上のウェーブフロントは、「ワークグループ」に含まれ、ワークグループは、同一のプログラムを実行するように設計されたワークアイテムの集合を含む。ワークグループは、ワークグループを構成するウェーブフロントの各々を実行することによって実行されてもよい。代替例では、ウェーブフロントは、単一のＳＩＭＤユニット１３８上で順次実行され、又は、異なるＳＩＭＤユニット１３８上で部分的若しくは完全に並列に実行される。スケジューラ１３６は、異なる計算ユニット１３２及びＳＩＭＤユニット１３８上での様々なワークグループ及びウェーブフロントのスケジューリングに関連する動作を実行するように構成されている。

計算ユニット１３２によって与えられる並列性は、画素値計算、頂点変換、及び、他のグラフィック演算等のグラフィック関連演算に適している。よって、いくつかの例では、プロセッサ１０２からグラフィック処理コマンドを受け付けるグラフィックパイプライン１３４は、並列に実行するために、計算ユニット１３２に計算タスクを提供する。

また、計算ユニット１３２は、グラフィックに関連しない計算タスク、又は、グラフィックパイプライン１３４の「通常の」演算の一部として実行されない計算タスク（例えば、グラフィックパイプライン１３４の演算に対して実行される処理を補助するために実行されるカスタム演算）を実行するために使用される。プロセッサ１０２上で実行されるアプリケーション１２６又は他のソフトウェアは、そのような計算タスクを定義したプログラムを、実行のためにグラフィックコア１１６に送信する。

本明細書で他に説明するように、グラフィックプロセッサ１０７は、複数のグラフィックコア１１６を含む。各グラフィックコア１１６は、それ自身のコマンドプロセッサ２１３を有する。したがって、各グラフィックコア１１６は、そのグラフィックコア１１６に割り当てられたゲストＶＭ２０４から受信したコマンドストリームを独立して処理する。よって、特定のグラフィックコア１１６の演算は、別のグラフィックコア１１６の演算に影響を及ぼさない。例えば、或るグラフィックコア１１６が無反応になり、又は、ストール若しくはスローダウンを経験する場合、その無反応、ストール又はスローダウンは、同一のグラフィックプロセッサ１０７内の異なるグラフィックコア１１６に影響を及ぼさない。

本明細書では、グラフィックコア１１６が、仮想化コンピューティングスキームにおける単一のゲストＶＭ２０４に関連付けられ、単一のゲストＶＭ２０４によって使用されるものとして説明する。しかしながら、他の実施形態が可能であることを理解されたい。より具体的には、サーバ１０３が複数の独立したサーバ側エンティティを含み、その各々が異なるクライアント１０５と通信し、その各々が特定のグラフィックコア１１６に関連付けられ、その各々が関連するグラフィックコア１１６にコマンドストリームを送信し、関連するクライアント１０５にそのようなコマンドストリームの結果（例えば、画素）を送信する、という任意の実施形態は、本開示の範囲に収まる。概して、そのようなサーバ側エンティティは、本明細書においてサーバアプリケーションと呼ばれる。いくつかの実施例では、１つ以上のサーバアプリケーションは、ビデオゲームであり、サーバ１０３は、グラフィックプロセッサ１０７の異なるグラフィックコア１１６を、そのようなビデオゲームの各々に割り当てる。

さらに、本明細書では、グラフィックプロセッサ１０７の構成が、ハイパーバイザ２０６によって制御されるものとして説明する。しかしながら、サーバ１０３の任意の他の構成要素（ハードウェア、ソフトウェア、又は、それらの組み合わせとして実装される）が、代わりに、グラフィックプロセッサ１０７の構成を制御することができる。概して、そのような構成要素は、本明細書においてグラフィックプロセッサ構成コントローラと呼ばれる。

図３は、図２に示すグラフィック処理パイプライン１３４の追加の詳細を示すブロック図である。グラフィック処理パイプライン１３４は、各々が特定の機能を実行するステージを含む。ステージは、グラフィック処理パイプライン１３４の機能の下位区分を表す。各ステージは、計算ユニット１３２内で実行されるシェーダプログラムとして部分的若しくは完全に、又は、計算ユニット１３２の外部の固定された機能である非プログラム可能ハードウェアとして部分的若しくは完全に実装される。

入力アセンブラステージ３０２は、ユーザが充填したバッファ（例えば、アプリケーション１２６等のように、プロセッサ１０２によって実行されるソフトウェアの要求において充填されたバッファ）からプリミティブデータを読み込み、パイプラインの残りの部分によって使用されるためにプリミティブにデータをアセンブルする。入力アセンブラステージ３０２は、ユーザが充填したバッファに含まれるプリミティブデータに基づいて、異なるタイプのプリミティブを生成してもよい。入力アセンブラステージ３０２は、パイプラインの残りの部分による使用のために、アセンブルされたプリミティブをフォーマットする。

頂点シェーダステージ３０４は、入力アセンブラステージ３０２によってアセンブルされたプリミティブの頂点を処理する。頂点シェーダステージ３０４は、変換、スキニング、モーフィング、頂点単位のライティング等のように、様々な頂点単位の演算を実行する。変換演算は、頂点の座標を変換する様々な演算を含む。それらの演算は、モデリング変換、ビューイング変換、投影変換、透視除算、及び、ビューポート変換のうち１つ以上を含む。本明細書では、そのような変換は、変換が実行される頂点の座標又は「位置」を修正するものと考えられる。頂点シェーダステージ３０４の他の演算は、座標以外の属性を修正する。

頂点シェーダステージ３０４は、１つ以上の計算ユニット１３２上で実行される頂点シェーダプログラムとして部分的又は完全に実装される。頂点シェーダプログラムは、プロセッサ１０２によって提供され、コンピュータプログラマによって事前に書き込まれたプログラムに基づいている。ドライバ１２２は、計算ユニット１３２内での実行のために適切なフォーマットを有する頂点シェーダプログラムを生成するように、そのようなコンピュータプログラムをコンパイルする。

ハルシェーダステージ３０６、テッセレータステージ３０８及びドメインシェーダステージ３１０は、テッセレーションを実施するように協働し、テッセレーションは、プリミティブを再分割することによって、単純なプリミティブをより複雑なプリミティブに変換する。ハルシェーダステージ３０６は、入力プリミティブに基づいて、テッセレーションのためのパッチを生成する。テッセレータステージ３０８は、パッチについてのサンプルのセットを生成する。ドメインシェーダステージ３１０は、パッチについてのサンプルに対応する頂点についての頂点位置を計算する。ハルシェーダステージ３０６及びドメインシェーダステージ３１０は、計算ユニット１３２上で実行されるシェーダプログラムとして実装されてもよい。

幾何学シェーダステージ３１２は、プリミティブ毎に頂点演算を実行する。ポイントスプリント拡大（point sprint expansion）、動的パーティクルシステム演算（dynamic particle system operations）、ファーフィン生成（fur-fin generation）、シャドーボリューム生成（shadow volume generation）、シングルパスレンダーツーキューブマップ（ingle pass render-to-cubemap）、プリミティブ毎のマテリアルスワッピング（per-primitive material swapping）、プリミティブ毎のマテリアルセットアップ（per-primitive material setup）等の演算を含む様々な異なるタイプの演算が幾何学シェーダステージ３１２によって実行されてもよい。いくつかの例では、計算ユニット１３２上で実行されるシェーダプログラムは、幾何学シェーダステージ３１２についての演算を実行する。

ラスタライザステージ３１４は、単純なプリミティブ及び生成されたアップストリームを受け付け、ラスタライズする。ラスタライゼーションは、何れのスクリーン画素（又は、部分画素サンプル）が特定のプリミティブによってカバーされるかを判定することから構成される。ラスタライゼーションは、固定機能ハードウェアによって実行される。

画素シェーダステージ３１６は、プリミティブにより生成されたアップストリーム及びラスタライゼーションの結果に基づいて、スクリーン画素についての出力値を計算する。画素シェーダステージ３１６は、テキスチャメモリからのテキスチャを適用してもよい。画素シェーダステージ３１６についての演算は、計算ユニット１３２上で実行されるシェーダプログラムによって実行される。

出力マージャステージ３１８は、画素シェーダステージ３１６からの出力を受け付け、それらの出力をマージし、Ｚ検定及びアルファブレンド等の演算を実行して、スクリーン画素についての最終的な色を決定する。

図４は、一例による、複数のグラフィックコア１１６を有するグラフィックプロセッサ１０７を動作させる方法４００のフローチャートである。図１Ａ～図３のシステムに関して説明するが、当業者は、任意の技術的に実現可能な順序において方法４００のステップを実行するように構成された任意のシステムが、本開示の範囲内に収まることを理解するであろう。

方法４００は、ステップ４０２において開始し、ステップ４０２では、グラフィックプロセッサ構成コントローラ（ハイパーバイザ２０６等）は、アクティブサーバアプリケーション（ゲストＶＭ２０４等）の数を判定する。アクティブサーバアプリケーションは、関連するグラフィックコア１１６によってワークが実行されることを要求するように構成されたサーバアプリケーションである。いくつかの例では、グラフィックプロセッサ構成コントローラは、クラウドゲーミングシステムのワークロードスケジューラ等の別のエンティティから、特定の数のアクティブサーバアプリケーション及びグラフィックプロセッサ１０７の同一の数のグラフィックコア１１６を実行するようにプロセッサ１０２を構成する要求を受信する。様々な例では、この要求は、クラウドゲーミングシステムのサービスを使用するクライアント１０５の数に基づいている。

ステップ４０４において、グラフィックプロセッサ構成コントローラは、アクティブサーバアプリケーションの数に基づいて、グラフィックプロセッサ構成を選択する。いくつかの例では、グラフィックプロセッサ構成コントローラは、アクティブサーバアプリケーションの数に基づいて、したがって、アクティブグラフィックコア１１６の数に基づいて、１つ以上のグラフィックコア１１６の性能レベルを変動させることが可能である。いくつかの例では、グラフィックプロセッサ構成は、より少ないグラフィックコア１１６が有効にされる構成では、より多くの数のグラフィックコア１１６が有効にされる構成よりも、利用可能な電力バジェット及びサーマルバジェットの殆どが、それらのより少ないグラフィックコア１１６に対して利用可能であるという点で異なる。したがって、より少ないグラフィックコア１１６が有効にされる構成では、少なくとも１つのグラフィックコアは、より多くの数のグラフィックコア１１６が有効にされるグラフィックプロセッサ構成において同一のグラフィックコア１１６が与えられるよりも高い性能レベルが与えられる。様々な例では、性能レベルは、グラフィックコア１１６のクロック周波数、グラフィックコア１１６に利用可能なメモリ帯域幅の量、グラフィックコア１１６による使用のために利用可能なメモリ若しくはキャッシュの量、又は、グラフィックコア１１６の性能レベルを定義する他の特徴のうち１つ以上を定義する。

ステップ４０６において、グラフィックプロセッサ構成コントローラは、選択されたグラフィックプロセッサ構成に従って、グラフィックプロセッサ１０７を構成する。特に、グラフィックプロセッサ構成コントローラは、選択されたグラフィックプロセッサ構成に従って、有効にされると見なされるグラフィックコア１１６を有効にし、選択されたグラフィックプロセッサ構成に従って、有効にされたグラフィックコア１１６の各々の性能レベルを設定する。

ステップ４０８において、グラフィックプロセッサ構成コントローラは、構成されたグラフィックプロセッサ１０７を用いてアクティブサーバアプリケーションを実行させる。サーバアプリケーションを実行することは、サーバアプリケーションに、グラフィックプロセッサ１０７の関連するグラフィックコア１１６によって処理するためのコマンドのストリームを転送させることを含む。より具体的には、本明細書で他に説明したように、各サーバアプリケーションには、特定のグラフィックコア１１６が割り当てられる。各サーバアプリケーションは、サーバアプリケーションに関連するグラフィックコア１１６にコマンドストリームを送信する。何れかの特定のグラフィックコア１１６では、そのグラフィックコアのコマンドプロセッサ２１３は、そのコマンドストリームを実行して、グラフィック処理パイプライン１３４を介してコマンド及びデータを処理し、及び／又は、計算コマンドを処理する。

本明細書の開示に基づいて、多くの変形が可能であることを理解されたい。特徴及び要素が特定の組み合わせで上述されているが、各特徴又は要素は、他の特徴及び要素無しに単独で、又は、他の特徴及び要素と共に、若しくは、他の特徴及び要素無しに様々な組み合わせで使用することができる。いくつかの実施形態では、グラフィックコア１１６は、固定機能構成要素を含むグラフィック処理パイプライン１３４を含むものとして説明したが、固定機能ハードウェア無しにシェーダを介して完全に実装されたグラフィック処理パイプライン１３４を有するグラフィックコア１１６、又は、汎用計算能力を有するが、グラフィック処理能力を有しないグラフィックコア１１６が本明細書で企図されることを理解されたい。言い換えると、本開示では、グラフィックコア１１６は、固定機能要素を含まない（よって、プログラム可能シェーダプログラムとして完全に実装される）グラフィックコアと置換されてもよく、又は、計算ユニット１３２を含むがグラフィック処理パイプライン１３４を含まない、汎用計算演算を実行することができる汎用計算コアと置換されてもよい。

開示された機能ブロックの何れも、ハードワイヤド回路、プロセッサ上で実行されるソフトウェア、又は、それらの組み合わせとして実装可能である。提供された方法は、汎用コンピュータ、プロセッサ又はプロセッサコアにおいて実施されてもよい。適切なプロセッサは、例として、汎用プロセッサ、専用プロセッサ、従来のプロセッサ、デジタルシグナルプロセッサ（ＤＳＰ）、複数のマイクロプロセッサ、ＤＳＰコアに関連する１つ以上のマイクロプロセッサ、コントローラ、マイクロコントローラ、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）回路、任意の他のタイプの集積回路（ＩＣ）、及び／又は、状態機械を含む。このようなプロセッサは、ハードウェア記述言語（ＨＤＬ）命令と、ネットリストを含む他の中間データ（コンピュータ可読媒体に記憶することが可能な命令）との結果を使用して、製造プロセスを構成することによって製造されてもよい。そのような処理の結果は、本開示の特徴を実装するプロセッサを製造する半導体製造工程において使用されるマスクワークであってもよい。

本明細書に提供される方法又はフローチャートは、汎用コンピュータ又はプロセッサによる実行のために非一時的なコンピュータ可読記憶媒体に組み込まれたコンピュータプログラム、ソフトウェア又はファームウェアにおいて実装されてもよい。非一時的なコンピュータ可読記憶媒体の例は、リードオンリメモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、レジスタ、キャッシュメモリ、半導体メモリデバイス、内蔵ハードディスク及びリムーバブルディスク等の磁気媒体、磁気光学媒体、並びに、ＣＤ－ＲＯＭディスク及びデジタル多用途ディスク（ＤＶＤ）等の光学媒体を含む。

Claims

複数のコアを含むプロセッサを動作させる方法であって、
アクティブアプリケーションの数を判定することであって、各アクティブアプリケーションは、第２のプロセッサ上で実行されるアプリケーションを含み、各アクティブアプリケーションは、実行のために前記プロセッサにコマンドを送信するように構成されている、ことと、
前記アクティブアプリケーションの数に基づいて、前記プロセッサ用のプロセッサ構成を選択することであって、前記プロセッサ構成は、アクティブアプリケーション毎に１つのアクティブコアを含む、ことと、
前記選択されたプロセッサ構成に従って前記プロセッサを構成することと、
前記構成されたプロセッサを用いて前記アクティブアプリケーションを実行することと、を含む、
方法。
前記プロセッサ構成は、前記プロセッサのアクティブコアの数を示す、
請求項１の方法。
前記アクティブコアの数は、前記アクティブアプリケーションの数に等しい、
請求項２の方法。
前記プロセッサ構成は、前記プロセッサの前記複数のコアの性能レベルを含む、
請求項１の方法。
前記性能レベルは、クロック周波数を示す、
請求項４の方法。
前記プロセッサは、グラフィックプロセッサを含む、
請求項１の方法。
各コアは、コマンドプロセッサ及びグラフィック処理パイプラインを含むグラフィックコアである、
請求項６の方法。
前記アプリケーションは、サーバアプリケーションである、
請求項１の方法。
各アプリケーションは、異なる仮想マシン上で実行される、
請求項１の方法。
複数のコアを含むプロセッサを動作させるシステムであって、
前記プロセッサと、
制御プロセッサと、を備え、
前記制御プロセッサは、
アクティブアプリケーションの数を判定することであって、各アクティブアプリケーションは、第２のプロセッサ上で実行されるアプリケーションを含み、各アクティブアプリケーションは、実行のために前記プロセッサにコマンドを送信するように構成されている、ことと、
前記アクティブアプリケーションの数に基づいて、前記プロセッサ用のプロセッサ構成を選択することであって、前記プロセッサ構成は、アクティブアプリケーション毎に１つのアクティブコアを含む、ことと、
前記選択されたプロセッサ構成に従って前記プロセッサを構成することと、
前記構成されたプロセッサを用いて前記アクティブアプリケーションを実行することと、
を行うように構成されている、
システム。
前記プロセッサ構成は、前記プロセッサのアクティブコアの数を示す、
請求項１０のシステム。
前記アクティブコアの数は、前記アクティブアプリケーションの数に等しい、
請求項１１のシステム。
前記プロセッサ構成は、前記プロセッサの前記複数のコアの性能レベルを含む、
請求項１０のシステム。
前記性能レベルは、クロック周波数を示す、
請求項１３のシステム。
前記プロセッサは、グラフィックプロセッサを含む、
請求項１０のシステム。
各コアは、コマンドプロセッサ及びグラフィック処理パイプラインを含むグラフィックコアである、
請求項１５のシステム。
前記アプリケーションは、サーバアプリケーションである、
請求項１０のシステム。
各アプリケーションは、異なる仮想マシン上で実行される、
請求項１０のシステム。
命令を記憶するコンピュータ可読記憶媒体であって、
前記命令は、第１のプロセッサによって実行されると、
アクティブアプリケーションの数を判定することであって、各アクティブアプリケーションは、第２のプロセッサ上で実行されるアプリケーションを含み、各アクティブアプリケーションは、実行のためにプロセッサにコマンドを送信するように構成されている、ことと、
前記アクティブアプリケーションの数に基づいて、前記プロセッサ用のプロセッサ構成を選択することであって、前記プロセッサ構成は、アクティブアプリケーション毎に１つのアクティブコアを含む、ことと、
前記選択されたプロセッサ構成に従って前記プロセッサを構成することと、
前記構成されたプロセッサを用いて前記アクティブアプリケーションを実行することと、
によって、前記第１のプロセッサに、複数のコアを含む前記プロセッサを動作させる、
コンピュータ可読記憶媒体。
前記プロセッサ構成は、前記プロセッサのアクティブコアの数を示す、
請求項１９のコンピュータ可読記憶媒体。