JP7635199B2

JP7635199B2 - 切り替え可能なグラフィックシステムのパフォーマンス、エネルギー消費ベースのアプリケーション、及びリアルタイムシステムの電力／熱バジェットを改善するための機器及び方法

Info

Publication number: JP7635199B2
Application number: JP2022502495A
Authority: JP
Inventors: ヴェンカタラマン，シュリクリシュナン; ハンチャテ，マラリ; ラヒリ，サヤン; ディバド，ヴィジャヤクマール
Original assignee: インテルコーポレイション
Priority date: 2019-08-20
Filing date: 2020-08-03
Publication date: 2025-02-25
Anticipated expiration: 2040-08-03
Also published as: EP4018286B1; EP4018286A1; WO2021034496A1; JP2022545604A; EP4018286A4; US12007828B2; US20220253124A1

Description

優先権の主張
本願は、２０１９年８月２０日に出願された、“Apparatus and Method To Improve Switchable Graphics System Performance And Energy Consumption Based Applications And Real-Time System Power/Thermal Budgets”という表題の米国仮出願６２／８８９，５１１号の優先権の利益を主張するものであり、この文献は、その全体が参照により組み込まれる。

本願は、切り替え可能なグラフィックシステムのパフォーマンス、エネルギー消費ベースのアプリケーション、及びリアルタイムシステムの電力／熱バジェットを改善するための機器及び方法に関する。

既存の切り替え可能なグラフィックシステムでは、タスクレンダリングに統合グラフィック（iGPU）又はディスクリート・グラフィック（dGPU）を使用するアプリケーションの決定は、グラフィックソフトウェアドライバ及びオペレーティングシステム（OS）によってのみ決定される。タスク実行のためにｉＧＰＵ又はｄＧＰＵを決定するドライバ／ＯＳには、ＧＰＵのワットあたりのパフォーマンス能力に関する情報も、ＧＰＵのパフォーマンスとエネルギー消費との両方に影響を与える主要なパラメータであるメモリ構成、ＳｏＣ（システムオンチップ）の熱バジェット、バッテリ電力バジェット等のシステムリソースに関する情報もない。

本開示の実施形態は、以下に与える詳細な説明及び本開示の様々な実施形態の添付の図面からより完全に理解されるが、これらは、本開示を特定の実施形態に限定するものと解釈すべきではなく、説明及び理解のためだけにある。
本開示のいくつかの実施形態による、共有ローカルメモリ（SLM）とシステムグローバルメモリ（SGM）との間のメモリアクセスパフォーマンスを改善するための機器を備えたデータ処理システムのブロック図である。本開示のいくつかの実施形態による、１つ又は複数のプロセッサコア、統合メモリコントローラ、及び統合グラフィックプロセッサを有し、ＳＬＭとＳＧＭとの間のメモリアクセスパフォーマンスを改善するための機器を備えたプロセッサのブロック図である。本開示のいくつかの実施形態による、ディスクリート・グラフィック処理装置であり得るか、又は複数の処理コアと統合されたグラフィックプロセッサであり得るグラフィックプロセッサのブロック図である。本開示のいくつかの実施形態による、グラフィックプロセッサのためのグラフィック処理エンジン（GPE）のブロック図である。実行ユニットに関連するグラフィックプロセッサの別の実施形態のブロック図である。ＧＰＥのいくつかの実施形態で使用される処理要素のアレイを含むスレッド実行ロジックを示す図である。本開示のいくつかの実施形態による、グラフィックプロセッサ実行ユニット命令フォーマットを示すブロック図である。グラフィックパイプライン、メディアパイプライン、ディスプレイエンジン、スレッド実行ロジック、及びレンダリング出力パイプラインを含むグラフィックプロセッサの別の実施形態のブロック図である。いくつかの実施形態による、グラフィックプロセッサのコマンドフォーマットを示すブロック図である。本開示のいくつかの実施形態による、グラフィックプロセッサのコマンドシーケンスのブロック図である。本開示のいくつかの実施形態による、データ処理システムのためのグラフィック・ソフトウェア・アーキテクチャを示す図である。従来のＯｐｅｎＣＬワークグループのアーキテクチャ及びメモリ構造を示す図である。ｉＧＰＵ及びｄＧＰＵのパフォーマンス対消費電力を示すチャートである。ｉＧＰＵ及びｄＧＰＵのパフォーマンス対消費電力を示すチャートである。いくつかの実施形態による、切り替え可能なグラフィック電力管理スキームのフローチャートである。いくつかの実施形態による、切り替え可能なグラフィック電力管理スキームのフローチャートである。いくつかの実施形態による、コンピュータシステムを示す図である。様々な実施形態の機器、方法、及びシステムによるスマート装置又はコンピュータシステム又はＳｏＣ（システムオンチップ）を示す図である。

既存のソリューションは、起動時のアプリケーションをドライバ内のアプリケーションのリストと比較する。比較に基づいて、ドライバは、そのアプリケーションをレンダリングするためのｉＧＰＵ又はｄＧＰＵを決定する。例えば、アプリケーションの標準セットは、ｉＧＰＵ上の同じアプリケーションの電力及びパフォーマンスを比較することにより、それらのアプリケーションがレンダリングのためにｄＧＰＵを使用する必要があるかどうかを判定するために事前にテストされ、それに応じて分類され、ドライバに一覧表示される。場合によっては、アプリケーションに関連付けられるＤＬＬ（dynamic link library）が、ｉＧＰＵとｄＧＰＵのどちらを使用するかが事前にコード化されている。従って、ドライバ及び／又はＯＳは、ＤＬＬ情報に基づいてＧＰＵを選択する。ユーザは、ＧＰＵ選択のドライバ及び／又はＯＳの決定を上書きできるが、これには手動での設定変更が含まれ得る。

ＧＰＵのパフォーマンス及びエネルギー消費に影響を与えるシステムレベルの要因が多く存在する。例えば、切り替え可能なグラフィックシステムの設計が異なれば、異なるベンダーからのｉＧＰＵとｄＧＰＵとの組合せも異なる。スキューとシステムの熱及び電力エンベロープ、メモリ構成は設計毎に一意になる。ここで、スキューとは、標準値又は公称値からの電力引出量（power drawn）又は熱能力の変動を指す。そのため、アプリケーションのパフォーマンス及び電力を特徴付ける事前テスト方法は、個々のシステムに非常に特有のものになる。このドライバ／ＯＳベースのソリューションを一般化することは、全ての設計にとって効率的ではない場合がある。

アプリケーションの事前の特徴付け及びそれらをドライバにリスト化することは、全てのアプリケーション及びユースケースを網羅しない場合がある。例えば、ドライバにリスト化する前に、ユーザが利用できる全てのアプリケーションをテストすることは事実上不可能である。プログラムのプロファイルは、いくつかの標準的で典型的なアプリケーションのみしか網羅しない場合がある。

以前のソリューションは、ドライバがレンダリングのためにＧＰＵを決定するためのルックアップテーブルの類のメカニズムを使用する。この類の実施態様では、コア及びグラフィックをローディングする複数のアプリケーションが一緒に起動されたときに、システムにＧＰＵの全体的な電力及びパフォーマンスを確認するメカニズムがない場合がある。既存の切り替え可能なグラフィックシステムには、リアルタイムのシステム条件（熱、電力バジェット等）を使用し、ｉＧＰＵ／ｄＧＰＵのパフォーマンス／ワット能力を調べて、タスク実行のために最適化されたＧＰＵを決定するハードウェア（HW）又はソフトウェア（SF）インテリジェンスは存在しない。この制限により、ＧＰＵドライバは、全てのユースケース及びアプリケーションでＧＰＵの最適化された使用率を保証できない。そのため、タスクをレンダリングするためのＧＰＵ（グラフィック処理装置）を決定するドライバの既存のアプローチは、全てのユースケースで（エネルギーとパフォーマンスとの両方の面で）効率的ではない。

切り替え可能なグラフィックシステムでは、ｉＧＰＵ及びｄＧＰＵの電力及びパフォーマンスは、ＧＰＵの熱設計電力（TDP）ストックキーピングユニット（skus）、ベンダー、及び／又はシステム電力等のシステム設計毎に一意になり、及び／又は熱エンベロープが設計毎に異なる。ｄＧＰＵのレンダリング能力は、はるかに高く、電力に関しては中負荷から高負荷のアプリケーション向けに最適化されていることが知られている。同様に、ｉＧＰＵのレンダリング能力は、ｄＧＰＵに比べて比較的低く、低負荷から中負荷のアプリケーション向けに電力が最適化されている。これをベースラインとして、そのｉＧＰＵは、特定のポイント（例えば、閾値電力ポイント（threshold power point））まで要求され、ｉＧＰＵのパフォーマンスはｄＧＰＵのパフォーマンスと同じになるが、消費電力ははるかに低くなる。この閾値電力ポイントの後に、消費電力と同様に、ｄＧＰＵのパフォーマンスはｉＧＰＵよりも高くなる。この閾値電力ポイントは、特定のシステムのために選択されたｉＧＰＵ及びｄＧＰＵに依存するため、システム毎に一意になる。閾値電力ポイントは、システムメモリ、熱エンベロープ、電力バジェット等にも依存する。

既存のドライバベースのアプローチに関連するギャップに対処するために、いくつかの実施形態は、ＳｏＣ（システムオンチップ）熱バジェット、システム電力バジェット等のシステムリアルタイムリソースとともにｉＧＰＵ／ｄＧＰＵの両方のパフォーマンス／ワット情報を使用して、タスクをレンダリングするのに適切なＧＰＵを決定する、新しい切り替え可能なグラフィック管理スキームを説明する。いくつかの実施形態のスキームは、システムリソースとともにこの閾値電力ポイント情報を使用して、全てのアプリケーション及びユースケースに関するタスクレンダリングのために最適化されたＧＰＵを決定する。そのため、様々な実施形態のスキームは、全てのシステムに一般化されている既存のソリューションとは異なり、その特定のシステムの能力に基づいて各システム設計に適応する。

その特定のシステムのｉＧＰＵ及びｄＧＰＵ能力、リアルタイムＳｏＣ熱制限、システム電力能力に基づいて、アルゴリズムは、以下のケース１及びケース２で述べるように、システム性能又はエネルギー消費を改善するために適切なＧＰＵを選択するように決定することができる。

ケース１（例えば、ローエンド（low-end）グラフィックアプリケーションをｄＧＰＵ上で実行するように切り替えてシステム性能を改善する）では、ＳｏＣコア計算ロジックが高消費電力のタスクを処理していると考える。この場合に、ユーザがドライバ／ＯＳ命令に従って内部グラフィックを使用することを目的としたグラフィックアプリケーションを起動すると、次に、既存の切り替え可能なグラフィックシステムでは、ＳｏＣ電力管理によりコア処理が抑制され、ＳｏＣ電力管理は、グラフィックワークロードに対応し、パッケージＴＤＰ（熱設計電力）を含む。これは、グラフィックワークロードに対するコンピュータ性能のトレードオフである。様々な実施形態のスキームは、そのようなシナリオを追跡し続けることができ、この情報をドライバ／ＯＳにフィードバックして、低から中程度のワークロードのＧＦＸアプリケーションをレンダリングするためにｄＧＰＵを使用できるため、ＳｏＣコアはスロットル（シフト）ダウンなしで計算処理アクティビティを続行することができる。

ケース２（例えば、同様のアルゴリズムが、ＧＰＵのパフォーマンス／ワット情報に対してグラフィックワークロードパワーを評価することによって、アプリケーションをｄＧＰＵからｉＧＰＵレンダリングに切り替えるように決定することができる）では、ドライバ／ＯＳが、アプリケーションをレンダリングするためにｄＧＰＵを選択したと考える。アプリケーションがｄＧＰＵで実行されている間に、様々な実施形態のスキームは、ｄＧＰＵによって消費されるリアルタイムの平均電力を取得する。ＧＰＵの事前に特徴付けされた電力とパフォーマンスデータとを比較したときに、ｄＧＰＵで測定された電力が特定の閾値電力ポイントを下回っている場合に、次に、アルゴリズムは、レンダリングのためにｄＧＰＵからｉＧＰＵへのコンテキスト切替えを開始し、これにより、同じパフォーマンスでのエネルギー消費が削減される。同様に、複数のローエンドグラフィックアプリケーションが既存のドライバ／ＯＳの決定に従ってｉＧＰＵを使用しており、結果として得られるｉＧＰＵ電力が閾値電力ポイントを上回っている場合に、次に、全てのＧＰＵレンダリングをｄＧＰＵに切り替える必要がある場合に、アルゴリズムも呼出しを行うことができ、それにより、パフォーマンスが向上する。

そのため、最高のパフォーマンス又は最適なエネルギー消費は、リアルタイムのシステムパラメータを考慮することによって達成される。エンドユーザにとっては、様々なユースケースシナリオでパフォーマンスの向上又はバッテリ寿命の延長という形でメリットが得られ、これらについては、本明細書で詳しく説明する。他の技術的効果は、様々な実施形態及び図から明らかになろう。

以下の説明では、本開示の実施形態のより完全な説明を与えるために、多くの詳細について議論する。しかしながら、当業者には、本開示の実施形態がこれらの特定の詳細なしに実施し得ることが明らかであろう。他の例では、本開示の実施形態を曖昧にするのを避けるために、周知の構造及び装置が、詳細ではなく、ブロック図の形式で示される。

実施形態の対応する図面では、信号は線で表されることに留意されたい。いくつかの線は、より多くの構成信号パスを示すために太くされ、及び／又は一次情報の流れの方向を示すために１つ又は複数の端部に矢印がある場合がある。このような表示は、限定することを意図したものではない。むしろ、線は、回路又は論理ユニットの理解を容易にするために、１つ又は複数の例示的な実施形態に関連して使用される。設計の必要性又は好みによって決定されるように、表現された信号は、実際には、いずれかの方向に移動し、任意の適切なタイプの信号スキームで実装され得る１つ又は複数の信号を含み得る。

本明細書全体及び特許請求の範囲において、「接続された」という用語は、中間装置を伴わない、接続されたものの間の電気的、機械的、又は磁気的接続等の直接接続を意味する。

「結合された」という用語は、１つ又は複数の受動的又は能動的中間装置を介した、接続されたものの間の直接電気的、機械的、又は磁気接続、或いは間接接続等の直接又は間接接続を意味する。

本明細書における「隣接する」という用語は、一般に、隣にあるもの（例えば、それらの間に１つ又は複数のものを伴ってすぐ隣又は近くにある）又は別のものに隣接する（例えば、それに隣接する）位置を指す。

「回路」又は「モジュール」という用語は、所望の機能を提供するために互いに協力するように配置された１つ又は複数の受動的及び／又は能動的コンポーネントを指し得る。

「信号」という用語は、少なくとも１つの電流信号、電圧信号、磁気信号、又はデータ／クロック信号を指し得る。「１つの（a, an）」、及び「その（the）」の意味には、複数形の参照が含まれる。「～に（in）」の意味には、「～に（in）」及び「～上に（on）」が含まれる。

「スケーリング」という用語は、一般に、設計（概略及びレイアウト）をあるプロセス技術から別のプロセス技術に変換することを指し、その後、レイアウト領域が縮小される可能性がある。場合によっては、スケーリングとは、設計をあるプロセス技術から別のプロセス技術にアップサイジングすることも指し、その後、レイアウト領域が増大される可能性がある。「スケーリング」という用語は、一般に、同じ技術ノード内のレイアウト及び装置のダウンサイジング又はアップサイジングも指す。「スケーリング」という用語は、別のパラメータ、例えば、電源レベルに関連する信号周波数の調整（例えば、減速又は高速化－すなわち、それぞれ、スケールダウン又はスケールアップ）を指す場合もある。

「実質的に」、「近い（close）」、「略」、「近い（near）」、及び「約」という用語は、一般に、目標値の＋／－１０％以内であることを指す。

共通のオブジェクトを説明するための序数形容詞「第１」、「第２」、及び「第３」等の使用が特に明記されない限り、同様のオブジェクトの異なるインスタンスが参照されていることを単に示し、そのように記述されたオブジェクトが、時間的、空間的、ランク付け、又は他の方法で、所与の順序である必要があることを意味することを意図していない。

本開示の目的のために、「Ａ及び／又はＢ」及び「Ａ又はＢ」という句は、（Ａ）、（Ｂ）、又は（Ａ及びＢ）を意味する。本開示の目的のために、「Ａ、Ｂ、及び／又はＣ」という句は、（Ａ）、（Ｂ）、（Ｃ）、（Ａ及びＢ）、（Ａ及びＣ）、（Ｂ及びＣ）、又は（Ａ、Ｂ、及びＣ）を意味する。

詳細な説明及び特許請求の範囲（もしあれば）における「左」、「右」、「前」、「後」、「上」、「下」、「～の上」、「～の下」等の用語は、説明の目的で使用され、必ずしも永続的な相対位置を説明するために使用されるわけではない。

他の図の要素と同じ参照符号（又は名前）を有する図のそれらの要素は、説明するものと同様の方法で動作又は機能することができるが、そのように限定されないことを指摘しておく。

実施形態の目的のために、本明細書で説明する様々な回路及び論理ブロックのトランジスタは、金属酸化物半導体（MOS）トランジスタ又はそれらの派生物であり、ここで、ＭＯＳトランジスタは、ドレイン、ソース、ゲート、及びバルク端子を含む。トランジスタ及び／又はＭＯＳトランジスタ派生物には、Tri-Gate及びFinFETトランジスタ、Gate All Around Cylindrical Transistors、Tunneling FET（TFET）、Square Wire、又はRectangular Ribbon Transistors、強誘電体FET（FeFET）、或いはカーボンナノチューブ又はスピントロニックデバイス等のトランジスタ機能を実装する他のデバイスも含まれる。ＭＯＳＦＥＴの対称ソース及びドレイン端子は、同じ端子であり、本明細書では互換的に使用される。一方、ＴＦＥＴデバイスには非対称ソース及びドレイン端子がある。当業者は、他のトランジスタ、例えば、バイポーラ接合トランジスタ（BJT PNP/NPN）、ＢｉＣＭＯＳ、ＣＭＯＳ等が、本開示の範囲から逸脱することなく使用され得ることを理解するであろう。

図１は、いくつかの実施形態による、データ処理システム１００のブロック図を示している。データ処理システム１００は、１つ又は複数のプロセッサ１０２と、１つ又は複数のグラフィックプロセッサ１０８とを含み、シングルプロセッサデスクトップシステム、マルチプロセッサワークステーションシステム、或いは多数のプロセッサ１０２又はプロセッサコア１０７を有するサーバシステムであり得る。いくつかの実施形態では、データ処理システム１００は、モバイル、ハンドヘルド、又は埋込み装置で使用するためのシステムオンチップ集積回路（SoC）である。

データ処理システム１００の一実施形態は、サーバベースのゲームプラットフォーム、ゲーム及びメディアコンソールを含むゲームコンソール、モバイルゲームコンソール、ハンドヘルドゲームコンソール、又はオンラインゲームコンソールを含むか、又はそれらに組み込むことができる。いくつかの実施形態では、データ処理システムは、携帯電話、スマートフォン、タブレットコンピュータ装置、又はモバイルインターネット装置である。データ処理システム１００はまた、スマートウォッチウェアラブル装置、スマートアイウェア装置、拡張現実装置、又は仮想現実装置等のウェアラブル装置を含むか、それらと結合するか、又はそれらの中に統合することができる。いくつかの実施形態では、データ処理システム１００は、１つ又は複数のプロセッサ１０２と、１つ又は複数のグラフィックプロセッサ１０８によって生成されるグラフィカルインターフェースとを有するテレビ又はセットトップボックス装置である。

いくつかの実施形態では、１つ又は複数のプロセッサ１０２はそれぞれ、命令を処理するための１つ又は複数のプロセッサコア１０７を含み、命令が実行されると、システム及びユーザソフトウェアの動作を実行する。いくつかの実施形態では、１つ又は複数のプロセッサコア１０７のそれぞれは、特定の命令セット１０９を処理するように構成される。命令セット１０９は、複雑な命令セットコンピューティング（CISC）、縮小命令セットコンピューティング（RISC）、又は超長命令語（VLIW）によるコンピューティングを容易にし得る。複数のプロセッサコア１０７はそれぞれ、他の命令セットのエミュレーションを容易にするための命令を含み得る異なる命令セット１０９を処理することができる。プロセッサコア１０７は、デジタル信号プロセッサ（DSP）等の他の処理装置も含み得る。

いくつかの実施形態では、プロセッサ１０２は、キャッシュメモリ１０４を含む。アーキテクチャに応じて、プロセッサ１０２は、単一の内部キャッシュ又は複数のレベルの内部キャッシュを有することができる。いくつかの実施形態では、キャッシュメモリは、プロセッサ１０２の様々なコンポーネントの間で共有される。いくつかの実施形態では、プロセッサ１０２は、外部キャッシュ（例えば、レベル３（L3）キャッシュ又はラストレベルキャッシュ（LLC））（図示せず）も使用し、これは、既知のキャッシュコヒーレンシ技術を使用してプロセッサコア１０７の間で共有され得る。レジスタファイル１０６が、プロセッサ１０２にさらに含まれ、これには、異なるタイプのデータを格納するための異なるタイプのレジスタ（例えば、整数レジスタ、浮動小数点レジスタ、ステータスレジスタ、及び命令ポインタレジスタ）が含まれ得る。一部のレジスタは汎用レジスタであり得る一方、他のレジスタはプロセッサ１０２の設計に固有であり得る。

いくつかの実施形態では、プロセッサ１０２は、プロセッサバス１１０に結合されて、プロセッサ１０２とシステム１００内の他のコンポーネントとの間でデータ信号を送信する。システム１００は、メモリコントローラハブ１１６及び入力出力（I/O）コントローラハブ１３０を含む例示的な「ハブ」システムアーキテクチャを使用する。メモリコントローラハブ１１６は、メモリ装置とシステム１００の他のコンポーネントとの間の通信を容易にする一方、Ｉ／Ｏコントローラハブ（ICH）１３０は、ローカルＩ／Ｏバスを介してＩ／Ｏ装置への接続を提供する。

いくつかの実施形態では、メモリ装置１２０は、ＤＲＡＭ（dynamic random-access memory）装置、ＳＲＡＭ（static random-access memory）装置、フラッシュメモリ装置、又はプロセスメモリとして機能するのに適したパフォーマンスを有する他のメモリ装置であり得る。メモリ１２０は、プロセッサ１０２がプロセスを実行するときに使用するためのデータ１２２及び命令２１２を格納することができる。メモリコントローラハブ１１６はまた、オプションの外部グラフィックプロセッサ１１２と結合し、これは、プロセッサ１０２内の１つ又は複数のグラフィックプロセッサ１０８と通信して、グラフィック及びメディア操作を実行することができる。

ＩＣＨ１３０は、周辺機器が高速Ｉ／Ｏバスを介してメモリ１２０及びプロセッサ１０２に接続するのを可能にする。Ｉ／Ｏ周辺機器は、オーディオコントローラ１４６、ファームウェアインターフェース１２８、無線トランシーバ１２６（例えば、Ｗｉ－Ｆｉ、Ｂｌｕｅｔｏｏｔｈ）、データ記憶装置１２４（例えば、ハードディスクドライブ、フラッシュメモリ等）、及びレガシー（Personal System 2（PS/2）等）装置をシステムに結合するためのレガシーＩ／Ｏコントローラを含む。１つ又は複数のＵＳＢ（Universal Serial Bus）コントローラ１４２は、キーボードとマウス１４４との組合せ等の入力装置を接続する。ネットワークコントローラ１３４はまた、ＩＣＨ１３０に結合することができる。いくつかの実施形態では、高性能ネットワークコントローラ（図示せず）は、プロセッサバス１１０に結合する。

図２は、１つ又は複数のプロセッサコア２０２Ａ～Ｎ、統合メモリコントローラ２１４、及び統合グラフィックプロセッサ２０８を有するプロセッサ２００の実施形態のブロック図を示している。他の図の要素と同じ参照符号（又は名前）を有する図２のそれら要素は、説明するのと同様の方法で動作又は機能することができるが、そのように限定されるものではないことを指摘しておく。

プロセッサ２００は、破線のボックスで表される追加のコア２０２Ｎまでの追加のコアを含むことができる。コア２０２Ａ～Ｎのそれぞれは、１つ又は複数の内部キャッシュユニット２０４Ａ～Ｎを含む。いくつかの実施形態では、各コアは、１つ又は複数の共有キャッシュユニット２０６にもアクセスする。

いくつかの実施形態では、内部キャッシュユニット２０４Ａ～Ｎ及び共有キャッシュユニット２０６は、プロセッサ２００内のキャッシュメモリ階層を表す。キャッシュメモリ階層は、各コア内の少なくとも１つのレベルの命令及びデータキャッシュと、レベル２（L2）、レベル３（L3）、レベル４（L4）、又は他のレベルのキャッシュ等の１つ又は複数のレベルの共有中間レベルキャッシュとを含み得、外部メモリの前の最高レベルのキャッシュは、ラストレベルキャッシュ（LLC）として分類される。いくつかの実施形態では、キャッシュコヒーレンシロジックは、様々なキャッシュユニット１０６と２０４Ａ～Ｎとの間のコヒーレンシを維持する。

いくつかの実施形態では、プロセッサ２００は、１つ又は複数のバスコントローラユニット２１６及びシステムエージェント２１０のセットも含み得る。１つ又は複数のバスコントローラユニットは、１つ又は複数の周辺コンポーネント相互接続バス（例えば、PCI、PCI Express）等の周辺バスのセットを管理する。いくつかの実施形態では、システムエージェント２１０は、様々なプロセッサコンポーネントに管理機能を提供する。いくつかの実施形態では、システムエージェント２１０は、様々な外部メモリ装置（図示せず）へのアクセスを管理するための１つ又は複数の統合メモリコントローラ２１４を含む。

いくつかの実施形態では、１つ又は複数のコア２０２Ａ～Ｎは、同時マルチスレッディングのサポートを含む。そのような実施形態では、システムエージェント２１０は、マルチスレッド処理中にコア２０２Ａ～Ｎを調整及び動作させるためのコンポーネントを含む。いくつかの実施形態では、システムエージェント２１０は、電力制御ユニット（PCU）をさらに含むことができ、これは、コア２０２Ａ～Ｎ及びグラフィックプロセッサ２０８の電力状態を調整するためのロジック及びコンポーネントを含む。

いくつかの実施形態では、プロセッサ２００は、グラフィック処理操作を実行するためのグラフィックプロセッサ２０８をさらに含む。いくつかの実施形態では、グラフィックプロセッサ２０８は、共有キャッシュユニット２０６のセット、及び１つ又は複数の統合メモリコントローラ２１４を含むシステムエージェントユニット２１０と結合する。いくつかの実施形態では、ディスプレイコントローラ２１１は、グラフィックプロセッサ２０８と結合して、グラフィックプロセッサ出力を１つ又は複数の結合されたディスプレイに駆動する。いくつかの実施形態では、ディスプレイコントローラ２１１は、少なくとも１つの相互接続を介してグラフィックプロセッサと結合された別個のモジュールであり得るか、又はグラフィックプロセッサ２０８又はシステムエージェント２１０内に統合され得る。

いくつかの実施形態では、リングベースの相互接続ユニット２１２が、プロセッサ２００の内部コンポーネントを結合するために使用されるが、当技術分野でよく知られている技術を含む、ポイントツーポイント相互接続、スイッチド相互接続、又は他の技術等の代替の相互接続ユニットを使用することができる。いくつかの実施形態では、グラフィックプロセッサ２０８は、Ｉ／Ｏリンク２１３を介してリング相互接続２１２と結合する。

例示的なＩ／Ｏリンク２１３は、様々なプロセッサコンポーネントと、ｅＤＲＡＭモジュール等の高性能埋込みメモリモジュール２１８との間の通信を容易にするオンパッケージＩ／Ｏ相互接続を含む、複数の種類のＩ／Ｏ相互接続のうちの少なくとも１つを表す。いくつかの実施形態では、各コア２０２～Ｎ及びグラフィックプロセッサ２０８は、埋込みメモリモジュール２１８を共有されたラストレベルキャッシュとして使用する。

いくつかの実施形態では、コア２０２Ａ～Ｎは、同じ命令セットアーキテクチャを実行するホモジニアス・コアである。別の実施形態では、コア２０２Ａ～Ｎは、命令セットアーキテクチャ（ISA）に関してヘテロジニアスであり、コア２０２Ａ～Ｎの１つ又は複数が第１の命令セットを実行する一方、他のコアのうちの少なくとも１つが第１の命令セット又は異なる命令セットのサブセットを実行する。

いくつかの実施形態では、プロセッサ２００は、いくつかのプロセス技術のいずれか、例えば、相補型金属酸化物半導体（CMOS）、バイポーラ接合／相補型金属酸化物半導体（BiCMOS）、又はＮ型金属酸化物半導体ロジック（NMOS）を使用した、１つ又は複数の基板の一部であるか、又はその基板上に実装され得る。さらに、プロセッサ２００は、１つ又は複数のチップ上に、或いは他のコンポーネントに加えて、図示のコンポーネントを有するシステムオンチップ（SoC）集積回路として実装することができる。

図３は、ディスクリート・グラフィック処理装置であり得るか、又は複数の処理コアと統合されたグラフィックプロセッサであり得る、グラフィックプロセッサ３００の一実施形態のブロック図を示している。他の図の要素と同じ参照符号（又は名前）を有する図３のこれらの要素が、説明するものと同様の方法で動作又は機能することができるが、そのように限定されないことを指摘しておく。

いくつかの実施形態では、グラフィックプロセッサは、メモリマップドＩ／Ｏインターフェースを介してグラフィックプロセッサ上のレジスタと通信され、プロセッサメモリに配置されたコマンドを介して通信される。いくつかの実施形態では、グラフィックプロセッサ３００は、メモリにアクセスするためのメモリインターフェース３１４を含む。いくつかの実施形態では、メモリインターフェース３１４は、ローカルメモリ、１つ又は複数の内部キャッシュ、１つ又は複数の共有外部キャッシュ、及び／又はシステムメモリへのインターフェースであり得る。

いくつかの実施形態では、グラフィックプロセッサ３００はまた、ディスプレイ出力データをディスプレイ装置３２０に駆動するためのディスプレイコントローラ３０２を含む。いくつかの実施形態では、ディスプレイコントローラ３０２は、ビデオ又はユーザインターフェース要素の複数の層の表示及び構成のための１つ又は複数のオーバーレイ平面に関するハードウェアを含む。いくつかの実施形態では、グラフィックプロセッサ３００は、ＭＥＰＧ－２等のＭＥＰＧ（Moving Picture Experts Group）フォーマット、Ｈ．２６４／ＭＰＥＧ－４ＡＶＣ等のＡＶＣ（Advanced Video Coding）フォーマット、ＳＭＰＴＥ（Society of Motion Picture & Television Engineers）４２１Ｍ／ＶＣ－１、ＪＰＥＧ等のＪＰＥＧ（Joint Photographic Experts Group）フォーマット、ＭＪＰＥＧ（Motion JPEG）フォーマット等を含むがこれらに限定されない、１つ又は複数のメディア復号化フォーマットへ、から、又はその間でメディアを符号化、復号化、又はトランスコードするビデオコーデックエンジン３０６を含む。

いくつかの実施形態では、グラフィックプロセッサ３００は、例えば、ビット境界ブロック転送を含む２次元（2D）ラスタライザ動作を実行するためのブロック画像転送（BLIT）エンジン３０４を含む。いくつかの実施形態では、２Ｄグラフィック操作は、グラフィック処理エンジン（GPE）３１０の１つ又は複数のコンポーネントを使用して実行される。いくつかの実施形態では、ＧＰＥ３１０は、３次元（3D）グラフィック操作及びメディア操作等を含むグラフィック操作を実行するための計算エンジンである。

いくつかの実施形態では、ＧＰＥ３１０は、３Ｄプリミティブ形状（例えば、長方形、三角形等）に作用する処理関数を使用して３次元画像及びシーンをレンダリングする等の３Ｄ操作を実行するための３Ｄパイプライン３１２を含む。いくつかの実施形態では、３Ｄパイプライン３１２は、要素内で様々なタスクを実行する、及び／又は実行スレッドを３Ｄ／メディアサブシステム３１５にスポーン（spawn：生成）するプログラム可能で固定された関数要素を含む。３Ｄパイプライン３１２がメディア操作を実行するために使用され得るが、ＧＰＥ３１０の実施形態は、ビデオ後処理及び画像強調等のメディア操作を実行するために特に使用されるメディアパイプライン３１６も含む。

いくつかの実施形態では、メディアパイプライン３１６は、ビデオコーデックエンジン３０６の代わりに、又はその代理として、ビデオ復号化加速、ビデオインターレース解除、及びビデオ符号化加速等の１つ又は複数の特殊なメディア操作を実行するための固定関数又はプログラム可能な論理ユニットを含む。いくつかの実施形態では、メディアパイプライン３１６は、３Ｄ／メディアサブシステム３１５で実行するためにスレッドをスポーンするためのスレッドスポーンユニットをさらに含む。スポーンされたスレッドは、３Ｄ／メディアサブシステム３１５に含まれる１つ又は複数のグラフィック実行ユニットでメディア操作の計算を実行する。

いくつかの実施形態では、３Ｄ／メディアサブシステム３１５は、３Ｄパイプライン３１２及びメディアパイプライン３１６によって生成されたスレッドを実行するためのロジックを含む。いくつかの実施形態では、パイプラインは、スレッド実行要求を３Ｄ／メディアサブシステム３１５に送信し、この要求には、様々な要求を調停し、使用可能なスレッド実行リソースにディスパッチするスレッドディスパッチロジックが含まれる。実行リソースには、３Ｄスレッド及びメディアスレッドを処理するためのグラフィック実行ユニットのアレイが含まれる。いくつかの実施形態では、３Ｄ／メディアサブシステム３１５は、スレッド命令及びデータのための１つ又は複数の内部キャッシュを含む。いくつかの実施形態では、サブシステムは、スレッド同士の間でデータを共有し、出力データを格納するために、レジスタ及びアドレス指定可能メモリを含む共有メモリも含む。

図４は、グラフィックプロセッサのためのＧＰＥ５１０の実施形態のブロック図を示している。他の図の要素と同じ参照符号（又は名前）を有する図４のそれら要素は、説明するものと同様の方法で動作又は機能することができるが、そのように限定されないことを指摘しておく。

いくつかの実施形態では、ＧＰＥ５１０は、図３に関して説明したＧＰＥ３１０のバージョンである。図４に戻ると、いくつかの実施形態では、ＧＰＥ４１０は、３Ｄパイプライン４１２及びメディアパイプライン４１６を含み、これらはそれぞれ、図３の３Ｄパイプライン３１２及びメディアパイプライン３１６の実施態様とは異なるか、又はこれに類似し得る。

図４に戻ると、いくつかの実施形態では、ＧＰＥ５１０は、コマンドストリームをＧＰＥ３Ｄ及びメディアパイプライン４１２、４１６に提供するコマンドストリーマ４０３と結合する。いくつかの実施形態では、コマンドストリーマ４０３は、メモリに結合され、これは、システムメモリ、或いは１つ又は複数の内部キャッシュメモリ及び共有キャッシュメモリであり得る。いくつかの実施形態では、コマンドストリーマ４０３は、メモリからコマンドを受信し、コマンドを３Ｄパイプライン４１２及び／又はメディアパイプライン４１６に送信する。３Ｄパイプライン及びメディアパイプラインは、それぞれのパイプライン内のロジックを介して操作を実行することによって、或いは１つ又は複数の実行スレッドを実行ユニットアレイ４１４にディスパッチすることによってコマンドを処理する。いくつかの実施形態では、実行ユニットアレイ４１４はスケーラブルであり、それによって、アレイは、ＧＰＥ４１０の目標の電力及びパフォーマンスレベルに基づいて可変数の実行ユニットを含む。

いくつかの実施形態では、サンプリングエンジン４３０は、メモリ（例えば、キャッシュメモリ又はシステムメモリ）及び実行ユニットアレイ４１４と結合する。いくつかの実施形態では、サンプリングエンジン４３０は、実行アレイ４１４がメモリからグラフィック及びメディアデータを読み取るのを可能にするスケーラブルな実行ユニットアレイ４１４のためのメモリアクセスメカニズムを提供する。いくつかの実施形態では、サンプリングエンジン４３０は、メディアに対して特殊な画像サンプリング操作を実行するためのロジックを含む。

いくつかの実施形態では、サンプリングエンジン４３０における特殊なメディアサンプリングロジックは、ノイズ除去／インターレース解除モジュール４３２、動き推定モジュール４３４、及び画像スケーリング及びフィルタリングモジュール４３６を含む。いくつかの実施形態では、ノイズ除去／インターレース解除モジュール４３２は、復号化したビデオデータに対して１つ又は複数のノイズ除去又はインターレース解除アルゴリズムを実行するためのロジックを含む。インターレース解除ロジックは、インターレースされたビデオコンテンツの交互のフィールドを単一のビデオフレームに結合する。ノイズ除去ロジックは、ビデオ及び画像データからデータノイズを低減又は除去する。いくつかの実施形態では、ノイズ除去ロジック及びインターレース解除ロジックは、動きに適応し、ビデオデータで検出した動きの量に基づいて空間的又は時間的なフィルタリングを使用する。いくつかの実施形態では、ノイズ除去／インターレース解除モジュール４３２は、（例えば、動き推定エンジン４３４内の）専用の動き検出ロジックを含む。

いくつかの実施形態では、動き推定エンジン４３４は、ビデオデータに対して動きベクトル推定及び予測等のビデオ加速機能を実行することによって、ビデオ操作のためのハードウェア加速を提供する。動き推定エンジンは、連続するビデオフレームの間の画像データの変換を表す動きベクトルを決定する。いくつかの実施形態では、グラフィックプロセッサメディアコーデックは、ビデオ動き推定エンジン４３４を使用して、マクロブロックレベルでビデオに対して操作を実行し、そうでなければ、そのレベルは、汎用プロセッサを使用して実行するために計算集約的であり得る。いくつかの実施形態では、動き推定エンジン４３４は、一般に、ビデオデータ内の動きの方向又は大きさに敏感又は適応するビデオ復号化及び処理機能を支援するために、グラフィックプロセッサコンポーネントに利用可能である。

いくつかの実施形態では、画像スケーリング及びフィルタリングモジュール４３６は、画像処理操作を実行して、生成した画像及びビデオの視覚的品質を向上させる。いくつかの実施形態では、スケーリング及びフィルタリングモジュール４３６は、データを実行ユニットアレイ４１４に供給する前に、サンプリング動作中に画像及びビデオデータを処理する。

いくつかの実施形態では、ＧＰＥ５１０は、グラフィックサブシステムがメモリにアクセスするための追加のメカニズムを提供するデータポート４４４を含む。いくつかの実施形態では、データポート４４４は、レンダリングターゲット書き込み、一定のバッファ読み取り、スクラッチメモリ空間の読み取り／書き込み、及びメディア表面アクセスを含む操作のためのメモリアクセスを容易にする。いくつかの実施形態では、データポート４４４は、メモリへのアクセスをキャッシュするためのキャッシュメモリ空間を含む。キャッシュメモリは、単一のデータキャッシュにすることも、データポートを介してメモリにアクセスする複数のサブシステムのために複数のキャッシュ（例えば、レンダリングバッファキャッシュ、コンスタントバッファキャッシュ等）に分割することもできる。いくつかの実施形態では、実行ユニットアレイ４１４内の実行ユニット上で実行されるスレッドは、ＧＰＥ４１０の各サブシステムを結合するデータ配信相互接続を介してメッセージを交換することによってデータポートと通信する。

図５は、実行ユニットに関連するグラフィックプロセッサの別の実施形態のブロック図５００を示している。他の図の要素と同じ参照符号（又は名前）を有する図５のそれら要素は、説明するものと同様の方法で動作又は機能することができるが、そのように限定されないことを指摘しておく。

いくつかの実施形態では、グラフィックプロセッサは、リング相互接続５０２、パイプラインフロントエンド５０４、メディアエンジン５３７、及びグラフィックコア５８０Ａ～Ｎを含む。いくつかの実施形態では、リング相互接続５０２は、グラフィックプロセッサを、他のグラフィックプロセッサ又は１つ又は複数の汎用プロセッサコアを含む他の処理ユニットに結合する。いくつかの実施形態では、グラフィックプロセッサは、マルチコア処理システム内に統合された多くのプロセッサのうちの１つである。

いくつかの実施形態では、グラフィックプロセッサは、リング相互接続５０２を介してコマンドのバッチを受信する。着信コマンドは、パイプラインフロントエンド５０４内のコマンドストリーマ５０３によって解釈される。グラフィックプロセッサは、グラフィックコア５８０Ａ～Ｎを介して３Ｄジオメトリ処理及びメディア処理を実行するためのスケーラブルな実行ロジックを含む。３Ｄジオメトリ処理コマンドの場合に、コマンドストリーマ５０３は、コマンドをジオメトリパイプライン５３６に供給する。少なくともいくつかのメディア処理コマンドの場合に、コマンドストリーマ５０３は、メディアエンジン５３７と結合するビデオフロントエンド５３４にコマンドを供給する。いくつかの実施形態では、メディアエンジン５３７は、ビデオ及び画像の後処理のためのビデオ品質エンジン（VQE）５３０と、ハードウェアで高速化されたメディアデータの符号化及び復号化を提供するマルチフォーマット符号化／復号化（MFX）５３３エンジンとを含む。いくつかの実施形態では、ジオメトリパイプライン５３６及びメディアエンジン５３７はそれぞれ、少なくとも１つのグラフィックコア５８０Ａによって提供されるスレッド実行リソースのための実行スレッドを生成する。

グラフィックプロセッサは、モジュラーコア５８０Ａ～Ｎ（コアスライスと呼ばれることもある）を特徴とするスケーラブルなスレッド実行リソースを含み、各コアが複数のサブコア５５０Ａ～Ｎ、５６０Ａ～Ｎ（コアサブスライスと呼ばれることもある）を有する。グラフィックプロセッサは、任意の数のグラフィックコア５８０Ａ～５８０Ｎを有することができる。いくつかの実施形態では、グラフィックプロセッサは、少なくとも、第１のサブコア５５０Ａ及び第２のコアサブコア５６０Ａを有するグラフィックコア５８０Ａを含む。別の実施形態では、グラフィックプロセッサは、単一のサブコア（例えば、５５０Ａ）を含む低電力プロセッサである。いくつかの実施形態では、グラフィックプロセッサは、複数のグラフィックコア５８０Ａ～Ｎを含み、各コアが、第１のサブコア５５０Ａ～Ｎのセットと、第２のサブコア５６０Ａ～Ｎのセットとを含む。第１のサブコア５５０Ａ～Ｎのセット内の各サブコアは、少なくとも、実行ユニット５５２Ａ～Ｎ及びメディア／テクスチャサンプラー５５４Ａ～Ｎの第１のセットを含む。第２のサブコア５６０Ａ～Ｎのセット内の各サブコアは、少なくとも、実行ユニット５６２Ａ～Ｎ及びサンプラー５６４Ａ～Ｎの第２のセットを含む。いくつかの実施形態では、各サブコア５５０Ａ～Ｎ、５６０Ａ～Ｎは、共有リソース５７０Ａ～Ｎのセットを共有する。いくつかの実施形態では、共有リソースは、共有キャッシュメモリ及びピクセル操作ロジックを含む。他の共有リソースもまた、グラフィックプロセッサの様々な実施形態に含まれ得る。

図６は、グラフィック処理エンジンの一実施形態で使用される処理要素のアレイを含むスレッド実行ロジック６００を示している。他の図の要素と同じ参照符号（又は名前）を有する図６のそれら要素は、説明するものと同様の方法で動作又は機能することができるが、そのように限定されないことを指摘しておく。

いくつかの実施形態では、スレッド実行ロジック６００は、ピクセルシェーダー６０２、スレッドディスパッチャ６０４、命令キャッシュ６０６、複数の実行ユニット６０８Ａ～Ｎを含むスケーラブルな実行ユニットアレイ、サンプラー６１０、データキャッシュ６１２、及びデータポート６１４を含む。いくつかの実施形態では、含まれるコンポーネントは、各コンポーネントにリンクする相互接続ファブリックを介して相互接続される。いくつかの実施形態では、スレッド実行ロジック６００は、命令キャッシュ６０６、データポート６１４、サンプラー６１０、及び実行ユニットアレイ６０８Ａ～Ｎのうちの１つ又は複数を介した、システムメモリ又はキャッシュメモリ等のメモリへの１つ又は複数の接続を含む。いくつかの実施形態では、各実行ユニット（例えば、６０８Ａ）は、複数の同時スレッドを実行し、複数のデータ要素をスレッド毎に並列に処理することができる個々のベクトルプロセッサである。いくつかの実施形態では、実行ユニットアレイ６０８Ａ～Ｎは、任意の数の個々の実行ユニットを含む。

いくつかの実施形態では、実行ユニットアレイ６０８Ａ～Ｎは、主に「シェーダー（shader）」プログラムを実行するために使用される。いくつかの実施形態では、アレイ６０８Ａ～Ｎの実行ユニットは、グラフィックライブラリ（例えば、Ｄｉｒｅｃｔ３Ｄ及びＯｐｅｎＧＬ）からのシェーダープログラムが最小限の変換で実行されるように、多くの標準３Ｄグラフィックシェーダー命令のネイティブサポートを含む命令セットを実行する。実行ユニットは、頂点及びジオメトリ処理（例えば、頂点プログラム、ジオメトリプログラム、頂点シェーダー）、ピクセル処理（例えば、ピクセルシェーダー、フラグメントシェーダー）、及び汎用処理（例えば、計算シェーダー、メディアシェーダー）をサポートする。

実行ユニットアレイ６０８Ａ～Ｎの各実行ユニットは、データ要素のアレイ上で動作する。データ要素の数は、「実行サイズ」、つまり命令のためのチャネル数である。実行チャネルは、命令内のデータ要素のアクセス、マスキング、及びフロー制御のための論理的な実行単位である。チャネルの数は、特定のグラフィックプロセッサの物理演算論理ユニット（ALU）又は浮動小数点ユニット（FPU）の数とは無関係である。いくつかの実施形態では、実行ユニット６０８Ａ～Ｎは、整数及び浮動小数点データ型をサポートする。

実行ユニット命令セットは、単一命令複数データ（SIMD）命令を含む。様々なデータ要素をパックされたデータ型としてレジスタに格納することができ、実行ユニットは、要素のデータサイズに基づいて様々な要素を処理する。例えば、２５６ビット幅のベクトルを操作する場合に、ベクトルの２５６ビットはレジスタに格納され、実行ユニットは、４個の個別の６４ビットパック化データ要素（クアッドワード（QW）サイズのデータ要素）、８個の個別の３２ビットパック化データ要素（ダブルワード（DW）サイズのデータ要素）、１６個の個別の１６ビットパック化データ要素（ワード（W）サイズのデータ要素）、又は３２個の個別の８ビットデータ要素（バイト（B）サイズのデータ要素）としてベクトルを操作する。ただし、異なるベクトル幅及びレジスタサイズが可能である。

１つ又は複数の内部命令キャッシュ（例えば、６０６）が、実行ユニットのスレッド命令をキャッシュするために、スレッド実行ロジック６００に含まれる。いくつかの実施形態では、１つ又は複数のデータキャッシュ（例えば、６１２）が、スレッド実行中にスレッドデータをキャッシュするために含まれる。いくつかの実施形態では、サンプラー６１０は、３Ｄ操作のためのテクスチャサンプリング及びメディア操作のためのメディアサンプリングを提供するために含まれる。いくつかの実施形態では、サンプラー６１０は、サンプリングしたデータを実行ユニットに提供する前に、サンプリングプロセス中にテクスチャ又はメディアデータを処理するための特殊なテクスチャ又はメディアサンプリング機能を含む。

実行中に、グラフィック及びメディアパイプラインは、スレッドスポーン及びディスパッチロジックを介してスレッド開始要求をスレッド実行ロジック６００に送信する。いくつかの実施形態では、スレッド実行ロジック６００は、グラフィック及びメディアパイプラインからのスレッド開始要求を調停し、１つ又は複数の実行ユニット６０８Ａ～Ｎで要求されたスレッドをインスタンス化するローカルスレッドディスパッチャ６０４を含む。例えば、ジオメトリパイプライン（例えば、図５の５３６）は、頂点処理、テッセレーション（tessellation）、又はジオメトリ処理スレッドをスレッド実行ロジック６００にディスパッチする。図６に戻ると、いくつかの実施形態では、スレッドディスパッチャ６０４は、実行中のシェーダープログラムからリクエストを生成するランタイムスレッドも処理することができる。

幾何学的オブジェクトのグループが処理され、ピクセルデータにラスタライズされると、ピクセルシェーダー６０２が呼び出されて、出力情報をさらに計算し、結果を出力面（例えば、カラーバッファ、深度バッファ、ステンシルバッファ等）に書き込む。いくつかの実施形態では、ピクセルシェーダー６０２は、ラスタライズされたオブジェクト全体に亘って補間される様々な頂点属性の値を計算する。いくつかの実施形態では、ピクセルシェーダー６０２は、次に、ＡＰＩ提供のピクセルシェーダープログラムを実行する。ピクセルシェーダープログラムを実行するために、ピクセルシェーダー６０２は、スレッドディスパッチャ６０４を介して実行ユニット（例えば、６０８Ａ）にスレッドをディスパッチする。いくつかの実施形態では、ピクセルシェーダー６０２は、サンプラー６１０内のテクスチャサンプリングロジックを使用して、メモリに格納されたテクスチャマップ内のテクスチャデータにアクセスする。テクスチャデータ及び入力ジオメトリデータに対する算術演算は、ピクセルカラーデータをジオメトリフラグメント毎に計算するか、或いは１つ又は複数のピクセルを以降の処理から破棄する。

いくつかの実施形態では、データポート６１４は、スレッド実行ロジック６００がグラフィックプロセッサ出力パイプラインで処理するために処理したデータをメモリに出力するためのメモリアクセスメカニズムを提供する。いくつかの実施形態では、データポート６１４は、データポートを介したメモリアクセスのためにデータをキャッシュするべく、１つ又は複数のキャッシュメモリ（例えば、データキャッシュ６１２）を含むか、又はそれらメモリに結合する。

図７は、本開示のいくつかの実施形態による、グラフィックプロセッサ実行ユニット命令フォーマット７００を示すブロック図を示している。いくつかの実施形態では、グラフィックプロセッサ実行ユニットは、複数のフォーマットの命令を含む命令セットをサポートする。実線のボックスは、実行ユニット命令に一般的に含まれるコンポーネントを示す一方、破線は、オプションであるか、命令のサブセットにのみ含まれるコンポーネントを含む。図示のように説明する命令フォーマット７００は、命令が処理された後の命令復号化から生じるマイクロ操作とは対照的に、実行ユニットに供給される命令であるという点でマクロ命令である。

いくつかの実施形態では、グラフィックプロセッサ実行ユニットは、１２８ビットフォーマット７１０の命令をネイティブにサポートする。６４ビットの圧縮（compacted）命令フォーマット７３０は、選択した命令、命令オプション、及びオペランドの数に基づくいくつかの命令に利用可能である。ネイティブ１２８ビットフォーマット７１０は、全ての命令オプションへのアクセスを提供するが、一部のオプション及び操作は、６４ビットフォーマット７３０に制限される。６４ビットフォーマット７３０で利用可能なネイティブ命令は、実施形態によって異なる。いくつかの実施形態では、命令は、インデックスフィールド７１３内のインデックス値のセットを使用して部分的に圧縮される。実行ユニットハードウェアは、インデックス値に基づいて圧縮テーブルのセットを参照し、圧縮テーブル出力を使用して、ネイティブ命令を１２８ビットフォーマット７１０に再構成する。

各フォーマットについて、命令オペコード７１２は、実行ユニットが実行する操作を規定する。実行ユニットは、各オペランドの複数のデータ要素に亘って各命令を並列に実行する。例えば、追加命令に応答して、実行ユニットは、テクスチャ要素又はピクチャ要素を表す各カラーチャネルに亘って追加操作を同時に実行する。デフォルトでは、実行ユニットは、オペランドの全てのデータチャネルに亘って各命令を実行する。いくつかの実施形態では、命令制御フィールド７１２は、チャネル選択（例えば、条件付き実行制御（predication））及びデータチャネル順序（例えば、スウィズル（swizzle））等の特定の実行オプションの制御を可能にする。１２８ビット命令７１０の場合に、実行サイズフィールド７１６は、並列に実行されるデータチャネルの数を制限する。いくつかの実施形態では、実行サイズフィールド７１６は、６４ビット圧縮命令フォーマット７３０で使用するために利用可能ではない。

いくつかの実行ユニット命令は、２つのソース（src）オペランド、ｓｒｃ０７２２、ｓｒｃ１７２２、及び１つの宛先７１８を含む最大３つのオペランドを有する。いくつかの実施形態では、実行ユニットは、宛先の１つが暗示される二重宛先命令をサポートする。データ操作命令は、第３のソースオペランド（例えば、ＳＲＣ２７２４）を有することができ、この場合に、命令オペコードＪＪ１２がソースオペランドの数を決定する。命令の最後のソースオペランドは、命令とともに渡される即時（ハードコード化された等）の値にすることができる。

いくつかの実施形態では、命令は、オペコード復号化７４０を単純化するために、オペコードビットフィールドに基づいてグループ化される。８ビットオペコードの場合に、ビット４、５、及び６は、実行ユニットがオペコードのタイプを決定するのを可能にする。示されている正確なオペコードのグループ化は単なる例である。いくつかの実施形態では、移動及びロジックオペコードグループ７４２は、データ移動及びロジック命令（例えば、移動（mov）、比較（cmp））を含む。いくつかの実施形態では、移動及びロジックグループ７４２は、５つの最上位ビット（MSB）を共有し、ここで、移動（mov）命令は、００００００ｘｘｘｘｂ（例えば、０ｘ０ｘ）の形式であり、ロジック命令は、０００１ｘｘｘｘｂ（例えば、０ｘ０１）の形式である。フロー制御命令グループ７４４（例えば、呼出し、ジャンプ（jmp）等）は、００１０ｘｘｘｘｂ（例えば、０ｘ２０）の形式の命令を含む。雑多な命令グループ７４６は、０１１１ｘｘｘｘｂ（例えば、０ｘ３０）の形式の同期命令（例えば、待機、送信）を含む、命令の混合を含む。並列数学命令グループ７４８は、０１００ｘｘｘｘｂ（例えば、０ｘ４０）の形式で、コンポーネント毎の算術命令（例えば、加算、乗算（mul））を含む。並列数学グループ７４８は、データチャネルに亘って算術演算を並列に実行する。ベクトル数学グループ７５０は、０１０１ｘｘｘｘｂ（例えば、０ｘ５０）の形式の算術命令（例えば、ｄｐ４）を含む。ベクトル数学グループは、ベクトルオペランドの内積計算等の算術演算を行う。

図８は、グラフィックパイプライン８２０、メディアパイプライン８３０、ディスプレイエンジン８４０、スレッド実行ロジック８５０、及びレンダリング出力パイプライン８７０を含むグラフィックプロセッサの別の実施形態のブロック図８００である。他の図の要素と同じ参照符号（又は名前）を有する図８のそれら要素は、説明するものと同様の方法で動作又は機能することができるが、そのように限定されないことを指摘しておく。

いくつかの実施形態では、グラフィックプロセッサは、１つ又は複数の汎用処理コアを含むマルチコア処理システム内のグラフィックプロセッサである。グラフィックプロセッサは、１つ又は複数の制御レジスタ（図示せず）へのレジスタ書込みによって、又はリング相互接続８０２を介してグラフィックプロセッサに発せられるコマンドを介して制御される。いくつかの実施形態では、リング相互接続８０２は、グラフィックプロセッサを、他のグラフィックプロセッサ又は汎用プロセッサ等の他の処理コンポーネントに結合する。リング相互接続８０２からのコマンドは、グラフィックパイプライン８２０又はメディアパイプライン８３０の個々のコンポーネントに命令を供給するコマンドストリーマ８０３によって解釈される。

いくつかの実施形態では、コマンドストリーマ８０３は、メモリから頂点データを読み取り、コマンドストリーマ８０３によって提供される頂点処理コマンドを実行する頂点フェッチャー（fetcher）８０５コンポーネントの動作を指示する。いくつかの実施形態では、頂点フェッチャー８０５は、頂点データを頂点シェーダー８０７に提供し、頂点シェーダー８０７は、各頂点に対して座標空間変換及び照明操作を実行する。いくつかの実施形態では、頂点フェッチャー８０５及び頂点シェーダー８０７は、スレッドディスパッチャ８３１を介して実行ユニット８５２Ａ、８５２Ｂに実行スレッドをディスパッチすることによって頂点処理命令を実行する。

いくつかの実施形態では、実行ユニット８５２Ａ、８５２Ｂは、グラフィック及びメディア操作を実行するための命令セットを有するベクトルプロセッサのアレイである。いくつかの実施形態では、実行ユニット８５２Ａ、８５２Ｂは、各アレイに固有であるか、又はアレイ同士の間で共有される、付属のＬ１キャッシュ８５１を有する。キャッシュは、データキャッシュ、命令キャッシュ、又はデータ及び命令を異なるパーティションに含めるためにパーティション化された単一のキャッシュとして構成することができる。

いくつかの実施形態では、グラフィックパイプライン８２０は、３Ｄオブジェクトのハードウェア・アクセラレーション・テッセレーションを実行するためのテッセレーションコンポーネントを含む。プログラム可能なハル（hull）シェーダー８１１は、テッセレーション操作を構成する。プログラム可能なドメインシェーダー８１７は、テッセレーション出力のバックエンド評価を提供する。テッセレータ８１３は、ハルシェーダー８１１の方向で動作し、グラフィックパイプライン８２０への入力として提供される粗い幾何学的モデルに基づいて詳細な幾何学的オブジェクトのセットを生成するための特別な目的のロジックを含む。いくつかの実施形態では、テッセレーションが使用されない場合に、テッセレーションコンポーネント８１１、８１３、及び８１７をバイパスすることができる。

いくつかの実施形態では、完全な幾何学的オブジェクトは、実行ユニット８５２Ａ、８５２Ｂにディスパッチされた１つ又は複数のスレッドを介してジオメトリシェーダー８１９によって処理され得るか、又はクリッパー８２９に直接進むことができる。いくつかの実施形態では、ジオメトリシェーダー８１９は、グラフィックパイプラインの以前の段階のように頂点又は頂点のパッチではなく、幾何学的オブジェクト全体に対して動作する。テッセレーションが無効になっている場合に、ジオメトリシェーダー８１９は、頂点シェーダー８０７から入力を受け取る。いくつかの実施形態では、ジオメトリシェーダー８１９は、テッセレーションユニットが無効になっている場合にジオメトリテッセレーションを実行するようにジオメトリシェーダープログラムによってプログラム可能である。

ラスタライズの前に、頂点データは、固定機能クリッパー、又はクリッピング及びジオメトリシェーダー機能を有するプログラム可能なクリッパーのいずれかであるクリッパー８２９によって処理される。いくつかの実施形態では、レンダリング出力パイプライン８７０のラスタライザ８７３は、ピクセルシェーダーをディスパッチして、幾何学的オブジェクトをそれらのピクセル毎の表現に変換する。いくつかの実施形態では、ピクセルシェーダーロジックは、スレッド実行ロジック８５０に含まれる。

グラフィックエンジンは、相互接続バス、相互接続ファブリック、又はグラフィックエンジンの主要コンポーネントの間でデータ及びメッセージを通過させるのを可能にする他のいくつかの相互接続メカニズムを有する。いくつかの実施形態では、実行ユニット８５２Ａ、８５２Ｂ及び関連するキャッシュ８５１、テクスチャ及びメディアサンプラー８５４、並びにテクスチャ／サンプラーキャッシュ８５８は、データポート８５６を介して相互接続され、メモリアクセスを実行し、グラフィックエンジンのレンダリング出力パイプラインコンポーネントと通信する。いくつかの実施形態では、サンプラー８５４、キャッシュ８５１、８５８、及び実行ユニット８５２Ａ、８５２Ｂはそれぞれ、別個のメモリアクセスパスを有する。

いくつかの実施形態では、レンダリング出力パイプライン８７０は、頂点ベースのオブジェクトをそれらの関連するピクセルベースの表現に変換するラスタライザ及び深度テストコンポーネント８７３を含む。いくつかの実施形態では、ラスタライザロジックは、固定関数の三角形及び線のラスタライズを実行するためのウィンドウャ（windower）／マスカー（masker）ユニットを含む。一実施形態では、関連するレンダリング及び深度バッファキャッシュ８７８、８７９も利用可能である。いくつかの実施形態では、ピクセル操作コンポーネント８７７は、データに対してピクセルベースの操作を実行するが、場合によっては、２Ｄ操作に関連するピクセル操作（例えば、ブレンディングを伴うビットブロック画像転送）は、２Ｄエンジン８４１によって実行されるか、又はオーバーレイ表示面を使用するディスプレイコントローラ８４３によって表示時に置換される。いくつかの実施形態では、共有Ｌ３キャッシュ８７５は、全てのグラフィックコンポーネントに利用可能であり、これは、メインシステムメモリを使用せずにデータの共有を可能にする。

いくつかの実施形態では、グラフィックプロセッサメディアパイプライン８３０は、メディアエンジン８３７及びビデオフロントエンド８３４を含む。いくつかの実施形態では、ビデオフロントエンド８３４は、コマンドストリーマ８０３からパイプラインコマンドを受信する。いくつかの実施形態では、メディアパイプライン８３０は、別個のコマンドストリーマを含む。いくつかの実施形態では、ビデオフロントエンド８３４は、コマンドをメディアエンジン８３７に送信する前にメディアコマンドを処理する。いくつかの実施形態では、メディアエンジンは、スレッドディスパッチャ８３１を介してスレッド実行ロジック８５０にディスパッチするためにスレッドをスポーンするスレッドスポーン機能を含む。

いくつかの実施形態では、グラフィックエンジンは、ディスプレイエンジン８４０を含む。いくつかの実施形態では、ディスプレイエンジン８４０は、グラフィックプロセッサの外部にあり、リング相互接続８０２、又は他のいくつかの相互接続バス又はファブリックを介してグラフィックプロセッサと結合する。いくつかの実施形態では、ディスプレイエンジン８４０は、２Ｄエンジン８４１及びディスプレイコントローラ８４３を含む。いくつかの実施形態では、ディスプレイエンジン８４０は、３Ｄパイプラインとは独立して動作することができる特別な目的のロジックを含む。いくつかの実施形態では、ディスプレイコントローラ８４３は、ラップトップコンピュータのようなシステム統合ディスプレイ装置、又はディスプレイ装置コネクタを介して取り付けられた外部ディスプレイ装置であり得るディスプレイ装置（図示せず）と結合する。

いくつかの実施形態では、グラフィックパイプライン８２０及びメディアパイプライン８３０は、複数のグラフィック及びメディアプログラミングインターフェースに基づいて動作を実行するように構成可能であり、任意の１つのアプリケーションプログラミングインターフェース（ＡＰＩ）に固有ではない。いくつかの実施形態では、グラフィックプロセッサのためのドライバソフトウェアは、特定のグラフィック又はメディアライブラリに固有のＡＰＩ呼出しを、グラフィックプロセッサによって処理できるコマンドに変換する。様々な実施形態において、ＫｈｒｏｎｏｓグループによってサポートされるＯｐｅｎＧＬ（Open Graphic Library）及びＯｐｅｎＣＬ（Open Computing Language）、Ｍｉｃｒｏｓｏｆｔ社のＤｉｒｅｃｔ３Ｄライブラリ、又は一実施形態では、ＯｐｅｎＧＬとＤ３Ｄとの両方に対してサポートが提供される。ＯｐｅｎＣＶ（Open Source Computer Vision Library）のサポートも提供される場合がある。将来のＡＰＩのパイプラインからグラフィックプロセッサのパイプラインへのマッピングを作成できる場合に、互換性のある３Ｄパイプラインを備えた将来のＡＰＩもサポートされる。

図９Ａは、いくつかの実施形態によるグラフィックプロセッサのコマンドフォーマット９００を示すブロック図を示しており、図９Ｂは、本開示のいくつかの実施形態によるグラフィックプロセッサのコマンドシーケンス９１０のブロック図を示している。他の図の要素と同じ参照符号（又は名前）を有する図９Ａ～図９Ｂのそれら要素は、説明するものと同様の方法で動作又は機能することができるが、そのように限定されないことを指摘しておく。

図９Ａの実線のボックスは、グラフィックコマンドに一般的に含まれるコンポーネントを示す一方、破線は、オプションであるか、又はグラフィックコマンドのサブセットにのみ含まれるコンポーネントを含む。図９Ａの例示的なグラフィックプロセッサのコマンドフォーマット９００は、コマンドのターゲットクライアント９０２、コマンド操作コード（オペコード）９０４、及びコマンドに関連するデータ９０６を識別するためのデータフィールドを含む。いくつかの実施形態では、サブオペコード９０５及びコマンドサイズ９０８も、いくつかのコマンドに含まれる。

いくつかの実施形態では、クライアント９０２は、コマンドデータを処理するグラフィック装置のクライアントユニットを指定する。いくつかの実施形態では、グラフィックプロセッサのコマンドパーサーは、各コマンドのクライアントフィールドを調べて、コマンドの更なる処理を条件付けして、コマンドデータを適切なクライアントユニットにルーティングする。いくつかの実施形態では、グラフィックプロセッサのクライアントユニットは、メモリインターフェースユニット、レンダリングユニット、２Ｄユニット、３Ｄユニット、及びメディアユニットを含む。各クライアントユニットには、コマンドを処理する対応する処理パイプラインがある。コマンドがクライアントユニットによって受信されると、クライアントユニットは、オペコード９０４を読み取り、存在する場合にサブオペコード９０５を読み取って、実行すべき操作を決定する。クライアントユニットは、コマンドのデータ９０６フィールドの情報を使用してコマンドを実行する。一部のコマンドでは、明示的なコマンドサイズ９０８によって、コマンドのサイズを指定することが期待される。いくつかの実施形態では、コマンドパーサーは、コマンドオペコードに基づいて、少なくともいくつかのコマンドのサイズを自動的に決定する。いくつかの実施形態では、コマンドは、ダブルワードの倍数を介して整列される。

いくつかの実施形態では、図９Ｂのフローチャートは、サンプルコマンドシーケンス９１０を示している。フローチャート９１０のブロックが特定の順序で示されているが、動作の順序は変更することができる。こうして、図示した実施形態は、異なる順序で実行することができ、いくつかのアクション／ブロックを並行して実行することができる。リスト化されたブロック及び／又は操作のいくつかは、特定の実施形態によればオプションである。提示されたブロックの番号は、明確にするためのものであり、様々なブロックが発生しなければならない操作の順序を規定することを意図したものではない。さらに、様々なフローからの操作を様々な組合せで利用することができる。

いくつかの実施形態では、グラフィックプロセッサの実施形態を特徴付けるデータ処理システムのソフトウェア又はファームウェアは、グラフィック操作のセットを設定、実行、及び終了するために示されるコマンドシーケンスのバージョンを使用する。例示の目的でサンプルコマンドシーケンスを示し、説明しているが、実施形態は、これらのコマンド又はこのコマンドシーケンスに限定されない。さらに、コマンドは、グラフィックプロセッサが少なくとも部分的に同時の方法でコマンドのシーケンスを処理するように、コマンドシーケンス内のコマンドのバッチとして発せられ得る。

いくつかの実施形態では、サンプルコマンドシーケンス９１０は、パイプラインフラッシュコマンド９１２で開始して、任意のアクティブなグラフィックパイプラインに、パイプラインに対して現在保留中のコマンドを完了させることができる。いくつかの実施形態では、３Ｄパイプライン９２２及びメディアパイプライン９２４は同時に動作しない。パイプラインフラッシュが実行され、アクティブなグラフィックパイプラインに、保留中のコマンドを完了させる。いくつかの実施形態では、パイプラインフラッシュに応答して、グラフィックプロセッサのコマンドパーサーは、アクティブな描画エンジンが保留中の操作を完了し、関連する読取りキャッシュが無効になるまで、コマンド処理を一時停止する。オプションで、「ダーティ（dirty）」とマークされたレンダリングキャッシュ内のデータをメモリにフラッシュすることができる。いくつかの実施形態では、パイプラインフラッシュコマンド９１２は、パイプライン同期のために、又はグラフィックプロセッサを低電力状態にする前に使用することができる。

いくつかの実施形態では、パイプライン選択コマンド９１３は、コマンドシーケンスがグラフィックプロセッサにパイプラインを明示的に切り替えることを要求するときに使用される。いくつかの実施形態では、パイプライン選択コマンド９１３は、コンテキストが両方のパイプラインに対してコマンドを発することでない限り、パイプラインコマンドを発する前に実行コンテキスト内で一度だけ必要とされる。いくつかの実施形態では、パイプラインフラッシュコマンド９１２は、パイプライン選択コマンド９１３を介したパイプライン切替えの直前に必要とされる。

いくつかの実施形態では、パイプライン制御コマンド９１４は、動作のためにグラフィックパイプラインを構成し、３Ｄパイプライン９２２及びメディアパイプライン９２４をプログラムするために使用される。いくつかの実施形態では、パイプライン制御コマンド９１４は、アクティブなパイプラインのパイプライン状態を構成する。いくつかの実施形態では、パイプライン制御コマンド９１４は、パイプライン同期のために使用され、及びコマンドのバッチを処理する前にアクティブなパイプライン内の１つ又は複数のキャッシュメモリからデータをクリアするために使用される。

リターンバッファ状態コマンド９１６は、データを書き込むべく、それぞれのパイプラインに関するリターンバッファのセットを構成するために使用される。一部のパイプライン操作では、処理中に操作によって中間データが書き込まれる１つ又は複数のリターンバッファの割当て、選択、又は構成が必要である。グラフィックプロセッサは、１つ又は複数のリターンバッファを使用して、出力データを格納し、クロススレッド通信も実行する。いくつかの実施形態では、リターンバッファ状態９１６は、パイプライン操作のセットに使用するために、リターンバッファのサイズ及び数を選択することを含む。

コマンドシーケンスの残りのコマンドは、操作に関するアクティブなパイプラインに基づいて異なる。パイプライン決定９２０に基づいて、コマンドシーケンスは、３Ｄパイプライン状態９３０で始まる３Ｄパイプライン９２２、又はメディアパイプライン状態９４０で始まるメディアパイプライン９２４に合わせて調整される。

３Ｄパイプライン状態９３０のコマンドは、頂点バッファ状態、頂点要素状態、一定の色状態、深度バッファ状態、及び３Ｄプリミティブコマンドを処理する前に構成すべき他の状態変数のための３Ｄ状態設定コマンドを含む。これらのコマンドの値は、使用中の特定の３ＤＡＰＩに少なくとも部分的に基づいて決定される。いくつかの実施形態では、３Ｄパイプライン状態９３０コマンドは、特定のパイプライン要素が使用されない場合に、それらの要素を選択的に無効化又はバイパスすることもできる。

いくつかの実施形態では、３Ｄプリミティブ９３２コマンドは、３Ｄパイプラインによって処理すべき３Ｄプリミティブを提出するために使用される。３Ｄプリミティブ９３２コマンドを介してグラフィックプロセッサに渡されるコマンド及び関連するパラメータは、グラフィックパイプラインの頂点フェッチ関数に転送される。頂点フェッチ関数は、３Ｄプリミティブ９３２コマンドデータを使用して頂点データ構造を生成する。頂点データ構造は、１つ又は複数のリターンバッファに格納される。いくつかの実施形態では、３Ｄプリミティブ９３２コマンドは、頂点シェーダーを介して３Ｄプリミティブに対して頂点操作を実行するために使用される。頂点シェーダーを処理するために、３Ｄパイプライン９２２は、シェーダー実行スレッドをグラフィックプロセッサの実行ユニットにディスパッチする。

いくつかの実施形態では、３Ｄパイプライン９２２は、実行９３４コマンド又はイベントを介してトリガーされる。いくつかの実施形態では、レジスタ書込みがコマンド実行をトリガーする。いくつかの実施形態では、実行は、コマンドシーケンスの「ゴー（go）」又は「キック（kick）」コマンドを介してトリガーされる。一実施形態では、コマンド実行は、パイプライン同期コマンドを使用してトリガーされ、グラフィックパイプラインを介してコマンドシーケンスをフラッシュする。３Ｄパイプラインは、３Ｄプリミティブのジオメトリ処理を実行する。操作が完了すると、結果として得られる幾何学的オブジェクトがラスタライズされ、ピクセルエンジンが結果として得られるピクセルに色を付ける。ピクセルシェーディング及びピクセルバックエンド操作を制御する追加のコマンドも、これらの操作に含まれる場合がある。

いくつかの実施形態では、サンプルコマンドシーケンス９１０は、メディア操作を実行するときに、メディアパイプライン９２４のパスを辿る。一般に、メディアパイプライン９２４のプログラミングの特定の使用及び方法は、実行すべきメディア操作又は計算操作に依存する。特定のメディア復号化操作は、メディア復号化中にメディアパイプラインにオフロードされ得る。メディアパイプラインをバイパスすることもでき、メディア復号化は、１つ又は複数の汎用処理コアによって提供されるリソースを使用して全体的又は部分的に実行することができる。いくつかの実施形態では、メディアパイプラインは、汎用グラフィック処理装置（GPGPU）操作のための要素も含み、グラフィックプロセッサは、グラフィックプリミティブのレンダリングに明示的に関連しない計算シェーダープログラムを使用してＳＩＭＤベクトル操作を実行するために使用される。

いくつかの実施形態では、メディアパイプライン９２４は、３Ｄパイプライン９２２と同様の方法で構成される。メディアパイプライン状態コマンド９４０のセットは、メディアオブジェクトコマンド９４２の前に、コマンドキューにディスパッチ又は配置される。いくつかの実施形態では、メディアパイプライン状態コマンド９４０は、メディアオブジェクトを処理するために使用されるメディアパイプライン要素を構成するためのデータを含む。これには、符号化又は復号化フォーマット等、メディアパイプライン内のビデオ復号化及びビデオ符号化ロジックを構成するためのデータが含まれる。いくつかの実施形態では、メディアパイプライン状態コマンド９４０はまた、状態設定のバッチを含む「間接的な」状態要素への１つ又は複数のポインタの使用をサポートする。

いくつかの実施形態では、メディアオブジェクトコマンド９４２は、メディアパイプラインによる処理のためにメディアオブジェクトへのポインタを提供する。メディアオブジェクトには、処理すべきビデオデータを含むメモリバッファが含まれる。いくつかの実施形態では、全てのメディアパイプライン状態は、メディアオブジェクトコマンド９４２を発する前に有効でなければならない。パイプライン状態が構成され、メディアオブジェクトコマンド９４２がキューに入れられると、メディアパイプライン９２４は、実行９３４コマンド又は同等の実行イベント（例えば、レジスタ書込み）を介してトリガーされる。次に、メディアパイプライン９２４からの出力は、３Ｄパイプライン９２２又はメディアパイプライン９２４によって提供される操作によって後処理され得る。いくつかの実施形態では、ＧＰＧＰＵ操作は、メディア操作と同様の方法で構成及び実行される。

図１０は、本開示のいくつかの実施形態によるデータ処理システムのためのグラフィック・ソフトウェア・アーキテクチャ１０００を示している。他の図の要素と同じ参照符号（又は名前）を有する図１０のそれらの要素は、説明するものと同様の方法で動作又は機能することができるが、そのように限定されないことを指摘しておく。

いくつかの実施形態では、ソフトウェア・アーキテクチャは、３Ｄグラフィックアプリケーション１０１０、オペレーティングシステム１０２０、及び少なくとも１つのプロセッサ１０３０を含む。いくつかの実施形態では、プロセッサ１０３０は、グラフィックプロセッサ１０３２、及び１つ又は複数の汎用プロセッサコア１０３４を含む。いくつかの実施形態では、グラフィックアプリケーション１０１０及びオペレーティングシステム１０２０はそれぞれ、データ処理システムのシステムメモリ１０５０内で実行される。

いくつかの実施形態では、３Ｄグラフィックアプリケーション１０１０は、シェーダー命令１０１２を含む１つ又は複数のシェーダープログラムを含む。シェーダー言語命令は、高レベルシェーダー言語（HLSL）又はＯｐｅｎＧＬシェーダー言語（GLSL）等の高レベルシェーダー言語であり得る。アプリケーションは、汎用プロセッサコア１０３４による実行に適した機械語での実行可能命令１０１４も含む。アプリケーションはまた、頂点データによって規定されたグラフィックオブジェクト１０１６を含む。

いくつかの実施形態では、オペレーティングシステム１０２０は、Ｍｉｃｒｏｓｏｆｔ社のＭｉｃｒｏｓｏｆｔ（登録商標）Ｗｉｎｄｏｗｓ（登録商標）オペレーティングシステム、独自のＵＮＩＸ（登録商標）系オペレーティングシステム、又はＬｉｎｕｘ（登録商標）カーネルの変形を使用するオープンソースＵＮＩＸ（登録商標）系オペレーティングシステムであり得る。Ｄｉｒｅｃｔ３ＤＡＰＩが使用されている場合に、オペレーティングシステム１０２０は、フロントエンドシェーダーコンパイラ１０２４を使用して、ＨＬＳＬのシェーダー命令１０１２を低レベルのシェーダー言語にコンパイルする。コンパイルはジャストインタイムコンパイルである場合もあれば、アプリケーションが共有の事前コンパイルを実行する場合もある。一実施形態では、高レベルシェーダーは、３Ｄグラフィックアプリケーション１０１０のコンパイル中に低レベルシェーダーにコンパイルされる。

いくつかの実施形態では、ユーザモードグラフィックドライバ１０２６は、シェーダー命令１０１２をハードウェア固有の表現に変換するためのバックエンドシェーダーコンパイラ１０２７を含み得る。ＯｐｅｎＧＬＡＰＩが使用されている場合に、ＧＬＳＬ高レベル言語のシェーダー命令１０１２は、コンパイルのためにユーザモードグラフィックドライバ１０２６に渡される。いくつかの実施形態では、ユーザモードグラフィックドライバ１０２６は、オペレーティングシステムのカーネルモード機能１０２８を使用して、カーネルモードグラフィックドライバ１０２９と通信する。いくつかの実施形態では、カーネルモードグラフィックドライバ１０２９は、コマンド及び命令をディスパッチするために、グラフィックプロセッサ１０３２と通信する。

様々な動作又は機能を本明細書で説明する範囲で、それらは、ハードウェア回路、ソフトウェアコード、命令、構成、及び／又はデータとして説明又は規定することができる。コンテンツは、ハードウェアロジックで具体化することも、直接実行可能なソフトウェア（「オブジェクト」又は「実行可能な」形式）、ソースコード、グラフィックエンジンで実行するために設計された高レベルのシェーダーコード、或いは特定のプロセッサ又はグラフィックコアの命令セット内の低レベルのアセンブリ言語コードとして具体化することもできる。本明細書で説明する実施形態のソフトウェアコンテンツは、コンテンツを格納した製品を介して、又は通信インターフェースを操作して通信インターフェースを介してデータを送信する方法を介して提供することができる。

非一時的な機械可読記憶媒体は、機械に、説明した機能又は動作を実行させることができ、機械（例えば、コンピュータ装置、電子システム等）によってアクセス可能な形態で情報を格納する任意のメカニズム、例えば、記録可能／記録不可能なメディア（例えば、読取り専用メモリ（ROM）、ランダムアクセスメモリ（RAM）、磁気ディスク記憶媒体、光記憶媒体、フラッシュメモリ装置等）を含む。通信インターフェースは、メモリバスインターフェース、プロセッサバスインターフェース、インターネット接続、ディスクコントローラ等のような、別の装置と通信するための有線、無線、光等の媒体のいずれかにインターフェースする任意のメカニズムを含む。通信インターフェースは、構成パラメータを提供するか、又は信号を送信することによって構成され、ソフトウェアコンテンツを記述するデータ信号を提供するための通信インターフェースを準備する。通信インターフェースには、通信インターフェースに送信される１つ又は複数のコマンド又は信号を介してアクセスすることができる。

説明する様々な構成要素は、説明する操作又は機能を実行するための手段であり得る。本明細書で説明する各コンポーネントには、ソフトウェア、ハードウェア、又はこれらの組合せが含まれる。コンポーネントは、ソフトウェアモジュール、ハードウェアモジュール、専用ハードウェア（例えば、特定用途向けハードウェア、特定用途向け集積回路（ASIC）、デジタルシグナルプロセッサ（DSP）等）、埋込みコントローラ、有線回路等として実装され得る。本明細書で説明していることに加えて、本発明の開示する実施形態及び実施態様の範囲から逸脱することなく、それらに対して様々な修正を行うことができる。従って、本明細書の例示及び例は、限定的な意味ではなく、例示的な意味で解釈すべきである。本開示の範囲は、以下の特許請求の範囲を参照することによってのみ考慮すべきである。

図１１は、従来のＯｐｅｎＣＬワークグループ及びメモリ構造のアーキテクチャ１１００を示している。アーキテクチャ１１００は、システムグローバルメモリ（SGM）１１０１及び共有メモリ１１０２－１～１１０３－Ｎを示す簡略化したアーキテクチャである。ＳＧＭ１１０１は、一般的な処理装置によって管理されるメモリであり得る。ここで、各共有メモリは、１つ又は複数の作業項目を有する単一のワークグループに関連付けられる。

従来のＯｐｅｎＣＬメモリ構造では、ワークグループは、それぞれの共有ローカルメモリ（SLM）を共有する。ワークグループは、規定された数の作業項目で構成される。これらの作業項目は、実行ユニットによって実行される。ワークグループ内のメモリ空間はＳＬＭである。アーキテクチャ１１００は、それぞれ「Ｎ個の」ワークグループ（例えば、ワークグループ１１０２－１～１１０２－Ｎ）、及び対応する「Ｎ個の」ＳＬＭ（例えば、ＳＬＭ２０６－１～２０６－Ｎ）を示している。

アーキテクチャ１１００では、各作業項目（例えば、１１０１～１Ａ～１１０１～１Ｎ）による計算結果が収集され、ＳＬＭ（例えば、２０６－１）に格納され、次に、ワークグループ内の１つ又は複数の作業項目（例えば、１１０２－１）は、バス（例えば、ＪＥＤＥＣ（Joint Electron Device Engineering Council）ソリッドステートテクノロジーアソシエーションによって規定されたダブルデータレート（DDR）準拠のバス）を介して、ＳＬＭ（例えば、２０６－１）からグローバルシステムメモリ（SGM）２１８にデータを書き込む責任がある。多くの不可分操作があるため、ＳＬＭ（１１０２－１等）からＳＧＭ１１０１への書込みには時間がかかる場合がある。特に、複数のプロセッサ又は複数の装置がある場合に、不可分操作のパフォーマンスの低下はさらに悪化する。

上述したように、閾値電力ポイント（TPP）は、切り替え可能なグラフィックシステム毎に一意である。ＴＰＰはクロスオーバーポイントであり、ＴＰＰを上回るとｄＧＰＵのパフォーマンスが大幅に向上し、ＴＰＰを下回るとｉＧＰＵのパフォーマンスは、ｄＧＰＵと同じであるが、エネルギー消費量が少なくなる。以下に、切り替え可能なグラフィックシステム（KBL-G）上のＧＰＵの電力／パフォーマンスがｉＧＰＵでの低負荷から高負荷までの範囲のアプリケーションのセットを実行することによって記録され、同じことがｄＧＰＵで繰り返されることを確認するラボデータを示す。

図１２は、ｉＧＰＵ及びｄＧＰＵのパフォーマンス対消費電力を示すチャート１２００を示している。図１３は、ｉＧＰＵ及びｄＧＰＵのパフォーマンス対消費電力の関係を示すチャート１３００を示している。

図１２及び図１３のこれらのグラフは両方とも、低電力から高電力までの範囲の異なるアプリケーションをレンダリングするために使用されるｉＧＰＵ及びｄＧＰＵの電力及びパフォーマンスの比較を示している。縦の点線のバーは、ｉＧＰＵパフォーマンススコア１２０１及びｄＧＰＵパフォーマンススコア１２０２を示す。実線のバーは、ｉＧＰＵ電力１２０３及びｄＧＰＵ電力１２０４を示す。このデータに基づいて、１１Ｗの閾値電力ポイント（TPP）が存在し（図１２のグラフの水平線の点線）、ＴＰＰの下では、ｉＧＰＵパフォーマンススコア１２０１はｄＧＰＵパフォーマンススコア１２０２と同じであるが、電力がはるかに低くなっている（図１２のグラフの左から右の１１個のアプリケーション）。この場合に、ＧＰＵの消費電力が平均電力１１Ｗよりも少ない場合にアプリケーションをレンダリングするときに、次に、ｉＧＰＵでアプリケーションを実行すると、パフォーマンスを損なうことなくエネルギー消費を削減できる。逆に、ＧＰＵの消費電力（ｉＧＰＵの電力１２０３及びｄＧＰＵの電力１２０４で示される）が１１Ｗよりも高い場合に（例えば、図１２のグラフの第１２及び第１３のアプリケーション、及び図１３のグラフの全てのアプリケーション）、全てのタスクをレンダリングするためにｄＧＰＵを使用することにより、パフォーマンスが向上する。この閾値電力ポイントは、特定のシステムのために選択されたｉＧＰＵ及びｄＧＰＵに依存し、システムメモリ、熱エンベロープ、電力バジェット等にも依存するため、システム毎に一意である。１１Ｗの閾値電力ポイント（TPP）は単なる例であり、ＴＰＰの他の値は特定のシステムに基づいて決定されることに留意されたい。

既存のドライバ／ＯＳベースのＧＰＵ選択に対する様々な実施形態の切り替え可能なグラフィック管理の利点は、図１２のグラフで明らかであり、最初のグラフの３つのアプリケーション（例えば、Galaxy Control、Sniper Fury、Battle of War Planes）の場合に、既存のドライバ／ＯＳベースの実施態様は、レンダリングにｄＧＰＵを選択するが、これらのアプリケーションのレンダリングにｉＧＰＵを使用すると、パフォーマンスは同じであるが、エネルギーは大幅に低下する。例えば、Galaxy Controlアプリケーションの場合に、ｄＧＰＵは、約６Ｗの平均消費電力で６１のパフォーマンススコア１２０２であるのに対し、ｉＧＰＵは、約３Ｗの平均電力を消費し、同じパフォーマンススコア６１になる。

図１４Ａ～図１４Ｂは、いくつかの実施形態による、切り替え可能なグラフィック電力管理スキームのフローチャート１４００及び１４２０をそれぞれ示している。様々な実施形態の切り替え可能なグラフィック電力管理スキームは、システムからの入力を使用する。システム入力の例には、いくつかの標準アプリケーションに関するｉＧＰＵ及びｄＧＰＵの電力及びパフォーマンスの特徴付け、及びＳｏＣ熱能力、システム電源能力等のシステムパラメータのリアルタイム情報が含まれる。フローチャート１４００及び１４２０は、レンダリングに適したＧＰＵ（ｉＧＰＵ及びｄＧＰＵ）を決定するために、ＧＰＵの電力／パフォーマンス情報を使用する。

図１２及び図１３のグラフに示されるように、いくつかの標準的なアプリケーションに関するｉＧＰＵ及びｄＧＰＵの電力及びパフォーマンスの特徴付けを使用して、ＧＰＵの閾値電力ポイントを見つける。図１４Ａ～図１４Ｂは、異なるタスク及びユースケースに適したＧＰＵ（例えば、ｉＧＰＵ又はｄＧＰＵ）をさらに決定するために、この閾値電力ポイント（TPP）を使用する。低負荷から高負荷までＧＰＵに負荷をかける標準アプリケーションは殆ど規定できず、ＯＥＭ／ＯＤＭ（original equipment manufacturer/original design manufacturer）は、これらのアプリケーションを使用して、そのシステムの閾値電力ポイントを見つける。次に、閾値電力ポイント情報が、（例えば、ＢＩＯＳ又はプラットフォーム上の埋込みコントローラを介して）グラフィック電力管理アルゴリズムに渡される。図１４Ａ～図１４Ｂのグラフィック電力管理アルゴリズムは、ソフトウェア、ハードウェア、又はそれらの組合せによって実行することができる。いくつかの実施形態では、グラフィック電力管理アルゴリズムは、ＯＳ又はカーネル空間のドライバによって実行される。いくつかの実施形態では、ＴＴＰ及びグラフィック電力管理アルゴリズムの他のパラメータは、ユーザソフトウェア空間（操作システム空間より上の抽象化のレベル）によって制御される。いくつかの実施形態では、グラフィック電力管理アルゴリズムは、グラフィックプロセッサ又はシステムオンチップの電力管理ユニットによって実行される。

いくつかの実施形態では、グラフィック電力管理アルゴリズムは、ＳｏＣ熱能力、システム電源能力等のシステムパラメータのリアルタイム情報（例えば、電力テレメトリ（電力遠隔測定））を受信する。場合によっては、電力テレメトリは、容易に入手可能な情報であり得、それらを取得するために新しいハードウェアは必要ない。フローチャートは、いくつかの実施形態による、ＧＰＵによって消費される平均電力を他のシステムパラメータ（電力／熱エンベロープ等）とともに考察して、タスクをレンダリングするのに適切なＧＰＵを決定する、切り替え可能なグラフィック管理制御フローを示している。

図１４Ａ～図１４Ｂのスキームは、切り替え可能なＧＦＸの既存のドライバ／ＯＳベースの方法を使用してレンダリングされたアプリケーションの電力プロファイルから学習し、このプロファイル情報を使用して、将来のアプリケーションの再起動時に適切なＧＰＵの選択を決定することもできる。図１４Ａ～図１４Ｂのスキームに基づいてＧＰＵの使用を最適化するためのＧＰＵの切替えは、多くの方法で実現することができる。２つの方法について説明する。１つの方法は、ドライバとＯＳとの間のスマートな相互作用を通じてタスクをレンダリングしながらＧＰＵを動的に切り替えることである。これにより、ユーザに視覚的な不具合を発生させることなく、ＧＰＵをシームレスに切り替えるのを保証する。

アプリケーションが（ブロック１４０１で示されるように）起動されると、プロセスは既存のアプローチで開始され、ドライバ／ＯＳがブロック１４０２で示されるようにレンダリングするＧＰＵ（例えば、ｉＧＰＵ及びｄＧＰＵ）を決定する。ＧＰＵ実行ユニットがデータの処理を開始すると、様々な実施形態のスキームは、電圧レギュレータテレメトリ及び／又は他のソース（例えば、スキャンチェーン、テスト設計（DFT）回路等）からＧＰＵ消費電力情報を取得する。いくつかの実施形態では、様々なスキームは、ＧＰＵの平均消費電力を見つけるために、（電圧レギュレータテレメトリ及び／又は他のソースからの）このリアルタイム電力データに対して指数加重移動平均（EWMA）を計算する。ＥＷＭＡは次のように計算することができる。
ＥＷＭＡ_１＝ＥＷＭＡ_ｔ－１＋（Δｔ／τ）（Ｐ_ｔ－ＥＷＭＡ_ｔ－１）・・・（１）

ＥＷＭＡは、以前の（ｔ－１）データの重み付けとともに瞬時（ｔ）値を考慮して、動的データの平均値を見つける方法である。典型的に、グラフィックワークロードの殆どは本質的にバースト性であり、短時間で高電力を必要とする。そのため、頻繁なＧＰＵ切替えの問題は、ＥＷＭＡ平均化方法によって対処することができる。この平均化方法は、バースト消費電力が頻繁に発生するアプリケーション、又は高消費電力のデューティサイクルが高いイベントでこのようなイベント期間を見つけるのに役立つ。様々な実施形態のスキームは、電力プロファイルのデューティサイクルを理解するために、このデータを定期的にサンプリングする。

電力プロファイルのデューティサイクルに基づいて、タスクが閾値電力ポイント（TPP）の前後のクロスオーバーを頻繁に行う電力プロファイルを有している場合に、次にブロック１４０３において、ＧＰＵＥＷＭＡ電力がＴＰＰを上回っているかどうかが判定される。ＧＰＵＥＷＭＡ電力がＴＰＰを上回っている場合に、プロセスは、識別子Ａで示されるようにブロック１４２１に進み、レンダリングのためにｄＧＰＵを使用し、これにより、ｉＧＰＵ／ｄＧＰＵの間で頻繁なコンテキスト切替えが発生しないことを保証し、パフォーマンスが低下しないことも保証する。ＧＰＵＥＷＭＡ電力がＴＰＰを上回っている場合に、プロセスは、識別子Ｂで示されるようにブロック１４２７に進み、レンダリングのためにｉＧＰＵを使用する。ＧＰＵのワークロードがバースト性であり、閾値電力ポイントを超えてＥＷＭＡ電力が頻繁に前後に移行する場合に、次にブロック１４０３において、スキームは、ＥＷＭＡ電力プロファイルのデューティサイクルを調べ、それに応じてレンダリングのためのＧＰＵを選択し、こうして頻繁なコンテキスト切替えを回避する。

ブロック１４２１において、ドライバ及び／又はＯＳがレンダリングのためにｄＧＰＵを選択したかどうかに関して判定がなされる。ドライバ及び／又はＯＳがレンダリングのためにｄＧＰＵを選択した場合に、プロセスはブロック１４２２に進む。ブロック１４２２において、システム電源の能力に関して決定が行われる。システム電源（例えば、電圧レギュレータ）がｄＧＰＵの消費電力をサポートすることができる場合に、プロセスは、ｄＧＰＵがタスクをレンダリングするために使用されるブロック１４２３に進む。システム電源がｄＧＰＵの消費電力をサポートすることができない場合に、プロセスはブロック１４２５に進む。ブロック１４２５において、ＧＰＵコンテキスト切替えがドライバ及び／又はＯＳで開始され、レンダリングのためにｉＧＰＵが選択される。次に、プロセスはｉＧＰＵがタスクをレンダリングするために使用されるブロック１４２６に進む。ブロック１４２１において、ドライバ及び／又はＯＳがレンダリングのためにｄＧＰＵを選択しない場合に、プロセスはブロック１４２４に進む。ブロック１４２４において、ＧＰＵコンテキスト切替えがドライバ及び／又はＯＳで開始され、レンダリングのためにｄＧＰＵが選択される。次に、プロセスはブロック１４２２に進み、システム電源能力は、本明細書で議論したように決定される。

ブロック１４２７において、ドライバ及び／又はＯＳがレンダリングのためにｉＧＰＵを選択したかどうかに関して判定がなされる。ドライバ及び／又はＯＳがレンダリングのためにｉＧＰＵを選択した場合に、プロセスはブロック１４２８に進む。ブロック１４２８において、ＳｏＣの熱的制限に関して決定が行われる。ＳｏＣのプロセッサコアの計算のためにＳｏＣが熱的に制限されている場合に、プロセスはブロック１４２９に進み、そこでＧＰＵがドライバ及び／又はＯＳを使用してコンテキスト切替えを開始して、レンダリングのためにｉＧＰＵを選択する。次に、プロセスはブロック１４２４に進む。熱的制限は、熱センサ及び／又は電力管理ユニットからのデータ又は測定値を使用して決定することができる。熱的制限は、実質的にスロットル温度（例えば、プロセッサコアがスロットルされる温度）であるプロセッサコアの温度に対応し得る。ＳｏＣのプロセッサコアの計算のためにＳｏＣが熱的に制限されていない場合に、プロセスは、ｉＧＰＵがタスクをレンダリングするために使用されるブロック１４２６に進む。ドライバ及び／又はＯＳがレンダリングのためにｉＧＰＵを選択しない場合に、プロセスはブロック１４３０に進む。ブロック１４３０において、ＧＰＵは、ドライバ及び／又はＯＳを使用してコンテキスト切替えを開始して、レンダリングのためにｉＧＰＵを選択する。次に、プロセスはブロック１４２８に進む。

いくつかの実施形態では、命令を格納した機械可読媒体が提供され、命令が実行されると、グラフィック処理装置（GPU）に、ｉＧＰＵ又はｄＧＰＵのどちらがタスクをレンダリングするかを選択する方法を実行させる。この方法は、熱出力ポイント（TPP: thermal power point）を決定するために、様々なアプリケーションでＧＰＵにストレスをかけるステップと；統合グラフィック処理装置（iGPU）とディスクリート・グラフィック処理装置（dGPU）との両方のワットあたりのパフォーマンス情報と、ＴＰＰとを適応的に適用して、ｉＧＰＵ又はｄＧＰＵのどちらがレンダリングタスクを実行するかを決定するステップと；ｉＧＰＵ又はｄＧＰＵのいずれかを選択すると、ワットあたりのパフォーマンス情報及びＴＰＰに従ってｉＧＰＵ又はｄＧＰＵのどちらがレンダリングタスクを実行するかを選択するステップと；を含む。

いくつかの実施形態では、機械可読媒体はその上に格納した命令を含み、命令が実行されると、ＧＰＵに、ｉＧＰＵ又はｄＧＰＵのどちらがレンダリングタスクを実行するかを決定する前に、テレメトリ情報を受信するステップを含む方法を実行させる。いくつかの実施形態では、機械可読媒体は、その上に格納した命令を含み、命令が実行されると、ＧＰＵに、テレメトリ情報によって受信した瞬間電力データ及び以前の電力データを介して、ＧＰＵの平均消費電力を決定するステップを含む方法を実行させる。いくつかの実施形態では、機械可読媒体はその上に格納した命令を含み、命令が実行されると、ＧＰＵに、平均消費電力がＴＰＰよりも大きいかどうかを判定し、平均消費電力がＴＰＰよりも大きい場合に、ｄＧＰＵがレンダリングタスクを実行するように選択するステップを含む方法を実行させる。

いくつかの実施形態では、機械可読媒体はその上に格納した命令を含み、命令が実行されると、平均消費電力がＴＰＰよりも少ない場合に、ＧＰＵに、ｉＧＰＵがレンダリングタスクを実行するように選択するステップを含む方法を実行させる。いくつかの実施形態では、機械可読媒体はその上に格納した命令を含み、命令が実行されると、ＧＰＵに、平均消費電力に閾値数を超える複数の低遷移（transition：移行）及び高遷移がある場合に、平均消費電力のデューティサイクルに従って、ｉＧＰＵ又はｄＧＰＵのどちらがレンダリングタスクを実行するかを決定するステップを含む方法を実行させる。いくつかの実施形態では、機械可読媒体はその上に格納した命令を含み、命令が実行されると、ＧＰＵに、電源がｄＧＰＵの消費電力をサポートする能力がないと判定した場合に、ｉＧＰＵがタスクをレンダリングするように選択するべく、オペレーティングシステム又はドライバに要求するステップを含む方法を実行させる。いくつかの実施形態では、機械可読媒体はその上に格納した命令を含み、命令が実行されると、ＧＰＵに、ＧＰＵのプロセッサコアが熱的に制限されていると判定された場合に、ｄＧＰＵがタスクをレンダリングするように選択するべく、オペレーティングシステム又はドライバに要求するステップを含む方法を実行させる。

図１５は、いくつかの実施形態による、簡略化したコンピュータシステム１５００を示している。システム１５００は、ＬＶＤＳ１５０１（低電圧差動信号、フラットパネルディスプレイリンク、液晶ディスプレイ）、ビジュアルグラフィックシステム（VGS）１５０２、プラットフォームコントローラハブ（PCH）１５０４を介してＣＰＵ１５０５（ＧＰＵ及びメモリコントローラハブ（MCH）を含み得る）に接続するディスプレイポート（DP）又はＨＤＭＩ（High Definition Multimedia Interface）１５０３等のディスプレイを示している。ｄＧＰＵ１５０６は、ＰＣＩｅ（Peripheral Component Interconnect Express）を介してＣＰＵ１５０５に接続される。システムメモリ１５０７はＣＰＵ１５０５に接続される一方、ローカルメモリ１５０８はｄＧＰＵ１５０６に接続される。ディスプレイは、ディスプレイ接続を介してｉＧＰＵディスプレイパイプに接続される。どのディスプレイアダプタがデータを処理するかに関係なく、ディスプレイのコンテンツはｉＧＰＵディスプレイパイプを介してプッシュされる。これにより、ＧＰＵ間のシームレスな動的コンテキスト切替えが可能になる。システム１５００は、切り替え可能なグラフィックの原理が、ディスプレイのパイプ／ポートを変更することなく、ｉＧＰＵとｄＧＰＵの間をシームレスに移行するのに役立つことを示している。

システムが異なるディスプレイアーキテクチャを使用する場合に、次に、ＧＰＵ切替えのための別の方法は、レンダリングのための適切なＧＰＵを見つけた後に、図１４Ａ～図１４Ｂのスキームが、ユーザがレンダリングのために最適化されたＧＰＵに切り替えたい場合に、ＯＳポップアップメッセージを介してユーザに示すことである。ユーザがＧＰＵを切り替えることを決定した場合に、次に、ドライバ／ＯＳは、ＧＰＵを切り替えるアクションをさらに実行する。これは、ソフトウェアドライバとＯＳの相互作用の観点からはより単純なオプションであるが、シームレスではない場合がある。

図１６は、様々な実施形態の機器、方法、及びシステムを含む、スマート装置又はコンピュータシステム又はＳｏＣ（システムオンチップ）を示している。他の図の要素と同じ参照符号（又は名前）を有する図１６のそれらの要素は、説明するものと同様の方法で動作又は機能することができるが、そのように限定されないことを指摘しておく。

いくつかの実施形態では、装置２４００は、コンピュータタブレット、携帯電話又はスマートフォン、ラップトップ、デスクトップ、モノのインターネット（IOT）装置、サーバ、ウェアラブル装置、セットトップボックス、ワイヤレス対応の電子書籍リーダー等の適切なコンピュータ装置を表す。特定のコンポーネントが一般的に示され、そのような装置の全てのコンポーネントが装置２４００に示されているわけではないことが理解されよう。

一例では、装置２４００は、ＳｏＣ（システムオンチップ）２４０１を含む。ＳｏＣ２４０１の例示的な境界は、図１６の点線を使用して示され、いくつかの例示的なコンポーネントは、ＳｏＣ２４０１内に含まれるように示されるが、ＳｏＣ２４０１には、装置２４００の任意の適切なコンポーネントを含めることができる。

いくつかの実施形態では、装置２４００は、プロセッサ２４０４を含む。プロセッサ２４０４は、マイクロプロセッサ、アプリケーションプロセッサ、マイクロコントローラ、プログラマブル論理デバイス、処理コア、又は他の処理手段等の１つ又は複数の物理デバイスを含むことができる。プロセッサ２４０４によって実行される処理操作は、アプリケーション及び／又はデバイス機能が実行されるオペレーティングプラットフォーム又はオペレーティングシステムの実行を含む。処理操作には、人間のユーザ又は他の装置とのＩ／Ｏ（入力／出力）に関連する動作、電力管理に関連する動作、コンピュータ装置２４００を別の装置に接続することに関連する動作等が含まれる。処理操作は、オーディオＩ／Ｏ及び／又はディスプレイＩ／Ｏに関連する操作も含み得る。

いくつかの実施形態では、プロセッサ２４０４は、複数の処理コア（コアとも呼ばれる）２４０８ａ、２４０８ｂ、２４０８ｃを含む。図１６には、単に３つのコア２４０８ａ、２４０８ｂ、２４０８ｃが示されているが、プロセッサ２４０４は、他の適切な数の処理コア、例えば、数十、又は数百の処理コアを含み得る。プロセッサコア２４０８ａ、２４０８ｂ、２４０８ｃは、単一の集積回路（IC）チップ上に実装され得る。さらに、チップは、１つ又は複数の共有及び／又はプライベートキャッシュ、バス又は相互接続、グラフィック及び／又はメモリコントローラ、又は他のコンポーネントを含み得る。

いくつかの実施形態では、プロセッサ２４０４は、キャッシュ２４０６を含む。一例では、キャッシュ２４０６のセクションは、個々のコア２４０８に専用（例えば、コア２４０８ａに専用のキャッシュ２４０６の第１のセクション、コア２４０８ｂに専用のキャッシュ２４０６の第２のセクション等）であり得る。一例では、キャッシュ２４０６の１つ又は複数のセクションは、２つ以上のコア２４０８の間で共有され得る。キャッシュ２４０６は、異なるレベル、例えば、レベル１（L1）キャッシュ、レベル２（L2）キャッシュ、レベル３（L3）キャッシュ等に分割され得る。

いくつかの実施形態では、プロセッサコア２４０４は、コア２４０４によって実行するための命令（条件付き分岐を有する命令を含む）をフェッチするためのフェッチユニットを含み得る。命令は、メモリ２４３０等の任意の記憶装置からフェッチされ得る。プロセッサコア２４０４は、フェッチした命令を復号化するための復号化ユニットも含み得る。例えば、復号化ユニットは、フェッチした命令を複数のマイクロ操作に復号化することができる。プロセッサコア２４０４は、復号化した命令の格納に関連する様々な操作を実行するためのスケジュールユニットを含み得る。例えば、スケジュールユニットは、命令がディスパッチの準備が整うまで、例えば、復号化した命令の全てのソース値が利用可能になるまで、復号化ユニットからのデータを保持することができる。一実施形態では、スケジュールユニットは、実行のために、復号化した命令をスケジュールし、及び／又は復号化した命令を実行ユニットに発する（又はディスパッチする）ことができる。

実行ユニットは、ディスパッチされた命令が（例えば、復号化ユニットによって）復号され、（例えば、スケジュールユニットによって）ディスパッチされた後に、ディスパッチされた命令を実行することができる。一実施形態では、実行ユニットは、複数の実行ユニット（例えば、画像計算ユニット、グラフィック計算ユニット、汎用計算ユニット等）を含むことができる。実行ユニットはまた、加算、減算、乗算、及び／又は除算等の様々な算術演算を行うことができ、１つ又は複数の算術論理ユニット（ALU）を含むことができる。一実施形態では、コプロセッサ（図示せず）は、実行ユニットと組み合わせて様々な算術演算を行うことができる。

さらに、実行ユニットは、命令を順不同で実行することができる。それ故、プロセッサコア２４０４は、一実施形態では、アウトオブオーダー・プロセッサコアであり得る。プロセッサコア２４０４はまた、リタイアメント（retirement）ユニットを含み得る。リタイアメントユニットは、実行した命令がコミットされた後に、それら実行した命令をリタイアさせることができる。一実施形態では、実行した命令のリタイアは、命令の実行からプロセッサ状態がコミットされ、命令によって使用される物理レジスタが割り当て解除される等を生じさせる可能性がある。プロセッサコア２４０４はまた、１つ又は複数のバスを介してプロセッサコア２４０４のコンポーネントと他のコンポーネントとの間の通信を可能にするバスユニットを含み得る。プロセッサコア２４０４はまた、コア２４０４の様々なコンポーネントによってアクセスされるデータ（割り当てられたアプリの優先順位及び／又はサブシステム状態（モード）の関連付けに関連する値等）を格納するための１つ又は複数のレジスタを含み得る。

いくつかの実施形態では、装置２４００は、接続回路２４３１を含む。例えば、接続回路２４３１は、例えば、装置２４００が外部装置と通信できるようにするために、ハードウェア装置（例えば、無線及び／又は有線コネクタ及び通信ハードウェア）及び／又はソフトウェアコンポーネント（例えば、ドライバ、プロトコルスタック）を含む。装置２４００は、他のコンピュータ装置、無線アクセスポイント又は基地局等の外部装置から分離され得る。

一例では、接続回路２４３１は、複数の異なるタイプの接続を含み得る。一般化すると、接続回路２４３１は、セルラー接続回路、無線接続回路等を含み得る。接続回路２４３１のセルラー接続回路は、概して、ＧＳＭ（移動体通信のためのグローバルシステム）又はバリエーション又は派生物、ＣＤＭＡ（符号分割多重アクセス）又はバリエーション又は派生物、ＴＤＭ（時分割多重化）又はバリエーション又は派生物、第３世代パートナーシッププロジェクト（3GPP）ユニバーサルモバイルテレコミュニケーションシステム（UMTS）システム又はバリエーション又は派生物、３ＧＰＰロングタームエボリューション（LTE）システム又はバリエーション又は派生物、３ＧＰＰＬＴＥ－Ａｄｖａｎｃｅｄ（LTE-A）システム又はバリエーション又は派生物、第５世代（5G）ワイヤレスシステム又はバリエーション又は派生物、５Ｇモバイルネットワークシステム又はバリエーション又は派生物、５ＧＮｅｗＲａｄｉｏ（NR）システム又はバリエーション又は派生物、或いは他のセルラーサービス標準を介して提供される、無線キャリアによって提供されるセルラーネットワーク接続を指す。接続回路２４３１の無線接続回路（又は無線インターフェース）は、セルラーではない無線接続を指し、パーソナルエリアネットワーク（Bluetooth、Near Field等）、ローカルエリアネットワーク（Wi-Fi等）、及び／又はワイドエリアネットワーク（WiMax等）、及び／又は他のワイヤレス通信を含むことができる。一例では、接続回路２４３１は、例えば、有線又は無線インターフェース等のネットワークインターフェースを含み得、それによって、例えば、システムの実施形態は、無線装置、例えば、携帯電話又は携帯情報端末に組み込まれ得る。

いくつかの実施形態では、装置２４００は、制御ハブ２４３２を含み、これは、１つ又は複数のＩ／Ｏ装置との相互作用に関連するハードウェア装置及び／又はソフトウェアコンポーネントを表す。例えば、プロセッサ２４０４は、制御ハブ２４３２を介して、ディスプレイ２４２２、１つ又は複数の周辺装置２４２４、記憶装置２４２８、１つ又は複数の他の外部装置２４２９等のうちの１つ又は複数と通信することができる。制御ハブ２４３２は、チップセット、プラットフォーム（制御）コントローラハブ（PCH）等であり得る。

例えば、制御ハブ２４３２は、装置２４００に接続する追加の装置のための１つ又は複数の接続点を示しており、この接続点を介して、例えば、ユーザがシステムと対話することができる。例えば、装置２４００に取り付けることができる装置（例えば、装置２４２９）には、マイク装置、スピーカー又はステレオシステム、オーディオ装置、ビデオシステム又は他のディスプレイ装置、キーボード又はキーパッド装置、或いはカードリーダー又は他の装置等の特定のアプリケーションで使用する他のＩ／Ｏ装置が含まれる。

上述したように、制御ハブ２４３２は、オーディオ装置、ディスプレイ２４２２等と相互作用することができる。例えば、マイク又は他のオーディオ装置を介した入力は、装置２４００の１つ又は複数のアプリケーション又は機能に入力又はコマンドを提供することができる。さらに、オーディオ出力は、ディスプレイ出力の代わりに、又はディスプレイ出力に加えて提供することができる。別の例では、ディスプレイ２４２２がタッチスクリーンを含む場合に、ディスプレイ２４２２は、入力装置としても機能し、制御ハブ２４３２によって少なくとも部分的に管理することができる。コンピュータ装置２４００上に、制御ハブ２４３２によって管理されるＩ／Ｏ機能を提供するための追加のボタン又はスイッチも存在し得る。一実施形態では、制御ハブ２４３２は、加速度計、カメラ、光センサ又は他の環境センサ等の装置、又は装置２４００に含めることができる他のハードウェアを管理する。入力は直接ユーザ対話の一部であり得、また、システムに環境入力を提供して、システムの動作に影響を与える（ノイズのフィルタリング、輝度検出のためのディスプレイの調整、カメラへのフラッシュの適用、又は他の特徴等）。

いくつかの実施形態では、制御ハブ２４３２は、任意の適切な通信プロトコル、例えばＰＣＩｅ（Peripheral Component Interconnect Express）、ＵＳＢ（Universal Serial Bus）、Ｔｈｕｎｄｅｒｂｏｌｔ、ＨＤＭＩ（High Definition Multimedia Interface）、Ｆｉｒｅｗｉｒｅ等を使用して様々な装置に結合することができる。

いくつかの実施形態では、ディスプレイ２４２２は、ユーザが装置２４００と対話するための視覚的及び／又は触覚的ディスプレイを提供するハードウェア（例えば、ディスプレイ装置）及びソフトウェア（例えば、ドライバ）コンポーネントを表す。ディスプレイ２４２２は、ディスプレイ・インターフェース、ディスプレイ画面、及び／又はディスプレイをユーザに提供するために使用されるハードウェア装置を含み得る。いくつかの実施形態では、ディスプレイ２４２２は、出力と入力との両方をユーザに提供するタッチスクリーン（又はタッチパッド）装置を含む。一例では、ディスプレイ２４２２は、プロセッサ２４０４と直接通信することができる。ディスプレイ２４２２は、モバイル電子装置又はラップトップ装置内等の内部ディスプレイ装置、又はディスプレイ・インターフェース（例えば、DisplayPort等）を介して取り付けられた外部ディスプレイ装置のうちの１つ又は複数であり得る。一実施形態では、ディスプレイ２４２２は、仮想現実（VR）アプリケーション又は拡張現実（AR）アプリケーションで使用するための立体視ディスプレイ装置等のヘッドマウントディスプレイ（HMD）であり得る。

いくつかの実施形態では、図には示していないが、プロセッサ２４０４に加えて（又はその代わりに）装置２４００は、１つ又は複数のグラフィック処理コアを含むグラフィック処理装置（GPU）を含むことができ、グラフィック処理コアは、ディスプレイ２４２２上にコンテンツを表示する１つ又は複数の態様を制御することができる。

いくつかの実施形態では、１つ又は複数のドライバ２４５４は、タスクをレンダリングために適切なＧＰＵを決定するべく、ＳｏＣ（システムオンチップ）熱バジェット、システム電力バジェット等のシステムのリアルタイムリソースとともに統合グラフィック（iGPU）又はディスクリートグラフィック（dGPU）の両方のパフォーマンス／ワット情報を使用する切り替え可能なグラフィック管理スキームを実装する。このスキームは、システムリソースとともにこの閾値電力ポイント情報を使用して、全てのアプリケーション及びユースケースのタスクレンダリングに最適化されたＧＰＵを決定する。そのため、そのスキームは、その特定のシステムの能力に基づいて、各システム設計に適応する。

制御ハブ２４３２（又はプラットフォームコントローラハブ）は、例えば周辺装置２４２４への周辺接続を行うためのハードウェアインターフェース及びコネクタ、並びにソフトウェアコンポーネント（例えば、ドライバ、プロトコルスタック）を含み得る。

装置２４００は、他のコンピュータ装置に対する周辺装置であると同時に、その他のコンピュータ装置に接続された周辺装置を有することができることが理解されよう。装置２４００は、装置２４００上のコンテンツの管理（例えば、ダウンロード及び／又はアップロード、変更、同期）等の目的で他のコンピュータ装置に接続するための「ドッキング」コネクタを有し得る。さらに、ドッキングコネクタは、装置２４００が、特定の周辺機器に接続するのを可能にし、コンピュータ装置２４００が、例えば、オーディオビジュアル又は他のシステムへのコンテンツ出力を制御するのを可能にする。

独自のドッキングコネクタ又は他の独自の接続ハードウェアに加えて、装置２４００は、共通又は標準ベースのコネクタを介して周辺機器接続を行うことができる。一般的なタイプには、ＵＳＢ（Universal Serial Bus）コネクタ（複数の異なるハードウェアインターフェースのいずれかを含むことができる）、ＭＤＰ（MiniDisplayPort）を含むＤｉｓｐｌａｙＰｏｒｔ、ＨＤＭＩ（High Definition Multimedia Interface）、Ｆｉｒｅｗｉｒｅ、又は他のタイプが含まれる。

いくつかの実施形態では、接続回路２４３１は、例えば、プロセッサ２４０４に直接結合されることに加えて、又はその代わりに、制御ハブ２４３２に結合され得る。いくつかの実施形態では、ディスプレイ２４２２は、例えば、プロセッサ２４０４に直接結合されることに加えて、又はその代わりに、制御ハブ２４３２に結合され得る。

いくつかの実施形態では、装置２４００は、メモリインターフェース２４３４を介してプロセッサ２４０４に結合されたメモリ２４３０を含む。メモリ２４３０は、装置２４００に情報を格納するためのメモリ装置を含む。

いくつかの実施形態では、メモリ２４３０は、様々な実施形態を参照して説明したように、安定したクロッキングを維持するための機器を含む。メモリは、不揮発性（メモリ装置への電力が遮断されても状態は変化しない）及び／又は揮発性（メモリ装置への電力が遮断された場合に状態は不確定になる）のメモリ装置を含むことができる。メモリ装置２４３０は、ＤＲＡＭ（dynamic random-access memory）装置、ＳＲＡＭ（static random-access memory）装置、フラッシュメモリ装置、相変化メモリ装置、又はプロセスメモリとして機能するのに適したパフォーマンスを有する他のメモリ装置であり得る。一実施形態では、メモリ２４３０は、装置２４００のシステムメモリとして動作して、１つ又は複数のプロセッサ２４０４がアプリケーション又はプロセスを実行するときに使用するためのデータ及び命令を格納することができる。メモリ２４３０は、アプリケーションデータ、ユーザデータ、音楽、写真、文書、又は他のデータ、並びに装置２４００のアプリケーションの実行及び機能の実行に関連するシステムデータ（長期的又は一時的）を格納することができる。

様々な実施形態及び例の要素はまた、コンピュータ実行可能命令（例えば、本明細書で議論する他のプロセスを実施するための命令）を格納するための機械可読媒体（例えば、メモリ２４３０）として提供される。機械可読媒体（例えば、メモリ２４３０）は、フラッシュメモリ、光ディスク、ＣＤ－ＲＯＭ、ＤＶＤＲＯＭ、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、磁気又は光カード、相変化メモリ（PCM）、或いは電子命令又はコンピュータ実行可能命令を保存するのに適した他のタイプの機械可読媒体を含み得るが、これらに限定されるものではない。例えば、本開示の実施形態は、リモートコンピュータ（例えば、サーバ）から要求側コンピュータ（例えば、クライアント）に、通信リンク（例えば、モデム又はネットワーク接続）を介してデータ信号によって転送され得るコンピュータプログラム（例えば、ＢＩＯＳ）としてダウンロードされ得る。

いくつかの実施形態では、装置２４００は、例えば、装置２４００の様々なコンポーネントの温度を測定するための温度測定回路２４４０を含む。一例では、温度測定回路２４４０は、その温度を測定及び監視する必要がある様々なコンピュータ装置に埋め込まれるか、結合されるか、又は取り付けられ得る。例えば、温度測定回路２４４０は、コア２４０８ａ、２４０８ｂ、２４０８ｃ、電圧レギュレータ２４１４、メモリ２４３０、ＳｏＣ２４０１のマザーボード、及び／又は装置２４００の任意の適切なコンポーネントのうちの１つ又は複数の（又はその中の）温度を測定することができる。

いくつかの実施形態では、装置２４００は、例えば、装置２４００の１つ又は複数のコンポーネントによって消費される電力を測定するための電力測定回路２４４２を含む。一例では、電力を測定することに加えて、又はその代わりに、電力測定回路２４４２は、電圧及び／又は電流を測定することができる。一例では、電力測定回路２４４２は、その電力、電圧、及び／又は電流消費を測定及び監視すべき様々なコンポーネントに埋め込まれるか、結合されるか、又は取り付けられ得る。例えば、電力測定回路２４４２は、１つ又は複数の電圧レギュレータ２４１４によって供給される電力、電流及び／又は電圧、ＳｏＣ２４０１に供給される電力、装置２４００に供給される電力、装置２４００のプロセッサ２４０４（又は他の任意のコンポーネント）によって消費される電力等を測定することができる。

いくつかの実施形態では、装置２４００は、一般に電圧レギュレータ（VR）２４１４と呼ばれる１つ又は複数の電圧調整回路を含む。ＶＲ２４１４は、装置２４００の任意の適切なコンポーネントを動作させるために供給され得る適切な電圧レベルで信号を生成する。単なる例として、ＶＲ２４１４は、装置２４００のプロセッサ２４０４に信号を供給するように示されている。いくつかの実施形態では、ＶＲ２４１４は、１つ又は複数の電圧識別（VID）信号を受信し、ＶＩＤ信号に基づいて適切なレベルで電圧信号を生成する。様々なタイプのＶＲをＶＲ２４１４に利用することができる。例えば、ＶＲ２４１４には、「バック（buck）」ＶＲ、「ブースト（boost）」ＶＲ、バックＶＲ及びブーストＶＲの組合せ、低ドロップアウト（LDO）レギュレータ、スイッチングＤＣ－ＤＣレギュレータ、コンスタントオンタイム（constant-on-time）コントローラベースのＤＣ－ＤＣレギュレータ等が含まれる。バックＶＲは、一般に、入力電圧を１よりも小さい比率で出力電圧に変換する必要がある電力供給アプリケーションで使用される。ブーストＶＲは、一般に、入力電圧を１より大きい比率で出力電圧に変換する必要がある電力供給アプリケーションで使用される。いくつかの実施形態では、各プロセッサコアは、ＰＣＵ２４１０ａ／ｂ及び／又はＰＭＩＣ２４１２によって制御される独自のＶＲを有する。いくつかの実施形態では、各コアは、電力管理のための効率的な制御を提供する分散型ＬＤＯのネットワークを有する。ＬＤＯは、デジタル、アナログ、又はデジタル又はアナログＬＤＯの組合せにすることができる。いくつかの実施形態では、ＶＲ２４１４は、電源レールを通る電流を測定するための電流追跡機器を含む。

いくつかの実施形態では、装置２４００は、一般にクロック発生器２４１６と呼ばれる１つ又は複数のクロック発生器回路を含む。クロック発生器２４１６は、装置２４００の任意の適切なコンポーネントに供給され得る適切な周波数レベルでクロック信号を生成する。単なる例として、クロック発生器２４１６は、装置２４００のプロセッサ２４０４にクロック信号を供給するように示されている。いくつかの実施形態では、クロック発生器２４１６は、１つ又は複数の周波数識別（FID）信号を受信し、ＦＩＤ信号に基づいて適切な周波数でクロック信号を生成する。

いくつかの実施形態では、装置２４００は、装置２４００の様々なコンポーネントに電力を供給するバッテリ２４１８を含む。単なる例として、バッテリ２４１８は、プロセッサ２４０４に電力を供給するように示されている。図には示されていないが、装置２４００は、例えば、ＡＣアダプタから受け取った交流（AC）電源に基づいて、バッテリを再充電するための充電回路を含み得る。

いくつかの実施形態では、装置２４００は、電力制御ユニット（PCU）２４１０（電力管理ユニット（PMU）、電力コントローラ等とも呼ばれる）を含む。一例では、ＰＣＵ２４１０のいくつかのセクションは、１つ又は複数の処理コア２４０８によって実装され得、ＰＣＵ２４１０のこれらのセクションは、点線のボックスを使用して記号的に示され、ＰＣＵ２４１０ａとラベル付けされる。一例では、ＰＣＵ２４１０の他のいくつかのセクションは、処理コア２４０８の外側に実装され得、ＰＣＵ２４１０のこれらのセクションは、点線のボックスを使用して記号的に示され、ＰＣＵ２４１０ｂとしてラベル付けされる。ＰＣＵ２４１０は、装置２４００の様々な電力管理操作を実施することができる。ＰＣＵ２４１０は、装置２４００の様々な電力管理操作を実施するために、ハードウェアインターフェース、ハードウェア回路、コネクタ、レジスタ等、及びソフトウェアコンポーネント（例えば、ドライバ、プロトコルスタック）を含み得る。

いくつかの実施形態では、装置２４００は、例えば、装置２４００の様々な電力管理操作を実施するために、電力管理集積回路（PMIC）２４１２を含む。いくつかの実施形態では、ＰＭＩＣ２４１２は、再構成可能な電力管理ＩＣ（RPMIC）及び／又はＩＭＶＰ（Intel（Ｒ） Mobile Voltage Positioning）である。一例では、ＰＭＩＣは、プロセッサ２４０４とは別のＩＣチップ内にある。ＰＭＩＣは、装置２４００に対して様々な電力管理操作を実施することができる。ＰＭＩＣ２４１２は、装置２４００の様々な電力管理操作を実施するために、ハードウェアインターフェース、ハードウェア回路、コネクタ、レジスタ等、及びソフトウェアコンポーネント（例えば、ドライバ、プロトコルスタック）を含み得る。

一例では、装置２４００は、ＰＣＵ２４１０又はＰＭＩＣ２４１２の一方又は両方を含む。一例では、ＰＣＵ２４１０又はＰＭＩＣ２４１２のいずれか１つが装置２４００に存在しない可能性があり、それ故、これらのコンポーネントは点線を使用して示されている。

装置２４００の様々な電力管理操作は、ＰＣＵ２４１０によって、ＰＭＩＣ２４１２によって、又はＰＣＵ２４１０及びＰＭＩＣ２４１２の組合せによって実行され得る。例えば、ＰＣＵ２４１０及び／又はＰＭＩＣ２４１２は、装置２４００の様々なコンポーネントの電力状態（例えば、Ｐ状態）を選択することができる。例えば、ＰＣＵ２４１０及び／又はＰＭＩＣ２４１２は、装置２４００の様々なコンポーネントの電力状態を（例えば、ＡＣＰＩ（Advanced Configuration and Power Interface）仕様に従って）選択することができる。単なる例として、ＰＣＵ２４１０及び／又はＰＭＩＣ２４１２は、装置２４００の様々なコンポーネントを、スリープ状態、アクティブ状態、適切なＣ状態（例えば、ＡＣＰＩ仕様に従ってＣ０状態、又は別の適切なＣ状態）に移行させることができる。一例では、ＰＣＵ２４１０及び／又はＰＭＩＣ２４１２は、例えば、ＶＩＤ信号及び／又はＦＩＤ信号をそれぞれ出力することによって、ＶＲ２４１４によって出力される電圧及び／又はクロック発生器によって出力されるクロック信号の周波数を制御することができる。一例では、ＰＣＵ２４１０及び／又はＰＭＩＣ２４１２は、バッテリ電力使用量、バッテリ２４１８の充電、及び省電力動作に関連する特徴を制御することができる。

クロック発生器２４１６は、位相ロックループ（PLL）、周波数ロックループ（FLL）、又は任意の適切なクロックソースを含むことができる。いくつかの実施形態では、プロセッサ２４０４の各コアは、それ自体のクロックソースを有する。そのため、各コアは、他のコアの動作周波数とは独立した周波数で動作することができる。いくつかの実施形態では、ＰＣＵ２４１０及び／又はＰＭＩＣ２４１２は、適応型又は動的な周波数スケーリング又は調整を実行する。例えば、コアがその最大消費電力の閾値又は制限で動作していない場合に、プロセッサコアのクロック周波数を上げることができる。いくつかの実施形態では、ＰＣＵ２４１０及び／又はＰＭＩＣ２４１２は、プロセッサの各コアの動作状態を決定し、コアが目標パフォーマンスレベルを下回って動作しているとＰＣＵ２４１０及び／又はＰＭＩＣ２４１２が判定した場合に、コアクロッキングソース（例えば、そのコアのＰＬＬ）がロックを失うことなく、そのコアの周波数及び／又は電源電圧を日和見的に調整する。例えば、コアがそのコア又はプロセッサ２４０４に割り当てられた合計電流よりも少ない電流を電源レールから引き出している場合に、次に、ＰＣＵ２４１０及び／又はＰＭＩＣ２４１２は、そのコア又はプロセッサ２４０４のために引き出される電力を（例えば、クロック周波数及び／又は電源電圧レベルを増加させることにより）一時的に上げることができ、コア又はプロセッサ２４０４がより高いパフォーマンスレベルで実行できるようにする。そのため、電圧及び／又は周波数は、製品の信頼性を損なうことなく、プロセッサ２４０４の一時性を高めることができる。

一例では、ＰＣＵ２４１０及び／又はＰＭＩＣ２４１２は、例えば、電力測定回路２４４２、温度測定回路２４４０、バッテリ２４１８の充電レベルからの測定値、及び／又は電力管理に使用され得る他の適切な情報を受信することに少なくとも部分的に基づいて、電力管理操作を実行することができる。そのために、ＰＭＩＣ２４１２は、１つ又は複数のセンサに通信可能に結合され、システム／プラットフォームの電力／熱挙動に影響を与える１つ又は複数の要因の様々な値／変動を感知／検出する。１つ又は複数の要因の例には、電流、電圧ドループ（droop）、温度、動作周波数、動作電圧、消費電力、コア間通信活動等が含まれる。これらのセンサの１つ又は複数には、物理的に近接して（及び／又は熱的に接触／結合する）コンピュータシステムの１つ又は複数のコンポーネント又はロジック／ＩＰブロックが設けられ得る。さらに、センサは、少なくとも１つの実施形態において、ＰＣＵ２４１０及び／又はＰＭＩＣ２４１２に直接結合され得、ＰＣＵ２４１０及び／又はＰＭＩＣ２４１２が、１つ又は複数のセンサによって検出した値に少なくとも部分的に基づいてプロセッサコアエネルギーを管理するのを可能にする。

装置２４００の例示的なソフトウェアスタックも示されている（ただし、ソフトウェアスタックの全ての要素が示されているわけではない）。単なる例として、プロセッサ２４０４は、アプリケーションプログラム２４５０、オペレーティングシステム２４５２、１つ又は複数の電力管理（PM）固有のアプリケーションプログラム（例えば、一般にＰＭアプリケーション２４５８と呼ばれる）等を実行することができる。ＰＭアプリケーション２４５８は、ＰＣＵ２４１０及び／又はＰＭＩＣ２４１２によっても実行され得る。ＯＳ２４５２はまた、１つ又は複数のＰＭアプリケーション２４５６ａ、２４５６ｂ、２４５６ｃを含み得る。ＯＳ２４５２には、様々なドライバ２４５４ａ、２４５４ｂ、２４５４ｃ等も含まれ得、その一部は電力管理の目的に固有のものであり得る。いくつかの実施形態では、装置２４００は、基本入出力システム（BIOS）２４２０をさらに含むことができる。ＢＩＯＳ２４２０は、（例えば、１つ又は複数のドライバ２４５４を介して）ＯＳ２４５２と通信することができ、プロセッサ２４０４等と通信することができる。

例えば、ＰＭアプリケーション２４５８、２４５６、ドライバ２４５４、ＢＩＯＳ２４２０等のうちの１つ又は複数を使用して、電力管理固有のタスクを実施し、例えば、装置２４００の様々なコンポーネントの電圧及び／又は周波数を制御し、装置２４００の様々なコンポーネントのウェイクアップ状態、スリープ状態、及び／又は他の適切な電力状態を制御し、バッテリ電力使用量、バッテリ２４１８の充電、省電力動作に関連する特徴等を制御するすることができる。

いくつかの実施形態では、バッテリ２４１８は、バッテリに均一な圧力をかけることを可能にする圧力チャンバを含むリチウム金属バッテリである。圧力チャンバは、バッテリに均一な圧力を与えるために使用される金属プレート（圧力均等化プレート等）によって支持される。圧力チャンバには、加圧ガス、弾性材料、ばね板等が含まれる。圧力チャンバの外板は自由に曲がり、（金属）外板によってその縁部が拘束されるが、依然としてバッテリセルを圧縮している板に均一な圧力をかける。圧力チャンバはバッテリに均一な圧力を与え、この圧力は、例えば、バッテリ寿命が２０％長い高エネルギー密度のバッテリを可能にするために使用される。

いくつかの実施形態では、ＰＣＵ２４１０ａ／ｂ上で実行されるｐＣｏｄｅは、ｐＣｏｄｅの実行時サポートのために追加の計算リソース及びテレメトリリソースを可能にする能力を有する。ここで、ｐＣｏｄｅは、ＳｏＣ２４０１のパフォーマンスを管理するためにＰＣＵ２４１０ａ／ｂによって実行されるファームウェアを指す。例えば、ｐＣｏｄｅは、プロセッサの周波数及び適切な電圧を設定することができる。ｐＣｏｄｅの一部は、ＯＳ２４５２を介してアクセス可能である。様々な実施形態では、ワークロード、ユーザの動作、及び／又はシステム条件に基づいてエネルギーパフォーマンスプリファレンス（EPP）値を動的に変更するメカニズム及び方法が提供される。ＯＳ２４５２とｐＣｏｄｅとの間に明確に規定されたインターフェースが存在し得る。インターフェースは、いくつかのパラメータのソフトウェア構成を許可又は容易にし、及び／又はｐＣｏｄｅにヒントを提供する場合がある。例として、ＥＰＰパラメータは、パフォーマンス又はバッテリ寿命がより重要であるかどうかに関してｐＣｏｄｅアルゴリズムに通知する場合がある。

このサポートは、ＯＳ２４５２の一部として機械学習サポートを含み、ＯＳが機械学習予測によってハードウェア（例えば、ＳｏＣ２４０１の様々なコンポーネント）に示唆するＥＰＰ値を調整することによって、又はＤＴＴ（Dynamic Tuning Technology）ドライバによって行われるのと同様の方法で機械学習予測をｐＣｏｄｅに配信することによって、ＯＳ２４５２によっても同様に行うことができる。このモデルでは、ＯＳ２４５２は、ＤＴＴで使用可能なものと同じテレメトリのセットを可視化することができる。ＤＴＴ機械学習ヒント設定の結果として、ｐＣｏｄｅは、その内部アルゴリズムを調整して、アクティベーションタイプの機械学習予測に従って最適な電力及びパフォーマンスの結果を達成することができる。例としてのｐＣｏｄｅは、ユーザアクティビティへの迅速な応答を可能にするためにプロセッサ使用率の変更の責任を増やすことができ、或いはプロセッサ使用率の責任を減らすか、又はより多くの電力を節約して、省エネの最適化の調整によって失われるパフォーマンスを増やすことによって、エネルギー節約のバイアスを増やすことができる。このアプローチは、有効にされたタイプのアクティビティが、システムが有効にできるものよりもパフォーマンスレベルを失う場合に、バッテリ寿命をより多く節約するのに役立つ。ｐＣｏｄｅには、１つはＯＳ２４５２から、もう１つはＤＴＴ等のソフトウェアからの２つの入力を受け取り、より高いパフォーマンス及び／又は応答性を提供することを選択的に選ぶことができる動的ＥＰＰのアルゴリズムを含めることができる。この方法の一部として、ｐＣｏｄｅは、ＤＴＴで、異なるタイプのアクティビティのＤＴＴに対する反応を調整するオプションを有効にすることができる。

本明細書における「実施形態」、「一実施形態」、「いくつかの実施形態」、又は「他の実施形態」への言及は、実施形態に関連して説明した特定の特徴、構造、又は特性が少なくともいくつかの実施形態に含まれるが、必ずしも全ての実施形態に含まれるわけではないことを意味する。「実施形態」、「一実施形態」、又は「いくつかの実施形態」の様々な出現は、必ずしも全てが同じ実施形態を指すわけではない。明細書に、コンポーネント、特徴、構造、又は特性が「含まれ得る」、「含まれる可能性がある」、又は「含むことができる」と記載されている場合に、その特定のコンポーネント、特徴、構造、又は特性を（必ずしも）含める必要はない。明細書又は特許請求の範囲が「１つの（a, an）」要素に言及している場合に、それは要素が１つしかないことを意味するものではない。明細書又は特許請求の範囲が「追加の」要素に言及している場合に、それは、複数の追加の要素が存在することを排除するものではない。

さらに、特定の特徴、構造、機能、又は特性は、１つ又は複数の実施形態において任意の適切な方法で組み合わせることができる。例えば、第１の実施形態は、２つの実施形態に関連する特定の特徴、構造、機能、又は特性が互いに排他的でない場合にいつでも、第２の実施形態と組み合わせることができる。

本開示について、その特定の実施形態と併せて説明してきたが、そのような実施形態の多くの代替、修正、及び変形は、前述の説明に照らして当業者には明らかであろう。本開示の実施形態は、添付の特許請求の範囲の広い範囲に含まれるような全てのそのような代替、修正、及び変形を包含することを意図している。

さらに、集積回路（IC）チップ及び他のコンポーネントへの周知の電源／接地接続は、例示及び説明を簡略化するために、そして本開示を曖昧にしないために、提示した図内に示される場合もあれば、示されない場合もある。さらに、配置は、本開示を曖昧にすることを避けるためにブロック図形式で示され得、また、そのようなブロック図配置の実施態様に関する詳細が、本開示を実施すべきプラットフォームに大きく依存するという事実を考慮して、ブロック図形式で示され得る（すなわち、そのような詳細は、当業者の範囲内に十分にあるべきである）。本開示の例示的な実施形態を説明するために特定の詳細（例えば、回路）が示される場合に、本開示は、これらの特定の詳細なしで、又はその変形を伴って実施できることは当業者には明らかであるはずである。こうして、説明は、限定するのではなく、例示と見なすべきである。

以下の実施例は、更なる実施形態に関する。実施例の詳細は、１つ又は複数の実施形態のどこでも使用することができる。本明細書で説明する機器の全てのオプションの特徴はまた、方法又はプロセスに関して実施され得る。実施例は、任意の組合せで組み合わせることができる。例えば、実施例４を実施例２と組み合わせることができる。

実施例１：グラフィックプロセッサは、統合グラフィック処理装置（iGPU）と；ディスクリート・グラフィック処理装置（dGPU）と；ｉＧＰＵとｄＧＰＵとの両方のワットあたりのパフォーマンス情報を適応的に適用するロジックと；ｉＧＰＵ又はｄＧＰＵのどちらがレンダリングタスクを実行するかを決定する熱出力ポイント（TPP）と；を含む。

実施例２：ロジックは、ｉＧＰＵ又はｄＧＰＵのどちらがレンダリングタスクを実行するかを決定する前に、テレメトリ情報を受信する、実施例１のグラフィックプロセッサ。

実施例３：ロジックは、テレメトリ情報によって受信した瞬間電力データ及び以前の電力データを介して、グラフィックプロセッサの平均消費電力を決定する、実施例２のグラフィックプロセッサ。

実施例４：ロジックは、平均消費電力がＴＰＰよりも大きいかどうかを判定し、平均消費電力がＴＰＰよりも大きい場合に、ロジックは、ｄＧＰＵがレンダリングタスクを実行するように選択する、実施例３のグラフィックプロセッサ。

実施例５：平均消費電力がＴＰＰよりも少ない場合に、ロジックは、ｉＧＰＵがレンダリングタスクを実行するように選択する、実施例４のグラフィックプロセッサ。

実施例６：平均消費電力に閾値数を超える複数の低遷移及び高遷移がある場合に、ロジックは、平均消費電力のデューティサイクルに従って、ｉＧＰＵ又はｄＧＰＵのどちらがレンダリングタスクを実行するかを決定する、実施例３のグラフィックプロセッサ。

実施例７：電源がｄＧＰＵの消費電力をサポートすることができないとロジックが判定した場合に、ロジックは、ｉＧＰＵがタスクをレンダリングするように選択するべく、オペレーティングシステム又はドライバに要求する、実施例４のグラフィックプロセッサ。

実施例８：グラフィックプロセッサのプロセッサコアが熱的に制限されているとロジックが判定した場合に、ロジックは、ｄＧＰＵがタスクをレンダリングするように選択するべく、オペレーティングシステム又はドライバに要求する、実施例５のグラフィックプロセッサ。

実施例９：ロジックが、ｉＧＰＵ又はｄＧＰＵのどちらがレンダリングタスクを実行するかを決定する前に、オペレーティングシステム又はドライバは、ｉＧＰＵ又はｄＧＰＵのどちらがレンダリングタスクを実行するかを決定する、実施例１のグラフィックプロセッサ。

実施例１０：ＴＰＰは、様々なアプリケーションでグラフィックプロセッサにストレスを与えることによって決定される、実施例１のグラフィックプロセッサ。

実施例１１：ＴＰＰは、ＢＩＯＳ又は埋込みコントローラに渡される、実施例１のグラフィックプロセッサ。

実施例１２：命令を記憶した機械可読媒体であって、命令が実行されると、グラフィック処理装置（GPU）に方法を実行させ、その方法には、様々なアプリケーションでＧＰＵにストレスをかけて、熱出力ポイント（TPP）を決定するステップと；統合グラフィック処理装置（iGPU）とディスクリート・グラフィック処理装置（dGPU）との両方のワットあたりのパフォーマンス情報及びＴＰＰを適応的に適用して、ｉＧＰＵ又はｄＧＰＵのどちらがレンダリングタスクを実行するかを決定するステップと；ワットあたりのパフォーマンス情報及びＴＰＰに従って、ｉＧＰＵ又はｄＧＰＵのどちらかレンダリングタスクを実行するかを選択するステップと；が含まれる。

実施例１３：命令を記憶しており、命令が実行されると、ＧＰＵに方法を実行させ、この方法には、ｉＧＰＵ又はｄＧＰＵのどちらがレンダリングタスクを実行するかを決定する前に、テレメトリ情報を受信するステップが含まれる、実施例１２の機械可読媒体。

実施例１４：命令を記憶しており、命令が実行されると、ＧＰＵに方法を実行させ、この方法には、テレメトリ情報によって受信した瞬間電力データ及び以前の電力データを介して、ＧＰＵの平均消費電力を決定するステップが含まれる、実施例１３の機械可読媒体。

実施例１５：命令を記憶しており、命令が実行されると、ＧＰＵに方法を実行させ、この方法には、平均消費電力がＴＰＰよりも大きいかどうかを判定し、平均消費電力がＴＰＰよりも大きい場合に、ｄＧＰＵがレンダリングタスクを実行するように選択するステップが含まれる、実施例１４の機械可読媒体。

実施例１６：命令を記憶しており、命令が実行されると、ＧＰＵに方法を実行させ、この方法には、平均消費電力がＴＰＰよりも少ない場合に、ｉＧＰＵがレンダリングタスクを実行するように選択するステップが含まれる、実施例１５の機械可読媒体。

実施例１７：命令を記憶しており、命令が実行されると、ＧＰＵに方法を実行させ、この方法には、平均消費電力に閾値数を超える複数の低遷移及び高遷移がある場合に、平均消費電力のデューティサイクルに従って、ｉＧＰＵ又はｄＧＰＵのどちらがレンダリングタスクを実行するかを決定するステップが含まれる、実施例１４の機械可読媒体。

実施例１８：命令を記憶しており、命令が実行されると、ＧＰＵに方法を実行させ、この方法には、電源がｄＧＰＵの消費電力をサポートすることができないと判定された場合に、ｉＧＰＵがタスクをレンダリングするように選択するべく、オペレーティングシステム又はドライバに要求するステップが含まれる、実施例１５の機械可読媒体。

実施例１９：命令を記憶しており、命令が実行されると、ＧＰＵに方法を実行させ、この方法には、ＧＰＵのプロセッサコアが熱的に制限されていると判定された場合に、ｄＧＰＵがタスクをレンダリングするように選択するべく、オペレーティングシステム又はドライバに要求するステップが含まれる、実施例１６の機械可読媒体。

実施例２０：システムは、メモリと；メモリに結合されたグラフィック処理装置（GPU）と；ＧＰＵが別の装置と通信するのを可能にする無線インターフェースと；を含み、ＧＰＵは、実施例１～１１のいずれか１つに記載されているものである。

読者が技術的開示の性質及び要点を確認するのを可能にする要約が提供される。要約は、特許請求の範囲又は意味を制限するために使用されないことを理解した上で提出される。以下の特許請求の範囲は、詳細な説明に組み込まれ、各請求項は、別個の実施形態としてそれ自体で成り立っている。

Claims

グラフィックプロセッサであって、当該グラフィックプロセッサは、
統合グラフィック処理装置（iGPU）と、
ディスクリート・グラフィック処理装置（dGPU）と、
前記ｉＧＰＵがアプリケーションの処理データを開始したときに、前記ｉＧＰＵの消費電力を決定し、該消費電力が閾値を超えたときに、オペレーティングシステム又はドライバが前記アプリケーションを実行するために前記ｉＧＰＵの代わりに前記ｄＧＰＵを選択するように要求するかどうかを決定するロジックと、を含み、
前記消費電力は、前記ｉＧＰＵの指数加重移動平均消費電力であり、
前記閾値は、前記ｉＧＰＵの前記消費電力が前記閾値を超えるまで、前記ｉＧＰＵのパフォーマンスが前記ｄＧＰＵのパフォーマンスに等しくなり、前記ｉＧＰＵの前記消費電力が前記閾値をこえるときに、前記ｉＧＰＵのパフォーマンスが前記ｄＧＰＵのパフォーマンスを下回るように設定される、
グラフィックプロセッサ。
前記消費電力を決定するために、前記ロジックは、
電圧レギュレータからテレメトリ情報を受信し、
現在の電力データ及び前記テレメトリ情報によって受信した以前の電力データを介して当該グラフィックプロセッサの平均消費電力を決定する、請求項１に記載のグラフィックプロセッサ。
前記ｉＧＰＵは、前記消費電力が前記閾値を超える回数に基づくデューティサイクルを有しており、前記ロジックは、前記オペレーティングシステム又はドライバが、前記デューティサイクルに基づいて、前記ｉＧＰＵの代わりに前記ｄＧＰＵを選択するように要求するかどうかを決定する、請求項１に記載のグラフィックプロセッサ。
前記ｉＧＰＵの前記消費電力が前記閾値を超えたときに、電源が前記ｄＧＰＵの消費電力をサポートすることができないと前記ロジックが判定した場合に、前記ロジックは、前記ｉＧＰＵが前記アプリケーションを引き続き実行できるようにする、請求項１に記載のグラフィックプロセッサ。
前記ｉＧＰＵの前記消費電力が前記閾値を超えたときに、当該グラフィックプロセッサのプロセッサコアが熱的に制限されていると前記ロジックが判定した場合に、前記ロジックは、前記ｉＧＰＵが前記アプリケーションを引き続き実行できるようにする、請求項１に記載のグラフィックプロセッサ。
前記ロジックが、前記ｉＧＰＵの前記消費電力を決定する前に、前記オペレーティングシステム又はドライバは、前記アプリケーションを実行するために前記ｄＧＰＵよりも前記ｉＧＰＵを選択する、請求項１に記載のグラフィックプロセッサ。
前記ロジックは、ソフトウェア、ハードウェア、又はこれらの組合せによって実行されるグラフィック電力管理アルゴリズムを含む、請求項１に記載のグラフィックプロセッサ。
命令を記憶した非一時的な機械可読媒体であって、前記命令が実行されると、グラフィック処理装置（GPU）に方法を実行させ、該方法には、
様々なアプリケーションによって統合グラフィック処理装置（iGPU）及びディスクリート・グラフィック処理装置（dGPU）に負荷をかけるにステップと、
前記様々なアプリケーションのうちの各アプリケーションに対して負荷をかけている間に、前記ｉＧＰＵのパフォーマンス、前記ｄＧＰＵのパフォーマンス、及び前記ｉＧＰＵの消費電力を決定するステップと、
前記様々なアプリケーションのうちの１つ又は複数のアプリケーションを決定するステップであって、前記ｄＧＰＵのパフォーマンスが、前記様々なアプリケーションのうちの他のアプリケーションにおいて前記ｄＧＰＵの前記パフォーマンスに対して低下していない間に、前記ｉＧＰＵの前記パフォーマンスが、前記様々なアプリケーションのうちの前記他のアプリケーションにおいて前記ｉＧＰＵの前記パフォーマンスに対して低下する、ステップと、
前記ｄＧＰＵの前記パフォーマンスが低下していない間に、前記ｉＧＰＵの前記パフォーマンスが低下する場合に、前記ｉＧＰＵの前記消費電力に基づいて閾値電力ポイント（TPP）を決定するステップと、
該ＴＰＰをグラフィック電力管理アルゴリズムに渡すステップと、が含まれる、
機械可読媒体。
前記方法には、現在の電力データ及び以前の電力データに基づいて、前記ｉＧＰＵの前記消費電力を平均消費電力として決定するステップがさらに含まれる、請求項８に記載の機械可読媒体。
前記方法には、前記ｉＧＰＵの前記消費電力を指数加重移動平均消費電力として決定するステップがさらに含まれる、請求項９に記載の機械可読媒体。
前記ｉＧＰＵの前記消費電力が前記ＴＰＰよりも少ない場合に、前記グラフィック電力管理アルゴリズムは、前記ｉＧＰＵがレンダリングタスクを実行するように選択するように構成される、請求項１０に記載の機械可読媒体。
前記ＴＰＰは前記ｉＧＰＵのデューティサイクルに基づいており、該デューティサイクルは、前記ｉＧＰＵの前記消費電力が前記ＴＰＰを超える回数に基づく、請求項９に記載の機械可読媒体。
システムであって、当該システムは、
メモリと、
該メモリに結合された汎用プロセッサと、
該汎用プロセッサに結合されたグラフィック処理装置（GPU）と、を含み、
該ＧＰＵは、請求項１乃至６のいずれか一項に記載されているグラフィックプロセッサである、
システム。