JP2022532838A

JP2022532838A - プロセッサの処理回路の電流消費を動的に制御するためのシステム、装置及び方法

Info

Publication number: JP2022532838A
Application number: JP2021560890A
Authority: JP
Inventors: エヌ．アナンサクリシュナン，アヴィナッシュ; アンバーデカール，アメヤ; ヴァルマ，アンクッシュ; エンジェル，ニムロッド; ローゼンツヴァイク，ニール; ギホン，アリック; ゲンドラー，アレクサンダー; イー．レイエス，ラシッド; サルース，タミール
Original assignee: インテルコーポレイション
Priority date: 2019-05-15
Filing date: 2020-03-19
Publication date: 2022-07-20
Anticipated expiration: 2040-03-19
Also published as: EP3969984A4; EP3969984A1; JP7547368B2; US11442529B2; CN113748397A; WO2020231514A1; US20200363860A1

Abstract

一実施形態において、装置は、複数のインテレクチュアルプロパティ（ＩＰ）回路であり、当該複数のＩＰ回路の各々が、動的電流割当量を格納する構成レジスタを含む、複数のＩＰ回路と、前記複数のＩＰ回路に結合された電力コントローラであり、前記複数のＩＰ回路のうちの少なくとも一部上で実行されるワークロードに関する電流スロットリングヒント情報を受信し且つそれに少なくとも部分的に基づいて前記複数のＩＰ回路の各々についての前記動的電流割当量を生成する動的電流共有制御回路、を含む電力コントローラと、を有する。他の実施形態も記述されて特許請求される。

Description

実施形態は、プロセッサの電力管理に関する。

半導体処理及び論理設計における進歩が、集積回路デバイス上に存在し得るロジックの量の増加を可能にしてきた。結果として、コンピュータシステム構成は、システム内の単一又は複数の集積回路から、個々の集積回路上の複数のハードウェアスレッド、複数のコア、複数のデバイス、及び／又は完全なシステムへと進化してきた。さらに、集積回路の密度が増すにつれて、コンピューティングシステム（組み込みシステムからサーバまで）に対する電力要求も段階的に増大してきた。また、ソフトウェアの非効率性、及びそのハードウェアの要求も、コンピューティング装置のエネルギー消費を増加させている。実際、一部の研究が示すことには、コンピューティング装置は、例えば米国などの国の電力供給全体のうちのかなりの割合を消費している。結果として、集積回路に関連したエネルギー効率及び省エネルギーに対する切実なニーズが存在する。それらのニーズは、（典型的なコンピュータ、自動車、テレビジョンに含まれるものからバイオテクノロジまで）サーバ、デスクトップコンピュータ、ノートブック、Ｕｌｔｒａｂｏｏｋ^ＴＭ、タブレット、携帯電話、プロセッサ、組み込みシステムなどがますます普及するにつれて増すことになる。

本発明の一実施形態に従ったシステムの一部のブロック図である。本発明の一実施形態に従ったプロセッサのブロック図である。本発明の他の一実施形態に従ったマルチドメインプロセッサのブロック図である。複数のコアを含むプロセッサの一実施形態である。本発明の一実施形態に従ったプロセッサコアのマイクロアーキテクチャのブロック図である。他の一実施形態に従ったプロセッサコアのマイクロアーキテクチャのブロック図である。更なる他の一実施形態に従ったプロセッサコアのマイクロアーキテクチャのブロック図である。より更なる一実施形態に従ったプロセッサコアのマイクロアーキテクチャのブロック図である。本発明の他の一実施形態に従ったプロセッサのブロック図である。本発明の一実施形態に従った代表的なＳｏＣのブロック図である。本発明の一実施形態に従ったＳｏＣの他の一例のブロック図である。それとともに実施形態が使用され得るシステムの一例のブロック図である。それとともに実施形態が使用され得るシステムの他の一例のブロック図である。代表的なコンピュータシステムのブロック図である。本発明の一実施形態に従ったシステムのブロック図である。一実施形態に従った動作を実行する集積回路を製造するために使用されるＩＰコア開発システムを示すブロック図である。本発明の一実施形態に従ったコンピューティングシステムのブロック図である。本発明の一実施形態に従った方法のフロー図である。本発明の一実施形態に従った方法のフロー図である。本発明の他の一実施形態に従った方法のフロー図である。本発明の一実施形態に従ったプロセッサのブロック図である。本発明の他の一実施形態に従った制御構成のブロック図である。本発明の一実施形態に従った方法のフロー図である。本発明の他の一実施形態に従った方法のフロー図である。

様々な実施形態において、プロセッサが、当該プロセッサの複数の処理回路の各々について、独立して制御可能な最大電流消費能力を動的に決定するように構成される。例えば、プロセッサは、汎用の処理コア及びグラフィックスプロセッサなどを含む多様な異なる処理回路を含むマルチコアプロセッサ又は他のシステム・オン・チップ（ＳｏＣ）とし得る。ここでの実施形態では、例えばオペレーティングシステム若しくは他のスケジューラ又はアプリケーション自体などのソフトウェアエンティティから受け取った情報に少なくとも部分的に基づいて、電力コントローラが処理回路の各々について独立した電流消費リミットを動的に決定し得る。そのような情報は、所与のワークロードに対する異なる処理回路の相対的な優先度又は重要度を特定することができ、それにより、コア（又は他の処理回路）毎をベースにして、動的な、独立した、制御可能な電流消費値を提供することができるようにし得る。

斯くして、動作中に電力逸脱に遭遇したときに、実行中のワークロードへの影響をできるだけ限られたものとするように、個々の処理回路のスロットリングが独立して実行され得る。対照的に、従来の処理回路のスロットリングは、電力逸脱が起こるときに、予め定められた静的な量のスロットリングで行われる。そのような静的な構成は、ワークロード挙動の全範囲を満足するように設定されており、所与のケースにとって最適なものではない。代わりに、実施形態では、個々の処理回路に許される電流消費を動的に設定することによって、実行中の所与のワークロードに対して最適なスロットリング挙動が実現され得る。

ハイレベル例として、コアが主体の、少量のグラフィックス処理を有した第１のワークロードのケースを考える。コアがあまり使用されずにグラフィックスプロセッサが多く使用される第２のワークロードのケースを考える。ソフトウェアエンティティによって提供される適切なヒント情報を用いて、これら異なる処理回路による最大電流消費レベルの動的で制御可能な決定を提供及び執行することができる。従って、ワークロード応答性に影響を与える作業をコアが実行しているとし得る第１のワークロードの場合、それらのコアは、グラフィックスプロセッサがスロットリングされる程度まではスロットリングされないとし得る。代わりに、ユーザから見える作業をグラフィックスプロセッサが実行しているとし得る第２のワークロードの場合には、グラフィックスプロセッサに対してよりも高いレベルのスロットリングがコアに関して行われ得る。従って、実行中であり得る異なるワークロードに基づいて、異なる処理回路が異なるようにスロットリングされ得る。

実施形態では、プロセッサの異種の処理回路間での電流共有を最適化するために、例えばランタイムソフトウェア、ドライバ、ファームウェア、又は他のソフトウェアエンティティなどのソフトウェアエンティティがスロットリング情報の動的プログラミングを提供することを、ソフトウェアインタフェースが可能にする。斯くして、電流制約される状況において性能が向上され得る。

以下の実施形態は、例えば計算プラットフォーム又はプロセッサにおいてなど、特定の集積回路におけるエネルギー節約及びエネルギー効率を参照して説明されるが、他の実施形態は、他のタイプの集積回路及び論理デバイスに適用可能である。ここに記載される実施形態の技術及び教示と同様のものが、より良いエネルギー効率及びエネルギー節約の恩恵をやはり受け得る他のタイプの回路又は半導体デバイスに適用され得る。例えば、開示される実施形態は、如何なる特定のタイプのコンピュータシステムにも限定されない。すなわち、開示される実施形態は、サーバコンピュータ（例えば、タワー、ラック、ブレード、マイクロサーバなど）、通信システム、ストレージシステム、任意の構成のデスクトップコンピュータ、ラップトップ、ノートブック、及びタブレットコンピュータ（２：１タブレット、ファブレットなどを含む）に及ぶ数多くの異なるシステムタイプで使用されることができ、また、例えばハンドヘルド装置、システム・オン・チップ（ＳｏＣ）、及び組み込みアプリケーションなどの他のデバイスでも使用され得る。ハンドヘルド装置の一部の例は、例えばスマートフォンなどの携帯電話、インターネットプロトコル装置、デジタルカメラ、携帯情報端末（ＰＤＡ）、及びハンドヘルドＰＣを含む。組み込みアプリケーションは典型的に、マイクロコントローラ、デジタル信号プロセッサ（ＤＳＰ）、ネットワークコンピュータ（ＮｅｔＰＣ）、セットトップボックス、ネットワークハブ、ワイドエリアネットワーク（ＷＡＮ）スイッチ、ウェアラブル装置、又は以下に教示される機能及び動作を実行することができる任意の他のシステムを含み得る。また、実施形態は、例えば移動電話、スマートフォン及びファブレットなどの標準的な音声機能を有するモバイル端末、及び／又は多くのウェアラブル、タブレット、ノートブック、デスクトップ、マイクロサーバ、サーバなどの、標準的な無線音声機能の通信能力を持たない非モバイル端末に実装され得る。さらに、ここに記載される装置、方法、及びシステムは、物理的なコンピューティング装置に限定されず、エネルギー節約及び効率のためのソフトウェア最適化にも関係し得る。以下の説明にてただちに明らかになるように、ここに記載される方法、装置、及びシステムの実施形態（ハードウェア、ファームウェア、ソフトウェア、又はこれらの組み合わせのいずれを参照していようと）は、例えば米国経済の大部分を網羅するプロダクトの電力節約及びエネルギー効率などの“グリーン技術”の将来にとって不可欠である。

次に図１を参照するに、本発明の一実施形態に従ったシステムの一部のブロック図が示されている。図１に示すように、システム１００は、図示のようにマルチコアプロセッサであるプロセッサ１１０を含む様々なコンポーネントを含み得る。プロセッサ１１０は、外部電圧レギュレータ１６０を介して電源１５０に結合されることができ、外部電圧レギュレータ１６０は、第１の電圧変換を実行して、プロセッサ１１０に一次レギュレート電圧を提供し得る。

見てとれるように、プロセッサ１１０は、複数のコア１２０_ａ－１２０_ｎを含む単一ダイのプロセッサとし得る。また、各コアに集積電圧レギュレータ（integrated voltage regulator；ＩＶＲ）１２５_ａ－１２５_ｎが付随するようにすることができ、ＩＶＲは、一次レギュレート電圧を受けて、該ＩＶＲが付随するプロセッサの１つ以上のエージェントに供給される動作電圧を生成する。従って、ＩＶＲ実装は、個々のコア各々の電圧ひいては電力及び性能の、細かい粒度での制御を可能にするように提供され得る。従って、各コアは、独立した電圧及び周波数で動作することができ、大きな柔軟性を可能にするとともに、電力消費を性能とバランスさせるための幅広い機会を提供する。一部の実施形態において、複数のＩＶＲの使用は、コンポーネントを別々の電力プレーンにグループ分けし、電力がＩＶＲによってレギュレートされてそのグループ内のコンポーネントのみに供給されるようにすることを可能にする。電力管理において、プロセッサがある特定の低電力状態に置かれるときに、所与の電力プレーンの１つのＩＶＲが電力を下げられるか切られるかする一方で、他の電力プレーンの別のＩＶＲがアクティブのままである又はフルに電力供給されることができる。

なおも図１を参照するに、プロセッサ内には、入力／出力インタフェース１３２、別のインタフェース１３４、及び集積メモリコントローラ１３６を含む更なるコンポーネントが存在し得る。見てとれるように、これらのコンポーネントの各々が、別の集積電圧レギュレータ１２５_ｘによって電力供給され得る。一実施形態において、インタフェース１３２は、物理層、リンク層、及びプロトコル層を含む複数レイヤを含んだキャッシュコヒーレントプロトコルにおいてポイント・ツー・ポイント（ＰｔＰ）リンクを提供するものであるＩｎｔｅｌ（登録商標）ＱＰＩ（Quick Path Interconnect）インターコネクト向けの動作を可能にし得る。代わって、インタフェース１３４は、ペリフェラルコンポーネントインターコネクトエクスプレス（ＰＣＩｅ^ＴＭ）プロトコルを介して通信してもよい。

プロセッサ１１０に対する電力管理動作を実行するための、ハードウェア、ソフトウェア、及び／又はファームウェアを含み得るものである電力制御ユニット（ＰＣＵ）１３８も示されている。見てとれるように、ＰＣＵ１３８は、デジタルインタフェースを介して外部電圧レギュレータ１６０に制御情報を提供し、該電圧レギュレータに適切なレギュレートされた電圧を生成させる。ＰＣＵ１３８はまた、別のデジタルインタフェースを介してＩＶＲ１２５に制御情報を提供し、生成される動作電圧を制御する（又は、対応するＩＶＲを低電力モードで無効にさせる）。様々な実施形態において、ＰＣＵ１３８は、ハードウェアベースの電力管理を実行する多様な電力管理論理ユニットを含み得る。そのような電力管理は、全体がプロセッサ制御されてもよく（例えば、様々なプロセッサハードウェアによってであり、ワークロード及び／又は電力、熱若しくは他のプロセッサ制約によってトリガーされ得る）、及び／又は電力管理は、外部ソース（例えば、プラットフォーム又は管理電力管理ソース若しくはシステムソフトウェア）に応答して実行されてもよい。

また、図１は、ＰＣＵ１３８が別個の処理エンジン（これはマイクロコントローラとして実装され得る）である実装を示しているが、理解されたいことには、一部の実施形態では、専用の電力コントローラに加えて又は代えて、各コアが、電力制御エージェントを含むか、それに付随されるかして、いっそう自律的に、電力消費を独立して制御するようにしてもよい。一部のケースでは、階層的な電力管理アーキテクチャが提供され、ＰＣＵ１３８が、コア１２０の各々に付随した対応する電力管理エージェントと通信する。

ＰＣＵ１３８に含まれる１つの電力管理論理ユニットは、各コア１２０及び／又は更なる処理回路に対して独立した最大電流消費値を動的に決定するように構成される動的電流共有制御回路とし得る。ここに更にさらに記載されるように、この制御回路は、コア１２０の各々に動的に設定可能な最大電流消費値を与えて、各コア１２０がこの制約に従って動作することを可能にし得る。従って、スロットルイベントをトリガーする状態をＰＣＵ１３８が確認したとき、スロットル信号がこれらのコア１２０に送信され得る。そして、各コア１２０が、その動作をその動的に特定された最大電流消費値に制限し得る。斯くして、特にスロットルイベントが確認されたときに、異なるコアが非対称な性能状態で動作して、ユーザに対峙するワークロードに対して生じる影響が最小限となるようにし得る。

説明を容易にするために図示していないが、理解されたいことには、プロセッサ１１０内には、追加の制御回路や、例えば１つ以上のレベルのキャッシュメモリ階層などといった内部メモリなどのその他のコンポーネントなどの、更なるコンポーネントが存在し得る。また、図１の実装は集積電圧レギュレータを備えるように示されているが、実施形態はそのように限定されるものではない。

なお、ここに記載される電力管理技術は、オペレーティングシステム（ＯＳ）ベースの電力管理（ＯＳＰＭ）機構とは独立であり且つそれに対して補完的であるとし得る。一例のＯＳＰＭ技術によれば、プロセッサは、いわゆるＰ０からＰＮまでのＰ状態である様々な性能状態又はレベルで動作することができる。一般に、Ｐ１性能状態は、ＯＳによって要求される最高保証性能状態に対応し得る。ここに記載される実施形態は、多様な入力及びプロセッサ動作パラメータに基づいた、Ｐ１性能状態の保証周波数に対する動的な変更を可能にし得る。このＰ１状態に加えて、ＯＳは、更に高い性能状態すなわちＰ０状態を要求することができる。このＰ０状態は、故に、電力量及び／又は熱量が利用可能であるときにプロセッサハードウェアが、プロセッサ又はその少なくともその一部を、保証周波数よりも高い周波数で動作するように設定することができるという、日和見モード状態又はターボモード状態とし得る。多くの実装において、プロセッサは、製造中に該プロセッサにヒューズによって又はその他によって書き込んで、その特定のプロセッサの最大ピーク周波数を超える、Ｐ１保証最大周波数よりも高い、複数のいわゆるビン周波数を含むことができる。さらに、一ＯＳＰＭ機構によれば、プロセッサは様々な電力状態又はレベルで動作することができる。電力状態に関して、ＯＳＰＭ機構は、一般にＣ０、Ｃ１－Ｃｎ状態なるＣ状態として参照される複数の異なる電力消費状態を指定し得る。あるコアがアクティブであるとき、それはＣ０状態で動作し、コアがアイドルであるとき、それは、コア非ゼロＣ状態（例えば、Ｃ１－Ｃ６状態）とも呼ばれるコア低電力状態に置かれることができ、これらの各Ｃ状態が低めの電力消費レベルにある（Ｃ６の方がＣ１よりも深い低電力状態である等々であるように）。

理解されたいことには、異なる実施形態では数多くの異なるタイプの電力管理技術が個別に又は組み合わせて使用され得る。代表的な例として、電力コントローラが、特定の状況において電力消費を低減させるように１つ以上のコア又は他のプロセッサロジックの動作電圧及び／又は動作周波数が動的に制御されるものである何らかの形態の動的電圧・周波数スケーリング（dynamic voltage frequency scaling；ＤＶＦＳ）によって電力管理されるように、プロセッサを制御し得る。一例として、ＤＶＦＳは、最低電力消費レベルで最適な性能を提供するために、カリフォルニア州サンタクララのインテル社から入手可能なＥｎｈａｎｃｅｄＩｎｔｅｌＳｐｅｅｄＳｔｅｐ^ＴＭ技術を用いて実行され得る。他の一例において、ＤＶＦＳは、１つ以上のコア又は他の計算エンジンが条件（例えば、ワークロード及び利用可能性）に基づいて保証動作周波数よりも高い周波数で動作することを可能にするために、ＩｎｔｅｌＴｕｒｂｏｏｓｔ^ＴＭ技術を用いて実行されてもよい。

特定の例において使用され得る他の電力管理技術は、異なる計算エンジン間でのワークロードの動的スワッピングである。例えば、プロセッサは、異なる電力消費レベルで動作する非対称なコア又は他の処理エンジンを含むことができ、ある電力制約状況において、１つ以上のワークロードを、より低電力のコア又は他の計算エンジン上で実行するように動的に切り替えることができるようにし得る。他の例示的な電力管理技術は、ハードウェアデューティサイクリング（hardware duty cycling；ＨＤＣ）技術であり、これは、１つ以上のコアが、デューティサイクルのうち非活性期間の間は非アクティブにされ、デューティサイクルのうち活性期間の間はアクティブにされ得るように、デューティサイクルに従ってコア及び／又は他の計算エンジンを周期的に有効化及び無効化させ得るものである。これら特定の例を用いて説明したが、理解されたいことには、数多くの他の電力管理技術が具体的な実施形態において使用され得る。

実施形態は、サーバプロセッサ、デスクトッププロセッサ、モバイルプロセッサなどを含む様々な市場向けのプロセッサに実装されることができる。次に図２を参照するに、本発明の一実施形態に従ったプロセッサのブロック図が示されている。図２に示すように、プロセッサ２００は、複数のコア２１０_ａ－２１０_ｎを含むマルチコアプロセッサとし得る。一実施形態において、そのようなコアは各々、独立した電力ドメインのものとすることができ、ワークロードに基づいてアクティブ状態及び／又は最大性能状態を出入りするように構成されることができる。これら様々なコアは、インターコネクト２１５を介して、様々なコンポーネントを含むシステムエージェント２２０に結合され得る。見てとれるように、システムエージェント２２０は、最終レベルキャッシュとし得る共有キャッシュ２３０を含むことができる。加えて、システムエージェントは、例えばメモリバスを介してシステムメモリ（図２には示さず）と通信する集積メモリコントローラ２４０を含み得る。システムエージェント２２０はまた、ここに記載される電力管理技術を実行するためのロジックを含み得るものである様々なインタフェース２５０及び電力制御ユニット２５５を含み得る。図示した実施形態において、電力制御ユニット２５５は、ソフトウェアによって提供されるヒント情報に少なくとも部分的に基づいてコア２１０の各々についての動的な電流消費値を動的に決定し得る動的電流共有制御回路２５８を含んでいる。動的電流共有制御回路２５８は、特にスロットルイベントが確認されたときに、そのような動的な電流消費値を、それらの記憶及び内部使用のためにコア２１０に通信して、それらのコアの電流消費を独立に制御し得る。

さらに、インタフェース２５０ａ－２５０ｎにより、例えば周辺装置及び大容量ストレージなどの様々なオフチップコンポーネントへの接続を為すことができる。図２の実施形態ではこの特定の実装を有するように示されているが、本発明の範囲は、これに関して限定されるものではない。

次に図３を参照するに、他の一実施形態に従ったマルチドメインプロセッサのブロック図が示されている。図３の実施形態に示すように、プロセッサ３００は複数のドメインを含んでいる。具体的には、コアドメイン３１０が複数のコア３１０_０－３１０_ｎを含むことができ、グラフィックスドメイン３２０が１つ以上のグラフィックスエンジンを含むことができ、そして、システムエージェントドメイン３５０が更に存在してもよい。一部の実施形態において、システムエージェントドメイン３５０は、コアドメインとは独立した周波数で実行することができ、また、ドメイン３１０及び３２０が高電力状態及び低電力状態に動的に出入りするように制御され得るように電力制御イベント及び電力管理を扱うために、常時、電力オンのままにされることができる。ドメイン３１０及び３２０の各々は、異なる電圧及び／又は電力で動作することができる。なお、３つのドメインのみを有するように示されているが、理解されたいことには、本発明の範囲は、これに関して限定されるものではなく、他の実施形態では更なるドメインが存在することができる。例えば、各々が少なくとも１つのコアを含む複数のコアドメインが存在してもよい。

一般に、各コア３１０は更に、様々な実行ユニット及び追加の処理要素に加えて、低レベルキャッシュを含み得る。そして、これら様々なコアが、互いに結合され得るとともに最終レベルキャッシュ（ＬＬＣ）３４０_０－３４０_ｎの複数ユニットで形成される共有キャッシュメモリに結合され得る。様々な実施形態において、ＬＬＣ３４０は、これらのコア及びグラフィックスエンジンの間だけでなく様々なメディア処理回路の間で共有され得る。見てとれるように、斯くしてリングインターコネクト３３０がこれらのコアをともに結合するとともに、コア、グラフィックスドメイン３２０、及びシステムエージェント回路３５０の間の相互接続を提供する。一実施形態において、インターコネクト３３０は、コアドメインの一部とすることができる。しかしながら、他の実施形態において、リングインターコネクトは、それ自身のドメインのものであってもよい。

更に見てとれるように、システムエージェントドメイン３５０は、結合されるディスプレイの制御及びそれへのインタフェースを提供し得るディスプレイコントローラ３５２を含み得る。更に見てとれるように、システムエージェントドメイン３５０は、ここに記載される電力管理技術を実行するロジックを含むことができる電力制御ユニット３５５を含み得る。図示した実施形態において、電力制御ユニット３５５は動的電流共有制御回路３５９を含んでおり、これは、ここに記載されるように、ソフトウェアによって提供されるヒント情報に少なくとも部分的に基づいて、各コア３１０及びグラフィックスエンジン３２０に対して独立に最大電流消費レベルを動的に決定するものである。

図３にて更に見てとれるように、プロセッサ３００は更に、例えばダイナミックランダムアクセスメモリ（ＤＲＡＭ）などのシステムメモリへのインタフェースを提供し得る集積メモリコントローラ（ＩＭＣ）３７０を含むことができる。プロセッサと他の回路との間の相互接続を可能にするために、複数のインタフェース３８０_０－３８０_ｎが存在し得る。例えば、一実施形態において、１つ以上のＰＣＩｅ^ＴＭンタフェースとともに少なくとも１つのダイレクトメディアインタフェース（ＤＭＩ）インタフェースが設けられ得る。さらには、追加のプロセッサ又は他の回路などの他のエージェント同士の間での通信を提供するために、１つ以上のＱＰＩインタフェースも設けられ得る。図３の実施形態ではこのハイレベルで示されているが、理解されたいことには、本発明の範囲は、これに関して限定されるものではない。

図４を参照するに、複数のコアを含むプロセッサの一実施形態が示されている。プロセッサ４００は、例えばマイクロプロセッサ、埋め込みプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、ネットワークプロセッサ、ハンドヘルドプロセッサ、アプリケーションプロセッサ、コプロセッサ、システム・オン・チップ（ＳｏＣ）、又はコードを実行する他のデバイスなどの、任意のプロセッサ又は処理デバイスを含む。プロセッサ４００は、一実施形態において、非対称コア又は対称コア（図示した実施形態）を含み得る少なくとも２つのコア、コア４０１及び４０２、を含む。しかしながら、プロセッサ４００は、対称又は非対称とし得る如何なる数の処理要素を含んでもよい。

一実施形態において、処理要素は、ソフトウェアスレッドをサポートするハードウェア又はロジックを指す。ハードウェア処理要素の例は、例えば実行状態若しくはアーキテクチャ状態などのプロセッサに関する状態を保持することが可能な、スレッドユニット、スレッドスロット、スレッド、プロセスユニット、コンテキスト、コンテキストユニット、論理プロセッサ、ハードウェアスレッド、コア、及び／又は任意の他の要素を含む。換言すれば、処理要素は、一実施形態において、例えばソフトウェアスレッド、オペレーティングシステム、アプリケーション、又は他のコードなどのコードと独立に関連付けられることが可能な任意のハードウェアを指す。物理プロセッサは典型的に、例えばコア又はハードウェアスレッドなどの任意数の他の処理要素を含み得るものである集積回路を指す。

コアは、しばしば、独立したアーキテクチャ状態を維持することが可能な集積回路上に置かれたロジックを指し、独立して維持される各アーキテクチャ状態が、少なくとも一部の専用実行リソースと関連付けられる。コアとは対照的に、ハードウェアスレッドは典型的に、独立したアーキテクチャ状態を維持することが可能な集積回路上に置かれた任意のロジックを指し、独立して維持される複数のアーキテクチャ状態が、実行リソースへのアクセスを共有する。理解され得るように、特定のリソースが共有され、他のリソースがあるアーキテクチャ状態に専用にされる場合、ハードウェアスレッドという用語とコアという用語との間の線引きが重なり合う。更には、しばしば、コア及びハードウェアスレッドは、オペレーティングシステムによって、個別の論理プロセッサとして見られ、オペレーティングシステムは、各論理プロセッサ上での演算を個別にスケジュールすることができる。

物理プロセッサ４００は、図４に例示するように、コア４０１及びコア４０２という２つのコアを含んでいる。ここでは、コア４０１及び４０２を、対称コア、すなわち、同じ構成、機能ユニット、及び／又はロジックを有するコアとして考える。他の一実施形態では、コア４０１はアウト・オブ・オーダプロセッサコアを含む一方で、コア４０２はイン・オーダプロセッサコアを含む。しかしながら、コア４０１及び４０２は、例えばネイティブコア、ソフトウェア管理コア、ネイティブの命令セットアーキテクチャ（ＩＳＡ）を実行するように適応されたコア、変換されたＩＳＡを実行するように適応されたコア、協調設計コア、又は他の知られたコアなど、任意のタイプのコアから個別に選択され得る。しかし、議論を更に進めるため、コア４０２内のユニットは同様にして動作するので、以下、コア４０１内に例示する機能ユニットを更に詳細に説明する。

図示のように、コア４０１は、ハードウェアスレッドスロット４０１ａ及び４０１ｂとしても参照することがある２つのハードウェアスレッド４０１ａ及び４０１ｂを含んでいる。従って、例えばオペレーティングシステムなどのソフトウェアエンティティは、一実施形態において、プロセッサ４００を４つの別々のプロセッサ、すなわち、４つのソフトウェアスレッドを同時に実行することが可能な４つの論理プロセッサ又は処理要素として見ることが可能である。上で示唆したように、第１のスレッドはアーキテクチャ状態レジスタ４０１ａと関連付けられ、第２のスレッドはアーキテクチャ状態レジスタ４０１ｂと関連付けられ、第３のスレッドはアーキテクチャ状態レジスタ４０２ａと関連付けられ、そして、第４のスレッドはアーキテクチャ状態レジスタ４０２ｂと関連付けられ得る。ここで、アーキテクチャ状態レジスタ（４０１ａ、４０１ｂ、４０２ａ、及び４０２ｂ）の各々は、上述のように、処理要素、スレッドスロット、又はスレッドユニットと称されることがある。図示のように、アーキテクチャ状態レジスタ（ＡｒｃｈＲｅｇ）４０１ａは、アーキテクチャ状態レジスタ４０１ｂ内に複製され、故に、個々のアーキテクチャ状態／コンテキストは、論理プロセッサ４０１ａ及び論理プロセッサ４０１ｂのために格納されることが可能である。コア４０１内で、例えばアロケータ・リネーマブロック４３０における命令ポインタ及びリネームロジックなどの、より小さい他のリソースも、スレッド４０１ａ及び４０１ｂに対して複製され得る。例えばリオーダ／リタイアメントユニット４３５内のリオーダバッファ、ＩＬＴＢ４２０、ロード／ストアバッファ、及びキューなどの、一部のリソースは、パーティショニングを通して共有され得る。例えば汎用内部レジスタ、（１つ以上の）ページテーブルベースレジスタ、低レベルデータキャッシュ及びデータＴＬＢ４１５、（１つ以上の）実行ユニット４４０、及びアウト・オブ・オーダユニット４３５の部分などの、他のリソースは完全に共有され得る。

プロセッサ４００は、しばしば、完全に共有されるか、パーティションを通して共有されるか、又は処理要素によって／対して専用にされるかし得るものである他のリソースを含む。図４には、プロセッサの例示的な論理ユニット／リソースを有する純粋に例示的なプロセッサの一実施形態が示されている。なお、プロセッサは、これらの機能ユニットのうちのいずれかを含んだり省略したりすることができるとともに、図示されていない任意の他の知られた機能ユニット、ロジック、又はファームウェアを含むことができる。図示のように、コア４０１は、単純化された代表的なアウト・オブ・オーダ（ＯＯＯ）プロセッサコアを含んでいる。しかし、異なる実施形態ではイン・オーダプロセッサが利用されてもよい。ＯＯＯコアは、実行される／採択される分岐を予測する分岐ターゲットバッファ４２０、及び命令に関するアドレス変換エントリを格納する命令－変換バッファ（Ｉ－ＴＬＢ）４２０を含んでいる。

コア４０１は更に、フェッチされたエレメントを復号するためにフェッチユニット４２０に結合された復号モジュール４２５を含んでいる。フェッチロジックは、一実施形態において、それぞれスレッドスロット４０１ａ、４０１ｂと関連付けられた個々のシーケンサを含む。通常、コア４０１は、プロセッサ４００上で実行可能な命令を定義／規定するものである第１のＩＳＡと関連付けられる。しばしば、第１のＩＳＡの一部であるマシンコード命令が、実行されるべき命令又は演算を参照／指定するものである命令の一部（オペコードと呼ばれる）を含む。復号ロジック４２５は、以下の回路を含み、すなわち、それらのオペコードからこれらの命令を認識し、復号した命令を、第１のＩＳＡによって定められる処理用のパイプラインに渡す回路を含む。例えば、デコーダ４２５は、一実施形態において、例えばトランザクション命令などの特定の命令を認識するように設計又は適応されたロジックを含む。デコーダ４２５による認識の結果として、アーキテクチャ又はコア４０１は、特定の予め定められたアクションをとって、その適切な命令に関連するタスクを実行する。言及しておくことが重要なことには、ここに記載されるタスク、ブロック、演算、及び方法のいずれも、単一又は複数の命令に応答して実行されることができ、それらのうちの一部は新規の命令であることもあるし、旧来の命令であることもある。

一例において、アロケータ・リネーマブロック４３０は、例えば命令処理結果を記憶するためのレジスタファイルなどのリソースを予約するアロケータを含む。しかしながら、スレッド４０１ａ及び４０１ｂは、アウト・オブ・オーダ実行が可能であってもよく、その場合、アロケータ・リネーマブロック４３０は、例えば命令結果を追跡するためのリオーダバッファなどの他のリソースも予約する。ユニット４３０はまた、プログラム／命令参照レジスタをプロセッサ４００の内部の他のレジスタにリネームするレジスタリネーマを含み得る。リオーダ／リタイアメントユニット４３５は、アウト・オブ・オーダ実行と、後の、アウト・オブ・オーダ実行された命令のイン・オーダリタイアメントとをサポートするために、例えば上述のリオーダバッファ、ロードバッファ、及びストアバッファなどのコンポーネントを含む。

スケジューラ及び（１つ以上の）実行ユニットのブロック４４０は、一実施形態において、実行ユニット上の命令／演算をスケジュールするスケジューラユニットを含む。例えば、浮動小数点命令が、利用可能な浮動小数点実行ユニットを有する実行ユニットのポート上にスケジュールされる。情報命令処理結果を格納するために、実行ユニットに関連付けられたレジスタファイルも含められる。例示的な実行ユニットは、浮動小数点実行ユニット、整数実行ユニット、ジャンプ実行ユニット、ロード実行ユニット、ストア実行ユニット、及び他の知られた実行ユニットを含む。

下位データキャッシュ及びデータ変換バッファ（Ｄ－ＴＬＢ）４５０が、（１つ以上の）実行ユニット４４０に結合される。データキャッシュは、メモリコヒーレンシ状態に保持され得るものである例えばデータオペランドなどの最近使用／演算されたエレメントを格納する。Ｄ－ＴＬＢは、最近の仮想／線形－物理アドレス変換を格納する。一具体例として、プロセッサは、物理メモリを複数の仮想ページに分割するページテーブル構造を含み得る。

ここで、コア４０１及び４０２は、最近フェッチされたエレメントをキャッシュするものである、より上位の又は更に外のキャッシュ４１０へのアクセスを共有する。なお、より上位又は更に外は、キャッシュレベルが増すこと又は（１つ以上の）実行ユニットから更に遠ざかることを指す。一実施形態において、より上位のキャッシュ４１０は、例えば第２レベル又は第３レベルのデータキャッシュなど、プロセッサ４００のメモリ階層内の最後のキャッシュである最終レベルデータキャッシュである。しかしながら、より上位のキャッシュ４１０は、命令キャッシュと関連付けられたり、それを含んだりしてもよいものであるので、そのように限定されるものではない。代わりに、最近復号されたトレースを格納するために、デコーダ４２５の後に、一種の命令キャッシュであるトレースキャッシュが結合されてもよい。

図示した構成において、プロセッサ４００はまた、バスインタフェースモジュール４０５と、本発明の一実施形態に従って電力管理を実行し得るものである及び電力コントローラ４６０とを含んでいる。このシナリオでは、バスインタフェース４０５は、例えばシステムメモリ及び他のコンポーネントなどの、プロセッサ４００の外部の装置と通信する。

メモリコントローラ４７０は、例えば１つ以上のメモリなどの他の装置とインタフェースをとり得る。一例において、バスインタフェース４０５は、メモリとインタフェースをとるためのメモリコントローラ及びグラフィックスプロセッサとインタフェースをとるためのグラフィックスコントローラとのリングインターコネクトを含む。ＳｏＣ環境では、高い機能性及び低い消費電力の小さなフォームファクタを提供するよう、例えばネットワークインタフェース、コプロセッサ、メモリ、グラフィックスプロセッサ、及び任意の他の知られたコンピュータデバイス／インタフェースなどの、もっと多くのデバイスが、単一のダイ又は集積回路上に集積され得る。

次に図５を参照するに、本発明の一実施形態に従ったプロセッサコアのマイクロアーキテクチャのブロック図が示されている。図５に示すように、プロセッサコア５００は、多段パイプライン型アウト・オブ・オーダプロセッサとし得る。コア５００は、集積電圧レギュレータ又は外部電圧レギュレータから受け取り得るものである受けた動作電圧に基づいて、様々な電圧で動作し得る。

図５にて見てとれるように、コア５００はフロントエンドユニット５１０を含んでおり、これは、実行すべき命令をフェッチし、それら命令をプロセッサパイプラインでの後の使用のために準備するために使用され得るものである。例えば、フロントエンドユニット５１０は、フェッチユニット５０１、命令キャッシュ５０３、及び命令デコーダ５０５を含み得る。一部の実装において、フロントエンドユニット５１０は更に、マイクロコードストレージ及びマイクロ演算ストレージと共に、トレースキャッシュを含んでもよい。フェッチユニット５０１は、例えばメモリ又は命令キャッシュ５０３から、マクロ命令をフェッチし、それらマクロ命令を、それらをプリミティブへと、すなわち、プロセッサによる実行のためのマイクロ演算へと復号する命令デコーダ５０５に送り得る。

フロントエンドユニット５１０と実行ユニット５２０との間に、マイクロ命令を受け取って、それらを実行のために準備するために使用され得るアウト・オブ・オーダ（ＯＯＯ）エンジン５１５が結合される。より具体的には、ＯＯＯエンジン５１５は、マイクロ命令フローを並べ替えて、実行に必要な様々なリソースを割り当てるために、及び、例えばレジスタファイル５３０及び拡張レジスタファイル５３５などの様々なレジスタファイル内のストレージ位置に対する論理レジスタのリネームを提供するために、様々なバッファを含み得る。レジスタファイル５３０は、整数演算及び浮動小数点演算のための別々のレジスタファイルを含み得る。拡張レジスタファイル５３５は、レジスタ当たり例えば２５６又は５１２ビットといった、ベクトルサイズのユニット向けのストレージを提供し得る。設定、制御、及び追加演算の目的のために、一組のマシン固有レジスタ（ＭＳＲ）５３８も存在してコア５００内の（及びコア外部の）様々なロジックにアクセス可能にされ得る。

実行ユニット５２０内には、例えば、数多の特殊化されたハードウェアの中でもとりわけ、様々な整数、浮動小数点、及び単一命令複数データ（ＳＩＭＤ）の論理ユニットを含め、様々なリソースが存在し得る。例えば、そのような実行ユニットは、とりわけ、数多のそのような実行ユニットの中でもとりわけ、１つ以上の算術論理ユニット（ＡＬＵ）５２２及び１つ以上のベクトル実行ユニット５２４を含み得る。

実行ユニットからの結果は、リオーダバッファ（ＲＯＢ）５４０というリタイアメントロジックに提供され得る。より具体的には、ＲＯＢ５４０は、実行される命令に関連する情報を受信する様々なアレイ及びロジックを含み得る。この情報は、次いで、命令が正当に退去させられて結果データがプロセッサのアーキテクチャ状態にコミットされるかを判定するため、又は命令の適切な退去を妨げる１つ以上の例外が発生したかを判定するために、ＲＯＢ５４０によって検査される。当然ながら、ＲＯＢ５４０は、リタイアメントに関連する他の操作も取り扱い得る。

図５に示すように、ＲＯＢ５４０はキャッシュ５５０に結合され、キャッシュ５５０は、一実施形態において低レベルキャッシュ（例えば、Ｌ１キャッシュ）とし得るが、本発明の範囲は、これに関して限定されるものではない。また、実行ユニット５２０は、キャッシュ５５０に直接的に結合されることができる。キャッシュ５５０から、より上位のキャッシュ、システムメモリなどとのデータ通信が行われ得る。図５の実施形態においてはこのハイレベルで示されているが、理解されたいことには、本発明の範囲はこれに関して限定されるものではない。例えば、図５の実装は、例えばＩｎｔｅｌ（登録商標）ｘ８６命令セットアーキテクチャ（ＩＳＡ）のものなどのアウト・オブ・オーダマシンに関するものであるが、本発明の範囲は、これに関して限定されるものではない。すなわち、他の実施形態は、イン・オーダプロセッサにて実装されてもよいし、例えばＡＲＭベースのプロセッサなどの縮小命令セットコンピューティング（ＲＩＳＣ）プロセッサにて実装されてもよいし、あるいは、エミュレーションエンジン及び関連論理回路を介して異なるＩＳＡの命令及び演算をエミュレートすることができる別のタイプのＩＳＡのプロセッサにて実装されてもよい。

次に図６を参照するに、他の一実施形態に従ったプロセッサコアのマイクロアーキテクチャのブロック図が示されている。図６の実施形態において、コア６００は、電力消費を低減させるように設計された比較的限られたパイプライン深さを持った、例えばＩｎｔｅｌ（登録商標）Ａｔｏｍ^ＴＭベースのプロセッサなどの、異なるマイクロアーキテクチャの低電力コアとし得る。見てとれるように、コア６００は、命令デコーダ６１５に命令を提供するように結合された命令キャッシュ６１０を含んでいる。分岐予測器６０５が命令キャッシュ６１０に結合され得る。なお、命令キャッシュ６１０は更に、例えばＬ２キャッシュなどの別レベルのキャッシュメモリ（図６では図示の容易さのために示していない）に結合されてもよい。代わって、命令デコーダ６１５は、復号した命令を、保管及び所与の実行パイプラインへの送達のために、発行（イシュー）キュー６２０に提供する。マイクロコードＲＯＭ６１８が命令デコーダ６１５に結合される。

浮動小数点パイプライン６３０は、例えば１２８、２５６又は５１２ビットなどの所与のビットの複数のアーキテクチャレジスタを含み得る浮動小数点レジスタファイル６３２を含む。パイプライン６３０は、パイプラインの複数の実行ユニットのうちの１つで実行する命令をスケジュールする浮動小数点スケジューラ６３４を含む。図示した実施形態において、そのような実行ユニットは、ＡＬＵ６３５、シャッフルユニット６３６、及び浮動小数点加算器６３８を含んでいる。次いで、これらの実行ユニットで生成された結果を、レジスタファイル６３２のバッファ及び／又はレジスタに提供し返すことができる。理解されたいことには、これら僅かな例の実行ユニットを有するように示されているが、当然ながら、他の一実施形態では追加の又は異なる浮動小数点実行ユニットが存在し得る。

整数パイプライン６４０も設けられ得る。図示した実施形態において、パイプライン６４０は、例えば１２８又は２５６ビットなどの所与のビットの複数のアーキテクチャレジスタを含み得る整数レジスタファイル６４２を含んでいる。パイプライン６４０は、パイプラインの複数の実行ユニットのうちの１つで実行する命令をスケジュールする整数スケジューラ６４４を含む。図示した実施形態において、そのような実行ユニットは、ＡＬＵ６４５、シフタユニット６４６、及びジャンプ実行ユニット６４８を含んでいる。次いで、これらの実行ユニットで生成された結果を、レジスタファイル６４２のバッファ及び／又はレジスタに提供し返すことができる。理解されたいことには、これら僅かな例の実行ユニットを有するように示されているが、当然ながら、他の一実施形態では追加の又は異なる整数実行ユニットが存在し得る。

メモリ実行スケジューラ６５０が、ＴＬＢ６５４にも結合されるアドレス生成ユニット６５２における実行のためのメモリ動作をスケジュールし得る。見てとれるように、これらの構造はデータキャッシュ６６０に結合することができ、データキャッシュ６６０は、次いでＬ２キャッシュメモリを含むキャッシュメモリ階層の更なるレベルに結合するＬ０及び／又はＬ１データキャッシュとし得る。

アウト・オブ・オーダ実行のサポートを提供するため、アウト・オブ・オーダ実行された命令をリタイアメントのために順序通りに並べ替えるように構成されるものであるリオーダバッファ６８０に加えて、アロケータ／リネーマ６７０を設けられ得る。図６の例示ではこの特定のパイプラインアーキテクチャを有するように示されているが、理解されたいことには、数多くの変形及び代替が可能である。

なお、例えば図５及び図６のマイクロアーキテクチャに従ってなど、非対称コアを有するプロセッサにおいては、電力管理の理由で、コア間でワークロードが動的に交換され得る。何故なら、それらのコアは、異なるパイプライン設計及び深さを持つが、同一又は関連するＩＳＡのものとし得るからである。そのような動的なコアスワッピングは、ユーザアプリケーションに対して（及び恐らくはカーネルに対しても）トランスペアレントなやり方で実行され得る。

図７を参照するに、更なる他の一実施形態に従ったプロセッサコアのマイクロアーキテクチャのブロック図が示されている。図７に例示するように、コア７００は、非常に低い電力消費レベルで実行するための多段インオーダパイプラインを含み得る。そのような一例として、プロセッサ７００は、カリフォルニア州サニーベールのアームホールディング社から入手可能なＡＲＭＣｏｒｔｅｘＡ５３設計に従ったマイクロアーキテクチャを有し得る。一実装において、３２ビット及び６４ビットの両方のコードを実行するように構成された８段パイプラインが設けられ得る。コア７００は、命令をフェッチしてそれらを復号ユニット７１５に提供するように構成されたフェッチユニット７１０を含んでおり、復号ユニット７１５は、例えばＡＲＭｖ８ＩＳＡなどの所与のＩＳＡのマクロ命令といった命令を復号し得るものである。更に言及しておくことには、復号された命令を格納するために、キュー７３０が復号ユニット７１５に結合し得る。復号された命令は発行ロジック７２５に提供され、そこで、復号された命令が、複数の実行ユニットのうちの所与の１つに発行され得る。

図７を更に参照するに、発行ロジック７２５は、複数の実行ユニットのうちの１つに命令を発行し得る。図示した実施形態では、それらの実行ユニットは、整数ユニット７３５、乗算ユニット７４０、浮動小数点／ベクトルユニット７５０、デュアル発行ユニット７６０、及びロード／ストアユニット７７０を含んでいる。これら様々な実行ユニットの結果は、ライトバックユニット７８０に提供され得る。理解されたいことには、図示の容易さのために単一のライトバックユニットが示されているが、一部の実装では、実行ユニットの各々に別々のライトバックユニットが付随してもよい。さらに、理解されたいことには、図７に示したユニット及びロジックの各々はハイレベルで表されているが、特定の一実装は、より多くの又は異なる構造を含み得る。図７においてのようにパイプラインを有する１つ以上のコアを用いて設計されるプロセッサは、モバイル装置からサーバシステムにまでわたる数多くの異なる最終製品にて実装され得る。

図８を参照するに、より更なる一実施形態に従ったプロセッサコアのマイクロアーキテクチャのブロック図が示されている。図８に例示するように、コア８００は、非常に高い性能レベル（図７のコア７００よりも高い電力消費レベルで発生し得る）で実行するための多段マルチ発行アウト・オブ・オーダパイプラインを含み得る。そのような一例として、プロセッサ８００は、ＡＲＭＣｏｒｔｅｘＡ５７設計に従ったマイクロアーキテクチャを有し得る。一実装において、３２ビット及び６４ビットの両方のコードを実行するように構成された１５（又はそれより多く）段パイプラインが設けられ得る。さらに、このパイプラインは、３（又はそれより多く）ワイド及び３（又はそれより多く）発行オペレーションを提供し得る。コア８００は、命令をフェッチしてそれらをデコーダ／リネーマ／ディスパッチャ８１５に提供するように構成されたフェッチユニット８１０を含んでおり、デコーダ／リネーマ／ディスパッチャ８１５は、例えばＡＲＭｖ８命令セットアーキテクチャのマクロ命令といった命令を復号し、命令内のレジスタ参照をリネームし、そして、命令を（最終的には）選択された実行ユニットへとディスパッチし得る。復号された命令はキュー８２５に格納され得る。なお、図８では図示の容易さのために単一のキュー構造が示されているが、理解されたいことには、複数の異なるタイプの実行ユニットの各々に対して別々のキューが設けられてもよい。

発行ロジック８３０も図８に示されており、そこから、キュー８２５に格納された復号された命令が、選択された実行ユニットに発行され得る。発行ロジック８３０はまた、特定の一実施形態において、発行ロジック８３０が結合する複数の異なるタイプの実行ユニットの各々に対して別個の発行ロジックを有するように実施されてもよい。

復号された命令が、複数の実行ユニットのうちの所与の１つに発行され得る。図示した実施形態では、それらの実行ユニットは、１つ以上の整数ユニット８３５、乗算ユニット８４０、浮動小数点／ベクトルユニット８５０、分岐ユニット８６０、及びロード／ストアユニット８７０を含んでいる。一実施形態において、浮動小数点／ベクトルユニット８５０は、１２８ビット又は２５６ビットのＳＩＭＤ又はベクトルデータを取り扱うように構成され得る。より更には、浮動小数点／ベクトル実行ユニット８５０は、ＩＥＥＥ－７５４倍精度浮動小数点演算を実行することができる。これら様々な実行ユニットの結果は、ライトバックユニット８８０に提供され得る。なお、一部の実装では、実行ユニットの各々に別々のライトバックユニットが付随してもよい。さらに、理解されたいことには、図８に示したユニット及びロジックの各々はハイレベルで表されているが、特定の一実装は、より多くの又は異なる構造を含み得る。

なお、例えば図７及び図８のマイクロアーキテクチャに従ってなど、非対称コアを有するプロセッサにおいては、電力管理の理由でワークロードが動的に交換され得る。何故なら、それらのコアは、異なるパイプライン設計及び深さを持つが、同一又は関連するＩＳＡのものとし得るからである。そのような動的なコアスワッピングは、ユーザアプリケーションに対して（及び恐らくはカーネルに対しても）トランスペアレントなやり方で実行され得る。

図５－図８のいずれか１つ以上においてのようにパイプラインを有する１つ以上のコアを用いて設計されるプロセッサは、モバイル装置からサーバシステムにまでわたる数多くの異なる最終製品にて実装され得る。次に図９を参照するに、本発明の他の一実施形態に従ったプロセッサのブロック図が示されている。図９の実施形態において、プロセッサ９００は、複数のドメインを含むＳｏＣとすることができ、それらドメインの各々が、独立した動作電圧及び動作周波数で動作するように制御され得る。例示的な一具体例として、プロセッサ９００は、例えばｉ３、ｉ５、ｉ７などのＩｎｔｅｌ（登録商標）ＡｒｃｈｉｔｅｃｔｕｒｅＣｏｒｅ^ＴＭベースのプロセッサ、又はインテル社から入手可能な別のそのようなプロセッサとし得る。しかしながら、例えば、ＡｐｐｌｅＡ７プロセッサ、ＱｕａｌｃｏｍｍＳｎａｐｄｒａｇｏｎプロセッサ、又はＴｅｘａｓＩｎｓｔｒｕｍｅｎｔｓＯＭＡＰプロセッサなどの他の実施形態には、例えば、カリフォルニア州サニーベールのアドバンストマイクロデバイス社（ＡＭＤ）から入手可能なもの、アームホールディング社又はそのライセンシーからのＡＲＭベースの設計、又はカリフォルニア州サニーベールのＭＩＰＳテクノロジーズ社又はそのライセンシー若しくは採用者からのＭＩＰＳベースの設計などの、他の低電力プロセッサが存在し得る。このようなＳｏＣは、例えばスマートフォン、タブレットコンピュータ、ファブレットコンピュータ、Ｕｌｔｒａｂｏｏｋ^ＴＭコンピュータ、又は他のポータブルコンピューティング装置若しくはコネクテッド装置などの低電力システムで使用され得る。

図９に示すハイレベル図において、プロセッサ９００は、複数のコアユニット９１０_０－９１０_ｎを含んでいる。各コアユニットが、１つ以上のプロセッサコア、１つ以上のキャッシュメモリ、及び他の回路を含み得る。各コアユニット９１０は、１つ以上の命令セット（例えば、ｘ８６命令セット（より新しいバージョンで追加された幾つかの拡張を有する）、ＭＩＰＳ命令セット、ＡＲＭ命令セット（例えばＮＥＯＮなどのオプションの追加拡張を有する））若しくは他の命令セット、又はこれらの組み合わせをサポートし得る。なお、これらコアユニットの一部は、異種のリソース（例えば、異なる設計のもの）であってもよい。さらに、このようなコアは各々、一実施形態において共有レベル（Ｌ２）キャッシュメモリとし得るキャッシュメモリ（図示せず）に結合され得る。様々なプログラム及び他のデータを記憶するために、不揮発性ストレージ９３０が使用され得る。例えば、このストレージは、マイクロコードの少なくとも一部、例えばＢＩＯＳなどのブート情報、又は他のシステムソフトウェアなどを格納するために使用され得る。

各コアユニット９１０はまた、例えばプロセッサの更なる回路への相互接続を可能にするバスインタフェースユニットなどのインタフェースを含み得る。一実施形態において、各コアユニット９１０は、一次キャッシュコヒーレントなオンダイインターコネクトとして作用し得るコヒーレントファブリックに結合し、それが次に、メモリコントローラ９３５に結合する。そして、メモリコントローラ９３５が、例えばＤＲＡＭなどのメモリ（図９では図示の容易さのために示していない）との通信を制御する。

プロセッサ内に、コアユニットに加えて、少なくとも１つのグラフィックスユニット９２０を含む更なる処理エンジンが存在し、該更なる処理エンジンは、グラフィックス処理を実行するとともにグラフィックスプロセッサ上で汎用演算（いわゆるＧＰＧＰＵ演算）を実行し得る１つ以上のグラフィックス処理ユニット（ＧＰＵ）を含み得る。さらに、少なくとも１つの画像信号プロセッサ９２５が存在し得る。信号プロセッサ９２５は、ＳｏＣの内部又はオフチップのいずれかの１つ以上のキャプチャデバイスから受信する入力画像データを処理するように構成され得る。

他のアクセラレータも存在し得る。図９の例示では、ビデオコーダ９５０が、ビデオ情報の符号化及び復号を含むコーディング操作を実行し、例えば、高精細度映像コンテンツに対するハードウェア加速サポートを提供する。システムの内部及び外部ディスプレイに対するサポートを提供することを含め、表示操作を加速するためにディスプレイコントローラ９５５が更に設けられ得る。加えて、例えばセキュアなブート動作及び様々な暗号化演算などのセキュリティ処理を実行するために、セキュリティプロセッサ９４５が存在してもよい。

これらのユニットの各々が、自身の電力消費を、電力マネジャ９４０を介して制御されてもよく、電力マネジャ９４０は、ここに記載される様々な電力管理技術を実行する制御ロジックを含み得る。

一部の実施形態において、ＳｏＣ９００は更に、様々な周辺デバイスが結合し得るコヒーレントファブリックに結合された非コヒーレントファブリックを含んでもよい。１つ以上のインタフェース９６０ａ－９６０ｄが、１つ以上のオフチップデバイスとの通信を可能にする。このような通信は、数多のタイプの通信プロトコルの中でもとりわけ、例えばＰＣＩｅ^ＴＭ、ＧＰＩＯ、ＵＳＢ、Ｉ^２Ｃ、ＵＡＲＴ、ＭＩＰＩ、ＳＤＩＯ、ＤＤＲ、ＳＰＩ、ＨＤＭＩ（登録商標）などの、多様な通信プロトコルを介し得る。図９の実施形態ではこのハイレベルで示されているが、理解されたいことには、本発明の範囲はこれに関して限定されるものではない。

次に図１０を参照するに、代表的なＳｏＣのブロック図が示されている。図示した実施形態において、ＳｏＣ１０００は、スマートフォン又は例えばタブレットコンピュータ若しくは他のポータブルコンピューティング装置などの他の低電力装置への組み込みのために最適化される低電力動作用に構成されたマルチコアＳｏＣとし得る。一例として、ＳｏＣ１０００は、例えばアウト・オブ・オーダコア及びイン・オーダコアといった、高めの電力のコア及び／又は低電力コアの組み合わせなどの、非対称な又は異なるタイプのコアを用いて実装され得る。異なる実施形態において、これらのコアは、Ｉｎｔｅｌ（登録商標）Ａｒｃｈｉｔｅｃｔｕｒｅ^ＴＭコア設計又はＡＲＭアーキテクチャ設計に基づき得る。更なる他の実施形態において、Ｉｎｔｅｌ（登録商標）コアとＡＲＭコアとの混ぜ合わせが所与のＳｏＣ内に実装されてもよい。

図１０にて見てとれるように、ＳｏＣ１０００は、複数の第１のコア１０１２_０－１０１２_３を有する第１のコアドメイン１０１０を含んでいる。一例において、これらのコアは、例えばイン・オーダコアなどの低電力コアとし得る。一実施形態において、これら第１のコアは、ＡＲＭＣｏｒｔｅｘＡ５３コアとして実装され得る。そして、これらのコアは、コアドメイン１０１０のキャッシュメモリ１０１５に結合する。さらに、ＳｏＣ１０００は第２のコアドメイン１０２０を含んでいる。図１０の例示において、第２のコアドメイン１０２０は、複数の第２のコア１０２２_０－１０２２_３を有している。一例において、これらのコアは、第１のコア１０１２よりも高電力消費のコアとし得る。一実施形態において、第２のコアは、ＡＲＭＣｏｒｔｅｘＡ５７コアとして実装され得るものであるアウト・オブ・オーダコアとし得る。そして、これらのコアは、コアドメイン１０２０のキャッシュメモリ１０２５に結合する。なお、図１０に示した例は各ドメイン内に４つのコアを含んでいるが、理解されたいことには、他の例では、より多数又は少数のコアが所与のドメイン内に存在し得る。

図１０を更に参照するに、グラフィックスドメイン１０３０も設けられており、これは、例えば、コアドメイン１０１０及び１０２０の１つ以上のコアによって与えられるグラフィックスワークロードを独立して実行するように構成された１つ以上のグラフィックス処理ユニット（ＧＰＵ）を含み得る。一例として、ＧＰＵドメイン１０３０は、グラフィックス及び表示レンダリング演算を提供することに加えて、多様なスクリーンサイズに対する表示サポートを提供するために使用され得る。

見てとれるように、これらの様々なドメインはコヒーレントインターコネクト１０４０に結合し、コヒーレントインターコネクト１０４０は、一実施形態において、次いで集積メモリコントローラ１０５０に結合するキャッシュコヒーレントなインターコネクトファブリックとし得る。コヒーレントインターコネクト１０４０は、一部の例において、例えばＬ３キャッシュなどの共有キャッシュメモリを含み得る。一実施形態において、メモリコントローラ１０５０は、例えばＤＲＡＭの複数のチャネルなど、複数のチャネルでのオフチップメモリとの通信を提供するダイレクトメモリコントローラとし得る（図１０では図示の容易さのために示していない）。

異なる例ではコアドメインの数が変わり得る。例えば、モバイルコンピューティング装置への組み込みに適した低電力ＳｏＣでは、図１０に示すような限られた数のコアドメインが存在し得る。より更には、そのような低電力ＳｏＣにおいて、より高電力のコアを含むコアドメイン１０２０は、より少ない数のそのようなコアを有していてもよい。例えば、一実装において、低減された電力消費レベルでの動作を可能にするよう、２つのコア１０２２が設けられ得る。さらに、異なるコアドメインはまた、異なるドメイン間でのワークロードの動的スワッピングを可能にするために、割り込みコントローラに結合されてもよい。

更なる他の実施形態では、例えばデスクトップ、サーバ、高性能コンピューティングシステム、基地局などの他のコンピューティング装置への組み込みのために、ＳｏＣを、より高い性能（及び電力）レベルにスケーリングすることができるという点で、より多数のコアドメイン及び追加のオプションのＩＰロジックが存在してもよい。そのような一例として、各々が所与の数のアウト・オブ・オーダコアを持つ４つのコアドメインが設けられ得る。より更には、オプションのＧＰＵサポート（一例としてＧＰＧＰＵの形態をとり得る）に加えて、特定の機能（例えば、ウェブサービス、ネットワーク処理、又は交換など）に対して最適化されたハードウェアサポートを提供する１つ以上のアクセラレータも設けられ得る。さらに、そのようなアクセラレータをオフチップコンポーネントに結合するために入力／出力インタフェースが存在してもよい。

次に図１１を参照するに、ＳｏＣの他の一例のブロック図が示されている。図１１の実施形態において、ＳｏＣ１１００は、マルチメディアアプリケーション、通信、及び他の機能のために高い性能を可能にする様々な回路を含み得る。従って、ＳｏＣ１１００は、例えばスマートフォン、タブレットコンピュータ、及びスマートＴＶなどの多種多様なポータブル装置及び他の装置への組み込みに適している。図示した例において、ＳｏＣ１１００は中央プロセッサユニット（ＣＰＵ）ドメイン１１１０を含んでいる。一実施形態において、ＣＰＵドメイン１１１０内に複数の個々のプロセッサコアが存在し得る。一例として、ＣＰＵドメイン１１１０は、４つのマルチスレッドコアを有するクワッドコアプロセッサとし得る。そのようなプロセッサは、同種のプロセッサであってもよいし、異種のプロセッサであってもよく、例えば、低電力プロセッサコアと高電力プロセッサコアとの混ぜ合わせとし得る。

次に、グラフィックスを扱うとともにＡＰＩを計算するために、１つ以上のＧＰＵで高度なグラフィックス処理を実行するようにＧＰＵドメイン１１２０が設けられる。ＤＳＰユニット１１３０が、マルチメディア命令の実行中に生じ得る高度な計算に加えて、例えば音楽再生及びオーディオ／ビデオなどの低電力マルチメディアアプリケーションを扱うための１つ以上の低電力ＤＳＰを提供し得る。そして、通信ユニット１１４０が、例えばセルラー通信（３Ｇ／４ＧＬＴＥを含む）や、Ｂｌｕｅｔｏｏｔｈ^ＴＭ及びＩＥＥＥ８０２．１１などの無線ローカルエリアプロトコルなどの、様々な無線プロトコルを介した接続を提供する様々なコンポーネントを含み得る。

より更には、ユーザジェスチャの処理を含め、高精細度ビデオ及びオーディオコンテンツのキャプチャ及び再生を実行するために、マルチメディアプロセッサ１１５０が用いられ得る。センサユニット１１６０が、複数のセンサ、及び／又は所与のプラットフォーム内に存在する様々なオフチップセンサへのインタフェースをとるためのセンサコントローラを含み得る。静止画カメラ及びビデオカメラを含め、プラットフォームの１つ以上のカメラからのキャプチャコンテンツに関する画像処理を実行するために、画像信号プロセッサ１１７０が１つ以上の別個のＩＳＰを備え得る。

表示プロセッサ１１８０が、ディスプレイ上での再生のためにコンテンツを無線通信する能力を含め、所与のピクセル密度の高精細ディスプレイへの接続に対するサポートを提供し得る。より更には、位置特定ユニット１１９０が、複数のＧＰＳコンステレーションに対するサポートを有するＧＰＳ受信器を含み、そのようなＧＰＳ受信器を用いて得られる高精度なポジショニング情報をアプリケーションに提供し得る。理解されたいことには、図１１の例にはこの特定のコンポーネントセットを有するように示されているが、数多くの変形及び代替が可能である。

次に図１２を参照するに、それとともに実施形態が使用され得るシステムの一例のブロック図が示されている。見てとれるように、システム１２００は、スマートフォン又は他のワイヤレス通信機とし得る。ベースバンドプロセッサ１２０５が、当該システムから送信される又は当該システムによって受信される通信信号に関する様々な信号処理を実行するように構成される。そして、ベースバンドプロセッサ１２０５はアプリケーションプロセッサ１２１０に結合される。アプリケーションプロセッサ１２１０は、数多くの周知のソーシャルメディアアプリ及びマルチメディアアプリなどのユーザアプリケーションに加えて、ＯＳ及び他のシステムソフトウェアを実行するために、当該システムのメインＣＰＵとし得る。アプリケーションプロセッサ１２１０は更に、装置に関する多様な他のコンピューティング演算を実行するとともに、ここに記載される電力管理技術を実行するように構成され得る。

そして、アプリケーションプロセッサ１２１０は、例えばタッチスクリーンディスプレイといったユーザインタフェース／ディスプレイ１２２０に結合することができる。さらに、アプリケーションプロセッサ１２１０は、フラッシュメモリ１２３０とする不揮発性メモリ及びダイナミックランダムアクセスメモリ（ＤＲＡＭ）１２３５とするシステムメモリを含むメモリシステムに結合し得る。更に見てとれるように、アプリケーションプロセッサ１２１０は更に、ビデオ及び／又は静止画像を記録することができる１つ以上の画像キャプチャデバイスなどのキャプチャデバイス１２４０に結合する。

なおも図１２を参照するに、加入者識別モジュールと、場合によりセキュアストレージ及び暗号プロセッサと、を有するユニバーサル集積回路カード（ＵＩＣＣ）１２４０も、アプリケーションプロセッサ１２１０に結合されている。システム１２００は更に、アプリケーションプロセッサ１２１０に結合し得るセキュリティプロセッサ１２５０を含んでいてもよい。複数のセンサ１２２５がアプリケーションプロセッサ１２１０に結合して、例えば加速度計及び他の環境情報などの多様な検知情報の入力を可能にし得る。オーディオ出力装置１２９５が、例えば、音声通信や再生若しくはストリーミングオーディオデータといった形態で、音を出力するためのインタフェースを提供し得る。

更に図示するように、ＮＦＣアンテナ１２６５を介してＮＦＣ近距離場内で通信する近距離無線通信（ＮＦＣ）非接触インタフェース１２６０が設けられている。図１２には別個のアンテナが示されているが、理解されたいことには、一部の実装では、様々な無線機能を実現するために１つのアンテナ又は異なるアンテナセットが設けられてもよい。

プラットフォームレベルの電力管理を行うために、ＰＭＩＣ１２１５がアプリケーションプロセッサ１２１０に結合している。この目的のために、ＰＭＩＣ１２１５は、所望に応じた特定の低電力状態に入るようにアプリケーションプロセッサ１２１０に電力管理要求を発行し得る。さらに、プラットフォーム制約に基づいて、ＰＭＩＣ１２１５はまた、システム１２００の他のコンポーネントの電力レベルも制御し得る。

通信が送受信されることを可能にするために、様々な回路がベースバンドプロセッサ１２０５とアンテナ１２９０との間に結合され得る。具体的には、無線周波数（ＲＦ）トランシーバ１２７０及び無線ローカルエリアネットワーク（ＷＬＡＮ）トランシーバ１２７５が存在し得る。一般に、ＲＦトランシーバ１２７０は、例えば符号分割多元接続（ＣＤＭＡ）、グローバルシステムフォーモバイルコミュニケーション（ＧＳＭ）、ロングタームエボリューション（ＬＴＥ）、又は他のプロトコルに従ってなど、例えば３Ｇ又は４Ｇ無線通信プロトコルなどの所与の無線通信プロトコルに従って無線データ及びコールを送受信するために使用され得る。加えて、ＧＰＳセンサ１２８０が存在してもよい。例えばＡＭ／ＦＭといったラジオ信号及び他の信号の受信又は送信などの、他の無線通信も提供され得る。さらに、ＷＬＡＮトランシーバ１２７５を介して、ローカルな無線通信も実現されることができる。

次に図１３を参照するに、それとともに実施形態が使用され得るシステムの他の一例のブロック図が示されている。図１３の例示において、システム１３００は、例えばタブレットコンピュータ、２：１タブレット、ファブレット、又は他のコンバーチブルな若しくはスタンドアロンのタブレットシステムなどの、モバイル低電力システムとし得る。図示のように、ＳｏＣ１３１０が存在し、装置のアプリケーションプロセッサとして動作するとともに、ここに記載される電力管理技術を実行するように構成され得る。

多様なデバイスがＳｏＣ１３１０に結合し得る。図示の例では、メモリサブシステムが、ＳｏＣ１３１０に結合されたフラッシュメモリ１３４０及びＤＲＡＭ１３４５を含んでいる。さらに、タッチパネル１３２０がＳｏＣ１３１０に結合されて、タッチパネル１３２０のディスプレイ上に仮想キーボードを設けることを含め、表示能力及びタッチを介したユーザ入力を提供する。有線ネットワーク接続を提供するために、ＳｏＣ１３１０は、イーサネット（登録商標）インタフェース１３３０に結合している。周辺ハブ１３２５がＳｏＣ１３１０に結合されて、例えば様々なポート又は他のコネクタのいずれかによってシステム１３００に結合され得るようになど、様々な周辺装置とインタフェースをとることを可能にする。

ＳｏＣ１３１０内の内部電力管理回路及び機能に加えて、ＰＭＩＣ１３８０がＳｏＣ１３１０に結合されて、例えば、当該システムがバッテリ１３９０によって電力供給されるのは、それともＡＣアダプタ１３９５を介してＡＣ電力によって電力供給されるのかに基づいて、プラットフォームベースの電力管理を提供する。この電源ベースの電力管理に加えて、ＰＭＩＣ１３８０は更に、環境及び使用条件に基づいてプラットフォーム電力管理活動を実行し得る。より更には、ＰＭＩＣ１３８０は、ＳｏＣ１３１０内での様々な電力管理アクションを引き起こすために、制御及びステータス情報をＳｏＣ１３１０に通信し得る。

なおも図１３を参照するに、無線能力を提供するために、ＷＬＡＮユニット１３５０がＳｏＣ１３１０に結合され、ひいてはアンテナ１３５５に結合される。様々な実装において、ＷＬＡＮユニット１３５０は、１つ以上の無線プロトコルに従って通信を提供し得る。

更に例示するように、複数のセンサ１３６０がＳｏＣ１３１０に結合し得る。これらのセンサは、ユーザジェスチャセンサを含め、様々な加速度計、環境センサ、及び他のセンサを含み得る。最後に、オーディオ出力装置１３７０へのインタフェースを提供するために、オーディオコーデック１３６５がＳｏＣ１３１０に結合されている。理解されたいことには、図１３ではこの特定の実装を有するように示されているが、当然ながら、数多くの変形及び代替が可能である。

次に図１４を参照するに、例えばノートブック、Ｕｌｔｒａｂｏｏｋ^ＴＭ又は他の小型フォームファクタシステムなどの代表的なコンピュータシステムのブロック図が示されている。プロセッサ１４１０は、一実施形態において、マイクロプロセッサ、マルチコアプロセッサ、マルチスレッドプロセッサ、超低電圧プロセッサ、埋め込みプロセッサ、又は他の知られた処理要素を含む。図示した実装では、プロセッサ１４１０は、メイン処理ユニットとして、及びシステム１４００の様々なコンポーネントのうちの多くと通信する中央ハブとして機能する。一例として、プロセッサ１４００は、ＳｏＣとして実装される。

プロセッサ１４１０は、一実施形態において、システムメモリ１４１５と通信する。例示的な一例として、システムメモリ１４１５は、所与の量のシステムメモリを提供するために、複数のメモリデバイス又はモジュールにより実装される。

例えばデータ、アプリケーション、及び１つ以上のオペレーティングシステムなどの情報の永続的な保管を提供するために、大容量ストレージ１４２０もプロセッサ１４１０に結合し得る。様々な実施形態において、より薄くて軽量なシステム設計を可能にするとともに、システム応答性を改善するために、この大容量ストレージはＳＳＤにより実装されてもよく、あるいは、大容量ストレージは、システム活動の再始動時に高速パワーアップを行うことができるように、より少量のＳＳＤストレージが、電力停止イベントの間コンテキスト状態及び他のそのような情報の不揮発性記憶を可能にするＳＳＤキャッシュとして作用するようにして、主にハードディスクドライブ（ＨＤＤ）を用いて実装されてもよい。これまた図１４に示すように、フラッシュデバイス１４２２が、例えばシリアルペリフェラルインタフェース（ＳＰＩ）を介してプロセッサ１４１０に結合され得る。このフラッシュデバイスは、システムの基本入出力ソフトウェア（ＢＩＯＳ）及び他のファームウェアを含むシステムソフトウェアの不揮発性記憶を提供し得る。

様々な入力／出力（Ｉ／Ｏ）装置がシステム１４００内に存在し得る。図１４の実施形態には、タッチスクリーン１４２５を更に提供する高精細ＬＣＤ又はＬＥＤパネルとし得るディスプレイ１４２４が具体的に示されている。一実施形態において、ディスプレイ１４２４は、高性能グラフィックスインターコネクトとして実装されることができるディスプレイインターコネクトを介してプロセッサ１４１０に結合され得る。タッチスクリーン１４２５は、別のインターコネクトを介してプロセッサ１４１０に結合されてもよく、それは、一実施形態においてＩ^２Ｃインターコネクトとすることができる。図１４に更に示すように、タッチスクリーン１４２５に加えて、タッチによるユーザ入力はタッチパッド１４３０を介して行われることもできる。タッチパッド１４３０は、シャーシ内に構成されてもよく、これまた、タッチスクリーン１４２５と同じＩ^２Ｃインターコネクトに結合され得る。

知覚によるコンピューティング及び他の目的のために、様々なセンサが、システム内に存在し得るとともに、様々なやり方でプロセッサ１４１０に結合され得る。ある一定の慣性センサ及び環境センサは、例えばＩ^２Ｃインターコネクトを介してなどで、センサハブ１４４０を通じてプロセッサ１４１０に結合し得る。図１４に示した実施形態において、これらのセンサは、加速度計１４４１、周辺光センサ（ＡＬＳ）１４４２、方位計１４４３、及びジャイロスコープ１４４４を含み得る。他の環境センサは、一部の実施形態ではシステム管理バス（ＳＭＢｕｓ）を介してプロセッサ１４１０に結合する１つ以上の熱センサ１４４６を含み得る。

やはり図１４にて見てとれるように、様々な周辺装置が、ローピンカウント（ＬＰＣ）インターコネクトを介してプロセッサ１４１０に結合し得る。図示した実施形態では、様々なコンポーネントを、埋め込みコントローラ（ＥＣ）１４３５を通して結合することができる。そのようなコンポーネントは、キーボード１４３６（例えば、ＰＳ２インタフェースを介して結合される）、ファン１４３７、及び熱センサ１４３９を含むことができる。一部の実施形態において、タッチパッド１４３０はまた、ＰＳ２インタフェースを介してＥＣ１４３５に結合してもよい。さらに、トラステッドプラットフォームモジュール（ＴＰＭ）１４３８などのセキュリティプロセッサも、このＬＰＣインターコネクトを介してプロセッサ１４１０に結合し得る。

システム１４００は、無線によるものを含め、多様なやり方で外部装置と通信することができる。図１４に示した実施形態には、それらの各々が特定の無線通信プロトコル用に構成された無線機に対応し得る様々な無線モジュールが存在している。例えば近距離などの短距離における無線通信のための一手法は、ＮＦＣユニット１４４５を介してとすることができ、これは、一実施形態において、ＳＭＢｕｓを介してプロセッサ１４１０と通信し得る。なお、このＮＦＣユニット１４４５を介して、互いに近接した装置同士が通信してもよい。

図１４にて更に見てとれるように、更なる無線ユニットが、ＷＬＡＮユニット１４５０及びＢｌｕｅｔｏｏｔｈユニット１４５２を含む他の短距離無線エンジンを含むことができる。ＷＬＡＮユニット１４５０を用いてＷｉ－Ｆｉ^ＴＭ通信を実現することができる一方で、Ｂｌｕｅｔｏｏｔｈユニット１４５２を介して、短距離Ｂｌｕｅｔｏｏｔｈ^ＴＭ通信を行うことができる。これらのユニットは、所与のリンクを介してプロセッサ１４１０と通信し得る。

さらに、例えばセルラー式又は他の無線広域プロトコルに従った無線広域通信を、ＷＷＡＮユニット１４５６を介して行うことができ、そして、ＷＷＡＮユニット１４５６は、加入者識別モジュール（ＳＩＭ）１４５７に結合し得る。加えて、位置情報の受信及び使用を可能にするために、ＧＰＳモジュール１４５５も存在し得る。なお、図１４に示した実施形態では、ＷＷＡＮユニット１４５６と、例えばカメラモジュール１４５４などの集積キャプチャデバイスとが、所与のリンクを介して通信し得る。

集積カメラモジュール１４５４は、蓋に組み込まれることができる。オーディオ入力及び出力を提供するために、デジタル信号プロセッサ（ＤＳＰ）１４６０によりオーディオプロセッサを実装することができ、これは、ハイレゾリューションオーディオ（ＨＤＡ）リンクを介してプロセッサ１４１０に結合し得る。同様に、ＤＳＰ１４６０は、集積されたコーダ／デコーダ（ＣＯＤＥＣ）及び増幅器１４６２と通信することができ、そして、それは、シャーシ内に実装され得る出力スピーカ１４６３に結合し得る。同様に、増幅器及びＣＯＤＥＣ１４６２は、マイクロフォン１４６５からのオーディオ入力を受信するように結合されることができ、マイクロフォン１４６５は、一実施形態において、デュアルアレイマイクロフォン（例えば、デジタルマイクロフォンアレイなど）により実装されることができ、高品質のオーディオ入力を提供して、システム内の様々な動作の音声作動制御を可能にする。なお、また、オーディオ出力は、増幅器／ＣＯＤＥＣ１４６２からヘッドフォンジャック１４６４に提供されることができる。図１４の実施形態ではこれらの特定のコンポーネントを有するように示されているが、理解されたいことには、本発明の範囲は、これに関して限定されるものではない。

実施形態は、数多くの異なるシステムタイプで実施され得る。次に図１５を参照するに、本発明の一実施形態に従ったシステムのブロック図が示されている。図１５に示すように、マルチプロセッサシステム１５００は、ポイント・ツー・ポイント相互接続システムであり、ポイント・ツー・ポイントインターコネクト１５５０を介して結合された第１のプロセッサ１５７０及び第２のプロセッサ１５８０を含んでいる。図１５に示すように、プロセッサ１５７０及び１５８０の各々は、第１及び第２のプロセッサコア（すなわち、プロセッサ１５７４ａ及び１５７４ｂ、並びにプロセッサコア１５８４ａ及び１５８４ｂ）を含むマルチコアプロセッサとし得るが、可能性として、当該プロセッサ内にはもっと多くのコアが存在し得る。さらに、プロセッサ１５７０及び１５８０の各々はまた、グラフィックス演算を実行するグラフィックスプロセッサユニット（ＧＰＵ）１５７３、１５８３を含み得る。そして、例えばコアとＧＰＵとの間での所与のワークロードに対する処理レベルの優先順位に関してなどの、ソフトウェア提供されるヒント情報を用いて、ここに記載されるような動的な最大電流の決定及び制御が実行され得る。この目的のために、プロセッサの各々が、ここに記載されるように、ソフトウェアによって提供されるヒント情報に少なくとも部分的に基づいて各コア及びＧＰＵに対して個別に最大電流消費レベルを動的決定する動的電流を含め、プロセッサベースの電力管理を実行するＰＣＵ１５７５、１５８５を含むことができる。

なおも図１５を参照するに、第１のプロセッサ１５７０は更に、メモリコントローラハブ（ＭＣＨ）１５７２と、ポイント・ツー・ポイント（Ｐ－Ｐ）インタフェース１５７６及び１５７８とを含んでいる。同様に、第２のプロセッサ１５８０は、ＭＣＨ１５８２と、Ｐ－Ｐインタフェース１５８６及び１５８８とを含んでいる。図１５に示すように、ＭＣＨの１５７２及び１５８２は、プロセッサを、それぞれのプロセッサにローカルに取り付けられるシステムメモリの部分とし得るものであるメモリ１５３２及びメモリ１５３４というそれぞれのメモリに結合する。第１のプロセッサ１５７０及び第２のプロセッサ１５８０は、それぞれ、Ｐ－Ｐインターコネクト１５６２及び１５６４を介してチップセット１５９０に結合され得る。図１５に示すように、チップセット１５９０は、Ｐ－Ｐインタフェース１５９４及び１５９８を含んでいる。

さらに、チップセット１５９０は、Ｐ－Ｐインターコネクト１５３９によってチップセット１５９０を高性能グラフィックスエンジン１５３８と結合するインタフェース１５９２を含んでいる。そして、チップセット１５９０は、インタフェース１５９６を介して第１のバス１５１６に結合され得る。図１５に示すように、第１のバス１５１６には、第１のバス１５１６を第２のバス１５２０に結合するバスブリッジ１５１８と共に、様々な入力／出力（Ｉ／Ｏ）装置１５１４が結合され得る。第２のバス１５２０には、一実施形態において、例えば、キーボード／マウス１５２２、通信装置１５２６、及びコード１５３０を含み得る例えばディスクドライブ若しくは他の大容量ストレージなどのデータストレージユニット１５２８を含む、様々な装置が結合され得る。さらに、オーディオＩ／Ｏ１５２４が第２のバス１５２０に結合されてもよい。実施形態は、例えばスマートセルラー電話、タブレットコンピュータ、ネットブック、又はＵｌｔｒａｂｏｏｋ^ＴＭなどのモバイル装置を含め、他のタイプのシステムに組み込まれることができる。

図１６は、一実施形態に従った動作を実行する集積回路を製造するために使用され得るＩＰコア開発システム１６００を示すブロック図である。ＩＰコア開発システム１６００は、より大きな設計に組み込まれることが可能な、又は集積回路（例えば、ＳｏＣ集積回路）全体を構築するために使用されることが可能な、モジュール式の再利用可能な設計を生成するために使用され得る。設計設備１６３０は、高水準プログラミング言語（例えば、Ｃ／Ｃ＋＋）にてＩＰコア設計のソフトウェアシミュレーション１６１０を生成することができる。ソフトウェアシミュレーション１６１０は、ＩＰコアの挙動を設計、テスト、及び検証するために使用されることができる。次いで、シミュレーションモデル１６１２から、レジスタ転送レベル（ＲＴＬ）設計を作成又は合成することができる。ＲＴＬ設計１６１５は、ハードウェアレジスタ間でのデジタル信号の流れをモデル化する集積回路の挙動の抽象概念であり、モデル化されたデジタル信号を用いて実行される関連ロジックを含む。ＲＴＬ設計１６１５に加えて、論理レベル又はトランジスタレベルでのより低レベル設計も、作成、設計、又は合成され得る。従って、初期設計及びシミュレーションの特定の詳細は様々であり得る。

ＲＴＬ設計１６１５又はそれと同等なものは、設計設備によってさらに、ハードウェア記述言語（ＨＤＬ）、又は物理設計データの何らかの他の表現、とし得るものであるハードウェアモデル１６２０へと合成され得る。ＨＤＬは、ＩＰコア設計を検証するために更にシミュレーション又はテストされ得る。ＩＰコア設計は、第三者の製造設備１６６５への送達のために、不揮発性メモリ１６４０（例えば、ハードディスク、フラッシュメモリ、又は任意の不揮発性記憶媒体）を使用して格納されることができる。それに代えて、ＩＰコア設計は、有線接続１６５０又は無線接続１６６０上で（例えば、インターネットを介して）伝送されてもよい。そして、製造設備１６６５は、少なくとも部分的にＩＰコア設計に基づく集積回路を製造することができる。製造される集積回路は、ここに記載される少なくとも１つの実施形態に従った動作を行うように構成されることができる。

次に図１７を参照するに、本発明の一実施形態に従ったコンピューティングシステムのブロック図が示されている。図１７に示すように、
次に図１７を参照するに、本発明の一実施形態に従ったコンピューティングシステムのブロック図が示されている。図１７に示すように、システム１７００は、例えばスマートフォン又はタブレットコンピュータなどの小型のポータブル装置から、ラップトップコンピュータ、デスクトップコンピュータ、及びサーバコンピュータなどを含む、より大型の装置まで及び如何なるタイプのコンピューティングシステムであってもよい。

いずれにせよ、図１７に示すハイレベルにおいて、システム１７００は、マルチコアプロセッサ又は任意の他のタイプのＳｏＣとして実装され得るシステム・オン・チップ（ＳｏＣ）１７１０を含む。ＳｏＣ１７１０内に、複数のインテレクチュアルプロパティ（ＩＰ）回路１７２０_０－１７２０_２が含まれる。実施形態において、各ＩＰ回路１７２０は、処理コア、グラフィックスプロセッサ、又は例えば特殊化された処理ユニット及び固定機能ユニットなどの任意の他のタイプのホモジニアス若しくはヘテロジニアス処理回路とし得る。特定の一実施形態において、ＩＰ回路１７２０_０、１７２０_１は汎用の処理コアであり、ＩＰ回路１７２０_２はグラフィックスプロセッサであると仮定し、グラフィックスプロセッサは、一部のケースにおいて、複数の個別のグラフィックス処理ユニットで形成され得る。

ＳｏＣ１７１０内で実行される具体的なワークロードに依存して、特定の処理回路が、他のものよりも、そのワークロードに対して重要であることがある。従って、ここでの実施形態では、実行のためにワークロードを提供し得るものであるソフトウェア１７４０から受信したヒント情報に少なくとも部分的に基づいて、複数の異なるＩＰ回路に制御可能な量の電流消費を許すことができる。このワークロードを提供することにより、ソフトウェア１７４０は、ワークロードの性質並びに異なるＩＰ回路の重要性及びおそらくは相対的な電流消費について、事前の、より深い理解を有する。従って、実施形態は、ソフトウェア１７４０から電力制御ユニット（ＰＣＵ）１７３０に、ランタイムでの発見的手法に基づく電流消費情報を提供するためのインタフェース１７４５を含む。

様々な実施形態において、ＰＣＵ１７３０は、専用ハードウェア回路、複数のコアのうちの１つ、マイクロコントローラ、又は何らかの他のハードウェア回路として実装され得る。図示した実施形態において、ＰＣＵ１７３０は、複数の構成（コンフィギュレーション）レジスタ１７３６_０－１７３６_２を含んでいる。実施形態において、所与の構成レジスタ１７３６が、対応するＩＰ回路１７２０に関連付けられて、対応するＩＰ回路についてソフトウェア１７４０から受信した電流スロットル情報を格納し得る。なお、この情報は、異なる実施形態では異なる形態をとってもよい。一部のケースにおいて、このような情報は、優先度情報に基づくことができ、各ＩＰ回路について、例えばパーセンテージ単位での相対的な優先度レベルを含み得る。他のケースにおいて、ソフトウェア１７４０は、スロットリング状況においてＩＰ回路に強いられる実際の最大電流値を提供してもよい。更なる他の実施形態において、この情報は他の形態をとってもよい。

なおも図１７を参照するに、ＰＣＵ１７３０は更に、動的電流共有制御回路１７３５を含んでいる。ここでの実施形態において、動的電流共有制御回路１７３５は、構成レジスタ１７３６に格納された情報に少なくとも部分的に基づいて、個々のＩＰ回路ごとの分解された最大電流値を決定し得る。さらに、制御回路１７３５は、例としてリーク情報、プロセスバラつき情報、及び電圧／周波数カーブなどを含むダイ固有の情報に更に基づいて、これら分解された最大電流値を決定してもよい。斯くして、動的電流共有制御回路１７３５は、そのような情報に基づいて、ソフトウェア１７４０によって書き込まれた値を更新して、分解された値を生成することができ、それらの値からスロットリング制御値が決定され得る。これらのスロットリング制御値は、対応するＩＰ回路１７２０に送信され得る。図１７に示すように、処理回路１７２０は各々、対応するスロットリング制御値を格納する構成（コンフィギュレーション）ストレージ１７１２を含んでいる。なお、スロットリング制御値それ自体は、異なる実施形態では異なる形態をとり得る。一部のケースにおいて、このスロットリング制御値はデューティサイクル値として実装され得る。他のケースにおいて、スロットリング制御値は、ＩＰ回路に対する許容最大電流消費又は許容最大動作周波数などであってもよい。ここに記載されるように、ＩＰ回路１７２０は、構成ストレージ１７１２に格納されたこのスロットリング制御値に少なくとも部分的に基づいて、スロットリング状況におけるそれ自身の動作を動的に制御することができる。

なお、図１７の例示では更に、ＳｏＣ１７２０に対して外部にある電圧レギュレータ１７５０が存在している。電圧レギュレータ（ＶＲ）１７５０は、図１７に示すＩＰ回路１７１２_０－１７１２_２の全てとＳｏＣ１７１０の他の回路とに電力を供給し得る。しかしながら、理解されたいことには、他のケースにおいて、実施形態にて実現される制御及び電流共有は、電圧レールごとをベースにして行われてもよい。すなわち、各々がプロセッサの１つ以上のＩＰ回路及び他のロジックに結合された複数の独立した電圧レールによって電力を供給する電圧レギュレータ１７５０又は追加の電圧レギュレータが存在してもよい。そのようなケースでは、動的電流共有制御回路１７３５は、所与の電圧レールに結合されたＩＰ回路の集合ごとに電流共有スロットリング制御値を動的に決定し得る。

なおも図１７を参照し、ＩＰ回路１７２０（ここではＩＰ１－ＩＰ３としても参照する）が、それぞれ、最大IP1.iccmax、Ip2.iccmax、及びIP3.iccmaxなる最大電流を引き出す実装を仮定する。また、ＶＲ１７５０がVR1.iccmaxなる合計最大電流を提供することができると仮定する。例えばＶＲ１７５０などの高電流ＶＲにおいて、VR1.iccmax＜IP1.iccmax＋IP2.iccmax＋IP3.iccmaxである。このアンダーサイズ化は、ＶＲのコストを制限するために行われる。正確さを確保するために、ＰＣＵ１７３０は、電圧レギュレータ１７５０の最大電流能力がまさに超えられようとしていることを検出したときに、スロットリングをトリガーし得る。このようなスロットリングは、実際に設定された最大電流能力よりも幾分低い閾値に基づいて、先を見越して実行され得る。理解されたいことには、異なる実装が可能であるものの、一実施形態において、スロットリングは、あるデューティサイクルでＩＰクロックをゲーティングすることによって実装されることができる。このようなスキームのデューティサイクルは、ＰＣＵ１７３０によって設定されることができる。

一実施形態において、ＰＣＵ１７３０は、ｉｃｃｍａｘ違反が検出されたときにその値にＩＰ回路がスロットリングされるべきであるという特定のｉｃｃｍａｘ値、すなわち、IP0_ICCMAX_WHEN_THROTTLED、IP1_ICCMAX_WHEN_THROTTLED、IP2_ICCMAX_WHEN_THROTTLEDを、インタフェース１７４５により受信することができ、値が構成レジスタ１７３６に格納される。ソフトウェアは、ランタイムでの発見的手法に基づいてこれらの値を投入することができ、また、ここで書き込まれる電流がVR1.iccmax値より大きくないことを保証することができる。

次に、ＰＣＵ１７３０、より具体的には、動的電流共有制御回路１７３５は、ダイ固有の情報（例えば、リーク、プロセスバラつき、Ｖ／Ｆカーブ）を用いて、ソフトウェアによって書き込まれた値を更新し得る。この例では、ＰＣＵ１７３０が、ソフトウェア入力及びダイ固有情報を考慮して、RESOLVED_IP0_ICCMAX_WHEN_THROTTLED、RESOLVED_IP1_ICCMAX_WHEN_THROTTLED、及びRESOLVED_IP2_ICCMAX_WHEN_THEROTTLEDなる分解された値を決定すると仮定する。そして、動的電流共有制御回路１７３５は、これら最終的な分解された値及び設定された最大電流値（ｉｃｃｍａｘ）に基づいて、ＩＰ回路をスロットリングするためのデューティサイクル値を計算し得る。このケースでのデューティサイクルは、duty_cycle_ip_n＝RESOLVED_IPn_ICCMAX_WHEN_THROTTLED/IPN.iccmaxとして計算されることができる。ＩＰ０の場合、これは、duty_cycle_ip_0＝RESOLVED_IP0_ICCMAX_WHEN_THROTTLED/IP0.iccmaxとなる。

ＰＣＵ１７３０は、次いで、構成レジスタ１７１２内にスロットリングのためのデューティサイクルをプログラムすることができる。プラットフォーム／ＳｏＣレベルの発見的手法に応じて、IP_N_ICCMAX_WHEN_THROTTLED値を変更して、最適なランタイム挙動を得ることができる。

特定の一例として、ＩＰ回路１７２０_２がグラフィックプロセッサであり、且つＩＰ回路１７２０_０、１７２０_１が汎用プロセッサであるとして、グラフィックス集約的なワークロードを仮定する。この構成において、グラフィックスドライバが、グラフィックスプロセッサ（及びインターコネクト回路）がそれらの最大設定電流消費を提供されるべきである一方で、コアをスロットリングすることができることを指し示すヒント情報を、インタフェース１７４５を介して提供し得る。この目的のために、グラフィックスドライバは、グラフィックスプロセッサ及びインターコネクトに対して設定された最大電流消費値を提供することができ、残りの電流割当量をコアに割り当てることができる。斯くして、最大電流消費限界に達するときに、コアはスロットリングされ得るが、グラフィックスプロセッサ及びインターコネクトは制約なしで動作し続けることができ、グラフィックスワークロードを改善する。

コア計算集約的なワークロードを持つ他の一ケースでは、コア及びインターコネクトに対して最大電流消費値を割り当て、残りの電流消費割当量をグラフィックスプロセッサに割り当てることによって、反対の挙動を起こすことができる。斯くして、電力スパイクが確認されたときに、グラフィックスプロセッサはスロットリングされ得るが、コア及びインターコネクトはなおも制約なしで動作することができ、コアベースのワークロードを改善する。一実施形態において、ソフトウェアは、利用情報を利用して、コア拘束ワークロード又はグラフィックス拘束ワークロードを特定し得る。理解されたいことには、図１７の実施形態ではこのハイレベルで示されているが、数多くの変形及び代替が可能である。

次に図１８を参照するに、本発明の一実施形態に従った方法のフロー図が示されている。図１８に示すように、方法１８００は、実行されているワークロードに関するソフトウェアベースの情報に少なくとも部分的に基づいて複数のＩＰ回路間で動的な電流共有を実行する方法である。より具体的には、方法１８００は、実行されるワークロードを有するソフトウェアを含む様々なエージェントと、ハードウェアベースの電力コントローラ及びワークロードの少なくとも一部がその上で実行され得る１つ以上のＩＰ回路を含む対応するとの間で協調して実行され得る。従って、方法１８００は、ハードウェア回路、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせによって実行され得る。

図示さのように、方法１８００において、ソフトウェアエージェント１８１０が、実行するワークロードを持ち得るとともに、発見的手法に基づいて、各ＩＰ回路についてのＩＰ回路ごとの最大電流割当量（及び／又は最大電流優先度）を決定（ブロック１８１５）し得る。図示のように、ソフトウェア１８１０は、この情報を、インタフェースを介して電力コントローラ１８２０に提供することができ、電力コントローラ１８２０が、この情報を、対応する構成レジスタすなわち電流スロットリング構成レジスタに格納し得る。次に、ＰＣＵ１８２０、より具体的には、動的電流共有制御回路１８３０が、この情報を読み取り、この情報並びにダイのパラメータ及び特徴に基づいて、ＩＰ回路ごとの最大電流割当量を決定し得る。電力コントローラ１８２０は、次いで、この情報を、ＩＰ回路１８４０の対応する構成レジスタをプログラムするために送信し得る。そして、ワークロードの操作中に、電力コントローラ１８２０が先を見越して最大電流状況を確認すると、電力コントローラ１８２０はスロットリング信号をＩＰ回路１８４０に送信する。次に、ＩＰ回路１８４０が、その構成レジスタにて特定される最大電流割当量の中にとどまるように動作をスロットリングし得る。理解されたいことには、図１８の実施形態ではこのハイレベルで示されているが、数多くの変形及び代替が可能である。

次に図１９を参照するに、本発明の一実施形態に従った方法のフロー図が示されている。図１９に示すように、方法１９００は、電力コントローラと、実行されるワークロードの事前知識を持つソフトウェアエンティティとの間でインタフェースをとる方法である。図１９の方法１９００は、電力コントローラの視点からのものであり、そのようなものとして、方法１９００は、ハードウェア回路、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせによって実行され得る。

図１９に示すように、方法１９００は、ワークロードに関する電流スロットルヒント情報を受信することによって開始する（ブロック１９１０）。より具体的には、電力コントローラは、このヒント情報を、インタフェースを介してソフトウェアエンティティから受信し得る。異なる実施形態が可能であるが、一実施形態において、インタフェースは、ソフトウェアエンティティが書き込み得る電力コントローラのメールボックスインタフェースとし得る。他の一実施形態において、ソフトウェアエンティティは、この電流スロットルヒント情報を提供するために、例えばマシン固有レジスタ（ＭＳＲ）への書き込み動作などの構成レジスタ書き込みを実行し得る。なお、電流スロットルヒント情報は、例えばパーセンテージの形態などの、複数の異なる処理回路についての優先情報を含め、様々な形態をとり得る。

ブロック１９２０にて、電力コントローラは、この電流スロットルヒント情報を電力コントローラの構成レジスタのセットに格納する。次にブロック１９３０にて、電力コントローラは、複数の処理回路についての分解されたスロットル値を決定し得る。より具体的には、これらの分解されたスロットル値は、電流スロットルヒント情報と、例えば電圧／周波数カーブなどのダイベースのパラメータ及び動作の特徴を含め、プロセッサの様々なパラメータとに基づき得る。一部のケースにおいて、電力コントローラは、構成レジスタ内に存在する電流スロットルヒント情報を、これらの分解されたスロットル値で上書きし得る。他のケースにおいて、分解されたスロットル値は、別の位置に格納されてもよい。

いずれにせよ、次に制御はブロック１９４０へと進み、そこで、各処理回路についての動的最大電流割当量が計算され得る。このような計算される電流割当量は、所与の処理回路についての分解されたスロットル値と、プロセッサに対して設定された最大電流割当量とに基づき得る。この目的のために、電力コントローラは、各処理回路についての最大電流割当量を格納する別セットの構成レジスタを含んだり、それに関連付けられたりしてもよい。なお、この設定された最大電流情報は、例えば所与のファームウェアによってなどで、プリブート環境中に格納され得る。

なおも図１９を参照するに、ブロック１９５０にて、動的最大電流割当量を処理回路に送ることができる。理解されたいことには、所与の動的最大電流割当量の受信に応答して、処理回路は、そのような値を構成レジスタに格納することができ、そして、スロットル条件が確認されたときに、この動的最大電流割当量以下に維持されるように動作を制御することができる。なお、これらの動的最大電流割当量は、スロットルイベントの間のみ意味を持つ。すなわち、所与の処理回路は、通常動作中にはそのプログラムされた最大電流割当量を超えることが許され得るが、スロットリング状態の間は制限に従う。

なおも図１９を参照するに、プロセッサの通常動作中、電力コントローラは、種々のテレメトリ（遠隔測定）情報又はセンサ情報を受信してもよい。具体的には、ブロック１９６０に示すように、このような情報は、プロセッサの電圧、電流、電力、及び熱状態を捉え得る。その電力制御動作の一部として、電力コントローラは、菱形ブロック１９７０にて、プロセッサの合計電流消費が所与の閾値を超えているかを判定し得る。なお、この閾値は、先を見越した電流消費の制御を行い得るよう、プロセッサに対して設定された最大電流消費よりも低い値に設定されて得る。

合計電流がこの閾値を超えていると判定された場合、制御はブロック１９８０へと進み、そこで、スロットル信号が処理回路に送信され得る。このスロットル信号の受信に応答して、処理回路は、それらの電流消費が動的最大電流割当量を超えないことを確保するように自身の動作を制御し得る。斯くして、スロットル条件が確認されたときであっても、処理回路の各々が、独立した動的制御可能な電流消費レベルで動作することができ、ワークロード実行を改善し得る。何故なら、所与の処理回路の相対的な優先度に基づいて動的に電流消費レベルを独立制御することにより、特定のワークロードに対して肝要な処理回路は、そのようなワークロードの実行中に、全く又は最小限しかスロットリングされないことができ、あるいは、他の（あまり肝要ではない）処理回路よりも少ししかスロットリングされないことができるからである。理解されたいことには、図１９の実施形態ではこのハイレベルで示されているが、数多くの変形及び代替が可能である。

次に図２０を参照するに、本発明の他の一実施形態に従った方法のフロー図が示されている。図２０に示すように、方法２０００は、動的電流割当量に基づいて処理回路内の電流消費を動的に制御する方法である。そのようなものとして、方法２０００は、例えば処理コア、グラフィックスプロセッサ、若しくは他の処理回路などのハードウェア回路、又はそのような回路上で実行されるファームウェア、ソフトウェア、及び／又はそれらの組み合わせによって実行され得る。

方法２０００は、電力コントローラから動的電流割当量を受信することによって開始する（ブロック２０１０）。なお、この動的電流割当量は、ここに記載されるようなデューティサイクル情報の形態を含め、様々な実施形態において異なる形態をとり得る。その形態にかかわらず、ブロック２０２０にて、処理回路は、この動的電流割当量を最大電流構成レジスタに格納する。その後、処理回路は、設定された性能状態で動作を開始（又は継続）し得る（ブロック２０３０）。例えば、処理回路は、電力コントローラ又は他の制御回路の制御下で、所与の動作周波数及び動作電圧を有する性能状態で動作するように設定され得る。この設定された性能状態での動作中に、菱形ブロック２０４０にて、スロットル信号が電力コントローラから受信されたかが判定され得る。

この状態において、制御はブロック２０５０へと進み、そこで、処理回路はその動作をスロットリングすることができる。より具体的には、処理回路は、その電流消費を動的電流割当量以下に維持するように、その動作を制御し得る。一部のケースにおいて、処理回路は、この電流消費維持を達成するために動作パラメータ変更を決定し得る内部電力制御ロジックを含み得る。一例として、処理回路は、動作が遅くなるように、幾つかのクロック信号をスカッシュすることによって動作をスロットリングしてもよく、その結果、設定された動作周波数ではなく、スカッシュされたクロックで動作することによって電流消費が低減される。例えば、一つおきのクロックサイクルがスカッシュされてもよいし、あるいは、他のデューティサイクル制御又はクロックサイクルの減少が行われてもよい。

なお、他の処理回路がそれらのフル電流消費レベルを消費しない特定の状況において、処理回路が電力コントローラから便宜的な電流割当量を受け取ってもよい。従って、菱形ブロック２０６０にて、便宜的電流割当量が受け取られているかが判定される。受け取られていない場合、処理回路は、（菱形ブロック２０８０で判定されるように）スロットル信号の解除を受信するまで、スロットル状態で動作し続け得る。

そうでなく、便宜的電流割当量が受け取られている場合、制御はブロック２０７０へと進み、そこで、処理回路はその動作を上昇させ得る。例えば、処理回路は、クロックスカッシングを終了して、便宜的電流割当量を消費し得る。理解されたいことには、図１９の実施形態ではこのハイレベルで示されているが、数多くの変形及び代替が可能である。

一部の状況において、一部のコア又は他の処理回路は、高い電流消費で動作し得る。全てのコア又は他の処理回路に、パッケージ全体の電流割当量のうちの等量ずつが割り当てられる構成では、内部での又はローカルでの制御動作を介して、割り当てられた電流制限より上で動作する如何なるコアもスロットリングされるので、性能損失が内在し得る。さらには同時に、１つ以上の他のコア又は処理回路は自身に割り当てられた電流限界より下のレベルで動作しており、未使用の電流ヘッドルームが残される。

この懸念を回避するために、実施形態は、制約付き電力送達ソリューションを有するプラットフォーム内で性能最適化を提供し得る。この目的のために、実施形態は、パッケージに対する全体の電流制限を超えない限りにおいて、１つ以上のコア又は他の処理回路が自身の個々の閾値レベルを超えることが許されるような、グローバル電流制御を伴う制御技術を実装してもよい。斯くして、実施形態は、プロセッサ全体が制限内での動作を維持しながら、一部のコア又は他の処理回路が（設定されたものよりも）いっそう高い電流消費レベルで動作し得るので、性能を高めることができる。

この目的のために、実施形態は、実際の電流消費の高速測定を提供するよう、負荷側（例えば、集積された電圧レギュレータ内に実施される）で高速電流センシングを実行し得る。この電流消費の測定値は、デジタル出力として、集積電圧レギュレータから出力され得る。次に、複数の電圧レギュレータからの個々の電流値が合計され得る。この合計値が、次に、デジタルフィルタリングにかけられ得る。次に、結果として得られた、フィルタリングされた値が、閾値と比較される。このフィルタリングされた値によって表される全体の電流消費がこの閾値よりも小さいと仮定すると、スロットリングは行われないとし得る。フィルタリングされた値によって表される全体の電流消費が閾値を超える場合には、１つ以上のドメインが制限内に留まるようにスロットリングされ得る。なお、このスロットリングは、ここに記載されるように、各ドメインの実際の電流消費及びその個々の設定された制限に基づいて、各ドメインにおいて独立に、行われることができる（行われないことができる）。そして、更に上述したように、各ドメインが、例えばクロックスカッシング又はその他の方法で動作周波数若しくは動作電圧などを制御するなど、異なるスロットル動作を実行してもよい。

実施形態では、詳細なモデルを維持管理することなく、実際の電流消費が検出され得る。結果として、複数のドメインがスケーリングされ得るとともに、不必要なスロットリングを最小限に抑えるように時定数が適応され得る。より更には、実施形態は、このような性能最適化を、システムの如何なるランタイム適応も用いずに可能にする。さらに、ここに記載されるように、実施形態は、電流を電力に変換し、複数の電圧レギュレータの寄与の結果を合計することによって、複数の外部電圧レギュレータに拡張され得る。実施形態はまた、例えば、最小動作電圧性能を改善するための共振周波数にあるエネルギーの抑圧などの、より複雑な電力送達制限のために使用され得る。

次に図２１を参照するに、本発明の一実施形態に従ったプロセッサのブロック図が示されている。図２１に示すように、プロセッサ２１００は、複数のコア２１１０_０－２１１０_ｎを含むマルチコアプロセッサである。グラフィックスエンジン２１１５を含め、追加の処理エンジンが存在し得る。例えばリングインターコネクトなどのインターコネクト２１２０が存在し、コア２１１０及び他のコンポーネントと共に結合するために使用され得る。図２１の実施形態に示すように、これらのドメインは各々、所与の集積電圧レギュレータ２１３０_０－２１３０_ｘから電力を受け取り得る。これらのドメインによって提示される負荷に基づいて、電圧レギュレータ２１３０は、（高速（例えば、４００ＭＨｚ）に動作する回路を使用して）リアルタイムデジタル電流を測定し得る。次に、各集積電圧レギュレータ２１３０がデジタル電流値を加算回路２１４０に提供し、加算回路２１４０がこれらの値を合計電流値へと足し合わせる。なお、一部の実施形態において、加算回路２１４０は、分散方式で実装されてもよい。

なおも図２１を参照するに、この合計電流値が電流コントローラ２１５０に提供される。異なる実施形態において、コントローラ２１５０は、プロセッサのコア２１１０及び電力コントローラ（図２１では図示の容易さのために示していない）のどちらからも別個の専用回路として実装されてもよい。他のケースにおいて、コントローラ２１５０は電力コントローラ内に実装されてもよい。いずれにしても、図示のように、コントローラ２１５０は、受信した合計電流値をフィルタ２１５５に提供する。フィルタ２１５５は、一実施形態において、この合計電流値のデジタルフィルタリングを実行するローパスフィルタとして実装され得る。このフィルタ操作は、ウィンドウストレージ２１５８に記憶された平均時間ウィンドウに従って実行され得る。一実施形態において、この時間値は、ローパスフィルタ２１５５に、２０ナノ秒のローパスフィルタとして動作させる。フィルタリングされた電流値が、閾値ストレージ２１６２に記憶された閾電流値との比較を実行するものであるデジタル比較器２１６０に提供される。フィルタリングされた測定電流値が閾値を超えていると判定された場合、スロットル状況が、斯くして確認されたことになり、スロットルウィンドウストレージ２１８０によって提供されるスロットルウィンドウ期間に従って様々なドメインにスロットル信号を発行し得るものであるパルス延長回路２１７０に通信される。他のケースにおいて、共振周波数帯域内のエネルギーを低減させるために、ローパスフィルタがバンドパスフィルタで置き換えられ得る。

実施形態において、パルス延長回路２１７０は、制御機構のリンギング又はヒステリシスを低減させるように構成され得る。すなわち、パルス延長回路２１７０は、スロットルイベントの検出（フィルタリングされた測定電流値が閾値を超えるときに特定される）に続く所与のスロットルウィンドウ期間にわたって、スロットル信号をアクティブにさせ得る。このイベントに従ってスロットリングが開始された後に（１つ以上のコア又は他の処理回路においてスロットル動作が起こることの結果として）測定電流が閾値を下回ったときであっても、パルス延長回路２１７０は、ヒステリシス又はリンギングを回避するために、少なくともスロットルウィンドウ期間の長さにわたって、アクティブなスロットル信号を維持する。異なる実施形態において、このスロットルウィンドウ期間の長さはプログラム可能であってもよく、一部の実施形態において、パルス延長回路２１７０は、オプションのコンポーネントであってもよい。すなわち、他のケースでは、ヒステリシス又は他の制御スキームがスロットル信号に適用されてもよい。理解されたいことには、図２１の実施形態ではこのハイレベルで示されているが、数多くの変形及び代替が可能である。

上述のように、図２１においてのような電流コントローラの複数のインスタンスが、複数の電圧レギュレータの各々に提供され、そして、それら複数のインスタンスが電力コントローラに結合され得る。そのような電力コントローラは、複数の電圧レギュレータに電力を供給する電源のための電力制御を実行し得る。すなわち、所与のコンピューティングプラットフォームにおいて、例えばマザーボード上に存在する複数の電圧レギュレータなどの複数の外部電圧レギュレータに電力供給する単一の電源が存在してもよく、それら電圧レギュレータの各々が、オンチップ及びオフチップのコンポーネントによって使用される所与のレギュレートされた電圧を提供する。上での説明と同様に、これら個々の電圧レギュレータは、これらの電圧レギュレータのうちの１つ以上の他のものが低めのレベルで実行を行っているときに、高めのレベルで動作することが可能である。何故なら、これらの電圧レギュレータの全てが自身の個別の閾値レベルを超えるわけではないと仮定すると、これら個々の電圧レギュレータに電力を供給する単一の電源で、そうするのに十分な能力を有するからである。

次に図２２を参照するに、本発明の他の一実施形態に従った制御構成のブロック図が示されている。図２２に示すように、複数の電流コントローラ２２５０が設けられ、各々が所定の電圧レギュレータに関連付けられる。より具体的には、図示のように、第１の電流コントローラ２２５０_１が、第１の電圧レベル（例えば、Ｖ_ＣＣ）を提供する第１の電圧レギュレータ（図示せず）に関連付けられ、第２の電流コントローラ２２５０_２が、第２の（例えば、補助）電圧レベル（例えば、Ｖ_Ａｕｘ）を提供する第２の電圧レギュレータ（図示せず）に関連付けられる。なお、コントローラ２２５０は、対応するローパスフィルタ２２５２、デジタル比較器２２５４、及びダウンサンプラ２２５６を含むようにハイレベルで示されているが、理解されたいことには、これらのコントローラは、図２１に示したように構成されてもよい。なお、ダウンサンプラ２２５６は、一部の実施形態においてオプションとし得る。ハイレベルにおいて、受信した測定電流が閾値レベルを超えているとき、上で説明したように、この電圧レギュレータによって電力供給される個々のドメインに、対応するスロットル信号が提供される。

さらに、電流コントローラ２２５０は、ダウンサンプラ２２５６により、測定された電流消費のダウンサンプリングを実行し、代わってそれが電力コントローラ２２６０に提供される。電力コントローラ２２６０は、専用回路として実装されてもよいし、プロセッサの電力コントローラ内に実装されてもよい。いずれにしても、電力コントローラ２２６０は、電流－電力変換を行うものであるコンバータ２２６５_１－２２６５_２を介して、複数の入力デジタル電流値を電力値に変換する。コンバータ２２６５_１－２２６５_２は、所与の電圧レギュレータによって送達される電圧（すなわち、レギュレートされた電圧から送達損失（例えば、Ｉ_１Ｒ_１）を指し引いたもの）による乗算演算を介して、電流－電力変換を実行して、デジタル電力値を、該デジタル電力値を合計するものである加算器２２７０に提供する。なお、他の実施形態において、電力コントローラ２２６０は、電流コントローラ２２５０を含むことなく直接的に電流値を受信してもよい。

次に、この合計された電力値が、ウィンドウストレージ２２７６に記憶された平均時間ウィンドウに従った、より長い時間ウィンドウ期間で動作し得るものであるローパスフィルタ２２７５に提供される。次に、このフィルタリングされた電力値がデジタル比較器２２８０に提供され、デジタル比較器２２８０が、それを、閾値ストレージ２２８２から受け取った閾値と比較する。デジタル比較器２２８０にて、フィルタリングされた測定電力値が閾値を超えていると判定されたとき、スロットルイベントが指し示されたことになり、パルス延長回路２２９０に通信される。一般に、パルス延長回路２２９０は、スロットルウィンドウストレージ２２９５に記憶された値に従った異なるスロットルウィンドウ期間であるものの、上述のパルス延長回路２１７０と同じように動作し得る。従って、パルス延長回路２２９０は、デジタル比較器２２８０の比較出力に少なくとも部分的に基づいて、スロットル信号を、電力供給されているドメインに送信し、それらのドメインに適切なスロットリング動作をとらせる。理解されたいことには、図２２の実施形態ではこのハイレベルで示されているが、数多くの変形及び代替が可能である。

次に図２３を参照するに、本発明の一実施形態に従った方法のフロー図が示されている。より具体的には、図２３に示すように、方法２３００は、ここに記載される動的電流消費制御を実行する方法である。そのようなものとして、方法２３００は、ハードウェア回路、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせによって実行されることができ、例えば、プロセッサの専用ハードウェア回路を用いて及び／又は電力制御回路とともに実装され得る。

図示のように、方法２３００は、複数の処理回路についての複数のデジタル電流値を受信することによって開始する（ブロック２３１０）。より具体的には、加算回路が、これらのデジタル電流値を、対応する集積電圧レギュレータから受信することができ、各電圧レギュレータは、例えばコア、グラフィックスユニット、又はインターコネクト回路などの処理回路に付随している。理解されたいことには、他のケースでは、集積電圧レギュレータのうちの１つ以上が複数の回路にデジタル電流値を提供し得るように、処理回路よりも少ない集積電圧レギュレータのみが存在してもよい。

いずれにしても、ブロック２３２０にて、加算回路は、これら複数のデジタル電流値を足し合わせて合計電流値を得る。次に、制御はブロック２３３０へと進み、そこで、この合計電流値がフィルタリングされ得る。一例として、例えばここに記載される電力コントローラ内に実装されるものなどのローパスフィルタが、プログラム可能な時定数に従ってこの合計電流値のフィルタリングを実行し得る。次に、菱形ブロック２３４０にて、このフィルタリングされた合計電流値が閾値を超えているかが判定される。超えていない場合、制御ループのこの繰り返しにおいて更なる動作は行われず、方法２３００は、プロセッサの電流消費が適切なレベル内に維持されることを確保するように動作し続け得る。

なおも図２３を参照するに、そうでなく、フィルタリングされた合計電流値が閾値を超えていると判定された場合、制御はブロック２３５０へと進み、そこで、スロットル信号が処理回路に送信される。理解されたいことには、このスロットル信号に応答して、処理回路のうちの、少なくとも１つ、そしておそらくは複数のものが、それに従って自身の動作をスロットリングし得る。例えば、各処理回路が、設定された最大電流消費値で構成されているとし得る。スロットル信号に応答して、ある処理回路が、この設定最大電流消費値をその電流消費が下回ることを確保するように、その動作をスロットリングし得る。ここに記載される構成では、フィルタリングされた合計電流値が閾値未満である限り、プロセッサ動作はスロットリングされずに継続され得る。この状況において、１つ以上の他の処理回路が自身の設定最大消費電流値よりも下で動作している間に、１つ以上の処理回路が設定最大消費電流値を上回る電流消費レベルで動作し得る。図２３の実施形態ではこのハイレベルで示されているが、数多くの変形及び代替が可能である。

理解されたいことには、ここで得られる高速な電流情報は更に、例えばプラットフォームの複数の電圧レギュレータに電力供給する電源のレベルを制御するためなど、追加の電力制御技術を実行するために使用されることができる。次に図２４を参照するに、本発明の他の一実施形態に従った方法のフロー図が示されている。より具体的には、図２４に示すように、方法２４００は、ここに記載される動的電流消費制御を実行する他の一方法である。そのようなものとして、方法２４００は、ハードウェア回路、ファームウェア、ソフトウェア、及び／又はこれらの組み合わせによって実行されることができ、例えば、プロセッサの専用ハードウェア回路を用いて及び／又は電力制御回路とともに実装され得る。

図示のように、方法２４００は、複数の電圧レギュレータと関連付けられた電流コントローラからフィルタリングされた合計電流値を受信することによって開始する（ブロック２４１０）。次に、制御はブロック２４２０へと進み、そこで、これらのフィルタリングされた合計電流値を電力値に変換することができる。次いで、それらの電力値が合計され得る（ブロック２４３０）。電力値を加算電力値へと足し合わせた後、制御はブロック２４４０へと進み、そこで、この加算計電力値が、例えば、上述した電流値のフィルタリングとは異なる時定数に従って、フィルタリングされる。

なおも図２４を参照するに、次に、菱形ブロック２４５０にて、このフィルタリングされた電力値が閾値を超えているかが判定される。超えていない場合、制御ループのこの繰り返しにおいて更なる動作は行われず、方法２４００は、プロセッサの電流消費が適切なレベル内に維持されることを確保するように動作し続け得る。そうでなく、フィルタリングされた電力値が閾値を超えていると判定された場合、制御はブロック２４６０へと進み、そこで、スロットル信号が、例えば処理回路それら自体（又は電圧レギュレータのうちの所与の１つに関連付けられたそのような回路のうちの少なくともサブセット）など、電力供給されているドメインに送信される。理解されたいことには、このスロットル信号に応答して、電力供給されているドメインは、それに従って、例えばそれらの動作パラメータを低くすることによってなどで動作をスロットリングして、電流需要を減少させ得る。

以下の例は、更なる実施形態に関する。

一例において、装置は、複数のＩＰ回路であり、当該複数のＩＰ回路の各々が、動的電流割当量を格納する構成レジスタを含む、複数のＩＰ回路と、前記複数のＩＰ回路に結合された電力コントローラであり、前記複数のＩＰ回路のうちの少なくとも一部上で実行されるワークロードに関する電流スロットリングヒント情報を受信し且つそれに少なくとも部分的に基づいて前記複数のＩＰ回路の各々についての前記動的電流割当量を生成する動的電流共有制御回路、を含む電力コントローラと、を含む。

一例において、前記電力コントローラは、前記電流スロットリングヒント情報を格納する複数の第２の構成レジスタを含み、前記動的電流共有制御回路は、前記電流スロットリングヒント情報と当該装置の１つ以上のパラメータとに基づいて、前記複数のＩＰ回路についての前記動的電流割当量を決定する。

一例において、前記電力コントローラは、ソフトウェアが前記電流スロットリングヒント情報を前記複数の第２の構成レジスタに書き込むことを可能にするインタフェースを有する。

一例において、前記電力コントローラは、前記ワークロードの実行中の前記複数のＩＰ回路の使用に関する発見的情報に基づいて、前記ソフトウェアから前記電流スロットリングヒント情報を受信する。

一例において、前記動的電流共有制御回路は、前記複数のＩＰ回路の各々に対して設定された最大電流割当量に更に基づいて、前記複数のＩＰ回路についての前記動的電流割当量を決定する。

一例において、第１のワークロードに対し、前記動的電流共有制御回路は、第１のＩＰ回路についての前記動的電流割当量を、該第１のＩＰ回路に対して設定された前記最大電流割当量に設定し、第２のＩＰ回路についての前記動的電流割当量を、該第２のＩＰ回路に対して設定された前記最大電流割当量よりも少なく設定する。

一例において、第２のワークロードに対し、前記動的電流共有制御回路は、前記第１のＩＰ回路についての前記動的電流割当量を、前記第１のＩＰ回路に対して設定された前記最大電流割当量よりも少なく設定し、前記第２のＩＰ回路についての前記動的電流割当量を、前記第２のＩＰ回路に対して設定された前記最大電流割当量に設定する。

一例において、前記第１のＩＰ回路はコアを有し、前記第２のＩＰ回路はグラフィックスプロセッサを有する。

一例において、前記電力コントローラからのスロットル信号に応答して、前記第１のＩＰ回路は、動作を、前記第１のＩＰ回路に対して設定された前記最大電流割当量に制限し、前記第２のＩＰ回路は、動作を、前記第２のＩＰ回路についての前記動的電流割当量に制限する。

一例において、前記第２のＩＰ回路は、前記動的電流割当量に基づいて、前記スロットル信号に応答して、クロック信号の１つ以上のクロックサイクルをスカッシュする。

一例において、前記動的電流共有回路は、スロットルイベントの間に、前記複数のＩＰ回路のうちの少なくとも１つに便宜的電流割当量を提供し、該便宜的電流割当量は、該少なくとも１つのＩＰ回路が該少なくとも１つのＩＰ回路についての前記動的電流割当量を超えることを可能にする。

他の一例において、方法は、プロセッサの電力コントローラにて、ワークロードに関する電流スロットルヒント情報をソフトウェアエンティティから受信し、前記プロセッサの複数の処理回路の各々についての動的最大電流割当量を、前記電流スロットルヒント情報と前記複数の処理回路に対して設定された最大電流割当量の値とに基づいて計算し、前記複数の処理回路の各々に前記動的最大電流割当量を送信し、前記プロセッサの電流消費レベルが閾値を超えていると判定したことに応答して、前記複数の処理回路に前記動的最大電流割当量に基づいて活動をスロットリングさせるために、前記複数の処理回路にスロットル信号を送信する、ことを有する。

一例において、当該方法は更に、前記電力コントローラにて、前記電流スロットルヒント情報を、インタフェースを介して受信し、前記電流スロットルヒント情報を前記電力コントローラの構成レジスタのセット内に格納する、ことを有する。
請求項２２に記載の方法。

一例において、当該方法は更に、前記電流スロットルヒント情報とダイ固有の情報とに基づいて、前記複数の処理回路についての分解されたスロットル値を決定する、ことを有する。

一例において、前記複数の処理回路の各々についての前記動的最大電流割当量を計算することは、前記複数の処理回路についての前記分解されたスロットル値に更に基づく。

一例において、当該方法は更に、前記スロットル信号に応答して、前記複数の処理回路のうちの第１の処理回路をスロットリングし、且つ前記スロットル信号に応答して、前記複数の処理回路のうちの第２の処理回路が無制約で実行を行うことを可能にする、ことを有する。

他の一例において、命令を含んだコンピュータ読み取り可能媒体が、上の例のうちのいずれかの方法を実行する。

更なる一例において、データを含んだコンピュータ読み取り可能媒体が、少なくとも１つの機械によって使用されて、上の例のうちのいずれか１つの方法を実行する少なくとも１つの集積回路を製造する。

より更なる一例において、装置が、上の例のうちのいずれか１つの方法を実行する手段を有する。

他の一例において、システムは、ＳｏＣと、該ＳｏＣに結合されたダイナミックランダムアクセスメモリとを含む。ＳｏＣは、複数のコア及び少なくとも１つのグラフィックスプロセッサであり、当該複数のコア及び当該少なくとも１つのグラフィックスプロセッサの各々が、動的電流割当量を格納する構成レジスタを含む、複数のコア及び少なくとも１つのグラフィックスプロセッサと、前記複数のコア及び前記少なくとも１つのグラフィックスプロセッサに結合された電力コントローラであり、当該電力コントローラは、当該ＳｏＣ上で実行されるワークロードに関する電流スロットリングヒント情報をソフトウェアエンティティから受信するインタフェースを有し、当該電力コントローラは更に、前記電流スロットリングヒント情報に少なくとも部分的に基づいて前記複数のコア及び前記少なくとも１つのグラフィックスプロセッサについての前記動的電流割当量を生成する動的電流共有制御回路を有する、電力コントローラと、を含み得る。

一例において、前記電力コントローラは、前記電流スロットリングヒント情報を格納する複数の第２の構成レジスタを含み、前記動的電流共有制御回路は、前記電流スロットリングヒント情報と前記ＳｏＣの１つ以上のパラメータとに基づいて、前記複数のコア及び前記少なくとも１つのグラフィックスプロセッサについての分解された電流割当量を決定する。

一例において、前記動的電流共有制御回路は、前記複数のコア及び前記少なくとも１つのグラフィックスプロセッサについての前記分解された電流割当量と、前記複数のコア及び前記少なくとも１つのグラフィックスプロセッサの各々に対して設定された最大電流割当量とに基づいて、前記動的電流割当量を決定する。

一例において、第１のワークロードに対し、前記動的電流共有制御回路は、前記複数のコアのうちの少なくとも１つについての前記動的電流割当量を、該少なくとも１つのコアに対して設定された前記最大電流割当量に設定し、前記少なくとも１つのグラフィックスプロセッサについての前記動的電流割当量を、前記少なくとも１つのグラフィックスプロセッサに対して設定された前記最大電流割当量よりも少なく設定する。

他の一例において、装置は、命令を実行する複数の処理回路と、前記複数の処理回路に結合された加算回路であり、当該加算回路は、各デジタル電流値が前記複数の処理回路のうちの１つからの測定電流に対応する複数のデジタル電流値を受信し、該複数のデジタル電流値から合計電流値を生成する、加算回路と、前記加算回路に結合され、前記合計電流値をフィルタリングし、該フィルタリングした合計電流値を閾値と比較し、前記フィルタリングした合計電流値が前記閾値を超えている場合に、前記複数の処理回路にスロットル信号を送信する電流コントローラと、を含む。

一例において、前記スロットル信号に応答して、前記複数の処理回路の各々が独立に動作をスロットルする。

一例において、前記スロットル信号に応答して、前記複数の処理回路の各々が独立に、対応する前記処理回路の構成ストレージに格納された構成値に従って動作をスロットルする。

一例において、当該装置は更に、前記複数のデジタル電流値を前記加算回路に提供するための、前記複数の処理回路に結合された複数の集積電圧レギュレータを有する。

一例において、前記電流コントローラは、前記合計電流値をフィルタリングするローパスフィルタと、前記フィルタリングした合計電流値を前記閾値と比較するデジタル比較器と、前記デジタル比較器から比較信号を受信し、該比較信号に少なくとも部分的に基づいて前記スロットル信号を出力するように結合された、パルス延長回路と、を有する。

一例において、前記パルス延長回路は、前記フィルタリングした電流値が前記閾値を下回った後、スロットルウィンドウの残りの期間にわたって前記スロットル信号を維持する。

一例において、当該装置は更に、各々が複数の電圧レギュレータのうちの１つに付随する複数の電流コントローラと、前記複数の電圧レギュレータに結合された電力コントローラと、を有する。該電力コントローラは、前記複数の電流コントローラの各々からのフィルタリングされた電流値を電力値に変換し、該電力値を加算電力値へと結合し、該加算電力値をフィルタリングし、該フィルタリングした加算電力値が閾電力値を超えている場合に、前記複数の処理回路のうちの少なくとも一部に第２のスロットル信号を送信する。

理解されたいことには、上の例の様々な組み合わせが可能である。

なお、用語“circuit（回路）”及び“circuitry（回路）”は、ここでは交換可能に使用される。ここで使用されるとき、これらの用語及び用語“ロジック”は、単独で又は任意の組み合わせで、アナログ回路、デジタル回路、ハードワイヤード回路、プログラマブル回路、プロセッサ回路、マイクロコントローラ回路、ハードウェア論理回路、状態マシン回路、及び／又は他のタイプの物理的ハードウェアコンポーネントを指すように使用される。実施形態は、数多くの異なるタイプのシステムにおいて使用され得る。例えば、一実施形態において、ここに記載される様々な方法及び技術を実行するように通信装置を構成することができる。当然ながら、本発明の範囲は通信装置に限定されず、代わりに、他の実施形態は、命令を処理する他のタイプの装置に向けられてもよいし、あるいは、コンピューティング装置上で実行されることに応答して、該装置にここに記載される１つ以上の方法及び技術を実行させる命令を含んだ１つ以上の機械読み取り可能媒体に向けられてもよい。

実施形態は、コードにて実装されて、命令を格納する非一時的な記憶媒体に格納されてもよく、それを用いて、システムを、当該命令を実行するようにプログラムすることができる。実施形態はまた、データにて実装されて、非一時的な記憶媒体に格納されてもよく、それが少なくとも１つのマシンによって使用される場合に、該少なくとも１つのマシンに、１つ以上の動作を実行する少なくとも１つの集積回路を製造させる。より更なる実施形態は、命令を含んだコンピュータ読み取り可能記憶媒体にて実装されてもよく、それがＳｏＣ又は他のプロセッサに製造されるときに、該ＳｏＣ又は他のプロセッサを、１つ以上の動作を実行するように構成する。記憶媒体は、以下に限られないが、フロッピーディスク（登録商標）、光ディスク、ソリッドステートドライブ（ＳＳＤ）、コンパクトディスク読み出し専用メモリ（ＣＤ－ＲＯＭ）、書き換え可能コンパクトディスク（ＣＤ－ＲＷ）、及び光磁気ディスクを含む任意のタイプのディスク、例えば読み出し専用メモリ（ＲＯＭ）、ランダムアクセスメモリ（ＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ）、フラッシュメモリ、電気的消去可能プログラム可能読み出し専用メモリ（ＥＥＰＲＯＭ）、磁気カード若しくは光カード、又は電子命令を格納するのに適した任意の他のタイプの媒体を含み得る。

限られた数の実施形態に関して本発明を説明したが、当業者は、それらから数多の変更及び変形を理解することになる。意図されることには、添付の請求項は、本発明の真の精神及び範囲に入る全てのそのような変更及び変形に及ぶものである。

Claims

複数のインテレクチュアルプロパティ（ＩＰ）回路であり、当該複数のＩＰ回路の各々が、動的電流割当量を格納する構成レジスタを含む、複数のＩＰ回路と、
前記複数のＩＰ回路に結合された電力コントローラであり、前記複数のＩＰ回路のうちの少なくとも一部上で実行されるワークロードに関する電流スロットリングヒント情報を受信し且つそれに少なくとも部分的に基づいて前記複数のＩＰ回路の各々についての前記動的電流割当量を生成する動的電流共有制御回路、を含む電力コントローラと、
を有する装置。
前記電力コントローラは、前記電流スロットリングヒント情報を格納する複数の第２の構成レジスタを含み、前記動的電流共有制御回路は、前記電流スロットリングヒント情報と当該装置の１つ以上のパラメータとに基づいて、前記複数のＩＰ回路についての前記動的電流割当量を決定する、請求項１に記載の装置。
前記電力コントローラは、ソフトウェアが前記電流スロットリングヒント情報を前記複数の第２の構成レジスタに書き込むことを可能にするインタフェースを有する、請求項２に記載の装置。
前記電力コントローラは、前記ワークロードの実行中の前記複数のＩＰ回路の使用に関する発見的情報に基づいて、前記ソフトウェアから前記電流スロットリングヒント情報を受信する、請求項３に記載の装置。
前記動的電流共有制御回路は、前記複数のＩＰ回路の各々に対して設定された最大電流割当量に更に基づいて、前記複数のＩＰ回路についての前記動的電流割当量を決定する、請求項２乃至４のいずれか一項に記載の装置。
第１のワークロードに対し、前記動的電流共有制御回路は、
第１のＩＰ回路についての前記動的電流割当量を、該第１のＩＰ回路に対して設定された前記最大電流割当量に設定し、
第２のＩＰ回路についての前記動的電流割当量を、該第２のＩＰ回路に対して設定された前記最大電流割当量よりも少なく設定する、
請求項５に記載の装置。
第２のワークロードに対し、前記動的電流共有制御回路は、
前記第１のＩＰ回路についての前記動的電流割当量を、前記第１のＩＰ回路に対して設定された前記最大電流割当量よりも少なく設定し、
前記第２のＩＰ回路についての前記動的電流割当量を、前記第２のＩＰ回路に対して設定された前記最大電流割当量に設定する、
請求項６に記載の装置。
前記第１のＩＰ回路はコアを有し、前記第２のＩＰ回路はグラフィックスプロセッサを有する、請求項６に記載の装置。
前記電力コントローラからのスロットル信号に応答して、前記第１のＩＰ回路は、動作を、前記第１のＩＰ回路に対して設定された前記最大電流割当量に制限し、前記第２のＩＰ回路は、動作を、前記第２のＩＰ回路についての前記動的電流割当量に制限する、請求項６に記載の装置。
前記第２のＩＰ回路は、前記動的電流割当量に基づいて、前記スロットル信号に応答して、クロック信号の１つ以上のクロックサイクルをスカッシュする、請求項９に記載の装置。
前記動的電流共有回路は、スロットルイベントの間に、前記複数のＩＰ回路のうちの少なくとも１つに便宜的電流割当量を提供し、該便宜的電流割当量は、該少なくとも１つのＩＰ回路が該少なくとも１つのＩＰ回路についての前記動的電流割当量を超えることを可能にする、請求項１乃至１０のいずれか一項に記載の装置。
命令を実行する複数の処理手段と、
前記複数の処理手段に結合された加算手段であり、当該加算手段は、各デジタル電流値が前記複数の処理手段のうちの１つからの測定電流に対応する複数のデジタル電流値を受信し、当該加算手段は、前記複数のデジタル電流値から合計電流値を生成する、加算手段と、
前記加算手段に結合された電流制御手段であり、当該電流制御手段は、前記合計電流値をフィルタリングし、該フィルタリングした合計電流値を閾値と比較し、当該電流制御手段は、前記フィルタリングした合計電流値が前記閾値を超えている場合に、前記複数の処理手段にスロットル信号を送信する、電流制御手段と、
を有する装置。
前記スロットル信号に応答して、前記複数の処理手段の各々が独立に動作をスロットルする、請求項１２に記載の装置。
前記スロットル信号に応答して、前記複数の処理手段の各々が独立に、対応する前記処理手段の構成ストレージ手段に格納された構成値に従って動作をスロットルする、請求項１３に記載の装置。
当該装置は更に、前記複数の処理手段に結合された複数の集積電圧レギュレータ手段を有し、該複数の集積電圧レギュレータ手段が、前記複数のデジタル電流値を前記加算手段に提供する、請求項１２に記載の装置。
前記電流制御手段は、
前記合計電流値をフィルタリングするローパスフィルタ手段と、
前記フィルタリングした合計電流値を前記閾値と比較するデジタル比較器手段と、
前記デジタル比較器手段から比較信号を受信し、該比較信号に少なくとも部分的に基づいて前記スロットル信号を出力するように結合された、パルス延長手段と、
を有する、請求項１２乃至１５のいずれか一項に記載の装置。
前記パルス延長手段は、前記フィルタリングした電流値が前記閾値を下回った後、スロットルウィンドウの残りの期間にわたって前記スロットル信号を維持する、請求項１６に記載の装置。
各々が複数の電圧レギュレータ手段のうちの１つに付随する複数の電流制御手段と、
前記複数の電圧レギュレータ手段に結合された電力制御手段であり、当該電力制御手段は、前記複数の電流制御手段の各々からのフィルタリングされた電流値を電力値に変換し、該電力値を加算電力値へと結合し、該加算電力値をフィルタリングし、該フィルタリングした加算電力値が閾電力値を超えている場合に、前記複数の処理手段のうちの少なくとも一部に第２のスロットル信号を送信する、電力制御手段と、
を更に有する請求項１２に記載の装置。
システム・オン・チップ（ＳｏＣ）であり、
複数のコア及び少なくとも１つのグラフィックスプロセッサであり、当該複数のコア及び当該少なくとも１つのグラフィックスプロセッサの各々が、動的電流割当量を格納する構成レジスタを含む、複数のコア及び少なくとも１つのグラフィックスプロセッサと、
前記複数のコア及び前記少なくとも１つのグラフィックスプロセッサに結合された電力コントローラであり、当該電力コントローラは、当該ＳｏＣ上で実行されるワークロードに関する電流スロットリングヒント情報をソフトウェアエンティティから受信するインタフェースを有し、当該電力コントローラは更に、前記電流スロットリングヒント情報に少なくとも部分的に基づいて前記複数のコア及び前記少なくとも１つのグラフィックスプロセッサについての前記動的電流割当量を生成する動的電流共有制御回路を有する、電力コントローラと、
を有するＳｏＣと、
前記ＳｏＣに結合されたダイナミックランダムアクセスメモリと、
を有するシステム。
前記電力コントローラは、前記電流スロットリングヒント情報を格納する複数の第２の構成レジスタを含み、前記動的電流共有制御回路は、前記電流スロットリングヒント情報と前記ＳｏＣの１つ以上のパラメータとに基づいて、前記複数のコア及び前記少なくとも１つのグラフィックスプロセッサについての分解された電流割当量を決定する、請求項１９に記載のシステム。
前記動的電流共有制御回路は、前記複数のコア及び前記少なくとも１つのグラフィックスプロセッサについての前記分解された電流割当量と、前記複数のコア及び前記少なくとも１つのグラフィックスプロセッサの各々に対して設定された最大電流割当量とに基づいて、前記動的電流割当量を決定する、請求項２０に記載のシステム。
各デジタル電流値が複数の処理手段のうちの１つからの測定電流に対応する複数のデジタル電流値を受信し、該複数のデジタル電流値から合計電流値を生成し、
前記合計電流値をフィルタリングし、フィルタリングした合計電流値を閾値と比較し、
前記フィルタリングした合計電流値が前記閾値を超えているときに、前記複数の処理手段にスロットル信号を送信する、
ことを有する方法。
前記複数の処理手段の各々において独立に、前記スロットル信号に応答して動作をスロットリングする、ことを更に有する請求項２２に記載の方法。
前記スロットル信号に応答して、対応する前記処理手段の構成ストレージ手段に格納された構成値に従って動作を独立にスロットリングする、ことを更に有する請求項２２に記載の方法。
前記複数のデジタル電流値を、前記複数の処理手段に結合された複数の集積電圧レギュレータ手段から提供する、ことを更に有する請求項２２に記載の方法。