JP2023543723A

JP2023543723A - マルチｇｐｕシステムの分散型電力管理を実行するためのメカニズム

Info

Publication number: JP2023543723A
Application number: JP2023518226A
Authority: JP
Inventors: チェンベンジャミン
Original assignee: Advanced Micro Devices Inc
Current assignee: Advanced Micro Devices Inc
Priority date: 2020-09-24
Filing date: 2021-09-23
Publication date: 2023-10-18
Also published as: KR20230073224A; WO2022066951A2; EP4217824A2; WO2022066951A3; US20220091657A1; CN116490839A

Abstract

マルチノードコンピューティングシステムの効率的な電力管理のためのシステム、装置及び方法が開示される。コンピューティングシステムは、タスクを受信して処理する複数のノードを含む。それらのノードは、プロセッサ、ローカルメモリ、電力コントローラ及びリンクを介して他のノードにメッセージを転送するための複数のリンクインターフェースを含む。電力管理のための分散型アプローチを使用して、コンピューティングシステムの構成要素を電力遮断するためのネゴシエーションが、集中型システム全体の電力遮断を実行することなく行われる。各ノードは、コンピューティングシステムの他の構成要素が依然として活動状態であるか又は電源投入されているかにかかわらず、そのリンク、そのプロセッサ及び他の構成要素を電力遮断することが可能である。リンクインターフェースは、リンクアイドル状態が、少なくとも目標アイドル閾値期間の間、リンクインターフェースがアイドル状態のままであることにつながるかどうかの予測に基づいて、遅延の有無にかかわらずリンクの電力遮断を開始する。【選択図】図５

Description

（関連技術の説明）
現代の集積回路（integrated circuit、ＩＣ）の電力消費は、半導体チップの世代ごとに増大する設計課題となっている。電力消費が増加するにつれて、過剰な熱を除去してＩＣの故障を防ぐために、より大型のファン及びヒートシンク等のより高価な冷却システムを利用しなければならない。しかしながら、冷却システムは、システムコストを増加させる。ＩＣの電力損の抑制は、ポータブルコンピュータ及びモバイル通信デバイスにとって課題であるだけでなく、高性能マイクロプロセッサを利用するデスクトップコンピュータ及びサーバにとっても課題である。これらのマイクロプロセッサは、複数のプロセッサコア又はコア、及び、コア内の複数のパイプラインを含む。

様々なサーバ等の様々なコンピューティングデバイスは、システム機能を提供するために複数のタイプのＩＣを統合する異種統合を利用する。複数の機能は、オーディオ／ビデオ（audio/video、Ａ／Ｖ）データ処理、医療及びビジネス分野のための他の高度なデータ並列アプリケーション、汎用命令セットアーキテクチャ（instruction set architecture、ＩＳＡ）の命令処理、デジタル、アナログ、混成信号、及び、高周波（radio-frequency、ＲＦ）機能等を含む。複数のタイプのＩＣを統合するためのシステムパッケージングについて、様々な選択が存在する。いくつかのコンピューティングデバイスでは、システムオンチップ（system-on-a-chip、ＳＯＣ）が使用され、その一方で、他のコンピューティングデバイスでは、より小型でより高い歩留まりのチップがマルチチップモジュール（multi-chip module、ＭＣＭ）内の大型チップとしてパッケージングされる。

いくつかのコンピューティングデバイスは、チップ積層技術、並びに、シリコンインターポーザ、シリコン貫通ビア（through silicon via、ＴＳＶ）及びシステムインパッケージ（system-in-package、ＳｉＰ）内に２つ以上のチップを垂直に積層して電気的に接続するための他のメカニズムを利用する３次元集積回路（three-dimensional integrated circuit、３ＤＩＣ）を含む。システムパッケージングを選択するにもかかわらず、性能を向上させるためにシステムが大規模化するにつれて、ソケットの数が増加し、各々が選択されたパッケージの複製を有する複数のソケットを用いて、コンピューティングシステムを電力遮断することがより複雑化する。

上記の観点から、マルチノードコンピューティングシステムのための効率的な電力管理を実行するための効率的な方法及びシステムが望まれる。

本明細書に記載の方法及びメカニズムの利点は、添付の図面と併せて以下の説明を参照することによってよりよく理解され得る。

タイムラインの一実施形態のブロック図である。処理ノードの一実施形態のブロック図である。マルチノードコンピューティングシステムの一実施形態のブロック図である。マルチノードコンピューティングシステムの一実施形態のブロック図である。マルチノードコンピューティングシステムの電力管理を実行するための方法の一実施形態のフロー図である。マルチノードコンピューティングシステムの電力管理を実行するための方法の別の実施形態のフロー図である。マルチノードコンピューティングシステムの電力管理を実行するための方法の別の実施形態のフロー図である。マルチノードコンピューティングシステムの電力管理を実行するための方法の別の実施形態のフロー図である。マルチノードコンピューティングシステムの一実施形態のブロック図である。マルチノードコンピューティングシステムの一実施形態のブロック図である。

本発明は、様々な修正及び代替形態の影響を受ける余地があるが、特定の実施形態が例として図面に示されており、本明細書で詳細に説明される。しかしながら、図面及びその詳細な説明は、開示された特定の形態に本発明を限定することを意図するものではなく、逆に、本発明は、添付の特許請求の範囲によって定義されるように、本発明の範囲内に入る全ての修正、等価物及び代替物を包含するものであることを理解されたい。

以下の説明では、本明細書に提示される方法及びメカニズムの十分な理解を提供するために、多数の具体的な詳細が記載されている。しかしながら、当業者は、これらの具体的な詳細なしに様々な実施形態が実施され得ることを認識すべきである。いくつかの例では、本明細書に記載のアプローチを不明瞭にすることを避けるために、周知の構造、構成要素、信号、コンピュータプログラム命令及び手法が詳細に示されていない。説明を簡単且つ明確にするために、図に示される要素は必ずしも縮尺どおりに描かれているわけではないことが理解されよう。例えば、いくつかの要素の寸法は、他の要素に対して誇張されている場合がある。

マルチノードコンピューティングシステムのための効率的な電力管理を実行するための様々なシステム、装置、方法及びコンピュータ可読媒体が開示される。様々な実施形態では、コンピューティングシステムは、マルチノードパーティションのノードにタスクを割り当てるホストプロセッサを含む。ノードは、プロセッサ及びローカルメモリを含む。また、処理ノードは、少なくとも電力コントローラと、他のノードにメッセージを転送するための複数のリンクインターフェースと、を含む。本明細書で使用される場合、処理ノードは、ノードとも呼ばれる。ある実施形態では、ホストプロセッサはＣＰＵであり、ノードプロセッサはＧＰＵである。いくつかの実施形態では、ノードは、ＧＰＵを利用してタスクを処理する不均一メモリアクセス（non-uniform memory access、ＮＵＭＡ）ノードである。

電力管理のための分散型アプローチを使用すると、コンピューティングシステムの構成要素を電力遮断するためのネゴシエーションが、コンピューティングシステムのシステム全体の電力遮断を実行することなく行われる。電力遮断のためのネゴシエーションは、構成要素レベルで行われる。各ノードは、コンピューティングシステムの他の構成要素が依然として活動状態であるか又は電力投入されている間、そのノードのリンクインターフェース及びそのノードのプロセッサを電力遮断することができる。ノード間のリンク上のデータ転送をモニタリングするモニタは、対応するリンクの電力遮断をいつ開始すべきかを判定する。電力遮断の意図は、リンクの開始ノードから他のノードに伝達される。リンクに対する電力遮断が２つのノード間で合意されると、リンクインターフェースは、リンクの電力管理状態をより低い性能の電力管理状態に変更する。例えば、リンクは、２つのノードのプロセッサが活動状態のままであるにもかかわらず電力遮断することができる。

２つのノード間の通信層は、リンクの電力遮断中、活動状態（アクティブ状態）のままであり、動作可能状態（例えば、活動状態、アイドル状態）及び／又は電力管理状態の変更が伝達されることを可能にする。本明細書で使用される場合、「電力管理状態」とは、ノードによってサポートされる複数の「Ｐ状態」のうち何れか又は複数の「Ｃ状態」のうち何れかである。したがって、電力管理状態の変更は、ノードによってサポートされる複数のＣ状態及びＰ状態のうち何れかへの移行に関連付けられる。ノードの電力コントローラは、Ｐ状態を使用して、プロセッサが仕事量を処理する間に、プロセッサ及び他の構成要素のうち１つ以上の動作可能パラメータを更新する。動作可能パラメータの例は、動作可能クロック周波数及び動作可能電源電圧である。電力コントローラは、Ｃ状態を使用して、プロセッサが仕事量を処理していない間に、動作可能パラメータを更新し及び／又は構成要素を電力遮断する。ノードのプロセッサがアイドル状態になって電力コントローラがノードを特定のＣ状態に移行させると、ノードの電力コントローラは、プロセッサ及び他の構成要素のうち１つ以上を電力遮断する。例えば、ノードの電力コントローラは、ＤＲＡＭによって実装されるシステムメモリが自己リフレッシュモードに入ることを示す。ノードの電力管理状態がＣ状態のうち何れかである場合に、電力コントローラがノードの他の構成要素を電力遮断することが可能であり、企図される。

図１を参照すると、タイムライン５０の一実施形態の一般化されたブロック図が示されている。タイムライン５０は、ノード１０Ａ～１０Ｂのうち何れかのリンクインターフェースが、ノード１０Ａ～１０Ｂ間のリンク１２がアイドル状態であることを検出した時点ｔ１から開始する持続時間を例示している。様々な実施形態では、ノード１０Ａ～１０Ｂは、１つ以上のプロセッサ、ローカルメモリ、電力コントローラ、及び、ノード１０Ａ～１０Ｂ間のリンク１２と通信することができるリンクインターフェースを含む。リンク１２は、ノード１０Ａ～１０Ｂ間のデータを転送する。２つのノード及び単一のリンクが図１に示されているが、コンピューティングシステム内で使用される別の数のノード及びリンクが可能であり、企図される。ケース１～３として示される３つのケースが図１に示されているが、任意の数のケースがリンク１２に対して行われる。例えば、リンク１２についてのリンクアイドル状態の割り込みは、任意の時点で発生する可能性がある。タイムライン５０は、いくつかの場合において、持続時間「Ｄ２」～「Ｄ７」等の複数の持続時間の組み合わせを含む、１０Ａ～１０Ｂノード間のリンクを電力遮断するためのそれらのノード間のネゴシエーションを例示している。

場合によっては、リンク１２は、目標アイドル閾値期間である、「Ｄ１」としてラベル付けされた少なくとも第１の持続時間の間、アイドル状態のままである。ある実施形態では、「Ｄ１」は、プログラム可能な構成レジスタに格納された値である。持続時間「Ｄ１」は、リンク１２上で伝達するために使用されるノード１０Ａ～１０Ｂのリンクインターフェースを電力遮断することから十分な電力節約を提供するように判定されたリンク１２の最小アイドル滞留時間である。上部及び下部の場合（ケース１及びケース３）は、リンク１２のリンクアイドル状態の割り込みが発生する前に、目標アイドル閾値期間（Ｄ１）が経過することを例示している。他の場合では、リンク１２は、割り込みが発生する前に、少なくとも目標アイドル閾値期間（Ｄ１）の間、アイドル状態のままではない。中央の場合（ケース２）は、このシナリオを例示している。ノード１０Ａのリンクインターフェースによって検出されるようなリンクアイドル状態の割り込みの例としては、リンクインターフェースの入力キューに格納するためのノード１０Ａのプロセッサから到達するメッセージ、ノード１０Ｂから到達する、タスクに向けられたメッセージ及び以前の電力遮断要求の拒否を指定する指標を有するノード１０Ｂから到達するメッセージがある。同様に、ノード１０Ｂのリンクインターフェースも、これらの割り込みの例を検出することが可能である。

図１からわかるように、ノード１０Ａ～１０Ｂは、目標アイドル閾値期間（Ｄ１）が経過する前に、リンク１２を電力遮断するためのネゴシエーションを開始することができる。上部及び中央の場合（ケース１及びケース２）は、このシナリオを例示している。その結果、目標アイドル閾値期間（Ｄ１）が経過したことの検出を使用せずに、ノード１０Ａ～１０Ｂ間のリンクの電力遮断をネゴシエーションする開始信号を送出することがわかる。以下の説明は、ノード１０Ａのリンクインターフェースの回路によって実行されるステップについて説明するが、ノード１０Ｂのリンクインターフェースの回路も、同様のステップを実行することが可能である。言い替えると、ノード１０Ａ及び１０Ｂのリンクインターフェースの各々は、リンクインターフェースの電力遮断を開始することが可能である。図１に示された上部のケースは、ノード１０Ａのリンクインターフェースが時間ｔ１の時点（又は時間ｔ１）でアイドル状態を検出することを例示している。リンクインターフェースのアイドル状態の一例としては、ノード１０Ｂに転送するべきメッセージ及び／又はペイロードデータを格納するリンクインターフェースの入力キューが空であることである。更に、ノード１０Ａのリンクインターフェースは、データがノード１０Ｂから受信されていないことを検出する。上部ケースの場合、時間ｔ１において、ノード１０Ａのリンクインターフェースは、電力遮断のために、ノード１０Ｂとのネゴシエーションを開始する。このネゴシエーションは、「Ｄ２」及び「Ｄ３」とラベル付けされた持続時間等の２つの持続時間を使用する。

持続時間「Ｄ２」及び「Ｄ３」の各々は、ノード１０Ａ～１０Ｂのリンクインターフェースのハードウェアによって実行されるステップの完了に依存する持続時間である。「Ｄ２」としてラベル付けされている第２の持続時間は、ノード１０Ａ～１０Ｂ間で発生する必須の電力遮断メッセージ伝達を含む。電力遮断メッセージの例としては、電力遮断要求、受信された電力遮断要求を受諾又は拒否する電力遮断応答、電力遮断要求の撤回、ノード１０Ａ～１０Ｂの１つ以上のプロセッサの動作状態及び／又は電力管理状態の指標等がある。単一のメッセージが、列挙された例のうち２つ以上を含むことが可能である。例えば、電力遮断要求を受諾する電力遮断応答は、１つ以上のプロセッサの動作状態及び電力管理状態のうち１つ以上の指標を含む。単一のメッセージに挿入される他の組み合わせが可能であり、企図される。電力遮断メッセージ伝達のネゴシエーションにより、リンクの電力遮断に向けて進行する場合、「Ｄ３」としてラベル付けされている第３の持続時間は、電力遮断動作を含む。電力遮断動作は、少なくともリンクインターフェースを含むノード１０Ａ～１０Ｂの１つ以上の構成要素を電力遮断することを含む。電力遮断メッセージ伝達は、リンクインターフェースが電力遮断の準備ができていると判定された場合に、ノード１０Ａ～１０Ｂのリンクインターフェースの電力遮断に向けて進行することになる。

持続時間「Ｄ３」の電力遮断動作が開始すると、これらの電力遮断動作は、割り込みなしで完了するまで継続して、リンクインターフェースは、電力遮断を達成することがわかる。これに対して、持続時間「Ｄ２」間に発生する電力遮断メッセージ伝達は、リンクの電力遮断に向けて進行しない場合がある。例えば、リンクインターフェースが電力遮断することを妨げる割り込みが発生する。図１に示されているケースは、持続時間「Ｄ２」の間に発生する割り込みを例示してはいないが、そのようなケースが可能であり、企図される。これらの場合、ノード１０Ａのリンクインターフェースは、少なくとも目標アイドル閾値期間（Ｄ１）の間、アイドル状態のままではなかった。同様に、ノード１０Ａのリンクインターフェースが持続時間「Ｄ２」の間に電力遮断メッセージ伝達のステップ及び持続時間「Ｄ３」の間に電力遮断動作のステップを完了し、ノード１０Ａ～１０Ｂのリンクインターフェースが電力遮断される場合であっても、リンクインターフェースが少なくとも目標アイドル閾値期間（Ｄ１）の間アイドル状態のままであることを妨げる割り込みが発生する場合がある。図１に示されている中央のケースは、このシナリオを例示している。

図１に示されている上部のケース（ケース１）は、ノード１０Ａのリンクインターフェースが少なくとも目標アイドル閾値期間（Ｄ１）の間アイドル状態のままであることを例示している。例えば、「Ｄ４」とラベル付けされた持続時間は、持続時間「Ｄ２」及び「Ｄ３」後に発生し、その割り込みは、時間ｔ２において、持続時間「Ｄ１」が経過した後に発生する。そのようなケースが普通である場合、時間ｔ１において、アイドル状態が検出されるとすぐに、ノード１０Ａのリンクインターフェースの電力遮断のネゴシエーションを開始することが有益である。しかしながら、図１に示されている中央のケース（ケース２）は、ノード１０Ａのリンクインターフェースが少なくとも目標アイドル閾値期間（Ｄ１）の間アイドル状態のままではない場合の一例を例示している。例えば、「Ｄ５」とラベル付けされた持続時間は、持続時間「Ｄ２」及び「Ｄ３」の後に発生するが、割り込みは、持続時間「Ｄ１」が時間ｔ２において経過する前に発生する。そのようなケースが頻繁に発生する場合、アイドル状態が時間ｔ１において検出された場合に、ノード１０Ａのリンクインターフェースの電力遮断のネゴシエーションの開始を待機することが有益である。

ノード１０Ａのリンクインターフェースが、アイドル状態の検出が、リンクインターフェースが少なくとも目標アイドル閾値期間（Ｄ１）の間、アイドル状態のままであることにつながると予測した場合に、リンクインターフェースは、リンクインターフェースの電力遮断のネゴシエーションを遅延なく開始する。例えば、リンクインターフェースは、図１に例示された上部及び中央のケース（ケース１及びケース２）に示されているステップを実行しようと試みる。しかしながら、ノード１０Ａのリンクインターフェースが、アイドル状態の検出が、少なくとも目標アイドル閾値期間（Ｄ）の間、リンクインターフェースがアイドル状態のままであることにはつながらないと予測した場合、リンクインターフェースは、「Ｄ７」とラベル付けされた待機閾値期間の間、電力遮断のネゴシエーションを遅延させる。例えば、リンクインターフェースは、図１に例示された下部のケース（ケース３）に示されているステップを実行しようと試みる。様々な実施形態では、待機閾値期間（Ｄ７）は、目標アイドル閾値期間（Ｄ１）よりも長い。一例では、待機閾値期間（Ｄ７）は、目標アイドル閾値期間（Ｄ１）の２倍である。他の実施形態では、待機閾値期間（Ｄ７）の目標アイドル閾値期間（Ｄ１）に対する比は、１よりも大きい任意の正の値であり、この比は、設計要件に基づいて選択される。

図２を参照すると、処理ノード１００の一実施形態の一般化されたブロック図が示されている。図に示すように、処理ノード１００は、クライアント１１０の各々と、１つ以上のレベルのキャッシュ１１６と、メモリコントローラ（ＭＣ）１３０と、電力コントローラ１４０と、リンクインターフェース１５０及び１７０との間の通信機構１２０と、を含む。いくつかの実施形態では、処理ノード１００の構成要素は、システムオンチップ（ＳＯＣ）等の集積回路（ＩＣ）上の別々のチップである。他の実施形態では、構成要素は、システムインパッケージ（ＳｉＰ）又はマルチチップモジュール（ＭＣＭ）内の別々のチップである。

クライアント１１０は、２つのプロセッサを含むように示されているが、他の実施形態では、クライアント１１０は、別の数のプロセッサ及び処理エンジンを含む。例示された実施形態では、クライアント１１０は、プロセッサ１１２及び並列データプロセッサ１１４を含む。いくつかの設計では、クライアント１１０は、プロセッサ１１２を含み、このプロセッサは、中央処理ユニット（central processing unit、ＣＰＵ）、マルチメディアエンジンと通信するためのハブ、及び、ソフトウェアアプリケーションの命令を処理することができる回路を有する他のタイプのコンピューティングリソースのうち１つ以上である。ある実施形態では、並列データプロセッサ１１４は、画像処理ユニット（ＧＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は、複数のデータ項目に対して同じ命令を同時に処理することができる他のタイプのプロセッサのうち何れかである。

並列データプロセッサ１１４は、かなりの数の並列実行レーンを有する高並列データマイクロアーキテクチャを有する。この高並列データマイクロアーキテクチャは、計算集中型タスクに対して高い命令スループットを提供する。一実施形態では、マイクロアーキテクチャは、並列実行レーンのために、単一命令複数データ（single-instruction-multiple-data、ＳＩＭＤ）パイプラインを使用する。コンパイラは、プログラムコードから並列化されたタスクを取り出して、システムハードウェア上で並列に実行する。この並列化されたタスクは、少なくとも科学、医療及びビジネス（金融）の分野に由来し、いくつかは、ニューラルネットワーク訓練を利用する。タスクは、実行する命令のサブルーティンを含む。様々な実施形態では、並列データプロセッサ１１４の複数の実行レーンは、複数の仕事項目を含むウェーブフロントを同時に実行する。仕事項目は、異なるデータで実行するための同じ命令である。また、仕事項目は、スレッドとも呼ばれる。

いくつかの設計では、処理ノード１００は、汎用ＣＰＵを含まないが、外部ＣＰＵからの割り当てられたタスクを受信する。例えば、処理ノード１００のリンクインターフェース１５０及び１７０のうち何れかは、外部ＣＰＵにコマンド及びデータを転送するための通信プロトコル接続をサポートする。通信プロトコルの例としては、ＰＣＩｅ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔＥｘｐｒｅｓｓ）、ＡｄｖａｎｃｅｄＭｉｃｒｏＤｅｖｉｃｅｓ社製のＩｎｆｉｎｉｔｙＦａｂｒｉｃ、ＡｄｖａｎｃｅｄＭｉｃｒｏＤｅｖｉｃｅｓ社製のＩｎｆｉｎｉｔｙＡｒｃｈｉｔｅｃｔｕｒｅ、ＩｎｆｉｎｉＢａｎｄ、ＲａｐｉｄＩＯ、ＨｙｐｅｒＴｒａｎｓｐｏｒｔ等が挙げられる。通信プロトコルの他の例も可能であり、企図される。

様々な実施形態では、通信機構１２０は、コマンド、メッセージ及びペイロードデータ等のデータを、メモリコントローラ１３０を介して、クライアント１１０、キャッシュ１１６、リンクインターフェース１５０及び１７０と、メモリ１３２との間の往復で転送する。２つのリンクインターフェース１５０及び１７０が図に示されているが、他の設計では、別の数のリンクインターフェースが使用される。いくつかの実施形態では、通信機構１２０は、少なくとも、要求及び応答を格納するためのキュー、並びに、内部ネットワークにわたって要求を送信する前に、受信された要求の間を調停することが可能なハードウェア回路によって実装される選択ロジックを含む。また、通信機構１２０は、パケットを構築及び復号化し、並びに、パケットのルーティングを選択することができる回路も含む。

一実施形態では、電力コントローラ１４０は、処理ノード１００の構成要素からデータを収集する。いくつかの実施形態では、収集されたデータは、所定のサンプリングされた信号を含む。サンプリングされた信号の切り替えは、切り替えられた静電容量の量を示す。サンプリングする選択信号の例としては、クロックゲータイネーブル信号、バスドライバイネーブル信号、内容参照可能メモリ（content-addressable memories、ＣＡＭ）内の不一致、ＣＡＭワード線（word-line、ＷＬ）ドライバ等が挙げられる。ある実施形態では、電力コントローラ１４０は、所定のサンプル時間間隔中に、ノード１００における電力消費を特徴付けるためのデータを収集する。

いくつかの実施形態では、処理ノード１００内のオンチップ電流センサ及び温度センサも、電力コントローラ１４０に情報を送信する。電力コントローラ１４０は、センサ情報、送出命令又は送出スレッドの個数、及び、重み付けされたサンプリング信号の合計のうち１つ以上を使用して、処理ノード１００の電力消費を推定する。ノード１００が閾値限界を上回って（下回って）動作している場合、電力コントローラ１４０は、電力消費を減少（又は増加）させる。いくつかの実施形態では、電力コントローラ１４０は、処理ノード１００内の構成要素の各々について、それぞれの電力管理状態を選択する。したがって、処理ノード１００全体にわたる電力コントローラ１４０及び付随する回路は、ノード１００の構成要素を電力ゲーティングするか又は構成要素の電力管理状態を低減することが可能である。また、電力コントローラ１４０は、ノード１００の構成要素に制御信号を送信して、移行クロック信号からの接続及び電力供給基準からの接続を解消することもできる。さらに、電力コントローラ１４０は、ノード１００の構成要素に制御信号を送信して、移行クロック信号への接続及び電力供給基準への接続を再確立することができる。

単一のメモリコントローラ１３０が図に示されているが、他の実施形態では、別の数のメモリコントローラが処理ノード１００内で使用される。様々な実施形態では、メモリコントローラ１３０は、通信機構１２０を介して、クライアント１１０又はキャッシュ１１６のキャッシュコントローラからメモリ要求を受信する。このメモリコントローラ１３０は、調整ロジックを使用してメモリ要求をスケジュール設定し、そのスケジュール設定されたメモリ要求をメモリ１３２に送信する。ある実施形態では、メモリ１３２は、処理ノード１００のためのシステムメモリであり、メモリ１３２は、メモリコントローラ１３０によってサポートされた対応する通信プロトコルを有する様々なダイナミックランダムアクセスメモリ（dynamic random access memory、ＤＲＡＭ）のうち何れかである。この通信プロトコルは、クロックサイクル当たりのデータ転送の数、信号電圧レベル、信号タイミング、信号及びクロック位相、並びに、クロック周波数等のように、情報転送のために使用される値を判定する。いくつかの実施形態では、処理ノード１００は、主メモリにも接続され、この主メモリは、階層型メモリサブシステム内のシステムメモリ１３２よりも低いレベルである。主メモリは、様々なタイプの不揮発性ランダムアクセス二次データ記憶装置のうち何れかである。主メモリの例としては、ハードディスクドライブ（hard disk drive、ＨＤＤ）及びソリッドステートディスク（solid-state disk、ＳＳＤ）がある。

また、メモリコントローラ１３０は、システムメモリ１３２及び主メモリからも応答を受信し、その応答を、処理ノード１００内の要求の対応するソースに送信する。元のメモリ要求を完了するために、要求されたブロックデータを有する対応するキャッシュフィルラインが、システムメモリ１３２及び主メモリのうち何れかから、キャッシュ１１６及び並列データプロセッサ１１２の内部キャッシュメモリのうち対応する１つ以上に伝達される。言い替えると、キャッシュフィルラインは、１つ以上のレベルのキャッシュ内に置かれる。いくつかの設計では、並列データプロセッサ１１２は、レベル１（Ｌ１）命令キャッシュ及びＬ１データキャッシュを含む。キャッシュ１１６は、階層型キャッシュメモリサブシステムで使用されるレベル２（Ｌ２）キャッシュ及びレベル３（Ｌ３）キャッシュのうち１つ以上を提供する。並列データプロセッサ１１２の内部配置であるか又は外部配置であるかにかかわらず、キャッシュの他のレベル数及び他の配置が可能であり、企図される。

いくつかの実施形態では、処理ノード１００のアドレス空間は、並列データプロセッサ１１２、１つ以上の他のコンピューティングリソース（図示省略）、インターフェース１８０を介して処理ノード１００に接続される１つ以上の他の外部処理ノード、任意の外部ＣＰＵ、入力／出力（Ｉ／Ｏ）周辺デバイス（図示省略）等の１つ以上の他の構成要素、及び、他のタイプのコンピューティングリソースの間で分割される。メモリマップは、何れのアドレスが何れの構成要素にマッピングされるか、したがって、特定のアドレスに対するメモリ要求が何れの構成要素にルーティングされるかを判定するために維持される。

外部ＣＰＵとの通信をサポートすることに加えて、リンクインターフェース１５０及び１７０は、リンク１５４及び１７４上でメッセージ及びデータを転送することによって、処理ノード１００と他の外部処理ノードとの間の通信もサポートする。先に説明されているように、処理ノード１００は、２つのリンクインターフェース１５０及び１７０以外に、別の数のリンクインターフェースを使用する。同様に、他の設計では、処理ノード１００は、２つのリンク１５４及び１７４以外に、別の数のリンクを使用する。物理ユニット１５２は、リンク１５４と送受信されるコマンド及びデータを処理し、クロックサイクル当たりのデータ転送数、信号電圧レベル、信号タイミング、信号及びクロック位相、並びに、クロック周波数等のように、情報転送のために使用される値を判定する。通信機構１２０での接続と同様に、リンク１５４及び１７４は、共有バス構成、クロスバー構成及びブリッジ付き階層型バスを含む、ポイントツーポイント、パケットベース、バスベースで使用することができる。

単一回線がリンク１５４を表すように示されているが、リンク１５４は、データを信号として転送することができる複数の回線又は物理的なワイヤ若しくはレーンを含む。これらの複数の回線の例としては、１つ以上のクロック回線、１つ以上の制御回線、１つ以上の高速データ回線、及び、１つ以上の低速データ回線がある。物理ユニット１５２内の回路及び外部リンクインターフェース内の付随する物理ユニットは、１つ以上の低速回線のデータ伝送速度を上回る１つ以上の高速回線上のデータ伝送速度をサポートする。この１つ以上の高速データ回線は、リンク１５４の物理層と呼ばれる。１つ以上の制御回線及び１つ以上の低速回線は、リンク１５４の通信層と呼ばれる。リンク１７４は、リンク１５４と同様の回線を有する。

様々な実施形態では、リンクインターフェース１５０及び１７０は、リンクインターフェース１５０について示されている電力遮断ユニット１６０及び物理ユニット１５２等の同様の構成要素を使用する。通信機構１２０とインターフェース接続するための個別のユニットは、説明を容易にするために図示されていない。一実施形態では、リンクインターフェース１５０が非動作状態にある場合、物理ユニット１５２は、リンク１５４の１つ以上の高速クロック回線及び１つ以上の高速データ回線上で信号を送信することができず、それに応じてデータを送信することができない。例えば、物理層は、「電力遮断」される。しかしながら、物理ユニット１５２は、リンク１５４の少なくとも１つの低速クロック回線及び１つ以上の低速データ回線上で、信号及びそれに応じたデータを送信することができる。いくつかの設計では、物理ユニット１５２は、リンク１５４の１つ以上の制御回線上で信号を送信することもできる。例えば、活動状態のままではあるが、リンク１５４の高速回線が動作しているときよりも、通信層が動作しているときの方が、消費電力は少ない。依然として活動状態のままの通信層は、リンクインターフェース１５０が物理ユニット１５２をより高い電力管理状態に移行させるか、又は、電力遮断された物理ユニット１５２を「電力投入」することを可能にする。

本明細書で使用される場合、「電力遮断」とは、コンピューティングシステムが依然として電力供給を受けている間に構成要素が最少量の電力を消費するように、その構成要素のためのステップを実行することを指す。いくつかの設計では、電力遮断することは、対応する構成要素に対して、最低性能のＰ状態等の最低性能電力管理状態を選択することを含む。他の設計では、構成要素を電力遮断することは、Ｃ状態を選択することを含み、これは、構成要素の順次要素及び記憶要素へのクロック信号を無効にし、構成要素の複数のサブ構成要素への電力供給接続を無効にする。更に他の設計では、構成要素をスリープモードに置くことは、その構成要素を電力遮断することと同等である。電力遮断ユニット１６０のハードウェア回路は、リンク１５４の物理層、及び、リンクインターフェース１５０の対応する回路の電力遮断の時期及び持続時間を判定する。本明細書で使用される場合、プロセッサ若しくはノード等の構成要素又はサブ構成要素は、その構成要素がタスクを実行すること等の仕事を実行する場合に、「活動状態」と呼ばれる。構成要素が実行すべき仕事を有さず、非活動状態のままである場合に、構成要素は「アイドル状態」と呼ばれる。

電力遮断ユニット１６０は、回路を使用し、この回路は、リンク１５４上に転送されたデータをモニタリングすること、アイドル状態を検出すること、及び、検出されたアイドル状態に基づいて物理ユニット１５２の構成要素を電力遮断するためのステップを実行することを可能にする。様々な実施形態では、電力遮断ユニット１６０は、クライアント１１０の１つ以上の処理ユニットが活動状態又はアイドル状態である間に、高速データ回線に対応する物理ユニット１５２の構成要素を電力遮断する。物理ユニット１５２の動作状態に基づいて、電力コントローラ１４０は、１つ以上の外部処理ノードが依然として活動状態のままである間に、ノード１００を電力遮断することができる。これらのステップの更なる説明が、以下の考察で説明される。

図３を参照すると、マルチノードコンピューティングシステム２００の一実施形態の一般化されたブロック図が示されている。例示された実施形態では、処理ノード（又はノード）２１０Ａ～２１０Ｄ、並びに、少なくともリンク２２０、２２２及び２２８を含むパーティションの部分が示されている。リンク２２０、２２２及び２２８は、（図１の）リンク１５４及び１７４について先に説明したように、複数の回線又はレーンを含む。ある実施形態では、パーティション２４０は、サーバ内のマルチソケットマザーボードのソケット内に配置されたマルチチップモジュール（ＭＣＭ）である。本明細書で使用される場合、「パーティション」は、コンピューティングシステム２００がハードウェアの仮想化を利用する場合に「ハイブ」とも呼ばれる。いくつかの設計では、ノード２１０Ａ～２１０Ｄは、ＧＰＵを利用してタスクを処理する不均一メモリアクセス（non-uniform memory access、ＮＵＭＡ）ノードである。

１つ以上のノード２１０Ａ～２１０Ｄの１つ以上のクライアント２７０は、割り当てられたタスクを受信する。様々な実施形態では、パーティション２４０の処理ノード２１０Ａ～２１０Ｄの各々は、（図１の）処理ノード１００について先に説明された機能を有する。例えば、ノード２１０Ａのクライアント２７０は、（図１の）クライアント１１０と同等であり、リンクインターフェース２８０、２８２及び２８４の各々は、（図１の）リンクインターフェース１５０及び１７０と同等である。ある実施形態では、リンク２２０、２２２及び２２８のリンクインターフェースは、ＡｄｖａｎｃｅｄＭｉｃｒｏＤｅｖｉｃｅｓ社製のＧＰＵツーＧＰＵ相互接続のためのｘＧＭＩ相互接続等の同じ通信プロトコルをサポートする。しかしながら、他のタイプの通信プロトコルが可能であり、企図される。通信プロトコルは、クロックサイクル当たりのデータ転送数、信号電圧レベル、信号タイミング、信号及びクロック位相、並びに、クロック周波数等のように、リンク上での情報転送のために使用される値を判定する。

リンクインターフェース（ＬＩ）２８０は、リンク２２２上でノード２１０Ｃにメッセージ（コマンド）及びペイロードデータを転送することができ、リンクインターフェース２８２は、リンク２２８上でノード２１０Ｄにメッセージ及びペイロードデータを転送することができ、リンクインターフェース２８４は、リンク２２０上でノード２１０Ｂにメッセージ及びペイロードデータを転送することができる。様々な設計では、リンクインターフェース２８０及び２８２は、物理ユニット２５０及び電力遮断ユニット２６０等のように、リンクインターフェース２８４について示されているものと同様の構成要素を含む。ノード２１０Ａの通信機構とインターフェース接続するための個別のユニットは、説明を容易にするために図示されていない。様々な実施形態では、物理ユニット２５０は、（図１の）物理ユニット１５２と同等の機能を有する。同様に、（図１の）電力遮断ユニット１６０及び電力遮断ユニット２６０は、以下の説明で提供される電力遮断ユニット２６０の更なる説明と同等の機能を有する。

電力遮断ユニット２６０は、モニタ２６２、カウンタ２６４、予測器２６６、及び、プログラム可能な構成及びステータスレジスタ（configuration and status register、ＣＳＲ）２６８を含む。様々な実施形態では、構成要素２６２～２６８は、ハードウェア回路で実装される。ある実施形態では、制御ユニットの機能は、モニタ２６２内に提供される。他の実施形態では、制御ユニットの機能は、個別のユニット内に設けられる。様々な実施形態では、ノード間のリンク２２０、２２２及び２２８を介して送信されるメッセージには、１つ以上のノードの動作状態の指標、電力遮断要求、電力遮断要求に対する電力遮断応答、電力遮断要求の撤回、割り込み、活動状態又はアイドル状態等のような、クライアント２７０の１つ以上のプロセッサの動作状態の指標、クライアント２７０の１つ以上のプロセッサの電力管理状態の指標、及び、他の情報が含まれる。単一のメッセージが、列挙された例のうち２つ以上を含むことが可能であることに留意されたい。一例では、ノード間で送信された単一のメッセージは、電力遮断応答、及び、クライアント２７０の１つ以上のプロセッサの動作状態の指標の両方を含む。単一のメッセージ内に組み合わされた列挙された例の他の組み合わせが可能であり、企図される。ある実施形態では、リンク２２０、２２２及び２２８のうち１つ以上のリンクは、２つのノード間のポイントツーポイント通信チャネルである。物理レベルにおいて、リンクは、１つ以上のレーンを含む。

電力管理のための分散型アプローチを使用すると、コンピューティングシステム２００の構成要素を電力遮断するためのネゴシエーションが、コンピューティングシステム２００のシステム全体の電力遮断を実行する前に行われる。電力遮断のためのネゴシエーションは、構成要素レベルで行われる。以下の説明は、リンクインターフェース２８４の回路によって実行されるステップについて説明するが、リンクインターフェース２８０及び２８２の回路も、同様のステップを実行することができる。ノード２１０Ａのリンクインターフェース２８４のモニタ２６２は、アイドル状態を検出することができる。ある実施形態では、アイドル状態の一例としては、ノード２１０Ａから２１０Ｂに転送するためにメッセージ及び／又はペイロードデータを格納する入力キューが空であるか、あるいはそれ以外の場合は、ノード２１０Ｂに送信するためのメッセージ又はデータを格納しない例がある。この入力キューは、電力遮断ユニット２６０及び物理ユニット２５０のうち何れか一方に配置される。更に、リンクインターフェース２８４は、データがノード２１０Ｂから受信されることを検出しない。

モニタ２６２がリンクインターフェース２８４のアイドル状態を検出し、且つ、予測器２６６が、検出されたアイドル状態が、少なくとも目標アイドル閾値期間の間、リンクインターフェース２８４がアイドル状態のままであることにつながるという予測を提供した場合、電力遮断ユニット２６０は、遅延なく、リンクインターフェース２８４の電力遮断のネゴシエーションを開始する。カウンタ２６４は、タイマーとも呼ばれる。カウンタ２６４のうち何れかは、アイドル状態の検出から開始する持続時間を測定し、電力遮断ユニット２６０の回路は、測定された持続時間が、リンクインターフェース２８４を電力遮断するための如何なる割り込みの前に、目標アイドル期間に到達したかどうかを判定する。目標アイドル期間は、（図１の）タイムライン５０内の持続時間「Ｄ１」と同等である。検出されたアイドル状態及び予測器２６６からの予測に基づいて、電力遮断ユニット２６０は、リンク電力遮断要求をリンク２２０上のノード２１０Ｂに送信して、リンクインターフェース２８４の構成要素、及び、ノード２１０Ｂ上の対応するリンクインターフェースの構成要素を電力遮断する要求を示す。

モニタ２６２がアイドル状態を検出し、且つ、予測器２６６が、検出されたアイドル状態が、少なくとも目標アイドル閾値期間の間、リンクインターフェース２８４がアイドル状態のままであることにはつながらないという予測を提供した場合に、電力遮断ユニット２６０は、待機閾値期間の間、電力遮断のネゴシエーションを遅延させる。待機閾値期間は、（図１の）タイムライン５０内の持続時間「Ｄ７」と同等である。電力遮断ユニット２６０は、リンク２２０上のノード２１０Ｂに電力遮断要求を送信する前に、待機閾値期間が経過するのを待機することによって、リンク２２０を電力遮断するためのステップ中に、その待機閾値期間を挿入する。カウンタ２６４のうち何れかは、アイドル状態の検出から開始している持続時間を測定し、電力遮断ユニット２６０の回路は、割り込みが事前に発生していない場合に、測定された持続時間が待機閾値期間にいつ到達するかを判定する。様々な実施形態では、目標アイドル期間及び待機閾値期間の各々は、ＣＳＲ２６８のプログラム可能な構成レジスタに格納される。様々な実施形態では、待機閾値期間は、目標アイドル閾値期間よりも長い。例えば、待機閾値期間の目標アイドル閾値期間に対する比は、１よりも大きい任意の正の値であり、その比は、設計要件に基づいて選択される。

モニタ２６２がリンクインターフェース２８４のアイドル状態を検出し、且つ、電力遮断ユニット２６０が、リンク２２０上でのデータ転送がない状態で目標アイドル閾値期間が経過したと判定した場合に、予測器２６６は、リンク２２０の次の検出されたアイドル状態の信頼度がより高いほど、少なくとも目標アイドル閾値期間の間、リンクインターフェース２８４がアイドル状態のままであることにつながることを示すように、電力遮断予測値を更新する。電力遮断予測値は、ＣＳＲ２６８のレジスタに格納される。ある実施形態では、電力遮断ユニット２６０は、電力遮断予測値をゼロに初期化し、モニタ２６２がリンクインターフェース２８４のアイドル状態を検出し、その後、電力遮断ユニット２６０が、リンクインターフェース２８４が少なくとも目標アイドル閾値期間の間アイドル状態のままであると判定した場合、電力遮断予測値を１だけ増加させる。しかしながら、モニタ２６２がリンクインターフェース２８４のアイドル状態を検出したが、電力遮断ユニット２６０が、リンクインターフェース２８４が少なくとも目標アイドル閾値期間の間アイドル状態のままでなかったと判定した場合、電力遮断ユニット２６０は、電力遮断予測値を２だけ減少させる。ある実施形態では、電力遮断予測値の最小値は、ゼロである。ＣＳＲ２６８は、成功閾値を記憶する。ある実施形態では、成功閾値は、４である。電力遮断ユニット２６０が電力遮断予測値を更新した後、予測器２６６は、更新された電力遮断予測値を成功閾値と比較する。この例で使用された上記の値以外の値が可能であり、初期電力遮断予測値、増分量、減分量及び成功閾値について企図されることに留意されたい。

電力遮断予測値が成功閾値以上である場合に、予測器２６６は、リンクインターフェース２８４の現在の検出されたアイドル状態が、少なくとも目標アイドル期間の間、リンクインターフェース２８４がアイドル状態のままであることにつながるという予測を提供する。例えば、バイナリロジックの高い方の値は、現在のアイドル状態について予測された「はい」を示す。他の設計では、バイナリロジックの低い方の値は、現在のアイドル状態について予測された「はい」を示す。対照的に、電力遮断予測値が成功閾値未満である場合に、予測器２６６は、リンクインターフェース２８４の現在の検出されたアイドル状態が、少なくとも目標アイドル期間の間、リンクインターフェース２８４がアイドル状態のままであることにはつながらないという予測を提供する。例えば、バイナリロジックの低い方の値は、現在のアイドル状態について予測された「いいえ」を示す。他の設計では、バイナリロジックの高い方の値は、予測された「いいえ」を示す。

また、電力遮断予測値、電力遮断予測値の増分値及び減分値、待機閾値期間２３０、目標アイドル閾値期間、並びに、成功閾値のうち１つ以上が、特定の条件の検出時にリセットされることも企図される。これらの特定の条件の例としては、特定の期間が経過した場合、新しい仕事量を検出している間等がある。上述したように、電力遮断ユニット２６０は、少なくとも電力遮断予測値、電力遮断予測値の増分値及び減分値、待機閾値期間２３０、目標アイドル閾値期間、並びに、成功閾値を使用して、電力遮断要求をリンク２２０上でノード２１０Ｂにいつ送信すべきかを判定する。リンクを電力遮断する更なるステップは、以下の説明で提供される。

図４を参照すると、マルチノードコンピューティングシステム３００の一実施形態の一般化されたブロック図が示されている。以前に説明された回路は、全く同様に番号が付されている。例示された実施形態では、ホストプロセッサ３０２は、スイッチ３０４を介して、コマンド、メッセージ及びペイロードデータをマルチノードパーティション３４０に転送する。他の実施形態では、コンピューティングシステム３００は、個別のホストプロセッサ３０２を有さず、ノード２１０Ａ～２１０Ｄ内のＣＰＵ又は他のプロセッサに依存して、タスクを互いに割り当てて、転送する。ある実施形態では、パーティション３４０は、サーバ内のマルチソケットマザーボードのソケット内に配置されたマルチチップモジュール（ＭＣＭ）である。パーティション３４０は、リンク２２０～２３０を介して互いに接続された処理ノード（又はノード）２１０Ａ～２１０Ｄを含む。リンク２２０～２３０は、（図１の）リンク１５４及び１７４について先に説明したように、複数の回線又はレーンを含む。先に説明したように、ある実施形態では、リンクインターフェースリンク２２０～２３０は、ＡｄｖａｎｃｅｄＭｉｃｒｏＤｅｖｉｃｅｓ社製のＧＰＵツーＧＰＵ相互接続のためのｘＧＭＩ相互接続等の同じ通信プロトコルをサポートする。しかしながら、他のタイプの通信プロトコルが可能であり、企図される。

通信機構、メモリインターフェース、電力コントローラ、割り込みコントローラ、及び、位相同期回路（phased locked loop、ＰＬＬ）又は他のクロック生成回路は、説明を容易にするために図示されていない。いくつかの設計では、ホストプロセッサ３０２は、汎用中央処理ユニット（ＣＰＵ）である。スイッチ３０４は、ＰＣＩｅ（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔＥｘｐｒｅｓｓ）、ＡｄｖａｎｃｅｄＭｉｃｒｏＤｅｖｉｃｅｓ社製のＩｎｆｉｎｉｔｙＦａｂｒｉｃ、及び、ＡｄｖａｎｃｅｄＭｉｃｒｏＤｅｖｉｃｅｓ社製のＩｎｆｉｎｉｔｙＡｒｃｈｉｔｅｃｔｕｒｅ等の通信プロトコルをサポートする。しかしながら、他のタイプの通信プロトコルが可能であり、企図される。

例示された実施形態では、ノード２１０Ａ～２１０Ｄは、完全に接続されているように示されているが、他の実施形態では、リンク２２０～２３０のうち１つ以上は、パーティション２４０内に含まれない。いくつかの実施形態では、コンピューティングシステム２００は、リンク２２０～２３０に加えて、ノード２１０Ａ～２１０Ｄ間の他のリンクを含む。ある実施形態では、これらの他のリンクは、サービス要求に対するデータ移送のために使用されるのに対して、リンク２２０～２３０は、コンピューティングシステム２００の構成要素の電力遮断をネゴシエーションするためのメッセージ等のメッセージ伝達のために使用される。ホストプロセッサ３０２は、プロセスのスレッド等のタスクをノード２１０Ａ～２１０Ｄに割り当てる。一例では、ホストプロセッサ３０２は、２５０個のタスクを処理ノード２１０Ａ～２１０Ｄの各々に割り当てることによって、１つ以上のソフトウェアアプリケーションの１，０００個のタスクの処理に分割する。ホストプロセッサ３０２は、タスク１～２５０をノード２１０Ａに割り当て、タスク２５１～５００をノード２１０Ｂに割り当て、タスク５０１～７５０をノード２１０Ｃに割り当て、タスク７５１～１，０００をノード２１０Ｄに割り当てる。更に、ノード２１０Ａ～２１０Ｄの各々は、他のコマンド及びタスクに加えて、ダイレクトメモリアクセス（direct memory access、ＤＭＡ）要求をノード２１０Ａ～２１０Ｄのうち別の１つに送信することができる。１つ以上のソフトウェアアプリケーションは、画像レンダリング、ニューラルネットワーク訓練、科学計算、ビジネスアプリケーション及び医療アプリケーション等の並列データアプリケーションを対象とする。コンピューティングシステム２００の性能を向上させてホストプロセッサ２０２を支援するためにそのホストプロセッサを使用する場合、いくつかの設計では、コンピューティングシステム３００は、仮想化ソフトウェアを使用する。

仮想化ソフトウェアは、仮想マシン（virtual machine、ＶＭ）オペレーティングシステムと、コンピューティングシステム３００のハードウェアとの間のインターフェースとして機能する。仮想化ソフトウェアは、複数の仮想マシンのための画像レンダリングアプリケーション用画像ドライバ等のドライバを含み、このドライバは、複数の仮想マシンが単一の物理ＧＰＵに同時に直接アクセスすることを可能にする。ここで、単一の物理ＧＰＵは、複数の仕事量の間で共有され、ホストプロセッサ３０２によって以前に実行された何らかの仕事が、ノード２１０Ａ～２１０ＤのＧＰＵに対してここで負荷軽減される。本明細書で使用される場合、「ハイブ」は、「ＶＭハイブ」とも呼ばれる。ノード２１０Ａ～２１０Ｄのうち、現在の仕事量のために使用され、ホストプロセッサ２０２からの割り当てられたタスクを受信するノードは、加入ノードと見なされる。対照的に、ノード２１０Ａ～２１０Ｄのうち、現在の仕事量のために使用されず、ホストプロセッサ３０２からの割り当てられたタスクを受信しないノードは、未加入ノードと見なされる。様々な実施形態では、リンクインターフェース、例えば、コンピューティングシステム３００のリンクインターフェース２８４は、電力管理のための分散型アプローチをサポートする。コンピューティングシステム３００における電力遮断のためのネゴシエーションは、コンピューティングシステム２００について以前説明されたステップを使用して、構成要素レベルで行われる。

先に説明したように、（図２の）コンピューティングシステム２００に関して、リンクインターフェース２８４の電力遮断ユニット２６０は、少なくとも電力遮断予測値、電力遮断予測値の増分値及び減分値、待機閾値期間、目標アイドル閾値期間、並びに、成功閾値を使用して、リンク２２０上でノード２１０Ｂに電力遮断要求をいつ送信すべきかを判定する。先に説明したように、コンピューティングシステム３００の他のリンクインターフェース、例えば、リンクインターフェース２８０及び２８２は、リンクインターフェース２８４の物理ユニット２５０及び電力遮断ユニット２６０等の構成要素を使用する。一例では、リンクインターフェース２８４と同様の構成要素２５０～２６８を有するリンクインターフェース２８０は、電力遮断の要求を送信する資格を有している。ノード２１０Ａのリンクインターフェース２８０は、リンク２２２上でノード２１０Ｃにその要求を送信する。

ノード２１０Ａのリンクインターフェース２８０が、ノード２１０Ｃのリンクインターフェースから、電力遮断要求が許可されたという電力遮断応答を受信した場合、ノード２１０Ａのリンクインターフェース２８０及びノード２１０Ｃの対応するリンクインターフェースは、リンク２２２を電力遮断するステップの実行に進む。この時点は、（図１の）タイムライン５０内の持続時間「Ｄ３」の開始と同等である。電力遮断動作は、ノード２１０Ａ及び２１０Ｃ内のプロセッサ又は他のクライアントが依然として活動状態であるかどうかにかかわらず、リンク２２２のリンクインターフェースに対して実行される。ある実施形態では、リンクインターフェース２８０は、電力遮断応答とともに、ノード２１０Ｃの１つ以上のクライアントの動作状態の指標を受信する。更に、リンクインターフェース２８０が１つ以上のクライアント２７０の動作状態の指標と共に電力遮断要求を送信することが可能である。更に、ノード２１０Ａが、ノード２１０Ａ及びノード２１０Ｃ内のクライアントの動作状態及び／又は電力管理状態の指標を含む通知を、ノード２１０Ｂ、ノード２１０Ｄ及びホストプロセッサ３０２のうち１つ以上に送信することが企図される。したがって、ノード２１０Ａ及び２１０Ｃのうち１つ以上のプロセッサが活動状態である間、リンク２２２を電力遮断することが可能である。先に説明したように、リンク２２２の物理層が電力遮断されているのに対して、リンク２２２の通信層は電力投入されたままである。同様の分散型アプローチが、リンク２２０についてはノード２１０Ａ及び２１０Ｂによって、リンク２２４についてはノード２１０Ｃ及び２１０Ｄによって、リンク２２６についてはノード２１０Ｂ及び２１０Ｄ等によってサポートされる。

いくつかの設計では、ノード２１０Ａの電力コントローラは、ノード２１０Ａのリンク２２０、２２２及び２２８の閾値の数のリンクが電力遮断されたかどうかをモニタリングする。一例では、閾値の数のリンクは２つであり、リンク２２０及び２２２が電力遮断されている。この例では、リンク２２８は、ノード２１０Ａに対して、依然として電力投入されている。各リンクではなく閾値の数のリンクがノード２１０Ａについて電力遮断され、ノード２１０Ａのプロセッサが、実行すべき残りのタスクを有することを示している場合、ある実施形態では、ノード２１０Ａの電力コントローラは、プロセッサの電力管理状態をより高い性能の電力管理状態に変更する。いくつかの例では、より高い性能の電力管理状態への移行／変更は、第１のＰ状態からより高い性能の第２のＰ状態への移行である。他の例では、より高い性能の電力管理状態への移行／変更は、Ｃ状態からＰ状態への移行である。閾値の数のリンクが電力を消費していない間、ノード２１０Ａのプロセッサは、より高い性能の電力管理状態でタスクを実行することができる。

リンク２２０、２２２及び２２８の各々がノード２１０Ａに対して電力遮断され、ノード２１０Ａのプロセッサがアイドル状態であると示している場合、ある実施形態では、ノード２１０Ａの電力コントローラは、外部ノード内のプロセッサが活動状態であるかどうかにかかわらずノード２１０Ａの構成要素を電力遮断する。例えば、ノード２１０Ａの電力コントローラは、ノード２１０Ｂ、２１０Ｃ及び２１０Ｄ内のプロセッサが活動状態又はアイドル状態であるかどうかにかかわらずノード２１０Ａを電力遮断する。ノード２１０Ａの電力コントローラは、ノード２１０Ａの通信機構の電力管理状態を、より低い性能の電力管理状態に変更する。いくつかの例では、より低い性能の電力管理状態への移行／変更は、第１のＰ状態からより低い性能の第２のＰ状態への移行である。他の例では、より低い性能電力管理状態への移行／変更は、Ｐ状態からＣ状態への移行である。いくつかの実施形態では、より低い性能の電力管理状態への移行／変更は、ＤＲＡＭによって実装されるメモリ等のシステムメモリが自己リフレッシュモードに入ることができることを示している。ノード２１０Ｂ～２１０Ｄの電力コントローラは、ノード２１０Ａの電力コントローラと同様の方法で動作する。いくつかの実施形態では、ノード２１０Ａは、通信層上で、ノード２１０Ｂ～２１０Ｄのうち１つ以上及びホストプロセッサ３０２に、ノード２１０Ａが電力遮断する予定であるというメッセージを送信する。

リンク２２０～２３０にわたるデータ転送は、ノード２１０Ａ～２１０Ｄが実行する仕事量のタイプに起因して経時的に変化する。一例では、ノード２１０Ａ～２１０Ｄは、ニューラルネットワークを訓練するタスクを実行する。この訓練は、計算フェーズと通信フェーズとの間の断続的な移行を含む。計算フェーズの間、ノード２１０Ａ～２１０Ｄのプロセッサは、（図１の）メモリ１３２等のローカルシステムメモリに格納されたデータを使用してタスクを処理する。計算フェーズの間、ノード２１０Ａ～２１０Ｄの電力コントローラ及びリンクインターフェースは、分散された個別の基準で未使用リンク２２０～２３０を電力遮断する。先に説明したように、少なくとも閾値の数のリンクがノード２１０Ａ～２１０Ｄのうち特定のノード、例えば、ノード２１０Ａについて電力遮断されている間、ノード２１０Ａの電力コントローラは、ノード２１０Ａの１つ以上のプロセッサの電力管理状態を、ニューラルネットワーク仕事量の計算フェーズを実行するためのより高い性能の電力管理状態に変更する。いくつかの実施形態では、ノード２１０Ａは、ノード２１０Ａのプロセッサの新しいより高い性能の電力管理状態及び／又は新しい動作状態の指標を含むメッセージを、ノード２１０Ｂ～２１０Ｄのうち１つ以上の活動状態ノードにも送信する。計算フェーズが終了した後、ノード２１０Ａ～２１０Ｄは、共有すべき更新された重み値を有する。リンク２２０～２３０の通信層を利用して、ノード２１０Ａ～２１０Ｄの電力コントローラ及びリンクインターフェースは、電力遮断されていたリンク２２０～２３０のうちいくつかのリンクを電力投入する。それらのリンクが再び電力投入されると、ノード２１０Ａ～２１０Ｄは、通信フェーズ中に、更新された重み値を互いに送信する。

いくつかの設計では、ホストプロセッサ３０２の電力コントローラは、閾値の数のノード２１０Ａ～２１０Ｄが電力遮断されたかどうかをモニタリングする。一例では、閾値の数のリンクは２つであり、ノード２１０Ａ及び２１０Ｂが電力遮断されているのに対して、ノード２１０Ｃ及び２１０Ｄが電力投入されたままである。リンク２２８は，依然として、ノード２１０Ａに対して電力投入されている。各ノードではなく閾値の数のノードが電力遮断され、ホストプロセッサ３０２が、実行すべき残りのタスクを有することを示している場合、ある実施形態では、ホストプロセッサ３０２の電力コントローラは、ホストプロセッサ２０２の電力管理状態を、より高い性能の電力管理状態に変更する。閾値の数のノードがコンピューティングシステム３００内で電力を消費していないため、ホストプロセッサ３０２は、より高い性能の電力管理状態でタスクを実行することができる。ノード２１０Ａ～２１０Ｄの各々が電力遮断され、ホストプロセッサ３０２がそのノードがアイドル状態であることを示す場合、ある実施形態では、ホストプロセッサ３０２の電力コントローラは、ホストプロセッサ３０２及びその対応するメモリを電力遮断する。

図５を参照すると、マルチノードコンピューティングシステムの電力管理を実行するための方法４００の一実施形態が示されている。説明目的のため、この実施形態（並びに、図６～図８）におけるステップが順番に示されている。しかしながら、説明される方法の様々な実施形態では、記載された要素のうち１つ以上が、図示された順番とは異なる順番で同時に実行されてもよいし、全体的に省略されてもよいことに留意されたい。必要に応じて、他の追加の要素も実行される。本明細書に記載の様々なシステム又は装置の何れも、方法４００を実施するように構成されている。

２つ以上のノードが、コンピューティングシステムのパーティション内に配置される。これらのノードは、１つ以上のプロセッサ、ローカルメモリ、電力コントローラ、及び、リンクを介して他のノードにメッセージを転送するための複数のリンクインターフェースを含む。ある実施形態では、ホストプロセッサが、タスクをノードのプロセッサに割り当てる。様々な設計では、ホストプロセッサは、汎用ＣＰＵである。他の実施形態では、アプリケーションが個別のノード上で実行され、ノード内のＣＰＵは、タスクを、ノード内のＧＰＵ等の並列データプロセッサに割り当てる。更に、ノードの各々は、ダイレクトメモリアクセス（ＤＭＡ）要求、並びに、他のコマンド及びタスクを、ノードのうち別の１つのノードに送信することができる。ノードが電力遮断されるが、そのノードが現在の仕事量にとって必要とされる場合、ホストプロセッサ及び活動状態である別のノードのうち１つ以上は、電力遮断されたノードに電力投入要求を送信する。一例では、ホストプロセッサは、電力遮断されたノードのリンクの通信層上で転送される電力投入要求の指標を送信する。別の例では、別の活動状態のノードが、ダイレクトメモリアクセス（ＤＭＡ）要求を、電力遮断されたノードのプロセッサ、例えば、ＧＰＵのメモリに送信する。いくらかの仕事量について、各ノードは、その仕事量に対して活動状態となり、ホストプロセッサ及び別の活動状態ノードのうち１つ以上から割り当てられたタスクを受信する。他の仕事量について、１つ以上のノードは使用されず、割り当てられたタスクを受信しない。これらのノード及び対応するリンクは、アイドル状態になり、測定されたアイドル時間に基づいて、電力遮断する資格を得る。タスクがノードのプロセッサに割り当てられる方法にかかわらず、仕事量のために使用されないノードのリンクを電力遮断するためのステップは、その仕事量で使用されるノードのリンクを電力遮断するためのステップと同様であるが、そのリンクは、計算フェーズ中又はタスクの完了時にアイドル状態になる。これらのステップは、以下に更に説明される。

タスクが割り当てられているノードのプロセッサは、そのタスクを処理する（ブロック４０２）。様々な設計では、ノードは、画像処理ユニット（ＧＰＵ）を使用し、そのノードは、ＧＰＵを利用してタスクを処理する不均一メモリアクセス（ＮＵＭＡ）ノードである。ノードのリンクインターフェースは、モニタを使用して、リンクインターフェース上のデータ転送をモニタリングする（ブロック４０４）。リンクインターフェースのアイドル状態の一例としては、別のノードに転送するためのメッセージ及び／又はペイロードデータを格納するリンクインターフェースの入力キューが空であること、又は、それ以外では、入力キューが別のノードに送信するためのメッセージ又はデータを格納しないことである。更に、リンクインターフェースは、データが別のノードから受信されていないことを検出する。リンクインターフェースの回路がアイドル状態を検出しない場合（条件付きブロック４０６の「いいえ」）、方法４００の制御フローは、ノードがタスクを処理するブロック４０２に戻る。

リンクインターフェースの回路がアイドル状態を検出したが（条件付きブロック４０６の「はい」）、リンクインターフェースの回路が、アイドル状態が、少なくとも目標アイドル閾値期間の間、リンクインターフェースがアイドル状態のままであることにつながると予測しない場合（条件付きブロック４０８の「いいえ」）、リンクインターフェースは、リンクインターフェースを電力遮断しようと試みる前に、待機閾値期間が経過するのを待機することを開始する（ブロック４１０）。様々な実施形態では、待機閾値期間は、目標アイドル閾値期間よりも長い。様々な実施形態では、目標アイドル閾値期間に対する待機閾値期間の比は、１よりも大きい任意の正の値であり、この比は、設計要件に基づいて選択される。目標閾値期間及び待機閾値期間は、（図１の）タイムライン５０内の持続時間「Ｄ１」及び「Ｄ７」と同等である。

リンクインターフェースが、そのリンクインターフェースが目標アイドル閾値期間の間アイドル状態のままであることを妨げる割り込みを検出した場合（条件付きブロック４１２の「はい」）、方法４００の制御フローは、ブロック４０２に戻り、そこでは、ノードのプロセッサは、割り当てられたタスクを処理する。これらの割り込みの例には、リンクインターフェースの入力キューに格納するために同じノードのプロセッサから到達するメッセージ、別のノードから到達するメッセージ、及び、電力遮断要求の拒否を指定する指標とともに到達するメッセージがある。リンクインターフェースが、そのリンクインターフェースが目標アイドル閾値期間の間アイドル状態のままであることを妨げる割り込みを検出しなかったが（条件付きブロック４１２の「いいえ」）、待機閾値期間が経過していない場合（条件付きブロック４１４の「いいえ」）、リンクインターフェースは、待機することを継続し、方法４００の制御フローは、条件付きブロック４１２に戻る。しかしながら、リンクインターフェースが、そのリンクインターフェースが目標アイドル閾値期間の間アイドル状態のままであることを妨げる割り込みを検出せず（条件付きブロック４１２の「いいえ」）、待機閾値期間が経過した場合（条件付きブロック４１４の「はい」）、リンクインターフェースは、待機閾値期間が経過するのを待機せずに、リンクインターフェースを電力遮断することを要求するためのステップの実行を開始する（ブロック４１６）。様々な実施形態では、リンクインターフェースは、必ずしも待機せずに、リンクインターフェースを電力遮断することを要求するためのステップの実行を開始する。（図１の）タイムライン５０を簡単に参照すると、リンクインターフェースは、ケース３において、持続時間「Ｄ７」から持続時間「Ｄ２」の開始に移行する。

リンクインターフェースがアイドル状態を検出し（条件付きブロック４０６の「はい」）、リンクインターフェースが、アイドル状態が、少なくとも目標アイドル閾値期間の間、そのリンクインターフェースがアイドル状態のままであることにつながると予測した場合（条件付きブロック４０８の「はい」）、リンクインターフェースは、更なる時間が経過するのを待機することなく、リンクインターフェースを電力遮断することを要求するためのステップの実行を開始する（ブロック４１６）。（図１の）タイムライン５０を簡単に参照すると、リンクインターフェースは、ケース１及びケース２について示されているように、時間ｔ１で電力遮断メッセージ伝達を開始する。いくつかの実施形態では、持続時間「Ｄ２」内の電力遮断メッセージ伝達中に実行されるステップは、電力遮断要求の指標、電力遮断応答（受諾／許可、拒否）の指標、電力遮断応答（受諾／許可、拒否）の確認応答、電力遮断要求の撤回、ノードのクライアントのうちの１つ以上のアイドル／活動ステータスの指標を有するメッセージ、及び、対応するリンクインターフェースのアイドル／活動ステータスの指標を有するメッセージ、のうち１つ以上等のメッセージを送信することを含む。これらのメッセージの送信中に、リンクインターフェース及び他の対応するリンクインターフェースが、それらが電力遮断の準備ができていると判定した場合に、電力遮断動作の開始の指標を含むメッセージが送信される。（図１の）タイムライン５０を簡単に参照すると、この時点は、持続時間「Ｄ２」から持続時間「Ｄ３」への移行と同等である。リンクインターフェースが目標アイドル閾値期間の間アイドル状態のままであったか否かを使用して、以下の考察で更に説明されるように、リンクインターフェース内の予測器を更新する。

ここで、図６を参照すると、マルチノードコンピューティングシステムの電力管理を実行するための方法５００の一実施形態が示されている。２つ以上のノードが、コンピューティングシステムのパーティション内に配置され、タスクがそのノードに割り当てられる。ノードのリンクインターフェースが、アイドル状態を検出する（ブロック５０２）。リンクインターフェースが、目標アイドル閾値期間が経過したことを検出せず（条件付きブロック５０４の「いいえ」）、リンクインターフェースが、そのリンクインターフェースが目標アイドル閾値期間の間アイドル状態のままであることを妨げる割り込みを検出していない場合（条件付きブロック５０６の「いいえ」）、リンクインターフェースは、待機することを継続し、方法５００の制御フローは、条件付きブロック５０４に戻る。目標アイドル閾値期間は、（図１の）タイムライン５０の持続時間「Ｄ１」と同等である。

リンクインターフェースが、目標アイドル閾値期間が経過したことを検出せず（条件付きブロック５０４の「いいえ」）、リンクインターフェースが、そのリンクインターフェースが目標アイドル閾値期間の間アイドル状態のままであることを妨げる割り込みを検出した（条件付きブロック５０６の「はい」）場合、リンクインターフェースは、そのリンクインターフェースが目標アイドル閾値期間の間アイドル状態のままであるというより低い信頼度を示すように、電力遮断予測値を更新する（ブロック５０８）。一例では、特定のリンクインターフェースは、（図３の）電力遮断ユニット２６０の説明中に先に説明したように、電力遮断予測値を減少させる。リンクインターフェースが、目標アイドル閾値期間が経過したことを検出した場合（条件付きブロック５０４の「はい」）、リンクインターフェースは、そのリンクインターフェースが目標アイドル閾値期間の間アイドル状態のままであるというより高い信頼度を示すように、電力遮断予測値を更新する（ブロック５１０）。一例では、特定のリンクインターフェースは、（図３の）電力遮断ユニット２６０の説明中に先に説明したように、電力遮断予測値を増加させる。

特定のリンクインターフェースは、電力遮断予測値を成功閾値と比較する。電力遮断予測値が成功閾値未満である場合（条件付きブロック５１２の「はい」）、その特定のリンクインターフェースは、そのリンクインターフェースの次の検出されたアイドル状態が、閾値期間の間、リンクインターフェースがアイドル状態のままであることにはつながらないことを示すように、予測を更新する（ブロック５１４）。それ以外の場合では、電力遮断予測値が成功閾値以上である場合（条件付きブロック５１２の「いいえ」）、その特定のリンクインターフェースは、そのリンクインターフェースの次の検出されたアイドル状態が、閾値期間の間、リンクインターフェースがアイドル状態のままであることにつながることを示すように、予測を更新する（ブロック５１６）。

様々な実施形態では、パラメータ、例えば、目標アイドル閾値期間、待機閾値期間、電力遮断予測値更新の量、及び、成功閾値は、コンピューティングシステムが様々な仕事量を処理する間のコンピューティングシステムの試験中に判定される。いくつかの実施形態では、リンクインターフェースは、更なる調整を行うことなく、これらのパラメータの判定された値を使用する。他の実施形態では、リンクインターフェースは、回路内に、特定の仕事量のタイプを識別する識別子と、パラメータの一組の値との間のマッピングを記憶する。したがって、リンクインターフェースは、処理すべき現在の仕事量に基づいて、パラメータの動的な調整を可能にする。割り当てられたタスクを受信する場合、ノードは、仕事量のタイプの指標も受信し、ノードのリンクインターフェースは、分散型電力管理のために使用される上記のパラメータを更新することができる。

図７を参照すると、マルチノードコンピューティングシステムの電力管理を実行するための方法６００の一実施形態が示されている。２つ以上のノードが、コンピューティングシステムのパーティション内に配置され、タスクがそのノードに割り当てられる。第１のノードのアイドル状態の第１のリンクインターフェースが、電力遮断を開始する時間であると判定する（ブロック６０２）。例えば、第１のリンクインターフェースの回路は、状態が（図５の）先の方法４００のブロック４１６と同等である状態に到達したと判定している。例えば、第１のリンクインターフェースの回路は、アイドル状態が検出されたことと、アイドル状態が、目標アイドル閾値期間の間、第１のリンクインターフェースがアイドル状態のままであることにつながると予測することと、の両方を判定している。第１のリンクインターフェースは、対応するリンク上で要求を送信して、第１のノードの第１のリンクインターフェース、及び、そのリンクの他方の側の第２のノードの第２のリンクインターフェースを電力遮断する（ブロック６０４）。第１のリンクインターフェースは、電力遮断要求を第２のリンクインターフェースに送信する。この電力遮断要求は、（図１の）タイムライン５０の持続時間「Ｄ２」の電力遮断メッセージ伝達において使用されるメッセージと同等のメッセージである。持続時間「Ｄ２」（電力遮断メッセージ伝達の持続時間）中に使用される様々なタイプの電力遮断メッセージの例が、（図１の）タイムライン５０、（図２の）リンクインターフェース２８４及びマルチノードコンピューティングシステムの電力管理を実行するための（図４の）方法４００についての先の説明内において提供されている。電力遮断要求を送信することによって、第１のリンクインターフェースは、タイムライン５０の持続時間「Ｄ２」中に発生する電力遮断メッセージ伝達を開始している。方法６００の説明は、電力遮断メッセージ伝達を開始する第１のリンクインターフェースを有するが、第２のリンクインターフェースは、第１のリンクインターフェースと第２のリンクインターフェースとの間の電力遮断メッセージ伝達を開始することが可能であり、企図されることに留意されたい。言い替えると、（図１の）ノード１０Ａ～１０Ｂのリンクインターフェースと同様に、第１のリンクインターフェース及び第２のリンクインターフェースの各々は、リンクインターフェースの電力遮断を開始すること、及び、方法６００について説明されたステップを実行することを可能にする。

第１のリンクインターフェースが、その第１のリンクインターフェースが目標アイドル閾値期間の間アイドル状態のままであることを妨げる割り込みを検出した場合（条件付きブロック６０６の「はい」）、第１のリンクインターフェースは、第１のノードと第２のノードとの間のリンク接続を維持する（ブロック６０８）。先に説明したように、これらの割り込みの例には、第１のリンクインターフェースの入力キューに格納されるための、同じノードのプロセッサから到達するメッセージ、別のノードから到達するメッセージ及び電力遮断要求の拒否を指定する指標とともに到達するメッセージがある。いくつかの実施形態では、第１のリンクインターフェースは、電力遮断要求の撤回を示すメッセージを第２のリンクインターフェースに送信する。

第１のリンクインターフェースが、その第１のリンクインターフェースが目標アイドル閾値期間の間アイドル状態のままであることを妨げる割り込みを検出しないが（条件付きブロック６０６の「いいえ」）、第１のリンクインターフェースが、第２のリンクインターフェースの電力遮断の準備ができていることを示す電力遮断応答を受信していない場合（条件付きブロック６１０の「いいえ」）、方法６００の制御フローは、条件付きブロック６０６に戻り、そこでは、第１のリンクインターフェースは、第２のリンクインターフェースからの応答を待機し続ける。第１のリンクインターフェースが待機している間、そのリンクインターフェースは、リンクを介して送信するメッセージを格納するために使用されるキュー、及び、リンクから受信されたメッセージを格納するために使用されるキューをモニタリングする。

第１のリンクインターフェースが待機している間、第２のリンクインターフェースは、第１のリンクインターフェースから電力遮断要求を受信し、それが活動動作状態又はアイドル動作状態を有するかどうかを判定する。第２のリンクインターフェースが、それが活動状態であると判定した場合、第２のリンクインターフェースは、第１のリンクインターフェースからの電力遮断要求を拒否する電力遮断応答等のメッセージを送信する。ある実施形態では、そのメッセージは、第２のリンクインターフェースの活動動作状態の指標を含む。第２のリンクインターフェースが、それがアイドル状態であると判定した場合、第２のリンクインターフェースは、第１のリンクインターフェースからの電力遮断要求を受諾／許可する電力遮断応答等のメッセージを送信する。ある実施形態では、そのメッセージは、第２のリンクインターフェースのアイドル動作状態の指標を含む。いくつかの実施形態では、このタイプのメッセージを送信した後、第２のリンクインターフェースは、電力遮断動作の実行を開始する。他の実施形態では、第２のリンクインターフェースは、電力遮断を継続することを示す、第１のリンクインターフェースからの確認応答を待機する。この時点は、（図１の）タイムライン５０内の持続時間「Ｄ３」の開始と同等である。

第１のリンクインターフェースが、その第１のリンクインターフェースが目標アイドル閾値期間の間アイドル状態のままであることを妨げる割り込みを検出せず（条件付きブロック６０６の「いいえ」）、第１のリンクインターフェースが、第２のリンクインターフェースの電力遮断の準備ができていることを示す電力遮断応答を受信した場合（条件付きブロック６１０の「はい」）、第１のリンクインターフェース及び第２のリンクインターフェースは、電力遮断する（ブロック６１２）。この電力遮断応答は、（図１の）タイムライン５０の持続時間「Ｄ２」の電力遮断メッセージ伝達で使用されるメッセージと同等であるメッセージである。更に、方法６００のブロック６１２に到達することは、（図１の）タイムライン５０内の持続時間「Ｄ２」から持続時間「Ｄ３」への移行と同等であり、１つ以上の電力遮断動作が開始される。先に説明したように、第１のリンクインターフェースを電力遮断することには、ドライバを無効にすること、１つ以上のクロック信号を無効にすること、第１のリンクインターフェースの１つ以上の構成要素への電力供給を無効にすること、及び、１つ以上の構成要素をスリープモード又は最低性能の電力管理状態に移行させること、のうち１つ以上が含まれる。様々な実施形態では、第１のリンクインターフェースは、通信層の低速データ回線の現在の動作状態を維持しながら、物理層の高速データ回線に対応する構成要素を電力遮断する。

第２のリンクインターフェースが、電力遮断を受諾／許可する電力遮断応答を送信する場合に、第１のリンクインターフェースは、第１のノード及び第２のノード内のクライアントが活動状態又はアイドル状態であるかどうかにかかわらず電力遮断する。ある実施形態では、第１のリンクインターフェースは、第２のノードからの電力遮断応答とともに、第２のノードの１つ以上のクライアントの動作状態の指標を受信する。一例では、第２のノードの少なくとも１つのクライアントが活動状態である場合に、電力遮断応答内の指標は、第２のノードの活動ステータスを指定する。対照的に、第２のノードの各クライアントがアイドル状態である場合に、電力遮断応答内の指標は、第２のノードのアイドルステータスを指定する。更に、第１のリンクインターフェースが、先の電力遮断要求において、第１のノードの１つ以上のクライアントの動作状態の指標を送信することが可能である。いくつかの設計では、その指標は、電力遮断応答について説明された指標と同様である。更に、第１のノード及び第２のノードのうち１つ以上は、第１のノード及び第２のノードのうちの１つ以上におけるクライアントの動作状態の指標を含む（メッセージ内の）通知を１つ以上の他のノードに送信することが企図される。これらの指標は、以下の考察で説明されるように、ノードを電力遮断すべきかどうかを判定するために使用される。

図８を参照すると、マルチノードコンピューティングシステムの電力管理を実行するための方法７００の一実施形態が示されている。複数のノードのプロセッサは、割り当てられたタスクを処理する（ブロック７０２）。複数のノードのうち第１のノードが、第１のノードのリンクインターフェースが電力遮断されていると判定しない場合（条件付きブロック７０６の「いいえ」）、パーティションの活動状態ノードは、残りのタスクを処理し続ける（ブロック７０８）。その後、方法７００の制御フローは、条件付きブロック７０６に戻る。複数のノードのうち第１のノードが、第１のノードのリンクインターフェースが電力遮断されているが（条件付きブロック７０６の「はい」）、第１のノードのプロセッサが活動状態である（条件付きブロック７１０の「いいえ」）と判定した場合、第１のノードの電力コントローラは、プロセッサの電力管理状態をより高い性能の電力管理状態に変更する（ブロック７１２）。その後、方法７００の制御フローは、ブロック７０８に移動し、そこでは、パーティションの活動状態ノードは、残りのタスクを処理し続ける。各リンクではなく閾値の数のリンクがノードに対して電力遮断され、プロセッサが、実行するべき残りのタスクを有することを示している場合、ある実施形態では、第１のノードの電力コントローラは、プロセッサの電力管理状態をより高い性能の電力管理状態に変更することに留意されたい。閾値の数のリンクは、電力を消費していないため、プロセッサは、より高い性能の電力管理状態でタスクを実行することができる。

複数のノードのうち第１のノードが、第１のノードのリンクインターフェースが電力遮断され（条件付きブロック７０６の「はい」）、第１のノードのクライアントがアイドル状態である（条件付きブロック７１０の「はい」）と判定した場合、第１のノードは、その第１のノードがアイドル状態であることを指定する指標を、パーティションの１つ以上の他のノードのプロセッサに送信する（ブロック７１４）。いくつかの実施形態では、高速物理層が電力遮断されているため、第１のノードは、通信層上で、その第１のノードのクライアントの活動ステータスからアイドルステータスへの移行の指標を送信する。第１のノードの電力コントローラは、第１のノードのクライアント及び他の構成要素を電力遮断する（ブロック７１６）。例えば、ローカルメモリが自己リフレッシュモードに置かれ、１つ以上のクロック信号が第１のノードのプロセッサに対して無効にされ、プロセッサの１つ以上の電力供給がゲート制御される。場合によっては、第１のノードは、電力管理のための分散型アプローチをサポートする、コンピューティングシステム内で電力遮断する最後に残っているノードである。他の場合には、第１のノードは、コンピューティングシステム内で電力遮断するために最後に残っているノードではないが、１つ以上の他の活動状態ノードは、第１のノードが、ブロック７１４において送信された指標により、電力遮断されていることを認識している。タスクを処理するために第１のノードが再度必要とされる場合に、第１のノードは、割り当てられたタスクの準備ができていることを指定する指標を受信し、第１のノードは、電力投入ステップを実行する。そのような時点において、ブロック７０２のステップは、タスクを処理する１つ以上の活動状態ノードのうち何れかである第１のノードを用いて再度実行される。

図９を参照すると、マルチノードコンピューティングシステム９００の一実施形態の一般化されたブロック図が示されている。先に説明された回路は、全く同様に番号付けされている。例示された実施形態では、ホストプロセッサ３０２は、スイッチ３０４を介して、コマンド、メッセージ及びデータを、マルチノードパーティション３４０及びマルチノードパーティション９４０に転送する。いくつかの実施形態では、パーティション３４０及び９４０の各々は、サーバ内のマルチソケットマザーボードのソケット内に配置されたマルチチップモジュール（ＭＣＭ）である。２つのパーティションが図示されているが、他の実施形態では、コンピューティングシステム９００は、別の数のパーティションを含む。

様々な実施形態では、パーティション２４０の処理ノード２１０Ａ～２１０Ｄの各々、及び、パーティション６４０の処理ノード９１０Ａ～９１０Ｄの各々は、（図２の）処理ノード１００について先に説明された機能を有する。ある実施形態では、リンク９２０～９３０、９３２及び９３４は、リンク２２０～２３０によってサポートされるものと同じ通信プロトコルをサポートする。いくつかの設計では、ノード２１０Ａ～２１０Ｄ及びノード９１０Ａ～９１０Ｄは、タスクを処理するためのＧＰＵを利用する不均一メモリアクセス（ＮＵＭＡ）ノードである。様々な実施形態では、コンピューティングシステム９００は、（図２～図４の）コンピューティングシステム１００～３００について先に説明したように、電力管理のための分散型アプローチを使用する。いくつかのケースでは、リンク９３２及び９３４のうち１つ以上が電力遮断されているのに対し、パーティション３４０及び９４０のリンク及びノードのうちの１つ以上は電力投入されたままである。場合によっては、パーティション３４０及び９４０のうち一方が電力遮断されているのに対し、パーティション３４０及び９４０のうち他の１つは電力投入されたままである。

図１０を参照すると、マルチノードコンピューティングシステム１２００の別の実施形態の一般化されたブロック図が示されている。様々な実施形態では、処理ノード（又はノード）１２１０Ａ～１２１０Ｈの各々は、（図２の）処理ノード１００、（図３～図４の）ノード２１０Ａ～２１０Ｄ、及び、（図１０の）ノード９１０Ａ～９１０Ｄについて先に説明された機能を有する。更に、リンク１２２０～１２３４の各々は、（図３の）リンクインターフェース２８０～２８４等の付随するリンクインターフェースを有する（図３の）リンク２２０～２３０と同等の機能を有する。いくつかの実施形態では、コンピューティングシステム１２００は、リンク１２２０～１２３４に加えて、ノード１２１０Ａ～１２１０Ｈ間に他のリンクを含む。これらの他のリンク（図示省略）は、データ通信のために使用されるのに対し、リンク１２２０～１２３４は、電力管理メッセージ伝達のために使用される。したがって、ある実施形態では、これらの他のリンクは、サービス要求へのデータ移送のために使用されるのに対し、リンク１２２０～１２３４は、集中型システム全体の電力遮断及び分散型構成要素レベルの電力遮断をネゴシエーションするためのメッセージ等のメッセージ伝達のために使用される。

例示された実施形態では、ノード１２１０Ａは、コンピューティングシステム１２００のルートノード（マスターノード）であるのに対し、ノード１２１０Ｇ及びノード１２１０Ｈの各々は、リーフノードである。ノード１２１０Ｂ～１２１０Ｆの各々は、ルートノード１２１０Ａと、リーフノード１２１０Ｇ～１２１０Ｈとの間の中間ノードである。したがって、リングデータ通信トポロジーが使用される。様々な実施形態では、コンピューティングシステム９００は、（図２～図４の）コンピューティングシステム１００～３００について先に説明したように、電力管理のための分散型アプローチを使用する。

様々な実施形態では、ソフトウェアアプリケーションのプログラム命令を使用して、以前に説明された方法及び／又はメカニズムを実装する。それらのプログラム命令は、Ｃ言語等の高級プログラミング言語でハードウェアの挙動を記述する。あるいは、Ｖｅｒｉｌｏｇ等のハードウェア設計言語（ＨＤＬ）が使用される。それらのプログラム命令は、非一時的なコンピュータ可読記憶媒体に格納される。多数のタイプの記憶媒体が利用可能である。記憶媒体は、使用中、コンピューティングシステムによってアクセス可能であり、その結果、プログラム実行のために、プログラム命令及び付随するデータをコンピューティングシステムに提供する。コンピューティングシステムは、少なくとも１つ以上のメモリと、プログラム命令を実行する１つ以上のプロセッサと、を含む。

上述した実施形態は、単に非限定的な実施態様の例であることを強調しておきたい。上記の開示が十分に理解されると、多数の変形及び修正が当業者に明らかになるであろう。以下の特許請求の範囲は、全てのそのような変形及び修正を包含すると解釈されることが意図されている。

Claims

コンピューティングシステムであって、
第１のパーティションであって、タスクを処理するように構成された複数のノードと、前記複数のノード間の複数のリンクと、を含む第１のパーティションを備え、
前記複数のノードのうち第１のノードは、前記第１のノードと第２のノードとの間の前記複数のリンクのうち第１のリンク上でデータを転送するように構成された前記第１のノードの第１のリンクインターフェースの電源遮断を、
前記第１のリンクインターフェースのアイドル状態が発生したことと、
前記アイドル状態が、少なくとも目標アイドル閾値期間の間、前記第１のリンクインターフェースがアイドル状態のままであることにつながるという予測と、
を判定したことに応じて開始するように構成されている、
コンピューティングシステム。
前記第１のノードは、前記目標アイドル閾値期間よりも長い待機閾値期間の間、前記第１のリンクインターフェースの電力遮断の開始を、
前記第１のリンクインターフェースの前記アイドル状態が発生したことと、
前記アイドル状態が、少なくとも前記目標アイドル閾値期間の間、前記第１のリンクインターフェースがアイドル状態のままであることにつながらないという予測と、
を判定したことに応じて遅延させるように更に構成されている、
請求項１のコンピューティングシステム。
前記第１のノードは、
前記アイドル状態が、少なくとも前記目標アイドル閾値期間の間、前記第１のリンクインターフェースがアイドル状態のままであることにつながるより高い信頼度を示すために、電力遮断予測値を、
前記目標アイドル閾値期間が経過する前に、前記第１のリンクインターフェースが前記目標アイドル閾値期間の間アイドル状態のままであることを妨げる割り込みが発生していないと判定したことに応じて、更新するように更に構成されている、
請求項１のコンピューティングシステム。
前記第１のノードは、
前記アイドル状態が、少なくとも前記目標アイドル閾値期間の間、前記第１のリンクインターフェースがアイドル状態のままであることにつながるより低い信頼度を示すために、電源遮断予測値を、
前記目標アイドル閾値期間が経過する前に、前記第１のリンクインターフェースが前記目標アイドル閾値期間の間アイドル状態のままであることを妨げる割り込みが発生したと判定したことに応じて、更新するように更に構成されている、
請求項３のコンピューティングシステム。
前記割り込みが発生したと判定するために、前記第１のノードは、メッセージが、前記第１のリンク上で送信するための前記第１のインターフェースに到達したと判定するように更に構成されている、
請求項４のコンピューティングシステム。
前記第１のリンクインターフェースは、
前記電力遮断予測値が閾値未満であると判定したことに応じて、前記第１のリンクインターフェースの次の検出されたアイドル状態が、前記閾値期間の間、前記第１のリンクインターフェースがアイドル状態のままであることにつながらないことを示すように予測を更新するように更に構成されている、
請求項４のコンピューティングシステム。
前記第１のリンクインターフェースは、
前記電力遮断予測値が閾値以上であると判定したことに応じて、前記第１のリンクインターフェースの次の検出されたアイドル状態が、前記閾値期間の間、前記第１のリンクインターフェースがアイドル状態のままであることにつながることを示すように予測を更新するように更に構成されている、
請求項４のコンピューティングシステム。
前記コンピューティングシステムは、第２のパーティションを更に備え、
前記第１のパーティションが、前記第１のパーティションの各ノードが電力遮断されていると判定したことに応じて、前記第２のパーティションが１つ以上の活動状態ノードを有する間に、前記第１のパーティションの残りの構成要素を電力遮断するように構成されている、
請求項１のコンピューティングシステム。
方法であって、
第１のパーティションが複数のタスクを処理することであって、前記第１のパーティションは、タスクを処理するように構成された複数のノードと、前記複数のノード間の複数のリンクと、を含む、ことと、
前記複数のノードのうち第１のノードが、前記第１のノードと第２のノードとの間の前記複数のリンクのうち第１のリンク上でデータを転送するように構成された前記第１のノードの第１のリンクインターフェースの電力遮断を、
前記第１のリンクインターフェースのアイドル状態が発生したことと、
前記アイドル状態が、少なくとも目標アイドル閾値期間の間、前記第１のリンクインターフェースがアイドル状態のままであることにつながるという予測と、
を判定したことに応じて開始することと、を含む、
方法。
前記目標アイドル閾値期間よりも長い待機閾値期間の間、前記第１のリンクインターフェースの電力遮断の開始を、
前記第１のリンクインターフェースの前記アイドル状態が発生したことと、
前記アイドル状態が、少なくとも前記目標アイドル閾値期間の間、前記第１のリンクインターフェースがアイドル状態のままであることにつながらないという予測と、
を判定したことに応じて遅延させることを更に含む、
請求項９の方法。
前記アイドル状態が、少なくとも前記目標アイドル閾値期間の間、前記第１のリンクインターフェースがアイドル状態のままであることにつながるより高い信頼度を示すために、電力遮断予測値を、
前記目標アイドル閾値期間が経過する前に、前記第１のリンクインターフェースが前記目標アイドル閾値期間の間アイドル状態のままであることを妨げる割り込みが発生していないと判定したことに応じて、更新することを更に含む、
請求項９の方法。
前記アイドル状態が、少なくとも前記目標アイドル閾値期間の間、前記第１のリンクインターフェースがアイドル状態のままであることにつながるより低い信頼度を示すために、電力遮断予測値を、
前記目標アイドル閾値期間が経過する前に、前記第１のリンクインターフェースが前記目標アイドル閾値期間の間アイドル状態のままであることを妨げる割り込みが発生したと判定したことに応じて、更新することを更に含む、
請求項１１の方法。
前記割り込みが発生したと判定するために、前記方法は、メッセージが、前記第１のリンク上で送信するための前記第１のインターフェースに到達したと判定することを更に含む、
請求項１２の方法。
前記電力遮断予測値が閾値未満であると判定したことに応じて、前記第１のリンクインターフェースの次の検出されたアイドル状態が、前記閾値期間の間、前記第１のリンクインターフェースがアイドル状態のままであることにつながらないことを示すように予測を更新することを更に含む、
請求項１２の方法。
前記電力遮断予測値が閾値以上であると判定したことに応じて、前記第１のリンクインターフェースの次の検出されたアイドル状態が、前記閾値期間の間、前記第１のリンクインターフェースがアイドル状態のままであることにつながることを示すように予測を更新することを更に含む、
請求項１４の方法。
装置であって、
第１のノードと第２のノードとの間のリンク上でデータ転送を管理するように構成されている物理ユニットと、
電力遮断ユニットと、を備え、
前記電力遮断ユニットは、前記装置の電力遮断を、
前記装置のアイドル状態が発生したことと、
前記アイドル状態が、少なくとも目標アイドル閾値期間の間、前記装置がアイドル状態のままであることにつながるという予測と、
を判定したことに少なくとも部分的に基づいて開始するように構成されている、
装置。
前記電力遮断ユニットは、前記目標アイドル閾値期間よりも長い待機閾値期間の間、前記装置の電力遮断の開始を、
前記装置の前記アイドル状態が発生したことと、
前記アイドル状態が、少なくとも前記目標アイドル閾値期間の間、前記装置がアイドル状態のままであることにつながらないという予測と、
を判定したことに応じて遅延させるように更に構成されている、
請求項１６の装置。
前記電力遮断ユニットは、
前記アイドル状態が、少なくとも前記目標アイドル閾値期間の間、前記装置がアイドル状態のままであることにつながる高い信頼度を示すために、電力遮断予測値を、
前記目標アイドル閾値期間が経過する前に、前記装置が前記目標アイドル閾値期間の間アイドル状態のままであることを妨げる割り込みが発生していないと判定したことに応じて、更新するように更に構成されている、
請求項１６の装置。
前記電力遮断ユニットは、
前記アイドル状態が、少なくとも前記目標アイドル閾値期間の間、前記装置がアイドル状態のままであることにつながるより低い信頼度を示すために、電力遮断予測値を、
前記目標アイドル閾値期間が経過する前に、前記装置が前記目標アイドル閾値期間の間アイドル状態のままであることを妨げる割り込みが発生したと判定したことに応じて、更新するように更に構成されている、
請求項１８の装置。
前記電力遮断ユニットは、
前記電力遮断予測値が閾値未満であると判定したことに応じて、前記装置の次の検出されたアイドル状態が、前記閾値期間の間、前記装置がアイドルの状態のままであることにつながらないことを示すように予測を更新するように更に構成されている、
請求項１９の装置。