JP2007148713A - 並列計算機 - Google Patents

並列計算機 Download PDF

Info

Publication number
JP2007148713A
JP2007148713A JP2005341359A JP2005341359A JP2007148713A JP 2007148713 A JP2007148713 A JP 2007148713A JP 2005341359 A JP2005341359 A JP 2005341359A JP 2005341359 A JP2005341359 A JP 2005341359A JP 2007148713 A JP2007148713 A JP 2007148713A
Authority
JP
Japan
Prior art keywords
computer
unit
temperature
computer unit
cpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005341359A
Other languages
English (en)
Inventor
康弘 ▲寺▼本
Yasuhiro Teramoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2005341359A priority Critical patent/JP2007148713A/ja
Publication of JP2007148713A publication Critical patent/JP2007148713A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】並列計算機におけるCPU性能を最大限に発揮させるための周波数制御方式を提供すること。
【解決手段】床下からの強制空冷方式の並列計算機1において、上段計算機ユニット3のサービスプロセッサ21が、上段計算機ユニット3の入気温度および下段計算機ユニット2のCPU接合温度を逐次監視し、これらを用いて上段計算機ユニット3の入気93の温度変化予測を行い、上段計算機ユニット3のクロック発信器24を制御し動作周波数を通常動作周波数より上げて処理性能の向上を図る。
【選択図】図1

Description

本発明は、複数台の計算機ユニットにより構成される並列計算機において、計算機ユニットの動作周波数を適宜制御する制御システムおよび情報処理装置に関する。
並列計算機とは、CPUを個々に備える計算機ユニット(ノード)を複数台備え、これらを高速なネットワークで結び付けることにより、一つの高性能な計算機装置として使用することが可能な情報処理装置である。近年、並列計算機の装置設計においては、個々の計算機ユニットに搭載されているCPUの動作周波数高速化に伴い、高発熱体化したCPUおよび計算機ユニットを如何に装置内に高密度実装するかが命題となっている。これに対し、実現のための一形態として図1に示されるような床下からの強制空冷方式の並列計算機がある。この特徴は、装置内に計算機ユニットを多段に搭載し、装置最下部に備えられた冷却装置(ブロア)が床下の冷えた空気を吸い上げ、その送風により、まず下段に搭載された計算機ユニットを冷却し、引き続き上段に搭載された計算機ユニットをも冷却することにより、高発熱な計算機ユニットの高密度実装を実現している。(特許文献1参照)
また、このような並列計算機において最も冷却が厳しいポイントは、上段計算機ユニットのCPUの接合温度(ジャンクション温度)であり、その熱設計は、冷却装置・放熱器(ヒートシンク)の性能、環境(床下)温度の最悪条件、計算機ユニットのプロセスおよび活性状態のばらつきによる発熱量ばらつきの最悪条件、計算機ユニットの安定動作限界等を考慮して行われる。さらに、その熱設計は、今日ますます高まるCPU発熱密度、および、実装構造上の制限から求められる冷却装置や放熱器の物理的大きさの制限など、困難さを増している。そのため、従来、CPUの動作速度を決める要素はその速度的な動作限界であったが、現在ではこれに加え、搭載される装置の冷却能力によっても決められると言っても過言ではなくなってきている。(非特許文献1参照)
また、一般的な並列計算機においては、同種の計算機ユニットを複数台並べるため、その計算機ユニットの動作周波数は、CPUの速度的な動作限界と装置の熱設計における動作限界周波数を基準に全ての計算機ユニットで一律に決められている。
一方、パーソナルコンピュータにおいては、例えば特許文献2に示されているような温度管理方法を用い自計算機ユニット内部の温度測定を逐次行い、自CPUの動作周波数を制御する方式も考えられている。ただし、これは主としてポータブルコンピュータにおけるバッテリの消費電力を抑えるための技術として利用されている。
特開2000−174465号公報 特開平9−198166号公報 特開平7−191778号公報 「動作周波数4GHz超にらんだ新Pentium 4,性能向上阻む熱のカベ」(http://itpro.nikkeibp.co.jp/members/NBY/ITARTICLE/20040325/1/)
前記背景の技術で示されている床下からの強制空冷方式の並列計算機で、かつ、計算機ユニットの動作周波数がCPUの速度的な限界に達しておらず装置の熱設計により決められた装置を考える。ここで、この並列計算機の上段に搭載されている計算機ユニットに関し、その下段に位置する計算機ユニットの発熱が低い時点においては、安定に動作する冷却能力に余力がありながらも、その計算機ユニットは抑えられた動作周波数で動作していることとなる。逆に言えば、ここに、この並列計算機のCPU性能の上げしろがある。さて、このような従来の並列計算機における静的な動作周波数の考え方に対し、前記パーソナルコンピュータの例で採用されているような動的な動作周波数制御方式を応用することを考える。この場合、計算機ユニットの環境温度が低いときに動作周波数を早くすることは容易であるが、計算機ユニット内の温度が急激に上昇した時、その検出から動作周波数を落としてCPU接合温度が限界温度を超えないように制御することは、温度上昇の熱源であるCPUの温度変化を監視していては、そのフィードバックが遅れることは自明であり、予測を用いても実現は困難である。ちなみに、CPUの接合温度がその限界を超えてしまうと、半導体素子の寿命劣化や故障の原因となり得る。
本発明において解決しようとする課題は、前記の困難を克服し並列計算機におけるCPU性能を最大限に発揮させるための周波数制御方式を提供することである。
本発明では、床下からの強制空冷方式の並列計算機において、上段計算機ユニットのサービスプロセッサが、上段計算機ユニットの入気温度および下段計算機ユニットのCPU接合温度を逐次監視し、これらを用いて上段計算機ユニットの入気の温度変化予測を行い、上段計算機ユニットのクロック発信器を制御し動作周波数を通常動作周波数より上げて処理性能の向上を図る。
本発明により、本来の熱設計の動作条件を満たしながら、個々の計算機ユニットの活性状態ばらつきによる発熱量ばらつきによって生じる冷却能力の余力を利用し、計算機ユニットの動作周波数向上を図り処理性能の向上を得ることができる。
以下、本発明の一実施例を図面を用いて具体的に説明する。
図1は、本発明の一実施例の並列計算機に係わる要部ブロック図である。本実施例の並列計算機1は、複数の計算機ユニット2・3と冷却ユニット4と上位電源制御ユニット5と共通電源ユニット6と通信手段7を有する。ここで、計算機ユニット2・3は並列計算機1の単位床面積あたりの実装密度を向上させることを目的とし、上下多段に搭載されていることを特徴としている。なお、本実施例では2台の計算機ユニットによる上下二段構成を取り上げるが、本発明に計算機ユニットの台数の制限はなく、また、二段以上の構成を採ることも可能である。各計算機ユニット2・3は、各々にCPU20・30と、計算機ユニットの初期化や障害処理等を行うサービスプロセッサユニット21・31と、電源ユニット22・32と、電源ユニットの制御および環境の異常監視を主に行う電源制御ユニット23・33と、CPUにクロックを供給するクロック発信器24・34と、計算機ユニットの入気温度を測定する入気温度センサ25・35と、CPUの接合温度を測定する接合温度センサ26・36を有する。なお、本実施例では、説明の簡単化のためCPUを一部位として表しているが、本発明が計算機ユニットのインプリメントにおけるマルチプロセッサ構成の採用に制限を加えるものではない。
冷却ユニット4は、並列計算機内の計算機ユニット冷却のため、床下から冷えた空気を吸気し送風するブロア41・42を有する。上位電源制御ユニット5は、複数の計算機ユニットに各々搭載されている電源制御ユニット23・33の上位管理ユニットであり、かつ、共通電源ユニット6の制御を行う。また、上位電源制御ユニット5は、各計算機ユニット2・3に搭載されているサービスプロセッサ21・31および電源制御ユニット23・33と相互通信のため通信手段7で接続されている。共通電源ユニット6は、ブロア制御ユニット61を有する。
次に、並列計算機1内部の冷却に係わる空気の流れを説明する。まず、並列計算機1の床下の冷えた床下空気91は、冷却ユニット4に搭載されているブロア41・42により吸気され、下段入気92として計算機ユニット3へ送風される。計算機ユニット3の中で熱交換が行われ暖められた空気は、さらに上段入気93として並列計算機1の上段に搭載されている計算機ユニット2へ送風される。その後、上段入気93は計算機ユニット2の中を通過し、最終的に上段排気94として並列計算機1の外へ排出される。
図2は、本発明の一実施例の並列計算機に係わる熱設計の考え方を示す説明図である。図表の縦軸200は温度であり、本図表では並列計算機1において最も熱設計が厳しいポイントである上段計算機ユニットのCPU接合温度に関し、上段計算機ユニットCPU接合温度の最高温度予測210と上段計算機ユニットCPU接合温度のある時点の温度予測211を比較し示している。
上段計算機ユニットCPU接合温度の最高温度予測210は、本実施例のような構造をとる並列計算機において基本的な熱設計の結果見積もられた上段計算機ユニットのCPU接合温度の最高値(最悪値)予測であり、その内訳は最悪条件の床下温度220と、最悪条件の冷却ユニット温度上昇分221と、最悪条件の下段計算機ユニット温度上昇分222と、最悪条件の上段計算機ユニットCPU接合温度上昇分223である。当然のことながら、上段計算機ユニットCPU接合温度の最高温度予測210によって示される接合温度のワースト値T1は、CPUの動作性能、マージン、寿命を総合的に考慮し決められた限界温度Tmaxより低い温度である。ただし今日、本発明が取り扱う並列計算機において、熱設計は装置の動作周波数(演算性能)を決める最も重要な要素の一つであるため、限界温度TmaxとT1の間に余分なマージンはないことが一般的である。言い換えれば、CPUはその熱設計が許す限り早く動作させた方が処理性能は上がり得である。
一方、並列計算機の実動作中におけるある時点を考えると、上段計算機ユニットCPU接合のある時点の温度予測211に示すような考えが成り立つ。すなわち、ある時点の床下温度230と、ある時点の冷却ユニット温度上昇分231と、ある時点の下段計算機ユニット温度上昇分232は実測の値を使い、上段計算機ユニットのCPU接合温度上昇分のみ最悪条件233を考慮すると最高温度予測との間に差ΔT240が生まれ、これは、T1とT2の差ΔT241となり、上段計算機ユニットの動作温度マージンが広がったように見なせる。本発明では、このΔT241を活用し上段計算機ユニットのCPU動作周波数を従来の設計値より早くし、性能向上を図ることを目的としている。無論、下段計算機ユニットの温度上昇分は時間により変化し、最悪は、最悪条件の下段計算機ユニット温度上昇分222まで上昇する。その場合においても、上段計算機ユニットのCPU接合温度は、Tmax(≒T1)を超えることは許されず、上段計算機ユニットのCPU周波数を下げ、発熱を抑え、超えないように制御しなければならない。
図3は、本発明の一実施例の並列計算機に係わる温度変化の考え方を示す説明図である。図表の縦軸300は温度であり、横軸301は時間の経過を示す。本図表では、本発明の一実施例の並列計算機における温度変化の一例として、ある計算機ユニットのCPU接合温度変化310とその排気温度変化311を重ねて示す。ここで、CPU接合温度が急峻に変化し高くなったポイント320に着目すると、この時点の発熱がCPUの放熱器(ヒートシンク)を伝播し計算機ユニット内の冷却風と熱交換を行い、最終的に計算機ユニットの排気温度が高くなるポイント321まで、時間的なディレイが生じている。
図1に戻って説明すると、下段に搭載された計算機ユニット3のCPU接合温度を逐次計測することにより、下段排気、言い換えると上段入気93の近い将来の温度変化をある程度予測することが可能であると言える。これにより、図2で示したΔT241を活用し早くした上段計算機ユニットのCPU動作周波数を下げ、発熱を抑え、CPU接合温度の限界値を超えないように制御することを現実的に可能とする。
図4は、本発明の一実施例の周波数変更プロセスを示すフローチャートである。本プロセスは、図1で示す上段計算機ユニット2のサービスプロセッサ21において定期的に実行されるプロセスである。
本プロセスでは、まず、処理400で計算機ユニットの入気温度(Tin)を測定し、処理401でCPU接合温度(Tj)を測定し、条件402にてもし入気温度(Tin)がある閾値(Ta)より低かったならば、かつ条件403にてもしCPU接合温度(Tj)がある閾値(Tb)より低かったならば、かつ条件405にて現在の動作周波数(F)が動作周波数限界(Fmax)より小さかったならば、動作周波数(F)をΔfだけ早く設定する。
条件403にてもしCPU接合温度(Tj)がある閾値(Tb)より低くなかったならば、かつ条件404にて現在の動作周波数(F)が標準周波数(Fn)より大きかったならば、近い将来計算機ユニットの入気温度が上がることが予測されるため、CPUの動作周波数(F)をΔfだけ遅くする。
条件405にて現在の動作周波数が動作限界周波数(Fmax)より早くならないことを防ぎ、条件404にて現在の動作周波数が標準動作周波数(Fn)より遅くならないことを防ぐ。
条件402にてもし入気温度がある閾値(Ta)より小さくなかったら、処理406により動作周波数を標準動作周波数へ戻し、CPU接合温度が限界値を超えることを防ぐ。
端子410・411は、本プロセスが定期的に繰り返し実行されることを示す。閾値Ta・Tbは本制御プロセスのために決定されるべき値である。
図5は、図1で示す並列計算機1の中で温度測定に係わる部位の制御の流れを示す補足図である。上段計算機ユニット2のサービスプロセッサユニット21は、リクエスト500により上位電源制御ユニット5に対し上段計算機ユニット2の入気温度と下段搭載計算機ユニット3のCPU接合温度を要求する。上位電源制御ユニット5は、応答501により要求のあった測定値をサービスプロセッサユニット21へ返答する。ここで、上位電源制御ユニット5は、リクエスト510・512により定期的に各計算機ユニットの電源制御ユニット23・33へ各計算機ユニットの入気温度とCPU接合温度の計測を指示し、応答511・513により最新の測定値を得ている。これらのリクエストおよび応答は図1における通信手段7において行われる。また、各電源制御ユニット23・33は、上位電源制御ユニット5からの指示に従い随時各入気センサ25・35および接合温度センサ26・36から測定値を取り込む。
なお、上記実施の形態は以下のように捉えることが可能である。
(1)多段に計算機ユニットを搭載する並列計算機において、床下からの強制空冷の手段を具備し、各計算機ユニットのCPU温度を監視測定する電源制御ユニットを具備し、各計算機ユニットの動作周波数を動的に制御可能なサービスプロセッサユニットを具備し、並列計算機内の下段計算機ユニットのCPU温度を逐次測定し、これを用いて上段計算機ユニットの入気温度予測を行い、前記上段計算機ユニットの動作周波数を上げて処理性能の向上を図る制御システムを備えることを特徴とする並列計算機。
(2)(1)に加え、前記制御システムは、複数の計算機ユニットの電源制御ユニットを管理するための上位電源制御ユニットを具備し、計算機ユニットのサービスプロセッサユニットは、上位電源制御ユニットを介し自他の計算機ユニットの入気温度およびCPU温度を監視することが可能なことを特徴とする並列計算機。
(3)(1)に加え、前記制御システムは、計算機ユニットのサービスプロセッサユニットが、クロック発信器を制御することにより動的に計算機ユニットの動作周波数を変更することが可能なことを特徴とする並列計算機。
(4)(1)に加え、前記制御システムは、上段計算機ユニットの入気温度がある閾値を超えた場合、上げていた動作周波数を通常動作周波数に戻し、CPU温度が熱設計における限界値を超えない様に制御することを特徴とする並列計算機。
(5)(1)に加え、前記制御システムは、下段計算機ユニットのCPU温度がある閾値を超えた場合、上げていた周波数を段階的に下げ、CPU温度が熱設計における限界値を超えない様に制御することを特徴とする並列計算機。
(6)(1)に加え、前記制御システムは、上段計算機ユニットの動作周波数が計算機ユニットの動作速度の限界値を超えない様に制御することを特徴とする並列計算機。
(7)(1)に加え、前記制御システムは、上段計算機ユニットの動作周波数が通常動作速度を下回らない様に制御することを特徴とする並列計算機
本発明の一実施例の並列計算機に係わる要部ブロック図である。 本発明の一実施例の並列計算機に係わる熱設計の考え方を示す説明図である。 本発明の一実施例の並列計算機に係わる温度変化の考え方を示す説明図である。 本発明の一実施例の周波数変更プロセスを示すフローチャートである。 図1の温度測定に係わる部位の制御の流れを示す補足図である。
符号の説明
1 並列計算機
2・3 計算機ユニット
4 冷却ユニット
5 上位電源制御ユニット
6 共通電源ユニット
20・30 CPU
21・31 サービスプロセッサユニット
22・32 電源ユニット
23・33 電源制御ユニット
24・34 クロック発信器
25・35 入気温度センサ
26・36 接合温度センサ
41・42 ブロア
61 ブロア制御ユニット
91 床下空気
92 下段入気
93 上段入気
94 上段排気
240 入気温度の最高温度予測とある時点の温度予測の差
241 ジャンクション温度の最高温度予測とある時点の温度予測の差
310 CPU接合温度変化
311 計算機ユニットの排気温度変化
320 CPU接合温度が急峻に変化し高くなったポイント
321 計算機ユニットの排気温度が高くなるポイント
500 サービスプロセッサユニットから上位電源制御ユニットへのリクエスト
501 上位監視ユニットからサービスプロセッサユニットへの応答
510・512 上位電源制御ユニットから電源制御ユニットへのリクエスト
511・513 電源制御ユニットから上位電源制御ユニットへの応答

Claims (1)

  1. 計算機ユニットを多段に搭載し床下から強制空冷を行う並列計算機において、各計算機ユニットのCPU温度を監視測定する電源制御ユニットと、各計算機ユニットの動作周波数を動的に制御可能なサービスプロセッサユニットとを具備し、並列計算機内の下段計算機ユニットのCPU温度を逐次測定し、これを用いて上段計算機ユニットの入気温度予測を行い、前記上段計算機ユニットの動作周波数を制御する制御システムを備えることを特徴とする並列計算機。
JP2005341359A 2005-11-28 2005-11-28 並列計算機 Pending JP2007148713A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005341359A JP2007148713A (ja) 2005-11-28 2005-11-28 並列計算機

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005341359A JP2007148713A (ja) 2005-11-28 2005-11-28 並列計算機

Publications (1)

Publication Number Publication Date
JP2007148713A true JP2007148713A (ja) 2007-06-14

Family

ID=38210072

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005341359A Pending JP2007148713A (ja) 2005-11-28 2005-11-28 並列計算機

Country Status (1)

Country Link
JP (1) JP2007148713A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009031689A (ja) * 2007-07-30 2009-02-12 Ricoh Co Ltd 温度監視装置及び温度監視方法
JP2009193509A (ja) * 2008-02-18 2009-08-27 Fujitsu Ltd 情報処理装置、情報処理方法、情報処理プログラム
JP2012021711A (ja) * 2010-07-15 2012-02-02 Fujitsu Ltd 空調管理システム及び空調管理方法
JP2014507708A (ja) * 2011-01-06 2014-03-27 クアルコム,インコーポレイテッド ポータブルコンピューティングデバイスの熱ポリシーを管理するための方法およびシステム
JP2020042504A (ja) * 2018-09-10 2020-03-19 日本電気株式会社 設定装置、処理装置及び設定方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009031689A (ja) * 2007-07-30 2009-02-12 Ricoh Co Ltd 温度監視装置及び温度監視方法
JP2009193509A (ja) * 2008-02-18 2009-08-27 Fujitsu Ltd 情報処理装置、情報処理方法、情報処理プログラム
JP2012021711A (ja) * 2010-07-15 2012-02-02 Fujitsu Ltd 空調管理システム及び空調管理方法
JP2014507708A (ja) * 2011-01-06 2014-03-27 クアルコム,インコーポレイテッド ポータブルコンピューティングデバイスの熱ポリシーを管理するための方法およびシステム
US8996331B2 (en) 2011-01-06 2015-03-31 Qualcomm Incorporated Method and system for managing thermal policies of a portable computing device
US8996330B2 (en) 2011-01-06 2015-03-31 Qualcomm Incorporated Method and system for managing thermal policies of a portable computing device
JP2015165405A (ja) * 2011-01-06 2015-09-17 クアルコム,インコーポレイテッド ポータブルコンピューティングデバイスの熱ポリシーを管理するための方法およびシステム
JP2020042504A (ja) * 2018-09-10 2020-03-19 日本電気株式会社 設定装置、処理装置及び設定方法
JP7259236B2 (ja) 2018-09-10 2023-04-18 日本電気株式会社 設定装置、処理装置及び設定方法

Similar Documents

Publication Publication Date Title
KR101269106B1 (ko) 냉각 제어 장치, 전자 장치 및 냉각 제어 방법
Coskun et al. Dynamic thermal management in 3D multicore architectures
US7170000B2 (en) Apparatus having a cooling device
US7856341B2 (en) Heat sink
US10180665B2 (en) Fluid-cooled computer system with proactive cooling control using power consumption trend analysis
US6909922B2 (en) Apparatus, method and computer system for reducing power consumption of a processor or processors upon occurrence of a failure condition affecting the processor or processors
US8595520B2 (en) System and method for determining thermal management policy from leakage current measurement
US8560141B2 (en) Management of a 3D package and cooling system
US10394293B2 (en) Method for preventing over-heating of a device within a data processing system
Coskun et al. Modeling and dynamic management of 3D multicore systems with liquid cooling
JP2009042211A (ja) 半導体デバイスのための電力推定
JP4804490B2 (ja) 情報処理装置、情報処理方法、情報処理プログラム
JP2007148713A (ja) 並列計算機
US8457806B2 (en) Managing an infrastructure having a 3D package and cooling resource actuators
Liu et al. Thermal-aware job allocation and scheduling for three dimensional chip multiprocessor
US8626355B2 (en) Cooling provisioning management in a three dimensional package
US20120216992A1 (en) Dew-condensation detecting apparatus, electronic equipment cooling system, and dew-condensation detecting method
JP5920356B2 (ja) 水冷装置、水冷装置を有する電子機器、及び水冷方法
US20070146993A1 (en) Method, apparatus and computer system for enhancement of thermal energy transfer
Gupta et al. LEAF: A system level leakage-aware floorplanner for SoCs
TWM617372U (zh) 電腦系統及其電子組件
JP2013008085A (ja) コンピュータシステムおよびコンピュータシステムの動作方法
JP2002163042A (ja) 携帯型情報機器
US11540420B2 (en) Active cooling devices for cooling an electronic assembly downstream of a computing system
JP2001156228A (ja) 冷却装置付半導体装置および冷却装置付半導体装置の製造方法