JP2019045948A - 情報処理装置、情報処理システム、及びプログラム - Google Patents

情報処理装置、情報処理システム、及びプログラム Download PDF

Info

Publication number
JP2019045948A
JP2019045948A JP2017165361A JP2017165361A JP2019045948A JP 2019045948 A JP2019045948 A JP 2019045948A JP 2017165361 A JP2017165361 A JP 2017165361A JP 2017165361 A JP2017165361 A JP 2017165361A JP 2019045948 A JP2019045948 A JP 2019045948A
Authority
JP
Japan
Prior art keywords
information processing
server
bmc
abnormality
register
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017165361A
Other languages
English (en)
Other versions
JP6953907B2 (ja
Inventor
卓之 佐々木
Takayuki Sasaki
卓之 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017165361A priority Critical patent/JP6953907B2/ja
Priority to US16/114,280 priority patent/US10980157B2/en
Publication of JP2019045948A publication Critical patent/JP2019045948A/ja
Application granted granted Critical
Publication of JP6953907B2 publication Critical patent/JP6953907B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20763Liquid cooling without phase change
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B15/00Systems controlled by a computer
    • G05B15/02Systems controlled by a computer electric
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • G05B23/0205Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults
    • G05B23/0259Electric testing or monitoring by means of a monitoring system capable of detecting and responding to faults characterized by the response to fault detection
    • G05B23/0267Fault communication, e.g. human machine interface [HMI]
    • G05B23/0272Presentation of monitored results, e.g. selection of status reports to be displayed; Filtering information to the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • G06F1/206Cooling means comprising thermal management
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating
    • H05K7/20709Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
    • H05K7/20836Thermal management, e.g. server temperature control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2200/00Indexing scheme relating to G06F1/04 - G06F1/32
    • G06F2200/20Indexing scheme relating to G06F1/20
    • G06F2200/201Cooling arrangements using cooling fluid

Abstract

【課題】複数の情報処理装置を含み、液体冷却システムの異常の影響範囲に応じて情報処理装置を制御する情報処理システムを提供する。【解決手段】情報処理装置301は、処理部311と制御部312を有する。処理部は、情報処理を行う。制御部は、複数の情報処理装置を冷却する液体冷却システム内に配置された複数のセンサそれぞれが出力する複数のセンサデータと、他の情報処理装置が保持している液体冷却システムの異常情報とを取得する。制御部は、取得した複数のセンサデータと異常情報とに基づいて、情報処理システム内における液体冷却システムの異常の影響範囲を求め、その影響範囲に基づいて処理部を制御する。【選択図】図3

Description

本発明は、情報処理装置、情報処理システム、及びプログラムに関する。
従来のx86サーバにおける液体冷却技術は、High Performance Computing(HPC)分野におけるスーパーコンピュータシステムにも適用されている。
図1は、従来の液体冷却技術及び空気冷却技術を併用した冷却システムの例を示している。サーバ101を含むInformation Technology(IT)機器側には、熱交換器102が設けられ、設備側には、空気調和(空調)機器103及び冷却設備104が設けられる。冷却設備104は、冷却塔、チラー等である。サーバ101には、ファン111及びポンプ112が設けられ、冷却設備104には、ポンプ113及び送風機114が設けられる。
サーバ101内の主要な発熱部品であるCentral Processing Unit(CPU)、メモリ等の排熱は、ポンプ112により循環している2次側冷却水によって、熱交換器102へ移動する。熱交換器102は、2次側冷却水と、ポンプ113により循環している1次側冷却水との間の熱交換を行って、2次側冷却水を冷却する。冷却設備104は、送風機114により外気を取り込むことで、1次側冷却水を冷却する。
一方、サーバ101内のハードディスクドライブ(Hard Disk Drive,HDD)等の他の部品は、ファン111及び空調機器103を用いて、空気により冷却される。例えば、液体冷却によって冷却される排熱の割合は80%程度であり、空気冷却によって冷却される排熱の割合は20%程度である。
他筐体の複数の情報処理装置の状態を自筐体の複数の情報処理装置で検出し、電源を遮断する情報処理システム、及び水滴を検知するとサーバをシャットダウンするシステムも知られている(例えば、特許文献1及び特許文献2を参照)。
特開2015−156102号公報 特開2015−53004号公報
スーパーコンピュータシステムのプラットフォームをエンタープライズ用途の情報処理システムに導入した場合、液体冷却システムの異常によって情報処理システムの動作が停止し、サービスの継続が困難になることがある。
なお、かかる問題は、エンタープライズ用途の情報処理システムに限らず、液体冷却システムによって冷却される他の情報処理システムにおいても生ずるものである。
1つの側面において、本発明は、複数の情報処理装置を含む情報処理システムにおいて、液体冷却システムの異常の影響範囲に応じて情報処理装置を制御することを目的とする。
1つの案では、情報処理システムに含まれる複数の情報処理装置のうちの1つの情報処理装置は、情報処理を行う処理部と、処理部を制御する制御部とを含む。
制御部は、複数の情報処理装置を冷却する液体冷却システム内に配置された複数のセンサそれぞれが出力する複数のセンサデータと、それらの情報処理装置のうち他の情報処理装置が保持している液体冷却システムの異常情報とを取得する。そして、制御部は、取得した複数のセンサデータと異常情報とに基づいて、情報処理システム内における液体冷却システムの異常の影響範囲を求め、その影響範囲に基づいて処理部を制御する。
1つの実施形態によれば、複数の情報処理装置を含む情報処理システムにおいて、液体冷却システムの異常の影響範囲に応じて情報処理装置を制御することができる。
冷却システムを示す図である。 センサデータと異常の種類を示す図である。 情報処理装置の機能的構成図である。 制御処理のフローチャートである。 第1の情報処理システムの構成図である。 レジスタR1〜レジスタR7を示す図である。 レジスタR8〜レジスタR11を示す図である。 レジスタR8〜レジスタR11の値を示す図である。 第1の起動制御処理のフローチャートである。 第1の運用制御処理のフローチャートである。 第2の情報処理システムの構成図である。 レジスタR8〜レジスタR13を示す図である。 第2の起動制御処理のフローチャートである。 第2の運用制御処理のフローチャートである。 第3の情報処理システムの構成図である。 レジスタR8〜レジスタR15を示す図である。 第3の起動制御処理のフローチャートである。 第3の運用制御処理のフローチャートである。 優先順位テーブルを示す図である。 第4の起動制御処理のフローチャートである。 第4の運用制御処理のフローチャートである。 BMCの構成図である。
以下、図面を参照しながら、実施形態を詳細に説明する。
スーパーコンピュータシステム等の情報処理システムでは、異常が発生した際に情報処理を停止し、保守作業の終了後に情報処理を再開する運用が行われることが多い。したがって、詳細な異常解析よりも低価格の実現に対する要望が強いため、このような情報処理システムは、エンタープライズ用途の情報処理システムのような高信頼機能及びハードウェア監視機能を有していない。
しかし、近年では、人工知能、ビッグデータ解析等の分野において、スーパーコンピュータシステムの高並列処理に基づく計算能力を、エンタープライズ用途に展開するトレンドが見受けられる。このため、将来、人工知能、ビッグデータ解析等のサービスをエンドユーザに提供する事業者が、スーパーコンピュータシステムのプラットフォーム及び冷却技術を情報処理システムに導入する可能性がある。エンタープライズ用途ではサービスをエンドユーザに提供することから、情報処理システムが高信頼機能及びハードウェア監視機能を有することが望ましい。
例えば、ベースボードマネジメントコントローラ(Baseboard Management Controller,BMC)をサーバに設けることで、サーバのハードウェアの管理及び監視を行うことができる。また、サーバ内の温度センサは、CPUの温度を検出することができ、サーバ内の回転数センサは、冷却水のポンプの回転数を検出することができる。この場合、BMCは、温度センサ及び回転数センサが出力するセンサデータから、液体冷却システムの異常(不具合)を検知する。
図2は、温度センサ及び回転数センサが出力するセンサデータと液体冷却システムの異常の種類の例を示している。液漏れは、サーバに配置された配管からの液漏れを表し、冷却設備の不良は、冷却塔、チラー等の不良を表す。ポンプの不良は、配管に設けられているポンプの不良を表し、配管の流量不足は、配管の詰まり等によって冷却水の流量が不足していることを表す。
温度センサ及び回転数センサのセンサデータは、“ON”又は“OFF”を示すエラーフラグであり、“ON”は、センサが検出した値が異常値であることを示し、“OFF”は、センサが検出した値が正常値であることを示す。
液漏れが発生した場合、温度センサ及び回転数センサはともに“ON”を出力し、冷却設備の不良が発生した場合、温度センサは“ON”を出力し、回転数センサは“OFF”を出力する。ポンプの不良が発生した場合、温度センサ及び回転数センサはともに“ON”を出力し、配管の流量不足が発生した場合、温度センサは“ON”を出力し、回転数センサは“OFF”を出力する。
しかしながら、温度センサ及び回転数センサのセンサデータのみでは、液漏れとポンプの不良とを区別することが難しく、冷却設備の不良と配管の流量不足とを区別することも難しい。したがって、BMCは、液体冷却システムの異常の発生を検知しても、異常の種類が不明なため、監視対象のサーバが発生した異常の影響を受けるか否かを判定することは困難である。このため、BMCは、温度センサ又は回転数センサが“ON”を出力した場合、監視対象のサーバが異常の影響を受けるものとみなして、サーバの動作を停止させざるを得ない。
さらに、1つのラックに複数のサーバが搭載されている場合、いずれかのサーバのBMCが液体冷却システムの異常を検知すると、そのBMCは、結果的に、ラック内のすべてのサーバの動作を停止させてしまう。すべてのサーバが同時に停止すると、エンドユーザに対してサービスの提供を継続することが困難になり、高信頼機能が損なわれることがある。
液体冷却システムの異常の種類を特定するために、管理サーバ等を設置することも考えられる。しかし、スーパーコンピュータシステムに搭載されるサーバの台数は数百台〜1千台の規模になり、温度センサ等のセンサデータは数ms単位で動的に変化することから、それらのセンサデータを管理サーバで監視することは現実的ではない。したがって、各サーバ内のBMCによって、液体冷却システムの異常の種類を特定することが望ましい。
図3は、実施形態の情報処理装置の構成例を示している。図3の情報処理装置301は、情報処理システムに含まれる複数の情報処理装置のうちの1つの情報処理装置であり、情報処理を行う処理部311と、処理部311を制御する制御部312とを含む。それらの情報処理装置は、液体冷却システムによって冷却される。
図4は、図3の制御部312が行う制御処理の例を示すフローチャートである。まず、制御部312は、液体冷却システム内に配置された複数のセンサそれぞれが出力する複数のセンサデータと、他の情報処理装置が保持している液体冷却システムの異常情報とを取得する(ステップ401)。そして、制御部312は、取得した複数のセンサデータと異常情報とに基づいて、情報処理システム内における液体冷却システムの異常の影響範囲を求め(ステップ402)、その影響範囲に基づいて処理部311を制御する(ステップ403)。
図3の情報処理装置301によれば、複数の情報処理装置を含む情報処理システムにおいて、液体冷却システムの異常の影響範囲に応じて情報処理装置を制御することができる。
図5は、図3の情報処理装置301を含む第1の情報処理システムの構成例を示している。図5の情報処理システムは、Local Area Network(LAN)スイッチ511、サーバ512−1〜サーバ512−3、及び冷却装置513を含む。LANスイッチ511及びサーバ512−1〜サーバ512−3は、ラック521内に収納されている。冷却設備514は、情報処理システムの外部に設けられた冷却塔、チラー等である。
なお、情報処理システムに含まれるサーバ512−i(i=1〜3)の台数は3台に限られず、4台以上であってもよい。
サーバ512−iは、図3の情報処理装置301に対応し、CPU531−i、ポンプ532−i、BMC533−iを含む。CPU531−iは、処理部311に対応し、情報処理システムの用途に応じた情報処理を行う。処理部311は、CPU531−i以外に、不図示のメモリ、HDD等を含んでいてもよい。BMC533−iは、制御部312に対応し、サーバ512−iの管理及び監視を行い、その動作を制御する。
CPU531−iの近傍には、CPU531−iの温度を検出する温度センサS1が設けられており、ポンプ532−iの近傍には、ポンプ532−iの回転数を検出する回転数センサS7が設けられている。温度センサS1は、Inter-Integrated Circuit(I2C)通信の信号線561−iによってBMC533−iと接続されており、回転数センサS7は、I2C通信の信号線562−iによってBMC533−iと接続されている。
BMC533−iは、信号線561−i及び信号線562−iを介して、温度センサS1及び回転数センサS7が出力するセンサデータを取得し、取得したセンサデータをBMC533−i内のメモリに格納する。
冷却装置513は、管理部541及び熱交換器542を含む。サーバ512−1〜サーバ512−3それぞれと熱交換器542との間に配置された配管551内において、2次側冷却水が循環し、熱交換器542と冷却設備514との間に配置された配管552内において、1次側冷却水が循環する。
熱交換器542の近傍には、流量センサS3、流量センサS4、温度センサS5、及び温度センサS6が設けられ、ラック521内には液漏れセンサS2が設けられている。流量センサS3は、配管552内を循環する冷却水の流量を検出し、流量センサS4は、配管551内を循環する冷却水の流量を検出する。温度センサS5は、配管552内を循環する冷却水の温度を検出し、温度センサS6は、配管551内を循環する冷却水の温度を検出する。液漏れセンサS2は、配管551からの液漏れを検出する。
流量センサS3及び温度センサS5は、I2C通信の信号線565によって管理部541と接続されており、流量センサS4及び温度センサS6は、I2C通信の信号線563によって管理部541と接続されている。液漏れセンサS2は、I2C通信の信号線564によって管理部541と接続されている。
LANスイッチ511、BMC533−1〜BMC533−3、及び管理部541は、LAN553によって接続されており、LANスイッチ511は、BMC533−1〜BMC533−3及び管理部541の間の通信を制御する。BMC533−1〜BMC533−3及び管理部541は、LAN553を介して、互いに通信することができる。
管理部541は、流量センサS3、流量センサS4、温度センサS5、温度センサS6、及び液漏れセンサS2が出力するセンサデータを受信する。BMC533−1〜BMC533−3は、LAN553を介して、管理部541からそれらのセンサデータを取得し、取得したセンサデータをメモリに格納する。
冷却装置513、冷却設備514、配管551、配管552、及びセンサS1〜センサS7は、液体冷却システムに対応する。
図6は、各BMC533−iが取得したセンサデータを記憶するレジスタR1〜レジスタR7の例を示している。レジスタR1〜レジスタR7は、BMC533−iが有するメモリ内に設けられた記憶領域に対応し、センサS1〜センサS7のセンサデータをそれぞれ記憶する。各センサのセンサデータは、図2の場合と同様に、“ON”又は“OFF”を示すエラーフラグである。
例えば、液漏れが発生した場合、温度センサS1、液漏れセンサS2、流量センサS4、温度センサS6、及び回転数センサS7は“ON”を出力し、流量センサS3及び温度センサS5は“OFF”を出力する。冷却設備の不良が発生した場合、温度センサS1、流量センサS3、及び温度センサS5は“ON”を出力し、液漏れセンサS2、流量センサS4、温度センサS6、及び回転数センサS7は“OFF”を出力する。
また、ポンプ532−iの不良が発生した場合、温度センサS1、流量センサS4、温度センサS6、及び回転数センサS7は“ON”を出力し、液漏れセンサS2、流量センサS3、及び温度センサS5は“OFF”を出力する。配管551の流量不足が発生した場合、温度センサS1、流量センサS4、及び温度センサS6は“ON”を出力し、液漏れセンサS2、流量センサS3、温度センサS5、及び回転数センサS7は“OFF”を出力する。
したがって、BMC533−iは、レジスタR1〜レジスタR7のセンサデータの組み合わせを解析することで、液漏れ、冷却設備の不良、ポンプの不良、又は配管の流量不足のうち、いずれの異常が発生しているかを特定することができる。BMC533−iは、特定した異常の種類を示す異常情報をメモリに格納する。なお、レジスタR1〜レジスタR7のセンサデータが、図6に示す組み合わせ以外のパターンを示している場合、BMC533−iは、いずれの異常も発生していないと判定する。
図6に示した異常の種類を特定する場合、レジスタR1〜レジスタR7のすべてのセンサデータを用いる必要はなく、以下のようなセンサデータの組み合わせを用いて、異常の種類を特定することも可能である。
(1)R1、R2、R3、及びR7
(2)R1、R2、R5、及びR7
(3)R1、R2、R4、及びR7
(4)R1、R2、R6、及びR7
(5)R1、R3、R4、及びR7
(6)R1、R3、R6、及びR7
(7)R1、R5、R4、及びR7
(8)R1、R5、R6、及びR7
この場合、センサS2〜センサS7のうち(1)〜(8)の組み合わせに対応する3つのセンサと、温度センサS1とを情報処理システムに設ければ十分である。したがって、センサS2〜センサS7のうち3つ以上のセンサと温度センサS1とを設ければ、それ以外のセンサを省略することができる。
さらに、各BMC533−iは、LAN553を介して、他のサーバ512−j(j≠i)のBMC533−jから、BMC533−jが特定した異常の種類を示す異常情報を取得し、取得した異常情報をメモリに格納する。
図7は、サーバの位置情報及び異常情報を記憶するレジスタR8〜レジスタR11の例を示している。レジスタR8〜レジスタR11は、BMC533−iが有するメモリ内に設けられた記憶領域に対応する。レジスタR8は、ラック521内におけるサーバ512−i(自サーバ)の位置情報を記憶する。ラック521内における位置情報としては、例えば、U(ユニット)の番号(U数)を用いることができる。U数は、ラック521の高さ方向の位置を表し、値が大きいほど高い位置を表す。NULLは、U数が未設定であることを意味する。初期状態において、レジスタR8の値はNULLに設定されている。
レジスタR9は、サーバ512−i内においてBMC533−iが特定した異常の種類を示す異常情報を記憶する。異常情報は、NULL又は1〜4のいずれかの値を持つ。NULLは、異常なしを表し、1は液漏れを表し、2は冷却設備の不良を表し、3はポンプの不良を表し、4は配管の流量不足を表す。初期状態において、レジスタR9の値はNULLに設定されている。
レジスタR10は、ラック521内における他のサーバ512−j(他サーバ)の位置情報を記憶する。レジスタR10の位置情報の値は、レジスタR8の場合と同様である。レジスタR11は、BMC533−iが他のサーバ512−jのBMC533−jから取得した異常情報を記憶する。レジスタR11の異常情報は、レジスタR9の場合と同様である。
BMC533−iは、レジスタR1〜レジスタR11が記憶する情報を解析することで、情報処理システム内における異常の影響範囲を求める。そして、BMC533−iは、BMC533−iの監視対象であるサーバ512−iがその影響範囲に含まれるか否かに基づいて、サーバ512−iを停止させるか否かを決定する。
図8は、レジスタR8〜レジスタR11の値の例を示している。レジスタR9の値がNULLであり、レジスタR11の値が1であることから、サーバ512−iにおいて異常が検知されておらず、サーバ512−jにおいて液漏れが検知されていることが分かる。また、レジスタR8の値が3であり、レジスタR10の値が2であることから、サーバ512−iは3Uの位置に存在し、サーバ512−jは2Uの位置に存在することが分かる。
他サーバにおいて液漏れが発生した場合、自サーバが他サーバの位置よりも高い位置に存在する場合は、他サーバの液漏れが自サーバの動作に影響を及ぼす可能性はないと考えられる。一方、自サーバが他サーバの位置と同じか又はそれよりも低い位置に存在する場合は、他サーバの液漏れが自サーバの動作に影響を及ぼす可能性があると考えられる。
そこで、BMC533−iは、サーバ512−jが存在する2Uの位置と同じか又はそれよりも低い位置を、液漏れの影響を受ける影響範囲に決定する。サーバ512−iは、液漏れが発生したサーバ512−jよりも高い位置に存在するため、影響範囲には含まれていない。したがって、BMC533−iは、サーバ512−iは液漏れの影響を受けないと判定し、サーバ512−iの動作を停止させることなく、その運用を継続する。
一方、レジスタR8及びレジスタR10が存在しない場合、異常が発生していないサーバ512−iと液漏れが発生したサーバ512−jとの位置関係が不明である。このため、BMC533−iは、サーバ512−iが液漏れの影響を受ける可能性があると判定し、サーバ512−iの動作を停止させてしまう。
このように、レジスタR8及びレジスタR10を設けて、自サーバの位置情報と液漏れが発生した他サーバの位置情報とを管理することで、液漏れの影響範囲に含まれないサーバの運用を継続することが可能になる。
図9は、サーバ512−iの起動時にBMC533−iが行う第1の起動制御処理の例を示すフローチャートである。まず、BMC533−iは、レジスタR8の位置情報が設定済みであるか否かをチェックする(ステップ901)。BMC533−iは、レジスタR8の値がNULLである場合、位置情報が未設定であると判定し、レジスタR8の値がNULL以外の値である場合、位置情報が設定済みであると判定する。
位置情報が未設定である場合(ステップ901,NO)、BMC533−iは、位置情報の入力を要求するメッセージを画面に表示して(ステップ904)、ステップ901以降の処理を繰り返す。位置情報の入力を要求するメッセージが表示された場合、オペレータは、サーバ512−iの位置情報をBMC533−iに入力し、BMC533−iは、入力された位置情報をレジスタR8に書き込む。例えば、オペレータは、カスタマエンジニアであってもよい。
位置情報が設定済みである場合(ステップ901,YES)、BMC533−iは、他のいずれかのサーバ512−jで異常が発生しているか否かをチェックする(ステップ902)。このとき、BMC533−iは、各サーバ512−jのBMC533−jに対して、異常が発生しているか否かを問い合わせることで、そのサーバ512−jで異常が発生しているか否かを判定する。
いずれのサーバ512−jでも異常が発生していない場合(ステップ902,NO)、BMC533−iは、CPU531−iに対して、サーバ512−iのオペレーティングシステム(OS)を起動させる(ステップ903)。これにより、サーバ512−iの運用が開始される。
一方、いずれかのサーバ512−jで異常が発生している場合(ステップ902,YES)、BMC533−iは、発生している異常の種類をチェックする(ステップ905)。このとき、BMC533−iは、サーバ512−jのBMC533−jが保持するレジスタR9の値を取得して、メモリ内のレジスタR11に書き込み、レジスタR11に書き込んだ値に基づいて異常の種類を特定する。
異常の種類が冷却設備の不良又は配管の流量不足である場合、BMC533−iは、異常の影響範囲が情報処理システム全体であると判定する。この場合、サーバ512−iが影響範囲に含まれるため、BMC533−iは、OSを起動させず、サーバ512−iをシャットダウンさせる(ステップ906)。
異常の種類がポンプの不良である場合、BMC533−iは、異常の影響範囲が存在しないと判定して、ステップ903の処理を行う。
異常の種類が液漏れである場合、BMC533−iは、異常の影響範囲がサーバ512−jの位置と同じか又はそれよりも低い位置であると判定する。そして、BMC533−iは、サーバ512−iが影響範囲に含まれるか否かをチェックする(ステップ907)。
このとき、BMC533−iは、サーバ512−jのBMC533−jが保持するレジスタR8の値を取得して、メモリ内のレジスタR10に書き込み、レジスタR8の値とレジスタR10の値とを比較する。
レジスタR8の値がレジスタR10の値以下である場合、サーバ512−iがサーバ512−jの位置と同じか又はそれよりも低い位置に存在するため、サーバ512−iが影響範囲に含まれると判定される。一方、レジスタR8の値がレジスタR10の値よりも大きい場合、サーバ512−iがサーバ512−jの位置よりも高い位置に存在するため、サーバ512−iは影響範囲に含まれないと判定される。
サーバ512−iが影響範囲に含まれる場合(ステップ907,YES)、BMC533−iは、ステップ906の処理を行い、サーバ512−iが影響範囲に含まれない場合(ステップ907,NO)、BMC533−iは、ステップ903の処理を行う。
図9の起動制御処理によれば、他サーバで液体冷却システムの異常が発生している場合であっても、異常の種類がポンプの不良であれば、自サーバを起動することができる。また、他サーバで発生している異常の種類が液漏れである場合、自サーバが液漏れの影響範囲に含まれなければ、自サーバを起動することができる。したがって、起動されるサーバの台数の減少が抑制される。
図10は、サーバ512−iの運用中にBMC533−iが行う第1の運用制御処理の例を示すフローチャートである。まず、BMC533−iは、定期的にレジスタR1〜レジスタR7の値を監視し(ステップ1001)、サーバ512−iで異常が発生しているか否かをチェックする(ステップ1002)。
サーバ512−iで異常が発生している場合(ステップ1002,YES)、BMC533−iは、レジスタR1〜レジスタR7の値に基づいて異常の種類を特定し、特定した異常を示す異常情報をレジスタR9に書き込む(ステップ1003)。そして、BMC533−iは、レジスタR8及びレジスタR9の値を、他のすべてのサーバ512−jのBMC533−jへ送信する(ステップ1004)。
次に、BMC533−iは、レジスタR9に書き込んだ値に基づいて、異常の種類をチェックする(ステップ1005)。
異常の種類が冷却設備の不良又は配管の流量不足である場合、BMC533−iは、異常の影響範囲が情報処理システム全体であると判定する。また、異常の種類が液漏れである場合、BMC533−iは、異常の影響範囲がサーバ512−iの位置と同じか又はそれよりも低い位置であると判定する。これらの場合、サーバ512−iが影響範囲に含まれるため、BMC533−iは、CPU531−iに対して、サーバ512−iをシャットダウンさせる(ステップ1006)。これにより、サーバ512−iは電源を切断し、CPU531−iは動作を停止する。
一方、異常の種類がポンプの不良である場合、BMC533−iは、異常の影響範囲が存在しないと判定する。そして、BMC533−iは、ポンプの不良を示すメッセージを画面に表示する(ステップ1007)。ポンプの不良を示すメッセージが表示された場合、オペレータは、ポンプ532−iを良品と交換する。
BMC533−iは、他のサーバ512−jのBMC533−jからレジスタR8及びレジスタR9の値を受信した場合、それらの値をレジスタR10及びレジスタR11にそれぞれ書き込む。
サーバ512−iで異常が発生していない場合(ステップ1002,NO)、BMC533−iは、NULLをレジスタR9に書き込み、レジスタR11の値をチェックする(ステップ1008)。
レジスタR11の値がNULLであり、他のいずれのサーバ512−jにおいても異常が発生していない場合、BMC533−iは、ステップ1001以降の処理を繰り返す。レジスタR11の値がNULL以外の値である場合、BMC533−iは、レジスタR11の値に基づいて異常の種類を特定する。
異常の種類が冷却設備の不良又は配管の流量不足である場合、BMC533−iは、異常の影響範囲が情報処理システム全体であると判定する。この場合、サーバ512−iが影響範囲に含まれるため、BMC533−iは、CPU531−iに対して、サーバ512−iをシャットダウンさせる(ステップ1009)。なお、サーバ512−j自体は、BMC533−jによってシャットダウンされている。
異常の種類がポンプの不良である場合、BMC533−iは、異常の影響範囲が存在しないと判定して、ステップ1007の処理を行う。
異常の種類が液漏れである場合、BMC533−iは、異常の影響範囲がサーバ512−jの位置と同じか又はそれよりも低い位置であると判定する。そして、BMC533−iは、図9のステップ907と同様にして、サーバ512−iが影響範囲に含まれるか否かをチェックする(ステップ1010)。
サーバ512−iが影響範囲に含まれる場合(ステップ1010,YES)、BMC533−iは、ステップ1009の処理を行う。一方、サーバ512−iが影響範囲に含まれない場合(ステップ1010,NO)、BMC533−iは、ステップ1001以降の処理を繰り返す。
図10の運用制御処理によれば、自サーバ又は他サーバで液体冷却システムの異常が発生している場合であっても、異常の種類がポンプの不良であれば、自サーバの運用を継続することができる。また、他サーバで発生している異常の種類が液漏れである場合、自サーバが液漏れの影響範囲に含まれなければ、自サーバの運用を継続することができる。したがって、エンドユーザに対してサービスの提供を継続するサーバの台数の減少が抑制される。
これにより、情報処理システムの可用性が向上し、スーパーコンピュータシステムの液体冷却技術をエンタープライズ用途の情報処理システムに適用することが容易になる。また、ポンプの不良を示すメッセージを表示することで、オペレータによるメンテナンス作業にかかる時間が削減される。
ところで、実際の情報処理システムでは、複数のラックにサーバが搭載されていたり、ブレードサーバ又はマルチノードサーバのように、ラック内の同じU数が示す位置に複数のサーバが搭載されていたりすることがある。さらに、複数のサーバにおいて異常が発生する可能性もある。
図11は、複数のラックを含む第2の情報処理システムの構成例を示している。図11の情報処理システムは、図5の情報処理システムに、LANスイッチ1111、サーバ1112−1〜サーバ1112−3、及び冷却装置1113を追加した構成を有する。LANスイッチ1111及びサーバ1112−1〜サーバ1112−3は、ラック1121内に収納されている。
なお、ラック1121内に収納されたサーバ1112−i(i=1〜3)の台数は3台に限られず、4台以上であってもよい。
サーバ1112−iは、図3の情報処理装置301に対応し、CPU1131−i、ポンプ1132−i、BMC1133−iを含む。CPU1131−iは、処理部311に対応し、情報処理システムの用途に応じた情報処理を行う。処理部311は、CPU1131−i以外に、不図示のメモリ、HDD等を含んでいてもよい。BMC1133−iは、制御部312に対応し、サーバ1112−iの管理及び監視を行い、その動作を制御する。
CPU1131−iの近傍には、CPU1131−iの温度を検出する温度センサS1が設けられており、ポンプ1132−iの近傍には、ポンプ1132−iの回転数を検出する回転数センサS7が設けられている。温度センサS1は、I2C通信の信号線1161−iによってBMC1133−iと接続されており、回転数センサS7は、I2C通信の信号線1162−iによってBMC1133−iと接続されている。
BMC1133−iは、信号線1161−i及び信号線1162−iを介して、温度センサS1及び回転数センサS7が出力するセンサデータを取得し、取得したセンサデータをBMC1133−i内のメモリに格納する。
冷却装置1113は、管理部1141及び熱交換器1142を含む。サーバ1112−1〜サーバ1112−3それぞれと熱交換器1142との間に配置された配管1151内において、2次側冷却水が循環し、熱交換器1142と冷却設備514との間に配置された配管1152内において、1次側冷却水が循環する。
熱交換器1142の近傍には、流量センサS3、流量センサS4、温度センサS5、及び温度センサS6が設けられ、ラック1121内には液漏れセンサS2が設けられている。流量センサS3は、配管1152内を循環する冷却水の流量を検出し、流量センサS4は、配管1151内を循環する冷却水の流量を検出する。温度センサS5は、配管1152内を循環する冷却水の温度を検出し、温度センサS6は、配管1151内を循環する冷却水の温度を検出する。液漏れセンサS2は、配管1151からの液漏れを検出する。
流量センサS3及び温度センサS5は、I2C通信の信号線1165によって管理部1141と接続されており、流量センサS4及び温度センサS6は、I2C通信の信号線1163によって管理部1141と接続されている。液漏れセンサS2は、I2C通信の信号線1164によって管理部1141と接続されている。
LANスイッチ1111、BMC1133−1〜BMC1133−3、及び管理部1141は、LAN1153によって接続されており、LANスイッチ1111は、BMC1133−1〜BMC1133−3及び管理部1141の間の通信を制御する。BMC1133−1〜BMC1133−3及び管理部1141は、LAN1153を介して、互いに通信することができる。
管理部1141は、流量センサS3、流量センサS4、温度センサS5、温度センサS6、及び液漏れセンサS2が出力するセンサデータを受信する。BMC1133−1〜BMC1133−3は、LAN1153を介して、管理部1141からそれらのセンサデータを取得し、取得したセンサデータをメモリに格納する。
BMC533−i及びBMC1133−iのメモリ内には、図6に示したレジスタR1〜レジスタR7と図7に示したレジスタR8〜レジスタR11に加えて、レジスタR12及びレジスタR13が設けられる。
図12は、レジスタR8〜レジスタR13の例を示している。レジスタR12は、サーバ512−i又はサーバ1112−i(自サーバ)に接続されている熱交換器542又は熱交換器1142の識別情報(ID)を記憶する。熱交換器542又は熱交換器1142のIDとしては、例えば、シリアル番号を用いることができる。熱交換器542のIDはラック521に対応付けられており、熱交換器1142のIDはラック1121に対応付けられている。
例えば、管理部541のメモリが熱交換器542のIDを記憶している場合、BMC533−iは、管理部541から熱交換器542のIDを取得して、レジスタR12に書き込む。同様に、管理部1141のメモリが熱交換器1142のIDを記憶している場合、BMC1133−iは、管理部1141から熱交換器1142のIDを取得して、レジスタR12に書き込む。
レジスタR13は、他のサーバ512−j又は他のサーバ1112−j(他サーバ)に接続されている熱交換器542又は熱交換器1142のIDを記憶する。他サーバにおいて異常が発生した場合、BMC533−i又はBMC1133−iは、レジスタR12の値とレジスタR13の値とを比較することで、自サーバが他サーバと同じラック内に存在するか否かを判定することができる。
図13は、サーバ512−i又はサーバ1112−iの起動時にBMC533−i又はBMC1133−iが行う第2の起動制御処理の例を示すフローチャートである。以下では、簡単のため、サーバ512−i又はサーバ1112−iを自サーバと記し、サーバ512−j又はサーバ1112−jを他サーバと記し、BMC533−i又はBMC1133−iをBMCと記すことにする。
ステップ1301〜ステップ1304及びステップ1306〜ステップ1308の処理は、図9のステップ901〜ステップ907の処理と同様である。
いずれかの他サーバで異常が発生している場合(ステップ1302,YES)、BMCは、自サーバに接続されている熱交換器のIDと、他サーバに接続されている熱交換器のIDとを比較する(ステップ1305)。このとき、BMCは、他サーバのBMCが保持するレジスタR12の値を取得して、メモリ内のレジスタR13に書き込み、レジスタR12の値とレジスタR13の値とを比較する。
自サーバに接続されている熱交換器のIDと、他サーバに接続されている熱交換器のIDとが異なる場合(ステップ1305,NO)、BMCは、自サーバが他サーバと同じラック内に存在しないと判定する。そして、BMCは、自サーバが異常の影響範囲に含まれないものとみなして、ステップ1303の処理を行う。
一方、自サーバに接続されている熱交換器のIDと、他サーバに接続されている熱交換器のIDとが同じである場合(ステップ1305,YES)、BMCは、自サーバが他サーバと同じラック内に存在すると判定する。そして、BMCは、自サーバが異常の影響範囲に含まれる可能性があるとみなして、ステップ1306以降の処理を行う。
図13の起動制御処理によれば、他サーバで液体冷却システムの異常が発生している場合であっても、自サーバが他サーバと同じラック内に存在しなければ、自サーバを起動することができる。
図14は、サーバ512−i又はサーバ1112−iの運用中にBMC533−i又はBMC1133−iが行う第2の運用制御処理の例を示すフローチャートである。ステップ1401〜ステップ1407及びステップ1409〜ステップ1411の処理は、図10のステップ1001〜ステップ1010の処理と同様である。
ただし、ステップ1404において、BMCは、レジスタR8、レジスタR9、及びレジスタR12の値を、他のすべてのサーバのBMCへ送信する。そして、BMCは、他サーバのBMCからレジスタR8、レジスタR9、及びレジスタR12の値を受信した場合、それらの値をレジスタR10、レジスタR11、及びレジスタR13にそれぞれ書き込む。
自サーバで異常が発生していない場合(ステップ1402,NO)、BMCは、NULLをレジスタR9に書き込み、自サーバに接続されている熱交換器のIDと、他サーバに接続されている熱交換器のIDとを比較する(ステップ1408)。このとき、BMCは、レジスタR12の値とレジスタR13の値とを比較する。
自サーバに接続されている熱交換器のIDと、他サーバに接続されている熱交換器のIDとが異なる場合(ステップ1408,NO)、BMCは、自サーバが他サーバと同じラック内に存在しないと判定する。そして、BMCは、自サーバが異常の影響範囲に含まれないものとみなして、ステップ1401以降の処理を繰り返す。
一方、自サーバに接続されている熱交換器のIDと、他サーバに接続されている熱交換器のIDとが同じである場合(ステップ1408,YES)、BMCは、自サーバが他サーバと同じラック内に存在すると判定する。そして、BMCは、自サーバが異常の影響範囲に含まれる可能性があるとみなして、ステップ1409以降の処理を行う。
図14の運用制御処理によれば、他サーバで液体冷却システムの異常が発生している場合であっても、自サーバが他サーバと同じラック内に存在しなければ、自サーバの運用を継続することができる。
図15は、ラック内の同じU数が示す位置に複数のサーバが搭載されている第3の情報処理システムの構成例を示している。図15の情報処理システムは、冷却設備514、LANスイッチ1511、サーバ1512−1〜サーバ1512−10、及び冷却装置1513を含む。LANスイッチ1511及びサーバ1512−1〜サーバ1512−10は、ラック1521内に収納されている。
このうち、サーバ1512−1〜サーバ1512−4は、ラック1521に搭載された筐体(シャーシ)1522内に収納されており、サーバ1512−6〜サーバ1512−9は、ラック1521に搭載された筐体1523内に収納されている。サーバ1512−1〜サーバ1512−4及びサーバ1512−6〜サーバ1512−9は、ブレードサーバ又はマルチノードサーバに相当する。
なお、ラック1521内に収納されたサーバ1512−i(i=1〜10)の台数は10台に限られず、11台以上であってもよい。また、筐体1522及び筐体1523に収納されたサーバ1512−iの台数は4台に限られず、5台以上であってもよい。
サーバ1512−iは、図3の情報処理装置301に対応し、CPU1531−i、ポンプ1532−i、BMC1533−iを含む。CPU1531−iは、処理部311に対応し、情報処理システムの用途に応じた情報処理を行う。処理部311は、CPU1531−i以外に、不図示のメモリ、HDD等を含んでいてもよい。BMC1533−iは、制御部312に対応し、サーバ1512−iの管理及び監視を行い、その動作を制御する。
CPU1531−iの近傍には、CPU1531−iの温度を検出する温度センサS1が設けられており、ポンプ1532−iの近傍には、ポンプ1532−iの回転数を検出する回転数センサS7が設けられている。温度センサS1は、I2C通信の信号線1561−iによってBMC1533−iと接続されており、回転数センサS7は、I2C通信の信号線1562−iによってBMC1533−iと接続されている。
BMC1533−iは、信号線1561−i及び信号線1562−iを介して、温度センサS1及び回転数センサS7が出力するセンサデータを取得し、取得したセンサデータをBMC1533−i内のメモリに格納する。
冷却装置1513は、管理部1541及び熱交換器1542を含む。サーバ1512−1〜サーバ1512−10それぞれと熱交換器1542との間に配置された配管1551内において、2次側冷却水が循環し、熱交換器1542と冷却設備514との間に配置された配管1552内において、1次側冷却水が循環する。
熱交換器1542の近傍には、流量センサS3、流量センサS4、温度センサS5、及び温度センサS6が設けられ、ラック1521内には液漏れセンサS2が設けられている。流量センサS3は、配管1552内を循環する冷却水の流量を検出し、流量センサS4は、配管1551内を循環する冷却水の流量を検出する。温度センサS5は、配管1552内を循環する冷却水の温度を検出し、温度センサS6は、配管1551内を循環する冷却水の温度を検出する。液漏れセンサS2は、配管1551からの液漏れを検出する。
流量センサS3及び温度センサS5は、I2C通信の信号線1565によって管理部1541と接続されており、流量センサS4及び温度センサS6は、I2C通信の信号線1563によって管理部1541と接続されている。液漏れセンサS2は、I2C通信の信号線1564によって管理部1541と接続されている。
LANスイッチ1511、BMC1533−1〜BMC1533−10、及び管理部1541は、LAN1553によって接続されており、LANスイッチ1511は、BMC1533−1〜BMC1533−10及び管理部1541の間の通信を制御する。BMC1533−1〜BMC1533−10及び管理部1541は、LAN1553を介して、互いに通信することができる。
管理部1541は、流量センサS3、流量センサS4、温度センサS5、温度センサS6、及び液漏れセンサS2が出力するセンサデータを受信する。BMC1533−1〜BMC1533−10は、LAN1553を介して、管理部1541からそれらのセンサデータを取得し、取得したセンサデータをメモリに格納する。
情報処理システムは、ラック1521とは異なる不図示のラック内に収納されたサーバ1512−i(i≧11)を含んでいてもよい。
BMC1533−iのメモリ内には、図6に示したレジスタR1〜レジスタR7と図12に示したレジスタR8〜レジスタR13に加えて、レジスタR14及びレジスタR15が設けられる。
図16は、レジスタR8〜レジスタR15の例を示している。レジスタR14は、サーバ1512−i(自サーバ)を収納する筐体1522又は筐体1523のIDを記憶する。筐体1522又は筐体1523のIDとしては、例えば、シリアル番号を用いることができる。
BMC1533−1〜BMC1533−4のレジスタR14は、筐体1522のIDを記憶し、BMC1533−6〜BMC1533−9のレジスタR14は、筐体1523のIDを記憶する。サーバ1512−5は筐体1522又は筐体1523のいずれにも収納されていないため、BMC1533−5のレジスタR14は、自サーバの筐体のIDとして、筐体1522及び筐体1523のIDとは異なる擬似的なIDを記憶する。同様に、BMC1533−10のレジスタR14も、擬似的なIDを記憶する。
例えば、筐体1522内に設けられた不図示の記憶装置が筐体1522のIDを記憶している場合、BMC1533−i(i=1〜4)は、その記憶装置から筐体1522のIDを取得して、レジスタR14に書き込む。同様に、筐体1523内に設けられた不図示の記憶装置が筐体1523のIDを記憶している場合、BMC1533−i(i=6〜9)は、その記憶装置から筐体1523のIDを取得して、レジスタR14に書き込む。
レジスタR15は、他のサーバ1512−j(他サーバ)を収納する筐体1522又は筐体1523のIDを記憶する。他のサーバ1512−jが筐体1522又は筐体1523のいずれにも収納されていない場合、レジスタR15は、擬似的なIDを記憶する。
他サーバにおいて異常が発生した場合、BMC1533−iは、レジスタR14の値とレジスタR15の値とを比較することで、自サーバが他サーバと同じ筐体内に存在するか否かを判定することができる。
図17は、サーバ1512−iの起動時にBMC1533−iが行う第3の起動制御処理の例を示すフローチャートである。ステップ1701〜ステップ1705及びステップ1707〜ステップ1709の処理は、図13のステップ1301〜ステップ1308の処理と同様である。
サーバ1512−iに接続されている熱交換器のIDと、他のサーバ1512−jに接続されている熱交換器のIDとが同じである場合(ステップ1705,YES)、BMC1533−iは、ステップ1706の処理を行う。ステップ1706において、BMC1533−iは、サーバ1512−iの筐体のIDと、サーバ1512−jの筐体のIDとを比較する。このとき、BMC1533−iは、サーバ1512−jのBMC1533−jが保持するレジスタR14の値を取得して、メモリ内のレジスタR15に書き込み、レジスタR14の値とレジスタR15の値とを比較する。
サーバ1512−iの筐体のIDと、サーバ1512−jの筐体のIDとが同じである場合(ステップ1706,YES)、BMC1533−iは、サーバ1512−iがサーバ1512−jと同じ筐体内に存在すると判定する。そして、BMC1533−iは、ステップ1707以降の処理を行う。
一方、サーバ1512−iの筐体のIDと、サーバ1512−jの筐体のIDとが異なる場合(ステップ1706,NO)、BMC1533−iは、サーバ1512−iがサーバ1512−jと同じ筐体内に存在しないと判定する。そして、BMC1533−iは、ステップ1709以降の処理を行う。
図17の起動制御処理によれば、他サーバで液体冷却システムの異常が発生している場合、自サーバが他サーバと同じ筐体内に存在するか否かに応じて、異なる起動判定を行うことができる。
図18は、サーバ1512−iの運用中にBMC1533−iが行う第3の運用制御処理の例を示すフローチャートである。ステップ1801〜ステップ1808、ステップ1810、ステップ1812、及びステップ1813の処理は、図14のステップ1401〜ステップ1411の処理と同様である。
ただし、ステップ1804において、BMC1533−iは、レジスタR8、レジスタR9、レジスタR12、及びレジスタR14の値を、他のすべてのサーバ1512−jのBMC1533−jへ送信する。
そして、BMC1533−iは、他のサーバ1512−jのBMC1533−jからレジスタR8、レジスタR9、レジスタR12、及びレジスタR14の値を受信した場合、それらの値をメモリに書き込む。この場合、BMC1533−iは、レジスタR8、レジスタR9、レジスタR12、及びレジスタR14の値を、レジスタR10、レジスタR11、レジスタR13、及びレジスタR15にそれぞれ書き込む。
サーバ1512−iに接続されている熱交換器のIDと、他のサーバ1512−jに接続されている熱交換器のIDとが同じである場合(ステップ1808,YES)、BMC1533−iは、ステップ1809の処理を行う。ステップ1809において、BMC1533−iは、サーバ1512−iの筐体のIDと、サーバ1512−jの筐体のIDとを比較する。このとき、BMCは、レジスタR14の値とレジスタR15の値とを比較する。
サーバ1512−iの筐体のIDと、サーバ1512−jの筐体のIDとが同じである場合(ステップ1809,YES)、BMC1533−iは、サーバ1512−iがサーバ1512−jと同じ筐体内に存在すると判定する。そして、BMC1533−iは、ステップ1810以降の処理を行う。ステップ1810において、異常の種類がポンプの不良である場合、BMC1533−iは、ポンプの不良を示すメッセージを画面に表示する(ステップ1811)。
一方、サーバ1512−iの筐体のIDと、サーバ1512−jの筐体のIDとが異なる場合(ステップ1809,NO)、BMC1533−iは、サーバ1512−iがサーバ1512−jと同じ筐体内に存在しないと判定する。そして、BMC1533−iは、ステップ1813以降の処理を行う。
図18の運用制御処理によれば、他サーバで液体冷却システムの異常が発生している場合、自サーバが他サーバと同じ筐体内に存在するか否かに応じて、異なる運用判定を行うことができる。
図15の情報処理システムにおいて複数のサーバ1512−iで異常が発生した場合、図16のレジスタR10、レジスタR11、レジスタR13、及びレジスタR15の値は、最後に検知された異常に合わせて上書きされてしまう可能性がある。このため、発生した異常の種類によっては、サーバ1512−iを起動するか否か、又はサーバ1512−iの運用を継続するか否かが、適切に判定されないことがある。
そこで、異常の種類に応じて優先順位を設定した優先順位テーブルを設けて、複数のサーバ1512−iで異常が発生した場合に、どの異常に関する情報をレジスタに書き込むかを優先順位に基づいて決定する処理を追加する。
図19は、BMC1533−iのメモリ内に設けられる優先順位テーブルの例を示している。この場合、他サーバで発生した異常の影響を受ける可能性の高さの観点から、優先順位が設定されている。優先順位が高い異常ほど、自サーバが影響を受ける可能性が高くなる。
優先順位1の異常は、冷却設備の不良であり、対応する異常情報は“2”である。冷却設備の不良は、情報処理システム内のすべてのサーバ1512−iに影響を与えるため、最も高い優先順位が設定される。
優先順位2の異常は、配管の流量不足であり、対応する異常情報は“4”である。他サーバにおける配管の流量不足の影響範囲は、異常の発生場所によって変化するため、冷却設備の不良よりも低い優先順位が設定される。
優先順位3の異常は、液漏れであり、対応する異常情報は“1”である。他サーバにおける液漏れの影響範囲も、異常の発生場所によって変化するため、冷却設備の不良よりも低い優先順位が設定される。
優先順位4の異常は、ポンプの不良であり、対応する異常情報は“3”である。他サーバにおけるポンプの不良は、自サーバに影響を与えないため、最も低い優先順位が設定される。
他サーバにおいて複数の異常が発生した場合、BMC1533−iは、優先順位テーブルに設定された優先順位に基づいて、最も高い優先順位の異常を選択し、選択した異常に関する情報をレジスタに書き込むことができる。
図20は、サーバ1512−iの起動時にBMC1533−iが行う第4の起動制御処理の例を示すフローチャートである。ステップ2001〜ステップ2004及びステップ2006〜ステップ2010の処理は、図17のステップ1701〜ステップ1709の処理と同様である。
他のサーバ1512−jで異常が発生している場合(ステップ2002,YES)、BMC1533−iは、ステップ2005の処理を行う。ステップ2005において、BMC1533−iは、異常が発生しているすべてのサーバ1512−jから、レジスタR8、レジスタR9、レジスタR12、及びレジスタR14の値を取得する。そして、BMC1533−iは、優先順位テーブルを参照して、複数のレジスタR9の異常情報のうち、最も高い優先順位の異常情報を選択する。
次に、BMC1533−iは、選択した異常情報を送信したサーバ1512−jのレジスタR8、レジスタR9、レジスタR12、及びレジスタR14の値を、レジスタR10、レジスタR11、レジスタR13、及びレジスタR15にそれぞれ書き込む。最も高い優先順位の異常情報が複数存在する場合、BMC1533−iは、以下の選択基準に従って異常情報を選択する。
(a)BMC1533−iは、複数の異常情報に対応するレジスタR8の値を比較して、より高い位置に存在するサーバ1512−jの異常情報を優先的に選択する。
(b)BMC1533−iは、複数の異常情報に対応するレジスタR12の値を比較して、サーバ1512−iと同じ熱交換器に接続されているサーバ1512−jの異常情報を優先的に選択する。
(c)BMC1533−iは、複数の異常情報に対応するレジスタR14の値を比較して、サーバ1512−iと同じ筐体内に存在するサーバ1512−jの異常情報を優先的に選択する。
なお、単一のサーバ1512−jで異常が発生している場合は、そのサーバ1512−jの異常情報が選択される。
BMC1533−iは、レジスタR10、レジスタR11、レジスタR13、及びレジスタR15に対する書き込みが終了した後、ステップ2006以降の処理を行う。
図20の起動制御処理によれば、複数の他サーバで液体冷却システムの異常が発生している場合、優先順位テーブルに基づいて、レジスタR10、レジスタR11、レジスタR13、及びレジスタR15に書き込む情報を決定することができる。これにより、サーバ1512−iを起動するか否かを適切に判定することが可能になる。
図21は、サーバ1512−iの運用中にBMC1533−iが行う第4の運用制御処理の例を示すフローチャートである。ステップ2101〜ステップ2107及びステップ2109〜ステップ2114の処理は、図18のステップ1801〜ステップ1813の処理と同様である。
サーバ1512−iで異常が発生していない場合(ステップ2102,NO)、BMC1533−iは、ステップ2108の処理を行う。ステップ2108において、BMC1533−iは、異常が発生しているすべてのサーバ1512−jから受信したレジスタR8、レジスタR9、レジスタR12、及びレジスタR14の値を比較する。そして、BMC1533−iは、図20のステップ2005と同様にして、複数のレジスタR9の異常情報のうち、最も高い優先順位の異常情報を選択する。
次に、BMC1533−iは、選択した異常情報を送信したサーバ1512−jのレジスタR8、レジスタR9、レジスタR12、及びレジスタR14の値を、レジスタR10、レジスタR11、レジスタR13、及びレジスタR15にそれぞれ書き込む。そして、BMC1533−iは、ステップ2109以降の処理を行う。
図21の運用制御処理によれば、複数の他サーバで液体冷却システムの異常が発生している場合、優先順位テーブルに基づいて、レジスタR10、レジスタR11、レジスタR13、及びレジスタR15に書き込む情報を決定することができる。これにより、サーバ1512−iの運用を継続するか否かを適切に判定することが可能になる。
図1の冷却システムは一例に過ぎず、冷却システムの用途又は条件に応じて、一部の構成要素を省略又は変更してもよい。例えば、冷却水の代わりに、別の液体を用いてサーバ101のCPU、メモリ等を冷却してもよい。
図3の情報処理装置301の構成は一例に過ぎず、情報処理装置301の用途又は条件に応じて、一部の構成要素を省略又は変更してもよい。
図5、図11、及び図15の情報処理システムの構成は一例に過ぎず、情報処理システムの用途又は条件に応じて、一部の構成要素を省略又は変更してもよい。例えば、図5、図11、及び図15に示した位置とは異なる位置に、センサS1〜センサS7を設けることも可能である。センサS1〜センサS7のうち、一部のセンサを省略しても構わない。液体冷却システムの配管の本数及び配置は、情報処理システムの構成又は条件に応じて変化する。
図4、図9、図10、図13、図14、図17、図18、図20、及び図21のフローチャートは一例に過ぎず、情報処理システムの構成又は条件に応じて一部の処理を省略又は変更してもよい。
図2及び図6のセンサデータ及び異常の種類は一例に過ぎず、BMCは、別の種類の異常を特定するために別のセンサデータを用いてもよい。図7、図8、図12、及び図16のレジスタは一例に過ぎず、BMCは、別の情報を記憶するレジスタを用いて異常の影響範囲を求めてもよい。図19の優先順位テーブルは一例に過ぎず、各異常情報に対して別の優先順位を設定してもよい。
図22は、図5及び図11のBMC533−i、図11のBMC1133−i、及び図15のBMC1533−iとして用いられる情報処理装置(コンピュータ)の構成例を示している。図22のBMC2201は、CPU2211、メモリ2212、インタフェース回路2213、及びインタフェース回路2214を含む。
メモリ2212は、例えば、Read Only Memory(ROM)、Random Access Memory(RAM)、フラッシュメモリ等の半導体メモリであり、処理に用いられるプログラム及びデータを格納する。メモリ2212は、図6のレジスタR1〜レジスタR7、図7のレジスタR8〜レジスタR11、図12のレジスタR12及びレジスタR13、及び図16のレジスタR14及びレジスタR15として用いることができる。メモリ2212は、図19の優先順位テーブルを記憶することもできる。
CPU2211(プロセッサ)は、例えば、メモリ2212を利用してプログラムを実行することにより、サーバの管理及び監視を行うとともに、起動制御処理及び運用制御処理を行う。CPU2211は、メモリ2212を利用してプログラムを実行することにより、図3の制御部312としても動作する。
オペレータ又はユーザは、不図示の可搬型記録媒体にプログラム及びデータを格納しておき、それらをメモリ2212にロードして使用することができる。可搬型記録媒体としては、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等が用いられる。可搬型記録媒体は、Compact Disk Read Only Memory(CD−ROM)、Digital Versatile Disk(DVD)、Universal Serial Bus(USB)メモリ等であってもよい。
このように、処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ2212又は可搬型記録媒体のような、物理的な(非一時的な)記録媒体である。
インタフェース回路2213は、LANに接続され、冷却装置の管理部又は他のBMCと通信する。BMC2201は、プログラム及びデータを外部の装置からインタフェース回路2213を介して受信し、それらをメモリ2212にロードして使用することができる。インタフェース回路2214は、I2C通信の信号線に接続され、センサS1及びセンサS7と通信する。
なお、図22のBMC2201の構成は一例に過ぎず、情報処理システムの構成又は条件に応じて一部の構成要素を省略又は変更してもよい。
開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。
図2乃至図22を参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
(付記1)
情報処理システムに含まれる複数の情報処理装置のうちの1つの情報処理装置であって、
情報処理を行う処理部と、
前記複数の情報処理装置を冷却する液体冷却システム内に配置された複数のセンサそれぞれが出力する複数のセンサデータと、前記複数の情報処理装置のうち他の情報処理装置が保持している前記液体冷却システムの異常情報とを取得し、前記複数のセンサデータと前記異常情報とに基づいて、前記情報処理システム内における前記液体冷却システムの異常の影響範囲を求め、前記影響範囲に基づいて前記処理部を制御する制御部と、
を備えることを特徴とする情報処理装置。
(付記2)
前記制御部は、前記複数のセンサデータが、前記複数の情報処理装置それぞれに配置された複数の配管と熱交換器を介して接続されている冷却設備の不良、前記複数の配管のうち前記制御部を備える前記情報処理装置に配置された配管の流量不足、又は前記複数の配管のうちいずれかの配管からの液漏れを示している場合、前記制御部を備える前記情報処理装置を含む範囲を前記影響範囲に決定することを特徴とする付記1記載の情報処理装置。
(付記3)
前記制御部は、前記異常情報が、前記冷却設備の不良、又は前記複数の配管のうち前記他の情報処理装置に配置された配管の流量不足を示している場合、前記制御部を備える前記情報処理装置を含む範囲を前記影響範囲に決定することを特徴とする付記2記載の情報処理装置。
(付記4)
前記制御部は、前記異常情報が前記液漏れを示している場合、前記制御部を備える前記情報処理装置が存在する第1位置と前記他の情報処理装置が存在する第2位置とを比較し、前記第1位置が前記第2位置よりも低い場合、前記制御部を備える前記情報処理装置を含む範囲を前記影響範囲に決定することを特徴とする付記2又は3記載の情報処理装置。
(付記5)
前記複数のセンサは、前記液漏れを検出する液漏れセンサ、前記熱交換器と前記冷却設備との間の流量を検出する流量センサ、前記制御部を備える前記情報処理装置と前記熱交換器との間の流量を検出する流量センサ、前記熱交換器と前記冷却設備との間の液体の温度を検出する温度センサ、前記制御部を備える前記情報処理装置と前記熱交換器との間の液体の温度を検出する温度センサ、又は前記制御部を備える前記情報処理装置に配置された配管に設けられているポンプの回転数を検出する回転数センサのうち、3つ以上のセンサと、前記処理部の温度を検出する温度センサとを含むことを特徴とする付記2乃至4のいずれか1項に記載の情報処理装置。
(付記6)
前記制御部は、前記制御部を備える前記情報処理装置が前記影響範囲内に存在する場合、前記処理部の動作を停止させることを特徴とする付記1乃至4のいずれか1項に記載の情報処理装置。
(付記7)
複数の情報処理装置を備える情報処理システムであって、
前記複数の情報処理装置各々は、
情報処理を行う処理部と、
前記複数の情報処理装置を冷却する液体冷却システム内に配置された複数のセンサそれぞれが出力する複数のセンサデータと、前記複数の情報処理装置のうち他の情報処理装置が保持している前記液体冷却システムの異常情報とを取得し、前記複数のセンサデータと前記異常情報とに基づいて、前記情報処理システム内における前記液体冷却システムの異常の影響範囲を求め、前記影響範囲に基づいて前記処理部を制御する制御部とを含むことを特徴とする情報処理システム。
(付記8)
前記制御部は、前記複数のセンサデータが、前記複数の情報処理装置それぞれに配置された複数の配管と熱交換器を介して接続されている冷却設備の不良、前記複数の配管のうち前記制御部を備える前記情報処理装置に配置された配管の流量不足、又は前記複数の配管のうちいずれかの配管からの液漏れを示している場合、前記制御部を備える前記情報処理装置を含む範囲を前記影響範囲に決定することを特徴とする付記7記載の情報処理システム。
(付記9)
前記制御部は、前記異常情報が、前記冷却設備の不良、又は前記複数の配管のうち前記他の情報処理装置に配置された配管の流量不足を示している場合、前記制御部を備える前記情報処理装置を含む範囲を前記影響範囲に決定することを特徴とする付記8記載の情報処理システム。
(付記10)
前記制御部は、前記異常情報が前記液漏れを示している場合、前記制御部を備える前記情報処理装置が存在する第1位置と前記他の情報処理装置が存在する第2位置とを比較し、前記第1位置が前記第2位置よりも低い場合、前記制御部を備える前記情報処理装置を含む範囲を前記影響範囲に決定することを特徴とする付記8又は9記載の情報処理システム。
(付記11)
情報処理システムに含まれる複数の情報処理装置のうちの1つの情報処理装置内のコンピュータのためのプログラムであって、
前記複数の情報処理装置を冷却する液体冷却システム内に配置された複数のセンサそれぞれが出力する複数のセンサデータと、前記複数の情報処理装置のうち他の情報処理装置が保持している前記液体冷却システムの異常情報とを取得し、
前記複数のセンサデータと前記異常情報とに基づいて、前記情報処理システム内における前記液体冷却システムの異常の影響範囲を求め、
前記影響範囲に基づいて、前記1つの情報処理装置内において情報処理を行う処理部を制御する、
処理を前記コンピュータに実行させるためのプログラム。
(付記12)
前記コンピュータは、前記複数のセンサデータが、前記複数の情報処理装置それぞれに配置された複数の配管と熱交換器を介して接続されている冷却設備の不良、前記複数の配管のうち前記制御部を備える前記情報処理装置に配置された配管の流量不足、又は前記複数の配管のうちいずれかの配管からの液漏れを示している場合、前記コンピュータを備える前記情報処理装置を含む範囲を前記影響範囲に決定することを特徴とする付記11記載のプログラム。
(付記13)
前記コンピュータは、前記異常情報が、前記冷却設備の不良、又は前記複数の配管のうち前記他の情報処理装置に配置された配管の流量不足を示している場合、前記コンピュータを備える前記情報処理装置を含む範囲を前記影響範囲に決定することを特徴とする付記12記載のプログラム。
(付記14)
前記コンピュータは、前記異常情報が前記液漏れを示している場合、前記コンピュータを備える前記情報処理装置が存在する第1位置と前記他の情報処理装置が存在する第2位置とを比較し、前記第1位置が前記第2位置よりも低い場合、前記コンピュータを備える前記情報処理装置を含む範囲を前記影響範囲に決定することを特徴とする付記12又は13記載のプログラム。
101、512−1〜512−3、1112−1〜1112−3、1512−1〜1512−10 サーバ
102、542、1142、1542 熱交換器
103 空調機器
104、514 冷却設備
111 ファン
112、113、532−1〜532−3、1132−1〜1132−3、1532−1〜1532−10 ポンプ
114 送風機
301 情報処理装置
311 処理部
312 制御部
511、1111、1511 LANスイッチ
513、1113、1513 冷却装置
521、1121、1521 ラック
531−1〜531−3、1131−1〜1131−3、1531−1〜1531−10、2211 CPU
533−1〜533−3、1133−1〜1133−3、1533−1〜1533−10 BMC
541、1141、1541 管理部
551、552、1151、1152、1551、1552 配管
561−1〜561−3、562−1〜562−3、563、564、565、1161−1〜1161−3、1162−1〜1162−3、1163、1164、1165、1561−1〜1561−10、1562−1〜1562−10、1563、1564、1565 信号線
1522、1523 筐体
2212 メモリ
2213、2214 インタフェース回路
S1、S5、S6 温度センサ
S2 液漏れセンサ
S3、S4 流量センサ
S7 回転数センサ

Claims (6)

  1. 情報処理システムに含まれる複数の情報処理装置のうちの1つの情報処理装置であって、
    情報処理を行う処理部と、
    前記複数の情報処理装置を冷却する液体冷却システム内に配置された複数のセンサそれぞれが出力する複数のセンサデータと、前記複数の情報処理装置のうち他の情報処理装置が保持している前記液体冷却システムの異常情報とを取得し、前記複数のセンサデータと前記異常情報とに基づいて、前記情報処理システム内における前記液体冷却システムの異常の影響範囲を求め、前記影響範囲に基づいて前記処理部を制御する制御部と、
    を備えることを特徴とする情報処理装置。
  2. 前記制御部は、前記複数のセンサデータが、前記複数の情報処理装置それぞれに配置された複数の配管と熱交換器を介して接続されている冷却設備の不良、前記複数の配管のうち前記制御部を備える前記情報処理装置に配置された配管の流量不足、又は前記複数の配管のうちいずれかの配管からの液漏れを示している場合、前記制御部を備える前記情報処理装置を含む範囲を前記影響範囲に決定することを特徴とする請求項1記載の情報処理装置。
  3. 前記制御部は、前記異常情報が、前記冷却設備の不良、又は前記複数の配管のうち前記他の情報処理装置に配置された配管の流量不足を示している場合、前記制御部を備える前記情報処理装置を含む範囲を前記影響範囲に決定することを特徴とする請求項2記載の情報処理装置。
  4. 前記制御部は、前記異常情報が前記液漏れを示している場合、前記制御部を備える前記情報処理装置が存在する第1位置と前記他の情報処理装置が存在する第2位置とを比較し、前記第1位置が前記第2位置よりも低い場合、前記制御部を備える前記情報処理装置を含む範囲を前記影響範囲に決定することを特徴とする請求項2又は3記載の情報処理装置。
  5. 複数の情報処理装置を備える情報処理システムであって、
    前記複数の情報処理装置各々は、
    情報処理を行う処理部と、
    前記複数の情報処理装置を冷却する液体冷却システム内に配置された複数のセンサそれぞれが出力する複数のセンサデータと、前記複数の情報処理装置のうち他の情報処理装置が保持している前記液体冷却システムの異常情報とを取得し、前記複数のセンサデータと前記異常情報とに基づいて、前記情報処理システム内における前記液体冷却システムの異常の影響範囲を求め、前記影響範囲に基づいて前記処理部を制御する制御部とを含むことを特徴とする情報処理システム。
  6. 情報処理システムに含まれる複数の情報処理装置のうちの1つの情報処理装置内のコンピュータのためのプログラムであって、
    前記複数の情報処理装置を冷却する液体冷却システム内に配置された複数のセンサそれぞれが出力する複数のセンサデータと、前記複数の情報処理装置のうち他の情報処理装置が保持している前記液体冷却システムの異常情報とを取得し、
    前記複数のセンサデータと前記異常情報とに基づいて、前記情報処理システム内における前記液体冷却システムの異常の影響範囲を求め、
    前記影響範囲に基づいて、前記1つの情報処理装置内において情報処理を行う処理部を制御する、
    処理を前記コンピュータに実行させるためのプログラム。
JP2017165361A 2017-08-30 2017-08-30 情報処理装置、情報処理システム、及びプログラム Active JP6953907B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017165361A JP6953907B2 (ja) 2017-08-30 2017-08-30 情報処理装置、情報処理システム、及びプログラム
US16/114,280 US10980157B2 (en) 2017-08-30 2018-08-28 Information processing apparatus and information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017165361A JP6953907B2 (ja) 2017-08-30 2017-08-30 情報処理装置、情報処理システム、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019045948A true JP2019045948A (ja) 2019-03-22
JP6953907B2 JP6953907B2 (ja) 2021-10-27

Family

ID=65434482

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017165361A Active JP6953907B2 (ja) 2017-08-30 2017-08-30 情報処理装置、情報処理システム、及びプログラム

Country Status (2)

Country Link
US (1) US10980157B2 (ja)
JP (1) JP6953907B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020146216A (ja) * 2019-03-13 2020-09-17 サミー株式会社 遊技機
WO2023063341A1 (ja) * 2021-10-14 2023-04-20 株式会社Preferred Networks 半導体装置、半導体装置の制御方法及び外部装置
JP7436060B2 (ja) 2022-02-24 2024-02-21 Necプラットフォームズ株式会社 管理装置、制御方法、及びプログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK3703476T3 (da) * 2019-02-28 2022-08-15 Ovh Køleanordning med primære og sekundære køleindretninger til køling af en elektronisk indretning
CN115288992B (zh) * 2022-07-20 2024-04-12 青岛优派普环保科技股份有限公司 一种塑料管材生产用泵体监测方法、系统及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5991088B2 (ja) * 2012-08-31 2016-09-14 富士通株式会社 電源制御装置、情報処理装置及び電源制御方法
JP6146217B2 (ja) 2013-09-09 2017-06-14 日本電気株式会社 システムおよび制御方法
JP6225742B2 (ja) 2014-02-20 2017-11-08 富士通株式会社 情報処理システムおよび情報処理システムの制御方法
WO2017074312A1 (en) * 2015-10-27 2017-05-04 Hewlett Packard Enterprise Development Lp Sensor detection architecture
WO2017131722A1 (en) * 2016-01-28 2017-08-03 Hewlett Packard Enterprise Development Lp Enclosure monitoring devices having battery backup

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020146216A (ja) * 2019-03-13 2020-09-17 サミー株式会社 遊技機
WO2023063341A1 (ja) * 2021-10-14 2023-04-20 株式会社Preferred Networks 半導体装置、半導体装置の制御方法及び外部装置
JP7436060B2 (ja) 2022-02-24 2024-02-21 Necプラットフォームズ株式会社 管理装置、制御方法、及びプログラム

Also Published As

Publication number Publication date
US20190069447A1 (en) 2019-02-28
JP6953907B2 (ja) 2021-10-27
US10980157B2 (en) 2021-04-13

Similar Documents

Publication Publication Date Title
JP6953907B2 (ja) 情報処理装置、情報処理システム、及びプログラム
US20120136502A1 (en) Fan speed control system and fan speed reading method thereof
US9396059B2 (en) Exchange error information from platform firmware to operating system
US10085367B2 (en) Minimizing leakage in liquid cooled electronic equipment
US9671840B2 (en) Multiple level computer system for temperature management for cooling fan control
TWI310899B (en) Method, system, and product for utilizing a power subsystem to diagnose and recover from errors
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
TWI611289B (zh) 伺服器及其偵錯方法
TW201417536A (zh) 伺服器自動管理方法及系統
CN113821091A (zh) 风扇故障补偿
TW201416854A (zh) 伺服器風扇狀態監控方法及系統
CN108966594B (zh) 水冷散热系统
TWI541643B (zh) 確定電源供應模組的故障狀態
US7373208B2 (en) Control apparatus and control method
TW201530304A (zh) 異常狀態警示方法
US11640377B2 (en) Event-based generation of context-aware telemetry reports
US8024604B2 (en) Information processing apparatus and error processing
CN114791163B (zh) 用于控制中央空调系统的方法、设备和介质
JP2016212474A (ja) 制御装置、ストレージシステムおよびプログラム
WO2017072904A1 (ja) 計算機システム、及び、障害検知方法
TWI473086B (zh) 電腦系統
JP2013206046A (ja) 情報処理装置、起動時診断方法、及びプログラム
JP2022052504A (ja) Bmc、サーバシステム、装置安定度判定方法及びプログラム
JP2013196410A (ja) サーバ装置及び障害管理方法及び障害管理プログラム
WO2017023280A1 (en) Leakage detection for a logic board

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200611

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210615

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210805

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20210805

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20210805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210913

R150 Certificate of patent or registration of utility model

Ref document number: 6953907

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150