JP2021144661A - Configuration identification device, information processing system, and configuration identification method - Google Patents
Configuration identification device, information processing system, and configuration identification method Download PDFInfo
- Publication number
- JP2021144661A JP2021144661A JP2020044807A JP2020044807A JP2021144661A JP 2021144661 A JP2021144661 A JP 2021144661A JP 2020044807 A JP2020044807 A JP 2020044807A JP 2020044807 A JP2020044807 A JP 2020044807A JP 2021144661 A JP2021144661 A JP 2021144661A
- Authority
- JP
- Japan
- Prior art keywords
- information
- temperature
- server
- control unit
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Cooling Or The Like Of Electrical Apparatus (AREA)
Abstract
Description
本発明は、構成識別装置、情報処理システム及び構成識別方法に関する。 The present invention relates to a configuration identification device, an information processing system, and a configuration identification method.
サーバなどの情報処理装置では、CPU(Central Processing Unit)などによる発熱が発生する。情報処理装置では、自装置の発熱や外部環境による温度上昇により、CPUやディスクなどの様々な部材に障害が発生するおそれがある。この点、サーバなどの大型な情報処理装置では、空間に余裕があるため冷却は比較的効果的に行われてきた。しかし、近年のCPUの性能向上に伴い、CPUの発熱量が増加する傾向にある。そのため、情報処理装置において、発熱に対する対策は急務となっている。 In an information processing device such as a server, heat is generated by a CPU (Central Processing Unit) or the like. In an information processing device, various members such as a CPU and a disk may be damaged due to heat generation of the own device or a temperature rise due to an external environment. In this respect, in a large information processing device such as a server, cooling has been performed relatively effectively because there is a margin in space. However, with the recent improvement in CPU performance, the amount of heat generated by the CPU tends to increase. Therefore, there is an urgent need to take measures against heat generation in information processing devices.
そこで、情報処理装置を高い伝熱特性と絶縁性を有する液体に浸すことで、情報処理装置全体を効率よく冷却する液浸システムが提案されている。液浸システムでは、情報処理装置が発する熱が室内に排出されないため、サーバルームなどの空調設備を設置しなくてもよく、また、サーバに内蔵する冷却ファンも設けなくてもよくなり省消費電力化や省スペース化を実現することができる。 Therefore, a liquid immersion system has been proposed in which the entire information processing apparatus is efficiently cooled by immersing the information processing apparatus in a liquid having high heat transfer characteristics and insulating properties. In the liquid immersion system, the heat generated by the information processing device is not discharged into the room, so it is not necessary to install air conditioning equipment such as a server room, and it is not necessary to install a cooling fan built in the server, which saves power consumption. It is possible to realize space saving and space saving.
液浸システムには情報処理装置を液体に浸すための液浸槽が配置され、さらに液浸槽の温度などを制御する冷却制御装置が設けられる。1つの液浸槽に複数台の情報処理装置が格納されことが一般的である。また、1つの冷却制御装置により、1つ又は複数の液浸槽が管理される。このような液浸システムにおいて、液体に浸された情報処理装置、液浸槽又は冷却制御装置などに障害が発生した場合、障害箇所を特定して修理や交換といった保守作業が行われる。 The immersion system is provided with an immersion tank for immersing the information processing device in the liquid, and is further provided with a cooling control device for controlling the temperature of the immersion tank. Generally, a plurality of information processing devices are stored in one immersion tank. In addition, one cooling control device manages one or more immersion tanks. In such an immersion system, when a failure occurs in an information processing device, a immersion tank, a cooling control device, or the like immersed in liquid, maintenance work such as repair or replacement is performed by identifying the faulty part.
このような液浸システムに対する保守方法は、従来の空冷システムの保守方法とは異なる。情報処理装置が複数並べて配置されている場合、空冷システムでは保守対象の情報処理装置の前面に配置された表示ランプを点灯させることで、管理者は保守対象の情報処理装置を確認することが可能であった。そのため、出荷情報と異なった配置で情報処理装置が配置されていても、表示ランプを点灯させることで目的とする保守対象の情報処理装置を特定することは容易であった。 The maintenance method for such an immersion system is different from the maintenance method for a conventional air cooling system. When multiple information processing devices are arranged side by side, the administrator can check the information processing devices to be maintained by turning on the indicator lamp arranged in front of the information processing devices to be maintained in the air cooling system. Met. Therefore, even if the information processing devices are arranged differently from the shipping information, it is easy to identify the target information processing device to be maintained by turning on the indicator lamp.
液冷却方式を用いた場合の障害対応に関する技術として、基板上にマトリクス状に素子を配置し、各行に対して液体冷媒で冷却を行い、行毎に素子の温度を監視して異常が発生した場合に、その素子の位置を記憶する従来技術がある。また、液浸槽に複数の障壁を設けて分割して収納部を形成し、各収納部に1ずつ電子機器を収納し、各電子機器の周辺部に設けられた温度センサにより温度以上が検知された場合に、対応する電子機器の運用を停止する従来技術がある。 As a technology for dealing with failures when using the liquid cooling method, elements are arranged in a matrix on the substrate, each row is cooled with a liquid refrigerant, and the temperature of the element is monitored for each row to cause an abnormality. In some cases, there is a prior art for storing the position of the element. In addition, a plurality of barriers are provided in the immersion tank to form a storage unit, and one electronic device is stored in each storage unit, and a temperature sensor provided in the peripheral portion of each electronic device detects temperature or higher. If this happens, there is a prior art that stops the operation of the corresponding electronic device.
しかしながら、液浸槽に情報処理装置が浸されている場合、表示ランプを点灯させても、その表示ランプを確認することは困難である。故障した情報処理装置の識別番号を取得し、出荷時に提供されたシステム構成情報から故障した情報処理装置を特定することも考えられるが、システム構成情報と実際の情報処理装置の配置とが異なっている場合があるうえ、それを確認することも難しい。そのため、表示ランプや出荷時の構成情報を用いて液浸槽に浸された情報処理装置の中から故障が発生した情報処理装置を特定することは困難である。 However, when the information processing device is immersed in the immersion tank, it is difficult to check the indicator lamp even if the indicator lamp is turned on. It is conceivable to acquire the identification number of the failed information processing device and identify the failed information processing device from the system configuration information provided at the time of shipment, but the system configuration information and the actual arrangement of the information processing device are different. It may be, and it is difficult to confirm it. Therefore, it is difficult to identify the information processing device in which the failure has occurred from the information processing devices immersed in the immersion tank by using the indicator lamp and the configuration information at the time of shipment.
また、出荷時に提供されたシステム構成情報と実際の情報処理装置の配置との相違の確認が困難であることにより、各液浸槽に格納された情報処理装置を特定することも困難である。例えば、冷却制御装置に故障が発生した場合、その冷却制御装置の制御対象である液浸槽に格納された情報処理装置の電源を落として保守作業が行われる。また、液浸槽に故障が発生した場合、その液浸槽に格納された情報処理装置の電源を落して保守作業が行われる。このように、各種保守作業において情報処理装置の電源を落とすことになるが、各液浸槽に格納された情報処理装置を正確に特定できなければ、誤った情報処理装置の電源を落してしまうなど運用に影響する問題が発生し、正しい保守作業を行うことが困難となる。また、情報処理装置が故障した場合、その情報処理装置を液浸槽から取り出して保守作業が行われる。この場合、どの液浸槽に故障した情報処理装置が格納されているかが分からなければ、故障した情報処理装置を特定して取り出すことは困難となる。 Further, since it is difficult to confirm the difference between the system configuration information provided at the time of shipment and the actual arrangement of the information processing devices, it is also difficult to identify the information processing devices stored in each immersion tank. For example, when a failure occurs in the cooling control device, the power of the information processing device stored in the immersion tank controlled by the cooling control device is turned off to perform maintenance work. Further, when a failure occurs in the immersion tank, the power of the information processing device stored in the immersion tank is turned off and maintenance work is performed. In this way, the power of the information processing device is turned off in various maintenance work, but if the information processing device stored in each immersion tank cannot be accurately identified, the power of the wrong information processing device will be turned off. Problems that affect operations such as these occur, making it difficult to perform correct maintenance work. If the information processing device breaks down, the information processing device is taken out of the immersion tank and maintenance work is performed. In this case, it is difficult to identify and take out the failed information processing device unless it is known in which immersion tank the failed information processing device is stored.
開示の技術は、上記に鑑みてなされたものであって、保守作業を容易にする構成識別装置、情報処理システム及び構成識別方法を提供することを目的とする。 The disclosed technique has been made in view of the above, and an object of the present invention is to provide a configuration identification device, an information processing system, and a configuration identification method that facilitate maintenance work.
本願の開示する構成識別装置、情報処理システム及び構成識別方法の一つの態様において、液浸槽管理部は、試験動作時に、複数の液浸槽のそれぞれに、通常動作時の上限値よりも高い試験用上限値で当該液浸槽に貯蔵された液体冷媒の液温を冷却制御装置に調整させる。通知取得部は、前記複数の液浸槽のそれぞれに格納され前記液体冷媒で冷却される1つ又は複数の情報処理装置から、当該情報処理装置の温度が温度閾値以上になった場合に通知を受ける。構成情報生成部は、前通知取得部により取得された前記通知を基に、当該通知をした情報処理装置の識別情報を取得する。 In one aspect of the configuration identification device, the information processing system, and the configuration identification method disclosed in the present application, the immersion tank management unit is higher than the upper limit value in the normal operation for each of the plurality of immersion tanks during the test operation. The cooling control device is made to adjust the liquid temperature of the liquid refrigerant stored in the immersion tank at the upper limit value for testing. The notification acquisition unit notifies when the temperature of the information processing device exceeds the temperature threshold from one or more information processing devices stored in each of the plurality of immersion tanks and cooled by the liquid refrigerant. receive. The configuration information generation unit acquires the identification information of the information processing device that has given the notification based on the notification acquired by the previous notification acquisition unit.
1つの側面では、本発明は、保守作業を容易にすることができる。 On one side, the present invention can facilitate maintenance work.
以下に、本願の開示する構成識別装置、情報処理システム及び構成識別方法の実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する構成識別装置、情報処理システム及び構成識別方法が限定されるものではない。 Hereinafter, examples of the configuration identification device, the information processing system, and the configuration identification method disclosed in the present application will be described in detail with reference to the drawings. The configuration identification device, the information processing system, and the configuration identification method disclosed in the present application are not limited by the following examples.
図1は、実施例に係る情報処理システムの構成図である。情報処理システム100は、管理サーバ1及び液浸システム5を有する。
FIG. 1 is a configuration diagram of an information processing system according to an embodiment. The
液浸システム5は、複数の液浸槽3を有する。また、液浸システム5の各液浸槽3には、1つ又は複数のサーバ4が格納される。本実施例では、各液浸槽3に4台のサーバ4が格納される。さらに、液浸システム5は、1つ又は複数の液浸槽3を管理する冷却制御ユニット2を複数有する。本実施例では、各冷却制御ユニット2は、それぞれ2つの液浸槽3を管理する。
The
管理サーバ1は、管理用のネットワーク6を介して各冷却制御ユニット2及び各サーバ4に接続される。管理サーバ1は、各冷却制御ユニット2の動作及び各サーバ4の動作を管理する。
The
液浸槽3には、液体冷媒300が注入される。サーバ4は、液浸槽3に注入された液体冷媒300に浸された状態で液浸槽3に格納される。液体冷媒300に浸水されたサーバ4は、液体冷媒300により冷却される。サーバ4は、自装置の温度を計測する温度センサを有する。そして、サーバ4は、温度センサの計測温度が管理サーバ1から指定された温度閾値を超えた場合に、管理サーバ1に対して警告などの通知を行う。
The
冷却制御ユニット2は、管理下にある液浸槽3の液体冷媒300の液温を制御する。以下では、冷却制御ユニット2が管理する液浸槽3を、その冷却制御ユニット2に接続された液浸槽3と言う場合がある。冷却制御ユニット2は、接続された液浸槽3の液体冷媒300を循環させることで液温が上限値以下になるように調整する。この冷却制御ユニット2が、「冷却制御装置」の一例にあたる。
The cooling
図2は、冷却制御ユニットの詳細を表す図である。冷却制御ユニット2は、制御基盤200及び熱交換器203を有する。さらに、チラー210が冷却水を循環させる装置として配置される。チラー210は、冷却水211を保持する。
FIG. 2 is a diagram showing details of the cooling control unit. The cooling
熱交換器203は、液浸槽3から延びるパイプ301及びチラー210から延びるパイプ220が接続される。パイプ301には、ポンプ204及び流量スイッチ205が設けられる。また、パイプ301には、温度センサ32及び33が設けられる。また、パイプ220には、流量スイッチ222及び電動弁223が設けられる。さらに、パイプ220には温度センサ221及び温度センサ224が設けられる。熱交換器203は、パイプ301を流れる液体冷媒300の熱をパイプ220を流れる冷却水211に奪わせることで、液体冷媒300を冷却する。
The
制御基盤200は、CPU201及びメモリ202を有する。メモリ202は、液体冷媒300の温度の上限値を保持する。
The
CPU201は、ポンプ204を駆動してパイプ301に液体冷媒300を流す。そして、CPU201は、ポンプ204及び流量スイッチ205を用いて液体冷媒300の流量を制御する。また、CPU201は、流量スイッチ222及び電動弁223を駆動してパイプ220に冷却水211の流量を制御する。
The
CPU201は、液浸槽3における液体冷媒300の水位の情報を水位センサ31から取得する。また、CPU201は、液浸槽3から熱交換器203へ向かってパイプ301を流れる液体冷媒の温度を温度センサ32から取得する。また、CPU201は、熱交換器203から液浸槽3へ向かってパイプ301を流れる液体冷媒の温度を温度センサ33から取得する。
The
また、CPU201は、チラー210から熱交換器203へ向かってパイプ220を流れる液体冷媒の温度を温度センサ221から取得する。また、CPU201は、熱交換器203から液浸槽3へ向かってパイプ301を流れる液体冷媒の温度を温度センサ224から取得する。
Further, the
そして、CPU201は、温度センサ32、33、221及び224による計測温度を用いて、液浸槽3内の液体冷媒300の温度が上限値以下になるように、ポンプ204、流量スイッチ205、流量スイッチ222及び電動弁223を制御する。
Then, the
次に、図3を参照して、実施例に係る管理サーバ1の構成識別機能について説明する。図3は、実施例に係る情報処理システムのブロック図である。図3では、説明を分かり易くするために、液浸槽3とサーバ4とは別に記載した。ただし、実際には、サーバ4は、図1に示すように液体冷媒300に浸された状態で液浸槽3に格納される。また、情報処理システム100に配置された液浸槽3及びサーバ4は複数存在するが、いずれも同じ機能を有するので、ここでは、1つの液浸槽3及び1台のサーバ4を用いて説明を行う。
Next, the configuration identification function of the
冷却制御ユニット2は、冷却制御部21、故障通知部22及び液浸槽監視部23を有する。これらの機能は、図2のCPU201及びメモリ202により実現される。
The cooling
ここで、冷却制御ユニット2は、図4に示す冷却制御ユニット2の管理情報501を保持する。図4は、冷却制御ユニットが保持する管理情報の一例の図である。管理情報501には、冷却制御ユニット2の識別情報が登録される。また、管理情報501には、冷却制御ユニット2が管理可能な液浸槽3の台数を表す接続可能槽数が登録される。
Here, the cooling
また、管理情報501には、接続された液浸槽3の情報が登録される。管理情報501に登録される液浸槽3の情報には、各液浸槽3の識別情報及び状態情報が含まれる。さらに、管理情報501に登録される液浸槽3の情報には、制御液温、液温注意閾値及び液温警告閾値が登録される。制御液温は、冷却制御部21が液体冷媒300の液温を調整する際の上限値である。制御液温の初期値は、例えば、40℃に設定される。また、液温注意閾値は、液体冷媒300の液温がこの値を超えた場合に注意情報を出力するための閾値である。また、液温警告閾値は、液体冷媒300の液温がこの値を超えた場合に警告情報を出力するための閾値である。この管理情報501は、管理サーバ1の冷却機構制御部14も取得可能である。
Further, the information of the connected
図3に戻って説明を続ける。液浸槽監視部23は、液浸槽3に関する環境情報を取得する。例えば、液浸槽監視部23は、図2に示す温度センサ32、33、221及び224から計測温度の情報を取得する。他にも、液浸槽監視部23は、図2に示す水位センサ31から液体冷媒300の水位の情報を取得する。そして、液浸槽監視部23は、収集した液浸槽3に関する環境情報を管理サーバ1の環境情報収集部15へ出力する。また、液浸槽監視部23は、温度センサ32、33、221及び224から取得した計測温度の情報を冷却制御部21へ出力する。また、液浸槽監視部23は、温度センサ32の計測温度を液体冷媒300の温度として故障通知部22へ出力する。
The explanation will be continued by returning to FIG. The immersion
冷却制御部21は、図2におけるポンプ204及び流量スイッチ205を用いてパイプ301を流れる液体冷媒300の流量を制御し、且つ、流量スイッチ222及び電動弁223を用いてパイプ220を流れる冷却水211の流量を制御する。これにより、冷却制御部21は、管理下の液浸槽3毎の液体冷媒300の温度を調整する。より詳細に冷却制御部21の動作を説明する。
The cooling
冷却制御部21は、運転開始の指示を管理サーバ1の冷却機構制御部14から受ける。また、冷却制御部21は、冷却制御部21は、温度センサ32、33、221及び224による計測温度の情報の入力を液浸槽監視部23から受ける。そして、冷却制御部21は、取得した計測温度の情報を用いて、管理情報501に登録された制御液温の初期値を上限値として管理下の液浸槽3毎の液体冷媒300の温度を調整する。この制御液温の初期値が、「通常動作時の上限値」の一例にあたる。
The cooling
さらに、構成確認試験の場合、冷却制御部21は、擬似故障用冷却温度閾値の入力を冷却機構制御部14から受ける。次に、冷却制御部21は、接続された液浸槽3のうち試験対象とされた1つの液浸槽3に対する制御液温の設定変更の指示を冷却機構制御部14から受ける。そして、冷却制御部21は、管理情報501における試験対象の液浸槽3の制御液温を初期値よりも高い擬似故障用冷却温度閾値に変更する。本実施例に係る冷却制御部21は、制御液温を初期値の40℃から擬似故障用冷却温度閾値の50℃に変更する。このように、制御液温を変更することで、試験対象の液浸槽3に貯蔵された液体冷媒300の液温が上昇し、試験対象の液浸槽3に格納されたサーバ4のCPU温度が上昇し易くなる。この擬似故障用冷却温度閾値が、「試験用上限値」の一例にあたる。
Further, in the case of the configuration confirmation test, the cooling
冷却制御部21は、冷却制御部21は、取得した計測温度の情報を用いて、管理情報501に登録された制御液温の擬似故障用冷却温度閾値を上限値として試験対象の液浸槽3毎の液体冷媒300の液温を調整する。その後、冷却制御部21は、試験対象の液浸槽3の制御液温の設定変更の解除を冷却機構制御部14から受ける。そして、冷却制御部21は、管理情報501における試験対象とされた液浸槽3の制御液温を初期値に戻す。その後、冷却制御部21は、設定変更が解除された液浸槽3における液体冷媒300の液温の調整を、管理情報501に登録された制御液温の初期値を上限値とした調整に戻す。
The cooling
故障通知部22は、接続された各液浸槽3における液体冷媒300の液温の情報の入力を液浸槽監視部23から受ける。そして、故障通知部22は、管理情報501を参照して、各液浸槽3における液体冷媒300の液温と液温注意閾値及び液温警告閾値とを比較する。液体冷媒300の液温が液温注意閾値以上の液浸槽3がある場合、故障通知部22は、その液浸槽3について注意情報を管理サーバ1の故障通知受信部16へ送信する。また、液体冷媒300の液温が液温警告閾値以上の液浸槽3がある場合、故障通知部22は、その液浸槽3について警告情報を管理サーバ1の故障通知受信部16へ送信する。
The
液浸槽3は、注入された液体冷媒300を貯蔵する。さらに、液浸槽3は、貯蔵した液体冷媒300に浸水されたサーバ4を格納する。また、液浸槽3は、図2に示した水位センサ31、並びに、温度センサ32及び33などを含むセンサ30が設けられる。さらに、液浸槽3は、記憶領域を有し、センサ30による測定情報を基に作成した図5に示す液浸槽3に関する管理情報502を保持する。図5は、液浸槽が保持する管理情報の一例の図である。
The
管理情報502には、液浸槽3の識別情報が登録される。また、管理情報502には、液浸槽3に付属する図2の水位センサ31及び温度センサ32で取得された水位及び液体冷媒300の液温の情報が登録される。この管理情報501は、冷却制御ユニット2の液浸槽監視部23も取得可能である。
The identification information of the
図3に戻って説明を続ける。情報処理装置であるサーバ4は、監視部41、演算実行部42、故障通知部43及びシステム制御部44を有する。また、サーバ4は、図6に示すサーバ4に関する管理情報503を有する。図6は、管理対象のサーバが保持する管理情報の一例の図である。
The explanation will be continued by returning to FIG. The
管理情報503には、サーバ4の識別情報が登録される。また、管理情報503には、サーバ4の動作状態を表す実行情報が登録される。管理情報503における起動状態の欄は、サーバ4が起動中か否かを表す情報である。管理情報503におけるテストプログラムの欄は、サーバ4においてテストプログラムを実行中か否かを表す情報である。管理情報503における擬似故障モードは、サーバ4において擬似故障モードが有効か否かを表す情報である。また、管理情報503は、警告温度、注意温度及び擬似故障用温度が登録される。警告温度は、CPU温度がこの値を超えた場合に警告情報を出力するための閾値である。また、注意温度は、CPU温度がこの値を超えた場合に注意情報を出力するための閾値である。この注意温度が、「第1温度」の一例にあたる。擬似故障温度は、擬似故障モードで動作中に擬似故障を発生させ擬似故障通知を出力するための温度であり、警告温度及び注意温度よりも低い温度である。この擬似故障温度が、「第2温度」の一例にあたる。この管理情報503は、管理サーバ1の冷却機構制御部14も取得可能である。
The identification information of the
図3に戻って説明を続ける。監視部41は、サーバ4に搭載されたCPUの近傍に配置された温度センサにより計測されるCPU温度を含むサーバ4に関する環境情報を取得する。そして、監視部41は、取得したサーバ4に関する環境情報を管理サーバ1の環境情報収集部15へ送信する。また、監視部41は、CPU温度を故障通知部43へ出力する。
The explanation will be continued by returning to FIG. The
演算実行部42は、各種プログラムを実行し演算を行う。また、演算実行部42は、テストプログラムの実行指示を管理サーバ1のサーバ制御部17から受信する。そして、演算実行部42は、テストプログラムを実行する。テストプログラムは、CPUに処理を行わせ負荷をかけることでCPU温度を上昇させるためのプログラムである。演算実行部42は、テストプログラムの実行開始時に管理情報503のテストプログラムの欄の情報を実行中に書き換える。その後、テストプログラムの実行停止の指示をサーバ制御部17から受信すると、演算実行部42は、管理情報503のテストプログラムの欄の情報を停止に書き換えて、テストプログラムの実行を停止する。
The
システム制御部44は、サーバ4のCPUから独立したプロセッサを有する。システム制御部44は、管理サーバ1のサーバ制御部17からのサーバ4の起動命令を受信すると、サーバ4をパワーオンする。また、システム制御部44は、サーバ制御部17からのシャトダウン命令を受信すると、サーバ4をパワーオフする。
The
故障通知部43は、CPU温度の入力を監視部41から受ける。そして、通常モードの場合、故障通知部43は、管理情報503を参照し、CPU温度と注意温度及び警告温度とを比較する。CPU温度が注意温度以上の場合、故障通知部43は、注意情報を管理サーバ1の故障通知受信部16へ出力する。また、CPU温度が警告温度以上の場合、故障通知部43は、警告情報を管理サーバ1の故障通知受信部16へ出力する。
The
また、故障通知部43は、通常モードへのモード切替の指示をサーバ制御部17から受信する。そして、故障通知部43は、管理情報503における擬似故障モードの欄の情報を有効に設定して、擬似故障モードをサーバ4に設定する。そして、擬似故障モード設定後は、故障通知部43は、擬似故障用温度とCPU温度とを比較して、CPU温度が擬似故障用温度以上になった場合、図7に示す擬似故障情報504を管理サーバ1の故障通知受信部16へ送信する。図7は、擬似故障情報の通知フォーマットの一例を示す図である。その後、故障通知部43は、擬似故障モード設定の解除指示をサーバ制御部17から受信する。その場合、故障通知部43は、管理情報503における擬似故障モードの欄の情報を無効に設定して、擬似故障モードを解除して通常モードにサーバ4を移行させる。その後、故障通知部43は、注意温度及び警告温度を用いた故障通知を行う。
Further, the
管理サーバ1は、記憶部11、システム構成情報作成部12、入出力制御部13、冷却機構制御部14、環境情報収集部15、故障通知受信部16及びサーバ制御部17を有する。記憶部11は、ハードディスクなどの記憶媒体である。
The
入出力制御部13は、キーボードやモニタなどを備えた入出力装置7と接続される。入出力制御部13は、入出力装置7を用いて入力された出荷情報111の入力を受ける。そして、入出力制御部13は、取得した出荷情報111を記憶部11に格納する。
The input /
図8は、出荷情報の一例を示す図である。出荷情報111は、初期状態の一例であり、出荷時に決められた情報処理システム100のシステム構成情報が登録される。具体的には、出荷情報111は、情報処理システム100に含まれる冷却制御ユニット2の情報、冷却制御ユニット2によって管理される液浸槽3の情報及び各液浸槽3に格納されるサーバ4の情報が格納される。液浸槽3の情報には、各液浸槽3がどの冷却制御ユニット2によって管理されるかを表す情報が含まれる。また、サーバ4の情報には、各サーバ4がどの液浸槽3に格納されているかを表す情報が含まれる。
FIG. 8 is a diagram showing an example of shipping information. The
図8に示した出荷情報111におけるモデルタイプが、装置の種別を表す。SYSTEMは、情報処理システム100全体を表す。CDU(Coolant Distribution Unit)は、冷却制御ユニット2を表す。BATHは、液浸槽3を表す。SERVERは、サーバ4を表す。
The model type in the
製品型名は、それぞれの装置の種別毎の型版を表す。ユニットシリアル番号は、各装置に一意に割り当てられた識別情報である。部品名は、各装置を識別するために割り当てられた名前である。本実施例では、部品名は同じ液浸槽3に格納されたサーバ4毎に連番で番号が振られる。実装先は、各液浸槽3を管理する冷却制御ユニット2の情報及び各サーバ4を格納する液浸槽3の情報が階層で表される。IP(Internet Protocol)アドレスは、各冷却制御ユニット2及び各サーバ4のそれぞれに割り当てられたIPアドレスである。管理サーバ1は、このIPアドレスを用いて、各冷却制御ユニット2及び各サーバ4のそれぞれと通信を行う。
The product model name represents the model version for each type of device. The unit serial number is identification information uniquely assigned to each device. The part name is a name assigned to identify each device. In this embodiment, the component names are numbered sequentially for each
図3に戻って説明を続ける。入出力制御部13は、情報処理システム100の通常稼動の開始命令を入出力装置7から受ける。その場合、入出力制御部13は、サーバ4の起動命令をサーバ制御部17へ出力する。また、入出力制御部13は、冷却制御ユニット2の運転開始の指示を冷却機構制御部14へ出力する。また、入出力制御部13は、サーバ4のシャットダウンの指示を入出力装置7から受ける。その場合、入出力制御部13は、サーバ4のシャットダウンの指示をサーバ制御部17へ出力する。
The explanation will be continued by returning to FIG. The input /
また、入出力制御部13は、構成確認試験の実施の指示を入出力装置7から受ける。その場合、入出力制御部13は、構成確認試験の実施の指示をサーバ制御部17システム構成情報作成部12へ出力する。また、入出力制御部13は、運転開始の指示を冷却機構制御部14から受ける。
Further, the input /
サーバ制御部17は、サーバ4の起動命令の入力を入出力制御部13から受けた場合、サーバ4のシステム制御部44に起動命令を送信する。また、サーバ制御部17は、サーバ4のシャットダウン指示を入出力制御部13から受けた場合、サーバ4のシステム制御部44にシャットダウン命令を送信する。
When the server control unit 17 receives the input of the start command of the
また、サーバ制御部17は、構成確認試験の実施の指示の入力を入出力制御部13から受ける。この場合、サーバ制御部17は、各液浸槽3に格納された全てのサーバ4のシステム制御部44に対して起動命令を送信する。さらに、サーバ制御部17は、起動させた全てのサーバ4の演算実行部42に対してテストプログラムの実行指示を送信する。
Further, the server control unit 17 receives an input of an instruction to execute the configuration confirmation test from the input /
その後、サーバ制御部17は、擬似故障モード設定の実行指示をシステム構成情報作成部12から受ける。そして、サーバ制御部17は、擬似故障モードへのモード切り替えをサーバ4の故障通知部43に指示し、サーバ4を擬似故障モードに設定する。
After that, the server control unit 17 receives an execution instruction for setting the pseudo failure mode from the system configuration
構成確認試験終了後、サーバ制御部17は、構成確認試験の終了通知の入力をシステム構成情報作成部12から受ける。そして、サーバ制御部17は、各サーバ4のシステム制御部44に対して擬似故障モードの解除を通知して、各サーバ4を通常モードに復帰させる。サーバ制御部17は、その後、各サーバ4をシャットダウンしてもよいし、そのまま運転を継続させてもよい。このサーバ制御部17が、「装置管理部」の一例にあたる。
After the configuration confirmation test is completed, the server control unit 17 receives the input of the completion notification of the configuration confirmation test from the system configuration
故障通知受信部16は、冷却制御ユニット2が通常モードで動作する場合、液浸槽3に貯蔵された液体冷媒300の液温に応じて発行された液浸槽3に関する注意情報又は警告情報を冷却制御ユニット2の故障通知部22から受信する。そして、故障通知受信部16は、取得した液浸槽3に関する注意を促すメッセージ又は警告メッセージを生成し、入出力制御部13を介して入出力装置7へ送信してそれらのメッセージを管理者に提供する。
When the
また、サーバ4が通常モードで動作する場合、故障通知受信部16は、CPU温度に応じて発行されたサーバ4に関する注意情報又は警告情報をサーバ4の故障通知部43から受信する。そして、故障通知受信部16は、取得したサーバ4に関する注意を促すメッセージ又は警告メッセージを生成し、入出力制御部13を介して入出力装置7へ送信してそれらのメッセージを管理者に提供する。
When the
これに対して、サーバ4が擬似故障モードで動作する場合、故障通知受信部16は、CPU温度に応じて発行された擬似故障情報をサーバ4の故障通知部43から受信する。そして、故障通知受信部16は、取得した擬似故障情報をシステム構成情報作成部12へ出力する。この故障通知受信部16が、「通知取得部」の一例にあたる。
On the other hand, when the
環境情報収集部15は、液浸槽3に関する環境情報を冷却制御ユニット2の液浸槽監視部23から受信する。そして、環境情報収集部15は、取得した液浸槽3に関する環境情報を記憶部11の環境情報112として格納する。
The environmental
また、環境情報収集部15は、サーバ4に関する環境情報をサーバ4の監視部41から受信する。そして、環境情報収集部15は、取得したサーバ4に関する環境情報を記憶部11の環境情報112として格納する。
Further, the environmental
冷却機構制御部14は、冷却制御ユニット2の運転開始の指示を入出力制御部13から受ける。そして、冷却機構制御部14は、運転開始の指示を冷却制御ユニット2の冷却制御部21へ送信する。
The cooling
さらに、構成確認試験処理の場合、冷却機構制御部14は、擬似故障用冷却温度閾値の入力をシステム構成情報作成部12から受ける。そして、冷却機構制御部14は、取得した擬似故障用冷却温度閾値を接続された全ての冷却制御ユニット2の冷却制御部21に送信する。
Further, in the case of the configuration confirmation test process, the cooling
その後、冷却機構制御部14は、管理下の冷却制御ユニット2の中の1つに接続された液浸槽3のうち試験対象とされた1つの液浸槽3に対する制御液温の設定変更の指示の入力をシステム構成情報作成部12から受ける。そして、冷却機構制御部14は、試験対象とされた液浸槽3に対する制御液温の設定変更の指示を、その液浸槽3を管理する冷却制御ユニット2の冷却制御部21に送信する。
After that, the cooling
その後、システム構成情報作成部12による試験対象の液浸槽3からの擬似故障情報の受信が完了すると、冷却機構制御部14は、試験対象の液浸槽3の制御液温の設定変更の解除指示の入力をシステム構成情報作成部12から受ける。そして、冷却機構制御部14は、試験対象とされた液浸槽3の制御液温の設定変更の解除指示を冷却制御ユニット2の政略制御部21へ送信する。
After that, when the system configuration
冷却機構制御部14は、全ての液浸槽3に格納された全サーバ4の構成確認が完了するまで、システム構成情報作成部12からの指示を基に、各液浸槽3の制御温度の設定変更及び解除を順次繰り返す。この冷却機構制御部14が、「液浸槽管理部」の一例にあたる。
The cooling
システム構成情報作成部12は、記憶部11に格納された出荷情報111を取得する。そして、システム構成情報作成部12は、出荷情報111から出荷時に指定された構成に基づくシステム構成情報113を作成する。その後、システム構成情報作成部12は、作成したシステム構成情報113を記憶部11に格納する。
The system configuration
図9は、システム構成情報の一例を示す図である。図9に示すシステム構成情報113は、図8に示した出荷情報111を基に作成したシステム構成情報113である。システム構成情報作成部12は、構成管理を行い易いように図9に示すように情報処理システム100の階層に合わせた構造に出荷情報111を変換する。
FIG. 9 is a diagram showing an example of system configuration information. The
管理テーブル601は、情報処理システム100を表すテーブルであり、最上位の階層のテーブルである。そして、管理テーブル602は、管理テーブル601の1つ下の階層を表し、管理テーブル601における接続ユニットで表される各冷却制御ユニット2の構成を管理するためのテーブルである。管理テーブル602には、各冷却制御ユニット2の識別情報が登録される。さらに、管理テーブル602における接続元は、属する情報処理システム100の情報である。また、管理テーブル602における接続液浸槽は、管理配下の液浸槽3の情報である。
The management table 601 is a table representing the
管理テーブル603は、管理テーブル602の1つ下の階層を表し、管理テーブル602における接続BATHで表される各液浸槽3の構成を管理するためのデーブルである。管理テーブル603には、各液浸槽3の識別情報が登録される。さらに、管理テーブル603における接続元は、接続された冷却制御ユニット2の情報である。また、管理テーブル603における接続SERVERは、格納されたサーバ4の情報である。
The management table 603 represents a hierarchy one level below the management table 602, and is a table for managing the configuration of each
管理テーブル604は、管理テーブル603の1つ下の階層を表し、管理テーブル603におけるSERVERで表される各サーバ4の構成を管理するためのデーブルである。管理テーブル604には、各サーバ4の識別情報が登録される。さらに、管理テーブル604における接続元は、そのサーバ4を格納する液浸槽3の情報である。
The management table 604 represents a hierarchy one level below the management table 603, and is a table for managing the configuration of each
このように、情報処理システム100の階層に合わせた構造にすることで、システム構成情報作成部12による液浸槽3に格納されたサーバ4の検索が容易になる。また、サーバ4と液浸槽3との格納関係が変更しやすくなり、システム構成情報作成部12によるシステム構成情報113が容易となる。
In this way, by adopting a structure that matches the hierarchy of the
システム構成情報作成部12は、構成確認試験の実施の指示の入力を入出力制御部13から受ける。そして、システム構成情報作成部12は、管理下の全てのサーバ4の起動後、テストプログラムの実行指示をサーバ制御部17へ出力する。
The system configuration
その後、システム構成情報作成部12は、各液浸槽3における液体冷媒300の液温の情報及びサーバ4のCPU温度の情報を環境情報収集部15から取得する。他にも、システム構成情報作成部12は、記憶部11に格納された環境情報112を参照して各液オンの情報及び各CPU温度の情報を取得してもよい。そして、システム構成情報作成部12は、各液浸槽3の液体冷媒300の液温の情報及びサーバ4のCPU温度の情報を用いて冷却制御ユニット2及びサーバ4の稼働状態を判定して、液浸システム5の稼働が安定するまで待機する。
After that, the system configuration
液浸システム5の稼働安定後、システム構成情報作成部12は、安定稼働後の各液浸槽3における液体冷媒300の液温や各サーバ4のCPU温度などを含む環境情報を基に、最大待ち時間及び擬似故障用冷却温度閾値を算出する。その後、システム構成情報作成部12は、算出した擬似故障用冷却温度閾値を冷却機構制御部14へ出力する。また、システム構成情報作成部12は、擬似故障モード設定の実行をサーバ制御部17に指示する。
After the operation of the
次に、システム構成情報作成部12は、管理下の冷却制御ユニット2の中から1つを試験対象の冷却制御ユニット2として選択する。次に、システム構成情報作成部12は、冷却機構制御部14から選択した冷却制御ユニット2に接続する液浸槽3の情報を冷却機構制御部14から取得する。この液浸槽3の情報には、各液浸槽3の型番やシリアル番号が含まれる。次に、システム構成情報作成部12は、選択した冷却制御ユニット2に接続する液浸槽3の中から試験対象とする液浸槽3を1つ選択する。そして、システム構成情報作成部12は、試験対象の液浸槽3のサーバ4の最大格納数を記憶部11が保持する図10に示すサーバ格納最大数情報505から取得する。
Next, the system configuration
図10は、サーバ格納最大数情報の一例を示す図である。サーバ格納最大数情報505は、液浸槽3の型名に対応させてその型名の液浸槽3が格納可能なサーバ4の最大数である最大格納数を保持する。
FIG. 10 is a diagram showing an example of server storage maximum number information. The server storage
そして、システム構成情報作成部12は、試験対象の液浸槽3に対する制御液温の設定変更の指示を冷却機構制御部14へ出力する。その後、システム構成情報作成部12は、サーバ4から送信された擬似故障用情報が故障通知受信部16から送られてくるのを待つ。
Then, the system configuration
システム構成情報作成部12は、試験対象の液浸槽3におけるサーバ4の最大格納数の擬似故障情報を取得するか、又は、最大待ち時間が経過するまで待機する。最大格納数の擬似故障情報を取得した場合又は最大待ち時間が経過した場合、システム構成情報作成部12は、試験対象の液浸槽3に対する制御液温の設定変更の解除指示を冷却機構制御部14へ出力する。
The system configuration
その後、システム構成情報作成部12は、取得した各擬似故障情報から擬似故障情報を送信したサーバ4の識別情報を取得する。そして、システム構成情報作成部12は、擬似故障情報を送信したサーバ4の中から1台のサーバを構成確認対象のサーバ4として選択する。ここで、システム構成情報作成部12は、構成確認対象のサーバ4の実際の格納先として試験対象とした液浸槽3の情報を保持する。
After that, the system configuration
次に、システム構成情報作成部12は、記憶部11に保持されたシステム構成情報113に登録された構成確認対象のサーバ4を格納する液浸槽3を確認する。そして、システム構成情報作成部12は、構成確認対象のサーバ4が実際に格納された液浸槽3と、システム構成情報113から取得される構成確認対象のサーバ4を格納する液浸槽3とが異なる場合、システム構成情報113を修正する。
Next, the system configuration
以下にシステム構成情報113の修正方法の一例を説明する。例えば、図9で示したシステム構成情報113の構成において、BATH[0]にSERVER#11が格納されておらず、代わりに、SERVER#44が格納された場合について説明する。
An example of the method of modifying the
この場合、システム構成情報作成部12は、管理テーブル603におけるBATH[3]の接続SERVER4におけるSERVER[15]を削除する。次に、システム構成情報作成部12は、管理テーブル603におけるBATH[0]の接続SERVER1のSERVER[0]をSERVER[15]に変更する。次に、システム構成情報作成部12は、管理テーブル604におけるSERVER[15]の接続元のBATH[3]をBATH[0]へ変更する。次に、システム構成情報作成部12は、管理テーブル604におけるSERVER[0]の接続元のBATH[0]を削除する。この場合、次に、システム構成情報作成部12は、SERVER#11で表されるサーバ4からの擬似故障情報が送られてくるまで、SERVER#11で表されるサーバ4をどの液浸槽3にも接続されない状態で一時的に管理する。
In this case, the system configuration
システム構成情報作成部12は、管理する冷却制御ユニット2に接続される全ての液浸槽3についてそれぞれに格納されるサーバ4の構成確認を行い、システム構成情報113を作成する。全てのサーバ4の構成確認が終了すると、システム構成情報作成部12は、構成確認試験の終了通知をサーバ制御部17に出力する。このシステム構成情報作成部12が、「構成情報作成部」の一例にあたる。
The system configuration
次に、図11A及び11Bを参照して、構成確認試験処理の流れについて説明する。図11Aは、構成確認試験処理のフローチャート(1)である。図11Bは、構成確認試験処理のフローチャート(2)である。 Next, the flow of the configuration confirmation test process will be described with reference to FIGS. 11A and 11B. FIG. 11A is a flowchart (1) of the configuration confirmation test process. FIG. 11B is a flowchart (2) of the configuration confirmation test process.
入出力制御部13は、入出力装置7を用いて入力された出荷情報111を取得し、取得した出荷情報111を記憶部11に格納する。システム構成情報作成部12は、記憶部11に格納された出荷情報111を用いてシステム構成情報113を作成し記憶部11に格納する(ステップS1)。
The input /
次に、システム構成情報作成部12、冷却機構制御部14及びサーバ制御部17は、管理者により入出力装置7を用いて入力された構成確認試験実施指示を入出力制御部13を介して受信する(ステップS2)。
Next, the system configuration
管理サーバ1の冷却機構制御部14は、構成確認試験実施指示を受けると、管理する全ての冷却制御ユニット2の運転を開始させる(ステップS3)。
Upon receiving the configuration confirmation test execution instruction, the cooling
各冷却制御ユニット2の冷却制御部21は、運転を開始すると、管理する全ての液浸槽3における液体冷媒300することにより液浸槽3の冷却を開始する(ステップS4)。
When the operation is started, the cooling
管理サーバ1のサーバ制御部17は、構成確認試験実施指示の入力を受けて、管理する全てのサーバ4のシステム制御部44に起動命令を送信して、管理する全てのサーバ4を起動させる(ステップS5)。
Upon receiving the input of the configuration confirmation test execution instruction, the server control unit 17 of the
各サーバ4のシステム制御部44は、起動命令を管理サーバ1のサーバ制御部17から受信する。そして、システム制御部44は、自装置をパワーオンする(ステップS6)。
The
その後、管理サーバ1のサーバ制御部17は、管理する全てのサーバ4の演算実行部42に対してテストプログラムの実行指示を送信する(ステップS7)。
After that, the server control unit 17 of the
各サーバ4の演算実行部42は、管理サーバ1のサーバ制御部17からの実行指示を受けて、テストプログラムを実行する(ステップS8)。
The
管理サーバ1の環境情報収集部15は、冷却制御ユニット2の液浸槽監視部23及びサーバ4の監視部41からそれぞれの環境情報を収集する(ステップS9)。環境情報収集部15は、記憶部11に環境情報を格納する。
The environmental
管理サーバ1のシステム構成情報作成部12は、冷却制御ユニット2の液浸槽監視部23及びサーバ4の監視部41から各液浸槽3及び各サーバ4のそれぞれの環境情報を環境情報収集部15から取得する。そして、システム構成情報作成部12は、液浸システム5の稼働が安定したか否かを判定する(ステップS10)。稼働が安定していない場合(ステップS10:否定)、システム構成情報作成部12は、ステップS9へ戻る。
The system configuration
これに対して、稼働が安定した場合(ステップS10:肯定)、システム構成情報作成部12は、環境情報に含まれる各液浸槽3における液体冷媒300の液温及び各サーバ4におけるCPU温度などを用いて最大待ち時間及び擬似故障用冷却温度閾値を算出する(ステップS11)。そして、システム構成情報作成部12は、算出した擬似故障用冷却温度閾値を冷却機構制御部14へ出力する。冷却機構制御部14は、取得した擬似故障用冷却温度閾値を冷却制御ユニット2の冷却制御部21へ送信する。冷却制御部21は、擬似故障用冷却温度閾値を受信して保持する。
On the other hand, when the operation is stable (step S10: affirmative), the system configuration
次に、管理サーバ1のシステム構成情報作成部12は、管理する全てのサーバ4の擬似故障モードへの設定指示をサーバ制御部17へ出力する。サーバ制御部17は、システム構成情報作成部12からの指示を受けて、擬似故障モードへの動作モードの切替指示を各サーバ4の故障通知部43へ送信し、管理する全てのサーバ4を擬似故障モードに設定する(ステップS12)。
Next, the system configuration
各サーバ4の故障通知部43は、擬似故障モードへの動作モードの切替指示を管理サーバ1のサーバ制御部17から受信する。そして、故障通知部43は、図6に示す管理情報503の擬似故障モードの値を有効に変更する。そして、故障通知部43は、擬似故障用温度を用いた監視を開始する(ステップS13)。
The
次に、管理サーバ1のシステム構成情報作成部12は、管理配下の冷却制御ユニット2の中から1つの冷却制御ユニット2を選択する(ステップS14)。
Next, the system configuration
そして、システム構成情報作成部12は、選択した冷却制御ユニット2が保持する図4に示す管理情報501に登録された接続される液浸槽3の情報を冷却制御部21から取得する(ステップS15)。
Then, the system configuration
そして、システム構成情報作成部12は、選択した冷却制御ユニット2に接続される液浸槽3の中から試験対象とする液浸槽3を1つ選択する(ステップS16)。
Then, the system configuration
次に、システム構成情報作成部12は、試験対象の液浸槽3の制御液温の設定変更を冷却機構制御部14に指示する。冷却機構制御部14は、制御液温の設定変更命令を冷却制御ユニット2の冷却制御部21へ送信して、制御液温の設定変更を指示する(ステップS17)。
Next, the system configuration
冷却制御ユニット2の冷却制御部21は、制御液温の設定変更命令を管理サーバ1のシステム構成情報作成部12から受信する。そして、冷却制御部21は、管理情報501の制御液温を擬似故障用冷却温度閾値に変更する(ステップS18)。
The cooling
その後、管理サーバ1のシステム構成情報作成部12は、各サーバ4からの擬似故障情報の受信を待つ(ステップS19)。
After that, the system configuration
サーバ4の故障通知部43は、監視部41から取得するCPU温度の情報を基に、CPU温度が擬似故障温度に到達したか否かを判定する(ステップS20)。CPU温度が擬似故障温度に到達していない場合(ステップS20:否定)、故障通知部43は、CPU温度が擬似故障温度に到達するまで待機する。
The
CPU温度が擬似故障温度に到達した場合(ステップS20:肯定)、故障通知部43は、擬似故障情報を管理サーバ1の故障通知受信部16へ送信する(ステップS21)。
When the CPU temperature reaches the pseudo failure temperature (step S20: affirmative), the
管理サーバ1の故障通知受信部16は、擬似故障情報を受信すると、受信した擬似故障情報をシステム構成情報作成部12へ出力する。システム構成情報作成部12は、擬似故障情報の入力を故障通知受信部16から受ける。そして、管理サーバ1のシステム構成情報作成部12は、最大格納数の擬似故障情報を取得したか否かを判定する(ステップS22)。
When the failure notification receiving unit 16 of the
取得した擬似故障情報が最大格納数に達していない場合(ステップS22:否定)、システム構成情報作成部12は、最大待ち時間を経過したか否かを判定する(ステップS23)。最大待ち時間を経過していない場合(ステップS23:否定)、システム構成情報作成部12は、ステップS19へ戻る。
When the acquired pseudo-failure information has not reached the maximum number of stored items (step S22: negative), the system configuration
一方、最大格納数の擬似故障情報を取得した場合(ステップS22:肯定)又は最大待ち時間を経過した場合(ステップS23:肯定)、システム構成情報作成部12は、試験対象の液浸槽3における制御液温の設定変更の解除を冷却機構制御部14に指示する。冷却機構制御部14は、試験対象の液浸槽3における制御液温の設定変更の解除通知を冷却制御ユニット2の冷却制御部21へ送信して、試験対象の液浸槽3における液体冷媒300の制御液温の設定変更を解除させる(ステップS24)。
On the other hand, when the pseudo failure information of the maximum number of stored items is acquired (step S22: affirmative) or when the maximum waiting time has elapsed (step S23: affirmative), the system configuration
冷却制御ユニット2の冷却制御部21は、試験対象の液浸槽3における制御液温の設定変更の解除通知を管理サーバ1の冷却機構制御部14から受信する。そして、冷却制御部21は、管理情報501に登録された試験対象の液浸槽3における制御液温の値を擬似故障所冷却温度閾値から初期値に変更して元に戻す(ステップS25)。
The cooling
次に、管理サーバ1のシステム構成情報作成部12は、擬似故障情報の送信元のサーバ4の中から構成確認対象とするサーバ4を1台選択する(ステップS26)。
Next, the system configuration
次に、システム構成情報作成部12は、記憶部11からシステム構成情報113を取得する。そして、システム構成情報作成部12は、構成確認対象のサーバ4が格納された液浸槽3が、システム構成情報113と異なるか否かを判定する(ステップS27)。
Next, the system configuration
構成確認対象のサーバ4が格納された液浸槽3がシステム構成情報と一致する場合(ステップS27:否定)、システム構成情報作成部12は、ステップS29へ進む。
When the
一方、構成確認対象のサーバ4が格納された液浸槽3がシステム構成情報と異なる場合(ステップS27:肯定)、システム構成情報作成部12は、システム構成情報113における構成確認対象のサーバ4を格納する液浸槽3の情報を更新する(ステップS28)。
On the other hand, when the
次に、システム構成情報作成部12は、試験対象の液浸槽3に格納された全てのサーバ4のチェックが完了したか否かを判定する(ステップS29)。チェックが完了していないサーバ4が残っている場合(ステップS29:否定)、システム構成情報作成部12は、ステップS26へ戻る。
Next, the system configuration
これに対して、全てのサーバ4のチェックが完了した場合(ステップS29:肯定)、システム構成情報作成部12は、選択した冷却制御ユニット2に接続された全ての液浸槽3についてチェックが完了したか否かを判定する(ステップS30)。チェックが完了していない液浸槽3が残っている場合(ステップS30:否定)、システム構成情報作成部12は、ステップS16へ戻る。
On the other hand, when the checks of all the
これに対して、全ての液浸槽3のチェックが完了した場合(ステップS30:肯定)、システム構成情報作成部12は、管理対象の全ての冷却制御ユニット2についてチェックが完了したか否かを判定する(ステップS31)。チェックが完了していない静逆制御ユニット2が残っている場合(ステップS31:否定)、システム構成情報作成部12は、ステップS14へ戻る。
On the other hand, when the checks of all the
これに対して、全ての冷却制御ユニット2のチェックが完了した場合(ステップS31
:肯定)、システム構成情報作成部12は、制御温度変更の解除をサーバ制御部17に指示する。サーバ制御部17は、制御温度変更の解除命令を各サーバ4の故障通知部43へ送信して、管理する全てのサーバ4を通常モードに復帰させる(ステップS32)。
On the other hand, when the checks of all the
: Affirmative), the system configuration
その後、システム構成情報作成部12は、構成確認試験を終了する(ステップS33)。
After that, the system configuration
(ハードウェア構成)
次に、図12を参照して、管理サーバ1のハードウェア構成を説明する。管理サーバ1は、図12に示すようにCPU91、メモリ92、記憶装置93及びネットワークインタフェース94を有する。
(Hardware configuration)
Next, the hardware configuration of the
CPU91は、バスを介して、メモリ92、記憶装置93及びネットワークインタフェース94と接続する。
The
記憶装置93は、例えば、ハードディスクである。記憶装置93は、図1に例示した記憶部11の機能を実現する。また、記憶装置93は、図1に例示した、システム構成情報作成部12、入出力制御部13、冷却機構制御部14、環境情報収集部15、故障通知受信部16及びサーバ制御部17の機能を実現するためのプログラムを含む各種プログラムを格納する。ネットワークインタフェース94は、CPU91と冷却制御ユニット2及びサーバ4との間で通信を行うための通信インタフェースである。
The
CPU91は、記憶装置93から各種プログラムを読み出してメモリ92に展開して実行することで、システム構成情報作成部12、入出力制御部13、冷却機構制御部14、環境情報収集部15、故障通知受信部16及びサーバ制御部17の機能を実現する。
The
以上に説明したように、本実施例に係る管理サーバは、冷却制御ユニットによる液浸槽の制御温度を上昇させ、且つ、CPU温度の故障通知のための閾値を下げることで、擬似故障通知が発行され易くするとともに、サーバに対する熱による影響を軽減する。そして、管理サーバは、取得した擬似故障通知を用いて、各液浸槽に格納されたサーバの情報を取得して、実際の構成を表すようにシステム構成情報を更新する。これにより、管理者は、システム構成情報を確認することで、各液浸槽に格納されたサーバを特定することができる。 As described above, the management server according to the present embodiment raises the control temperature of the immersion tank by the cooling control unit and lowers the threshold value for the failure notification of the CPU temperature to notify the pseudo failure. It makes it easier to publish and reduces the heat effect on the server. Then, the management server acquires the information of the server stored in each immersion tank by using the acquired pseudo failure notification, and updates the system configuration information so as to represent the actual configuration. As a result, the administrator can identify the server stored in each immersion tank by checking the system configuration information.
液浸槽の故障や冷却制御ユニットの故障が発生した場合に、故障個所を修復するためにサーバの電源を切る場合に、故障修復時に影響が発生するサーバを特定して電源を落とすことができ、保守作業を容易にすることができる。 When the power of the server is turned off to repair the faulty part in the event of a malfunction of the immersion tank or the fault of the cooling control unit, it is possible to identify the server that will be affected during the repair and turn off the power. , Maintenance work can be facilitated.
1 管理サーバ
2 冷却制御ユニット
3 液浸槽
4 サーバ
5 液浸システム
6 ネットワーク
7 入出力装置
11 記憶部
12 システム構成情報作成部
13 入出力制御部
14 冷却機構制御部
15 環境情報収集部
16 故障通知受信部
17 サーバ制御部
21 冷却制御部
22 故障通知部
23 液浸槽監視部
30 センサ
41 監視部
42 演算実行部
43 故障通知部
44 システム制御部
100 情報処理システム
1
Claims (6)
前記複数の液浸槽のそれぞれに格納され前記液体冷媒で冷却される1つ又は複数の情報処理装置から、当該情報処理装置の温度が温度閾値以上になった場合に通知を受ける通知取得部と、
前通知取得部により取得された前記通知から、当該通知をした情報処理装置の識別情報を取得する構成情報生成部と
を備えたことを特徴とする構成識別装置。 During the test operation, each of the plurality of immersion tanks has a cooling control device that adjusts the liquid temperature of the liquid refrigerant stored in the immersion tank at a test upper limit value higher than the upper limit value during normal operation. With the management department
A notification acquisition unit that receives a notification when the temperature of the information processing device exceeds the temperature threshold from one or more information processing devices stored in each of the plurality of immersion tanks and cooled by the liquid refrigerant. ,
A configuration identification device including a configuration information generation unit that acquires identification information of the information processing device that has given the notification from the notification acquired by the previous notification acquisition unit.
前記液浸システムは、
液体冷媒を貯蔵した複数の液浸槽と、
各前記液浸槽のそれぞれに格納され前記液体冷媒により冷却される1つ又は複数の情報処理装置と
各前記液浸槽における前記液体冷媒の液温を調整する冷却制御装置とを備え、
前記構成識別装置は、
試験動作時に、複数の液浸槽のそれぞれに、通常動作時の上限値よりも高い試験用上限値で当該液浸槽に貯蔵された前記液体冷媒の液温を冷却制御装置に調整させる液浸槽管理部と、
各前記情報処理装置から、当該情報処理装置の温度が温度閾値以上になった場合に通知を受ける通知取得部と、
前通知取得部により取得された通知から、当該通知をした情報処理装置の識別情報を取得する構成情報生成部とを備えた
ことを特徴とする情報処理システム。 An information processing system having an immersion system and a configuration identification device.
The immersion system
Multiple immersion tanks that store liquid refrigerant,
It is provided with one or a plurality of information processing devices stored in each of the immersion tanks and cooled by the liquid refrigerant, and a cooling control device for adjusting the liquid temperature of the liquid refrigerant in each of the immersion tanks.
The configuration identification device is
During the test operation, each of the plurality of immersion tanks is immersed in a cooling control device that adjusts the liquid temperature of the liquid refrigerant stored in the immersion tank at a test upper limit value higher than the upper limit value during normal operation. Tank management department and
A notification acquisition unit that receives a notification from each of the information processing devices when the temperature of the information processing device exceeds the temperature threshold value.
An information processing system including a configuration information generation unit that acquires identification information of the information processing device that made the notification from the notification acquired by the previous notification acquisition unit.
前記複数の液浸槽のそれぞれに格納され前記液体冷媒で冷却される1つ又は複数の情報処理装置から当該情報処理装置の温度が温度閾値以上になった場合に通知を受け、
取得した前記通知から、当該通知を送信した情報処理装置の識別情報を取得する
ことを特徴とする構成識別方法。 During the test operation, each of the plurality of immersion tanks is allowed to adjust the liquid temperature of the liquid refrigerant stored in the immersion tank at a test upper limit value higher than the upper limit value during normal operation by the cooling control device.
Received a notification from one or more information processing devices stored in each of the plurality of immersion tanks and cooled by the liquid refrigerant when the temperature of the information processing device exceeds the temperature threshold.
A configuration identification method characterized in that the identification information of the information processing apparatus that transmitted the notification is acquired from the acquired notification.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020044807A JP2021144661A (en) | 2020-03-13 | 2020-03-13 | Configuration identification device, information processing system, and configuration identification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020044807A JP2021144661A (en) | 2020-03-13 | 2020-03-13 | Configuration identification device, information processing system, and configuration identification method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021144661A true JP2021144661A (en) | 2021-09-24 |
Family
ID=77766902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020044807A Pending JP2021144661A (en) | 2020-03-13 | 2020-03-13 | Configuration identification device, information processing system, and configuration identification method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021144661A (en) |
-
2020
- 2020-03-13 JP JP2020044807A patent/JP2021144661A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11886209B2 (en) | HVAC system with data driven user interfaces for equipment commissioning and operation | |
US9317045B2 (en) | Method and apparatus for efficiently coordinating data center cooling units | |
US10691528B1 (en) | Automatic repair of computing devices in a data center | |
JP4792047B2 (en) | How system availability is calculated | |
WO2011149023A1 (en) | Computer room air-conditioning system, and redundant controller therefor | |
US10904030B2 (en) | Building management system with BACnet broadcast management (BBMD) device | |
JP2016507838A (en) | Integrated control of electronic control system and equipment control system | |
JP2007213167A (en) | Power control program, server system, and power control method | |
JP2023516463A (en) | Controller and method for predicting faults in heating, ventilation, or air conditioning (HVAC) systems | |
US20160113154A1 (en) | Liquid Cooling System and Control Method Thereof | |
JP6953907B2 (en) | Information processing equipment, information processing systems, and programs | |
JPWO2010018635A1 (en) | Cooling method and computer | |
JP2021144661A (en) | Configuration identification device, information processing system, and configuration identification method | |
JP2016167213A (en) | Blade apparatus and blade apparatus management method | |
KR20120096513A (en) | Controls interface solution for energy savings | |
CN115334851A (en) | Control method for fusion of liquid cooling and air cooling and refrigeration control system | |
Bermudez et al. | Optimal and distributed automatic discrete control of air conditioning units in data centers | |
JP2006260072A (en) | System management device, information processor and system management device redundant method | |
Goth et al. | Hybrid cooling with cycle steering in the IBM eServer z990 | |
JPH0973321A (en) | Electronic device with built-in cooling device and its cooling monitor and control method | |
CN113075976B (en) | Backup heat dissipation system, method and medium for server cluster | |
JP2019004542A (en) | Server control system and server control method | |
TW201926035A (en) | Firmware update method and baseboard management controller for firmware update | |
JP2009200854A (en) | Multiple configuration controller, multiple configuration control method, and multiple configuration control program | |
JP5439736B2 (en) | Computer management system, computer system management method, and computer system management program |