JP6225742B2 - 情報処理システムおよび情報処理システムの制御方法 - Google Patents

情報処理システムおよび情報処理システムの制御方法 Download PDF

Info

Publication number
JP6225742B2
JP6225742B2 JP2014030682A JP2014030682A JP6225742B2 JP 6225742 B2 JP6225742 B2 JP 6225742B2 JP 2014030682 A JP2014030682 A JP 2014030682A JP 2014030682 A JP2014030682 A JP 2014030682A JP 6225742 B2 JP6225742 B2 JP 6225742B2
Authority
JP
Japan
Prior art keywords
information processing
unit
information
mask
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014030682A
Other languages
English (en)
Other versions
JP2015156102A (ja
Inventor
博行 宮崎
博行 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014030682A priority Critical patent/JP6225742B2/ja
Priority to US14/564,864 priority patent/US9465422B2/en
Publication of JP2015156102A publication Critical patent/JP2015156102A/ja
Application granted granted Critical
Publication of JP6225742B2 publication Critical patent/JP6225742B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • G06F1/206Cooling means comprising thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Power Sources (AREA)
  • Multi Processors (AREA)

Description

本発明は、情報処理システムおよび情報処理システムの制御方法に関する。
従来、複数のプロセッサを並列に動作させることで、情報処理の能力を向上させる情報処理システムが提案されている。この種の情報処理システムでは、プロセッサに発生するエラーを示すエラー情報が格納されるレジスタが設けられる。監視部は、システムの再起動時にレジスタを参照し、レジスタの内容にエラー情報が含まれる場合、エラーを発生したプロセッサへの電源電圧の供給を停止する(例えば、特許文献1参照)。
また、複数の論理パッケージと電源ユニットとが複数の筐体の各々に収納される並列計算機システムでは、例えば、所定数の論理パッケージ毎に電源ユニットが配置される。筐体内の動作を制御するソフトウェアは、論理パッケージの1つが故障した場合、故障した論理パッケージとともに共通の電源電圧を受ける論理パッケージを特定し、特定した論理パッケージに対して退避処理を実行した後、電源ユニットの動作を停止する。そして、動作を停止していない電源ユニットに接続される論理パッケージを動作させながら、並列計算機システムの保守が実行される(例えば、特許文献2参照)。
さらに、コンピュータ装置に搭載される結露センサにより、コンピュータ装置に発生する結露を検出し、コンピュータ装置への電源の供給を停止することで、結露による故障の発生が抑制される(例えば、特許文献3参照)。
特開平11−53329号公報 特開平7−219684号公報 特開平2−121014号公報
例えば、複数の情報処理装置を内蔵する複数の筐体が、情報処理装置を冷却する冷却装置を共有する場合、他の筐体で発生した結露等の異常は、自筐体にも影響し、自筐体に結露が発生する可能性がある。このため、結露等の影響を受ける影響範囲に属する他の筐体に内蔵される所定数の情報処理装置の電源が結露等の原因で遮断された場合、自筐体に内蔵される情報処理装置の電源を遮断することが望ましい。一方、冷却装置を共有しない筐体は、他筐体で発生した結露等の異常の影響を受けないため、内蔵する情報処理装置の電源を遮断せず、動作を継続させることが可能である。
しかしながら、異常状態が互いに影響する影響範囲に含まれる複数の筐体において、他筐体に内蔵される情報処理装置のそれぞれの状態を、自筐体に内蔵される情報処理装置のそれぞれで検出し、電源を遮断する手法は提案されていない。
本件開示の情報処理システムおよび情報処理システムの制御方法は、異常状態が互いに影響する影響範囲に含まれる複数の筐体において、他筐体の複数の情報処理装置の状態を、自筐体の複数の情報処理装置で検出し、電源を遮断することを目的とする。
一つの観点によれば、複数の他の筐体と、複数の他の筐体にそれぞれ内蔵された複数の他の情報処理装置の各々と通信経路を介してそれぞれ接続された複数の情報処理装置を内蔵する筐体とを有する情報処理システムでは、複数の情報処理装置の各々は、複数の他の筐体のうち、他の筐体が内蔵する複数の他の情報処理装置が全て停止した場合、自筐体が内蔵する複数の情報処理装置の全てが所定の影響を受ける影響範囲に属する対象筐体が内蔵する複数の対象情報処理装置との全ての対象通信経路の接続状態を検出する検出部と、検出部が検出する全ての対象通信経路の接続状態を示す接続状態情報を保持する保持部と、保持部が保持した接続状態情報に基づき、自装置の電源を制御する制御部を有する。
別の観点によれば、複数の他の筐体と、複数の他の筐体にそれぞれ内蔵された複数の他の情報処理装置の各々と通信経路を介してそれぞれ接続された複数の情報処理装置を内蔵する筐体とを有する情報処理システムの制御方法では、複数の情報処理装置の各々が有する検出部が、複数の他の筐体のうち、他の筐体が内蔵する複数の他の情報処理装置が全て停止した場合、自筐体が内蔵する複数の情報処理装置の全てが所定の影響を受ける影響範囲に属する対象筐体が内蔵する複数の対象情報処理装置との全ての対象通信経路の接続状態を検出し、複数の情報処理装置の各々が有する保持部が、検出部が検出する全ての対象通信経路の接続状態を示す接続状態情報を保持し、複数の情報処理装置の各々が有する制御部が、保持部が保持した接続状態情報に基づき、自装置の電源を制御する。
本件開示の情報処理システムおよび情報処理システムの制御方法は、異常状態が互いに影響する影響範囲に含まれる複数の筐体において、他筐体の複数の情報処理装置の状態を、自筐体の複数の情報処理装置で検出し、電源を遮断することができる。
情報処理システムおよび情報処理システムの制御方法の一実施形態を示す図である。 図1に示す情報処理システムの動作の例を示す図である。 図1に示す情報処理システムの動作の別の例を示す図である。 情報処理システムおよび情報処理システムの制御方法の別の実施形態を示す図である。 図4に示すノード間の接続仕様の例を示す図である。 図4に示すノードの例を示す図である。 図6に示す構成表の例を示す図である。 図4に示す制御部の例を示す図である。 図8に示すマスク部、レジスタ部および集約部の例を示す図である。 図4に示す情報処理システムの動作の例を示す図である。 図4に示す情報処理システムの動作の別の例を示す図である。 図4に示す情報処理システムの動作のさらなる別の例を示す図である。 図4に示す情報処理システムの動作のさらなる別の例を示す図である。 図4に示す各ノードの動作の例を示す図である。 図4に示す制御部の動作の例を示す図である。 情報処理システムおよび情報処理システムの制御方法の別の実施形態における制御部の例を示す図である。 図16に示すレジスタ部および集約部の例を示す図である。 図16に示す制御部の動作の例を示す図である。
以下、図面を用いて実施形態を説明する。
図1は、情報処理システムおよび情報処理システムの制御方法の一実施形態を示す。図1に示す情報処理システムSYS1は、情報処理装置IPE(IPE1、IPE2、IPE3、IPE4、IPE5、IPE6)が内蔵された複数の筐体CS(CS1、CS2、CS3)を有する。例えば、筐体CS2、CS3は、冷却管P(P2、P3)を介して筐体CS2、CS3に共通の冷却装置CDU2に接続される。筐体CS1は、冷却管P(P1)を介して、冷却装置CDU2と異なる冷却装置CDU1に接続される。各冷却装置CDU1、CDU2は、冷却水等のクーラントを冷却管P内に循環させ、情報処理装置IPEを冷却する。なお、各冷却装置CDU1、CDU2は、3以上の筐体CSに共通に設けられてもよい。また、各筐体CSは、装置架またはロッカーでもよい。
情報処理装置IPE3は、情報が伝送される通信経路CL(CL1、CL3)を介して情報処理装置IPE1、IPE5のそれぞれに接続される。情報処理装置IPE4は、情報が伝送される通信経路CL(CL2、CL4)を介して情報処理装置IPE2、IPE6のそれぞれに接続される。
各情報処理装置IPEは、検出部DET(DET1、DET2、DET3、DET4、DET5、DET6)、保持部HLD(HLD1、HLD2、HLD3、HLD4、HLD5、HLD6)を有する。また、各情報処理装置IPEは、制御部CNT(CNT1、CNT2、CNT3、CNT4、CNT5、CNT6)を有する。例えば、各情報処理装置IPEは、CPU(Central Processing Unit)等のプロセッサと、自筐体CSに内蔵される情報処理装置IPEおよび他筐体CSに内蔵される情報処理装置IPEとの間で通信する機能を有するコントローラとを有する。
各検出部DETは、検出部DETを含む情報処理装置IPEを内蔵する筐体CSに接続された通信経路CLの接続状態を検出することで、冷却装置CDUを共有する他の筐体に内蔵される情報処理装置IPEが停止したことを検出する。例えば、検出部DET3は、通信経路CL3の接続状態を検出し、検出した通信経路CL3の接続状態を検出部DET4に通知し、検出部DET4が検出した通信経路CL4の接続状態を受ける。同様に、検出部DET4は、通信経路CL4の接続状態を検出し、検出した通信経路CL4の接続状態を検出部DET3に通知し、検出部DET3が検出した通信経路CL3の接続状態を受ける。
筐体CS2が内蔵する情報処理装置IPE3、IPE4は、筐体CS1、CS3のうち、冷却装置CDU2を共有する筐体CS3が内蔵する情報処理装置IPE5、IPE6が停止した場合、所定の影響を受ける場合がある。例えば、冷却装置CDU2の異常によりクーラントの過冷却が発生し、冷却管P3に結露が発生した場合、情報処理装置IPE5、IPE6の電源は遮断される。この場合、冷却管P2内を循環するクーラントも過冷却され、冷却管P2に結露が発生する可能性が高い。このため、筐体CS2に内蔵される情報処理装置IPE3、IPE4は、検出部DET3、DET4が通信経路CL3、CL4の接続状態(通信状態)の遮断を検出したことに基づいて停止(例えば、電源PSの遮断)されることが望ましい。
一方、冷却装置CDU1の異常により冷却管P1に結露が発生し、情報処理装置IPE1、IPE2が停止した場合、通信経路CL1、CL2を介した情報処理装置IPE1、IPE2から情報処理装置IPE3、IPE4への通信は遮断される。しかしながら、冷却装置CDU1を共有しない情報処理装置IPE3、IPE4は、冷却管P1の結露の影響を受けない。このため、情報処理装置IPE3、IPE4は、検出部DET3、DET4が通信経路CL1、CL2の接続状態(通信状態)の遮断を検出した場合、動作を継続しても問題ない。
なお、冷却管P3の破損によりクーラントが漏水した場合、冷却管P2内を循環するクーラントが無くなるおそれがあるため、情報処理装置IPE3、IPE4は、情報処理装置IPE5、IPE6とともに停止されることが望ましい。一方、冷却管P1の破損によりクーラントが漏水した場合、冷却装置CDU1を共有しない情報処理装置IPE3、IPE4は、冷却管P1の破損の影響を受けないため、動作を継続しても問題ない。さらに、冷却装置CDU2が故障により停止した場合、情報処理装置IPE3、IPE4は、情報処理装置IPE5、IPE6とともに停止されることが望ましい。一方、冷却装置CDU1が故障により停止した場合、情報処理装置IPE3、IPE4は、冷却装置CDU1が故障の影響を受けないため、動作を継続しても問題ない。
このように、検出部DET3、DET4は、情報処理装置IPE5、IPE6が停止した場合に情報処理装置IPE3、IPE4が所定の影響を受ける影響範囲に属する対象筐体CS3との対象通信経路CL3、CL4の接続状態を検出する。換言すれば、検出部DET3、DET4は、筐体CS2と同じ運用条件で運用される筐体CS3の情報処理装置IPE5、IPE6が停止した場合、運用条件が同じ対象筐体CS3との対象通信経路CL3、CL4の接続状態を検出する。図1に示す例では、運用条件は、共通の冷却装置CDU2を用いるという冷却条件である。
なお、検出部DET3、DET4は、情報処理装置IPE1、IPE2が停止した場合に、情報処理装置IPE3、IPE4が所定の影響を受ける影響範囲に属さない筐体CS1との通信経路CL1、CL2の接続状態の検出をマスクしてもよい。検出部DET3、DET4が対象通信経路CL1、CL2の接続状態(通信状態)の遮断を検出した場合、情報処理装置IPE3、IPE4は停止せず、動作を継続する。なお、検出部DET3、DET4は、通信経路CL1、CL2の接続状態を検出する機能を省いてもよい。
各保持部HLD3、HLD4は、各検出部DET3、DET4が検出する通信経路である対象通信経路CL3、CL4の接続状態を示す接続状態情報(接続状態または遮断状態のいずれかを示す)を保持する。例えば、検出部DET3は、検出部DET4が検出する対象通信経路CL4の接続状態情報を検出部DET4を介して受け、検出部DET4は、検出部DET3が検出する対象通信経路CL3の接続状態情報を検出部DET3を介して受ける。
なお、各保持部HLD3、HLD4は、各検出部DET3、DET4が検出する通信経路CL1、CL2の接続状態を示す接続状態情報を保持してもよい。但し、通信経路CL1、CL2は、所定の影響を受ける影響範囲に属さない筐体CS1に接続されており、対象通信経路でないため、通信経路CL1、CL2の接続状態を示す接続状態情報は使用されない。
各制御部CNT3、CNT4は、保持部HLD3、HLD4が保持した接続状態情報に基づき、情報処理装置IPE3、IPE4の電源PS3、PS4のそれぞれを制御する。例えば、各制御部CNT3、CNT4は、保持部HLD3、HLD4に保持された接続状態情報が、対象通信経路CL3、CL4の接続断状態を示す場合、情報処理装置IPE3、IPE4の電源PS3、PS4を遮断する。特に限定されないが、各制御部CNT3、CNT4は、電源PS3、PS4を情報処理装置IPE3、IPE4に供給する経路に設けられたスイッチSW3、SW4を遮断状態に設定することにより電源PS3、PS4を遮断する。
なお、例えば、検出部DET1、DET2および検出部DET5、DET6は、検出部DET3、DET4と同様の機能を有してもよく、保持部HLD1、HLD2および保持部HLD5、HLD6は、保持部HLD3、HLD4と同様の機能を有してもよい。また、制御部CNT1、CNT2および制御部CNT5、CNT6は、制御部CNT3、CNT4と同様の機能を有してもよい。
図2は、図1に示す情報処理システムSYS1の動作の例を示す。この例では、筐体CS3内の異常により、筐体内CS3内の一部の情報処理装置IPE5の電源PS5が遮断される。電源PS5の遮断により、通信経路CL3の通信が遮断される(図2のX印)。図中の太い矢印は、動作の流れを示す。
検出部DET3は、情報処理装置IPE5に接続された通信経路CL3が接続断状態であることを検出し、保持部HLD3に接続状態情報を書き込む(図2(a)、(b))。また、検出部DET3は、通信経路CL3が接続断状態であることを示す情報を、筐体内CS2内の他の検出部(この例では、DET4)に通知する(図2(c))。検出部DET4は、検出部DET3から受けた接続状態情報を保持部HLD4に書き込む(図2(d))。
制御部CNT3は、保持部HLD3に保持された接続状態情報が、冷却装置CDU2を共有する筐体CS3に接続された通信経路CL3、CL4の接続断状態を示さないため、電源PS3を遮断する制御を実行しない。同様に、制御部CNT4は、保持部HLD4に保持された接続状態情報が、冷却装置CDU2を共有する筐体CS3に接続された通信経路CL3、CL4の接続断状態を示さないため、電源PS4を遮断する制御を実行しない。すなわち、所定の影響を受ける影響範囲に属する対象筐体CS3との対象通信経路CL3、CL4のいずれかが接続状態を示す場合、情報処理装置IPE3、IPE4は、電源PS3、PS4を遮断せず、動作を継続する。
図3は、図1に示す情報処理システムSYS1の動作の別の例を示す。図2と同一または同様の動作については、図2と同じ符号を付し、詳細な説明は省略する。図3に示す符号(a)−(d)は、図2に符号(a)−(d)で示す動作と同様である。この例では、クーラントの過冷却による冷却管P3の結露、冷却管P3からのクーラントの漏れまたは冷却装置CDU2の故障等により、筐体内CS3内の情報処理装置IPE5、IPE6の電源PS5、PS6が遮断される。電源PS5、PS6の遮断により、通信経路CL3、CL4の通信が遮断される(図3のX印)。
検出部DET4は、情報処理装置IPE6に接続された通信経路CL4が接続断状態であることを検出し、保持部HLD4に接続状態情報を書き込む(図3(e)、(f))。また、検出部DET4は、通信経路CL4が接続断状態であることを示す情報を、筐体CS2内の他の検出部(この例では、DET3)に通知する(図3(g))。
検出部DET3は、図2で説明した動作に加えて、検出部DET4から受けた接続状態情報を保持部HLD3に書き込む(図3(h))。制御部CNT3は、保持部HLD3に保持された接続状態情報が、冷却装置CDU2を共有する筐体CS3に接続された通信経路CL3、CL4の接続断状態を示すため、電源PS3を遮断する(図3(i)、(j))。
同様に、制御部CNT4は、保持部HLD4に保持された接続状態情報が、冷却装置CDU2を共有する筐体CS3に接続された通信経路CL3、CL4の接続断状態を示すため、電源PS4を遮断する(図3(k)、(l))。すなわち、所定の影響を受ける影響範囲に属する対象筐体CS3との対象通信経路CL3、CL4が接続断状態を示す場合、情報処理装置IPE3、IPE4は、電源PS3、PS4を遮断する。
なお、図1から図3に示す例では、所定の影響を受ける影響範囲に属する対象筐体CS3との全ての対象通信経路CL3、CL4が接続断状態を示す場合、情報処理装置IPE3、IPE4が電源PS3、PS4を遮断する例を述べた。しかしながら、例えば、対象筐体CS3が3以上の多数の情報処理装置IPE(例えば、100台)を有する場合、所定の影響を受ける影響範囲に属する対象筐体CS3との所定数の対象通信経路CLの接続断状態が検出されてもよい。そして、例えば、所定数(例えば、80台)の対象通信経路CLの接続断状態が検出された場合、筐体CS2に搭載される複数の情報処理装置IPEの電源PSが遮断されてもよい。
以上、図1から図3に示す実施形態では、筐体CS2内の情報処理装置IPE3、IPE4は、筐体CS3内の情報処理装置IPE5、IPE6に接続された通信経路CL3、CL4の接続断に基づいて、電源PS3、PS4を遮断することができる。例えば、筐体CS2、CS3で共有される冷却系の異常により、対象筐体CS3との対象通信経路CL3、CL4が接続断状態を示す場合、異常の影響を受ける情報処理装置IPE3、IPE4は、電源PS3、PS4を遮断することができる。すなわち、異常状態が互いに影響する影響範囲に含まれる他筐体CS3の情報処理装置IPE5、IPE6の電源PS5、PS6の遮断を自筐体CS2の情報処理装置IPE3、IPE4で検出し、電源PS3、PS4を遮断することができる。
各情報処理装置IPE3、IPE4は、通信経路CL3、CL4の接続断状態を互いに通知するため、異常状態が互いに影響する影響範囲に含まれる筐体CS3の情報処理装置IPE5、IPE6の電源PS5、PS6の遮断を検出することができる。通信経路CL3、CL4の接続断状態を示す接続状態情報は、各保持部HLD3、HLD4に保持されるため、通信経路CL3、CL4の接続断が時期をずらして発生する場合にも、各情報処理装置IPE3、IPE4は電源PS3、PS4を遮断することができる。
筐体CSを管理する管理装置等を介することなく、他の筐体CS3で発生した異常に基づいて、情報処理装置IPE3、IPE4の電源PS3、PS4を遮断することができる。すなわち、管理装置等を介する場合に比べて、情報処理装置IPE3、IPE4の電源PS3、PS4を迅速に遮断することができる。
通信経路CL3、CL4の一方の接続断が発生した場合、情報処理装置IPE3、IPE4は、電源PS3、PS4を遮断しない。すなわち、異常状態が互いに影響する影響範囲に含まれる筐体CS3の情報処理装置IPE5、IPE6の一方が動作する場合、情報処理装置IPE3、IPE4は、電源PS3、PS4を遮断しない。この結果、情報処理装置IPE3、IPE4は、異常状態が影響する不具合と異常状態が影響しない不具合とを区別して、電源PS3、PS4を遮断するか否かを判定することができる。
図4は、情報処理システムおよび情報処理システムの制御方法の別の実施形態を示す。この実施形態の情報処理システムSYS2は、複数の筐体CS(CSA、CSB、CSC、CSD)、複数の電源装置PS(PSA1、PSA2、PSB1、PSB2、PSC1、PSC2、PSD1、PSD2)を有する。また、情報処理システムSYS2は、筐体CSA、CSB内を冷却する冷却装置CDU1と、筐体CSC、CSD内を冷却する冷却装置CDU2とを有する。例えば、冷却装置CDU1、CDU2は、クーラント循環装置である。なお、各冷却装置CDU1、CDU2は、2つの筐体CSに共通に設けられるが、3以上の筐体CSに共通に設けられてもよい。
筐体CSAは、複数の情報処理装置IPEA(IPEA1、IPEA2、IPEA3)、冷却装置CDU1から供給される冷却水等のクーラントを各情報処理装置IPEAに循環させる冷却管P1、および冷却管P1に接触する結露センサS1を有する。筐体CSBは、複数の情報処理装置IPEB(IPEB1、IPEB2、IPEB3)、冷却装置CDU1から供給されるクーラントを各情報処理装置IPEBに循環させる冷却管P2、および冷却管P2に接触する結露センサS2を有する。筐体CSCは、複数の情報処理装置IPEC(IPEC1、IPEC2、IPEC3)、冷却装置CDU2から供給されるクーラントを各情報処理装置IPECに循環させる冷却管P3、および冷却管P3に接触する結露センサS3を有する。筐体CSDは、複数の情報処理装置IPED(IPED1、IPED2、IPED3)、冷却装置CDU2から供給されるクーラントを各情報処理装置IPEDに循環させる冷却管P4、および冷却管P4に接触する結露センサS4を有する。例えば、各筐体CSA、CSB、CSC、CSDは、装置架またはロッカーでもよい。
筐体CSAにおいて、情報処理装置IPEA1は、複数のノードA1(A11、A12、A13、A14)およびノードA1の動作を制御する制御部CNTA1を有する。情報処理装置IPEA2は、複数のノードA2(A21、A22、A23、A24)およびノードA2の動作を制御する制御部CNTA2を有する。情報処理装置IPEA3は、複数のノードA3(A31、A32、A33、A34)およびノードA3の動作を制御する制御部CNTA3を有する。
筐体CSBにおいて、情報処理装置IPEB1は、複数のノードB1(B11、B12、B13、B14)およびノードB1の動作を制御する制御部CNTB1を有する。情報処理装置IPEB2は、複数のノードB2(B21、B22、B23、B24)およびノードB2の動作を制御する制御部CNTB2を有する。情報処理装置IPEB3は、複数のノードB3(B31、B32、B33、B34)およびノードB3の動作を制御する制御部CNTB3を有する。
筐体CSCにおいて、情報処理装置IPEC1は、複数のノードC1(C11、C12、C13、C14)およびノードC1の動作を制御する制御部CNTC1を有する。情報処理装置IPEC2は、複数のノードC2(C21、C22、C23、C24)およびノードC2の動作を制御する制御部CNTC2を有する。情報処理装置IPEC3は、複数のノードC3(C31、C32、C33、C34)およびノードC3の動作を制御する制御部CNTC3を有する。
筐体CSDにおいて、情報処理装置IPED1は、複数のノードD1(D11、D12、D13、D14)およびノードD1の動作を制御する制御部CNTD1を有する。情報処理装置IPED2は、複数のノードD2(D21、D22、D23、D24)およびノードD2の動作を制御する制御部CNTD2を有する。情報処理装置IPED3は、複数のノードD3(D31、D32、D33、D34)およびノードD3の動作を制御する制御部CNTD3を有する。
筐体CSAの各情報処理装置IPEAのノードA1、A2、A3と、筐体CSBの各情報処理装置IPEBのノードB1、B2、B3とは、通信経路CL10を介して互いに接続される。筐体CSBの各情報処理装置IPEBのノードB1、B2、B3と、筐体CSCの各情報処理装置IPECのノードC1、C2、C3とは、通信経路CL20を介して互いに接続される。筐体CSCの各情報処理装置IPECのノードC1、C2、C3と、筐体CSDの各情報処理装置IPEDのノードD1、D2、D3とは、通信経路CL30を介して互いに接続される。
各ノードA11−A33、B11−B34、C11−C34、D11−D34は、互いに同一または同様の構成を有し、ノードB11の例が代表的に図6に示される。図6に示すように、各ノードA11−A34、B11−B34、C11−C34、D11−D34は、インタフェースチップIFCと、CPU等のプロセッサPROCとを有する。各ノードA11−A34、B11−B34、C11−C34、D11−D34の接続仕様は、図5に示される。
各制御部CNTA(CNTA1−CNTA3)、CNTB(CNTB1−CNTB3)、CNTC(CNTC1−CNTC3)、CNTD(CNTD1−CNTD3)は、互いに同一または同様の構成を有する。制御部CNTB1の例が代表として図8に示される。図8に示すように、各制御部CNTA、CNTB、CNTC、CNTDは、バスインタフェースBIF、デコーダ部DEC、マスク部MSK、レジスタ部REGU、集約部SUM、電源制御部PCNTおよびマスク情報保持部MBIT−、MBIT+を有する。
筐体CSB、CSC、CSDの構成および仕様は、筐体CSAの構成と同一または同様のため、以下では、筐体CSAの構成が説明される。
冷却管P1は、情報処理装置IPEA1のノードA11−A14、情報処理装置IPEA2のノードA21−A24、情報処理装置IPEA3のノードA31−A34のそれぞれに設けられるヒートシンク等の放熱部材に接続される。例えば、結露センサS1は、冷却管P1を流れるクーラントの温度が低下することに伴い冷却管P1に発生する結露によって導通する素子を有する。結露センサS1は、結露を検出したことを制御部CNTA1、CNTA2、CNTA3に通知する。結露センサS1は、図4に示す場所に限定されることなく、結露が発生しやすい場所に設置されることが好ましく、各筐体に設置されてもよく、冷却管P1の複数箇所に設置されてもよい。
なお、筐体CSAは、結露センサS1の代わりに、冷却管P1に流れるクーラントの漏水を検出し、制御部CNTAに通知するセンサを有してもよい。例えば、漏水は、冷却管P1に流れるクーラントの圧力が所定値より低下した場合に検出してもよく、結露センサにより検出してもよい。あるいは、筐体CSAは、結露センサS1の代わりに、冷却管P1に流れるクーラントの温度が所定値より低下したことを検出し、制御部CNTAに通知するセンサを有してもよい。同様に、筐体CSB、CSC、CSDは、結露センサS2、S3、S4の代わりに、漏水を検出するセンサ、あるいは、クーラントの温度を検出するセンサを有してもよい。すなわち、筐体CSA、CSB、CSC、CSDは、結露センサと同様に、冷却装置CDUによる冷却の異常を検出するセンサを有してもよい。
例えば、各制御部CNTA1、CNTA2、CNTA3の発熱量は、各ノードA11−A14、ノードA21−A24、A31−A34の発熱量より小さく、各制御部CNTA1、CNTA2、CNTA3の信頼性は、自然放熱により維持できる。このため、例えば、冷却管P1は、制御部CNTA1、CNTA2、CNTA3に接続されず、制御部CNTA1、CNTA2、CNTA3は、結露の影響を受けない。
電源装置PSA1は、情報処理装置IPEA1−IPEA3に対応して設けられ、情報処理装置IPEA1のノードA11−A14、情報処理装置IPEA2のノードA21−A24、情報処理装置IPEA3のノードA31−A34のそれぞれに電源を供給する。電源装置PSA2は、情報処理装置IPEA1−IPEA3に対応して設けられ、情報処理装置IPEA1の制御部CNTA1、情報処理装置IPEA2の制御部CNTA2、情報処理装置IPEA3の制御部CNTA3のそれぞれに電源を供給する。
電源装置PSB1は、情報処理装置IPEB1−IPEB3に対応して設けられ、情報処理装置IPEB1のノードB11−B14、情報処理装置IPEB2のノードB21−B24、情報処理装置IPEB3のノードB31−B34のそれぞれに電源を供給する。電源装置PSB2は、情報処理装置IPEB1−IPEB3に対応して設けられ、情報処理装置IPEB1の制御部CNTB1、情報処理装置IPEB2の制御部CNTB2、情報処理装置IPEB3の制御部CNTB3のそれぞれに電源を供給する。
電源装置PSC1、PSD1の構成および電源の供給仕様は、電源装置PSA1と同様であり、電源装置PSC2、PSD2の構成および電源の供給仕様は、電源装置PSA2と同様である。すなわち、電源装置PSC1、PSC2は、情報処理装置IPEC1、IPEC2、IPEC3にそれぞれ対応して設けられ、電源装置PSD1、PSD2は、情報処理装置IPED1、IPED2、IPED3にそれぞれ対応して設けられる。
図5は、図4に示すノード間の接続仕様の例を示す。X軸(X−方向とX+方向)は、各筐体CSの情報処理装置IPEを互いに接続する通信経路(図4のCL1−CL3)を示す。
例えば、ノードA11は、X軸のX+方向がノードB11のX軸(X−方向)に接続され、B軸のB+方向がノードA21のB軸(B−方向)に接続され、B軸のB−方向がノードA31のB軸(B+方向)に接続される。同様に、ノードA22は、X軸のX+方向がノードB22のX軸(X−方向)に接続され、B軸のB+方向がノードA32のB軸(B−方向)に接続され、B軸のB−方向がノードA12のB軸(B+方向)に接続される。
例えば、ノードB12は、X軸のX+方向がノードC12のX軸(X−方向)に接続され、X軸のX−方向がノードA12のX軸(X+方向)に接続される。また、ノードB12は、B軸のB+方向がノードB22のB軸(B−方向)に接続され、B軸のB−方向がノードB32のB軸(B+方向)に接続される。同様に、ノードB23は、X軸のX+方向がノードC23のX軸(X−方向)に接続され、X軸のX−方向がノードA23のX軸(X+方向)に接続される。また、ノードB23は、B軸のB+方向がノードB33のB軸(B−方向)に接続され、B軸のB−方向がノードB13のB軸(B+方向)に接続される。
なお、各情報処理装置IPEA1−IPEA3、IPEB1−IPEB3、IPEC1−IPEC3、IPED1−IPED3(IPED1−IPED3は図示せず)内の4つのノードは、例えば、X軸、B軸と異なる軸によりトーラス接続される。このように、図4に示す情報処理システムSYS2は、B軸により筐体内の3つのノードが接続され、X軸により筐体間の4つのノードが接続され、X軸、B軸と異なる軸により情報処理装置IPE内の4つのノードが接続されるメッシュ/トーラス構造を有する。
図6は、図4に示すノードB11の例を示す。図4に示すノードA11−A34、ノードB12−B34、ノードC11−C34、ノードD11−D34は、ノードB11と同一または同様の構成を有する。
ノードB11は、インタフェースチップIFCとCPU等のプロセッサPROCとを有する。インタフェースチップIFCは、ノードB11をB軸(B+方向とB−方向)およびX軸(X+方向とX−方向)を介して接続される他のノードB21、B31、C11、A11と通信する機能を有する。インタフェースチップIFCは、ポートPTB+、PTB−、PTX+、PTX−、ネットワークインタフェースNI、プロセッサインタフェースPIFおよび制御インタフェースCIFを有する。
ポートPTB+は、B軸(B+方向)に接続されるノードB21に信号を送信し、ノードB21から信号を受信する機能を有する。ポートPTB−は、B軸(B−方向)に接続されるノードB31に信号を送信し、ノードB31から信号を受信する機能を有する。ポートPTX+は、X軸(X+方向)に接続されるノードC11に信号を送信し、ノードC11から信号を受信する機能を有する。ポートPTX−は、X軸(X−方向)に接続されるノードA11に信号を送信し、ノードA11から信号を受信する機能を有する。各ポートPTB+、PTB−、PTX+、PTX−は、受信する信号の電圧レベルと、受信する信号により示されるパケット等の情報とが正常か異常かを検出し、検出結果をネットワークインタフェースNIに通知する検出部DETを有する。すなわち、検出部DETは、通信経路を介して各ポートPTB+、PTB−、PTX+、PTX−に接続されるノードとの通信が遮断されたことを検出する機能を有する。
例えば、ネットワークインタフェースNIは、各ポートPTB+、PTB−、PTX+、PTX−が受信した信号に含まれるパケットのヘッダ情報を解読する機能を有する。ネットワークインタフェースNIは、解読したヘッダ情報に含まれる送信先にしたがって、受信したパケットをポートPTB+、PTB−、PTX+、PTX−またはプロセッサインタフェースPIFに出力する。また、ネットワークインタフェースNIは、各検出部DETが異常を検出した場合、制御インタフェースCIFおよび制御バスCBUSを介して、図4に示す制御部CNTB1に異常を示す情報を出力する。さらに、ネットワークインタフェースNIは、各検出部DETが異常を検出した場合、構成表CNFGに登録された送信先が示すポートに、異常を示す情報を出力させる。構成表CNFGの例は、図7に示す。
プロセッサインタフェースPIFは、ネットワークインタフェースNIとCPU等のプロセッサPROCとの間の通信を制御する。制御インタフェースCIFは、ネットワークインタフェースNIと制御部CNTB1との間の通信を制御する。
図7は、図6に示す構成表CNFGの例を示す。構成表CNFGは、各ノードA11−A34、ノードB11−B34、ノードC11−C34、ノードD11−D34に設けられる。構成表CNFGは、X軸(X+方向とX−方向)を介して他の筐体CSのノードが接続されるか否かを示す情報(筐体外接続)と、B軸(B+方向とB−方向)を介して筐体CS内のノードが接続されることを示す情報(筐体内接続)とを含む。
例えば、筐体CSAに搭載される各ノードA11−A34は、図5に示すように、X+方向で各ノードB11−B34に接続され、X−方向に接続されるノードはない。このため、X+方向の接続を示す領域に”あり”を示す情報が記憶され、X−方向の接続を示す領域に”なし”を示す情報が記憶される。例えば、図6に示すネットワークインタフェースNIは、X+方向に対応するポートPTX+から異常を示す情報を受信した場合、構成表CNFG内の”あり”に基づいて、受信した情報を制御インタフェースCIFに通知する。また、ネットワークインタフェースNIは、X+方向に対応するポートPTX+から異常を示す情報を受信した場合、構成表CNFG内の”筐体内接続”の”B+、B−”に基づいて、受信した情報をポートPTB+、PTB−に通知する。一方、例えば、ネットワークインタフェースNIは、X−方向に対応するポートPTX−から異常を示す情報を受信した場合、構成表CNFG内の”なし”に基づいて、受信した情報を無視する。
同様に、筐体CSBに搭載される各ノードB11−B34は、X+方向で各ノードC11−C34に接続され、X−方向で各ノードA11−A34に接続される。このため、X+方向の接続を示す領域およびX−方向の接続を示す領域に”あり” を示す情報が記憶される。筐体CSCに搭載される各ノードC11−C34の構成表CNFGも、各ノードB11−B34の構成表CNFGと同様である。
筐体CSDに搭載される各ノードD11−D34は、X+方向に接続されるノードはなく、X−方向で各ノードC11−C34に接続される。このため、X+方向の接続を示す領域に”なし” を示す情報が記憶され、X−方向の接続を示す領域に”あり” を示す情報が記憶される。なお、図7に示す構成表CNFGは、レジスタ等の記憶部にテーブルとして記憶されてもよく、論理回路(すなわち、ハードウェア)により設計されてもよい。
図8は、図4に示す制御部CNTB1の例を示す。図4に示す制御部CNTA1−CNTA3、CNTB2−CNTB3、CNTC1−CNTC3、CNTD1−CNTD3は、制御部CNTB1と同一または同様の構成を有する。
制御部CNTB1は、バスインタフェースBIF、デコーダ部DEC、マスク情報保持部MBIT−、MBIT+、マスク部MSK、レジスタ部REGU、集約部SUMおよび電源制御部PCNTを有する。バスインタフェースBIFは、制御バスCBUSを介して、ノードB11、B12、B13、B14から伝送される異常を示す情報を受信する。バスインタフェースBIFは、制御部CNTB1内で生成された情報をノードB11、B12、B13、B14に送信する機能を有してもよい。
例えば、ノードB11から伝送される異常を示す情報は、ノードB11のX軸(X+方向またはX−方向)との通信の遮断を示す情報を含む。あるいは、ノードB11から伝送される異常を示す情報は、B軸を介してノードB11に接続されるノードB21またはノードB31のX軸(X+方向またはX−方向)との通信の遮断を示す情報を含む。ノードB11、B12、B13、B14から伝送される異常を示す情報は、例えば、割り込み要求としてバスインタフェースBIFに伝達される。割り込み要求は、パケットとして伝送されてもよく、ノードB11、B12、B13、B14毎に割り当てられた専用線(制御バスCBUSに含まれる)を用いて伝送されてもよい。
デコーダ部DECは、バスインタフェースBIFで受けたノードB11、B12、B13、B14からの割り込み要求を解読する。そして、デコーダ部DECは、接続の異常を示すノード(B11−B14、B21−B24、B31−B34のいずれか)と、接続の異常を示すX軸の方向(X+方向またはX−方向)とを特定する。デコーダ部DECは、特定した情報を、例えば、ビット値としてマスク部MSKに出力する。ビット値の例は、図9で説明する。
マスク情報保持部MBIT−、MBIT+は、レジスタ部REGUが保持した接続状態情報をマスクするマスク情報を保持する。例えば、マスク情報保持部MBIT−は、筐体CSB、CSAが共通の冷却装置CDUを使用するか否かの情報を記憶する。マスク情報保持部MBIT+は、筐体CSB、CSCが共通の冷却装置CDUを使用するか否かの情報を記憶する。例えば、マスク情報保持部MBIT−、MBIT+は、ラッチ回路またはレジスタであり、情報処理システムSYS2の起動時に設定される。
マスク部MSKは、筐体CSB、CSAが共通の冷却装置CDUを使用することを示す情報がマスク情報保持部MBIT−に記憶される場合、デコーダ部DECから出力される筐体CSAに対応するビット値をレジスタ部REGUに設定する。マスク部MSKは、筐体CSB、CSAが共通の冷却装置CDUを使用しないことを示す情報がマスク情報保持部MBIT−に記憶される場合、デコーダ部DECから出力される筐体CSAに対応するビット値のレジスタ部REGUへの設定をマスクする。
また、マスク部MSKは、筐体CSB、CSCが共通の冷却装置CDUを使用することを示す情報がマスク情報保持部MBIT+に記憶される場合、デコーダ部DECから出力される筐体CSCに対応するビット値をレジスタ部REGUに設定する。マスク部MSKは、筐体CSB、CSCが共通の冷却装置CDUを使用しないことを示す情報がマスク情報保持部MBIT+に記憶される場合、デコーダ部DECから出力される筐体CSCに対応するビット値のレジスタ部REGUへの設定をマスクする。
すなわち、マスク情報保持部MBIT−は、筐体CSB、CSAが所定の影響を受ける影響範囲に属する場合(共通の条件で運用される場合)、レジスタ部REGUの設定を許可する許可情報を記憶する。また、マスク情報保持部MBIT−は、筐体CSB、CSAが所定の影響を受ける影響範囲に属さない場合(異なる条件で運用される場合)、レジスタ部REGUの設定を禁止するマスク情報を記憶する。同様に、マスク情報保持部MBIT+は、筐体CSB、CSCが所定の影響を受ける影響範囲に属する場合、レジスタ部REGUの設定する許可情報を記憶する。マスク情報保持部MBIT+は、筐体CSB、CSCが所定の影響を受ける影響範囲に属さない場合、レジスタ部REGUの設定を禁止するマスク情報を記憶する。
レジスタ部REGUは、筐体CSBに搭載されるノードB11−B14、B21−B24、B31−B34のそれぞれについて、X+方向およびX−方向の通信経路の接続状態を示す接続状態情報を保持する複数のレジスタREGを有する。すなわち、レジスタ部REGUは、情報処理装置IPEB1に搭載されるノードB11−B14に対応するレジスタREGを有する。また、レジスタ部REGUは、制御部CNTB1が搭載されない情報処理装置IPEB2、IPEB3に搭載されるB21−B24、B31−B34に対応するレジスタREGとを有する。そして、デコーダ部DECにより特定されたレジスタREGであって、マスク部MSKにより許可されたレジスタREGがセットされる。各レジスタに設定された値は、集約部SUMに出力される。レジスタ部REGUは、検出部DETが検出する所定の影響を受ける影響範囲に属する対象筐体CSAに接続された対象通信経路の接続状態を示す接続状態情報を保持する保持部の一例である。
集約部SUMは、レジスタREGUのX+方向に対応するレジスタREGがセットされたことを検出した場合、オフ信号POFFを出力し、またはX−方向に対応するレジスタREGがセットされたことを検出した場合、オフ信号POFFを出力する。集約部SUMの例は、図9に示す。
電源制御部PCNTは、オフ信号POFFに基づいて、電源装置PSB1から出力される電源を遮断する遮断信号PSB1offを出力する。すなわち、遮断信号PSB1offに基づいて、制御部CNTB1とともに情報処理装置IPEB1に搭載されたノードNB11、NB12、NB13、NB14に供給される電源が遮断される。集約部SUMおよび電源制御部PCNTは、ノードNB11、NB12、NB13、NB14の電源を制御する制御部の一例である。
この実施形態では、ノードA11、A21、A31(図5)のように、X−方向に接続されるノードがない場合、マスク情報保持部MBIT−にマスク情報(論理0)が設定される。これにより、X−方向に対応するレジスタREGがセットされることをマスクすることができる。また、マスク情報保持部MBIT−、MBIT+に記憶される値に基づいて、マスク部MSKによりデコーダ部DECから出力されるビット値をレジスタREGに設定するか否かが決定される。このため、マスク情報保持部MBIT−、MBIT+の書き替えにより、マスク部MSKによるレジスタREGのセットのマスク機能を有効または無効にすることができる。この結果、制御部CNTA1−CNTA3、CNTB1−CNTB3、CNTC1−CNTC3、CNTD1−CNTD3を共通の仕様で設計することができる。さらに、マスク部MSKによるマスク機能により、デコーダ部DECが誤動作した場合にも、レジスタREGがセットされることはなく、オフ信号POFFが誤って出力されることはない。
図9は、図8に示すマスク部MSK、レジスタ部REGUおよび集約部SUMの例を示す。なお、図9では、説明を分かりやすくするために、デコーダ部DEC、マスク部MSKおよびレジスタ部REGUは分割して示される。
図9の左側のデコーダ部DEC、マスク部MSKおよびレジスタ部REGUは、X−方向に接続されるノード(この例では、筐体CSAのノードA11−A14、A21−A24、A31−A34)との間の通信の遮断に対する制御に使用される。図9の右側のデコーダ部DEC、マスク部MSKおよびレジスタ部REGUは、X+方向に接続されるノード(この例では、筐体CSCのノードC11−C14、C21−C24、C31−C34)との間の通信の遮断に対する制御に使用される。
図9の左側において、デコーダ部DECは、例えば、ノードB11のX−方向の接続の異常を特定した場合、ビットB11X−をアクティブレベル(この例では論理1)に設定する。例えば、ノードB11のX−方向の接続の異常は、ノードA11との間で通信が遮断された場合に特定される。
同様に、デコーダ部DECは、各ノードB12、B13、B14のX−方向の接続の異常を特定した場合、各ビットB12X−、B13X−、B14X−をアクティブレベル(この例では論理1)に設定する。デコーダ部DECは、各ノードB21、B22、B23、B24のX−方向の接続の異常を特定した場合、各ビットB21X−、B22X−、B23X−、B24X−をアクティブレベル(この例では論理1)に設定する。デコーダ部DECは、各ノードB31、B32、B33、B34のX−方向の接続の異常を特定した場合、各ビットB31X−、B32X−、B33X−、B34X−をアクティブレベル(この例では論理1)に設定する。
図9の左側に示すマスク部MSKは、各ビットB11X−、B12X−、...、B34X−の値と、マスク情報保持部MBIT−が記憶する値とをそれぞれ受ける複数のアンド回路ANDを有する。この例では、制御部CNTB1を搭載する筐体CSBのX−方向は、筐体CSBと冷却装置CDU1を共有する筐体CSAのノードA11−A34が接続される。このため、マスク情報保持部MBIT−は、デコーダ部DECの出力のレジスタ部REGUへの転送の許可を示す論理1に設定される。図9の左側に示すマスク部MSKの各アンド回路ANDは、各ビットB11X−、B12X−、...、B34X−の値を、マスクすることなくレジスタ部REGUに出力する。図9の左側に示すマスク部MSKが受ける各ビットB11X−、B12X−、...、B34X−は、筐体CSBとともに冷却系を共有する筐体CSAのノードA11−A34との通信経路の接続状態を示す。すなわち、筐体CSBとともに冷却系の影響を受ける影響範囲に属する対象筐体CSAが内蔵する対象情報処理装置IPEAに対応するマスク情報保持部MBIT−は、マスク部MSK(左側)に接続状態情報をマスクさせないマスク情報(論理1)を保持する。
図9の右側に示すデコーダ部DECは、図9の左側に示すデコーダ部DECと同様に動作する。すなわち、図9の右側に示すデコーダ部DECは、各ノードB11、B12、B13、B14のX+方向の接続の異常を特定した場合、各ビットB11X+、B12X+、B13X+、B14X+をアクティブレベル(この例では論理1)に設定する。例えば、ノードB11のX+方向の接続の異常は、ノードC11との間で通信が遮断された場合に特定される。
デコーダ部DECは、各ノードB21、B22、B23、B24のX+方向の接続の異常を特定した場合、各ビットB21X+、B22X+、B23X+、B24X+をアクティブレベル(この例では論理1)に設定する。デコーダ部DECは、各ノードB31、B32、B33、B34のX+方向の接続の異常を特定した場合、各ビットB31X+、B32X+、B33X+、B34X+をアクティブレベル(この例では論理1)に設定する。
図9の右側に示すマスク部MSKは、図9の左側に示すマスク部MSKと同様に、各ビットB11X+、B12X+、...、B34X+の値とマスク情報保持部MBIT+が記憶する値とをそれぞれ受ける複数のアンド回路ANDを有する。この例では、制御部CNTB1を搭載する筐体CSBのX+方向は、筐体CSBが使用する冷却装置CDU1を共有しない筐体CSCのノードC11−C34が接続される。このため、マスク情報保持部MBIT+は、デコーダ部DECの出力のレジスタ部REGUへの転送の禁止を示す論理0に設定される。図9の右側に示すマスク部MSKの各アンド回路ANDは、各ビットB11X−、B12X−、...、B34X−の値がレジスタ部REGUに出力されることをマスクする。図9の右側に示すマスク部MSKが受ける各B11X+、B12X+、...、B34X+は、筐体CSBとともに冷却系を共有しない筐体CSCのノードC11−C34との通信経路の接続状態を示す。すなわち、筐体CSBとともに冷却系の影響を受ける影響範囲に属さない非対象筐体CSCが内蔵する非対象情報処理装置IPECに対応するマスク情報保持部MBIT+は、マスク部MSK(右側)に接続状態情報をマスクさせるマスク情報(論理0)を保持する。
レジスタ部REGUの各レジスタREGは、マスク部MSKを介してデコーダ部DECから受けるビット値を保持し、保持した値を集約部SUMに出力する。例えば、制御部CNTB1は、筐体CSA、CSB、CSC、CSDを管理する管理装置等が発行するレジスタ部REGUのリセットの指示に基づいて、各レジスタREGを論理0にリセットする。管理装置等は、情報処理システムSYS2を起動する場合、制御部CNTB1、CNTB2、CNTB3のレジスタ部REGUのリセットを指示する。また、管理装置等は、筐体CSAに供給される電源が遮断状態から復帰し、筐体CSAの各ノードと筐体CSBの各ノードとが正常に接続された場合、制御部CNTB1、CNTB2、CNTB3のレジスタ部REGUのリセットを指示する。図9は、各レジスタREGがリセットされた状態を示す。
集約部SUMは、図9の左側に示すレジスタREGの出力を受けるアンド回路ANDLと図9の右側に示すレジスタREGの出力を受けるアンド回路ANDRと、アンド回路ANDL、ANDRの出力を受け、オフ信号POFFを出力するオア回路ORとを有する。集約部SUMは、図9の左側に示す全てのレジスタREGの出力が論理1にセットされた場合、または、図9の右側に示す全てのレジスタREGの出力が論理1にセットされた場合、オフ信号POFFをアクティブレベル(この例では、論理1)に設定する。
なお、図9は、制御部CNTB1の例を示すが、他の制御部CNTB2、CNTB3、CNTA1−CNTA3、CNTC−CNTC3、CNTD1−CNTD3は、図9と同様の構成を有する。制御部CNTB2、CNTB3において、デコーダ部DECから出力される各ビットB11X−、B12X−、...、B34X−、B11X+、B12X+、...、B34X+は、制御部CNTB1と同じである。また、制御部CNTB2、CNTB3において、マスク情報保持部MBIT−、MBIT+のそれぞれに設定される論理は、制御部CNTB1と同じである。なお、制御部CNTB1、CNTB2、CNTB3のマスク情報保持部MBIT+は、論理0に設定されるため、図9の右側に示すレジスタREGは、セットされない。このため、オフ信号POFFが、図9の右側に示すレジスタREGのセットに基づいてセットされることはない。
図5に示すように、ノードA11−A14、A21−A24、A31−A34のX軸のX−方向は、他のノードに接続されない。このため、制御部CNTA1−CNTA3において、マスク情報保持部MBIT−は、マスクを示す論理0に設定される。ノードA11−A14、A21−A24、A31−A34のX軸のX+方向は、冷却装置CDU1を共有するノードB11−B14、B21−B24、B31−B34に接続される。このため、制御部CNTA1−CNTA3において、マスク情報保持部MBIT+は、マスクを禁止する論理1に設定される。例えば、制御部CNTA1−CNTA3のデコーダ部DECは、各ビットB11X−、B12X−、...、B34X−、B11X+、B12X+、...、B34X+の先頭の符号を”B”から”A”に置き換えたビットを出力する。
図4および図5に示すように、筐体CSCのノードC11−C14、C21−C24、C31−C34のX軸のX−方向は、冷却装置CDU1を共有しない筐体CSBのノードB11−B14、B21−B24、B31−B34に接続される。このため、制御部CNTC1−CNTC3において、マスク情報保持部MBIT−は、マスクを示す論理0に設定される。ノードC11−C14、C21−C24、C31−C34のX軸のX+方向は、冷却装置CDU2を共有するノードD11−D14、D21−D24、D31−D34に接続される。このため、制御部CNTC1−CNTC3において、マスク情報保持部MBIT+は、マスクを禁止する論理1に設定される。例えば、制御部CNTC1−CNTC3のデコーダ部DECは、各ビットB11X−、B12X−、...、B34X−、B11X+、B12X+、...、B34X+の先頭の符号を”B”から”C”に置き換えたビットを出力する。
図4および図5に示すように、筐体CSDのノードD11−D14、D21−D24、D31−D34のX軸のX−方向は、冷却装置CDU2を共有するノードC11−C14、C21−C24、C31−C34に接続される。このため、制御部CNTD1−CNTD3において、マスク情報保持部MBIT−は、マスクを禁止する論理1に設定される。ノードD11−D14、D21−D24、D31−D34のX軸のX+方向は、他のノードに接続されない。このため、制御部CNTD1−CNTD3において、マスク情報保持部MBIT+は、マスクを示す論理0に設定される。例えば、制御部CNTD1−CNTD3のデコーダ部DECは、各ビットB11X−、B12X−、...、B34X−、B11X+、B12X+、...、B34X+の先頭の符号を”B”から”D”に置き換えたビットを出力する。
図10は、図4に示す情報処理システムSYS2の動作の例を示す。この例では、ノードA11の異常により、ノードA11、B11間の通信(すなわち、接続)が遮断される(図10のX印)。図中の太い矢印は、制御部CNTB1、CNTB2、CNTB3への割り込み要求およびノードB21、B31への通信の遮断の通知を示す。
ノードB11のポートPTX−は、X−方向の通信の遮断を検出し、通信の遮断を示す情報をネットワークインタフェースNIに通知する。ネットワークインタフェースNIは、図7に示す構成表CNFGを参照し、X−方向に他のノードが接続中であることを認識し、X−方向の通信の遮断を示す割り込み要求を、制御部CNTB1に出力する(図10(a))。また、ネットワークインタフェースNIは、構成表CNFGを参照し、X−方向の通信の遮断を、B+方向およびB−方向にそれぞれ接続されたノードB21、B31に通知する(図10(b)、(c))。
ノードB21のネットワークインタフェースNIは、構成表CNFGを参照し、X−方向に他のノードが接続中であることを認識し、他のノードB11のX−方向の通信の遮断を示す割り込み要求を、制御部CNTB2に出力する(図10(d))。ノードB31のネットワークインタフェースNIは、構成表CNFGを参照し、X−方向に他のノードが接続中であることを認識し、他のノードB11のX−方向の通信の遮断を示す割り込み要求を、制御部CNTB3に出力する(図10(e))。
制御部CNTB1は、ノードB11からの割り込み要求に応答して、割り込み要因をノードB11から読み出す。制御部CNTB1は、ノードB11のX−方向の通信が遮断されたことを示す割り込み要因をノードB11から受信し、レジスタ部REGUにおける割り込み要因に対応するレジスタREGを論理1にセットする。(図10(f))。
制御部CNTB2は、ノードB21からの割り込み要求に応答して、割り込み要因をノードB21から読み出す。そして、制御部CNTB1と同様に、レジスタ部REGUにおける割り込み要因に対応するレジスタREGを論理1にセットする。(図10(g))。同様に、制御部CNTB3は、ノードB31からの割り込み要求に応答して、割り込み要因をノードB31から読み出し、レジスタ部REGUにおける割り込み要因に対応するレジスタREGを論理1にセットする。(図10(h))。
しかしながら、X−方向に割り当てられたレジスタREGがセットされないため、制御部CNTB1の集約部SUM(図8)は、オフ信号POFFを出力しない。このため、制御部CNTB1とともに情報処理装置IPEB1に搭載されるノードB11、B12、B13、B14の電源は遮断されない。
図11は、図4に示す情報処理システムSYS2の動作の別の例を示す。図10と同様の動作については、詳細な説明は省略する。この例では、ノードA11、A21、A31の異常により、ノードA11、B11間、ノードA21、B21間およびノードA31、B31間の通信が遮断される(図11の3つのX印)。図11に示す符号(a)−(h)は、図10に示す符号(a)−(h)と同じ動作を示す。
ノードB11のネットワークインタフェースNIは、ノードB21のX−方向との通信の遮断を示す通知をポートPTB+を介して受ける(図11(i))。また、ノードB11のネットワークインタフェースNIは、ノードB31のX−方向との通信の遮断を示す通知をポートPTB−を介して受ける(図11(j))。そして、ノードB11のネットワークインタフェースNIは、図10に示す動作に加えて、ノードB21のX−方向とノードB31のX−方向との通信の遮断を示す割り込み要求を、制御部CNTB1に出力する(図11(k)、(l))。
制御部CNTB1は、ノードB11からの割り込み要求に応答して、ノードB11、B21、B31のX−方向との通信が遮断されたことを示す割り込み要因をノードB11から受信する。制御部CNTB1は、割り込み要因に対応するレジスタREGを論理1にセットする(図11(f)、(m)、(n))。
ノードB21のネットワークインタフェースNIは、X−方向との通信が遮断されたことを示す通知をポートPTX−から受ける。また、ノードB21のネットワークインタフェースNIは、ノードB31のX−方向との通信が遮断されたことを示す通知をポートPTB+を介して受ける(図11(o))。そして、ノードB21のネットワークインタフェースNIは、図10に示す動作に加えて、ノードB21のX−方向とノードB31のX−方向との通信の遮断を示す割り込み要求を、制御部CNTB2に出力する(図11(p)、(q))。
制御部CNTB2は、ノードB21からの割り込み要求に応答して、ノードB11、B21、B31のX−方向との通信が遮断されたことを示す割り込み要因をノードB21から受信する。制御部CNTB2は、割り込み要因に対応するレジスタREGを論理1にセットする(図11(g)、(r)、(s))。
ノードB31のネットワークインタフェースNIは、X−方向との通信が遮断されたことを示す通知をポートPTX−から受ける。また、ノードB31のネットワークインタフェースNIは、ノードB21のX−方向との通信が遮断されたことを示す通知をポートPTB−を介して受ける(図11(t))。そして、ノードB31のネットワークインタフェースNIは、図10に示す動作に加えて、ノードB31のX−方向とノードB21のX−方向との通信の遮断を示す割り込み要求を、制御部CNTB3に出力する(図11(u)、(v))。
制御部CNTB3は、ノードB31からの割り込み要求に応答して、ノードB11、B21、B31のX−方向との通信が遮断されたことを示す割り込み要因をノードB31から受信する。制御部CNTB3は、割り込み要因に対応するレジスタREGを論理1にセットする(図11(h)、(w)、(x))。
図11に示す状態では、各制御部CNTB1、CNTB2、CNTB3は、X−方向に割り当てられたレジスタREGをセットしないため、各集約部SUM(図8)は、オフ信号POFFを出力しない。このため、情報処理装置IPEB1、IPEB2、IPEB3のそれぞれに搭載されるノードB11−B14、B21−B24、B31−B34の電源は遮断されない。
図12は、図4に示す情報処理システムSYS2の動作のさらなる別の例を示す。図10と同様の動作については、詳細な説明は省略する。この例では、図4に示す結露センサS1が筐体CSA内で発生した結露を検出し、各制御部CNTA1、CNTA2、CNTA3のそれぞれは、結露の検出に基づいて電源装置PSA1から供給される電源を遮断する。これにより、筐体CSAに搭載されるノードA11−A14、A21−A24、A31−A34の通信は遮断される(図12のX印)。
ノードB11、B21、B31の動作は、図11と同様である。ノードB12−B14は、図11に示すノードB11と同様に動作し、ノードB22−B24は、図11に示すノードB21と同様に動作し、ノードB32−B34は、図11に示すノードB31と同様に動作する。
制御部CNTB1は、図11と同様に、ノードB11からの割り込み要求に応答して、ノードB11、B21、B31のX−方向との通信が遮断されたことを示す割り込み要因をノードB11から受信する。さらに、制御部CNTB1は、ノードB12からの割り込み要求に応答して、ノードB12、B22、B32のX−方向との通信が遮断されたことを示す割り込み要因をノードB12から受信する。制御部CNTB1は、ノードB13からの割り込み要求に応答して、ノードB13、B23、B33のX−方向との通信が遮断されたことを示す割り込み要因をノードB13から受信する。制御部CNTB1は、ノードB14からの割り込み要求に応答して、ノードB14、B24、B34のX−方向との通信が遮断されたことを示す割り込み要因をノードB14から受信する。
制御部CNTB1は、割り込み要因に対応するレジスタREGを論理1にセットする。すなわち、制御部CNTB1のレジスタ部REGUにおけるX−方向が割り当てられたレジスタREGが論理1にセットされ、制御部CNTB1は、遮断信号PSB1offを出力する。これにより、情報処理装置IPEB1に搭載されるノードB11−B14の電源が遮断される。
各制御部CNTB2、CNTB3は、制御部CNTB1と同様に動作し、レジスタ部REGUにおけるX−方向が割り当てられたレジスタREGを論理1にセットする。これにより、情報処理装置IPEB2に搭載されるノードB21−B24の電源を遮断する遮断信号PSB2offが出力され、情報処理装置IPEB3に搭載されるノードB31−B34の電源を遮断する遮断信号PSB3offが出力される。
図12に示すように、結露等により筐体CSA内のノードA11−A34との通信経路が遮断された場合、筐体CSAと冷却装置CDU1を共有する筐体CSB内のノードB11−B34の電源が遮断される。この際、筐体CSA、CSBを管理する管理装置等を介することなく、ノードB11−B34の電源が遮断可能なため、管理装置等を介する場合に比べて、ノードB11−B34の電源を迅速に遮断することができる。
なお、筐体CSB内のノードB11−B34の電源は、冷却装置CDU1を共有する筐体CSA内の全てのノードA11−A34との通信経路が遮断された場合に限定されず、所定数のノードAとの通信経路が遮断された場合に遮断されてもよい。この場合、例えば、筐体CSB内の情報処理装置IPEBが所定の影響を受ける影響範囲に属する筐体CSAが内蔵する情報処理装置IPEAは、所定数のノードAを含む情報処理装置IPEAである。
また、筐体CSB内の情報処理装置IPEB1、IPEB2、IPEB3間で、各情報処理装置IPEB1、IPEB2、IPEB3のノードB11−B34に発生した通信の遮断を、相互に通知する。これにより、情報処理装置IPEB1、IPEB2、IPEB3毎に、筐体CSA内のノードA11−A34の電源が遮断されたことを検出することができ、各情報処理装置IPEB1、IPEB2、IPEB3のノード用の電源を遮断することができる。
図13は、図4に示す情報処理システムSYS2の動作のさらなる別の例を示す。図10および図12と同様の動作については、詳細な説明は省略する。この例では、図11と同様に、ノードA11、A21、A31の異常により、ノードA11、B11間、ノードA21、B21間およびノードA31、B31間の通信が遮断される(図13のX−方向の3つのX印)。また、図4に示す結露センサS3が筐体CSC内で発生した結露を検出し、各制御部CNTC1、CNTC2、CNTC3のそれぞれは、結露の検出に基づいて電源装置PSC1から供給される電源を遮断する。これにより、筐体CSCに搭載されるノードC11−C14、C21−C24、C31−C34の通信は遮断される(図13のX+方向のX印)。
制御部CNTB1、CNTB2、CNTB3は、ノードA11、A21、A31の通信の遮断に基づいて、図11と同様に、ノードB11、B21、B31のX−方向に対応するレジスタREGをセットする。また、制御部CNTB1、CNTB2、CNTB3は、割り込み要求に基づいて、X軸のX+方向に接続されたノードC11−C14、C21−C24、C31−C34の通信の遮断を検出する。しかし、図9の右側に示すマスク部MSKは、マスク情報保持部MBIT+に設定された論理0により、各ビットB11X+、B12X+、...、B34X+のレジスタREGへの入力がマスクされる。このため、図9の右側に示すレジスタ部REGUのレジスタREGはセットされず、オフ信号POFFは出力されない。
このように、冷却装置CDU1を共有しない筐体CSC内のノードC11−C34の電源が遮断された場合、マスク部MSKによりレジスタのセットが禁止される。例えば、冷却装置CDU2によるクーラントの過剰な冷却により、筐体CSC内に結露が発生する場合にも、冷却装置CDU1により冷却される筐体CSB内に結露は発生しない。このように、筐体CSBと異なる条件で運用される筐体CSCのノードC11−C34の電源が遮断された場合、筐体CSB内のノードB11−B34の電源が、誤って遮断されることはない。したがって、情報処理システムSYS2の性能が、電源の誤った遮断により低下することはない。なお、筐体CSC内のノードC11−C34の電源が遮断された場合、例えば、筐体CSA、CSB、CSC、CSDを管理する管理装置等は、ノードC11−C34の通信が遮断された原因を調べ、ノードB11−B34の電源の遮断を判断する。
図14は、図4に示す各ノードA11−A34、B1−B34、C11−C34、D11−D34の動作の例を示す。以下では、図10に示すノードB11、B21の動作を例に説明する。なお、図14に示す動作は、各ノードのインタフェースチップIFC(ハードウェア)により実現されるが、各ノードに搭載されるプロセッサPROCがプログラムを実行することで実現されてもよい。
ステップS102において、ノードB11は、ポートPTX−、PTX+の検出部DETを用いて、X軸のX−方向、X+方向の通信経路のそれぞれに接続されたノードA11、C11の通信が遮断されたか否かを検出する。ノードB21は、ポートPTX−、PTX+の検出部DETを用いて、X軸のX−方向、X+方向の通信経路のそれぞれに接続されたノードA21、C21の通信が遮断されたか否かを検出する。通信の遮断が検出された場合、動作はステップS104に移行され、通信の遮断が検出されない場合、動作はステップS110に移行される。
ステップS104において、各ノードB11、B21は、通信の遮断を検出したノード(自分自身)を示す情報と、通信の遮断が検出されたノードを示す情報(例えば、X−方向、X+方向のいずれか)とを割り込み要因として保持する。
次に、ステップS106において、ノードB11は、制御部CNTB1に割り込み要求を発行し、ノードB21は、制御部CNTB2に割り込み要求を発行する。
次に、ステップS108において、ノードB11は、筐体CSB内の他の情報処理装置IPEB2、IPEB3に搭載され、ノードB11に接続されるノードB21、B31に、ノードA11の通信の遮断を通知する。ノードB21は、筐体CSB内の他の情報処理装置IPEB3、IPEB1に搭載され、ノードB21に接続されるノードB31、B11に、ノードA21の通信の遮断を通知する。すなわち、X−方向またはX+方向に接続されるノードとの通信の遮断が、B−方向およびB+方向に接続されるノードに通知される。この後、動作はステップS110に移行される。
ステップS110において、ノードB11は、筐体CSB内の他の情報処理装置IPEB2、IPEB3に搭載され、ノードB11に接続されるノードB21、B31から通信の遮断の通知があるか否かを判定する。ノードB21は、筐体CSB内の他の情報処理装置IPEB3、IPEB1に搭載され、ノードB21に接続されるノードB31、B11から通信の遮断の通知があるか否かを判定する。他の情報処理装置IPEB3、IPEB1から通信の遮断の通知がある場合、動作はステップS112に移行され、他の情報処理装置IPEB3、IPEB1から通信の遮断の通知がない場合、動作はステップS102に戻る。
ステップS112において、各ノードB11、B21は、通信の遮断を通知したノードを示す情報と、通信が遮断されたノードを示す情報(例えば、X−方向、X+方向のいずれか)とを割り込み要因として保持する。
次に、ステップS114において、ノードB11は、制御部CNTB1に割り込み要求を発行し、ノードB21は、制御部CNTB2に割り込み要求を発行する。この後、動作はステップS102に戻り、上述した動作が繰り返される。
図15は、図4に示す制御部CNTA、CNTB、CNTC、CNTDの動作の例を示す。以下では、図8に示す制御部CNTB1の動作を例に説明する。なお、図15に示す動作は、制御部CNTB1(ハードウェア)により実現されるが、制御部CNTB1がCPU等のプロセッサを含む場合、プロセッサがプログラムを実行することで実現されてもよい。
ステップS202において、制御部CNTB1は、割り込み要求が発行されたか否かを検出する。例えば、ステップS202は、図8に示すバスインタフェースBIFの動作を示す。割り込み要求が発行された場合、動作はステップS204に移行され、割り込み要求が発行されない場合、動作はステップS202を繰り返す。
ステップS204において、制御部CNTB1は、割り込み要求を発行したノードから割り込み要因を読み出す。
次に、ステップS206において、制御部CNTB1は、割り込み要因で示される通信が遮断されたノードが、制御部CNTB1が搭載される筐体CSBとともに冷却装置CDU1を共用するか否かを判断する。すなわち、制御部CNTB1は、制御部CNTB1が搭載される筐体CSBと同じ運用条件で動作するノードの通信が遮断されたか否かを判定する。例えば、ステップS206は、図8に示すマスク部MSKの動作を示す。同じ運用条件で動作するノードとの通信が遮断された場合、動作はステップS208に移行され、異なる運用条件で動作するノードとの通信が遮断された場合、動作はステップS210に移行される。
ステップS208において、制御部CNTB1は、通信が遮断されたノードに対応するレジスタREGをセットする。例えば、ステップS208は、図8に示すデコーダ部DECおよびレジスタ部REGUの動作を示す。
次に、ステップS210において、制御部CNTB1は、レジスタREGの値に基づいて、筐体CSBとともに冷却装置CDU1を共用する筐体CSA内のノードA11−A34の通信が遮断されたか否かを判定する。すなわち、同じ条件で運用中の筐体の全てのノードの通信が遮断されたか否かが判定される。例えば、ステップS210は、図8に示す集約部SUMの動作を示す。同じ条件で運用中の筐体の全てノードとの通信が遮断された場合、動作はステップS212に移行され、同じ条件で運用中の筐体のいずれかのノードの通信が可能な場合、動作はステップS202に戻り、上述した動作が繰り返される。なお、ステップS210では、同じ条件で運用中の筐体の所定数(例えば、50%あるいは80%など)のノードの通信が遮断されたか否かが判定されてもよい。
ステップS212において、制御部CNTB1は、制御部CNTB1とともに情報処理装置IPEB1に搭載されるノードB11−B14に供給される電源を遮断する。例えば、ステップS212は、図8に示す電源制御部PCNTの動作を示す。制御部CNTB1が、筐体CSA内のノードA11−A34との通信が遮断されたことを検出した場合、図12に示すように、筐体CSB内の他の制御部CNTB2、CNTB3も、ノードA11−A34との通信が遮断されたことを検出する。このため、制御部CNTB2は、情報処理装置IPEB2に搭載されるノードB21−B24に供給される電源を遮断し、制御部CNTB3は、情報処理装置IPEB3に搭載されるノードB31−B34に供給される電源を遮断する。すなわち、筐体CSA内のノードA11−A34との通信が遮断されたことに基づいて、筐体CSB内のノードB11−B34に供給される電源が遮断される。
以上、図4から図15に示す実施形態においても、図1から図3に示す実施形態と同様の効果を得ることができる。すなわち、異常状態が互いに影響する影響範囲に含まれる他筐体CSAの情報処理装置IPEAの電源PSの遮断を自筐体CSBの情報処理装置IPEBのそれぞれで検出し、電源PSを遮断することができる。各情報処理装置IPEBは、通信経路の接続断状態を互いに通知するため、異常状態が互いに影響する影響範囲に含まれる筐体CSAの情報処理装置IPEAの電源PSの遮断を検出することができる。筐体CSを管理する管理装置等を介することなく、他の筐体CSAで発生した異常に基づいて、情報処理装置IPEBの電源PSを遮断することができ、情報処理装置IPEBの電源PSを迅速に遮断することができる。情報処理装置IPEBは、異常状態が影響する不具合と異常状態が影響しない不具合とを区別して、電源PSを遮断するか否かを判定することができる。
さらに、図4から図15に示す実施形態では、冷却装置CDUを共用しない筐体CSCに対応するマスク情報保持部MBIT+にマスク部MSKの動作をマスクする値を設定する。これにより、筐体CSC内のノードC11−C34との通信が遮断された場合にも、オフ信号POFFの出力をマスクすることができ、ノードB11−B34の電源の遮断を禁止することができる。すなわち、筐体CSBと運用条件が異なる筐体CSCのノードC11−C34との通信が遮断された場合、ノードB11−B34の電源の誤った遮断をなくすことができる。
マスク情報保持部MBIT−、MBIT+に値を設定することで、ノードB11−B34の電源の遮断をマスクするか否かを決めることができる。このため、制御部CNTA1−CNTA3、CNTB1−CNTB3、CNTC1−CNTC3、CNTD1−CNTD3を共通の仕様で設計することができる。
図16は、情報処理システムおよび情報処理システムの制御方法の別の実施形態における制御部CNTB1の例を示す。図4から図9に示す実施形態で説明した要素と同一または同様の要素については、同一の符号を付し、これ等については、詳細な説明を省略する。
この実施形態の情報処理システムSYS3は、図4に示す制御部CNTB1の代わりに、制御部CNTB1aを有する。また、情報処理システムSYS3は、図4に示す制御部CNTA1−CNTA3、CNTB2−CNTB3、CNTC1−CNTC3、CNTD1−CNTD3の代わりに、制御部CNTB1aと同一または同様の機能を有する制御部を有する。情報処理システムSYS3のその他の構成は、図4と同一または同様である。
すなわち、情報処理システムSYS3は、図4と同様に、複数の筐体CS(CSA、CSB、CSC、CSD)、複数の電源装置PS(PSA1、PSA2、PSB1、PSB2、PSC1、PSC2、PSD1、PSD2)を有する。また、情報処理システムSYS3は、図4と同様に、筐体CSA、CSBを冷却する冷却装置CDU1と、筐体CSC、CSDを冷却する冷却装置CDU2とを有する。
制御部CNTB1aは、バスインタフェースBIF、デコーダ部DEC、レジスタ部REGU、集約部SUMaおよび電源制御部PCNTを有する。バスインタフェースBIF、デコーダ部DEC、レジスタ部REGUおよび電源制御部PCNTは、図8に示すインタフェースBIF、デコーダ部DEC、レジスタ部REGUおよび電源制御部PCNTと同一または同様である。すなわち、制御部CNTB1aは、図8に示す制御部CNTB1のマスク部MSKを有さず、図8に示す制御部CNTB1の集約部SUMの代わりに集約部SUMaを有する。集約部SUMaは、図8に示したマスク部MSKの機能を有する。
デコーダ部DECは、図8に示すデコーダ部DECと同様に、ノードB11、B12、B13、B14からの割り込み要求を解読し、接続の異常を示すノードと、接続の異常を示すX軸の方向(X+方向またはX−方向)とを特定する。ここで、接続の異常が特定されるノードは、制御部CNTB1aとともに筐体CSBに搭載されるノードB11−B14、B21−B24、B31−B34のいずれかである。なお、筐体CSBに搭載される他の制御部(図4のCNTB2、CNTB3に対応)のそれぞれも、ノードB11−B14、B21−B24、B31−B34の接続の異常を特定する。制御部CNTB1aは、特定した異常を示す情報を、例えば、ビット値としてレジスタ部REGUに出力する。
集約部SUMaは、レジスタREGUのX+方向に対応するレジスタREGがセットされたことを検出した場合、X+方向に対応するマスク情報に応じて、オフ信号POFFを出力する。また、集約部SUMaは、レジスタREGUのX−方向に対応するレジスタREGがセットされたことを検出した場合、X−方向に対応するマスク情報に応じて、オフ信号POFFを出力する。集約部SUMaの例は、図17に示す。
図17は、図16に示すレジスタ部REGUおよび集約部SUMaの例を示す。図9と同一または同様の要素については、同一の符号を付し、これ等については、詳細な説明を省略する。なお、図17では、説明を分かりやすくするために、図9と同様に、レジスタ部REGUとデコーダ部DECとは分割して示される。
図9と同様に、左側のデコーダ部DECおよびレジスタ部REGUは、X−方向に接続されるノード(この例では、筐体CSAのノードA11−A14、A21−A24、A31−A34)との間の通信の遮断に対する制御に使用される。右側のデコーダ部DECおよびレジスタ部REGUは、X+方向に接続されるノード(この例では、筐体CSCのノードC11−C14、C21−C24、C31−C34)との間の通信の遮断に対する制御に使用される。
集約部SUMaは、アンド回路ANDLa、ANDRaおよびオア回路ORを有する。アンド回路ANDLaは、図17の左側に示すレジスタREGの出力およびマスク情報保持部MBIT−に記憶された値を受ける。すなわち、アンド回路ANDLaは、マスク情報保持部MBIT−に記憶された値が論理1の場合であって、X−方向に対応する全てのレジスタREGが論理1を保持する場合、論理1を出力する。アンド回路ANDLaは、マスク情報保持部MBIT−に記憶された値が論理0の場合、論理0を出力する。
アンド回路ANDRaは、図17の右側に示すレジスタREGの出力およびマスク情報保持部MBIT+に記憶された値を受ける。すなわち、アンド回路ANDRaは、マスク情報保持部MBIT+に記憶された値が論理1の場合であって、X+方向に対応する全てのレジスタREGが論理1を保持する場合、論理1を出力する。アンド回路ANDRaは、マスク情報保持部MBIT+に記憶された値が論理0の場合、論理0を出力する。
これにより、図4に示すように、冷却装置CDU1を共用しない筐体CSCのノードC11−C34との通信が遮断される場合にも、制御部CNTB1aは、オフ信号POFFの出力をマスクする。したがって、図13と同様に、運用条件が異なる筐体CSCのノードC11−C34の電源が遮断された場合、ノードB11−B34の電源が、誤って遮断されることはなく、情報処理システムSYS2の性能が、電源の誤った遮断により低下することはない。
図17では、マスク情報保持部MBIT−に記憶された値をアンド回路ANDLaに入力し、あるいは、マスク情報保持部MBIT+に記憶される値をアンド回路ANDRaに入力することで、オフ信号POFFの出力がマスクされる。このため、図9に比べて、マスク情報保持部MBIT−、MBIT+に記憶された値が伝達される信号線の長さおよび分岐数を減らすことができ、制御部CNTB1の回路を簡易にすることができる。
アンド回路ANDLaは、マスク情報保持部MBIT−が論理0を記憶する場合、オフ信号POFFの出力を禁止し、ノードの電源の遮断をマスクするマスク部の一例である。アンド回路ANDRaは、マスク情報保持部MBIT+が論理0を記憶する場合、オフ信号POFFの出力を禁止し、ノードの電源の遮断をマスクするマスク部の一例である。
図18は、図16に示す制御部CNTB1aの動作の例を示す。図15と同一または同様の動作については、詳細な説明は省略する。ステップS302、S304、S308、S310、S312の動作は、図15に示すステップS202、S204、S208、S210、S212の動作と同一または同様である。
制御部CNTB1aは、ステップS304の後、ステップS308を実行する。また、制御部CNTB1aは、ステップS310とステップS312の間に、ステップS311を実行する。ステップS311では、制御部CNTB1aは、割り込み要因で示される通信が遮断されたノードが、制御部CNTB1aが搭載される筐体CSBとともに冷却装置CDU1を共用するか否かを判断する。ステップS311の動作は、図15に示すステップS206の動作と同様であるが、レジスタREGがセットされた後に実行される。すなわち、図18では、レジスタREGは、マスク情報保持部MBIT−(またはMBIT+)に記憶された値に拘わりなくセットされ、図17に示すオフ信号POFFの出力をマスクするか否かが、レジスタREGがセットされた後に判定される。なお、ステップS310では、同じ条件で運用中の筐体の所定数(例えば、50%あるいは80%など)のノードの通信が遮断されたか否かが判定されてもよい。
以上、図16から図18に示す実施形態においても、図1から図3に示す実施形態および図4から図15に示す実施形態と同様の効果を得ることができる。さらに、図16から図18に示す実施形態では、図9に比べて、マスク情報保持部MBIT−、MBIT+に記憶された値が伝達される信号線の長さおよび分岐数を減らすことができ、制御部CNTB1の回路を簡易にすることができる。
以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。
A11−A14、A21−A24、A31−A34…ノード;B11−B14、B21−B24、B31−B34…ノード;BIF…バスインタフェース;C11−C14、C21−C24、C31−C34…ノード;CBUS…制御バス;CDU1、CDU2…冷却装置;CIF…制御インタフェース;CM1−CM4…通信部;CNFG…構成表;CNTA1−CNTA3、CNTB1−CNTB3、CNTB1a、CNTC1−CNTC3、CNTD1−CNTD3…制御部;D11−D14、D21−D24、D31−D34…ノード;DEC…デコーダ部;DET、DET1−DET4…検出部;IFC…インタフェースチップ;IPE1−IPE4…情報処理装置;NI…ネットワークインタフェース;MBIT−、MBIT+…マスク情報保持部;MSK…マスク部;OFF1−OFF4…遮断部;P1−P4…冷却管;PCNT…電源制御部;PIF…プロセッサインタフェース;POFF…オフ信号;PROC…プロセッサ;PS1、PS2、PS3、PS4…電源;PSA1、PSA2、PSB1、PSB2、PSC1、PSC2、PSD1、PSD2…電源装置;PSB1off…遮断信号;PTB+、PTB−、PTX+、PTX−…ポート;CS1、CS2、CSA、CSB、CSC、CSD…筐体;REG、REG1−REG8…レジスタ;REGU…レジスタ部;S1−S4…結露センサ;SUM、SUMa…集約部;SW1−SW4…スイッチ;SYS1、SYS2、SYS3…情報処理システム;IPEA1−IPEA3、IPEB1−IPEB3、IPEC1−IPEC3、IPE1−IPE4…情報処理装置

Claims (8)

  1. 複数の他の筐体と、前記複数の他の筐体にそれぞれ内蔵された複数の他の情報処理装置の各々と通信経路を介してそれぞれ接続された複数の情報処理装置を内蔵する筐体とを有する情報処理システムにおいて、
    前記複数の情報処理装置の各々は、
    前記複数の他の筐体のうち、他の筐体が内蔵する複数の他の情報処理装置が全て停止した場合、自筐体が内蔵する複数の情報処理装置の全てが所定の影響を受ける影響範囲に属する対象筐体が内蔵する複数の対象情報処理装置との全ての対象通信経路の接続状態を検出する検出部と、
    前記検出部が検出する前記全ての対象通信経路の接続状態を示す接続状態情報を保持する保持部と、
    前記保持部が保持した接続状態情報に基づき、自装置の電源を制御する制御部を有することを特徴とする情報処理システム。
  2. 前記情報処理システムはさらに、
    前記筐体が内蔵する複数の情報処理装置を冷却する冷却装置を有し、
    前記影響範囲に属する対象筐体は、
    前記複数の他の筐体のうち、前記冷却装置がさらに冷却を行う他の筐体であることを特徴とする請求項1記載の情報処理システム。
  3. 前記情報処理システムはさらに、
    前記筐体と前記冷却装置との間、および、前記対象筐体と前記冷却装置との間が冷却管を介してそれぞれ接続されることを特徴とする請求項2記載の情報処理システム。
  4. 前記制御部は、
    前記保持部が保持した接続状態情報が、前記全ての対象通信経路が接続断状態であることを示す場合、自装置の電源を遮断することを特徴とする請求項1乃至3のいずれか1項に記載の情報処理システム。
  5. 前記複数の情報処理装置のそれぞれは、さらに、
    前記保持部が保持した接続状態情報をマスクするマスク情報を保持するマスク情報保持部と、
    前記マスク情報保持部が保持したマスク情報に基づき、前記保持部が保持した接続状態情報をマスクするマスク部を有し、
    前記制御部は、
    前記マスク部がマスクした後の接続状態情報に基づき、自装置の電源を制御することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理システム。
  6. 所定の影響を受ける影響範囲に属する対象筐体が内蔵する複数の対象情報処理装置に対応するマスク情報保持部は、前記マスク部に接続状態情報をマスクさせないマスク情報を保持し、
    所定の影響を受ける影響範囲に属さない非対象筐体が内蔵する複数の非対象情報処理装置に対応するマスク情報保持部は、前記マスク部に接続状態情報をマスクさせるマスク情報を保持することを特徴とする請求項5記載の情報処理システム。
  7. 前記情報処理システムはさらに、
    前記冷却装置が冷却を行う他の筐体の冷却の異常を検出するセンサを有し、
    他の筐体が内蔵する複数の他の情報処理装置は、前記センサが検出した異常に基づいて複数の他の情報処理装置のそれぞれの電源を遮断する制御部を有することを特徴とする請求項2に記載の情報処理システム。
  8. 複数の他の筐体と、前記複数の他の筐体にそれぞれ内蔵された複数の他の情報処理装置の各々と通信経路を介してそれぞれ接続された複数の情報処理装置を内蔵する筐体とを有する情報処理システムの制御方法において、
    前記複数の情報処理装置の各々が有する検出部が、前記複数の他の筐体のうち、他の筐体が内蔵する複数の他の情報処理装置が全て停止した場合、自筐体が内蔵する複数の情報処理装置の全てが所定の影響を受ける影響範囲に属する対象筐体が内蔵する複数の対象情報処理装置との全ての対象通信経路の接続状態を検出し、
    前記複数の情報処理装置の各々が有する保持部が、前記検出部が検出する前記全ての対象通信経路の接続状態を示す接続状態情報を保持し、
    前記複数の情報処理装置の各々が有する制御部が、前記保持部が保持した接続状態情報に基づき、自装置の電源を制御することを特徴とする情報処理システムの制御方法。
JP2014030682A 2014-02-20 2014-02-20 情報処理システムおよび情報処理システムの制御方法 Active JP6225742B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014030682A JP6225742B2 (ja) 2014-02-20 2014-02-20 情報処理システムおよび情報処理システムの制御方法
US14/564,864 US9465422B2 (en) 2014-02-20 2014-12-09 Information processing system and control method for information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014030682A JP6225742B2 (ja) 2014-02-20 2014-02-20 情報処理システムおよび情報処理システムの制御方法

Publications (2)

Publication Number Publication Date
JP2015156102A JP2015156102A (ja) 2015-08-27
JP6225742B2 true JP6225742B2 (ja) 2017-11-08

Family

ID=53798107

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014030682A Active JP6225742B2 (ja) 2014-02-20 2014-02-20 情報処理システムおよび情報処理システムの制御方法

Country Status (2)

Country Link
US (1) US9465422B2 (ja)
JP (1) JP6225742B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6953907B2 (ja) 2017-08-30 2021-10-27 富士通株式会社 情報処理装置、情報処理システム、及びプログラム
JP6631735B1 (ja) * 2019-02-28 2020-01-15 富士通クライアントコンピューティング株式会社 制御装置、情報処理システムおよびプログラム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01304567A (ja) * 1988-06-02 1989-12-08 Nec Corp プロセッサ間通信制御方式
JPH02121014A (ja) 1988-10-31 1990-05-08 Toshiba Corp コンピュータ装置
JP2994198B2 (ja) 1994-01-31 1999-12-27 岡山日本電気ソフトウェア株式会社 電子メール管理システム
JPH1153329A (ja) 1997-08-05 1999-02-26 Hitachi Ltd 情報処理システム
US6975509B2 (en) * 2002-05-16 2005-12-13 Sun Microsystems, Inc. Computing apparatus with cooling fan
US7106590B2 (en) * 2003-12-03 2006-09-12 International Business Machines Corporation Cooling system and method employing multiple dedicated coolant conditioning units for cooling multiple electronics subsystems
JP2006172276A (ja) * 2004-12-17 2006-06-29 Hitachi Ltd 無停電電源システム及びプログラム
US8411439B1 (en) * 2007-09-28 2013-04-02 Exaflop Llc Cooling diversity in data centers
JP2009110469A (ja) * 2007-11-01 2009-05-21 Ntt Facilities Inc ラック冷却システム
US20090204270A1 (en) * 2008-02-13 2009-08-13 International Business Machines Corporation Method and system for redundant management of fans within a shared enclosure
JP2010072733A (ja) * 2008-09-16 2010-04-02 Nec Corp サーバ管理装置,サーバ管理方法及びプログラム
JP5099081B2 (ja) * 2009-06-18 2012-12-12 富士通株式会社 制御装置、制御方法およびストレージシステム
WO2012032607A1 (ja) * 2010-09-07 2012-03-15 富士通株式会社 ストレージシステム、ストレージ装置、および、コントローラ
US8760863B2 (en) * 2011-10-31 2014-06-24 International Business Machines Corporation Multi-rack assembly with shared cooling apparatus
US8817474B2 (en) * 2011-10-31 2014-08-26 International Business Machines Corporation Multi-rack assembly with shared cooling unit
US20130174145A1 (en) * 2011-12-28 2013-07-04 Ming-chiang Chen Virtual resources management methods
WO2014147690A1 (ja) * 2013-03-18 2014-09-25 富士通株式会社 モジュール型データセンター
US9424148B2 (en) * 2013-08-21 2016-08-23 Dell Products L.P. Automatic failover in modular chassis systems

Also Published As

Publication number Publication date
US9465422B2 (en) 2016-10-11
US20150234439A1 (en) 2015-08-20
JP2015156102A (ja) 2015-08-27

Similar Documents

Publication Publication Date Title
US8707127B2 (en) Configurable source based/requestor based error detection and correction for soft errors in multi-level cache memory to minimize CPU interrupt service routines
US8549633B2 (en) Security controller
US10007629B2 (en) Inter-processor bus link and switch chip failure recovery
JP2007188315A (ja) デバイス故障検出装置、制御方法、及びプログラム
US8412980B2 (en) Fault tolerant stability critical execution checking using redundant execution pipelines
US10133328B2 (en) Fire prevention in a network device with redundant power supplies
US9298530B2 (en) Semiconductor device that detects abnormalities of watchdog timer circuits
US9148337B2 (en) System and method for rapid peer node failure detection
JP6953907B2 (ja) 情報処理装置、情報処理システム、及びプログラム
TWI670952B (zh) 網路切換控制系統
KR102139324B1 (ko) 제조 장비를 모니터링 및 제어하기 위한 통합형 제어기 솔루션
JP6225742B2 (ja) 情報処理システムおよび情報処理システムの制御方法
EP2615551B1 (en) Abnormality inspection device, central processing unit, and abnormality inspection method
EP2466467B1 (en) Information Processing System
US20150286595A1 (en) Interrupt controller and a method of controlling processing of interrupt requests by a plurality of processing units
JP2015115727A (ja) プログラマブルロジックデバイス
JP4877396B2 (ja) メモリ障害処理システム、および、メモリ障害処理方法
JP5332257B2 (ja) サーバシステム、サーバ管理方法、およびそのプログラム
JP2005234744A (ja) マルチプロセッサシステム及び障害処理方法
KR20160143397A (ko) 다 슬롯 통신 장치 및 그 온도 관리 방법
WO2014010021A1 (ja) 情報処理装置、情報処理システム、情報処理装置制御方法及び情報処理装置制御プログラム
JP6540309B2 (ja) 共有メモリシステム、演算処理装置、及び方法
WO2012114498A1 (ja) 情報処理装置
WO2012127629A1 (ja) サーバシステム及びクロスバボードの活性保守方法
US12007742B2 (en) Overheat restart behavior in network devices

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161102

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170712

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20170803

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20170803

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170925

R150 Certificate of patent or registration of utility model

Ref document number: 6225742

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150