JP5441875B2 - 計算機システム - Google Patents

計算機システム Download PDF

Info

Publication number
JP5441875B2
JP5441875B2 JP2010272727A JP2010272727A JP5441875B2 JP 5441875 B2 JP5441875 B2 JP 5441875B2 JP 2010272727 A JP2010272727 A JP 2010272727A JP 2010272727 A JP2010272727 A JP 2010272727A JP 5441875 B2 JP5441875 B2 JP 5441875B2
Authority
JP
Japan
Prior art keywords
management controller
output
computer
signal line
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010272727A
Other languages
English (en)
Other versions
JP2012123537A (ja
Inventor
利春 笠原
行晴 吉村
功 大原
正孝 鳥澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2010272727A priority Critical patent/JP5441875B2/ja
Priority to EP11191780.3A priority patent/EP2463778B1/en
Priority to US13/309,703 priority patent/US8726049B2/en
Publication of JP2012123537A publication Critical patent/JP2012123537A/ja
Application granted granted Critical
Publication of JP5441875B2 publication Critical patent/JP5441875B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/30Means for acting in the event of power-supply failure or interruption, e.g. power-supply fluctuations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2035Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware

Description

本発明は、計算機システムに係り、特に、複数の計算機モジュールを有し、各計算機モジュールに共通の部位をセンサ監視している計算機システムに関する。
近年、サーバのような情報処理装置は、計算機としての所定の機能を提供するメインシステムと、このメインシステムのファン、電源、演算処理装置(CPU)、メモリといった構成要素の物理的な健全性を監視し、システム管理、復旧、資産管理を実行することにより、高い信頼性・保守性を実現する保守管理システムとを備えて構成されることが一般的となってきている。このような情報処理装置の従来技術として、例えば、特許文献1等に記載された技術が知られている。
また、前述のような情報処理装置の従来技術として、例えば、特許文献2等に記載された技術が知られている。この従来技術は、サーバの制御装置であるプロセッサを備えたベースボードマネージメントコントローラを内蔵した情報処理装置に関するものであり、情報処理装置である計算機内の全てのセンサ監視を、その計算機内のベースボードマネージメントコントローラが担当するというものである。なお、ベースボードマネージメントコントローラの規格については、非特許文献1に詳述されている。
また、複数の計算機モジュールによって構成される計算機システムは、計算機モジュールとは独立した管理モジュールを有していない場合、複数の計算機モジュールで共有する部分のセンサ監視を、各計算機モジュールに搭載されるベースボードマネージメントコントローラの内の特定の計算機モジュール内のベースボードマネージメントコントローラが担当して行うように構成されるのが一般的である。
特開2005−135063号公報 特開2003−22222号公報
intel Corporation, Intelligent Platform Management Interface http://www.intel.com/design/servers/ipmi/
複数の計算機モジュールによって構成される従来技術の計算機システムは、計算機モジュールとは独立した管理モジュールを有していない場合、共通部位のセンサ監視の担当ベースボードマネージメントコントローラが、特定の計算機モジュールに搭載されているベースボードマネージメントコントローラである場合が多い。しかし、この場合、センサ監視を担当しているベースボードマネージメントコントローラが異常等により動作不能となった場合、センサ監視により障害等を検出することができなくなり、計算機システムの管理上不都合となるという問題点を生じさせる。
本発明の目的は、前述した従来技術の問題点を解決し、専用の管理モジュールを設けることなく、複数の計算機モジュールに共通の部位に対するセンサ監視を、いずれか1つの計算機モジュールが行うことを可能とした計算機システムを提供することにある。
本発明によれば前記目的は、それぞれがベースボードマネージメントコントローラを有する複数の計算機モジュールを備えて構成される計算機システムにおいて、前記複数の計算機モジュールのそれぞれの電源状態及び複数の計算機モジュールのそれぞれが有するベースボードマネージメントコントローラの状態とを監視するステートマシンと、複数の計算機モジュールから共用される複数の共用部位のモジュールと、該共用部位のモジュール及び前記複数の計算機モジュールのベースボードマネージメントコントローラ相互間をベースボードマネージメントコントローラの1つを選択して切り替え接続する前記共用部位のモジュール対応の複数のスイッチとを備え、 前記ステートマシンは、複数の計算機モジュールのそれぞれの電源状態または複数の計算機モジュールのそれぞれが有するベースボードマネージメントコントローラの異常により前記複数の計算機モジュールから共用される共用部位のモジュールのセンサ監視を担当するベースボードマネージメントコントローラを動的に切り替えることにより達成される。
本発明によれば、複数の計算機モジュールから成る計算機システムにおいて、専用管理モジュールを備えることなく、各計算機モジュールに共通の部位のセンサ監視を、いずれか1つの計算機モジュールが行うことが可能となる。
本発明の一実施形態による計算機システムの構成例を示すブロック図である。 本発明の実施形態による計算機システムにおける電源の供給を示す図である。 ステートマシンの処理動作を説明する状態遷移表を示す図である。 ステートマシンのハードウェア構成を示すブロック図である。 甲のウォッチドッグタイマの処理動作を説明するフローチャートである。 甲のベースボードマネージメントコントローラが異常になったときの計算機システムの動作例を説明するシーケンスチャートである。 Dフリップフロップの真理値表を示す図である。
以下、本発明による計算機システムの実施形態を図面により詳細に説明する。
図1は本発明の一実施形態による計算機システムの構成例を示すブロック図である。この本発明の実施形態は、2台の計算機モジュールによる計算機システムの例であるが、本発明は、さらに多数の計算機モジュールを有する場合にも適用することができる。
図1において、実線1114、1115、1116、1117、1119、1120、1210、1211、1220、1221、1230は信号線を示し、破線1110、1111、1113、1212、1222、1231はI2C接続を示し、点線1118は構成要素の内部を信号線が通過することを示している。
本発明の実施形態による計算機システムは、図1に示すように、2台の計算機モジュール1100(以下では、これらのモジュールの内、図の上に示しているものを甲、図の下に示しているものを乙と呼んで区別することもある)と、共通基板1200と、電源モジュール1300と、電源モジュール用基板1301とにより構成されている。
2台の計算機モジュール1100のそれぞれは、CPU1106、メモリ1105、チップセット1107、計算機モジュール冷却用のファン1104、電源のオンオフを切り替える電源スイッチ1103、ベースボードマネージメントコントローラ1108、計算機内各センサ1101、ウオッチドッグタイマ1102を備えて構成されている。そして、CPU1106、メモリ1105、チップセット1107、ファン1104、電源スイッチ1103は、計算機としての運転機能を提供している。また、ベースボードマネージメントコントローラ1108は、計算機としての運転機能を提供する前述の構成要素と、各計算機モジュール1100内の各センサ1101の物理的な健全性を監視する機能(以下、センサ監視という)を提供する構成要素とを有している。ベースボードマネージメントコントローラ1108によるセンサ監視は一定時間毎に行われるが、これをセンサ監視ポーリングという。
CPU1106は、演算処理装置であり、ベースボードマネージメントコントローラ1108にI2C接続1113を経由して接続されており、ベースボードマネージメントコントローラ1108のセンサ監視ポーリング機能により、CPU1106の温度状態出力が監視されている。また、CPU1106は、メモリ1105にバス1114を経由して接続されており、計算機としての運転機能を実現する他に、メモリ1105の異常を監視している。さらに、CPU1106は、チップセット1107にバス1115を経由して接続されており、メモリ1105の異常をチップセット1107を介してベースボードマネージメントコントローラ1108に通知することが可能である。
チップセット1107は、ベースボードマネージメントコントローラ1108に信号線1117を経由して接続されており、CPU1106が検出したメモリ1105の異常をベースボードマネージメントコントローラ1108に通知することが可能である。また、チップセット1107は、ベースボードマネージメントコントローラ1108に信号線1116を経由して接続されており、ベースボードマネージメントコントローラ1108は、チップセット1107に対して信号線1116を介して電源制御信号を送ることが可能である。
さらに、チップセット1107は、計算機モジュール1100の電源状態がオンのとき信号線1211または信号線1221にLOWを出力し、計算機モジュール1100の電源状態がオフのとき信号線1211または信号線1221にHIGHを出力する。
ファン1104は、ベースボードマネージメントコントローラ1108にI2C接続1111を経由して接続されており、ベースボードマネージメントコントローラ1108のセンサ監視ポーリングによって、ファン1104の回転数がセンサ監視されている。
電源スイッチ1103は、信号線1120、信号線1118、信号線1116を通してチップセット1107に接続されており、電源制御信号をチップセット1107に通知することが可能である。また、信号線1118は、ベースボードマネージメントコントローラ1108を通過しており、ベースボードマネージメントコントローラ1108は、信号線1118を監視することにより電源スイッチ1103が押されたことを検知することが可能である。
また、計算機モジュール1100のそれぞれは、CPU1106、メモリ1105、チップセット1107、電源スイッチ1103を有しているため、複数の計算機モジュール1100は、それぞれ、その電源状態がお互いに独立したものとなっている。
各計算機モジュール1100内の計算機内各センサ1101は、計算機モジュール内の各部位に設置される電圧センサ、温度センサ、Fuseセンサ等であり、全てのセンサがベースボードマネージメントコントローラ1108にI2C接続1110を経由して接続されている。
ベースボードマネージメントコントローラ1108は、前述したように、計算機としての運転機能を提供する構成要素と、計算機内各センサ1101と接続されており、センサ監視ポーリングによって全センサをセンサ監視している。
また、計算機モジュール甲または乙のベースボードマネージメントコントローラ1108のいずれか一方が、2つの計算機モジュール甲、乙にとって共通の部位である電源モジュール1300のセンサ監視を行う。そして、共通基板1200上に備えられているステートマシン1201は、計算機モジュール甲または乙のベースボードマネージメントコントローラ1108どちらが電源モジュール1300のセンサ監視担当となるかを指定する。指定の方法については後述する。
ウォッチドッグタイマ1102は、信号線1119を介してベースボードマネージメントコントローラ1108の健全性を監視しており、その結果を信号線1210または信号線1220に出力している。ウォッチドッグタイマ1102の仕組みについては後述する。
共通基板1200は、ステートマシン1201と、スイッチ1202を有している。ステートマシン1201は、計算機モジュール甲及び乙のウォッチドッグタイマ1102の出力が、信号線1210及び信号線1220を経由して接続されており、計算機モジュール甲及び乙のベースボードマネージメントコントローラ1108の健全性を監視している。
また、ステートマシン1201には、計算機モジュール甲及び乙のチップセット1107からの計算機モジュール1100の電源状態を示す出力が、信号線1211及び信号線1221を経由して接続されており、ステートマシン1201は、これらの信号線1211、1221を介して計算機モジュール甲及び乙の電源状態を監視している。
さらに、ステートマシン1201は、信号線1230を経由して計算機モジュール甲及び乙のベースボードマネージメントコントローラ1108に接続されており、信号線1230の出力によって、計算機モジュール甲または乙のベースボードマネージメントコントローラ1108を共通部位である電源モジュール1300のセンサ監視担当として指定することが可能である。
信号線1230の計算機モジュール甲側には、NOT回路1203が設けられているため、計算機モジュール甲及び乙からのベースボードマネージメントコントローラ1108への信号線1230の入力は必ず相互に反転された信号の値を持ったものとなり、ステートマシン1201は、これにより必ず一方のベースボードマネージメントコントローラ1108を指定することが可能となる。
スイッチ1202は、I2C接続1212及びI2C接続1222を経由して、計算機モジュール甲及び乙のベースボードマネージメントコントローラ1108に接続されており、I2C接続1212またはI2C接続1222のいずれかに接続を行う。このスイッチ1202は、計算機モジュール甲のベースボードマネージメントコントローラ1108が信号線1212をオンにすると、スイッチ1202の接続を信号線1212側に切り替え、逆に、計算機モジュール乙のベースボードマネージメントコントローラ1108が信号線1222をオンにすると、スイッチ1202の接続を信号線1222側に切り替える機能を有している。
また、スイッチ1202は、I2C接続1231を経由して、電源モジュール1300に接続されており、計算機モジュール甲または乙のベースボードマネージメントコントローラ1108が、センサ監視ポーリングを行うことによって、電源モジュール1300のセンサ異常を検知可能としている。
図1に示す本発明の実施形態による計算機システムは、計算機モジュール甲及び乙の共通部位として電源モジュール1300だけを例にあげているが、共通部位として、共用のファン、HDDによる大容量の記憶装置等が設けられていてもよく、計算機モジュール甲及び乙で共用することができるものであれば、本発明の方法により計算機モジュール甲または乙のベースボードマネージメントコントローラから監視させることができる。共通部位として、前述したような複数の部位が設けられた場合、共通部位毎にスイッチ1202を設け、計算機モジュール甲及び乙のベースボードマネージメントコントローラ1108とそれらの共通部位のそれぞれとをスイッチ1202により接続すればよい。
図2は本発明の実施形態による計算機システムにおける電源の供給を示す図であり、図2を参照して計算機システムに対する電源の供給について説明する。
計算機モジュール1100は電源供給源を持っておらず、計算機システム全体の電力は電源モジュール1300から供給される。電源モジュール1300は、出力として、5Vsub出力1451の出力電圧5Vと12V出力1412の出力電圧12Vとを出力している。
5Vsub出力1451の出力電圧5Vは、電源モジュール1300に電源ケーブル1302が接続されてAC電源が供給されているとき、常に電力を供給することが可能な出力であり、ベースボードマネージメントコントローラ1108等に対する電力源となり、共通基板1200上の機器であるステートマシン1201にも供給される。また、12V出力1412は、計算機モジュール甲または乙の電源状態(電源スイッチの状態)がオンとなったときに初めて供給される電力であり、計算機モジュール1100が計算機としての運転機能を提供するために用いられる。
計算機システムの構成要素の全てを5Vsub出力1451の出力電圧5V及び12V出力1412の出力電圧12Vにより動作させることは不可能であり、5Vsub出力1451及び12V出力1412の出力電圧は、DC−DCコンバータにより構成される変圧器を用いて電圧が調整される。
変圧器1550は、12V出力1412の出力電圧12Vを5V出力1450の出力電圧5Vに変換している。変圧器1550が、各計算機モジュール1100及び電源モジュール用基板1301に分かれて設けられている理由は、共通基板1200と計算機モジュール1100との間の接続を少なくするためである。
変圧器1534は、5Vsub出力1451の出力電圧5Vを3.3Vsub出力1434の出力電圧3.3Vに変換しており、この3.3Vsub出力1434の出力電圧3.3Vは、チップセット1107に供給される。
変圧器1533は、12V出力1412の出力電圧12Vを3.3V出力1433の出力電圧3.3Vに変換しており、この3.3V出力1433の出力電圧3.3Vは、CPU1106等に供給される。
変圧器1518は、3.3Vsub出力1434の出力電圧3.3Vを1.8Vsub出力1418の出力電圧1.8Vに変換しており、この1.8Vsub出力1418の出力電圧1.8Vは、ベースボードマネージメントコントローラ1108等に供給される。
変圧器1512は、1.8Vsub出力1418の出力電圧1.8Vを1.2Vsub出力1413の出力電圧1.2Vに変換しており、この1.2Vsub出力1413の出力電圧1.2Vは、ベースボードマネージメントコントローラ1108に供給される。
変圧器1509は、1.8Vsub出力1418の1.8Vを0.9Vsub出力1409の出力電圧0.9Vに変換しており、この0.9Vsub出力1409の出力電圧0.9Vは、メモリ1105に供給される。
電源モジュール1300は、電源ケーブル1302がAC電源に接続されると、計算機モジュール甲及び乙に、5Vsub出力1451の出力電圧5V供給し、計算機モジュール1100内では、3.3Vsub出力1434の出力電圧3.3V、1.8Vsub出力1418の出力電圧1.8V、1.2Vsub出力1413の出力電圧1.2V、及び、0.9Vsub出力1409の出力電圧0.9Vが供給可能になる。
また、計算機モジュール1100の電源状態がオンとなると、計算機モジュール1100には、前述で説明したような電源モジュール1300に電源ケーブル1302が接続されると供給される出力電圧に追加されて、12V出力1412の出力電圧12V、5V出力1450の出力電圧5V、及び、3.3V出力1433の出力電圧3.3Vが供給される。
図3はステートマシン1201の処理動作を説明する状態遷移表を示す図であり、次に、図3を参照してステートマシン1201が計算機モジュール甲または乙のベースボードマネージメントコントローラ1108どちらが電源モジュール1300のセンサ監視担当となるかを指定する動作について説明する。ステートマシン1201は、図3に示すような状態遷移表に従った動作をする。
図3に示す状態遷移表は、甲の入力3001と、乙の入力3002と、前回出力3003と、これらに対して甲の入力または乙の入力が変化したときのステートマシン1201の出力3004とを組とした複数のレコードにより構成される。
図3において、「甲OK」とは、計算機モジュール甲のベースボードマネージメントコントローラ1108が正常動作しており(信号線1210がLOW)、かつ、計算機モジュール甲の電源状態がオン(信号線1211がLOW)である状態を意味し、「甲NG」とは、前述した「甲OK」以外の状態を意味している。
また、「乙OK」とは、計算機モジュール乙のベースボードマネージメントコントローラ1108が正常動作しており(信号線1220がLOW)、かつ、計算機モジュール乙の電源状態がオン(信号線1221がLOW)である状態を意味し、「乙NG」とは、前述した「乙OK」以外の状態を意味している。
計算機モジュール甲からの入力3001は、「甲OK」または「甲NG」のいずれかの値となり、また、計算機モジュール乙からの入力3002は、「乙OK」または「乙NG」のいずれかの値となる。
前回出力3003とは、計算機モジュール甲からの入力3001または計算機モジュール乙からの入力3002が変化したとき、その前にステートマシン1201が出力3004(通信線1230)に出力していたHIGHまたはLOWの値を示す。
レコード3010は、計算機モジュール甲からの入力3001が「甲OK」、計算機モジュール乙からの入力3002が「乙OK」かつ前回出力3003が計算機モジュール甲を指定(通信線1230がLOW)であった場合、ステートマシン1201の出力3004は、計算機モジュール甲を指定(通信線1230がLOW)となることを示している。
レコード3011は、計算機モジュール甲すらの入力3001が「甲OK」、計算機モジュール乙からのの入力3002が「乙OK」かつ前回出力3003が計算機モジュール乙を指定(通信線1230がHIGH)であった場合、ステートマシン1201の出力3004は、計算機モジュール乙を指定(通信線1230がHIGH)となることを示している。
レコード3012は、計算機モジュール甲からの入力3001が「甲OK」、計算機モジュール乙からの入力3002が「乙NG」であった場合、前回出力3003に関わらず(図3中「X」)、ステートマシン1201の出力3004は、計算機モジュール甲を指定(通信線1230がLOW)となることを示している。
レコード3013は、計算機モジュール甲からの入力3001が「甲NG」、計算機モジュール乙からの入力3002が「乙OK」であった場合、前回出力3003に関わらず(図3中「X」)、ステートマシン1201の出力3004は、計算機モジュール乙を指定(通信線1230がHIGH)となることを示している。
レコード3014は、計算機モジュール甲からの入力3001が「甲NG」、計算機モジュール乙からの入力3002が「乙NG」であった場合、前回出力3003に関わらず(図3中「X」)、ステートマシン1201の出力3004は、計算機モジュール甲を指定(通信線1230がLOW)となることを示している。
図4はステートマシン1201のハードウェア構成を示すブロック図、図7はDフリップフロップの真理値表を示す図であり、次に、図4、図7を参照して、ステートマシン1201の内部構造について説明する。
図4におけるDフリップフロップ4020及びDフリップフロップ4021は、共にポジティブエッジトリガで、非同期タイプである。これらのフリップフロップは、図7の真理値表に示すように、入力として、S#(セット入力7001)、R#(リセット入力7002)、CK(クロック入力7003)及びD#(ディレイ入力7004)を持っており、出力として、Q7005及びQ#7006を持っている。
以下では、まず、Dフリップフロップ4020及び4021の動作を、図7に示す真理値表に基づいて説明する。
前述したような入力と出力との組による真理値表のレコード7011は、入力S#がLOWかつ入力R#がHIGHであるとき、入力CK及び入力D#の値に関わらず(図7中「X」)、出力QがHIGHとなり、出力Q#がLOWとなることを示している。
レコード7012は、入力S#がHIGHかつ入力R#がLOWであるとき、入力CK及び入力D#の値に関わらず(図7中「X」)、出力QがLOWとなり、出力Q#がHIGHとなることを示している。
レコード7013は、入力S#がLOWかつ入力R#がLOWであるとき、入力CK及び入力D#の値に関わらず(図7中「X」)、出力QがHIGHとなり、出力Q#がHIGHとなることを示している。
レコード7014は、入力S#がHIGH、入力R#がHIGHかつ入力D#がLOWであるとき、入力CKにLOWからHIGHに変化するパルス入力(以下、単にパルス入力という)があると、出力QがLOWとなり、出力Q#がHIGHとなることを示している。
レコード7015は、入力S#がHIGH、入力R#がHIGHかつ入力D#がHIGHであるとき、入力CKにパルス入力があると、出力QがHIGHとなり、出力Q#がLOWとなることを示している。
次に、図4の参照に戻って、ステートマシン1201のハードウェア構成について説明する。
ステートマシン1201は、計算機モジュール甲のベースボードマネージメントコントローラ1108が正常か否かを示している信号線1210と、計算機モジュール甲の電源状態を示す信号線1211と、計算機モジュール乙のベースボードマネージメントコントローラ1108が正常か否かを示している信号線1220と、計算機モジュール乙の電源状態を示す信号線1221とが接続されて、これらの信号線の値に従って、図3に示して説明した状態遷移表に従った出力値を信号線1230に出力して、計算機モジュール甲または乙のベースボードマネージメントコントローラ1108のどちらが電源モジュール1300のセンサ監視担当となるかを指定している。
そして、ステートマシン1201は、3個のDフリップフロップ4020、4021と、初期化回路4022と、3個のディレイ回路4100と、2個のパルス生成回路4101とを主な構成要素として、図4に示すように相互に接続されて構成されている。
次に、前述したように構成されるステートマシン1201の初期化について説明する。
電源モジュール1300に電源ケーブル1302が接続されてAC電源が電源モジュールに供給されるると、5Vsub出力1451の出力電圧5Vが10kΩの抵抗4018を経由し、2つのポジティブエッジトリガのDフリップフロップ4020の入力R#に印加される。Dフリップフロップ4020の入力S#への入力は初期値LOWであるので、図7に示して説明した真理値表のレコード7011に従い出力Qは、初期値HIGHとなる。
また、5Vsub出力1451の出力電圧5Vが10kΩ抵抗4018を経由し、ポジティブエッジトリガのDフリップフロップ4021の入力S#に入り、入力R#は初期値LOWであるので、状態7012に従い出力Qは、初期値LOWとなる。
その後、初期化回路4022は、5Vsub出力1451の出力電圧5Vが約5Vまで立ち上がるまでのごく初期においてLOWを出力しているが、5Vsub出力1451の出力電圧5Vが約5Vまで立ち上がった後、RST#出力がHIGHとなり、RST#出力のHIGHがDフリップフロップ4021の入力R#に印加される。この結果、Dフリップフロップ4021は、状態7014または状態7015に示して説明したように、入力CKにパルスを印加することによって駆動されるようになる。
ステートマシン1201の入力は、前述したように、信号線1210(甲のベースボードマネージメントコントローラ1108の正常か否かを示す)及び、信号線1211(甲の電源状態を示す)及び、信号線1220(乙のベースボードマネージメントコントローラ1108の正常か否かを示す)及び、信号線1221(乙の電源状態を示す)である。
信号線1210及び信号線1211の信号は、OR回路4010を通過し、「甲OK」の場合にのみ、信号線4200をLOWとする。同様に、信号線1220及び信号線1221は、OR回路4010を通過し、「乙OK」の場合にのみ、信号線4200をLOWとする。また、ディレイ回路4100は、1kΩ抵抗4015、0.01μFコンデンサ4016及びGND4017から構成されて、10μ秒のディレイを生成する。このディレイ回路からの出力信号を受けるバッファ4014は、パルス生成回路4101の前で電流を整える。
パルス生成回路4101は、1kΩ抵抗4015、0.01μFコンデンサ4016、GND4017及びXOR回路4011から構成されていて、10μ秒のパルス信号を生成し、このパルス信号をDフリップフロップ4020及びDフリップフロップ4021の入力CKに印加して、これらのフリップフロップを駆動する。
また、パルス生成回路4101の後段にはOR回路4010があるため、信号線1210、信号線1211、信号線1220または信号線1221のいずれかの信号が状態変化したとき、Dフリップフロップ4020が駆動される。また、信号線1210、信号線1211、信号線1220または信号線1221のいずれかの信号が状態変化したときの信号は、10μ秒のディレイを生成するディレイ回路4100を経てDフリップフロップ4021に印加されて、Dフリップフロップ4021を駆動する
Dフリップフロップ4020は、「甲OK」または「乙OK」(信号線4200がLOW)のとき、入力R#にHIGH、入力D#にLOWが入力され、かつ、信号線4200の信号がNOT回路4013を経由して入力S#に印加されるため、入力S#にはHIGHが入力されることになり、入力CKにパルス入力が印加されると、状態7014に従い出力QがLOWとなる。
また、Dフリップフロップ4020は、「甲NG」または「乙NG」(信号線4200がHIGH)のとき、入力R#がHIGH、かつ、信号線4200上の信号がNOT回路4013を経由して入力S#に印加されるため、入力S#がLOWとなり、図7に示して説明した真理値表のレコード7011に従い、出力QがHIGHとなる。
2つのDフリップフロップ4020の出力Qは、出力線4201及び4202に出力される。そして、出力線4201上の信号を反転した信号と、Dフリップフロップ4021の出力QがAND回路4012を通過し、信号線4203上に出力される。また、信号線4201上の信号を反転した信号と信号線4202上の信号とは、AND回路4012を通過し、信号線4204上に出力される。さらに、信号線4203上の信号と信号線4204上の信号とは、OR回路4010を通し、それがDフリップフロップ4021の入力D#に印加される。Dフリップフロップ4021は、前述したように、入力S#及び入力R#がともにHIGHで、CKにパルスが印加されることにより入力D#の入力をそのまま信号線1230に出力する。
前述したように、ステートマシン1201は、図3に示した状態遷移表に従った動作をする。また、ステートマシン1201は、甲または乙の状態が不定である場合でも、必ず甲または乙の計算機モジュールの一方を指定するように、HIGHまたはLOWを信号線1230上に出力する。
図1の参照に戻ると、ベースボードマネージメントコントローラ1108は、信号線1230からの入力を常に監視しており、信号線1230がHIGH(甲はNOT回路1203で反転された後)の場合、自らが共通部位である電源モジュール1300のセンサ監視担当であると判断する。
自らが共通部位である電源モジュール1300のセンサ監視担当となったと判断したベースボードマネージメントコントローラ1108は、まず、I2C接続1212またはI2C接続1222を経由してスイッチ1202を自分側に切り替える。そして、ベースボードマネージメントコントローラ1108は、I2C接続1212またはI2C接続1222、スイッチ1202及びI2C接続1231を経由して、電源モジュール1300のセンサ監視ポーリングを開始する。
逆に、信号線1230がLOW(甲はNOT回路1203で反転された後)となって、自分が電源モジュール1300のセンサ監視担当でなくなったと判断したベースボードマネージメントコントローラ1108は、電源モジュール1300のセンサ監視ポーリングを停止する。
前述したように、ステートマシン1201が直接スイッチ1202を切り替えない理由は、1つのベースボードマネージメントコントローラ1108が故障した際に、スイッチ1202をホールドしたままの不正な状態だった場合、ステートマシン1201からスイッチ1202を切替えることが不可能となるからである。よって、本発明の実施形態は、電源モジュール1300に接続するときに、ベースボードマネージメントコントローラ1108自らがスイッチ1202を切り替えることとしている。
図5は甲のウォッチドッグタイマ1102の処理動作を説明するフローチャートであり、次に、図5のフローを参照してウォッチドッグタイマ1102の処理動作を説明する。ウォッチドッグタイマ1102は、ベースボードマネージメントコントローラ1108から一定時間間隔(以下、Tbmcという)で出力されている生存信号が、正常に出力されているかを監視して、ベースボードマネージメントコントローラ1108の正常性の監視を行うものである。
(1)電源モジュール1300に電源ケーブル1302を介してAC電源が接続されると、ウォッチドッグタイマ1102は、初期化処理として、信号線1210に初期値LOWを出力し、ベースボードマネージメントコントローラ1108が正常であることを、ステートマシン1201に対して示す(ステップ5001、5002)。
(2)次に、ウォッチドッグタイマ1102は、タイマtに初期値Tを設定する。Tは、前述で説明したベースボードマネージメントコントローラ1108から出力される生存信号の時間間隔Tbmcより長く設定される。その後、タイマが減算されていく(ステップ5003、5004)。
(3)次に、ウォッチドッグタイマ1102は、信号線1119を介してベースボードマネージメントコントローラ1108から生存信号がきたか否かを判定し、生存信号がきたことを検知した場合、ステップ5003からの処理に戻り、タイマを設定してカウントダウンさせる処理を繰り返す(ステップ5005)。
(4)ステップ5005の判定で、生存信号がきていなかった場合、タイマtが0となったか否かを判定し、タイマtが0となっていなかった場合、ステップ5004からの処理に戻り、タイマのカウントダウンを継続させる(ステップ5006)。
(5)ステップ5006の判定で、タイマtが0となっていた場合、タイムアウトしているので、信号線1210にHIGHを出力し、ベースボードマネージメントコントローラ1108が異常であることを、ステートマシン1201に対して示し、その後、ステップ5005からの処理に戻って処理を繰り返す。そして、ウォッチドッグタイマ1102は、信号線1119の監視を継続することにより、ベースボードマネージメントコントローラ1108が正常に戻るのを待つ(ステップ5007)。
なお、乙のウォッチドッグタイマ1102の動作も同様であり、信号線1220にベースボードマネージメントコントローラ1108が正常または異常であることを示す信号の出力を行う。
図6は甲のベースボードマネージメントコントローラ1108が異常になったときの計算機システムの動作例を説明するシーケンスチャートであり、次に、これについて説明する。
(1)計算機モジュール甲のベースボードマネージメントコントローラ6001は、信号線1119を経由して一定時間毎に生存信号を甲のウォッチドッグタイマ6002に送信しているが、故障が生じると、生存信号を甲のウォッチドッグタイマ6002に送信することができなくなる(ステップ6010、6020)。
(2)甲のウォッチドッグタイマ6002は、一定の時間以上待ってもべースボードマネージメントコントローラ6001からの生存信号を受信することができなくなるため、ステートマシン1201に対し、甲のベースボードマネージメントコントローラ6001が異常となったことを信号線1210をHIGHにすることにより通知する(ステップ6011)。
(3)ステートマシン1201は、信号線1210がHIGHになったことにより、信号線1230をHIGHにすることにより、共通部位である電源モジュール1300のセンサ監視担当を、計算機モジュール乙のベースボードコントローラ6004に指定する(ステップ6012)。
(4)乙のベースボードマネージメントコントローラ6004は、信号線1230からの通知を受けると、スイッチ1202を自ベースボードマネージメントコントローラ6004側に切り替え、電源モジュール1300のセンサ監視ポーリングを開始する(ステップ6013、6014)。
前述した本発明の実施形態によれば、計算機モジュール1100の電源状態またはベースボードマネージメントコントローラの異常により、共通部位である電源モジュール1300のセンサ監視の担当を切り替えることが可能となる。
1100 計算機モジュール
1101 計算機モジュール内の各センサ
1102 ウォッチドッグタイマ
1103 電源スイッチ
1104 ファン
1105 メモリ
1106 CPU
1107 チップセット
1108 ベースボードマネージメントコントローラ
1200 共通基板
1201 ステートマシン
1202 スイッチ
1203 NOT回路
1300 電源モジュール
1301 電源モジュール用基板
1302 電源ケーブル
1509、1512、1518、1533、1534、1550 変圧器
4010 OR回路
4011 XOR回路
4012 AND回路
4013 NOT回路
4014 バッファ
4020、4021 Dフリップフロップ
4022 初期化回路
4100 ディレイ回路
4101 パルス生成回路

Claims (3)

  1. それぞれがベースボードマネージメントコントローラを有する複数の計算機モジュールを備えて構成される計算機システムにおいて、
    前記複数の計算機モジュールのそれぞれの電源状態及び複数の計算機モジュールのそれぞれが有するベースボードマネージメントコントローラの状態とを監視するステートマシンと、複数の計算機モジュールから共用される複数の共用部位のモジュールと、該共用部位のモジュール及び前記複数の計算機モジュールのベースボードマネージメントコントローラ相互間をベースボードマネージメントコントローラの1つを選択して切り替え接続する前記共用部位のモジュール対応の複数のスイッチとを備え、
    前記ステートマシンは、複数の計算機モジュールのそれぞれの電源状態または複数の計算機モジュールのそれぞれが有するベースボードマネージメントコントローラの異常により前記複数の計算機モジュールから共用される共用部位のモジュールのセンサ監視を担当するベースボードマネージメントコントローラを動的に切り替えることを特徴とする計算機システム。
  2. 前記ベースボードマネージメントコントローラが正常動作時に出力するパルス信号が一定時間間隔で出力されていることを監視するウォッチドッグタイマを備え、
    前記ウォッチドッグタイマは、一定時間以上、前記パルス信号が前記ベースボードマネージメントコントローラから出力されないことを検出すると、前記ベースボードマネージメントコントローラの異常を検知して、前記ステートマシンにその異常を通知することを特徴とする請求項1記載の計算機システム。
  3. 前記ステートマシンは、前記複数の計算機モジュールのそれぞれの電源状態及び複数の計算機モジュールのそれぞれが有するベースボードマネージメントコントローラの状態を入力とし、いくつかの入力が不定状態である場合でも、いずれかのベースボードマネージメントコントローラをセンサ監視担当として指定することを特徴とする請求項1記載の計算機システム。
JP2010272727A 2010-12-07 2010-12-07 計算機システム Expired - Fee Related JP5441875B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010272727A JP5441875B2 (ja) 2010-12-07 2010-12-07 計算機システム
EP11191780.3A EP2463778B1 (en) 2010-12-07 2011-12-02 Computer system
US13/309,703 US8726049B2 (en) 2010-12-07 2011-12-02 Computer system with a plurality of computer modules and baseboard management controllers, including a state machine that dynamically conducts a switching operation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010272727A JP5441875B2 (ja) 2010-12-07 2010-12-07 計算機システム

Publications (2)

Publication Number Publication Date
JP2012123537A JP2012123537A (ja) 2012-06-28
JP5441875B2 true JP5441875B2 (ja) 2014-03-12

Family

ID=45442823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010272727A Expired - Fee Related JP5441875B2 (ja) 2010-12-07 2010-12-07 計算機システム

Country Status (3)

Country Link
US (1) US8726049B2 (ja)
EP (1) EP2463778B1 (ja)
JP (1) JP5441875B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103835972B (zh) * 2012-11-20 2015-12-23 英业达科技有限公司 风扇转速控制系统及用以控制风扇转速的方法
US9148337B2 (en) * 2013-01-25 2015-09-29 Dell Products L.P. System and method for rapid peer node failure detection
CN104008037A (zh) * 2014-03-13 2014-08-27 英业达科技有限公司 监控模块的监控方法
CN104077202A (zh) * 2014-07-02 2014-10-01 英业达科技有限公司 一种计算机系统
US10402207B2 (en) * 2016-06-16 2019-09-03 Quanta Computer Inc. Virtual chassis management controller
CN108170579A (zh) * 2018-01-24 2018-06-15 郑州云海信息技术有限公司 Rack机柜服务器的电源监控方法、装置及存储介质
TWI679532B (zh) * 2018-10-05 2019-12-11 緯穎科技服務股份有限公司 監測系統與方法
JP7110937B2 (ja) * 2018-11-22 2022-08-02 富士通株式会社 情報処理システム及び情報処理装置
CN111538629A (zh) 2020-04-23 2020-08-14 苏州浪潮智能科技有限公司 一种服务器传感器的轮循方法、系统及相关装置
JP7266067B2 (ja) * 2021-06-25 2023-04-27 株式会社日立製作所 ストレージシステム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003022222A (ja) 2001-07-06 2003-01-24 Toshiba Corp 情報処理装置及びその保守方法
JP4299634B2 (ja) 2003-10-29 2009-07-22 株式会社日立製作所 情報処理装置及び情報処理装置の時計異常検出プログラム
US7512830B2 (en) 2004-05-14 2009-03-31 International Business Machines Corporation Management module failover across multiple blade center chassis
US8375115B2 (en) * 2007-02-16 2013-02-12 Emulex Corporation Methods, apparatus, and systems for integrated management, graphics and I/O control of server systems
US8082454B2 (en) * 2007-11-07 2011-12-20 International Business Machines Corporation Managing power consumption based on historical average
US8006108B2 (en) * 2007-11-08 2011-08-23 International Business Machines Corporation Dynamic selection of group and device power limits
US8306652B2 (en) * 2008-03-14 2012-11-06 International Business Machines Corporation Dual-band communication of management traffic in a blade server system
JP4802207B2 (ja) * 2008-04-23 2011-10-26 株式会社日立製作所 情報処理システムの制御方法、情報処理システム、およびプログラム
US8024609B2 (en) * 2009-06-03 2011-09-20 International Business Machines Corporation Failure analysis based on time-varying failure rates
US8321616B2 (en) * 2009-08-12 2012-11-27 Dell Products L.P. System and method for enabling interchangeable dedicated management network interface card access via fabric controller

Also Published As

Publication number Publication date
US20120144223A1 (en) 2012-06-07
JP2012123537A (ja) 2012-06-28
EP2463778B1 (en) 2016-06-08
US8726049B2 (en) 2014-05-13
EP2463778A1 (en) 2012-06-13

Similar Documents

Publication Publication Date Title
JP5441875B2 (ja) 計算機システム
TWI582585B (zh) 機櫃的監控系統
US20180164795A1 (en) Fan monitoring system
US8656003B2 (en) Method for controlling rack system using RMC to determine type of node based on FRU's message when status of chassis is changed
US20140142764A1 (en) Fan rotational speed control system and method for controlling rotational speed of fan
US20130229765A1 (en) Temperature control device for hard disk drive of server system
US20120137159A1 (en) Monitoring system and method of power sequence signal
CN110908841B (zh) 一种i2c通信异常恢复方法及装置
CN108278216B (zh) 风扇控制系统及风扇控制方法
US10691185B2 (en) Cooling behavior in computer systems
TW201118596A (en) Server management system
KR20150116816A (ko) 펄스 폭 변조 로드 공유 버스
EP3244319A1 (en) Flexible nvme drive management solution
US10691562B2 (en) Management node failover for high reliability systems
US10298479B2 (en) Method of monitoring a server rack system, and the server rack system
JP2008090354A (ja) 電源障害監視方法及びその装置
KR20120020867A (ko) 이중화 구조를 갖는 제어기 및 그 운용 방법
US10852792B2 (en) System and method for recovery of sideband interfaces for controllers
TWI479085B (zh) 風扇轉速控制系統及用以控制風扇轉速之方法
US9137587B2 (en) System event assisted live keyboard, video and mouse (KVM) capture
CN103135728B (zh) 电源开机控制方法及其系统
TW201604679A (zh) 計算機系統
TWI611290B (zh) 伺服器機櫃監控方法
JP2014142840A (ja) 情報処理装置、消費電力制御方法、及びプログラム
CN110502369A (zh) 一种设备死机恢复的方法、装置和存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130111

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131217

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees