JP2015088124A - 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法 - Google Patents

情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法 Download PDF

Info

Publication number
JP2015088124A
JP2015088124A JP2013228674A JP2013228674A JP2015088124A JP 2015088124 A JP2015088124 A JP 2015088124A JP 2013228674 A JP2013228674 A JP 2013228674A JP 2013228674 A JP2013228674 A JP 2013228674A JP 2015088124 A JP2015088124 A JP 2015088124A
Authority
JP
Japan
Prior art keywords
communication
monitoring
unit
data
management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013228674A
Other languages
English (en)
Other versions
JP6303405B2 (ja
Inventor
英輔 紀室
Eisuke Kimuro
英輔 紀室
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013228674A priority Critical patent/JP6303405B2/ja
Priority to US14/457,639 priority patent/US9454452B2/en
Publication of JP2015088124A publication Critical patent/JP2015088124A/ja
Application granted granted Critical
Publication of JP6303405B2 publication Critical patent/JP6303405B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2005Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication controllers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2007Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2002Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
    • G06F11/2012Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant and using different communication protocols
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3031Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a motherboard or an expansion card
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)
  • Computer Hardware Design (AREA)

Abstract

【課題】通信経路に係わる障害が発生した場合であっても、管理装置(BMC等)の監視を可能にするための技術を提供する。【解決手段】CPU21は、BMC26と接続する2つの通信経路70−1、70—2を介した通信のために第1及び第2の通信部52及び53を備え、BMC26は、第1及び第2の応答部64及び65を備える。第1及び第2の通信部52及び53は、監視部61の制御に従ってデータの要求を行う。第1及び第2の応答部64及び65は、要求の受信により、それぞれ管理部61によって更新される記憶部62、及びレジスタ63のデータを送信する。監視部51は、第1及び第2の通信部52及び53がそれぞれ受信するデータを用いて、BMC26が正常に動作しているか否か、及び各通信経路70−1、70−2に係わる障害の発生の有無の監視を行う。【選択図】図5

Description

本発明は、サーバ等の情報処理装置に管理用に搭載される管理装置の状態を監視するための技術に関する。
情報処理装置のなかには、管理用の専用の装置(管理装置)が搭載されたものがある。その管理装置は、普通、遠隔から管理のための操作を可能にさせ、情報処理装置に搭載されたハードウェアの状態の監視を可能にさせるようになっている。管理のための操作には、電源のオン/オフ、及び再起動等が含まれる。そのような機能を備えていることから、管理装置は、代表的な情報処理装置であるサーバの大部分に搭載されている。
現在では、遠隔からの操作、及び情報処理装置の状態の監視のためにインターフェース規格が策定されている。IPMI(Intelligent Platform Management Interface)は、その標準インターフェース規格である。IPMIは、通信規格としてI2C(Inter-Integrated Circuit)を想定している。以降、IPMI対応の管理装置はBMC(Baseboard Management Controller)と表記する。
従来、BMCは、IPMIによるI2Cを介した通信のみを行うようになっている。通常、BMCはLSI(Large Scale Integration)であり、外観から状態を判断することはできない。そのため、BMCの状態の確認は、IPMIを用いた通信が唯一の手段となっている。
近年、BMCに要求される機能が増えている。そのため、BMCに実行させるプログラムの規模も大きくなっている。
プログラムの規模が大きくなるほど、プログラムに不具合(バグ)が存在する可能性は高くなる。プログラムの不具合は、BMCの誤動作、或いは停止(フリーズ)を発生させる可能性がある。BMCが正常に動作しない場合、搭載されたサーバの状態も把握できなくなる。そのため、サーバ自体も停止させる必要性が生じる。しかし、サーバを停止させるのは回避するのが強く望まれている。このことから、近年、BMC自体を監視する必要性が高くなってきている。
IPMIを用いた通信により、BMCの状態を確認することができる。しかし、通信に用いるI2Cの通信経路自体、或いはI2Cによる通信のためのインターフェースに障害が発生する可能性もある。通信経路に係わる障害が発生し、通信を行えない場合、BMCが正常に動作しているか否かに係わらず、BMCは正常に動作していないと見なされることとなる。その結果、サーバを停止させる必要が生じる可能性がある。このことから、BMCの監視では、通信経路に係わる障害の発生に、より対応可能にすることが重要と思われる。
特開2008−176682号公報 特開2006−215938号公報 特開平10−161896号公報
1側面では、本発明は、通信経路に係わる障害が発生した場合であっても、管理装置(BMC等)の監視を可能にするための技術を提供することを目的とする。
本発明を適用した1システムは、管理用に搭載された管理装置、及び管理装置の監視を行う監視装置を備え、管理装置は、第1のプロトコルにより通信を行う第1の通信部と、第2のプロトコルにより通信を行う第2の通信部と、第1の通信部、及び第2の通信部を用いて送信する対象となるデータを生成する管理部と、を有し、監視装置は、第1の通信部、及び第2の通信部との通信が可能な第3の通信部と、第3の通信部を用いて、第1の通信部との通信によりデータの取得を行い、データの取得に異常があった場合に、第3の通信部を用いて、第2の通信部との通信によりデータの取得を行い、データの取得に異常が有るか否かを確認することにより、管理装置の監視を行う監視部と、監視部による監視結果を通知する通知部と、を有する。
本発明を適用した1システムでは、通信経路に係わる障害が発生した場合であっても、管理装置(BMC等)の監視を行うことができる。
本実施形態による情報処理装置を用いて構築された情報処理システムの構成例を表す図である。 本実施形態による情報処理装置に搭載されたシステムボードの構成例を表す図である。 BMCに接続されたセンサーの例を表す図である。 SDR情報によって取得されるデータの内容例を説明する図である。 本実施形態による管理装置であるBMC、及び本実施形態による監視装置の機能構成例を説明する図である。 監視処理のフローチャートである。
以下、本発明の実施形態について、図面を参照しながら詳細に説明する。
図1は、本実施形態による情報処理装置を用いて構築された情報処理システムの構成例を表す図である。
本実施形態による情報処理装置は、サーバ1として実現されている。そのサーバ1は複数台、ネットワーク2に接続されている。そのネットワーク2には、更に、サーバ1をオペレータが監視/管理するための端末装置(PC:Personal Computer)3が接続されている。
各サーバ1は、複数のSB(System Board)10、及び複数のIOU(Input/Output Unit)15がクロスバ1aにより相互に接続された構成となっている。各IOU15には、複数のハードディスク装置16が搭載されている。
各SB10は、1台の情報処理装置として機能する処理モジュールであり、アプリケーション・プログラムが実行される。各SB10は、例えば図2に表すように、CPU(Central Processing Unit)21、メモリ(メモリモジュール)22、PCIエクスプレス(Peripheral Components Interconnect Express)・スイッチ23、チップセット24、フラッシュメモリ25、BMC26、USB(Universal Serial Bus)ポート27、及びLAN(Local Area Network)ポート28を備えている。メモリ22、PCIエクスプレス・スイッチ23、及びチップセット24は、CPU21に接続されている。チップセット24には、CPU21の他に、フラッシュメモリ25、BMC26、USBポート27、及びLANポート28が接続されている。
フラッシュメモリ25には、CPU21が実行するBIOS(Basic Input/Output System)が格納されている。電源がオンされた場合、CPU21は、チップセット24を介して、フラッシュメモリ25からBIOSをメモリ22に読み出して実行する。
サーバ1には、SB10、及びIOU15以外の処理モジュールを追加することができる。PCIエクスプレス・スイッチ23は、追加される処理モジュール(その処理モジュールの搭載部品)との通信に用いることができる。
チップセット24は、各種インターフェースを備えている。それにより、チップセット24は、様々なインターフェースを介した通信を可能にする通信環境をCPU21に提供する。図2に表すUSBポート27、及びLANポート28は、対応するケーブルを接続するための接続手段である。実際には、他にもポートが存在する。他のポートの1つとして、クロスバ1aと接続するためのもの(クロスバポート)がある。LANポート28は、ネットワーク2との通信用である。
BIOSを起動したCPU21は、チップセット24を介して、予め定められたIOU15上のハードディスク装置16からOS(Operating System)、更にはアプリケーション・プログラムを読み出し、メモリ22に格納する。それにより、CPU21は、OSを起動し、OSの起動後、アプリケーション・プログラムを起動する。
BMC26とチップセット24間は、2つの伝送路200(200−1、200−2)により接続されている。チップセット24は、この2つの伝送路200を用いた通信のために、第1のインターフェース部24a、及び第2のインターフェース部24bを備えている。
伝送路200−1は、I2Cバスであり、IPMIによるデータ伝送に用いられる。伝送路200−2は、I2Cバスとは異なる伝送路であり、I2Cバスの通信用プロトコルとは異なるプロトコルによるデータ伝送が行われる。伝送路200−2の種類は特に限定されるものではない。第1のインターフェース部24aは、伝送路200−1を介した通信(データ伝送)を実現させ、第2のインターフェース部24bは、伝送路200−2を介した通信を実現させる。
BMC26は、例えばIPMI対応の管理装置として機能するLSI(Large Scale Integration)部品であり、遠隔からの操作、及びサーバ1の状態の監視等を可能にさせる。各SB10は、搭載されたBMC26により、個別に電源のオン/オフが可能となっている。
BMC26は、第1のインターフェース部26a、第2のインターフェース部26b、ROM26c、プロセッサ26d、メモリ26e、及びIOインターフェース部26fを備えている。
第1のインターフェース部26aは、伝送路200−1を介した通信(データ伝送)を実現させ、第2のインターフェース部26bは、伝送路200−2を介した通信を実現させる。ROM26cは、プロセッサ26dが実行するプログラム26ca、及びSDR(Sensor Data Record)情報26cbを格納する。SDR情報26cbには、サーバ1に搭載されたセンサーに関する情報、保守交換ユニット(FRU)の種類などの情報が定義される。
IOインターフェース部26fは、各種センサーから出力される値の入力に用いられる。図3は、BMCに接続されたセンサーの例を表す図である。
各SB10上のCPU21には、例えば温度を検出するための温度センサー31(31−1)が設けられる。メモリ22、及び電源ユニットにもそれぞれ温度センサー31(31−2、31−4)が設けられる。冷却用のファンには、単位時間当たりの回転数を回転計31(31−3)がセンサーとして設けられる。他には、例えばCPU21、メモリ22には不図示の電圧センサー31が設けられる。これら各種センサー31は、ハードウェアセンサー群30を構成し、BMC26のIOインターフェース部26fと接続されている。
ハードウェアセンサー群30を構成する各センサー31から取得された値(センサー値)は、通常、SDR情報26cbで定義された各センサーの値としてメモリ26eに保存される。そのために、メモリ26eには、センサー値等の保存用の領域(以降「取得データ保存領域」と表記)26eaが確保されている。保存されるセンター値を含むデータの内容は、例えば図4に表すようなものである。
図4では、センサー31毎に、センサー名、値(センサー値)、及びタイムスタンプの3つの情報を表している。センサー名は、各センサー31に割り当てられた、そのセンサー31を識別可能にする情報である。例えば「FAN1 PSU」「FAN1 SYS」は、それぞれ、電源ユニット冷却用の1番の数字が割り当てられたファンの回転計31、SB10、及びIOU15の冷却用の1番の数字が割り当てられたファンの回転計31、を表している。「Ambient Temp.」「Systembord 1Temp.」は、それぞれサーバ1の環境温度検出用の温度センサー31、SB10の温度検出用の温度センサー31、を表している。
センサー値は、対応するセンサー31の値自体、或いはその値をSDR情報26cbに定められた閾値と比較した結果を表す情報である。図4中に表記の「OK」は、閾値との比較結果が望ましい結果であることを表している。通常、センサー31の値自体も保存される。「Not present」は、対応するセンサー31が存在しないことを表している。
タイムスタンプは、センサー値を取得した時刻を表す情報である。タイムスタンプとしては、例えばプロセッサ26dが備えるタイマの値が用いられる。
プロセッサ26dは、ROM26cに格納されたプログラム26caを実行することにより、IOインターフェース部26fを介して、例えば予め定められた時間が経過する度に、各センサー31の値を取得する。プロセッサ26dは、取得した各センサー31の値自体、或いは比較結果を、メモリ26eに確保した取得データ保存領域26eaに格納する。予め定められた時間とは、例えば60秒である。以降、センサー31の値とは、特に断らない限り、その値自体、及び比較結果の総称として用いる。
プロセッサ26dは、センサー値等の保存用にメモリ26eに取得データ保存領域26eaを確保すると共に、別の保存用領域を確保している。その領域にもセンサー値が格納される。その領域は以降、「レジスタ領域」と表記する。
プロセッサ26dが実行するプログラム26caには、IPMIによる通信に対応するサブプログラム(以降「管理プログラム」)の他に、BMC26の状態の監視に冗長性を持たせるためのサブプログラム(以降「冗長用プログラム」と表記)が含まれる。これら管理プログラム、及び冗長用プログラムは、独立して動作し、異なるインターフェースを用いた通信を実現させる。つまり、冗長性プログラムは、第2のインターフェース部26bを用いた通信を実現させる。ハードウェアセンサー群30を構成する各センサー31の値の取得、及び取得した値の取得データ保存領域26eaへの格納は、管理プログラムによって実現される。
CPU21がIOU15から読み出して実行するプログラム、例えばOSには、BMC26の状態を監視するためのサブプログラム(以降「監視プログラム」と表記)が組み込まれている。そのため、本実施形態では、OSを実行するCPU21は、BMC26の状態を監視する監視装置として動作する。このことから、本実施形態による情報処理装置であるサーバ1は、本実施形態による管理装置であるBMC26、及び本実施形態による監視装置を搭載したものとして実現されている。
1つの伝送路を介した通信によるBMCの状態の監視では、その伝送路自体、或いはその伝送路を用いた通信のためのインターフェース部に障害が発生した場合、BMCが例え正常に動作していたとしても、BMCとの通信は不可能となる。従い、伝送路に係わる障害によりBMCの状態を監視できなくなる可能性を抑えるためには、異なるインターフェースによってデータ伝送を行う伝送路を複数、用いる必要がある。また、異なるインターフェースによってデータ伝送を行う伝送路を複数、BMCに接続したとしても、途中で同じ伝送路をデータ伝送に用いる通信経路では、共通に用いる伝送路の存在により、BMCの状態を監視できなくなる可能性が高くなる。各SB10には、多くのケーブルを接続することから、接続するケーブルの本数を抑えることが望まれている。
このようなことから、本実施形態では、各SB10上に搭載されたBMC26の状態の監視は、同じSB10上に搭載されたCPU21に行わせ、CPU21とBMC26間を2つの通信経路で接続させている。SB10上のBMC26の状態の監視を、同じSB10上のCPU21により行わせた場合、SB10に接続すべきケーブルの本数の増加を回避するか、或いは抑えることができる。
本実施形態では、CPU21とBMC26間は、チップセット24及び伝送路200−1を含む通信経路、チップセット24及び伝送路200−2を含む通信経路により接続させている。それにより、CPU21とチップセット24間は同じ伝送路としている。これは、CPU21とチップセット24間でデータ伝送が正常に行えないことは、SB10自体に非常に重大な障害が発生していることを意味しているからである。SB10が正常に動作するうえで、CPU21とチップセット24間の正常なデータ伝送が前提である以上、CPU21とチップセット24間で行われるデータ伝送の信頼性を考慮する必要性は事実上、無い。このため、2つの通信経路でCPU21とチップセット24間は同じ伝送路としている。
図5は、本実施形態による管理装置であるBMC、及び本実施形態による監視装置の機能構成例を説明する図である。本実施形態による監視装置はCPU21のみによって実現されているとの想定から、図5では符号として21を付している。監視プログラムを含むOSはメモリ22上に格納されて実行されることから、実際の監視装置は、CPU21の他にメモリ22を少なくとも含む構成である。
図5に表すように、本実施形態による管理装置であるBMC26は、機能構成として、管理部61、記憶部62、レジスタ63、第1の応答部64、及び第2の応答部65を備えている。本実施形態による監視装置21は、機能構成として、監視部51、第1の通信部52、及び第2の通信部53を備えている。
監視装置(CPU)21とBMC26間は、2つの通信経路70(70−1、70−2)により接続されている。通信経路70−1は、チップセット24及び伝送路200−1を含む通信経路である。通信経路70−2は、チップセット24及び伝送路200−2を含む通信経路である。
管理部61は、IPMIによる通信を介した要求への対応、及びハードウェアセンサー群30を構成する各センサー31の値の取得、等を行う機能である。管理部61は、例えばROM26c、プロセッサ26d、メモリ26e、及びIOインターフェース部26fによって実現される。記憶部62は、SDR情報26cb、及び各センサー31の値等の格納に用いられる。その記憶部62は、図2に表すメモリ26eに相当する。
第1の応答部64は、通信経路70−1を介した通信を行うための機能である。この第1の応答部64は、例えば第1のインターフェース部26a、ROM26c、プロセッサ26d、及びメモリ26eによって実現される。
レジスタ63は、各センサー値の保存に用いられる。このレジスタ63は、メモリ26e、より具体的にはメモリ26e上のレジスタ領域26ebに相当する。
第2の応答部65は、通信経路70−2を介した通信を行うための機能である。この第2の応答部64は、例えば第2のインターフェース部26b、ROM26c、プロセッサ26d、及びメモリ26eによって実現される。
管理部61、及び第1の応答部64は、プロセッサ26dが上記管理プログラムを実行することで実現される。第2の応答部65は、プロセッサ26dが上記冗長用プログラムを実行することで実現される。
管理部61は、例えば予め定めた時間間隔でハードウェアセンサー群30を構成する各センサー31の値を取得すると共に、タイムスタンプとするタイマの値(時刻情報)を取得する。管理部61は、取得した各センサー31の値、及びタイマの値を記憶部62、及びレジスタ63にそれぞれ格納する。
記憶部62、及びレジスタ63に格納されるデータは、各センサー31の値が例え同じであっても、タイムスタンプは変化する。そのことに着目し、本実施形態では、BMC26が正常に動作しているか否かの確認に各センサー31の値に加えて、タイムスタンプを用いている。
一方、監視装置21の監視部51は、通信経路70−1、更には通信経路70−2を介した通信を通して、BMC26の状態を判断する監視を行う機能である。
第1の通信部52は、通信経路70−1を介した通信をBMC26と行うための機能である。そのため、通信は、IPMIを用いて行われる。
第2の通信部53は、通信経路70−2を介した通信をBMC26と行うための機能である。そのため、通信は、IPMIとは異なる通信規格、及びアドレスを用いて行われる。
監視部51は、例えば予め定められた時間間隔でBMC26にセンサー値の送信を要求する。その要求は、最初に第1の通信部52を用いて行い、第1の通信部52が応答としてセンサー値を受信できない場合、第2の通信部53を用いて行う。そのように、必要に応じて異なる通信経路70−2を用いてセンサー値を要求することにより、通信経路70−1に係わる障害の発生の有無に関係なく、BMC26が正常に動作しているか否か確認することができる。
BMC26は、第1の応答部64がセンサー値の送信要求を受信した場合、管理部61は、記憶部62に格納されているセンサー値等を読み出し、読み出したセンサー値等(図4)を応答として、第1の応答部64から送信させる。第2の応答部65は、センサー値の送信要求を受信した場合、レジスタ63に格納されているセンサー値等を読み出し、読み出したセンサー値等を応答として送信する。そのようにして、第2の応答部65は、管理部61とは独立して動作する。そのため、管理プログラムが正常に動作していなくとも、第2の応答部65によってセンサー値等が応答として監視装置21に送信される。それにより、監視装置21は、通信経路70−2による通信が正常に行えるか否かを確認することができる。
管理プログラム(管理部61)が正常に動作していない場合、レジスタ63のセンサー値も正常に更新されない。そのため、監視装置21は、応答として受信するセンサー値等により、BMC26、つまり管理部61が正常に動作しているか否か確認することができる。
図6は、監視処理のフローチャートである。監視装置21を実現させる監視プログラムは、CPU21にその監視処理を定期的に実行させることにより、BMC26の状態を監視し、必要に応じて、その監視結果を端末装置3に通知する。次に図6を参照し、監視プログラムによって実現される監視処理について詳細に説明する。
先ず、CPU21は、IPMIを用いた通信により、BMC26にセンサー値を要求する問い合わせを行う(S1)。次にCPU21は、その問い合わせの応答をBMC26から受信したか否か判定する(S2)。問い合わせを送信させてから所定時間が経過する前にその応答を受信できなかった場合、S2の判定はnoとなってS4に移行する。その所定時間が経過する前に応答を受信した場合、S2の判定はyesとなってS3に移行する。
S3では、CPU21は、応答として受信したセンサー値等をメモリ22に保存する。その後、この監視処理が終了する。センサー値等を受信できたことから、BMC26は正常に動作していると見なされる。
S4では、CPU21は、IPMI以外の通信規格を用いた通信により、BMC26にセンサー値を要求する問い合わせを行う。次にCPU21は、その問い合わせの応答をBMC26から受信したか否か判定する(S5)。問い合わせを送信してから所定時間が経過する前にその応答を受信できなかった場合、S5の判定はnoとなってS6に移行する。その所定時間が経過する前に応答を受信した場合、S5の判定はyesとなってS7に移行する。
S6への移行は、通信経路70−1、及び70−2を用いた問い合わせの両方で応答が得られなかったことを意味する。通信経路70−1、及び70−2に係る障害が同時に発生している可能性は非常に低い。このことから、S6では、CPU21は、BMC26に異常が発生している旨を端末装置3に通知する。その後、この監視処理が終了する。端末装置3への通知には、例えばメール、及びSNMP(Simple Network Management Protocol)トラップ等の周知の技術を用いることができる。その通知により、管理者は、BMC26の再起動がOSを実行させた状態(活性状態)で可能なサーバ1であれば、BMC26のみを再起動させることができる。その再起動により、管理者は、BMC26が実行するプログラムによる障害が発生したか否かを確認することができる。再起動を行ってもBMC26が正常に動作しないのであれば、管理者は、BMC26自体に障害が発生している、或いは2つの通信経路70−1、及び70−2に係る障害が同時に発生していると判断することができる。
S7では、CPU21は、応答として受信したセンサー値等を、その内容を確認するためにメモリ22に保存する。次にCPU21は、保存したセンサー値等を参照して、SDR情報26cbに定義されている全てのセンサー31の値が含まれているか否か判定する(S8)。SDR情報26cbに定義されている全てのセンサー31の値が含まれている場合、S8の判定はyesとなってS12に移行する。SDR情報26cbに定義されている全てのセンサー31の値が含まれていない場合、S8の判定はnoとなってS9に移行する。
何らかの理由により、BMC26が値を取得できなかったセンサー31が生じた、或いは通信の途中で何れかのセンサー31の値が消失した、といった可能性がある。そのため、本実施形態では、予め定めた回数を上限に、センサー値の送信を要求するリトライを行うようにしている。上限とする回数は図9中「α」と表記している。
S9では、CPU21は、リトライ回数が回数αと等しいか否か判定する。回数αに達するまでリトライを行った場合、S9の判定はyesとなってS11に移行する。リトライ回数が回数αに達していない場合、S9の判定はnoとなってS10に移行する。
S10では、CPU21は、予め定めた時間が経過するのを待つ。その時間は、BMC26が各センサー31の値を取得する時間間隔以上の時間である。その時間が経過した後は上記S4に戻る。それにより、リトライを行う。
S11では、CPU21は、BMC26の異常を端末装置3に通知する。その通知後、この監視処理が終了する。
上記S8の判定がyesとなって移行するS12では、CPU21は、直前に実行したS7で保存した各センサー31の値、例えばタイムスタンプを、その前に保存した各センサー31のタイムスタンプと比較する。今回、保存した各センサー31の値の比較対象となる各センサー31の値は、直前に実行したS3で保存した各センサー31の値か、或いは1つ前に実行したS7で保存した各センサー31の値である。
比較を行ったCPU21は、次に、センサー31のなかでタイムスタンプが同じセンサー31、つまりタイムスタンプが更新されていないセンサー31があるか否か判定する(S13)。タイムスタンプが更新されていないセンサー31が存在する場合、S13の判定はyesとなって上記S11に移行する。全てのセンサー31でタイムスタンプが更新されていた場合、S13の判定はnoとなってS14に移行する。
S14への移行は、BMC26が各センサー31の値等の取得を正常に行っていることを意味する。そのため、IPMIを用いた通信によりセンサー値等を取得できなかった原因は、通信経路70−1に係わる障害(異常)である可能性が高い。このことから、S14では、CPU21は、通信経路70−1(図6中「IPMI通信経路」と表記)に異常が発生している旨を端末装置3に通知する。その後、この監視処理が終了する。
なお、本実施形態では、同じSB10上に存在するCPU21にBMC26の状態を監視させているが、別のSB10上、或いは異なる場所に設けられたCPUに、1つ以上のSB10のBMC26の状態を監視させても良い。つまり1台の監視装置に、複数台のBMC(管理装置)を監視させても良い。その監視装置は、サーバ1の外部に配置されていても良い。
また、本実施形態では、CPU21に、BMC26から取得するセンサー値を用いて、そのBMC26の状態の監視を行わせているが、監視に用いるデータはセンサー値、タイムスタンプ以外のデータであっても良い。CPU21による監視は、BMC26から受信したセンサー値(及びタイムスタンプ)の内容を確認することで行っているが、センサー値の内容の確認は、センサー値の送信側で行わせても良い。つまり、CPU21は、センサー値の内容の確認結果を受信して、BMC26の状態を判断し、その判断結果を端末装置3等に通知するものであっても良い。
本実施形態では、第2の応答部65にセンサー値の送信を単独で行わせているが、管理部61の制御で第2の応答部65にセンサー値を送信させるようにしても良い。そのようにした場合であっても、通信経路70−1、及び70−2に係る障害が同時に発生していなければ、その2つの通信経路70−1、及び70−2の通信を通して、管理部61が正常に動作しているか否か確認することができる。
上記以外にも、様々な変形を行うことができる。
以上の変形例を含む実施形態に関し、更に以下の付記を開示する。
(付記1)
管理用に搭載された管理装置、及び前記管理装置の監視を行う監視装置を備え、
前記管理装置は、
第1のプロトコルにより通信を行う第1の通信部と、
第2のプロトコルにより通信を行う第2の通信部と、
前記第1の通信部、及び前記第2の通信部を用いて送信する対象となるデータを生成する管理部と、を有し、
前記監視装置は、
前記第1の通信部、及び前記第2の通信部との通信が可能な第3の通信部と、
前記第3の通信部を用いて、前記第1の通信部との通信により前記データの取得を行い、前記データの取得に異常があった場合に、前記第3の通信部を用いて、前記第2の通信部との通信により前記データの取得を行い、前記データの取得に異常が有るか否かを確認することにより、前記管理装置の監視を行う監視部と、
前記監視部による監視結果を通知する通知部と、を有する、
ことを特徴とする情報処理装置。
(付記2)
前記監視部は、前記第2の通信部との通信による前記データの取得に異常が有るか否かの確認結果を基に、前記異常を生じさせた個所を特定し、
前記通知部は、前記監視部が特定した個所を前記監視結果として通知する、
ことを特徴とする付記1記載の情報処理装置。
(付記3)
前記管理装置は、更に
前記第2の通信部が送信対象とする前記データの格納に用いられる記憶部、を有し、
前記記憶部に格納されている前記データは、前記管理部による前記データの生成によって更新され、
前記第2の通信部は、前記監視装置から前記データが要求された場合、前記記憶部に格納されている前記データを送信する、
ことを特徴とする付記1、または2記載の情報処理装置。
(付記4)
第1のプロトコルにより通信を行う第1の通信部と、
第2のプロトコルにより通信を行う第2の通信部と、
搭載された情報処理装置の状態を表し、前記第1の通信部、及び前記第2の通信部を用いて送信する対象となるデータを生成する管理部と、
を有することを特徴とする管理装置。
(付記5)
情報処理装置に管理用に搭載され、プロトコルが異なる第1の伝送路、及び第2の伝送路と接続された管理装置との通信を、前記第1の伝送路を含む第1の通信経路、及び前記第2の伝送路を含む第2の通信経路を介して可能な通信部と、
前記通信部を用いて行う前記第1の通信経路を介した通信により前記管理装置からのデータの取得を行い、前記データの取得に異常があった場合に、前記通信部を用いて行う前記第2の通信経路を介した通信により前記管理装置からの前記データの取得を行い、前記データの取得に異常が有るか否かを確認することにより、前記管理装置の監視を行う監視部と、
前記監視部による監視結果を通知する通知部と、
を有することを特徴とする監視装置。
(付記6)
情報処理装置に管理用に搭載され、プロトコルが異なる第1の伝送路、及び第2の伝送路と接続された管理装置との通信を、前記第1の伝送路を含む第1の通信経路、及び前記第2の伝送路を含む第2の通信経路を介して可能なコンピュータに、
前記第1の通信経路を介した通信により前記管理装置からのデータの取得を行い、前記データの取得に異常があった場合に、前記第2の通信経路を介した通信により前記管理装置からの前記データの取得を行い、前記第2の通信経路を介した通信による前記データの取得に異常が有るか否かを確認することにより、前記管理装置の監視を行わせ、
前記監視の結果を通知させる、
処理を実行させる監視プログラム。
(付記7)
情報処理装置に管理用に搭載された管理装置に、プロトコルが異なる第1の伝送路、及び第2の伝送路と接続させ、
前記第1の伝送路を含む第1の通信経路、及び前記第2の伝送路を含む第2の通信経路を介して前記管理装置との通信を可能とさせた監視装置に、
前記第1の通信経路を介した通信により前記管理装置からのデータの取得を行い、前記データの取得に異常があった場合に、前記第2の通信経路を介した通信により前記管理装置からの前記データの取得を行い、前記第2の通信経路を介した通信による前記データの取得に異常が有るか否かを確認することにより、前記管理装置の監視を行わせ、
前記監視の結果を通知させる、
ことを特徴とする管理装置の監視方法。
1 サーバ
2 ネットワーク
3 端末装置(PC)
10 SB
21 CPU
22 メモリ
24 チップセット
25 フラッシュメモリ
26 BMC
26a 第1のインターフェース部24a
26b 第2のインターフェース部24b
26c ROM
26ca プログラム
26cb SDR情報
26d プロセッサ
26e メモリ
26f IOインターフェース部
30 ハードウェアセンサー群
31 センサー
51 監視部
52 第1の通信部
53 第2の通信部
61 管理部
62 記憶部
63 レジスタ
64 第1の応答部
65 第2の応答部
70、70−1、70−2 通信経路

Claims (5)

  1. 管理用に搭載された管理装置、及び前記管理装置の監視を行う監視装置を備え、
    前記管理装置は、
    第1のプロトコルにより通信を行う第1の通信部と、
    第2のプロトコルにより通信を行う第2の通信部と、
    前記第1の通信部、及び前記第2の通信部を用いて送信する対象となるデータを生成する管理部と、を有し、
    前記監視装置は、
    前記第1の通信部、及び前記第2の通信部との通信が可能な第3の通信部と、
    前記第3の通信部を用いて、前記第1の通信部との通信により前記データの取得を行い、前記データの取得に異常があった場合に、前記第3の通信部を用いて、前記第2の通信部との通信により前記データの取得を行い、前記データの取得に異常が有るか否かを確認することにより、前記管理装置の監視を行う監視部と、
    前記監視部による監視結果を通知する通知部と、を有する、
    ことを特徴とする情報処理装置。
  2. 前記監視部は、前記第2の通信部との通信による前記データの取得に異常が有るか否かの確認結果を基に、前記異常を生じさせた個所を特定し、
    前記通知部は、前記監視部が特定した個所を前記監視結果として通知する、
    ことを特徴とする請求項1記載の情報処理装置。
  3. 前記管理装置は、更に
    前記第2の通信部が送信対象とする前記データの格納に用いられる記憶部、を有し、
    前記記憶部に格納されている前記データは、前記管理部による前記データの生成によって更新され、
    前記第2の通信部は、前記監視装置から前記データが要求された場合、前記記憶部に格納されている前記データを送信する、
    ことを特徴とする請求項1、または2記載の情報処理装置。
  4. 情報処理装置に管理用に搭載され、プロトコルが異なる第1の伝送路、及び第2の伝送路と接続された管理装置との通信を、前記第1の伝送路を含む第1の通信経路、及び前記第2の伝送路を含む第2の通信経路を介して可能な通信部と、
    前記通信部を用いて行う前記第1の通信経路を介した通信により前記管理装置からのデータの取得を行い、前記データの取得に異常があった場合に、前記通信部を用いて行う前記第2の通信経路を介した通信により前記管理装置からの前記データの取得を行い、前記データの取得に異常が有るか否かを確認することにより、前記管理装置の監視を行う監視部と、
    前記監視部による監視結果を通知する通知部と、
    を有することを特徴とする監視装置。
  5. 情報処理装置に管理用に搭載され、プロトコルが異なる第1の伝送路、及び第2の伝送路と接続された管理装置との通信を、前記第1の伝送路を含む第1の通信経路、及び前記第2の伝送路を含む第2の通信経路を介して可能なコンピュータに、
    前記第1の通信経路を介した通信により前記管理装置からのデータの取得を行い、前記データの取得に異常があった場合に、前記第2の通信経路を介した通信により前記管理装置からの前記データの取得を行い、前記第2の通信経路を介した通信による前記データの取得に異常が有るか否かを確認することにより、前記管理装置の監視を行わせ、
    前記監視の結果を通知させる、
    処理を実行させる監視プログラム。
JP2013228674A 2013-11-01 2013-11-01 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法 Active JP6303405B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013228674A JP6303405B2 (ja) 2013-11-01 2013-11-01 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法
US14/457,639 US9454452B2 (en) 2013-11-01 2014-08-12 Information processing apparatus and method for monitoring device by use of first and second communication protocols

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013228674A JP6303405B2 (ja) 2013-11-01 2013-11-01 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法

Publications (2)

Publication Number Publication Date
JP2015088124A true JP2015088124A (ja) 2015-05-07
JP6303405B2 JP6303405B2 (ja) 2018-04-04

Family

ID=53007985

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013228674A Active JP6303405B2 (ja) 2013-11-01 2013-11-01 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法

Country Status (2)

Country Link
US (1) US9454452B2 (ja)
JP (1) JP6303405B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020119173A (ja) * 2019-01-23 2020-08-06 Necプラットフォームズ株式会社 情報処理装置、情報処理装置の制御方法、及び、情報処理装置の制御プログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006072717A (ja) * 2004-09-02 2006-03-16 Hitachi Ltd ディスクサブシステム
JP2006343822A (ja) * 2005-06-07 2006-12-21 Fujitsu Ltd ライブラリ装置
JP2007172363A (ja) * 2005-12-22 2007-07-05 Fujitsu Ltd I2cバスのデータ伝送装置、及びその方法、並びにi2cバスのデータ伝送プログラム
JP2007249389A (ja) * 2006-03-14 2007-09-27 Nec Computertechno Ltd クラスタシステムおよびその障害検出方法
US20110209148A1 (en) * 2010-02-25 2011-08-25 Fujitsu Limited Information processing device, virtual machine connection method, program, and recording medium
WO2012029147A1 (ja) * 2010-09-01 2012-03-08 富士通株式会社 システムおよび障害処理方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3327455B2 (ja) 1996-12-02 2002-09-24 横河電機株式会社 二重化制御装置
JP4620483B2 (ja) 2005-02-07 2011-01-26 富士通株式会社 コンピュータシステム,コンピュータ,io拡張装置およびio拡張装置接続認識方法
CN1863081B (zh) * 2005-10-14 2010-05-05 华为技术有限公司 基板管理控制器的管理系统和方法
JP2008176682A (ja) 2007-01-22 2008-07-31 Renesas Technology Corp 半導体集積回路及びデータ処理システム
US7966441B2 (en) * 2008-03-04 2011-06-21 Aten International Co., Ltd. Interfacing apparatus and method using a single predetermined communication protocol for accessing remote peripheral devices that use different communication protocols
US7861110B2 (en) * 2008-04-30 2010-12-28 Egenera, Inc. System, method, and adapter for creating fault-tolerant communication busses from standard components
US8305883B2 (en) * 2009-03-20 2012-11-06 Intel Corporation Transparent failover support through pragmatically truncated progress engine and reversed complementary connection establishment in multifabric MPI implementation
DE112009004708T5 (de) * 2009-04-28 2013-01-03 Hewlett-Packard Development Company, L.P. Netzwerkschnittstelle
US20120017074A1 (en) * 2010-07-16 2012-01-19 International Business Machines Corporation Dynamic system mode switching
TWI423039B (zh) * 2010-07-23 2014-01-11 Quanta Comp Inc 伺服器系統與其操作方法
CN107977299B (zh) * 2012-03-28 2022-01-25 英特尔公司 利用可配置和容错的基板管理控制器安排的方法及系统
US9367419B2 (en) * 2013-01-08 2016-06-14 American Megatrends, Inc. Implementation on baseboard management controller of single out-of-band communication access to multiple managed computer nodes
US10587453B2 (en) * 2013-03-12 2020-03-10 American Megatrends International, Llc Method and apparatus for IPMI-bridge-server for non-IPMI devices
US9331899B2 (en) * 2013-03-13 2016-05-03 American Megatrends, Inc. Scalable BMC management stacks using virtual networks on single physical network device
US9274998B2 (en) * 2013-07-30 2016-03-01 Infineon Technologies Ag Drive train control
GB2520343A (en) * 2013-11-19 2015-05-20 Ibm A system having a cluster of communication controllers and a method for modification of the latter
US10050901B2 (en) * 2014-04-22 2018-08-14 Cisco Technology, Inc. Efficient management and configuration of in-band resources
TW201541244A (zh) * 2014-04-28 2015-11-01 Hon Hai Prec Ind Co Ltd 動態調整監控模式的系統、方法及伺服器
US8935567B1 (en) * 2014-04-30 2015-01-13 Igneous Systems, Inc. Network addressable storage controller with storage drive profile comparison

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006072717A (ja) * 2004-09-02 2006-03-16 Hitachi Ltd ディスクサブシステム
JP2006343822A (ja) * 2005-06-07 2006-12-21 Fujitsu Ltd ライブラリ装置
JP2007172363A (ja) * 2005-12-22 2007-07-05 Fujitsu Ltd I2cバスのデータ伝送装置、及びその方法、並びにi2cバスのデータ伝送プログラム
JP2007249389A (ja) * 2006-03-14 2007-09-27 Nec Computertechno Ltd クラスタシステムおよびその障害検出方法
US20110209148A1 (en) * 2010-02-25 2011-08-25 Fujitsu Limited Information processing device, virtual machine connection method, program, and recording medium
WO2012029147A1 (ja) * 2010-09-01 2012-03-08 富士通株式会社 システムおよび障害処理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020119173A (ja) * 2019-01-23 2020-08-06 Necプラットフォームズ株式会社 情報処理装置、情報処理装置の制御方法、及び、情報処理装置の制御プログラム

Also Published As

Publication number Publication date
US9454452B2 (en) 2016-09-27
JP6303405B2 (ja) 2018-04-04
US20150127996A1 (en) 2015-05-07

Similar Documents

Publication Publication Date Title
US8719410B2 (en) Native bi-directional communication for hardware management
JP6383839B2 (ja) リモートkvmセッションに使用する方法、記憶装置及びシステム
TWI618380B (zh) 管理方法、服務控制器裝置以及非暫態電腦可讀取媒體
US9619243B2 (en) Synchronous BMC configuration and operation within cluster of BMC
US8838286B2 (en) Rack-level modular server and storage framework
US9021472B2 (en) Virtualizing baseboard management controller operation
JP4558519B2 (ja) 情報処理装置およびシステムバス制御方法
US20080043769A1 (en) Clustering system and system management architecture thereof
JP5561622B2 (ja) 多重化システム、データ通信カード、状態異常検出方法、及びプログラム
CN104639380A (zh) 服务器监控方法
JP5296036B2 (ja) マルチプロセッサコンピュータシステムでのdmi冗長
US8695107B2 (en) Information processing device, a hardware setting method for an information processing device and a computer readable storage medium stored its program
US20140204734A1 (en) Node device, communication system, and method for switching virtual switch
US20120324088A1 (en) Multi-service node management system, device and method
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
US9712382B2 (en) Retrieving console messages after device failure
JP2010140361A (ja) コンピュータシステム及び異常検出回路
US10852792B2 (en) System and method for recovery of sideband interfaces for controllers
TW201729097A (zh) 機櫃裝置
JP6303405B2 (ja) 情報処理装置、管理装置、監視装置、監視プログラム、及び管理装置の監視方法
WO2017072904A1 (ja) 計算機システム、及び、障害検知方法
JP5332257B2 (ja) サーバシステム、サーバ管理方法、およびそのプログラム
JP6357879B2 (ja) システムおよび障害処理方法
Brey et al. BladeCenter chassis management
JP6424134B2 (ja) 計算機システム及び計算機システムの制御方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160705

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170713

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180219

R150 Certificate of patent or registration of utility model

Ref document number: 6303405

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150