JP2016167213A - ブレード装置およびブレード装置管理方法 - Google Patents

ブレード装置およびブレード装置管理方法 Download PDF

Info

Publication number
JP2016167213A
JP2016167213A JP2015047205A JP2015047205A JP2016167213A JP 2016167213 A JP2016167213 A JP 2016167213A JP 2015047205 A JP2015047205 A JP 2015047205A JP 2015047205 A JP2015047205 A JP 2015047205A JP 2016167213 A JP2016167213 A JP 2016167213A
Authority
JP
Japan
Prior art keywords
bmc
management
enclosure manager
manager
management target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015047205A
Other languages
English (en)
Inventor
幸一 森澤
Koichi Morisawa
幸一 森澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2015047205A priority Critical patent/JP2016167213A/ja
Publication of JP2016167213A publication Critical patent/JP2016167213A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】エンクロージャマネージャがブレード筐体内の各管理対象ユニットを管理することができない場合であっても、各管理対象ユニットの管理を維持するブレード装置を提供する。
【解決手段】エンクロージャマネージャ2及びベースボードマネージメントコントローラ4は、切り替えスイッチ8を介して、各管理対象ユニット(サーバブレード3、スイッチモジュール7、電源ユニット/ファン/温度センサ9A)に接続可能な構成とする。エンクロージャマネージャ2が各管理対象ユニットを管理することができない場合、切り替えスイッチ8を切り替えて、ベースボードマネージメントコントローラ4が、エンクロージャマネージャ2に代わって、各管理対象ユニットを管理する。
【選択図】図1

Description

本発明は、ブレード(刃)型の複数サーバをサーバブレードとしてエンクロージャ(筐体)内に収納してなるブレード装置およびブレード装置管理方法に関する。
サーバの構成技術として、特許文献1の特開2008-165803号公報「ブレードサーバ管理システム」や特許文献2の特開2012−203442号公報「エンクロージャマネージャ、ファームウェア管理システム、ファームウェア管理方法およびプログラム」等にも記載されているように、近年、ブレード(刃)型の複数サーバをサーバブレードとしてエンクロージャ(筐体)内に収納するとともに、ネットワークスイッチやファイバチャネルスイッチ等のスイッチモジュールや温度センサ/ファン/電源ユニット等をエンクロージャ(筐体)内に収納し、エンクロージャ(筐体)内に装備されているプレーン上のスイッチを介して接続する「ブレード装置」と称する技術が実用化されている。
ブレード装置においては、エンクロージャマネージャ(EM:Enclosure Manager)が搭載されていて、ブレード装置内の各管理対象ユニットにアクセスすることを可能とすることにより、例えば、スイッチモジュール設定機能、電源管理機能、冷却管理機能、筐体管理機能、システム情報監視機能、等の各種の管理機能を実施している。
例えば、図6に示すようなブレード装置1においては、エンクロージャマネージャ(EM)2が、選択信号21を使用して、プレーン上のセレクタ20を切り替えながら、管理対象ユニット(サーバブレード3、スイッチモジュール7、電源ユニット/ファン/温度センサ9A)の管理を、EM管理I/F2Aから管理用I/F5を介して行っている。ここで、図6は、従来技術におけるブレード装置の内部構成の一例を示すブロック構成図である。
また、図7のブレード装置1の場合には、エンクロージャマネージャ(EM)2a, エンクロージャマネージャ(EM)2bのように、エンクロージャマネージャ(EM)を複数搭載し、EM調停選択信号23によって、複数のエンクロージャマネージャ(EM)2a, エンクロージャマネージャ(EM)2bのいずれがブレード装置1を管理するかを調停する冗長構成とし、EM選択スイッチ22を切り替えることによって、エンクロージャマネージャ(EM)2の故障等によりいずれか片方が取り外された場合であっても、ブレード装置1の管理を継続することを可能にしている。ここで、図7は、従来技術におけるブレード装置の内部構成の他の例を示すブロック構成図である。
特開2008-165803号公報(第4−5頁) 特開2012−203442号公報(第6−9頁)
しかし、図6に示すような従来のブレード装置1の構成においては、エンクロージャマネージャ(EM)2が故障等によって取り外された場合に、ブレード装置1の管理ができなくなってしまうという問題がある。また、図7に示すような従来のブレード装置1の構成においては、複数のエンクロージャマネージャ(EM)2a, エンクロージャマネージャ(EM)2bを搭載することが必要であり、コストがかかってしまうという問題がある。
(本発明の目的)
本発明は、前述のような問題に鑑みてなされたものであり、エンクロージャマネージャ(EM)の故障もしくは抜去によって、エンクロージャマネージャ(EM)がブレード筐体内の各管理対象ユニットを管理することができない場合であっても、サーバブレード上のベースボードマネージメントコントローラ(BMC:Baseboard Management Controller:サーバを管理するための管理プロセッサ)によって、ブレード筐体内の管理対象ユニットの管理を維持することが可能なブレード装置およびブレード装置管理方法を提供することを、その目的としている。
前述の課題を解決するため、本発明によるブレード装置およびブレード装置管理方法は、主に、次のような特徴的な構成を採用している。
(1)本発明によるブレード装置は、サーバを管理するための管理プロセッサであるベースボードマネージメントコントローラ(BMC)を搭載したサーバブレード、スイッチモジュール、電源ユニットの各ユニットを含む各管理対象ユニットの管理を行うエンクロージャマネージャ(EM)を有するブレード装置であって、前記エンクロージャマネージャ(EM)および前記ベースボードマネージメントコントローラ(BMC)は、切り替えスイッチを介して、各前記管理対象ユニットに接続することが可能な構成とし、前記エンクロージャマネージャ(EM)が各前記管理対象ユニットを管理することができない場合、前記切り替えスイッチを切り替えて、前記ベースボードマネージメントコントローラ(BMC)が、前記エンクロージャマネージャ(EM)に代わって、各前記管理対象ユニットを管理することを特徴とする。
(2)本発明によるブレード装置管理方法は、サーバを管理するための管理プロセッサであるベースボードマネージメントコントローラ(BMC)を搭載したサーバブレード、スイッチモジュール、電源ユニットの各ユニットを含む各管理対象ユニットの管理を行うエンクロージャマネージャ(EM)を有するブレード装置におけるブレード装置管理方法であって、前記エンクロージャマネージャ(EM)および前記ベースボードマネージメントコントローラ(BMC)は、切り替えスイッチを介して、各前記管理対象ユニットに接続することが可能な構成とし、前記エンクロージャマネージャ(EM)が各前記管理対象ユニットを管理することができない場合、前記切り替えスイッチを切り替えて、前記ベースボードマネージメントコントローラ(BMC)が、前記エンクロージャマネージャ(EM)に代わって、各前記管理対象ユニットを管理することを特徴とする。
本発明のブレード装置およびブレード装置管理方法によれば、以下のような効果を奏することができる。
第1に、ブレード装置の管理対象ユニットを管理するエンクロージャマネージャ(EM)の故障もしくは抜去時においては、エンクロージャマネージャ(EM)が故障・抜去から元の状態に復旧するまでの間、サーバブレード上に搭載されているベースボードマネージメントコントローラ(BMC)が、エンクロージャマネージャ(EM)に代わって、ブレード装置の管理対象ユニットを管理するので、エンクロージャマネージャ(EM)を故障・抜去時に備えて複数枚搭載して冗長構成にする必要はなく、エンクロージャマネージャ(EM)は1枚だけ搭載すれば良く、ブレード装置の装置コストを抑えることができる。
第2に、ベースボードマネージメントコントローラ(BMC)が、エンクロージャマネージャ(EM)に代わって、ブレード装置の管理対象ユニットを管理する際に、ブレード装置の管理対象ユニットを複数の管理対象グループにグループ分けして、複数のベースボードマネージメントコントローラ(BMC)それぞれに管理業務を分散させて割り当てることができるので、エンクロージャマネージャ(EM)の代替処理に伴うベースボードマネージメントコントローラ(BMC)の負荷の増加を軽減することができる。
本発明によるブレード装置の内部構成の要部の一例を示すブロック構成図である。 本発明の実施形態に係るブレード装置の内部構成の一例を示すブロック構成図である。 図2に例示したブレード装置の各ベースボードマネージメントコントローラ(BMC)が、エンクロージャマネージャ(EM)に代わって、ブレード装置の各管理対象グループを分担して管理する際の切り替えスイッチの接続状態の一例を示す模式図である。 図2に例示したブレード装置の各ベースボードマネージメントコントローラ(BMC)のいずれかが、エンクロージャマネージャ(EM)に代わって、ブレード装置の管理対象ユニット全てを一括して管理する際の切り替えスイッチの接続状態の一例を示す模式図である。 図2に例示したブレード装置の管理対象ユニットを複数にグループ分けした各管理対象グループのベースボードマネージメントコントローラ(BMC)への割り当て動作の一例を示すフローチャートである。 従来技術におけるブレード装置の内部構成の一例を示すブロック構成図である。 従来技術におけるブレード装置の内部構成の他の例を示すブロック構成図である。
以下、本発明によるブレード装置およびブレード装置管理方法の好適な実施形態について添付図を参照して説明する。なお、以下の各図面に付した図面参照符号は、理解を助けるための一例として各要素に便宜上付記したものであり、本発明を図示の態様に限定することを意図するものではないことも言うまでもない。
(本発明の特徴)
本発明の実施形態の説明に先立って、本発明の特徴についてその概要をまず説明する。本発明は、ブレード装置の管理対象ユニットを管理するエンクロージャマネージャ(EM)の故障もしくは抜去時においては、エンクロージャマネージャ(EM)が故障・抜去から元の状態に復旧するまでの間、サーバブレード上に搭載されているベースボードマネージメントコントローラ(BMC:サーバ管理用のプロセッサ)が、エンクロージャマネージャ(EM)に代わって、ブレード装置の管理対象ユニットを管理することを主要な特徴としている。而して、エンクロージャマネージャ(EM)を故障・抜去時に備えて複数枚搭載して冗長構成にする必要はなく、エンクロージャマネージャ(EM)は1枚だけ搭載すれば良く、ブレード装置の装置コストを抑えることができるという効果を得ることができる。
すなわち、本発明においては、図1に例示するように、ブレード装置1のエンクロージャマネージャ(EM)は、各管理対象ユニット(サーバブレード3、スイッチモジュール7、電源ユニット/ファン/温度センサ9A)に対して、該エンクロージャマネージャ(EM)2のEM管理I/F2Aから切り替えスイッチ8、管理用I/F5を介してアクセスすることにより、ブレード装置1全体の管理を行っている。ここで、図1は、本発明によるブレード装置の内部構成の要部の一例を示すブロック構成図である。本発明は、図1の構成において、エンクロージャマネージャ(EM)2が故障交換等によって存在しなくなった場合には、BMC側設定信号14により切り替えスイッチ制御回路15から出力される切り替えスイッチ設定信号16を用いて、切り替えスイッチ8の接続状態を切り替えて、複数のサーバブレード3に管理プロセッサとして搭載されているベースボードマネージメントコントローラ(BMC)4から、各管理対象ユニットにアクセス可能な接続状態に設定し、ブレード装置1全体の管理を、エンクロージャマネージャ(EM)2に代わって、一時的に代替して実施することができることを主要な特徴としている。本発明の特徴についてさらに説明すると、次の通りである。
(1)従来技術として示した例えば図6のブレード装置1の場合においても、サーバブレード3上にはベースボードマネージメントコントローラ(BMC)4が搭載されている。しかし、サーバブレード3上に搭載されているマネジメントI/F5においては、エンクロージャマネージャ(EM)2によってサーバブレード3を管理対象ユニットとして管理するために、エンクロージャマネージャ(EM)2とサーバブレード3との間をそれぞれ1対1で選択しながら接続するだけであるので、サーバブレード3に搭載されたベースボードマネージメントコントローラ(BMC)4は、エンクロージャマネージャ(EM)2と通信することができるだけであり、他の管理対象ユニット(スイッチモジュール7、電源ユニット/ファン/温度センサ9A)にアクセスすることができない。
これに対して、本発明の一例を示した図1のブレード装置1の場合には、前述したように、切り替えスイッチ制御回路15を介して出力される切り替えスイッチ設定信号16により切り替えスイッチ8の接続状態を切り替えることができるので、どのサーバブレード3上のベースボードマネージメントコントローラ(BMC)4であっても、切り替えスイッチ8の接続を経由して、他の管理対象ユニット(スイッチモジュール7、電源ユニット/ファン/温度センサ9A)にアクセスすることができることを特徴としている。而して、エンクロージャマネージャ(EM)2が故障交換等によって存在しなくなった場合には、ベースボードマネージメントコントローラ(BMC)4が、ブレード装置1の管理作業を一時的に代替する(複数のベースボードマネージメントコントローラ(BMC)4が実装されている場合には、それぞれに管理業務の負担を分担させて代替する)ことによって、ブレード装置1を管理することができる
(2)ブレード装置1の稼働中においては、エンクロージャマネージャ(EM)2とベースボードマネージメントコントローラ(BMC)4とは、定期的に通信を行い、エンクロージャマネージャ(EM)2が正常動作していることを確認することも特徴としている。また、エンクロージャマネージャ(EM)2は、ブレード装置1の構成情報(管理対象ユニットの種類と個数)に基づいて、管理対象ユニットのグループ分けを行い、各サーバブレード3上のベースボードマネージメントコントローラ(BMC)4に対して、グループ分けした管理対象グループに関する情報をあらかじめ配信しておく。
(3)エンクロージャマネージャ(EM)2が故障もしくは抜去され、ベースボードマネージメントコントローラ(BMC)4が、エンクロージャマネージャ(EM)2と正常に通信することができないことを検出すると、切り替えスイッチ制御回路15を制御して、エンクロージャマネージャ(EM)2を切り離す。また、複数のサーバブレード3に搭載されたベースボードマネージメントコントローラ(BMC)4間で調停を行い、グループ分けされているブレード装置1の管理対象グループそれぞれを管理するベースボードマネージメントコントローラ(BMC)4を割り当てることも特徴としている。
かくのごとく、管理対象ユニットの管理業務を複数のベースボードマネージメントコントローラ(BMC)4に分散させて割り当てることにより、エンクロージャマネージャ(EM)2の代替作業を行うことが可能になり、また、代替作業を行うベースボードマネージメントコントローラ(BMC)4の負荷を軽減することもできる。
(本発明の実施形態)
次に、本発明の実施形態に係るブレード装置の構成例について、図2を用いて説明する。図2は、本発明の実施形態に係るブレード装置の内部構成の一例を示すブロック構成図である。
図2のブロック構成図に示すブレード装置1においては、エンクロージャマネージャ(EM)2と各管理対象ユニット(サーバブレード3、スイッチモジュール7、ファン9、温度センサ10、電源ユニット11)とが、ミッドプレーン6を介して接続されている。図2においては、各管理対象ユニットに関し、サーバブレード3として、サーバブレード3a、サーバブレード3b、…、サーバブレード3cが、また、スイッチモジュール7として、スイッチモジュール7a、スイッチモジュール7b、…、スイッチモジュール7cが、また、ファン9として、ファン9a、…、ファン9bが、また、温度センサ10として、温度センサ10a、…、温度センサ10bが、また、電源ユニット11として、電源ユニット11a、…、電源ユニット11bがそれぞれ実装されている。
また、サーバブレード3a、サーバブレード3b、…、サーバブレード3cそれぞれには、それぞれのサーバの管理を行う管理プロセッサとして、ベースボードマネージメントコントローラ(BMC)4a、ベースボードマネージメントコントローラ(BMC)4b、…、ベースボードマネージメントコントローラ(BMC)4cがそれぞれ実装されている。
また、ミッドプレーン6上には、切り替えスイッチ8と切り替えスイッチ制御回路15とが実装されている。切り替えスイッチ8には、エンクロージャマネージャ(EM)2および各管理対象ユニット(サーバブレード3、スイッチモジュール7、ファン9、温度センサ10、電源ユニット11)の管理用I/F5が、I2C(Inter Integrated Circuit) Bus17を介して接続されている。
また、切り替えスイッチ制御回路15には、エンクロージャマネージャ(EM)2上のEM制御部12から出力されるEM側設定信号13とサーバブレード3a,3b,…,3c上のベースボードマネージメントコントローラ(BMC)4a,4b,…,4cそれぞれから出力されるBMC側設定信号14とが入力されている。該切り替えスイッチ制御回路15は、エンクロージャマネージャ(EM)2上のEM制御部12から出力されるEM側設定信号13またはサーバブレード3a,3b,…,3c上のベースボードマネージメントコントローラ(BMC)4a,4b,…,4cそれぞれから出力されるBMC側設定信号14の指示によって、生成される切り替えスイッチ設定信号16を使用して、切り替えスイッチ8の内部の接続状態を切り替える制御を行っている。
(実施形態の動作の説明)
次に、本発明の実施形態の一例として図2に示したブレード装置1の動作について詳細に説明する。
図2に示すブレード装置1において、実装されているエンクロージャマネージャ(EM)2が正常に動作している場合には、通常状態として、EM制御部12から出力されるEM側設定信号13によって切り替えスイッチ制御回路15を制御し、切り替えスイッチ8の接続状態を制御している。その結果、エンクロージャマネージャ(EM)2は、切り替えスイッチ8を介して各管理対象ユニット(サーバブレード3、スイッチモジュール7、ファン9、温度センサ10、電源ユニット11)とI2C Bus17を使用して通信することによって各管理対象ユニットの管理を行うことができる。なお、エンクロージャマネージャ(EM)2が正常に動作中の状態にある場合は、各サーバブレード3a,3b,…,3c上のベースボードマネージメントコントローラ(BMC)4a,4b,…,4cは、BMC側設定信号14による切り替えスイッチ制御回路15の制御を行うことはない。
また、ブレード装置1の稼働中においては、ベースボードマネージメントコントローラ(BMC)4a,4b,…,4cは、あらかじめ定めた周期で、定期的に、エンクロージャマネージャ(EM)2と通信を行い、エンクロージャマネージャ(EM)2が正常に動作していることを確認している。
また、エンクロージャマネージャ(EM)2は、自らの故障・抜去に備えて、複数のベースボードマネージメントコントローラ(BMC)4a,4b,…,4cに分散させて管理業務を代替して実施してもらうために、ブレード装置1の管理対象ユニットとなるブレード装置1の構成情報(すなわち管理対象ユニットの種類と数)に基づいて、管理対象ユニットのグループ分けを行い、グループ分けした管理対象グループに関する情報を、各管理対象グループを特定する管理対象グループ番号を付して、サーバブレード3a,3b,…,3c上のベースボードマネージメントコントローラ(BMC)4a,4b,…,4cそれぞれに対してあらかじめ配信しておく。
例えば、エンクロージャマネージャ(EM)2は、管理対象ユニットを次の3つの管理対象グループに分割して、ベースボードマネージメントコントローラ(BMC)4a,4b,…,4cそれぞれに対して配信する。
(1)第1管理対象グループ:スイッチモジュール7a,7b,…,7c、ファン9a,…,9bおよび温度センサ10a,…,10b
(2)第2管理対象グループ: サーバブレード3a,3b,…,3c
(3)第3管理対象グループ:電源ユニット11a,…,11b
エンクロージャマネージャ(EM)2が故障もしくは抜去された場合には、ベースボードマネージメントコントローラ(BMC)4a,4b,…,4cはエンクロージャマネージャ(EM)2と正常に通信することができないことを検出するので、ベースボードマネージメントコントローラ(BMC)4a,4b,…,4cは、BMC側設定信号14を使用して、切り替えスイッチ制御回路15を制御することにより、切り替えスイッチ8の接続状態を制御し、エンクロージャマネージャ(EM)2を切り替えスイッチ8から切り離す。
さらに、エンクロージャマネージャ(EM)2からあらかじめ配信されているグループ分けした管理対象グループに関する情報に基づいて、サーバブレード3a,3b,…,3c上に搭載されたベースボードマネージメントコントローラ(BMC)4a,4b,…,4cそれぞれの間で調停を行い、エンクロージャマネージャ(EM)2に代わって、ブレード装置1の各管理対象ユニット(サーバブレード3、スイッチモジュール7、ファン9、温度センサ10、電源ユニット11)を分担して管理するベースボードマネージメントコントローラ(BMC)4を決定する。
該調停は、例えば、各ベースボードマネージメントコントローラ(BMC)4a,4b,…,4cそれぞれが搭載されているサーバブレード3a,3b,…,3cがどのスロットに実装されているかを、自スロット番号によって確認して、若番側のスロットに実装されているサーバブレード3上のベースボードマネージメントコントローラ(BMC)4から順番に、管理対象グループをあらかじめ定めた順番に(例えば、管理対象グループ番号の若番側から順番に)自ベースボードマネージメントコントローラ(BMC)4の管理対象として割り当てていく。
その結果、例えば、次のように、ベースボードマネージメントコントローラ(BMC)4a,4b,…,4cに、それぞれ、第1,第2,第3管理対象グループを割り当てることになる。
(a)ベースボードマネージメントコントローラ(BMC)4a:第1管理対象グループ(スイッチモジュール7a,7b,…,7c、ファン9a,…,9bおよび温度センサ10a,…,10b)
(b)ベースボードマネージメントコントローラ(BMC)4b:第2管理対象グループ(サーバブレード3a,3b,…,3c)
(c)ベースボードマネージメントコントローラ(BMC)4c:第3管理対象グループ(電源ユニット11a,…,11b)
各ベースボードマネージメントコントローラ(BMC)4a,4b,…,4cそれぞれは、割り当てられた管理対象グループの管理対象ユニットと通信を行うことにより、当該管理対象ユニットの管理を分担して行うために、BMC側設定信号14による切り替えスイッチ制御回路15の制御を行い、切り替えスイッチ8を図3に示すような接続状態に切り替える。その結果、各ベースボードマネージメントコントローラ(BMC)4a,4b,…,4cそれぞれは、割り当てられた管理対象グループの管理対象ユニットにそれぞれのI2C Bus17を使用してアクセスすることにより、割り当てられた管理対象グループの管理対象ユニットそれぞれを、エンクロージャマネージャ(EM)2に代わって管理することができる。
ここで、図3は、図2に例示したブレード装置1の各ベースボードマネージメントコントローラ(BMC)4a,4b,…,4cが、エンクロージャマネージャ(EM)2に代わって、ブレード装置1の各管理対象グループを分担して管理する際の切り替えスイッチ8の接続状態を示す模式図である。図3において、切り替えスイッチ8内に示しているように、エンクロージャマネージャ(EM)2のI2C Bus17は、切り替えスイッチ8から切り離された状態にある。
また、ベースボードマネージメントコントローラ(BMC)4aのI2C Bus17は、図3のBMC4a接続状態31に示すように、切り替えスイッチ8において、第1管理対象グループのスイッチモジュール7a,7b,…,7c、ファン9a,…,9bおよび温度センサ10a,…,10bそれぞれのI2C Bus17と接続された状態にある。また、ベースボードマネージメントコントローラ(BMC)4bのI2C Bus17は、図3のBMC4b接続状態32に示すように、切り替えスイッチ8において、第2管理対象グループのサーバブレード3a,3b,…,3cそれぞれのI2C Bus17と接続された状態にある。また、ベースボードマネージメントコントローラ(BMC)4cのI2C Bus17は、図3のBMC4c接続状態33に示すように、切り替えスイッチ8において、第3管理対象グループの電源ユニット11a,…,11bそれぞれのI2C Bus17と接続された状態にある。
次に、以上のように、各管理対象グループの管理業務をベースボードマネージメントコントローラ(BMC)4に割り当てる動作の流れについて、図5のフローチャートを用いてさらに説明する。図5は、図2に例示したブレード装置1の管理対象ユニットを複数にグループ分けした管理対象グループのベースボードマネージメントコントローラ(BMC)4への割り当て動作の一例を示すフローチャートであり、エンクロージャマネージャ(EM)2に代わって各ベースボードマネージメントコントローラ(BMC)4が互いに分担してブレード装置1の全ての管理対象ユニットを管理する際の動作の流れを示している。
図5のフローチャートにおいて、まず、エンクロージャマネージャ(EM)2は、自らの故障・抜去に備えて、ブレード装置1の管理対象ユニットに関し、ブレード装置1の構成情報(すなわち管理対象ユニットの種類と数)に基づいて、グループ分けを行い、グループ分けした管理対象グループおよび各管理対象グループの割り当て順序を示す管理対象グループ番号に関する情報を、サーバブレード3a,3b,…,3c上のベースボードマネージメントコントローラ(BMC)4a,4b,…,4cそれぞれに対して配信して、ベースボードマネージメントコントローラ(BMC)4a,4b,…,4cそれぞれにあらかじめ保存させておく(ステップS1)。
一方、ベースボードマネージメントコントローラ(BMC)4a,4b,…,4cは、エンクロージャマネージャ(EM)2が正常に動作しているか否かを調べるために、あらかじめ定めた周期で、定期的に、エンクロージャマネージャ(EM)2と通信を行い、通信が可能であるか否かを確認している(ステップS2)。エンクロージャマネージャ(EM)2との通信が不可能になったことを検知すると(ステップS2のNo)、ベースボードマネージメントコントローラ(BMC)4a,4b,…,4cは、エンクロージャマネージャ(EM)2によるブレード装置1の管理業務を停止させるために、BMC側設定信号14を使用して、切り替えスイッチ制御回路15を制御することにより、切り替えスイッチ8の接続状態を制御し、エンクロージャマネージャ(EM)2を切り替えスイッチ8から切り離す(ステップS3)。
しかる後、ベースボードマネージメントコントローラ(BMC)4a,4b,…,4c間の調停を行い、ベースボードマネージメントコントローラ(BMC)4a,4b,…,4cそれぞれは、あらかじめ定めた順番に、例えば、本実施形態においては、若番側のスロットに実装されているサーバブレード3上のベースボードマネージメントコントローラ(BMC)4から順番に、管理対象グループを割り当てていくために、自ベースボードマネージメントコントローラ(BMC)4が搭載されたサーバブレード3が実装されているスロット番号を取得する(ステップS4)。
そして、ベースボードマネージメントコントローラ(BMC)4a,4b,…,4cは、まず、未割り当ての管理対象グループが残っているか否かを確認する(ステップS5)。未割り当ての管理対象グループが残っていなかった場合には(ステップS5のNo)、全ての管理対象グループがベースボードマネージメントコントローラ(BMC)4a,4b,…,4cのいずれかに割り当てられて、それぞれが分担して、エンクロージャマネージャ(EM)2に代わって、ブレード装置1の全ての管理対象ユニットを管理する状態になっているので、本フローチャートを終了する。
一方、未割り当ての管理対象グループがまだ残っていた場合には(ステップS5のYes)、ベースボードマネージメントコントローラ(BMC)4a,4b,…,4cのうち、管理対象グループをまだ割り当てていない未選択の状態にあるベースボードマネージメントコントローラ(BMC)4が残っているか否かを確認する(ステップS6)。
管理対象グループをまだ割り当てていない未選択の状態にあるベースボードマネージメントコントローラ(BMC)4が残っていた場合には(ステップS6のYes)、ベースボードマネージメントコントローラ(BMC)4a,4b,…,4c間の調停結果として、管理対象グループをまだ割り当てていない未選択の状態にあるベースボードマネージメントコントローラ(BMC)4のうち、あらかじめ定めた順番に、例えば、本実施形態においては、ステップS4において取得されている自スロット番号が最若番のベースボードマネージメントコントローラ(BMC)4を未割り当ての管理対象グループの管理業務を割り当てるべきベースボードマネージメントコントローラ(BMC)4として決定する。
決定した自スロット番号が最若番のベースボードマネージメントコントローラ(BMC)4は、未割り当ての管理対象グループのうち最若番の管理対象グループ番号が付されている管理対象グループを選択して、BMC側設定信号14による切り替えスイッチ制御回路15の制御を行い、切り替えスイッチ8の接続状態を切り替えて、選択した管理対象グループの各管理対象ユニットにI2C Bus17を使用してアクセスすることが可能な接続状態に設定する。而して、決定した自スロット番号が最若番のベースボードマネージメントコントローラ(BMC)4は、選択した当該管理対象グループの各管理対象ユニットを管理する状態に移行することができる(ステップS7)。しかる後、まだ未割り当ての管理対象グループが残っているか否かを確認するために、ステップS5の動作に復帰する。
これに対して、ステップS6において、管理対象グループをまだ割り当てていない未選択の状態にあるベースボードマネージメントコントローラ(BMC)4が残っていなく、全てのベースボードマネージメントコントローラ(BMC)4がいずれかの管理対象グループを選択している状態にあった場合には(ステップS6のNo)、ベースボードマネージメントコントローラ(BMC)4a,4b,…,4c間の調停結果として、選択した管理対象グループの個数が最も少ないベースボードマネージメントコントローラ(BMC)4のうち、自スロット番号が最若番のベースボードマネージメントコントローラ(BMC)4を決定する。
決定した自スロット番号が最若番のベースボードマネージメントコントローラ(BMC)4は、残っている未割り当ての管理対象グループのうち最若番の管理対象グループ番号が付されている管理対象グループをさらに選択して、BMC側設定信号14による切り替えスイッチ制御回路15の制御を行い、切り替えスイッチ8の接続状態を切り替えて、選択した管理対象グループの各管理対象ユニットにI2C Bus17を使用してアクセスすることが可能な接続状態に設定する。而して、決定した自スロット番号が最若番のベースボードマネージメントコントローラ(BMC)4は、選択した当該管理対象グループの各管理対象ユニットをさらに追加して管理する状態に移行することができる(ステップS8)。しかる後、まだ未割り当ての管理対象グループが残っているか否かを確認するために、ステップS5の動作に復帰する。
(本発明の他の実施形態)
前述の実施形態においては、エンクロージャマネージャ(EM)2が故障もしくは抜去された場合に、ブレード装置1の管理対象ユニット(サーバブレード3、スイッチモジュール7、ファン9、温度センサ10、電源ユニット11)を複数の管理対象グループにグループ分けして、サーバブレード3a,3b,…,3c上に搭載されたベースボードマネージメントコントローラ(BMC)4a,4b,…,4cそれぞれが、グループ分けされた管理対象グループに応じて、互いに分担して管理する場合について説明した。しかし、本発明はかかる場合に限るものではない。
例えば、図4に一例を示すように、エンクロージャマネージャ(EM)2が故障もしくは抜去された場合には、サーバブレード3a,3b,…,3c上に搭載されたベースボードマネージメントコントローラ(BMC)4a,4b,…,4cのうちいずれかのベースボードマネージメントコントローラ(BMC)4が、エンクロージャマネージャ(EM)2に代わって、ブレード装置1の管理対象ユニット全てを一括して管理するようにしても良い。
図4は、図2に例示したブレード装置の各ベースボードマネージメントコントローラ(BMC)4のいずれかが、エンクロージャマネージャ(EM)2に代わって、ブレード装置1の管理対象ユニット全てを一括して管理する際の切り替えスイッチの接続状態の一例を示す模式図であり、ベースボードマネージメントコントローラ(BMC)4bが、ブレード装置1の管理対象ユニット全てを一括して管理する場合を例示している。すなわち、図4の切り替えスイッチ8内に示しているように、エンクロージャマネージャ(EM)2のI2C Bus17は、切り替えスイッチ8から切り離された状態にあり、また、ベースボードマネージメントコントローラ(BMC)4bのI2C Bus17は、ブレード装置1の全ての管理対象ユニット(サーバブレード3、スイッチモジュール7、ファン9、温度センサ10、電源ユニット11)それぞれのI2C Bus17と接続された状態にある。
また、図2ないし図4に示した実施形態においては、エンクロージャマネージャ(EM)2およびベースボードマネージメントコントローラ(BMC)4それぞれには、切り替えスイッチ8との接続を行うため管理用I/F5として、I2C Bus17を接続する接続インタフェース回路を用いているが、LAN(Local Area Network)やRS232C等のような双方向のデータ通信が可能な接続インタフェース回路であれば、如何なる接続インタフェース回路を用いても構わない。
(実施形態の効果の説明)
以上に詳細に説明したように、本発明の実施形態においては、以下のような効果を期待することができる。
第1に、ブレード装置1の管理対象ユニットを管理するエンクロージャマネージャ(EM)2の故障もしくは抜去時においては、エンクロージャマネージャ(EM)2が故障・抜去から元の状態に復旧するまでの間、サーバブレード3上に搭載されているベースボードマネージメントコントローラ(BMC)4が、エンクロージャマネージャ(EM)2に代わって、ブレード装置1の管理対象ユニットを管理するので、エンクロージャマネージャ(EM)2を故障・抜去時に備えて複数枚搭載して冗長構成にする必要はなく、エンクロージャマネージャ(EM)2は1枚だけ搭載すれば良く、ブレード装置1の装置コストを抑えることができる。
第2に、ベースボードマネージメントコントローラ(BMC)4が、エンクロージャマネージャ(EM)2に代わって、ブレード装置1の管理対象ユニットを管理する際に、ブレード装置1の管理対象ユニットを複数の管理対象グループにグループ分けして、複数のベースボードマネージメントコントローラ(BMC)4a,4b,…,4cそれぞれに管理業務を分散させて割り当てることができるので、エンクロージャマネージャ(EM)2の代替処理に伴うベースボードマネージメントコントローラ(BMC)4の負荷の増加を軽減することができる。
以上、本発明の好適な実施形態の構成を説明した。しかし、かかる実施形態は、本発明の単なる例示に過ぎず、何ら本発明を限定するものではないことに留意されたい。本発明の要旨を逸脱することなく、特定用途に応じて種々の変形変更が可能であることが、当業者には容易に理解できよう。
1 ブレード装置
2 エンクロージャマネージャ(EM:Enclosure Manager)
2A EM管理I/F
2a エンクロージャマネージャ(EM)
2b エンクロージャマネージャ(EM)
3 サーバブレード
3a サーバブレード
3b サーバブレード
3c サーバブレード
4 ベースボードマネージメントコントローラ(BMC)
4a ベースボードマネージメントコントローラ(BMC)
4b ベースボードマネージメントコントローラ(BMC)
4c ベースボードマネージメントコントローラ(BMC)
5 管理用I/F
6 ミッドプレーン
7 スイッチモジュール
7a スイッチモジュール
7b スイッチモジュール
7c スイッチモジュール
8 切り替えスイッチ
9 ファン
9A 電源ユニット/ファン/温度センサ
9a ファン
9b ファン
10 温度センサ
10a 温度センサ
10b 温度センサ
11 電源ユニット
11a 電源ユニット
11b 電源ユニット
12 EM制御部
13 EM側設定信号
14 BMC側設定信号
15 切り替えスイッチ制御回路
16 切り替えスイッチ設定信号
17 I2C Bus
20 セレクタ
21 選択信号
22 EM選択スイッチ
23 EM調停選択信号
31 BMC4a接続状態
32 BMC4b接続状態
33 BMC4c接続状態

Claims (10)

  1. サーバを管理するための管理プロセッサであるベースボードマネージメントコントローラ(BMC)を搭載したサーバブレード、スイッチモジュール、電源ユニットの各ユニットを含む各管理対象ユニットの管理を行うエンクロージャマネージャ(EM)を有するブレード装置であって、前記エンクロージャマネージャ(EM)および前記ベースボードマネージメントコントローラ(BMC)は、切り替えスイッチを介して、各前記管理対象ユニットに接続することが可能な構成とし、前記エンクロージャマネージャ(EM)が各前記管理対象ユニットを管理することができない場合、前記切り替えスイッチを切り替えて、前記ベースボードマネージメントコントローラ(BMC)が、前記エンクロージャマネージャ(EM)に代わって、各前記管理対象ユニットを管理することを特徴とするブレード装置。
  2. 前記ベースボードマネージメントコントローラ(BMC)は、あらかじめ定めた周期で、定期的に、前記エンクロージャマネージャ(EM)との間で、前記切り替えスイッチを介して、通信を行い、前記エンクロージャマネージャ(EM)との通信が不可能であることを検知した場合、前記エンクロージャマネージャ(EM)が各前記管理対象ユニットを管理することができない状態が発生したものと判定して、前記切り替えスイッチを切り替えて、前記ベースボードマネージメントコントローラ(BMC)が、前記エンクロージャマネージャ(EM)に代わって、各前記管理対象ユニットを管理することを特徴とする請求項1に記載のブレード装置。
  3. 前記ベースボードマネージメントコントローラ(BMC)は、前記エンクロージャマネージャ(EM)が各前記管理対象ユニットを管理することができない状態が発生したものと判定した際に、前記切り替えスイッチの接続状態を制御して、前記エンクロージャマネージャ(EM)を前記切り替えスイッチから切り離すことを特徴とする請求項2に記載のブレード装置。
  4. 前記ベースボードマネージメントコントローラ(BMC)が複数実装されている場合、前記管理対象ユニットを、それぞれにグループ番号を付した複数の管理対象グループにあらかじめグループ分けしておき、前記エンクロージャマネージャ(EM)が各前記管理対象ユニットを管理することができなくなった場合、複数の前記ベースボードマネージメントコントローラ(BMC)間の調停を行い、あらかじめ定めた順番に、各前記ベースボードマネージメントコントローラ(BMC)が、複数の前記管理対象グループのうち、前記グループ番号の順番に、該当する前記管理対象グループを分担して管理することにより、各前記ベースボードマネージメントコントローラ(BMC)が、互いに分担して、前記管理対象ユニットを、前記エンクロージャマネージャ(EM)に代わって、管理することを特徴とする請求項1ないし3のいずれかに記載のブレード装置。
  5. 前記エンクロージャマネージャ(EM)が、前記管理対象ユニットを、前記グループ番号を付した複数の前記管理対象グループにグループ分けを実施し、各前記ベースボードマネージメントコントローラ(BMC)に対してあらかじめ通知しておくことを特徴とする請求項4に記載のブレード装置。
  6. サーバを管理するための管理プロセッサであるベースボードマネージメントコントローラ(BMC)を搭載したサーバブレード、スイッチモジュール、電源ユニットの各ユニットを含む各管理対象ユニットの管理を行うエンクロージャマネージャ(EM)を有するブレード装置におけるブレード装置管理方法であって、前記エンクロージャマネージャ(EM)および前記ベースボードマネージメントコントローラ(BMC)は、切り替えスイッチを介して、各前記管理対象ユニットに接続することが可能な構成とし、前記エンクロージャマネージャ(EM)が各前記管理対象ユニットを管理することができない場合、前記切り替えスイッチを切り替えて、前記ベースボードマネージメントコントローラ(BMC)が、前記エンクロージャマネージャ(EM)に代わって、各前記管理対象ユニットを管理することを特徴とするブレード装置管理方法。
  7. 前記ベースボードマネージメントコントローラ(BMC)は、あらかじめ定めた周期で、定期的に、前記エンクロージャマネージャ(EM)との間で、前記切り替えスイッチを介して、通信を行い、前記エンクロージャマネージャ(EM)との通信が不可能であることを検知した場合、前記エンクロージャマネージャ(EM)が各前記管理対象ユニットを管理することができない状態が発生したものと判定して、前記切り替えスイッチを切り替えて、前記ベースボードマネージメントコントローラ(BMC)が、前記エンクロージャマネージャ(EM)に代わって、各前記管理対象ユニットを管理することを特徴とする請求項6に記載のブレード装置管理方法。
  8. 前記ベースボードマネージメントコントローラ(BMC)は、前記エンクロージャマネージャ(EM)が各前記管理対象ユニットを管理することができない状態が発生したものと判定した際に、前記切り替えスイッチの接続状態を制御して、前記エンクロージャマネージャ(EM)を前記切り替えスイッチから切り離すことを特徴とする請求項7に記載のブレード装置管理方法。
  9. 前記ベースボードマネージメントコントローラ(BMC)が複数実装されている場合、前記管理対象ユニットを、それぞれにグループ番号を付した複数の管理対象グループにあらかじめグループ分けしておき、前記エンクロージャマネージャ(EM)が各前記管理対象ユニットを管理することができなくなった場合、複数の前記ベースボードマネージメントコントローラ(BMC)間の調停を行い、あらかじめ定めた順番に、各前記ベースボードマネージメントコントローラ(BMC)が、複数の前記管理対象グループのうち、前記グループ番号の順番に、該当する前記管理対象グループを分担して管理することにより、各前記ベースボードマネージメントコントローラ(BMC)が、互いに分担して、前記管理対象ユニットを、前記エンクロージャマネージャ(EM)に代わって、管理することを特徴とする請求項6ないし8のいずれかに記載のブレード装置管理方法。
  10. 前記エンクロージャマネージャ(EM)が、前記管理対象ユニットを、前記グループ番号を付した複数の前記管理対象グループにグループ分けを実施し、各前記ベースボードマネージメントコントローラ(BMC)に対してあらかじめ通知しておくことを特徴とする請求項9に記載のブレード装置管理方法。
JP2015047205A 2015-03-10 2015-03-10 ブレード装置およびブレード装置管理方法 Pending JP2016167213A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015047205A JP2016167213A (ja) 2015-03-10 2015-03-10 ブレード装置およびブレード装置管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015047205A JP2016167213A (ja) 2015-03-10 2015-03-10 ブレード装置およびブレード装置管理方法

Publications (1)

Publication Number Publication Date
JP2016167213A true JP2016167213A (ja) 2016-09-15

Family

ID=56897553

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015047205A Pending JP2016167213A (ja) 2015-03-10 2015-03-10 ブレード装置およびブレード装置管理方法

Country Status (1)

Country Link
JP (1) JP2016167213A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019061644A (ja) * 2017-09-26 2019-04-18 廣達電脳股▲ふん▼有限公司 ファームウェアのアップデート中のファームウェア設定の保持
JP2020086805A (ja) * 2018-11-22 2020-06-04 富士通株式会社 情報処理システム及び情報処理装置
JP2020119173A (ja) * 2019-01-23 2020-08-06 Necプラットフォームズ株式会社 情報処理装置、情報処理装置の制御方法、及び、情報処理装置の制御プログラム
US11073883B2 (en) 2018-07-04 2021-07-27 Fujitsu Limited Server apparatus, monitoring control apparatus, and storage medium

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019061644A (ja) * 2017-09-26 2019-04-18 廣達電脳股▲ふん▼有限公司 ファームウェアのアップデート中のファームウェア設定の保持
US11073883B2 (en) 2018-07-04 2021-07-27 Fujitsu Limited Server apparatus, monitoring control apparatus, and storage medium
JP2020086805A (ja) * 2018-11-22 2020-06-04 富士通株式会社 情報処理システム及び情報処理装置
JP7110937B2 (ja) 2018-11-22 2022-08-02 富士通株式会社 情報処理システム及び情報処理装置
JP2020119173A (ja) * 2019-01-23 2020-08-06 Necプラットフォームズ株式会社 情報処理装置、情報処理装置の制御方法、及び、情報処理装置の制御プログラム

Similar Documents

Publication Publication Date Title
US7930388B2 (en) Blade server management system
US9619243B2 (en) Synchronous BMC configuration and operation within cluster of BMC
US7623460B2 (en) Cluster system, load distribution method, optimization client program, and arbitration server program
US8713352B2 (en) Method, system and program for securing redundancy in parallel computing system
JP4786255B2 (ja) ストレージシステム及び記憶制御方法
US20130110926A1 (en) Method for Controlling Rack System
CN103324495A (zh) 数据中心服务器开机管理方法及系统
US20040255189A1 (en) Method and system for autonomously rebuilding a failed server and a computer system utilizing the same
KR20060093019A (ko) 서비스 전환 방법, 컴퓨터 시스템 및 서비스 제공 방법
EP2360614B1 (en) Information processing device and hardware setting method for said information processing device
US20060271810A1 (en) Backup control system and method
JP2016167213A (ja) ブレード装置およびブレード装置管理方法
CN107179804B (zh) 机柜装置
CN110609699B (zh) 维护存储系统的组件的方法、电子设备和计算机可读介质
JP4595645B2 (ja) 複合型計算機装置および複合型計算機装置の管理方法
CN113632043B (zh) 可变冗余数据中心电力拓扑
JPWO2009081737A1 (ja) 縮退構成設計システムおよび方法
US20160349812A1 (en) Managing Power in a High Performance Computing System for Resiliency and Cooling
EP2535817B1 (en) Information processing system
US20080010364A1 (en) Blade type computer management system
CN107533348B (zh) 热管理高性能计算系统的方法和装置及计算机可读介质
WO2022078519A1 (zh) 一种计算机设备和管理方法
US20160299792A1 (en) System wide manageability
JP2009026182A (ja) プログラム実行システム及び実行装置
KR100895463B1 (ko) Atca 플랫폼에서의 이중화 장치의 제어 방법 및 이를이용하여 구현된 atca 시스템