JP6434338B2 - 情報処理装置およびそのための管理方法 - Google Patents

情報処理装置およびそのための管理方法 Download PDF

Info

Publication number
JP6434338B2
JP6434338B2 JP2015035061A JP2015035061A JP6434338B2 JP 6434338 B2 JP6434338 B2 JP 6434338B2 JP 2015035061 A JP2015035061 A JP 2015035061A JP 2015035061 A JP2015035061 A JP 2015035061A JP 6434338 B2 JP6434338 B2 JP 6434338B2
Authority
JP
Japan
Prior art keywords
management
information
processing apparatus
unit
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015035061A
Other languages
English (en)
Other versions
JP2016157296A (ja
Inventor
祥文 堀江
祥文 堀江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2015035061A priority Critical patent/JP6434338B2/ja
Publication of JP2016157296A publication Critical patent/JP2016157296A/ja
Application granted granted Critical
Publication of JP6434338B2 publication Critical patent/JP6434338B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)

Description

本発明は、情報処理装置とそのための管理方法に関する。
一般的な情報処理装置は、その内部に搭載された管理コントローラにより、情報処理装置の状態を監視および制御している。管理コントローラの特性は、管理コントローラを動作させるOS(Operating System)の特性に依存している。そして、管理コントローラで実現可能な機能や性質は、OSによって異なっている。
管理コントローラを使用した情報処理装置は、管理コントローラのOSに組み込みLinux(登録商標)を採用しているものが一般的である。
OSに組み込みLinuxを採用することにより、Linuxに標準で搭載されている各種プログラムを使用して、情報処理装置の監視および制御をすることができる。しかし、OSの起動にかかる時間を考えた場合、管理コントローラの機能が充実するに従い、それらを起動するための時間が長くなるという問題がある。OSの起動が完了するまでの時間は、管理コントローラによる監視および制御を行うことができない。そのため、OSの起動時間は、可能な限り短くすることが求められる。
管理コントローラのOSにRTOS(リアルタイムオぺレーティングシステム、Real Time Operating System)を採用した場合、OSが起動するまでにかかる時間は、大幅に短くなる。しかし、RTOSを採用した場合は、管理コントローラで複雑な機能を実現することが困難となる。そのため、管理コントローラは、要求される機能を実現することが難しい。
ここで、関連技術としては、例えば以下の特許文献がある。
特許文献1は、システム電源投入時にサービスプロセッサが行った初期化処理中に生じたエラー等の状態を初期化終了後に確認可能とする方式を開示している。
特許文献2は、電気モータにてエラー発生時、エラーに関する情報を不揮発性メモリに保存する。そして、その情報を基に、エラー発生の原因を調査する方法を開示している。
特開平05−108394号公報 特表2003−500996号公報
特許文献1及び2に提案されている技術は、エラー等の情報を不揮発性メモリに保存しておき、後でそのメモリを参照する方式を開示している。しかしながら、これらの技術は、それらの情報を、後で参照するために保存しており、情報の保存を早く開始することについては考慮していない。
また、管理コントローラのOSに、RTOSを利用すれば、OSの起動が速くなり、管理コントローラの情報を早期に保存できることが考えられる。しかし、この場合、前述したように管理コントローラにおける機能が制限され、クライアントへの情報の転送や表示、あるいは管理コントローラで実現される他の制御が制限される。
そこで、本発明は、情報処理装置の状態監視をより早く開始するとともに、OSに起因する制御の制限を解消することが可能な情報処理装置等の提供を主たる目的とする。
上記の目的を達成すべく、本発明の一態様に係る情報処理装置は、以下の構成を備える。
即ち、本発明の一態様に係る情報処理装置は、
第2のOSより起動時間が短い第1のOSの環境で動作する第1の管理手段と、
前記第1のOSよりも複雑な処理を実行可能な前記第2のOSの環境で動作する第2の管理手段と、
前記第1の管理手段の要求に応じて情報処理装置の状態に関する情報である管理情報を提供する検知手段と、
前記管理情報の正常である範囲を含む範囲情報があらかじめ記録された記録手段とを備え、
前記第1の管理手段は、前記記録手段に記録された前記範囲情報と、前記検知手段より提供された前記管理情報とを比較し、前記管理情報が正常でないと判定した場合に、その管理情報を含むログを前記記録手段に記録し、
前記第2の管理手段は、前記記録手段に記録された前記ログを基に、前記ログが表す事象ごとに定められた処理を行う。
同目的を達成する本発明の一態様に係る管理方法は、
第2のOSより起動時間が短い第1のOSの環境で動作する第1の管理手段は、情報処理装置の状態に関する情報である管理情報と、記録手段に記録された前記管理情報の正常である範囲を含む範囲情報とを比較し、前記管理情報が正常でないと判定した場合に、その管理情報を含むログを前記記録手段に記録し、
前記第1のOSよりも複雑な処理を実行可能な前記第2のOSの環境で動作する第2の管理手段は、前記記録手段に記録された前記ログを基に、前記ログが表す事象ごとに定められた処理を行う。
上記の本発明によれば、情報処理装置の状態監視をより早く開始するとともに、OSに起因する制御の制限を解消することができるという効果がある。
本発明の第1の実施形態に係る情報処理装置の構成を示すブロック図である。 本発明の第2の実施形態に係るサーバの構成を示すブロック図である。 本発明の第2の実施形態に係るBMC300の処理を示すフローチャートである。 本発明の第2の実施形態に係るセンサレコードの一例を示す図である。 本発明の第2の実施形態に係るログの一例を示す図である。 本発明の第2の実施形態に係るBMC301の処理を示すフローチャートである。
次に、本発明を実施する形態について図面を参照して詳細に説明する。
<第1の実施形態>
図1は、本発明の第1の実施形態に係る情報処理装置の構成を示すブロック図である。
本実施形態に係る情報処理装置1は、第1の管理部10と、第2の管理部20と、検知部30と、記録部40とを有する。
第1の管理部10は、第2の管理部20のOSよりも起動時間が短い第1のOSの環境で動作する。
第2の管理部20は、第1のOSよりも複雑な処理を実行可能な第2のOSの環境で動作する。なお、第1のOS及び第2のOSは、情報処理装置1の電源投入後に、初期化プログラムが起動してから起動する。
検知部30は、第1の管理部10の要求に応じて管理情報を提供する。管理情報は、情報処理装置1の状態に関して、たとえば、各種のセンサで測定した測定情報や、定期的に情報処理装置1内で検出される状態監視情報などである。
記録部40は、管理情報が正常である範囲を含む範囲情報をあらかじめ記録している。
第1の管理部10は、記録部40に記録された範囲情報と、検知部30より提供された管理情報とを比較する。そして、管理情報が正常でないと判定した場合に、第1の管理部10は、その管理情報を含むログを記録部40に記録する。そして、第2の管理部20は、記録部40に記録されたログを基に、そのログが表す事象ごとに定められた処理を行う。
以上、説明したように、第1の実施形態には、情報処理装置1の状態監視をより早く開始するとともに、OSに起因する制御の制限を解消することができるという効果がある。
その理由は、本実施形態に係る情報処理装置1は、第1の管理部10と第2の管理部20を使用し、起動時間がより短い第1のOSと、その第1のOSよりも複雑な処理を実行可能な第2のOSの2種類のOSを使用して、それぞれのOSの特性を生かした方法で状態監視を行うからである。すなわち、起動時間がより短い第1のOSは、管理情報が正常であるかの判定を早期に始め、正常でないと判定した場合にはその情報をログに残しておき、第1のOSよりも複雑な処理を実行可能な第2のOSが、ログを基に、そのログが表す事象ごとに定められた処理を行う。このように第1のOSで早期に検出された正常でない状態のログに基づいて、複雑な処理が可能な第2のOSによって定められた処理が行われるので、早期に情報処理装置1の監視を開始することができる。また、第1のOSに起因する制御や機能の制限を第2のOSがカバーするので、制御の制限を解消することができるという効果も奏する。
<第2の実施形態>
次に上述した第1の実施形態に係る情報処理装置を基本とする第2の実施形態について説明する。図2は、本発明の第2の実施形態に係るサーバの構成を示すブロック図である。ただし、図2に示す構成は、一例であって、本発明は、図2に示すサーバに限定されない。
本実施形態に係るサーバ100は、クライアント200と、ネットワーク900により通信可能に接続されて、クライアントサーバシステムを形成している。
サーバ100は、BMC(Baseboard Management Controller)300と、BMC301と、不揮発性メモリ302と、温度センサ700と、電圧センサ701と、電流センサ702と、FANセンサ703とを含む。温度センサ700と、電圧センサ701と、電流センサ702と、FANセンサ703は、第1の実施形態の検知部30の一例である。
BMC300は、第1の実施形態の第1の管理部10の一例である。BMC300は、バス制御部500と、管理コントローラ400と、バス制御部502とを含む。バス制御部500は、内部ネットワーク801で、不揮発性メモリ302にアクセス可能に接続されている。管理コントローラ400は、バス制御部500、502と、それぞれ内部ネットワーク804、805で接続されている。管理コントローラ400は、OSとしてRTOSを有する。バス制御部502は、各センサ(温度センサ700、電圧センサ701、電流センサ702、FANセンサ703)と内部ネットワーク806で接続されている。
BMC301は、第1の実施形態の第2の管理部20の一例である。BMC301は、バス制御部501と、管理コントローラ401と、LAN(Local Area Network)制御部600とを含む。バス制御部501は、内部ネットワーク801で、不揮発性メモリ302にアクセス可能に接続されている。管理コントローラ401は、バス制御部501、LAN制御部600と、それぞれ内部ネットワーク802、803で接続されている。管理コントローラ401は、OSとしてLinuxを有する。LAN制御部600は、クライアント200とネットワーク900で接続されている。
なお、第2の実施の形態では、第1のOSの一例としてRTOS,第2のOSの一例としてLinuxを使用するが、本発明の実施の形態は、これらOSに限定されない。
本実施形態の情報処理装置(サーバ100)における動作について、フローチャートを参照して説明する。 図3は、本発明の第2の実施形態に係るBMC300の処理を示すフローチャートである。図3によると、BMC300は、電源を投入後に、まず、HW(Hardware)の初期化を実行する(ステップS100)。次に、BMC300は、管理コントローラ400が動作するために必要なOSであるRTOSを起動させる(ステップS101)。それから、管理コントローラ400は、不揮発性メモリ302に予め用意しておいたセンサレコードを、バス制御部500を経由して、内部メモリ(不図示)に読み込む(ステップS102)。
図4は、本発明の第2の実施形態に係るセンサレコードの一例を示す図である。センサレコードは、レコードIDと、センサタイプと、センサ番号と、下限値と、上限値とを含む。レコードIDは、レコードを一意に識別可能な値である。センサタイプは、センサの種類を表す識別子である。センサ番号は、センサを一意に識別可能な値である。下限値および上限値は、センサによる測定値の正常範囲を表す下限値およびを上限値である。
それから、BMC300は、サーバの内部に搭載したセンサ(温度センサ700、電圧センサ701、電流センサ702、FANセンサ703)を使用した監視を開始する(ステップS103)。管理コントローラ400は、バス制御部502を経由して、搭載した各々のセンサより測定値を取得する(ステップS104)。それから、管理コントローラ400は、ステップS104で取得した値と、センサタイプとセンサ番号とが一致するセンサレコードの内容とを比較して、センサによる測定値が異常であるか否かを判定する(ステップS105)。すなわち、管理コントローラ400は、センサレコードの下限値と上限値との間に測定値が入らない場合、その測定値を異常と判定する。異常と判定した場合(ステップS105で「YES」)、管理コントローラ400は、異常であると判定した測定値を含むログを、バス制御部500を経由して、不揮発性メモリ302に出力する(ステップS106)。
図5は、本発明の第2の実施形態に係るログの一例を示す図である。ログは、フラグと、レコードIDと、タイムスタンプと、出力装置IDと、センサタイプと、センサ番号と、イベントタイプと、測定値とを含む。フラグは、そのログの内容をチェック済みか否かを表す。例えば、フラグは、まだチェックを行っていない場合に”00”hと、チェック済みの場合に、”01”hと設定される。レコードIDは、レコードを一意に識別可能な値である。タイムスタンプは、異常を検出した時刻(または、不揮発性メモリ302に出力した時刻)を表す情報である。出力装置IDは、異常を検出した装置を表す識別子である。センサタイプは、その異常値を測定したセンサの種類を表す情報である。センサ番号は、その異常値を測定したセンサを一意に識別可能な値である。イベントタイプは、「イベント発生」か、または、「イベント回復」のどちらかを表す情報である。センサ測定値は、実際にセンサが測定した値である。
それから、管理コントローラ400は、0.1秒間待ったあとに(ステップS107)、ステップS104から処理を実行する。ここで、0.1秒間待つことにより、管理コントローラ400は、センサを監視する間隔を0.1秒に調整している。
図6は、本発明の第2の実施形態に係るBMC301の処理を示すフローチャートである。図6によると、BMC301は、電源を投入後に、まず、HWの初期化を実行する(ステップS200)。次に、BMC301は、管理コントローラ401が動作するために必要なOSである組み込みLinuxを起動させる(ステップS201)。それから、BMC301は、サーバの監視および制御する機能を実現するための各種プログラムを起動する(ステップS202)。プログラムの起動が完了し次第、BMC301は、ログの監視を開始する(ステップS203)。管理コントローラ401は、バス制御部501を経由して、不揮発性メモリ302に記録されているログを確認する(ステップS204)。管理コントローラ401は、フラグがまだチェックを行っていないことを示す値(ここでは、”00”h)となっているログが記録されているか否かを判断する(ステップS205)。チェックを行っていないログがあった場合に、管理コントローラ401は、ログに記録されている内容に従って処理を実行する(ステップS206)。例えば、管理コントローラ401は、LAN制御部600により、ネットワーク900を経由して、ログの内容をクライアント200に通知する。処理(通知)を実行後に、管理コントローラ401は、処理したログのフラグをチェック済みを示す値(ここでは、”01”h)に変更する(ステップS207)。これにより、管理コントローラ401は、同じログの内容を複数回処理することを防いでいる。それから、管理コントローラ401は、1秒間待ったあとに(ステップS208)、ステップS204から処理を繰り返す。ここで、1秒間待つことにより、管理コントローラ401は、ログの内容を処理する間隔を1秒に調整している。
本実施形態では、管理コントローラ401がログに記録されている内容に従って行う処理として、ログの内容をクライアント200に通知することを例に説明した。しかし、管理コントローラ401が行う処理は、これに限らない。例えば、管理コントローラ400は、温度センサ700からの情報で温度が高いことを検出した場合に、その温度が高いことを示すログを発生する。そのログに基づいて管理コントローラ401は、FANの回転数を上げるように、FANを制御するデバイス(サーバ100に含まれる。不図示)に指示を行ってもよい。
以上、説明したように、第2の実施形態には、管理コントローラによる情報処理装置の状態監視をより早く開始するとともに、OSに起因する制御の制限を解消することができるという効果がある。
その理由は、本実施形態に係る情報処理装置は、管理コントローラのOSにRTOSを採用することにより、情報処理装置の電源を投入したばかりでも、情報処理装置の監視および制御を実行できるからである。起動時間がより短い第1のOS(RTOS)は、測定情報が正常であるかの判定を早期に始め、正常でないと判定した場合にはその情報をログに残しておき、RTOSよりも複雑な処理を実行可能な第2のOS(Linux)が、ログを基に、そのログが表す事象ごとに定められた処理を行う。このようにRTOSで早期に検出された正常でない状態のログに基づいて、複雑な処理が可能な第2のOSによって定められた処理が行われるので、電源投入後の早期に監視ができる。また、RTOSに起因する制御や機能の制限をLinux等の第2のOSでカバーするので、制御の制限を解消することができるという効果も奏する。
さらに、管理コントローラ自体に不具合が発生した場合など、管理コントローラの再起動を実行する必要がある。このような場合でも、管理コントローラのOSにRTOSを採用することにより、管理コントローラの再起動にかかる時間が短くなり、情報処理装置の監視および制御が中断する時間をより短くすることができる。
また、管理コントローラのOSにRTOSを採用することで、複数のOSに負荷を分散することが可能になること、および、RTOSの特性により、より短い時間間隔で情報処理装置を監視および制御することができる。これにより、より詳細に情報処理装置を監視および制御することが可能になる。
10 第1の管理部
20 第2の管理部
30 検知部
40 記録部
100 サーバ
200 クライアント
300 BMC
301 BMC
400 管理コントローラ
401 管理コントローラ
500 バス制御部
501 バス制御部
502 バス制御部
600 LAN制御部
700 温度センサ
701 電圧センサ
702 電流センサ
703 FANセンサ
801 内部ネットワーク
802 内部ネットワーク
803 内部ネットワーク
804 内部ネットワーク
805 内部ネットワーク
806 内部ネットワーク
900 ネットワーク

Claims (6)

  1. 第2のOSより起動時間が短い第1のOSの環境で動作する第1の管理手段と、
    前記第1のOSよりも複雑な処理を実行可能な前記第2のOSの環境で動作する第2の管理手段と、
    前記第1の管理手段の要求に応じて情報処理装置の状態に関する情報である管理情報を提供する検知手段と、
    前記管理情報の正常である範囲を含む範囲情報があらかじめ記録された記録手段とを備え、
    前記第1の管理手段は、前記記録手段に記録された前記範囲情報と、前記検知手段より提供された前記管理情報とを比較し、前記管理情報が正常でないと判定した場合に、その管理情報を含むログを前記記録手段に記録し、
    前記第2の管理手段は、前記記録手段に記録された前記ログを基に、前記ログが表す事象ごとに定められた処理を行うことを特徴とする
    情報処理装置。
  2. 前記第1の管理手段が動作する前記第1のOSは、RTOSである
    ことを特徴とする請求項1記載の情報処理装置。
  3. 前記第2の管理手段が動作する前記第2のOSは、Linux(登録商標)である
    ことを特徴とする請求項1または2記載の情報処理装置。
  4. 前記記録手段は、不揮発性メモリである
    ことを特徴とする請求項1乃至請求項3の何れか一項に記載の情報処理装置。
  5. 前記検知手段は、温度センサ、電圧センサ、電流センサ、FANセンサの少なくとも何れかである
    ことを特徴とする請求項1乃至請求項4の何れか一項に記載の情報処理装置。
  6. 第2のOSより起動時間が短い第1のOSの環境で動作する第1の管理手段は、情報処理装置の状態に関する情報である管理情報と、記録手段に記録された前記管理情報の正常である範囲を含む範囲情報とを比較し、前記管理情報が正常でないと判定した場合に、その管理情報を含むログを前記記録手段に記録し、
    前記第1のOSよりも複雑な処理を実行可能な前記第2のOSの環境で動作する第2の管理手段は、前記記録手段に記録された前記ログを基に、前記ログが表す事象ごとに定められた処理を行うことを特徴とする
    管理方法。
JP2015035061A 2015-02-25 2015-02-25 情報処理装置およびそのための管理方法 Active JP6434338B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015035061A JP6434338B2 (ja) 2015-02-25 2015-02-25 情報処理装置およびそのための管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015035061A JP6434338B2 (ja) 2015-02-25 2015-02-25 情報処理装置およびそのための管理方法

Publications (2)

Publication Number Publication Date
JP2016157296A JP2016157296A (ja) 2016-09-01
JP6434338B2 true JP6434338B2 (ja) 2018-12-05

Family

ID=56826285

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015035061A Active JP6434338B2 (ja) 2015-02-25 2015-02-25 情報処理装置およびそのための管理方法

Country Status (1)

Country Link
JP (1) JP6434338B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200097055A1 (en) * 2018-09-21 2020-03-26 Quanta Computer Inc. Thermal management via operating system
JP7436060B2 (ja) * 2022-02-24 2024-02-21 Necプラットフォームズ株式会社 管理装置、制御方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086330A (ja) * 2002-08-23 2004-03-18 Toshiba Corp 電子機器
JP2009015435A (ja) * 2007-07-02 2009-01-22 Nippon Telegr & Teleph Corp <Ntt> 異常検出方法及び処理装置
JP2011145872A (ja) * 2010-01-14 2011-07-28 Yamatake Corp Cpuボードの動作監視装置
JP2012123558A (ja) * 2010-12-07 2012-06-28 Fujitsu Ten Ltd 情報処理装置および情報処理方法

Also Published As

Publication number Publication date
JP2016157296A (ja) 2016-09-01

Similar Documents

Publication Publication Date Title
EP2989579B1 (en) Redundant system boot code in a secondary non-volatile memory
KR20140068867A (ko) 부팅 프로세스 동안 구성요소들을 인증하기 위한 시스템 및 방법
US20120265471A1 (en) Method for reliably operating a sensor
US20200033928A1 (en) Method of periodically recording for events
CN110704166A (zh) 服务运行方法、装置和服务器
JP2013168107A (ja) 情報処理装置、異常検出方法、及び、プログラム
JP6434338B2 (ja) 情報処理装置およびそのための管理方法
TW201426297A (zh) 基板管理控制器安全保護系統及方法
US10725458B2 (en) Life prediction device
US20180081762A1 (en) Information processing device
CN106326060A (zh) 基板管理控制系统及其方法
US11614988B2 (en) Variable memory diagnostics
JP6124644B2 (ja) 情報処理装置および情報処理システム
JP6502211B2 (ja) 車両制御装置
JPWO2011051999A1 (ja) 情報処理装置及び情報処理装置の制御方法
JP2016066139A (ja) 車両制御装置
WO2020066552A1 (ja) Bmc及びbmcファームウェア判定方法
CN115080132A (zh) 信息处理方法、装置、服务器及存储介质
TWI537721B (zh) 基板管理控制系統及其方法
JP2008003940A (ja) 保護制御装置、保護制御方法及び保護制御プログラム
JP2020050319A (ja) 電源監視装置、電源制御システム、および電源監視方法
JP6222759B2 (ja) 障害通知装置、障害通知方法及びプログラム
JP2010003132A (ja) 情報処理装置、その入出力装置の故障検出方法及びプログラム
JP5687141B2 (ja) 保護リレー装置
CN106973179B (zh) 图像形成装置及图像形成方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180920

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181108

R150 Certificate of patent or registration of utility model

Ref document number: 6434338

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150