JP2003150280A - バックアップ管理システムおよび方法 - Google Patents

バックアップ管理システムおよび方法

Info

Publication number
JP2003150280A
JP2003150280A JP2002220928A JP2002220928A JP2003150280A JP 2003150280 A JP2003150280 A JP 2003150280A JP 2002220928 A JP2002220928 A JP 2002220928A JP 2002220928 A JP2002220928 A JP 2002220928A JP 2003150280 A JP2003150280 A JP 2003150280A
Authority
JP
Japan
Prior art keywords
management
backplane
processor
power
processors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002220928A
Other languages
English (en)
Inventor
David R Maciorowski
ディヴィッド・アール・マキオロウスキー
Michael John Erickson
マイケル・ジョン・エリックソン
Paul J Mantey
ポール・ジェイ・マンテイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HP Inc
Original Assignee
Hewlett Packard Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Co filed Critical Hewlett Packard Co
Publication of JP2003150280A publication Critical patent/JP2003150280A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0796Safety measures, i.e. ensuring safe condition in the event of error, e.g. for controlling element

Abstract

(57)【要約】 【課題】 コンピュータ・システム内の全ての管理プロ
セッサが故障したときに、基本的なシステム制御機能を
与えるシステムを提供する。 【解決手段】 通常のシステム動作中、複数の管理プロ
セッサ105は、システムの電力、温度、および冷却フ
ァン状態を検出するシステム・センサ120を監視し、
必要な調節を行う。各管理プロセッサは、適正に動作し
ていることを示す出力信号108を通常供給する。高可
用性コントローラ101はこれらの信号の各々を監視
し、少なくとも1つの動作している管理プロセッサが存
在することを確認する。プロセッサ105のどれもが適
正に動作していることを示さない場合、高可用性コント
ローラは、システム・センサを監視し、システム・イン
ジケータ130を更新する。電源故障または潜在的に危
険な温度上昇のような問題が発生した場合、高可用性コ
ントローラは、適切な装置の電源を順次切り、システム
を損傷から保護する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、一般に、コンピュ
ータ・システムに関し、より詳しくは、1つまたは複数
のシステム管理プロセッサが故障したときに基本システ
ム制御機能を提供する複数のバックアップ管理プロセッ
サを含むシステムに関する。
【0002】
【従来の技術および発明が解決しようとする課題】問題
の説明 特定の既存のコンピュータ・システムは、電力、電源逐
次開閉、温度などのシステム環境の態様を監視しかつ制
御し、パネル・インジケータを更新する管理プロセッサ
を含む。管理プロセッサが故障すると、システムの状
態、電力、温度などを監視しかつ制御することができな
いため、システムに故障が生じることがある。
【0003】しかしながら、同等(peer)またはバ
ックアップの管理プロセッサを有するシステムでさえ、
すべての管理プロセッサに共通するファームウェアのバ
グがあると、システム・プロセッサが効果的に稼働しな
くなることがあり、これは、一般に、それらのプロセッ
サがすべて本質的に同じコードでプログラムされている
ためであり、したがって、欠陥のあるコード・シーケン
スが実行されたきに、すべてのプロセッサが同じ問題に
屈する可能性が高い。
【0004】さらに、管理プロセッサが故障すると、フ
ァン速度の制御が失われるために、コンピュータ・シス
テムのキャビネットが破壊的に過熱することがあり、こ
の管理プロセッサの故障によって、様々なシステム電源
モジュールの電源が、システム電子回路に損傷を与える
ような態様でオフになることがある。
【0005】
【課題を解決するための手段】本発明のシステムは、前
述の問題を解決し、複数の管理プロセッサの状態を監視
する高可用性(high-availability)コントローラを提
供することによって当該分野での進歩を達成する。すべ
てのプロセッサに故障が発生すると、このコントローラ
は、システムが確実に動作し続けることができるのに必
要な機能の少なくとも最小限の組の機能を提供する。さ
らに、高可用性コントローラは、管理プロセッサによっ
て実行されるコードと同じ一連の操作を実行せず、した
がって、管理プロセッサに故障を引き起こす可能性のあ
る特定の「バグ」による故障の影響を受けにくい。
【0006】本発明のシステムは、すべてのシステム・
エンティティへの電力を制御し、システム・ハードウェ
アを電源不良と環境的不良から守る電源管理サブシステ
ムを含む。また、電源管理サブシステムは、フロント・
パネルLEDを制御し、電源スイッチにより大容量電源
オン/オフ制御を提供する。
【0007】通常のシステム動作中、複数の管理プロセ
ッサが、システムの電力、温度、および冷却ファンの状
態を検出するシステム・センサを監視する。主管理プロ
セッサは、必要な調整を行うかまたは問題を報告する。
また、主管理プロセッサは、様々なインジケータを更新
し、電源のオン・オフなどのユーザが始めた事象を監視
する。
【0008】各管理プロセッサは、常時、適切に動作し
ていることを示す出力を提供する。高可用性コントロー
ラは、これらの各信号を監視して、少なくとも1つの管
理プロセッサが動作していることを確認する。プロセッ
サが適切に動作していることを示すプロセッサがないと
き、高可用性コントローラは、システム・センサを監視
し、システム・インジケータを更新する。電源の故障や
潜在的に危険な温度上昇などの問題が生じた場合、高可
用性コントローラは、システムを破損から守るために該
当する装置の電源を順次切る。
【0009】さらに、動作している管理コントローラの
ない場合に、システム・ユーザがシステムの電源を切る
ように決定した場合は、高可用性コントローラは、電源
スイッチに応答し、電源スイッチを使用して、システム
電子回路を破損させないようにシステム電源モジュール
の電源を順次切ることができる。
【0010】
【発明の実施の形態】図1は、本発明のシステム100
の基本構成要素を示すブロック図である。図1に示した
ように、システム100のハイ・レベル構成要素は、複
数の管理プロセッサ105(1)〜105(N)、高可
用性コントローラ101、電源、ファンおよび温度セン
サ120、フロント・パネル・インジケータ130、冷
却ファン・モジュール140、複数の電源コントローラ
150、および電源スイッチ110を含む。
【0011】各管理プロセッサ105は、システム環境
の様々な態様を監視しかつ制御し、例えば、電源コント
ローラ15x(図2に示したローカル電源モジュール
(LPM)151、152および153)によって電源
を、モジュール140で制御された冷却ファンによって
温度を、監視しかつ制御し、パネル・インジケータ13
0を更新する。また、各管理プロセッサ105は、周辺
装置やバス管理などのための入出力コントローラを含む
コア入出力ボード104と関連した動作を管理する。高
可用性コントローラ101は、管理プロセッサ105の
それぞれの状態、ならびに電力、ファンおよび温度セン
サ120を監視する。高可用性コントローラ101が、
すべての管理プロセッサ105の故障を検出する状況に
おいて、後で詳細に示すようなシステム100の制御を
仮定する。
【0012】高可用性コントローラは、管理プロセッサ
によって実行されるコードと同じ一連の操作を実行しな
いので、管理プロセッサに故障を発生させる可能性のあ
る特定の「バグ」によって生じる故障の影響を受けにく
い。
【0013】通常のシステム動作 それぞれの管理プロセッサ105が適切に動作している
間、以下の事象が起こる。フロント・パネル電源スイッ
チ110が押されたとき、高可用性コントローラ101
は、これを認識し、主管理プロセッサ[以下では、参照
番号105(P)で示す]に割込みで通知する。主管理
プロセッサ105(P)は、有能電力に対する電力需要
を評価し、少なくとも1つのシステム電源が使用可能で
かつ適切に稼働している場合は、管理プロセッサ105
(P)は、高可用性コントローラ101にシステムの電
源を投入するようにコマンドを送る。
【0014】図2は、本発明のシステムの例示的な実施
形態に利用されている構成要素をより詳細に示す。通常
のシステム動作中、フロント・パネル電源スイッチ11
0が押されると、以下の構成要素の電源が、以下の順序
で投入される。 (1)システム・バックプレーン118。 (2)最も低い論理PCI(入出力カード)バックプレ
ーン125、および次に、関連したセル・ボード10
2。 (3)次の論理PCIバックプレーン、および次に、関
連したセル・ボード。
【0015】システム100が、複数のPCIバックプ
レーン125を含むことができ、それぞれのPCIバッ
クプレーン125が、複数の関連したセル・ボード10
2を含むことができることに注意されたい。本発明のシ
ステムにおいて、セル(ボード)102は、複数のプロ
セッサ115ならびにそれと関連したハードウェア/フ
ァームウェアおよびメモリ(図示せず)と、セルへの電
力を制御するローカル電源モジュール152と、管理プ
ロセッサ105を含む外部エンティティとプロセッサ1
15との間の情報の流れを管理するローカル・サービス
・プロセッサ116とを含む。
【0016】フロント・パネル電源スイッチ110は、
ハード切換モードとソフト切換モードの両方でシステム
100への電力を制御する。これにより、動作している
管理プロセッサ105がない場合に、システムの電源を
投入および切ることができる。フロント・パネル電源ス
イッチ110が押されたときに、セル・ボード102が
存在しない場合は、そのPCIバックプレーン125は
電源が投入されない。セル・ボードが存在するが、PC
Iバックプレーンが存在しない場合は、セル・ボードは
電源が投入される。フロント・パネル電源スイッチが再
び押されたとき、管理プロセッサ105には、再び割込
みによって通知される。次に、管理プロセッサ105
は、適切なシステム・エンティティに通知し、システム
は、前述の順序と逆の順序で「優雅に」電源が切られ
る。
【0017】セル存在(Cell_Present)信
号114が、セル・ボード102上のコネクタに配置さ
れたピンを介してシステム・ボード(および、高可用性
コントローラ101)に送られる。セル・ボードが、シ
ステム・ボードから引き抜かれた場合、セル存在信号1
14が中断され、それによりシステム・ボードが非アク
ティブになる。高可用性コントローラ101は、セル存
在信号を監視し、セル・ボード102へのセル電源イネ
ーブル(Cell Power Enable)信号1
13がアクティブであり、セル・ボード102の「セル
存在」信号114が非アクティブの場合は、ボードへの
電力はすぐにディスエーブルされ、セル・ボードへの電
力が明示的に再びイネーブルされるまでディスエーブル
されたままである。「コア入出力存在(Core I/
O Present)」信号109は、コア入出力ボー
ド・コネクタ上に配置されたピンを介してシステム・ボ
ードに送られる。コア入出力ボード104が引き抜かれ
た場合、コア入出力存在信号109が中断され、それに
よりシステム・ボードが非アクティブになる。
【0018】コア入出力ボード104は、管理プロセッ
サ105の応答を監視してプロセッサが適切に動作して
いるかどうかの判定の支援をするウォッチドッグ(W
D)・タイマ117を含む。管理プロセッサ105は、
システム動作環境の完全性を確認するファームウェア・
タスクを含み、したがって、管理プロセッサの適切な操
作性の追加の尺度(measure)を提供する。
【0019】管理プロセッサなしの動作 図3は、本発明のシステムによる方法を実施する際に実
行される例示的な一連のステップを示すフローチャート
である。システムの動作は、互いに関連した図2と図3
を見ることによってより良く理解することができる。本
発明のシステムの例示的な実施形態において、図3に示
した動作は、動作状態機械(operationstate machine)
103によって実行される。図3に示したように、ステ
ップ305で、高可用性コントローラ状態機械103
は、管理プロセッサOK(MP_OK)信号108
(1)〜108(N)によって管理プロセッサ105の
状態を監視する。主管理プロセッサ105(P)からの
MP_OK信号108がアクティブと検出された場合
は、管理プロセッサ105が適切に動作していると仮定
され、状態機械103は、監視プロセスを続け、ステッ
プ305でループする。主管理プロセッサ105(P)
からのMP_OK信号108が非アクティブと検出され
た場合、高可用性コントローラ101は、管理プロセッ
サのうちのどれか他のものが、アクティブなMP_OK
信号108を送っているかどうかを調べる。アクティブ
なMP_OK信号108を有する管理プロセッサがあっ
た場合、高可用性コントローラは、システム制御をプロ
セッサ105に転送し、プロセッサ105が、主管理プ
ロセッサ105(P)になる。後で説明する図5は、図
3のステップ305で示したような管理プロセッサを監
視するプロセスを詳しく示す。
【0020】高可用性コントローラ(HAC)101
が、管理プロセッサ105のどれからもアクティブなM
P_OK信号108を検出できない場合、HACは、管
理プロセッサ105がシステム内にないかまたは稼働し
ていないと仮定し、ステップ310で、システム100
の管理を引き継ぎ、システムは、管理プロセッサ105
に故障が生じるすぐ前と同じ動作状態になる。
【0021】高可用性コントローラ101は、ファン・
モジュール140を介してシステムおよび入出力ファン
145をイネーブルする。ファン・モジュール140
は、HAC101からの非アクティブなSP_OK信号
141(管理プロセッサがOKではないことを示す)に
よって、管理プロセッサが稼働していないことを認識
し、そのファン速度を、非監視動作に適切なデフォルト
に設定する。ファン・モジュール140によってファン
の不良が検出された場合、高可用性コントローラ101
は、これを認識し(ファン・モジュールからのファン不
良の割込みにより)、ステップ325で、システムの電
源を切る。
【0022】「セル存在」信号114は、セル・ボード
・コネクタ上に配置されたピンを介して高可用性コント
ローラ101に送られる。セル・ボードが引き抜かれた
場合は、セル存在信号が中断され、それにより高可用性
コントローラ101が非アクティブになる。高可用性コ
ントローラ101は、セル存在信号114を監視し、セ
ル・ボードへのセル電力イネーブル113がアクティブ
で、セル・ボードのセル存在信号114が非アクティブ
になった場合、ボードへの電力がすぐにディスネーブル
され、ボードへの電力が明示的に再びイネーブルされる
までディスネーブルされたままになる。コア入出力存在
信号109は、コア入出力ボード・コネクタ上のピンを
介してHACに送られる。コア入出力ボード104が引
き抜かれた場合は、コア入出力存在信号109が中断さ
れ、それによりHACが非アクティブになる。
【0023】それぞれの電力供給可能(powerab
le)なエンティティ(セル102、システム・バック
プレーン118、およびPCIバックプレーン125)
から提供される以下の基本的な信号が、高可用性コント
ローラ(HAC)101によって使用される。 (1)101(HAC)からエンティティLPMへの
「電源イネーブル」信号(113、122)。 (2)HACへの「装置存在」信号(109、11
4)。 (3)HACへの「装置準備完了」信号。 (4)HACへの「電源良好」信号。 (5)HACへの「電源不良」信号(セルのローカル・
サービス・プロセッサ116に提供されるセルLPM不
良指示を除く)。分かりやすくするために、後の3つの
信号[(3)〜(5)]はそれぞれ、セル102、シス
テム・バックプレーン118およびPCIバックプレー
ン125についてそれぞれ線112、119および12
1で示したような図2の信号線と組み合わされる。
【0024】ステップ310で、ファン・モジュール1
40によってファンの不良が検出された場合、動作状態
機械103がこれを認識し(ファン・モジュールからの
ファン不良信号の割込みによって)、次にステップ32
5で、後で説明するようにシステムの電源を切る。ある
いは、ステップ315で、「Device_N_Pow
er_Good(電源良好)」信号(図4の410)が
非アクティブになったときに高可用性コントローラ10
1が電源不良信号の割込みを受けた場合は、ステップ3
25で、動作状態機械103は、システムの電源を順次
切る。
【0025】ステップ315で、システム電源が、問題
なしと判定された場合、すなわち「バックプレーン電源
良好」信号119が検出された場合は、ステップ320
で、状態機械103は、システム(フロント・パネル)
電源スイッチ110が押されたかどうかを確認する。電
源スイッチが押されていない場合、状態機械103は、
ステップ305で、システム監視を再開する。電源スイ
ッチが押された場合は、ステップ325で、状態機械1
03は、以下に示した順序で順次システム100の電源
を切る。 (1)最後の論理PCI(入出力カード)バックプレー
ン125、次に、関連したセル・ボード102。 (2)最高の論理PCIバックプレーン125、および
次に、関連したセル・ボード102、最後に、 (3)システム・バックプレーン118。
【0026】ステップ330で、フロント・パネル・イ
ンジケータ130が更新され、最後に、ステップ335
で、高可用性コントローラ101は、管理プロセッサO
K信号108(1)〜108(N)を監視して、再び稼
働している管理プロセッサ105があるかどうかを判定
する。少なくとも1つの管理プロセッサ105が稼働し
ているときは、そのプロセッサに制御が渡され、高可用
性コントローラの動作状態機械103は、ステップ30
0で、その状態監視機能に戻る。
【0027】高可用性コントローラ・ロジック 図4は、本発明のシステムの高可用性コントローラをよ
り詳細に示すブロック図である。図4に示したように、
高可用性コントローラ(HAC)101は、管理プロセ
ッサ105によるアクセスのために制御および状態情報
を集中化する。本発明のシステムの例示的な実施形態に
おいて、高可用性コントローラ101は、フィールド・
プログラマブル・ゲート・アレイ(FPGA)として実
現されているが、代替として、他のソフトウェアでない
コード化装置を使用することができる。いずれにして
も、HAC101は、管理プロセッサ105によって実
行されるコードと同じ一連の操作を実行しない。
【0028】システム100の動作を監視している間
に、HACは、以下のセンサ信号と制御信号を受け取る
かまたは生成する。 (1)フロント・パネル電源スイッチ110は、高可用
性コントローラ101によって監視される。 (2)ファン不良信号は、ファン・モジュール140に
よって検出されたファンの問題点を報告する。ファン不
良ならびにバックプレーン電源不良は、セル・ボード1
02を除いて、割込みバス401によって報告され、フ
ァン故障信号はそこから、対応するローカル・サービス
・プロセッサ116に送られる。 (3)システムにボードが適切に差し込まれたことを示
す「装置存在」信号405が、各主要ボード、すなわち
システム内のセル102、入出力バックプレーン12
5、およびコア入出力管理プロセッサ104(ならびに
フロント・パネルおよび大容量記憶ボード[図示せ
ず])から送られる。 (4)それぞれの関連した電力供給可能エンティティの
電力を制御するために、「電源イネーブル」信号420
が、それぞれのLPM15xに送られる。「電源良好」
の状態は、主電源と電力供給可能エンティティからの信
号410によって、各エンティティごとに適切な電源の
投入と切断を確定する。 (5)システム内の各ボードから「LPM準備完了」信
号415が来る。この信号は、特定のLPM 15xが
適切にリセットされたこと、必要なリソースがすべて存
在していること、LPMが関連ボードの電源を投入する
準備ができていることを示す。 (6)主電源、予備電源、および管理プロセッサOKの
フロント・パネル・インジケータ(LEDや他の表示装
置)130と、オペレーティング・システムによって制
御される他のインジケータとが、高可用性コントローラ
101によって制御可能である。
【0029】線402および403で示したバスは、高
可用性コントローラFPGAの内部にあり、それぞれ
「データ出力」と「データ入力」としてはたらく。本発
明のシステムの例示的な実施形態において、ブロック1
06は、管理プロセッサ105とセンサとの間のリモー
ト・インタフェースを提供し前述の制御を行うI2Cバ
ス・インタフェースである。
【0030】高可用性コントローラの動作状態機械 図5は、高可用性コントローラ動作状態機械103によ
って実行される一連のステップの例を示すフローチャー
トである。図5に示したように、ステップ505のシス
テム・ブート操作の後、ステップ510で、すべての管
理プロセッサ105(1)〜105(N)が、そのそれ
ぞれのオペレーティング・システムの実行を開始し、デ
フォルトの主管理プロセッサ105(P)に指定された
管理プロセッサ105は、高可用性コントローラ101
に、その主プロセッサの状態を知らせる。次に、高可用
性コントローラ101は、管理プロセッサ105(P)
をイネーブルし、それにより、I2Cバス111によ
り、前述の監視機能と制御機能を含む、管理プロセッサ
が担当するすべてのシステム機能を制御する。管理プロ
セッサ105はすべて、電源、ファンおよび温度センサ
120から入力を受け取るが(I2Cバス111を介し
て)、主管理プロセッサ105(P)だけは、関連する
システム機能を制御する。
【0031】ステップ515で、すべての管理プロセッ
サ105(1)〜105(N)が、そのウォッチドッグ
・タイマ117を始動(リセット)させる。この例示的
な実施形態において、各ウォッチドッグ・タイマ117
は、ユーザが調整可能な約6〜10秒のタイムアウト期
間を有するが、特定のシステム100に適したように他
のタイマ値を選択することができる。ステップ520
で、ウォッチドッグ・タイマ117が動作している限り
アクティブ状態に保持される管理プロセッサOK(MP
_OK)信号108が、高可用性コントローラ101に
送られる。所定の管理プロセッサ105は、適切に機能
しているとき、タイマのタイムアウト期間を再始動させ
るためにウォッチドッグ・タイマ117に周期的にリセ
ット信号を送る。特定の管理プロセッサ105に故障が
発生した場合は、そのプロセッサがウォッチドッグ・タ
イマをリセットせず、ウォッチドッグ・タイマがタイム
アウトして、MP_OK信号108が非アクティブにな
る可能性が高い。高可用性コントローラ101が、非ア
クティブのMP_OK信号を検出すると、コントローラ
は、前に図3のステップ310に関連して説明したよう
にシステム100の制御を引き継ぐ。
【0032】ステップ525で、ウォッチドッグ・タイ
マ・リセット信号が、主管理プロセッサ105(P)か
ら送られた場合は、ステップ515でタイマがリセット
される。あるいは、ステップ530で、管理プロセッサ
105(P)が、システム環境の状態を調べる。各管理
プロセッサ105は、システムの電力、温度およびファ
ン速度を所定の値と比較して、システム動作環境の完全
性を調べるファームウェア・タスクを含む。システム環
境パラメータが、受け入れ可能な範囲にない場合、管理
プロセッサ105(P)は、ウォッチドッグ・タイマ1
17をリセットせず、それにより、ステップ540で、
MP_OK信号108が非アクティブになる。動作状態
機械103は、次に、図3のステップ305で前に説明
したように、稼働している管理プロセッサが他にあるか
どうかを確認する。システム環境パラメータが、受け入
れ可能な範囲内にあり、ステップ535でウォッチドッ
グ・タイマ117がタイムアウトしなかった場合は、管
理プロセッサ105(P)は、ステップ525に戻る。
【0033】以上、本発明の好ましい実施形態を図面に
示し説明したが、当業者には、本発明の様々な実施形態
が可能なことは明らかである。例えば、図1、図2、お
よび図4に示したようなシステムの特定の構成、ならび
に図3と図5において前に説明した特定の一連のステッ
プは、本明細書で説明した特定の実施形態に限定するよ
うに解釈されるべきではない。併記の特許請求の範囲に
示したような趣旨および意図から逸脱することなく、本
発明の以上その他の特定の要素に修正を行うことができ
る。
【図面の簡単な説明】
【図1】本発明のシステムの基本構成要素を示すブロッ
ク図である。
【図2】本発明のシステムの1つの実施形態で利用され
る例示的な構成要素を示すブロック図である。
【図3】本発明のシステムによる方法を実施する際に実
行される例示的な一連のステップを示すフローチャート
である。
【図4】本発明のシステムの高可用性コントローラをよ
り詳細に示すブロック図である。
【図5】高可用性コントローラによって実行される例示
的な一連のステップを示すフローチャートである。
【符号の説明】
100:バックアップ管理システム 101:高可用性コントローラ 105:管理プロセッサ 110:電源スイッチ 117:ウォッチドッグ・タイマ 120:システム・センサ 140:冷却ファン・コントローラ 150:電源コントローラ
───────────────────────────────────────────────────── フロントページの続き (72)発明者 マイケル・ジョン・エリックソン アメリカ合衆国コロラド州80537,ラブラ ンド,メリッサ・ドライブ 1507 (72)発明者 ポール・ジェイ・マンテイ アメリカ合衆国コロラド州80525,フォー ト・コリンズ,グリーンビュー・ドライブ 5212 Fターム(参考) 5B011 HH02 KK01 MA01

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 コンピュータ・システムに基本システム
    制御機能を提供するためのバックアップ管理システムで
    あって、 コンピュータ・システム内の関連した電源の状態を監視
    するために、電源モジュールからなる一群の装置のうち
    の少なくとも2つの装置からの信号を検出する複数のシ
    ステム・センサ、前記コンピュータ・システム内の温度
    を監視する温度センサ、およびシステム冷却ファン速度
    を検出し制御する冷却ファン速度モジュールと、 複数の管理プロセッサと、を備え、前記プロセッサはそ
    れぞれ、前記センサのそれぞれに結合されており、 前記管理プロセッサはそれぞれその動作状態を示す管理
    プロセッサ状態信号を生成し、 前記管理プロセッサのそれぞれと前記システム・センサ
    とに動作可能に結合された非ソフトウェア・コード化状
    態機械を有し、 前記状態機械は、前記管理プロセッサによって実行され
    るコードと異なる一連の操作を実行し、 前記状態信号がそれぞれ非アクティブであることを検出
    したときに、前記状態機械が、前記システム・センサか
    らの出力に応答してシステム・コントローラへの制御信
    号を生成し、その動作を制御する、 バックアップ管理システム。
  2. 【請求項2】 前記システム・コントローラが、 前記コンピュータ・システム内の関連した電源の状態を
    それぞれ監視し、前記コンピュータ・システムへの電力
    をそれぞれ制御する複数の電源コントローラと、 前記冷却ファン速度を検出し制御する少なくとも1つの
    冷却ファン・コントローラと、 を備えている、請求項1に記載のバックアップ管理シス
    テム。
  3. 【請求項3】 前記状態機械が、フィールド・プログラ
    マブル・ゲート・アレイである、請求項1に記載のバッ
    クアップ管理システム。
  4. 【請求項4】 ファン不良が検出された場合またはバッ
    クプレーン電源良好信号が検出されない場合に、すべて
    の前記管理プロセッサからの非アクティブのプロセッサ
    状態信号を検出したことに応答して、前記高可用性コン
    トローラが、前記システムの電源を順次切る、請求項1
    に記載のバックアップ管理システム。
  5. 【請求項5】 前記コンピュータ・システムが、少なく
    とも1つの入出力カード・バックプレーンとシステム・
    バックプレーンとを有し、前記高可用性コントローラ1
    01が、 最後の論理の前記入出力カード・バックプレーン、次
    に、関連する前記セル・ボード、 最高の論理の前記入出力カード・バックプレーン、次
    に、関連する前記セル・ボード、 前記システム・バックプレーン、の順序で、前記システ
    ムの電源を順次切る、請求項4に記載のバックアップ管
    理システム。
  6. 【請求項6】 前記管理プロセッサがそれぞれ、ウォッ
    チドッグ・タイマを有し、前記ウォッチドッグ・タイマ
    が、前記それぞれの管理プロセッサがタイマを所定の期
    間内にリセットしないときに前記プロセッサ状態信号を
    非アクティブ状態にセットする、請求項1に記載のバッ
    クアップ管理システム。
  7. 【請求項7】 コンピュータ・システム内の基本システ
    ム機能の多重冗長バックアップ管理のための方法であっ
    て、 複数の管理プロセッサを介して、前記コンピュータ・シ
    ステムにおける電力、温度および冷却ファン速度を検出
    する複数のセンサを監視するステップと、 前記管理プロセッサのうちの関連したプロセッサの動作
    状態をそれぞれ示す複数のプロセッサ状態信号を生成す
    るステップと、 前記複数のプロセッサ状態信号を監視するステップと、 前記プロセッサ状態信号のすべてが非アクティブである
    ことを検出したときに、前記センサからの出力に応答し
    てバックアップ制御信号を生成して、前記センサと関連
    したコントローラの動作を制御するステップと、を含
    み、 前記バックアップ制御信号が、前記管理プロセッサ、前
    記センサ、および前記コントローラに動作可能に結合さ
    れた非ソフトウェア・コード化状態機械によって生成さ
    れる、方法。
  8. 【請求項8】 前記状態機械が、前記管理プロセッサに
    よって実行されるコードと異なる一連の操作を実行す
    る、請求項7に記載の方法。
  9. 【請求項9】 ファン不良が検出された場合またはバッ
    クプレーン電源良好信号が検出されない場合に、すべて
    の前記管理プロセッサからの非アクティブプロセッサ状
    態信号に応答して前記システムの電源を順次切るステッ
    プを含む、請求項7に記載の方法。
  10. 【請求項10】 前記コンピュータ・システムが、少な
    くとも1つの入出力カード・バックプレーンとシステム
    ・バックプレーンとを有し、前記システムの電源を順次
    切る前記ステップが、 最後の論理の前記入出力カード・バックプレーン、次
    に、関連した前記セル・ボードの電源を切るステップ
    と、 最高の論理の前記入出力カード・バックプレーン、次
    に、関連した前記セル・ボードの電源を切るステップ
    と、 前記システム・バックプレーンの電源を切るステップ
    と、を、この順序で含む、請求項9に記載の方法。
JP2002220928A 2001-07-30 2002-07-30 バックアップ管理システムおよび方法 Pending JP2003150280A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/917,984 US6915441B2 (en) 2001-07-30 2001-07-30 Computer system with multiple backup management processors for handling embedded processor failure
US09/917984 2001-07-30

Publications (1)

Publication Number Publication Date
JP2003150280A true JP2003150280A (ja) 2003-05-23

Family

ID=25439602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002220928A Pending JP2003150280A (ja) 2001-07-30 2002-07-30 バックアップ管理システムおよび方法

Country Status (3)

Country Link
US (1) US6915441B2 (ja)
JP (1) JP2003150280A (ja)
DE (1) DE10231938A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268742A (ja) * 2005-03-25 2006-10-05 Nec Corp コンピュータシステム及びその制御方法
DE112008001590T5 (de) 2007-06-13 2010-04-29 Toyota Infotechnology Center Co., Ltd. Prozessorbetriebsinspektionssystem und Betriebsinspektionsschaltung
JP2013004082A (ja) * 2011-06-21 2013-01-07 Quanta Computer Inc サーバラックシステム
US9521471B2 (en) 2009-07-31 2016-12-13 Nec Corporation Line accommodating apparatus and temperature control method

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030023887A1 (en) * 2001-07-30 2003-01-30 Maciorowski David R. Computer system with backup management for handling embedded processor failure
US20040054943A1 (en) * 2002-08-08 2004-03-18 International Business Machines Corporation Method and system for improving the availability of software processes utilizing configurable finite state tables
US7222246B2 (en) * 2003-09-26 2007-05-22 Hewlett-Packard Development Company, L.P. Method for determining number of dynamically temperature-adjusted power supply units needed to supply power according to measure operating temperature of power supply units
US20050080887A1 (en) * 2003-10-08 2005-04-14 Chun-Liang Lee Redundant management control arbitration system
US7062933B2 (en) * 2004-03-24 2006-06-20 Intel Corporation Separate thermal and electrical throttling limits in processors
US7305570B2 (en) * 2004-08-16 2007-12-04 Standard Microsystems Corporation Failsafe slave mechanism for mission critical applications
RU2006123259A (ru) * 2004-10-14 2008-01-20 Лаготек Корпорейшн (Us) Распределенные беспроводные системы автоматизации домашних и коммерческих электрических сетей
US7418604B2 (en) * 2004-12-22 2008-08-26 Hewlett-Packard Development Company, L.P. System and method for powering on after verifying proper operation of a charge pump and voltage regulator
US20060149873A1 (en) * 2005-01-04 2006-07-06 Underwood Brad O Bus isolation apparatus and method
US7281070B2 (en) * 2005-01-28 2007-10-09 International Business Machines Corporation Multiple master inter integrated circuit bus system
US7627774B2 (en) * 2005-02-25 2009-12-01 Hewlett-Packard Development Company, L.P. Redundant manager modules to perform management tasks with respect to an interconnect structure and power supplies
US7533281B2 (en) * 2005-08-03 2009-05-12 Aten International Co., Ltd. Method and system for controlling powers of a plurality of servers
TWI327259B (en) * 2006-09-21 2010-07-11 Tyan Computer Corp Complex signal processing system and method for multiple fans
CN101165354B (zh) * 2006-10-18 2011-01-05 鸿富锦精密工业(深圳)有限公司 风扇转速自动控制电路
US8108697B2 (en) * 2008-07-28 2012-01-31 Oracle America, Inc. Controlling the power utilization of a computer system by adjusting a cooling fan speed
US9003824B2 (en) * 2011-02-02 2015-04-14 Robert Almblad Positive air pressure ice making and dispensing system
WO2014051626A1 (en) * 2012-09-28 2014-04-03 Hewlett-Packard Development Company, L.P. Temperature regulation of a cpu
US10101049B2 (en) 2015-11-12 2018-10-16 Oracle International Corporation Determining parameters of air-cooling mechanisms
US10254807B2 (en) * 2016-06-13 2019-04-09 Dell Products L.P. Systems and methods for policy-based per-zone air mover management for offline management controller
TWI630326B (zh) * 2017-01-06 2018-07-21 茂達電子股份有限公司 風扇控制系統及其方法
CN114151374A (zh) * 2021-11-05 2022-03-08 山东云海国创云计算装备产业创新中心有限公司 一种风扇控制电路及一种主机

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW292365B (en) * 1995-05-31 1996-12-01 Hitachi Ltd Computer management system
US5612580A (en) * 1995-10-10 1997-03-18 Northrop Grumman Corporation Uninterruptible power system
US5982652A (en) * 1998-07-14 1999-11-09 American Power Conversion Method and apparatus for providing uninterruptible power using a power controller and a redundant power controller
US6944779B2 (en) * 1999-07-14 2005-09-13 Visteon Global Technologies, Inc. Power management fault strategy for automotive multimedia system
US20030023887A1 (en) * 2001-07-30 2003-01-30 Maciorowski David R. Computer system with backup management for handling embedded processor failure

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268742A (ja) * 2005-03-25 2006-10-05 Nec Corp コンピュータシステム及びその制御方法
JP4655718B2 (ja) * 2005-03-25 2011-03-23 日本電気株式会社 コンピュータシステム及びその制御方法
DE112008001590T5 (de) 2007-06-13 2010-04-29 Toyota Infotechnology Center Co., Ltd. Prozessorbetriebsinspektionssystem und Betriebsinspektionsschaltung
US8060793B2 (en) 2007-06-13 2011-11-15 Toyota Infotechnology Center Co., Ltd. Processor operation inspection system and operation inspection circuit
US9521471B2 (en) 2009-07-31 2016-12-13 Nec Corporation Line accommodating apparatus and temperature control method
JP2013004082A (ja) * 2011-06-21 2013-01-07 Quanta Computer Inc サーバラックシステム

Also Published As

Publication number Publication date
US6915441B2 (en) 2005-07-05
US20030126473A1 (en) 2003-07-03
DE10231938A1 (de) 2003-06-18

Similar Documents

Publication Publication Date Title
JP2003150280A (ja) バックアップ管理システムおよび方法
CN107122321B (zh) 硬件修复方法、硬件修复系统以及计算机可读取存储装置
JP3161189B2 (ja) 記憶システム
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
CN106326061B (zh) 高速缓存数据处理方法及设备
JP5317360B2 (ja) データ処理システムにおいてシステムの電力損失通知をしきい値処理するためのコンピュータ・プログラム、システム、および方法
US7275182B2 (en) Method and apparatus for correlating UPS capacity to system power requirements
JP6130520B2 (ja) 多重系システムおよび多重系システム管理方法
US20030023887A1 (en) Computer system with backup management for handling embedded processor failure
US20090171473A1 (en) Storage system, storage system control method and storage system control apparatus
JP4886558B2 (ja) 情報処理装置
US20050086460A1 (en) Apparatus and method for wakeup on LAN
CN110701084B (zh) 电子系统内的风扇控制方法
CN115795568A (zh) 一种液冷服务器漏液保护方法、装置、设备及存储介质
JPH10307635A (ja) コンピュータシステム及び同システムに適用する温度監視方法
JP2003256240A (ja) 情報処理装置及びその障害回復方法
US20190250685A1 (en) Computer system, operational method for a microcontroller, and computer program product
JP3448197B2 (ja) 情報処理装置
JP2019016218A (ja) 情報処理装置、制御装置および情報処理装置の制御方法
JP3661665B2 (ja) パッケージの閉塞方法
JP2004094455A (ja) コンピュータ装置
JP3376853B2 (ja) パッケージの閉塞方法
CN112084085B (zh) 系统断电记录方法
US20090313509A1 (en) Control method for information storage apparatus, information storage apparatus, program and computer readable information recording medium
CN116449800A (zh) 一种控制逻辑切换方法、装置、设备及介质