JP2003256240A - 情報処理装置及びその障害回復方法 - Google Patents

情報処理装置及びその障害回復方法

Info

Publication number
JP2003256240A
JP2003256240A JP2002053211A JP2002053211A JP2003256240A JP 2003256240 A JP2003256240 A JP 2003256240A JP 2002053211 A JP2002053211 A JP 2002053211A JP 2002053211 A JP2002053211 A JP 2002053211A JP 2003256240 A JP2003256240 A JP 2003256240A
Authority
JP
Japan
Prior art keywords
monitoring device
monitoring
information processing
power supply
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002053211A
Other languages
English (en)
Inventor
Koji Kato
浩二 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002053211A priority Critical patent/JP2003256240A/ja
Publication of JP2003256240A publication Critical patent/JP2003256240A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 この発明は、監視装置に対してリトライ処理
を実行する情報処理装置及びその障害回復方法を提供す
ることを目的とする。 【解決手段】 この発明の情報処理装置は、通常稼動す
る処理装置(ロジックA)と、前記通常稼動する処理装
置を監視する監視装置(監視ロジックB)と、前記監視
装置を監視する第2の監視装置(補助監視装置C)と、
それぞれの監視装置は、監視対象となる装置に対して、
異常状態を検出した際、リトライ処理を実行する手段
(電源OFF/ON制御)とを具備したことを特徴とす
る。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、情報処理装置に
係わり、特に、情報処理装置のリトライ処理技術に関す
る。
【0002】
【従来の技術】一般に、情報処理装置(以下、コンピュ
ータシステムと称す。)の電源は、電源投入スイッチの
手動操作によって投入される。
【0003】しかし、コンピュータシステムは、電源を
投入して動作用の電源電圧が正常に供給されていたとし
ても、正常な動作状態になるとは限らない。これは、コ
ンピュータシステム内に使用している半導体素子や集積
回路素子等の電子デバイスがその温度特性に起因して正
常に動作できない状態、又は、電源投入時のノイズによ
って正常な初期処理(以下、POSTと称す。)を実行
できなかったことに起因する。
【0004】従って、電源を投入しても、正常な動作状
態にならなかった場合は、手動で電源を一旦切断し、再
度投入する操作を行うことになる。
【0005】しかしながら、集積回路素子等の電子デバ
イスが正常に動作できない状態が解消されていない場合
は、手動によって何回も電源の再投入操作を繰り返すこ
とが必要になるため、極めて面倒であるという問題があ
る。
【0006】従来の問題点を解決する為、特開平9−3
25834号公報には、情報処理装置のPOST失敗を
検出し、電源投入を自動的にリトライ処理させる技術を
開示する。特に、情報処理装置の電源投入後、特定のプ
ログラムから所定のコマンドが設定時間内に出力された
ならば、電源の投入状態を継続し、設定時間内に出力さ
れなければ、情報処理装置が正常な動作状態にならなか
ったものと見做し、リトライ処理を実行する。即ち、電
源を一旦切断し、その後、所定時間経過後に前記電源装
置の電源を再度投入する制御を実行する。又、所定のコ
マンドが設定時間内に出力されなければ、予め定めた通
電時間だけ電源の投入状態を継続した後、電源を切断
し、次の再投入制御に移行する。
【0007】また、特開平6−242978号公報に
は、コンピュータシステム立ち上げ時に、電源回路障害
以外でも自動的にリトライ処理を所定の回数だけ繰返
し、一時的な障害ならそのまま運転開始可能にする障害
回復処理を開示する。特に、リトライ回数計数用カウン
タと所定リトライカウント値及び所定電源投入時間を記
憶するメモリと制御部からなり、計算機システムに、サ
ブ電源から電源供給を受ける電源制御装置を設ける。制
御部は、システム立ち上げ時に障害が発生した場合、カ
ウンタのリトライ回数を更新し、該リトライ回数が所定
リトライカウント値を超えない時リトライ処理を実行す
る。即ち、システムの電源をオフし、所定電源投入時間
経過後に電源をオンする処理を実行し、引続き障害が発
生する度にリトライ回数がリトライカウント値を超えな
い時、リトライ処理を繰り返す。超えたときシステムの
処理装置105に運転停止を指示し、障害が発生しない
場合には、システムの処理装置105に運転開始を指示
する。
【0008】従って、従来のコンピュータシステムで
は、起動異常が発生した時のリトライ処理は、正常動作
と見なされている監視システム、例えば、電源制御装置
やサービスボードにより、リトライ処理が実行されてい
る。ここでのリトライ処理では、主電源を一旦遮断し、
所定時間後に再投入する電源のOFF/ONリトライが
実行されている。
【0009】しかしながら、従来技術では、補助電源で
駆動する監視システム自身に異常があり、例えば、一時
的な動作不良に落ち込んだ状態で、コンピュータシステ
ムが起動しない障害の場合、コンピュータシステムを救
うことが出来ない。
【0010】監視システムが固定故障であれば、部品交
換をする必要があるが、一時的な、原因不明の非再現な
故障であれば、監視システムの駆動電源をOFF/ON
することで回復するケースが少なからず存在する。
【0011】
【発明が解決しようとする課題】従って、上記した従来
技術では、情報処理装置を監視している補助電源で駆動
する監視装置が故障した場合、当該情報処理装置は電源
のOFF/ONリトライを実行しても、障害を回復する
ことができないという問題があった。
【0012】そこで、この発明は上記の問題を解決する
ためになされたものであり、本発明は、監視装置に対し
てリトライ処理を実行する情報処理装置及びその障害回
復方法を提供することを目的とする。
【0013】
【課題を解決するための手段】この発明の情報処理装置
は、通常稼動する処理装置と、前記通常稼動する処理装
置を監視する監視装置と、前記監視装置を監視する第2
の監視装置と、それぞれの監視装置は、監視対象となる
装置に対して、異常状態を検出した際、リトライ処理を
実行する手段とを具備したことを特徴とする。
【0014】このような構成にするからこそ、監視装置
の駆動電源に対してリトライ処理を実行することができ
る。
【0015】また、この発明のリトライ処理を実行する
手段は、監視対象の各装置に対して、電源供給を一旦止
め、再度、供給することを特徴とする。
【0016】また、更に、この発明の情報処理装置は、
各装置に対して、少なくとも2系統の電源を供給する電
源装置を有し、前記2系統の電源装置のうち、第1の電
源が前記通常稼動する処理装置と第2の監視装置に供給
され、第2の電源が前記監視回路に供給されることを特
徴とする。
【0017】この発明の監視装置は、前記処理装置に対
する初期化処理の異常状態を検出する検出手段と、前記
検出手段により、異常状態を検出した場合、前記処理装
置に対してリトライ処理を実行することを特徴とする。
【0018】この発明の第2の監視装置は、前記処理装
置に対する電源供給に伴い、計時するタイマと、前記タ
イマにより所定時間の経過後、タイムアウト信号を生成
する手段と、前記タイムアウト信号の生成に応答して、
前記監視装置に対してリトライ処理を実行することを特
徴とする。
【0019】また、この発明では、通常稼動する処理装
置と、前記通常稼動する処理装置を監視する監視装置
と、前記監視装置を監視する第2の監視装置と有した情
報処理装置の障害回復方法に於いて、前記監視装置によ
り、前記通常稼動する処理装置を監視するステップと、
それぞれの監視装置により、監視対象となる装置に対し
て、異常状態を検出した際、リトライ処理を実行するス
テップとを具備することを特徴とする。
【0020】このような構成にするからこそ、監視装置
の駆動電源に対してリトライ処理を実行することができ
る。
【0021】更に、この発明のリトライ処理を実行する
ステップは、監視対象の各装置に対して、電源供給を一
旦止め、再度、供給することを特徴とする。
【0022】また、更に、この発明では、監視装置によ
り、前記通常稼動する処理装置を監視するステップは、
前記処理装置に対する初期化処理の異常状態を検出する
検出ステップと、前記検出ステップにより、異常状態を
検出する場合、前記処理装置に対してリトライ処理を実
行することを特徴とする。
【0023】この発明では、第2の監視装置は、前記処
理装置に対する電源供給に伴い、計時するタイマを有
し、前記タイマにより所定時間の経過後、タイムアウト
信号を生成するステップと、前記タイムアウト信号の生
成に応答して、前記監視装置に対してリトライ処理を実
行することを特徴とする。
【0024】
【発明の実施の形態】以下、図面を参照してこの発明の
一実施形態を説明する。図1は、この発明の一実施形態
に係わる3階層監視システムの概念を示すブロック図で
ある。図2は、この発明の一実施形態に係わる3階層監
視システムのリトライシーケンスを示す。
【0025】補助電源で動作する監視ロジック及びその
制御プログラム(以下、監視システムと称す。)Bは、
基本電源で動作するロジックA、例えば、オペレーショ
ンシステム(以下、OSと称す。)、アプリケーション
ソフトウェア、BIOSや各種回路を常時監視してい
る。ここでは、図2に示される通り、監視システムB
は、所定のタイミングAで内蔵のタイマを動作させる。
所定時間内に、タイマが基本電源で動作するロジックA
によりリセット動作されなかった場合(図2の点線部
分)、タイマはタイムアウト信号を生成する。監視シス
テムBは、タイムアウト信号に応答して、ロジックAの
異常状態又は正常状態を判断する(以下、チェックポイ
ントと称す。)。即ち、監視ロジックBは、ロジックA
の異常状態を監視し、初期化処理(以下、POSTと称
す。)失敗やOSのフリーズに伴う異常を検出した場
合、基本電源のOFF/ONのリトライ処理を実行す
る。
【0026】一方、図2に於いて、所定時間内、即ち、
タイミングBでタイマが基本電源で動作するロジックA
によりリセット動作が実行された場合(図2の実線部
分)、監視システムBは、ロジックAに対して、基本電
源のOFF/ONのリトライ処理を実行しない。
【0027】本願発明の一実施形態に於いては、補助電
源で動作する開始ロジック及びその制御プログラムBは
基本電源で動作する補助監視装置Cにより、常時監視さ
れている。即ち、3階層監視システムで異常状態を監視
する為、監視ロジックBを監視する更なる監視ロジック
Cを設置し、監視ロジックBが間欠故障した場合、基本
電源及び補助電源のOFF/ONのリトライ処理を実行
できることを特徴とする。監視ロジックCのリトライシ
ーケンスは、監視ロジックBのそれと同様である。この
様な構成にするからこそ、基本電源で動作するロジック
Aを監視する監視ロジックBの異常状態のチェックポイ
ントを検出し、リトライ処理を実行できるので、コンピ
ュータシステムの保守性を向上することが出来る。
【0028】次に、図3は、この発明の一実施形態に係
わる3階層監視システムの機能ブロックを示す。同実施
形態に於いては、最終監視装置の電源として基本電源を
用いている。
【0029】メインロジックAは、基本電源Dから各種
電源電圧を供給されている。補助電源駆動監視装置B
は、補助電源Eにより各種電源電圧が供給されており、
基本電源駆動のメインロジックAを監視し、異常状態を
検出した場合、基本電源DとメインロジックAの間に介
在する電源スイッチをOFF/ONする。
【0030】一方、基本電源駆動監視装置Cは、基本電
源Dにより各種の電源電圧が供給されており、補助電源
駆動監視装置Bを監視し、異常状態を検出した場合、補
助電源Eと補助電源駆動監視装置Bの間に介在する電源
スイッチをOFF/ONする。
【0031】なお、図3に於いては、電源スイッチを基
本電源DとメインロジックA及び補助電源Eと補助電源
駆動監視装置Bの間に別途設けたが、電源スイッチを各
電源回路内に設けることも出来る。また、基本電源駆動
監視装置Cは、補助電源駆動監視装置Bより信頼性を高
める為、単純なハードウェアのみで構成することもでき
る。
【0032】図4は、図3に記載された3階層間システ
ムを情報処理装置に提供したシステム構成が示されてい
る。この情報処理装置は、ワークステーションタイプ、
または、サーバタイプのコンピュータシステムであり、
そのマザーボード上には、ホストバス30、PCIバス
60、70、メモリバス80、システム管理バス(以
下、SMバスと称す。)140、業界標準アーキテクチ
ャバス(以下、ISAバスと称す。)150及び内部統
合回路バス(以下、I2Cバスと称す。)250が配線
される。
【0033】このコンピュータ本体内には、CPU1
0、20、CPU−PCIブリッジ装置(以下、ノース
ブリッジと称す。)40、主メモリ50、表示装置9
0、RAID装置100、LAN装置110、カードバ
ス装置120、PCI−ISAブリッジ装置(以下、サウ
スブリッジと称す。)130、各種入出力周辺装置をシ
ステム統合したGA160、BIOS−ROM170、
キーボード装置(以下、KBと称す。)180、フロッ
ピディスクドライブ装置(以下、FDDと称す。)19
0、二つのマザーボード管理コントローラ(以下、BM
Cと称す。)200、260、フィールドリプレイスメ
ントユニット(以下、FRUと称す)210、センサデー
タ記憶装置(以下、SDRと称す。)220、センサ23
0、システムイベントログ(以下、SELと称す。)2
40、電源回路270などが設けられている。
【0034】次に、図4のコンピュータシステムに設け
られた各コンポーネントの機能及びその構成について説
明する。
【0035】CPU10、20は、例えば、米インテル
社によって製造販売されているマイクロプロセッサなど
によって実現される。このCPU10、20の入出力ピ
ンに直結されているホストバス30は、133Mhzの
バンド幅を有する64ビット幅のデータバスを有する。
【0036】主メモリ50は、オペレーティングシステ
ム、デバイスドライバ、実行対象のアプリケーションプ
ログラム及び処理データなどを格納するメモリデバイス
であり、複数のデュアル・インライ・メモリ・モジュー
ル(以下、DIMMと称す。)によって構成される。こ
の主メモリ50は、マザーボード上に予め実装されてい
るシステムメモリと、ユーザによって必要に応じて装着
される拡張メモリとから構成される。これらシステムメ
モリ及び拡張メモリを構成するDIMMとしては、シン
クロナスDRAMやRambusなど、バンク毎にメモ
リクロックの供給が必要な高速メモリが利用される。
【0037】この主メモリ50は、133Mhzのバン
ド幅を有する64ビット幅のデータバスを有する専用の
メモリバス80を介してノースブリッジ40に接続され
る。メモリバス80のデータバスとしては、ホストバス
30のデータバスを利用することも出来る。この場合、
メモリバス80は、アドレスバスと各種メモリ制御信号
線とから構成される。
【0038】ノースブリッジ40は、ホストバス30と
二つのPCIバス60、70との間を繋ぐブリッジLS
Iであり、PCIバス60、70のバスマスタの1つと
して機能する。このノースブリッジ40は、PCIバ6
0、70に接続されたデバイス間のバス調停回路、ホス
トバス40とPCIバス60、70との間で、データ及
びアドレスを含むバスサイクルを双方向で変換する機能
及びメモリバス80を介して主メモリ50をアクセス制
御する機能などを有する。
【0039】PCIバス60、70はクロック同期型の
入出力バスであり、PCIバス60、70上の全てのバ
スサイクルはバスクロックに同期して行われている。P
CIバスクロックの周波数は、最大33MHzである。
PCIバス60、70は、時分割的に使用されるアドレ
ス/データバスを有している。このアドレス/データバ
スは、32ビット幅である。
【0040】1998年12月18日、発行のPCI規
格書Rev2.2に従えば、PCIバス60、70上の
PCIデバイス(イニシエータとターゲット)間のデー
タ転送サイクルは、アドレスフェーズとそれに後続する
1以上のデータフェーズとから構成される。アドレスフ
ェーズに於いては、アドレス及び転送タイプが出力さ
れ、データフェーズでは8ビット、16ビット、24ビ
ットまたは32ビットのデータが出力される。
【0041】PCIバス60に接続された表示装置90
は、ビデオメモリ(以下、VRAMと称す。)を内蔵
し、主メモリ50に展開された画像データをVRAMに
格納し、該画像データを図示しないLCDや外部のCR
Tディスプレイに表示する。
【0042】PCIバス60に接続されたRAID装置
100は、アレイ状に構成された複数のハードディスク
ドライブ(以下、HDDと称す。)を制御するRAID
コントローラを内蔵する。RAIDコントローラは、H
DDの故障対策として、元のデータを修復するための冗
長情報をアレイ構成するHDDに記憶する。更に、RA
ID装置100は、コンピュータシステムのオペレーテ
ィングシステムやアプリケーションプログラム及びデー
タを記憶する。この発明の一実施形態であるコンピュー
タシステムの初期診断化(以下、POSTと称す。)正
常終了時、BMC200のタイマをリセットする保守プ
ログラムがRAID装置100に格納されている。保守
プログラムは、コンピュータシステム起動時、RAID
装置100からメモリ50にロードされ、実行される。
【0043】PCIバス70に接続されたLAN装置1
10は、パケットデータを10Mbps/100Mpb
sの非同期データ転送を制御する。LAN装置110
は、図示しないRJ45接続口を介して外部LAN回線
に接続される。
【0044】PCIバス70に接続されたカードバス装
置120は、図示しないPCカードを挿抜する為、複数
のスロットを有し、PCカードの各種設定やPCIバス
70とPCカード間のデータ転送の為のインタータフェ
ースとして機能する。
【0045】サウスブリッジ130は、PCIバス60
とSMバス140とISAバス150との間を繋ぐブリ
ッジLSIである。このサウスブリッジ130には、S
Mバス140とISAバス150が接続され、各種バス
間のインターフェースとして機能する。また、サウスブ
リッジ130は、PCIバス60、70上のPERR信
号やSERR信号の検出に伴い、SMI信号をCPU1
0、20に発行する回路を内蔵する。
【0046】ISAバス150には、KBCやFDC等
の各種入出力回路をインテグレーションされたGA16
0や、この発明の一実施形態である電源投入時のコンピ
ュータシステムの各構成回路を点検し、コンピュータの
コンフィグレーション設定のための初期診断化処理(P
OST)プログラムが格納されるBIOS−ROM17
0が接続されている。KBCは、データ入力の為のKB
180の制御を実行する。
【0047】SMバス140は、クロック信号とデータ
/アドレス線を有するシリアルバスであり、BMC20
0、260に接続される。サウスブリッジ130は、B
IOS−ROM180の制御の下、SMバス140を介
して、BMC200との間で通信を実行し、PCIバス
60、70からの情報をBMC200に通知する。更
に、I2Cバス250に接続されたBMC200は、S
Mバス140とI2Cバスとの間のインターフェースと
して機能する。BMC200は、時間を計時するタイマ
T1、T2(図示せず)を内蔵し、コンピュータシステ
ムの電源投入時、又は、リセット信号の出力時、タイマ
T1、T2の計時動作を開始する。タイマT1は、所定
時間経過に伴い、割り込み信号をBMC200に出力す
る。BMC200は、電源回路270の基本電源に対し
てリトライ処理を実行する。BMC200は、コンピュ
ータシステムの第2の保守プログラムを内蔵している。
第2の保守プログラムは、コンピュータシステムの電源
投入時、又は、システムリセット時、タイマT2により
時間を計時する。第2の所定時間経過後、BMC200
は、BMC260のタイマT3に対してリセット処理を
実行する。
【0048】また、BMC260もI2Cバス250に
接続されている。BMC260も、時間を計時するタイ
マT3(図示せず)を内蔵し、コンピュータシステムの
電源投入時、又は、リセット信号の出力時、タイマT3
の計時動作を開始する。タイマT3は、タイマT1の計
時時間より長い所定時間経過後、割り込み信号をBMC
260に出力する。BMC200は、電源回路270の
基本電源及び補助電源に対してリトライ処理を実行す
る。
【0049】I2Cバス250は、1本のクロック信号
線と1本のデータ線から構成される双方向バスであり、
FRU210、SDR220、センサ230、及びSE
L240に接続される。
【0050】FRU210は、シリアルバス接続タイプ
のEEPROMであり、コンピュータを構成する各モジ
ュールの情報(マザーボードや各種デバイスの種類)を
記述する為、メーカ番号やシリアル番号等のベンダID
とデバイスIDを表す情報が製造時記憶される。
【0051】SDR220は、シリアルバス接続タイプ
のEEPROMであり、BMC220が管理しているセ
ンサの種類(温度や電圧等)や、異常を識別する為の閾
値などを製造時記憶する。
【0052】センサ230は、電源回路270の基本電
源及び補助電源から出力される電圧値、PCIバス6
0、70上で発行されたSERR信号/PERR信号の
発行やCPU等の温度を監視する。このセンサ230
は、BMC200により、所定間隔でポーリングされ
る。
【0053】SEL240は、シリアルバスタイプのE
EPROMであり、BMC200により、マザーボード
上で異常を検出した場合、例えば、POSTエラーの場
合、又は、センサ230で閾値を超えるエラーを検出し
た場合、エラー情報が記憶される。
【0054】電源回路270は、二重化された電源回路
から構成されており、±12、±5、+3.3等の電圧
値をコンピュータシステムに供給している。電源回路2
70の基本電源は、コンピュータシステムの通常使用さ
れる電源である。BMC260は、基本電源からの電圧
値で動作駆動する。電源回路270の補助電源は、基本
電源の出力電圧と同じ電圧値がコンピュータシステムの
バックアップのために常時供給される。BMC200、
FRU210、SDR220、センサ230、SEL2
40は、補助電源からの電圧値で動作駆動する。電源回
路270は、基本電源をコンピュータシステムに出力す
る第1の電源スイッチ(図示せず)と補助電源をコンピ
ュータシステムに出力する第2の電源スイッチ(図示せ
ず)を備えている。また、基本電源は、補助電源で駆動
するBMC200により制御される。基本電源は、BM
C260に駆動電源電圧を供給する。
【0055】次に、図5及び図6は、本願発明の一実施
形態に係わる監視システムのリトライ処理の動作を示す
フォローチャートである。図5を参照して、本願発明の
一実施形態に係わるBMC200のリトライ処理の動作
を説明する。
【0056】オペレータは、電源回路270の電源スイ
ッチを操作し、基本電源を投入する。オペレータによる
電源投入後、BMC200がCPU10からの電源投入
信号信号を受信し、内蔵のカウンタC1をクリアし、タ
イマT1、T2を動作させる(S100)。この時点に
於いて、BMC200は、電源回路270の補助電源で
既に通常の動作を実行する。CPU10は、BIOS1
70に記憶されているPOSTプログラムを実行し、コ
ンピュータシステムの各構成回路を診断する。
【0057】BMC200は、S100のタイマT1が
所定時間α経過し、タイムアウトに伴う割り込みが発生
したか判断する(S110)。ここでの、所定時間α
は、電源投入後、約2〜3分である。もし所定時間α経
過していないと判断されたならば、BMC200はS1
10の動作を繰り返す(S110のNo)。
【0058】また、もし所定時間α経過したと判断され
たならば、BMC200は、タイマT1がRAID装置
100に格納された保守プログラムにより、リセットさ
れたか判断する(S110のYes→S120)。タイ
マT1がリセットされたと判断されたならば、BMC2
00は、カウンタC1の値をクリアする(S120のY
es→S180)。タイマT1がリセットとは、CPU
10によるコンピュータシステムのPOSTが正常に終
了したことを意味する。BMC200は、S100のタ
イマT2が所定時間β経過し、タイムアウトに伴う割り
込みが発生したか判断する(S190)。ここでの、所
定時間βは、電源投入後、約5〜7分である。もし所定
時間β経過していないと判断されたならば、BMC20
0はS190の動作を繰り返す(S190のNo)。
【0059】また、もし所定時間β経過したと判断され
たならば、BMC200は、BMC260に対して、タ
イマT3をリセット処理するコマンドを発行する(S1
90のYes→S200)。その後、BMC200は、
通常の所定の各種動作を実行する。
【0060】また、S120で、タイマT1がリセット
されていないと判断されたならば、BMC200はCP
U10によるPOSTで異常を発生したと判断し、カウ
ンタC1を+1更新する(S120のNO→S130→
S140)。次に、BMC200は、カウンタC1の値
が所定値を超えたか判断する。カウンタC1が所定値を
超えたと判断された場合、即ち、所定のリトライ処理の
回数を超えた場合、BMC200は電源回路270から
の電源供給を全て止め、コンピュータシステムの運転を
停止する(S150のYes→S210)。
【0061】また、カウンタC1が所定値を超えていな
いと判断された場合、BMC200は、コンピュータシ
ステムをリブートする為、電源回路200の基本電源の
電源スイッチをOFF/ON制御し、リトライ処理を実
行する(S150のNo→S160)。BMC200
は、リトライ処理を実行後、再度、タイマT1の計時動
作をスタートさせ、処理をS110に戻す(S170→
S110)。
【0062】次に、図6を参照して、本願発明の一実施
形態に係わるBMC260のリトライ処理の動作を説明
する。
【0063】オペレータによる電源投入後、BMC26
0がCPU10からの電源投入信号信号、又は、リセッ
ト信号を受信し、内蔵のカウンタC2をクリアし、タイ
マT3を動作させる(S300)。
【0064】BMC260は、S300のタイマT3が
所定時間γ経過し、タイムアウトに伴う割り込みが発生
したか判断する(S310)。ここでの、所定時間γ
は、電源投入後、約7〜9分である。もし所定時間γ経
過していないと判断されたならば、BMC260はS3
10の動作を繰り返す(S310のNo)。
【0065】また、もし所定時間γ経過したと判断され
たならば、BMC260は、タイマT3がBMC200
により、リセットされたか判断する(S310のYes
→S320)。タイマT3がリセットされたと判断され
たならば、BMC260はカウンタC2の値をクリアす
る(S320のYes→S380)。タイマT3がリセ
ットとは、BMC200が正常に動作していることを意
味する。コンピュータシステムは、所定の通常動作を実
行可能となる(S380)。
【0066】また、S320で、タイマT3がリセット
されていないと判断されたならば、BMC260はBM
C200で異常を発生したと判断し、カウンタC2を+
1更新する(S320のNO→S330→S340)。
次に、BMC260は、カウンタC2の値が所定値を超
えたか判断する。カウンタC2が所定値を超えたと判断
された場合、即ち、所定のリトライ処理の回数を超えた
場合、BMC260は電源回路270からの電源供給を
全て止め、コンピュータシステムの運転を停止する(S
350のYes→S400)。
【0067】また、カウンタC2が所定値を超えていな
いと判断された場合、BMC260は、コンピュータシ
ステムをリブートする為、電源回路200の基本電源及
び補助電源の電源スイッチをOFF/ON制御し、リト
ライ処理を実行する(S350のNo→S360)。B
MC260は、リトライ処理を実行後、再度、タイマT
3の計時動作をスタートさせ、処理をS310に戻す
(S370→S310)。
【0068】尚、この発明の一実施形態において、コン
ピュータシステムの通常動作後も、BMC260はBM
C200に対して正常動作であるか否か判断することも
可能である。この場合、BMC260は、BMC200
に対して定期的にタイマリセットコマンドを発行するよ
う要請する。BMC200がタイマリセットコマンドを
発行しない場合、BMC260はBMC200が異常状
態になったと判断し、コンピュータシステムのリトライ
処理を実行する。
【0069】また、この発明の一実施形態において、コ
ンピュータシステムの通常動作時、CPU10が、例え
ば、PCIバス上のパリティエラーや致命的なエラー
(バスロック)を検出した場合、CPU10をBIOS
170のエラー処理プログラムを起動し、サウスブリッ
ジ130を経由してBMC200にエラーを通知する。
BMC200は、致命的なシステムエラーであると判断
した場合、コンピュータシステムのリトライ処理を実行
することもできる。また、BMC200が、コンピュー
タのオペレーションシステムがフリーズ、即ち、ブルー
パニックになったことを検出し、同様に、コンピュータ
システムのリトライ処理を実行することもできる。
【0070】
【発明の効果】以上説明したように、この発明によれ
ば、監視装置に対してリトライ処理を実行することがで
きるので、コンピュータシステムを正常に再起動させる
ことができる。
【図面の簡単な説明】
【図1】この発明の一実施形態に係わる3階層監視シス
テムの概念を示すブロック図。
【図2】この発明の一実施形態に係わる3階層監視シス
テムのリトライシーケンスを示す図。
【図3】この発明の一実施形態に係わる3階層監視シス
テムの機能を示すブロック図。
【図4】同実施形態を情報処理装置に適用したシステム
構成を示す図。
【図5】同実施形態に係わる第1の監視システムのリト
ライ処理を示すフォローチャート。
【図6】同実施形態に係わる第2の監視システムのリト
ライ処理を示すフォローチャート。
【符号の説明】
10、20…CPU、30…プロセッサバス、40…ノ
ースブリッジ、50…DIMM、60…PCIバス0、
70…PCIバス1、80…メモリバス、90…表示装
置、100…RAID装置、110…LANコントロー
ラ装置、120…カードバスコントローラ装置、130
…サウスブリッジ、140…SMバス、150…ISA
バス、160…システムI/O、170…BIOS−R
OM、180…キーボード(KB)、190…FDD、
200、260…BMC、210…FRU、220…S
DR、230…センサ、240…SEL、250…I2
Cバス、270…電源回路

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 通常稼動する処理装置と、前記通常稼動
    する処理装置を監視する監視装置と、前記監視装置を監
    視する第2の監視装置と、それぞれの監視装置は、監視
    対象となる装置に対して、異常状態を検出した際、リト
    ライ処理を実行する手段と、を具備することを特徴とす
    る情報処理装置。
  2. 【請求項2】 前記リトライ処理を実行する手段は、監
    視対象の各装置に対して、電源供給を一旦止め、再度、
    供給することを特徴とする特許請求項1記載の情報処理
    装置。
  3. 【請求項3】 前記情報処理装置は、各装置に対して、
    少なくとも2系統の電源を供給する電源装置を有し、前
    記2系統の電源装置のうち、第1の電源が前記通常稼動
    する処理装置と第2の監視装置に供給され、第2の電源
    が前記監視回路に供給されることを特徴とする特許請求
    項2記載の情報処理装置。
  4. 【請求項4】 前記監視装置は、前記処理装置に対する
    初期化処理の異常状態を検出する検出手段と、前記検出
    手段により、異常状態を検出した場合、前記処理装置に
    対してリトライ処理を実行することを特徴とする特許請
    求項3記載の情報処理装置。
  5. 【請求項5】 前記第2の監視装置は、前記処理装置に
    対する電源供給に伴い、計時するタイマと、前記タイマ
    により所定時間の経過後、タイムアウト信号を生成する
    手段と、前記タイムアウト信号の生成に応答して、前記
    監視装置に対してリトライ処理を実行することを特徴と
    する特許請求項2記載の情報処理装置。
  6. 【請求項6】 通常稼動する処理装置と、前記通常稼動
    する処理装置を監視する監視装置と、前記監視装置を監
    視する第2の監視装置と有した情報処理装置の障害回復
    方法に於いて、前記監視装置により、前記通常稼動する
    処理装置を監視するステップと、それぞれの監視装置に
    より、監視対象となる装置に対して、異常状態を検出し
    た際、リトライ処理を実行するステップと、を具備する
    ことを特徴とする情報処理装置の障害回復方法。
  7. 【請求項7】 前記リトライ処理を実行するステップ
    は、監視対象の各装置に対して、電源供給を一旦止め、
    再度、供給することを特徴とする特許請求項7記載の情
    報処理装置の障害回復方法。
  8. 【請求項8】 前記監視装置により、前記通常稼動する
    処理装置を監視するステップは、前記処理装置に対する
    初期化処理の異常状態を検出する検出ステップと、前記
    検出ステップにより、異常状態を検出する場合、前記処
    理装置に対してリトライ処理を実行することを特徴とす
    る特許請求項7記載の情報処理装置の障害回復方法。
  9. 【請求項9】 前記第2の監視装置は、前記処理装置に
    対する電源供給に伴い、計時するタイマを有し、情報処
    理装置の障害回復方法は、前記タイマにより所定時間の
    経過後、タイムアウト信号を生成するステップと、前記
    タイムアウト信号の生成に応答して、前記監視装置に対
    してリトライ処理を実行することを特徴とする特許請求
    項7記載の情報処理装置の障害回復方法。
JP2002053211A 2002-02-28 2002-02-28 情報処理装置及びその障害回復方法 Pending JP2003256240A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002053211A JP2003256240A (ja) 2002-02-28 2002-02-28 情報処理装置及びその障害回復方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002053211A JP2003256240A (ja) 2002-02-28 2002-02-28 情報処理装置及びその障害回復方法

Publications (1)

Publication Number Publication Date
JP2003256240A true JP2003256240A (ja) 2003-09-10

Family

ID=28664696

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002053211A Pending JP2003256240A (ja) 2002-02-28 2002-02-28 情報処理装置及びその障害回復方法

Country Status (1)

Country Link
JP (1) JP2003256240A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176682A (ja) * 2007-01-22 2008-07-31 Renesas Technology Corp 半導体集積回路及びデータ処理システム
JP2009075883A (ja) * 2007-09-20 2009-04-09 Fujitsu Component Ltd Kvmスイッチ、kvmシステム及びプログラム
JP2009193492A (ja) * 2008-02-18 2009-08-27 Nec Computertechno Ltd コンピュータシステム、情報処理方法及びプログラム
JP2009199336A (ja) * 2008-02-21 2009-09-03 Hitachi Ltd システム監視回路を備えた計算機
JP2012113464A (ja) * 2010-11-24 2012-06-14 Nidec Sankyo Corp 電子機器装置
JP2012208923A (ja) * 2011-03-29 2012-10-25 Denso Corp アプリケーション実行方法及び実行装置
WO2013027297A1 (ja) * 2011-08-25 2013-02-28 富士通株式会社 半導体装置、管理装置、及びデータ処理装置
JP2013247706A (ja) * 2012-05-23 2013-12-09 Mitsubishi Electric Corp 電源装置およびディジタル保護リレー装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008176682A (ja) * 2007-01-22 2008-07-31 Renesas Technology Corp 半導体集積回路及びデータ処理システム
JP2009075883A (ja) * 2007-09-20 2009-04-09 Fujitsu Component Ltd Kvmスイッチ、kvmシステム及びプログラム
JP2009193492A (ja) * 2008-02-18 2009-08-27 Nec Computertechno Ltd コンピュータシステム、情報処理方法及びプログラム
JP2009199336A (ja) * 2008-02-21 2009-09-03 Hitachi Ltd システム監視回路を備えた計算機
JP2012113464A (ja) * 2010-11-24 2012-06-14 Nidec Sankyo Corp 電子機器装置
JP2012208923A (ja) * 2011-03-29 2012-10-25 Denso Corp アプリケーション実行方法及び実行装置
WO2013027297A1 (ja) * 2011-08-25 2013-02-28 富士通株式会社 半導体装置、管理装置、及びデータ処理装置
JP2013247706A (ja) * 2012-05-23 2013-12-09 Mitsubishi Electric Corp 電源装置およびディジタル保護リレー装置

Similar Documents

Publication Publication Date Title
US7447934B2 (en) System and method for using hot plug configuration for PCI error recovery
CN107122321B (zh) 硬件修复方法、硬件修复系统以及计算机可读取存储装置
CN101126995B (zh) 处理严重硬件错误的方法及设备
EP1351145A1 (en) Computer failure recovery and notification system
US6311296B1 (en) Bus management card for use in a system for bus monitoring
US7035953B2 (en) Computer system architecture with hot pluggable main memory boards
EP2175371B1 (en) Synchronization control apparatuses, information processing apparatuses, and synchronization management methods
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
US7103738B2 (en) Semiconductor integrated circuit having improving program recovery capabilities
US7672247B2 (en) Evaluating data processing system health using an I/O device
JP2003150280A (ja) バックアップ管理システムおよび方法
WO2020096865A1 (en) System for configurable error handling
JP2002259130A (ja) 情報処理システムおよびその起動制御方法
JP2002251300A (ja) 障害監視方法及び装置
JP4886558B2 (ja) 情報処理装置
US6108732A (en) Method for swapping, adding or removing a processor in an operating computer system
JP2000112584A (ja) 電源故障対策を備えたコンピュ―タシステム及びその動作方法
JP2003256240A (ja) 情報処理装置及びその障害回復方法
US7334167B2 (en) Circuit for detection of internal microprocessor watchdog device execution and method for resetting microprocessor system
JP2004302731A (ja) 情報処理装置および障害診断方法
JPH11259340A (ja) コンピュータの再起動制御回路
JP2760367B2 (ja) マイクロ診断装置付情報処理装置
WO2014112039A1 (ja) 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム
JP2003022222A (ja) 情報処理装置及びその保守方法
JP7001236B2 (ja) 情報処理装置、障害監視方法及び障害監視用コンピュータプログラム