JP2002318643A - 情報処理装置 - Google Patents

情報処理装置

Info

Publication number
JP2002318643A
JP2002318643A JP2001125221A JP2001125221A JP2002318643A JP 2002318643 A JP2002318643 A JP 2002318643A JP 2001125221 A JP2001125221 A JP 2001125221A JP 2001125221 A JP2001125221 A JP 2001125221A JP 2002318643 A JP2002318643 A JP 2002318643A
Authority
JP
Japan
Prior art keywords
sub
processor
failure
main
power supply
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001125221A
Other languages
English (en)
Inventor
Takashi Aoyanagi
隆 青柳
Shinichi Suzuki
新一 鈴木
Osamu Arakawa
荒川  修
Kishin Matsuoka
紀伸 松岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2001125221A priority Critical patent/JP2002318643A/ja
Publication of JP2002318643A publication Critical patent/JP2002318643A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Power Sources (AREA)

Abstract

(57)【要約】 【課題】 本発明は、何らかの障害により動作を継続で
きない場合に、一過性の障害には自己復旧を行い、かつ
重度障害に対してはハードウェアによる確実な電源遮断
処理を行う情報処理装置を提供することを目的とする。 【解決手段】 主電源より給電されるメインシステム2
と、補助電源により動作するサブシステム3と、時定数
の異なる第一及び第二のウォッチドッグタイマ(30
a、30bと、第一のウォッチドッグタイマ満了時にサ
ブシステムのリセットを行うリセット発生手段と、第二
のウォッチドッグタイマ満了時に電源停止をおこなう主
電源制御手段と、第一及び第二のウォッチドッグタイマ
をクリアするサブシステムのソフトウェアルーチンを備
えた情報処理装置。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、情報処理装置、特
に可溶性サーバにおける生涯検出方法とその制御装置に
関するものである。
【0002】
【従来の技術】近年、プロセッサおよびハードディスク
の性能向上に伴い、サーバをWEB、データベースエン
ジンとして導入する市場が急速に広がりつつある。これ
らサーバでは、価格性能比を実現しつつ高い信頼性・可
用性を実現するため、一般的にメインシステム部とサブ
システム部より構成されている。
【0003】メインシステム部は市販OSや市販アプリ
ケーションを搭載し、データ処理を行う。一方、サブシ
ステム部はスケジュール運用といった電源制御や、温度
・FAN回転数などの環境情報収集を行い、また、障害
発生時には外部通知と障害部位の特定を行うことによ
り、情報処理装置の停止時間を最小とする技術である。
【0004】サブシステムとメインシステムのインター
フェースを統一することにより複数メーカ間での接続を
容易とし、可用性を促進する動きもある。このような技
術を記載しているものに、インテル、ヒューレッドパッ
カード他による仕様書、インテリジェントプラットフォ
ームマネジメントインターフェーススペシフィケーショ
ンV1.0(Intelligent Platform Management Interf
ace Specification V1.0 August 26、1999)がある。
【0005】また、従来の可用性サーバでは、一般的に (a)電源装置障害、素子温度の異常検出 (b)メインシステムのパリティーエラー、ECCエラ
ー検出 (c)メインシステムのI/Oインターフェース、周辺
装置障害検出 (d)サブシステムの障害検出 のような障害検出方式が用いられていた。
【0006】サブシステムは、上記障害の発生によりエ
ラー通知を行うとともに、障害のレベルに応じてメイン
システムのリセット、シャットダウン、電源遮断を行
う。このような障害診断機能付きの情報処理装置の一例
として、特開2000−112790号公報がある。
【0007】上記項目(a)〜(c)は、サブシステム
がメインシステムの障害を検出するのに対して、項目
(d)はサブシステムの自己診断機能となる。一般的に
サブシステムの動作異常時には、情報処理装置の電源装
置障害・温度異常といった障害に対して動作保証ができ
ないため、重度の障害とみなしメインシステムの電源遮
断処理が行われている。停止が許されないシステムで
は、例えば、特開平5−120077号公報記載のよう
に、ハードウェアを一対用意して現用系と予備系として
備えた二重化構成がある。本方式では、冗長構成を有し
た装置における特殊な監視装置を搭載し、現用系装置が
故障した時予備系装置が現用系に替わり運用することを
実現させる。サーバは市販OSを搭載すること、また、
比較的本体価格が安価なことから、極めて高い可用性を
要求される用途では複数の装置を並列運転し、一方の装
置に障害が発生しても、他方の装置が運用を継続するク
ラスタシステムといった方法も知られている。なお、ク
ラスタシステムの障害処理方式として関連するものとし
て特開平10−27115号公報に記載の技術が挙げら
れる。
【0008】次に従来のサブシステム障害検出方式につ
いて説明する。
【0009】サーバのサブシステムに限らず、情報処理
装置に用いられるプロセッサには従来からウォッチドッ
グタイマが内蔵されており、ウォッチドッグタイマを用
いた障害検出方式が広く用いられている。なお、ウォッ
チドッグタイマについて記載したものとして例えば、特
開平1−31834号公報が挙げられる。
【0010】ウォッチドッグタイマは、一定周期のパル
スを発生するクロック発生手段と、パルス数のカウント
を行うハードウェアタイマと、タイマのカウント値をリ
セットするソフトウェア処理により構成される。
【0011】情報処理装置が正常に動作している場合に
は、ソフトウェア処理がタイマ満了前にカウント値をリ
セットする。一方、情報処理装置のCPUやメモリに障
害が発生すると、ソフトウェア処理が異常となり、一定
時間経過してもソフトウェアによるリセット処理が行わ
れない。このため、タイマが満了し、リセットや割り込
み信号などの所定の出力により障害が発生したことを通
知する。
【0012】ウォッチドッグタイマはハードウェア障害
の発生により、ソフトウェア処理が異常となることを前
提としているが、実際には障害の種類によっては、前記
カウント値のリセット処理のみ正常に動作しながらシス
テムが停止してしまったり、システムは正常動作してい
るにもかかわらずカウント値のリセット処理が行われな
い場合がある。
【0013】
【発明が解決しようとする課題】従来のサブシステムの
動作異常時には全て重度な障害とみなしメインシステム
の電源遮断や外部通知などの処理が行われていた。しか
し、サブシステムの障害が一過性であれば、メインシス
テムの継続運用が可能である。このためメインシステム
の運用を中断することなく、できるだけ速やかにサブシ
ステムの復旧を行うことが望ましい。
【0014】また、サブシステムが復旧できないような
障害において情報処理装置の電源装置障害・温度異常と
いった障害に対して動作保証ができない場合は、速やか
にメインシステムの電源遮断や外部通知といった障害検
出時の処理を行うことが望ましい。
【0015】本発明は、サブシステムの障害レベルによ
り、サブシステムのリセットと、情報処理装置の停止を
切り替えることが可能な情報処理装置の障害検出方式を
提供することを目的とする。
【0016】
【課題を解決するための手段】本発明において、主電源
より給電されるメインシステムと、補助電源により動作
するサブシステムとを有する情報処理装置は、メインシ
ステムとサブシステムのそれぞれに対する障害復旧手段
として、二つの時定数のタイマを設け、それらの時定数
により、リセット処理や電源供給処理を制御する。
【0017】このようにすることにより、サブシステ
ム、メインシステムの障害発生時に、段階的な障害復旧
を行なうことを可能とする。
【0018】
【発明の実施の形態】図1は、本発明における第一の実
施の形態に係る情報処理装置の構成を示すブロック図で
ある。本実施の形態ではシステムの障害検知に用いる計
測手段として、二つのウォッチドッグタイマWDTを適
用する。
【0019】この情報処理装置1は、メインプロセッサ
システム2、サブプロセッサシステム3を備え、二つの
システムは共有バス4を介して相互接続されている。補
助電源5aは、AC電源投入により、サブプロセッサシ
ステム3に給電を行う。また、メイン電源5bは、サブ
プロセッサシステム3の電源制御LSI7によりON/
OFF制御され、メインプロセッサシステム2に給電を
行う。
【0020】メインプロセッサシステム2において、メ
インプロセッサ8及びメモリ9がメモリ・I/Oバスブ
リッジ10を介してI/Oバス11に接続され、I/O
バス11には図示しない各種周辺装置を搭載するための
各種周辺装置インターフェース12や、入出力装置13
が接続されている。
【0021】一方、サブプロセッサシステム3は、サブ
プロセッサ14、メモリ15、電源制御LSI7、二つ
のウォッチドッグタイマWDT1(30a)、WDT2
(30b)、サブ/共有バスブリッジ17がサブプロセ
ッサバス16に接続され、サブ/共有バスブリッジ17
を介して共有バス4に接続されている。
【0022】サブプロセッサシステム3の機能として、 (i)メイン電源5bの制御処理 (ii)情報処理装置1の動作状態、温度などの環境情
報の収集・ログ処理(環境監視タスク) (iii)メインプロセッサシステム2とのデータ送受
信処理 (iV)メインプロセッサシステム2エラー時の障害処
理 (V)サブプロセッサシステム3の障害検出処理があ
る。
【0023】次に、図1を元にサブプロセッサシステム
3の動作を説明する。
【0024】まずメイン電源5bの制御について説明す
る。AC電源投入直後、補助電源5aは通電状態であ
り、メイン電源5bは電源遮断状態である。サブプロセ
ッサ14は、ユーザからの電源投入要求18aにより、
サブプロセッサバス16を介して電源制御LSI7を制
御し、電源制御信号19によりメイン電源5bを投入状
態とする。同様に、電源遮断の場合は、ユーザからの電
源遮断要求18aにより、サブプロセッサバス16を介
して電源制御LSI7を制御し、電源制御信号19によ
りメイン電源5bを電源遮断状態とする。
【0025】次に、情報処理装置1の動作状態、環境情
報の収集・ログ処理について説明する。以後、この機能
を環境監視タスクと呼ぶ。
【0026】サブプロセッサ14は、定期的に情報処理
装置1の動作状態を監視しており、補助電源5b、メイ
ン電源5aの電圧状態をそれぞれ電圧モニタ20a、2
0bにより検出し、情報収集バス21、情報収集装置2
2を介して読み込む。また、電源制御LSI7、サブプ
ロセッサバス16を介して電源ステータス29を読み込
む。これらの情報とメモリ15に収容された判定情報と
比較を行うと共に電圧状態に対応したデータを共有メモ
リ23に収容する。
【0027】情報収集バス21には、メインプロセッサ
8およびメモリ・I/Oバスブリッジ10の温度状態を
検出する温度モニタ26、及びメモリ・I/Oバスブリ
ッジ10が接続される。サブプロセッサ14は、電圧状
態と同様に、これらの温度状態25a、25bと、メモ
リ・I/Oバスブリッジの動作状態27を読み込み、メ
モリ15に収容された判定情報と比較を行った後、共有
メモリ23に収容する。
【0028】次に、メインプロセッサシステム2とのデ
ータの送受信を実現する方法を説明する。障害発生時
に、サブプロセッサ14は共有メモリ23の情報を読み
出し、外部表示装置28に表示を行いユーザにステータ
スを通知する。同様にして、サブプロセッサ14が共有
メモリ23に収容した環境情報等を、メインプロセッサ
8がメモリ・I/Oバスブリッジ10と共有バスブリッ
ジ24を介して、共有バス4に接続された共有メモリ2
3から読み出して、情報処理装置1のステータスを確認
することが可能である。
【0029】次に、メインプロセッサシステム2にエラ
ーが発生した場合の処理を説明する。一例として、電源
異常によりメイン電源5bの投入継続が不可能である場
合について説明する。サブプロセッサ14は、前述のよ
うにサブプロセッサバス16、電源制御LSI7を介し
て電源のステータス29、及び電圧モニタ20aの値を
読み出し、メモリ15に収容された判定情報との比較
し、この結果を共有メモリ23へ格納する。サブプロセ
ッサ14は、前記比較の結果が電源異常を示しているた
め、電源制御LSI7に電源遮断要求18bを行う。な
お、この電源遮断要求18bは実際にはサブプロセッサ
バス16を介して行われるため、実信号線としてではな
く、破線で図示している。また、共有メモリ23に格納
された異常情報を元に外部表示装置28へ警告を表示
し、ユーザに通知を行う。
【0030】このようにして構成された情報処理装置1
において、サブプロセッサシステム3にエラーが発生し
た場合を想定し、本実施の形態における障害検出の動作
を説明する。
【0031】図1のWDT1(30a)は、クロック発
振器31aより出力される、一定周期のパルスをカウン
トする。また、本カウント値はサブプロセッサ14から
サブプロセッサバス16を介して参照、更新可能とす
る。WDT1(30a)満了時には、サブプロセッサ1
4にリセット33を発生する。
【0032】同様にWDT2(30b)は、クロック発
振器31bの出力パルスをカウントし、サブプロセッサ
14からカウント値を参照、更新可能とする。WDT2
(30b)満了時には、電源制御LSI7に異常通知信
号34を出力する。
【0033】通常の動作状態では、プログラムにより個
々のWDT1(30a)及びWDT2(30b)が満了
となる前に、サブプロセッサ14がレジスタのカウント
値をクリアする。なお、本実施形態において図1中のタ
イマクリア信号32a、32bはサブプロセッサバス1
6を介したアクセスであり、実信号線ではないので破線
により示している。
【0034】ここで、説明のためにサブプロセッサシス
テム3の起こりうる障害を、第一の障害と第二の障害に
分類する。第一の障害は、メモリ15に発生したノイズ
等による一過性のパリティーエラーや、電圧モニタ20
a、20b、温度モニタ26、外部表示装置28などが
応答しないため、ソフトウェア処理が中断されてしまう
場合の障害である。これらの障害は、サブプロセッサシ
ステム3リセット後に、再度前記メモリ及び入出力装置
の初期化を行うことにより、復帰が可能である。場合に
よっては、一部機能を使用しないようにするための縮退
処理を行っても良い。
【0035】第二の障害は、リセットによってサブプロ
セッサシステム3の機能が回復できず、メイン電源5b
の制御あるいは、情報処理装置1の動作状態、温度など
の環境情報の収集・ログが行えない場合の障害をいう。
【0036】第一の障害は、WDT1(30a)満了時
によって検出し、サブプロセッサ14へのリセット33
を行うことで復旧を試みる。この時、リセット33はメ
インプロセッサシステム2と独立した処理であり、メイ
ンシステムの動作には影響がない。
【0037】第二の障害は、WDT2(30b)満了時
によって検出し、電源制御LSI7に異常通知信号34
を出力する。この結果、電源制御LSI7はサブプロセ
ッサ14の動作状態によらず、メイン電源5bを遮断状
態とする。また、障害発生通知35を外部表示装置28
に行うことでユーザへ通知する。
【0038】WDT2(30b)は少なくともWDT1
(30a)が満了するよりも長い時定数で満了すること
とする。ここでWDT1(30a)が満了となる時間を
wd 1、WDT2(30a)が満了となる時間をTwd2
すると下記式1を満たす必要がある。
【0039】
【数1】Twd1<Twd2 なお、これらの詳細については後述する。
【0040】このように、本実施の形態ではリトライす
ることで復旧可能な障害に対しては自己復旧を試み、運
用継続が出来ない重度な障害に対しては速やかな電源遮
断を行う。
【0041】WDT1(30a)、WDT2(30b)をク
リアする、サブプロセッサシステム3のソフトウェアル
ーチンについて図1、図2を用いて説明する。
【0042】AC電源投入により補助電源5aが投入さ
れ、サブプロセッサ14はフラッシュロム36のコード
を読み込む。
【0043】図2−ステップ201において、サブプロ
セッサ14はメモリ15、外部表示装置28、電圧モニ
タ20a、20b、温度モニタ26の初期化を行う。図
2−ステップ202において、WDT1(30a)及び
WDT2(30b)を有効となるよう設定を行う。本ス
テップ後、WDT1(30a)及びWDT2(30b)
はカウントを開始する。
【0044】続くステップ203〜206によるループ
は、メイン電源5b遮断時の、サブプロセッサシステム
の通常処理を示している。ステップ203では環境監視
タスクを行う。ステップ204はWDT1(30a)及
びWDT2(30b)のカウント値を示すレジスタに
‘0’を書き込むことにより、タイマのリセットを行
う。
【0045】ステップ205では、環境監視の結果に異
常がないことを確認する。ステップ206は、メイン電
源投入スイッチ6押下を監視する。スイッチ6が押され
た場合は、ステップ207において、電源制御LSI7
を介してメイン電源5bの投入を行う。
【0046】ここで、サブプロセッサ14による、環境
監視タスク処理の異常を確実に検出するため、WDT1
(30a)、WDT2(30b)のクリア205は20
3〜206のループ内で行うこととする。割り込み処理
によるWDTのクリアを行う場合は、環境監視のタスク
がハングアップしていてもWDTのクリアが行われてし
まう危険性が高いからである。
【0047】ここで、ステップ202から、203、2
04の処理時間をTinit、ステップ203〜206
の環境監視のタスクおけるループを一回り処理に要する
時間をTloopとする。また、WDT1(30a)リセッ
トからカウント値満了までの時間をTwd1、WDT2
(30b)リセットからカウント値満了までの時間をT
wd2とする。
【0048】WDT1(30a)及びWDT2(30
b)が、一連の処理において満了しないように、下記式
2、3を満たすTwd1、Twd2を定める。
【0049】
【数2】Tinit≦Twd1(<Twd2
【0050】
【数3】Tloop≦Twd1(<Twd2) 図2−ステップ207においてユーザからのメイン電源
5bの投入要求があった場合には、図3に示す処理Bを
行う。
【0051】図3の続くステップ301〜304による
ループは、メイン電源5b投入状態におけるサブプロセ
ッサシステムの通常処理を示している。
【0052】ステップ301では環境監視タスクを行
う。ステップ302はWDT1(30a)及びWDT2
(30b)のカウント値を示すレジスタに‘0’を書き
込むことにより、タイマのクリアを行う。
【0053】ステップ303では、環境監視の結果に異
常がないことを確認する。ステップ304は、メイン電
源投入スイッチ6押下を監視する。スイッチ6が押され
た場合は、ステップ310において、電源制御LSI7
を介してメイン電源5bの遮断を行う。
【0054】ここで、前記分類による第一の障害発生時
を説明する。異常発生時における図2及び図3における
処理はほぼ同様であるので、図3を参照して説明する。
【0055】図3−ステップ302において、サブプロ
セッサ14がWDT1(30a)カウント値をリセット
できないため、異常3の分岐となる。続く305〜30
8及び311は、サブプロセッサ14によるソフトウェ
ア処理ではなく、ハードウェア処理であるため、内容を
二重線により図示してある。
【0056】図3−ステップ305において、式1によ
りWDT2(30b)はカウント中であり、満了してい
ないため、ステップ307となる。WDT1(30a)
は、カウント値満了となるため、続くステップ308に
おいてサブプロセッサ14にリセット33を出力する。
【0057】リセットの結果、サブプロセッサ14はエ
ントリ309より環境監視タスクを行うループ301〜
304に復帰する。
【0058】エントリ309では、まず、サブプロセッ
サがリセットされた要因がWDT1(30a)の満了に
よるものかの判定を行う。判定の結果リセット要因がW
DT1(30a)の満了によるものであれば装置の環境
監視情報を消去しないよう、メモリ15、外部表示装置
28の最低限の初期化を行って、電圧モニタ20a、2
0b、温度モニタ26の初期化は行わないものとする。
【0059】本実施の形態ではサブプロセッサシステム
3が収集したログ情報を保持させ、かつサブプロセッサ
14の確実な復帰を行う為に、サブプロセッサ14にリ
セット信号を入力する構成としているが、この限りでは
なく、例えば割り込み信号を用いて、ソフトウェアにリ
セット命令を実行させるなど、適切な処理を行わせても
良い。
【0060】サブプロセッサ14の初期化を行っても動
作できない場合、あるいは動作途中で再度ハングアップ
してしまうような場合も考えられる。このため、WDT
1(30a)は満了後も動作を継続し監視を行う。その
為サブプロセッサ14が再度環境監視のタスクに復帰し
ステップ302におけるWDT(30a、30b)のク
リアを行う前に満了しないように動作させる。
【0061】ここで、ステップ302から異常時におけ
る一連のループ処理305、307〜309に有する時
間Terrorとすると下記式4を満たす必要がある。
【0062】
【数4】Terror<Twd1(<Twd2) 図4は、第一の障害発生時における式1、式3、式4の
関係を、タイミングチャートにより図示したものであ
る。 図4の時点401〜403は、図3のループ30
1〜304において、ステップ302を実行し、WDT
1(30a)クリア信号32a、WDT2(30b)ク
リア信号32bが出力されていることを示す。図4−4
03の後、サブプロセッサシステム3に障害が発生した
ため、時点403よりTwd1後の時点T404におい
て、サブプロセッサリセット信号33が発生する。図3
の305、307、308に相当する。
【0063】リセット発生後、Terror後の時点405
において、サブプロセッサシステム14は再び通常処理
のループ301〜304に復帰し、ステップ302によ
りクリア信号32a、32bが出力される。
【0064】本実施の形態においてサブプロセッサのリ
セットが行われてから、環境監視のタスクが再び立ち上
がりWDTのクリアを行うまでに10秒程度要すること
から、すなわち
【0065】
【数5】Terror=10(sec) であり、これはTinitやTloopより長い時間を有してい
るので式1.4を満たせば式2及び式3も満たすことに
なる。従ってTwd1は式4を満たす下記式6のように設
定している。
【0066】
【数6】Twd1=12(sec) 続いて第二の障害発生時を説明する。
【0067】この場合、重度の障害により、図3−30
8リセットによって、サブプロセッサ14が、図3−エ
ントリ309からの処理を開始できない。このため、再
びステップ302より異常3に分岐する。環境監視タス
ク301は、サブプロセッサ14が正常動作しておらず
実行しない。WDT2(30b)はカウント中であり満
了していないため、ステップ307となる。
【0068】一連のループ処理305〜309を実施し
た後、WDT2(30b)が満了する。
【0069】式1のTwd2は、上記一連の処理及びリセ
ットを数回実行した後満了するよう値を決定する。
【0070】図3−305において、WDT2(31
b)が満了したため、WDT2(31b)は電源制御L
SI7に異常通知信号34を通知する。図3−306に
おいて電源制御LSI7は、外部表示装置28に電源遮
断通知35を行う。図3−311において電源制御LS
I7は、メイン電源5bに電源制御信号19を用いて電
源遮断を行う。
【0071】ところで、図3−ステップ301〜304
による通常処理のループにおいて、監視している電源電
圧や、素子温度が異常となった場合も重度なハードウェ
ア障害が発生したとみなし同様に外部通報と電源遮断処
理を行う。図3−ステップ303から、異常4に分岐
し、ステップ306、ステップ311となる。なお、本
実施形態では外部表示装置28を用いて通報している
が、この限りではなく、ブザーの鳴動やランプの点灯等
によって通報するようにしても良い。
【0072】図5は、第二の障害発生時における式1、
式1、式4の関係を、タイミングチャートにより図示し
たものである。図4の時点501〜503は、図3のル
ープ301〜304において、ステップ302を実行
し、WDT1(30a)クリア信号32a、WDT2
(30b)クリア信号32bが出力されていることを示
す。図5−503の後、サブプロセッサシステム14に
障害が発生したため、時点503よりTwd1後の時点T
504において、サブプロセッサ14へのリセット信号
33が出力する。図3の305、307、308に相当
する。
【0073】しかし、リセットによってサブプロセッサ
システム14が通常のループ301〜304に復帰でき
ず、異常3の分岐より、305、307〜310を繰り
返す。このため、時点505、時点506においてサブ
プロセッサリセット信号33が発生する。
【0074】図5では、サブプロセッサの復帰を3回試
行し、通常処理のループ301〜304に復帰できない
場合は電源遮断が行われるように、Twd1、Twd2の値を
式7に従い設定している。
【0075】
【数7】Twd2=4Twd1=48(sec) 時点503より、Twd2後の時点507に、WDT2
(30b)が満了し、異常通知信号34が通常状態を示
す‘0’から異常状態を示す‘1’となる。この結果、
電源制御LSI7の電源制御信号19が時点T508に
おいて、ON状態を示す‘1’からOFF状態を示す
‘0’となる。
【0076】式6と式7に示す関係式は、この限りでは
なく、確実にサブプロセッサを復帰できるように、また
ハードウェアに損傷を与えないように、それぞれのWD
Tの時間を設定する。
【0077】以上説明したように、第一の実施の形態に
よれば、サブシステムが正常時には、第一及び第二のウ
ォッチドッグタイマは、カウンタ値満了までにクリアさ
れるため、サブシステムのリセット及び、電源停止が発
生することはない。
【0078】一方、サブシステムの一過性の障害に対し
ては、第一のウォッチドッグタイマが、第二のウォッチ
ドッグタイマより先に満了し、リセット発生回路がサブ
システムにリセットを発生する。サブシステムが本リセ
ットにより、通常動作に復帰した場合には、サブシステ
ムのソフトウェアルーチンが動作し第一及び第二のウォ
ッチドッグタイマをクリアするため、第二のウォッチド
ッグタイマは満了せず、情報処理装置は運転を継続す
る。更に、サブシステムに運用継続が不可能な重度の障
害が発生した場合、第一のウォッチドッグタイマ満了に
より、サブシステムにリセットを発生しても、サブシス
テムは通常動作に移行せず、第一及び第二のウォッチド
ッグタイマをクリアするサブシステムのソフトウェアル
ーチンが動作しない。このため、第一のウォッチドッグ
タイマに続いて、第二のウォッチドッグタイマが満了し
異常通知を行うことで、情報処理装置の主電源を遮断す
る。
【0079】サブプロセッサシステムの障害に対し、ノ
イズ等に起因するデータ化けやソフトウェアの暴走等の
一過性の障害は、WDT1(30a)の満了により検出
し、サブプロセッサのリセットによる自己復旧を数回試
み自己復旧を行う。また、上記実行にもかかわらずサブ
プロセッサ復旧不可能な障害はWDT2(30b)の満
了によって検出し、速やかな電源遮断を可能とする。
【0080】なお、本実施の形態では、計測手段として
二つのウォッチドッグタイマ30a、bを用いたが、二
つの時間を設定できるタイマであれば、一つのタイマで
行なうことも可能である。このようにすることで、装置
内のハードウェア構成が簡易になるだけでなく、価格を
抑えることも可能となる。
【0081】図6に、第二の実施の形態に係る情報処理
装置の構成を示すブロック図を示す。本実施の形態にお
いて、メインプロセッサシステム2及びサブプロセッサ
システム3の機能などは第一の実施の形態と同様であ
り、これらの部分については説明を省略し、異なる部分
について説明する。本実施の形態では、温度モニタ26
が正常動作時とは異なる値を検出すると出力される温度
異常信号37及び、電圧モニタ20a、20bが正常動
作時と異なる値を検出すると出力される電圧異常信号3
8a、38bを追加し、第一の実施の形態で説明したサ
ブプロセッサ14による環境監視とは別に冗長構成によ
る異常検出手段を設けている。この温度異常信号37及
び、電圧異常信号(38a及び38b)を判定手段74
に入力する。また、スイッチ6からサブプロセッサ14
への電源投入(遮断)要求信号18aを判定手段74に
入力する。
【0082】第一の実施の形態では、サブプロセッサ復
旧不可能な重度障害をWDT2(30b)満了によって
検出し、速やかに電源遮断を行っていた。本実施の形態
では、WDT2(30b)のタイマ満了後、判定手段7
4はスイッチ6からの電源遮断要求信号18a、温度異
常信号37、電圧異常信号(38a及び38b)の監視
を行い、サブプロセッサの動作状態によらず、ユーザか
らの電源遮断要求18aあるいは、温度異常信号及び電
圧異常信号(38a及び38b)のうち少なくとも一つ
が出力されるまでは電源遮断を行わず、メインプロセッ
サシステムの動作連続性を保証する。
【0083】ここで、WDT2のタイマ満了後、電源遮
断要求信号18a、温度異常信号37、電圧異常信号
(38aおよび38b)の監視と電源遮断の必要性の有
無を判定する判定手段74について説明する。
【0084】図7は本実施の形態におけるWDT2(3
0b)及び、判定手段74のブロック図である。WDT
2(30b)内のタイマカウンタ71は、クロック発信
器31bによって出力されるパルス信号72のカウント
を行い、第一の実施の形態で説明した時定数でタイマが
満了した場合、タイマ満了信号73を出力する。このカ
ウント値は、サブプロセッサ14からサブプロセッサバ
ス16を介して参照、更新可能であり、通常の動作状態
では、サブプロセッサ14がプログラムによりタイマカ
ウンタ71が満了となる前にカウント値をクリアする。
なお、本実施形態において図7に示したタイマクリア信
号32bはサブプロセッサバス16を介したアクセスで
あり、実信号線ではないので破線により示している。
【0085】判定手段74は、タイマ満了信号73が満
了を示す‘1’となり、かつ電源遮断要求信号18a、
温度異常信号37、電圧異常信号(38a及び38b)
のいずれかが異常を示す‘1’となった場合に、異常通
知信号34の異常を示す‘1’とする。この論理条件を
図8に示す。なお、表中の‘x’は‘0’でも‘1’で
も良い‘Don’t Care‘条件を示す。
【0086】ケース1は通常の動作状態で、タイマカウ
ンタ71はサブプロセッサ14によってクリアされてお
り、タイマ満了信号は‘0’となる。この時は、サブプ
ロセッサシステムにより環境の監視が行われており、障
害の検出や、電源遮断要求時の電源制御はサブプロセッ
サ14により行うことが可能であるため、判定手段74
による監視は無効とし、温度異常信号37、電圧異常信
号38a、38b及び、電源遮断要求信号18aの各状
態によらず、異常通知信号34は出力せず‘0’であ
る。
【0087】一方、ケース2から6は、サブプロセッサ
システムが復旧不可能な障害が発生した場合で、タイマ
カウンタ71はクリアされず満了となるためタイマ満了
信号が‘1’となる。これらのケースにおいて、判定手
段74は有効となる。ここでケース2では、温度異常信
号37、電圧異常信号38a、38bの信号に異常はな
く‘0’である。また、スイッチ6からの電源遮断要求
信号18aも‘0’であり電源遮断要求もないため異常
通知信号34は出力せず‘0’とし、電源遮断は行わず
メインシステムの動作は継続する。
【0088】ケース3は、電源遮断要求18aが
‘1’となった場合であり、ユーザからの電源遮断要求
が検出されたとして、温度異常信号37、電圧異常信号
38a、38bの状態によらず、異常通知信号34を
‘1’とすることで速やかに電源遮断を行う。
【0089】ケース4から6では、温度異常信号37、
電圧異常信号38a、38bのうちいずれかが‘1’と
なった場合であり、メインシステムの動作が保証できな
い障害が検出されたとして、直ちに異常通知信号34を
‘1’とすることで、速やかに電源遮断を行う。
【0090】これにより、タイマカウンタ71が満了
後、電源遮断要求信号18a、温度異常信号37、電圧
異常信号38a、38bの一つでも検出した場合に速や
かに主電源を遮断することを可能にする。
【0091】以上説明したように、第二の実施の形態に
よれば、WDT2(30b)の満了によるサブプロセッ
サ復旧不可能な状態を検出後、ユーザからの電源遮断要
求18a、温度異常信号37、電圧異常信号(38a及
び38b)を監視することで、メインプロセッサシステ
ムの運用が継続できない障害や、ユーザからの要求があ
るまでメインシステムの動作連続性を保証することが可
能となる。
【0092】
【発明の効果】本発明はこのような手段を設けたので、
複雑なハードウェア回路を用いた冗長な装置にならず
に、自己復旧機能を有しかつ重度障害に対してはハード
ウェアにより電源遮断処理をおこなうことが可能とな
る。
【0093】また、本発明に係わる情報処理装置におい
て、サブシステムの障害に対し、サブプロセッサのリセ
ットを数回試みることで確実にウェイクアップを行い、
ノイズ等に起因するデータ化けによるソフトウェアの暴
走や、立ち上げ失敗といった一過性の障害から復旧を行
うことが可能である。
【0094】また、上記を実行したにもかかわらずサブ
システムの復旧ができなかった場合においても、ハード
ウェアによる迅速な電源遮断処理を可能とし、サブシス
テムの障害によるメインシステムの不用意な停止を低減
する効果がある。
【図面の簡単な説明】
【図1】第一の実施の形態に係る情報処理装置のブロッ
ク図である。
【図2】障害検知方法とその対応処理を示すフローチャ
ートである。
【図3】障害検知方法とその対応処理を示すフローチャ
ートである。
【図4】第一の障害発生時における復旧までのタイムチ
ャートである。
【図5】第二の障害発生時における電源遮断処理までの
タイムチャートである。
【図6】第二の実施の形態に係る情報処理装置のブロッ
ク図である。
【図7】第二の実施の形態に係るウォッチドッグタイマ
2(30b)及び判定手段74のブロック図である。
【図8】第二の実施の形態に係る判定手段74の論理条
件を示した表である。
【符号の説明】
1・・・情報処理装置、2・・・メインプロセッサシステム、
3・・・サブプロセッサシステム、4・・・共有バス、5a・・
・補助電源、5b・・・メイン電源、6・・・スイッチ、7・・・
電源電源制御LSI、8・・・メインプロセッサ、9・・・メモ
リ、10・・・メモリ・I/Oバスブリッジ、11・・・I/Oバ
ス、12・・・周辺装置インターフェース、13・・・入出力
装置、14・・・サブプロセッサ、15・・・メモリ、16・・
・サブプロセッサバス、17・・・サブ/共有バスブリッ
ジ、18a・・・スイッチ6からサブプロセッサ14への
電源投入(遮断)要求信号、18b・・・サブプロセッサ
14から電源制御LSI7への電源遮断要求信号、19
・・・電源制御信号、20a・・・電圧モニタ、20b・・・電
圧モニタ、21・・・情報収集バス、22・・・情報収集装
置、23・・・共有メモリ、24・・・共有バスブリッジ、2
5a・・・プロセッサ温度、25b・・・素子温度、26・・・
温度モニタ、27・・・メモリ・バスエラー検出信号、2
8・・・外部表示装置、29・・・電源ステータス信号、30
a・・・ウォッチドッグタイマ1、30b・・・ウォッチドッ
グタイマ2、31a・・・クロック発信器、31b・・・クロ
ック発信器、32a・・・ウォッチドッグタイマ1クリア
信号、32b・・・ウォッチドッグタイマ2クリア信号、
33・・・ウォッチドッグタイマ1によるサブプロセッサ
14へのリセット信号、34・・・ウォッチドッグタイマ
2による電源制御LSI7への異常通知信号、35・・・
電源遮断通知信号、36・・・フラッシュロム。201・・・
サブプロセッサシステム3の初期化、202・・・ウォッ
チドッグタイマ有効処理、203・・・環境監視タスク、
204・・・ウォッチドッグタイマクリアがなされたかの
分岐、205・・・環境監視に異常がないかの分岐、20
6・・・ユーザから電源投入要求がないかの分岐、207・
・・メイン電源5bON処理、208・・・ウォッチドッグ
タイマ2(30b)が満了しているかの分岐、209・・
・ウォッチドッグタイマ1(30a)が満了、210・・・
ウォッチドッグタイマ1(30a)によるサブプロセッ
サ14のリセット信号33発生、211・・・サブプロセ
ッサ14による初期化処理、212・・・障害発生を外部
へ通知、301・・・環境監視タスク、302・・・ウォッチ
ドッグタイマのクリアがなされたかの分岐、303・・・
環境監視に異常がないかの分岐、304・・・ユーザから
の電源遮断要求がないかの分岐、305・・・ウォッチド
ッグタイマ2(30b)が満了しているかの分岐、30
6・・・外部へ障害発生を通知、307・・・ウォッチドッグ
タイマ1(30a)が満了、308・・・ウォッチドッグ
タイマ1(30a)によるサブプロセッサ14リセット
信号33発生、309・・・サブプロセッサ14による初
期化処理、310・・・メイン電源OFF、311・・・メイ
ン電源遮断。401〜403・・・ウォッチドッグタイマ
のクリアのタイミング、404・・・サブプロセッサのリ
セットのタイミング 405・・・ウォッチドッグタイマのクリアのタイミング 501〜503・・・ウォッチドッグタイマのクリアのタ
イミング、504〜506・・・サブプロセッサのリセッ
トのタイミング、507・・・ウォッチドッグタイマ2
(30b)から電源制御LSI7への異常通知信号34
発生のタイミング、508・・・電源遮断のタイミング、
37・・・温度モニタ26から出力される温度異常信号、
38a電圧モニタ20aより出力される電圧異常信号、
38b・・・電圧モニタ20bより出力される電圧異常信
号、71・・・タイマカウンタ、72・・・クロック発信器3
1bから出力されるパルス信号、73・・・タイマカウン
タ71満了時に出力されるタイマ満了信号、74・・・判
定手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 荒川 修 神奈川県海老名市下今泉810番地 株式会 社日立製作所インターネットプラットフォ ーム事業部内 (72)発明者 松岡 紀伸 神奈川県海老名市下今泉810番地 株式会 社日立製作所インターネットプラットフォ ーム事業部内 Fターム(参考) 5B011 GG02 HH04 HH08 JA07 JA14 JA24 KK01 KK02 5B054 AA08 BB05 BB13 DD11 DD25

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】主電源と、主電源から給電されるメインシ
    ステムと、補助電源と、補助電源により給電されるサブ
    システムとを有する情報処理装置において、前記サブシ
    ステムは、クロックを出力するクロック発生手段と、前
    記クロックにより第一の時定数と第二の時定数を計測す
    る計測し、前記第一の時定数到達時に前記サブシステム
    のリセットを指示し、善意第二の時定数到達時に前記主
    電源の遮断を指示する計測手段を有することを特徴とす
    る情報処理装置。
  2. 【請求項2】請求項1に記載の情報処理装置において、
    前記第一の時定数は前記第二の時定数よりも大きいこと
    を特徴とする情報処理装置。
  3. 【請求項3】請求項1記載の情報処理装置において、前
    記サブシステムは、プロセッサと、メインシステムの電
    圧を検出する手段と、メインシステムの温度を検出する
    手段と、前記メインシステムの電圧の検出結果と温度の
    検出結果を格納する記憶手段とをさらに有し、前記サブ
    システムのリセット時に前記記憶手段の前記電圧の検出
    結果と前期温度の検出結果が格納されている領域は初期
    化しないことを特徴とする情報処理装置。
JP2001125221A 2001-04-24 2001-04-24 情報処理装置 Pending JP2002318643A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001125221A JP2002318643A (ja) 2001-04-24 2001-04-24 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001125221A JP2002318643A (ja) 2001-04-24 2001-04-24 情報処理装置

Publications (1)

Publication Number Publication Date
JP2002318643A true JP2002318643A (ja) 2002-10-31

Family

ID=18974478

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001125221A Pending JP2002318643A (ja) 2001-04-24 2001-04-24 情報処理装置

Country Status (1)

Country Link
JP (1) JP2002318643A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8959402B2 (en) 2012-10-04 2015-02-17 Qualcomm Incorporated Method for preemptively restarting software in a multi-subsystem mobile communication device to increase mean time between failures
JP2019164518A (ja) * 2018-03-19 2019-09-26 株式会社リコー 仲介装置、機器監視システム、仲介方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8959402B2 (en) 2012-10-04 2015-02-17 Qualcomm Incorporated Method for preemptively restarting software in a multi-subsystem mobile communication device to increase mean time between failures
JP2019164518A (ja) * 2018-03-19 2019-09-26 株式会社リコー 仲介装置、機器監視システム、仲介方法
JP7073820B2 (ja) 2018-03-19 2022-05-24 株式会社リコー 仲介装置、機器監視システム、仲介方法

Similar Documents

Publication Publication Date Title
CN101126995B (zh) 处理严重硬件错误的方法及设备
US7756048B2 (en) Method and apparatus for customizable surveillance of network interfaces
US5491787A (en) Fault tolerant digital computer system having two processors which periodically alternate as master and slave
US6742139B1 (en) Service processor reset/reload
EP1351145A1 (en) Computer failure recovery and notification system
US20060143492A1 (en) System and method for fault detection and recovery
US8212601B2 (en) Method and apparatus for providing system clock failover
US7672247B2 (en) Evaluating data processing system health using an I/O device
TWI529624B (zh) Method and system of fault tolerance for multiple servers
JP7351933B2 (ja) エラーリカバリ方法及び装置
US20170147422A1 (en) External software fault detection system for distributed multi-cpu architecture
US7318171B2 (en) Policy-based response to system errors occurring during OS runtime
JP2000112584A (ja) 電源故障対策を備えたコンピュ―タシステム及びその動作方法
WO2008004330A1 (fr) Système à processeurs multiples
JP2002318643A (ja) 情報処理装置
JP2003256240A (ja) 情報処理装置及びその障害回復方法
JPH11259340A (ja) コンピュータの再起動制御回路
JP2000112790A (ja) 障害情報収集機能付きコンピュータ
JP2004348335A (ja) 障害検出方法及び情報処理システム
WO2014112039A1 (ja) 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム
CN108415788B (zh) 用于对无响应处理电路作出响应的数据处理设备和方法
US11042443B2 (en) Fault tolerant computer systems and methods establishing consensus for which processing system should be the prime string
KR100408266B1 (ko) 컴퓨터 시스템의 폴트 자동 복구장치
JPH06214831A (ja) 中央処理装置の異常検出装置
KR100862407B1 (ko) 에러를 검출하고 잠재적 고장을 예상하는 시스템 및 방법