JP3720919B2 - コンピュータ・システムのシャットダウンを効率的に管理する方法及び装置 - Google Patents

コンピュータ・システムのシャットダウンを効率的に管理する方法及び装置 Download PDF

Info

Publication number
JP3720919B2
JP3720919B2 JP19314696A JP19314696A JP3720919B2 JP 3720919 B2 JP3720919 B2 JP 3720919B2 JP 19314696 A JP19314696 A JP 19314696A JP 19314696 A JP19314696 A JP 19314696A JP 3720919 B2 JP3720919 B2 JP 3720919B2
Authority
JP
Japan
Prior art keywords
operating system
hardware
event
fault
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP19314696A
Other languages
English (en)
Other versions
JPH09167099A (ja
Inventor
ランダル・クレイグ・スワンバーグ
マイケル・ステファン・ウィリアムス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JPH09167099A publication Critical patent/JPH09167099A/ja
Application granted granted Critical
Publication of JP3720919B2 publication Critical patent/JP3720919B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2289Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by configuration test

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)
  • Debugging And Monitoring (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、コンピュータ・システムの障害処理に係り、特にハードウェア障害に応答してコンピュータ・システムのシャットダウンを効率的に管理する方法及び装置に係る。
【0002】
【従来の技術】
ますます複雑になる現在のコンピュータ・システムの設計に関して、重要なアーキテクチャの側面として、誤動作をどのように処理するかという課題がある。誤動作は無数にあり、冷却装置の障害から電源障害等まで様々であり、総称的に「イベント」と呼ばれる。
【0003】
こうしたイベントがハードウェアで検出されると、データの損失、システムへのダメージ、その他、こうした望ましくないイベントにかかわる問題を防ぐあるいは最小限にするために、適切な動作(以下「対障害動作」とも称する)あるいは処置を取る必要がある。このような動作もイベントと同じように無数にあり得、様々であり、複雑であり、更に機能的に検出されたイベントと、そのイベントに関連したハードウェア・システムに依存する。イベントによってトリガされるこうした適切な動作の代表例として、システムのユーザに対する検出状態の警告とシステムの自動シャットダウンがある。これら所望の動作には更に、例えばトランザクションが完了する前に障害が起こった場合等のように、データの整合性とファイル・システムの保護が含まれる。
【0004】
ハードウェアの誤動作を効率的に処理できるシステムを設計する際の従来のアプローチは、まず、これら様々なイベントを検出するメカニズムをハードウェア内に準備することである。これら検出イベントの指標(インディケータ)が次にソフトウェアに、具体的にはオペレーティング・システムに伝えられ処理される。オペレーティング・システムは、イベント・インディケータを受信して処理し、検出イベントに合わせて調整された一連の適切な対応動作を形成する。
【0005】
このようなシステムの開発の初期段階では、前記のアプローチはうまくいくように思われた。これは主にコンピュータそれ自体が比較的シンプルだったからである。検出イベントは、それにより生じる所望の動作と同様に数が限られ、その相互関係も複雑さも限定されたものであることが多かった。例えば、ある単純なシステムにより、冷却ファンの障害だけが検出され、その結果、オペレーティング・システムによって即時パワーオフ・ルーチンの実行が起動されるだけである。
【0006】
しかし、その後コンピュータ・テクノロジが発達するにつれ、ハードウェア・システムは、検出すべきイベント障害の数とタイプについても、またそれによって生じ、オペレーティング・システムによってトリガすべき動作についても、かなり複雑になっている。
【0007】
例えばあるメーカーは、これまでは数種類のローエンド・コンピュータからなるかなり限られたハードウェア製品群を扱うだけだったが、同じメーカが現在では様々なハードウェアを組み合わせた製品を扱っていると考えられる。これらの製品は比較的シンプルなデスクトップのクライアントPCやワークステーションから、複数のCPU、ラック及び複数のディスク・ドライブ、アダプタ・ボード、その他の周辺装置等を収めるキャビネットを含む、かなり複雑な総合サーバ・システムまでと幅広く、それぞれに専用の電源や冷却装置の障害点が関係する。
【0008】
前記のように、障害サポートの必要なハードウェア・システムの数が増え、より複雑になった結果、検出すべき様々なイベントの絶対数が付随的に増加するだけでなく、複数のハードウェア・プラットフォームをサポートする1つのオペレーティング・システムでこれらのイベントから適切な動作を決定する問題もまた複雑になっている。
【0009】
業界は障害処理装置を簡素化する必要性に呼応して、人工知能やエキスパート・システムの技術でこの状況に対応しようとした。こうしたシステムの場合、デバイス・エラーの障害処理に人工知能エンジンが用いられた。これは基本的には、イベント、アラーム等についての学習を、また後には障害を解決するために何が必要かの適応型あるいはインテリジェント型の確認を伴う。
【0010】
これら従来技術の試行により、様々なイベントやアラームを解釈するタスクは簡素化されたが、それでも取るべき適切な対応動作を決定するためになおオペレーティング・システム処理が必要という大きな欠点があった。従って、このようなシステムは、基本的には「イベント」通知システムにとどまった。ますます複雑になるハードウェア・システムやその組み合わせに関係した適切な対障害動作を決定するという組み合わせの問題とタスクはある程度までは簡素化されたが、これらのイベントを処理し、適切な動作を形成するため、オペレーティング・システム自体に負担がかかることには変わりがなかった。先に述べた理由から、オペレーティング・システムのデベロッパにかかるこの負担は、現在のコンピュータ・システムでは、ハードウェア・システム及び関連するイベントの非常に大きな組み合わせの処理に関して急速に管理不能になっている。
【0011】
問題の複雑さを強調するために2、3例を挙げる。あるレジスタのフラグ・ビットによりハードウェアのある特定の部分に関して、冷却ファンに障害が起こったことが示される。その場合、その特定のハードウェアに対して適切な動作は、電源の供給を即座に停止することであろう。しかし、この同じビットが別のハードウェアでは、冗長な電源を持つ装置内の電源の障害に対応する。この例では、電源の供給を即座に停止することは不適切なだけではなく望ましくないことでもある。従来のシステムの場合、適切な動作を選択し実行するために、どの動作が適切かを明らかにするタスクでは、イベント・フラグ自体の検出ばかりでなく、イベントがそこから生じたハードウェア・システムを判定することも必要になる。前記のタスクは従来のシステムではオペレーティング・システムに委ねられていた。
【0012】
このようなイベントと、あるオペレーティング・システムがサポートするシステムの数が多くなると、オペレーティング・システムそれ自体で適切な動作を形成する機能を提供し維持する問題も大きくなった。新しいイベント(これはまた特定の対障害動作を要する)をもたらすハードウェアの変更が新たに行われる毎に、オペレーティング・システムそれ自体をこれに対処するために変更する必要があると想定された。「過去から受け継がれた」複数のハードウェア・プラットフォーム及び新たに追加されたハードウェアをサポートするために必要な単一のオペレーティング・システムを(経済的な理由から)維持する負担から、そのようなオペレーティング・システムを維持するコストと複雑さが生じ、これは多くの場合、管理不能になり現実的ではなくなる。
【0013】
オペレーティング・システムのベンダが、検出すべきイベントとそれにより生じる動作の急激な増加にうまく対応できた場合でも、このような適切な動作の決定がオペレーティング・システムに委ねられると、また新たな問題が生じた。
【0014】
例えばオペレーティング・システムに、独自のものすなわち「付加価値」を提供しようとするOEM(Original Equipment Manufacturer)が増加し、必要な新しい動作をもたらすハードウェアの追加や変更にオペレーティング・システムが対応できるようにする負担をOEMも負うことになった。ハードウェアに対する付加価値によるが、こうしたOEMは、例えば本来のオペレーティング・システム・ベンダによって選択されたものとは異なる動作群や動作のタイプを必要とする。しかしこのようなメーカは、あるイベント群がある場合、これら新しいイベントに対して適切な動作を決定するための新しいオペレーティング・システム・カーネル・コードを開発しテストする能力あるいはリソースを持たないかもしれない。
【0015】
OEMは、従って、このような付加価値ハードウェアの変更内容を提供しながらも、元のシステム動作(本来のオペレーティング・システム・ベンダによって定義されたもの)に必要な新しい変更内容を経済的に、効率よく実現できるようにする、比較的シンプルな方法を渇望することになろう。しかし、先に述べた通り、現在のシステム(検出イベントの関数として適切な動作を選択する責任がオペレーティング・システムに組み込まれたもの)では、オペレーティング・システムをそのように変更するのは複雑な作業になるため、これは不可能になり、実際問題としてOEMがこうしたカスタム動作を提供することは実質的に不可能であった。
【0016】
前記のことからすぐ明らかになることは、ハードウェア・システムがそれによって機能するオペレーティング・システムを維持する負担を軽減できる、コンピュータによる障害管理装置が求められるということである。また、ハードウェア・システムが変更されて複雑になるとき、イベントとそれによって生じる動作の追加に簡単に対応でき、よってハードウェアの設計の幅が広がる改良されたシステムが求められる。
【0017】
【発明が解決しようとする課題】
本発明の目的は、障害管理装置の適切なイベント駆動動作を選択することに関係した決定を、オペレーティング・システムの設計者や維持者にではなく、ハードウェア設計者に委ねることである。ただし、かかるハードウェア設計者は、これらのイベント及び指示すべき必要な動作について最も知識があることを前提とする。
【0018】
本発明の他の目的は、オペレーティング・システムのモジュール性とオブジェクト指向性が高まり、よって障害イベント群から適切な動作を決定する等のハードウェア固有の機能に対する依存性が少なくなるように、オペレーティング・システムの移植性を高めることである。
【0019】
【課題を解決するための手段】
コンピュータ・システムにおいて、障害状態を指示しこれに対応するハードウェア内の複数のイベントのうち少なくとも1つを検出するハードウェア・サブシステムが提供される。かかるイベントには、電力損失、1次または2次の冷却ファンの障害、熱障害等の検出が含まれる。
【0020】
ハードウェア・システムは更に、かかる検出イベントの関数としてまたこれに対応して、システムに適した対応動作を決定する手段を含む。かかる動作としては、例えば冷却や電源の問題が深刻ではないときにはこれをただシステム・オペレータに警告するためのものがある。この他の動作には10分経過後にコンピュータ・システムのシャットダウンを自動的に行う(ハードウェア・サブシステムによって重大な冷却の問題と解釈されたイベントに応答して)、例えば20秒等、比較的短い時間でシャットダウンを行う(かなり重大な冷却の問題と解釈されたイベントに応答して)。あるいは電力損失等の重大状態が発生した場合には即時にパワーダウンを行うことが含まれる。
【0021】
必要且つ適切なかかる対応動作(検出イベントによって駆動される)がハードウェア・システムによって決定されると、コンピュータ・システムのオペレーティング・システムに必要な対応動作を示すメッセージが伝えられる。
【0022】
オペレーティング・システムによるこのメッセージの受信に応答して、その後、オペレーティング・システムにより対応するサブルーチンが実行され、必要な対応動作(即時パワーダウンかどうかにかかわらず)または他の予め選択された動作の1つが実行される。
【0023】
ハードウェア・サブシステムからの指定された動作は、望ましくはオペレーティング・システムによって実行される複数の応答動作になる。例えば、あるイベントの検出の結果、ハードウェア・サブシステムによってオペレーティング・システムに伝えられた所望の20秒シャットダウン動作に応答して、所望動作は実際に、プロセス終了トランザクション全ての完了とディスクへの格納を含めた動作のサブセットになり、その後、電源系統のシャットダウンを開始すると共に、電源の復帰(その場合はディスクのアクティビティが再開される)等がモニタされる。
【0024】
本発明の重要な特徴は新しいイベントを認識し、ハードウェアによって検出されたかかるイベントにどの動作が必要で適切かを判断するようにオペレーティング・システム自体を変更する必要がなくなることである。従って、本発明の好適な実施例では、ハードウェア・システムが単にイベント(電力損失、ファン障害等)をオペレーティング・システムに通知するのではなく、ハードウェア・システムやハードウェア・サブシステムが逆に、所望の動作(ユーザへの警告、10分遅いシステムのシャットダウン、即時パワーダウン等)をオペレーティング・システムに通知する。
【0025】
本発明の開示内容に従って、(イベントの指示を与えるのではなく)所望の動作の指示をオペレーティング・システムに与えるこの手段により、オペレーティング・システムはイベントを認識し、適切な動作を決定する責任からも自由になる。このようにして、オペレーティング・システム・ソフトウェアそれ自体の変更やテストを必要とせずに、新しいハードウェアと障害状態をサポートすることができる。新しいハードウェア・イベントはそれぞれ、すでにオペレーティング・システムには既知の所望の動作の1つとしてオペレーティング・システムに再び提示されるだけである。
【0026】
【発明の実施の形態】
図1は、本発明を実現した代表的コンピュータ・システム100のハイレベル・ブロック図を示す。コンピュータ・システム100は、IBM PowerPC(商標) 601、Intel(商標) Pentiumマイクロプロセッサ等を含み、処理キャッシュ15、RAM(ランダム・アクセス・メモリ)14、ROM(読出し専用メモリ)16、NVRAM(不揮発性RAM)32、その他、I/Oアダプタ18によって制御されるDASD20等の適切な記憶装置に格納されたデータとコードを処理するマスタCPU(中央処理装置)10を含む。この他にもテープ、CD−ROM、WORMドライブなど様々な記憶媒体を採用できる。必要に応じてデータやコンピュータ・プロセス命令を格納するため取り外し可能な記憶媒体を用意することもできる。
【0027】
好適な実施例では、AIX(商標)オペレーティング・システム(OP SYS)52を実行するIBM RISC System/6000(商標)が図1のコンピュータ・システム100を含む。ただし当業者にはわかるように、他のハードウェア・プラットフォーム、オペレーティング・システムも本発明を実現するのに利用できる。
【0028】
ユーザは、各種I/Oデバイス(ユーザ・インタフェース・アダプタ22によって制御される周知のユーザ用制御装置やインタフェース等)を通してコンピュータ・システム100と通信する。ディスプレイ38はキーボード24、ポインティング・デバイス26、及びスピーカ28によりユーザがコンピュータ・システムの動作を指示できるとき、ユーザに情報を表示する。必要ならこのコンピュータと、ネットワーク35に接続された他の処理装置との通信を制御するために従来型の通信アダプタ34を追加できる。ディスプレイ・アダプタ36は、従来の方法でビジュアル・ディスプレイ38に表示されるようユーザとコンピュータ・システム100との通信を制御する。またこのシステムの各種サブアセンブリと構成要素を相互接続して、各種サブコンポーネント間でデータ、アドレス、制御の各信号を転送できるようにするバス構造が、これも従来の方法で用意される。
【0029】
図1のコンピュータ・システム100は更に、電源40と、ファン1、2(42、44)等の何らかの冷却機構を含む。本発明の特徴は、個数、タイプ、機能に関して様々な構成要素を含む多様な構成のシステム100を実現することである。これら様々なシステムはまた、それぞれキャビネット・システム58、ラック・システム68として示したキャビネットやラック内に収容する等、全体の物理的形式も異なってよい。またシステム100が様々な形式で実現される場合でも、通常は先に述べたサブアセンブリや構成要素を含むことには変わりない。
【0030】
従って、例えばキャビネット・システム58を見ると、これには電源60、RAM、ROM、DASD、NVRAM等の記憶デバイス62、CPUボード64及びファン66が含まれ、その他、ブロック67に一括して示したような構成要素が必要に応じて追加される。
【0031】
同様に、ラック・システム68は、電源70、72、ファン74、ディスク・ドライブ等の形の記憶デバイス76、プロセッサ・ボード78、その他の構成要素79を含む。こうしたサブアセンブリや構成要素も、最初に述べたシステム100の構成要素と同様に各種サブコンポーネントを相互接続し、必要なデータ、アドレス、制御の各信号を提供するバス構造12を含む。
【0032】
図1のハードウェアは実際には、専用のプロセッサやメモリを追加できる複数のサブシステムからなる。これは一般的には例えばCPU81とROM80を含むI/Oアダプタ・カード18で示されるものであるが、包括的な意味では専用のプロセッサとメモリを含むコンピュータ・システム100のどのサブシステムをも表すものである。このような、マスタCPU10やCPU81のものの他に追加されるサブシステムやプロセッサの例として、サービス・プロセッサ・サブシステム85の「立ち上げ」(bringup)マイクロプロセッサ83がある。立ち上げマイクロプロセッサは、システム100を初期ブート時に立ち上げるタスクを実行する。また各種の障害状態とイベントをモニタし、適切な動作コードを決定してオペレーティング・システム52と通信を行う。これについては後に詳しく説明する。
【0033】
本発明の開示内容に従って、このような追加されたCPU81と関連メモリ80の1機能は、システム100の各サブシステムの各種動作状態をモニタし、システム100が対応すべき「イベント」を検出することである。図1で、信号ライン46、48、50はそれぞれ電源40とCPU81、第1ファン42とCPU81、及び第2ファン44とCPU81の間に示してある。これら信号ライン46、48、50はシステム100のサブシステムに関連した各種イベントが、これら追加CPU81(I/Oアダプタ18上のCPUとは限らず、例えばモニタ用サブアセンブリの電源に関連したCPUも)によって検出できることを概念的に示すためだけのものである。具体的には、システム100の動作中、電源40、または60、70、72(キャビネット及びラック・システム58、68に対する)に障害が起こる可能性がある。動作が許容レベルを超えるか完全に故障するかである。電源サブシステムは、対応CPU81に伝えられるこの障害状態すなわちイベントを示すイベント信号46を出力するようになっている。
【0034】
同様にシステム100は、ファン42、44、66、74等の誤動作によって示されるような冷却の問題が生じる可能性がある。これらのイベントは電源のイベントと同様に、対応CPU81(ここでも便宜上、I/OアダプタのCPU81として示す)に伝えられる対応するイベント信号48、50によって表される。
【0035】
従来のシステムに従うと、これらイベント46、48、50がCPU81によって検出されると、イベントはシステム100の格納レジスタに格納されるだけであった。次にレジスタに格納されたイベントに応じて適切な対応動作を選り分けるのはCPU10と関連オペレーティング・システム52の責任であった。一例として、CPU81が致命的な電源40の障害イベントをライン46で検出した場合は、このイベントから指示される適切な動作(すなわちバックアップ用のバッテリ電源への切り替えを行う等)は何かを決定するのはオペレーティング・システム52とCPU10の責任であった
【0036】
同様にCPU81によって検出され、対応レジスタに格納されたイベント信号48または50に応答して、CPU10とオペレーティング・システム52は、かかるイベント(例えば第1ファン42の障害を示す)を認識したことに応答して、適切な対応動作を実行するようになっていた。これは例えばファンが故障したことをオペレータに示すためディスプレイ・アダプタ38に表示されるメッセージの形であった。ファン44等の追加ファンにより冗長性が与えられているので短時間には他の操作は指示されなかった。一方、CPU81によって検出されたイベント信号48、50により、両方のファン42、44が故障したことが示された場合、別の動作、例えば熱過負荷状態が生じる前にシステムのシャットダウンを行う等が指示されるようになっていた
【0037】
ただし、ここでも従来のシステムでは、対応する格納レジスタに格納されたこれらのイベント信号の検出に応答して、適切な対応動作それ自体を行うのはCPU10とオペレーティング・システム52の責任であった
【0038】
従来のこのアプローチによって生じた問題として、オペレーティング・システム52はしばしば経済的な理由から、多数の異なるサブシステムと対応イベントを有する様々なハードウェア・システム100をサポートするようになっている。具体的には、例えばこのような1つのハードウェア・システムでは、前記の格納レジスタのある特定の位置にビットまたはフラグがあると、これはファン42の障害を示す。これはまた、前記のようなオペレータへの警告等、装置の特別な対応動作を示す。
【0039】
しかし、このようなシステムの別の例(100)では、この同じビットが前記の電源40の障害を反映する。これ自体はまたファン障害のものとは全く異なるシステム100からの応答の必要性を示す。従来のシステムでは、あるイベントを検出する必要があるだけでなく、それによって指示される適切な対応動作を決定する必要もある。この例の場合、格納レジスタにある同じビットが全く異なる2つのイベントと対応して実行すべき、全く異なる2つの動作を表すとすると、格納レジスタ・ビットを正しく「デコード」する、例えば必要な、適切な対応動作はどれかを決定するために、どのタイプのハードウェア・システム100が動作しているかを検出する必要性はオペレーティング・システム52に帰属していた。
【0040】
これは、ここですぐわかることであるが、オペレーティング・システム52が常に実行すべき適切な動作を、もちろんそれがサポートすることを求められるハードウェア構成要素の集まりに依存して決定するために、オペレーティング・システム52を常時変更しテストすることを要する。その結果、実際上、基本的には、結果的に複数のオペレーティング・システムになるものを設計し運用/維持しなければならなくなる。これは、これらのイベントを生成する異なるハードウェア・システムそれぞれに対応するよう、オペレーティング・システムが形成するイベント駆動型の動作をマップするためにオペレーティング・システムを変更する必要性から生じる。
【0041】
本発明の特徴は上述の問題に呼応して、イベントに対する適切な対応動作のこの決定をハードウェア・システムやそのサブシステムそれ自体に肩代わりさせることである。この方法では、CPU10とオペレーティング・システム52に伝えられるのは対応動作を要するイベント自体ではない。所望の動作自体(オペレーティング・システムに既知で且つオペレーティング・システムが実行可能な、予め選択された所望動作のリストから選択されたもの)のインディケータが伝えられる。この方法では、ハードウェア・システム100の構成が何らかの形で変更されたとき(追加、削除、ハードウェア・サブシステムの変更等)、従来技術とは異なり、これら変更内容をCPUとオペレーティング・システム52に伝える必要はない(またオペレーティング・システム52にすでに具体化された既存の動作ストラテジを変更する際のそれらの重要性もない)。逆にハードウェア・システム100と関連サブシステム自体は検出されたイベント状態に応じて、オペレーティング・システムに既知の所望の対応動作を予め決定する責任を負う。イベントではなく所望の動作だけがCPU10とオペレーティング・システム52に集められる。
【0042】
これは、本発明のシステムより得られる大きなメリットによる。すなわち様々なハードウェア・プラットフォームに対して複数のオペレーティング・システムを維持する必要をなくすことである。これにより基本的には1つのオペレーティング・システムで複数のハードウェア構成をサポートでき、オペレーティング・システムを継続的に変更しテストして、様々なハードウェア構成に応じて変化するイベントに対する正しい対応動作を提供する必要はない。
【0043】
図1に示したバス12の部分13は、このイベントと動作の相互作用を概念的に示している。特に上述のように、ハードウェア・サブシステムとそのCPUにより検出されたイベント11により、予め選択された動作群から選択された所望の動作17がCPUによって選択される。矢印19は、この所望の動作17がバス12を通してマスタCPU10に伝えられることを示す。マスタCPU10はこれに応答して、オペレーティング・システム52と共に指示された動作17に対してどのコールが必要かを決定し、動作17を実行するルーチンを実行する(54)。矢印19、54は、CPU10とオペレーティング・システム52がハードウェア・サブシステムから所望の動作17を知らされること、またこれに応答して、CPU10とオペレーティング・システム52がバス12に対応信号を生成すること(矢印54で示す)を示す。これらの信号により、システム100で所望の動作が実行される(システムのシャットダウン、バッテリ・バックアップの起動、ユーザやシステム管理者に対するディスプレイ38へのメッセージ表示、ディスク動作の保留等)。イベント11は実際には、後述するサービス/プロセッサ・ブロック等、各種のサブシステムとその対応CPUによって検出されること、またそれらが検出するイベント11の関数として動作信号17を生成するのはこれらサブシステムであること、またこの動作信号17はサブシステムからマスタCPU10に伝えられ、マスタCPU10はオペレーティング・システム52と共に、動作信号に応答して対応サブルーチンを実行する(54)ものであることに注意されたい。
【0044】
説明をわかりやすくするため、一般的な目的からは基本的にはディスク制御装置であるI/Oアダプタが制御装置として選択されているのは、サービス・プロセッサの機能とイベント検出を概念的に包括的に示すためであるが、この個別機能は、図1に示した別の機能ボックス、サービス・プロセッサ・サブアセンブリ85によって示す方がわかりやすいかもしれない。このサブアセンブリは、実際に立ち上げマイクロプロセッサ83を含むもので、基本的にこれはシステムを立ち上げ、適切な動作コードを決定してオペレーティング・システムに送るタスクを実行するサービス・プロセッサである。従って、電源40、ファン42、44等から検出されたイベントは、実際にサービス・プロセッサ・サブアセンブリ85に送られるように示してある。サブアセンブリ85へのこれら入力は立ち上げマイクロプロセッサ83によって処理される。これによりシステムは出力87を提供し、これはライン46、48、50上のイベントの所望動作を表す信号への変換を表すと認識することができる。この動作信号87は次に、好適には対応するステータス・レジスタ89に送られる。電源警告割込みの検出により実際にマスタCPU10によって読出されるのはこのステータス・レジスタ89である。次にCPU10とオペレーティング・システム52は、ステータス・レジスタ89に格納されたこの動作信号に応答して、システム内で所望動作を実行するのに必要なサブルーチンを実行する(54)。
【0045】
図2は、本発明に従った図1のシステム100のソフトウェア制御のフローチャートを示す。概念上、分割線111は、それより上の機能はハードウェア・システムとサブシステム自体及びその関連のCPUとメモリによって実行されること、また下の機能はオペレーティング・システム・ソフトウェア52とCPU10の機能で実行されることを示すためのものである。
【0046】
まず本発明の動作で、システム100はシステム内で適切な対応動作を要するイベントが発生したことを検出する(ブロック102)。このようなイベントの例としてはファン42の故障等、冷却の問題を示すイベント信号48に関連したありふれたイベント等である。このイベントが起こると、これはサブシステムのCPU81によって、46、48、50等のイベント信号として検出され、対応する記憶装置にログされる(ブロック104)。各イベントには、オペレーティング・システム52には既知の対応動作が関連づけられる。対応動作はイベントと、それを起こしたハードウェアにより異なる。
【0047】
所定所望の動作と、検出イベントの関数として動作を1つ選択するストラテジのこのリストは、ROM/RAM80等のサブシステム内に予め格納される。サブシステムCPU81は次に、格納されたイベントの指標(46、48、50)にアクセスし、また実行されると必要な所望動作が決定される前もって格納されたコードとデータにアクセスする。従って、この所望動作の指標が生成される。例えばCPU81はこれら格納され検出されたイベントを所望の動作パターンに変換する(ブロック106)。所望動作のこのインディケータは次に、RAM80等の格納レジスタに格納される(図2のブロック108)。次にCPU81によってオペレーティング・システム52に割込みが伝えられる(ブロック110)。オペレーティング・システムはこれにより、ハードウェア・サブシステムが、オペレーティング・システム52による応答を要するイベントを検出したことと、所望動作のインディケータは既知の格納レジスタ位置でオペレーティング・システム52に与えられるという指標を受取る。
【0048】
ブロック110に示したこの割込みの処理に応答して、オペレーティング・システム52は、ブロック108に関連した機能の実行後に、レジスタに格納された対応する所望動作モードの指標にアクセスする。代表的な動作例としては、所望動作がディスプレイ画面38でのユーザに対する警告(重要ではない冷却の問題(イベント)が生じたが、冷却ファンは冗長なのですぐにシステムをシャットダウンする必要はないことを示す)だけであることをオペレーティング・システムに示す、格納レジスタのビットまたはフラグのセットがある。オペレーティング・システムは、その割込みの処理とオペレーティング・システムに既知で且つオペレーティング・システムが実行を期待される所定所望の動作のインディケータにアクセスしたことに応答して、次にサブルーチン116を実行し、動作を実行する。オペレーティング・システムによるサブルーチン116のこの実行ステップはブロック114に示してある。
【0049】
図3は、ブロック110で伝えられる割込みのオペレーティング/システムによる処理に応答して、オペレーティング・システム52とCPU10によって実行できる代表的な動作サブルーチンのハイレベル・ブロック図である。オペレーティング・システムは、所望動作モードのインディケータへアクセス(112)した後、所望動作のインディケータによって指示されるサブルーチン116を実行する(114)。具体的には、116でサブルーチンが起動され、指示された動作がログされる(118)。例えば、条件がディスプレイ画面38でユーザまたはオペレータに伝えられ格納される。次に、サブルーチンで、所望のイベントと動作がユーザにレポートされたことの確認が行われ(120)、オペレーティング・システム52がノーマル処理を再開する(122)。
【0050】
オペレーティング・システム52は、この動作が必要なことを示すハードウェア・システムまたはサブシステムからのインディケータに応答して、所定所望の動作のサブルーチン116を実行できることは容易に理解できよう。従って、どのイベントを検出するか、またどのイベントまたはイベントの組み合わせによりオペレーティング・システム52に伝えられる、(オペレーティング・システムがこれら検出イベントに応答して実現することを期待される所定動作の)インディケータをトリガするかを決定するのは、完全にハードウェア・システムとサブシステムの設計者の制御下にある。従って本発明は、特定のイベントまたはイベントの組み合わせ、あるいはまたオペレーティング・システムによってトリガされる対応動作に限定されるものではない。本発明は、予め選択された所望動作、サブルーチン及び特定のハードウェア・システムやサブシステムの設計者によって適切と考えられるものとしてそれらをトリガする対応イベントのリストに制限を加えるものではない。ここで特筆すべき特徴は、オペレーティング・システムそれ自体に伝えられそれによってアクセスされるのは、これら所望のサブルーチンや動作のインディケータであって、その元のイベントそれ自体ではないということである。
【0051】
本発明は、特定の所定動作群に限定されるものではなく、これらの動作は、システム100自体の特定の構成要素と設計によって決定されることに注意されたい。例えば、このようなシステム100の特定の構成要素は、あるイベントを検出すると、冷却問題や電源の問題をユーザまたは管理者に対して警告することを保証するだけである。また別のイベントやイベントの組み合わせ(複数のファンのうち1つの障害等)が検出されると、所望の動作が保証され、ここでシステム100は10分後にシャットダウンされ、重大な冷却問題が生じたという警告がユーザに出される。これにより生じた時間でシステムはディスク動作等を余裕をもって終了させる。また他のイベント条件群がハードウェアによって検出されると(全ファンの障害等)、システム100の場合、20分以内のシャットダウンという別の動作が保証され、非常に重大な冷却問題を示すエラー・メッセージが出される。更にまた別に検出されたイベント群では、例えば致命的な電源障害の場合のように即時パワーダウン条件がある所望動作が保証される。
【0052】
ある特定のイベント群によって指示されるこのような所望動作の場合、かかる所望動作それぞれに動作コードが前もって選択されること、またマスタCPUプロセッサ10によって動作するオペレーティング・システム52によって伝えられこれによって操作されるのは、動作コードの原因になるイベントではなく結果の動作コードであることは、本発明の重要な特徴である。
【図面の簡単な説明】
【図1】本発明の障害管理サブシステムを含むコンピュータ・システムのブロック図である。
【図2】図1のコンピュータ・システムの障害管理サブシステムの動作を示すフローチャートである。
【図3】図1に示した本発明の障害管理サブシステムの動作の側面を示す詳細なフローチャートである。
【符号の説明】
10 マスタCPU
11 イベント
13 バス部分
17 動作信号
38 ディスプレイ
40 電源
42、44 ファン
46、48、50 信号ライン
52 オペレーティング・システム
54 対応サブルーチンの実行
80 ROM/RAM
81 CPU
83 立ち上げマイクロプロセッサ
85 サービス・プロセッサ・サブアセンブリ
87 動作信号
89 ステータス・レジスタ
116 サブルーチン

Claims (6)

  1. 1つ以上のハードウェア・サブシステム、マスタ・プロセッサ、オペレーティング・システム及びハードウェア障害の異なる1つと対応するイベント群に対して、前記イベント群の1つのイベントに対応し、前記オペレーティング・システムにとって既知で且つ前記1つのイベントに対応し、前記オペレーティング・システムによって実行可能な対障害動作が定義されたリストを格納する記憶装置を備えるコンピュータ・システム内のハードウェア障害に応答して前記コンピュータ・システムのシャットダウンを効率的に管理する方法であって、
    (a)前記コンピュータ・システムにおける前記イベント群の1つの発生を前記ハードウェア・サブシステムによって検出するステップと、
    (b)前記検出されたイベント群のうちの1つに対応する障害動作を前記リストを照会し、前記複数の対障害動作のうち当該検出されたイベント群に対応する1つの対障害動作に対応するインディケータを前記ハードウェア・サブシステムによって選択するステップと、
    (c)前記選択に応答して、前記対応する1つの対障害動作を示す前記インディケータを前記オペレーティング・システムに通信するステップと、
    (d)前記通信に応答して、前記オペレーティング・システムによって前記対応する1つの対障害動作を実行するステップと、
    を含む、前記方法。
  2. 前記対障害動作はユーザに対する警告と、前記コンピュータ・システムのシャットダウンを起こす異なるルーチンの実行とを含む、請求項1記載の方法。
  3. 前記ルーチンは、それぞれ異なる時間長の間に前記コンピュータ・システムをシャットダウンする、請求項2記載の方法。
  4. 1つ以上のハードウェア・サブシステム、マスタ・プロセッサ及びオペレーティング・システムで構成されるコンピュータ・システム内のハードウェア障害に応答して前記コンピュータ・システムのシャットダウンを効率的に管理する装置であって、
    (a)前記ハードウェア障害の異なる1つと対応するイベント群に対して、前記イベント群の1つのイベントに対応し、前記オペレーティング・システムにとって既知で且つ前記1つのイベントに対応し、前記オペレーティング・システムによって実行可能な対障害動作が定義されたリストと、
    (b)前記コンピュータ・システムにおける前記イベント群の1つの発生を前記ハードウェア・サブシステムによって検出する手段と、
    (c)前記検出されたイベント群のうちの1つに対応する障害動作を前記リストを照会し、前記複数の対障害動作のうち当該検出されたイベント群に対応する1つの対障害動作に対応するインディケータを前記ハードウェア・サブシステムによって選択する手段と、
    (d)前記選択に応答して、前記対応する1つの対障害動作を示す前記インディケータを前記オペレーティング・システムに通信する手段と、
    (e)前記通信に応答して、前記オペレーティング・システムによって前記対応する1つの対障害動作を実行する手段と、
    を備える、前記装置。
  5. 前記対障害動作はユーザに対する警告と、前記コンピュータ・システムのシャットダウンを起こす異なるルーチンを実行させる、請求項4記載の装置。
  6. 前記ルーチンは、それぞれ異なる時間長の間に前記コンピュータ・システムをシャットダウンする、請求項5記載の装置。
JP19314696A 1995-09-29 1996-07-23 コンピュータ・システムのシャットダウンを効率的に管理する方法及び装置 Expired - Fee Related JP3720919B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US536037 1995-09-29
US08/536,037 US5699502A (en) 1995-09-29 1995-09-29 System and method for managing computer system faults

Publications (2)

Publication Number Publication Date
JPH09167099A JPH09167099A (ja) 1997-06-24
JP3720919B2 true JP3720919B2 (ja) 2005-11-30

Family

ID=24136874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP19314696A Expired - Fee Related JP3720919B2 (ja) 1995-09-29 1996-07-23 コンピュータ・システムのシャットダウンを効率的に管理する方法及び装置

Country Status (2)

Country Link
US (1) US5699502A (ja)
JP (1) JP3720919B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW292365B (en) * 1995-05-31 1996-12-01 Hitachi Ltd Computer management system
US7260610B2 (en) * 1998-02-10 2007-08-21 Gateway Inc. Convergence events notification system
US6266773B1 (en) * 1998-12-31 2001-07-24 Intel. Corp. Computer security system
US6851006B2 (en) * 2001-08-25 2005-02-01 International Business Machines Corporation Interruption handler-operating system dialog for operating system handling of hardware interruptions
US6789048B2 (en) * 2002-04-04 2004-09-07 International Business Machines Corporation Method, apparatus, and computer program product for deconfiguring a processor
US20040119341A1 (en) * 2002-09-16 2004-06-24 Hickle Randall S. Battery backup method and system
US7165201B2 (en) * 2003-09-25 2007-01-16 Hitachi Global Storage Technologies Netherlands B.V. Method for performing testing of a simulated storage device within a testing simulation environment
US7340661B2 (en) * 2003-09-25 2008-03-04 Hitachi Global Storage Technologies Netherlands B.V. Computer program product for performing testing of a simulated storage device within a testing simulation environment
US7469287B1 (en) 2003-11-17 2008-12-23 Lockheed Martin Corporation Apparatus and method for monitoring objects in a network and automatically validating events relating to the objects
JP2007013738A (ja) * 2005-06-30 2007-01-18 Toshiba Corp 映像表示装置及び映像表示方法
US7853926B2 (en) 2005-11-21 2010-12-14 International Business Machines Corporation Automated context-sensitive operating system switch
US8108720B2 (en) * 2009-09-28 2012-01-31 At&T Intellectual Property I, L.P. Methods, systems and products for detecting failing power supplies
JP5541130B2 (ja) 2010-12-10 2014-07-09 富士通株式会社 管理装置、管理方法および管理用プログラム
US20140149568A1 (en) * 2012-11-26 2014-05-29 Sap Ag Monitoring alerts in a computer landscape environment
US12032462B2 (en) * 2022-10-20 2024-07-09 Dell Products L.P. Preserving hardware status points in operating system environment for use in preboot diagnostics

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4868832A (en) * 1986-04-30 1989-09-19 Marrington S Paul Computer power system
US4757505A (en) * 1986-04-30 1988-07-12 Elgar Electronics Corp. Computer power system
US4985695A (en) * 1989-08-09 1991-01-15 Wilkinson William T Computer security device
US5161158A (en) * 1989-10-16 1992-11-03 The Boeing Company Failure analysis system
US5159685A (en) * 1989-12-06 1992-10-27 Racal Data Communications Inc. Expert system for communications network
US5214653A (en) * 1990-10-22 1993-05-25 Harris Corporation Fault finder expert system
US5363503A (en) * 1992-01-22 1994-11-08 Unisys Corporation Fault tolerant computer system with provision for handling external events
US5359728A (en) * 1992-04-09 1994-10-25 Hewlett-Packard Company Data integrity assurance in a disk drive upon a power failure
US5430875A (en) * 1993-03-31 1995-07-04 Kaleida Labs, Inc. Program notification after event qualification via logical operators
US5416921A (en) * 1993-11-03 1995-05-16 International Business Machines Corporation Apparatus and accompanying method for use in a sysplex environment for performing escalated isolation of a sysplex component in the event of a failure

Also Published As

Publication number Publication date
US5699502A (en) 1997-12-16
JPH09167099A (ja) 1997-06-24

Similar Documents

Publication Publication Date Title
WO2022160756A1 (zh) 服务器故障定位方法、装置、系统及计算机可读存储介质
JP3720919B2 (ja) コンピュータ・システムのシャットダウンを効率的に管理する方法及び装置
US6216226B1 (en) Method and system for dynamically selecting a boot process within a data processing system
US6675324B2 (en) Rendezvous of processors with OS coordination
US5247659A (en) Method for bootstrap loading in a data processing system comprising searching a plurality of program source devices for a bootstrap program if initial data indicating a bootstrap program source device fails a validity check
US5951686A (en) Method and system for reboot recovery
US7756048B2 (en) Method and apparatus for customizable surveillance of network interfaces
US6112320A (en) Computer watchdog timer
US6243774B1 (en) Apparatus program product and method of managing computer resources supporting concurrent maintenance operations
US8713350B2 (en) Handling errors in a data processing system
CN104636221B (zh) 一种计算机系统故障处理方法和装置
US6820157B1 (en) Apparatus, program product and method of replacing failed hardware device through concurrent maintenance operation
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
CN111897686A (zh) 服务器集群硬盘故障处理方法、装置、电子设备及存储介质
US6055647A (en) Method and apparatus for determining computer system power supply redundancy level
US20020095625A1 (en) Identifying field replaceable units responsible for faults detected with processor timeouts utilizing IPL boot progress indicator status
US20050033952A1 (en) Dynamic scheduling of diagnostic tests to be performed during a system boot process
US5557739A (en) Computer system with component removal and replacement control scheme
AU621405B2 (en) Bootstrap mechanism for data processing system
US20030115382A1 (en) Peripheral device testing system and a peripheral device testing method which can generally test whether or not a peripheral device is normally operated
US20050210329A1 (en) Facilitating system diagnostic functionality through selective quiescing of system component sensor devices
US7743240B2 (en) Apparatus, method and program product for policy synchronization
US20080201605A1 (en) Dead man timer detecting method, multiprocessor switching method and processor hot plug support method
JPH04153810A (ja) 異常処理方式
JP2004213178A (ja) 計算機システム

Legal Events

Date Code Title Description
RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20041209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20041209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050722

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20050830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050909

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080916

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090916

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees