JP4568764B2 - システム監視装置の制御方法、プログラム及びコンピュータシステム - Google Patents

システム監視装置の制御方法、プログラム及びコンピュータシステム Download PDF

Info

Publication number
JP4568764B2
JP4568764B2 JP2007556715A JP2007556715A JP4568764B2 JP 4568764 B2 JP4568764 B2 JP 4568764B2 JP 2007556715 A JP2007556715 A JP 2007556715A JP 2007556715 A JP2007556715 A JP 2007556715A JP 4568764 B2 JP4568764 B2 JP 4568764B2
Authority
JP
Japan
Prior art keywords
information
hardware
software
state information
system monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007556715A
Other languages
English (en)
Other versions
JPWO2007088575A1 (ja
Inventor
義仁 山上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2007088575A1 publication Critical patent/JPWO2007088575A1/ja
Application granted granted Critical
Publication of JP4568764B2 publication Critical patent/JP4568764B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1441Resetting or repowering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、コンピュータシステム全体を監視制御するシステム監視装置の制御方法、プログラム及びコンピュータシステムに関し、特にシステム監視装置の故障時にコンピュータシステムを停止することなく活性交換を可能とするシステム監視装置の制御方法、プログラム及びコンピュータシステムに関する。
従来、社会性の高い基幹業務システムを実現するコンピュータシステムにあっては、ハードウェアとして例えば最大構成でCPUが128台、最大メモリ容量512Gバイト、ハードディスクドライブを73Gバイトで128台、PCIスロット数を320、最大パーティション数を15としタイムアップ最大化およびスループット最大化を図り、極めて高い処理性能、信頼性、安定性及び柔軟性を実現している。
例えばタイムアップの最大化については、多数のチェッカーにより筐体内を常時監視し、検出されたエラーはECCなどのデータ保護機能により自動的に修復し、動的縮退機能や冗長化機構により万一のトラブル時にもシステムダウンを回避し、更に、主要コンポーネントは活性交換に対応しているため、システムを停止せずに部品交換を可能としている。
またスループットを最大化にあっては、トランザクションや業務規模の変化に対応するため、パーティション機能と動的再構成機能を組合わせてハードウェア資源を柔軟に振分け、日中と夜間、月末と月初めなど、時間により負荷が変動する業務に対応可能としている。
パーティション機能は、CPUとメモリを搭載したシステムボードを単位とし、1又は複数のシステムボードを組合わせて複数のパーティションを設定する他、システムボード内を例えば2CPU単位でパーティション分割し、物理的な制約をうけることなく柔軟なパーティション構成と資源配置を実現できる。
また動的再構成機能は、システムを停止することなくCPU、メモリ、I/Oの増設と切離しを可能とし、システムの資源追加や部品交換、データ量や業務量の変化に応じた柔軟な資源配置を実現する。
このような高信頼性、高安定性及び高柔軟性を実現したコンピュータシステムにあっては、システム全体を監視制御するシステム監視装置(System Control Facility)を設けている。システム監視装置は、専用のボード上に実装され、コンピュータシステムのユーザ設定情報、ハードウェア状態情報及びOSソフトウェア状態情報を保持してシステム全体を監視制御しており、異常発生時には外部に通知する。
このようなコンピュータシステムのシステム監視装置が故障した場合には、そのボードを保守交換するために、システムを停止(電源オフ)しなければならないが、システムの運用形態によっては、システムを止めないで保守交換する活性保守を可能とする必要がある。
特開平4−326843号公報 特開平4−084230号公報
しかしながら、システム監視装置の故障時にシステムを停止せずに活性交換を行った場合、システム監視装置にしか保持されていないシステム状態情報が活性交換により失われ、活性交換前のシステム情報を継続させることができず、システム全体の監視に支障を来たす問題がある。
従来のシステム監視装置は、システム全体の制御を行なうためのシステム状態情報として、ユーザ設定情報、ハードウェア状態情報およびソフトウェア状態情報を保持している。
この内、ユーザ設定情報は、システム監視装置のボード外に設けられた専用の不揮発メモリ(EEPROM)に格納しており、活性交換でボード内の情報が失われても復元できる。またハードウェア状態情報は、システムが停止しないことから、活性保守が完了した時点でハードウェア側で保持している状態情報を読み出すことで復元できる。
しかしながら、OSソトウェアのハードウェア制御指示であるOSソフトウェア状態情報については、OSソフトウェア側で状態情報は保持されないため、システム監視装置の活性交換でOSソフトウェア状態情報が失われると、活性交換後に復元できず、OSソフトウェア状態情報を継続させることができない問題がある。
またシステム監視装置が故障して活性保守が行なわれるまでには、場所によってはかなりの時間がかかる場合があり、故障から活性交換が終わるまでのシステム監視装置の停止中、即ち活性交換中に生じたシステム状態情報についても、それを復元しなければシステム状態情報の継続性を確保できない。
このようなシステム監視装置の故障による問題を解消するため、システム監視装置を2重化したシステムがあり、2台のシステム監視装置の間で常にシステム状態情報を一致させながら、動作している。そのため、片方のシステム監視装置の故障に対しボードを交換しても、もう片方のシステム監視装置に格納されている状態情報を用いて運用が継続できる。
しかし、システム監視装置を2重化したコンピュータシステムであっても、両方のシステム監視装置が故障した場合は、システム監視装置を1台しか実装しないコンピュータシステムと同様、システム監視装置を保守交換するために、システムを停止しなければならない問題があるとともに、状態情報が失われる可能性がある。
本発明は、システム状態情報の継続性を保証したシステム監視装置の活性交換を可能とするシステム監視装置の制御方法、プログラム及びコンピュータシステムを提供することを目的とする。
(シングルボード対応の方法)
本発明は、システム監視装置の制御方法を提供する。即ち本発明は、コンピュータシステムのハードウェア状態情報及びOSソフトウェアによるハードウェア制御指示のOSソフトウェア状態情報を保持してコンピュータシステム全体を監視制御するシステム監視装置の制御方法に於いて、
ハードウェア状態情報及びOSソフトウェア状態情報の状態変化を認識した際に退避情報として不揮発メモリに記憶するシステム情報退避ステップと、
故障したシステム監視装置の制御方法の活性交換に伴う再起動を認識した際に、不揮発メモリから退避情報を読み出して装置故障前のハードウェア状態情報及びOSソフトウェア状態情報を復元する退避情報復元ステップと、
退避情報から動作中のハードウェアを認識し、認識したハードウェアについて活性交換中に発生したハードウェア状態情報を復元するハードウェア状態情報復元ステップと、
退避情報から動作中のOSソフトウェアを認識し、認識したOSソフトウェアについて活性交換中に発生したOSソフトウェア状態情報を復元するソフトウェア状態情報復元ステップと、
を備えたことを特徴とする。
ここで、コンピュータシステムは、複数のCPU、メモリ、入出力デバイス等を実装した複数のシステムボード、前記複数のシステムボードを接続するクロスバ型システムバス、電源装置及び冷却ファン等を備えたハードウェアと、複数のシステムボード上で実行される複数のOSソフトウェアとで構成され、
退避情報は、
システム全体の停電情報、
1又は複数のシステムボードの組合せ又は1つのシステムボード内に分割設定されるパーティションのブート、ランニング、停止等のパーティション情報、
システムボードの動的構成変更、メモリ縮退、ボード上のLSI縮退、PCIスロット縮退等のシステムボード情報、
あるいはCPU縮退情報及びキャッシュ縮退情報等のCPU情報、のうち少なくとも一つを含む。
ハードウェア状態情報復元ステップは、退避情報から認識した動作中のハードウェアの割込みマスクを解除することにより、装置停止中に発生したハードウェア状態情報を復元する。
ソフトウェア状態情報復元ステップは、退避情報から認識した動作中のソフトウェアにオフライン解除を通知することにより、装置停止中に発生したOSソフトウェア状態情報を復元する。
コンピュータシステムのシステム情報としてユーザ設定情報を保持すると共に不揮発メモリにユーザ設定情報を保存するユーザ設定情報管理ステップを備え、退避情報復元ステップは、故障したシステム監視装置の制御方法の活性交換に伴う再起動を認識した際に、不揮発メモリからユーザ設定情報を読み出して復元する。
ユーザ設定情報は、
システム名、空調投入待ち時間、暖気待ち時間、システムの設置場所の高度、システム監視装置の制御方法のIPアドレス、自動運転スケジュールに使用するカレンダ情報、システム全体かステップ分かを指定する縮退モード、あるいは停電から復電した際の動作を指定する復電モード等のいずれか一つを含むシステム全体情報と、
ホストID、パーティションで使用するLAN情報、電源制御コマンドの送受信の可否を設定する遠隔電源制御モード、診断方法を決定する診断レベル、パーティション起動に必要な環境変数等のいずれか一つを含むパーティション情報と、
次回起動時のパーティションを指定するパーティション番号、システムボードを論理的にパーティションに分割する場合に設定する分割モード、メモリをミラーで使用する場合に設定するミラーモード、メモリをインタリーブで使用するインタリーブモード等のいずれか一つを含むシステムボード情報と、
のうち少なくも一つを含む。
更に、退避情報復元ステップは、外部接続された装置からシステム監視装置自身のファームウェアの更新が行なわれて更新終了に伴うリセット起動を認識した際に、不揮発メモリから退避情報を読み出して対応する装置故障前のハードウェア状態情報及びOSソフトウェア状態情報を復元し、
ハードウェア状態情報復元ステップは退避情報から動作中のハードウェアを認識し、認識したハードウェアについてファームウェア更新中に発生したハードウェア状態情報を復元し、
ソフトウェア状態情報復元ステップは、退避情報から動作中のOSソフトウェアを認識し、ファームウェア更新中に発生したOSソフトウェア状態情報を復元する。
(シングルボード対応のプログラム)
本発明は、システム監視装置のコンピュータにより実行されるプログラムを提供する。
本発明のプログラムは、コンピュータシステムのハードウェア状態情報及びOSソフトウェアによるハードウェア制御指示のOSソフトウェア状態情報を保持してコンピュータシステム全体を監視制御するシステム監視装置のコンピュータに、
ハードウェア状態情報及びOSソフトウェア状態情報の状態変化を認識した際に退避情報として不揮発メモリに記憶するシステム情報退避ステップと、
故障したプログラムの活性交換に伴う再起動を認識した際に、不揮発メモリから退避情報を読み出して対応する装置故障前のハードウェア状態情報及びOSソフトウェア状態情報を復元する退避情報復元ステップと、
退避情報から動作中のハードウェアを認識し、認識したハードウェアについて活性交換中に発生したハードウェア状態情報を復元するハードウェア状態情報復元ステップと、
退避情報から動作中のOSソフトウェアを認識し、認識したOSソフトウェアについて活性交換中に発生したOSソフトウェア状態情報を復元するソフトウェア状態情報復元ステップと、
を実行させることを特徴とする。
(シングルボード対応のシステム)
本発明は、コンピュータシステムを提供する。即ち本発明は、複数のCPU、メモリ等を実装した複数のシステムボード、複数のシステムボードを接続するクロスバ型システムバス、電源装置及び冷却ファンを備えたハードウェアと、複数のシステムボード上で実行される複数のOSソフトウェアとで構成されたコンピュータシステムに於いて、
コンピュータシステムのハードウェア状態情報及びOSソフトウェアによるハードウェア制御指示のOSソフトウェア状態情報を保持してコンピュータシステム全体を監視制御するシステム監視装置を設け、
システム監視装置は、
ハードウェア状態情報及びOSソフトウェア状態情報の状態変化を認識した際に退避情報として不揮発メモリに記憶するシステム情報退避部と、
故障したシステム監視装置の活性交換に伴う再起動を認識した際に、不揮発メモリから退避情報を読み出して対応する装置故障前のハードウェア状態情報及びOSソフトウェア状態情報を復元する退避情報復元部と、
退避情報から動作中のハードウェアを認識し、認識したハードウェアについて活性交換中に発生したハードウェア状態情報を復元するハードウェア状態情報復元部と、
退避情報から動作中のOSソフトウェアを認識し、認識したOSソフトウェアについて活性交換中に発生したOSソフトウェア状態情報を復元するソフトウェア状態情報復元部と、
を備えたことを特徴とする。
(二重化ボード対応の方法)
本発明によるシステム監視装置の制御方法の別の形態にあっては、コンピュータシステムのハードウェア状態情報及びOSソフトウェアによるハードウェア制御指示のOSソフトウェア状態情報を含むシステム情報を保持してコンピュータシステム全体を監視制御する共に異常発生時に通知するシステム監視装置を2台設けて2重化したシステム制御装置の制御方法に於いて、
ハードウェア状態情報及びOSソフトウェア状態情報の状態変化を認識した際に退避情報として不揮発メモリに記憶するシステム情報退避ステップと、
2台のシステム監視装置の同時故障に伴う活性交換により先行装置としての再起動を認識した際に、不揮発メモリから退避情報を読み出して対応する装置故障前のハードウェア状態情報及びOSソフトウェア状態情報を復元する退避情報復元ステップと、
退避情報から動作中のハードウェアを認識し、認識したハードウェアについて活性交換中に発生したハードウェア状態情報を復元するハードウェア状態情報復元ステップと、
退避情報から動作中のOSソフトウェアを認識し、認識したOSソフトウェアについて活性交換中に発生したOSソフトウェア状態情報を復元するソフトウェア状態情報復元ステップと、
2台のシステム監視装置の同時故障に伴う活性交換により後続装置としての再起動を認識した際に、先行起動したシステム監視装置が保持しているシステム情報をコピーして復元するコピー復元ステップと、
を備えたことを特徴とする。
(2重化ボード対応のプログラム)
本発明によるプログラムの別の形態にあっては、コンピュータシステムのハードウェア状態情報及びOSソフトウェアによるハードウェア制御指示のOSソフトウェア状態情報を含むシステム情報を保持してコンピュータシステム全体を監視制御する共に異常発生時に通知する2重化したシステム監視装置のコンピュータに、
ハードウェア状態情報及びOSソフトウェア状態情報の状態変化を認識した際に退避情報として不揮発メモリに記憶するシステム情報退避ステップと、
2台のシステム監視装置の同時故障に伴う活性交換により先行続装置としての再起動を認識した際に、不揮発メモリから退避情報を読み出して対応する装置故障前のハードウェア状態情報及びOSソフトウェア状態情報を復元する退避情報復元ステップと、
退避情報から動作中のハードウェアを認識し、認識したハードウェアについて活性交換中に発生したハードウェア状態情報を復元するハードウェア状態情報復元ステップと、
退避情報から動作中のOSソフトウェアを認識し、認識したOSソフトウェアについて活性交換中に発生したOSソフトウェア状態情報を復元するソフトウェア状態情報復元ステップと、
2台のシステム監視装置の同時故障に伴う活性交換により後続装置としての再起動を認識した際に、先行起動したシステム監視装置が保持しているシステム情報をコピーして復元するコピー復元ステップと、
を実行させることを特徴とする。
(2重化ボード対応のシステム)
本発明によるコンピュータシステムの別の形態にあっては、
複数のCPU、メモリ等を実装した複数のシステムボード、複数のシステムボードを接続するクロスバ型システムバス、電源装置及び冷却ファンを備えたハードウェアと、複数のシステムボード上で実行される複数のOSソフトウェアとで構成されたコンピュータシステムに於いて、
コンピュータシステムのハードウェア状態情報及びOSソフトウェアによるハードウェア制御指示のOSソフトウェア状態情報を保持してコンピュータシステム全体を監視制御するシステム監視装置を2台設け、
システム監視装置の各々は、
システム情報の内、システム監視装置にのみ保持されて故障時に失われて復元できなくなるハードウェア状態情報及びOSソフトウェア状態情報の状態変化を認識した際に退避情報として不揮発メモリに記憶するシステム情報退避部と、
2台のシステム監視装置の同時故障に伴う活性交換により先行装置としての再起動を認識した際に、不揮発メモリから退避情報を読み出して対応する装置故障前のハードウェア状態情報及びOSソフトウェア状態情報を復元する退避情報復元部と、
退避情報から動作中のハードウェアを認識し、認識したハードウェアについて活性交換中に発生したハードウェア状態情報を復元するハードウェア状態情報復元部と、
退避情報から動作中のOSソフトウェアを認識し、認識したOSソフトウェアについて活性交換中に発生したOSソフトウェア状態情報を復元するソフトウェア状態情報復元部と、
2台のシステム監視装置の同時故障に伴う活性交換により後続装置としての再起動を認識した際に、先行起動したシステム監視装置が保持しているシステム情報をコピーして復元するコピー復元部と、
を備えたことを特徴とする。
(拡張的形態)
更に本発明は次のように構成される。
コンピュータシステムの状態情報を保持してコンピュータシステムを監視制御するシステム監視装置の制御方法に於いて、
状態情報の状態変化を認識した際に、状態情報を退避情報として不揮発メモリに記憶するステップと、
システム監視装置の起動を認識した際に、不揮発メモリから退避情報を読み出して、退避情報に対応する状態情報を復元するステップと、
を備えたことを特徴とする。
ンピュータシステムに於いて、
コンピュータシステムの状態を示す状態情報を保持して、状態情報により前記コンピュータシステムを監視制御するシステム監視装置を設け、
システム監視装置は、
状態状態情報を保持する第一のメモリと、
状態情報を退避情報として記憶する第二のメモリと、
状態情報を退避情報として第二のメモリに記憶するシステム情報退避部と、
システム監視装置の再起動が行われたときに、第二のメモリから退避情報を読み出して、状態情報を第一のメモリに復元する退避情報復元部と、を備えたことを特徴とする。
システム情報退避部は、システム監視装置の停止時にコンピュータシステム内で発生した状態情報を第二のメモリに記憶するように動作する。
システム情報退避部は、状態情報に変化があった場合に、当該状態情報を第二のメモリに記憶するように動作する。
第一のメモリは揮発性メモリであり、第二のメモリは不揮発性メモリである。
状態情報は、コンピュータシステムを構成するハードウェアの状態を示すものであり、退避情報を参照して動作中のハードウェアを認識し、認識したハードウェアについての状態情報を前記第一のメモリに復元するハードウェア状態情報復元部を更に備える。
状態情報は、コンピュータシステムにおいて動作するソフトウェアの状態を示すものであり、
退避情報を参照して動作中のソフトウェアを認識し、認識したソフトウェアについての状態情報を第一のメモリに復元するソフトウェア状態情報復元部を更に備える。
受信するシステムの状態を示す状態情報を用いて、システムの監視を行う監視装置において、
状態状態情報を保持する、第一の部位に設けられた第一のメモリと、
状態情報を退避情報として記憶する、第一の部位とは物理的に異なる第二の部位に設けられた第二のメモリと、
状態情報を退避情報として第二のメモリに記憶するシステム情報退避部と、
システム監視装置の再起動が行われたときに、第二のメモリから退避情報を読み出して、状態情報を第一のメモリに復元する退避情報復元部と、を備える。
コンピュータシステムにおいて、
コンピュータシステムの状態情報を保持してコンピュータシステムを監視制御する複数の監視装置を有し、
監視装置は、
状態情報を保持する第一の記憶部と、
第一の記憶部に格納された状態情報を、不揮発性の第二の記憶部に記憶させる情報退避部と、
他の監視装置に先駆けて監視装置が起動されたときに、第二の記憶部から状態情報を読み出し、読み出した状態情報を第一の記憶部に復元させる第一の復元部と、
他の監視装置が起動した後に監視装置が起動したときに、他の監視装置が保持する状態情報をコピーして、第一の記憶部に復元させる第二の復元部と、を備えたことを特徴とする。
本発明によれば、システム監視装置が保持しているシステム状態情報(ハードウェア状態情報及びOSソフトウェア状態情報)を一時退避するための不揮発記憶領域を設け、システム監視装置が管理している情報に変更があった場合に、常に記憶領域に退避することによって、交換前のシステム監視装置から交換後のシステム監視装置にシステム状態情報を引き渡し、システムを停止することなくシステム監視装置を活性交換することができ、コンピュータシステムの信頼性と安定性を更に向上できる。
システム監視装置が故障してから活性交換により再起動される活性交換止中に発生したシステム状態情報については、復元した退避情報から既に動作しているハードウェアを認識して割込みマスクを再度開けることによって、停止中の割込みを再度受信し、交換中の状態変化を復元できる。
また停止中のOSソフトウェアからのハード制御指示に対しても、復元した退避情報から既に動作しているOSソフトウェアを認識してそのシステム監視装置オフライン解除通知を行うことによって、停止中に発生したOSソフトウェアからのハード制御指示を再度受信してOSソフトウェア状態情報を復元できる。
またシステム監視装置を2重化したコンピュータシステムについても、システム監視装置の2重故障が発生した際に、2重化したシステム監視装置をシステムを停止することなく活性交換することができる。
更に、システム監視装置のリブートを必要とするファームウェアの更新処理についても、システムの停止することなくシステム状態情報の継続性を確保した更新処理を行うことができる。
本発明の一実施形態によるシステム監視装置を備えたコンピュータシステムの説明図 図1のシステム監視装置の機能構成をシステム構成と共に示したブロック図 図2のシステム監視装置のハードウェア環境のブロック図 図2のシステム監視装置による監視処理のフローチャート 図4のステップS2におけるシステム情報復元処理のフローチャート 本発明の一実施形態によるシステム監視装置を2重化したコンピュータシステムの説明図 本発明の一実施形態によるシステム監視装置の機能構成をシステム構成と共に示したブロック図 図7のシステム監視装置によるプライマリ側監視処理のフローチャート 図8のステップS2におけるプライマリ側システム情報復元処理のフローチャート 図7のシステム監視装置によるセカンダリ側監視処理のフローチャート 図10のステップS2におけるセカンダリ側システム情報復元処理のフローチャート
図1は本発明の一実施形態によるシステム監視装置を備えた、サーバなどとして使用されるコンピュータシステムの説明図である。
図1において、コンピュータシステムの処理装置本体10には例えば4枚のシステムボード12−1〜12−4が設けられている。システムボード12−1〜12−4は、例えばシステムボード12−1を例にとると、4台のCPU14−1〜14−4、2台のメモリ16−1,16−2、及びソフトウェアによる外部の入出力指示に使用されるコマンドレジスタ18−1が設けられている。
このシステムボード12−1の構成は他のシステムボード12−2〜12−4についても同様であり、それぞれ4台のCPU、2台のメモリ、1台のコマンドレジスタを設けている。システムボード12−1〜12−4はクロスバ型システムバス15により相互接続されている。
また処理装置本体10には、電源装置20−1〜20−6、ファントレイ22−1〜22−6、電源プラグ24−1〜24−3が設けられている。
このようなコンピュータシステムを構成する処理装置本体10に対し、システム監視装置25が設けられる。システム監視装置25は通常、システム・コントロール・ファシリティ(SCF:System Control Facility)として知られており、1枚のボードに実装されて処理装置本体10に交換自在に装着されている。
システム監視装置25には監視制御部26、復元処理部27及び情報保持部48が設けられている。監視制御部26は、処理装置本体10で構築されるユーザ設定情報、ハードウェア状態情報及びOSソフトウェアによるハードウェア制御指示であるOSソフトウェア状態情報を含むシステム状態情報を保持し、コンピュータシステムの全体の監視制御を行っている。
監視制御部26の監視制御に使用するシステム状態情報は、メモリ上に展開した情報保持部48に記憶されている。情報保持部48が展開されたメモリは揮発性メモリであり、システム監視装置25が故障などにより停止すると、情報保持部48のシステム情報は失われることになる。
システム監視装置25に対してはオペレータパネル28が設けられ、オペレータパネル28には不揮発メモリとしてEEPROM30−1が設けられている。通常のシステム監視装置25にあっては、ユーザ管理情報についてはオペレータパネル28のEEPROM30−1に保持し、システム監視装置25の故障停止が生じてもユーザ設定情報が失われないようにしている。
しかしながら、システム監視装置25の動作中に得られたハードウェア状態情報及びOSソフトウェア状態情報については、情報保持部48の記憶では装置故障による停止時に失われることから、本実施形態にあっては、システム監視装置25に対し更に不揮発メモリとしてSRAM32を設け、ここに退避情報記憶領域34を配置している。
SRAM32の退避情報記憶領域34には、システム監視装置25で維持管理している情報、即ちハードウェア状態情報やOSソフトウェア状態情報が記憶され、これら状態情報に変更があった場合には変更された情報が記憶される。このた、万一システム監視装置25が故障停止した際にも、ハードウェア状態情報及びOSソフトウェア状態情報を保存できるようにしている。
システム監視装置25に設けた復元処理部27は、システム監視装置25が故障し、活性交換を行った後のシステム監視装置25の起動時に動作し、オペレータパネル28に設けているEEPROM30−1からユーザ設定情報を読み出して、活性交換されたシステム監視装置上の情報保持部に復元すると共に、SRAM32の退避情報記憶領域34から退避情報を読み込んでメモリ上に展開することで、活性交換前のシステム監視装置25の状態情報をそのまま活性交換した後のシステム監視装置25に引き渡し、故障停止に伴う活性交換におけるハードウェア状態情報及びOSソフトウェア状態情報の継続性を維持する。
更に復元処理部27にあっては、システム監視装置25が停止してから活性交換により起動するまでの活性交換期間中に発生したハードウェア状態情報及びOSソフトウェア状態情報を復元する処理機能も備える。活性交換期間中に発生した状態情報は、退避情報記憶領域34に記憶されるものである。
この復元処理部27の機能によって、システム監視装置25が故障して活性交換した際に、交換後のシステム監視装置25に活性交換前のシステム監視制御装置25で保持していたシステム状態情報及び活性交換中に発生したシステム状態情報を復元して、活性交換後のシステム監視装置25による正確なシステム状態情報の保持に基づく監視制御を継続させることができる。
ここで処理装置本体10は、4枚のシステムボード12−1〜12−4を設けた場合を例にとっているが、例えば最大構成としてシステムボードを32台まで拡張することができ、この場合のCPU構成は128台となる。また、クロスバ型システムバス15は超高速システムバスとして機能し、例えば最大133GB/sのスループットを提供することができる。
また処理装置本体10で動作するOSソフトウェアは、1または複数のシステムボード12−1〜12−4の組合せで構成されるパーティション単位に動作させることができる。本実施形態にあっては、システムボード12−1,12−2でパーティション38−1を形成し、システムボード12−3,12−4でパーティション38−2を形成している。
パーティション38−1,38−2の形成情報はユーザ設定情報としてシステム監視装置25が保持しており、オペレータパネル28による処理装置本体10の起動時に、パーティション設定情報に基づき図示のようにパーティション38−1,38−2を個別に構築し、パーティション38−1,38−2のそれぞれで独立したブートアップ処理を実行してメモリ上に別々のOSソフトウェアを展開し、それぞれCPUにより実行することになる。
処理装置本体10におけるパーティションの構築は基本的にはシステムボード単位に行うものであるが、これ以外に1枚のシステムボードを分離して複数のパーティションを構築することができる。例えばシステムボード12−1につき、2台のCPUを単位として2つのパーティションに分離することができる。
このようにパーティション38−1,38−2で決まるOSソフトウェアに対応し、システム監視装置25は、パーティション38−1のOSソフトウェアについては、システムボード12−1のコマンドレジスタ18−1を使用してOSソフトウェアからのハードウェア制御指示としてのOSソフトウェア状態情報を受信して管理する。またパーティション38−2については、システムボード12−3のコマンドレジスタ18−3を使用して、同様に別のOSソフトウェアからのハードウェア制御指示となるOSソフトウェア状態情報を受信して保持する。
一方、システムボード12−1〜12−4に実装しているCPU、メモリ、更には図示しないI/Oデバイス(例えばPCIスロット)からのハードウェア状態情報については、各ハードウェアで状態変化を検出した際に出力されるハードウェア割込信号を受信して、ハードウェア状態情報を保持するようになる。
保守端末装置36はシステム監視装置25にシリアルポート35を使用して必要な際に接続され、システム監視装置25の起動や、システム監視装置25に設けているファームウェアのアップデートを行う。またシステム監視装置25が故障して新たなシステム監視装置25に活性交換した際にも、活性交換後のシステム監視装置25にシリアルポート35により保守端末装置36を接続し、保守端末装置36から活性交換したシステム監視装置25の起動を行って、復元処理部27による交換前及び交換中のシステム情報の復元処理を実行させることになる。
図2は、図1のシステム監視装置25の機能構成を処理装置本体10側のシステム構成と共に示したブロック図である。図2において、処理装置本体10については説明を簡単にするため1枚のシステムボード12のみを示しており、システムボード12にはCPU、メモリ、I/Oデバイスなどのコンポーネントにより実現されるハードウェア60と、図1に示したパーティション単位で実行されるOSソフトウェア56が設けられている。
システム監視装置25に設けられた復元処理部27には、情報退避部40、退避情報復元部42、ソフトウェア情報復元部44、ハードウェア情報復元部46の機能が設けられている。また情報保持部48には、ユーザ設定情報50、OSソフトウェア状態情報52及びハードウェア状態情報54が保持されている。なお図1の監視制御部26については、その機能は図2では図示を省略している。
システム監視装置25に対しては、EEPROMを使用したユーザ情報保存領域30と、SRAMを使用した退避情報記憶領域34が設けられている。更にシステム監視装置25に対しては、シリアルポート35を使用して必要に応じて保守用端末装置36を接続することができる。
システム監視装置25の情報退避部40は、OSソフトウェア56の動作中に生じたハードウェア制御指示であるOSソフトウェア状態情報をオンライン通知により受けた際に、変化のあったOSソフトウェア状態情報を情報保持部48に保持すると同時に、退避情報記憶領域34に記憶する。
また情報退避部40は、ハードウェア60からハードウェア状態情報をハードウェア割込みにより受信した際に、情報保持部48にハードウェア状態情報を記憶すると同時に、退避情報記憶領域34に記憶する。
このためシステム監視装置25にあっては、装置自身が管理しているシステム状態情報に変更があった場合には、情報保持部48に保持すると同時に退避情報記憶領域34に記憶して退避することで、システム監視装置25が故障停止して情報保持部48の保持情報が失われても、OSソフトウェア状態情報及びハードウェア状態情報についても、退避情報記憶領域34の退避で保存できるようにしている。
退避情報復元部42は、シリアルポート35に保守用端末装置36を接続して活性交換後のシステム監視装置25を起動した際に動作し、ユーザ設定情報保存領域30からユーザ設定情報を読み出して情報保持部48を配置しているメモリ上にユーザ設定情報50として展開すると共に、退避情報記憶領域34から退避しているOSソフトウェア状態情報52及びハードウェア状態情報54を、情報保持部48を構成するメモリ上に展開して復元している。
ハードウェア情報復元部44は、保守用端末装置36により起動した活性交換後のシステム監視装置25の退避情報復元部42によるユーザ設定情報の復元に続いて動作し、情報保持部48に復元されたハードウェア状態情報52から、既に動作していたハードウェアを認識し、認識したハードウェアについて装置故障から活性交換により起動するまでのシステム監視装置25の停止中に発生したハードウェア状態情報を復元する。
装置停止中に発生したハードウェア状態情報の復元は、具体的にはハードウェア60のハードウェア割込マスク62の解除制御を行うことによって、解除された割込マスクに対応したハードウェアが再度ハードウェア割込みを発生することで、ハードウェア状態情報を復元することができる。
即ちシステム監視装置25が故障停止すると、ハードウェア60のハードウェア割込回路部においてハードウェア割込みのマスク処理が行われ、ハードウェア60がハードウェア状態情報を割込み出力しても、エラーとなって割込みができない状態となっている。従って、活性交換したシステム監視装置25側からハードウェア割込マスク62を解除することで、対応するハードウェアが再度ハードウェア割込みを発生し、これに基づきシステム監視装置25の活性交換に伴う装置停止中に発生したハードウェア状態情報を復元することができる。
ソフトウェア情報復元部46はハードウェア情報復元部44に続いて動作し、退避情報復元部42により情報保持部48に復元された交換前のシステム監視装置25が保持していたOSソフトウェア状態情報54に基づき、既に動作していたOSソフトウェアを認識し、認識したOSソフトウェアについてシステム監視装置25の故障から活性交換による起動までの装置停止中に発生したOSソフトウェア56からのハードウェア制御指示であるOSソフトウェア状態情報を取得して復元する。
このシステム監視装置25の停止中に生じたOSソフトウェア状態情報の取得は、システム監視装置25からOSソフトウェア56に設けている監視装置オフラインレジスタ58に対しオフライン解除通知を行うことで取得して復元することができる。
即ちシステム監視装置25が故障停止すると、それまでのOSソフトウェア56とのオンライン接続が解除されてオフライン状態となり、OSソフトウェア56で発生したOSソフトウェア状態情報、即ちハードウェア制御指示は監視装置オフラインレジスタ58に格納されている。
このため、システム監視装置25が活性交換後に起動した場合、OSソフトウェア56の監視装置オフラインレジスタ58にオフライン解除通知を行うことで、監視装置オフラインレジスタ58に保持していたハードウェア制御指示となるOSソフトウェア状態情報をシステム監視装置25が再度受信して復元することができる。
ここで、システム監視装置25の情報保持部48に保持されるユーザ設定情報50、ハードウェア状態情報52、OSソフトウェア状態情報54としては、例えば次のようなものがある。
まずユーザ設定情報50としては、システム全体、パーティション及びシステムボードに分けることができ、それぞれ次の情報を持つ。
まずシステム全体については
(1)システム名
(2)空調投入待ち時間
(3)暖気待ち時間
(4)装置のコードを格納するコード設定
(5)システム監視装置25のIPアドレス
(6)自動運転のためのスケジュールに用いるカレンダー情報
(7)処理装置本体の部分または全体となる縮退モードの指定
(8)停電から復電したときの動作を指定する復電モード
などがある。
またパーティションについてのユーザ設定情報としては次のものがある。
(1)顧客が購入したIDであるホストID
(2)パーティションで使用するLAN設定情報
(3)電源制御コマンドの送受信を可能とする設定である遠隔電源制御モード
(4)診断方法を決定する診断レベル
(5)ブートデバイスの指定などパーティション起動に必要な環境変数であるOBP環境変数
更にシステムボードに関連するユーザ設定情報としては次のものがある。
(1)次回起動時に動作するパーティション番号の指定
(2)システムボードを論理的に分割する場合に設定する分割モード
(3)メモリをミラーモードで使用する場合に設定するメモリミラーモード
(4)メモリをインタリーブモードで使用する場合に設定するインタリーブモード
次に退避情報記憶領域34に記憶する退避情報としては、システム全体、パーティション、システムボード、CPUに分けることができ、それぞれ次のような退避情報となる。
(1)システム全体については、停電時に動作していたパーティションを記録する停電情報
(2)パーティションについては、停止,ブート中,OSランニング中などの状態を示すパーティション情報
(3)システムボードについては、
A.動的構成変更の状態を記録するTRステータス
B.メモリの部分縮退している情報を記憶するメモリ縮退情報
C.システムボード上にある各LSIの縮退状態を記憶したLSI縮退情報
D.PCIスロットの縮退状態を記憶したPCI縮退情報
がある。
(4)CPUの退避情報としては
A.各CPUの縮退情報を記憶したCPU縮退情報
B.CPUのキャッシュの縮退情報を記憶したキャッシュ縮退情報
がある。
またシステム監視装置25に対するハードウェア60からのハードウェア割込みとしては次のものがある。
(1)システムボードからのハードウェア割込みとしては
A.温度異常、キャッシュ異常、その他のCPUからの割込み
B.1ビット異常、2ビット異常、その他のメモリコントローラからの割込み
C.CPU間の経路異常などのシステムコントローラからの割込み
(2)パリティエラーなどのクロスバー型システムバス15を実装したクロスバーボードからの割込み
(3)電源異常や環境温度異常などの電源割込み
(4)回転異常などのファン割込み
がある。
更に、OSソフトウェア56からのハードウェア制御指示即ちOSソフトウェア状態情報としては、
(1)各種のハードウェアコンポーネントに対する状態通知
(2)パーティション電源制御指示
(3)OBP環境変数の読出しと保存
(4)動的構成変更指示
などがある。
図3は図2のシステム監視装置25のハードウェア環境のブロック図である。図3において、本実施形態におけるシステム監視装置25はCPU64を備え、CPU64のバス66に、RAM68、ROM70、ハードディスクドライブ72、ネットワークアダプタ74を接続している。
ハードディスクドライブ72には、システム制御装置の監視制御を行うためのプログラムもしくはファームウェアがインストールされており、ネットワークアダプタ74を介してシリアルポートに接続した保守用端末装置36からの指示で起動して、ブート処理を経て、RAM68にハードディスクドライブ72からOSを展開し、更にシステム制御用のプログラムを展開し、CPU64により実行する。
なお図3のシステム制御装置にあっては、ハードディスクドライブ72を備えているが、ハードディスクドライブ72を持たず、ROM70にOS及びアプリケーションとしてのシステム制御プログラムを記憶し、RAM68に展開して実行するようにしてもよい。
次に図1の処理装置本体10でシステム運用中にシステム監視装置25が故障した場合の活性交換の手順を説明すると次のようになる。
(1)システム監視装置25に故障が発生して停止すると、ハードウェア60からの割込みに対しシステム監視装置25が応答せず、ハードウェア割込マスク62が設定される。またOSソフトウェア56は、それまでのオンラインからオフラインとなり、ハードウェア制御指示については監視装置オフラインレジスタ58に保存される。
(2)システム監視装置25の故障通知を受けた保守担当者が到着して、故障したシステム監視装置25をシステム停止を行うことなく交換する。
(3)交換したシステム監視装置25のシリアルポート35に保守用端末装置36を接続して、システム監視装置25を起動する。
(4)起動したシステム監視装置25でユーザ設定情報、ハードウェア状態情報及びOSソフトウェア状態情報の故障前及び故障中の情報についての復元処理が行われ、復元が終了してシステム監視装置25が動作状態になると、保守用端末装置36に交換作業の終了通知が表示される。
図4は、図2の処理装置本体10の動作中にシステム監視装置25が故障停止し、別のシステム監視装置25に活性交換した後に、シリアルポート35を介して保守用端末装置36を接続してシステム監視装置25を起動した際の監視処理のフローチャートである。
図4において、保守用端末装置36により活性交換されたシステム監視装置25が起動すると、ステップS1で初期化処理を実行した後、ステップS2でシステム情報復元処理を実行する。システム情報復元処理が正常に終了すると、ステップS3に進み、システム状態情報に変化があるか否か監視しており、ステップS4で、変化があれば退避情報記憶領域34に変化のあったシステム状態情報を記憶する。
更にステップS5で保守用端末装置36からファームウェアの更新処理があったか否かチェックしており、ファームウェア更新処理があった場合には、ステップS6で更新終了のリセットと、その後のスタートが自動的に行われることから、これを受けてステップS1からの処理を繰り返すことになる。
図5は図4のステップS2におけるシステム情報復元処理のフローチャートである。図5において、システム情報復元処理は、ステップS1でユーザ設定情報保存領域30に保存しているユーザ設定情報を読み出して情報保持部48に保持する。続いて、ステップS2で活性交換またはファームウェア更新リセットによる起動か否かチェックし、活性交換による起動時には、ステップS3に進み、退避情報記憶領域34から退避情報を、情報保持部48を構成するメモリ上にハードウェア状態情報52及びソフトウェア状態情報54のように展開する。
次にステップS4でシステムボードのCPU、メモリ、IOデバイスなどのコンポーネントごとにハードウェアを選択し、ステップS3で展開した退避情報から既に動作していたハードウェアか否かを判定する。ステップS6で動作中のハードウェアであることが判別されると、ステップS7で判別したハードウェアの割込マスクを解除し、ハードウェア状態情報を取得して保持する。このステップS4〜S7の処理を、ステップS8で全てのハードウェアについての処理が終了するまで繰り返す。
続いてステップS9でパーティション単位にOSソフトウェアを選択し、ステップS10で読み出した退避情報から既に動作していたOSソフトウェアか否か判定する。ステップS11で動作中のOSソフトウェアであることを判定した場合には、ステップS12に進み、判定したOSソフトウェアのパーティションのシステムボード上のコマンドレジスタに割り当てた監視装置オフラインレジスタを解除して、ハードウェア制御指示となるOSソフトウェア状態情報を再受信して取得する。
続いてステップS13で全てのOSソフトウェアの処理済みか否かチェックし、全ての処理が済むまでステップS9からの処理を繰り返す。このような一連の復元処理が終了すると、ステップS14で保守用端末装置36に対し活性交換の終了を通知して、ステップS4のメインルーチンにリターンする。
次に図2のシステム監視装置25に対するファームウェアの更新処理を説明する。処理装置本体10に設けたシステム監視装置25のファームウェアを、保守用端末装置36を外部接続して更新する場合には、処理装置本体10を停止することなくファームウェアの更新を行い、ファームウェアの更新完了でシステム監視装置25をリセットスタートすることになる。
このファームウェア更新後のシステム監視装置25のリセットスタートに伴い、システム監視装置25が一旦停止することから、情報保持部48のユーザ設定情報50、ハードウェア状態情報52及びOSソフトウェア状態情報54が失われる。
そこで本実施形態にあっては、ファームウェア更新後のリセットスタートの際にもシステム監視装置25の故障停止に伴う活性交換時と同様、復元処理部27の処理動作により、ファームウェア更新開始前のシステム状態情報、ファームウェア更新中のシステム状態情報を復元するようにしている。
このシステム監視装置25のファームウェア更新のための作業手順は次のようになる。
(1)システム監視装置25のシリアルポート35に保守用端末装置36を接続し、システム監視装置25に新しい版数のファームウェアを書き込む。
(2)システム監視装置25をリセットした後に起動する。
(3)システム監視装置25の起動に伴い、ユーザ設定情報、ハードウェア状態情報及びOSソフトウェア状態情報の復元処理が行われ、復元が完了して正常な動作状態になると、保守用端末装置36にファームウェアの更新終了が表示される。
このようなシステム監視装置25におけるファームウェア更新処理に伴う処理は、図4のステップS5,S6及び図5のシステム情報復元処理におけるファームウェア更新に伴う起動時の処理となる。
図6は本実施形態のシステム監視装置を2重化したコンピュータシステムの説明図である。図6において、処理装置本体10にはシステム監視装置25−1とシステム監視装置25−2が設けられ、例えばシステム監視装置25−1をプライマリ、システム監視装置25−2をセカンダリとして、同じ処理装置本体10を対象に、システム全体の監視制御に必要なユーザ設定情報、ハードウェア状態情報及びOS状態情報につき同期を取りながら保持している。
プライマリ側のシステム監視装置25−1が故障した場合はセカンダリ側のシステム制御装置25−2に処理を移し、またセカンダリ側のシステム制御装置25−2が故障した場合にはプライマリ側のシステム制御装置15−2の制御を維持し、故障した側を活性交換することでシステム監視機能を継続することができる。
しかしながら、システム監視装置25−1,25−2の両方が同時に故障停止した場合には、両方について交換が必要であり、本実施形態にあっては、2台のシステム監視装置25−1,25−2の交換を、処理装置本体10によるシステムを停止することなく活性交換可能としている。
システム監視装置25−1には、監視制御部26、復元処理部27及び情報保持部48が設けられ、同じ機能がシステム監視装置25−2にも設けられている。オペレータパネル28にはユーザ設定情報を保存するEEPROM30−1が設けられ、またSRAM32にはハードウェア状態情報及びOSソフトウェア状態情報を退避する退避情報記憶領域35が設けられている。
システム監視装置25−1,25−2は、それぞれシリアルポート35−1,35−2を有し、必要に応じていずれか一方に保守用端末装置36を接続して、活性保守後の起動やファームウェアの更新を可能としている。
図7は図6の2重化したシステム監視装置の機能構成をシステム構成と共に示したブロック図である。
図7において、処理装置本体10のシステムボード12に対し設けたシステム監視装置25−1,25−2は、システム監視装置25−1をプライマリ側、システム監視装置25−2をセカンダリ側とした場合の機能構成を示している。
プライマリ側のシステム監視装置25-1にあっては、図2に示したシステム監視装置25が単独の場合と同様に、情報退避部40、退避情報復元部42、ソフトウェア情報復元部44、ハードウェア情報復元部46が設けられており、情報保持部48−2にはユーザ設定情報50、ハードウェア状態情報52及びOSソフトウェア状態情報54が保持されている。
一方、セカンダリ側となるシステム監視装置25−2にはコピー復元部78と情報保持部48−2が設けられている。なお、プライマリ側のシステム制御装置25−1の故障時には、情報退避部40、退避情報復元部42、ソフトウェア情報復元部44、ハードウェア情報復元部46の機能がセカンダリ側のシステム制御装置25−2に構築される。
2重化した場合のプライマリ側のシステム監視装置25−1は、システムボード12におけるOSソフトウェア56からのハードウェア制御指示としてのOSソフトウェア状態情報の変化、及びハードウェア60からのハードウェア割込みによるハードウェア状態情報の変化を受けた際に、情報保持部48−1に保持すると同時に、退避情報記憶領域34に記憶している。
またシステム監視装置の情報退避部40にあっては、退避情報記憶領域34に記憶すると同時に、同期をとるためにセカンダリ側のシステム監視装置25−2に、変化のあったハードウェア状態情報及びOSソフトウェア状態情報を通知して、情報保持部48−2に保持させ同期化している。
一方、システム監視装置25−1,25−2の両方が故障した場合の活性保守の作業手順は次のようになる。
(1)システム監視装置25−1,25−2が故障停止すると、ハードウェア60からのハードウェア割込みに応答せずにハードウェア割込マスク62が設定され、OSソフトウェア56はオフラインとなり、OSソフトウェア56のハードウェア制御指示は監視装置オフラインレジスタ58に格納される。
(2)保守担当者が到着し、故障した2台のシステム監視装置25−1,25−2を、処理装置本体10を停止することなく交換する。
(3)プライマリ側のシステム監視装置25−1のシリアルポート35−1に保守用端末装置36を接続して起動する。
(4)プライマリ側のシステム監視装置25−1の起動で退避情報が復元されて正常に起動すると、交換終了が保守用端末装置36に表示される。
(5)続いてセカンダリ側のシステム監視装置25−2のシリアルポート35−2に保守用端末装置36を接続して起動する。
(6)セカンダリ側のシステム監視装置25−2が起動し、そのコピー復元部78により、既に正常に起動したプライマリ側のシステム監視装置25−1の情報保持部48−1からユーザ設定情報50、ハードウェア状態情報52及びOSソフトウェア状態情報54を読み出して情報保持部48−2にコピーすることで復元し、復元が完了すると保守用端末装置36にシステム監視装置25−2の交換終了が表示される。
図8は図7の2重化したシステム監視装置25−1,25−2を故障により活性交換した後の、プライマリ側のシステム監視装置25−1の保守用端末装置36による起動に伴うプライマリ監視処理のフローチャートである。
このプライマリ監視処理にあっては、プライマリ側のシステム監視装置25−1の起動で、まずステップS1の初期化処理が実行され、続いてステップS2でプライマリ側システム情報復元処理が行われ、復元終了で監視制御が開始される。
続いてステップS3で監視制御中にシステム状態情報に変化があるか否かチェックしており、変化があれば、ステップS4でセカンダリ側のシステム監視装置25−2に通知して同期化した後、ステップS5で退避情報記憶領域34に記憶する。
続いてステップS6で保守用端末装置36からのファームウェア更新終了処理があったか否かチェックしており、なければステップS2からの処理を繰り返している。ステップS6で保守用端末装置36によるファームウェアの更新処理が判別されると、ステップS7で更新終了に伴うリセット処理が行われ、このリセット後の保守用端末装置36による起動でステップ1からの処理が繰り返される。
図9は図8のステップS2のプライマリ側システム情報復元処理のフローチャートである。このプライマリ側システム情報復元処理におけるステップS1〜S14の処理は、図5に示したシステム監視装置25を1台設けた場合の処理と全く同じである。
図10は処理装置本体10によるシステム動作中に、保守用端末装置36の接続でセカンダリ側のシステム監視装置25−2を起動した場合のセカンダリ監視処理のフローチャートである。
このセカンダリ監視処理にあっては、保守用端末装置36からの起動指示で起動した後、ステップS1で初期化処理を実行し、ステップS2でセカンダリ側システム情報復元処理を実行する。続いてステップS3でプライマリ側からのシステム情報の変化通知の有無をチェックしており、通知があれば、ステップS4で通知のあったシステム状態情報を保持する。
またステップS5で保守用端末装置36からのファームウェアの更新処理の有無をチェックしており、ファームウェア更新処理があると、ステップS6で更新終了に伴いリセット処理を行い、動作を停止し、その後、保守用端末装置36からの起動でステップS1からの処理を再び開始することになる。
図11は図10のステップS2のセカンダリ側システム情報復元処理のフローチャートである。図11において、セカンダリ側システム情報復元処理は、ステップS1でプライマリ側の復元情報をコピーして保持し、ステップS2で保守用端末装置に活性交換終了またはファームウェアの更新終了を通知して表示させる。
また本発明はシステム監視装置で実行されるプログラムを提供するものであり、このプログラムは単独のシステム監視装置を設けた場合には図4及び図5のフローチャートの内容であり、また2重化したシステム監視装置25−1,25−2を設けた場合には図8〜図11のフローチャートに示した内容を持つことになる。
なお本発明は上記の実施形態に限定されず、その目的と利点を損なうことのない適宜の変形を含む。更に本発明は上記の実施形態に示した数値による限定は受けない。
10:処理装置本体
12:システムボード
14,64:CPU
15:クロスバ型システムバス
16:メモリ
18:コマンドレジスタ
20:電源装置
22:ファントレイ
24:電源プラグ
25:システム監視装置
26:監視制御部
27:復元処理部
28:オペレータパネル
30:EEPROM(ユーザ情報保存領域)
32:SRAM
34:退避情報記憶領域
35:シリアルポート
36:保守端末装置
38:パーティション
40:情報退避部
42:退避情報復元部
44:ソフトウェア情報復元部
46:ハードウェア情報復元部
48:情報保持部
50:ユーザ設定情報
52:OSソフトウェア状態情報
54:ハードウェア状態情報
56:OSソフトウェア
58:オフラインレジスタ
60:ハードウェア
62:ハードウェア割込マスク
66:バス
68:RAM
70:ROM
72:ハードディスクドライブ
74:ネットワークアダプタ

Claims (8)

  1. コンピュータシステムのハードウェアの状態を示すハードウェア状態情報及びOSソフトウェアによるハードウェア制御指示のOSソフトウェア状態情報を保持して前記コンピュータシステム全体を監視制御するシステム監視装置の制御方法に於いて、
    前記ハードウェア状態情報あるいはOSソフトウェア状態情報の状態変化を認識した際に、状態変化したハードウェア状態情報あるいはOSソフトウェア状態情報を、前記システム監視装置に記憶すると共に、退避情報として不揮発メモリに記億するシステム情報退避ステップと、
    故障したシステム監視装置の活性交換に伴う再起動を認識した際に、前記不揮発メモリから退避情報を読み出して、対応するシステム監視装置故障前に発生したハードウェア状態情報及びOSソフトウェア状態情報を、交換した後のシステム監視装置に復元する退避情報復元ステップと、
    前記復元されたハードウェア状態情報を参照して動作中のハードウェアを認識し、システム監視装置の活性交換中に発生した、認識したハードウェアのハードウェア状態情報を復元するハードウェア状態情報復元ステップと、
    前記復元されたOSソフトウェア状態情報を参照して動作中のOSソフトウェアを認識し、システム監視装置の活性交換中に発生した、認識したOSソフトウェアのOSソフトウェア状態情報を復元するソフトウェア状態情報復元ステップと、
    を備えたことを特徴とするシステム監視装置の制御方法。
  2. コンピュータシステムのハードウェアの状態を示すハードウェア状態情報及びOSソフトウェアによるハードウェア制御指示のOSソフトウェア状態情報を保持して前記コンピュータシステム全体を監視制御するシステム監視装置のコンピュータに、
    前記システム情報の内、前記ハードウェア状態情報あるいはOSソフトウェア状態情報の状態変化を認識した際に、状態変化したハードウェア状態情報あるいはOSソフトウェア状態情報を、前記システム監視装置に記憶すると共に、退避情報として不揮発メモリに記憶するシステム情報退避ステップと、
    故障したプログラムの活性交換に伴う再起動を認識した際に、前記不揮発メモリから退避情報を読み出して、対応するシステム監視装置故障前に発生したハードウェア状態情報及びOSソフトウェア状態情報を、交換した後のシステム監視装置に復元する退避情報復元ステップと、
    前記復元されたハードウェア状態情報を参照して動作中のハードウェアを認識し、システム監視装置の活性交換中に発生した、認識したハードウェアのハードウェア状態情報を復元するハードウェア状態情報復元ステップと、
    前記復元されたOSソフトウェア状態情報を参照して動作中のOSソフトウェアを認識し、システム監視装置の活性交換中に発生した、認識したOSソフトウェアのOSソフトウェア状態情報を復元するソフトウェア状態情報復元ステップと、
    を実行させることを特徴とするプログラム。
  3. コンピュータシステムに於いて、
    前記コンピュータシステムのハードウェア状態を示すハードウェア状態情報及びOSソフトウェアによるハードウェア制御指示のOSソフトウェア状態情報を保持して前記コンピュータシステム全体を監視制御するシステム監視装置を設け、
    前記システム監視装置は、
    前記ハードウェア状態情報あるいはOSソフトウェア状態情報の状態変化を認識した際に、状態変化したハードウェア状態情報あるいはOSソフトウェア状態情報を、前記システム監視装置に記憶すると共に退避情報として不揮発メモリに記憶するシステム情報退避部と、
    故障したシステム監視装置の活性交換に伴う再起動を認識した際に、前記不揮発メモリから退避情報を読み出して、対応するシステム監視装置故障前に発生したハードウェア状態情報及びOSソフトウェア状態情報を、交換した後のシステム監視装置に復元する退避情報復元部と、
    前記復元されたハードウェア状態情報を参照して動作中のハードウェアを認識し、前記システム監視装置の活性交換中に発生した、認識したハードウェアのハードウェア状態情報を復元するハードウェア状態情報復元部と、
    前記復元されたOSソフトウェア状態情報を参照して動作中のOSソフトウェアを認識し、前記システム監視装置の活性交換中に発生した、認識したOSソフトウェアのOSソフトウェア状態情報を復元するソフトウェア状態情報復元部と、
    を備えたことを特徴とするコンピュータシステム。
  4. コンピュータシステムのハードウェア状態情報及びOSソフトウェアによるハードウェア制御指示のOSソフトウェア状態情報を保持して前記コンピュータシステム全体を監視制御するシステム監視装置を2台配置して2重化したシステム監視装置の制御方法に於いて、
    前記ハードウェア状態情報及びOSソフトウェア状態情報の状態変化を認識した際に、状態変化したハードウェア状態情報及びOSソフトウェア状態情報を前記システム監視装置に記憶すると共に、退避情報として不揮発メモリに記憶するシステム情報退避ステップと、
    前記2台のシステム監視装置の同時故障に伴う活性交換を行った際、前記2台のシステム監視装置のうち先行して再起動した先行装置の再起動を認識した際に、前記不揮発メモリから退避情報を読み出して、対応するシステム監視装置故障前に発生したハードウェア状態情報及びOSソフトウェア状態情報を先行装置に復元する退避情報復元ステップと、
    前記復元されたハードウェア状態情報から動作中のハードウェアを認識し,認識したハードウェアについてシステム監視装置の活性交換中に発生したハードウェア状態情報を復元するハードウェア状態情報復元ステップと、
    前記復元されたOSソフトウェア状態情報から動作中のOSソフトウェアを認識し、認識したOSソフトウェアについて前記システム監視装置の活性交換中に発生したOSソフトウェア状態情報を復元するソフトウェア状態情報復元ステップと、
    前記2台のシステム監視装置のうち後続して再起動した後続装置の再起動を認識した際に、前記先行装置が保持しているシステム情報を後続装置にコピーして復元するコピー復元ステップと、
    を備えたことを特徴とするシステム監視装置の制御方法。
  5. コンピュータシステムのハードウェア状態情報及びOSソフトウェアによるハードウェア制御指示のOSソフトウェア状態情報を含むシステム情報を保持して前記コンピュータシステム全体を監視制御する2重化したシステム監視装置のコンピュータに、
    前記ハードウェア状態情報及びOSソフトウェア状態情報の状態変化を認識した際に、状態変化したハードウェア状態情報及びOSソフトウェア状態情報を前記システム監視装置に記憶すると共に、退避情報として不揮発メモリに記憶するシステム情報退避ステップと、
    2台のシステム監視装置の同時故障に伴う活性交換を行った際、前記2台のシステム監視装置のうち先行して再起動した先行装置の再起動を認識した際に、不揮発メモリから退避情報を読み出して、対応するシステム監視装置故障前に発生したハードウェア状態情報及びOSソフトウェア状態情報を先行装置に復元する退避情報復元ステップと、
    前記復元されたハードウェア状態情報から動作中のハードウェアを認識し、認識したハードウェアについてシステム監視装置の活性交換中に発生したハードウェア状態情報を復元するハードウェア状態情報復元ステップと、
    前記復元されたOSソフトウェア状態情から動作中のOSソフトウェアを認識し、認識したOSソフトウェアについて前記システム監視装置の活性交換中に発生したOSソフトウェア状態情報を復元するソフトウェア状態情報復元ステップと、
    2台のシステム監視装置のうち後続して再起動した後続装置の再起動を認識した際に、先行装置が保持しているシステム情報を後続装置にコピーして復元するコピー復元ステップと、
    を実行させることを特徴とするプログラム。
  6. コンピュータシステムにおいて、
    前記コンピュータシステムの状態情報を保持して前記コンピュータシステムを監視制御する複数の監視装置と、不揮発性の第二の記憶部とを有し、
    前記監視装置は、
    前記状態情報を保持する第一の記憶部と、
    前記第一の記憶部に格納された状態情報を、前記第二の記憶部に記憶させる情報退避部と、
    他の監視装置に先駆けて前記監視装置が起動されたときに、前記第二の記憶部から前記状態情報を読み出し、読み出した状態情報を前記第一の記憶部に復元させる第一の復元部と、
    他の監視装置が起動した後に前記監視装置が起動したときに、前記他の監視装置が保持する状態情報をコピーして、前記第一の記憶部に復元させる第二の復元部と、を備えたことを特徴とするコンピュータシステム。
  7. 請求項1記載のシステム監視装置の制御方法において、
    前記ハードウェア状態情報復元ステップでは、前記ハードウェアのハードウェア割込マスクの解除制御を行うことにより、前記ハードウェア状態情報を復元することを特徴とする、システム監視装置の制御方法。
  8. 請求項1記載のシステム監視装置の制御方法において、
    前記ソフトウェア状態情報復元ステップでは、前記OSソフトウェアに対してオフライン解除通知を行うことで、前記ソフトウェア状態情報を復元することを特徴とする、システム監視装置の制御方法。
JP2007556715A 2006-01-31 2006-01-31 システム監視装置の制御方法、プログラム及びコンピュータシステム Expired - Fee Related JP4568764B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2006/301516 WO2007088575A1 (ja) 2006-01-31 2006-01-31 システム監視装置の制御方法、プログラム及びコンピュータシステム

Publications (2)

Publication Number Publication Date
JPWO2007088575A1 JPWO2007088575A1 (ja) 2009-06-25
JP4568764B2 true JP4568764B2 (ja) 2010-10-27

Family

ID=38327162

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007556715A Expired - Fee Related JP4568764B2 (ja) 2006-01-31 2006-01-31 システム監視装置の制御方法、プログラム及びコンピュータシステム

Country Status (5)

Country Link
US (1) US8230258B2 (ja)
EP (1) EP1980943B1 (ja)
JP (1) JP4568764B2 (ja)
DE (1) DE602006020782D1 (ja)
WO (1) WO2007088575A1 (ja)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8589534B2 (en) 2007-09-13 2013-11-19 Ricoh Company, Ltd. Device information management apparatus, device information management method, and storage medium which operates during a failure
JP5228652B2 (ja) * 2007-09-13 2013-07-03 株式会社リコー 機器情報管理装置、機器方法管理方法、および機器情報管理プログラム
JP2009259197A (ja) * 2008-03-18 2009-11-05 Ricoh Co Ltd 情報処理装置およびその起動方法
JP5332257B2 (ja) * 2008-03-26 2013-11-06 日本電気株式会社 サーバシステム、サーバ管理方法、およびそのプログラム
WO2009147716A1 (ja) * 2008-06-02 2009-12-10 富士通株式会社 データ処理システム、データ処理方法およびデータ処理プログラム
US8245214B2 (en) * 2008-06-05 2012-08-14 International Business Machines Corporation Reliably updating computer firmware while performing command and control functions on a power/thermal component in a high-availability, fault-tolerant, high-performance server
US8219794B1 (en) * 2009-11-03 2012-07-10 Network Appliance, Inc. Non-disruptive firmware upgrade of a storage shelf
JP5515766B2 (ja) 2010-01-20 2014-06-11 富士通株式会社 情報処理装置、情報処理装置のハードウェア設定方法及びそのプログラム
WO2012026035A1 (ja) * 2010-08-27 2012-03-01 富士通株式会社 障害処理方法,障害処理システム,障害処理装置及び障害処理プログラム
JP5598235B2 (ja) * 2010-10-05 2014-10-01 富士通株式会社 複合イベント処理装置および複合イベント処理方法
WO2013136462A1 (ja) * 2012-03-14 2013-09-19 富士通株式会社 監視装置,情報処理装置,監視方法,および監視プログラム
GB2504728A (en) * 2012-08-08 2014-02-12 Ibm Second failure data capture in co-operating multi-image systems
WO2014045453A1 (ja) * 2012-09-24 2014-03-27 富士通株式会社 環境変数保存方法、情報処理装置およびプログラム
JP6090335B2 (ja) * 2013-01-15 2017-03-08 富士通株式会社 情報処理装置
CN103257908A (zh) * 2013-05-24 2013-08-21 浪潮电子信息产业股份有限公司 一种软硬件协同的多控制器磁盘阵列设计方法
WO2015073009A1 (en) * 2013-11-14 2015-05-21 Hewlett-Packard Development Company, L.P. Mark cache entry
JP6307858B2 (ja) * 2013-11-29 2018-04-11 富士通株式会社 伝送装置、伝送システム、及び監視制御方法
RU2547232C1 (ru) * 2014-01-09 2015-04-10 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный технический университет" Устройство для контроля эвм
US10176033B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. Large-scale event detector
US9904543B2 (en) * 2015-10-26 2018-02-27 Hewlett-Packard Development Company, L.P. Setting a build indicator to enable or disable a feature
US9652896B1 (en) 2015-10-30 2017-05-16 Snap Inc. Image based tracking in augmented reality systems
US9984499B1 (en) 2015-11-30 2018-05-29 Snap Inc. Image and point cloud based tracking and in augmented reality systems
US10031778B2 (en) 2015-12-10 2018-07-24 Vmware, Inc. Providing fault tolerance in a virtualized computing environment through a swapping approach
US10074381B1 (en) 2017-02-20 2018-09-11 Snap Inc. Augmented reality speech balloon system
US10387730B1 (en) * 2017-04-20 2019-08-20 Snap Inc. Augmented reality typography personalization system
US10997760B2 (en) 2018-08-31 2021-05-04 Snap Inc. Augmented reality anthropomorphization system
US11972529B2 (en) 2019-02-01 2024-04-30 Snap Inc. Augmented reality system
US10942820B2 (en) * 2019-06-27 2021-03-09 EMC IP Holding Company LLC Stream level uninterrupted restore operation using an interrupt service routine approach
WO2021010039A1 (ja) * 2019-07-12 2021-01-21 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0695944A (ja) * 1992-09-14 1994-04-08 Fujitsu Ltd ファイル入替方法
JPH0916288A (ja) * 1995-06-27 1997-01-17 Nec Corp 監視制御システム
JPH09288637A (ja) * 1996-04-19 1997-11-04 Nec Corp 周辺装置の再接続方式およびインタフェース装置
JP2002333935A (ja) * 2001-03-15 2002-11-22 Hewlett Packard Co <Hp> 冗長コントローラシステムにコントローラを活線挿入する方法およびシステム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2032067A1 (en) * 1989-12-22 1991-06-23 Douglas E. Jewett Fault-tolerant computer system with online reintegration and shutdown/restart
JPH0484230A (ja) 1990-07-26 1992-03-17 Fujitsu Ltd 監視装置の活性保守方式
JPH04326843A (ja) 1991-04-26 1992-11-16 Matsushita Electric Ind Co Ltd 活性挿抜可能な装置及びその方法
US6795966B1 (en) * 1998-05-15 2004-09-21 Vmware, Inc. Mechanism for restoring, porting, replicating and checkpointing computer systems using state extraction
US6698017B1 (en) * 1999-07-16 2004-02-24 Nortel Networks Limited Software migration on an active processing element
US6601186B1 (en) * 2000-05-20 2003-07-29 Equipe Communications Corporation Independent restoration of control plane and data plane functions
JP4326843B2 (ja) 2003-06-06 2009-09-09 独立行政法人産業技術総合研究所 気孔傾斜多孔質体の作製方法
US7739403B1 (en) * 2003-10-03 2010-06-15 Juniper Networks, Inc. Synchronizing state information between control units
US7571349B2 (en) * 2006-08-18 2009-08-04 Microsoft Corporation Configuration replication for system recovery and migration
US7809985B2 (en) * 2007-09-28 2010-10-05 Microsoft Corporation Offline hardware diagnostic environment

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0695944A (ja) * 1992-09-14 1994-04-08 Fujitsu Ltd ファイル入替方法
JPH0916288A (ja) * 1995-06-27 1997-01-17 Nec Corp 監視制御システム
JPH09288637A (ja) * 1996-04-19 1997-11-04 Nec Corp 周辺装置の再接続方式およびインタフェース装置
JP2002333935A (ja) * 2001-03-15 2002-11-22 Hewlett Packard Co <Hp> 冗長コントローラシステムにコントローラを活線挿入する方法およびシステム

Also Published As

Publication number Publication date
DE602006020782D1 (de) 2011-04-28
US20080276222A1 (en) 2008-11-06
US8230258B2 (en) 2012-07-24
EP1980943A1 (en) 2008-10-15
JPWO2007088575A1 (ja) 2009-06-25
WO2007088575A1 (ja) 2007-08-09
EP1980943A4 (en) 2010-04-28
EP1980943B1 (en) 2011-03-16

Similar Documents

Publication Publication Date Title
JP4568764B2 (ja) システム監視装置の制御方法、プログラム及びコンピュータシステム
JP4870915B2 (ja) ストレージ装置
US7007192B2 (en) Information processing system, and method and program for controlling the same
JP5392594B2 (ja) 仮想計算機冗長化システム、コンピュータシステム、仮想計算機冗長化方法、及びプログラム
EP1290556A1 (en) Fast relief swapping of processors in a data processing system
US20040153738A1 (en) Redundancy management method for BIOS, data processing apparatus and storage system for using same
JP5183542B2 (ja) 計算機システム及び設定管理方法
JP2006277205A (ja) 記憶装置システムおよびその制御方法、制御プログラム
US20230129037A1 (en) Board management controller and method for starting thereof
JP3301992B2 (ja) 電源故障対策を備えたコンピュータシステム及びその動作方法
JP2007025933A (ja) ストレージシステム及びそのファームウェア自動更新方法
JP5314731B2 (ja) データ処理装置間の基本入出力プログラムの同期化方法及びコンピュータシステム
JPH10154085A (ja) 二重化された監視/制御プロセッサによるシステム監視・制御方法および二重化監視/制御プロセッサ・システム
JP2010198314A (ja) 情報管理装置
JP6911591B2 (ja) 情報処理装置、制御装置および情報処理装置の制御方法
JP2017041110A (ja) マルチコンピュータシステム,管理装置および管理プログラム
JP4165423B2 (ja) コアi/oカードを実装したシステムボード
JPWO2009066336A1 (ja) 情報処理装置及び情報処理システム並びにそれらの制御方法
JP4830698B2 (ja) 担当lun制御を用いたraid制御を行うディスクコントローラおよび診断制御方法
TWI777664B (zh) 嵌入式系統的開機方法
JP5345655B2 (ja) 基本入出力プログラムの冗長管理方法及びデータ処理装置
JP2010147803A (ja) 通信装置および通信装置起動時の運用情報復元方法
US20090313509A1 (en) Control method for information storage apparatus, information storage apparatus, program and computer readable information recording medium
JP6519266B2 (ja) 情報処理装置、デバイス、および復旧方法、並びにコンピュータ・プログラム
JP3679412B6 (ja) 故障から立直りが速い/故障に対する耐性がある計算処理

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100427

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100624

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100720

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100809

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130813

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees