JPH1021168A - コンピュータシステム及びその状態復旧方法 - Google Patents
コンピュータシステム及びその状態復旧方法Info
- Publication number
- JPH1021168A JPH1021168A JP8195665A JP19566596A JPH1021168A JP H1021168 A JPH1021168 A JP H1021168A JP 8195665 A JP8195665 A JP 8195665A JP 19566596 A JP19566596 A JP 19566596A JP H1021168 A JPH1021168 A JP H1021168A
- Authority
- JP
- Japan
- Prior art keywords
- manager
- agent
- state
- subsystem
- failure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
- Multi Processors (AREA)
- Computer And Data Communications (AREA)
Abstract
(57)【要約】 (修正有)
【課題】 エージェントまたはサブシステムの障害が復
旧した後、マネージャとエージェントが連携してマネー
ジャによる管理状態を復旧することにより、マネージャ
の負担を軽減し、かつ早急な復旧を実現する。 【解決手段】 複数のサブシステム20を接続し、各サ
ブシステム20ごとに該サブシステム20を管理するエ
ージェント21を備え、いずれかのサブシステム20に
各エージェント21を一元的に管理するマネージャ11
を備え、エージェント21は、該エージェント21を搭
載するサブシステム20に発生した障害が復旧した場合
に、該エージェント21の管理する被管理装置の障害発
生前の状態と障害復旧後の状態とを比較し、状態の異な
る箇所を検出した場合に該当箇所の状態情報をマネージ
ャ11に通知し、マネージャ11は、エージェント21
から状態情報の通知を受け取った場合に、エージェント
21の管理を状態情報の内容に応じて調整する。
旧した後、マネージャとエージェントが連携してマネー
ジャによる管理状態を復旧することにより、マネージャ
の負担を軽減し、かつ早急な復旧を実現する。 【解決手段】 複数のサブシステム20を接続し、各サ
ブシステム20ごとに該サブシステム20を管理するエ
ージェント21を備え、いずれかのサブシステム20に
各エージェント21を一元的に管理するマネージャ11
を備え、エージェント21は、該エージェント21を搭
載するサブシステム20に発生した障害が復旧した場合
に、該エージェント21の管理する被管理装置の障害発
生前の状態と障害復旧後の状態とを比較し、状態の異な
る箇所を検出した場合に該当箇所の状態情報をマネージ
ャ11に通知し、マネージャ11は、エージェント21
から状態情報の通知を受け取った場合に、エージェント
21の管理を状態情報の内容に応じて調整する。
Description
【0001】
【発明が属する技術分野】本発明は、大規模コンピュー
タシステム及びその障害発生時の状態復旧方法に関し、
特に複数のサブシステムを接続して構成されるコンピュ
ータシステム及びその障害発生時の状態復旧方法に関す
る。
タシステム及びその障害発生時の状態復旧方法に関し、
特に複数のサブシステムを接続して構成されるコンピュ
ータシステム及びその障害発生時の状態復旧方法に関す
る。
【0002】
【従来の技術】複数のサブシステムを接続して構成され
たコンピュータシステムでは、各サブシステムに当該サ
ブシステムの状態を管理するエージェントを設け、かつ
所定のサブシステムにシステム全体の状態を一元的に管
理するマネージャを設けている。そして、各エージェン
トとマネージャとを接続し、マネージャにおいて全ての
サブシステムの状態を統括的に管理している。したがっ
て、所定のサブシステムで障害が発生した場合、当該サ
ブシステムのエージェントとマネージャとの間の接続が
確保されていれば、エージェントから当該サブシステム
の状態情報が送信され、必要に応じてマネージャにおけ
る管理情報が更新されることとなる。また、当該エージ
ェントとマネージャとの接続が切断された場合には、当
該接続が復旧した後に同様の処理が行われることとな
る。
たコンピュータシステムでは、各サブシステムに当該サ
ブシステムの状態を管理するエージェントを設け、かつ
所定のサブシステムにシステム全体の状態を一元的に管
理するマネージャを設けている。そして、各エージェン
トとマネージャとを接続し、マネージャにおいて全ての
サブシステムの状態を統括的に管理している。したがっ
て、所定のサブシステムで障害が発生した場合、当該サ
ブシステムのエージェントとマネージャとの間の接続が
確保されていれば、エージェントから当該サブシステム
の状態情報が送信され、必要に応じてマネージャにおけ
る管理情報が更新されることとなる。また、当該エージ
ェントとマネージャとの接続が切断された場合には、当
該接続が復旧した後に同様の処理が行われることとな
る。
【0003】エージェントまたはエージェントを含むサ
ブシステムに障害が発生した場合、まずエージェントと
サブシステムの被管理装置との間の状態を復旧し、続い
てマネージャとエージェントとの間の状態を復旧してい
た。すなわち、エージェントが当該エージェントの管理
下の被管理装置に対して当該エージェントの記憶してい
る状態にあわせた管理操作を再発行し、これによってエ
ージェントと被管理装置の間の状態を復旧する。この
後、復旧したエージェントと被管理装置との間の状態に
関する状態情報を一括してマネージャに通知し、これに
よりマネージャとエージェントとの間の状態を復旧して
いた。
ブシステムに障害が発生した場合、まずエージェントと
サブシステムの被管理装置との間の状態を復旧し、続い
てマネージャとエージェントとの間の状態を復旧してい
た。すなわち、エージェントが当該エージェントの管理
下の被管理装置に対して当該エージェントの記憶してい
る状態にあわせた管理操作を再発行し、これによってエ
ージェントと被管理装置の間の状態を復旧する。この
後、復旧したエージェントと被管理装置との間の状態に
関する状態情報を一括してマネージャに通知し、これに
よりマネージャとエージェントとの間の状態を復旧して
いた。
【0004】上記のように、従来、マネージャとエージ
ェントとの間の状態を復旧する場合には、復旧したエー
ジェントと被管理装置との間の状態情報を全て一括して
マネージャに送信していた。そして、マネージャにおい
て受け取った状態情報を調査し、障害発生前の状態と異
なる箇所があれば、当該エージェントに関する管理情報
の対応箇所を更新していた。
ェントとの間の状態を復旧する場合には、復旧したエー
ジェントと被管理装置との間の状態情報を全て一括して
マネージャに送信していた。そして、マネージャにおい
て受け取った状態情報を調査し、障害発生前の状態と異
なる箇所があれば、当該エージェントに関する管理情報
の対応箇所を更新していた。
【0005】
【発明が解決しようとする課題】上述したように、従来
のコンピュータシステムの復旧方法では、エージェント
またはエージェントを含むサブシステムに障害が発生し
た場合、復旧作業に要するマネージャの負担が大きいと
いう欠点があった。その理由は、マネージャにおいてエ
ージェント送られた全ての状態情報を調査し、障害発生
前の状態と異なる箇所を検出していたからである。
のコンピュータシステムの復旧方法では、エージェント
またはエージェントを含むサブシステムに障害が発生し
た場合、復旧作業に要するマネージャの負担が大きいと
いう欠点があった。その理由は、マネージャにおいてエ
ージェント送られた全ての状態情報を調査し、障害発生
前の状態と異なる箇所を検出していたからである。
【0006】また、上記欠点に伴って、特に多数のエー
ジェントまたはエージェントを含むサブシステムに障害
が発生した場合、マネージャによる一元管理ができる状
態に復旧するまでに長時間を要するという欠点があっ
た。その理由は、各エージェントから送られる状態情報
の全てをマネージャが調査しなければならないからであ
る。
ジェントまたはエージェントを含むサブシステムに障害
が発生した場合、マネージャによる一元管理ができる状
態に復旧するまでに長時間を要するという欠点があっ
た。その理由は、各エージェントから送られる状態情報
の全てをマネージャが調査しなければならないからであ
る。
【0007】本発明は、上記従来の欠点を解決し、エー
ジェントまたはサブシステムの障害が復旧した後、マネ
ージャとエージェントが連携してマネージャによる管理
状態を復旧することにより、マネージャの負担を軽減
し、かつ早急な復旧を実現するコンピュータシステム及
びその状態復旧方法を提供することを目的とする。
ジェントまたはサブシステムの障害が復旧した後、マネ
ージャとエージェントが連携してマネージャによる管理
状態を復旧することにより、マネージャの負担を軽減
し、かつ早急な復旧を実現するコンピュータシステム及
びその状態復旧方法を提供することを目的とする。
【0008】
【課題を解決するための手段】上記の目的を達成するた
め、本発明は、複数のサブシステムを接続し、各サブシ
ステムごとに該サブシステムを管理するエージェントを
備え、いずれかの前記サブシステムに前記各エージェン
トを一元的に管理するマネージャを備えるコンピュータ
システムにおいて、前記エージェントは、該エージェン
トを搭載する前記サブシステムに発生した障害が復旧し
た場合に、該エージェントの管理する被管理装置の障害
発生前の状態と障害復旧後の状態とを比較し、状態の異
なる箇所を検出した場合に該当箇所の状態情報を前記マ
ネージャに通知し、前記マネージャは、前記エージェン
トから前記状態情報の通知を受け取った場合に、前記エ
ージェントの管理を前記状態情報の内容に応じて調整す
ることを特徴とする。
め、本発明は、複数のサブシステムを接続し、各サブシ
ステムごとに該サブシステムを管理するエージェントを
備え、いずれかの前記サブシステムに前記各エージェン
トを一元的に管理するマネージャを備えるコンピュータ
システムにおいて、前記エージェントは、該エージェン
トを搭載する前記サブシステムに発生した障害が復旧し
た場合に、該エージェントの管理する被管理装置の障害
発生前の状態と障害復旧後の状態とを比較し、状態の異
なる箇所を検出した場合に該当箇所の状態情報を前記マ
ネージャに通知し、前記マネージャは、前記エージェン
トから前記状態情報の通知を受け取った場合に、前記エ
ージェントの管理を前記状態情報の内容に応じて調整す
ることを特徴とする。
【0009】請求項2の本発明のコンピュータシステム
における前記サブシステムは、前記エージェントにて管
理される被管理装置と該被管理装置の状態とを対応付け
た状態情報を格納する状態情報格納手段を備え、前記マ
ネージャを備えたサブシステムは、全ての前記サブシス
テムの状態情報格納手段に格納された状態情報を収集し
てまとめた管理情報を格納する管理情報格納手段をさら
に備え、前記エージェントは、該エージェントを搭載す
る前記サブシステムに発生した障害が復旧した場合に、
前記状態情報格納手段に格納された状態情報を参照して
被管理装置の障害発生前の状態と障害復旧後の状態とを
比較し、状態の異なる箇所を検出した場合に該当箇所の
状態情報を前記マネージャに通知し、前記マネージャ
は、前記エージェントから前記状態情報の通知を受け取
った場合に、前記管理情報格納手段に格納された管理情
報の対応箇所を受け取った状態情報の内容に応じて更新
することを特徴とする。
における前記サブシステムは、前記エージェントにて管
理される被管理装置と該被管理装置の状態とを対応付け
た状態情報を格納する状態情報格納手段を備え、前記マ
ネージャを備えたサブシステムは、全ての前記サブシス
テムの状態情報格納手段に格納された状態情報を収集し
てまとめた管理情報を格納する管理情報格納手段をさら
に備え、前記エージェントは、該エージェントを搭載す
る前記サブシステムに発生した障害が復旧した場合に、
前記状態情報格納手段に格納された状態情報を参照して
被管理装置の障害発生前の状態と障害復旧後の状態とを
比較し、状態の異なる箇所を検出した場合に該当箇所の
状態情報を前記マネージャに通知し、前記マネージャ
は、前記エージェントから前記状態情報の通知を受け取
った場合に、前記管理情報格納手段に格納された管理情
報の対応箇所を受け取った状態情報の内容に応じて更新
することを特徴とする。
【0010】請求項3の本発明のコンピュータシステム
における前記マネージャは、前記サブシステムに発生し
た障害が復旧した場合に、前記管理情報格納手段に格納
された管理情報のうち該サブシステムに関する情報を該
サブシステムに搭載された前記エージェントに送信し、
前記エージェントは、前記マネージャから受け取った管
理情報と前記状態情報格納手段に格納されている障害復
旧後の状態情報とを比較して状態の異なる箇所の有無を
調査することを特徴とする。
における前記マネージャは、前記サブシステムに発生し
た障害が復旧した場合に、前記管理情報格納手段に格納
された管理情報のうち該サブシステムに関する情報を該
サブシステムに搭載された前記エージェントに送信し、
前記エージェントは、前記マネージャから受け取った管
理情報と前記状態情報格納手段に格納されている障害復
旧後の状態情報とを比較して状態の異なる箇所の有無を
調査することを特徴とする。
【0011】上記の目的を達成する他の本発明は、複数
のサブシステムを接続し、各サブシステムごとに該サブ
システムを管理するエージェントを備え、いずれかの前
記サブシステムに前記各エージェントを一元的に管理す
るマネージャを備えるコンピュータシステムの状態復旧
方法において、前記サブシステムに発生した障害が復旧
した場合に、該サブシステムに搭載された前記エージェ
ントが、該エージェントの管理する被管理装置の障害発
生前の状態と障害復旧後の状態とを比較し、状態の異な
る箇所を検出した場合に該当箇所の状態情報を前記マネ
ージャに通知する第1のステップと、前記エージェント
からの通知を受け取った前記マネージャが前記エージェ
ントの管理を前記状態情報の内容に応じて調整する第2
のステップとを備えることを特徴とする。
のサブシステムを接続し、各サブシステムごとに該サブ
システムを管理するエージェントを備え、いずれかの前
記サブシステムに前記各エージェントを一元的に管理す
るマネージャを備えるコンピュータシステムの状態復旧
方法において、前記サブシステムに発生した障害が復旧
した場合に、該サブシステムに搭載された前記エージェ
ントが、該エージェントの管理する被管理装置の障害発
生前の状態と障害復旧後の状態とを比較し、状態の異な
る箇所を検出した場合に該当箇所の状態情報を前記マネ
ージャに通知する第1のステップと、前記エージェント
からの通知を受け取った前記マネージャが前記エージェ
ントの管理を前記状態情報の内容に応じて調整する第2
のステップとを備えることを特徴とする。
【0012】請求項5の本発明の状態復旧方法は、障害
発生前と障害復旧後の被管理装置の状態を比較する前記
第1のステップの前に、前記サブシステムに発生した障
害が復旧したことを前記マネージャに通知する第3のス
テップと、前記障害復旧の通知を受け取ったマネージャ
が前記障害の復旧したサブシステムの障害発生前の状態
に関する情報を前記サブシステムに搭載された前記エー
ジェントに送信する第4のステップとを備え、前記第1
のステップでは、前記マネージャから受け取った情報と
障害復旧後の被管理装置の状態とを比較することを特徴
とする。
発生前と障害復旧後の被管理装置の状態を比較する前記
第1のステップの前に、前記サブシステムに発生した障
害が復旧したことを前記マネージャに通知する第3のス
テップと、前記障害復旧の通知を受け取ったマネージャ
が前記障害の復旧したサブシステムの障害発生前の状態
に関する情報を前記サブシステムに搭載された前記エー
ジェントに送信する第4のステップとを備え、前記第1
のステップでは、前記マネージャから受け取った情報と
障害復旧後の被管理装置の状態とを比較することを特徴
とする。
【0013】
【発明の実施の形態】以下、本発明の実施の形態につい
て図面を参照して詳細に説明する。
て図面を参照して詳細に説明する。
【0014】図1は、本発明の1実施例によるコンピュ
ータシステムの構成を示すブロック図である。
ータシステムの構成を示すブロック図である。
【0015】図示のように、本実施例のコンピュータシ
ステム10は、複数のサブシステム20A、20B、2
0Cを接続して構成される。なお、以降では、各サブシ
ステムを特に区別する必要のないときは、単にサブシス
テム20と記述する。後述する各サブシステム20の構
成要素についても同様である。また、同図においては、
3機のサブシステム20にてコンピュータシステム10
を構成しているが、サブシステム20の数はこれに限定
されないことはいうまでもなく、コンピュータシステム
10の使用目的や使用態様に応じて種々のサブシステム
20を任意に組合せ得る。
ステム10は、複数のサブシステム20A、20B、2
0Cを接続して構成される。なお、以降では、各サブシ
ステムを特に区別する必要のないときは、単にサブシス
テム20と記述する。後述する各サブシステム20の構
成要素についても同様である。また、同図においては、
3機のサブシステム20にてコンピュータシステム10
を構成しているが、サブシステム20の数はこれに限定
されないことはいうまでもなく、コンピュータシステム
10の使用目的や使用態様に応じて種々のサブシステム
20を任意に組合せ得る。
【0016】サブシステム20は、当該サブシステム2
0の状態管理を行うエージェント21と、エージェント
21にて管理される被管理装置の状態情報を格納したサ
ブシステム状態情報記憶部23とを備える。被管理装置
は、サブシステム20の種類によって種々の構成を取
り、本発明の特徴的な構成要素でもないので特に図示し
ない。サブシステム20Aは、上記構成の他に、コンピ
ュータシステム10の全体の状態管理を行うマネージャ
11と、各サブシスムテの状態情報を管理する管理情報
を格納したシステム状態記憶部13とを備える。マネー
ジャ11及びシステム状態記憶部13を備えるサブシス
テム20は、システム10を構成するサブシステム20
の中から任意に選択することができる。
0の状態管理を行うエージェント21と、エージェント
21にて管理される被管理装置の状態情報を格納したサ
ブシステム状態情報記憶部23とを備える。被管理装置
は、サブシステム20の種類によって種々の構成を取
り、本発明の特徴的な構成要素でもないので特に図示し
ない。サブシステム20Aは、上記構成の他に、コンピ
ュータシステム10の全体の状態管理を行うマネージャ
11と、各サブシスムテの状態情報を管理する管理情報
を格納したシステム状態記憶部13とを備える。マネー
ジャ11及びシステム状態記憶部13を備えるサブシス
テム20は、システム10を構成するサブシステム20
の中から任意に選択することができる。
【0017】上記構成において、マネージャ11は、プ
ログラム制御されたCPU等で実現され、エージェント
21と接続するための通信部12を備えて、エージェン
ト21との間でのデータの送受信を制御すると共に、必
要に応じてシステム状態記憶部13にアクセスして管理
情報の読み書きを行う。マネージャ11は、定期的に各
エージェント21に対してサブシステム20の状態の問
い合わせを行い、エージェント21からの応答により障
害の有無を認識する。エージェント21からの応答がな
い場合にも、当該応答のなかったサブシステム20に障
害が発生したと認識する。また、障害の発生を認識した
エージェント21から復旧したことを示す通知を受け取
った場合に当該サブシステム20の被管理装置の障害発
生前の状態情報を送信する。さらに、所定のサブシステ
ム20における障害の発生を認識した場合、当該サブシ
ステム20から復旧通知を受け取った場合、及び障害発
生前の状態情報を送信したサブシステム20から状態の
変わった箇所について応答があった場合に、それぞれ状
態変化に応じてシステム状態記憶部13に格納された管
理情報の対応箇所を更新する。
ログラム制御されたCPU等で実現され、エージェント
21と接続するための通信部12を備えて、エージェン
ト21との間でのデータの送受信を制御すると共に、必
要に応じてシステム状態記憶部13にアクセスして管理
情報の読み書きを行う。マネージャ11は、定期的に各
エージェント21に対してサブシステム20の状態の問
い合わせを行い、エージェント21からの応答により障
害の有無を認識する。エージェント21からの応答がな
い場合にも、当該応答のなかったサブシステム20に障
害が発生したと認識する。また、障害の発生を認識した
エージェント21から復旧したことを示す通知を受け取
った場合に当該サブシステム20の被管理装置の障害発
生前の状態情報を送信する。さらに、所定のサブシステ
ム20における障害の発生を認識した場合、当該サブシ
ステム20から復旧通知を受け取った場合、及び障害発
生前の状態情報を送信したサブシステム20から状態の
変わった箇所について応答があった場合に、それぞれ状
態変化に応じてシステム状態記憶部13に格納された管
理情報の対応箇所を更新する。
【0018】図2にマネージャ11の処理の流れを示
す。初期状態において、マネージャ11は、全エージェ
ント21に対し、定期的に状態の問い合わせを行い(ス
テップ201)、障害発生の有無を調査する(ステップ
202)。いずれかのエージェント21(サブシステム
20)で障害が発生したことを認識した場合、当該サブ
システム20の管理情報を更新して障害有りとし(ステ
ップ203)、復旧の通知の受信を待つ(ステップ20
4)。復旧通知を受信すると、当該サブシステム20の
管理情報を更新して障害復旧とし(ステップ205)、
システム状態記憶部13に格納されている当該サブシス
テム20の管理情報を当該サブシステム20のエージェ
ント21に送信する(ステップ206)。当該エージェ
ント20から被管理装置の状態が異なる箇所についての
応答があった場合、システム状態記憶部13の管理情報
の対応箇所を更新する(ステップ207、208)。こ
の後、マネージャ11によるエージェント21の管理
は、更新された管理情報に基づいて調整されることとな
る。
す。初期状態において、マネージャ11は、全エージェ
ント21に対し、定期的に状態の問い合わせを行い(ス
テップ201)、障害発生の有無を調査する(ステップ
202)。いずれかのエージェント21(サブシステム
20)で障害が発生したことを認識した場合、当該サブ
システム20の管理情報を更新して障害有りとし(ステ
ップ203)、復旧の通知の受信を待つ(ステップ20
4)。復旧通知を受信すると、当該サブシステム20の
管理情報を更新して障害復旧とし(ステップ205)、
システム状態記憶部13に格納されている当該サブシス
テム20の管理情報を当該サブシステム20のエージェ
ント21に送信する(ステップ206)。当該エージェ
ント20から被管理装置の状態が異なる箇所についての
応答があった場合、システム状態記憶部13の管理情報
の対応箇所を更新する(ステップ207、208)。こ
の後、マネージャ11によるエージェント21の管理
は、更新された管理情報に基づいて調整されることとな
る。
【0019】システム情報監理部13は、磁気ディスク
装置等の記憶装置で実現され、コンピュータシステム1
0の全体を管理する管理情報を格納する。管理情報は、
各サブシステム20ごとにエージェント21の管理対象
(被管理装置)とその状態とを対応付けたデータファイ
ルであり、1つのサブシステム20に関する管理情報
は、後述する当該サブシステム20の状態情報と同一で
ある。
装置等の記憶装置で実現され、コンピュータシステム1
0の全体を管理する管理情報を格納する。管理情報は、
各サブシステム20ごとにエージェント21の管理対象
(被管理装置)とその状態とを対応付けたデータファイ
ルであり、1つのサブシステム20に関する管理情報
は、後述する当該サブシステム20の状態情報と同一で
ある。
【0020】エージェント21は、プログラム制御され
たCPU等で実現され、マネージャ11と接続するため
の通信部22を備えて、マネージャ11との間でのデー
タの送受信を制御すると共に、必要に応じてサブシステ
ム状態記憶部23にアクセスして状態情報の読み出しを
行う。エージェント21は、マネージャ11からの問い
合わせに応じてサブシステム20における障害の有無を
知らせる通知を行う。また、障害発生後、被管理装置と
の間の状態が復旧した場合に、マネージャ11に対して
障害復旧の通知を送信する。さらに、マネージャ11か
ら障害発生前の状態情報を受け取った場合に、その時点
でサブシステム状態記憶部23に格納されている被管理
装置の状態情報、すなわち復旧後の状態情報と、マネー
ジャ11から送られた状態情報とを比較し、状態の異な
る箇所があれば、当該箇所の状態情報をマネージャ11
に送信する。
たCPU等で実現され、マネージャ11と接続するため
の通信部22を備えて、マネージャ11との間でのデー
タの送受信を制御すると共に、必要に応じてサブシステ
ム状態記憶部23にアクセスして状態情報の読み出しを
行う。エージェント21は、マネージャ11からの問い
合わせに応じてサブシステム20における障害の有無を
知らせる通知を行う。また、障害発生後、被管理装置と
の間の状態が復旧した場合に、マネージャ11に対して
障害復旧の通知を送信する。さらに、マネージャ11か
ら障害発生前の状態情報を受け取った場合に、その時点
でサブシステム状態記憶部23に格納されている被管理
装置の状態情報、すなわち復旧後の状態情報と、マネー
ジャ11から送られた状態情報とを比較し、状態の異な
る箇所があれば、当該箇所の状態情報をマネージャ11
に送信する。
【0021】図3にエージェント21の復旧時の処理の
流れを示す。エージェント21と被管理装置との間の状
態が復旧すると、エージェント21は障害復旧通知をマ
ネージャ11に送信する(ステップ301、302)。
これに応じてマネージャ11から送信された当該サブシ
ステム20に関する管理情報を受け取ると、当該管理情
報とサブシステム状態記憶部23に格納されている障害
復旧後の状態情報とを比較する(ステップ303)。そ
して、異なる箇所が有った場合に、当該箇所の状態情報
をマネージャ11に送る(ステップ304、305)。
流れを示す。エージェント21と被管理装置との間の状
態が復旧すると、エージェント21は障害復旧通知をマ
ネージャ11に送信する(ステップ301、302)。
これに応じてマネージャ11から送信された当該サブシ
ステム20に関する管理情報を受け取ると、当該管理情
報とサブシステム状態記憶部23に格納されている障害
復旧後の状態情報とを比較する(ステップ303)。そ
して、異なる箇所が有った場合に、当該箇所の状態情報
をマネージャ11に送る(ステップ304、305)。
【0022】サブシステム状態記憶部23は、磁気ディ
スク装置等の記憶装置で実現され、当該サブシステム状
態記憶部23を搭載するサブシステム20においてエー
ジェント21に管理される被管理装置の状態に関する状
態情報を格納する。状態情報は、管理対象である装置と
その状態とを対応付けたデータファイルである。状態情
報の内容は、上述したシステム状態情報記憶部13に格
納された管理情報の当該サブシステム20に関する管理
情報と同一である。
スク装置等の記憶装置で実現され、当該サブシステム状
態記憶部23を搭載するサブシステム20においてエー
ジェント21に管理される被管理装置の状態に関する状
態情報を格納する。状態情報は、管理対象である装置と
その状態とを対応付けたデータファイルである。状態情
報の内容は、上述したシステム状態情報記憶部13に格
納された管理情報の当該サブシステム20に関する管理
情報と同一である。
【0023】次に、図1及び図4を参照して本実施例に
よる障害発生時及び復旧時の動作について説明する。
よる障害発生時及び復旧時の動作について説明する。
【0024】本動作例では、図1に示すように、コンピ
ュータシステム10は、3機のサブシステム20A、2
0B、20Cとを備え、サブシステム20Aにマネージ
ャ11とシステム状態記憶部13とを備えるものとす
る。また、サブシステム20Bにおいて障害が発生する
ものとしてマネージャ11及びエージェント21Bの動
作を説明する。
ュータシステム10は、3機のサブシステム20A、2
0B、20Cとを備え、サブシステム20Aにマネージ
ャ11とシステム状態記憶部13とを備えるものとす
る。また、サブシステム20Bにおいて障害が発生する
ものとしてマネージャ11及びエージェント21Bの動
作を説明する。
【0025】初期状態において、マネージャ11は、サ
ブシステム20A、20B、20Cの各エージェント2
1A、21B、21Cに対して定期的に状態の問い合わ
せを行う(図4、通信)。これに対し、各エージェン
ト21A、21B、21Cは、障害がないことを示す応
答を行う(通信)。サブシステム20Bにおいて障害
が発生した後、マネージャ11から問い合わせが行われ
ると(通信)、エージェント21Bは、障害発生を示
す応答を行う(通信)。また、障害の内容によって
は、エージェント21Bはマネージャ11の問い合わせ
に対して応答できない()。
ブシステム20A、20B、20Cの各エージェント2
1A、21B、21Cに対して定期的に状態の問い合わ
せを行う(図4、通信)。これに対し、各エージェン
ト21A、21B、21Cは、障害がないことを示す応
答を行う(通信)。サブシステム20Bにおいて障害
が発生した後、マネージャ11から問い合わせが行われ
ると(通信)、エージェント21Bは、障害発生を示
す応答を行う(通信)。また、障害の内容によって
は、エージェント21Bはマネージャ11の問い合わせ
に対して応答できない()。
【0026】マネージャ11は、エージェント21Bか
ら障害発生を示す応答を受け取るか、エージェント21
Bからの応答が無かったことを条件に、サブシステム2
0Bにおいて障害が発生したものと認識し、システム状
態記憶部13のサブシステム20Bに関する管理情報を
更新し、障害発生とする(アクセスI)。
ら障害発生を示す応答を受け取るか、エージェント21
Bからの応答が無かったことを条件に、サブシステム2
0Bにおいて障害が発生したものと認識し、システム状
態記憶部13のサブシステム20Bに関する管理情報を
更新し、障害発生とする(アクセスI)。
【0027】この後、サブシステム20Bにおいて、エ
ージェント21Bと被管理装置との間の管理状態が復旧
すると、エージェント21Bからマネージャ11へ障害
復旧通知が送られる(通信)。マネージャ11は、障
害復旧通知を受け取ると、システム状態記憶部13のサ
ブシステム20Bに関する管理情報を更新し、障害復旧
とする(アクセスII)。そして、障害発生前のサブシ
ステム20Bに関する管理情報を読み出して(アクセス
III)、エージェント21Bに送信する(通信)。
ージェント21Bと被管理装置との間の管理状態が復旧
すると、エージェント21Bからマネージャ11へ障害
復旧通知が送られる(通信)。マネージャ11は、障
害復旧通知を受け取ると、システム状態記憶部13のサ
ブシステム20Bに関する管理情報を更新し、障害復旧
とする(アクセスII)。そして、障害発生前のサブシ
ステム20Bに関する管理情報を読み出して(アクセス
III)、エージェント21Bに送信する(通信)。
【0028】エージェント21Bは、障害発生前のサブ
システム20Bに関する管理情報を受け取ると、サブシ
ステム状態記憶部23から障害復旧後の被管理装置の状
態情報を読み出し(アクセスIV)、受け取った管理情
報と比較する。そして、状態のことなる箇所を検出した
場合に当該状態情報をマネージャ11に送信する(通信
)。マネージャ11は、受け取った状態情報に基づい
てシステム状態記憶部13の対応箇所を更新する(アク
セスV)。
システム20Bに関する管理情報を受け取ると、サブシ
ステム状態記憶部23から障害復旧後の被管理装置の状
態情報を読み出し(アクセスIV)、受け取った管理情
報と比較する。そして、状態のことなる箇所を検出した
場合に当該状態情報をマネージャ11に送信する(通信
)。マネージャ11は、受け取った状態情報に基づい
てシステム状態記憶部13の対応箇所を更新する(アク
セスV)。
【0029】以上の動作により、マネージャ11とエー
ジェント21Bとの間の管理状態が復旧する。なお、上
記の復旧手順は、マネージャ11と障害復旧した全ての
エージェント21との間で行うのであり、マネージャ1
1が搭載されているサブシステム20Aにおいて、エー
ジェント21Aまたはエージェント21Aに管理される
被管理装置に障害が発生した場合にも同様の動作により
マネージャ11とエージェント21Aとの間の管理状態
の復旧が図られる。
ジェント21Bとの間の管理状態が復旧する。なお、上
記の復旧手順は、マネージャ11と障害復旧した全ての
エージェント21との間で行うのであり、マネージャ1
1が搭載されているサブシステム20Aにおいて、エー
ジェント21Aまたはエージェント21Aに管理される
被管理装置に障害が発生した場合にも同様の動作により
マネージャ11とエージェント21Aとの間の管理状態
の復旧が図られる。
【0030】上記のように、本実施例によれば、復旧前
後の被管理装置の状態に異なる箇所があるかどうかの調
査はサブシステム20のエージェント21にて行われ、
マネージャ11は、復旧前後の被管理装置の状態に異な
る箇所があった場合にのみ当該変更箇所の状態情報を受
け取り、管理情報の更新を行う。このため、処理に要す
る負荷が分散され、マネージャ11の負担が軽減する。
後の被管理装置の状態に異なる箇所があるかどうかの調
査はサブシステム20のエージェント21にて行われ、
マネージャ11は、復旧前後の被管理装置の状態に異な
る箇所があった場合にのみ当該変更箇所の状態情報を受
け取り、管理情報の更新を行う。このため、処理に要す
る負荷が分散され、マネージャ11の負担が軽減する。
【0031】以上好ましい実施例をあげて本発明を説明
したが、本発明は必ずしも上記実施例に限定されるもの
ではない。例えば、本実施例では、サブシステムが復旧
した場合、マネージャが障害発生前の当該サブシステム
の状態情報をシステム状態記憶部に格納された管理情報
から読み出してエージェントに送信したが、サブシステ
ムのサブシステム状態記憶部に障害発生前の状態情報を
保持しておき、障害復旧後に障害発生前の状態情報と障
害復旧後の状態情報と比較して状態の異なる箇所を検出
するようにしてもよい。
したが、本発明は必ずしも上記実施例に限定されるもの
ではない。例えば、本実施例では、サブシステムが復旧
した場合、マネージャが障害発生前の当該サブシステム
の状態情報をシステム状態記憶部に格納された管理情報
から読み出してエージェントに送信したが、サブシステ
ムのサブシステム状態記憶部に障害発生前の状態情報を
保持しておき、障害復旧後に障害発生前の状態情報と障
害復旧後の状態情報と比較して状態の異なる箇所を検出
するようにしてもよい。
【0032】
【発明の効果】以上説明したように、本発明のコンピュ
ータシステム及びその状態復旧方法によれば、マネージ
ャとエージェントとの間の一元的な管理状態を復旧する
ための処理を、マネージャとエージェントとの連携によ
って行うため、マネージャの負担を軽減することができ
るという効果がある。
ータシステム及びその状態復旧方法によれば、マネージ
ャとエージェントとの間の一元的な管理状態を復旧する
ための処理を、マネージャとエージェントとの連携によ
って行うため、マネージャの負担を軽減することができ
るという効果がある。
【0033】また、特に多数のエージェントまたはエー
ジェントを含むサブシステムに障害が発生した場合、各
エージェントにおいて復旧処理の一部を分担することと
なるため、従来のように各エージェントから送られる状
態情報の全てをマネージャが調査する場合に比べ、マネ
ージャによる処理の負荷の増大が少ないため、マネージ
ャによる一元管理ができる状態に復旧するまでに要する
時間を短縮できるという効果がある。
ジェントを含むサブシステムに障害が発生した場合、各
エージェントにおいて復旧処理の一部を分担することと
なるため、従来のように各エージェントから送られる状
態情報の全てをマネージャが調査する場合に比べ、マネ
ージャによる処理の負荷の増大が少ないため、マネージ
ャによる一元管理ができる状態に復旧するまでに要する
時間を短縮できるという効果がある。
【図1】 本発明の1実施例によるコンピュータシステ
ムの構成を示すブロック図。
ムの構成を示すブロック図。
【図2】 マネージャの動作を示すフローチャート。
【図3】 エージェントの障害復旧時の動作を示すフロ
ーチャート。
ーチャート。
【図4】 マネージャとエージェントとの間の処理の連
携状態を示す図。
携状態を示す図。
10 コンピュータシステム 11 マネージャ 12、22A、22B、20C 通信部 13 システム状態記憶部 20A、20B、20C サブシステム 21A、21B、21C エージェント 23A、23B、23C サブシステム状態記憶部
Claims (5)
- 【請求項1】 複数のサブシステムを接続し、各サブシ
ステムごとに該サブシステムを管理するエージェントを
備え、いずれかの前記サブシステムに前記各エージェン
トを一元的に管理するマネージャを備えるコンピュータ
システムにおいて、 前記エージェントは、該エージェントを搭載する前記サ
ブシステムに発生した障害が復旧した場合に、該エージ
ェントの管理する被管理装置の障害発生前の状態と障害
復旧後の状態とを比較し、状態の異なる箇所を検出した
場合に該当箇所の状態情報を前記マネージャに通知し、 前記マネージャは、前記エージェントから前記状態情報
の通知を受け取った場合に、前記エージェントの管理を
前記状態情報の内容に応じて調整することを特徴とする
コンピュータシステム。 - 【請求項2】 前記サブシステムは、前記エージェント
にて管理される被管理装置と該被管理装置の状態とを対
応付けた状態情報を格納する状態情報格納手段を備え、 前記マネージャを備えたサブシステムは、全ての前記サ
ブシステムの状態情報格納手段に格納された状態情報を
収集してまとめた管理情報を格納する管理情報格納手段
をさらに備え、 前記エージェントは、該エージェントを搭載する前記サ
ブシステムに発生した障害が復旧した場合に、前記状態
情報格納手段に格納された状態情報を参照して被管理装
置の障害発生前の状態と障害復旧後の状態とを比較し、
状態の異なる箇所を検出した場合に該当箇所の状態情報
を前記マネージャに通知し、 前記マネージャは、前記エージェントから前記状態情報
の通知を受け取った場合に、前記管理情報格納手段に格
納された管理情報の対応箇所を受け取った状態情報の内
容に応じて更新することを特徴とする請求項1に記載の
コンピュータシステム。 - 【請求項3】 前記マネージャは、前記サブシステムに
発生した障害が復旧した場合に、前記管理情報格納手段
に格納された管理情報のうち該サブシステムに関する情
報を該サブシステムに搭載された前記エージェントに送
信し、 前記エージェントは、前記マネージャから受け取った管
理情報と前記状態情報格納手段に格納されている障害復
旧後の状態情報とを比較して状態の異なる箇所の有無を
調査することを特徴とする請求項2に記載のコンピュー
タシステム。 - 【請求項4】 複数のサブシステムを接続し、各サブシ
ステムごとに該サブシステムを管理するエージェントを
備え、いずれかの前記サブシステムに前記各エージェン
トを一元的に管理するマネージャを備えるコンピュータ
システムにおいて、 前記サブシステムに発生した障害が復旧した場合に、該
サブシステムに搭載された前記エージェントが、該エー
ジェントの管理する被管理装置の障害発生前の状態と障
害復旧後の状態とを比較し、状態の異なる箇所を検出し
た場合に該当箇所の状態情報を前記マネージャに通知す
る第1のステップと、 前記エージェントからの通知を受け取った前記マネージ
ャが前記エージェントの管理を前記状態情報の内容に応
じて調整する第2のステップとを備えることを特徴とす
るコンピュータシステムの状態復旧方法。 - 【請求項5】 障害発生前と障害復旧後の被管理装置の
状態を比較する前記第1のステップの前に、 前記サブシステムに発生した障害が復旧したことを前記
マネージャに通知する第3のステップと、 前記障害復旧の通知を受け取ったマネージャが前記障害
の復旧したサブシステムの障害発生前の状態に関する情
報を前記サブシステムに搭載された前記エージェントに
送信する第4のステップとを備え、 前記第1のステップでは、前記マネージャから受け取っ
た情報と障害復旧後の被管理装置の状態とを比較するこ
とを特徴とする請求項4に記載のコンピュータシステム
の状態復旧方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8195665A JP2885192B2 (ja) | 1996-07-05 | 1996-07-05 | コンピュータシステム及びその状態復旧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8195665A JP2885192B2 (ja) | 1996-07-05 | 1996-07-05 | コンピュータシステム及びその状態復旧方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1021168A true JPH1021168A (ja) | 1998-01-23 |
JP2885192B2 JP2885192B2 (ja) | 1999-04-19 |
Family
ID=16344964
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP8195665A Expired - Fee Related JP2885192B2 (ja) | 1996-07-05 | 1996-07-05 | コンピュータシステム及びその状態復旧方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2885192B2 (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03186958A (ja) * | 1989-12-18 | 1991-08-14 | Hitachi Ltd | ネットワークシステム及びこれを適用するネットワーク管理方法 |
JPH06164583A (ja) * | 1992-11-19 | 1994-06-10 | Fujitsu Ltd | 構成情報分散保有方式 |
JPH0846623A (ja) * | 1994-07-28 | 1996-02-16 | Hitachi Ltd | 通信システム及びその構築方法 |
JPH0879246A (ja) * | 1994-09-02 | 1996-03-22 | Kokusai Denshin Denwa Co Ltd <Kdd> | 分散型通信システムおよびその障害回復方法 |
JPH09212401A (ja) * | 1996-02-02 | 1997-08-15 | Fujitsu Ltd | 分散データベースの障害復旧方法及びデータベース管理装置 |
-
1996
- 1996-07-05 JP JP8195665A patent/JP2885192B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03186958A (ja) * | 1989-12-18 | 1991-08-14 | Hitachi Ltd | ネットワークシステム及びこれを適用するネットワーク管理方法 |
JPH06164583A (ja) * | 1992-11-19 | 1994-06-10 | Fujitsu Ltd | 構成情報分散保有方式 |
JPH0846623A (ja) * | 1994-07-28 | 1996-02-16 | Hitachi Ltd | 通信システム及びその構築方法 |
JPH0879246A (ja) * | 1994-09-02 | 1996-03-22 | Kokusai Denshin Denwa Co Ltd <Kdd> | 分散型通信システムおよびその障害回復方法 |
JPH09212401A (ja) * | 1996-02-02 | 1997-08-15 | Fujitsu Ltd | 分散データベースの障害復旧方法及びデータベース管理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2885192B2 (ja) | 1999-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7774641B2 (en) | Storage subsystem and control method thereof | |
US6859889B2 (en) | Backup system and method for distributed systems | |
US7210061B2 (en) | Data redundancy for writes using remote storage system cache memory | |
US8676760B2 (en) | Maintaining data integrity in data servers across data centers | |
US5404508A (en) | Data base backup and recovery system and method | |
EP1851632B1 (en) | Disaster recovery framework | |
KR100575497B1 (ko) | 내고장성 컴퓨터 시스템 | |
US6134673A (en) | Method for clustering software applications | |
US5875290A (en) | Method and program product for synchronizing operator initiated commands with a failover process in a distributed processing system | |
CN110807064B (zh) | Rac分布式数据库集群系统中的数据恢复装置 | |
CN100547558C (zh) | 并行计算系统中的冗余保护的方法和系统 | |
US6766470B1 (en) | Enhancing reliability and robustness of a cluster | |
CN111327467A (zh) | 一种服务器系统及其容灾备份方法和相关设备 | |
US20080288812A1 (en) | Cluster system and an error recovery method thereof | |
JPH086910A (ja) | クラスタ型計算機システム | |
US5600808A (en) | Processing method by which continuous operation of communication control program is obtained | |
CN113722156B (zh) | 一种PCIe设备N+1冗余备份方法及系统 | |
US20050262381A1 (en) | System and method for highly available data processing in cluster system | |
JPH0837138A (ja) | 半導体製造ライン制御装置 | |
JPH08320835A (ja) | 外部バスの障害検出方法 | |
JP3447347B2 (ja) | 障害検出方法 | |
JP2885192B2 (ja) | コンピュータシステム及びその状態復旧方法 | |
JP3164147B2 (ja) | 網管理装置の構成情報管理方式および管理対象装置 | |
JP2004185573A (ja) | データ書込方法および装置 | |
JP2007334668A (ja) | メモリダンプ方法、クラスタシステム、それを構成するノードおよびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080212 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090212 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100212 Year of fee payment: 11 |
|
LAPS | Cancellation because of no payment of annual fees |