JPH10187638A - クラスタ制御システム - Google Patents
クラスタ制御システムInfo
- Publication number
- JPH10187638A JPH10187638A JP9075254A JP7525497A JPH10187638A JP H10187638 A JPH10187638 A JP H10187638A JP 9075254 A JP9075254 A JP 9075254A JP 7525497 A JP7525497 A JP 7525497A JP H10187638 A JPH10187638 A JP H10187638A
- Authority
- JP
- Japan
- Prior art keywords
- computer
- package
- cluster
- computers
- manager
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1479—Generic software techniques for error detection or fault masking
- G06F11/1482—Generic software techniques for error detection or fault masking by means of middleware or OS functionality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3495—Performance evaluation by tracing or monitoring for systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/485—Task life-cycle, e.g. stopping, restarting, resuming execution
- G06F9/4856—Task life-cycle, e.g. stopping, restarting, resuming execution resumption being on a different machine, e.g. task migration, virtual machine migration
Abstract
した場合に当計算機上で動作していたプログラムをクラ
スタ内の他の計算機に移行して実行させることを目的と
する。 【解決手段】 クラスタを構成する各計算機上でクラス
タデーモンが実行されており、各パッケージを起動する
と同時に、実行計算機上のリソースを監視制御し、その
データを各計算機上にローカルデータとして保持する。
マネージャは、各計算機上のクラスタデーモンと通信を
行ない、クラスタシステム全体の監視制御のためのグロ
ーバルデータを保持している。また、マネージャは、ク
ラスタシステムのパッケージの1つであり、マネージャ
やマネージャを実行している計算機に障害が発生した場
合、クラスタデーモンにより他の計算機上で再起動され
る。
Description
を監視制御し、ある計算機上で障害が発生した場合に該
計算機上で動作していたパッケージプログラムをクラス
タを構成する他の計算機に移行して実行するクラスタ制
御システムに関するものである。
分けて、CPUが主記憶を共有する密結合型クラスタ
と、計算機がLANや共有ディスクなどを用いてデータ
を共有する疎結合型クラスタの2つが存在するが、ここ
での記述は後者の疎結合型クラスタについてである。図
50は、従来のクラスタシステムの構成例を示す説明図
である。図において、計算機A〜N(101a〜101
n)はクラスタを構成する複数の計算機である。各計算
機上では、cluster daemonA〜N(10
2a〜102n)が実行されており、各cluster
daemonにより各パッケージプログラムA1〜N
2(103a1〜103n2)が起動される。ここで、
パッケージプログラムとは、アプリケーションプログラ
ムやサービスプログラム等の総称である。各clust
er daemonは、実行している計算機上のリソー
ス(CPU,LAN,Disk,パッケージプログラム
が提供する各種サービス,ネットワークアドレスなど)
を監視/制御し、そのデータを各計算機上にローカルデ
ータA〜N(104a〜104n)として保持してい
る。
図51に基づいて説明する。計算機A(101a)上で
必要なリソースA(2401a)がなくなった場合、c
luster daemonA(102a)は計算機A
(101a)を停止させる。計算機A(101a)が停
止した場合、他の計算機N(101n)上のclust
er daemon N(102n)がこれを検知し、
計算機A(101a)上で実行していたパッケージプロ
グラムA(103a)を他の計算機N(101n)で実
行する。このようにして、パッケージプログラムは、ク
ラスタ内のどこかの計算機上で実行されることになる。
また、各パッケージプログラム毎にネットワークアドレ
スを割り当てることにより、パッケージプログラムが提
供するサービスを利用する場合において、ユーザはパッ
ケージプログラムがクラスタ内のどの計算機上で実行さ
れているかを意識する必要がなかった。また、分散して
いるリソースの状態を集中して監視制御する方式とし
て、特開平5−75628号「ネットワーク資源監視シ
ステム」、特開平5−134902号「分散コンピュー
ティングシステムでの稼働情報管理方式」、特開平6−
223020号「ネットワーク管理システムおよびオブ
ジェクトの管理方法」などがあった。しかしながら、こ
れらの方式は管理用の計算機や管理用のプロセス(マネ
ージャ)を用いることにより実現しており、管理用の計
算機や管理用のプロセス(マネージャ)に障害が発生し
た場合については考慮されていなかった。
ムは以上のようにして構成されているので、システム全
体の監視および制御を行うプログラムを作成する場合に
おいては、データが各計算機に分散されていて、クラス
タ内の全ての計算機と通信しなければならず、プログラ
ムの作成が困難であるという問題点があった。また、分
散しているリソース状態を集中監視制御する方式におい
ては、システム全体を監視制御する計算機やプロセスに
障害が発生した場合に監視機能が全く停止するという問
題点があった。また、各種パッケージプログラム間の相
関関係や優先順位などの定義が行なえなかったため、多
重系などの他のシステムからの移行が困難であるという
問題点があった。また、パッケージの再起動に時間がか
かり、回復に時間がかかるという問題があった。また、
システムが回復後のパッケージの切り替え処理に時間が
かかり、並列処理を行うパッケージが並列処理を行えな
いため、回復後にシステムのパフォーマンスが落ちると
いう問題があった。
ためになされたもので、クラスタシステム全体の監視お
よび制御を行うプログラムの作成を容易にするととも
に、他システムからの移行を可能とし、高速に動作する
クラスタ制御システムを提供することを目的とする。
スタ制御システムは、クラスタシステムを構成する計算
機群上のある計算機に障害が発生した場合に該計算機上
で動作中のパッケージプログラムを他の計算機で実行さ
せるクラスタシステムにおいて、クラスタを構成する各
計算機が、アプリケーションや各種のサービスを提供す
るパッケージプログラムと、計算機間で通信を行いリソ
ースを監視制御するクラスタデーモンと、監視結果をロ
ーカルデータとして記憶するローカルデータ記憶手段を
備え、クラスタシステム内のうち1台の計算機は、上記
パッケージプログラム、クラスタデーモン、ローカルデ
ータ記憶手段に加えて、各計算機上のローカルデータか
ら収集されて、いずれの計算機からも参照可能なグロー
バルデータ記憶手段と、グローバルデータ記憶手段およ
び各計算機上のクラスタデーモンと通信を行い、クラス
タシステム全体の監視制御を行うマネージャを搭載し、
マネージャが搭載されている計算機で障害が発生した場
合にはクラスタ内の他の計算機上で再起動させるように
したものである。
は、クラスタシステムを構成する計算機群上のある計算
機に障害が発生した場合に計算機上で動作中のパッケー
ジプログラムを他の計算機で実行させるクラスタシステ
ムにおいて、クラスタを構成する各計算機が、アプリケ
ーションや各種のサービスを提供するパッケージプログ
ラムと、計算機間で通信を行いリソースを監視制御する
クラスタデーモンと、自計算機上のクラスタデーモンお
よびマネージャと通信を行うエージェントと、監視結果
をローカルデータとして記憶するローカルデータ記憶手
段を備え、クラスタシステム内のうち1台の計算機は、
クラスタデーモン、エージェント、ローカルデータ記憶
手段に加えて、各計算機上のローカルデータから収集さ
れて、いずれの計算機からも参照可能なグローバルデー
タ記憶手段と、グローバルデータ記憶手段および各計算
機上のエージェントと通信を行い、クラスタシステム全
体の監視制御を行うマネージャを搭載し、マネージャが
搭載されている計算機に障害が発生した場合にクラスタ
内の他の計算機上で再起動させるようにしたものであ
る。
は、クラスタシステムを構成する計算機群上のある計算
機に障害が発生した場合に計算機上で動作していたパッ
ケージプログラムを他の計算機で実行させるクラスタシ
ステムにおいて、クラスタを構成する各計算機が、アプ
リケーションや各種のサービスを提供するパッケージプ
ログラムと、自計算機上のパッケージプログラムおよび
計算機間で通信を行いリソースを監視制御するクラスタ
デーモンと、自計算機上のクラスタデーモン、各計算機
上のエージェント間、およびグローバルデータ記憶手段
と通信を行うエージェントと、監視結果をローカルデー
タとして記憶するローカルデータ記憶手段を備え、クラ
スタシステム内のうち1台の計算機は、上記クラスタデ
ーモン、エージェント、ローカルデータ記憶手段に加え
て、各計算機上のローカルデータから収集されて、いず
れの計算機からも参照可能なグローバルデータ記憶手段
を備え、各計算機上のエージェントが直接にグローバル
データ記憶手段、およびエージェント間で通信を行うよ
うにしたものである。
は、クラスタシステムを構成する計算機群上のある計算
機に障害が発生した場合に計算機上で動作していたパッ
ケージプログラムを他の計算機で実行させるクラスタシ
ステムにおいて、クラスタを構成する各計算機が、アプ
リケーションや各種のサービスを提供するパッケージプ
ログラムと、自計算機上のパッケージプログラムおよび
各計算機間で通信を行いリソースを監視制御するクラス
タデーモンと、自計算機上のクラスタデーモン、各計算
機上のエージェント間、およびグローバルデータと通信
を行うエージェントと、監視結果をローカルデータとし
て記憶するローカルデータ記憶手段を備え、クラスタシ
ステム内のうち1台の計算機は、上記クラスタデーモ
ン、エージェント、ローカルデータ記憶手段に加えて、
各計算機上のローカルデータから収集されて、いずれの
計算機からも参照可能なグローバルデータ記憶手段と、
自計算機上のエージェントおよびクラスタデーモンと通
信を行うマネージャを備え、各計算機上のエージェント
が直接にグローバルデータ記憶手段、およびエージェン
ト間で通信を行うようにしたものである。
の発明に係わるクラスタ制御システムにおいて、マネー
ジャはクラスタシステムを構成する計算機群のリソース
状態変化時の処理を記述したリソース設定ファイルと、
リソース設定ファイルの定義に従い、リソースの状態に
変化があった場合にリソース制御処理を行なう自動制御
機構を備えるようにしたものである。
タ制御システムにおいて、リソース設定ファイルにはパ
ッケージプログラム間の相関関係や実行に関する優先順
位情報を定義し、自動制御機構は、該定義情報に基づい
て各計算機上のパッケージプログラムを動作させるよう
にしたものである。
または第5のいずれかの発明に係わるクラスタ制御シス
テムにおいて、マネージャはパッケージプログラムに対
して、運転、待機、試験を含む運転動作モードを付加
し、該モードに従ってパッケージプログラムの動作制御
の管理を行なうモード管理機構を備えるようにしたもの
である。
のいずれかの発明に係わるクラスタ制御システムにおい
て、マネージャは、クラスタシステム内で起きたリソー
スの状態変化に関するログを収集するログ管理機構を備
えるようにしたものである。
ムを構成する複数の計算機のうちの1つの計算機に障害
が発生した場合に、上記障害が発生した計算機で運転中
のアプリケーションや各種のサービスを提供するパッケ
ージプログラムを他の計算機で運転させるクラスタ制御
システムにおいて、上記複数の計算機はそれぞれ、自己
の計算機の障害及び回復を監視するとともに、上記パッ
ケージプログラムの起動及び運転を制御するクラスタデ
ーモンを備え、上記複数の計算機のうちの第1の計算機
は、上記パッケージプログラムである第1のパッケージ
プログラムを運転し、上記複数の計算機のうちの第2の
計算機は、上記第1のパッケージプログラムと同じアプ
リケーションやサービスを提供する第2のパッケージプ
ログラムを起動状態で待機させ、上記複数の計算機のう
ち1つの計算機は、上記クラスタデーモンに加えて、上
記複数の計算機のそれぞれのクラスタデーモンから監視
の結果を受け取るとともに、上記クラスタデーモンを制
御して、上記第1の計算機に障害が発生した場合に、上
記第2の計算機に上記第2のパッケージプログラムを運
転させるとともに、上記第1の計算機が障害から回復し
た場合には、上記第1の計算機に上記第1のパッケージ
プログラムを起動状態で待機させるマネージャを備えた
ものである。
ージプログラムの出力若しくは上記第2のパッケージプ
ログラムの出力のいずれかを選択して出力する出力制御
手段を有し、上記第2の計算機は、上記第2のパッケー
ジプログラムを起動状態で待機させる代わりに、上記第
2のパッケージプログラムを運転し、上記マネージャに
代えて、上記複数の計算機のそれぞれのクラスタデーモ
ンから監視の結果を受け取るとともに、上記クラスタデ
ーモンを制御して、上記第1のパッケージプログラムの
出力が上記出力制御手段から出力されているときに上記
第1の計算機で障害が発生した場合、上記第1のパッケ
ージプログラムの出力に代えて上記第2のパッケージプ
ログラムの出力を上記出力制御手段から出力させ、上記
第2の計算機で障害が発生するまで上記出力制御手段に
上記第2のパッケージプログラムの出力を継続して出力
させ、上記第1のパッケージプログラムが運転を再開し
上記第2の計算機で障害が発生した場合に、上記第2の
パッケージプログラムの出力に代えて、上記第1のパッ
ケージプログラムの出力を上記出力制御手段から出力さ
せるマネージャを備えたものである。
代えて、上記複数の計算機のそれぞれのクラスタデーモ
ンから監視の結果を受け取るとともに、上記クラスタデ
ーモンを制御して、上記第1の計算機に障害が発生した
場合に、上記第2の計算機に上記第2のパッケージプロ
グラムを運転させるとともに、上記複数の計算機のうち
の第3の計算機に上記第1のパッケージプログラムを起
動状態で待機させるマネージャを備えたものである。
のそれぞれで起動されるパッケージプログラムのそれぞ
れの優先順位を記憶する管理テーブルを備え、上記マネ
ージャに代えて、上記複数の計算機のそれぞれのクラス
タデーモンから監視の結果を受け取るとともに、上記ク
ラスタデーモンを制御して、上記第1の計算機に障害が
発生した場合に、上記管理テーブルから上記第1の計算
機で運転されていた上記パッケージプログラムよりも優
先順位の低いパッケージプログラムを検索し、この優先
順位の低いパッケージプログラムの運転を停止させると
ともに、上記優先順位の低いパッケージプログラムを運
転していた計算機で上記第1の計算機で運転されていた
パッケージプログラムを起動させるマネージャを備えた
ものである。
を構成する複数の計算機のうちの1つの計算機に障害が
発生した場合に、上記障害が発生した計算機で運転中の
アプリケーションや各種のサービスを提供するパッケー
ジプログラムを他の計算機で運転させるクラスタシステ
ムにおいて、上記複数の計算機はそれぞれ、自己の計算
機の障害及び回復を監視するとともに、上記パッケージ
プログラムの起動及び運転を制御するクラスタデーモン
を備え、上記複数の計算機のうち1つの計算機は、上記
クラスタデーモンに加えて、上記複数の計算機のそれぞ
れで起動されるパッケージプログラムのそれぞれの優先
順位及び上記複数の計算機のそれぞれの負荷を記憶する
管理テーブルと、上記複数の計算機のそれぞれのクラス
タデーモンから監視の結果を受け取るとともに、上記ク
ラスタデーモンを制御して、上記複数の計算機のうちの
第1の計算機の負荷があらかじめ定められた負荷よりも
大きくなった場合に、上記管理テーブルを参照し、上記
第1の計算機で運転しているパッケージプログラムのう
ちの優先順位の低いパッケージプログラムの運転を停止
させ、停止させたパッケージプログラムを上記複数の計
算機のうちの負荷があらかじめ定められた負荷よりも小
さい計算機で起動させるマネージャと、を備えたたもの
である。
に代えて、上記複数の計算機上で起動されるパッケージ
プログラムのそれぞれの優先順位を記憶する管理テーブ
ルを備え、上記クラスタデーモンは、自己の計算機のリ
ソースを監視し、上記マネージャに代えて、上記複数の
計算機のそれぞれのクラスタデーモンから監視の結果を
受け取るとともに、上記クラスタデーモンを制御して、
上記クラスタデーモンにより監視されたリソースに変化
が生じた場合に、上記優先順位に基づいて、上記複数の
計算機のそれぞれで運転されているパッケージプログラ
ムのそれぞれにリソースを割り当て直すマネージャを備
えたものである。
れぞれによって並列に運転される複数の上記パッケージ
プログラムを1つのグループとするグループ名を記憶す
る管理テーブルを備え、上記マネージャに代えて、上記
複数の計算機のそれぞれのクラスタデーモンから監視の
結果を受け取るとともに、上記クラスタデーモンを制御
して、上記複数の計算機のうちの第1の計算機に障害が
発生した場合に、上記管理テーブルから、上記複数の計
算機のうちの計算機であって上記第1の計算機上で運転
されていたパッケージプログラムと同じグループのパッ
ケージプログラムを運転していない計算機を検索し、検
索された計算機で上記第1の計算機が運転していたパッ
ケージプログラムを起動させ、運転させるマネージャを
備えたものである。
て、図1乃至図5に基づいて説明する。図1において、
計算機A〜N(101a〜101n)はクラスタを構成
する複数の計算機である。各計算機上では、clust
er daemonA〜N(102a〜102n)が実
行されており、各cluster daemonにより
各パッケージプログラムA1〜N2(103a1〜10
3n2)が起動される。パッケージプログラムとは、ア
プリケーションやサービスの総称である。また、各cl
uster daemonは、実行している計算機上の
リソース(CPU,LAN,Disk,パッケージプロ
グラム,ネットワークアドレスなど)を監視制御し、そ
のデータを各計算機上にローカルデータA〜N(104
a〜104n)として保持している。マネージャ105
は、各計算機上のcluster daemonと通信
を行なうことにより、クラスタシステム全体の監視制御
を行なうものであり、グローバルデータ106を保持し
ている。グローバルデータ106は、クラスタ内の計算
機のどこからでも参照することができるデータであり、
共有ディスクや共有メモリ、メモリのレプリケーション
などにより実現されている。また、マネージャ105
は、クラスタシステム内のパッケージの1つであり、マ
ネージャやマネージャを実行している計算機に障害が発
生した場合、cluster daemonにより他の
計算機上で再起動される。
説明する。図において、要求処理機構201は、ユーザ
からの要求(D201:リソース状態取得要求、リソー
ス制御要求、通知設定要求)を受信し、要求に応じた処
理を行ない(D202,D203,D204)、ユーザ
に処理結果(D205)を送信する機構である。リソー
ス制御機構202は、要求処理機構201からの要求
(D204)を受け、要求の対象となるリソースを保持
している計算機をリソース状態DB(203)を参照
(D206)することにより決定し、その計算機に対し
てリソースの制御要求(D207)を送信するものであ
る。リソース状態監視機構204は定期的にクラスタ内
の各リソースに対し、リソースを保持している計算機に
リソース状態取得要求(D208)を送信し、その回答
であるリソース状態(D209)を受信し、リソース状
態DB(203)を参照(D210)し、リソースの状
態が変化した時にリソース状態変化処理機構205に通
知(D211)するものである。リソース状態変化処理
機構205は、リソース状態監視機構204からの通知
(D211)を受け、リソース状態DB(203)を更
新(D212)するとともに、通知設定DB(207)
を参照(D213)し、通知設定がされていればリソー
ス状態変化通知機構208に通知(D214)するもの
である。通知設定機構206は、要求処理機構201か
らの要求(D202)に従い、通知設定DB(207)
を更新(D215)し、リソース状態DB(203)を
参照(D216)し、現在の状態をリソース状態変化通
知機構208に通知(D217)するものである。リソ
ース状態変化通知機構208は、リソース状態変化処理
機構205、または通知設定機構206からの通知(D
214、D217)を受け、設定を行なったユーザに対
してリソース状態変化通知(D218)を送信するもの
である。通信制御機構209は、ユーザ、cluste
r daemonとの送受信を制御するものである。リ
ソース状態DB(203)は、リソースの名前、状態、
保持している計算機などの情報を格納しているデータベ
ースである。通知設定DB(207)は、マネージャと
接続しているどのユーザに対して、どのリソースの状態
が変化した時に通知を行なうかについての情報を格納し
ているデータベースである。
ージャの処理動作について、図3に基づいて説明する。
まず、ステップ301において、ユーザからの要求(D
201)を待ち、ステップ302において、ユーザから
の要求(D201)の種類を判別する。ユーザからの要
求がリソースの状態取得であった場合、ステップ303
において要求処理機構201はリソース状態DBを参照
(D203)し、要求のあったリソースの状態を取得す
る。ステップ304において、要求処理機構201がユ
ーザへリソースの状態を送信(D205)し、ステップ
301に戻る。一方、ユーザからの要求がリソースの制
御であった場合、ステップ305において、リソース制
御機構202は要求処理機構201から要求(D20
4)を受け、リソース状態DBを参照(D206)し、
要求のあったリソースの状態を保持している計算機を取
得する。ステップ306において、リソース制御機構2
02はステップ305で取得した計算機へ制御要求(D
207)を送信する。ステップ307において、要求処
理機構201はステップ306のリソース制御機構20
2の処理結果をユーザへ送信(D205)し、ステップ
301に戻る。ユーザからの要求がリソースの状態変化
通知の設定であった場合、ステップ308において、通
知設定機構206は通知設定DBを更新(D215)す
る。ステップ309において、要求処理機構201はリ
ソース制御機構202を起動する(D204)とともに
ユーザへ処理結果を送信(D205)する。ステップ3
10において、通知設定機構206はリソース状態DB
(203)より現在のリソースの状態を取得(D21
6)する。ステップ311において、リソース状態変化
通知機構208は通知設定機構206からの通知(D2
17)を受け、ステップ310で取得したリソースの状
態をユーザへ通知(D218)し、ステップ301に戻
る。ステップ310においてユーザへの通知を行なうの
は、現在のリソースの状態(ユーザにとっての初期値)
を返すためである。
ついて、図4に基づいて説明する。ステップ401にお
いて、ステップ402以降の処理を全リソースについて
行なう。ステップ402において、リソース状態監視機
構204はリソースの状態をそのリソースを保持してい
る計算機より取得(D208,D209)する。ステッ
プ403において、リソース状態監視機構204はリソ
ース状態DB(203)を参照(D210)し、その状
態と取得したリソースの状態が同じであれば、ステップ
401に戻り、それ以外ならばステップ404以降の処
理を行なう。ステップ404において、リソース状態変
化処理機構205はリソース状態監視機構204から通
知(D211)を受け、リソース状態DB(203)の
状態を取得したリソースの状態に更新(D212)す
る。ステップ405において、リソース状態変化処理機
構205は通知設定DBを参照(D213)し、そのリ
ソースの状態変化に対するユーザへの通知が登録されて
いればステップ406において、リソース状態変化通知
機構208はリソース状態変化処理機構205から通知
(D214)を受け、ユーザにリソースの状態変化を通
知(D218)し、それ以外ならば、ステップ401に
戻る。ステップ407において、一定時間停止する。
御用プロセスの構成例を示したものである。図におい
て、マネージャ105と同一の計算機A(101a)上
のプロセスA(501a)、クラスタ内の他の計算機B
(101b)上のプロセスB(501b)、WSなどの
ようなクラスタ外の計算機C(502)上のプロセスC
(501c)からクラスタ上の全リソースの監視制御を
行うことが可能となる。また、各パッケージプロセスは
マネージャ105に対してのみアクセスすればよく、マ
ネージャがどの計算機上で動作しているかを意識するこ
となく、クラスタの監視制御を行うことができる。
ついて、図6乃至図11に基づいて説明する。本実施形
態は図1のプロセス構成を変更したものであり、clu
ster daemonが他の計算機からアクセスでき
ない場合や、マネージャおよびネットワークの負荷を軽
くしたい場合の構成である。図6は、本実施形態におけ
るプロセス構成を示す図である。エージェントA〜N
(601a〜601n)は、各計算機上で実行されて、
各計算機上のcluster daemonおよびマネ
ージャと通信を行なうものである。尚、その他の要素
は、図1において同一番号を付したのものと同じ構成要
素である。
構成である。図2との相違点は、リソース状態監視機構
204を削除し、リソース状態変化処理機構205はエ
ージェントからの通知を受信(D701)するようにし
たこと、及びリソース制御機構202はcluster
daemonに対してではなくエージェントにリソー
ス制御要求を送信(D702)するようにしたことであ
る。
の構成を示す図である。各機構の動作は図2と同様であ
るが以下の点が異なっている。即ち、通知設定DB(2
07)、および通知設定機構206が削除され、要求処
理機構201に対する要求は、マネージャからのリソー
ス制御要求(D702)だけである。リソース制御機構
202は、リソース状態DB(203)を参照せずに、
動作している計算機上のcluster daemon
にリソース制御要求(D702)を送信する。リソース
状態変化処理機構205は、通知設定DB(207)を
参照せずに全てのリソース状態監視機構204からの通
知(D211)をリソース状態変化通知機構208に通
知(D214)する。リソース状態変化通知機構208
は、ユーザに対してではなく、マネージャに対してリソ
ース状態変化通知(D701)を行う。リソース状態D
B(801)は、エージェントが実行されている計算機
が保持するローカルなリソース状態のみを管理してい
る。通信制御機構209の送信時にマネージャ105が
存在しなかった場合、そのデータはキューに保持され
る。ユーザからの要求があった場合におけるマネージャ
の処理は、図3と同様である。
ソースの監視処理について説明する。ステップ1001
において、リソース状態監視機構204はエージェント
からのリソース状態変化通知(D701)を待つ。ステ
ップ1002〜1004は、図4におけるステップ40
4〜406と同様である。
について、図11に基づいて説明する。ステップ110
1において、ステップ1102以降の処理を計算機上の
全リソースについて行なう。ステップ1102におい
て、リソース状態監視機構204はリソースの状態をc
luster daemonより取得(D208,D2
09)する。ステップ1103において、リソース状態
監視機構204はリソース状態DBを参照(D210)
し、その状態と取得したリソースの状態が同じであれ
ば、ステップ1101に戻り、それ以外ならばステップ
1104以降の処理を行なう。ステップ1104におい
て、リソース状態変化処理機構205はリソース状態監
視機構204から通知(D211)を受け、リソース状
態DBの状態を取得したリソースの状態に更新(D21
2)する。ステップ1105において、リソース状態変
化通知機構208はリソース状態変化処理機構205か
ら通知(D214)を受け、マネージャにリソースの状
態変化を通知(D701)し、ステップ1101に戻
る。また、ステップ1106において一定時間停止す
る。
り、cluster daemonにリソースの状態変
化の通知を行なう機能がある場合のエージェントの構成
である。各機構の基本動作は図8と同様であるが、リソ
ース状態監視機構204、リソース状態DB(801)
を削除し、通知設定機構206を追加した点で異なって
いる。ここで、通知設定機構206はエージェントの起
動またはcluster daemonの起動時に全て
のリソースの状態変化を通知するようにcluster
daemonに通知設定要求(D901)を送信する
機構である。また、リソース状態変化処理機構205
は、cluster daemonからの通知(D90
2)を受け、リソース状態変化通知機構208に通知
(D903)する。
emonが同一計算機上のプロセスとしか通信できない
場合においても、同一計算機上のエージェントがclu
ster daemonと通信し、マネージャはエージ
ェントと通信するため、マネージャによるクラスタの集
中監視制御が可能となる。また、各エージェントがリソ
ースの状態を定期的に取得するようにしたので、負荷が
分散され、ネットワークを流れるデータが少なくなり、
マネージャ、ネットワークの負荷を軽くすることが可能
である。
ついて、図12、図13に基づいて説明する。本実施形
態は、図6のプロセス構成を変更したものであり、マネ
ージャを削除してエージェント同志が互いに通信し、グ
ローバルデータを参照するようにしたものである。次
に、図12に基づいてプロセス構成を説明する。エージ
ェントA〜N(601a〜601n)は、各エージェン
トA〜Nが搭載された計算機上で実行されるclust
er daemon、他の計算機上のエージェント、お
よびユーザと通信を行なうものである。グローバルデー
タ106は、各計算機からアクセス可能であり、各計算
機からのアクセスは排他的に行なわれる。エージェント
の構成は、図2のマネージャの構成と同様であるが、各
機構は以下の点で異なっている。リソース状態DB(2
03)、通知設定DB(207)に対するアクセスは、
各エージェントで排他をとりアトミックに行なわれる。
また、各エージェントのリソース状態監視機構204
は、各エージェントの実行されている計算機上のリソー
スのみの監視を行なう。また、リソース制御機構202
は、制御するリソースが計算機上に存在すれば、計算機
上のcluster daemonに送信し、存在しな
ければリソース状態DB(203)を参照して、そのリ
ソースを保持している計算機上のエージェントまたは、
cluster daemonに送信する。更に、通信
制御機構209における各ユーザからの受信、ユーザへ
の送信は各ユーザまたは各エージェントからの受信、ユ
ーザまたはエージェントへの送信となる。
の構成例を示す図である。ユーザプロセスA(130
1)は、エージェント601a〜601nの内のどれか
1つのエージェントを選び通信を行なう。ここで、図1
3(b)のようにエージェントに障害が発生した場合
は、他のエージェントを選び再接続する。ユーザプロセ
スB(1302)は、エージェント601a〜601n
の内のどれか2つのエージェントを選び通信を行なうも
のである。この場合には、図13(b)のように片方の
エージェントに障害が発生した場合でも、もう一方のエ
ージェントと通信を行なうことにより、処理を継続する
ことが可能である。以上の構成により、ユーザは、クラ
スタ内のどれか一つのエージェントと通信することによ
りクラスタの集中監視制御が可能となる。また、2つの
エージェントと通信することにより、エージェントに障
害が発生した場合の通信不能時間を短縮することが可能
となる。
ついて、図14、図15に基づいて説明する。本実施形
態は、図12においてマネージャ105を追加したもの
である。以下に、図14を用いてプロセス構成を説明す
る。ここで、エージェントA〜N(601a〜601
n)は、図12に記載のものと同様である。マネージャ
105は、ネットワークアドレスのみを持つパッケージ
プログラムとして構成され、ユーザはマネージャ105
にアクセスすることにより、クラスタ内のどれか1つの
エージェントに対しアクセスを行うことができる。
の構成例である。ユーザプロセスA(1501)は、マ
ネージャ105と通信を行なうものである。図15
(b)のようにマネージャ105に障害が発生した場合
は、他の計算機上でマネージャ105が再起動され、ユ
ーザプロセスA(1501)は、マネージャ105と再
接続される。ユーザプロセスB(1502)は、エージ
ェント601a〜601nの内のどれか2つのエージェ
ントを選び通信を行なうものである。図15(b)のよ
うに片方のエージェントに障害が発生した場合でも、も
う一方のエージェントと通信を行なうことにより、処理
を継続することが可能である。以上の構成により、ユー
ザは実施形態1、実施形態2のようにマネージャに対し
てのみアクセスを行なうか、または実施形態3のように
クラスタ内のどれか一つのエージェントにアクセスする
かの運用形態を適宜選択することが可能となる。また、
マネージャに対してのみアクセスを行なう場合、マネー
ジャはネットワークアドレスのみを有するパッケージプ
ログラムとして構成されるので、実施形態1、および2
と比べ短い時間でマネージャの移動が行なえるので、マ
ネージャに障害が発生した場合でも通信不能時間を短縮
することができる。
ついて、図16、図17に基づいて説明する。本実施形
態は図7のマネージャにおいて、マネージャに設定ファ
イルと自動制御機構を備えたものである。図16は、本
実施形態におけるマネージャの構成図である。図におい
て、設定ファイル1601はリソース状態の変化に基づ
いてシステムの自動制御を行なうためのものであり、リ
ソース名、イベント名、処理の組を記述したものであ
る。また、イベント名、処理中の変数名(attrib
ute)、およびコマンド名(method)はリソー
スの種類により決まるものであり、変数名は“リソース
名.変数名”と表記し、コマンド名は“リソース名−>
コマンド名”と表記する。自動制御機構1602は、設
定ファイル1601を読み込み(D1601)、リソー
ス状態変化処理機構205からの通知(D1602)を
受けた時に、リソース状態DB(203)を参照(D1
603)し、設定ファイル1601の定義に従い、リソ
ース制御機構202にリソース制御要求(D1604)
を送信する機構である。
た図である。図において、pkg1,pkg2はリソー
ス名であり、リソースの種類はパッケージである。1〜
3行目はコメントである。5〜9行目はpkg1が停止
した時にpkg2が起動されていなければpkg2を起
動するための定義である。11〜15行目はpkg1が
起動した時にpkg2がpkg1と同じ計算機上で起動
されていればpkg2を停止するための定義である。1
7〜21行目はpkg2が起動した時にpkg1がpk
g2と同じ計算機上で起動されていればpkg2を停止
する(pkg2の起動を中止する)ための定義である。
以上の定義では、pkg1とpkg2が同じ計算機上で
は動作しないようにし、同じ計算機上で動作しようとし
た場合にはpkg1を優先するようなシステムとなる。
本設定ファイルではパッケージに対する制御を例とした
が、もちろん他のリソースに対する制御を行なっても良
い。また、本実施形態では実施形態2のマネージャにつ
いて説明したが、実施形態1、実施形態4に記載のマネ
ージャに対して実施しても良い。
ついて、図18に基づいて説明する。本実施形態は図1
7の設定ファイルの変形例に関するもので、パッケージ
間の相関関係や優先順位の設定を可能としたものであ
る。設定ファイルにパッケージ名とパッケージの実行可
能条件の組の記述を加えたものであり、自動制御機構は
設定ファイルの設定に従いリソース制御機構により、リ
ソースの制御を可能としたものである。パッケージの実
行可能条件はパッケージ名、|、&、!の列であり、パ
ッケージ名は同じ計算機上でそのパッケージが起動して
いることを条件とし、|、&、!は条件の論理和、論理
積、論理否定を表す。また、記述した順番によりパッケ
ージの優先順位は定義されるものとする。
目はコメントである。2行目は、pkg1は同じ計算機
上でpkg2が動作していてはいけないことを定義して
いる。3行目は、pkg2とpkg1が同じ計算機上で
動作することを禁止するための定義である。4行目は、
pkg3はpkg1またはpkg2が、同じ計算機上で
動作しなければならないことを定義している。以上の定
義によれば、pkg3は同じ計算機上でpkg1または
pkg2のどちらか片方のみが動作している計算機上で
実行されるようなシステムとなる。
ついて、図19乃至図21に基づいて説明する。本実施
形態は、図7のマネージャ構成にモード管理機構を備え
たものである。同じパッケージプログラムが複数の計算
機上で実行可能な場合に、各パッケージプログラムに”
運転”、”待機”、”試験”などのモードの情報を付加
し、モードの情報に基づいてパッケージプログラムの動
作を変更するようなマネージャを実現する。
の構成を示す図である。モード管理機構1901はリソ
ース状態変化処理機構205からの通知(D1901)
を受け、リソース状態DB203を参照(D1902)
し、図20に示すような動作を行うようにリソース制御
機構202に対しリソース制御要求(D1903)を送
信する機構である。
状態遷移を示す図である。モードが停止のパッケージプ
ログラムは”運転”、”待機”、”試験”のモードを指
定して起動することによって各状態に遷移し、各状態か
らは、停止または、障害発生時にモードが”停止”の状
態に遷移する。また、モードが”待機”中のパッケージ
プログラムは、”運転”中の他のパッケージプログラム
が停止した場合に、”運転”のモードに状態遷移する。
また、モード状態が”運転”のパッケージは、常にクラ
スタ内で1つであるように制御される。
運用例を示す図である。図において、パッケージA(2
101,2102)は同一のパッケージであり、各計算
機上で実行されている。図21(a)のように計算機1
上のパッケージA(2101)のモードを”運転”と
し、計算機2上のパッケージA(2102)のモード
を”待機”としていた場合、計算機1に障害が発生した
時(図21(b))、計算機2上のパッケージA(21
02)のモードを”運転”とし処理を継続する(図21
(c))。計算機1が再起動された時には、クラスタ内
に運転のパッケージA(2102)があるため、計算機
1上では、パッケージA(2101)のモードを待機と
して再起動する(図21(d))。以上のような構成を
とることにより、パッケージの再起動を行なうよりも短
時間で切替を行なうことが可能となる。本実施形態では
モードの状態として、”運転”、”待機”、”試験”を
定義したが、他の状態を定義してもよい。また、本実施
形態では実施形態2のマネージャを用いているが、勿
論、実施形態1、実施形態4、実施形態5のマネージャ
を使用しても良い。
ついて、図22に基づいて説明する。本実施形態は、図
7のマネージャ構成にログ管理機構を備えたものであ
る。本実施形態におけるマネージャの構成を図22に示
す。図において、ログ管理機構2201は、リソース状
態変化処理機構205からリソースの状態変化の通知
(D2201)を受けログDB(2202)を更新(D
2202)する。この時、ログのデータは時系列に並ぶ
ように制御する。また、要求処理機構201からの要求
(D2203)を受け、ログDB(2202)を参照
(D2204)し、ログデータを返す。ログDB(22
02)には、クラスタ内の全リソースの全イベントと発
生した時間が保存される。以上の構成により、ユーザは
マネージャに対してアクセスするだけでクラスタ内で発
生した全イベントの情報を取得することが可能となる。
また、本実施形態では、実施形態2のマネージャについ
て説明したが、勿論、実施形態1、実施形態4、実施形
態5、実施形態7のマネージャを使用しても良い。
について、図23〜図26に基づいて説明する。本実施
形態は、図1に示したクラスタシステムのマネージャ1
05の代わりに用いられ、各パッケージをモードで管理
する機能を有するマネージャを備えたものである。な
お、以降、計算機A101a〜計算機N101nのうち
どれかを特定しないときは計算機101といい、クラス
タデーモンA102a〜N102nを特定しないときは
クラスタデーモン102.、パッケージ103a1〜1
03n2のうちどれかを特定しないときはパッケージ1
03という。
23に示す。図23において、通知処理機構2301
は、クラスタデーモン102からのリソース状態変化通
知を受信し(D2301)、モード管理機構2302に
受け取ったリソース状態変化通知を送る(D2302)
機構である。リソース状態変化通知(D2301)は、
計算機101が停止したときなど、システム全体のリソ
ースに変化があったときに、当該リソースを管理するク
ラスタデーモン102から送信される通知である。モー
ド管理機構2302は、通知処理機構2301からのリ
ソース状態変化通知(D2302)を受け、管理テーブ
ル2303を参照/更新し、モード制御機構2304に
モード制御要求(D2304)を送信する機構である。
モード制御機構2304は、モード管理機構2302か
らのモード制御要求(D2304)を受信し、クラスタ
デーモン102またはパッケージ103に対してモード
制御要求を送信する(D2305)機構である。
の例を示す。管理テーブル2303には、パッケージ名
とモードの状態、例えば「運転」、「待機」、「停止」
等が保持されている。図25は、図23のマネージャ1
05の処理を説明するフローチャートである。
5の動作について説明する。ステップ2501におい
て、モード管理機構2302は管理テーブル2303の
初期化を行う。次に、ステップ2502において、通知
処理機構2301はクラスタデーモン102からのリソ
ース状態変化通知(D2301)を待ち、受信したらモ
ード管理機構2302へリソース状態変化通知(D23
02)を送信する。続いて、ステップ2503におい
て、モード管理機構2302はリソース状態変化通知
(D2302)の種類を判別する。リソース状態変化通
知(D2302)が計算機101の起動である場合には
ステップ2507へ進み、計算機101の停止である場
合にはステップ2504へ進む。計算機の停止であった
場合、ステップ2504において、モード管理機構23
02は、管理テーブル2303を更新し、停止した計算
機101上で運転または待機していたすべてのパッケー
ジ103のモードを「停止」に書き換える。
が「待機」のパッケージ103があるかを調べる。この
とき、複数種類のパッケージ103が計算機上で実行さ
れている場合には、停止したパッケージ103と同種類
のパッケージ103であってモードが「待機」であるパ
ッケージ103があるかを調べる。そのために、図24
に示した管理テーブル2303に、パッケージ103が
実行されている計算機の情報及びパッケージ103の種
類の情報を追加してもよい。ステップ2505で、モー
ドが「待機」のパッケージ103がなかった場合にはス
テップ2502に戻る。ここで、モードが「待機」のパ
ッケージ103がなかった場合には、運転している他の
計算機101上で停止したパッケージ103と同種類の
パッケージを起動してもよい。
った場合には、ステップ2506において、モード管理
機構2302は、モード制御機構2304へ「運転」を
指示するモード制御要求(D2304)を送る。そし
て、モード制御機構2304がクラスタデーモン102
を介し、ステップ2505で見つけたパッケージ103
へモード制御要求(D2304)を送信することによ
り、待機していたパッケージ103を運転させる。
管理機構2302は管理テーブル2303を更新する。
すなわち、ステップ2506で運転を指示したパッケー
ジ103についての管理テーブル2303のモードを
「運転」に書き換える。ステップ2510が終了する
と、ステップ2502に戻る。
算機101の起動であると判断された場合には、ステッ
プ2507において、モード管理機構2302はモード
制御機構2304にモード制御要求(D2304)を送
り、起動した計算機101上において停止していたパッ
ケージ103を待機の状態で起動する。次に、ステップ
2508において、管理テーブル2303を参照し、モ
ードが「運転」のパッケージ103があるかどうかを調
べる。ここで、複数種類のパッケージ103が存在する
場合では、ステップ2507で起動したパッケージ10
3と同種類のパッケージ103であってモードが「運
転」であるパッケージ103があるかどうかを調べる。
がある場合には、ステップ2510において、モード管
理機構2302は管理テーブル2303を更新する。す
なわち、ステップ2507で起動したパッケージ103
についての管理テーブル2303のモードを「待機」に
書き換える。ステップ2510が終了すると、ステップ
2502に戻る。
103がない場合には、ステップ2509において、モ
ード管理機構2302は、モード制御機構2304へ
「運転」を指示するモード制御要求(D2304)を送
る。そして、モード制御機構2304がクラスタデーモ
ン102を介し、ステップ2508で見つけたパッケー
ジ103にモード制御要求(D2305)を送信するこ
とにより、待機していたパッケージ103を運転させ
る。次に、ステップ2510において、モード管理機構
2302は管理テーブル2303を更新する。すなわ
ち、ステップ2509で運転を指示したパッケージ10
3についての管理テーブル2303のモードを「運転」
に書き換える。ステップ2510が終了すると、ステッ
プ2502に戻る。
明する図である。図26において、図1と同一の符号は
同一または相当の部分を表している。まず、最初に図2
6(a)に示すように、第1の計算機である計算機A1
01a上で第1のパッケージであるパッケージA103
aが実行されており、第2の計算機である計算機B10
1b上で第2のパッケージであるパッケージB103b
が待機している状態で、図26(b)に示すように計算
機A101aが停止したとすると、上述のようにマネー
ジャ105が動作し、図26(c)に示すように、ただ
ちに計算機B101b上で待機していたパッケージB1
03bが実行、すなわち運転状態となる。このときパッ
ケージA103aからパッケージB103bへの切り替
わりは、パッケージB103bが待機状態で待っていた
め、起動にかかる時間が省かれ、高速に行うことができ
る。そして、計算機A101aが停止状態から復帰し正
常に動作し始めると、計算機A101a上では先ほど停
止したパッケージA103aが起動し、待機状態とな
る。ここで、計算機A101aが障害から復帰した後
も、ただちにパッケージB103bからパッケージA1
03aに処理を切り替えるのではなく、パッケージA1
03aを待機状態とするため、新たに切り替え処理が発
生せず、システム全体として処理が高速に実行される。
れば、クラスタシステム上で運転/待機といったモード
により管理される2重系のシステムを構築することがで
き、パッケージの再起動を行うよりも短い時間で切り替
えを行うことができる。
形態について、図27〜図30に基づいて説明する。本
実施形態は、図1に示したクラスタシステムのマネージ
ャ105の代わりに用いられ、各パッケージ103の出
力を管理する機能を有するマネージャを備えたものであ
る。本実施形態におけるマネージャの構成を図27に示
す。図27において、図23と同一の符号は同一又は相
当の部分を表す。出力管理機構2701は、通知処理機
構2301からのリソース状態変化通知(D2302)
を受け、管理テーブル2702を参照/更新し、出力抑
止機構(2703)に出力抑止/解除要求を送る(D2
702)機構である。出力抑止機構2703は、出力管
理機構2701からの出力抑止/解除要求(D270
2)を受信し、クラスタデーモン102またはパッケー
ジ103に対して出力抑止/解除要求を送信する(D2
703)機構である。
の例を示す。管理テーブル2702には、パッケージ名
と出力抑止の状態、例えば抑止、解除が保持されてい
る。図29は、図27のマネージャ105の処理を説明
するフローチャートである。
のマネージャ105の動作について説明する。ステップ
2901において、出力管理機構2701は管理テーブ
ル2702の初期化を行う。次に、ステップ2902に
おいて、通知処理機構2301はクラスタデーモン10
2からのリソース状態変化通知(D2301)を待ち、
受信したら出力抑止機構2703へリソース状態変化通
知(D2301)を送信する。続いて、ステップ290
3において、出力管理機構2701はリソース状態変化
通知(D2301)の種類を判別する。リソース状態変
化通知(D2301)が計算機101の起動である場合
にはステップ2907へ進み、計算機101の停止であ
る場合にはステップ2904へ進む。計算機の停止であ
った場合、ステップ2904において、出力管理機構2
701は、管理テーブル2702を更新し、停止した計
算機105上のすべてのパッケージ103にかかる出力
抑止状態を「抑止」に書き換える。
理機構2701は、出力抑止状態が「抑止」のパッケー
ジ103があるかを調べる。このとき、複数種類のパッ
ケージ103が計算機上で実行されている場合には、抑
止したパッケージ103と同種類のパッケージ103で
あって出力抑止状態が「抑止」であるパッケージ103
があるかを調べる。そのために、図28に示した管理テ
ーブル2702に、パッケージ103が実行されている
計算機の情報及びパッケージ103の種類の情報を追加
してもよい。ステップ2905で、出力抑止状態が「抑
止」のパッケージ103がなかった場合にはステップ2
902に戻る。ここで、出力抑止状態が「抑止」のパッ
ケージ103がなかった場合には、運転している他の計
算機101上で、ステップ2904において抑止された
パッケージ103と同種類のパッケージを起動してもよ
い。
3があった場合には、ステップ2906において、出力
管理機構2701は、出力抑止機構2703へ「解除」
を指示する出力抑止解除要求(D2702)を送る。そ
して、出力抑止機構2703がクラスタデーモン102
を介し、ステップ2905で見つけたパッケージ103
へ出力抑止解除要求(D2703)を送信することによ
り、出力が抑止されていたパッケージ103が出力を開
始する。
理機構2701は管理テーブル2702を更新する。す
なわち、ステップ2906で出力抑止解除を指示したパ
ッケージ103についての管理テーブル2702の出力
抑止状態を「解除」に書き換える。ステップ2910が
終了すると、ステップ2902に戻る。
算機101の起動であると判断された場合には、ステッ
プ2907において、出力管理機構2701は出力抑止
機構2703に出力抑止解除要求(D2702)を送
り、起動した計算機101上において、パッケージ10
3を出力が抑止された状態で起動する。次に、ステップ
2908において、管理テーブル2702を参照し、出
力抑止状態が「解除」のパッケージ103があるかどう
かを調べる。ここで、複数種類のパッケージ103が存
在する場合では、ステップ2907で起動したパッケー
ジ103と同種類のパッケージ103であって出力抑止
状態が「解除」であるパッケージ103があるかどうか
を調べる。
103がある場合には、ステップ2910において、出
力管理機構2701は管理テーブル2702を更新す
る。すなわち、ステップ2907で起動したパッケージ
103についての管理テーブル2702の出力抑止状態
を「抑止」に書き換える。ステップ2910が終了する
と、ステップ2902に戻る。
ケージ103がない場合には、ステップ2909におい
て、出力管理機構2701は、出力抑止機構2703へ
「解除」を指示する出力抑止解除要求(D2702)を
送る。そして、出力抑止機構2703がクラスタデーモ
ン102を介し、ステップ2908で見つけたパッケー
ジ103に出力抑止解除要求(D2702)を送信する
ことにより、出力が抑止されていたパッケージ103が
出力を開始する。次に、ステップ2910において、出
力管理機構2701は管理テーブル2702を更新す
る。すなわち、ステップ2909で出力抑止解除を指示
したパッケージ103についての管理テーブル2702
の出力抑止状態を「解除」に書き換える。ステップ29
10が終了すると、ステップ2902に戻る。
明する図である。図30において、図1と同一の符号は
同一または相当の部分を表している。まず、最初に図3
0(a)に示すように、第1の計算機である計算機A1
01a上で第1のパッケージであるパッケージA103
aが実行されており、第2の計算機である計算機B10
1b上で第2のパッケージであるパッケージB103b
が実行されており、パッケージA103aは出力を行っ
ている、すなわち出力抑止解除状態であり、パッケージ
B103bは出力が抑止され、すなわち出力抑止状態で
ある。但し、パッケージA103aとパッケージB10
3bは、同じ入力データを受け取り、同様に動作してい
る。図30(a)に示す状態で、図30(b)に示すよう
に計算機A101aが停止したとすると、上述のように
マネージャ105が動作し、図30(c)に示すよう
に、ただちに計算機B101b上で出力を抑止していた
パッケージB103bが出力を開始する。このとき、パ
ッケージB103bはパッケージA103aと同様に動
作しているため、切り替えは一瞬で完了し、実施の形態
9に示したシステムよりもシステムの回復時間が速いと
いう特徴がある。そして、計算機A101aが停止状態
から復帰し正常に動作し始めると、計算機A101a上
では先ほどダウンしたパッケージA103aが起動し、
再び動作し始める。このとき、出力は抑止された状態で
動作する。ここで、計算機A101aが障害から復帰し
た後も、ただちにパッケージB103bからパッケージ
A103aに処理を切り替えるのではなく、パッケージ
A103aを出力抑止状態とするため、新たに切り替え
処理が発生せず、システム全体として処理が高速に実行
される。
抑止解除を行う手段であり、パッケージプログラムに設
けてもよいし、パッケージプログラムとは別のプロセ
ス、又はスレッドで実行されるプログラムであってもよ
い。パッケージ103が別のパッケージ103等の他の
プロセス、スレッド、若しくは周辺機器等のハードウェ
アコントローラと交信する場合には、出力制御手段を介
して交信を行うようにする。
れば、クラスタシステム上でFree Run Dualシステムを
構築することができ、パッケージの再起動を行うよりも
短い時間で切り替えを行うことができる。
形態について、図31〜図34に基づいて説明する。本
実施形態は、図1に示したクラスタシステムのマネージ
ャ105の代わりに用いられ、各パッケージをモードで
管理する機能を有するマネージャを備えたものである。
本実施形態におけるマネージャの構成を図31に示す。
図31において、パッケージ管理機構3101は、通知
処理機構2301からのリソース状態変化通知(D23
02)を受け、管理テーブル3102を参照/更新し、
パッケージ制御機構3103にパッケージ制御要求(D
3102)を送信する機構である。パッケージ制御機構
3103は、パッケージ管理機構3101からのパッケ
ージ制御要求(D3102)を受信し、クラスタデーモ
ン102またはパッケージ103に対してパッケージ制
御要求(D3103)を送信する機構である。
の例を示す。管理テーブル3102には、図32(a)に
示すように、パッケージ名、モードの状態、実行計算
機、グループ名が記憶されている第1のテーブルと、図
32(b)に示すように各計算機の動作状態、例えば「運
転」、「停止」の情報が記憶されている第2のテーブル
が保持されている。ここで、モードの状態の情報は例え
ば「運転」,「停止」,「待機」等の情報であり、実行
計算機の情報はパッケージ名で特定されるパッケージ1
03が、どの計算機101で実行されているかを示す情
報、グループ名は、パッケージの種類を示す情報であ
り、同一のグループ名が指定されたパッケージ同士は、
他のパッケージの処理を引き継ぐことができる。図33
は、図31のマネージャ105の処理を説明するフロー
チャートである。
5の動作について説明する。ステップ3201におい
て、パッケージ管理機構3101は管理テーブル310
2の初期化を行う。次に、ステップ3202において、
通知処理機構2301はクラスタデーモン102からの
リソース状態変化通知(D2301)を待ち、受信した
らパッケージ管理機構3101へリソース状態変化通知
(D2302)を送信する。続いて、ステップ3203
において、パッケージ管理機構3101はリソース状態
変化通知(D2302)の種類を判別する。リソース状
態変化通知(D2302)が計算機101の起動である
場合にはステップ3208へ進み、計算機101の停止
である場合にはステップ3204へ進む。計算機の停止
であった場合、ステップ3204において、パッケージ
管理機構3101は、管理テーブル3102を更新し、
停止した計算機105上で運転または待機していたすべ
てのパッケージ103のモードを「停止」に書き換え
る。
たパッケージのグループと同一のグループ内でモードが
「待機」のパッケージ103があるかを調べる。ステッ
プ3205で、モードが「待機」のパッケージ103が
なかった場合にはステップ3208に跳ぶ。
った場合には、ステップ3206において、パッケージ
管理機構3101は、パッケージ制御機構3103へ
「運転」を指示するパッケージ制御要求(D3102)
を送る。そして、パッケージ制御機構3103がクラス
タデーモン102を介し、ステップ3205で見つけた
パッケージ103へパッケージ制御要求(D3102)
を送信することにより、待機していたパッケージ103
を運転させる。
ージ管理機構3101は管理テーブル3102を更新す
る。すなわち、ステップ3206で運転を指示したパッ
ケージ103についての管理テーブル3102のモード
を「運転」に書き換える。ステップ3210が終了する
と、ステップ3202に戻る。
ケージ管理機構3101は管理テーブル3102を参照
し、モードが「停止」であるパッケージを実行すること
ができる計算機101があるか否かを判断する。計算機
101がある場合には次のステップ3209に移り、な
い場合にはステップ3212へ跳ぶ。
理機構3101はパッケージ制御機構3103へ「待
機」を指示するパッケージ制御要求(D3102)を送
る。そして、パッケージ制御機構3103がステップ3
208で見つけた計算機101のクラスタデーモン10
2へパッケージ制御要求(D3103)を送信する。ク
ラスタデーモン102は、「待機」を指示するパッケー
ジ制御要求(D3103)を受け取ると、目的のパッケ
ージ103を待機状態で起動させる。次に、ステップ3
210において、パッケージ管理機構3101は管理テ
ーブル3102を参照し、ステップ3209で起動した
パッケージのグループと同一のグループでにモードが
「運転」であるパッケージがあるか否かを調べ、ある場
合にはステップ3212へ跳び、ない場合には、次のス
テップ3211へ移る。
ジ管理機構3101はパッケージ制御機構3103へ
「運転」を指示するパッケージ制御要求(D3102)
を送る。そして、パッケージ制御機構3103が、ステ
ップ3209で起動したパッケージ103を管理するク
ラスタデーモン102へパッケージ制御要求(D310
3)を送信する。クラスタデーモン102は、「運転」
を指示するパッケージ制御要求(D3103)を受け取
ると、目的のパッケージ103の待機状態を解除し、運
転を開始させる。
ージ管理機構3101は管理テーブル3102を更新す
る。すなわち、ステップ3209、ステップ3211で
変更されたパッケージ103の状態を管理テーブル31
02に反映させる。ステップ3212が終了すると、ス
テップ3202に戻る。
明する図である。図34において、図1と同一の符号は
同一または相当の部分を表している。まず、最初に図3
4(a)に示すように、第1の計算機である計算機A1
01a上で第1のパッケージであるパッケージA103
aが運転されており、第2の計算機である計算機B10
1b上で第2のパッケージであるパッケージB103b
が待機しており、パッケージA103aとパッケージB
103bは同一のグループであるとする。図34(a)
に示す状態で、図34(b)に示すように計算機A10
1aが停止したとすると、上述のようにマネージャ10
5が動作し、図34(c)に示すように、ただちに計算
機B101b上で待機していたパッケージB103bが
実行、すなわち運転状態となり、パッケージA103a
の処理を引き継ぐ。このときパッケージA103aから
パッケージB103bへの切り替わりは、パッケージB
103bが待機状態で待っていため、起動にかかる時間
が省かれ、高速に行うことができる。そして、第3の計
算機である別の計算機C101c上では先ほど停止した
パッケージA103aと同一のパッケージ103が起動
し、待機状態となる。
れば、クラスタシステム上で運転/待機といったモード
により管理される2重系のシステムを構築することがで
き、パッケージの再起動を行うよりも短い時間で切り替
えを行うことができる。さらに、この実施の形態の構成
によれば、縮退運転時間を短くすることができるという
効果がある。すなわち、従来の2重系のシステムでは、
片方の計算機が停止した場合、その計算機の復旧作業を
行っている間は、1重系となり、その間にもう一方の計
算機が停止するとシステムダウンとなったが、この実施
の形態によれば、一方のパッケージが停止した場合、停
止したパッケージは他の計算機で起動されるため、1重
系となる時間はパッケージの再起動時間のみとなり、多
重障害によるシステムダウンを避けることができ、シス
テムの信頼性を高めることができる。
形態について、図35〜図37に基づいて説明する。本
実施形態のマネージャ105の構成は、図31に示した
ものと基本的に同様であるが、以下に説明するように各
構成で実行される処理が異なる。
する。図35は管理テーブル3102の記憶内容の例を
示す。この実施の形態の管理テーブル3102には、図
35(a)に示すように、パッケージ名、そのパッケージ
が実行されている実行計算機名が記憶された第3のテー
ブルと、図35(b)に示すように各計算機の動作状態、
例えば「運転」、「停止」の情報が記憶されている第2
のテーブルが保持されている。
5の動作について説明する。図33は、図31のマネー
ジャ105の処理を説明するフローチャートである。ス
テップ3501において、パッケージ管理機構3101
は管理テーブル3102の初期化を行う。次に、ステッ
プ3502において、通知処理機構2301はクラスタ
デーモン102からのリソース状態変化通知(D230
1)を待ち、受信したらパッケージ管理機構3101へ
リソース状態変化通知(D2302)を送信する。続い
て、ステップ3503において、パッケージ管理機構3
101はリソース状態変化通知(D2302)の種類を
判断する。リソース状態変化通知(D2302)が計算
機101の起動である場合にはステップ3507へ進
み、計算機101の停止である場合にはステップ350
4へ進む。計算機の停止であった場合、ステップ350
4において、パッケージ管理機構3101は、管理テー
ブル3102を参照し、空き計算機101を検索する。
空き計算機101が見つかった場合には、次のステップ
3506へ進み、空き計算機101がなかった場合に
は、ステップ3510へ跳ぶ。
ージ管理機構3101は、パッケージ制御機構3103
へ「運転」を指示するパッケージ制御要求(D310
2)を送る。そして、パッケージ制御機構3103がス
テップ3505で見つけた計算機101のクラスタデー
モン102へ、「運転」を指示するパッケージ制御要求
(D3103)を送る。このパッケージ制御要求(D3
103)を受け取ったクラスタデーモン102は、停止
した計算機101上で実行されていたパッケージ103
と同一のパッケージ103を起動させ、パッケージ10
3の実行を開始させる。次に、ステップ3510におい
て、パッケージ管理機構3101は管理テーブル310
2の内容を現在の計算機の状態に更新し、ステップ35
02へ戻る。
01の起動であると判断された場合には、ステップ35
07において、パッケージ管理機構3101は管理テー
ブル3102の内容を現在の計算機101の状態に更
新、すなわち、起動した計算機101にかかる状態の項
目を「運転」に書き換える。次に、ステップ3508に
おいて、停止しているパッケージ103があるかを、例
えば、実施の形態11で説明した図32(a)に示すよう
な第1のテーブルを参照することによって調べ、停止し
ているパッケージがある場合には、停止しているパッケ
ージ103を実行できる計算機101があるかを調べ
る。停止しているパッケージ103がない場合、若しく
は停止しているパッケージ103を実行できる計算機1
03がない場合には、上述のステップ3510へ跳び、
停止しているパッケージ103があり、かつ停止してい
るパッケージ103を実行できる計算機101がある場
合には、次のステップ3509へ進む。
理機構3101は、パッケージ制御機構3103へ「運
転」を指示するパッケージ制御要求(D3102)を送
る。そして、パッケージ制御機構3103がステップ3
508で見つけた計算機101のクラスタデーモン10
2へ、「運転」を指示するパッケージ制御要求(D31
03)を送信することにより、ステップ3508で見つ
けた計算機101上で、同じくステップ3508で見つ
けたパッケージ103を起動させるとともに、実行させ
る。ステップ3509が終了すると、上述のステップ3
510へ進む。
明する図である。図37において、図1と同一の符号は
同一または相当の部分を表している。まず、最初に図3
7(a)に示すように、計算機A101a上でパッケー
ジA103aが運転されており、計算機B101b上で
パッケージB103bが運転されており、パッケージA
103aとパッケージB103bは異なる種類のパッケ
ージ103であるとする。図34(a)に示す状態で、
図34(b)に示すように計算機A101aが停止した
とすると、上述のようにマネージャ105が動作し、パ
ッケージA103aが空き計算機N101n上で起動さ
れ、実行される。その後、図34(c)に示すように、
計算機A101aが起動すると、今度は計算機A101
aが空き計算機、すなわちバックアップ用の計算機とな
る。そして、図37(d)に示すように、今度は計算機B
101bが故障等により停止すると、上述のようにマネ
ージャ105が動作し、計算機B101b上で実行され
ていたパッケージB103bが、今度は空き計算機とな
っていた計算機A101a上で起動され、実行される。
れば、クラスタシステム上でシステムの状態によりパッ
ケージの移動先を変更するような多重系システムを構築
することができる。また、この実施の形態では、図37
(c)のように停止した計算機A101aが回復しても、
計算機A101aをバックアップして、パッケージA1
03aの実行を行った計算機N101nがそのまま実行
を続け、回復した計算機A101aは今度は他の計算機
のバックアップに回る。そのため、回復した計算機A1
01aが再びパッケージA103aを実行し、計算機N
101nが再びバックアップに回るようなシステムに比
べ、計算機の切り替え回数が減り、システム全体の処理
パフォーマンスが向上する。すなわち、処理を高速に実
行するとことができる。
形態について、図38及び図39に基づいて説明する。
本実施形態のマネージャ105の構成は、図31に示し
たものと基本的に同様であり、その処理は基本的に図3
6を用いて説明した実施の形態12と同様である。ただ
し、以下に説明するようにパッケージ103を起動する
計算機101を求める処理、すなわち、ステップ350
4及びステップ3508が異なる。
02について説明する。図38に管理テーブル3102
の記憶内容の例を示す。この実施の形態の管理テーブル
3102には、図38(a)に示すように、パッケージ
名、そのパッケージが実行されている実行計算機名、及
びそのパッケージのグループ名が記憶された第4のテー
ブルと、図38(b)に示すように各計算機の動作状態、
例えば「運転」、「停止」の情報が記憶されている第2
のテーブルが保持されている。
の動作について説明する。上述のように、この実施の形
態のマネージャ105の動作は、基本的に実施の形態1
2と同様であるため、異なる処理、すなわち、ステップ
3504及びステップ3508について以下に説明す
る。この実施の形態のステップ3504においては、パ
ッケージ管理機構3101は、管理テーブル3102を
参照し、空き計算機ではなく、停止した計算機101上
で実行されていたパッケージ103と同一のグループの
パッケージ103が実行されていない計算機101を検
索する。同一のグループのパッケージ103が実行され
ていない計算機101が見つかった場合には、次のステ
ップ3506へ進み、見つからなかった場合には、ステ
ップ3510へ跳ぶ。
においては、停止しているパッケージ103があるか
を、例えば、実施の形態11で説明した図32(a)に示
すような第1のテーブルを参照することによって調べ、
停止しているパッケージがある場合には、停止している
パッケージ103を実行できる計算機101があるかを
調べる。停止しているパッケージ103がない場合、若
しくは停止しているパッケージ103を実行できる計算
機103がない場合には、上述のステップ3510へ跳
び、停止しているパッケージ103があり、かつ停止し
ているパッケージ103を実行できる計算機101があ
る場合には、次のステップ3509へ進む。ここで、実
行できる計算機101として、空き計算機101ではな
く、停止しているパッケージ103と同一のグループの
パッケージ103が実行されていない計算機101を見
つける。
明する図である。図39において、図1と同一の符号は
同一または相当の部分を表している。まず、最初に図3
9(a)に示すように、計算機A101a上でパッケー
ジA103aが運転されており、計算機B101b上で
パッケージB103bが運転されており、パッケージA
103aとパッケージB103bは、同一グループに指
定されたパッケージであり、一つのまとまった処理をそ
れぞれのパッケージで分散して行う、すなわち並列処理
するパッケージであり、計算機A101aで実行されて
いるパッケージC103cは、パッケージA103aと
パッケージB103bの出力をまとめるためのパッケー
ジであるとする。図34(a)に示す状態で、図34
(b)に示すように計算機A101aが停止したとする
と、上述のようにマネージャ105が動作し、パッケー
ジA103aが同一グループのパッケージB103bが
実行されている計算機B101bではなく、同一グルー
プのパッケージが実行されていない計算機N101nで
起動され、実行される。
れば、クラスタシステム上でロードシェアシステムを構
築することができ、負荷の分散を行うことができる。す
なわち、並行処理を行っている複数のパッケージ同士を
同一の計算機101上で起動しないことにより、切り替
え処理が実行された後も並列処理による高速処理を継続
することができる。
形態について、図40〜図42に基づいて説明する。本
実施形態のマネージャ105の構成は、図31に示した
ものと基本的に同様であるが、以下に説明するように各
構成で実行される処理が異なる。
する。図40は管理テーブル3102の記憶内容の例を
示す。この実施の形態の管理テーブル3102には、図
40(a)に示すように、パッケージ名、そのパッケージ
が実行されている実行計算機名、及びそのパッケージの
優先順位が記憶された第5のテーブルと、図40(b)に
示すように各計算機の動作状態、例えば「運転」、「停
止」の情報が記憶されている第2のテーブルが保持され
ている。
5の動作について説明する。図41は、図31のマネー
ジャ105の処理を説明するフローチャートである。ス
テップ4001において、パッケージ管理機構3101
は管理テーブル3102の初期化を行う。次に、ステッ
プ4002において、通知処理機構2301はクラスタ
デーモン102からのリソース状態変化通知(D230
1)を待ち、受信したらパッケージ管理機構3101へ
リソース状態変化通知(D2302)を送信する。続い
て、ステップ4003において、パッケージ管理機構3
101はリソース状態変化通知(D2302)の種類を
判断する。リソース状態変化通知(D2302)が計算
機101の起動である場合にはステップ4004へ進
み、計算機101の停止である場合にはステップ400
7へ進む。
01の起動であると判断された場合には、ステップ40
04において、パッケージ管理機構3101は管理テー
ブル3102を参照し、停止しているパッケージ103
を検索する。ここで、停止しているパッケージ103を
検索する方法の一例としては、図40(a)の第5のテー
ブルの実行計算機で指定された計算機が、図40(b)の
第2のテーブルにおいて「停止」となっているパッケー
ジ103、若しくは、図40(a)の第5のテーブルにパ
ッケージ名及び優先順位は指定されているものの、実行
計算機の項目にはどの計算機も指定されていないパッケ
ージ103を検索する方法がある。
ージ管理機構3101はステップ4004で停止してい
るパッケージが見つかったか否かを判断する。ここで、
停止しているパッケージがあった場合には、次のステッ
プ4006へ進み、ない場合にはステップ4012へ跳
ぶ。
ージ管理機構3101は、まず、停止しているパッケー
ジ103のうち一番優先順位の高いパッケージを探し、
パッケージ制御機構3103へ一番優先順位の高いパッ
ケージ103の「運転」を指示するパッケージ制御要求
(D3102)を送る。そして、パッケージ制御機構3
103が、新たに起動した計算機101のクラスタデー
モン102へ、「運転」を指示するパッケージ制御要求
(D3103)を送信することにより、新たに起動した
計算機101上で、停止しているパッケージ103のう
ち一番優先順位の高いパッケージ103が実行される。
ステップ4006が終了すると、次のステップ4012
へ移る。
ージ管理機構3101は管理テーブル3102の内容
を、現在の計算機及びパッケージの状態に合わせて更新
し、ステップ4002へ戻る。
あると判断された場合、ステップ4007において、パ
ッケージ管理機構3101は、管理テーブル3102を
参照し、停止した計算機101上で動作していたパッケ
ージを実行可能な計算機101を検索する。実行可能な
計算機101が見つかった場合には、次のステップ40
11へ進み、実行可能な計算機101がなかった場合に
は、ステップ4009へ跳ぶ。ここで、パッケージ10
3を実行できるか否かは、そのパッケージの実行に必要
なリソースと、対象計算機101の残りリソースを比較
することにより行い、計算機101にパッケージの実行
に必要なリソースが十分に残っている場合には実行可能
であるとし、残っていない場合には実行不能と判断す
る。
は、ステップ4009において、パッケージ管理機構3
101は管理テーブル3102を参照し、停止したパッ
ケージ103よりも優先順位の低いパッケージ103で
停止可能なパッケージ103があるか否かを調べる。停
止可能なパッケージがあった場合には、ステップ401
0へ進み、ない場合には上述のステップ4012へ進
む。停止可能なパッケージがある場合には、ステップ4
010において、パッケージ管理機構3101は、パッ
ケージ制御機構3103へ「停止」を指示するパッケー
ジ制御要求(D3102)を送る。そして、パッケージ
制御機構3103がステップ4009で見つけたパッケ
ージ103を管理するクラスタデーモン102へ、「停
止」を指示するパッケージ制御要求(D3103)を送
る。このパッケージ制御要求(D3103)を受け取っ
たクラスタデーモン102は、ステップ4009で見つ
かったパッケージ103を停止させ、そのパッケージが
使用していたリソースを開放させる。このステップ40
10が終了すると、ステップ4011へ移る。
管理機構3101は、パッケージ制御機構3103へ、
停止したパッケージ103の「運転」を指示するパッケ
ージ制御要求(D3102)を送る。そして、パッケー
ジ制御機構3103が、ステップ4008で見つけた計
算機101、若しくはステップ4010でパッケージ1
03を停止させた計算機101のクラスタデーモン10
2へ、「運転」を指示するパッケージ制御要求(D31
03)を送る。このパッケージ制御要求(D3103)
を受け取ったクラスタデーモン102は、停止したパッ
ケージ103を起動し、運転を開始させる。ステップ4
011が終了すると、上述のステップ4012へ移る。
明する図である。図42において、図1と同一の符号は
同一または相当の部分を表している。まず、最初に図4
2(a)に示すように、計算機A101a〜計算機N1
01nのそれぞれでパッケージA103a〜パッケージ
N101nが運転されており、パッケージA103a〜
パッケージN101nはそれぞれ異なる種類のパッケー
ジ103であるとする。各パッケージの優先順位は、パ
ッケージA103aが最も高く、その次にパッケージB
103b、パッケージN101nが最も低いとする。図
42(a)に示す状態で、図34(b)に示すように第1
の計算機である計算機A101aが停止したとすると、
上述のようにマネージャ105が動作し、計算機N10
1n上で、パッケージA103aよりも優先順位の低い
パッケージN101nが停止され、代わりに停止したパ
ッケージA103aが起動され、実行される。
機A101aが回復し、起動すると、今度は計算機A1
01a上で、停止していたパッケージN101nが実行
される。そして、今度は図37(d)に示すように、計算
機B101bが故障等により停止すると、上述のように
マネージャ105が動作し、計算機A101aで実行さ
れていた優先順位の低いパッケージN101nが停止
し、その代わりに優先順位の高い停止したパッケージB
103bが起動され、実行される。
計算機N101nまでもが停止すると、パッケージA1
03aはパッケージB103bよりも優先順位が高いた
め、計算機A101a上で実行されていたパッケージB
103bが停止し、代わりにパッケージA103aが計
算機A101a上で起動され、実行される。その後、図
42(f)に示すように、計算機B101bが回復する
と、停止しているパッケージの中で一番優先順位の高い
パッケージB103bが、計算機B101b上で起動さ
れ、実行される。
れば、クラスタシステム上で多重縮退システムを構築す
ることができ、障害発生時にも重要な処理を優先的に行
うことができる。
形態について、図43〜図46に基づいて説明する。本
実施形態のマネージャ105の構成は、図31に示した
ものと基本的に同様であるが、以下に説明するように各
構成で実行される処理が異なる。
する。図43は管理テーブル3102の記憶内容の例を
示す。この実施の形態の管理テーブル3102には、図
43(a)に示すように、パッケージ名、そのパッケージ
が実行されている実行計算機名、のパッケージの優先順
位、及びそのパッケージの実行に必要な負荷が記憶され
た第6のテーブルと、図43(b)に示すように各計算機
の動作状態、例えば「運転」、「停止」の情報、及び各
計算機の最大許容負荷が記憶されている第7のテーブル
が保持されている。負荷の例としてはリソース、例え
ば、メモリ、CPU時間等がある。
5の動作について説明する。図41は、図31のマネー
ジャ105の処理を説明するフローチャートである。ス
テップ4301において、パッケージ管理機構3101
は管理テーブル3102の初期化を行う。次に、ステッ
プ4302において、通知処理機構2301はクラスタ
デーモン102からのリソース状態変化通知(D230
1)を待ち、受信したらパッケージ管理機構3101へ
リソース状態変化通知(D2302)を送信する。続い
て、ステップ4303において、パッケージ管理機構3
101はリソース状態変化通知(D2302)の種類を
判断する。リソース状態変化通知(D2302)が計算
機101の起動若しくは停止である場合にはステップ4
309へ進み、計算機101の負荷100%以上を伝え
る通知である場合には次のステップ4304へ進む。
%以上となった計算機101(以下、この実施の形態に
おいて、過負荷計算機という)上で動作していたパッケ
ージ103であって、処理を行っていないパッケージ1
03のうち優先度の低いものを選択し、そのパッケージ
103(以下、この実施の形態において選択パッケージ
という)について、以下のステップ4305〜4308
の処理を行う。
ッケージを停止する。すなわち、パッケージ管理機構3
101は、パッケージ制御機構3103へ選択パッケー
ジの停止を指示するパッケージ制御要求(D3102)
を送る。そして、パッケージ制御機構3103が、当該
選択パッケージを管理するクラスタデーモン102へ
「停止」を指示するパッケージ制御要求(D3103)
を送信することにより、この要求を受け取ったクラスタ
デーモン102が選択パッケージ停止させる。ここで、
選択パッケージを停止させることにより、過負荷計算機
のリソースが開放され、過負荷計算機の負荷が減少す
る。
ージ管理機構3101は、選択パッケージにかかる管理
テーブル2303の項目を更新、すなわち「停止」に書
き換える。ステップ4307において、過負荷計算機上
で動作する全パッケージについて、上述のステップ43
04〜4306の処理を行ったかを判断し、処理した場
合には、ステップ4310へ進み、処理していない場合
には、次のステップ4308へ移る。
算機の負荷が100以上であるかが調べられる。100
%以上である場合には、上述ステップ4304へ戻り、
100%未満である場合には、ステップ4310へ移
る。100%以上であるか否かは、パッケージ管理機構
3101が、管理テーブル2303を参照し、過負荷計
算機で運転或いは待機しているパッケージの負荷の合計
と、過負荷計算機の最大許容負荷とを比較することによ
り判断する。
算機の起動若しくは停止であると判断された場合には、
ステップ4309において、パッケージ管理機構310
1は、管理テーブル2303を更新し、当該計算機の項
目を通知の内容に応じて、「運転」若しくは「停止」に
書き換える。次に、ステップ4310において、パッケ
ージ管理機構3101は管理テーブル3102を参照
し、停止しているパッケージ103のうち最も優先順位
の高いもの(以下、この実施の形態において、優先パッ
ケージという)を検索する。
ージ管理機構3101は、管理テーブル2303を参照
し、優先パッケージを実行できる計算機101を選択す
る。ここで、計算機101の選択は、優先パッケージの
実行に必要な負荷、各計算機101の最大許容負荷、並
びに、各計算機101において運転又は待機しているパ
ッケージにかかる負荷を基準にして行われる。実行でき
る計算機101がない場合には選択は行われず、実行で
きる計算機がないという結果が得られる。
ップ4311で実行可能な計算機101があったか否か
が判断され、あった場合には次のステップ4313に移
り、ない場合にはステップ4316へ移る。次のステッ
プ4313においては、ステップ4311で選択された
計算機101上で、優先パッケージが起動される。すな
わち、パッケージ管理機構3101は、パッケージ制御
機構3103へ優先パッケージの「運転」を指示するパ
ッケージ制御要求(D3102)を送る。そして、パッ
ケージ制御機構3103が、ステップ4311で選択さ
れた計算機101のクラスタデーモン102へ、「運
転」を指示するパッケージ制御要求(D3103)を送
信することにより、当該計算機101上で、停止してい
るパッケージ103のうち一番優先順位の高いパッケー
ジ103が実行される。
ージ管理機構3101は管理テーブル2303を更新
し、管理テーブル2303の優先パッケージにかかる項
目、すなわち実行計算機を更新する。次に、ステップ4
315において、パッケージ管理機構3101は停止し
ているパッケージ103すべてについて、上述4310
からの処理、すなわちステップ4310〜4318の処
理を行ったかを判断し、すべてのパッケージ103につ
いて処理した場合には、ステップ4302へ移り、新た
なリソース状態変化通知(D2301)が来るのを待
つ、すべてのパッケージ103について処理が終わって
いない場合には、ステップ4310に戻る。
機101がないと判断された場合には、ステップ431
6において、パッケージ管理機構3101は管理テーブ
ル3102を参照し、停止しているパッケージ103よ
りも優先順位の低いパッケージ103で停止可能なパッ
ケージ103があるか否かを調べる。停止可能なパッケ
ージがあった場合には、ステップ4317へ進み、ない
場合には上述のステップ4315へ進む。停止可能なパ
ッケージがある場合には、ステップ4317において、
パッケージ管理機構3101は、パッケージ制御機構3
103へ「停止」を指示するパッケージ制御要求(D3
102)を送る。そして、パッケージ制御機構3103
がステップ4316で見つけたパッケージ103を管理
するクラスタデーモン102へ、「停止」を指示するパ
ッケージ制御要求(D3103)を送る。このパッケー
ジ制御要求(D3103)を受け取ったクラスタデーモ
ン102は、ステップ4316で見つかったパッケージ
103を停止させ、そのパッケージが使用していたリソ
ースを開放させる。次に、ステップ4318において、
パッケージ管理機構3101は、管理テーブル2303
を更新し、ステップ4317で停止させたパッケージに
かかる項目を現在の状態に書き換える。ステップ431
1が終了すると、上述のステップ4311へ移り、上述
のような新たなリソースの開放、或いは優先パッケージ
の起動の処理を行う。
明する図である。図45において、図1と同一の符号は
同一または相当の部分を表している。まず、最初に図4
5(a)に示すように、計算機A101a〜計算機N1
01nのそれぞれでパッケージA103a〜パッケージ
F101fが運転されており、パッケージA103a〜
パッケージF101fはそれぞれ異なる種類のパッケー
ジ103であるとする。各パッケージの優先順位は、パ
ッケージA103aが最も高く、その次にパッケージB
103b、以降順に、パッケージC101c、パッケー
ジD101d、パッケージE101e、パッケージF1
01fであるとする。また、パッケージA103aは計
算機A101aの負荷の40%を占めており、パッケー
ジB103b〜パッケージF101fはそれぞれ順番
に、実行される計算機101の負荷の40%、40%、
20%、20%、20%を占めている。図45(a)に
示す状態で、図45(b)に示すように第1の計算機で
ある計算機A101aがの負荷が100%以上となった
とすると、上述のようにマネージャ105が動作し、図
45(c)に示すように、計算機A101aで一番優先順
位の低い優先順位の低いパッケージD103dが停止
し、代わりに、負荷に余裕のある計算機B101b上で
パッケージD103dが起動し、実行を開始する。
他の例を説明する図である。図46において、図45と
同一の符号は同一または相当の部分を表している。図4
6(a)に示す状態で、図46(b)に示すように計算機A1
01aが停止して、パッケージA103a及びパッケー
ジD103dが停止したとする。すると、上述のように
マネージャ105が動作し、図46(c)に示すように、
停止したパッケージで優先順位の最も高いパッケージA
103aが計算機N101n上で起動し実行を開始す
る。このとき、優先順位の低いパッケージF103fは
停止する。一方、停止したパッケージの中で次に優先順
位の高いD101dは、負荷に余裕のある計算機B10
1bで起動され、実行される。また、パッケージF10
1fは負荷に余裕のある計算機101がなく、優先順位
も起動中の他のパッケージ103よりも低いため、起動
されない。
れば、自動負荷分散システムを構築することができ、負
荷を自動的に分散し、重要な処理のレスポンスの劣化を
防ぐことができる。
形態について、図47〜図49に基づいて説明する。本
実施形態は、図1に示したクラスタシステムのマネージ
ャ105の代わりに用いられ、各パッケージに割り当て
るリソースの量を、各パッケージの優先順位に基づいて
管理する機能を有するマネージャを備えたものである。
本実施形態におけるマネージャの構成を図47に示す。
図47において、図23と同一の符号は同一又は相当の
部分を表す。リソース割り当て管理機構4601は、通
知処理機構2301からのリソース状態変化通知(D2
301)を受け、管理テーブル4602を参照/更新
し、リソース割り当て制御機構4603にパッケージ制
御要求(D4603)を送信する機構である。リソース
割り当て制御機構4603は、リソース割り当て管理機
構4601からのパッケージ制御要求(D4602)を
受信し、クラスタデーモン102またはパッケージ10
3に対してパッケージ制御要求(D4603)を送信す
ることにより、残りのリソースをパッケージの優先順位
に応じた量だけ、そのパッケージ103に割り当てる機
構である。
の例を示す。管理テーブル4602には、図48に示す
ように、パッケージ名、実行計算機、優先順位が記憶さ
れている第8のテーブルが保持されている。ここで、実
行計算機の情報はパッケージ名で特定されるパッケージ
103が、どの計算機101で実行されているかを示す
情報である。図49は、図47のマネージャ105の処
理を説明するフローチャートである。
5の動作について説明する。ステップ4801におい
て、リソース割り当て管理機構4601は管理テーブル
4602の初期化を行う。次に、ステップ4802にお
いて、通知処理機構2301はクラスタデーモン102
からのリソース状態変化通知(D2301)を待ち、受
信したらリソース割り当て管理機構4601へリソース
状態変化通知(D2302)を送信する。
ース割り当て管理機構4601は、リソース状態変化通
知(D2302)に応じて、管理テーブル4602を更
新する。ステップ4804において、クラスタシステム
内の複数の計算機101のうちで、まだステップ480
5〜ステップ4808の処理を行っていない計算機を1
つ選択する(以下、この実施の形態において、この選択
された計算機を選択計算機という)。そして、選択計算
機について、以下のステップ4804〜ステップ480
7の処理を行う。
算機上で実行されているパッケージで、まだステップ4
806及びステップ4807の処理を行っていないパッ
ケージのうち優先順位の最も高いものを選択する(以
下、この実施の形態において、この選択されたパッケー
ジを選択パッケージという)。そして、選択パッケージ
について、以下のステップ4806及びステップ480
7の処理を行う。
ジに割り当てるリソースの量を選択計算機のリソースの
残量から計算する。例えば、 [割り当てるリソースの量]=[リソースの残量×0.
5] のような式により求める。そして、あらたなリソースの
残量を以下のように求める。 (新たな)[リソースの残量]=[リソースの残量]−
[割り当てるリソースの量]
ス割り当て管理機構4601は、リソース割り当て制御
機構4603へリソース割り当て制御要求(D460
2)を送り、リソース割り当て制御機構4603が、選
択計算機のクラスタデーモン102へリソース割り当て
制御要求(D4603)を送る。リソース割り当て制御
要求(D4603)を受け取ったクラスタデーモン10
2は、選択パッケージにステップ4806で計算された
[割り当てるリソースの量]のリソースを割り当てて、
選択パッケージを起動し、実行させる。
計算機上のすべてのパッケージ103について、上述ス
テップ4806〜ステップ4807の処理を実行したか
を判断し、実行していなかった場合には、ステップ48
05に戻り、上述の処理を繰り返す。一方、実行してい
た場合には、ステップ4809において、全計算機につ
いて、上述ステップ4804〜ステップ4808の処理
を実行したかを判断し、実行していない場合には、ステ
ップ4804に戻り上述の処理を繰り返す。実行した場
合には、ステップ4802に戻り、次のリソース状態変
化通知(D2301)を待つ。
すると、ステップ4804において、ステップ4805
〜ステップ4808の処理を行ったという情報はクリア
され、処理を行っていないものとして取り扱われる。そ
して、ステップ4802で新たにリソース状態変化通知
(D2301)を受け取った場合には、受け取る以前に
ステップ4805〜ステップ4807の処理を行った計
算機101についても、ステップ4805〜ステップ4
807の処理が実行される。ステップ4805のパッケ
ージ103の選択についても同様である。このようにし
て、クラスタシステムの最新のリソース状態に応じて、
パッケージ103にリソースを動的に割り当てる。
ース量の計算式は、パッケージ103の優先順位に応じ
て、優先順位が高いほど多くのリソースが割り当てられ
るような式であれば、他の式を用いてもよい。例えば、 [割り当てるリソースの量]=[リソースの残量]×(1/
[優先順位])×0.8 のような式を用いてもよい。
で、重要な処理のレスポンスの劣化を防ぐことができ、
あまり重要でない処理の継続もすることができる。
ているので、以下に示すような効果を奏する。
視制御を一括して行ない、パッケージプログラムはマネ
ージャに対してのみアクセスすれば良いようにしたの
で、障害発生時においても計算機上の動作環境を意識す
る必要がない。
グラムとして作成するようにしたので、マネージャある
いはマネージャが動作している計算機上に障害が発生し
ても、容易に他の計算機上で代替動作させることができ
る。
スを監視制御するエージェントをおくようにしたので、
マネージャやネットワークの負荷を軽減することができ
る。
通信し、グローバルデータを直接アクセスするようにし
たので、マネージャの搭載が不要となる。
ェントと通信し、各計算機上のエージェントが互いに通
信するようにしたので、パッケージプログラムはマネー
ジャ、およびエージェントのいずれに対してアクセスす
るかを選択することができる。
ログラム間の相互関係を定義した設定ファイルによる実
行環境を反映したシステム運転を行うようにしたので、
柔軟なシステム設計が可能となる。
を付加して管理するようにしたので、多重系システムか
らの移行、およびシステム運用が容易となる。
状態の変化を一括してログとして収集保存するようにし
たので、障害発生時の解析作業が容易となる。
数の計算機のうちの1つの計算機に障害が発生した場合
に、上記障害が発生した計算機で運転中のアプリケーシ
ョンや各種のサービスを提供するパッケージプログラム
を他の計算機で運転させるクラスタ制御システムにおい
て、上記複数の計算機はそれぞれ、自己の計算機の障害
及び回復を監視するとともに、上記パッケージプログラ
ムの起動及び運転を制御するクラスタデーモンを備え、
上記複数の計算機のうちの第1の計算機は、上記パッケ
ージプログラムである第1のパッケージプログラムを運
転し、上記複数の計算機のうちの第2の計算機は、上記
第1のパッケージプログラムと同じアプリケーションや
サービスを提供する第2のパッケージプログラムを起動
状態で待機させ、上記複数の計算機のうち1つの計算機
は、上記クラスタデーモンに加えて、上記複数の計算機
のそれぞれのクラスタデーモンから監視の結果を受け取
るとともに、上記クラスタデーモンを制御して、上記第
1の計算機に障害が発生した場合に、上記第2の計算機
に上記第2のパッケージプログラムを運転させるととも
に、上記第1の計算機が障害から回復した場合には、上
記第1の計算機に上記第1のパッケージプログラムを起
動状態で待機させるマネージャを備えたため、高速にシ
ステムを回復させることができ、回復後も高速に処理を
実行する事ができる。
出力若しくは上記第2のパッケージプログラムの出力の
いずれかを選択して出力する出力制御手段を有し、上記
第2の計算機は、上記第2のパッケージプログラムを起
動状態で待機させる代わりに、上記第2のパッケージプ
ログラムを運転し、上記マネージャに代えて、上記複数
の計算機のそれぞれのクラスタデーモンから監視の結果
を受け取るとともに、上記クラスタデーモンを制御し
て、上記第1のパッケージプログラムの出力が上記出力
制御手段から出力されているときに上記第1の計算機で
障害が発生した場合、上記第1のパッケージプログラム
の出力に代えて上記第2のパッケージプログラムの出力
を上記出力制御手段から出力させ、上記第2の計算機で
障害が発生するまで上記出力制御手段に上記第2のパッ
ケージプログラムの出力を継続して出力させ、上記第1
のパッケージプログラムが運転を再開し上記第2の計算
機で障害が発生した場合に、上記第2のパッケージプロ
グラムの出力に代えて、上記第1のパッケージプログラ
ムの出力を上記出力制御手段から出力させるマネージャ
を備えたため、高速にシステムを回復させることがで
き、回復後も高速に処理を実行する事ができる。
の計算機のそれぞれのクラスタデーモンから監視の結果
を受け取るとともに、上記クラスタデーモンを制御し
て、上記第1の計算機に障害が発生した場合に、上記第
2の計算機に上記第2のパッケージプログラムを運転さ
せるとともに、上記複数の計算機のうちの第3の計算機
に上記第1のパッケージプログラムを起動状態で待機さ
せるマネージャを備えたため、高速にシステムを回復さ
せることができ、回復後も高速に処理を実行することが
できる。
されるパッケージプログラムのそれぞれの優先順位を記
憶する管理テーブルを備え、上記マネージャに代えて、
上記複数の計算機のそれぞれのクラスタデーモンから監
視の結果を受け取るとともに、上記クラスタデーモンを
制御して、上記第1の計算機に障害が発生した場合に、
上記管理テーブルから上記第1の計算機で運転されてい
た上記パッケージプログラムよりも優先順位の低いパッ
ケージプログラムを検索し、この優先順位の低いパッケ
ージプログラムの運転を停止させるとともに、上記優先
順位の低いパッケージプログラムを運転していた計算機
で上記第1の計算機で運転されていたパッケージプログ
ラムを起動させるマネージャを備えたため、計算機がダ
ウンした後も、重要な処理を優先的に運転することがで
きる。
計算機のうちの1つの計算機に障害が発生した場合に、
上記障害が発生した計算機で運転中のアプリケーション
や各種のサービスを提供するパッケージプログラムを他
の計算機で運転させるクラスタシステムにおいて、上記
複数の計算機はそれぞれ、自己の計算機の障害及び回復
を監視するとともに、上記パッケージプログラムの起動
及び運転を制御するクラスタデーモンを備え、上記複数
の計算機のうち1つの計算機は、上記クラスタデーモン
に加えて、上記複数の計算機のそれぞれで起動されるパ
ッケージプログラムのそれぞれの優先順位及び上記複数
の計算機のそれぞれの負荷を記憶する管理テーブルと、
上記複数の計算機のそれぞれのクラスタデーモンから監
視の結果を受け取るとともに、上記クラスタデーモンを
制御して、上記複数の計算機のうちの第1の計算機の負
荷があらかじめ定められた負荷よりも大きくなった場合
に、上記管理テーブルを参照し、上記第1の計算機で運
転しているパッケージプログラムのうちの優先順位の低
いパッケージプログラムの運転を停止させ、停止させた
パッケージプログラムを上記複数の計算機のうちの負荷
があらかじめ定められた負荷よりも小さい計算機で起動
させるマネージャと、を備えたため、負荷を自動的に分
散し、重要な処理のレスポンスの劣化を防ぐことができ
る。
数の計算機上で起動されるパッケージプログラムのそれ
ぞれの優先順位を記憶する管理テーブルを備え、上記ク
ラスタデーモンは、自己の計算機のリソースを監視し、
上記マネージャに代えて、上記複数の計算機のそれぞれ
のクラスタデーモンから監視の結果を受け取るととも
に、上記クラスタデーモンを制御して、上記クラスタデ
ーモンにより監視されたリソースに変化が生じた場合
に、上記優先順位に基づいて、上記複数の計算機のそれ
ぞれで運転されているパッケージプログラムのそれぞれ
にリソースを割り当て直すマネージャを備えたため、重
要な処理のレスポンスの劣化を防ぐことができ、あまり
重要でない処理の継続もすることができる。
列に運転される複数の上記パッケージプログラムを1つ
のグループとするグループ名を記憶する管理テーブルを
備え、上記マネージャに代えて、上記複数の計算機のそ
れぞれのクラスタデーモンから監視の結果を受け取ると
ともに、上記クラスタデーモンを制御して、上記複数の
計算機のうちの第1の計算機に障害が発生した場合に、
上記管理テーブルから、上記複数の計算機のうちの計算
機であって上記第1の計算機上で運転されていたパッケ
ージプログラムと同じグループのパッケージプログラム
を運転していない計算機を検索し、検索された計算機で
上記第1の計算機が運転していたパッケージプログラム
を起動させ、運転させるマネージャを備えたため、シス
テムを回復させた後に、高速に並列処理を実行すること
ができる。
成図である。
の構成図である。
の要求に対するマネージャの処理を示すフローチャート
図である。
のリソース状態監視の処理を示すフローチャート図であ
る。
ある。
成図である。
の構成図である。
トの構成図である。
トの変形例を示す構成図である。
ャのリソース状態監視の処理を示すフローチャート図で
ある。
ントのリソース状態監視の処理を示すフローチャート図
である。
構成図である。
である。
構成図である。
である。
ャの構成図である。
イル例を示す図である。
イル例を示す図である。
ャの構成図である。
状態遷移図である。
である。
ャの構成図である。
ャの構成図である。
ブルの記憶内容構成例である。
ャの処理を説明するフローチャートである。
の動作例を示す機能ブロック図である。
ジャの構成図である。
ーブルの記憶内容構成例である。
ジャの処理を説明するフローチャートである。
ムの動作例を示す機能ブロック図である。
ジャの構成図である。
ーブルの記憶内容構成例である。
ジャの処理を説明するフローチャートである。
ムの動作例を示す機能ブロック図である。
ーブルの記憶内容構成例である。
ジャの処理を説明するフローチャートである。
ムの動作例を示す機能ブロック図である。
ーブルの記憶内容構成例である。
ムの動作例を示す機能ブロック図である。
ーブルの記憶内容構成例である。
ジャの処理を説明するフローチャートである。
ムの動作例を示す機能ブロック図である。
ーブルの記憶内容構成例である。
ジャの処理を説明するフローチャートである。
ムの動作例を示す機能ブロック図である。
ムの動作例を示す機能ブロック図である。
ジャの構成図である。
ーブルの記憶内容構成例である。
ジャの処理を説明するフローチャートである。
計算機N、102acluster daemon
A、102b cluster daemonB、10
2n cluster daemon N、103a1
パッケージA1、103b1 パッケージB1、10
3n1 パッケージN1、103a2パッケージA2、
103b2 パッケージB2、103n2 パッケージ
N2、104a ローカルデータA、104b ローカ
ルデータB、104n ローカルデータN、105 マ
ネージャ、106 グローバルデータ、201 要求処
理機構、202 リソース制御機構、203 リソース
状態DB、204 リソース状態監視機構、205 リ
ソース状態変化処理機構、206 通知設定機構、20
7 通知設定DB、208 リソース状態変化通知機
構、209 通信制御機構、501a プロセスA、5
01b プロセスB、501c プロセスC、601a
エージェントA、601b エージェントB、601
n エージェントN、801 リソース状態DB、13
01 ユーザプロセスA、1302ユーザプロセスB、
1501 ユーザプロセスA、1502 ユーザプロセ
スB、1601 設定ファイル、1602 自動制御機
構、1901 モード管理機構、2201 ログ管理機
構、2202 ログDB、2301 通知処理機構、2
303 管理テーブル、2302 モード管理機構、
2304 モード制御機構、2701 出力管理機構、
2702 管理テーブル、2703 出力抑止機構、3
101 パッケージ管理機構、3102 管理テーブ
ル、3103パッケージ制御機構。
Claims (15)
- 【請求項1】 クラスタシステムを構成する計算機群上
のある計算機に障害が発生した場合に該計算機上で動作
中のパッケージプログラムを他の計算機で実行させるク
ラスタシステムにおいて、 クラスタを構成する各計算機は、 アプリケーションや各種のサービスを提供するパッケー
ジプログラムと、 計算機間で通信を行いリソースを監視制御するクラスタ
デーモンと、 上記監視結果をローカルデータとして記憶するローカル
データ記憶手段を備え、 クラスタシステム内のうち1台の計算機は、上記パッケ
ージプログラム、クラスタデーモン、ローカルデータ記
憶手段に加えて、 各計算機上のローカルデータから収集されて、いずれの
計算機からも参照可能なグローバルデータ記憶手段と、 上記グローバルデータ記憶手段および各計算機上のクラ
スタデーモンと通信を行い、クラスタシステム全体の監
視制御を行うマネージャを搭載し、 該マネージャが搭載されている計算機で障害が発生した
場合にはクラスタ内の他の計算機上で再起動させるよう
にしたことを特徴とするクラスタ制御システム。 - 【請求項2】 クラスタシステムを構成する計算機群上
のある計算機に障害が発生した場合に該計算機上で動作
中のパッケージプログラムを他の計算機で実行させるク
ラスタシステムにおいて、 クラスタを構成する各計算機は、 アプリケーションや各種のサービスを提供するパッケー
ジプログラムと、 計算機間で通信を行いリソースを監視制御するクラスタ
デーモンと、 自計算機上のクラスタデーモンおよびマネージャと通信
を行うエージェントと、 上記監視結果をローカルデータとして記憶するローカル
データ記憶手段を備え、 クラスタシステム内のうち1台の計算機は、上記クラス
タデーモン、エージェント、ローカルデータ記憶手段に
加えて、 各計算機上のローカルデータから収集されて、いずれの
計算機からも参照可能なグローバルデータ記憶手段と、 上記グローバルデータ記憶手段および各計算機上のエー
ジェントと通信を行い、クラスタシステム全体の監視制
御を行うマネージャを搭載し、 該マネージャが搭載されている計算機に障害が発生した
場合にクラスタ内の他の計算機上で再起動させるように
したことを特徴とするクラスタ制御システム。 - 【請求項3】 クラスタシステムを構成する計算機群上
のある計算機に障害が発生した場合に該計算機上で動作
していたパッケージプログラムを他の計算機で実行させ
るクラスタシステムにおいて、 クラスタを構成する各計算機は、 アプリケーションや各種のサービスを提供するパッケー
ジプログラムと、 自計算機上のパッケージプログラムおよび計算機間で通
信を行いリソースを監視制御するクラスタデーモンと、 自計算機上のクラスタデーモン、各計算機上のエージェ
ント間、およびグローバルデータ記憶手段と通信を行う
エージェントと、 上記監視結果をローカルデータとして記憶するローカル
データ記憶手段を備え、 クラスタシステム内のうち1台の計算機は、上記クラス
タデーモン、エージェント、ローカルデータ記憶手段に
加えて、 各計算機上のローカルデータから収集されて、いずれの
計算機からも参照可能なグローバルデータ記憶手段を備
え、 上記各計算機上のエージェントが直接にグローバルデー
タ記憶手段、およびエージェント間で通信を行うように
したことを特徴とするクラスタ制御システム。 - 【請求項4】 クラスタシステムを構成する計算機群上
のある計算機に障害が発生した場合に該計算機上で動作
していたパッケージプログラムを他の計算機で実行させ
るクラスタシステムにおいて、 クラスタを構成する各計算機は、 アプリケーションや各種のサービスを提供するパッケー
ジプログラムと、 自計算機上のパッケージプログラムおよび各計算機間で
通信を行いリソースを監視制御するクラスタデーモン
と、 自計算機上のクラスタデーモン、各計算機上のエージェ
ント間、およびグローバルデータと通信を行うエージェ
ントと、 上記監視結果をローカルデータとして記憶するローカル
データ記憶手段を備え、 クラスタシステム内のうち1台の計算機は、上記クラス
タデーモン、エージェント、ローカルデータ記憶手段に
加えて、 各計算機上のローカルデータから収集されて、いずれの
計算機からも参照可能なグローバルデータ記憶手段と、 自計算機上のエージェントおよびクラスタデーモンと通
信を行うマネージャを備え、 上記各計算機上のエージェントが直接にグローバルデー
タ記憶手段、およびエージェント間で通信を行うように
したことを特徴とするクラスタ制御システム。 - 【請求項5】 上記マネージャはクラスタシステムを構
成する計算機群のリソース状態変化時の処理を記述した
リソース設定ファイルと、 リソース設定ファイルの定義に従い、リソースの状態に
変化があった場合にリソース制御処理を行なう自動制御
機構を備えたことを特徴とする請求項1又は請求項2又
はまたは請求項4記載のクラスタ制御システム。 - 【請求項6】 前記リソース設定ファイルにはパッケー
ジプログラム間の相関関係や実行に関する優先順位情報
を定義し、 自動制御機構は、該定義情報に基づいて各計算機上のパ
ッケージプログラムを動作させるようにしたことを特徴
とする請求項5記載のクラスタ制御システム。 - 【請求項7】 上記マネージャはパッケージプログラム
に対して、運転、待機、試験を含む運転動作モードを付
加し、 該モードに従ってパッケージプログラムの動作制御の管
理を行なうモード管理機構を備えたことを特徴とする請
求項1、請求項2、請求項4、請求項5のいずれかに記
載のクラスタ制御システム。 - 【請求項8】 上記マネージャは、クラスタシステム内
で起きたリソースの状態変化に関するログを収集するロ
グ管理機構を備えたことを特徴とする請求項1、請求項
2、請求項4乃至請求項7のいずれかに記載のクラスタ
制御システム。 - 【請求項9】 クラスタ制御システムを構成する複数の
計算機のうちの1つの計算機に障害が発生した場合に、
上記障害が発生した計算機で運転中のアプリケーション
や各種のサービスを提供するパッケージプログラムを他
の計算機で運転させるクラスタ制御システムにおいて、 上記複数の計算機はそれぞれ、自己の計算機の障害及び
回復を監視するとともに、上記パッケージプログラムの
起動及び運転を制御するクラスタデーモンを備え、 上記複数の計算機のうちの第1の計算機は、上記パッケ
ージプログラムである第1のパッケージプログラムを運
転し、 上記複数の計算機のうちの第2の計算機は、上記第1の
パッケージプログラムと同じアプリケーションやサービ
スを提供する第2のパッケージプログラムを起動状態で
待機させ、 上記複数の計算機のうち1つの計算機は、上記クラスタ
デーモンに加えて、 上記複数の計算機のそれぞれのクラスタデーモンから監
視の結果を受け取るとともに、上記クラスタデーモンを
制御して、上記第1の計算機に障害が発生した場合に、
上記第2の計算機に上記第2のパッケージプログラムを
運転させるとともに、上記第1の計算機が障害から回復
した場合には、上記第1の計算機に上記第1のパッケー
ジプログラムを起動状態で待機させるマネージャを備え
たことを特徴とするクラスタ制御システム。 - 【請求項10】 上記第1のパッケージプログラムの出
力若しくは上記第2のパッケージプログラムの出力のい
ずれかを選択して出力する出力制御手段を有し、 上記第2の計算機は、上記第2のパッケージプログラム
を起動状態で待機させる代わりに、上記第2のパッケー
ジプログラムを運転し、 上記マネージャに代えて、上記複数の計算機のそれぞれ
のクラスタデーモンから監視の結果を受け取るととも
に、上記クラスタデーモンを制御して、上記第1のパッ
ケージプログラムの出力が上記出力制御手段から出力さ
れているときに上記第1の計算機で障害が発生した場
合、上記第1のパッケージプログラムの出力に代えて上
記第2のパッケージプログラムの出力を上記出力制御手
段から出力させ、上記第2の計算機で障害が発生するま
で上記出力制御手段に上記第2のパッケージプログラム
の出力を継続して出力させ、上記第1のパッケージプロ
グラムが運転を再開し上記第2の計算機で障害が発生し
た場合に、上記第2のパッケージプログラムの出力に代
えて、上記第1のパッケージプログラムの出力を上記出
力制御手段から出力させるマネージャを備えたことを特
徴とする請求項9に記載のクラスタ制御システム。 - 【請求項11】 上記マネージャに代えて、上記複数の
計算機のそれぞれのクラスタデーモンから監視の結果を
受け取るとともに、上記クラスタデーモンを制御して、
上記第1の計算機に障害が発生した場合に、上記第2の
計算機に上記第2のパッケージプログラムを運転させる
とともに、上記複数の計算機のうちの第3の計算機に上
記第1のパッケージプログラムを起動状態で待機させる
マネージャを備えたことを特徴とする請求項9に記載の
クラスタ制御システム。 - 【請求項12】 上記複数の計算機のそれぞれで起動さ
れるパッケージプログラムのそれぞれの優先順位を記憶
する管理テーブルを備え、 上記マネージャに代えて、上記複数の計算機のそれぞれ
のクラスタデーモンから監視の結果を受け取るととも
に、上記クラスタデーモンを制御して、上記第1の計算
機に障害が発生した場合に、上記管理テーブルから上記
第1の計算機で運転されていた上記パッケージプログラ
ムよりも優先順位の低いパッケージプログラムを検索
し、この優先順位の低いパッケージプログラムの運転を
停止させるとともに、上記優先順位の低いパッケージプ
ログラムを運転していた計算機で上記第1の計算機で運
転されていたパッケージプログラムを起動させるマネー
ジャを備えたことを特徴とする請求項9に記載のクラス
タ制御システム。 - 【請求項13】 クラスタシステムを構成する複数の計
算機のうちの1つの計算機に障害が発生した場合に、上
記障害が発生した計算機で運転中のアプリケーションや
各種のサービスを提供するパッケージプログラムを他の
計算機で運転させるクラスタシステムにおいて、 上記複数の計算機はそれぞれ、自己の計算機の障害及び
回復を監視するとともに、上記パッケージプログラムの
起動及び運転を制御するクラスタデーモンを備え、 上記複数の計算機のうち1つの計算機は、上記クラスタ
デーモンに加えて、 上記複数の計算機のそれぞれで起動されるパッケージプ
ログラムのそれぞれの優先順位及び上記複数の計算機の
それぞれの負荷を記憶する管理テーブルと、 上記複数の計算機のそれぞれのクラスタデーモンから監
視の結果を受け取るとともに、上記クラスタデーモンを
制御して、上記複数の計算機のうちの第1の計算機の負
荷があらかじめ定められた負荷よりも大きくなった場合
に、上記管理テーブルを参照し、上記第1の計算機で運
転しているパッケージプログラムのうちの優先順位の低
いパッケージプログラムの運転を停止させ、停止させた
パッケージプログラムを上記複数の計算機のうちの負荷
があらかじめ定められた負荷よりも小さい計算機で起動
させるマネージャと、を備えたことを特徴とするクラス
タ制御システム。 - 【請求項14】 上記管理テーブルに代えて、上記複数
の計算機上で起動されるパッケージプログラムのそれぞ
れの優先順位を記憶する管理テーブルを備え、 上記クラスタデーモンは、自己の計算機のリソースを監
視し、 上記マネージャに代えて、上記複数の計算機のそれぞれ
のクラスタデーモンから監視の結果を受け取るととも
に、上記クラスタデーモンを制御して、上記クラスタデ
ーモンにより監視されたリソースに変化が生じた場合
に、上記優先順位に基づいて、上記複数の計算機のそれ
ぞれで運転されているパッケージプログラムのそれぞれ
にリソースを割り当て直すマネージャ備えたことを特徴
とする請求項13に記載のクラスタ制御システム。 - 【請求項15】 複数の計算機のそれぞれによって並列
に運転される複数の上記パッケージプログラムを1つの
グループとするグループ名を記憶する管理テーブルを備
え、 上記マネージャに代えて、上記複数の計算機のそれぞれ
のクラスタデーモンから監視の結果を受け取るととも
に、上記クラスタデーモンを制御して、上記複数の計算
機のうちの第1の計算機に障害が発生した場合に、上記
管理テーブルから、上記複数の計算機のうちの計算機で
あって上記第1の計算機上で運転されていたパッケージ
プログラムと同じグループのパッケージプログラムを運
転していない計算機を検索し、検索された計算機で上記
第1の計算機が運転していたパッケージプログラムを起
動させ、運転させるマネージャを備えたことを特徴とす
る請求項13に記載のクラスタ制御システム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP9075254A JPH10187638A (ja) | 1996-10-28 | 1997-03-27 | クラスタ制御システム |
US08/953,632 US6088727A (en) | 1996-10-28 | 1997-10-17 | Cluster controlling system operating on a plurality of computers in a cluster system |
CN97121527A CN1123838C (zh) | 1996-10-28 | 1997-10-24 | 群集控制系统 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8-285398 | 1996-10-28 | ||
JP28539896 | 1996-10-28 | ||
JP9075254A JPH10187638A (ja) | 1996-10-28 | 1997-03-27 | クラスタ制御システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH10187638A true JPH10187638A (ja) | 1998-07-21 |
Family
ID=26416405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9075254A Pending JPH10187638A (ja) | 1996-10-28 | 1997-03-27 | クラスタ制御システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US6088727A (ja) |
JP (1) | JPH10187638A (ja) |
CN (1) | CN1123838C (ja) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1134658A2 (en) * | 2000-03-14 | 2001-09-19 | Sun Microsystems, Inc. | A system and method for comprehensive availability management in a high-availability computer system |
GB2368683A (en) * | 2000-05-31 | 2002-05-08 | Ibm | Managing a clustered computing environment |
US6542928B1 (en) * | 1998-06-02 | 2003-04-01 | Micron Technology, Inc. | Automatic configuration of testers and hosts on a computer network |
WO2005071541A1 (ja) * | 2004-01-27 | 2005-08-04 | Matsushita Electric Industrial Co., Ltd. | アプリケーション起動調停装置及びシステム |
WO2005076134A1 (ja) * | 2004-02-09 | 2005-08-18 | Matsushita Electric Industrial Co., Ltd. | サービスを自動継続する電子機器 |
JP2005528691A (ja) * | 2002-05-31 | 2005-09-22 | ベリタス オペレーティング コーポレーション | サーバ連結環境のための業務継続ポリシー |
JP2007011426A (ja) * | 2005-06-28 | 2007-01-18 | Nec Electronics Corp | 処理装置 |
JP2007503628A (ja) * | 2003-08-14 | 2007-02-22 | オラクル・インターナショナル・コーポレイション | クラスタ化されたコンピューティングシステムにおける高速なアプリケーション通知 |
JP2007524144A (ja) * | 2003-06-18 | 2007-08-23 | フジツー シーメンス コンピュータース ゲゼルシャフト ミット ベシュレンクテル ハフツング | クラスタ装置 |
JP2007524889A (ja) * | 2003-03-19 | 2007-08-30 | ユニシス コーポレイシヨン | サーバ統合のデータモデル |
JP2008519477A (ja) * | 2004-10-29 | 2008-06-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | サーバ間の直接通信を用いることによってノード構成におけるサーバ・イベントを監視するための方法及びシステム |
JP2008521127A (ja) * | 2004-11-17 | 2008-06-19 | レイセオン カンパニー | ハイパフォーマンスコンピューティング(hpc)システムにおけるフォルトトレランス及びリカバリ |
JP2010198404A (ja) * | 2009-02-26 | 2010-09-09 | Nec Corp | 情報処理システム、ディザスタリカバリ方法及びディザスタリカバリプログラム |
JP4898440B2 (ja) * | 2003-09-26 | 2012-03-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ウェブ高可用性の自律型監視 |
US8326990B1 (en) | 2005-07-15 | 2012-12-04 | Symantec Operating Corporation | Automated optimal workload balancing during failover in share-nothing database systems |
US8713186B2 (en) | 2007-03-13 | 2014-04-29 | Oracle International Corporation | Server-side connection resource pooling |
US9411637B2 (en) | 2012-06-08 | 2016-08-09 | Apple Inc. | Adaptive process importance |
US9798563B2 (en) | 2014-03-20 | 2017-10-24 | Fujitsu Limited | Network management device, information processing system, and program |
KR20180044579A (ko) * | 2016-10-24 | 2018-05-03 | 삼성에스디에스 주식회사 | 컨테이너 기반의 분산 애플리케이션 관리 시스템 및 방법 |
US10474653B2 (en) | 2016-09-30 | 2019-11-12 | Oracle International Corporation | Flexible in-memory column store placement |
Families Citing this family (80)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB9603582D0 (en) | 1996-02-20 | 1996-04-17 | Hewlett Packard Co | Method of accessing service resource items that are for use in a telecommunications system |
US6553403B1 (en) * | 1998-06-03 | 2003-04-22 | International Business Machines Corporation | System, method and computer program product for monitoring in a distributed computing environment |
US6549932B1 (en) * | 1998-06-03 | 2003-04-15 | International Business Machines Corporation | System, method and computer program product for discovery in a distributed computing environment |
US6460070B1 (en) * | 1998-06-03 | 2002-10-01 | International Business Machines Corporation | Mobile agents for fault diagnosis and correction in a distributed computer environment |
US6311217B1 (en) * | 1998-06-04 | 2001-10-30 | Compaq Computer Corporation | Method and apparatus for improved cluster administration |
US6266781B1 (en) * | 1998-07-20 | 2001-07-24 | Academia Sinica | Method and apparatus for providing failure detection and recovery with predetermined replication style for distributed applications in a network |
US6467050B1 (en) * | 1998-09-14 | 2002-10-15 | International Business Machines Corporation | Method and apparatus for managing services within a cluster computer system |
US6308208B1 (en) * | 1998-09-30 | 2001-10-23 | International Business Machines Corporation | Method for monitoring network distributed computing resources using distributed cellular agents |
US6732166B1 (en) * | 1999-05-28 | 2004-05-04 | Intel Corporation | Method of distributed resource management of I/O devices in a network cluster |
US6938256B2 (en) | 2000-01-18 | 2005-08-30 | Galactic Computing Corporation | System for balance distribution of requests across multiple servers using dynamic metrics |
US7487152B1 (en) | 2000-05-31 | 2009-02-03 | International Business Machines Corporation | Method for efficiently locking resources of a global data repository |
US6816905B1 (en) | 2000-11-10 | 2004-11-09 | Galactic Computing Corporation Bvi/Bc | Method and system for providing dynamic hosted service management across disparate accounts/sites |
US7844513B2 (en) | 2000-07-17 | 2010-11-30 | Galactic Computing Corporation Bvi/Bc | Method and system for operating a commissioned e-commerce service prover |
US8538843B2 (en) | 2000-07-17 | 2013-09-17 | Galactic Computing Corporation Bvi/Bc | Method and system for operating an E-commerce service provider |
US6816732B1 (en) * | 2000-07-27 | 2004-11-09 | Ipr Licensing, Inc. | Optimal load-based wireless session context transfer |
US6968359B1 (en) * | 2000-08-14 | 2005-11-22 | International Business Machines Corporation | Merge protocol for clustered computer system |
US7225456B2 (en) * | 2001-04-23 | 2007-05-29 | Sony Corporation | Gateway screen for interactive television |
US6701463B1 (en) * | 2000-09-05 | 2004-03-02 | Motorola, Inc. | Host specific monitor script for networked computer clusters |
US20060162639A1 (en) * | 2001-03-23 | 2006-07-27 | Costello James M | Touch tunnel |
US6981003B2 (en) * | 2001-08-03 | 2005-12-27 | International Business Machines Corporation | Method and system for master planning priority assignment |
US6990602B1 (en) | 2001-08-23 | 2006-01-24 | Unisys Corporation | Method for diagnosing hardware configuration in a clustered system |
US7000016B1 (en) | 2001-10-19 | 2006-02-14 | Data Return Llc | System and method for multi-site clustering in a network |
US6938031B1 (en) | 2001-10-19 | 2005-08-30 | Data Return Llc | System and method for accessing information in a replicated database |
DE60106467T2 (de) * | 2001-12-14 | 2006-02-23 | Hewlett-Packard Development Co., L.P., Houston | Verfahren zum Installieren Überwachungsagenten, System und Computerprogramm von Objekten in einem IT-Netz Überwachung |
US7392421B1 (en) * | 2002-03-18 | 2008-06-24 | Symantec Operating Corporation | Framework for managing clustering and replication |
US6986076B1 (en) | 2002-05-28 | 2006-01-10 | Unisys Corporation | Proactive method for ensuring availability in a clustered system |
CN100339835C (zh) * | 2002-06-10 | 2007-09-26 | 联想(北京)有限公司 | 机群故障定位与报警的方法与系统 |
DE60201077T2 (de) * | 2002-06-13 | 2005-09-15 | Fujitsu Siemens Computers, LLC, Milpitas | Verfahren um einen Computer aus einem Cluster zu entfernen |
US20040015581A1 (en) * | 2002-07-22 | 2004-01-22 | Forbes Bryn B. | Dynamic deployment mechanism |
US7058846B1 (en) * | 2002-10-17 | 2006-06-06 | Veritas Operating Corporation | Cluster failover for storage management services |
US7467180B2 (en) * | 2003-05-29 | 2008-12-16 | International Business Machines Corporation | Automatically segmenting and populating a distributed computing problem |
US7590984B2 (en) * | 2003-05-29 | 2009-09-15 | International Business Machines Corporation | System and method for balancing a computing load among computing resources in a distributed computing problem |
US20060064400A1 (en) * | 2004-09-21 | 2006-03-23 | Oracle International Corporation, A California Corporation | Methods, systems and software for identifying and managing database work |
US7953860B2 (en) * | 2003-08-14 | 2011-05-31 | Oracle International Corporation | Fast reorganization of connections in response to an event in a clustered computing system |
US7664847B2 (en) * | 2003-08-14 | 2010-02-16 | Oracle International Corporation | Managing workload by service |
US6959264B2 (en) * | 2003-09-30 | 2005-10-25 | International Business Machines Corporation | Autonomous computing probe agent |
CN100429629C (zh) * | 2003-12-04 | 2008-10-29 | 中国科学院计算技术研究所 | 一种构造大规模高可用机群操作系统的方法 |
DE102004005128B3 (de) * | 2004-02-02 | 2005-01-05 | Fujitsu Siemens Computers Gmbh | Anordnung mehrerer Rechner und Verfahren zum Betreiben einer Anordnung mehrerer Rechner bei einem Rechnerausfall |
US7890798B1 (en) * | 2004-03-22 | 2011-02-15 | Hewlett-Packard Development Company, L.P. | Computer cluster with second-node instance of application having access to state snapshot of first-node instance of application |
US7900206B1 (en) | 2004-03-31 | 2011-03-01 | Symantec Operating Corporation | Information technology process workflow for data centers |
US8057307B2 (en) * | 2004-04-08 | 2011-11-15 | International Business Machines Corporation | Handling of players and objects in massive multi-player on-line games |
US7346811B1 (en) | 2004-08-13 | 2008-03-18 | Novell, Inc. | System and method for detecting and isolating faults in a computer collaboration environment |
US7373433B2 (en) * | 2004-10-22 | 2008-05-13 | International Business Machines Corporation | Apparatus and method to provide failover protection in an information storage and retrieval system |
DE102006001257A1 (de) * | 2005-12-30 | 2007-07-12 | Advanced Micro Devices, Inc., Sunnyvale | Automatisiertes Zustandabschätzungssystem für Cluster-Anlagen und Verfahren zum Betreiben des Systems |
US7757116B2 (en) * | 2007-04-04 | 2010-07-13 | Vision Solutions, Inc. | Method and system for coordinated multiple cluster failover |
US7822841B2 (en) * | 2007-10-30 | 2010-10-26 | Modern Grids, Inc. | Method and system for hosting multiple, customized computing clusters |
US8127235B2 (en) | 2007-11-30 | 2012-02-28 | International Business Machines Corporation | Automatic increasing of capacity of a virtual space in a virtual world |
KR100956638B1 (ko) * | 2007-12-11 | 2010-05-11 | 한국전자통신연구원 | 대규모 클러스터 모니터링 시스템과 그의 자동 구축 및복구 방법 |
US20090164919A1 (en) | 2007-12-24 | 2009-06-25 | Cary Lee Bates | Generating data for managing encounters in a virtual world environment |
US8238538B2 (en) | 2009-05-28 | 2012-08-07 | Comcast Cable Communications, Llc | Stateful home phone service |
US9205328B2 (en) | 2010-02-18 | 2015-12-08 | Activision Publishing, Inc. | Videogame system and method that enables characters to earn virtual fans by completing secondary objectives |
US9682324B2 (en) | 2010-05-12 | 2017-06-20 | Activision Publishing, Inc. | System and method for enabling players to participate in asynchronous, competitive challenges |
US9477529B2 (en) * | 2012-06-20 | 2016-10-25 | International Business Machines Corporation | Job distributed within a grid environment using mega-host groupings of execution hosts based on resource attributes |
US10137376B2 (en) | 2012-12-31 | 2018-11-27 | Activision Publishing, Inc. | System and method for creating and streaming augmented game sessions |
US9367335B2 (en) | 2013-07-12 | 2016-06-14 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | State dependent optimization for sequential booting of heterogeneous systems |
US9515901B2 (en) | 2013-10-18 | 2016-12-06 | AppDynamics, Inc. | Automatic asynchronous handoff identification |
WO2015122007A1 (ja) * | 2014-02-17 | 2015-08-20 | 株式会社日立製作所 | 計算機、及び、ハイパバイザによる資源スケジューリング方法 |
US10322351B2 (en) | 2014-07-03 | 2019-06-18 | Activision Publishing, Inc. | Matchmaking system and method for multiplayer video games |
US11351466B2 (en) | 2014-12-05 | 2022-06-07 | Activision Publishing, Ing. | System and method for customizing a replay of one or more game events in a video game |
US10118099B2 (en) | 2014-12-16 | 2018-11-06 | Activision Publishing, Inc. | System and method for transparently styling non-player characters in a multiplayer video game |
US10315113B2 (en) | 2015-05-14 | 2019-06-11 | Activision Publishing, Inc. | System and method for simulating gameplay of nonplayer characters distributed across networked end user devices |
US10471348B2 (en) | 2015-07-24 | 2019-11-12 | Activision Publishing, Inc. | System and method for creating and sharing customized video game weapon configurations in multiplayer video games via one or more social networks |
US11185784B2 (en) | 2015-10-08 | 2021-11-30 | Activision Publishing, Inc. | System and method for generating personalized messaging campaigns for video game players |
US10099140B2 (en) | 2015-10-08 | 2018-10-16 | Activision Publishing, Inc. | System and method for generating personalized messaging campaigns for video game players |
US10376781B2 (en) | 2015-10-21 | 2019-08-13 | Activision Publishing, Inc. | System and method of generating and distributing video game streams |
US10232272B2 (en) | 2015-10-21 | 2019-03-19 | Activision Publishing, Inc. | System and method for replaying video game streams |
US10245509B2 (en) | 2015-10-21 | 2019-04-02 | Activision Publishing, Inc. | System and method of inferring user interest in different aspects of video game streams |
US10300390B2 (en) | 2016-04-01 | 2019-05-28 | Activision Publishing, Inc. | System and method of automatically annotating gameplay of a video game based on triggering events |
US10500498B2 (en) | 2016-11-29 | 2019-12-10 | Activision Publishing, Inc. | System and method for optimizing virtual games |
US10974150B2 (en) | 2017-09-27 | 2021-04-13 | Activision Publishing, Inc. | Methods and systems for improved content customization in multiplayer gaming environments |
US10561945B2 (en) | 2017-09-27 | 2020-02-18 | Activision Publishing, Inc. | Methods and systems for incentivizing team cooperation in multiplayer gaming environments |
US11040286B2 (en) | 2017-09-27 | 2021-06-22 | Activision Publishing, Inc. | Methods and systems for improved content generation in multiplayer gaming environments |
US10765948B2 (en) | 2017-12-22 | 2020-09-08 | Activision Publishing, Inc. | Video game content aggregation, normalization, and publication systems and methods |
US11679330B2 (en) | 2018-12-18 | 2023-06-20 | Activision Publishing, Inc. | Systems and methods for generating improved non-player characters |
US11044141B2 (en) | 2019-07-09 | 2021-06-22 | Phillip N Hughes | High density, high availability compute system |
US11097193B2 (en) | 2019-09-11 | 2021-08-24 | Activision Publishing, Inc. | Methods and systems for increasing player engagement in multiplayer gaming environments |
US11712627B2 (en) | 2019-11-08 | 2023-08-01 | Activision Publishing, Inc. | System and method for providing conditional access to virtual gaming items |
JP7328907B2 (ja) * | 2020-01-31 | 2023-08-17 | 株式会社日立製作所 | 制御システム、制御方法 |
US11351459B2 (en) | 2020-08-18 | 2022-06-07 | Activision Publishing, Inc. | Multiplayer video games with virtual characters having dynamically generated attribute profiles unconstrained by predefined discrete values |
US11524234B2 (en) | 2020-08-18 | 2022-12-13 | Activision Publishing, Inc. | Multiplayer video games with virtual characters having dynamically modified fields of view |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4356546A (en) * | 1980-02-05 | 1982-10-26 | The Bendix Corporation | Fault-tolerant multi-computer system |
US5228046A (en) * | 1989-03-10 | 1993-07-13 | International Business Machines | Fault tolerant computer memory systems and components employing dual level error correction and detection with disablement feature |
US5129080A (en) * | 1990-10-17 | 1992-07-07 | International Business Machines Corporation | Method and system increasing the operational availability of a system of computer programs operating in a distributed system of computers |
JP2534430B2 (ja) * | 1992-04-15 | 1996-09-18 | インターナショナル・ビジネス・マシーンズ・コーポレイション | フォ―ルト・トレランスのあるコンピュ―タ・システム出力の合致を達成するための方法 |
US5787249A (en) * | 1996-04-30 | 1998-07-28 | International Business Machines Coporation | Method for managing membership of a group of processors in a distributed computing environment |
US5781736A (en) * | 1996-04-30 | 1998-07-14 | International Business Machines Corporation | Method for obtaining the state of network resources in a distributed computing environment by utilizing a provider associated with indicators of resource states |
-
1997
- 1997-03-27 JP JP9075254A patent/JPH10187638A/ja active Pending
- 1997-10-17 US US08/953,632 patent/US6088727A/en not_active Expired - Fee Related
- 1997-10-24 CN CN97121527A patent/CN1123838C/zh not_active Expired - Fee Related
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6542928B1 (en) * | 1998-06-02 | 2003-04-01 | Micron Technology, Inc. | Automatic configuration of testers and hosts on a computer network |
EP1134658A3 (en) * | 2000-03-14 | 2002-06-19 | Sun Microsystems, Inc. | A system and method for comprehensive availability management in a high-availability computer system |
EP1134658A2 (en) * | 2000-03-14 | 2001-09-19 | Sun Microsystems, Inc. | A system and method for comprehensive availability management in a high-availability computer system |
US7185076B1 (en) | 2000-05-31 | 2007-02-27 | International Business Machines Corporation | Method, system and program products for managing a clustered computing environment |
GB2368683A (en) * | 2000-05-31 | 2002-05-08 | Ibm | Managing a clustered computing environment |
GB2368683B (en) * | 2000-05-31 | 2004-09-15 | Ibm | Method system and program products for managing a clustered computing enviroment |
KR100491802B1 (ko) * | 2000-05-31 | 2005-05-27 | 인터내셔널 비지네스 머신즈 코포레이션 | 컴퓨팅 환경의 클러스터 관리 시스템, 컴퓨팅 환경의 클러스터 관리 방법 및 기록 매체 |
JP2005528691A (ja) * | 2002-05-31 | 2005-09-22 | ベリタス オペレーティング コーポレーション | サーバ連結環境のための業務継続ポリシー |
US7529822B2 (en) | 2002-05-31 | 2009-05-05 | Symantec Operating Corporation | Business continuation policy for server consolidation environment |
JP2007524889A (ja) * | 2003-03-19 | 2007-08-30 | ユニシス コーポレイシヨン | サーバ統合のデータモデル |
US8301599B2 (en) | 2003-06-18 | 2012-10-30 | Atos It Solutions And Services Gmbh | Cluster arrangement |
JP2007524144A (ja) * | 2003-06-18 | 2007-08-23 | フジツー シーメンス コンピュータース ゲゼルシャフト ミット ベシュレンクテル ハフツング | クラスタ装置 |
JP2007503628A (ja) * | 2003-08-14 | 2007-02-22 | オラクル・インターナショナル・コーポレイション | クラスタ化されたコンピューティングシステムにおける高速なアプリケーション通知 |
JP4898440B2 (ja) * | 2003-09-26 | 2012-03-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | ウェブ高可用性の自律型監視 |
WO2005071541A1 (ja) * | 2004-01-27 | 2005-08-04 | Matsushita Electric Industrial Co., Ltd. | アプリケーション起動調停装置及びシステム |
WO2005076134A1 (ja) * | 2004-02-09 | 2005-08-18 | Matsushita Electric Industrial Co., Ltd. | サービスを自動継続する電子機器 |
JP2008519477A (ja) * | 2004-10-29 | 2008-06-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | サーバ間の直接通信を用いることによってノード構成におけるサーバ・イベントを監視するための方法及びシステム |
JP2008521127A (ja) * | 2004-11-17 | 2008-06-19 | レイセオン カンパニー | ハイパフォーマンスコンピューティング(hpc)システムにおけるフォルトトレランス及びリカバリ |
US8984334B2 (en) | 2005-06-28 | 2015-03-17 | Renesas Electronics Corporation | Processor and method of controlling execution of processes |
US8296602B2 (en) | 2005-06-28 | 2012-10-23 | Renesas Electronics Corporation | Processor and method of controlling execution of processes |
JP2007011426A (ja) * | 2005-06-28 | 2007-01-18 | Nec Electronics Corp | 処理装置 |
US9342416B2 (en) | 2005-06-28 | 2016-05-17 | Renesas Electronics Corporation | Processor and method of controlling execution of processes |
US10235254B2 (en) | 2005-06-28 | 2019-03-19 | Renesas Electronics Corporation | Processor and method of controlling execution of processes |
US8326990B1 (en) | 2005-07-15 | 2012-12-04 | Symantec Operating Corporation | Automated optimal workload balancing during failover in share-nothing database systems |
US8713186B2 (en) | 2007-03-13 | 2014-04-29 | Oracle International Corporation | Server-side connection resource pooling |
JP2010198404A (ja) * | 2009-02-26 | 2010-09-09 | Nec Corp | 情報処理システム、ディザスタリカバリ方法及びディザスタリカバリプログラム |
US9411637B2 (en) | 2012-06-08 | 2016-08-09 | Apple Inc. | Adaptive process importance |
US9798563B2 (en) | 2014-03-20 | 2017-10-24 | Fujitsu Limited | Network management device, information processing system, and program |
US10474653B2 (en) | 2016-09-30 | 2019-11-12 | Oracle International Corporation | Flexible in-memory column store placement |
KR20180044579A (ko) * | 2016-10-24 | 2018-05-03 | 삼성에스디에스 주식회사 | 컨테이너 기반의 분산 애플리케이션 관리 시스템 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
CN1181551A (zh) | 1998-05-13 |
US6088727A (en) | 2000-07-11 |
CN1123838C (zh) | 2003-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH10187638A (ja) | クラスタ制御システム | |
EP3522013B1 (en) | Method and system for migration of containers in a container orchestration platform between compute nodes | |
EP3252608B1 (en) | Node system, server device, scaling control method, and program | |
JP4920391B2 (ja) | 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム | |
JP4028674B2 (ja) | 多重システム・クラスタ内のサーバの数を制御する方法及び装置 | |
KR101781063B1 (ko) | 동적 자원 관리를 위한 2단계 자원 관리 방법 및 장치 | |
CA3168286A1 (en) | Data flow processing method and system | |
JP5939740B2 (ja) | 動的にリソースを割り当てる方法、システム及びプログラム | |
US7774785B2 (en) | Cluster code management | |
US20080295095A1 (en) | Method of monitoring performance of virtual computer and apparatus using the method | |
US20100005465A1 (en) | Virtual machine location system, virtual machine location method, program, virtual machine manager, and server | |
JPH06202978A (ja) | 論理経路スケジューリング装置及び実行方法 | |
US20060101465A1 (en) | Distributed control system | |
CN104508634A (zh) | 虚拟机的动态资源分配 | |
US20050050200A1 (en) | Computer system and cluster system program | |
US8032786B2 (en) | Information-processing equipment and system therefor with switching control for switchover operation | |
US6754736B1 (en) | Information processing apparatus, data inputting/outputting method, and program storage medium therefor | |
CN105159798A (zh) | 一种虚拟机的双机热备方法、双机热备管理服务器和系统 | |
JP2007172334A (ja) | 並列型演算システムの冗長性を確保するための方法、システム、およびプログラム | |
WO2019160030A1 (ja) | サービス提供システム、資源割り当て方法、及び資源割り当てプログラム | |
US8473702B2 (en) | Information processing apparatus, execution environment transferring method and program thereof | |
JP2005100387A (ja) | 計算機システム及びクラスタシステム用プログラム | |
EP2645635B1 (en) | Cluster monitor, method for monitoring a cluster, and computer-readable recording medium | |
KR20200080458A (ko) | 클라우드 멀티-클러스터 장치 | |
US7140015B1 (en) | Microkernel for real time applications |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20010209 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20020319 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20030902 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20030924 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20031121 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20040716 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20041005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041203 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20041208 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20050218 |