JPH11184825A - クラスタシステム - Google Patents

クラスタシステム

Info

Publication number
JPH11184825A
JPH11184825A JP9350391A JP35039197A JPH11184825A JP H11184825 A JPH11184825 A JP H11184825A JP 9350391 A JP9350391 A JP 9350391A JP 35039197 A JP35039197 A JP 35039197A JP H11184825 A JPH11184825 A JP H11184825A
Authority
JP
Japan
Prior art keywords
server
application
load
cluster system
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9350391A
Other languages
English (en)
Inventor
Hiroyuki Yamanishi
宏幸 山西
Akio Saito
彰男 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP9350391A priority Critical patent/JPH11184825A/ja
Publication of JPH11184825A publication Critical patent/JPH11184825A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 クラスタシステムにおいて、計算機及びアプ
リケーションの状態変化に応じてアプリケーションの起
動、停止、起動計算機の決定及び引き継ぎ計算機の決定
を動的に行い、クラスタシステムの最適化を図る。 【解決手段】 状態監視部20、負荷更新部30が計算
機及びアプリケーションの状態を示す情報を取り込む。
取り込んだ情報は、共用データ記憶部10で管理する。
構成制御部40は、トリガを状態監視部20、負荷更新
部30から受け取ると、アプリケーションの引き継ぎや
引き継ぎ計算機の変更などの指示をクラスタ管理機構9
00に出す。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、分散した複数の
計算機を一まとまりにして構成したクラスタシステムに
関するものである。特に、クラスタシステムでのアプリ
ケーションの引き継ぎに関するものである。
【0002】
【従来の技術】クラスタシステムにおいては、複数の計
算機で1つ以上のアプリケーションを実行し、アプリケ
ーション、もしくはアプリケーションを実行中の計算機
が異常停止した場合、クラスタ内の他の計算機でアプリ
ケーションを引き継いで実行する。この、アプリケーシ
ョンを引き継いで実行する計算機を引継ぎ計算機と呼
ぶ。引継ぎ計算機は、クラスタシステム内で、予め設定
される。このような、アプリケーションの切り替えを示
した従来の技術として、特開平6−28206号公報に
開示された「クラスタシステムのデータ処理ステーショ
ン障害時の復旧方式」がある。この技術は、運用側の故
障により無条件に予備側に切り替えるものである。だ
が、その後の新しい運用側の障害には対処できないとい
う欠点があった。
【0003】
【発明が解決しようとする課題】このように、従来のク
ラスタの構成制御方式では、自動引継ぎ制御しか行われ
ておらず、異常停止した計算機が復帰した等の事象によ
ってクラスタ構成計算機メンバーが変更された場合、ア
プリケーションの引継ぎ計算機の再設定などは、システ
ム管理者がコマンド等を実行して行う必要があった。ま
た、アプリケーションが計算機に引き継がれる際、計算
機やアプリケーションの状況に対応した引継ぎ計算機の
自動変更処理が行われておらず、重複障害発生時に1つ
の計算機にアプリケーションが集中してしまうことなど
もある。
【0004】この発明は、上記のような問題点を解決す
るためになされたものであり、計算機及びアプリケーシ
ョンの状態変化に応じて、アプリケーションの起動、停
止、起動計算機の決定を自動的に行うクラスタシステム
を得ることを目的としている。また、計算機及びアプリ
ケーションの状態変化に応じて、動的に引継ぎ計算機の
決定を行い、クラスタ構成を最適に制御するクラスタシ
ステムを得ることを目的としている。また、予め形式の
決まった運転形態を簡単に設定することができる機能を
備えたクラスタシステムを得ることを目的としている。
【0005】
【課題を解決するための手段】この発明に係るクラスタ
システムは、1つ以上のアプリケーションを実行可能な
複数台のサーバをメンバーとして構成されるクラスタシ
ステムであって、上記複数台のサーバのいずれか1台に
上記アプリケーションを実行させるとともに、上記1台
のサーバが上記アプリケーションを実行不可能である時
に他のサーバに上記アプリケーションの実行を引き継が
せるクラスタシステムにおいて、以下の要素を有するこ
とを特徴とする。 (a)上記複数台のサーバから共通して利用可能な共用
データとして、上記複数台のサーバの状態を示すサーバ
状態情報と上記複数台のサーバの負荷を示す負荷情報と
上記アプリケーションの動作に関するアプリケーション
動作情報とを記憶する共用データ記憶部、(b)上記複
数台のサーバの状態を取得して上記サーバ状態情報を更
新する状態監視部、(c)上記複数台のサーバの負荷を
取得して上記負荷情報を更新する負荷更新部、(d)上
記共用データ記憶部を参照して、上記アプリケーション
と上記複数台のサーバとの対応を動的に制御する構成制
御部。
【0006】上記共用データ記憶部は、上記クラスタシ
ステムの制御に関する規約を定義する規約情報を記憶す
るとともに、上記構成制御部は、上記クラスタシステム
の起動の際のクラスタ構成時に上記規約情報と上記サー
バ状態情報とを参照して上記アプリケーション動作情報
を作成することを特徴とする。
【0007】上記構成制御部は、上記クラスタシステム
のクラスタ構成後に新たなサーバが起動してメンバーと
して上記クラスタシステムに参加した時、上記サーバ状
態情報と上記アプリケーション動作情報とを参照して上
記アプリケーションの引継ぎを行うことを特徴とする。
【0008】上記構成制御部は、上記クラスタシステム
のクラスタ構成後にメンバーの移動が発生した時、上記
サーバ状態情報と上記アプリケーション動作情報とを参
照して上記アプリケーションを引き継ぐ引継ぎサーバを
決定して上記アプリケーション動作情報を更新すること
を特徴とする。
【0009】上記構成制御部は、上記複数のサーバのい
ずれかの負荷状態に変化が起こった時、上記サーバ負荷
情報と上記アプリケーション動作情報とを参照して上記
アプリケーションの引継ぎを行うことを特徴とする。
【0010】上記規約情報は、ユーザが設定する定義フ
ァイルをもとに作成されることを特徴とする。
【0011】上記クラスタシステムは、パターン化され
たテンプレートを予め用意し、用意したテンプレートの
いずれかをもとに上記規約情報を作成することを特徴と
する。
【0012】上記負荷更新部は、所定のタイミングで定
期的に上記複数台のサーバの負荷を取得して上記負荷情
報を更新し、上記構成制御部は、上記負荷情報を参照し
てアプリケーション引継ぎに際し、上記アプリケーショ
ンを引き継ぐ引継ぎサーバを決定して上記アプリケーシ
ョンの引継ぎを行うことを特徴とする。
【0013】
【発明の実施の形態】実施の形態1.最初に、この発明
のクラスタシステムが実現する機能の概要を説明する。 1.実現機能の概要 (a)計算機の初期起動時、即ち、個々の計算機が電源
投入され、クラスタの初期構成が行われる時、クラスタ
内のアプリケーションの引継ぎ計算機を自動制御し、決
定する機能。 (b)計算機の起動時、アプリケーションを自動的に引
き継がせる機能。 (c)計算機異常停止時又は異常停止からの復帰時な
ど、クラスタを構成する計算機に変更があった際、クラ
スタ内のアプリケーションの引継ぎ計算機を自動制御し
て変更する機能。 (d)計算機が通常、起動している状態(CPU、メモ
リ、ネットワーク)の負荷を監視し、その状態の変化に
応じて、アプリケーションを自動制御する機能。 (e)プログラミングを行うことなく、定義ファイルを
設定するだけで、構成の再構築制御を行う機能。 (f)ホットスタンバイ、ロードシェア、N:1バック
アップ型など、予め形式の決まった運転形態を簡単に設
定することができる機能。 (g)アプリケーションを自動で引き継がせる場合、各
計算機の負荷も考慮し、引継ぎ計算機を決定する機能。
【0014】次に、図を用いてこの発明のクラスタシス
テムの構成を説明する。図1は、この発明のクラスタシ
ステムの構成の一例を示すブロック図である。図におい
て、900は既存のクラスタ管理機構である。この発明
のクラスタシステムでは、サーバ100a〜100c
(計算機ともいう)の状態及びアプリケーションの状態
に関する情報をサーバ100aの状態監視部20でクラ
スタ管理機構900から取り込み、それらの情報を共用
データ記憶部10aに記憶する(矢印220)。この共
用データ記憶部10aは、矢印210に示すように、他
のサーバの共用データ記憶部10b、共用データ記憶部
10cにコピーして同じ状態に置くよう管理されるもの
とする。また、負荷更新部30a〜30cは、サーバ1
00a〜100cの負荷に関する情報を得て共用データ
記憶部10aに記憶する(230a〜230c)。構成
制御部40は、システムの状態変化を状態監視部20か
ら受けると、又はシステムの負荷の変化を各計算機に存
在する負荷更新部30a〜30cから受けると、アプリ
ケーションの引継ぎや、引継ぎ計算機の変更などの指示
をクラスタ管理機構900へ出す。状態監視部20と構
成制御部40を構成制御処理部160と呼ぶ。ここで
は、構成制御処理部160がサーバ100a上で動作す
る場合を示しているが、サーバ100bやサーバ100
c上で動作しても構わない。
【0015】以下に、前述したクラスタシステムの機能
を実現する実現手段について説明する。 2.実現手段の概要 (a)クラスタの初期起動の通知を受けた構成制御部4
0は、実行中のアプリケーションの引継ぎ計算機を、ア
プリケーションを実行していない計算機に設定する。 (b)ある計算機が動作中のクラスタに参加してきた
時、その通知を受けた構成制御部40は、その計算機上
で動作すべきアプリケーションを検索し、動作すべきア
プリケーションが検索されれば、そのアプリケーション
を引き継がせる指示を出す。 (c)クラスタに参加中の計算機が停止したり、動作中
のクラスタにある計算機が参加した場合、その通知を受
けた構成制御部40は、引継ぎ計算機を変更する指示を
出す。 (d)各計算機の負荷状態(CPU、メモリ、ネットワ
ーク)を監視し、その状態を管理する機能を構成制御部
40に持たせる。実行中のアプリケーションをその負荷
の状況に応じて、引継ぎ計算機に引き継がせる指示を出
す。 (e)計算機が異常停止した時、停止していた計算機が
起動した時のアプリケーションの動作について定義した
制御動作定義ファイル35を管理コマンドを用いて、各
計算機へ配布/配置する。構成制御部40は、各要素に
変化があった場合、その情報に従った自動制御を行う。 (f)予めパターン化されたクラスタの自動構成制御を
行うための定義情報のテンプレートを用意し、ユーザに
開放する。テンプレートをもとに、制御動作定義ファイ
ル35が作成される。 (g)負荷更新部30a〜30cが定期的に負荷の情報
を取り込み、取り込んだ情報を共用データ記憶部10a
〜10cへと反映する。各計算機の負荷情報を管理する
管理機能を持った構成制御部40が、その負荷情報が示
す負荷状況に応じて最適なアプリケーションの引継ぎを
指示する。図2に、アプリケーションの引継ぎの例を示
す。図2は、サーバ100bが異常停止し、アプリケー
ションAP3がサーバ100cに引き継がれた状態を示
している。
【0016】3.ハードウェア構成 図3は、この発明のクラスタシステムのハードウェア構
成の一例を示す図である。ハードウェアは、各ローカル
ディスク200a〜200nを持つN台のサーバ100
a〜100n、各サーバ間の通信路であるネットワーク
1000から構成される。
【0017】4.ソフトウェア構成 図4,図5は、マルチサーバ上のソフトウェアの位置付
けを説明する図である。ソフトウェアは、大別して下記
部位から構成される。 (a)既存のクラスタ管理機構900 アプリケーションパッケージを、定義された情報に従っ
てサーバに割り付け、実行させるクラスタ管理機構であ
る。クラスタ管理機構900は、アプリケーション実行
中のサーバが異常停止した場合、アプリケーション毎に
定義されている別サーバで再起動するなどの制御を行
う。本実施の形態では、ヒューレットパッカード社(米
国のHewlett−Packard Compan
y、HP社ともいう。Hewlett−Packard
Company、HPはHP社の商標又は登録商標)
のMC/ServiceGuardをクラスタ管理機構
として使用する場合を例にとって説明する。クラスタ管
理機構は、既存の製品であり、本発明以前の従来からあ
る技術である。
【0018】(b)構成制御処理部160 クラスタを構成する全てのサーバ上で動作可能な構成制
御処理部160がある。構成制御処理部160は、状態
監視部20と構成制御部40からなる。構成制御処理部
160は、クラスタを構成する全てのサーバのうち、い
ずれかのサーバ上で動作する。構成制御処理部160
は、全てのサーバで動作可能なもので、クラスタ管理機
構900に対して予め設定することにより、下記のよう
にクラスタ管理機構900によって起動される。 ・初期起動 クラスタ管理機構900の設定(起動サーバの優先順位
指定)に従い、現状構成内の高優先順位のサーバで起動
される。 ・動作サーバ停止時の再起動 動作中のサーバが異常停止した場合、クラスタ管理機構
の設定に記述された次優先順位のサーバで再起動され、
引き続き動作する。図5は、サーバ100aが停止し、
構成制御処理部160がサーバ100bで引き続き動作
する場合を示している(矢印219)。この初期/再起
動のメカニズムは、既存のクラスタ管理機構が行う。構
成制御処理部160は、前述した機能を実現し、アプリ
ケーションの移動先サーバの決定などを行う。決定され
た移動先のサーバの指示は、クラスタ管理機構900に
対して行われる。また、アプリケーションの起動、移動
等の制御は、クラスタ管理機構900により行われる。
クラスタ管理機構900は、構成制御処理部160から
の指示に従い動作する。即ち、この実施の形態の構成制
御処理部160は、クラスタ管理機構900の存在を前
提としている。構成制御処理部160は、直接アプリケ
ーションを起動したり、アプリケーションの引き継ぎを
行ったりすることはない。
【0019】(c)共用データ記憶部10a〜10c ネットワークを介した共用メモリ機能(あるサーバで書
き込んだ内容を別サーバに反映することで、別サーバが
その内容を参照できる機能)をサポートする記憶部であ
る。構成制御処理部160が別サーバで再起動された場
合の引き継ぎデータとして使用される。この共用メモリ
機能の実現方式は問わないものとする。この実施の形態
では、この共用メモリ機能にサポートされた共用データ
記憶部を用いる場合について説明する。データの共用方
式には、特殊な装置や共用ディスクを使用した様々な方
式が考えられるが、本実施の形態は、ネットワークを介
した方式で記述する。
【0020】(d)アプリケーションプロセス(アプリ
ケーションAP1〜AP3) 構成制御処理部160の動作結果として、障害時のバッ
クアップサーバ設定などが行われるユーザのアプリケー
ションプログラム。実際のサーバ起動は、クラスタ管理
機構が行う。本発明のクラスタシステムは、クラスタ管
理機構900に対して指示を出す。図5の矢印234
は、アプリケーションAP1、アプリケーションAP2
がサーバ100aの停止に伴い、サーバ100cで引き
継ぎ実行される状態を示している。その際、構成制御処
理部160は、共用データ記憶部10bに定義されてい
る情報を参照してクラスタ管理機構900に対してアプ
リケーションの起動指示を出し(246)、指示を受け
取ったクラスタ管理機構900は、232に示すよう
に、アプリケーションAP1,AP2をそれぞれ起動す
る。構成制御処理部160は、226に示すように、ク
ラスタ管理機構900から各サーバ及びアプリケーショ
ンの状態を取得する。
【0021】5.システム動作概要 次に、クラスタシステムの動作について説明する。図6
は、クラスタシステムの動作概要図である。大きな流れ
は、以下のようになる。 (1)常時実行の状況収集 常時、下記情報を取り込み、共用データ記憶部に書き込
み、他サーバの共用データ記憶部に反映を行う。 (a)サーバ状態 状態監視部20は、クラスタにサーバが組み込まれてい
るか否かの状態をクラスタ管理機構900より取り込み
(矢印225)、全サーバの状態を管理する。サーバの
突然の異常停止や異常停止後の立ち上がりなどを検知す
る。共用データ記憶部は、210に示すように、他サー
バに反映を行う。 (b)各サーバの負荷状態 各サーバの負荷更新部30a〜30cは、自サーバの負
荷をそれぞれ取り込み、共用データ記憶部へ書き込む。
書き込まれた各サーバの負荷は、それぞれ他サーバへ反
映される。他サーバへお互いに反映することにより、各
サーバの共用データ記憶部は、全てのサーバの負荷状態
を記憶する。
【0022】(2)アプリケーションのサーバ割り付け
の管理、制御 構成制御処理部の総合的な管理として、構成制御部が下
記に示す各アプリケーションプログラムの実行状態の管
理、制御を行う。 1)管理 各サーバの状態と合わせて、各アプリケーションの下記
状態を常に管理している。 (a)各アプリケーションの動作サーバ アプリケーションの動作サーバとは、そのアプリケーシ
ョンが動作しているサーバである。 (b)各アプリケーションのバックアップサーバ 各アプリケーションが動作しているサーバが停止した場
合、どのサーバで再起動させるかを定義する情報であ
る。再起動させるサーバをバックアップサーバという。 2)制御 後述されるタイミング(構成サーバ変更、定周期)で、
各アプリケーションの動作サーバとバックアップサーバ
を再定義し、クラスタ管理機構に動作サーバとバックア
ップサーバの再定義の指示を行う。なお、動作サーバ、
バックアップサーバの再定義は、予め定義された制御動
作定義ファイルに沿って行われる。制御動作定義ファイ
ル35には、下記の2つの記述方式がある。 (a)規約記述型 サーバ状態に応じた割り付け指示などの規約の詳細をシ
ステム管理者が予め記述する。状況に応じた複雑な指示
が可能という長所がある。だが、システム管理者の負荷
が重いという欠点もある。 (b)モデル指定型 クラスタシステムが用意する代表的な形態のモデルをシ
ステム管理者が指定する簡易な設定方式である。設定が
簡単に短時間で行え、システム管理者の負荷を大幅に軽
減するという長所がある。例えば、予め用意されたモデ
ルから二重系ホットスタンバイ、多重系N対1バックア
ップ型などのモデルを指定できる。
【0023】(3)初期立ち上げ時の動作 初期立ち上げ時には、構成制御部40が制御動作定義フ
ァイルをもとに作成された共用データ記憶部の制御動作
規約情報テーブル(後述)を参照して動作サーバとバッ
クアップサーバを定義し、各アプリケーションの起動要
求をクラスタ管理機構900に伝える。
【0024】(4)構成サーバ変更時の動作 サーバの異常停止及び異常停止後の再立ち上げにより、
構成サーバが変更した時、状態監視部20からのトリガ
252で、各アプリケーションのバックアップサーバの
再定義を構成制御部40が行う。構成制御部40は、再
定義したバックアップサーバをクラスタ管理機構900
に伝える。なお、バックアップサーバの再設定先は、サ
ーバ構成及び各サーバの負荷状況をもとに決定される。
【0025】(5)定周期による動作 負荷更新部30aからのトリガ254で、構成制御部4
0は、定期的に各サーバの負荷をチェックし、チェック
の結果により、各アプリケーションのバックアップサー
バを低負荷のサーバに再設定し、アプリケーション移動
時に特定サーバに負荷が集中することを防ぐ。
【0026】(6)サーバ異常時のアプリケーションの
移動動作 実際に、サーバの異常停止が発生した場合、構成制御処
理部160により設定されたバックアップサーバでアプ
リケーションを再起動させるために、クラスタ管理機構
900にアプリケーションの再起動の指示を出す。指示
を受け取ったクラスタ管理機構900がアプリケーショ
ンを再起動する。以上のように、この発明のクラスタシ
ステムは動作する。
【0027】6.サーバ状態の監視 次に、状態監視部20が行うサーバ状態の監視について
説明する。図7は、サーバ状態の監視を説明する図であ
る。状態監視部20によるサーバ状態の取得は、このク
ラスタシステムが使用するクラスタ管理機構900の提
供する状態取得機能を使用して行う。状態監視部20
は、クラスタ管理機構900からポーリング形式でサー
バ状態を取得する。本実施の形態では、今回取得したサ
ーバ状態の情報と前回取得したサーバ状態の情報とを比
較し、状態変化を検知する方式を採用している。主たる
動作は、以下の通りである。 (a)クラスタ管理機構900の提供するサーバ状態取
得コマンドを使用し、ポーリング形式で全サーバの状態
を取得する(矢印260)。 (b)初回の取得時、共用データ記憶部のサーバ状態情
報テーブル12aに記憶し、他サーバのサーバ状態情報
テーブル12b、12cへ反映を行う(矢印210)。 (c)2回目以降の取得時(前回の取得結果を記録済み
の時)は、記録情報と比較する。状態変化を検知する
と、共用データ記憶部のサーバ状態情報テーブル12a
に取得した状態及び変更マーク(切り離し/組み込みマ
ーク)を記憶し、他サーバのサーバ状態情報テーブル1
2b、12cへ反映を行う(矢印210)。 (d)初回及び変更時、構成制御部へ制御トリガを指示
する。トリガは、OS(Operating Syst
em)が提供するメッセージ送信機能(プログラム間通
信機能)を使用する。
【0028】7.負荷状況の監視 次に、負荷更新部30a〜30cが行う負荷状況の監視
について説明する。図8は、負荷状況の監視を説明する
図である。各サーバの負荷更新部が自サーバの負荷を取
り込み、共用データ記憶部10a〜10cに書き込み、
他サーバへ反映を行う。動作は、以下の通りである。 (a)負荷更新部30a〜30cは、定周期で起動され
る。 (b)負荷更新部30a〜30cは、OSが提供するC
PU負荷情報取り込みコマンドで、OSツール群910
a〜910cより自サーバのCPU負荷を取り込み(2
62a〜262c)、共用データ記憶部のサーバ負荷情
報テーブル13a〜13cに書き込み(268a〜26
8c)、他サーバの共用データ記憶部10a〜10cへ
それぞれ反映する。 (c)構成制御部40が動作するサーバ上で動作する負
荷更新部の場合、構成制御部40へバックアップサーバ
チェックのトリガを送る(矢印264)。
【0029】8.アプリケーション状況の管理、制御 次に、構成制御部40が行うアプリケーション状況の管
理、制御について説明する。構成制御部40は、各アプ
リケーションの状態を管理し、状態監視部20又は負荷
更新部30からのトリガによって、各アプリケーション
のバックアップサーバの変更などを行う。
【0030】(1)管理データ 管理、制御するための必要な管理データは、以下のもの
である。なお、各データはすべて共用データ記憶部10
a〜10cに確保され、更新時は全てのサーバに反映さ
れる。従って、各サーバは同一イメージの管理データを
有することになる。
【0031】(a)制御動作規約情報テーブル11 図9に、制御動作規約情報テーブル11を示す。制御動
作規約情報テーブル11は、サーバの構成に応じ、各ア
プリケーションの動作サーバとバックアップサーバの割
り付け定義が記述された動作規約定義である。定義自体
は、定義ファイル制御動作定義ファイル35に記述さ
れ、定義ファイル制御動作定義ファイル35の内容が共
用データ記憶部に制御動作規約情報テーブル11a〜1
1cとしてクラスタの初期構成時に展開される。制御動
作規約情報テーブル11は、クラスタシステム動作中に
書き替えられることはなく、固定値である。各規約の意
味は、以下の通りである。 ・動作サーバ1105 クラスタの初期立ち上げ時にアプリケーションを動作さ
せるサーバ名である。 ・バックアップサーバ1107 初期立ち上げ時、設定されるバックアップサーバ名であ
る。未定義時、バックアップサーバを割り付けない。 ・固定指示1109 定期負荷によりバックアップサーバの切替を行うか否か
の指定である。切り替えを行う時“OFF”、切り替え
を行わない時“ON”とする。 ・自動移動モード1111 同一サーバで複数のアプリケーションが動作している状
態で、他のサーバが復旧した時、その復旧したサーバに
複数のアプリケーションのうちのいずれかのアプリケー
ションを移動させるか否かの指定である。否の時、復旧
したサーバへのアプリケーションの移動は行わずに、復
旧したサーバへバックアップサーバを割り付ける処理と
なる。固定指示1109、自動移動モード1111の2
つの規約は、アプリケーションを移動させるためには、
そのアプリケーションを終了させなければならないの
で、業務の内容により途中で停止させることが望ましく
ない場合への対応として用意されている。
【0032】(b)サーバ状態情報テーブル12 図10に、サーバ状態情報テーブル12を示す。各サー
バの正常/異常などの状態を管理するためのもので、状
態監視部20が共用データ記憶部に作成、更新する。各
パラメータの意味は、下記の通りである。 ・サーバ状態1203 サーバがクラスタに組み込まれているか否か(正常/切
り離し)の状態を示す。 ・検出状態1205 状態変化のあったサーバについて、検出した状態の変化
が“クラスタからの切り離し”か“クラスタへの組み込
み”かを示す。 ・処理モード1207 サーバ状態の変化に伴う変更処理が処理中か否かを示
す。構成制御処理部160の構成制御動作途中にサーバ
の移動が発生した場合、サーバ移動後のリカバリに使用
する。
【0033】(c)サーバ負荷情報テーブル13 図11に、サーバ負荷情報テーブル13を示す。各サー
バのCPU負荷情報を管理するためのもので、負荷更新
部が定期的に更新する。サーバ負荷情報テーブル13
は、共用データ記憶部に確保される。各パラメータの意
味は、下記の通りである。 ・負荷情報1303 各サーバのCPU負荷(%)を示す。
【0034】(d)アプリケーション動作情報テーブル
14 図12に、アプリケーション(AP)動作情報テーブル
14を示す。各アプリケーションの動作サーバとバック
アップサーバを管理するもので、構成制御部40が作
成、更新する。また、構成制御部40は、アプリケーシ
ョン動作情報テーブル14の更新内容に従って、クラス
タ管理機構900に実行指示を行う。各パラメータの意
味は、下記の通りである。 ・動作サーバ名1403 アプリケーションが実際に動作しているサーバ名が保持
される。 ・バックアップサーバ名1405 実際にバックアップサーバとして割り付けられているサ
ーバ名が保持される。 ・処理中フラグ1407 アプリケーションに対する動作サーバやバックアップサ
ーバの変更処理が、処理中か否かを示す。構成制御処理
部160の構成制御動作途中に、サーバの移動が発生し
た場合、サーバ移動後のリカバリに使用する。
【0035】(2)構成制御部40の動作トリガ 構成制御部40の動作トリガには、下記のものがある。 ・初期立ち上げ システムが開始されたタイミングで、状態監視部20か
ら通知される。 ・構成変更時 サーバ異常停止、再立ち上げ、操作指示によるサーバ切
り離し/組み込みにより、サーバの状態が変更されたタ
イミングで、状態監視部20から通知される。 ・定期 負荷更新部が定期的に行う自サーバ負荷更新タイミング
で、構成制御部40が動作しているサーバの負荷更新部
30から通知を受けとる。構成制御部40は、動作トリ
ガの通知をOS提供のメッセージ通知機構(プログラム
間通信機能)で受けとる。構成制御部40は、メッセー
ジの通知を常に待ち、受けとると要因に沿った処理を行
う。
【0036】(3)初期立ち上げ時の構成制御部40の
動作 図13は、構成制御部40の初期立ち上げ時の動作を示
す流れ図である。構成制御部40は、状態監視部20か
ら何らかのメッセージの送付を受けると、S101にお
いて、メッセージを取り込み、メッセージの要因が“初
期立ち上げ”かどうか判定する。NOの場合、S103
において、他の要求のメッセージかどうかチェックを行
う。YESの場合、S105において、サーバ状態情報
テーブルから現状のサーバ構成を取得し、本構成に対応
する制御動作規約情報テーブル11を参照し、各アプリ
ケーションの動作サーバとバックアップサーバを決定
し、アプリケーション動作情報テーブルを作成する。次
に、S107で、クラスタ管理機構900に、各アプリ
ケーションをアプリケーション動作情報テーブルに定義
された動作サーバで起動するよう指示を行う。次に、S
109において、クラスタ管理機構900にアプリケー
ションのバックアップサーバの設定を行うよう指示を出
す。S111において、全アプリケーションの処理が終
了したか否かを判定し、終了するまでS105〜S10
9の処理を繰り返す。このように、全アプリケーション
に対し、上記起動/設定処理を行う。S111の判定で
全アプリケーション処理が終了すると、S113でメッ
セージ待ちに戻る。この状態で、アプリケーション動作
サーバが異常停止すると、クラスタ管理機構900は、
構成制御部40の指示により設定されているバックアッ
プサーバでアプリケーションを再起動する。
【0037】(4)構成変更時の構成制御部40の動作 図14から図18は、サーバ構成が変更された時の構成
制御部40の動作を示す流れ図である。 1)動作サーバ切り離し時 サーバの異常停止やユーザ指示によりサーバがクラスタ
から削除された場合、構成制御部40は、図14,図1
5に示した流れ図に従い、下記動作を行う。構成制御部
40は、状態監視部20からメッセージの送付を受ける
と、S121において、送付されたメッセージを取り込
み、取り込んだメッセージが“切り離し要求”かどうか
判定する。判定した結果、“切り離し要求”でなけれ
ば、S123において、他の要因のチェックを行う。
“切り離し要求”であった場合には、S125におい
て、サーバ状態情報テーブル12から切り離し要求のあ
るサーバ(検出状態1205が切り離しのサーバ)をサ
ーチする。検出したら、サーバ状態情報テーブル12の
処理モード1207を処理中にセットする(S12
9)。検出しない場合は、元のメッセージ待ちに戻る
(S127)。
【0038】次に、S131において、アプリケーショ
ン動作情報テーブルから該当サーバで動作していたアプ
リケーションをスキャンする。次に、S133におい
て、検出したアプリケーションのアプリケーション動作
情報テーブルの処理中フラグ1407をセットし、実際
に動作しているサーバ名をクラスタ管理機構900から
取り込み、取り込んだサーバ名をアプリケーション動作
情報テーブル14の動作サーバ名1403にセットす
る。この時点では、切り離し要求のあるサーバ上で動作
していたアプリケーションは、既にクラスタ管理機構9
00によりアプリケーション動作情報テーブル14で定
義されているバックアップサーバで再起動しているはず
であるが、構成制御部40は、クラスタ管理機構900
から実際の動作サーバ名を取り込む。
【0039】実際に動作しているサーバが存在しない
(アプリケーション停止=バックアップ未定義又は重複
障害)場合は、図15のS139に示すように、バック
アップサーバ無しを選択する。
【0040】アプリケーションが動作中の場合、制御動
作規約情報テーブルの同一サーバ構成の項を参照し(図
14、S135)、アプリケーションのバックアップサ
ーバが未定義の場合、図15のS139に示すように、
バックアップサーバ無しを選択する。アプリケーション
のバックアップサーバの未定義は、故障により動作サー
バ数が特定台数に満たない場合、サーバの処理能力上の
問題から、重要でないアプリケーションを切り捨て、重
要なアプリケーションの動作を保証するため等に使用さ
れる。
【0041】バックアップサーバが定義されている場
合、アプリケーション動作情報テーブル/サーバ状態情
報テーブルから、アプリケーションが動作していない正
常サーバをサーチする(図15、S137)。検出した
場合、検出した正常サーバをバックアップサーバに決定
する(図15、S143)。
【0042】検出しない場合、サーバ負荷テーブルから
最も低負荷なサーバをバックアップサーバに選択する
(図15、S141)。
【0043】次に、S145で、アプリケーション動作
情報テーブルのバックアップサーバ名を選択したバック
アップサーバに変更し、他サーバに反映を行う。その
後、S147で、クラスタ管理機構900にバックアッ
プサーバの変更指示を行う。完了後、アプリケーション
動作情報テーブル14の処理中フラグ1407をリセッ
トし、他サーバへ反映を行う(S149)。S131〜
S149の処理を該当する全アプリケーションに対して
繰り返し行う。
【0044】全アプリケーションに対する処理が完了し
たら、サーバ状態情報テーブル12の該当サーバのサー
バ状態1203を切り離し状態にし、検出状態1205
をクリア、処理モード1207をリセットし、他サーバ
へ反映する(S151)。
【0045】2)サーバ再組み込み時 異常サーバの再立ち上げやコマンド指示によるサーバ組
み込みで、クラスタにサーバが再組み込みされた場合、
構成制御部40は、図16から図18に示す流れ図に従
い、下記動作を行う。
【0046】構成制御部40は、状態監視部20からメ
ッセージを送付されると、S161において、送付され
たメッセージを取り込み、メッセージが“組み込み要
求”かどうか判定する。“組み込み要求”でなかった時
には、S163において、他の要求のチェックを行う。
“組み込み要求”であった場合には、S165におい
て、サーバ状態情報テーブル12から組み込み要求のあ
るサーバ(検出状態1205が組み込み)をサーチす
る。検出したら、サーバ状態情報テーブル12の処理モ
ード1207を処理中にセットする(S169)。検出
しない場合は、元のメッセージ待ちに戻る(S16
7)。
【0047】次に、アプリケーション動作情報テーブル
14をサーチし、動作していないアプリケーション(動
作サーバ名1403に登録のないアプリケーション)を
サーチする(S171)。検出した場合、下記を行う。
アプリケーション動作情報テーブル14の処理中フラグ
1407を処理中にし、動作サーバ名1403を組み込
みサーバに設定し、他サーバへ反映する(S173)。
次に、S175で、アプリケーションの起動指示をクラ
スタ管理機構900に対して行う。完了後、アプリケー
ション動作情報テーブル14の処理中フラグ1407を
リセットし、他サーバへ反映する。該当するアプリケー
ションに対し処理を行ったら、元のメッセージ待ちへ戻
る(S179)。
【0048】S171の判定で、動作サーバなしのアプ
リケーションが無い場合は、図17のS181におい
て、同一サーバで重複動作しているアプリケーションを
アプリケーション動作情報テーブル14からサーチす
る。存在する場合、下記のアプリケーション移動処理を
行う。制御動作規約情報テーブル11を参照し、同一サ
ーバで重複動作しているアプリケーションの内、同一サ
ーバ構成時、自動移動モードがONのものをサーチする
(S183)。存在しない場合は、アプリケーション移
動処理はスキップし、図18のS193に進む。検出し
た場合、図17のS185において、そのアプリケーシ
ョンのアプリケーション動作情報テーブル14の処理中
フラグ1407をセットし、動作サーバ名1403を組
み込みサーバに変更し、他サーバに反映する。その後、
クラスタ管理機構900に、該当アプリケーションの移
動(停止、起動サーバ設定、起動)指示を行う(S18
7)。完了後、アプリケーション動作情報テーブル14
の処理中フラグ1407をリセットし、他サーバに反映
する(S189)。処理終了後、元のメッセージ待ちへ
戻る(S191)。
【0049】上記のアプリケーション移動処理が行われ
なかった場合、図18のS193において、各アプリケ
ーションのバックアップサーバ名1405を組み込みサ
ーバに変更する。本処理は、前述同様、アプリケーショ
ン動作情報テーブル14の処理中フラグ1407を処理
中にし、バックアップサーバ名1405を書き換え、他
サーバに反映する。次に、S195において、クラスタ
管理機構900に、バックアップサーバ名変更指示を行
う。次に、S197において、アプリケーション動作情
報テーブル14の処理中フラグ1407をリセットし、
他サーバに反映する。
【0050】最後に、サーバ状態情報テーブル12のサ
ーバ状態1203を正常に書き換え、検出状態1205
をクリア、処理モード1207をリセットし、他サーバ
へ反映する(S199)。
【0051】(5)定期負荷更新時の動作 負荷更新部からのトリガがあった場合、構成制御部40
は、図19に示す流れ図に従い、下記動作を行う。構成
制御部40は、負荷更新部30からメッセージを送付さ
れると、S211で送付されたメッセージを取り込み、
“定期負荷要求”かを判定する。“定期負荷要求”でな
い時、S213で他の要求のチェックを行う。“定期負
荷要求”であった時、S215でアプリケーション動作
情報テーブル14をサーチし、バックアップサーバが定
義されている動作アプリケーションの内、制御動作規約
情報テーブルの同一サーバ構成時の固定バックアップ指
定なしのアプリケーション(固定指示1109がOFF
のアプリケーション)をサーチする。
【0052】該当するアプリケーションがサーチされる
と、S217でサーチされたアプリケーションのバック
アップサーバの負荷と他サーバの負荷をサーバ負荷情報
テーブルで比較しながら、より低負荷のサーバをサーチ
する。また、サーチしたより低負荷のサーバをサーバ状
態情報テーブル12でサーチし、サーバ状態1203が
正常であることを確認する。より低負荷で正常なサーバ
があれば、S219で、該当アプリケーションのアプリ
ケーション動作情報テーブル14の処理中フラグ140
7を処理中にし、バックアップサーバ名1405をサー
チしたサーバに書き換え、他サーバに反映する。次に、
S221でクラスタ管理機構900にバックアップサー
バ名の変更指示を行う。完了後、アプリケーション動作
情報テーブル14の処理中フラグ1407をリセット
し、他サーバに反映する。(S223)。全アプリケー
ションに対し、上記S215〜S223の処理を行い
(S225)、処理が終了したらメッセージ待ちへ戻る
(S227)。
【0053】9.制御動作例 以下に、制御動作例として、サーバ状態の変更に対する
アプリケーションのバックアップサーバの割り付けの例
をいくつか記述する。 (1)構成変更(異常停止/復旧)による動作例 5台構成時の構成変更時の割り付け例を示す。図20
は、サーバ構成の変更例を示す図である。図21は、図
20のサーバ構成の変更にそれぞれ対応するアプリケー
ションの割り付け例を示す図である。図20の200
1、図21の2101に示すように、各アプリケーショ
ンAP1,AP2,AP3がサーバ100a,100
b,100cで動作し、各アプリケーションのバックア
ップサーバは、サーバ100dに割り当てられている。
【0054】次に、図20の2002に示すように、サ
ーバ100aが異常停止すると、クラスタ管理機構90
0がアプリケーションAP1を、2101においてバッ
クアップサーバに指定されているサーバ100dに移
す。構成制御部40は、このトリガを元に、各アプリケ
ーションのバックアップサーバをアプリケーションが何
も動作していないサーバ100eに割り付ける。割り付
けた状態を図21の2102に示す。
【0055】次に、図20の2003に示すように、サ
ーバ100bが異常停止すると、クラスタ管理機構90
0がアプリケーションAP2をバックアップサーバに指
定されているサーバ100eに移す。構成制御部40
は、このトリガを元に、各アプリケーションのバックア
ップサーバをサーバ100c,100d,100dと、
図21の2103に示すように再設定する。負荷による
調整は、前述した説明のように行われるので、ここでは
説明は省略する。
【0056】次に、図20の2004に示すように、サ
ーバ100aが復旧して立ち上がり、それを構成制御部
40が検知すると、このトリガを元に、構成制御部40
は、各アプリケーションのバックアップサーバを、図2
1の2104に示すように、サーバ100aに再設定す
る。
【0057】(2)構成変更(復旧)による動作例 図22から図24は、異常縮退後の復旧時の動作例を示
す図である。図22の2201、図23の2301に示
すように、サーバ100d、100eが正常な状態で稼
働しており、アプリケーションAP1、アプリケーショ
ンAP3がサーバ100dで重複動作しているものとす
る。その状態で、サーバ100cが復旧すると、構成制
御部40は、そのトリガを受け、サーバ100c,10
0d,100eの3台によるクラスタ構成時の制御動作
規約情報テーブルのアプリケーションAP3の自動移動
モードを判定する。自動移動モードONの場合、構成制
御部40は、クラスタ管理機構900に指示を出し、ア
プリケーションAP3はサーバ100cに移動(停止、
再起動)される。その結果、図22の2202、図23
の2303に示すように、サーバ100c,100d,
100eでの運転に移行する。
【0058】なお、自動移動モードOFFの場合は、ア
プリケーションの移動は行われず、各アプリケーション
のバックアップサーバにサーバ100cが割り当てられ
る処理となる。この時の割り当てを、図24に示す。
【0059】(3)CPU負荷による動作例 図25から図28は、CPU負荷変動による定期更新の
動作例を示す図である。図25に示すように、サーバ1
00c,100d,100eでアプリケーションAP
3,AP1,AP2がそれぞれ動作している。各CPU
負荷により図26に示すように、バックアップサーバが
サーバ100c,100d,100dと割り付けられて
いる。サーバ100dで動作しているアプリケーション
AP1のバックアップは、サーバ100eより軽負荷で
あるサーバ100cに割り付けられている。負荷更新部
30による負荷の更新後、図27に示すように、サーバ
負荷の軽負荷順位で、サーバ100cとサーバ100e
が逆転したので、構成制御部40は、サーバ100cを
バックアップサーバとしていたアプリケーションAP1
のバックアップサーバを図28に示すように、サーバ1
00eに切り替える。
【0060】10.制御動作規約の定義 次に、制御動作規約の定義について、図29を用いて説
明する。共用データ記憶部10の制御動作規約情報テー
ブル11作成のために、ユーザが記述する定義ファイル
2901について説明する。制御動作規約情報テーブル
11の作成方式は、規約記述型とモデル指定型の2方式
がある。
【0061】a)規約記述型 サーバ構成の各変動に対し、どのような動作制御を行う
かの規約定義2902を詳細に記述したユーザ定義ファ
イル2901を図29の2903に示すように、ユーザ
が記述して作成する方式である。このユーザ定義ファイ
ル2901は、プログラミングを必要としない簡易なビ
ルドインコマンドで記述可能とする。クラスタシステム
立ち上げ時に構成制御部40により規約定義2902が
参照され、制御動作規約情報テーブル11が作成され
る。
【0062】b)モデル指定型 特定の動作モデルを予め定義し、その中からユーザに指
定をさせる方式である。当然、内部で、指定されたモデ
ルをもとにして、規約定義2916に変換が行われる。
記述できるモデルは、以下の通りである。 ・二重系ホットスタンバイ(ロードシェア含む)型モデ
ル 図30に、二重系ホットスタンバイモデルの定義例を示
す。このモデルでは、アプリケーションを双方のサーバ
で動くよう2個用意した場合、ロードシェア型となる。
アプリケーション動作中のサーバが異常停止した場合、
動作中であったアプリケーションは、もう一方のサーバ
で再起動される。異常サーバが復旧した場合、復旧した
サーバは、各アプリケーションのバックアップサーバと
なる。 ・多重系N対1バックアップ(バックアップ浮動)型 図31に、多重系N対1バックアップモデルの定義例を
示す。(N+1)台のサーバで構成され、1台を共通の
バックアップとする形態である。アプリケーションはN
個存在し、N台のサーバでそれぞれ動作する。動作サー
バが停止すると、アプリケーションはバックアップサー
バで動作する。異常サーバが復旧し、再度、組み込まれ
ると、全アプリケーションのバックアップサーバとな
る。なお、2個以上のサーバが異常停止した場合、その
アプリケーションは切り捨てられ、サーバが復旧した
時、再起動される。どちらの作成方式の場合も、記述フ
ァイル内容はクラスタシステム立ち上げ時、図29の2
905,2918に示すように、制御動作規約情報テー
ブル11に展開される。
【0063】以上のように、この実施の形態では、クラ
スタ(分散した複数の計算機を一まとまりにしたシステ
ム)構成に於いて、計算機及びアプリケーションの状態
変化に応じて、アプリケーションの起動、停止、起動計
算機の決定、及び引継ぎ計算機(アプリケーション、も
しくはアプリケーション実行中の計算機が異常停止した
場合、次にアプリケーションを実行する計算機のこと)
の決定を自動的、かつ、最適に制御できるようにしたク
ラスタの自動構成制御方式について説明した。この実施
の形態のクラスタシステムによれば、計算機及びアプリ
ケーションの状態を常に監視し、その状態の変化に応じ
て、自動的かつ最適にアプリケーションの動作計算機を
動的に制御するので、システム管理者の負担が軽減され
る。
【0064】前述した実施の形態では、ネットワークを
介して更新される共用データ記憶部をサーバ毎に備える
場合について説明したが、クラスタシステム内で共用の
メモリ装置を備えて共用データ記憶部としてもよい。
【0065】
【発明の効果】この発明によれば、クラスタシステムを
構成するサーバの状態に応じて、アプリケーションとサ
ーバとの対応を動的に制御できる。これにより、システ
ム管理者がシステム監視、制御に要する負担を大幅に軽
減し、効率のよい高信頼システムの構築が可能になる。
【0066】また、この発明によれば、クラスタに構成
されている計算機のメンバーに応じたアプリケーション
の引継ぎ計算機を自動的に決定できる。
【0067】また、この発明によれば、新たにサーバが
起動した時、操作者を介入させずアプリケーションを自
動引継ぎできる。
【0068】また、クラスタのメンバーに変動が生じた
際、実行中のアプリケーションの引継ぎ計算機を変更
し、決定するので、常に最適な引継ぎ計算機を選択可能
である。
【0069】また、サーバの負荷に応じて、アプリケー
ションの引き継ぎを行うので、負荷の分散が図れる。
【0070】また、定義ファイルを基にクラスタの構成
を制御する規約情報を作成するので、プログラミングレ
スによる定義が可能である。
【0071】また、システムで定義テンプレートを用意
するので、パターン化された処理の場合、ユーザは、ク
ラスタシステムの詳細な定義を行う必要がない。
【0072】また、構成制御部が、定期的に取得された
各計算機の負荷(CPU、メモリ)状況によって最適な
引継ぎ計算機を自動決定し、引継ぎを行うので、操作者
が介入せず最適な引継ぎができる。
【図面の簡単な説明】
【図1】 この発明のクラスタシステムの構成を示すブ
ロック図である。
【図2】 この発明のクラスタシステムの構成を示すブ
ロック図である。
【図3】 この発明のクラスタシステムのハードウェア
構成図である。
【図4】 この発明のクラスタシステムの機能を示すブ
ロック図である。
【図5】 この発明のクラスタシステムの機能を示すブ
ロック図である。
【図6】 この発明のクラスタシステムの動作概要を示
す図である。
【図7】 この発明のクラスタシステムの状態監視部2
0が行うサーバ状態の監視を説明する図である。
【図8】 この発明のクラスタシステムの負荷更新部3
0が行う負荷状況の監視を説明する図である。
【図9】 この発明のクラスタシステムの共用データ記
憶部10の制御動作規約情報テーブル11を示す図であ
る。
【図10】 この発明のクラスタシステムの共用データ
記憶部10のサーバ状態情報テーブル12を示す図であ
る。
【図11】 この発明のクラスタシステムの共用データ
記憶部10のサーバ負荷情報テーブル13を示す図であ
る。
【図12】 この発明のクラスタシステムの共用データ
記憶部10のアプリケーション動作情報テーブル14を
示す図である。
【図13】 この発明のクラスタシステムの構成制御部
40の初期立ち上げ時の動作の流れ図である。
【図14】 この発明のクラスタシステムの構成制御部
40のサーバ構成変更時の動作を示す流れ図である。
【図15】 この発明のクラスタシステムの構成制御部
40のサーバ構成変更時の動作を示す流れ図である。
【図16】 この発明のクラスタシステムの構成制御部
40のサーバ構成変更時の動作を示す流れ図である。
【図17】 この発明のクラスタシステムの構成制御部
40のサーバ構成変更時の動作を示す流れ図である。
【図18】 この発明のクラスタシステムの構成制御部
40のサーバ構成変更時の動作を示す流れ図である。
【図19】 この発明のクラスタシステムの構成制御部
40の負荷更新時の動作の流れ図である。
【図20】 この発明のクラスタシステムのサーバ構成
の変更例を示す図である。
【図21】 この発明のクラスタシステムの図20のサ
ーバ構成の変更に対応するアプリケーションの割り当て
例を示す図である。
【図22】 この発明のクラスタシステムの異常縮退後
の復旧時の構成の変更例を示す図である。
【図23】 この発明のクラスタシステムの図22に対
応するサーバの異常縮退後の復旧時のアプリケーション
の割り当て例を示す図である。
【図24】 この発明のクラスタシステムの図22に対
応するサーバの異常縮退後の復旧時のアプリケーション
の割り当て例を示す図である。
【図25】 この発明のクラスタシステムのCPU負荷
変動による定期更新時の動作例を示す図である。
【図26】 この発明のクラスタシステムのCPU負荷
変動による定期更新時の動作例を示す図である。
【図27】 この発明のクラスタシステムのCPU負荷
変動による定期更新時の動作例を示す図である。
【図28】 この発明のクラスタシステムのCPU負荷
変動による定期更新時の動作例を示す図である。
【図29】 この発明のクラスタシステムの共用データ
記憶部10の制御動作規約情報テーブル11の作成を説
明する図である。
【図30】 この発明のクラスタシステムの二重系ホッ
トスタンバイモデルの定義例を示す図である。
【図31】 この発明のクラスタシステムの多重系N対
1バックアップモデルの定義例を示す図である。
【符号の説明】
10,10a,10b,10c 共用データ記憶部、1
1,11a,11b,11c 制御動作規約情報テーブ
ル、12,12a,12b,12c サーバ状態情報テ
ーブル、13,13a,13b,13c サーバ負荷情
報テーブル、14,14a,14b,14c アプリケ
ーション動作情報テーブル、20 状態監視部、30,
30a,30b,30c 負荷更新部、35 制御動作
定義ファイル、40 構成制御部、100a,100
b,100c,100n サーバ、160 構成制御処
理部、200a,200b,200n ディスク、90
0クラスタ管理機構、910a,910b,910c
OSツール群、1000ネットワーク、1101 サー
バ構成、1103 アプリケーション名、1105 動
作サーバ、1107 バックアップサーバ、1109
固定指示、1111 自動移動モード、1201 サー
バ名、1203 サーバ状態、1205検出状態、12
07 処理モード、1301 サーバ名、1303 負
荷情報、1401 アプリケーション名、1403 動
作サーバ名、1405 バックアップサーバ名、140
7 処理中フラグ、AP1,AP2,AP3 アプリケ
ーション。

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 1つ以上のアプリケーションを実行可能
    な複数台のサーバをメンバーとして構成されるクラスタ
    システムであって、上記複数台のサーバのいずれか1台
    に上記アプリケーションを実行させるとともに、上記1
    台のサーバが上記アプリケーションを実行不可能である
    時に他のサーバに上記アプリケーションの実行を引き継
    がせるクラスタシステムにおいて、 以下の要素を有するクラスタシステム (a)上記複数台のサーバから共通して利用可能な共用
    データとして、上記複数台のサーバの状態を示すサーバ
    状態情報と上記複数台のサーバの負荷を示す負荷情報と
    上記アプリケーションの動作に関するアプリケーション
    動作情報とを記憶する共用データ記憶部、(b)上記複
    数台のサーバの状態を取得して上記サーバ状態情報を更
    新する状態監視部、(c)上記複数台のサーバの負荷を
    取得して上記負荷情報を更新する負荷更新部、(d)上
    記共用データ記憶部を参照して、上記アプリケーション
    と上記複数台のサーバとの対応を動的に制御する構成制
    御部。
  2. 【請求項2】 上記共用データ記憶部は、上記クラスタ
    システムの制御に関する規約を定義する規約情報を記憶
    するとともに、上記構成制御部は、上記クラスタシステ
    ムの起動の際のクラスタ構成時に上記規約情報と上記サ
    ーバ状態情報とを参照して上記アプリケーション動作情
    報を作成することを特徴とする請求項1に記載のクラス
    タシステム。
  3. 【請求項3】 上記構成制御部は、上記クラスタシステ
    ムのクラスタ構成後に新たなサーバが起動してメンバー
    として上記クラスタシステムに参加した時、上記サーバ
    状態情報と上記アプリケーション動作情報とを参照して
    上記アプリケーションの引継ぎを行うことを特徴とする
    請求項1に記載のクラスタシステム。
  4. 【請求項4】 上記構成制御部は、上記クラスタシステ
    ムのクラスタ構成後にメンバーの移動が発生した時、上
    記サーバ状態情報と上記アプリケーション動作情報とを
    参照して上記アプリケーションを引き継ぐ引継ぎサーバ
    を決定して上記アプリケーション動作情報を更新するこ
    とを特徴とする請求項1に記載のクラスタシステム。
  5. 【請求項5】 上記構成制御部は、上記複数のサーバの
    いずれかの負荷状態に変化が起こった時、上記サーバ負
    荷情報と上記アプリケーション動作情報とを参照して上
    記アプリケーションの引継ぎを行うことを特徴とする請
    求項1に記載のクラスタシステム。
  6. 【請求項6】 上記規約情報は、ユーザが設定する定義
    ファイルをもとに作成されることを特徴とする請求項2
    に記載のクラスタシステム。
  7. 【請求項7】 上記クラスタシステムは、パターン化さ
    れたテンプレートを予め用意し、用意したテンプレート
    のいずれかをもとに上記規約情報を作成することを特徴
    とする請求項2に記載のクラスタシステム。
  8. 【請求項8】 上記負荷更新部は、所定のタイミングで
    定期的に上記複数台のサーバの負荷を取得して上記負荷
    情報を更新し、上記構成制御部は、上記負荷情報を参照
    してアプリケーション引継ぎに際し、上記アプリケーシ
    ョンを引き継ぐ引継ぎサーバを決定して上記アプリケー
    ションの引継ぎを行うことを特徴とする請求項1に記載
    のクラスタシステム。
JP9350391A 1997-12-19 1997-12-19 クラスタシステム Pending JPH11184825A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9350391A JPH11184825A (ja) 1997-12-19 1997-12-19 クラスタシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9350391A JPH11184825A (ja) 1997-12-19 1997-12-19 クラスタシステム

Publications (1)

Publication Number Publication Date
JPH11184825A true JPH11184825A (ja) 1999-07-09

Family

ID=18410179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9350391A Pending JPH11184825A (ja) 1997-12-19 1997-12-19 クラスタシステム

Country Status (1)

Country Link
JP (1) JPH11184825A (ja)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125878A (ja) * 1999-10-29 2001-05-11 Nec Corp クラスタ型計算機システム
JP2001155022A (ja) * 1999-11-25 2001-06-08 Nec Corp 分散コンテンツ管理システム
JP2001155003A (ja) * 1999-11-30 2001-06-08 Ntt Comware Corp サービス復旧システムおよびその記録媒体
JP2001216174A (ja) * 2000-02-04 2001-08-10 Nippon Telegr & Teleph Corp <Ntt> アプリケーション代替方法及びアプリケーション代替プログラムを格納した記憶媒体
JP2002091938A (ja) * 2000-07-28 2002-03-29 Internatl Business Mach Corp <Ibm> フェールオーバを処理するシステムおよび方法
JP2005339525A (ja) * 2004-04-27 2005-12-08 Hitachi Ltd クラスタ制御方法、クラスタ制御プログラム、クラスタシステムおよび待機サーバ
US7069473B2 (en) 2001-10-05 2006-06-27 Nec Corporation Computer recovery method and system for recovering automatically from fault, and fault monitoring apparatus and program used in computer system
JP2006323526A (ja) * 2005-05-17 2006-11-30 Fujitsu Ltd クラスタ管理プログラム、該プログラムを記録した記録媒体、クラスタ管理方法、ノード、およびクラスタ
JP2007226400A (ja) * 2006-02-22 2007-09-06 Hitachi Ltd 計算機管理方法、計算機管理プログラム、実行サーバの構成を管理する待機サーバ及び計算機システム
WO2008004330A1 (fr) * 2006-07-04 2008-01-10 Fujitsu Limited Système à processeurs multiples
JP2009026182A (ja) * 2007-07-23 2009-02-05 Toshiba Corp プログラム実行システム及び実行装置
JP2010103695A (ja) * 2008-10-22 2010-05-06 Ntt Data Corp クラスタシステム、クラスタサーバ及びクラスタ制御方法
JP2010528345A (ja) * 2007-01-31 2010-08-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 協定タイミング・ネットワーク内の階層1構成を定義する方法、システム、およびコンピュータ・プログラム
US8416811B2 (en) 2008-04-10 2013-04-09 International Business Machines Corporation Coordinated timing network having servers of different capabilities
US8458361B2 (en) 2007-01-31 2013-06-04 International Business Machines Corporation Channel subsystem server time protocol commands
US8738792B2 (en) 2007-01-31 2014-05-27 International Business Machines Corporation Server time protocol messages and methods
JP2014225140A (ja) * 2013-05-16 2014-12-04 Necプラットフォームズ株式会社 情報収録システム、収録システム用障害対処方法、及びその障害対処プログラム
KR101681651B1 (ko) * 2015-07-16 2016-12-01 주식회사 케이티 데이터베이스 관리 시스템 및 방법
JP2019121846A (ja) * 2017-12-28 2019-07-22 Phcホールディングス株式会社 Vpnシステム、および、vpnシステムの制御方法

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125878A (ja) * 1999-10-29 2001-05-11 Nec Corp クラスタ型計算機システム
US7293084B1 (en) 1999-11-25 2007-11-06 Nec Corporation Network contents managing system
JP2001155022A (ja) * 1999-11-25 2001-06-08 Nec Corp 分散コンテンツ管理システム
JP2001155003A (ja) * 1999-11-30 2001-06-08 Ntt Comware Corp サービス復旧システムおよびその記録媒体
JP2001216174A (ja) * 2000-02-04 2001-08-10 Nippon Telegr & Teleph Corp <Ntt> アプリケーション代替方法及びアプリケーション代替プログラムを格納した記憶媒体
US6990606B2 (en) 2000-07-28 2006-01-24 International Business Machines Corporation Cascading failover of a data management application for shared disk file systems in loosely coupled node clusters
JP2002091938A (ja) * 2000-07-28 2002-03-29 Internatl Business Mach Corp <Ibm> フェールオーバを処理するシステムおよび方法
US7523345B2 (en) 2000-07-28 2009-04-21 International Business Machines Corporation Cascading failover of a data management application for shared disk file systems in loosely coupled node clusters
US7069473B2 (en) 2001-10-05 2006-06-27 Nec Corporation Computer recovery method and system for recovering automatically from fault, and fault monitoring apparatus and program used in computer system
JP4520899B2 (ja) * 2004-04-27 2010-08-11 株式会社日立製作所 クラスタ制御方法、クラスタ制御プログラム、クラスタシステムおよび待機サーバ
JP2005339525A (ja) * 2004-04-27 2005-12-08 Hitachi Ltd クラスタ制御方法、クラスタ制御プログラム、クラスタシステムおよび待機サーバ
JP2006323526A (ja) * 2005-05-17 2006-11-30 Fujitsu Ltd クラスタ管理プログラム、該プログラムを記録した記録媒体、クラスタ管理方法、ノード、およびクラスタ
JP2007226400A (ja) * 2006-02-22 2007-09-06 Hitachi Ltd 計算機管理方法、計算機管理プログラム、実行サーバの構成を管理する待機サーバ及び計算機システム
WO2008004330A1 (fr) * 2006-07-04 2008-01-10 Fujitsu Limited Système à processeurs multiples
US8458361B2 (en) 2007-01-31 2013-06-04 International Business Machines Corporation Channel subsystem server time protocol commands
JP2010528345A (ja) * 2007-01-31 2010-08-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 協定タイミング・ネットワーク内の階層1構成を定義する方法、システム、およびコンピュータ・プログラム
US8738792B2 (en) 2007-01-31 2014-05-27 International Business Machines Corporation Server time protocol messages and methods
US8972606B2 (en) 2007-01-31 2015-03-03 International Business Machines Corporation Channel subsystem server time protocol commands
US9112626B2 (en) 2007-01-31 2015-08-18 International Business Machines Corporation Employing configuration information to determine the role of a server in a coordinated timing network
US9164699B2 (en) 2007-01-31 2015-10-20 International Business Machines Corporation Channel subsystem server time protocol commands
JP2009026182A (ja) * 2007-07-23 2009-02-05 Toshiba Corp プログラム実行システム及び実行装置
US8416811B2 (en) 2008-04-10 2013-04-09 International Business Machines Corporation Coordinated timing network having servers of different capabilities
JP2010103695A (ja) * 2008-10-22 2010-05-06 Ntt Data Corp クラスタシステム、クラスタサーバ及びクラスタ制御方法
JP2014225140A (ja) * 2013-05-16 2014-12-04 Necプラットフォームズ株式会社 情報収録システム、収録システム用障害対処方法、及びその障害対処プログラム
KR101681651B1 (ko) * 2015-07-16 2016-12-01 주식회사 케이티 데이터베이스 관리 시스템 및 방법
JP2019121846A (ja) * 2017-12-28 2019-07-22 Phcホールディングス株式会社 Vpnシステム、および、vpnシステムの制御方法

Similar Documents

Publication Publication Date Title
JPH11184825A (ja) クラスタシステム
JP6364083B2 (ja) コンセンサスノードを用いた分散ファイルシステム
US8396830B2 (en) Data control method for duplicating data between computer systems
JP4986442B2 (ja) 一般化されたPaxos
US8214686B2 (en) Distributed processing method
US9846704B2 (en) Distributed file system using consensus nodes
US9325757B2 (en) Methods and systems for fault-tolerant distributed stream processing
JP5487951B2 (ja) 運用管理プログラム、運用管理装置および運用管理方法
JPH05108392A (ja) データ処理システム
CN102567438A (zh) 对分布式存储系统中的数据项进行访问的方法
JP3748339B2 (ja) 複数のデータストアの同期をとってデータ整合性を達成する方法
JP3887130B2 (ja) 高可用性計算機システム及び同システムにおけるデータバックアップ方法
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
JP3901060B2 (ja) アプリケーションの更新処理方法、更新処理システム及び更新処理プログラム
US11341100B2 (en) System and method for eliminating full rescan synchronizations on service restarts
US7437445B1 (en) System and methods for host naming in a managed information environment
JPH07160370A (ja) 停電管理装置
JP2003345638A (ja) 記憶制御装置の制御方法及び記憶制御装置及びプログラム
WO2023032106A1 (ja) ジョブ管理システム及びその制御方法
JP2001216146A (ja) 無中断ファイル更新処理方式および方法
JP3551552B2 (ja) 分散型情報処理システムの情報処理方法
CN117725100A (zh) 数据库主从切换方法、系统、设备及存储介质
JP2004206298A (ja) ジョブ処理システム及びプログラム
CN115167927A (zh) 一种操作系统远程部署和还原系统及方法
JPH10320338A (ja) Cssサーバの一元管理及び処理実行制御方式

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20010522