JP2001022709A - Cluster system and computer-readable storage medium storing program - Google Patents

Cluster system and computer-readable storage medium storing program

Info

Publication number
JP2001022709A
JP2001022709A JP11198971A JP19897199A JP2001022709A JP 2001022709 A JP2001022709 A JP 2001022709A JP 11198971 A JP11198971 A JP 11198971A JP 19897199 A JP19897199 A JP 19897199A JP 2001022709 A JP2001022709 A JP 2001022709A
Authority
JP
Japan
Prior art keywords
program
computer
abnormality
detected
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11198971A
Other languages
Japanese (ja)
Inventor
Akifumi Murata
明文 村田
Makoto Koishi
誠 小石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP11198971A priority Critical patent/JP2001022709A/en
Publication of JP2001022709A publication Critical patent/JP2001022709A/en
Pending legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To easily introduce a new program into a cluster system and to continuously execute the program even if some abnormality occurs. SOLUTION: In the cluster system which monitors the operation states of programs 6a to 6c running on computers 2a and 2b, an identification information acquiring means 11a acquires identification information of the programs 6a to 6c and a monitor means 12a monitor whether or not the programs 6a to 6c indicated by the acquired identification information are normal. When it is judged that a monitored program is abnormal, a restarting means 12b restarts the abnormal program on the computer 2a where the abnormal program was executed. Once the abnormality of the restarted program is detected, a program transfer means 11b executes the programs 6a to 6c on the computer 2a where the abnormal program was executed, on the other computer 2b.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、複数の計算機が結
合された環境における各計算機の動作を監視するクラス
タシステム及びプログラムを記憶したコンピュータ読み
取り可能な記憶媒体に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a cluster system for monitoring the operation of each computer in an environment where a plurality of computers are connected, and a computer-readable storage medium storing a program.

【0002】[0002]

【従来の技術】クラスタシステムは、ネットワークを介
して接続された計算機(コンピュータ)にクラスタ・ソ
フトウェアを搭載して構築される。
2. Description of the Related Art A cluster system is constructed by mounting cluster software on a computer (computer) connected via a network.

【0003】図5は、従来のクラスタシステムの概略を
例示するブロック図である。このクラスタシステム1で
は、2台の計算機(コンピュータ)2a、2bが通信回
線3で接続されており、各計算機2a、2b上ではオペ
レーティング・システム(以下、「OS」という)4と
クラスタ・ソフトウェア5とが実行されている。
FIG. 5 is a block diagram schematically illustrating a conventional cluster system. In this cluster system 1, two computers (computers) 2a and 2b are connected by a communication line 3. On each of the computers 2a and 2b, an operating system (hereinafter referred to as "OS") 4 and cluster software 5 And is running.

【0004】クラスタシステム1を構成する各計算機2
a、2bは、例えばデータベース管理プログラム、電子
メール管理プログラム、ディレクトリ・サービス提供用
プログラム、通信プログラムのようなアプリケーション
・プログラム(以下、「アプリケーション」という)を
実行可能である。図5では、計算機2a上でアプリケー
ション6a〜6cが実行されている場合を例として示し
ている。
Each computer 2 constituting the cluster system 1
a and 2b can execute application programs (hereinafter, referred to as “applications”) such as a database management program, an e-mail management program, a directory service providing program, and a communication program. FIG. 5 shows an example in which the applications 6a to 6c are executed on the computer 2a.

【0005】このような各種アプリケーション6a〜6
cをクラスタシステム1に導入する際には、各アプリケ
ーション6a〜6c専用の監視プログラム(監視モジュ
ール)7a〜7cをクラスタ・ソフトウェア5に追加す
る必要がある。
[0005] Such various applications 6a to 6
When introducing c into the cluster system 1, it is necessary to add monitoring programs (monitoring modules) 7a to 7c dedicated to the respective applications 6a to 6c to the cluster software 5.

【0006】このアプリケーション6a〜6c専用の監
視プログラム7a〜7cは、それぞれのアプリケーショ
ン6a〜6cが実行されている場合に、OS4のコマン
ドにより定期的に実行状態を調査する。
[0006] The monitoring programs 7a to 7c dedicated to the applications 6a to 6c periodically check the execution state by a command of the OS 4 when the respective applications 6a to 6c are being executed.

【0007】また、監視プログラム7a〜7cは、この
OS4のコマンドによる調査の結果、監視対象のアプリ
ケーション6a〜6cの動作異常や、監視対象のアプリ
ケーション6a〜6cを実行している計算機2aの異常
を検出すると、この監視対象のアプリケーション6a〜
6cの再起動を行う。
[0007] The monitoring programs 7a to 7c, as a result of the investigation using the command of the OS 4, find out about the abnormal operation of the monitored applications 6a to 6c and the abnormalities of the computer 2a executing the monitored applications 6a to 6c. When detected, the application 6a to be monitored
6c is restarted.

【0008】さらに、監視プログラム7a〜7cは、こ
の再起動が失敗した場合には、オペレータからの指示に
したがって、監視対象のアプリケーション6a〜6cを
他の計算機2b上で起動させる処理を実行する。
Further, if the restart fails, the monitoring programs 7a to 7c execute a process of starting the applications 6a to 6c to be monitored on another computer 2b in accordance with an instruction from the operator.

【0009】すなわち、クラスタ・ソフトウェア5は、
オペレータに指定されたアプリケーション6a〜6cを
立ち上げ、定期的に互いの計算機2a、2bが正常か否
かを監視し、また計算機2a、2b上で実行されている
アプリケーション6a〜6cが正常か否かを監視する。
さらに、監視の結果、障害発生を検出すると、この障害
に関係のあるアプリケーションの再起動を試み、再起動
後さらに障害が発生した場合には、その旨をオペレータ
に通知する。その後、クラスタ・ソフトウェア5は、オ
ペレータからの指示があれば、障害の発生した計算機2
a上のデータやプログラムを他の計算機2bに引き継が
せる。
That is, the cluster software 5 comprises:
The applications 6a to 6c designated by the operator are started, and the computers 2a and 2b are periodically monitored to determine whether or not the computers 2a and 2b are normal, and whether the applications 6a to 6c running on the computers 2a and 2b are normal. Watch out.
Further, as a result of monitoring, when the occurrence of a failure is detected, an attempt is made to restart the application related to the failure, and if a further failure occurs after the restart, the fact is notified to the operator. Thereafter, the cluster software 5, upon receiving an instruction from the operator, executes the failed computer 2
The data and program on a are transferred to another computer 2b.

【0010】上記のような従来のクラスタシステム1の
動作について説明する。従来のクラスタシステム1上で
動作している各種アプリケーション6a〜6cは、アプ
リケーション6a〜6c自体の問題、OS4やハードウ
ェアの問題、オペレータの操作誤りなどによって、正常
に動作しなくなったり、計算機2a上から消滅する場合
がある。
The operation of the above-described conventional cluster system 1 will be described. The various applications 6a to 6c operating on the conventional cluster system 1 may not operate normally due to problems of the applications 6a to 6c themselves, problems of the OS 4 and hardware, operator's operation errors, and the like, or may fail to operate on the computer 2a. May disappear from.

【0011】このような場合に備えて、計算機2aのオ
ペレータや監視プログラム7a〜7cは、OS4が提供
する監視用コマンドを実行したり、ログメッセージを参
照することで、各種アプリケーション6a〜6cあるい
は計算機2aの動作状況を監視している。
In preparation for such a case, the operator of the computer 2a and the monitoring programs 7a to 7c execute the monitoring commands provided by the OS 4 and refer to the log messages to execute various applications 6a to 6c or the computer. 2a is monitored.

【0012】この動作状況監視の結果、何らかの問題が
検出された場合に、オペレータや監視プログラム7a〜
7cは、その問題の種類に対応して異常とされたアプリ
ケーションを再起動させたり、計算機2aを再立ち上げ
を行う。あるいは、複数台の計算機2a、2bが疎結合
されたクラスタシステム1においては、オペレータが指
示を発して、障害の発生した計算機2aと異なる他の計
算機2b上で障害の発生したアプリケーションが引き継
がれる。
As a result of the operation status monitoring, if any problem is detected, the operator or the monitoring program 7a to
7c restarts the application determined to be abnormal according to the type of the problem, or restarts the computer 2a. Alternatively, in the cluster system 1 in which a plurality of computers 2a and 2b are loosely coupled, an operator issues an instruction, and the failed application is taken over on another computer 2b different from the failed computer 2a.

【0013】[0013]

【発明が解決しようとする課題】上記のような図5に例
示される従来のクラスタシステム1においては、動作中
のアプリケーション6a〜6cのいずれかに異常が発生
した場合に、オペレータや監視プログラム7a〜7c
は、発生した異常の状況に応じて、計算機2a上で異常
の発生したアプリケーションの再起動を行う。そして、
それでも異常が発生する場合には、他系の計算機2bに
この異常の発生するアプリケーションの引き継ぎを行
う。
In the conventional cluster system 1 illustrated in FIG. 5 as described above, when an abnormality occurs in any of the running applications 6a to 6c, the operator or the monitoring program 7a ~ 7c
Restarts the application on which an error has occurred on the computer 2a in accordance with the status of the error that has occurred. And
If the abnormality still occurs, the application in which the abnormality occurs is taken over to the other computer 2b.

【0014】しかしながら、この異常の発生したアプリ
ケーションの他系の計算機2bへの引き継ぎはオペレー
タの判断で行われるので、オペレータがアプリケーショ
ン6a〜6cに関するエラーメッセージを見落とした
り、監視プログラム7a〜7cが発生させるエラーメッ
セージを見落とすことがある。
However, the application in which the abnormality has occurred is taken over to another computer 2b of the other system by the judgment of the operator, so that the operator can overlook the error message relating to the application 6a to 6c or generate the monitoring program 7a to 7c. You may overlook error messages.

【0015】この場合、他系の計算機2bへの引き継ぎ
が遅れ、当該クラスタシステム1の運用に支障をきたす
場合がある。また、これにより、クラスタシステム1の
信頼性、可用性が低下する場合がある。
In this case, takeover to the computer 2b of the other system is delayed, which may hinder the operation of the cluster system 1. As a result, the reliability and availability of the cluster system 1 may be reduced.

【0016】また、従来のクラスタシステム1において
は、導入するアプリケーション6a〜6c用の監視プロ
グラム7a〜7cをオペレータがクラスタ・ソフトウェ
ア5に組み込まなければならないため、アプリケーショ
ン導入時にオペレータに手間がかかるという問題があ
る。
In addition, in the conventional cluster system 1, since the operator must incorporate the monitoring programs 7a to 7c for the applications 6a to 6c to be installed into the cluster software 5, the operator is troublesome when introducing the applications. There is.

【0017】本発明は、以上のような実情に鑑みてなさ
れたもので、クラスタシステムに容易に新規のプログラ
ムを導入可能であり、何らかの異常が発生しても継続し
てプログラムを実行可能なクラスタシステム及びプログ
ラムを記憶したコンピュータ読み取り可能な記憶媒体を
提供することを目的とする。
The present invention has been made in view of the above circumstances, and a new program can be easily introduced into a cluster system, and a cluster capable of continuously executing a program even if some abnormality occurs. It is an object of the present invention to provide a computer-readable storage medium storing a system and a program.

【0018】[0018]

【課題を解決するための手段】本発明の骨子は、クラス
タシステムを構成する計算機上で動作するプログラムを
プログラムの種別に依存することなくまとめて監視する
手段を備えた点にある。また、異常検出後に再起動した
プログラムの異常をさらに検出した場合に、この異常を
検出したプログラムを実行していた計算機上で動作して
いたプログラムのうち移動可能なプログラム全てを他の
計算機上で起動させる点にある。
The gist of the present invention lies in the provision of means for monitoring programs operating on computers constituting a cluster system collectively without depending on the types of the programs. In addition, when an abnormality of the program restarted after the abnormality is detected is further detected, all the movable programs among the programs operating on the computer that was executing the program that detected the abnormality are transferred to another computer. The point is to start.

【0019】以下、本発明を実現するにあたって講じた
具体的手段について説明する。
Hereinafter, specific measures taken to realize the present invention will be described.

【0020】第1の発明は、複数の計算機が結合された
環境で動作するプログラムの動作状況を監視するクラス
タシステムに関する発明である。
The first invention relates to a cluster system for monitoring the operation status of a program operating in an environment in which a plurality of computers are connected.

【0021】この第1の発明のクラスタシステムは、こ
の環境で動作するプログラムの識別情報を取得する識別
情報取得手段と、当該識別情報取得手段によって取得さ
れた識別情報で示されるプログラムが正常か否かを監視
する監視手段と、当該監視手段による監視によってプロ
グラムの異常が検出された場合に、この異常の検出され
たプログラムを実行していた計算機上でこの異常の検出
されたプログラムを再起動させる再起動手段と、当該再
起動手段によって再起動されたプログラムの異常が検出
された場合に、当該異常の検出されたプログラムを実行
していた計算機上で動作していたプログラムを他の計算
機上で実行させるプログラム移転手段とを具備する。
In the cluster system according to the first aspect of the present invention, identification information acquiring means for acquiring identification information of a program operating in this environment, and whether or not the program indicated by the identification information acquired by the identification information acquiring means is normal Monitoring means for monitoring whether an abnormality of a program has been detected by the monitoring means, and restarting the program on which the abnormality has been detected on a computer which has been executing the program on which the abnormality has been detected. Restart means, and when an abnormality of the program restarted by the restart means is detected, the program operating on the computer that was executing the program in which the abnormality was detected is executed on another computer. Program transfer means to be executed.

【0022】すなわち、この第1の発明のクラスタシス
テムにおいては、動作状態にあるプログラムの識別情報
が収集され、動作中のプログラムが自動的にまとめて監
視される。
That is, in the cluster system according to the first aspect of the present invention, the identification information of the programs in the operating state is collected, and the running programs are automatically and collectively monitored.

【0023】したがって、新規のプログラムを導入する
場合であっても、この新規のプログラム専用の監視プロ
グラムを導入する必要がない。
Therefore, even when a new program is introduced, there is no need to introduce a monitoring program dedicated to the new program.

【0024】ゆえに、専用の監視プログラムを特別に用
意しなくても、新規のプログラムを容易に導入できる。
Therefore, a new program can be easily introduced without specially preparing a dedicated monitoring program.

【0025】また、この第1の発明のクラスタシステム
においては、異常の生じたプログラムを再起動してもさ
らに異常が発生する場合には、この異常の発生する計算
機上で実行されていたプログラムが自動的に他の計算機
上で起動される。
Further, in the cluster system according to the first aspect of the present invention, if a further abnormality occurs even when the abnormal program is restarted, the program executed on the computer where the abnormality occurs is executed. It is automatically started on another computer.

【0026】したがって、オペレータが異常に気づかな
いために、プログラムの引き継ぎが遅れることを防止で
き、高い信頼性、可用性を確保することができる。
Therefore, it is possible to prevent the operator from noticing any abnormality and delay in taking over the program, thereby ensuring high reliability and availability.

【0027】第2の発明は、複数の計算機が結合された
環境で動作しアプリケーション・インターフェースを持
つアプリケーション・プログラムの動作状況を監視する
クラスタシステムに関する発明である。
The second invention relates to a cluster system which operates in an environment in which a plurality of computers are connected and monitors the operation status of an application program having an application interface.

【0028】この第2の発明のクラスタシステムは、こ
の環境で動作するアプリケーション・プログラムの識別
情報を取得する識別情報取得手段と、当該識別情報取得
手段によって取得された識別情報で示されるアプリケー
ション・プログラムのアプリケーション・インターフェ
イスを呼び出して正常に実行されているか否かを監視す
る監視手段と、当該監視手段による監視によってアプリ
ケーション・プログラムの異常が検出された場合に、こ
の異常の検出されたアプリケーション・プログラムを実
行していた計算機上でこの異常の検出されたアプリケー
ション・プログラムを再起動させる再起動手段と、当該
再起動手段によって再起動されたアプリケーション・プ
ログラムの異常が検出された場合に、当該異常の検出さ
れたアプリケーション・プログラムを実行していた計算
機上で動作していたプログラムを他の計算機上で実行さ
せるプログラム移転手段とを具備する。
[0028] The cluster system according to the second aspect of the present invention comprises an identification information acquiring means for acquiring identification information of an application program operating in this environment, and an application program indicated by the identification information acquired by the identification information acquiring means. Monitoring means for calling whether the application program is normally executed by calling the application interface of the application program, and when an abnormality of the application program is detected by monitoring by the monitoring means, the application program in which the abnormality is detected is detected. A restarting means for restarting the application program in which the abnormality was detected on the executing computer; and detecting the abnormality when the abnormality of the application program restarted by the restarting means is detected. Application The emission program program running on a computer that was running; and a program transfer unit for executing other computer.

【0029】この第2の発明においては、動作中のアプ
リケーションの識別情報が管理され、この動作中のアプ
リケーションの含むアプリケーション・インターフェイ
スに対して適宜呼び出しが行われる。この呼び出しの結
果、例えばこの呼び出しに関する応答がない場合や、あ
るいは応答としてエラーを受けた場合には、このアプリ
ケーションが異常とされる。
In the second invention, the identification information of the running application is managed, and a call is appropriately made to an application interface included in the running application. As a result of this call, for example, when there is no response regarding this call or when an error is received as a response, the application is determined to be abnormal.

【0030】したがって、各アプリケーション専用の監
視プログラムが必要ないため、上記第1の発明と同様の
作用効果を得ることができる。
Therefore, since a monitoring program dedicated to each application is not required, the same functions and effects as those of the first aspect can be obtained.

【0031】また、この第2の発明のクラスタシステム
においては、異常の生じたアプリケーション・プログラ
ムを再起動してもさらに異常が発生する場合には、他の
計算機上で起動される。
Further, in the cluster system according to the second aspect of the present invention, if a further abnormality occurs even after restarting the application program in which the abnormality has occurred, it is started on another computer.

【0032】したがって、上記第1の発明の場合と同様
に、オペレータが異常に気づかないために、プログラム
の引き継ぎが遅れることを防止でき、高い信頼性、可用
性を確保することができる。
Therefore, as in the case of the first aspect, since the operator does not notice any abnormality, it is possible to prevent delay in taking over the program, and to ensure high reliability and availability.

【0033】第3の発明は、コンピュータに、複数の計
算機が結合された環境で動作するプログラムの識別情報
を取得させる識別情報取得機能と、当該識別情報取得機
能によって取得された識別情報で示されるプログラムが
正常か否かを監視させる監視機能と、当該監視機能によ
る監視によってプログラムの異常が検出された場合に、
この異常の検出されたプログラムを実行していた計算機
上でこの異常の検出されたプログラムを再起動させる再
起動機能と、当該再起動機能によって再起動されたプロ
グラムの異常が検出された場合に、当該異常の検出され
たプログラムを実行していた計算機上で動作していたプ
ログラムを他の計算機上で実行させるプログラム移転機
能とを実現させるプログラムを記憶したコンピュータ読
み取り可能な記憶媒体である。
According to a third aspect of the present invention, there is provided an identification information acquisition function for causing a computer to acquire identification information of a program operating in an environment in which a plurality of computers are combined, and identification information acquired by the identification information acquisition function. A monitoring function that monitors whether the program is normal or not, and when an abnormality of the program is detected by monitoring by the monitoring function,
A restart function for restarting the program on which the abnormality was detected on the computer that was executing the program on which the abnormality was detected, and when an abnormality of the program restarted by the restart function is detected, This is a computer-readable storage medium storing a program for realizing a program transfer function of causing a program running on a computer that has executed the program in which the abnormality is detected to be executed on another computer.

【0034】また、第4の発明は、コンピュータに、複
数の計算機が結合された環境で動作しアプリケーション
・インターフェースを持つアプリケーション・プログラ
ムの識別情報を取得させる識別情報取得機能と、当該識
別情報取得機能によって取得された識別情報で示される
アプリケーション・プログラムのアプリケーション・イ
ンターフェイスを呼び出して正常に実行されているか否
かを監視させる監視機能と、当該監視機能による監視に
よってアプリケーション・プログラムの異常が検出され
た場合に、この異常の検出されたアプリケーション・プ
ログラムを実行していた計算機上でこの異常の検出され
たアプリケーション・プログラムを再起動させる再起動
機能と、当該再起動機能によって再起動されたアプリケ
ーション・プログラムの異常が検出された場合に、当該
異常の検出されたアプリケーション・プログラムを実行
していた計算機上で動作していたプログラムを他の計算
機上で実行させるプログラム移転機能とを実現させるプ
ログラムを記憶したコンピュータ読み取り可能な記憶媒
体である。
According to a fourth aspect of the present invention, there is provided an identification information obtaining function for causing a computer to obtain identification information of an application program operating in an environment in which a plurality of computers are connected and having an application interface, and the identification information obtaining function. A monitoring function for calling the application interface of the application program indicated by the identification information acquired by the monitoring function to monitor whether the application program is normally executed, and when an abnormality of the application program is detected by the monitoring function. A restart function that restarts the application program in which the abnormality was detected on the computer that was executing the application program in which the abnormality was detected, and an application program that was restarted by the restart function. When a program abnormality is detected, a program for realizing a program transfer function of executing a program running on the computer that was executing the application program in which the abnormality was detected on another computer is stored. Computer-readable storage medium.

【0035】第3及び第4の発明は、それぞれ第1及び
第2の発明で説明したクラスタシステムの機能をコンピ
ュータにより実現するためのプログラムを記憶したコン
ピュータ読み取り可能な記憶媒体である。
The third and fourth inventions are computer-readable storage media storing a program for realizing the functions of the cluster system described in the first and second inventions by a computer.

【0036】このようなプログラムを記憶した記憶媒体
を用いることによって、上述した機能を有していない計
算機や計算機システムに対しても、簡単に上述した機能
を付加することができる。
By using a storage medium storing such a program, the above-described functions can be easily added to a computer or a computer system that does not have the above-mentioned functions.

【0037】[0037]

【発明の実施の形態】以下、図面を参照しながら本発明
の実施の形態について説明する。
Embodiments of the present invention will be described below with reference to the drawings.

【0038】(第1の実施の形態)本実施の形態におい
ては、動作中のプログラムをまとめて監視し、何らかの
異常が発生したらそのプログラムを再起動し、それでも
異常が発生するようであればプログラムを他系の計算機
に自動的に引き継がせるクラスタシステムについて説明
する。
(First Embodiment) In this embodiment, the running programs are monitored collectively, and if any abnormality occurs, the program is restarted. If any abnormality still occurs, the program is restarted. The following describes a cluster system that can automatically take over to another computer.

【0039】図1は、本実施の形態に係るクラスタシス
テムの概略を例示するブロック図であり、図5と同一の
部分については同一の符号を付してその説明を省略する
かあるいは簡単に説明し、ここでは異なる部分について
のみ詳しく説明する。
FIG. 1 is a block diagram schematically illustrating a cluster system according to the present embodiment. The same parts as those in FIG. 5 are denoted by the same reference numerals, and the description thereof will be omitted or simply described. Here, only different portions will be described in detail.

【0040】クラスタシステム8を構成する一方の計算
機2aは、通常時にアプリケーションを動作させるコン
ピュータである。これに対し、他方の計算機2bは、待
機系として動作するコンピュータであり、一方の計算機
2aに異常が発生した場合にその業務を引き継ぐ。通信
回線3は、計算機2a、2b間を送受信可能に接続して
いる。
One of the computers 2a constituting the cluster system 8 is a computer which normally runs an application. On the other hand, the other computer 2b is a computer that operates as a standby system, and takes over its work when an abnormality occurs in one computer 2a. The communication line 3 is connected between the computers 2a and 2b so as to be able to transmit and receive.

【0041】なお、計算機2a、2bにはそれぞれ記憶
領域9が設けられているが、図1では計算機2b側の記
憶領域の記載は省略している。
Although the storage areas 9 are provided in each of the computers 2a and 2b, the storage areas on the side of the computer 2b are not shown in FIG.

【0042】OS4は、各計算機2a、2bを制御する
ソフトウェアであり、アプリケーション6a〜6cは、
各種の業務を処理するためのプログラムである。ここで
は、この各アプリケーション6a〜6cは計算機に常駐
した形態で利用されるプログラムとする。また、このア
プリケーション6a〜6cは、動作する計算機を移動可
能なプログラムとする。
The OS 4 is software for controlling the computers 2a and 2b, and the applications 6a to 6c
This is a program for processing various tasks. Here, each of the applications 6a to 6c is a program used in a form resident in a computer. The applications 6a to 6c are programs that can move the operating computer.

【0043】クラスタ・ソフトウェア10は、主に、ク
ラスタ・ソフトウェア本体11と監視プログラム12と
から構成されており、計算機2a、2b双方に備えられ
ている。以下においては、計算機2a側のクラスタソフ
トウェア10を例として説明するが、計算機2b側のク
ラスタソフトウェア10も同様の機能を持ち、同様の動
作を行う。
The cluster software 10 mainly comprises a cluster software main body 11 and a monitoring program 12, and is provided in both the computers 2a and 2b. Hereinafter, the cluster software 10 on the computer 2a side will be described as an example, but the cluster software 10 on the computer 2b side has the same function and performs the same operation.

【0044】クラスタ・ソフトウェア本体11は、先に
おいて説明した従来のクラスタ・ソフトウェア5と同様
の機能を保持しており、その中には識別情報取得機能1
1a、プログラム移転機能11b、計算機停止機能11
cが含まれている。
The cluster software main body 11 has the same functions as those of the conventional cluster software 5 described above.
1a, program transfer function 11b, computer stop function 11
c is included.

【0045】識別情報取得機能11aは、この計算機2
a上で動作すべきアプリケーションのプロセスIDを記
憶領域9に保持する。これにより、計算機2a上で動作
しているはずのアプリケーションが特定される。
The identification information acquisition function 11a is provided by the computer 2
The process ID of the application to be operated on a is stored in the storage area 9. As a result, an application that should be running on the computer 2a is specified.

【0046】プログラム移転機能11bは、計算機2a
上で動作していたアプリケーションを他の計算機2b上
で動作させるための処理を行い、また計算機2b上で動
作していたアプリケーションを計算機2a上で動作させ
るための処理を行う。計算機停止機能11cは、計算機
2aを停止するための処理を行う。
The program transfer function 11b is executed by the computer 2a
A process for operating the application running on the other computer 2b is performed, and a process for operating the application running on the computer 2b on the computer 2a is performed. The computer stop function 11c performs a process for stopping the computer 2a.

【0047】監視プログラム12は、監視機能12a、
再起動機能12b、プログラム移転指示機能12cとを
含む。監視機能12aは、記憶領域9を参照し、この記
憶領域9にプロセスIDが登録されているアプリケーシ
ョン(計算機2a上に存在すべきアプリケーション)が
計算機2a上に存在するか否かを、OS4の提供するコ
マンドを呼び出すことで確認する。
The monitoring program 12 has a monitoring function 12a,
A restart function 12b and a program transfer instruction function 12c are included. The monitoring function 12a refers to the storage area 9 and provides the OS 4 with information on whether or not an application (an application that should exist on the computer 2a) whose process ID is registered in the storage area 9 exists on the computer 2a. Confirm by calling the command to be executed.

【0048】再起動機能12bは、監視機能12aによ
って計算機2a上で動作していたアプリケーションの異
常終了が検出された場合に、この異常終了したアプリケ
ーションを当該計算機2a上で再起動させる。
When the monitoring function 12a detects abnormal termination of an application running on the computer 2a, the restart function 12b restarts the abnormally terminated application on the computer 2a.

【0049】プログラム移転指示機能12cは、再起動
機能12bによって再起動されたアプリケーションの異
常終了が再び監視機能12aによって検出された場合
に、計算機2a、2bのクラスタ・ソフトウェア本体1
1の持つプログラム移転機能11bに対し、この計算機
2a上で動作するアプリケーション6a〜6cの移転指
示(計算機b上でのアプリケーション6a〜6cの起動
・開始指示)を通知する。
When the monitoring function 12a detects again the abnormal termination of the application restarted by the restart function 12b, the program transfer instructing function 12c starts the cluster software main unit 1 of the computers 2a and 2b.
1 is notified to the program transfer function 11b of the computer 1 of a transfer instruction of the applications 6a to 6c operating on the computer 2a (a start / start instruction of the applications 6a to 6c on the computer b).

【0050】同様に、プログラム移転指示機能12は、
再起動機能12bによって再起動されたアプリケーショ
ンの異常終了が再び監視機能12aによって検出された
場合に、計算機2aのクラスタソフトウェア本体11の
持つ計算機停止機能11cに計算機2aの停止指示を通
知する。
Similarly, the program transfer instruction function 12
When the monitoring function 12a detects again the abnormal termination of the application restarted by the restart function 12b, the monitoring function 12a notifies the computer stop function 11c of the cluster software main body 11 of the computer 2a of the instruction to stop the computer 2a.

【0051】上記のような構成を持つクラスタシステム
8の動作について以下に説明する。図2は、本実施の形
態に係るクラスタシステム8の動作を示すフロー図であ
り、特に監視プログラム12によるアプリケーション6
a〜6cの存在確認と、アプリケーション6a〜6cの
消滅検出時の処理手順を示している。
The operation of the cluster system 8 having the above configuration will be described below. FIG. 2 is a flowchart showing the operation of the cluster system 8 according to the present embodiment.
The processing procedure at the time of confirming the existence of a to 6c and detecting the disappearance of the applications 6a to 6c is shown.

【0052】クラスタシステム8においては、まず、監
視プログラム12の監視機能12aによってプロセスI
Dが登録されている記憶領域9が参照され、監視すべき
アプリケーション6a〜6cのプロセスIDが取り出さ
れる(s1)。
In the cluster system 8, first, the process I is executed by the monitoring function 12a of the monitoring program 12.
The storage area 9 in which D is registered is referred to, and the process IDs of the applications 6a to 6c to be monitored are extracted (s1).

【0053】次に、監視プログラム12の監視機能12
aによってOS4の提供するコマンドが呼び出され、計
算機2a上で動作しているアプリケーションのプロセス
IDが取り出される(s2)。これにより、計算機2a
上で動作しているアプリケーションのプロセスIDの一
覧情報が得られる。
Next, the monitoring function 12 of the monitoring program 12
The command provided by the OS 4 is called by a, and the process ID of the application running on the computer 2a is extracted (s2). Thereby, the computer 2a
The list information of the process IDs of the applications running on the above is obtained.

【0054】次に、記憶領域9から得られたプロセスI
D(処理s1で得られたプロセスID)と、OS4のコ
マンド呼び出しにより得られたプロセスID(処理s2
で得られたプロセスID)とが、監視プログラム12の
監視機能12aにより比較される。そして、計算機2a
で動作しているべき監視対象のアプリケーション6a〜
6cが消滅しているか否かが判定される(s3)。
Next, the process I obtained from the storage area 9
D (process ID obtained in process s1) and the process ID obtained by calling the command of OS4 (process s2
And the monitoring function 12a of the monitoring program 12. And the computer 2a
Applications to be monitored that should be running on
It is determined whether 6c has disappeared (s3).

【0055】この比較の結果、監視すべきアプリケーシ
ョン6a〜6cが消滅していない場合には、上記の監視
が繰り返される。
As a result of the comparison, if the applications 6a to 6c to be monitored have not disappeared, the above monitoring is repeated.

【0056】監視すべきアプリケーション6a〜6cの
いずれかが消滅している場合には、再起動機能12bに
より消滅したアプリケーションが先において一度再起動
されたものか否かが判定される(s4)。
If any of the applications 6a to 6c to be monitored has disappeared, it is determined whether or not the application that has disappeared by the restart function 12b has previously been restarted once (s4).

【0057】判定の結果、未だ再起動されていない場合
には、消滅したアプリケーションが監視プログラム12
の再起動機能12bによって消滅前と同一の計算機2a
上で再起動される(s5)。
If the result of determination is that the application has not been restarted yet, the disappeared application is
The same computer 2a as before the disappearance by the restart function 12b
Is restarted (s5).

【0058】一方、消滅したアプリケーションが再起動
済みであった場合には、監視プログラム12のプログラ
ム移転指示機能12cにより、計算機2aのクラスタ・
ソフトウェア10の持つ計算機停止機能11cに計算機
2aの停止が指示される。また、再起動しても異常が発
生するのはアプリケーションよりむしろ他の異常(O
S、計算機の異常)である可能性が高いとして、計算機
2a上で動作していたアプリケーション6a〜6cの計
算機2b上での起動が、計算機2a、2bのクラスタ・
ソフトウェア10の持つプログラム移転機能11bに指
示される(s6)。
On the other hand, when the disappeared application has been restarted, the cluster transfer of the computer 2a is performed by the program transfer instruction function 12c of the monitoring program 12.
An instruction to stop the computer 2a is given to the computer stop function 11c of the software 10. In addition, even if the system is restarted, the error occurs only for other errors (O
S, it is highly likely that the application 6a to 6c running on the computer 2a has started on the computer 2b.
An instruction is given to the program transfer function 11b of the software 10 (s6).

【0059】この指示により、計算機2aのクラスタ・
ソフトウェア10の持つ計算機停止機能11cが計算機
2aを停止させる。また、計算機2a、2bのクラスタ
ソフトウェア10の持つプログラム移転機能11bによ
りアプリケーション6a〜6cの動作が計算機2bに引
き継がれる。
According to this instruction, the cluster of the computer 2a
The computer stop function 11c of the software 10 stops the computer 2a. The operations of the applications 6a to 6c are taken over by the computer 2b by the program transfer function 11b of the cluster software 10 of the computers 2a and 2b.

【0060】以上説明したように、本実施の形態に係る
クラスタシステム8においては、アプリケーション6a
〜6cをまとめて監視する監視プログラム12をクラス
タ・ソフトウェア10に加えている。
As described above, in the cluster system 8 according to the present embodiment, the application 6a
A monitoring program 12 that collectively monitors .about.6c is added to the cluster software 10.

【0061】したがって、新規のアプリケーションを導
入するたびに、このアプリケーション専用の監視プログ
ラムをオペレータが加える必要がなく、オペレータの作
業を軽減させることができる。
Therefore, every time a new application is introduced, there is no need for the operator to add a monitoring program dedicated to this application, and the work of the operator can be reduced.

【0062】また、本実施の形態に係るクラスタシステ
ム8においては、アプリケーションに対する再起動後、
さらに再起動が失敗した場合には、この再起動が失敗し
た計算機上で動作していた移動可能なアプリケーション
の動作を全て待機系の他の計算機に引き継がせる。
In the cluster system 8 according to the present embodiment, after the application is restarted,
Further, when the restart fails, all the operations of the movable application running on the computer on which the restart has failed are taken over by the other computers in the standby system.

【0063】したがって、アプリケーションの停止状態
が持続することを防止し、システムの信頼性、可用性が
向上される。
Therefore, the suspension of the application is prevented from continuing, and the reliability and availability of the system are improved.

【0064】なお、本実施の形態においては、監視対象
のプログラムが常駐形式で動作するアプリケーション6
a〜6cの場合を例として説明しているが、これに限定
されるものではない。例えば、アプリケーションではな
いデーモンや、常駐形式ではないアプリケーションを監
視対象とする場合でも、同様の手法を適用することで同
様の効果を得ることができる。また、監視対象のプログ
ラムの数にも制限されることなく、いくつでもよい。
In the present embodiment, the program to be monitored is an application 6 that operates in a resident format.
Although the case of a to 6c has been described as an example, the present invention is not limited to this. For example, even when a daemon that is not an application or an application that is not a resident type is to be monitored, the same effect can be obtained by applying the same method. Further, the number of programs to be monitored is not limited and may be any number.

【0065】また、本実施の形態においては、2台の計
算機2a、2bによりクラスタシステム8が構成される
場合を例として説明しているが、これに限定されるもの
ではなく、3台以上の計算機によりクラスタシステムが
構成される場合にも同様に適用可能である。
In this embodiment, the case where the cluster system 8 is constituted by two computers 2a and 2b is described as an example. However, the present invention is not limited to this. The present invention is also applicable to a case where a cluster system is configured by computers.

【0066】また、本実施の形態に係るクラスタシステ
ム8は、同様の作用・機能を実現可能であれば各構成要
素の配置を変更させてもよく、また各構成要素を自由に
組み合わせてもよい。例えば、識別情報取得機能11a
は、クラスタ・ソフトウェア本体11に備えるのではな
く、監視プログラム12に備えてもよい。
In the cluster system 8 according to the present embodiment, the arrangement of each component may be changed as long as the same operation and function can be realized, and each component may be freely combined. . For example, the identification information acquisition function 11a
May be provided not in the cluster software main body 11 but in the monitoring program 12.

【0067】(第2の実施の形態)本実施の形態におい
ては、アプリケーション・インターフェイス(以下、
「API」という)を持つアプリケーションを監視対象
とし、このアプリケーションを他系の計算機に自動的に
引き継がせるクラスタシステムについて説明する。
(Second Embodiment) In this embodiment, an application interface (hereinafter, referred to as an application interface) will be described.
A cluster system in which an application having an "API") is set as a monitoring target and this application is automatically taken over by another computer will be described.

【0068】図3は、本実施の形態に係るクラスタシス
テムの概略を例示するブロック図であり、図1、5と同
一の部分については同一の符号を付してその説明を省略
するかあるいは簡単に説明し、ここでは異なる部分につ
いてのみ詳しく説明する。
FIG. 3 is a block diagram schematically illustrating a cluster system according to the present embodiment. The same parts as those in FIGS. 1 and 5 are denoted by the same reference numerals, and the description thereof will be omitted or simplified. And only the different parts will be described in detail here.

【0069】本実施の形態に係るクラスタシステム13
の基礎的な構成は、先で述べたクラスタシステム8と同
様であるが、アプリケーションのAPIを利用して監視
を行う点が異なる。
The cluster system 13 according to the present embodiment
Is basically the same as the cluster system 8 described above, except that monitoring is performed using an API of an application.

【0070】すなわち、アプリケーション14a〜14
cは、それぞれに対するインターフェイスを扱うAPI
15a〜15cを備えている。API15a〜15c
は、外部のプログラムにアプリケーション14a〜14
cの機能を利用させるために動作する。例えば、アプリ
ケーション14aがデータベース管理プログラムである
場合には、API15aはSQL命令を受け付け、処理
後の結果を返す。
That is, the applications 14a to 14
c is the API that handles the interface for each
15a to 15c are provided. APIs 15a to 15c
Indicates that the applications 14a to 14
It operates to use the function of c. For example, when the application 14a is a database management program, the API 15a accepts an SQL command and returns a processed result.

【0071】クラスタ・ソフトウェア16の監視プログ
ラム17は、監視対象のアプリケーション14a〜14
cの各API15a〜15cを呼び出す。その結果、何
らかのエラーがアプリケーション14a〜14cの持つ
API15a〜15cのいずれかから返却されたり、あ
るいはAPI15a〜15bのいずれかから制御がリタ
ーンしなくなった場合、監視プログラム17は、異常を
検出したAPIを持つアプリケーションを停止させ、再
起動させる。
The monitoring program 17 of the cluster software 16 includes the monitoring target applications 14a to 14a.
Call each API 15a to 15c of c. As a result, if any error is returned from any of the APIs 15a to 15c of the applications 14a to 14c, or if control is not returned from any of the APIs 15a to 15b, the monitoring program 17 calls the API that has detected the abnormality. Stop the application and restart it.

【0072】また、この監視プログラム17は、再起動
後のAPI呼び出しでまだ異常を検出する場合には、計
算機2aのクラスタ・ソフトウェア本体11に対して、
計算機2aの停止を指示し、さらに計算機2a、2bの
クラスタ・ソフトウェア本体11に対して、計算機2b
上でのアプリケーション14a〜14cの起動・開始を
指示する。
When the monitoring program 17 still detects an abnormality in the API call after the restart, the monitoring program 17 sends a message to the cluster software main body 11 of the computer 2a.
The computer 2a is instructed to stop, and the cluster software main body 11 of the computers 2a and 2b is instructed to stop the computer 2b.
The application 14a to 14c is instructed to start and start.

【0073】上記のような構成を持つクラスタシステム
13の動作について以下に説明する。図4は、本実施の
形態に係るクラスタシステム13の動作を示すフロー図
であり、特に監視プログラム17によるアプリケーショ
ン14a〜14cの持つAPI15a〜15cの呼び出
しと、API15a〜15cの呼び出しにおいて異常を
検出した際の処理手順を示している。
The operation of the cluster system 13 having the above configuration will be described below. FIG. 4 is a flowchart showing the operation of the cluster system 13 according to the present embodiment. In particular, an abnormality is detected in the monitoring program 17 calling the APIs 15a to 15c of the applications 14a to 14c and calling the APIs 15a to 15c. The processing procedure at the time is shown.

【0074】このクラスタシステム13においては、ま
ず、監視プログラム17の監視機能によって記憶領域9
が参照され、この監視プログラム17によって監視すべ
きアプリケーション14a〜14bの持つAPI15a
〜15cが呼び出される(t1)。
In the cluster system 13, first, the storage area 9 is monitored by the monitoring function of the monitoring program 17.
Is referred to, and the API 15a of the applications 14a to 14b to be monitored by the monitoring program 17
To 15c are called (t1).

【0075】ここで、このAPI15a〜15bの呼び
出しに対して、API15a〜15cのいずれかからエ
ラー返却を受けたか、あるいはリターンを返却しない
(制御を戻さない)かの判定が、監視プログラム17の
監視機能によって行われる(t2)。
Here, in response to the call of the APIs 15a to 15b, the monitoring program 17 determines whether an error has been returned from any of the APIs 15a to 15c or whether or not a return has been returned (control has not been returned). This is performed by the function (t2).

【0076】正常にリターンを受けた場合には、上記の
処理が繰り返されるが、エラー返却を受けたりリターン
を返却しない場合には、そのAPIを持つアプリケーシ
ョンが再起動済みか否かが監視プログラム17の再起動
機能により判定される(t3)。
When a return is normally received, the above processing is repeated. However, when an error is returned or a return is not returned, it is determined whether or not the application having the API has been restarted. (T3).

【0077】判定の結果、未だ再起動されていない場合
には、この正常なリターンを返さないAPIを持つアプ
リケーションが、監視プログラム17の再起動機能によ
って同一の計算機2a上で再起動される(t4)。
If the result of the determination is that the application has not been restarted yet, an application having an API that does not return a normal return is restarted on the same computer 2a by the restart function of the monitoring program 17 (t4). ).

【0078】一方、既に再起動済みの場合には、監視プ
ログラム17のプログラム移転指示機能により、計算機
2aの停止が計算機2aのクラスタ・ソフトウェア本体
11に指示される。また、計算機2a上で動作していた
アプリケーション14a〜14cの計算機2b上での起
動が、計算機2a、2bのクラスタソフトウェア本体1
1に指示される(t5)。
On the other hand, if the computer has already been restarted, the shutdown of the computer 2a is instructed to the cluster software main body 11 of the computer 2a by the program transfer instruction function of the monitoring program 17. In addition, the activation of the applications 14a to 14c running on the computer 2a on the computer 2b causes the cluster software main unit 1 of the computers 2a and 2b to start.
1 (t5).

【0079】この指示により、計算機2aのクラスタ・
ソフトウェア16の持つ計算機停止機能が計算機2aを
停止させる。また、計算機2a、2bのクラスタ・ソフ
トウェア16の持つプログラム移転機能によりアプリケ
ーション14a〜14cの動作が計算機2bに引き継が
れる。
According to this instruction, the cluster of computer 2a
The computer stop function of the software 16 stops the computer 2a. The operations of the applications 14a to 14c are taken over by the computer 2b by the program transfer function of the cluster software 16 of the computers 2a and 2b.

【0080】以上説明したように、本実施の形態に係る
クラスタシステム13においては、監視プログラム17
がアプリケーション14a〜14cのAPI呼び出しに
より、まとめてアプリケーション14a〜14cの監視
を行う。
As described above, in the cluster system 13 according to the present embodiment, the monitoring program 17
Collectively monitors the applications 14a to 14c by calling the APIs of the applications 14a to 14c.

【0081】また、アプリケーション14a〜14cの
API呼び出しに対する異常動作、ストールを検出した
場合に当該異常の発生したアプリケーションの再起動が
実行され、さらに異常がある場合に待機系の計算機2b
へアプリケーション14a〜14cの業務が自動的に引
き継がれる。
Further, when an abnormal operation in response to the API call of the applications 14a to 14c or stall is detected, the application in which the abnormality has occurred is restarted, and when there is further abnormality, the standby computer 2b
The operations of the applications 14a to 14c are automatically taken over.

【0082】これにより、先で述べた第1の実施の形態
と同様に、オペレータの作業を軽減させ、さらにシステ
ムの信頼性、可用性が向上される。
Thus, as in the first embodiment described above, the work of the operator is reduced, and the reliability and availability of the system are further improved.

【0083】なお、本実施の形態においては、2台の計
算機2a、2bによりクラスタシステム13が構成され
る場合を例として説明しているが、これに限定されるも
のではなく、3台以上の計算機によりクラスタシステム
が構成される場合にも同様に適用可能である。同様に、
クラスタシステム上で動作するアプリケーションの数に
も、特に制限はなくいくつであってもよい。
In the present embodiment, the case where the cluster system 13 is composed of two computers 2a and 2b has been described as an example. However, the present invention is not limited to this. The present invention is also applicable to a case where a cluster system is configured by computers. Similarly,
The number of applications that operate on the cluster system is not particularly limited, and may be any number.

【0084】また、本実施の形態に係るクラスタシステ
ム13は、同様の作用・機能を実現可能であれば各構成
要素の配置を変更させてもよく、また各構成要素を自由
に組み合わせてもよい。
In the cluster system 13 according to the present embodiment, the arrangement of each component may be changed as long as the same operation and function can be realized, and each component may be freely combined. .

【0085】また、上記第1及び第2の実施の形態に係
るクラスタシステム8、13におけるクラスタ・ソフト
ウェア10、16は、コンピュータに実行させることの
できるプログラムとして、例えば磁気ディスク(フロッ
ピー(登録商標)ディスク、ハードディスク等)、光デ
ィスク(CD−ROM、DVD等)、半導体メモリなど
の記憶媒体に書き込んで適用したり、通信媒体により伝
送して計算機あるいは計算機システムに適用することも
可能である。上記各機能を実現するコンピュータは、記
憶媒体に記憶されたプログラムを読み込み、プログラム
によって動作が制御されることにより、上述した処理を
実行する。
The cluster software 10 and 16 in the cluster systems 8 and 13 according to the first and second embodiments are, for example, magnetic disks (floppy (registered trademark)) as programs that can be executed by computers. The present invention can be applied to a storage medium such as a disk or a hard disk), an optical disk (CD-ROM, DVD or the like), a semiconductor memory, or the like, or can be transmitted to a communication medium and applied to a computer or a computer system. A computer that realizes each of the above functions reads the program stored in the storage medium, and executes the above-described processing by controlling the operation of the program.

【0086】[0086]

【発明の効果】以上詳記したように本発明においては、
プログラムの種別に関係なく、計算機上で動作するプロ
グラムが正常か否かを監視する監視手段と、異常の発生
したプログラムの再起動に失敗した場合に、その計算機
上で動作する移動可能なプログラムを他の計算機に自動
的に移転するプログラム移転手段とを備えている。
As described above, in the present invention,
A monitoring means for monitoring whether a program operating on a computer is normal regardless of the type of the program, and a movable program operating on the computer when restarting of a program in which an error has occurred has failed. Program transfer means for automatically transferring to another computer.

【0087】このように、監視手段がプログラムの種別
に関係なく各プログラムの動作をまとめて監視すること
で、各プログラム専用の監視プログラムを導入する必要
がない。
As described above, since the monitoring means collectively monitors the operation of each program regardless of the type of the program, it is not necessary to introduce a monitoring program dedicated to each program.

【0088】したがって、新規のプログラム導入時のオ
ペレータの労力を低減させることができる。
Therefore, the labor of the operator when introducing a new program can be reduced.

【0089】また、自動的に再起動できなかったプログ
ラムを他の計算機に移転することで、プログラムの移転
が遅れることを防止することができ、これによりシステ
ムの信頼性、可用性を向上させることができる。
Also, by transferring a program that could not be automatically restarted to another computer, it is possible to prevent the transfer of the program from being delayed, thereby improving the reliability and availability of the system. it can.

【0090】また、再起動しても異常が発生するのは、
プログラムの異常よりも計算機やOSの異常である可能
性が高いため、この計算機上の移動可能なプログラムを
全て移転することでさらに信頼性、可用性を向上させる
ことができる。
Also, an abnormality occurs even after the restart,
Since it is more likely that a computer or OS is abnormal than a program is abnormal, the reliability and availability can be further improved by transferring all movable programs on the computer.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の第1の実施の形態に係るクラスタシス
テムの概略を例示するブロック図。
FIG. 1 is a block diagram schematically illustrating a cluster system according to a first embodiment of the present invention.

【図2】同実施の形態に係るクラスタシステムの動作を
示すフロー図。
FIG. 2 is a flowchart showing an operation of the cluster system according to the embodiment;

【図3】本発明の第2の実施の形態に係るクラスタシス
テムの概略を例示するブロック図。
FIG. 3 is a block diagram illustrating an outline of a cluster system according to a second embodiment of the present invention;

【図4】同実施の形態に係るクラスタシステムの動作を
示すフロー図。
FIG. 4 is a flowchart showing an operation of the cluster system according to the embodiment;

【図5】従来のクラスタシステムの概略を例示するブロ
ック図。
FIG. 5 is a block diagram illustrating an outline of a conventional cluster system.

【符号の説明】[Explanation of symbols]

1、8、13…クラスタシステム 2a、2b…計算機 3…通信回線 4…オペレーティング・システム 5、10、16…クラスタ・ソフトウェア 6a〜6c、14a〜14c…アプリケーション・プロ
グラム 15a〜15c…アプリケーション・インターフェイス 7a〜7c…アプリケーション専用監視プログラム 9…記憶領域 11…クラスタ・ソフトウェア本体 11a…識別情報取得機能 11b…プログラム移転機能 11c…計算機停止機能 12、17…監視プログラム 12a…監視機能 12b…再起動機能 12c…プログラム移転指示機能
1, 8, 13: Cluster system 2a, 2b: Computer 3: Communication line 4: Operating system 5, 10, 16: Cluster software 6a to 6c, 14a to 14c: Application program 15a to 15c: Application interface 7a 7c: Application-specific monitoring program 9: Storage area 11: Cluster software body 11a: Identification information acquisition function 11b: Program transfer function 11c: Computer stop function 12, 17: Monitoring program 12a: Monitoring function 12b: Restart function 12c ... Program transfer instruction function

フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 15/177 678 G06F 15/177 678B 678A Fターム(参考) 5B034 BB02 CC01 DD02 5B042 GA11 JJ15 KK05 5B045 GG01 JJ02 JJ44 JJ45 5B098 AA10 GA02 GC01 JJ02 JJ08Continued on the front page (51) Int.Cl. 7 Identification code FI Theme coat II (Reference) G06F 15/177 678 G06F 15/177 678B 678A F term (Reference) 5B034 BB02 CC01 DD02 5B042 GA11 JJ15 KK05 5B045 GG01 JJ02BJ0JJ45 JJ45JJ45 AA10 GA02 GC01 JJ02 JJ08

Claims (4)

【特許請求の範囲】[Claims] 【請求項1】 複数の計算機が結合された環境で動作す
るプログラムの動作状況を監視するクラスタシステムで
あって、 前記環境で動作するプログラムの識別情報を取得する識
別情報取得手段と、 当該識別情報取得手段によって取得された識別情報で示
されるプログラムが正常か否かを監視する監視手段と、 当該監視手段による監視によって前記プログラムの異常
が検出された場合に、この異常の検出されたプログラム
を実行していた計算機上でこの異常の検出されたプログ
ラムを再起動させる再起動手段と、 当該再起動手段によって再起動されたプログラムの異常
が検出された場合に、当該異常の検出されたプログラム
を実行していた計算機上で動作していたプログラムを、
他の計算機上で実行させるプログラム移転手段とを具備
したことを特徴とするクラスタシステム。
1. A cluster system for monitoring an operation status of a program operating in an environment in which a plurality of computers are connected, comprising: identification information acquiring means for acquiring identification information of a program operating in the environment; Monitoring means for monitoring whether or not the program indicated by the identification information acquired by the acquisition means is normal; and, when an abnormality of the program is detected by the monitoring by the monitoring means, executing the program in which the abnormality is detected. A restarting means for restarting the program in which the abnormality was detected on the computer which was performing the operation, and executing the program in which the abnormality was detected when an abnormality was detected in the program restarted by the restarting means. The program running on the computer that was running
A cluster system comprising: a program transfer unit to be executed on another computer.
【請求項2】 複数の計算機が結合された環境で動作し
アプリケーション・インターフェースを持つアプリケー
ション・プログラムの動作状況を監視するクラスタシス
テムであって、 前記環境で動作するアプリケーション・プログラムの識
別情報を取得する識別情報取得手段と、 当該識別情報取得手段によって取得された識別情報で示
されるアプリケーション・プログラムのアプリケーショ
ン・インターフェイスを呼び出して正常に実行されてい
るか否かを監視する監視手段と、 当該監視手段による監視によって前記アプリケーション
・プログラムの異常が検出された場合に、この異常の検
出されたアプリケーション・プログラムを実行していた
計算機上でこの異常の検出されたアプリケーション・プ
ログラムを再起動させる再起動手段と、 当該再起動手段によって再起動されたアプリケーション
・プログラムの異常が検出された場合に、当該異常の検
出されたアプリケーション・プログラムを実行していた
計算機上で動作していたプログラムを、他の計算機上で
実行させるプログラム移転手段とを具備したことを特徴
とするクラスタシステム。
2. A cluster system that operates in an environment in which a plurality of computers are connected and monitors the operation status of an application program having an application interface, and acquires identification information of the application program operating in the environment. Identification information obtaining means, monitoring means for calling an application interface of an application program indicated by the identification information obtained by the identification information obtaining means and monitoring whether the application program is normally executed, and monitoring by the monitoring means Restart means for restarting the application program in which the abnormality was detected on a computer which was executing the application program in which the abnormality was detected, when an abnormality in the application program was detected, When an abnormality of the application program restarted by the restart means is detected, the program operating on the computer that was executing the application program in which the abnormality was detected is moved to another computer. A cluster system comprising: a program transfer unit to be executed.
【請求項3】 コンピュータに、 複数の計算機が結合された環境で動作するプログラムの
識別情報を取得させる識別情報取得機能と、 当該識別情報取得機能によって取得された識別情報で示
されるプログラムが正常か否かを監視させる監視機能
と、 当該監視機能による監視によって前記プログラムの異常
が検出された場合に、この異常の検出されたプログラム
を実行していた計算機上でこの異常の検出されたプログ
ラムを再起動させる再起動機能と、 当該再起動機能によって再起動されたプログラムの異常
が検出された場合に、当該異常の検出されたプログラム
を実行していた計算機上で動作していたプログラムを、
他の計算機上で実行させるプログラム移転機能とを実現
させるためのプログラムを記憶したコンピュータ読み取
り可能な記憶媒体。
3. An identification information acquisition function for causing a computer to acquire identification information of a program operating in an environment in which a plurality of computers are combined, and whether a program indicated by the identification information acquired by the identification information acquisition function is normal. A monitoring function for monitoring whether the abnormality is detected, and when an abnormality of the program is detected by monitoring by the monitoring function, the program on which the abnormality was detected is re-executed on the computer that was executing the program on which the abnormality was detected. A restart function to be started, and, when an abnormality of the program restarted by the restart function is detected, the program operating on the computer that was executing the program in which the abnormality was detected,
A computer-readable storage medium storing a program for realizing a program transfer function to be executed on another computer.
【請求項4】 コンピュータに、 複数の計算機が結合された環境で動作しアプリケーショ
ン・インターフェースを持つアプリケーション・プログ
ラムの識別情報を取得させる識別情報取得機能と、 当該識別情報取得機能によって取得された識別情報で示
されるアプリケーション・プログラムのアプリケーショ
ン・インターフェイスを呼び出して正常に実行されてい
るか否かを監視させる監視機能と、 当該監視機能による監視によって前記アプリケーション
・プログラムの異常が検出された場合に、この異常の検
出されたアプリケーション・プログラムを実行していた
計算機上でこの異常の検出されたアプリケーション・プ
ログラムを再起動させる再起動機能と、 当該再起動機能によって再起動されたアプリケーション
・プログラムの異常が検出された場合に、当該異常の検
出されたアプリケーション・プログラムを実行していた
計算機上で動作していたプログラムを、他の計算機上で
実行させるプログラム移転機能とを実現させるためのプ
ログラムを記憶したコンピュータ読み取り可能な記憶媒
体。
4. An identification information acquisition function for causing a computer to operate in an environment in which a plurality of computers are coupled and acquire identification information of an application program having an application interface, and identification information acquired by the identification information acquisition function A monitoring function for invoking the application interface of the application program indicated by, and monitoring whether or not the application program is normally executed; and, when an abnormality of the application program is detected by the monitoring by the monitoring function, the abnormality of the abnormality is detected. A restart function for restarting the application program in which the abnormality was detected on the computer that was executing the detected application program, and an abnormality in the application program restarted by the restart function. When issued, a program for realizing a program transfer function for executing a program running on a computer that was executing the application program in which the abnormality was detected and executing the program on another computer was stored. Computer readable storage medium.
JP11198971A 1999-07-13 1999-07-13 Cluster system and computer-readable storage medium storing program Pending JP2001022709A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11198971A JP2001022709A (en) 1999-07-13 1999-07-13 Cluster system and computer-readable storage medium storing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11198971A JP2001022709A (en) 1999-07-13 1999-07-13 Cluster system and computer-readable storage medium storing program

Publications (1)

Publication Number Publication Date
JP2001022709A true JP2001022709A (en) 2001-01-26

Family

ID=16399983

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11198971A Pending JP2001022709A (en) 1999-07-13 1999-07-13 Cluster system and computer-readable storage medium storing program

Country Status (1)

Country Link
JP (1) JP2001022709A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007072958A (en) * 2005-09-09 2007-03-22 Hitachi Ltd Method and device for detecting deray of event synchronization
JPWO2006043321A1 (en) * 2004-10-20 2008-05-22 富士通株式会社 Application management program, application management method, and application management apparatus
US7546604B2 (en) 2003-11-26 2009-06-09 International Business Machines Corporation Program reactivation using triggering
JP2009282601A (en) * 2008-05-20 2009-12-03 Nec System Technologies Ltd Operation monitoring program, monitoring system, and monitoring method
JP2010044781A (en) * 2003-01-02 2010-02-25 Fisher Rosemount Syst Inc Redundancy manager to be used in application station
JP2010108445A (en) * 2008-10-31 2010-05-13 Fujitsu Ltd Program, apparatus and method for generating configuration definition information, and monitoring program
JP2010176422A (en) * 2009-01-29 2010-08-12 Autonetworks Technologies Ltd Controller, control system and control method
US7778991B2 (en) 2004-01-15 2010-08-17 Nec Corporation Service providing system, computer which executes program providing service and repository service control program
JP2013084121A (en) * 2011-10-11 2013-05-09 Hitachi Ltd Multiple system control device
JP2013156963A (en) * 2012-01-31 2013-08-15 Fujitsu Ltd Control program, control method, information processing apparatus, and control system
JP2014522052A (en) * 2011-08-01 2014-08-28 アルカテル−ルーセント Reduce hardware failure

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010044781A (en) * 2003-01-02 2010-02-25 Fisher Rosemount Syst Inc Redundancy manager to be used in application station
US7546604B2 (en) 2003-11-26 2009-06-09 International Business Machines Corporation Program reactivation using triggering
US7778991B2 (en) 2004-01-15 2010-08-17 Nec Corporation Service providing system, computer which executes program providing service and repository service control program
JPWO2006043321A1 (en) * 2004-10-20 2008-05-22 富士通株式会社 Application management program, application management method, and application management apparatus
US7975038B2 (en) 2004-10-20 2011-07-05 Fujitsu Limited Application management program, application management method, and application management apparatus
JP4558740B2 (en) * 2004-10-20 2010-10-06 富士通株式会社 Application management program, application management method, and application management apparatus
JP2007072958A (en) * 2005-09-09 2007-03-22 Hitachi Ltd Method and device for detecting deray of event synchronization
JP2009282601A (en) * 2008-05-20 2009-12-03 Nec System Technologies Ltd Operation monitoring program, monitoring system, and monitoring method
JP2010108445A (en) * 2008-10-31 2010-05-13 Fujitsu Ltd Program, apparatus and method for generating configuration definition information, and monitoring program
JP2010176422A (en) * 2009-01-29 2010-08-12 Autonetworks Technologies Ltd Controller, control system and control method
JP2014522052A (en) * 2011-08-01 2014-08-28 アルカテル−ルーセント Reduce hardware failure
JP2013084121A (en) * 2011-10-11 2013-05-09 Hitachi Ltd Multiple system control device
JP2013156963A (en) * 2012-01-31 2013-08-15 Fujitsu Ltd Control program, control method, information processing apparatus, and control system

Similar Documents

Publication Publication Date Title
US6952766B2 (en) Automated node restart in clustered computer system
KR100557399B1 (en) A method of improving the availability of a computer clustering system through the use of a network medium link state function
US6859889B2 (en) Backup system and method for distributed systems
US6868442B1 (en) Methods and apparatus for processing administrative requests of a distributed network application executing in a clustered computing environment
US7418627B2 (en) Cluster system wherein failover reset signals are sent from nodes according to their priority
JP4529767B2 (en) Cluster configuration computer system and system reset method thereof
JP4572250B2 (en) Computer switching method, computer switching program, and computer system
US7856639B2 (en) Monitoring and controlling applications executing in a computing node
JPH0831047B2 (en) Apparatus and method for inter-partition control in a logical partition data processor
US20080288812A1 (en) Cluster system and an error recovery method thereof
US8112518B2 (en) Redundant systems management frameworks for network environments
US7783742B2 (en) Dynamic process recovery in a distributed environment
JP2005242404A (en) Method for switching system of computer system
JP2001022709A (en) Cluster system and computer-readable storage medium storing program
US20130262916A1 (en) Cluster monitor, method for monitoring a cluster, and computer-readable recording medium
US8880552B2 (en) Database system and database control method
US8103905B2 (en) Detecting and recovering from process failures
JP5285045B2 (en) Failure recovery method, server and program in virtual environment
JPH11259326A (en) Hot standby system, automatic re-execution method for the same and storage medium therefor
US8036105B2 (en) Monitoring a problem condition in a communications system
JP2011053780A (en) Restoration system, restoration method and backup control system
US11954509B2 (en) Service continuation system and service continuation method between active and standby virtual servers
JP2010146436A (en) Monitoring system, control method and program
US7873941B2 (en) Manager component that causes first software component to obtain information from second software component
US20130198377A1 (en) Control method, control system, information processing apparatus, and computer-readable non-transitory medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040915

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20060914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060926

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061127

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070703