JP2716537B2 - Down monitoring processing method in complex system - Google Patents
Down monitoring processing method in complex systemInfo
- Publication number
- JP2716537B2 JP2716537B2 JP1198539A JP19853989A JP2716537B2 JP 2716537 B2 JP2716537 B2 JP 2716537B2 JP 1198539 A JP1198539 A JP 1198539A JP 19853989 A JP19853989 A JP 19853989A JP 2716537 B2 JP2716537 B2 JP 2716537B2
- Authority
- JP
- Japan
- Prior art keywords
- subsystem
- cluster
- monitoring
- notification
- interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Description
【発明の詳細な説明】 〔概要〕 ある業務またはクラスタが異常状態に陥ったことを,
異常状態に陥った業務またはクラスタからダウン監視機
構に通知する複合システムにおけるダウン監視処理方式
に関し, ダウンの監視機構をOSレベルで統合化するとともに,
異常発生の認識および異常に対する処理を効率的に実行
できるようにすることを目的とし, 各クラスタごとにダウン監視機構を有し,各ダウン監
視機構は,自クラスタ内におけるサブシステムの異常発
生を監視する手段と,自クラスタ内におけるサブシステ
ムに異常が発生した場合に,そのサブシステムが異常状
態に陥ったことを,他クラスタに存在するダウン監視機
構に通知する手段と,他クラスタからサブシステムに関
する異常通知を受けた場合に,あらかじめ登録されてい
る同種のサブシステムまたは異常に関係する処理を行う
処理部を呼び出す手段とを備えるように構成する。DETAILED DESCRIPTION OF THE INVENTION [Summary] It is reported that a certain business or cluster has entered an abnormal state.
Regarding the down monitoring processing method in a complex system that notifies the down monitoring mechanism from a business or cluster that has entered an abnormal state, the down monitoring mechanism is integrated at the OS level.
Each cluster has a down monitoring mechanism to monitor the occurrence of an error in a subsystem in its own cluster. Means for notifying subsystems in the own cluster that an abnormal state has occurred when a failure occurs in a subsystem in the own cluster to a down monitoring mechanism existing in another cluster. When an abnormality notification is received, there is provided a means for calling a sub-system of the same type registered in advance or a processing unit for performing processing relating to the abnormality.
本発明は,ある業務またはクラスタが異常状態に陥っ
たことを,異常状態に陥った業務またはクラスタからダ
ウン監視機構に通知する複合システムにおけるダウン監
視処理方式に関する。The present invention relates to a down monitoring processing method in a complex system that notifies a down monitoring mechanism from a service or cluster that has entered an abnormal state when a certain task or cluster has entered an abnormal state.
複数の計算機を通信路等で結合した複合システムを構
築した場合,ある計算機の異常を,他の正常な計算機が
認識する機構が必要とされる。この機構を,“ダウン監
視機構”という。複合システムを構成する計算機を,
“クラスタ”という。When a complex system in which a plurality of computers are connected by a communication path or the like is constructed, a mechanism for recognizing an abnormality of one computer by another normal computer is required. This mechanism is called "down monitoring mechanism". The computers that make up the complex system
It is called a “cluster”.
また,複数のクラスタで同種の業務を遂行するサブシ
ステムを動作させ,あるクラスタにおけるサブシステム
に異常が発生した場合,他のクラスタにおけるサブシス
テムが,異常になったサブシステムの資源などを回収
し,可能であれば,その業務を引き継ぐようなことが必
要とされる。In addition, when subsystems that perform the same kind of business are operated in multiple clusters, and a subsystem in one cluster fails, the subsystem in another cluster collects resources of the failed subsystem. If possible, it is necessary to take over the work.
第8図は従来のダウン監視の例を示す。 FIG. 8 shows an example of conventional down monitoring.
従来の複合システムにおけるダウン監視機構15A,15B
は,第8図に示すように,正常なクラスタ13A,13Bが相
互に,いわゆる“I'm ALIVE"というような生存通知を行
い,異常クラスタを監視する方式を採用していた。この
生存通知が,ある定められた期間内に到着しない場合に
は,何回かの生存問い合わせを行い,それでも応答がな
いときに,相手が異常状態に陥っていると認識する。Down monitoring mechanism 15A, 15B in conventional complex system
As shown in FIG. 8, the normal clusters 13A and 13B mutually perform a live notification such as so-called "I'm ALIVE" to monitor an abnormal cluster. If the survival notification does not arrive within a predetermined period, a survival inquiry is made several times, and if there is still no response, it is recognized that the other party is in an abnormal state.
また,ある業務を遂行する同種のサブシステムが,相
互に異常を監視する場合にも,それぞれのサブシステム
ごとに,定期的に生存通知を行うなどして,異常の発生
を認識するようにしていた。Also, even when subsystems of the same type performing a certain task mutually monitor abnormalities, the occurrence of abnormalities is recognized by periodically notifying the existence of each subsystem. Was.
従来のダウン監視では,相互に,自分が正常であるこ
とを通知する生存通知を,定期的にある間隔で行うため
に,異常が発生しても,他のクラスタは,直ちには異常
の発生を認識することができず,通知の間隔分だけ,異
常の検出が遅延するという問題があった。In the conventional down monitoring, the liveness notification that informs that the user is normal is made at regular intervals, so that even if an error occurs, other clusters immediately There was a problem in that it was not possible to recognize, and the detection of abnormalities was delayed by the notification interval.
また,ある業務を遂行する同種のサブシステムが,相
互に異常を監視するような場合,ダウン監視機構を“業
務(サブシステム)”ごとに作成しなければならないた
め,その開発負担が大きくなるという問題があった。さ
らに,1つのクラスタ内で複数のサブシステムが動作する
ような場合に,各サブシステムごとに,ダウン監視機構
が必要になるため,CPU資源やメモリ資源などが圧迫され
るという問題があった。In addition, when subsystems of the same type performing a certain task monitor each other for abnormalities, a down monitoring mechanism must be created for each "task (subsystem)", which increases the development burden. There was a problem. Furthermore, when a plurality of subsystems operate in a single cluster, a down monitoring mechanism is required for each subsystem, which causes a problem that CPU resources and memory resources are pressed.
本発明は上記問題点の解決を図り,ダウンの監視機構
をOSレベルで統合化するとともに,異常発生の認識およ
び異常に対する処理を効率的に実行できるようにするこ
とを目的としている。SUMMARY OF THE INVENTION It is an object of the present invention to solve the above problems, integrate a down monitoring mechanism at the OS level, and efficiently execute the recognition of the occurrence of an abnormality and the processing for the abnormality.
第1図は本発明の構成例を示す。 FIG. 1 shows a configuration example of the present invention.
第1図において,10は各クラスタが共通にアクセスで
きるようになっているクラスタ間外部記憶装置,11はク
ラスタ間の通信データを格納するクラスタ間通信域,12
はクラスタの状態(運用中,停止中,ダウン中等)を管
理するクラスタ監視表を表す。In FIG. 1, reference numeral 10 denotes an inter-cluster external storage device which can be commonly accessed by each cluster; 11, an inter-cluster communication area for storing communication data between clusters;
Represents a cluster monitoring table for managing the state of the cluster (operating, stopped, down, etc.).
13A,13BはそれぞれCPUやメモリを持つ処理装置で構成
されるクラスタ,14A,14Bは自クラスタで動作するサブシ
ステムの状態(運用中,停止中,ダウン中等)を管理す
るサブシステム監視表,15A,15Bはオペレーティング・シ
ステム(OS)レベルで統合化してシステムの整合性を実
現するダウン監視機構,16は監視部,17は通知部,18は出
口スケジュール部,S1〜S3はデータベース管理,TSSその
他の各種業務を遂行するサブシステム,E1は異常が発生
したサブシステムの持っていた資源を回収する障害後処
理などを行う窓口となる資源回収出口を表す。13A and 13B are clusters each composed of a processing device having a CPU and a memory, and 14A and 14B are subsystem monitoring tables for managing the status (operating, stopped, down, etc.) of subsystems operating in the own cluster, 15A , 15B is a down monitoring mechanism that integrates at the operating system (OS) level to achieve system consistency, 16 is a monitoring unit, 17 is a notification unit, 18 is an exit schedule unit, S1 to S3 are database management, TSS and others E1 denotes a resource recovery outlet which serves as a window for performing post-failure processing for recovering resources held by the subsystem in which an error has occurred.
本発明では,各クラスタ13A,13Bごとに,OSレベルでダ
ウン監視機構15A,15Bを持つ。In the present invention, each cluster 13A, 13B has a down monitoring mechanism 15A, 15B at the OS level.
各ダウン監視機構15A,15Bは,監視部16,通知部17,出
口スケジュール部18の各処理部を持つ。監視部16は,自
クラスタ内におけるサブシステムS1〜S3の異常発生を監
視する処理を行う。通知部17は,自クラスタ内における
サブシステムS1〜S3のどれかに異常が発生した場合に,
そのサブシステムが異常状態に陥ったことを,クラスタ
間通信域11などを介して,他クラスタに存在するダウン
監視機構に通知する処理を行う。出口スケジュール部18
は,他クラスタからサブシステムに関する異常通知を受
けた場合に,サブシステム監視表14Bなどを参照し,あ
らかじめ登録されている同種のサブシステムまたは異常
に関係する処理を行う処理部,すなわちサブシステム対
応の資源回収出口E1などを呼び出す処理を行う。Each of the down monitoring mechanisms 15A and 15B has a processing unit including a monitoring unit 16, a notification unit 17, and an exit schedule unit 18. The monitoring unit 16 performs processing for monitoring the occurrence of an abnormality in the subsystems S1 to S3 in the own cluster. The notification unit 17 is configured to perform an operation when an error occurs in any of the subsystems S1 to S3 in the own cluster.
A process of notifying the down monitoring mechanism existing in another cluster that the subsystem has entered an abnormal state via the inter-cluster communication area 11 or the like is performed. Exit schedule section 18
Is a processing unit that performs processing related to subsystems of the same type or that is registered in advance by referring to the subsystem monitoring table 14B, etc., when subsystems are notified of abnormalities related to subsystems from other clusters. Process to call the resource recovery exit E1 etc.
あるサブシステムが運用を継続できない状態に陥った
場合に,サブシステム運用環境の回収などを行うサブシ
ステムダウン処理に先立って,他クラスタに異常を通知
する。本発明では,このようなクラスタ監視およびサブ
システムの監視の機構を,ダウン監視機構15A,15Bとし
て,OSレベルで統合化し,システムの整合性を実現す
る。When a certain subsystem is in a state where the operation cannot be continued, an error is notified to another cluster prior to a subsystem down process for collecting a subsystem operating environment or the like. In the present invention, such cluster monitoring and subsystem monitoring mechanisms are integrated at the OS level as down monitoring mechanisms 15A and 15B, thereby realizing system consistency.
各サブシステムS1〜S3は,あらかじめ監視依頼を,ダ
ウン監視機構15A,15Bに対して行っておく。ダウン監視
機構15A,15Bは,サブシステム監視表14A,14Bに,監視対
象となるサブシステムの状態を登録する。Each of the subsystems S1 to S3 makes a monitoring request to the down monitoring mechanisms 15A and 15B in advance. The down monitoring mechanisms 15A and 15B register the status of the subsystem to be monitored in the subsystem monitoring tables 14A and 14B.
各サブシステムS1〜S3は,自サブシステムの異常を検
出したときに,自己申告により,異常となったサブシス
テム名を,ダウン監視機構15A等に通知する。また,ダ
ウン監視機構15A等は,監視部16による各サブシステムS
1〜S3ごとの生存通知出口のスケジュールなどにより,
サブシステムの異常を検出する。When each subsystem S1 to S3 detects an abnormality in its own subsystem, it notifies the down monitoring mechanism 15A or the like of the subsystem name in which the abnormality has occurred by self-report. Also, the down monitoring mechanism 15A, etc.
Depending on the schedule of the survival notification exit for each of 1 to S3, etc.
Detect subsystem errors.
例えば,クラスタ13Aにおいて,ダウン監視機構15Aが
サブシステムS1の異常を検出した場合,通知部17は,ク
ラスタ13Bのダウン監視機構15Bに,適当な通信手段を利
用して,その異常を通知する。通知する情報は,異常状
態に陥ったクラスタ名とサブシステム名などである。For example, when the down monitoring mechanism 15A detects an abnormality in the subsystem S1 in the cluster 13A, the notifying unit 17 notifies the down monitoring mechanism 15B of the cluster 13B of the abnormality using an appropriate communication means. The information to be notified includes the name of the cluster and the name of the subsystem that have entered the abnormal state.
通知を受けたクラスタ13Bにおけるダウン監視機構15B
の出口スケジュール部18は,異常になったサブシステム
S1のサブシステム名により,サブシステム監視表14Bを
検索し,自クラスタにおいて動作しているサブシステム
S1の資源回収出口E1をスケジュールする。この資源回収
出口E1により,クラスタ13Aにおける異常になったサブ
システムS1が使用していた運用環境などの資源を回収
し,必要に応じて処理中であったトランザクションなど
の処理を引き継ぐ。Down monitoring mechanism 15B in the cluster 13B that received the notification
The exit scheduler 18 of the failed subsystem
The subsystem monitoring table 14B is searched by the subsystem name of S1, and the subsystem operating in the local cluster is searched.
Schedule the resource recovery exit E1 of S1. The resource recovery exit E1 recovers resources such as the operating environment used by the failed subsystem S1 in the cluster 13A, and takes over processing such as transactions being processed as necessary.
第2図は本発明の適用システムの例,第3図は本発明
の実施例で用いる制御テーブルの例,第4図は本発明の
実施例に係るダウン監視機構の初期化時の処理フロー,
第5図は本発明の実施例に係る監視部処理フロー,第6
図は本発明の実施例に係るダウン監視機構処理説明図,
第7図は本発明の実施例に係るダウン監視機構のダウン
通知時の処理の例を示す。FIG. 2 is an example of an application system of the present invention, FIG. 3 is an example of a control table used in the embodiment of the present invention, FIG. 4 is a processing flow at the time of initialization of the down monitoring mechanism according to the embodiment of the present invention,
FIG. 5 is a processing flow of the monitoring unit according to the embodiment of the present invention, and FIG.
FIG. 4 is an explanatory diagram of a down monitoring mechanism process according to the embodiment of the present invention;
FIG. 7 shows an example of processing at the time of a down notification of the down monitoring mechanism according to the embodiment of the present invention.
本発明は,例えば第2図に示すような複合システムに
適用することができる。システム記憶装置21は,クラス
タ間通信機能を持ち,例えばクラスタ間で共用可能な半
導体記憶装置で構成される。なお,この例におけるクラ
スタ間通信機能を,従来のプロセッサ間通信などによる
通信機能に置き換え,クラスタ間で共用可能な外部記憶
装置としての機能を,磁気ディスク装置等のDASDに置き
換えることも可能である。The present invention can be applied to, for example, a complex system as shown in FIG. The system storage device 21 has an inter-cluster communication function, and is composed of, for example, a semiconductor storage device that can be shared between clusters. It is also possible to replace the inter-cluster communication function in this example with a conventional communication function such as inter-processor communication, and to replace the function as an external storage device that can be shared between clusters with a DASD such as a magnetic disk device. .
第2図に示す例では,各クラスタを構成する処理部23
が,CPU24およびローカルに使用するメモリ25を持ち,シ
ステム記憶装置21に対しては,メモリ制御装置(MCU)2
2を介して,アクセスできるようになっている。In the example shown in FIG. 2, the processing units 23 constituting each cluster
Has a CPU 24 and a locally used memory 25, and has a memory controller (MCU) 2 for the system storage device 21.
It can be accessed via 2.
第1図に示すクラスタ間通信域11,クラスタ監視表12
は,システム記憶装置21内に作成し,第1図に示すサブ
システム監視表14A,14Bは,各クラスタのメモリ25内に
作成する。Intercluster communication area 11 and cluster monitoring table 12 shown in FIG.
Are created in the system storage device 21, and the subsystem monitoring tables 14A and 14B shown in FIG. 1 are created in the memory 25 of each cluster.
クラスタ監視表12は,各クラスタの運用状態を監視す
るためのものであり,例えば第3図(イ)に示すような
情報の記憶領域からなる。The cluster monitoring table 12 is for monitoring the operation state of each cluster, and includes, for example, an information storage area as shown in FIG.
クラスタ識別子は,複合システム内でクラスタを一意
に決定する識別名または識別番号である。状態表示域に
は,クラスタが動作を開始し,監視対象になった旨の表
示や,生存表示などが行われる。動作中のサブシステム
数の領域に,そのクラスタで動作しているサブシステム
の数が格納される。資源回収出口のポインタ情報は,ク
ラスタが異なっても,異常になったクラスタの資源を回
収するための資源回収出口の仮想空間アドレスを,正し
く把握できるようにするための情報である。The cluster identifier is an identification name or an identification number that uniquely determines a cluster in a complex system. In the status display area, a display indicating that the cluster has started operation and has become a monitoring target, alive display, and the like are performed. The number of subsystems operating in the cluster is stored in the area of the number of operating subsystems. The pointer information of the resource recovery outlet is information for correctly grasping the virtual space address of the resource recovery outlet for recovering the resource of the abnormal cluster even if the cluster is different.
サブシステム監視表14は,各クラスタごとのサブシス
テムの運用状態を監視するためのものであり,例えば第
3図(ロ)に示すような情報の記憶領域からなる。The subsystem monitoring table 14 is for monitoring the operation state of the subsystem for each cluster, and is composed of, for example, an information storage area as shown in FIG.
サブシステム識別子は,サブシステムを一意に識別す
る情報である。状態表示域には,そのサブシステムが監
視対象になった旨の表示や,生存表示などが行われる。
生存通知出口アドレスは,定期的にある間隔で生存通知
を行わせるために,ダウン監視機構が呼び出す出口のア
ドレスである。資源回収出口アドレスは,他クラスタで
動作している同種のサブシステムの資源回収を行うため
に,他クラスタがダウンまたは他クラスタにおけるサブ
システムがダウンしたときを契機として,ダウン監視機
構が呼び出す資源回収ルーチンのアドレスである。The subsystem identifier is information for uniquely identifying the subsystem. In the status display area, a display indicating that the subsystem has become a monitoring target, an alive display, and the like are performed.
The alive notification exit address is an address of an exit called by the down monitoring mechanism to periodically perform a live notification at a certain interval. The resource recovery exit address is used to recover resources of subsystems of the same type that are operating in another cluster, and to be called by the down monitoring mechanism when another cluster goes down or a subsystem in another cluster goes down. Address of the routine.
第1図に示すダウン監視機構15A,15Bの初期化時の処
理は,例えば第4図に示すとおりである。The processing at the time of initialization of the down monitoring mechanisms 15A and 15B shown in FIG. 1 is, for example, as shown in FIG.
各クラスタが共用するシステム記憶の初期化が必要
かどうかを判定する。他のクラスタが既に初期化を行っ
ている場合には,初期化の必要がないので,次の処理
をスキップする。It is determined whether initialization of the system storage shared by each cluster is necessary. If another cluster has already been initialized, there is no need to initialize, so the next process is skipped.
クラスタ監視表12を初期化する。 Initialize the cluster monitoring table 12.
クラスタ監視表12中に自クラスタの生存表示がある
かどうかを判定する。自クラスタの生存表示がある場
合,前に自クラスタに異常が発生し,現在そのダウン後
の再立ち上げ処理中であることになる。したがって,次
の処理を実行する。生存表示がない場合,次の処理
をスキップする。It is determined whether or not the cluster monitoring table 12 indicates that the own cluster is alive. If there is a display indicating that the own cluster is alive, it means that an error has occurred in the own cluster before, and that the cluster is currently being restarted after the down. Therefore, the following processing is performed. If there is no live indication, skip the next process.
障害に対する後処理のため,資源回収出口を呼び出
し,以前使用していたシステム記憶資源を返却する。Calls the resource recovery exit for post-processing of the failure and returns the previously used system storage resources.
クラスタ監視表12に,自クラスタに関する情報を登
録する。Register information about the local cluster in the cluster monitoring table 12.
クラスタ監視表12に,自クラスタの生存表示を行
う。In the cluster monitoring table 12, the existence of the local cluster is displayed.
周期的に動作する監視部16に,起動の契機を与え
る。その後,初期化処理を終了する。A trigger for activation is given to the monitoring unit 16 that operates periodically. Thereafter, the initialization processing ends.
起動された監視部16は,第5図に示す処理〜のよ
うな処理を実行する。The started monitoring unit 16 executes processes such as the processes shown in FIG.
他クラスタに,自クラスタの生存通知を行うための
“I'm ALIVE"通信の時間間隔を設定する。Set the time interval of "I'm ALIVE" communication for notifying the existence of the own cluster to the other cluster.
他クラスタから送られてくる“I'm ALIVE"通信の監
視時間間隔を設定する。Set the monitoring time interval for "I'm ALIVE" communication sent from another cluster.
自クラスタ内におけるサブシステムの生存通知出口
をスケジュールする監視時間間隔を設定する。その後,
監視を開始する。Set the monitoring time interval for scheduling the survival notification exit of the subsystem in the own cluster. afterwards,
Start monitoring.
サブシステムの監視時間になったならば,監視対象
となっているサブシステムの生存通知出口をスケジュー
ルし,呼び出す。この処理を,所定の監視時間間隔ごと
に行う。なお,図示省略するが,他クラスタへの自クラ
スタの生存通知,および他クラスタからの生存通知未着
の監視も,所定の時間間隔ごとに行う。この生存通知に
関する処理は,従来の処理と同様でよい。When the monitoring time of the subsystem has come, the existence notification exit of the monitored subsystem is scheduled and called. This processing is performed at predetermined monitoring time intervals. Although not shown in the drawings, the notification of the existence of the own cluster to another cluster and the monitoring of the non-existence of the existence notification from the other cluster are also performed at predetermined time intervals. The processing related to the existence notification may be the same as the conventional processing.
各サブシステムS1等と,ダウン監視機構15とのインタ
フェースは,例えば第6図に示すようになっている。The interface between each subsystem S1 and the like and the down monitoring mechanism 15 is, for example, as shown in FIG.
各サブシステムS1等は,ダウン監視機構15に対し,マ
クロインタフェースにより,サブシステム監視の依頼を
行う。これに対し,ダウン監視機構15は,サブシステム
監視表に,サブシステム識別子,生存通知出口,資源回
収出口などの監視に必要な情報を登録する。以後,第5
図に示した監視部の処理などにより,このサブシステム
の監視が行われることになる。Each subsystem S1 requests the down monitoring mechanism 15 to monitor the subsystem by using a macro interface. On the other hand, the down monitoring mechanism 15 registers information required for monitoring the subsystem identifier, the survival notification exit, the resource recovery exit, and the like in the subsystem monitoring table. Hereafter, the fifth
Monitoring of this subsystem is performed by the processing of the monitoring unit shown in the figure.
ダウン監視機構15の監視部は,定期的に,サブシステ
ム監視表に登録された生存通知出口をスケジュールす
る。この生存通知出口では,自サブシステムが正常に動
作していれば,生存主張をマクロインタフェースで行
う。ダウン監視機構15は,サブシステム監視表の状態表
示域に,当該サブシステムが生存していることを表示す
る。ある時間を待っても,生存通知がない場合には,こ
のサブシステムに異常が発生したとみなす。The monitoring unit of the down monitoring mechanism 15 periodically schedules the existence notification exit registered in the subsystem monitoring table. At this survival notification exit, if the own subsystem is operating normally, a survival claim is made by the macro interface. The down monitoring mechanism 15 displays that the subsystem is alive in the status display area of the subsystem monitoring table. If there is no notification of alive even after waiting for a certain time, it is considered that an error has occurred in this subsystem.
また,サブシステムS1等が,自ら異常を検出した場合
には,マクロインタフェースにより,ダウン監視機構15
に対し,異常の自己申告を行う。なお,サブシステムが
自分自身の動作異常を検出する技術は,従来から種々の
方式が知られているので,ここでの詳細な説明は省略す
る。If the subsystem S1 or the like detects an abnormality by itself, the down monitoring mechanism 15
Self-declaration of abnormalities. In addition, since various methods are conventionally known as the technology of the subsystem detecting its own operation abnormality, detailed description thereof is omitted here.
ダウン監視機構15は,サブシステムS1等が異常状態に
陥ったことを検出したならば,他クラスタのダウン監視
機構15へダウンの通知を行う。なお,ダウン監視機構15
に対するサブシステム監視の依頼のタイプによっては,
他クラスタのダウン監視機構15に対する通知の後で,ク
ラスタ停止をスケジュールする。When detecting that the subsystem S1 or the like has entered an abnormal state, the down monitoring mechanism 15 notifies the down monitoring mechanism 15 of another cluster of the down state. The down monitoring mechanism 15
Depending on the type of subsystem monitoring request for
After notifying the down monitoring mechanism 15 of the other cluster, a cluster stop is scheduled.
サブシステムS1等は,処理を終了するとき,マクロイ
ンタフェースにより,サブシステム監視からの離脱を,
ダウン監視機構15に依頼する。これに対し,ダウン監視
機構15は,サブシステム監視表からの削除を行う。ま
た,必要に応じて,クラスタ監視表から,自クラスタ分
の資源回収ルーチン(資源回収出口)の削除を行う。When terminating the processing, the subsystem S1 etc. uses the macro interface to leave the subsystem monitoring.
Request the down monitoring mechanism 15. On the other hand, the down monitoring mechanism 15 deletes the information from the subsystem monitoring table. If necessary, the resource collection routine (resource collection exit) for the own cluster is deleted from the cluster monitoring table.
他クラスタから,クラスタまたはサブシステムのダウ
ン通知があった場合,ダウン監視機構15は,第7図に示
す処理を行う。When a down notification of a cluster or a subsystem is received from another cluster, the down monitoring mechanism 15 performs the processing shown in FIG.
ダウン監視機構15は,通知を受けたクラスタ内にある
サブシステム監視表を参照して,これに登録されている
ダウン監視対象サブシステムの資源回収出口E1をスケジ
ュールし,同種のサブシステムにダウンの旨を通知す
る。これによって,そのサブシステムS1は,異常になっ
たサブシステムの資源を回収し,必要に応じてその業務
を引き継ぐことができる。The down monitoring mechanism 15 refers to the subsystem monitoring table in the cluster that has received the notification, schedules the resource recovery exit E1 of the down monitoring target subsystem registered in this table, and sends a shutdown to the same type of subsystem. To the effect. As a result, the subsystem S1 can recover the resources of the subsystem that has become abnormal, and take over the business as needed.
なお,クラスタ停止タイプの場合には,資源回収出口
のスケジュールに先立って,クラスタ間共有資源(シス
テム資源)の回収処理を行う。In the case of the cluster stop type, the inter-cluster shared resources (system resources) are collected prior to the schedule of the resource collection exit.
以上説明したように,本発明によれば,従来の生存通
知のみによる監視方式に比較して,以下の効果がある。As described above, according to the present invention, the following effects are obtained as compared with the conventional monitoring method using only the survival notification.
(a) 他クラスタの異常をシステムの負荷状態に影響
されないで正確に,かつ異常発生個所からの自己申告な
どによって瞬時に認識することができるようになる。特
に,ホットスタンバイシステム等において,システム切
り替え処理などの高速化が可能になるので,有用であ
る。(A) The abnormality of another cluster can be instantaneously recognized accurately without being affected by the load state of the system and self-reported from the place where the abnormality occurs. This is particularly useful in a hot standby system or the like, because the speed of system switching processing can be increased.
(b) ダウン監視機構の統合化により,クラスタ異
常,またはある業務異常を,複数のダウン監視機構で監
視する必要がなく,ダウン監視機構間の認識のズレの問
題をなくすことが可能となる。(B) By integrating the down monitoring mechanisms, it is not necessary to monitor a cluster error or a certain business error by a plurality of down monitoring mechanisms, and it is possible to eliminate the problem of misalignment between the down monitoring mechanisms.
第1図は本発明の構成例, 第2図は本発明の適用システムの例, 第3図は本発明の実施例で用いる制御テーブルの例, 第4図は本発明の実施例に係るダウン監視機構の初期化
時の処理フロー, 第5図は本発明の実施例に係る監視部処理フロー, 第6図は本発明の実施例に係るダウン監視機構処理説明
図, 第7図は本発明の実施例に係るダウン監視機構のダウン
通知時の処理の例, 第8図は従来のダウン監視の例を示す。 図中,10はクラスタ間外部記憶装置,11はクラスタ間通信
域,12はクラスタ監視表,13A,13Bはクラスタ,14A,14Bは
サブシステム監視表,15A,15Bはダウン監視機構,16は監
視部,17は通知部,18は出口スケジュール部,S1〜S3はサ
ブシステム,E1は資源回収出口を表す。FIG. 1 is an example of the configuration of the present invention, FIG. 2 is an example of an application system of the present invention, FIG. 3 is an example of a control table used in an embodiment of the present invention, and FIG. FIG. 5 is a flowchart of a process performed by a monitoring unit according to an embodiment of the present invention; FIG. 6 is an explanatory diagram of a process performed by a down monitor according to an embodiment of the present invention; 8 shows an example of processing at the time of a down notification of the down monitoring mechanism according to the embodiment, and FIG. 8 shows an example of conventional down monitoring. In the figure, 10 is an inter-cluster external storage device, 11 is an inter-cluster communication area, 12 is a cluster monitoring table, 13A and 13B are clusters, 14A and 14B are subsystem monitoring tables, 15A and 15B are down monitoring mechanisms, and 16 is monitoring. , 17 is a notification unit, 18 is an exit schedule unit, S1 to S3 are subsystems, and E1 is a resource recovery exit.
Claims (1)
13B)からなる複合システムにおいて, 各クラスタごとに複数のサブシステムに対して統一され
たインタフェースを持つダウン監視機構(15A,15B)
と,各サブシステムの状況を管理するサブシステム監視
表(14A,14B)とを有し, 各ダウン監視機構は, 自クラスタ内におけるサブシステムからの監視の依頼に
対し,前記サブシステム監視表にそのサブシステムの識
別情報と,生存通知用の第1のインタフェースと,異常
処理用の第2のインタフェースとを登録する手段と, 前記サブシステム監視表を参照し,所定の周期で監視対
象サブシステムの前記第1のインタフェースを呼び出す
手段と, 前記第1のインタフェースからある時間以上生存通知が
ない場合,またはサブシステムから異常の自己申告があ
った場合に,そのサブシステムが異常状態に陥ったと認
識し,他クラスタに存在するダウン監視機構に通知する
手段と, 他クラスタからサブシステムに関する異常通知を受けた
場合に,前記サブシステム監視表に登録されている前記
第2のインタフェースを呼び出す手段と を備えたことを特徴とする複合システムにおけるダウン
監視処理方式。A plurality of clusters each having a computer (13A,
In a complex system consisting of 13B), a down monitoring mechanism (15A, 15B) with a unified interface for multiple subsystems for each cluster
And a subsystem monitoring table (14A, 14B) that manages the status of each subsystem. Each of the down monitoring mechanisms responds to a monitoring request from a subsystem in its own cluster. Means for registering the identification information of the subsystem, a first interface for notification of existence, and a second interface for abnormality processing; and referring to the subsystem monitoring table, to monitor the subsystem to be monitored at a predetermined cycle. Means for calling the first interface of the above, and when there is no survival notification from the first interface for a certain period of time or when there is a self-report of abnormality from the subsystem, it is recognized that the subsystem has entered an abnormal state. When a failure monitoring mechanism that exists in another cluster is notified, Serial subsystem monitoring table down monitoring processing method in a complex system characterized by comprising a means for calling the second interface that is registered in.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1198539A JP2716537B2 (en) | 1989-07-31 | 1989-07-31 | Down monitoring processing method in complex system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP1198539A JP2716537B2 (en) | 1989-07-31 | 1989-07-31 | Down monitoring processing method in complex system |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0362235A JPH0362235A (en) | 1991-03-18 |
JP2716537B2 true JP2716537B2 (en) | 1998-02-18 |
Family
ID=16392840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1198539A Expired - Lifetime JP2716537B2 (en) | 1989-07-31 | 1989-07-31 | Down monitoring processing method in complex system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2716537B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3657665B2 (en) | 1995-02-14 | 2005-06-08 | 富士通株式会社 | Multiple computer systems coupled to shared memory and control method of multiple computer systems coupled to shared memory |
US20070157016A1 (en) * | 2005-12-29 | 2007-07-05 | Dayan Richard A | Apparatus, system, and method for autonomously preserving high-availability network boot services |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5850049A (en) * | 1981-09-18 | 1983-03-24 | Nec Corp | Multilogic device system |
JPH0812620B2 (en) * | 1986-09-30 | 1996-02-07 | 日本電気株式会社 | Information processing system |
JPS6398764A (en) * | 1986-10-15 | 1988-04-30 | Nec Corp | File recovery system for multi-computer system |
US4958273A (en) * | 1987-08-26 | 1990-09-18 | International Business Machines Corporation | Multiprocessor system architecture with high availability |
-
1989
- 1989-07-31 JP JP1198539A patent/JP2716537B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JPH0362235A (en) | 1991-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101377750B (en) | System and method for cluster fault toleration | |
US5815651A (en) | Method and apparatus for CPU failure recovery in symmetric multi-processing systems | |
US5948112A (en) | Method and apparatus for recovering from software faults | |
CN100356335C (en) | Method and apparatus to preserve trace data | |
CN100359481C (en) | Abnormal monitoring equipment and method for multi-task system | |
JPS62298839A (en) | Restarting of computer system in case of disturbance | |
EP2518627B1 (en) | Partial fault processing method in computer system | |
CN105204977A (en) | System exception capturing method, main system, shadow system and intelligent equipment | |
CN112363865A (en) | Database fault recovery method and device and face image search system | |
US7953914B2 (en) | Clearing interrupts raised while performing operating system critical tasks | |
JPH09251443A (en) | Processor fault recovery processing method for information processing system | |
US20030177224A1 (en) | Clustered/fail-over remote hardware management system | |
JPH10214208A (en) | System for monitoring abnormality of software | |
CN117573306A (en) | Batch task scheduling system, method, device, computer equipment and storage medium | |
JP2716537B2 (en) | Down monitoring processing method in complex system | |
JP6828558B2 (en) | Management device, management method and management program | |
JP2006172218A (en) | Computer system and system monitoring program | |
JP2000112790A (en) | Computer with fault information collection function | |
JP2001331330A (en) | Process abnormality detection and restoration system | |
JP5733515B2 (en) | Embedded equipment with RAS function | |
Lee et al. | NCU-HA: A lightweight HA system for kernel-based virtual machine | |
JPWO2008120383A1 (en) | Information processing apparatus and failure processing method | |
JP2006092055A (en) | Computer system | |
JP2003296140A (en) | Object monitoring system, object monitoring method and object monitoring program | |
JPH05224964A (en) | Bus abnormality information system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081107 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081107 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091107 Year of fee payment: 12 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091107 Year of fee payment: 12 |