JPH0877120A - Service fault restoration method - Google Patents

Service fault restoration method

Info

Publication number
JPH0877120A
JPH0877120A JP6207571A JP20757194A JPH0877120A JP H0877120 A JPH0877120 A JP H0877120A JP 6207571 A JP6207571 A JP 6207571A JP 20757194 A JP20757194 A JP 20757194A JP H0877120 A JPH0877120 A JP H0877120A
Authority
JP
Japan
Prior art keywords
service
abnormal
processing
gom
substitute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP6207571A
Other languages
Japanese (ja)
Other versions
JP3291931B2 (en
Inventor
Hiroki Tanaka
博樹 田中
Hiroyuki Ishii
啓之 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP20757194A priority Critical patent/JP3291931B2/en
Publication of JPH0877120A publication Critical patent/JPH0877120A/en
Application granted granted Critical
Publication of JP3291931B2 publication Critical patent/JP3291931B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

PURPOSE: To provide the service fault restoration method which minimizes an influence upon the whole of the service due to the abnormality of object instances (OI) by realizing restoration from a fault with the OI, which is a component or the service processing function and is operated on a device on which the service processing function is mounted, as a unit. CONSTITUTION: A general object manager (GOM) is provided, and the test/ switching processing with the OI as a unit is realized by this GOM, and the abnormality (fault/degradation in performance) of OIs is quickly detected and restored; and when the operation abnormality of OIs occurs, a substitutive OI which should be substituted for the abnormal OI is selected from the other OIs or a new substitutive or is generated by GOM, and hereafter, the substitutive IO is used in the service instead of the abnormal OI to continuously present the service.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、オブジェクト指向ソフ
トウェアを搭載した処理装置上で動作するオブジェクト
インスタンスを単位としたサービス障害復旧方法に関す
るもので、通信サービス、計算サービスを代表とする、
コンピュータを利用するすべてのサービスに利用できる
サービス障害復旧方法に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a service failure recovery method in units of object instances operating on a processing device equipped with object-oriented software, typified by communication services and calculation services.
The present invention relates to a service failure recovery method that can be used for all services that use a computer.

【0002】[0002]

【従来の技術】従来、サービスの運用管理は、処理装置
ハードウェアの障害/性能管理で実現されている。即
ち、多くのサービス処理機能を内包したサービス実行制
御装置を単位とした監視、障害復旧を行なっている。
2. Description of the Related Art Conventionally, service operation management is realized by fault / performance management of processing device hardware. That is, monitoring and failure recovery are performed in units of the service execution control device including many service processing functions.

【0003】図2に従来例のサービスの監視及び障害復
旧方法の概略を示す。図2の(a) に示すように、各サー
ビス処理ノード1には通信サービスの実行を司る主系の
サービス実行制御装置2aが実装されている。各々のサ
ービス実行制御装置2aに対応して、バックアップ用と
しての予備系サービス実行制御装置2bが同一のサービ
ス処理ノード1に設けられている。
FIG. 2 shows an outline of a conventional service monitoring and failure recovery method. As shown in FIG. 2 (a), each service processing node 1 is equipped with a main system service execution control device 2a that controls the execution of communication services. Corresponding to each service execution control device 2a, a backup system service execution control device 2b for backup is provided in the same service processing node 1.

【0004】また、各サービス処理ノード1には、主系
及び予備系のサービス実行制御装置2a,2bを監視す
る監視装置3が備えられている。監視装置3は、主系の
サービス実行制御装置2aが障害を起こした場合に、コ
ールドスタンバイ、ホットスタンバイなどの技術を用い
て予備系のサービス実行制御装置2bへの切り替え操作
を実行する。
Further, each service processing node 1 is provided with a monitoring device 3 for monitoring the service execution control devices 2a and 2b of the main system and the standby system. When the main system service execution control device 2a fails, the monitoring device 3 executes a switching operation to the standby system service execution control device 2b using a technique such as cold standby or hot standby.

【0005】また、図2の(b) に示すように、主系と予
備系双方のサービス実行制御装置2a,2bが同時に運
用不可能となった場合に、そのサービス処理ノード1が
サービスの提供を継続できなくなったことを通信網管理
ノード4内の通信網管理システム5に通知する。
Further, as shown in FIG. 2B, when the service execution control devices 2a and 2b of both the main system and the standby system become inoperable at the same time, the service processing node 1 provides the service. Is notified to the communication network management system 5 in the communication network management node 4.

【0006】通信網管理システム5は、サービス処理ノ
ード1内の監視装置3から通知を受けると、障害を起こ
したサービス実行制御装置2a,2bから他のサービス
処理ノード6内のサービス実行制御装置7a,7bへの
切り替えによる復旧措置を実行する。ここで、サービス
処理ノード6にも、前述と同様に主系及び予備系のサー
ビス実行制御装置7a,7bを監視する監視装置8が備
えられ、監視装置8は、主系のサービス実行制御装置7
aが障害を起こした場合に、コールドスタンバイ、ホッ
トスタンバイなどの技術を用いて予備系のサービス実行
制御装置7bへの切り替え操作を実行する。
Upon receiving the notification from the monitoring device 3 in the service processing node 1, the communication network management system 5 receives the notification from the faulty service execution control devices 2a and 2b and the service execution control device 7a in another service processing node 6. , 7b to carry out recovery measures. Here, the service processing node 6 is also provided with the monitoring device 8 for monitoring the service execution control devices 7a and 7b of the main system and the standby system as described above, and the monitoring device 8 is the service execution control device 7 of the main system.
When "a" fails, a switching operation to the standby system service execution control device 7b is executed using a technique such as cold standby or hot standby.

【0007】[0007]

【発明が解決しようとする課題】しかしながら、前述し
た従来のサービス障害復旧方法では、サービス実行制御
装置2a,2b,7a,7b内で動作する個々のサービ
ス処理機能単位の監視には着目していないため、この方
法に従ってサービス実行制御装置2a,2b,7a,7
bの切り替え処理を実行すると、そのサービス実行制御
装置2a,2b,7a,7b内で動作している他の正常
なオブジェクトインスタンス(以下、OIと称する)ま
でも停止させてしまう。
However, the above-mentioned conventional service failure recovery method does not pay attention to the monitoring of individual service processing function units operating in the service execution control devices 2a, 2b, 7a, 7b. Therefore, according to this method, the service execution control devices 2a, 2b, 7a, 7
When the switching process of b is executed, other normal object instances (hereinafter referred to as OI) operating in the service execution control devices 2a, 2b, 7a, 7b are also stopped.

【0008】従って、該サービス制御装置2a,2b,
7a,7bが複数のサービスに関わっている場合、サー
ビス制御装置2a,2b,7a,7bを切り替えること
により、本来継続して提供すべきサービスまで一時的に
停止させてしまうという問題点があった。
Therefore, the service control devices 2a, 2b,
When 7a and 7b are involved in a plurality of services, there is a problem that switching the service control devices 2a, 2b, 7a and 7b temporarily suspends services that should be continuously provided. .

【0009】本発明の目的は、サービス処理機能を搭載
した装置上で動作する、サービス処理機能の構成要素と
してのOI単位で障害復旧を実現し、当該OIの異常に
よるサービス全体への影響度を最小化したサービス障害
復旧方法を提供することにある。
An object of the present invention is to realize failure recovery in units of OI as a component of the service processing function, which operates on a device equipped with the service processing function, and to determine the degree of influence of the abnormality of the OI on the entire service. It is to provide a minimized service failure recovery method.

【0010】[0010]

【課題を解決するための手段】本発明は上記の目的を達
成するために、請求項1では、互いに独立して動作する
オブジェクトインスタンス(OI)がメッセージを交信
し合いOI群全体として所望の処理機能を実現するオブ
ジェクト指向ソフトウェアを用いて、計算/通信サービ
スを実現するサービス処理装置におけるサービス障害復
旧方法において、全てのOIを管理する総合オブジェク
トマネージャ(GOM)を設け、前記OIの動作異常が
発生した時に、前記GOMによって該OIの代用となる
代用OIを他のOIの中から選択するか又は前記代用O
Iを新規に作成し、以後、異常を来したOIの代わりに
前記代用OIを前記サービスで用い、サービスを継続的
に提供させるサービス障害復旧方法を提案する。
In order to achieve the above-mentioned object, the present invention provides, in claim 1, object instances (OIs) operating independently of each other to exchange messages with each other and perform desired processing as a whole OI group. In a service failure recovery method for a service processing device that realizes a calculation / communication service using object-oriented software that realizes a function, a general object manager (GOM) that manages all OIs is provided, and an operation abnormality of the OI occurs. Then, the GOM selects a substitute OI to substitute for the OI from other OIs, or the substitute OI
We propose a service failure recovery method in which I is newly created, and thereafter, the substitute OI is used in the service instead of the abnormal OI to continuously provide the service.

【0011】また、請求項2では、請求項1記載のサー
ビス障害復旧方法において、前記GOMは各OIに対し
て定期的に試験を要求することによりOIの動作異常を
検出するサービス障害復旧方法を提案する。
According to a second aspect of the present invention, there is provided the service failure recovery method according to the first aspect, wherein the GOM periodically requests a test for each OI to detect an OI operation abnormality. suggest.

【0012】[0012]

【作用】本発明の請求項1によれば、OIの動作異常が
発生した時に、GOMによって該OIの代用となる代用
OIが自動的に他のOIの中から選択されるか又は前記
代用OIが自動的に新規に作成され、以後、異常を来し
たOIの代わりに前記代用OIが前記サービスで用いら
れ、サービスが継続的に提供される。
According to claim 1 of the present invention, when an abnormal operation of the OI occurs, the GOM automatically selects a substitute OI as a substitute for the OI from other OIs or the substitute OI. Is automatically created, and thereafter, the substitute OI is used in the service instead of the abnormal OI, and the service is continuously provided.

【0013】また、請求項2によれば、前記GOMによ
って各OIに対して定期的に試験が要求され、これによ
りOIの動作異常が検出される。
Further, according to the second aspect, the GOM periodically requests a test for each OI, thereby detecting an abnormal operation of the OI.

【0014】[0014]

【実施例】以下、図面に基づいて本発明の一実施例を説
明する。図1は本発明の一実施例を説明する図である。
図において、OIA は着目している処理を進行させてい
るOI、OIC はOIA に処理を依頼しているクライア
ントOI、OIS はOIC から依頼された処理を実行す
るためにOIA が必要に応じて処理を依頼しているサー
バOIをそれぞれ表す(以後、これらの略式表記を用い
る)。これらの構成は、従来例において説明したサービ
ス実行制御装置内に設けられている。
DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a diagram for explaining an embodiment of the present invention.
In the figure, OI A is the OI that is advancing the process of interest, OI C is the client OI that requests OI A for the process, and OI S is the OI A that executes the process requested by OI C. Represents the server OI requesting processing as necessary (hereinafter, these abbreviations will be used). These components are provided in the service execution control device described in the conventional example.

【0015】また、本実施例におけるサービスは、サー
ビス実行制御装置上で動作するサービス処理機能、或い
はその構成要素であるOI同士が規定の手順に従いメッ
セージを交信(処理を依頼)した結果として提供され
る。
Further, the service in the present embodiment is provided as a result of the service processing function operating on the service execution control device or the OIs which are the constituents of the service processing control device communicating messages (requesting processing) according to a prescribed procedure. It

【0016】ここで本実施例では、以下の機能を保持す
る総合オブジェクトマネージャ(以下、GOMと称す
る)を設けることにより、OI単位での試験/切り替え
処理を実現し、OIの異常(障害/性能低下)の迅速な
検出/復旧措置を可能とすると共に、動作異常を起こし
たOIに代えて代用OIを用いるところに特徴がある。
In this embodiment, by providing an integrated object manager (hereinafter, referred to as GOM) having the following functions, the test / switch processing is realized in units of OI, and the OI abnormality (fault / performance) is realized. It is characterized in that it enables rapid detection / recovery of (degradation) and uses a substitute OI instead of the OI in which the operation abnormality has occurred.

【0017】GOMが保持する機能としては、 ・OIから異常の通知を受けたときに、異常を起こした
OIを特定する機能 ・異常と見られるOIを代用のOIへ切り替える機能 ・OIの自己試験機能の正常性を確認するため、各OI
に自己試験を行なうように要求する機能 があり、また各OIは、OI自身、OIが現時点で処理
を依頼しているサーバOI、及び通信処理機能の異常
(障害/性能低下)の可能性を検出し、GOMに通知す
る機能を有している。さらに、GOMは、各OIの動作
正常性、負荷、配置位置などをもとに、OI間の処理依
頼の関係を適宜変更させる。このとき、GOMは必要に
応じて以下の各マネージャと協調動作する。
The functions held by the GOM are as follows: a function of identifying an OI that has caused an abnormality when a notification of an abnormality is received from the OI; a function of switching an OI that seems to be abnormal to a substitute OI; To confirm the normality of the function, each OI
Has a function to request self-test, and each OI has a possibility of the OI itself, the server OI which the OI is currently requesting processing, and the abnormality (fault / performance degradation) of the communication processing function. It has a function of detecting and notifying the GOM. Furthermore, the GOM appropriately changes the processing request relationship between OIs based on the operation normality, load, placement position, etc. of each OI. At this time, the GOM cooperates with the following managers as needed.

【0018】GOMがOIの異常に対処するために協調
動作するマネージャとしては、 ・OIを生成/消去する働きをするOI生成/消去マネ
ージャ(以下、OIRと称する) ・各OIが正常終了させた処理に関する情報を保持する
処理ログマネージャ(以下、PLMと称する) ・各OIの運用状態やOI間の処理依頼関係の情報を保
持するOIデータベース(以下、OIDBと称する)が
設けられている。
The managers that the GOM cooperates to deal with the abnormality of the OI are: OI generation / erasure manager (hereinafter referred to as OIR) that functions to generate / erase the OI. A processing log manager (hereinafter, referred to as PLM) that holds information about processing. An OI database (hereinafter, referred to as OIDB) that holds information on the operating state of each OI and the processing request relationship between OIs is provided.

【0019】一方、OIDBは、OIの運用及び障害復
旧に必要な情報として、図3に示すように、運用中の各
OIについて以下の各項目の情報を保持している。 (1)網内で一意に認識できるOI名 (2)実行処理名(OIが保持し、実行する処理名) (3)代用となりうる(運用中の)OI名のリスト(Su
b OI List ) このリストは、OIに異常が発生したときに、それ以後
代わりに用いるOI(代用OI)を決定するときに用い
られる。 (4) OIをOIS として用いるOI名のリスト(O
C List) このリストは、OIに異常が発生したときに、それをO
S として使用する全てのOIに対して、以後その異常
となったOIを用いないように通知するために用いられ
る。
On the other hand, as shown in FIG. 3, the OIDB holds information on the following items for each operating OI as information necessary for operating the OI and recovering from a failure. (1) OI name that can be uniquely recognized in the network (2) Execution process name (process name retained and executed by OI) (3) List of substitute (operating) OI names (Su
b OI List) This list is used to determine an OI (substitute OI) to be used after that when an abnormality occurs in the OI. (4) a list of OI name using the OI as OI S (O
I C List) This list shows when an OI abnormality occurs.
It is used to notify all OIs used as I S not to use the abnormal OI thereafter.

【0020】(5)使用可/不可 これは、OIに処理の依頼ができるかできないかを記し
たもので、各OIの状態管理に用いられる。OIに異常
が発生したとき、そのOIに関するこの項目を「不可」
とすることにより、そのOIがGOMにより他のOIの
代用として割り当てられたり、動的結合機能(以下、D
BFと称する)によりそのOIに処理要求が受け渡され
ることがなくなる。従って、それ以後その異常となった
OIに起因するサービス障害を防止することができる。
(5) Usable / Unusable This indicates whether or not a request for processing can be made to the OI, and is used for state management of each OI. When an error occurs in the OI, set this item for that OI to "Not Allowed".
By doing so, the OI is assigned as a substitute for another OI by the GOM, and the dynamic coupling function (hereinafter, D
The processing request is not passed to the OI by the BF). Therefore, it is possible to prevent a service failure due to the abnormal OI thereafter.

【0021】DBFは、実際のメッセージの交信の発生
時に処理依頼先を決定する動的結合を実行する。この機
能は周知の分散処理の技術(ディレクトリ、トレーダー
等)で実現されうるものである。
The DBF executes a dynamic binding for determining a processing request destination when an actual message communication occurs. This function can be realized by well-known distributed processing technology (directory, trader, etc.).

【0022】DBFが行なう動的結合の実行手順を以下
に示す。 ・各OIから、OIS に依頼する処理名及びオブジェク
ト名を受ける。 ・OIDB内のOIS についての使用可/不可の項目を
調べる。 (a)使用可のとき 依頼された処理を実行するようにOIS に依頼する。 (b)使用不可のとき ・OIDBに依頼処理を実行できるOI名(OIS
補)のリストを要求する。 ・任意に、あるいは各々の
OIの不可レベル(次項目)をもとに、新しい処理依頼
先(OIS )を決定する。 ・DBFがOIS に処理を依頼する(このときOIS
とってのOIC は、DBFではなく処理依頼元のOIで
ある)。
The procedure for executing the dynamic connection performed by the DBF is shown below. - from each of the OI, subjected to the processing name and the object name to ask the OI S. · Examine the items in the enable / disable of the OI S in the OIDB. (A) ask the OI S to perform the processing requested when usable. (B) to request a list of OI name that can run the request process to · OIDB when disabled (OI S candidates). -A new processing request destination (OI S ) is determined arbitrarily or based on each OI's inability level (next item). The DBF requests the OI S for processing (the OI C for the OI S at this time is not the DBF but the OI of the processing request source).

【0023】(6)負荷レベル これは、ある計測時間内での、OIに依頼される単位時
間当たりの処理数、及び最多/最小処理キュー数で決ま
る値であり、一定時間毎に新しい値に変更され、OI間
の処理の負荷バランスをとるために用いられる。
(6) Load level This is a value determined by the number of processes per unit time requested by the OI and the maximum / minimum number of process queues within a certain measurement time. Modified and used to balance the processing load between OIs.

【0024】OIRは、OIを配備(ノード内のプロセ
スとして生成)すると、そのOI名Sub OI Lis
t,及びOIC ListをOIDBに登録する。
When the OIR deploys the OI (creates it as a process in the node), its OI name Sub OI Lis.
t, and to register the OI C List to OIDB.

【0025】OIが検出した異常の内容がそのOIから
GOMに対して通知されると、GOMはその通知内容と
各OIの運用状況を調べることにより異常箇所の決定及
び復旧措置を実行する。なお、各OIは、自らがOIS
に依頼した処理が正常に終了しなかったことを検出する
ことで、OIS または通信処理機能に障害が発生したと
判断する。
When the content of the abnormality detected by the OI is notified from the OI to the GOM, the GOM checks the content of the notification and the operation status of each OI to determine the abnormal portion and execute a recovery measure. Each OI has its own OI S
Requested processing is to detect the fact that was not successful, it is determined that a failure has occurred in OI S or communication processing function.

【0026】次に、OIが検出した異常別にその対処方
法を説明する。 <OIが自身の異常を検出したとき>OIが自身の異常
を検出したときの障害復旧の手順を図4乃至図6に基づ
いて説明する。このケースでは、GOMは以下の手続き
を実行する。
Next, a coping method for each abnormality detected by the OI will be described. <When OI detects its own abnormality> A procedure for failure recovery when the OI detects its own abnormality will be described with reference to FIGS. 4 to 6. In this case, GOM performs the following procedure.

【0027】OIからそのOI自身の異常の通知を受け
た(図4(0) )場合(SA1)、GOMは以下の手順で
OIの切り替え手続きを実行する。
When the OI receives the notification of the abnormality of the OI itself (FIG. 4 (0)) (SA1), the GOM executes the OI switching procedure in the following procedure.

【0028】(1)OIDBが保持する情報のうち、異
常と申告されたOIに関する使用可/不可の項目を「不
可」に変更するように要求する(図4(1) )(SA
2)。これにより、異常と申告されたOIがGOMによ
り他のOIの代用として割り当てられたり、DBFによ
り異常と申告されたOIに処理要求が受け渡されること
がなくなる。
(1) Of the information held by the OIDB, a request is made to change the usable / unavailable item regarding the OI declared as abnormal to "unavailable" (Fig. 4 (1)) (SA).
2). As a result, an OI declared as abnormal is not assigned by the GOM as a substitute for another OI, and the processing request is not passed to the OI declared as abnormal by the DBF.

【0029】(2)通知された異常の内容(エラー種
別、サービス種別など)の項目の内容から、異常と申告
されたOIを即時に消去するか、一連のOI切り替え処
理実行後に消去するか、そのまま動作させるかを決定す
る(図4(2-1))。即時消去の場合は、GOMがこの時点
でOIRに異常と申告されたOIの消去の実行を要求す
る(図4(2-2) )。OIRは異常と申告されたOIを消
去した後に、異常と申告されたOIに関するOIDB内
の情報を消去するように要求する(図4(2-3) )(SA
3)。
(2) From the content of the notified abnormality content (error type, service type, etc.), the OI declared as abnormal is immediately deleted, or is deleted after execution of a series of OI switching processing. It is decided whether to operate it as it is (Fig. 4 (2-1)). In the case of immediate erasure, the GOM requests the OIR to execute the erasure of the OI which has been declared abnormal at this point (Fig. 4 (2-2)). The OIR requests to delete the information in the OIDB related to the OI declared as abnormal after deleting the OI declared as abnormal (Fig. 4 (2-3)) (SA
3).

【0030】この後、GOMは、異常と申告されたOI
をそのまま動作させるか否かを判定し(SA4)、異常
と申告されたOIをそのまま動作させる場合は、OIR
は、OIDBが保持する情報のうち、異常と申告された
OIに関する使用可/不可の項目を「可」にするように
要求する(図4(2-4))(SA5)。
After this, the GOM reports the OI declared as abnormal.
Whether or not to operate as is (SA4), and if the OI declared as abnormal is to be operated as is, OIR
Requests that the usable / unusable item related to the OI declared as abnormal among the information held by the OIDB is set to “enabled” (FIG. 4 (2-4)) (SA5).

【0031】(3)OIDBに対し、異常と申告された
OIをOIS として用いるすべてのOI名のリスト(O
C List)を要求する(図4(3) )(SA6)。
[0031] (3) OIDB contrast, use of the abnormal-reported OI as OI S list of all of OI name (O
I C List) (Fig. 4 (3)) (SA6).

【0032】(4)OIC List 中のすべてのOI
に対し、異常と申告されたOIに対する直接の処理依頼
を全て停止し、以後指示があるまで、DBFを通して処
理をOIS に依頼するように指示する(図4(4-1) )。
DBFは、代用OI名を処理要求元にも知らせる。以
後、処理要求元OIが同一の内容の処理を依頼するとき
は、後に正式な代用OIをGOMから知らされるまで、
DBFから指定された仮の代用OIを一時的に用いる
(図4(4-2) )(SA7)。
(4) All OIs in OI C List
To, to stop all direct processing request for has been declared to be abnormal OI, until a subsequent instruction, an instruction to request processing through DBF in OI S (FIG. 4 (4-1)).
The DBF also notifies the processing requester of the substitute OI name. After that, when the processing request source OI requests the processing of the same contents, until the GOM informs the official substitute OI later,
The temporary substitute OI designated by the DBF is temporarily used (FIG. 4 (4-2)) (SA7).

【0033】(5)OIDBに対し、その異常と申告さ
れたOIの代用として用いることのできるOI名のリス
トを要求し(図5(5-1) )(SA8)、得られたリスト
から、代用として用いるOI(代用OI)名を決定する
(図4(5-2) )。代用OIを一つとするとOI間の負荷
(これはGOMが定期的に収集している)のバランスが
偏る場合は、代用OIを複数設定し、OIC List中
のOI単位で代用OIを割り当てる。またこのとき、異
常と申告されたOIとの配備位置関係(サービス実行制
御装置に異常が見られない場合はその装置上のOIを、
OIが動作するノードに障害が見られる場合はその近傍
のノードのサービス実行制御装置上のOIを優先的に選
択)についても考慮する(SA9,SA10)。
(5) Request the OIDB for a list of OI names that can be used as a substitute for the OI declared to be abnormal (FIG. 5 (5-1)) (SA8), and from the obtained list, The OI (substitute OI) name used as a substitute is determined (FIG. 4 (5-2)). If the load of OIs (which is periodically collected by the GOM) is unbalanced when only one substitute OI is used, a plurality of substitute OIs are set, and the substitute OIs are assigned in units of OIs in the OI C List. Further, at this time, the deployment positional relationship between the OI and the declared OI (if no abnormality is found in the service execution control device, the OI on that device is
When a failure occurs in the node where the OI operates, the OI on the service execution control device of the node in the vicinity thereof is preferentially selected) (SA9, SA10).

【0034】(6)適当な代用OIが存在しない場合、
あるいはOIの切り替えにより各々の代用OIの負荷
(代用OIに処理の実行を要求するOIC 数)が大きく
なる場合は、新規に代用OIを生成するようにOIRに
要求する(図4(6) )(SA15)。
(6) If there is no suitable substitute OI,
Or if the switching load of each of the substitute OI by the OI that (OI C number of requests to execute a process to substitute OI) is increased, requests the OIR to generate a new substitute OI (FIG. 4 (6) ) (SA15).

【0035】(7)OIC List中のすべてのOIに
対し、前記(5)までのステップで決定した代用OIに
処理を依頼するように要求する(図4(7-1) )(SA1
2,SA16)。このとき、OIC List中の各OI
に対し、その各々のOIが保持している情報のうち、そ
のOIのOIS として異常と申告されたOIの名前が登
録されている全ての箇所について、その名前を代用OI
の名前に変更するように要求する(OI切り替え処
理)。これにより、OIC List中のOIは、全て異
常OIの代わりに代用OIに処理を依頼するようにな
る。
(7) Request all OIs in OI C List to request the substitute OIs determined in the steps up to (5) above (FIG. 4 (7-1)) (SA1)
2, SA16). At this time, each OI in the OI C List
On the other hand, of all the information held by each OI, the name of the OI declared as abnormal is registered as the OI S of that OI, and that name is used as a substitute OI.
Request to change the name (OI switching process). As a result, all the OIs in the OI C List request the substitute OIs for processing instead of the abnormal OIs.

【0036】要求先OIから了承の返答をうけると、G
OMはさらに、代用OIが異常となった際にOI切り替
え処理が実行できるように、OIDB内の代用OIのO
CListの項目に、新たに代用OIのクライアント
となったOI名を追加するようにOIDBに対して要求
する(図4(7-2) )。
Upon receiving an approval response from the request destination OI, G
The OM further sets the O of the substitute OI in the OIDB so that the OI switching process can be executed when the substitute OI becomes abnormal.
The OIDB is requested to add the OI name that has become the client of the substitute OI to the item of I C List (FIG. 4 (7-2)).

【0037】(8)前記(2)の時点で、切り替え処理
後に異常と申告されたOIを消去するように指定された
場合は、この時点で異常と申告されたOIの消去の実行
をOIRに要求する(図4(8-1) )。OIRは異常と申
告されたOIを消去した後にOIDB内の異常と申告さ
れたOIに関する情報を消去するように要求する(図4
(8-2) )(SA14,SA18)。
(8) At the time of the above (2), when the OI declared as abnormal after the switching process is designated to be deleted, the execution of the deletion of the OI declared as abnormal at this time is made to the OIR. Request (Fig. 4 (8-1)). The OIR requests to delete the information regarding the OI declared as abnormal in the OIDB after deleting the OI declared as abnormal (Fig. 4).
(8-2)) (SA14, SA18).

【0038】<OIがOIS の異常を検出したとき>次
に、OIがOIS の異常を検出したときの障害復旧の手
順を図7乃至図9に基づいて説明する。なお、このとき
OIからGOMへはOIS の異常という内容の通知が届
く(図7(0) )(SB1)が、このとき、後述するよう
にGOMはOIS だけでなく同時に通信処理の異常も同
時にチェックする。このケースでは、GOMは以下の手
続きを実行する。
<When OI Detects OI S Abnormality> Next, the procedure for failure recovery when OI detects OI S abnormality will be described with reference to FIGS. 7 to 9. At this time, the notification that the OI S is abnormal is sent from the OI to the GOM (Fig. 7 (0)) (SB1). At this time, however, the GOM is not only the OI S but also the communication processing abnormality at the same time as described later. Also check at the same time. In this case, GOM performs the following procedure.

【0039】(1)OIDBが保持する情報のうち、異
常と申告されたOIS に関する使用可/不可の項目を
「不可」に変更するように要求する(図7(1) )(SB
2)。これにより、そのOIがGOMにより他のOIの
代用として割り当てられたり、DBFによりそのOIに
処理要求が受け渡されることがなくなる。
[0039] (1) OIDB Out of information held, abnormal-reported OI S relates to the use enable / disable of the item is requested to change to "impossible" (FIG. 7 (1)) (SB
2). This prevents the GOM from assigning the OI as a substitute for another OI or passing the processing request to the OI by the DBF.

【0040】(2)OIDBに対し、異常と申告された
OIS をOIS として用いる全てのOI名のリスト(O
C List)を要求する(図7(2) )(SB3)。
[0040] (2) OIDB contrast, the list of all of OI name using the OI S, which has been declared to be abnormal as OI S (O
I C List) is requested (FIG. 7 (2)) (SB3).

【0041】(3)OIC List中のすべてのOIに
対し、異常と申告されたOIS に対する直後の処理依頼
を全て停止し、以後指示があるまで、DBFを通して処
理をOIS に依頼するように指示する(図7(3-1) )
(SB4)。
(3) For all OIs in OI C List, stop all processing requests immediately after OI S declared as abnormal, and request processing to OI S through DBF until further instruction is given. Instruct (Fig. 7 (3-1))
(SB4).

【0042】DBFは、代用OIS 名を処理要求元にも
知らせる。以後、処理要求元のOIが同一の内容の処理
を依頼するときは、後に正式な代用OIS の名前をGO
Mまら知らされるまで、DBFから指定された仮の代用
OIS を一時的に用いる(図7(3-2) )。
[0042] DBF informs also in the process requesting the substitute OI S name. After that, when the processing requesting OI requests processing with the same content, the name of the official substitute OI S is later changed to GO.
M Mara until informed, temporarily using a substitute OI S provisional designated by the DBF (FIG. 7 (3-2)).

【0043】(4)この時点では、通知された異常が、
OIS の異常によるものか、あるいは処理の要求時/応
答時の通信機能の障害によるものかが判別できない。そ
こでGOMは、異常と申告されたOIS に対して、自身
の試験を要求する(図7(4))(SB5)。その返答の
内容(試験結果)により、以下のような手続きが実行さ
れる。
(4) At this point, the notified abnormality is
Or by abnormalities in OI S, or whether due to failure of the communication function of the time demand / response process can not be determined. Therefore GOM, to the abnormal-reported OI S, to request a test of its own (FIG. 7 (4)) (SB5) . Depending on the content of the reply (test result), the following procedure is executed.

【0044】(A)応答の内容が「正常」のとき 異常と申告されたOIS に対し、異常を申告したOIが
OIS に依頼した処理を実行中であるかを問い合わせる
(図7(4-1-1) )(SB8)。
(A) When the content of the response is "normal" The OI S that has been declared abnormal is inquired whether the OI that has declared the abnormality is executing the processing requested by the OI S (Fig. 7 (4)). -1-1)) (SB8).

【0045】(a)応答が「実行中」のとき GOMは、異常と申告されたOIS がさらに他のOI
(OISS)に処理を依頼しているかを異常と申告された
OIS に問い合わせる(図7(4-1-2) )(SB9)。そ
の応答内容に対応して、以下の手順を実行する。
(A) When the response is "execution in progress" The GOM indicates that the OI S that has been declared abnormal is another OI.
(OI SS) to inquire whether the requesting process in abnormal-reported OI S (FIG. 7 (4-1-2)) (SB9) . The following procedure is executed according to the response content.

【0046】・異常と申告されたOIS が他のOI(O
SS)に処理を依頼しているとき OISSの正常性を確認する(SB11)。OISSが異常
であれば、そのOISS及びOIS のOISSに対する異常
検出機能が異常を来しているものとみなし、OIS とO
SS双方の切り替え処理を実行する(図7(4-1-3) )
(切り替え時に、それまで仮に割り当てられていたOI
S は、正規の代用OIS に切り替えられる(図7(4-1-
4) )(SB13)。切り替え処理の手順は前の実施例
の場合と同じであるため説明を省略する)。
The OI S that has been declared abnormal is another OI (O
Confirm the normality of OI SS when requesting processing to I SS (SB11). If OI SS is abnormal, it is assumed that the abnormality detection function may have been reached abnormal for OI SS of the OI SS and OI S, OI S and O
Execute switching process for both I SS (Fig. 7 (4-1-3))
(At the time of switching, the OI that was provisionally assigned until then
S is switched to the normal substitution OI S (FIG. 7 (4-1-
4)) (SB13). The procedure of the switching process is the same as the case of the previous embodiment, so the description will be omitted).

【0047】また、OISSが正常であれば、以降繰り返
しOISSが依頼している処理について調べ、その結果、
最終的に異常を来しているOIが判明した時点で、その
OIとそのOIのOIC の切り替え処理を実行する(S
B12)。
[0047] In addition, if OI SS is normal, examined the process of repeatedly OI SS is asked later, as a result,
When the abnormal OI is finally found, the switching process of the OI and the OI C of the OI is executed (S
B12).

【0048】・異常と申告されたOIS が他のOI(O
SS) に処理を依頼していないとき 試験では検出できない異常がOIS に発生しているとみ
なし、異常と申告されたOIS の切り替え処理を実行す
る(図7(4-1-5) )(SB10)。
The OI S that has been declared abnormal is another OI (O
Regarded as abnormality that can not be detected in the test when not requested to process the I SS) is generated in the OI S, it executes the process of switching abnormal-reported OI S (FIG. 7 (4-1-5) ) (SB10).

【0049】(b)応答が「非実行中」のとき 各ノードに配備(信頼性向上のために複数個設けてもよ
い)されているPLMに、異常を申告したOIが異常O
S に依頼した処理が登録されているかを問い合わせる
(図7(4-1-6) )(SB14)。
(B) When the response is "non-execution", the OI that declares an abnormality is abnormal O in the PLM that is provided in each node (a plurality may be provided to improve reliability).
An inquiry is made to I S as to whether the requested processing is registered (FIG. 7 (4-1-6)) (SB14).

【0050】各OI(OIS )は、自身に依頼された処
理を終了する際に、同一ノード内に存在するPLMに処
理名、該OI名、OIC 名、処理終了時間を登録してい
る(図7(4-1-7) )。
Each OI (OI S ) registers the processing name, the OI name, the OI C name, and the processing end time in the PLM existing in the same node when the processing requested by itself is completed. (Fig. 7 (4-1-7)).

【0051】従って、問い合わせ時にPLMに異常と申
告されたOIS が実行した処理名が登録されていれば、
該処理は既に終了しているため、応答時に(OIS と異
常申告したOIとの間の)通信処理障害が起きたものと
みなし、通信処理管理部に障害復旧を依頼する(図7(4
-1-8) )(SB15)。
[0051] Thus, if the abnormal-reported OI S has executed processing name to PLM is registered at the time of inquiry,
Since the processing has already been completed, it is assumed that the communication processing failure (between OI S and abnormal reporting the OI) when responding occurs, and requests the failure recovery to the communication processing management unit (FIG. 7 (4
-1-8)) (SB15).

【0052】また、問い合わせ時にPLMに異常と申告
されたOIS が実行した処理名が登録されていなけれ
ば、該処理の依頼が異常と申告されたOIS に届いてい
ないため、処理要求時に(異常申告したOIとOIS
の間の)通信処理障害が起きたものとみなし、通信処理
管理部に障害復旧を依頼する(図7(4-1-9) )(SB1
6)。
If the processing name executed by the OI S declared as abnormal in the PLM at the time of inquiry is not registered, the request for the processing has not arrived at the OI S declared as abnormal, so that when the processing is requested ( deemed to) the communication processing failure between the abnormal filing the OI and OI S occurs, and requests the failure recovery to the communication processing management unit (Fig. 7 (4-1-9)) (SB1
6).

【0053】なお、サービス障害の原因が通信処理障害
と判定されたときは、GOMは、それまで仮の代用OI
S を用いていたOIC List中の各OIに対し、それ
以後、当初用いられていたOIS を用いるようにOIの
切り戻し処理を実行する。
When it is determined that the cause of the service failure is the communication processing failure, the GOM is the temporary substitute OI until then.
For each OI in the OI C List that used S , the OI cutback process is performed so that the OI S that was originally used is used thereafter.

【0054】(2)応答の内容が「異常」、あるいは応
答がないとき その異常と申告されたOIS の切り替え処理を実行する
(切り替え処理手続きは前ケースの内容と同じであるた
め説明を省略する)(SB7)。
[0054] (2) omitted for contents of the response is "abnormal", or when there is no response to executing the switching process of the abnormal-reported OI S (switching processing procedure is identical to the contents of the front case Yes (SB7).

【0055】以上の手続きにより、異常の検出及び復旧
が行なわれる。
By the above procedure, the abnormality is detected and recovered.

【0056】前述したように、通信網のノード上に分散
配備されているOIが互いにメッセージを交信すること
によりサービスが提供される環境において、OIから異
常の通知を受けたときに代用OIへの切り替え処理を行
なう機能、及び各OIの運用情報を調べる機能を保持す
るGOMを設けることにより、OIの異常を未然に防ぐ
ようなOI間の負荷のバランス調整やOI異常時のOI
単位での切り替え処理を実現できるため、従来の方法よ
り確実にサービス全体の継続的な提供を確保することが
できる。
As described above, in an environment in which OIs distributed on nodes of a communication network provide services by exchanging messages with each other, when a notification of an abnormality is received from the OI, the substitute OI is notified. By providing the GOM that holds the function of performing the switching process and the function of checking the operation information of each OI, the load balance between the OIs that prevents the OIs from being abnormal and the OIs when the OIs are abnormal are provided.
Since the switching process can be realized in units, continuous provision of the entire service can be ensured more reliably than the conventional method.

【0057】また、GOMに各OIを定期的に試験する
ことを要求する機能を設けることで、各々のOIの試験
機能の正常性が確保でき、従ってOIの障害発生時の確
実な障害復旧を実現できる。
Further, by providing the GOM with the function of requesting to periodically test each OI, the normality of the test function of each OI can be ensured, and therefore the reliable recovery from the failure of the OI can be ensured. realizable.

【0058】[0058]

【発明の効果】以上説明したように本発明の請求項1に
よれば、通信網のノード上に分散配備されているOIが
互いにメッセージを交信することによりサービスが提供
される環境において、OIから異常の通知を受けたとき
に代用OIへの切り替え処理を行なうことにより、OI
の異常を未然に防ぐようなOI間の負荷のバランス調整
やOI異常時のOI単位での切り替え処理を実現できる
ため、従来の方法より確実にサービス全体の継続的な提
供を確保することができる。
As described above, according to claim 1 of the present invention, in an environment in which services are provided by the OIs distributed and deployed on the nodes of the communication network communicating with each other, By performing the switching process to the substitute OI when the notification of the abnormality is received, the OI
Since it is possible to realize load balance adjustment between OIs and switching processing in units of OIs when an OI error occurs, it is possible to ensure continuous provision of the entire service more reliably than conventional methods. .

【0059】また、請求項2によれば、上記の効果に加
えて、GOMに各OIを定期的に試験することを要求す
る機能を設けているので、各々のOIの試験機能の正常
性が確保でき、従ってOIの障害発生時の確実な障害復
旧を実現できる。
Further, according to claim 2, in addition to the above effect, the GOM is provided with a function of requesting to test each OI periodically, so that the normality of the test function of each OI is ensured. Therefore, it is possible to realize a reliable failure recovery when an OI failure occurs.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例の構成を説明する図FIG. 1 is a diagram illustrating a configuration of an embodiment of the present invention.

【図2】従来のサービス実行制御装置の監視によるサー
ビス障害復旧方法を説明する図
FIG. 2 is a diagram for explaining a service failure recovery method by monitoring a conventional service execution control device.

【図3】本発明の一実施例におけるOIDBが保持する
情報を説明する図
FIG. 3 is a diagram illustrating information held by OIDB according to an embodiment of the present invention.

【図4】本発明の一実施例におけるOIが自身の障害を
検出したときの障害復旧手順を説明する図
FIG. 4 is a diagram for explaining a failure recovery procedure when the OI detects its own failure in the embodiment of the present invention.

【図5】本発明の一実施例におけるOIが自身の障害を
検出した場合のGOMを用いた障害復旧処理手順を示す
フローチャート
FIG. 5 is a flowchart showing a procedure of a failure recovery process using GOM when the OI detects its own failure in the embodiment of the present invention.

【図6】本発明の一実施例におけるOIが自身の障害を
検出した場合のGOMを用いた障害復旧処理手順を示す
フローチャート
FIG. 6 is a flowchart showing a procedure of a failure recovery process using GOM when the OI detects its own failure in the embodiment of the present invention.

【図7】本発明の一実施例におけるOIがOIS の障害
を検出したときの障害復旧手順を説明する図
FIG. 7 is a diagram for explaining a failure recovery procedure when the OI detects a failure of the OI S in the embodiment of the present invention.

【図8】本発明の一実施例におけるOIがOIS の障害
を検出した場合のGOMを用いた障害復旧処理手順を示
すフローチャート
FIG. 8 is a flowchart showing a procedure of a failure recovery process using GOM when the OI detects a failure of OI S in the embodiment of the present invention.

【図9】本発明の一実施例におけるOIがOIS の障害
を検出した場合のGOMを用いた障害復旧処理手順を示
すフローチャート
FIG. 9 is a flowchart showing a procedure of a fault recovery process using GOM when the OI detects a fault of OI S in the embodiment of the present invention.

【符号の説明】[Explanation of symbols]

1…サービス処理ノード、2a…サービス実行制御装置
(主系)、2b…サービス実行制御装置(予備系)、3
…監視装置、4…通信網管理ノード、5…通信網管理シ
ステム、6…サービス処理ノード、7a…サービス実行
制御装置(主系)、7b…サービス実行制御装置(予備
系)、8…監視装置、OI…オブジェクトインスタン
ス、GOM…総合オブジェクトマネージャ、OIR…O
I生成/消去マネージャ、PLM…処理ログマネージ
ャ、OIDB…OIデータベース、。
1 ... Service processing node, 2a ... Service execution control device (main system), 2b ... Service execution control device (standby system), 3
... monitoring device, 4 ... communication network management node, 5 ... communication network management system, 6 ... service processing node, 7a ... service execution control device (main system), 7b ... service execution control device (standby system), 8 ... monitoring device , OI ... object instance, GOM ... integrated object manager, OIR ... O
I generation / erasure manager, PLM ... Process log manager, OIDB ... OI database ,.

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 互いに独立して動作するオブジェクトイ
ンスタンス(OI)がメッセージを交信し合いOI群全
体として所望の処理機能を実現するオブジェクト指向ソ
フトウェアを用いて、計算/通信サービスを実現するサ
ービス処理装置におけるサービス障害復旧方法におい
て、 全てのOIを管理する総合オブジェクトマネージャ(G
OM)を設け、 前記OIの動作異常が発生した時に、前記GOMによっ
て該OIの代用となる代用OIを他のOIの中から選択
するか又は前記代用OIを新規に作成し、以後、異常を
来したOIの代わりに前記代用OIを前記サービスで用
い、サービスを継続的に提供させることを特徴とするサ
ービス障害復旧方法。
1. A service processing device for realizing a calculation / communication service by using object-oriented software in which object instances (OIs) operating independently of each other exchange messages to realize desired processing functions as a whole OI group. In the service failure recovery method in, a comprehensive object manager (G
OM) is provided, and when an abnormal operation of the OI occurs, the GOM selects a substitute OI to substitute for the OI from other OIs or creates a new substitute OI. A service failure recovery method, characterized in that the substitute OI is used in the service instead of the incoming OI, and the service is continuously provided.
【請求項2】 前記GOMは各OIに対して定期的に試
験を要求することによりOIの動作異常を検出すること
を特徴とする請求項1記載のサービス障害復旧方法。
2. The service failure recovery method according to claim 1, wherein the GOM detects a malfunction of the OI by periodically requesting a test to each OI.
JP20757194A 1994-08-31 1994-08-31 Service failure recovery method Expired - Fee Related JP3291931B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP20757194A JP3291931B2 (en) 1994-08-31 1994-08-31 Service failure recovery method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP20757194A JP3291931B2 (en) 1994-08-31 1994-08-31 Service failure recovery method

Publications (2)

Publication Number Publication Date
JPH0877120A true JPH0877120A (en) 1996-03-22
JP3291931B2 JP3291931B2 (en) 2002-06-17

Family

ID=16541963

Family Applications (1)

Application Number Title Priority Date Filing Date
JP20757194A Expired - Fee Related JP3291931B2 (en) 1994-08-31 1994-08-31 Service failure recovery method

Country Status (1)

Country Link
JP (1) JP3291931B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7647523B2 (en) 2002-06-12 2010-01-12 International Business Machines Corporation Dynamic binding and fail-over of comparable web service instances in a services grid
US8782666B2 (en) 2005-05-31 2014-07-15 Hitachi, Ltd. Methods and platforms for highly available execution of component software

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7647523B2 (en) 2002-06-12 2010-01-12 International Business Machines Corporation Dynamic binding and fail-over of comparable web service instances in a services grid
US8782666B2 (en) 2005-05-31 2014-07-15 Hitachi, Ltd. Methods and platforms for highly available execution of component software

Also Published As

Publication number Publication date
JP3291931B2 (en) 2002-06-17

Similar Documents

Publication Publication Date Title
JP3345626B2 (en) Processor error countermeasure device in multiprocessor system and processor error countermeasure method in multiprocessor system
US5276871A (en) Method of file shadowing among peer systems
US5551047A (en) Method for distributed redundant execution of program modules
US5784617A (en) Resource-capability-based method and system for handling service processor requests
EP1451687B1 (en) Real composite objects for providing high availability of resources on networked systems
US7941810B2 (en) Extensible and flexible firmware architecture for reliability, availability, serviceability features
US20080288812A1 (en) Cluster system and an error recovery method thereof
KR20010072379A (en) Fault tolerant computer system
JP2001188765A (en) Technique for referring to fault information showing plural related fault under distributed computing environment
US8347142B2 (en) Non-disruptive I/O adapter diagnostic testing
JP4885342B2 (en) Highly usable asynchronous I / O in cluster computer systems
US6629260B1 (en) Automatic reconnection of partner software processes in a fault-tolerant computer system
US7024583B2 (en) Method and apparatus for detecting file system corruption
AU2001241700B2 (en) Multiple network fault tolerance via redundant network control
EP1370918B1 (en) Software-based fault tolerant networking using a single lan
JP3197279B2 (en) Business takeover system
JPS6375963A (en) System recovery system
JPH0877120A (en) Service fault restoration method
JP3467750B2 (en) Distributed object processing system
JP3291930B2 (en) Service processing function monitoring method and device
US6601184B1 (en) System crash network access
JPH1127266A (en) Structural information management method for network management device and management object device
JPH11338725A (en) Cluster system, and system and method for monitoring in cluster system
US20080005291A1 (en) Coordinated information dispersion in a distributed computing system
CN112540771A (en) Automated operation and maintenance method, system, equipment and computer readable storage medium

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090329

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees