JP3342253B2 - Failure recovery method for distributed node system - Google Patents

Failure recovery method for distributed node system

Info

Publication number
JP3342253B2
JP3342253B2 JP22973595A JP22973595A JP3342253B2 JP 3342253 B2 JP3342253 B2 JP 3342253B2 JP 22973595 A JP22973595 A JP 22973595A JP 22973595 A JP22973595 A JP 22973595A JP 3342253 B2 JP3342253 B2 JP 3342253B2
Authority
JP
Japan
Prior art keywords
module
failure
distributed
restart
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP22973595A
Other languages
Japanese (ja)
Other versions
JPH0983611A (en
Inventor
俊郎 中村
英一 岡
理 前側
泰雄 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Nippon Telegraph and Telephone Corp
Original Assignee
NEC Corp
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Nippon Telegraph and Telephone Corp filed Critical NEC Corp
Priority to JP22973595A priority Critical patent/JP3342253B2/en
Publication of JPH0983611A publication Critical patent/JPH0983611A/en
Application granted granted Critical
Publication of JP3342253B2 publication Critical patent/JP3342253B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は分散ノードシステム
において障害が発生した場合の再開制御方式に係わり,
特に大規模インテリジェントネットワークを構成するサ
ービス制御局において,分散モジュールの冗長構成およ
びバックアップ機構を利用した集中制御モジュールにお
けるモジュール状態制御により,障害発生時のサービス
中断時間を短時間とすることが可能な再処理を実現する
分散ノードシステムの障害回復方法に関するものであ
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a restart control method when a failure occurs in a distributed node system.
In particular, in service control stations that make up large-scale intelligent networks, a redundant configuration of distributed modules and module state control in a centralized control module using a backup mechanism can reduce service interruption time in the event of a failure. The present invention relates to a failure recovery method for a distributed node system that realizes processing.

【0002】[0002]

【従来の技術】従来のインテリジェントネットワークの
サービス制御局には,交換機システムが適用されてお
り,障害が発生した場合には,サービス制御局は以下に
規定される再開ロジックにより初期設定範囲を拡大しな
がら障害からの早期回復を試みている。
2. Description of the Related Art A switching system is applied to a service control station of a conventional intelligent network, and when a failure occurs, the service control station expands an initial setting range by a restart logic defined below. While trying to recover quickly from disability.

【0003】PH1:障害発生時,安定状態(通話中状
態)にある呼以外の呼に関連するリソースを初期設定し
再開。 PH2:すべての呼に関するリソースを初期設定して再
開。
PH1: When a failure occurs, resources related to calls other than those in a stable state (busy state) are initialized and restarted. PH2: Initialize resources for all calls and resume.

【0004】PH3:システムプログラムを再ロード
し,全初期設定を実施して再開。 交換機システムでは一般にデュプレクス構成が採用さ
れ,上記各再開ロジックは0系/1系でそれぞれ実施さ
れるため, PH1再開2回→PH2再開2回→PH3再開2回 の順で再開ロジックを深め,所定の時間(20分)以内
に再開完了できなかった場合には,障害は重大故障とし
て扱われる。罹障モジュールでのこれら再開ロジック実
施中は通信サービスの受け付けが不可能の状態であるた
め,サービス停止状態に陥ることになる。
PH3: Reload the system program, execute all initial settings, and restart. In the switching system, a duplex configuration is generally adopted, and each of the above restart logics is implemented in the 0 system / 1 system respectively. If the restart cannot be completed within the time (20 minutes), the failure is treated as a serious failure. During the execution of these restart logics in the affected module, the communication service cannot be accepted, so that the service is stopped.

【0005】[0005]

【発明が解決しようとする課題】前記「従来の技術」の
項で述べたように,従来の交換機を用いたインテリジェ
ントネットワークのサービス制御局では,障害が発生す
ると再開完了するまで当該モジュールで提供するサービ
スが停止する。このため,ネットワークのサービス品質
の劣化につながっていた。
As described in the section of "Prior Art", in a service control station of an intelligent network using a conventional exchange, when a failure occurs, the service is provided by the module until restart is completed. The service stops. For this reason, the service quality of the network was degraded.

【0006】本発明の目的は,分散モジュール構成を採
用した分散ノードシステムにおける集中制御モジュール
と罹障モジュール,および他モジュールとの連携によ
り,モジュール障害発生時であってもサービス中断時間
をできるだけ短くすること,また,必要に応じてサービ
ス中断時間をカスタマイズ可能とすることにある。
An object of the present invention is to minimize the service interruption time even when a module failure occurs, by coordinating a centralized control module, a failed module, and other modules in a distributed node system employing a distributed module configuration. Another object of the present invention is to make it possible to customize the service interruption time as needed.

【0007】[0007]

【課題を解決するための手段】本発明は,前記課題を解
決するため,負荷分散または機能分散の分散モジュール
群と,これらを統括管理する集中制御モジュールと,保
守端末とを有する分散ノードシステムにより構成される
通信制御ノードにおいて,分散モジュールで発生した障
害を集中制御モジュールが検出した場合,他モジュール
との連携により罹障モジュールへの通信サービスアクセ
スを直ちに停止し,罹障モジュールで再開完了した場合
には直ちに通信サービスアクセスを回復する。
In order to solve the above-mentioned problems, the present invention provides a distributed node system having a distributed module group for load distribution or function distribution, a centralized control module for centrally managing these modules, and a maintenance terminal. In the configured communication control node, when the centralized control module detects a failure that occurred in the distributed module, the communication service access to the affected module is immediately stopped in cooperation with other modules, and the restart is completed in the affected module. To immediately restore communication service access.

【0008】また,前記分散ノードシステムにおける機
能分散モジュールにデータベースシステムを搭載して,
通信サービスにおける更新系データを管理する場合にお
いて,モジュール相互間でバックアップ関係を規定して
おき,集中制御モジュールは,機能分散モジュールにお
ける障害発生時に障害復旧の時間監視を行い,所定の時
間以内に障害復旧しない場合にバックアップ側に処理を
引き継ぐ。
Further, a database system is mounted on the function distribution module in the distributed node system,
When managing update data in a communication service, a backup relationship is specified between modules, and the centralized control module monitors the time of failure recovery when a failure occurs in the function distribution module, and within a specified time If not restored, take over the process to the backup side.

【0009】以上の方法により,通信制御ノードの再開
処理において次のことが可能になる。 (1) 負荷分散モジュールの障害であれば,集中制御モジ
ュールと他モジュールとの連携により,負荷分散モジュ
ール構成を利用して罹障モジュールのトラヒックを他モ
ジュールで引き受けることになり,サービス無中断の障
害復旧手順が実現できる。
According to the above method, the following can be performed in the restart processing of the communication control node. (1) In the case of a failure of the load distribution module, the traffic of the failed module is assumed by the other module using the load distribution module configuration in cooperation with the central control module and other modules, and the failure without service interruption. A recovery procedure can be realized.

【0010】(2) 機能分散モジュールの障害について
は,最低では罹障モジュールと相互バックアップ関係に
あるモジュールにサービス処理を引き継ぐ間の中断のみ
で,当該モジュールで実施すべきサービスの継続が可能
となる。
(2) Regarding the failure of the function distribution module, at least the interruption to take over the service processing to the module which has a mutual backup relationship with the failed module allows the continuation of the service to be performed in the module. .

【0011】ただし,(1) (2) 双方ともモジュール障害
が発生する前と比べて処理負荷が増大する。特に(2) の
機能分散モジュールでは,バックアップ前に比べ処理負
荷が倍増するため,障害復旧監視タイマの値,すなわち
サービス中断時間と処理負荷増大とのトレードオフによ
り,タイマ値を決定する。
However, both (1) and (2) increase the processing load as compared to before the occurrence of the module failure. In particular, in the function distribution module of (2), the processing load is doubled compared to before the backup, so the timer value is determined based on the value of the failure recovery monitoring timer, that is, the trade-off between the service interruption time and the processing load increase.

【0012】[0012]

【発明の実施の形態】以下,本発明の実施の形態を図面
を参照して説明する。図1は,分散モジュール構成を利
用したサービス制御ノードの構成を示す。同図におい
て,101は伝達ノード,300は分散モジュール構成
を採用したサービス制御ノードである。201は伝達ノ
ード101との通信制御を司る負荷分散モジュール群
(以下,このタイプのモジュールを負荷分散モジュール
Aという),202はサービス制御ロジックを保持する
負荷分散モジュール群(以下,このタイプのモジュール
を負荷分散モジュールBという),203はサービス制
御ロジックにより更新される更新系データをリアルタイ
ムデータベース上に保持する機能分散モジュール群(以
下,このタイプのモジュールを機能分散モジュールCと
いう),204は負荷分散モジュール群201,202
および機能分散モジュール群203のモジュール群を統
括管理する集中制御モジュールである。サービス制御ノ
ード300はこれらの分散モジュールにより構成され
る。400は保守端末である。
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 shows a configuration of a service control node using a distributed module configuration. In the figure, 101 is a transmission node, and 300 is a service control node adopting a distributed module configuration. A load distribution module group 201 (hereinafter, this type of module is referred to as a load distribution module A) that controls communication with the transmission node 101, and a load distribution module group 202 (hereinafter, this type of module that holds service control logic) is provided. A load distribution module B), 203 is a function distribution module group (hereinafter, this type of module is referred to as a function distribution module C) that holds update data updated by the service control logic on a real-time database, and 204 is a load distribution module. Groups 201, 202
And a centralized control module that centrally manages a module group of the function distribution module group 203. The service control node 300 is composed of these distribution modules. Reference numeral 400 denotes a maintenance terminal.

【0013】伝達ノード101は,端末間の呼に対応す
る通話路の制御を実施する。伝達ノード101はインテ
リジェントネットワークサービス呼を検出するとサービ
ス制御ノード300に通知してくる。サービス制御ノー
ド300は,当該呼の制御を分散モジュール群201〜
204の連携により実施する。
The transmission node 101 controls a communication path corresponding to a call between terminals. The transmission node 101 notifies the service control node 300 when detecting the intelligent network service call. The service control node 300 controls the call in the distributed module group 201 to
This is performed in cooperation with step 204.

【0014】図2は,サービス制御ノード300内の各
分散モジュール上への,障害復旧のための機能配備条件
を示す図である。図2に示すように,負荷分散モジュー
ルA,Bおよび機能分散モジュールCは,障害検出/再
開制御機構500,障害/再開経過通知機構501,他
モジュール状態管理機構502を持つ。集中制御モジュ
ール204は,障害検出/再開制御機構500,全モジ
ュール状態監視/制御機構503,障害復旧監視機構5
04を持つ。保守端末400は,障害復旧監視タイマ設
定機能を持つ。
FIG. 2 is a diagram showing a condition for allocating a function for failure recovery on each distributed module in the service control node 300. As shown in FIG. 2, the load distribution modules A and B and the function distribution module C have a failure detection / restart control mechanism 500, a failure / restart progress notification mechanism 501, and another module state management mechanism 502. The central control module 204 includes a failure detection / resumption control mechanism 500, an all module status monitoring / control mechanism 503, and a failure recovery monitoring mechanism 5.
04. The maintenance terminal 400 has a failure recovery monitoring timer setting function.

【0015】1)障害検出/再開制御機構500 伝達ノード101上の呼処理と連動し,サービス制御ロ
ジックにより呼処理を実施する負荷分散モジュールBに
は,「従来の技術」の項で示した再開ロジックをそのま
ま適用する。一方,伝達ノード101との通信制御を実
施する負荷分散モジュールAおよび集中制御モジュール
204では,伝達系の呼処理と連動した管理リソースが
存在しないため,PH1の適用は意味を持たない。この
ため,再開ロジックはPH2,PH3を適用する。
1) Failure detection / restart control mechanism 500 The load balancing module B which performs call processing by the service control logic in conjunction with the call processing on the transmission node 101 has the restart described in the section of "Prior Art". Apply the logic as is. On the other hand, in the load distribution module A and the centralized control module 204 that perform communication control with the transmission node 101, the application of PH1 has no meaning since there is no management resource linked to the call processing of the transmission system. For this reason, the restart logic applies PH2 and PH3.

【0016】また,サービス制御ロジックからのデータ
アクセス処理を実現する機能分散モジュールCについて
も,データベースアクセス時のみ処理が存在し,伝達ノ
ード上の呼処理と連動した管理リソースは存在しないた
め,再開ロジックはPH2,PH3を適用する。
The function distribution module C for realizing data access processing from the service control logic also has processing only when accessing the database, and there is no management resource linked to call processing on the transmission node. Apply PH2 and PH3.

【0017】2)障害/再開経過通知機構501 各分散モジュールは障害を検出し,自律で再開ロジック
を実施する機能と,障害発生および再開処理を実施して
いる際の経過情報を集中制御モジュール204に対して
通知する機能を持つ。この機能は,罹障モジュールの状
態如何にかかわらず,どのような場合であっても情報通
知できる必要があり,このため本インタフェースはソフ
トウェアロジックではなく,ハードウェアロジックによ
り実現される。
2) Fault / Restart Progress Notification Mechanism 501 Each distributed module detects a fault and performs autonomous restart logic, and the progress information during fault occurrence and restart processing is transmitted to the central control module 204. It has the function of notifying to. This function needs to be able to notify information in any case regardless of the state of the affected module, and therefore, this interface is realized by hardware logic, not software logic.

【0018】3)全モジュール状態監視/制御機構50
3 集中制御モジュール204は,各モジュールからの障害
/再開経過通知を受け取り,サービス制御ノード内の全
モジュール状態を管理する。任意モジュールの障害発生
通知を受け取った場合,集中制御モジュール204は直
ちに当該モジュールの管理状態を障害状態とするととも
に,他の全モジュールに対して当該モジュール状態が障
害に変わったことを通知する。
3) All module status monitoring / control mechanism 50
3. The centralized control module 204 receives the failure / restart progress notification from each module and manages the status of all modules in the service control node. When receiving the failure notification of the arbitrary module, the central control module 204 immediately sets the management state of the module to the failure state and notifies all other modules that the module state has changed to the failure state.

【0019】その後,集中制御モジュール204は,罹
障モジュールの復旧通知を監視し,復旧通知を受け取っ
た時点で当該モジュールの状態を正常状態とするととも
に,他の全モジュールに対して当該モジュール状態が正
常に変わったことを通知する。
Thereafter, the centralized control module 204 monitors the notification of the recovery of the affected module, sets the status of the module to the normal state when the notification of the recovery is received, and changes the status of the module to all other modules. Notify that it has changed normally.

【0020】4)他モジュール状態管理機構502 全ての分散モジュールでは,自モジュール以外の他モジ
ュール状態を管理する。全モジュール状態監視/制御機
構503により,集中制御モジュール204から罹障モ
ジュールのモジュール状態を受け取った他モジュールで
は,罹障モジュールの管理状態を障害状態と設定する。
この他モジュール状態は,常にそのモジュールで実施さ
れるサービス処理において,他モジュールへのアクセス
が必要な場合,事前に参照され,モジュール状態が正常
でない場合には当該モジュールへのアクセスを中止し,
代替モジュールを選択しアクセスを実施する。
4) Other module status management mechanism 502 All distributed modules manage the status of other modules other than the own module. The other module that has received the module status of the affected module from the centralized control module 204 by the all module status monitoring / control mechanism 503 sets the management status of the affected module to the failed status.
This other module status is referred to in advance when access to another module is necessary in service processing performed by that module. If the module status is not normal, access to the module is stopped.
Select an alternative module and implement access.

【0021】代替モジュールの選択方式としては,罹障
モジュールが負荷分散モジュールA,Bである場合に
は,同種の他モジュールを任意に選択する。一方,罹障
モジュールが機能分散モジュールCの場合には,集中制
御モジュール204の障害復旧監視機構504に基づ
き,一定時間の待ち時間を経て当該モジュールと相互バ
ックアップ関係にあるモジュールを選択する。
As an alternative module selection method, when the affected modules are the load distribution modules A and B, another module of the same type is arbitrarily selected. On the other hand, when the affected module is the function distribution module C, a module having a mutual backup relationship with the module is selected after a certain waiting time based on the failure recovery monitoring mechanism 504 of the central control module 204.

【0022】5)障害復旧監視機構504 集中制御モジュール204において,機能分散モジュー
ルCの障害が検出された場合,3)で示したように当該
モジュールの管理状態を障害状態とするとともに,予め
保守端末400の障害復旧監視タイマ設定機能等によっ
て指定されたタイマ値に従って障害復旧監視タイマによ
る時間監視を行い,タイマが満了した時点で罹障モジュ
ールと相互バックアップ関係にあるモジュールにサービ
ス処理を引き継ぐ。
5) Failure recovery monitoring mechanism 504 When a failure of the function distribution module C is detected in the central control module 204, the management state of the module is set to the failure state as shown in 3), and the maintenance terminal is set in advance. The time is monitored by the failure recovery monitoring timer according to the timer value designated by the failure recovery monitoring timer setting function of 400, and upon expiration of the timer, the service processing is taken over to the module which has a mutual backup relationship with the affected module.

【0023】6)障害復旧監視タイマ設定機能 保守端末400には,集中制御モジュール204上で保
持する障害復旧監視タイマの値を設定する機能を配備す
る。
6) Fault recovery monitoring timer setting function The maintenance terminal 400 has a function of setting the value of the fault recovery monitoring timer held on the centralized control module 204.

【0024】図3は,各モジュール間での機能連携によ
る障害発生/復旧時の手順の例を示す。図3の罹障モジ
ュール600は,負荷分散モジュールA,Bまたは機能
分散モジュールCの障害になったモジュールであり,他
モジュール700は,罹障モジュール600と集中制御
モジュール204を除く,その他の分散モジュールであ
る。
FIG. 3 shows an example of a procedure at the time of occurrence / recovery of a failure by function cooperation between modules. 3 is a module in which the load distribution modules A and B or the function distribution module C has failed, and the other modules 700 are other distribution modules except the failure module 600 and the centralized control module 204. It is.

【0025】障害発生時の手順は,図3に示す(1) 〜
(5) のとおりである。 (1) まず,罹障モジュール600において,障害検出/
再開制御機構500が障害を検出する。
The procedure when a failure occurs is shown in FIG.
It is as (5). (1) First, the fault detection /
The restart control mechanism 500 detects the failure.

【0026】(2) 障害/再開経過通知機構501は,そ
の障害を集中制御モジュール204に通知する。 (3) 集中制御モジュール204の全モジュール状態監視
/制御機構503は,罹障モジュール600の管理状態
を障害に設定する。
(2) The failure / restart progress notification mechanism 501 notifies the central control module 204 of the failure. (3) The module status monitoring / control mechanism 503 of the central control module 204 sets the management status of the affected module 600 to failure.

【0027】(4) そして,全モジュール状態監視/制御
機構503は,全ての他モジュール700に対し罹障モ
ジュール600の障害発生を通知する。 (5) 通知を受けた他モジュール700は,罹障モジュー
ル600の管理状態を障害に設定する。以後,罹障モジ
ュール600が障害状態である間は罹障モジュール60
0へのアクセスは禁止される。
(4) Then, the all module status monitoring / control mechanism 503 notifies all the other modules 700 of the occurrence of the fault in the faulty module 600. (5) Upon receiving the notification, the other module 700 sets the management status of the affected module 600 to failure. Thereafter, while the affected module 600 is in the failure state, the affected module 60
Access to 0 is prohibited.

【0028】障害からの復旧時の手順は,図3に示す
(a) 〜(e) のとおりである。 (a) 罹障モジュール600において,障害検出/再開制
御機構500は所定の再開ロジックを実施する。
The procedure at the time of recovery from a failure is shown in FIG.
(a) to (e). (a) In the affected module 600, the failure detection / restart control mechanism 500 executes a predetermined restart logic.

【0029】(b) 障害/再開経過通知機構501は,障
害検出/再開制御機構500による再開が完了したなら
ば,集中制御モジュール204の障害復旧監視機構50
4に再開完了を通知する。
(B) The failure / restart progress notification mechanism 501 starts the failure recovery monitoring mechanism 50 of the centralized control module 204 when the restart by the failure detection / restart control mechanism 500 is completed.
4 is notified of the completion of restart.

【0030】(c) 障害復旧監視機構504は,罹障モジ
ュール600の復旧を全モジュール状態監視/制御機構
503に通知する。 (d) 全モジュール状態監視/制御機構503は,罹障モ
ジュール600の状態を正常状態に設定するとともに,
他モジュール700に対して罹障モジュール600の復
旧を通知する。
(C) The failure recovery monitoring mechanism 504 notifies the all module status monitoring / control mechanism 503 of the recovery of the failed module 600. (d) The all module status monitoring / control mechanism 503 sets the status of the affected module 600 to a normal status,
The other module 700 is notified of the recovery of the affected module 600.

【0031】(e) 他モジュール700における他モジュ
ール状態管理機構502は,罹障モジュール600の状
態を正常状態に設定する。以後,復旧した罹障モジュー
ル600へのアクセスが可能になる。
(E) The other module status management mechanism 502 in the other module 700 sets the status of the affected module 600 to a normal status. Thereafter, access to the restored affected module 600 becomes possible.

【0032】図4は,機能分散モジュールにおいて障害
が発生した場合を例にとって,その障害回復手順を示し
たものである。 機能分散モジュールにおいて障害が発生した場合,
即座に集中制御モジュールに対して障害通知が実施され
る。
FIG. 4 shows a failure recovery procedure for a case where a failure has occurred in the function distribution module as an example. If a failure occurs in the function distribution module,
Immediately, a fault notification is sent to the central control module.

【0033】 集中制御モジュールでは,罹障モジュ
ールの状態を障害状態とするとともに,障害復旧監視タ
イマによる計測を開始し,障害復旧監視を開始する。ま
た,他モジュールに対し罹障モジュールのモジュール状
態を通知する。
The centralized control module sets the state of the affected module to the failure state, starts measurement by the failure recovery monitoring timer, and starts failure recovery monitoring. Also, it notifies other modules of the module status of the affected module.

【0034】 他モジュールでは罹障モジュールに対
するアクセス処理を禁止する。 罹障モジュールでは,自律再開処理が試みられてお
り,監視タイマ満了以前に再開処理が完了した場合に
は,集中制御モジュールで再開通知を検出し,他モジュ
ールに対して当該モジュールの状態を正常に戻す指示を
行う。図4に示すCase1は,PH2再開の実施によ
り再開完了が図れた場合を示している。
In other modules, access processing to the affected module is prohibited. In the affected module, an autonomous restart process is attempted. If the restart process is completed before the monitoring timer expires, the centralized control module detects the restart notification and returns the status of the module to other modules normally. Give instructions to return. Case 1 shown in FIG. 4 shows a case where the completion of the resumption is achieved by resuming the PH2.

【0035】一方,監視タイマが満了しても再開完了で
きなかった場合には,罹障モジュールと相互バックアッ
プ関係にあるバックアップモジュールに処理が引き継が
れる。図4に示すCase2は,PH3再開で再開完了
したが,既に監視タイマが満了してしまった場合を示し
ている。
On the other hand, if the restart cannot be completed even if the monitoring timer expires, the processing is taken over by the backup module which has a mutual backup relationship with the affected module. Case 2 shown in FIG. 4 indicates a case where the restart has been completed by the restart of PH3, but the monitoring timer has already expired.

【0036】図に示したように,Case2の場合には
障害発生からバックアップ処理実施までの間で罹障モジ
ュールで提供すべきサービスが中断する。一方,障害復
旧監視期間,すなわち監視タイマ値を短くするとサービ
ス中断時間は,バックアップ起動処理に要する時間まで
短縮することが可能である。
As shown in the figure, in the case of Case 2, the service to be provided by the affected module is interrupted between the occurrence of the failure and the execution of the backup processing. On the other hand, if the failure recovery monitoring period, that is, the monitoring timer value is shortened, the service interruption time can be reduced to the time required for the backup activation process.

【0037】機能分散モジュールに「従来の技術」の項
で述べた再開ロジックのみを適用した場合,適用フェー
ズはPH2,PH3である。システムの初期設定時間を
30秒,システムプログラムのロード時間を100秒と
するとPH2には30秒,PH3には130秒の時間を
要することになる。
When only the restart logic described in the section of "Prior Art" is applied to the function distribution module, the application phases are PH2 and PH3. Assuming that the initial setting time of the system is 30 seconds and the load time of the system program is 100 seconds, PH2 requires 30 seconds and PH3 requires 130 seconds.

【0038】また,前述したように,機能分散モジュー
ルはデータベースシステムを搭載しており,障害発生時
にはデータベースシステムの再構築を実施する必要があ
る。この再構築のための時間(すなわちバックアップ処
理実施時間に等しい)を30秒とすると,実質的にはP
H2は60秒,PH3は160秒の時間を要することに
なる。
As described above, the function distribution module is equipped with a database system, and it is necessary to reconstruct the database system when a failure occurs. Assuming that the time for this reconstruction (that is, equal to the backup processing execution time) is 30 seconds, P
H2 requires 60 seconds and PH3 requires 160 seconds.

【0039】このため,例えば障害復旧監視タイマ値の
設定値が0〜30秒以内であれば,PH2再開より早く
サービス開始が可能となり,サービス中断時間の短縮化
が図れる。
Therefore, for example, if the set value of the failure recovery monitoring timer value is within 0 to 30 seconds, the service can be started earlier than the restart of PH2, and the service interruption time can be shortened.

【0040】一般に従来の交換機でもPH2再開1回で
再開完了するとは限らないため,障害復旧タイマにより
バックアップ起動を実施する本方式は,サービス中断時
間を固定化できる点がメリットである。
In general, even in the conventional exchange, the restart is not always completed by one restart of PH2. Therefore, this method of starting backup by using the failure recovery timer has an advantage that the service interruption time can be fixed.

【0041】なお,このタイマ値は保守端末400から
の設定を可能としておくことにより,保守者によるサー
ビス中断時間のカスタマイズが可能となる。本機能は,
例えば当該機能分散モジュールを利用するユーザに対し
て,サービス中断許容時間を契約条件とするような場合
において有効である。
By setting the timer value from the maintenance terminal 400, the service interruption time can be customized by the maintenance person. This function is
For example, this is effective in a case where the service interruption allowable time is set as a contract condition for a user who uses the function distribution module.

【0042】[0042]

【発明の効果】本発明による再開処理方式を用いると,
分散モジュール構成を採用した通信制御ノードにおい
て,障害発生モジュールを素早く検出し,当該モジュー
ルの状態を制御することにより,サービス中断時間を従
来に比べて短くすることができるとともに,障害発生時
のサービス中断時間を,障害復旧監視タイマ値に設定す
ることにより保守者がカスタマイズすることが可能とな
る。
According to the restart processing method of the present invention,
In a communication control node that employs a distributed module configuration, by detecting a faulty module quickly and controlling the status of the module, the service interruption time can be shortened compared to the past, and the service interruption when a failure occurs By setting the time to the failure recovery monitoring timer value, the maintenance person can customize the time.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明を適用するサービス制御ノードの接続構
成を示す図である。
FIG. 1 is a diagram showing a connection configuration of a service control node to which the present invention is applied.

【図2】サービス制御ノードを構成する各分散モジュー
ル上での,障害復旧を実現するための機能配備条件を示
す図である。
FIG. 2 is a diagram showing a condition of function deployment for realizing failure recovery on each distributed module constituting a service control node.

【図3】各分散モジュール上に配備された機能要素間で
の障害発生/復旧時のやりとりを示す図である。
FIG. 3 is a diagram showing exchanges at the time of failure occurrence / recovery between functional elements arranged on each distributed module.

【図4】機能分散モジュールにおいて障害が発生した場
合の,具体的な障害回復手順を示す図である。
FIG. 4 is a diagram illustrating a specific failure recovery procedure when a failure occurs in a function distribution module.

【符号の説明】[Explanation of symbols]

101 伝達ノード 201 負荷分散モジュール群 202 負荷分散モジュール群 203 機能分散モジュール群 204 集中制御モジュール 300 サービス制御ノード 400 保守端末 500 障害検出/再開制御機構 501 障害/再開経過通知機構 502 他モジュール状態管理機構 503 全モジュール状態監視/制御機構 504 障害復旧監視機構 600 罹障モジュール 700 他モジュール 101 Transmission Node 201 Load Balancing Module Group 202 Load Balancing Module Group 203 Function Balancing Module Group 204 Centralized Control Module 300 Service Control Node 400 Maintenance Terminal 500 Fault Detection / Restart Control Mechanism 501 Fault / Restart Progress Notification Mechanism 502 Other Module State Management Mechanism 503 All module status monitoring / control mechanism 504 Failure recovery monitoring mechanism 600 Affected module 700 Other module

───────────────────────────────────────────────────── フロントページの続き (72)発明者 前側 理 東京都港区芝5丁目7番1号 日本電気 株式会社内 (72)発明者 岡本 泰雄 東京都港区芝5丁目7番1号 日本電気 株式会社内 (56)参考文献 特開 平7−168778(JP,A) 特開 平6−209367(JP,A) 特開 平6−37783(JP,A) 特開 昭63−214842(JP,A) (58)調査した分野(Int.Cl.7,DB名) H04L 29/14 H04L 12/24 H04L 12/26 G06F 13/00 353 ────────────────────────────────────────────────── ─── Continuing on the front page (72) Inventor Osamu Osamu 5-7-1 Shiba, Minato-ku, Tokyo NEC Corporation (72) Inventor Yasuo Okamoto 5-7-1 Shiba, Minato-ku, Tokyo NEC (56) References JP-A-7-168778 (JP, A) JP-A-6-209367 (JP, A) JP-A-6-37783 (JP, A) JP-A-63-214842 (JP, A A) (58) Field surveyed (Int. Cl. 7 , DB name) H04L 29/14 H04L 12/24 H04L 12/26 G06F 13/00 353

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 負荷分散および機能分散分散モジュー
ル群と,これらを統括管理する集中制御モジュールと,
保守端末とを有する分散ノードシステムにより構成され
る通信制御ノードにおける障害回復方法であって, 分散モジュールで発生した障害を前記集中制御モジュー
ルが検出した場合,他モジュールとの連携により罹障モ
ジュールへの通信サービスアクセスを直ちに停止し, 前記罹障モジュールで再開処理が完了した場合には直ち
に通信サービスアクセスを回復するとともに, 前記分散ノードシステムにおける機能分散モジュールに
データベースシステムを搭載して,通信サービスにおけ
る更新系データを管理する場合において, 前記集中制御モジュールは,機能分散モジュールにおけ
る障害発生時に障害復旧の時間監視を行い,予め前記保
守端末から設定された時間以内に障害が復旧しない場合
に,予め規定されたモジュール相互間のバックアップ関
係に基づきバックアップ側に処理を引き継ぐ ことを特徴
とする分散ノードシステムの障害回復方法。
1. A distributed module group for load distribution and function distribution , a centralized control module for supervising and managing these modules,
A failure recovery method for a communication control node configured by a distributed node system having a maintenance terminal, wherein when the centralized control module detects a failure that has occurred in a distributed module, the failure of the affected module is coordinated with another module. stop the communication service access immediately, as well as restoring the communication service access immediately if resuming process has been completed by the Kakasawa module, the function distribution module in the distributed nodes system
Equipped with a database system for communication services
When managing updated data, the centralized control module is
When a failure occurs, monitor the time of failure recovery, and
If the failure does not recover within the time set from the terminal
The backup function between the modules specified in advance is
A failure recovery method for a distributed node system , wherein the processing is taken over to a backup side based on a relationship.
JP22973595A 1995-09-07 1995-09-07 Failure recovery method for distributed node system Expired - Fee Related JP3342253B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22973595A JP3342253B2 (en) 1995-09-07 1995-09-07 Failure recovery method for distributed node system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22973595A JP3342253B2 (en) 1995-09-07 1995-09-07 Failure recovery method for distributed node system

Publications (2)

Publication Number Publication Date
JPH0983611A JPH0983611A (en) 1997-03-28
JP3342253B2 true JP3342253B2 (en) 2002-11-05

Family

ID=16896875

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22973595A Expired - Fee Related JP3342253B2 (en) 1995-09-07 1995-09-07 Failure recovery method for distributed node system

Country Status (1)

Country Link
JP (1) JP3342253B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4413965B2 (en) 2005-03-17 2010-02-10 富士通株式会社 Load balancing communication device and load balancing management device

Also Published As

Publication number Publication date
JPH0983611A (en) 1997-03-28

Similar Documents

Publication Publication Date Title
US6665262B1 (en) Distributed fault management architecture
US6038288A (en) System and method for maintenance arbitration at a switching node
US6622261B1 (en) Process pair protection for complex applications
EP0964563B1 (en) Redundant call processing
US20060085669A1 (en) System and method for supporting automatic protection switching between multiple node pairs using common agent architecture
US5974429A (en) Method and apparatus for updating distributed databases in a telecommunications network
EP1110148A1 (en) Fault tolerant computer system
US5910984A (en) Fault tolerant service-providing apparatus for use in a telecommunications network
EP2053780A1 (en) A distributed master and standby managing method and system based on the network element
JP2636179B2 (en) Common control redundant system switching method
JP2836552B2 (en) Distributed network failure recovery device
WO2004021677A1 (en) High availability software based contact centre
JPH0576654B2 (en)
US20060282831A1 (en) Method and hardware node for customized upgrade control
US6618819B1 (en) Sparing system and method to accommodate equipment failures in critical systems
US6829723B1 (en) Duplicating processors and method for controlling anomalous dual state thereof
JP3342253B2 (en) Failure recovery method for distributed node system
JP3111935B2 (en) LAN emulation server redundant system
JP3394189B2 (en) Uninterrupted update system for program / data of any processor
JP3232393B2 (en) Module operating state control method for distributed processing system
JP3618068B2 (en) Subscriber information management method, subscriber information management system, and subscriber information management apparatus
Laranjeira NCAPS: Application high availability in UNIX computer clusters
US6130877A (en) Rate controlled broadcast for activation of entities in large scale data networks
JPH07182297A (en) Server/client type network system
JPS6354846A (en) Controlling equipment for decentralized load communication

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080823

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080823

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090823

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090823

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100823

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100823

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110823

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees