JP2500745B2 - サ―ビス制御ノ―ド - Google Patents

サ―ビス制御ノ―ド

Info

Publication number
JP2500745B2
JP2500745B2 JP5105952A JP10595293A JP2500745B2 JP 2500745 B2 JP2500745 B2 JP 2500745B2 JP 5105952 A JP5105952 A JP 5105952A JP 10595293 A JP10595293 A JP 10595293A JP 2500745 B2 JP2500745 B2 JP 2500745B2
Authority
JP
Japan
Prior art keywords
application
failure
service
threshold value
process unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP5105952A
Other languages
English (en)
Other versions
JPH06301565A (ja
Inventor
雅康 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP5105952A priority Critical patent/JP2500745B2/ja
Publication of JPH06301565A publication Critical patent/JPH06301565A/ja
Application granted granted Critical
Publication of JP2500745B2 publication Critical patent/JP2500745B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)
  • Stored Programmes (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、インテリジェントネッ
トワークを構成するサービス制御ノードに関する。
【0002】
【従来の技術】従来、コンピュータシステムで実現され
アプリケーションサービスの実行を制御するこの種のサ
ービス制御ノードにおいては、ソフトウェアの異常走行
等によって障害が発生すると、システムの全アプリケー
ションサービスを一時停止させると共に、システムの初
期化を自動的に再開する自動リカバリ方法により、アプ
リケーションサービスを実行する全てのアプリケーショ
ンプロセスの初期化を行い、システムを正常な稼働状態
へ復旧するものとなっている。
【0003】
【発明が解決しようとする課題】従来、アプリケーショ
ンサービスの実行を制御するサービス制御ノードにおい
ては、ソフトウェアの異常走行等によって障害が発生し
た場合、一時的に全サービスを停止させた後、システム
を自動再開することでシステムを正常な稼働状態へ復旧
させており、このため障害の発生から正常な稼働状態に
至るまでには長時間を要し、その間はサービスを提供で
きないという問題を生じている。
【0004】したがって本発明は、サービス制御ノード
において障害が発生した場合、正常な稼働状態に復旧す
るまでの時間を短縮することを目的とする。
【0005】
【課題を解決するための手段】このような課題を解決す
るために本発明は、予めソフトウェアの異常走行を引き
起こす未定義命令の実行やイリーガルなメモリアクセス
等の特定の障害要因としきい値とを格納する障害情報管
理テーブル部と、アプリケーションサービスを実行する
全てのアプリケーションプロセス部の監視を行うと共
に,任意のアプリケーションプロセス部から通報された
障害に対し障害情報管理テーブル部内に格納された特定
の障害要因により有効な障害要因を判別し障害要因が有
効要因である場合は該当アプリケーションプロセス部の
障害発生回数をしきい値と比較して再開処理の実施範囲
を定め、この定めた範囲内でアプリケーションサービス
の停止及び再開を指示する障害判定プロセス部と、関連
するアプリケーションプロセス部の稼働状態を管理する
と共に,障害判定プロセス部からの指示にしたがって該
当の再開処理を実行するアプリケーション管理プロセス
部とを設けたものである。また、アプリケーション管理
プロセスを複数備え、そのいずれかのアプリケーショ
管理プロセス部が管理するいずれかのアプリケーショ
ンプロセスに障害が生じたときに、その障害要因が上
記有効要因であると判別される場合は障害判定プロセス
部はそのアプリケーションプロセスの障害発生回数を
更新し、この発生回数がしきい値を越えていなければそ
のアプリケーションプロセスを一旦停止させて再開処
理を行い、この発生回数がしきい値を越えている場合は
該当のアプリケーション管理プロセスの障害発生回数
を更新し、このアプリケーション管理プロセスの障害
発生回数がしきい値を越えていなければそのアプリケー
ション管理プロセスを一旦停止させて再開処理を行
い、しきい値を越えている場合は全てのアプリケーショ
ンプロセスの初期設定を行ってサービスを停止させる
ようにしたものである。
【0006】
【作用】障害が通報された場合、通報された障害に対し
障害情報管理テーブル部内の情報を基に有効な障害要因
を判別してこの判別結果に応じたサービスの停止及び再
開が指示されると共に、この指示にしたがって該当の再
開処理が実施される。この結果、再開処理の実施範囲が
例えば障害レベルに応じて自動的に定められ、この定め
られた範囲内でサービスの停止及び再開処理が実施され
るため、障害時に全サービスを停止しその後システムを
自動再開するような従来システムに比べ、サービスの停
止時間を全体として低減することができる。
【0007】
【実施例】以下、本発明について図面を参照して説明す
る。図1は本発明に係るサービス制御ノードを適用した
システムの一実施例を示すブロック図である。同図にお
いて、1はサービス管理システム、2はサービス制御ノ
ード、3はサービス交換ノードであり、加入者サービス
データを保有し管理しているサービス管理システム1
は、サービス制御ノード2に接続されると共に、サービ
ス制御ノード2はインテリジェンスを網に持たせたイン
テリジェントネットワークにおけるサービス交換ノード
(交換機)3に接続され、交換機であるこのサービス交
換ノードの加入者に対しこの交換機で実現していない特
定のアプリケーションサービスの実行を制御している。
【0008】なお、サービス制御ノード2は、コンピュ
ータシステムで実現され、サービス交換ノード3のリア
ルタイムな情報の問い合わせに対して迅速に応答するト
ランザクション処理を行うものであり、これは次のよう
に構成されている。即ち、図1において、サービス制御
ノード2は、アプリケーションサービスを実行するアプ
リケーションプロセス(以下、プロセス)21〜23
と、これらのプロセス21〜23を管理しているアプリ
ケーション管理プロセス(以下、管理プロセス)24
と、全プロセスの障害を監視している障害判定プロセス
25と、予め各プロセスの障害発生に対する有効な障害
要因と発生回数のしきい値とを格納した障害情報管理テ
ーブル26とから構成される。なおアプリケーションサ
ービスを実行するプロセス21〜23等のプロセス群と
これらを管理している管理プロセス24との組み合わせ
は、機能に応じて複数設けられている。
【0009】ここで、各プロセス21〜23では、上記
したように各アプリケーションサービスを実行している
が、このサービス処理を実行中に或プロセスにおいて障
害が検出されて障害判定プロセス25に対し障害が通報
された場合は、障害判定プロセス25は、障害管理テー
ブル26上の上記した各情報に基づいてサービスの停止
及び再開を各プロセスへ指示する。
【0010】図3は、このような障害情報管理テーブル
の各情報の格納状況を示す説明図である。ここで、図3
に示すテーブル26において、プロセス番号#1,#
2,#3は、それぞれプロセス21,22,23に対応
しており、このプロセス番号#1,#2,#3に対応し
て各障害発生回数p,q,rの設定領域が設けられてい
る。また、各障害発生回数p,q,rの設定領域に対応
してしきい値p1,q1,r1の設定領域が設けられて
いると共に、この領域に対応して有効な障害要因として
のデータpf1,pf2,qf1,qf2.rf1,r
f2の設定領域が設けられている。また、各プロセス2
1,22,23の各情報に関連してこれらの各プロセス
を管理する管理プロセス24の障害発生回数mの設定領
域及びしきい値m1の設定領域が設けられ、さらに、全
てのプロセスに対する初期設定回数a及びしきい値a1
の各設定領域が設けられている。
【0011】このように構成された障害情報管理テーブ
ル26及び図2のフローチャートに基づいて上記サービ
ス制御ノード2の障害時の動作を説明する。図2のフロ
ーチャートのステップST1において、例えばプロセス
21で障害が発生したとすると、プロセス21に相当す
るプロセス番号#1と障害要因とが障害情報として障害
判定プロセス25に通報され、障害判定プロセス25が
起動される。障害判定プロセス25は起動されてスター
トすると、まずステップST2で障害要因を分析すると
共に、図3に示すプロセス番号#1と対応する有効障害
要因データpf1,pf2から、この分析された障害要
因が有効か否かをステップST3で判断し、障害要因が
無効でありステップST3の判定が「N」となる場合は
障害判定プロセス25は再開指示を発行しない。
【0012】また、障害判定プロセス25において障害
要因が有効な障害要因と判定されステップST3で
「Y」となる場合は、障害判定プロセス25では、ステ
ップST4において図3に示す対応のプロセス障害発生
回数pを更新する。そして、その更新値がしきい値p1
を越えているか否かをステップST5で判断し、しきい
値p1を越えていなければ、ステップST6において該
当のプロセス21のみのサービスを一旦停止させその再
開処理を管理プロセス24に指示し再開処理を起動させ
る。また、その値がしきい値p1を越えておらずステッ
プST5の判定が「Y」となる場合は、ステップST7
で図3に示す該当のプロセス21を管理する管理プロセ
ス24の障害発生回数mを更新する。
【0013】そしてこのとき管理プロセス24の障害発
生回数mの更新値がしきい値m1を越えているか否かを
ステップST8で判断すると共に、しきい値m1を越え
ていなければ、障害判定プロセス25は、この管理プロ
セス24に対し停止及び再開処理の指示を発行する。こ
の結果、管理プロセス24では、この停止及び再開処理
の指示により、テップST9において自身、即ち管理
プロセス24とその管理下にある全プロセス21〜23
のサービスが一旦停止されその後再開処理が実施され
る。また、上記管理プロセス24の障害発生回数mの更
新値がしきい値m1を越えステップST8の判定が
「Y」となる場合は、ステップST10で図3のテーブ
ルに示すようなアプリケーション初期設定回数aを更新
する。そしてその更新値がしきい値a1を越えているか
否かをステップST11で判断する。
【0014】この場合、アプリケーション初期設定回数
aの更新値がしきい値a1を越えていなければ、障害判
定プロセス25は、ステップST12で管理プロセス2
4を含めた各管理プロセスに対し全てのプロセスの初期
設定を指示する一方、上記の値がしきい値a1を越えス
テップST1の判定が「Y」となる場合は、ステップS
T13で全てのプロセスの初期設定を行う他に、装置の
初期設定を含めたシステムの全ての初期化処理を実施す
る。なお、全てのプロセスの初期設定の間は、これらの
プロセスによるサービスは停止される。
【0015】このように、障害要因と発生回数とによ
り、4つのレベル(つまり、ステップST6の該当プロ
セスの再開処理、ステップST9の該当管理プロセスの
再開処理、ステップST12の全アプリケーションプロ
セスの初期設定起動及びステップST13のシステム初
期化起動)に初期化処理の範囲を定め、このレベルに応
じ自動的に初期化処理を実施するようにしたものであ
る。即ち障害が発生した場合、障害要因によって障害レ
ベルを判定し、障害要因とその頻度を基に再開処理を実
施する範囲を決定することで、全てのサービスを停止さ
せずに、結果的にサービスの停止時間の短縮を図るよう
にしたものである。なお、上記した障害発生回数の初期
値は「0」であり、この回数は定期的にリセットされ
る。
【0016】
【発明の効果】以上説明したように、本発明によれば、
任意のプロセス部から障害が通報された場合、通報され
た障害に対し障害情報管理テーブル部内の情報を基に有
効な障害要因を判別し、この判別結果に応じたサービス
の停止及び再開を指示すると共に、この指示にしたがっ
て該当の再開処理を実施するようにしたので、再開処理
の実施範囲を例えば障害レベルに応じて自動的に定める
ことが可能になり、この定められた範囲内でサービスの
停止及び再開処理が実施されるため、障害時に全てのサ
ービスが停止されるような従来システムに比べ、サービ
スの停止時間を全体として低減できるという効果があ
る。
【図面の簡単な説明】
【図1】 本発明に係るサービス制御ノードを適用した
システムの一実施例を示すブロック図である。
【図2】上記システムを構成するサービス制御ノードの
動作を示すフローチャートである。
【図3】上記サービス制御ノード内の障害情報管理テー
ブルの構成を示す図である。
【符号の説明】
1 サービス管理システム 2 サービス制御ノード 3 サービス交換ノード 21〜23 プロセス(アプリケーションプロ
セス) 24 管理プロセス(アプリケーション
管理プロセス) 25 障害判定プロセス 26 障害情報管理テーブル

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】 インテリジェントネットワークにおける
    サービス交換ノードに接続され、このサービス交換ノー
    ドのリアルタイムな情報の問い合わせに対し迅速に応答
    するトランザクション処理を行うと共に、前記サービス
    交換ノードの加入者に対するアプリケーションサービス
    の実行を制御するサービス制御ノードにおいて、 予めソフトウェアの異常走行を引き起こす未定義命令の
    実行やイリーガルなメモリアクセス等の特定の障害要因
    としきい値とを格納する障害情報管理テーブル部と、前
    記アプリケーションサービスを実行する全てのアプリケ
    ーションプロセス部の監視を行うと共に,任意のアプリ
    ケーションプロセス部から通報された障害に対し前記障
    害情報管理テーブル部内に格納された特定の障害要因に
    より有効な障害要因を判別し障害要因が有効要因である
    場合は該当アプリケーションプロセス部の障害発生回数
    をしきい値と比較して再開処理の実施範囲を定め、この
    定めた範囲内で前記アプリケーションサービスの停止及
    び再開を指示する障害判定プロセス部と、関連するアプ
    リケーションプロセス部の稼働状態を管理すると共に,
    前記障害判定プロセス部からの指示にしたがって該当の
    再開処理を実行するアプリケーション管理プロセス部と
    を備えたことを特徴とするサービス制御ノード。
  2. 【請求項2】 請求項1記載のサービス制御ノードにお
    いて、前記アプリケーション 管理プロセスを複数備え、その
    いずれかのアプリケーション管理プロセス部が管理する
    いずれかのアプリケーションプロセスに障害が生じた
    ときに、その障害要因が前記有効要因であると判別され
    場合は前記障害判定プロセス部はそのアプリケーショ
    ンプロセスの障害発生回数を更新し、この発生回数が
    しきい値を越えていなければそのアプリケーションプロ
    セスを一旦停止させて再開処理を行い、この発生回数
    しきい値を越えている場合は該当のアプリケーション
    管理プロセスの障害発生回数を更新し、このアプリケ
    ーション管理プロセスの障害発生回数がしきい値を越
    えていなければそのアプリケーション管理プロセス
    一旦停止させて再開処理を行い、しきい値を越えている
    場合は全てのアプリケーションプロセスの初期設定を
    ってサービスを停止させることを特徴とするサービス
    制御ノード。
JP5105952A 1993-04-09 1993-04-09 サ―ビス制御ノ―ド Expired - Lifetime JP2500745B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5105952A JP2500745B2 (ja) 1993-04-09 1993-04-09 サ―ビス制御ノ―ド

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5105952A JP2500745B2 (ja) 1993-04-09 1993-04-09 サ―ビス制御ノ―ド

Publications (2)

Publication Number Publication Date
JPH06301565A JPH06301565A (ja) 1994-10-28
JP2500745B2 true JP2500745B2 (ja) 1996-05-29

Family

ID=14421173

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5105952A Expired - Lifetime JP2500745B2 (ja) 1993-04-09 1993-04-09 サ―ビス制御ノ―ド

Country Status (1)

Country Link
JP (1) JP2500745B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011027382A1 (en) * 2009-09-01 2011-03-10 Hitachi, Ltd. Request processing system provided with multi-core processor
CN117234806B (zh) * 2023-09-22 2024-04-30 深圳市联瑞电子有限公司 一种网卡自动重启方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57212516A (en) * 1981-06-25 1982-12-27 Fujitsu Ltd Retry controlling method of data transfer between devices
JPH0287235A (ja) * 1988-09-22 1990-03-28 Nec Corp 情報処理装置
JPH04334195A (ja) * 1991-05-09 1992-11-20 Fujitsu Ltd 呼制御方式

Also Published As

Publication number Publication date
JPH06301565A (ja) 1994-10-28

Similar Documents

Publication Publication Date Title
US6622261B1 (en) Process pair protection for complex applications
US20080201470A1 (en) Network monitor program executed in a computer of cluster system, information processing method and computer
JP2003114811A (ja) 自動障害復旧方法及びシステム並びに装置とプログラム
JP3737810B2 (ja) 計算機システム及び故障計算機代替制御プログラム
JP3359461B2 (ja) システム終了処理方法および装置
CN110109772B (zh) 一种cpu的重启方法、通信设备及可读存储介质
JP5056504B2 (ja) 制御装置、情報処理システム、情報処理システムの制御方法および情報処理システムの制御プログラム
JP5285045B2 (ja) 仮想環境における故障復旧方法及びサーバ及びプログラム
JP2500745B2 (ja) サ―ビス制御ノ―ド
JP5285044B2 (ja) クラスタシステム復旧方法及びサーバ及びプログラム
KR102262942B1 (ko) 무선 네트워크 시스템의 무선 브리지에 의한 게이트웨이 자가 복구방법
JP3325785B2 (ja) 計算機の故障検出・回復方式
CN111858183B (zh) 一种电子设备的重启方法和装置
KR100832890B1 (ko) 정보통신 시스템의 프로세스 장애 감시방법 및 복구방법
CN112612652A (zh) 分布式存储系统异常节点重启方法及系统
JP2007249614A (ja) システム装置及び情報収集方法
JPH07111685B2 (ja) システム稼動維持方式
JPH1013494A (ja) 伝送装置及びその復旧方式
CN118138588B (zh) 云主机高可用系统和云平台
JP2677240B2 (ja) Ainシステムの自動再開処理装置
US20240219986A1 (en) Multi-node system and power supply control method
CN112100031B (zh) 一种设备管理方法、服务器框架及计算机可读存储介质
KR101103237B1 (ko) 서비스 프로세스 관리방법 및 시스템, 및 이를 위한 기록매체
JP2977705B2 (ja) ネットワーク接続された多重化コンピュータシステムの制御方式
JP2658683B2 (ja) 相互スタンバイシステムにおけるシステムストール監視制御方式