JP2677240B2 - Ainシステムの自動再開処理装置 - Google Patents

Ainシステムの自動再開処理装置

Info

Publication number
JP2677240B2
JP2677240B2 JP7101537A JP10153795A JP2677240B2 JP 2677240 B2 JP2677240 B2 JP 2677240B2 JP 7101537 A JP7101537 A JP 7101537A JP 10153795 A JP10153795 A JP 10153795A JP 2677240 B2 JP2677240 B2 JP 2677240B2
Authority
JP
Japan
Prior art keywords
processing
restart
processes
failure
restart processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7101537A
Other languages
English (en)
Other versions
JPH08297587A (ja
Inventor
豊 松浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP7101537A priority Critical patent/JP2677240B2/ja
Publication of JPH08297587A publication Critical patent/JPH08297587A/ja
Application granted granted Critical
Publication of JP2677240B2 publication Critical patent/JP2677240B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Advance Control (AREA)
  • Retry When Errors Occur (AREA)

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明はAINシステムの自動再
開処理装置に関し、特にAIN(Advanced I
ntelligent Network)システムにお
いて並列動作可能な各プロセスの障害検出及び復旧を行
う自動再開処理方式に関する。
【0002】
【従来の技術】従来、この種の自動再開処理方式におい
ては、呼処理系のプロセス1つ1つに対して実施するヘ
ルスチェックが3回失敗した時点でプロセス1つ1つに
対して再開処理を行うフェーズ0.5の再開レベルと、
フェーズ0.5の再開レベルの発生状況に応じてシステ
ム全体の再開処理を行うフェーズ2.0の再開レベルと
を有している。
【0003】このシステム上には、要求される機能を実
現するプロセス群のほかに、それらプロセス群を管理す
るプロセス(以下、プロセスマネージャとする)と、個
々のプロセスの健全性を監視するプロセス(以下、ヘル
スチェックプロセスとする)と、システムの障害を監視
し、障害検出時に復旧処理を実施するプロセス(以下、
フォルトアンドリカバリプロセスとする)とが存在す
る。
【0004】システムで予定されている再開処理のうち
フェーズ0.5の再開レベルの処理はヘルスチェックプ
ロセスが障害を起こしたプロセスを停止させることで始
まり、プロセスの停止を検出したプロセスマネージャが
プロセスを再起動することで終了する。
【0005】また、フェーズ2.0の再開レベルの処理
はプロセスマネージャがプロセスを再起動する毎に障害
カウンタをインクリメントし、この障害カウンタを監視
しているフォルトアンドリカバリプロセスが障害カウン
タの値と障害検出のためのしきい値とを比較し、障害カ
ウンタの値がしきい値を超えた時に復旧処理としてシス
テム全体を再開させるためのコマンドを自動的に実行す
る。
【0006】
【発明が解決しようとする課題】上述した従来の自動再
開処理方式では、プロセスマネージャが検出するプロセ
ス停止の原因があいまいである。つまり、プロセスマネ
ージャはプロセス停止がヘルスチェック失敗によって起
こったのか、あるいはプロセス自身がアボートして起こ
ったのかを判別することができない。
【0007】また、予定されている再開処理がフェーズ
0.5の再開レベルの処理(プロセス1つ1つの再開処
理)及びフェーズ2.0の再開レベルの処理(システム
全体の再開処理)の2種類であるため、障害に対する再
開処理の段階が粗すぎ、フェーズ0.5の再開レベルの
処理が頻発するといきなりフェーズ2.0の再開レベル
の処理に移行してしまう。
【0008】そこで、本発明の目的は上記の問題点を解
消し、既存の再開処理方式よりもその処理段階を細かく
することができ、再開処理の効率を向上させることがで
きるAINシステムの自動再開処理装置を提供すること
にある。
【0009】
【課題を解決するための手段】本発明によるAINシス
テムの自動再開処理装置は、予め機能グループに分類さ
れた複数のプロセス各々を同時にかつ並列に処理可能な
AINシステムの自動再開処理装置であって、前記複数
のプロセス各々の管理と前記複数のプロセス各々の障害
状態の監視とを行うプロセス管理手段と、前記プロセス
管理手段による前記障害状態の監視結果を格納する格納
手段と、前記機能グループに対応して障害発生時の再開
処理の種別を記憶する記憶手段と、前記格納手段の内容
を参照して前記障害状態の有無を判別する判別手段と、
前記判別手段で複数の障害発生が検出された時に前記記
憶手段を参照してその障害が検出された複数のプロセス
各々に対応する種別の再開処理を同時にかつ並列に起動
管理する起動管理手段とを備えている。
【0010】本発明による他のAINシステムの自動再
開処理装置は、上記の構成のほかに、前記判別手段で前
記障害が検出されたプロセスに対応する種別の再開処理
が動作中か否かを判定する判定手段と、前記判定手段で
動作中と判定された再開処理の起動を抑止する手段とを
具備している。
【0011】
【作用】本発明の自動再開処理では、プロセス各々の管
理処理とプロセス各々の健全性の監視処理とを1つのプ
ロセス管理部で実施することで、正常終了やプロセスの
アボート、及びヘルスチェック失敗等の障害原因毎に発
生回数のカウントを可能としている。
【0012】また、プロセス1つ1つに対して障害カウ
ンタを設定することで、障害監視プロセスがシステム内
の状態をプロセス単位で細かく監視することを可能とし
ている。これに伴って、既存のフェーズ0.5の再開レ
ベルの処理(プロセス1つ1つの再開処理)及びフェー
ズ2.0の再開レベルの処理(システム全体の再開処
理)に加え、システム内のプロセスを予め機能ブロック
に分類し、機能グループ各々に属するプロセス群に対し
て処理の中核を成すプロセスの再開を行うフェーズ1.
0の再開レベルの処理と、機能グループ各々に属するプ
ロセス全体の再開を行うフェーズ1.5の再開レベルの
処理とを設定している。
【0013】ここで、システム内のプロセスは機能毎
に、呼処理グループ、トラフィック測定グループ、課金
グループ、アラームメッセージ処理グループ等の機能グ
ループに分類されている。
【0014】上記の如く、機能グループ毎に障害を監視
することで、システム上で複数の障害を同時に検出可能
となるので、再開処理プロセスでは複数の再開処理を同
時にかつ並列に起動することが可能となる。
【0015】再開処理プロセスには上記の機能に加え
て、再開処理の内容や範囲が重なる処理が同時にかつ並
列に動作しないように、動作中の再開処理の起動を抑止
する排他制御の機能が設けられている。
【0016】
【実施例】次に、本発明の一実施例について図面を参照
して説明する。
【0017】図1は本発明の一実施例の構成を示すブロ
ック図である。図において、プロセス管理部1はシステ
ム内のプロセスを機能毎に予め分類した呼処理グループ
6及び課金グループ7の起動や停止を管理するととも
に、呼処理グループ6及び課金グループ7のヘルスチェ
ックを行う。尚、プロセス管理部1は図示せぬトラフィ
ック測定グループやアラームメッセージ処理グループ等
の機能グループに対しても起動や停止の管理及びヘルス
チェックを行う。
【0018】プロセス管理部1は呼処理グループ6及び
課金グループ7に対するヘルスチェックの結果を状態報
告(以下、メジャメント情報とする)としてメジャメン
トテーブル2に出力する。また、呼処理グループ6及び
課金グループ7各々に属するプロセスa〜c,A〜Cも
メジャメント情報をメジャメントテーブル2に出力す
る。
【0019】メジャメントテーブル2はこれらプロセス
管理部1からのメジャメント情報と呼処理グループ6及
び課金グループ7各々に属するプロセスa〜c,A〜C
からのメジャメント情報とを夫々格納する。
【0020】状態監視部3は起動時に監視すべきメジャ
メントの種別や障害判定のためのしきい値、及び障害検
出時の動作等を監視動作管理データベース(DB)5か
ら読出して記憶する。ここで、監視動作管理データベー
ス5には監視すべきメジャメントの種別や障害判定のた
めのしきい値、及び障害検出時の動作、つまり各プロセ
スa〜c,A〜Cにおける障害の種類毎に規定された再
開処理の種別等が予め登録定義されている。
【0021】また、状態監視部3はメジャメントテーブ
ル2に格納されたメジャメント情報を参照し、障害の有
無を監視する。状態監視部3はメジャメントテーブル2
に格納されたメジャメントの値としきい値とを比較し、
その比較で障害を検出するとその障害の種類に対応する
再開処理の種別を再開処理部4に通知し、再開処理部4
に再開処理の実行を促す。
【0022】再開処理部4は再開処理の動作管理部41
と、監視動作管理データベース5に登録定義された複数
の再開処理42−i(i=1,2,……)からなる再開
処理実施部42と、複数の再開処理42−iの動作状況
を保持する動作管理テーブル43とから構成されてい
る。
【0023】再開処理部4の動作管理部41は状態監視
部3から再開処理の種別が通知されてくると、動作管理
テーブル43を参照して状態監視部3からの通知で指定
された種別の再開処理が動作中か否かを判定する。ここ
で、動作管理テーブル43には再開処理名と開始・終了
時間と終了状態とが互いに対応付けられて保持されてい
る。
【0024】動作管理部41は状態監視部3からの通知
で指定された種別の再開処理が動作中でないと判定する
と、指定された種別の再開処理42−iを起動する。ま
た、動作管理部41は状態監視部3からの通知で指定さ
れた種別の再開処理が動作中であると判定すると、指定
された種別の再開処理42−iの起動を抑止するための
排他制御を行う。
【0025】再開処理42−iは各プロセスa〜c,A
〜Cに対する再開処理の範囲毎に設定されるため、名称
が異なる再開処理42−i各々はシステム上で同時に動
作可能となっている。
【0026】図2は図1のメジャメントテーブル2の構
成を示す図である。図において、メジャメントテーブル
2はメジャメント名(ヘルスチェック失敗、アボート、
送信失敗、……)と、メジャメント名に対応するID
(1,2,3,……)と、メジャメント名に対応するプ
ロセス名(A,B,a,……)と、UNIXプロセスI
D(12345,11111,11112,……)と、
カウンタ種別(Peg、Number、……)と、カウ
ンタ値(5,5,10,……)とから構成されている。
【0027】図3は図1の監視動作管理データベース5
の構成を示す図である。図において、監視動作管理デー
タベース5は障害名(呼処理系1.0、呼処理系1.
5、全再開2.0、……)と、監視メジャメント(3+
4+5,3+4+5+6,10,……)と、監視周期
(60,120,300,……)と、上限値(15,2
0,40,……)と、動作(呼処理のフェーズ1.0、
呼処理のフェーズ1.5、フェーズ2.0、……)とか
ら構成されている。
【0028】図4は図1の動作管理テーブル43の構成
を示す図である。図において、動作管理テーブル43は
再開処理名(呼処理のフェーズ1.0、呼処理のフェー
ズ1.5、フェーズ2.0、……)と、開始時刻(1
3:30,15:00,……)と、終了時刻(13:3
5,……)と、終了状態(Normal、Runnin
g、……)とから構成されている。
【0029】図5は図1の状態監視部3の動作を示すフ
ローチャートであり、図6は図1の再開処理部4の動作
を示すフローチャートである。これら図1〜図6を用い
て状態監視部3による障害検出処理及び再開処理部4に
よる再開処理の起動処理について説明する。
【0030】状態監視部3は起動されると、監視動作管
理データベース5から障害名と監視メジャメントと監視
周期と上限値と動作とを読出して記憶する(図5ステッ
プS1)。
【0031】状態監視部3は監視動作管理データベース
5からの情報を記憶すると、監視動作管理データベース
5からの監視周期にしたがってメジャメントテーブル2
に格納されたメジャメント情報を参照し(図5ステップ
S2)、障害の有無を監視する(図5ステップS3)。
【0032】状態監視部3はメジャメントテーブル2に
格納されたメジャメントの値としきい値とを比較して障
害を検出すると、検出した障害の種類に対応する再開処
理の種別を再開処理部4に通知し(図5ステップS
4)、再開処理部4に再開処理の実行を促す。
【0033】この後に、状態監視部3は処理終了かどう
かを判定し(図5ステップS5)、処理終了でなければ
ステップS2に戻って障害の有無を監視し、処理終了で
あれば障害検出処理を終了する。
【0034】再開処理部4の動作管理部41は状態監視
部3から再開処理の種別が通知されてくると(図6ステ
ップS11)、動作管理テーブル43を参照して状態監
視部3からの通知で指定された種別の再開処理が動作中
か否かを判定する(図6ステップS12)。
【0035】動作管理部41は状態監視部3からの通知
で指定された種別の再開処理が動作中でないと判定する
と(図6ステップS13)、指定された種別の再開処理
42−iを起動する(図6ステップS14)。
【0036】また、動作管理部41は状態監視部3から
の通知で指定された種別の再開処理が動作中であると判
定すると(図6ステップS13)、指定された種別の再
開処理42−iの起動を抑止する(図5ステップS1
6)。
【0037】この後に、再開処理部4は処理終了かどう
かを判定し(図6ステップS15)、処理終了でなけれ
ばステップS11に戻って状態監視部3からのを通知監
視し、処理終了であれば再開処理の起動処理を終了す
る。
【0038】このように、予め機能グループに分類され
た複数のプロセスa〜c,A〜C各々の管理を行うプロ
セス管理部1による複数のプロセスa〜c,A〜C各々
の障害状態の監視結果を示すメジャメント情報と、複数
のプロセスa〜c,A〜C各々からのメジャメント情報
とをメジャメントテーブル2に格納し、状態監視部3が
メジャメントテーブル2の参照して障害を検出した時に
その障害の種類に対応する再開処理の種別を再開処理部
4に通知し、その指定された種別の再開処理を再開処理
部4で同時にかつ並列に起動管理することによって、既
存の再開処理方式よりもその処理段階を細かくすること
ができ、再開処理の効率を向上させることができる。
【0039】また、上記の処理において同時に検出され
る他の障害に対する再開処理に対して再開処理部4で排
他制御を実施し、動作内容や再開範囲が同一である処理
が同時にかつ並列に起動されるのを禁止することによっ
て、再開処理の効率を向上させることができる。
【0040】
【発明の効果】以上説明したように本発明によれば、予
め機能グループに分類された複数のプロセス各々の管理
を行うプロセス管理手段による複数のプロセス各々の障
害状態の監視結果を参照して障害状態の有無を判別し、
この判別で複数の障害が検出された時にそれら障害の種
類に対応する種別の再開処理を同時にかつ並列に起動管
理することによって、既存の再開処理方式よりもその処
理段階を細かくすることができ、再開処理の効率を向上
させることができるという効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例の構成を示すブロック図であ
る。
【図2】図1のメジャメントテーブルの構成を示す図で
ある。
【図3】図1の監視動作管理データベースの構成を示す
図である。
【図4】図1の動作管理テーブルの構成を示す図であ
る。
【図5】図1の状態監視部の動作を示すフローチャート
である。
【図6】図1の再開処理部の動作を示すフローチャート
である。
【符号の説明】
1 プロセス管理部 2 メジャメントテーブル 3 状態監視部 4 再開処理部 5 監視動作管理データベース 6 呼処理グループ 7 課金グループ 41 再開処理の動作管理部 42 再開処理実施部 42−1,42−2 再開処理 43 動作管理テーブル a〜c,A〜C プロセス

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 予め機能グループに分類された複数のプ
    ロセス各々を同時にかつ並列に処理可能なAINシステ
    ムの自動再開処理装置であって、前記複数のプロセス各
    々の管理と前記複数のプロセス各々の障害状態の監視と
    を行うプロセス管理手段と、前記プロセス管理手段によ
    る前記障害状態の監視結果を格納する格納手段と、障害
    の種類毎に規定された再開処理の種別を記憶する記憶手
    段と、前記格納手段の内容を参照して前記障害状態の有
    無を判別する判別手段と、前記判別手段で複数の障害が
    検出された時に前記記憶手段を参照してそれら障害の種
    類に対応する種別の再開処理を同時にかつ並列に起動管
    理する起動管理手段とを有することを特徴とする自動再
    開処理装置。
  2. 【請求項2】 前記判別手段で検出された障害の種類に
    対応する種別の再開処理が動作中か否かを判定する判定
    手段と、前記判定手段で動作中と判定された再開処理の
    起動を抑止する手段とを含むことを特徴とする請求項1
    記載の自動再開処理装置。
  3. 【請求項3】 前記再開処理は、前記複数のプロセス各
    々に対して再開処理を行う第1の処理レベルと、前記機
    能ブロック内のプロセスのうち処理の中核を成すプロセ
    スの再開処理を行う第2の処理レベルと、前記機能ブロ
    ック内の全てのプロセスの再開処理を行う第3の処理レ
    ベルと、前記複数のプロセス全てに対して再開処理を行
    う第4の処理レベルとからなることを特徴とする請求項
    1または請求項2記載の自動再開処理装置。
JP7101537A 1995-04-26 1995-04-26 Ainシステムの自動再開処理装置 Expired - Fee Related JP2677240B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7101537A JP2677240B2 (ja) 1995-04-26 1995-04-26 Ainシステムの自動再開処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7101537A JP2677240B2 (ja) 1995-04-26 1995-04-26 Ainシステムの自動再開処理装置

Publications (2)

Publication Number Publication Date
JPH08297587A JPH08297587A (ja) 1996-11-12
JP2677240B2 true JP2677240B2 (ja) 1997-11-17

Family

ID=14303194

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7101537A Expired - Fee Related JP2677240B2 (ja) 1995-04-26 1995-04-26 Ainシステムの自動再開処理装置

Country Status (1)

Country Link
JP (1) JP2677240B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6309711B2 (ja) * 2013-03-15 2018-04-11 株式会社三菱東京Ufj銀行 プロセス監視プログラム及びプロセス監視システム
JP6430321B2 (ja) * 2015-04-16 2018-11-28 株式会社日立製作所 制御サーバ

Also Published As

Publication number Publication date
JPH08297587A (ja) 1996-11-12

Similar Documents

Publication Publication Date Title
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN111949368A (zh) 应用程序控制方法及装置
CN110618864A (zh) 一种中断任务恢复方法及装置
CN116055285B (zh) 一种工控系统的进程管理方法及系统
US20230367664A1 (en) Method for managing ecu on vehicle, and ecu and readable storage medium
JPH10214208A (ja) ソフトウェアの異常監視方式
CN114675998A (zh) 一种监控定时快照任务的方法、装置、设备及介质
CN114640709A (zh) 一种边缘节点的处理方法、装置及介质
JP2677240B2 (ja) Ainシステムの自動再開処理装置
CN111371642B (zh) 网卡故障检测方法、装置、设备及存储介质
US5914874A (en) Automatic application restarting system and method
CN113688021B (zh) 一种负载均衡服务处理方法、装置、设备及可读存储介质
US6711702B1 (en) Method for dealing with peripheral units reported as defective in a communications system
CN111779702B (zh) 一种卡滞故障处理方法及装置
JP2001331330A (ja) プロセス異常検知及び復旧システム
CN110795293B (zh) 一种服务器软关机的测试方法、系统及装置
CN112612652A (zh) 分布式存储系统异常节点重启方法及系统
KR100832890B1 (ko) 정보통신 시스템의 프로세스 장애 감시방법 및 복구방법
CN110597609A (zh) 一种集群迁移与自动恢复方法及系统
CN111464357A (zh) 资源配置方法及装置
JP2500745B2 (ja) サ―ビス制御ノ―ド
CN114124644B (zh) 基于Linux内核态的以太网OAM告警方法及装置
CN117950957A (zh) 基于应用发布平台检测应用故障并自启的方法及系统
JPH09218835A (ja) リモート保守方式
CN118277031A (zh) 一种数据处理方法、容器集群、电子设备及存储介质

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070725

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080725

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090725

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100725

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110725

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110725

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120725

Year of fee payment: 15

LAPS Cancellation because of no payment of annual fees