JPH06222937A - Automatic fault recovering system in network managing system - Google Patents

Automatic fault recovering system in network managing system

Info

Publication number
JPH06222937A
JPH06222937A JP5025973A JP2597393A JPH06222937A JP H06222937 A JPH06222937 A JP H06222937A JP 5025973 A JP5025973 A JP 5025973A JP 2597393 A JP2597393 A JP 2597393A JP H06222937 A JPH06222937 A JP H06222937A
Authority
JP
Japan
Prior art keywords
failure
recovery
database
agent
retry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP5025973A
Other languages
Japanese (ja)
Other versions
JPH0754474B2 (en
Inventor
Chisato Ohira
千里 大平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP5025973A priority Critical patent/JPH0754474B2/en
Publication of JPH06222937A publication Critical patent/JPH06222937A/en
Publication of JPH0754474B2 publication Critical patent/JPH0754474B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Retry When Errors Occur (AREA)
  • Multi Processors (AREA)
  • Computer And Data Communications (AREA)

Abstract

PURPOSE:To save labor for fault recovery and to perform speedy fault recovery in a network managing system. CONSTITUTION:When any fault is generated at a managing object 4 in a network managing system 1, an agent 3 receives managing object information corresponding to that managing object 4 and the kind of error corresponding to the kind of the fault from the managing object 4 and retrieves a data base 5 with those data as keys. First of all, a recoverying method provided with the highest priority and a limitation for the number of times of retry are provided and by that recoverying method, the recoverying method is repeatedly tried until the fault recovery is made successful or the limitation for the number of times of retry is exceeded. When the number of times of retry for fault recovery exceeds the limitation for the number of times of retry, the retrieval of the data base 5 and the try of fault recovery based on the result are performed until the recoverying method of non-retrieval concerning the same managing object information and the error kind is eliminated.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、ネットワーク管理シス
テムにおける障害自動復旧方式に関し、特にデータベー
スを利用した障害自動復旧方式に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a failure automatic recovery method in a network management system, and more particularly to a failure automatic recovery method using a database.

【0002】[0002]

【従来の技術】マネージャとエージェントによってモデ
ル化され、マネージャが複数のエージェントに対して管
理操作の発行および通知の受信を行い、エージェントが
複数の管理対象に対して管理操作の発行および通知の受
信を行うネットワーク管理システムにおいて、管理対象
からエージェントに対して障害発生の通知があり、管理
対象に対して障害復旧を行う場合、従来、管理対象に対
して人が直接障害復旧を行うか、またはエージェントで
あらかじめ定められた単一の方法によって自動的に障害
復旧を行っている。
Modeled by a manager and an agent, the manager issues management operations to multiple agents and receives notifications, and the agent issues management operations to multiple management targets and receives notifications. In the network management system to perform, when the management target notifies the agent of failure occurrence, and when performing failure recovery for the management target, conventionally, a person directly performs failure recovery for the management target or Failure recovery is automatically performed by a single predetermined method.

【0003】[0003]

【発明が解決しようとする課題】この従来の技術では、
一種類の障害復旧方法によって確実に障害が復旧される
ことを前提としている。すなわち、ある障害復旧方法を
試行したにもかかわらず失敗した場合、自動的に他の障
害復旧方法を試行する、という方法をとることができな
い。したがって、障害復旧に人手の介入が多くなり、迅
速な障害復旧を妨げる、という課題がある。
SUMMARY OF THE INVENTION In this conventional technique,
It is premised that the failure is reliably recovered by one kind of failure recovery method. That is, it is impossible to automatically try another failure recovery method when a failure recovery method fails despite the attempt. Therefore, there is a problem that a large amount of manual intervention is required for disaster recovery, which hinders quick disaster recovery.

【0004】[0004]

【課題を解決するための手段】本発明は、障害復旧の省
力化および迅速な障害復旧のため、データベースにある
複数の障害復旧方法を、実際に障害が復旧されるまで、
自動的に繰り返し試行する。
SUMMARY OF THE INVENTION The present invention provides a plurality of failure recovery methods in a database for labor saving and quick failure recovery until failure is actually recovered.
Automatically repeats.

【0005】本発明による、ネットワーク管理における
障害自動復旧方式は、一定のアルゴリズムに従ってデー
タベースを利用し、障害発生時の復旧をエージェントに
任せることによって、障害復旧の省力化、及び迅速な復
旧が行われる。
The automatic failure recovery system in network management according to the present invention uses a database according to a certain algorithm and leaves the recovery when an error occurs to an agent, thereby saving labor in failure recovery and speedy recovery. .

【0006】[0006]

【実施例】次に、本発明について図面を参照して説明す
る。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Next, the present invention will be described with reference to the drawings.

【0007】図1(a)は、ネットワーク管理システム
1の構成を示す説明図である。ネットワーク管理システ
ム1は1個のマネージャ2および複数のエージェント
3、管理対象4、データベース5から構成される。
FIG. 1A is an explanatory diagram showing the configuration of the network management system 1. The network management system 1 is composed of one manager 2, a plurality of agents 3, a management target 4 and a database 5.

【0008】マネージャ2は配下のエージェント3に対
して管理操作の発行および通知の受信を行い、エージェ
ント3は配下の管理対象4に対して管理操作の発行およ
び通知の受信を行う。また、各エージェント3は配下の
データベース5を検索することができる。
The manager 2 issues a management operation to the subordinate agent 3 and receives the notification, and the agent 3 issues a management operation to the subordinate management target 4 and receives the notification. Also, each agent 3 can search the database 5 under it.

【0009】また、図1(b)は、本発明の主要な部分
のみの手段を説明するための図である。
FIG. 1B is a diagram for explaining the means of only the main part of the present invention.

【0010】図2は、データベース5が持つ情報を示す
説明図である。データベース5内には、以下の障害復旧
に関する情報が格納されている。
FIG. 2 is an explanatory diagram showing information held by the database 5. The database 5 stores the following information regarding failure recovery.

【0011】(1)管理対象情報11 (2)エラー種類12 (3)復旧方法13 (4)その復旧方法の優先度14 (5)その復旧方法の再試行回数制限15 各管理対象情報11に対して複数のエラー種類12が対
応し、各エラー種類12に対して複数の復旧方法13が
対応するが、復旧方法13とその優先度14および再試
行回数制限15はそれぞれ1:1に対応する。
(1) Management target information 11 (2) Error type 12 (3) Recovery method 13 (4) Priority of the recovery method 14 (5) Retry limit of the recovery method 15 Each management target information 11 On the other hand, a plurality of error types 12 correspond, and a plurality of recovery methods 13 correspond to each error type 12, but the recovery method 13, its priority 14 and retry count limit 15 correspond to 1: 1 respectively. .

【0012】復旧アルゴリズムの例を図3に示す。例で
は、エージェント3が復旧アルゴリズムに従って復旧を
試行する場合を示す。
An example of the restoration algorithm is shown in FIG. The example shows a case where the agent 3 attempts recovery according to the recovery algorithm.

【0013】図4は、管理対象4からエージェント3へ
の障害通知と、データベース検索のシーケンスを示す説
明図である。
FIG. 4 is an explanatory diagram showing a sequence of a fault notification from the management target 4 to the agent 3 and a database search.

【0014】以下、図1(b)の本発明の各手段の動き
を、各図を参照しながら説明する。
The operation of each means of the present invention shown in FIG. 1B will be described below with reference to the drawings.

【0015】まず、管理対象4に障害が発生した場合、
管理対象4はエージェント3に対して障害通知手段10
1により、障害発生通知を行う。障害発生通知には、そ
の管理対象4と1:1に対応する管理対象情報11と、
障害の種類に対応するエラー種類12が含まれる。
First, when a failure occurs in the managed object 4,
The management target 4 notifies the agent 3 of failure notification means 10
1, the failure occurrence notification is performed. The failure occurrence notification includes the management target information 11 corresponding to the management target 4 and 1: 1,
The error type 12 corresponding to the type of failure is included.

【0016】エージェント3は、管理対象情報11およ
びエラー種類12をキーにして、データベース検索手段
102によりデータベース5を検索する(データベース
検索動作)。エージェント3は、最も高い優先度14を
持つ復旧方法13および再試行回数制限15をデータベ
ース5から得る(データベース検索結果通知)。
The agent 3 searches the database 5 by the database searching means 102 using the management target information 11 and the error type 12 as a key (database searching operation). The agent 3 obtains the recovery method 13 having the highest priority 14 and the retry count limit 15 from the database 5 (database search result notification).

【0017】エージェント3は、その復旧方法13によ
る障害復旧を復旧試行手段103により、管理対象4に
対して試行する(障害復旧動作)。
The agent 3 tries the failure recovery by the recovery method 13 to the managed object 4 by the recovery trial means 103 (failure recovery operation).

【0018】図5は、障害復旧の試行および成功のシー
ケンスを示す説明図である。エージェント3から管理対
象4に対する障害復旧の試行が成功した場合、管理対象
4はエージェント3に対して障害復旧結果の成功通知を
行い、障害復旧のアルゴリズムは終了する。
FIG. 5 is an explanatory diagram showing a sequence of trial and success of failure recovery. When the agent 3 succeeds in the failure recovery attempt on the management target 4, the management target 4 notifies the agent 3 of the success of the failure recovery result, and the failure recovery algorithm ends.

【0019】図6は、障害復旧の試行および失敗のシー
ケンスを示す説明図である。障害復旧が失敗した場合、
管理対象4からエージェント3に対して障害復旧結果の
失敗通知が行われる。失敗通知を受診したエージェント
3は同一の管理対象4に対して、障害復旧が成功するか
または再試行回数制限15を越えるまで、繰り返し同一
の復旧方法13を試行する。
FIG. 6 is an explanatory diagram showing a sequence of trial and failure of failure recovery. If disaster recovery fails,
The management target 4 notifies the agent 3 of the failure recovery result failure. The agent 3 receiving the failure notification repeatedly attempts the same recovery method 13 on the same management target 4 until failure recovery is successful or the retry count limit 15 is exceeded.

【0020】障害復旧の再試行回数が再試行回数制限1
5を越えた場合、エージェント3は再び配下のデータベ
ース5を検索し、同一の管理対象情報11およびエラー
種類12に関して既に検索されたものの次に高い優先度
14がもし存在すれば、その優先度14に対応する復旧
方法13および再試行回数制限15を得る。その場合、
障害復旧の試行は上と同じ方法によって繰り返される。
The number of retries for failure recovery is the retry count limit 1
When the number exceeds 5, the agent 3 searches the subordinate database 5 again, and if the next highest priority 14 of the same management target information 11 and the error type 12 that has already been searched exists, the priority 14 thereof is exceeded. The recovery method 13 and the retry count limit 15 corresponding to are obtained. In that case,
The disaster recovery attempts are repeated in the same manner as above.

【0021】データベース5の検索とその結果に基づく
障害復旧の試行は、同一の管理対象情報11およびエラ
ー種類12に関する未検索の復旧方法13が無くなるま
で行われる。
The search of the database 5 and the trial of the failure recovery based on the result thereof are carried out until there is no unsearched recovery method 13 for the same management target information 11 and error type 12.

【0022】すべての障害復旧の試行が失敗した場合、
エージェント3はマネージャ2に対して障害発生の通知
を行い、障害復旧のアルゴリズムは終了する。
If all failure recovery attempts fail,
The agent 3 notifies the manager 2 that a failure has occurred, and the failure recovery algorithm ends.

【0023】すなわち、管理対象4から障害復旧失敗の
通知を受診した場合、エージェント3は図3に示される
アルゴリズムに従い、(1)再び管理対象4に対して障
害復旧を試行する、(2)再びデータベース5を検索す
る、(3)マネージャ2に対して障害発生通知を行い、
障害復旧を終了する、のいずれかを行う。
That is, when the notification of failure recovery failure is received from the managed object 4, the agent 3 follows the algorithm shown in FIG. 3 to (1) try again the failure recovery for the managed object 4, and (2) again. Search the database 5, (3) notify the manager 2 of the failure occurrence,
Either end the disaster recovery.

【0024】[0024]

【発明の効果】以上説明したように、本発明によるネッ
トワーク管理システムにおける障害自動復旧方式は、一
定のアルゴリズムに従ってデータベースを利用すること
によって、複数の障害復旧方法を、実際に障害が復旧さ
れるまで、自動的に繰り返し試行することができ、障害
復旧の省力化および迅速な障害復旧につながる、という
効果がある。
As described above, the automatic failure recovery method in the network management system according to the present invention uses a plurality of failure recovery methods by utilizing a database according to a certain algorithm until the failure is actually recovered. It is possible to automatically and repeatedly perform trials, which leads to labor saving in disaster recovery and quick disaster recovery.

【図面の簡単な説明】[Brief description of drawings]

【図1】ネットワーク管理システムの構成及び、本発明
の障害自動復旧方式を説明するための説明図である。
FIG. 1 is an explanatory diagram for explaining a configuration of a network management system and a failure automatic restoration method of the present invention.

【図2】障害復旧情報を格納したデータベースが持つ情
報を示す説明図である。
FIG. 2 is an explanatory diagram showing information possessed by a database storing failure recovery information.

【図3】障害復旧のアルゴリズムの例を示すフロー図で
ある。
FIG. 3 is a flowchart showing an example of a fault recovery algorithm.

【図4】データベースの検索動作および検索結果通知の
シーケンスを示す説明図である。
FIG. 4 is an explanatory diagram showing a database search operation and a search result notification sequence.

【図5】障害復旧の試行および成功のシーケンスを示す
説明図である。
FIG. 5 is an explanatory diagram showing a sequence of trial and success of failure recovery.

【図6】障害復旧の試行および失敗のシーケンスを示す
説明図である。
FIG. 6 is an explanatory diagram showing a sequence of trial and failure of failure recovery.

【符号の説明】[Explanation of symbols]

1 ネットワーク管理システム 2 マネージャ 3 エージェント 4 管理対象 5 データベース 11 管理対象情報 12 エラー種類 13 復旧方法 14 優先度 15 再試行回数制限 101 障害通知手段 102 データベース検索手段 103 復旧試行手段 1 Network Management System 2 Manager 3 Agent 4 Management Target 5 Database 11 Management Target Information 12 Error Type 13 Recovery Method 14 Priority 15 Retry Count Limit 101 Fault Notification Means 102 Database Search Means 103 Recovery Trial Means

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】 複数のエージェントと、それを管理する
マネージャと、前記エージェントに管理される複数の管
理対象と、データベースとを有するネットワーク管理シ
ステムにおいて、 前記管理対象から前記エージェントに障害の発生を通知
する障害通知手段と、 前記障害通知手段による通知情報に基づいて、前記デー
タベース中の、前記管理対象に応じた複数の復旧方法、
及びその優先度、及びその再試行回数制限のデータを検
索するデータベース検索手段と、 前記優先度の高い復旧方法から前記優先度の低い復旧方
法まで、順次、その前記試行回数制限内で、前記障害が
復旧するまで試行する復旧試行手段と、を有することを
特徴とするネットワーク管理システムにおける障害自動
復旧方式。
1. A network management system having a plurality of agents, a manager for managing the agents, a plurality of management targets managed by the agents, and a database, wherein the management targets notify the agent of occurrence of a failure. Failure notifying means for performing, and a plurality of recovery methods according to the management target in the database based on the notification information by the failure notifying means,
And its priority, and a database search means for searching the data of the number of retries limit, and from the restoration method of the high priority to the restoration method of the low priority, within the limit of the number of trials, the failure An automatic failure recovery method in a network management system, which comprises:
【請求項2】 前記障害通知手段による通知情報は、管
理対象情報と、障害の種類に対応するエラー種類のデー
タを含む請求項1に記載のネットワーク管理システムに
おける障害自動復旧方式。
2. The automatic failure recovery system in a network management system according to claim 1, wherein the notification information by the failure notification means includes management target information and error type data corresponding to the type of failure.
JP5025973A 1993-01-22 1993-01-22 Failure automatic recovery method in network management system Expired - Fee Related JPH0754474B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5025973A JPH0754474B2 (en) 1993-01-22 1993-01-22 Failure automatic recovery method in network management system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5025973A JPH0754474B2 (en) 1993-01-22 1993-01-22 Failure automatic recovery method in network management system

Publications (2)

Publication Number Publication Date
JPH06222937A true JPH06222937A (en) 1994-08-12
JPH0754474B2 JPH0754474B2 (en) 1995-06-07

Family

ID=12180678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5025973A Expired - Fee Related JPH0754474B2 (en) 1993-01-22 1993-01-22 Failure automatic recovery method in network management system

Country Status (1)

Country Link
JP (1) JPH0754474B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148728A (en) * 2005-11-28 2007-06-14 Hitachi Ltd Policy control method, apparatus and program
JP2013257764A (en) * 2012-06-13 2013-12-26 Nec Corp Failure analysis system, failure analysis device, server device, and failure analysis method and program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148728A (en) * 2005-11-28 2007-06-14 Hitachi Ltd Policy control method, apparatus and program
US7571351B2 (en) 2005-11-28 2009-08-04 Hitachi, Ltd. Method for controlling a policy
JP2013257764A (en) * 2012-06-13 2013-12-26 Nec Corp Failure analysis system, failure analysis device, server device, and failure analysis method and program

Also Published As

Publication number Publication date
JPH0754474B2 (en) 1995-06-07

Similar Documents

Publication Publication Date Title
US5513343A (en) Network management system
US7191198B2 (en) Storage operation management program and method and a storage management computer
US6941327B2 (en) Apparatus and method for database synchronization in a duplex system
EP1179245A1 (en) Method and apparatus for displaying information in a fault management system
US7051051B1 (en) Recovering from failed operations in a database system
JPH06222937A (en) Automatic fault recovering system in network managing system
JP2001022627A (en) System and method for synchronizing data bases between plural devices
JP2001344139A (en) Database management device
JPH10301815A (en) Fault information logging device
KR100659406B1 (en) Backup method of subscriber database of hlr system
JP3564485B2 (en) Information processing method and system
JP3680228B2 (en) Execution state management method and system for parallel processing process
KR950005987B1 (en) Maintenance system in electronic exchange
JP4464872B2 (en) Computer system and computer control method
JP2630255B2 (en) Network fault indication recovery method
JP2959467B2 (en) Fault recovery system, fault recovery method, and medium for storing fault recovery program in loosely coupled multi-computer system
JP2507604B2 (en) Information processing device
KR940007838B1 (en) Method of recovering transaction on real time database management system
JPH03152668A (en) Input character string correction system for retrieving system
JPH10215271A (en) Information acquisition system of node
JP2643918B2 (en) File recovery system
JPH0418647A (en) Method and mechanism for recovering preserved binary data
JPH06119384A (en) Data base
JPH1011346A (en) Update device for data base
JPH0926901A (en) Distributed storage device management system

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080607

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090607

Year of fee payment: 14

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100607

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100607

Year of fee payment: 15

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110607

Year of fee payment: 16

LAPS Cancellation because of no payment of annual fees