JPH03102534A - Automatic fault recovering system - Google Patents

Automatic fault recovering system

Info

Publication number
JPH03102534A
JPH03102534A JP1242911A JP24291189A JPH03102534A JP H03102534 A JPH03102534 A JP H03102534A JP 1242911 A JP1242911 A JP 1242911A JP 24291189 A JP24291189 A JP 24291189A JP H03102534 A JPH03102534 A JP H03102534A
Authority
JP
Japan
Prior art keywords
fault
failure
processing means
recovery
recovery job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1242911A
Other languages
Japanese (ja)
Inventor
Takashi Kasai
隆 笠井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP1242911A priority Critical patent/JPH03102534A/en
Publication of JPH03102534A publication Critical patent/JPH03102534A/en
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

PURPOSE:To improve speed for a fault correspondence processing by analyzing faults, which are generated in the past, and the correspondence processings simultaneously with the generation of a fault and activating a processing program corresponding to the generated fault. CONSTITUTION:A fault event judgement processing part 14 searches a fault event and correspondence action table with a message, which is received from a fault information reception processing part 13, and judges whether the fault is generated or not. As a result, when it is judged that the fault is generated, a recovery job activation notification processing part 15 is operated and a fault event and correspondence action are notified to a recovery job activation processing means 26. The recovery job activation processing means 26 operates a recovery job activation information reception processing part 16 and the contents of information are dispatched to a recovery job activation processing part 17 when the fault event and correspondence action are received. The recovery job activation processing part 17 receives the information and activates the said job of the fault event and recovery job part 6.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明はハードウエアおよびオペレーディングシステム
からなるシステムにおける障害自動復旧方式に関する。
DETAILED DESCRIPTION OF THE INVENTION [Field of Industrial Application] The present invention relates to an automatic failure recovery method in a system consisting of hardware and an operating system.

〔従来の技術〕[Conventional technology]

従来、この種の障害復旧方式は自動的ではなく、ハード
ウェア(以下、I−I / Wという)あるいはオペレ
ーティンク゜システム(以下、○Sという)によっても
たらされる様々のエラーメッセージを人が経験やテスl
−によって原因を追求し、対応していた。そして、同種
の1{ / W、同種のOSか数多く存在しているにも
かかわらず、それそれのH/Wで障害が発生しそれぞれ
で原因追求しているため、無駄な時間を多く費やしてい
る。
Conventionally, this type of failure recovery method was not automatic, but was based on human experience and testing of various error messages caused by hardware (hereinafter referred to as I-I/W) or operating system (hereinafter referred to as ○S). l
− The cause was investigated and the response was taken. And even though there are a lot of the same type of hardware and OS, a lot of time is wasted because failures occur in each of the hardware and the cause is investigated individually. There is.

〔発明が解決しようとする課題〕[Problem to be solved by the invention]

」二述した従来の障害復1目方式は、エラーメッセージ
か出力されてから現象を把握するまでに時間がかかり、
さらに、人間が過去の障害例を調へて処理を決めなけれ
ばならす、障害の処置が遅れるという問題点がある。
In the conventional one-shot failure recovery method mentioned above, it takes time to understand the problem after an error message is output.
Furthermore, there is a problem that a human being has to study past failure cases and decide on the treatment, which delays the treatment of the failure.

〔課題を解決するための手段〕[Means to solve the problem]

本発明の障害自動復旧方式は、 (A)ハートウェアおよひオペレーティングシステムを
有したシステムての障害を監視する障害情報監視処理手
段、 (B)前記障害の発生の有無を判断する障害事象判断処
理手段、 (C)前記障害を回復させるために作動するり力バリジ
ョフを起動するりカバリジョフ起動処理手段、 (D>前記障害の発生の根拠となるべきメッセーシとそ
れに対する対応アクションを登録・更新参照する障害事
象 対応アクションテーフル登録・更新・参照処理手段
、 (E)前記リカハリショフの登録・更新・参照を行うリ
カバリショフ登録・更新・参照処理手段、 を備えている。
The automatic failure recovery method of the present invention includes: (A) a failure information monitoring processing means that monitors failures in a system having hardware and an operating system; (B) failure event judgment that determines whether or not the failure has occurred; Processing means, (C) Recovery start processing means for activating a recovery job that operates to recover from the failure, (D>Register/update the message that should be the basis for the occurrence of the failure and the corresponding action) (E) a recovery shop registration/update/reference processing unit for registering/updating/referencing the recovery event;

〔実施例〕〔Example〕

次に、本発明について図面を参照して説明する。 Next, the present invention will be explained with reference to the drawings.

第1図は、本発明の−実施例の全体構成図であり、CR
T付き入出力装置1、コンソールメッセーシログ部2、
11/Wエラーロク部3、ジジフ終了情報部4、障害事
象・列応アクションテーフル部5、障害事象 リカハリ
ショブ部6、障害情報監視処理手段24、障害事象判断
処理手段25、リカハリショブ起動処理手段26、コン
ソールメッセージ出力処理部7、l−T / Wエラー
ロク出力処理部8、ジョブ終了情報出力処理部9、障害
事象・対応アクションテーブル登録・更新 参照処理手
段27、リカハリジョフ登録 更新 参照千段28から
構成されている。
FIG. 1 is an overall configuration diagram of an embodiment of the present invention.
T-equipped input/output device 1, console message log section 2,
11/W error lock section 3, Jijifu end information section 4, fault event/column response action table section 5, fault event recovery section 6, fault information monitoring processing means 24, fault event judgment processing means 25, recovery start processing means 26, It consists of a console message output processing section 7, an l-T/W error log output processing section 8, a job completion information output processing section 9, a failure event/corresponding action table registration/update reference processing means 27, and a 1,000-step reference processing section 28 for registering/updating Rikaharijofu. ing.

さらに、第2図は障害情報監視処理手段24の全体構成
図てあり、第2図を参照すると、障害情報監視処理千段
24は、障害情報読み込み処理部]0、障害情報通知処
理部11から構成されている。
Furthermore, FIG. 2 shows the overall configuration of the fault information monitoring processing means 24. Referring to FIG. It is configured.

また、第3図は障害事象判断処理手段の全体構成図であ
り、第3図を参照すると、障害事象判断処理手段25は
、障害事象 対応アクションテーブル読み込み処理部1
2、障害情報通知受け処理部13、障害事象判断処理部
コ4、リカバリジョブ起動通知処理部15から構成され
ている。
Further, FIG. 3 is an overall configuration diagram of the failure event judgment processing means. Referring to FIG.
2, a fault information notification receiving processing section 13, a fault event judgment processing section 4, and a recovery job start notification processing section 15.

また、第4図はリカハリショフ起動処理手段の全休横戒
図てあり、第4図を参照すると、リカバリショブ起動処
理手段26はり力バリショブ起動通知受け処理部千6、
リカハリショフ起動処理部17から構成されている。
Further, FIG. 4 shows a complete shutdown of the Rika Harishov startup processing means. Referring to FIG.
It is composed of a Likharishov startup processing section 17.

第5図は障害事象 対応アクションデーブル登録・更新
 参照処理手段の全体構成図であり、第5図を参照する
と、障害事象・対応アクションテーブル登録 更新 参
照処理千段27は、障害事象 対応アクションテーブル
登録処理部18、障害事象・対応アクションテーフル参
照処理部20から楕成されている。
FIG. 5 is an overall configuration diagram of the trouble event response action table registration/update reference processing means. Referring to FIG. It consists of a processing section 18 and a failure event/corresponding action table reference processing section 20.

そして、第6図はリカハリジョブ登録 更新参照処理千
段28の全体構成図であり、第6図を参照すると、リカ
ハリショフ登録 更新 参照処理千段28はリ力ハリシ
ョフ更新処理部21、リカバリショフ更新処理部22、
リカハリジョフ参照処理部23から構成されている。
FIG. 6 is an overall configuration diagram of the Likahari job registration update reference processing stage 28. Referring to FIG. 22,
It is composed of a Rikaharijov reference processing section 23.

次に、この実施例の動作を説明する。Next, the operation of this embodiment will be explained.

第1図は、本発明の−実施例の全体構成図であり、第1
図を参照すると、コンソールメッセージ出力処理部7は
○S動作のメッセージをコンソールメッセーシロク部2
に出力する。H / Wエラーログ出力処理部8は、H
/Wエラー情報をH/Wエラーログ部3に出力する。ジ
ョフ終了情報出力処理部9はジョブ終了情報をジョブ終
了情報部4に出力する。
FIG. 1 is an overall configuration diagram of an embodiment of the present invention.
Referring to the figure, the console message output processing section 7 sends the message of ○S operation to the console message lock section 2.
Output to. The H/W error log output processing unit 8
/W Output error information to the H/W error log section 3. The job completion information output processing section 9 outputs job completion information to the job completion information section 4.

次に、第2図は障害6i’f報監視処理千段24の全体
構成図であり、第2図を参照すると、障害情報監視処理
千段24は、運用中は常駐しており、障害情報読み込み
処理部10が動作し、コンソールメッセージログ部2、
I−1 / Wエラーロク部3、シ5 6 ョブ終了情報部4から障害情報を読み込む。これにより
、障害情報通知書理部1−]−か動作し、障害情報読み
込み処理部10て読み込んだ障害情報を障害事象判断処
理手段25に通知する。
Next, FIG. 2 is an overall configuration diagram of the failure 6i'f notification processing stage 24. Referring to FIG. 2, the failure information monitoring processing stage 24 is permanently resident during operation, The reading processing unit 10 operates, and the console message log unit 2,
I-1/W Error lock section 3, Sh5 6 Reads fault information from the job completion information section 4. As a result, the failure information notification writing section 1-]- operates and notifies the failure event judgment processing means 25 of the failure information read by the failure information reading processing section 10.

ここで、障書情報監視手段24は、システム常駐の監視
処理手段であるため、終了コマンドが投入されるまて、
同様の処理を行い、終了コマンドが投入されたとき処理
を終了する。
Here, since the failure notice information monitoring means 24 is a system-resident monitoring processing means, until the end command is input,
A similar process is performed and the process is terminated when the termination command is input.

第3図は、障害事象判断処理手段25の全体構成図であ
り、第3図を参照すると、障害事象判断処理手段25は
、障害事象・対応アクションテーブル読み込み処理12
が動作し、障害事象 対応アクションテーフル部5よV
)lII:害事象・対応アクションテーブルを読み込む
。次に、障害情報通知受け処理部13か動作し、障害情
報監視処理手段24からの通知を待つ。通知があると、
障害情報通知受け処理部]−3は障害情報監視処理手段
24からのメッセージを障害事象判断処理部14に渡す
FIG. 3 is an overall configuration diagram of the failure event judgment processing means 25. Referring to FIG.
is activated, and the failure event response action table part 5 V
) II: Read the adverse event/response action table. Next, the fault information notification receiving processing section 13 operates and waits for a notification from the fault information monitoring processing means 24. When there is a notification,
The fault information notification receiving processing unit]-3 passes the message from the fault information monitoring processing unit 24 to the fault event determination processing unit 14.

障害事象判断処理部14は、障害情報通知受け処理部]
3から受けたメッセージをキーとして、障害事象・対応
アクションテーフルをザーチし障害発生であるかどうか
を判断する。その結果、障害発生であると判断された場
合、リカバリジョブ起動通知処理部1−5が動作し、障
害事象 対応アクションをリカバリショブ起動処理手段
26に通知する。
The failure event judgment processing unit 14 is a failure information notification reception processing unit]
Using the message received from 3 as a key, search the failure event/response action table to determine whether a failure has occurred. As a result, if it is determined that a failure has occurred, the recovery job activation notification processing section 1-5 operates and notifies the recovery job activation processing means 26 of the failure event response action.

ここで、障害事象判断処理手段25はシステム常駐の監
視処理手段であるため、終了コマン1へが投入されるま
で同様の処理を行う。
Here, since the failure event determination processing means 25 is a system-resident monitoring processing means, it performs the same processing until the end command 1 is input.

次に、第4図は、リカパリジョブ起動処理手段26の全
体構成図であり、第4図を参照するとりカバリショブ起
動処理手段26は、障害事象判断処理手段25から障害
事象・対応アクションを受けると、リカバリジョブ起動
通知受け処理部16が動作し、リカバリジョブ起動処理
部17に通知内容を渡す。リカバリジョフ起動処理部1
7は通知を受け、障害事象 リカバリジョフ部6の該当
ジョブを起動する。
Next, FIG. 4 is an overall configuration diagram of the recovery job activation processing means 26. Referring to FIG. The recovery job activation notification receiving processing unit 16 operates and passes the notification contents to the recovery job activation processing unit 17. Recovery job startup processing unit 1
7 receives the notification and starts the corresponding job in the failure event recovery job section 6.

また、第5図は、障害事象・対応アクションテーブル登
録 更新 参照処理千段27の全体構成図てあり、第5
図を参照すると、障害事象・対応アクションテーフル登
録・更新・参照処理手段27はCRT付き入出力装置]
から障害発生の根拠となるべきメッセージと、それに対
する幻応アクションとを障害事象 対応アクションテー
ブル登録処理部18により登録する。また障害事象や対
応アクションを変更する場合は、障害事象 対応アクシ
ョテーブル更新処理部1つにより更新を行い、単に参照
したい場合は障害事象 対応アクションテーフル参照処
理部20により参照する。
In addition, FIG. 5 shows the overall configuration of the failure event/corresponding action table registration update reference process 27, and the fifth
Referring to the figure, the failure event/corresponding action table registration/update/reference processing means 27 is an input/output device with a CRT]
The message that should be the basis for the occurrence of a failure and the corresponding illusory action are registered by the failure event response action table registration processing unit 18. In addition, when changing the failure event or response action, the update is performed by one failure event response action table update processing unit, and when it is simply desired to refer to it, the failure event response action table reference processing unit 20 is used for reference.

登録の具体例としては次のような例がある。Specific examples of registration include the following.

”MCNW93  C=80’″というメッセーシが出
力されたとき、過去の経験から、必ず回線障害てあると
いう事かわかっていれは、対応アクションとして、回線
を活性化し、回線トレース終了コマンl−’を投入し、
回線1〜レースジョブを実行することかできる。この例
に示すような一連の具体的アクションを登録しておく。
If you know from past experience that there is always a line failure when the message "MCNW93 C=80'" is output, you should activate the line and issue the line trace end command l-' as a countermeasure. Put it in,
It is possible to run a race job from line 1. Register a series of specific actions as shown in this example.

そして、第6図は、リカハリショフ登録 更新・参照処
理千段28の全休構或図であり、第6図を参照すると、
リカバリジョフ登録 更新・参照処理手段28はCRT
付き入出力装置1からリカハリショブをリカバリショブ
登録処理部21により登録する。また、リカハリショフ
を修正する場合はリカハリジョブ更新処理部22により
更新し、リカバリショブを参照する場合はり力バリジョ
フ参照処理部23により参照する。
And, FIG. 6 is a diagram of the fully closed structure of Likaharishov registration update/reference processing 1,000 steps, and referring to FIG. 6,
Recovery job registration update/reference processing means 28 is CRT
A recovery job is registered from the attached input/output device 1 by the recovery job registration processing unit 21. Further, when a recovery job is to be modified, it is updated by the recovery job update processing section 22, and when a recovery job is to be referred to, it is referred to by a correction job update processing section 23.

登録の具体例としては、“′回線の活性化″てあれば、
”VN  ACT  LINE−1−Nxx  、′”
回線トレースの終了″′ならば、”DNLINE=LN
xx  TEND”という実行形式のものを登録する。
As a specific example of registration, if “activate the line”,
"VN ACT LINE-1-Nxx,'"
If line tracing is finished, DNLINE=LN
xx TEND” is registered.

〔発明の効果〕〔Effect of the invention〕

以上説明したように、本発明は、障害発生と同時に、過
去に発生した障害とその列応処置を自動的に解析し、発
生した障害に対する処置プロク゜ラムを自動的に起動さ
せることにより、エラーメッセージが出力されてから現
象が把握され障害の対応処置かとられるまでの時間か大
幅に短縮される9 ]○ という効果を有する。
As explained above, the present invention automatically analyzes past failures and their response actions at the same time a failure occurs, and automatically launches a treatment program for the failure that has occurred, thereby eliminating error messages. This has the effect of significantly shortening the time from when a problem is output to when a phenomenon is understood and a countermeasure is taken to deal with the problem.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の一実施例の全体構或図、第2図は障害
情報監視処理手段を示す図、第3図は障害事象判断処理
手段を示す図、第4図はリカハリショブ起動処理手段を
示す図、第5図は障害事象対応アクションテーブル登録
・更新 参照処理手段を示す図、第6図はりカバリジョ
ブ登録・更新・参照処理手段を示す図である。 1・・・CRT付き入出力装置、2・・・コンソールメ
ッセージログ部、3・・・H/Wエラーロク部、4・・
ジョブ終了情報部、5・・障害事象・列応アクションテ
ーブル部、6・・障害事象 リカバリジョブ部、7・・
コンソールメッセーシ出力処理部、8H/Wエラーログ
出力処理部、9・・ジョブ終了情報出力処理部、10・
・障害情報読み込み処理部、11・・障害情報通知処理
部、12・・・障害事象・対応アクションテーフル読み
込み処理、13 障害情報通知受け処理部、14・・・
障害事象判断処理部、15・リカハリジョフ起動通知処
理部、]−6・リカハリジョフ起動通知受fつ処理部、
17 リカバリジョブ起動処理部、18 障害事象 夕
・j応アクションテーブル登録処理部、1つ・障害事象
・対応アクションテーフル更新処理部、20・・障害事
象 対応アクションデーフル参照処理部、21・リカハ
リショブ登録処理部、22・リカバリジョブ更新処理部
、23・ リカハリショフ参照処理部、24・・障害情
報監視処理手段、2 5 − III害事象判断処理手
段、26・・リカハリショフ起動処理手段、27・・・
障害事象・対応アクションテーブル登録・更新 参照処
理手段、28・リカハリショブ登録 更新・参照処理手
段。
FIG. 1 is an overall configuration diagram of an embodiment of the present invention, FIG. 2 is a diagram showing a failure information monitoring processing means, FIG. 3 is a diagram showing a failure event judgment processing means, and FIG. 4 is a diagram showing a recovery job activation processing means. FIG. 5 is a diagram showing failure event handling action table registration/update/reference processing means, and FIG. 6 is a diagram showing recovery job registration/update/reference processing means. 1... Input/output device with CRT, 2... Console message log section, 3... H/W error lock section, 4...
Job end information section, 5. Failure event/reaction action table section, 6. Failure event recovery job section, 7.
Console message output processing section, 8H/W error log output processing section, 9...Job end information output processing section, 10.
-Fault information reading processing unit, 11...Fault information notification processing unit, 12...Fault event/correspondence action table reading processing, 13.Fault information notification reception processing unit, 14...
Trouble event judgment processing unit, 15. Lika Harijoff activation notification processing unit, ]-6. Lika Harijoff activation notification processing unit,
17 Recovery job startup processing unit, 18 Failure event response action table registration processing unit, 1 Failure event response action table update processing unit, 20 Failure event response action table reference processing unit, 21 Recovery job Registration processing unit, 22.Recovery job update processing unit, 23.Likaharishov reference processing unit, 24.Fault information monitoring processing means, 25-III adverse event determination processing means, 26.Likaharishov activation processing means, 27..
Trouble event/correspondence action table registration/update reference processing means, 28/recovery job registration update/reference processing means.

Claims (1)

【特許請求の範囲】 (A)ハードウェアおよびオペレーティングシステムを
有したシステムでの障害を監視する障害情報監視処理手
段、 (B)前記障害の発生の有無を判断する障害事象判断処
理手段、 (C)前記障害を回復させるために作動するリカバリジ
ョブを起動するリカバリジョブ起動処理手段、 (D)前記障害の発生の根拠となるべきメッセージとそ
れに対する対応アクションを登録・更新・参照する障害
事象・対応アクションテーブル登録・更新・参照処理手
段、 (E)前記リカバリジョブの登録・更新・参照を行うリ
カバリジョブ登録・更新・参照処理手段、 を備えたことを特徴とする障害自動復旧方式。
[Scope of Claims] (A) Fault information monitoring processing means for monitoring faults in a system having hardware and an operating system; (B) Fault event determination processing means for determining whether the fault has occurred; (C ) A recovery job startup processing means that starts a recovery job that operates to recover from the failure; (D) A failure event/response that registers, updates, and references messages that are the basis for the occurrence of the failure and corresponding actions. An automatic failure recovery method comprising: action table registration/update/reference processing means; (E) recovery job registration/update/reference processing means for registering, updating, and reference of the recovery job.
JP1242911A 1989-09-18 1989-09-18 Automatic fault recovering system Pending JPH03102534A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1242911A JPH03102534A (en) 1989-09-18 1989-09-18 Automatic fault recovering system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1242911A JPH03102534A (en) 1989-09-18 1989-09-18 Automatic fault recovering system

Publications (1)

Publication Number Publication Date
JPH03102534A true JPH03102534A (en) 1991-04-26

Family

ID=17096047

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1242911A Pending JPH03102534A (en) 1989-09-18 1989-09-18 Automatic fault recovering system

Country Status (1)

Country Link
JP (1) JPH03102534A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6692214B1 (en) 1999-10-01 2004-02-17 Matsushita Electric Industrial Co., Ltd. Pusher, puller loader, unloader, and working device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6692214B1 (en) 1999-10-01 2004-02-17 Matsushita Electric Industrial Co., Ltd. Pusher, puller loader, unloader, and working device

Similar Documents

Publication Publication Date Title
JPH03102534A (en) Automatic fault recovering system
JP3109572B2 (en) Failure recovery device, failure recovery method, and storage medium storing failure recovery program
JPH0540657A (en) Dynamic tracer
JP2795332B2 (en) Loop processing error detection device
JPH09204205A (en) Program control system
JPH0512005A (en) Information processor
JP2708647B2 (en) How coprocessors support auxiliary functions
JPH07244536A (en) Resume supporting mechanism
JPS6277650A (en) Information processor equipped with advanced control part
JPH05250208A (en) Program reexecution processing system
JPS6149225A (en) Operation of information processing system
JPS5922147A (en) Checking system of retrial processing
JPH03209534A (en) Back-up device for development of program
JPH05324416A (en) System error history saving system
JPH0468446A (en) Debugging supporting device
JPH0581388A (en) Graphic information display function insepcting system
JPH05197538A (en) Exception generation line number display system of precompiler system
JPH03265921A (en) Control system for magnetic disk file saving magnetic disk
JPS6277656A (en) Program debugging system
JPS645336B2 (en)
JPS62229315A (en) Production system for operation backup message
JPH02144721A (en) Batch processing system for plural batch files
JPS60181825A (en) Data processing system
JPH08272624A (en) System and method for process exception recovery
JPH07113866B2 (en) Real-time clock module management device