JPH10312321A - On-line system fault analyzing method - Google Patents

On-line system fault analyzing method

Info

Publication number
JPH10312321A
JPH10312321A JP9120484A JP12048497A JPH10312321A JP H10312321 A JPH10312321 A JP H10312321A JP 9120484 A JP9120484 A JP 9120484A JP 12048497 A JP12048497 A JP 12048497A JP H10312321 A JPH10312321 A JP H10312321A
Authority
JP
Japan
Prior art keywords
failure
message
history
monitoring
hardware
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9120484A
Other languages
Japanese (ja)
Inventor
Shinichi Kogure
慎一 小暮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP9120484A priority Critical patent/JPH10312321A/en
Publication of JPH10312321A publication Critical patent/JPH10312321A/en
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

PROBLEM TO BE SOLVED: To minimize the influence of a fault by actualizing processes from the detection of a fault of an on-line system to a display of a countermeasure method in real time. SOLUTION: When a fault message is generated, a counter 1 is made to one (step 152). The history accuracy and monitor accuracy of the instance in the place that the counter indicates as to all instances in a message table are found (step 168). A display of the generation cause of the fault message is made and the instance having the maximum history accuracy in the message table is displayed as an optimum countermeasure method (the instance having the maximum monitor accuracy is displayed when there is more than history having the maximum history accuracy) (step 156). When a countermeasure is automatically set, a countermeasure command and a countermeasure confirmation command are executed (step 160) and after a recovery from the fault, the countermeasure result is displayed (step 164), but when the fault is not recovered, a counter measure module is actuated to take a manual countermeasure (step 166).

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明はシステムから出力さ
れる情報からハードウェア及びソフトウェアの障害につ
いて、障害に関する原因と、障害の対処方法の表示を実
現する障害解析方法に関し、特に障害の検出から対処ま
での処理に高速なリアルタイム性を要求されるオンライ
ンシステムに関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a failure analysis method for displaying a cause of a failure and a method of dealing with the failure with respect to hardware and software failures from information output from the system, and more particularly, from the detection of the failure. To online systems that require high-speed real-time processing.

【0002】[0002]

【従来の技術】機器などのハードウェアの障害やアプリ
ケーションプログラムなどのソフトウェアの障害に関
し、障害の診断を行う装置やシステムが様々な分野で開
発され、稼動している。これらのシステムの管理におい
ては、障害解析が大きな役割を果たしている。例えば、
特開平06−161760号公報に示されているように
機器の診断にリアルタイム性を持った装置を持ったもの
がある。この技術では、専門家によって行われていた診
断を機械化することによって判定にばらつきがなく、迅
速な診断を可能としている。また、特開平08−237
188号公報に示されているように通信端末装置は通信
の履歴に関するデータを記憶し、通信障害時のデータを
ネットワークを介して情報蓄積装置に伝送することによ
り、通信端末装置の保守を効率良くできるようにしてい
る。
2. Description of the Related Art Devices and systems for diagnosing faults of hardware such as equipment and faults of software such as application programs have been developed and operated in various fields. Failure management plays a major role in managing these systems. For example,
As shown in Japanese Patent Application Laid-Open No. 06-161760, there is a device having a device having a real-time property for device diagnosis. In this technique, the diagnosis performed by an expert is mechanized, and the determination is not varied, thereby enabling a quick diagnosis. Also, Japanese Patent Application Laid-Open No. 08-237
As disclosed in Japanese Patent Publication No. 188, the communication terminal device stores data relating to the communication history and transmits data at the time of a communication failure to the information storage device via the network, thereby efficiently maintaining the communication terminal device. I can do it.

【0003】また、企業や官庁において、高速処理や信
頼性が要求される分野で様々なオンラインシステムが稼
動している。これらのシステムにおいては、機器などの
ハードウェア上でアプリケーションプログラムなどのソ
フトウェアが稼動しており、個々のハードウェアやソフ
トウェアの障害の診断を行っている。
[0003] In companies and government offices, various online systems operate in fields requiring high-speed processing and reliability. In these systems, software such as an application program runs on hardware such as equipment, and diagnoses failures of individual hardware and software.

【0004】[0004]

【発明が解決しようとする課題】かかる従来の方法にお
いては、次のような問題がある。
However, such a conventional method has the following problems.

【0005】すなわち、ハードウェアとソフトウェアの
障害が同時に複数件数発生した場合、障害の検出から障
害の対処までの処理を高速に実現することは困難な作業
となる。
That is, when a plurality of hardware and software failures occur simultaneously, it is difficult to realize the processing from the detection of the failure to the handling of the failure at a high speed.

【0006】このように従来の方法は、ハードウェアま
たはソフトウェアの個々の障害に対応するもので、複数
のハードウェア装置及びソフトウェアから構成され相互
に影響を与える可能性のあるシステムの障害には対処で
きないという問題があった。
As described above, the conventional method deals with an individual failure of hardware or software, and deals with a failure of a system constituted by a plurality of hardware devices and software and possibly affecting each other. There was a problem that it was not possible.

【0007】本発明の目的は、複数のハードウェア装置
及びソフトウェアから構成されるオンラインシステムの
障害にリアルタイムに対処可能なオンラインシステム障
害解析方法を提供することにある。
An object of the present invention is to provide an online system failure analysis method capable of dealing with a failure of an online system composed of a plurality of hardware devices and software in real time.

【0008】本発明の他の目的は、従来人間が行ってい
た複雑な障害回復作業を機械化することにより作業の精
度及び速度の向上や作業の容易性を実現し、障害による
損害を最小限に抑えて、専門の知識を持たない人でも障
害回復作業を行うための手段を提供することにある。
Another object of the present invention is to improve the accuracy and speed of work and to facilitate the work by mechanizing complicated trouble recovery work conventionally performed by humans, thereby minimizing damage due to trouble. Another object of the present invention is to provide a means for a person who does not have specialized knowledge to perform a disaster recovery operation.

【0009】[0009]

【課題を解決するための手段】本発明は、オンラインシ
ステムから監視端末に出力されるメッセージの履歴に関
係する情報の一定期間の蓄積とハードウェア/ソフトウ
ェアの稼動状況の監視を行い、障害が発生した際に、障
害の原因の表示と過去の最適事例の対処方法の表示を行
う。
SUMMARY OF THE INVENTION The present invention accumulates information relating to the history of messages output from an online system to a monitoring terminal for a certain period of time and monitors the operation status of hardware / software, and a failure occurs. Then, the cause of the failure is displayed and the method of handling the past optimum case is displayed.

【0010】オンラインシステムから監視端末に出力さ
れるメッセージをメッセージ監視モジュールにおいて常
時監視し、出力メッセージの一定時間の履歴を随時、履
歴蓄積テーブルに蓄積しておく。障害が発生した際に
は、障害発生時点の履歴蓄積テーブルを作業履歴蓄積テ
ーブルとしてコピーする。この作業履歴蓄積テーブルと
メッセージテーブルの過去の事例の履歴をメッセージI
Dをキーにマッチングを行い、一致した数を履歴確信度
として格納する。続いて、障害が発生した時点のハード
ウェア/ソフトウェアの稼動状況とメッセージテーブル
の過去の事例が発生した時点のハードウェア/ソフトウ
ェアの稼動状況をハードウェア/ソフトウェア名及び監
視項目をキーにマッチングを行い、一致した数を監視確
信度として格納する。そして、履歴確信度が最大の事例
を最適事例とする(履歴確信度が最大の事例が複数存在
する際には、監視確信度が最大の事例とする)。なお、
障害メッセージの原因及び分類情報、過去の事例情報は
メッセージテーブルで管理する。続いて、障害の原因の
表示と最適事例の対処方法の表示を行う。対処による障
害回復については、対処コマンドと対処確認コマンドの
実行及び結果確認により行う。
The message output from the online system to the monitoring terminal is constantly monitored by the message monitoring module, and the history of the output message for a certain period of time is accumulated in the history accumulation table as needed. When a failure occurs, the history accumulation table at the time of occurrence of the failure is copied as a work history accumulation table. The history of past cases in the work history accumulation table and the message table is stored in the message I
Matching is performed using D as a key, and the number of matches is stored as a history certainty factor. Subsequently, the operation status of the hardware / software at the time of occurrence of the failure and the operation status of the hardware / software at the time of occurrence of the past case in the message table are matched with the hardware / software name and the monitoring item as keys. And the number of matches is stored as the monitoring certainty factor. Then, the case with the highest historical certainty is determined as the optimal case (when there are a plurality of cases with the highest historical certainty, the case with the highest monitoring certainty is determined). In addition,
Cause and classification information of fault messages and past case information are managed in a message table. Subsequently, the cause of the failure is displayed and the method of coping with the optimum case is displayed. Recovery from failure by handling is performed by executing a handling command and a handling confirmation command and confirming the result.

【0011】ハードウェアの監視と、ソフトウェアの監
視を常時行い、ハードウェア及びソフトウェアの障害に
ついて、障害に関する原因と、障害の対処方法の表示を
リアルタイムに実現することを特徴とする障害解析方
法。
[0011] A failure analysis method characterized by constantly monitoring hardware and software, and real-time display of the cause of the failure and the method of dealing with the failure of the hardware and software is realized.

【0012】障害に関係する情報は、障害の原因に関係
する情報と、過去の障害の事例に関係する情報の2種類
とする。
There are two types of information related to the fault, information related to the cause of the fault and information related to past fault cases.

【0013】[0013]

【発明の実施の形態】以下、本発明の実施の形態を詳細
に説明する。
Embodiments of the present invention will be described below in detail.

【0014】図1、図2、図3、図4は、本発明をオン
ラインシステムに適用した場合の処理手順の実施の形態
を示すフローチャートであり、図5は、本発明に係るオ
ンラインシステム障害解析方法の構成を示すブロック図
である。図6及び図7は、本発明に係るオンラインシス
テム障害解析方法を実現する際に利用するデータテーブ
ルである。
FIGS. 1, 2, 3 and 4 are flowcharts showing an embodiment of a processing procedure when the present invention is applied to an online system, and FIG. 5 is an online system failure analysis according to the present invention. It is a block diagram showing composition of a method. 6 and 7 are data tables used when implementing the online system failure analysis method according to the present invention.

【0015】図5において、障害解析処理を監視端末に
おける5つのモジュールにより実現する。メッセージ監
視モジュール12は、まず、オンラインシステム10か
らメッセージ取得部11を通じて監視端末側へ出力され
る全てのメッセージを履歴蓄積テーブル17へ格納す
る。次に、出力メッセージに関する分類情報をメッセー
ジテーブル19へ参照し、履歴蓄積テーブル17へ格納
する。ハードウェア監視モジュール13は、ハードウェ
ア稼動状況を常時監視しており、ハードウェア監視テー
ブル20に格納する。ソフトウェア監視モジュール14
は、ソフトウェア稼動状況を常時監視しており、ソフト
ウェア監視テーブル21に格納する。履歴蓄積テーブル
17は、オンラインシステム10から出力されるメッセ
ージの履歴に関係する情報を蓄積する為に用いられる。
作業履歴蓄積テーブル18は、障害発生時点のメッセー
ジの履歴に確保し、メッセージテーブルの過去の事例の
履歴との比較を行う為に用いられる。対処履歴テーブル
22は、障害発生後の対処結果を格納する為に用いられ
る。メッセージテーブル19には、監視対象のメッセー
ジがメッセージIDをキーとして、ハードウェア/ソフ
トウェア別、システムメッセージ/アプリケーションメ
ッセージ別に分類した形で格納されている。ハードウェ
ア監視テーブル20は、ハードウェアの稼動状況を常時
監視する為のテーブルであり、監視対象の設定は予め設
定しておくものとする。ソフトウェア監視テーブル21
は、ソフトウェアの稼動状況を常時監視する為のテーブ
ルであり、監視対象の設定は予め設定しておくものとす
る。障害解析モジュール15は、障害が発生した際に起
動され、障害の原因の表示と過去の最適事例の対処方法
の表示を行い、対処結果を対処履歴テーブル22に格納
する。対処履歴テーブル22は、発生した障害メッセー
ジに対する対処の情報を格納する為のテーブルである。
In FIG. 5, the failure analysis processing is realized by five modules in the monitoring terminal. The message monitoring module 12 first stores all messages output from the online system 10 to the monitoring terminal via the message acquisition unit 11 in the history accumulation table 17. Next, the classification information relating to the output message is referred to the message table 19 and stored in the history accumulation table 17. The hardware monitoring module 13 constantly monitors the operating status of the hardware, and stores it in the hardware monitoring table 20. Software monitoring module 14
, Constantly monitors the software operation status, and stores it in the software monitoring table 21. The history accumulation table 17 is used to accumulate information related to the history of messages output from the online system 10.
The work history storage table 18 is used to secure a message history at the time of occurrence of a failure and to compare the message history with a history of past cases in the message table. The handling history table 22 is used to store a handling result after a failure has occurred. The message to be monitored is stored in the message table 19 in a form categorized by hardware / software and system message / application message using the message ID as a key. The hardware monitoring table 20 is a table for constantly monitoring the operation status of the hardware, and the setting of the monitoring target is set in advance. Software monitoring table 21
Is a table for constantly monitoring the operation status of the software, and the setting of the monitoring target is set in advance. The failure analysis module 15 is activated when a failure occurs, displays the cause of the failure, displays a method of coping with a past optimum case, and stores the coping result in the coping history table 22. The handling history table 22 is a table for storing information on the handling of a fault message that has occurred.

【0016】図6及び図7は、図5における各テーブル
のレコードフォーマットであり、以下、図6及び図7の
各テーブルの関係について説明する。図6A<履歴蓄積
テーブル及び作業履歴蓄積テーブル>は、図5の履歴蓄
積テーブル17及び作業履歴蓄積テーブル18のレコー
ドフォーマットである。ここで、図6A<履歴蓄積テー
ブル及び作業履歴蓄積テーブル>の各項目について説明
する。メッセージIDは図5のオンラインシステム10
から図5の監視端末に出力されるメッセージを識別する
キーとして用い、メッセージが発生する度に図5A<履
歴蓄積テーブル>に蓄積される。発生時刻にはメッセー
ジが出力された時刻を格納する。ソフト/ハード区分及
び障害/警告区分には図6B<メッセージテーブル>を
参照し、格納する。メッセージには出力されたメッセー
ジの中のコメント情報をテキスト形式で格納する。図6
B<メッセージテーブル>は、図5のメッセージテーブ
ル19のレコードフォーマットである。続いて、図6B
<メッセージテーブル>の各項目について説明する。メ
ッセージIDは図6B<メッセージテーブル>における
キーとして管理されており、ハードウェア/ソフトウェ
ア別、システムメッセージ/アプリケーションメッセー
ジ別に分類されている。障害/警告区分はメッセージが
障害を意味するか警告を意味するかを示すものである。
原因はマニュアルに掲載されている情報であり、重要度
はメッセージの持つ意味合いを示すものである。事例件
数は、過去の事例を図6B<メッセージテーブル>に何
件格納してあるかを示す。障害メッセージについての
み、過去の事例が発生した時の出力メッセージの履歴を
履歴蓄積テーブルで、過去の事例の対処に関する情報を
対処テーブルでそれぞれ管理している。続いて、図6C
<対処テーブル>の各項目について説明する。図6C<
対処テーブル>には発生した障害に対して行った対処方
法を格納する。対処策には実際の対処策の内容を格納す
る。対処コマンドには実際の対処に用いたコマンドを格
納し、対処結果コマンドには対処コマンドの実行結果を
格納する。対処確認コマンドには対処コマンドが正しく
実行されたかを確認するコマンドを格納し、対処確認結
果には対処確認コマンドの実行結果の確認事項を格納す
る。履歴確信度には障害発生時点の図6A<作業履歴蓄
積テーブル>と図6B<メッセージテーブル>に格納さ
れている事例の履歴蓄積テーブルとのメッセージIDを
キーとしたマッチングの結果を格納する。監視確信度に
は障害発生時点のハードウェア/ソフトウェア稼動状況
をハードウェア/ソフトウェア名及び監視項目をキーと
したマッチングの結果を格納する。自動/手動対処設定
には、過去の障害の中で最も確信度が高かった場合に自
動的に対処を行うかどうかを設定する。続いて、図7D
<ハードウェア監視テーブル>は、図5のハードウェア
監視テーブル20のレコードフォーマットであり、ハー
ドウェア別に監視項目及び監視結果を設定する。図7E
<ソフトウェア監視テーブル>は、図5のソフトウェア
監視テーブル21のレコードフォーマットであり、ソフ
トウェア別に監視項目及び監視結果を設定する。図7F
<対処履歴テーブル>は、図5の対処履歴テーブル22
のレコードフォーマットであり、発生した障害メッセー
ジに対する対処が終了した時点で格納する為のテーブル
であり、障害解析が終了した時点で図4のメッセージテ
ーブル19に事例として格納する。
FIGS. 6 and 7 show the record format of each table in FIG. 5. The relationship between the tables in FIGS. 6 and 7 will be described below. FIG. 6A is a record format of the history accumulation table 17 and the work history accumulation table 18 in FIG. Here, each item of FIG. 6A <history accumulation table and work history accumulation table> will be described. The message ID is the online system 10 in FIG.
5 is used as a key for identifying a message output to the monitoring terminal of FIG. 5 and is accumulated in the <history accumulation table> of FIG. 5A every time a message occurs. The occurrence time stores the time when the message was output. The software / hardware division and the failure / warning division are stored with reference to FIG. 6B <message table>. The message stores comment information in the output message in text format. FIG.
B <message table> is a record format of the message table 19 in FIG. Subsequently, FIG. 6B
Each item of the <message table> will be described. The message ID is managed as a key in FIG. 6B <message table>, and is classified by hardware / software and system message / application message. The fault / warning category indicates whether the message indicates a fault or a warning.
The cause is information described in the manual, and the importance indicates the meaning of the message. The number of cases indicates how many past cases are stored in the <message table> in FIG. 6B. For only the fault message, the history of the output message when a past case has occurred is managed in a history accumulation table, and the information on the handling of the past case is managed in a handling table. Then, FIG. 6C
Each item of the <action table> will be described. FIG. 6C <
The countermeasure table> stores the countermeasures taken for the fault that has occurred. In the countermeasure, the content of the actual countermeasure is stored. The response command stores the command used for the actual response, and the response result command stores the execution result of the response command. The response confirmation command stores a command for confirming that the response command has been executed correctly, and the response confirmation result stores confirmation items of the execution result of the response confirmation command. In the history certainty factor, the result of matching using a message ID as a key between the failure accumulation time table shown in FIG. 6A <work history accumulation table> and the case history accumulation table stored in FIG. 6B <message table> is stored. In the monitoring certainty factor, the result of matching using the hardware / software operating status at the time of occurrence of the failure and the hardware / software name and the monitoring item as keys is stored. In the automatic / manual response setting, it is set whether a response is automatically performed when the degree of certainty is highest among past failures. Subsequently, FIG. 7D
<Hardware monitoring table> is a record format of the hardware monitoring table 20 of FIG. 5, and sets a monitoring item and a monitoring result for each hardware. FIG. 7E
<Software monitoring table> is a record format of the software monitoring table 21 in FIG. 5, and sets a monitoring item and a monitoring result for each software. FIG. 7F
The <response history table> corresponds to the response history table 22 in FIG.
This is a table for storing when the handling of the generated failure message is completed, and is stored as an example in the message table 19 of FIG. 4 when the failure analysis is completed.

【0017】次に図1、図2、図3、図4のフローチャ
ートに基いて図5の各動作を説明する。
Next, each operation of FIG. 5 will be described based on the flowcharts of FIGS. 1, 2, 3, and 4.

【0018】図5のメッセージ監視モジュール12の起
動(ステップ100)から終了までの動作を説明する。
障害解析を終了するまで処理を行う(ステップ10
2)。まず、図5のオンラインシステム10よりメッセ
ージが出力されているかを確認する(ステップ10
4)。出力されていればメッセージIDをキーに図5の
メッセージテーブル19を参照し、図5の履歴蓄積テー
ブル17に出力メッセージに関する情報を蓄積する(ス
テップ106)。蓄積する際、図5メッセージテーブル
19からメッセージID、発生時刻、ソフト/ハード区
分、障害/警告区分、メッセージを参照する。図5のメ
ッセージテーブル19に登録されていないメッセージが
出力された場合には履歴蓄積テーブルへの蓄積を行わな
い。次に、出力メッセージが障害メッセージであるかを
判別し(ステップ108)、障害である場合以下の処理
を行う。まず、障害メッセージ発生時点の履歴蓄積テー
ブルを作業履歴蓄積テーブルとしてコピーする(ステッ
プ110)。続いて、障害メッセージがハードウェアに
関するものであれば(ステップ112)、ハードウェア
監視テーブルを更新する(ステップ114)。ハードウ
ェアに関するものでなければソフトウェア監視テーブル
を更新する(ステップ116)。続いて、図5のメッセ
ージテーブル19に対処方法が存在する場合には(ステ
ップ118)、図5の障害解析モジュールを起動する
(ステップ120)。対処方法が存在しない場合には、
障害の原因のみを表示する(ステップ122)。対処方
法が存在するかの判別は図6B<メッセージテーブル>
の事例件数が0がどうかで行う。
The operation from the start (step 100) to the end of the message monitoring module 12 in FIG. 5 will be described.
Processing is performed until the failure analysis is completed (step 10
2). First, it is confirmed whether a message is output from the online system 10 of FIG. 5 (step 10).
4). If the message has been output, the message ID is used as a key to refer to the message table 19 in FIG. 5, and the information on the output message is accumulated in the history accumulation table 17 in FIG. 5 (step 106). At the time of storing, the message ID, the occurrence time, the soft / hard classification, the failure / warning classification, and the message are referred from the message table 19 in FIG. When a message not registered in the message table 19 of FIG. 5 is output, the message is not stored in the history storage table. Next, it is determined whether the output message is a failure message (step 108), and if it is a failure, the following processing is performed. First, the history accumulation table at the time of occurrence of the failure message is copied as a work history accumulation table (step 110). Subsequently, if the failure message is related to hardware (step 112), the hardware monitoring table is updated (step 114). If not, the software monitoring table is updated (step 116). Subsequently, if a countermeasure exists in the message table 19 of FIG. 5 (step 118), the failure analysis module of FIG. 5 is started (step 120). If no workaround exists,
Only the cause of the failure is displayed (step 122). FIG. 6B <Message Table>
Is performed depending on whether the number of cases is 0 or not.

【0019】続いて図5のハードウェア監視モジュール
13の起動(ステップ130)から終了までの処理を説
明する。ハードウェア監視モジュール13では、障害解
析が終わるまで(ステップ132)、ハードウェア管理
テーブル20にハードウェアの稼動状況を格納する(ス
テップ134)。
Next, the processing from activation (step 130) to termination of the hardware monitoring module 13 in FIG. 5 will be described. The hardware monitoring module 13 stores the operating status of the hardware in the hardware management table 20 until the failure analysis is completed (Step 132) (Step 134).

【0020】続いて図5のソフトウェア監視モジュール
14の起動(ステップ140)から終了までの処理を説
明する。ソフトウェア監視モジュール14では、障害解
析が終わるまで(ステップ142)、ソフトウェア管理
テーブル21にソフトウェアの稼動状況を格納する(ス
テップ144)。
Next, the processing from activation (step 140) to termination of the software monitoring module 14 of FIG. 5 will be described. The software monitoring module 14 stores the operating status of the software in the software management table 21 until the failure analysis is completed (Step 142) (Step 144).

【0021】続いて図5の障害解析モジュール15の起
動(ステップ150)から終了までの処理を説明する。
まず、過去の事例の中から最適事例を求める際に用いる
カウンタを1にする(ステップ152)。まず、カウン
タが図6B<メッセージテーブル>の事例件数より大き
いかを判別する(ステップ154)。大きくない場合、
カウンタの示す順番に格納されている事例の履歴蓄積テ
ーブルと作業履歴蓄積テーブルとのメッセージIDをキ
ーとしたマッチング結果の図6C<対処テーブル>の履
歴確信度へ格納する。続いて、カウンタの示す順番に格
納されている事例の図6A<履歴蓄積テーブル>のソフ
トウェア/ハードウェア監視テーブルと図7D及びEの
ソフトウェア/ハードウェア監視テーブルとのハードウ
ェア/ソフトウェア名及び監視項目をキーとしたマッチ
ングの結果を監視確信度へ格納する。続いて、カウンタ
に1を加える(ステップ168)。カウンタが図6B<
メッセージテーブル>の事例件数より大きい場合、以下
の処理を行う(ステップ154)。履歴確信度が最大の
事例を最適事例とし(履歴確信度が最大の事例が複数存
在する際には、監視確信度が最大の事例とする)、障害
の原因の表示と過去の最適事例表示を行う(ステップ1
56)。続いて、図6C<対処テーブル>の自動/手動
対処設定を参照し、対処が自動設定になっているかを判
別する(ステップ158)。自動設定になっていない場
合、対処モジュールを起動し、人による対処を行う(ス
テップ166)。自動設定になっている場合、図6C<
対処テーブル>の対処コマンド及び対処確認コマンドを
実行する(ステップ160)。続いて、障害回復したど
うかを図7F<対処履歴テーブル>の対処結果と対処確
認結果を比較して判別し(ステップ162)、回復した
場合には障害回復の表示を行う(ステップ164)。回
復していない場合、対処モジュールを起動し、人による
対処を行う(ステップ166)。
Next, the processing from the start (step 150) to the end of the failure analysis module 15 in FIG. 5 will be described.
First, the counter used for finding the optimum case from the past cases is set to 1 (step 152). First, it is determined whether the counter is larger than the number of cases in FIG. 6B <message table> (step 154). If not,
The matching result is stored in the history certainty factor of FIG. 6C <action table> of the matching result using the message ID of the history storage table and the work history storage table of the cases stored in the order indicated by the counter as keys. Subsequently, the hardware / software names and monitoring items of the software / hardware monitoring table of FIG. 6A <history accumulation table> and the software / hardware monitoring tables of FIGS. 7D and 7E of the cases stored in the order indicated by the counter Is stored in the monitoring certainty factor. Subsequently, 1 is added to the counter (step 168). The counter is shown in FIG.
If it is larger than the number of cases in the message table>, the following processing is performed (step 154). The case with the highest historical certainty is taken as the best case (when there are multiple cases with the highest historical certainty, the case with the highest monitoring certainty is taken). Do (Step 1
56). Subsequently, referring to the automatic / manual countermeasure setting in FIG. 6C <countermeasure table>, it is determined whether the countermeasure is set automatically (step 158). If the automatic setting has not been made, the coping module is activated and a coping is performed by a person (step 166). In the case of automatic setting, FIG.
The action command and the action confirmation command of the action table> are executed (step 160). Subsequently, it is determined whether or not the failure has been recovered by comparing the response result and the response confirmation result in the <response history table> of FIG. 7F (step 162), and when recovery has been performed, the failure recovery is displayed (step 164). If not recovered, the coping module is activated and a coping by a person is performed (step 166).

【0022】続いて図5の対処モジュール16の起動
(ステップ170)から終了までの処理を説明する。ま
ず、人による対処入力を待ち(ステップ172)、入力
後、図7F<対処履歴テーブル>に対処結果及び対処確
認結果を格納する(ステップ174)。障害回復したど
うかを図7F<対処履歴テーブル>の対処結果と対処確
認結果を比較して判別し(ステップ176)、回復した
場合には障害回復の表示を行う(ステップ178)。回
復していない場合、人による対処を行う(ステップ17
2、174、176)。
Next, the processing from activation (step 170) to termination of the handling module 16 in FIG. 5 will be described. First, a response input by a person is waited for (step 172), and after the input, a response result and a response confirmation result are stored in FIG. 7F <response history table> (step 174). Whether or not the failure has been recovered is determined by comparing the response result and the response confirmation result in FIG. 7F <response history table> (step 176), and when recovery has been performed, failure recovery is displayed (step 178). If it has not recovered, a human response is taken (step 17).
2, 174, 176).

【0023】[0023]

【発明の効果】以上述べたように、本発明によれば、複
数のハードウェア装置及びソフトウェアから構成される
オンラインシステムの障害にリアルタイムな対処を可能
とすることができるので、障害発生による損害を最小限
に抑えることが出来る。また、従来人間が行っていた複
雑な障害回復作業を機械化して支援することにより、専
門の知識を持たない人でも障害回復作業を行うことがで
きる。
As described above, according to the present invention, it is possible to deal with a failure of an online system composed of a plurality of hardware devices and software in real time. Can be minimized. In addition, by mechanizing and supporting a complicated failure recovery operation conventionally performed by a human, even a person without specialized knowledge can perform the failure recovery operation.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の処理手順の実施の形態を示すフローチ
ャートである。
FIG. 1 is a flowchart showing an embodiment of a processing procedure of the present invention.

【図2】本発明の処理手順の実施の形態を示すフローチ
ャートである。
FIG. 2 is a flowchart showing an embodiment of a processing procedure of the present invention.

【図3】本発明の処理手順の実施の形態を示すフローチ
ャートである。
FIG. 3 is a flowchart showing an embodiment of a processing procedure of the present invention.

【図4】本発明の処理手順の実施の形態を示すフローチ
ャートである。
FIG. 4 is a flowchart showing an embodiment of a processing procedure of the present invention.

【図5】本発明に係わるオンラインシステム障害解析方
法を構成するシステムブロック図である。
FIG. 5 is a system block diagram of an online system failure analysis method according to the present invention.

【図6】本発明に係わるオンラインシステム障害解析シ
ステムを構成するデータテーブルである。
FIG. 6 is a data table constituting an online system failure analysis system according to the present invention.

【図7】本発明に係わるオンラインシステム障害解析シ
ステムを構成するデータテーブルである。
FIG. 7 is a data table constituting an online system failure analysis system according to the present invention.

【符号の説明】 10 オンラインシステム 11 メッセージ取得部 12 メッセージ監視モジュール 13 ハードウェア監視モジュール 14 ソフトウェア監視モジュール 15 障害解析監視モジュール 16 対処モジュール 17 履歴蓄積テーブル 18 作業履歴蓄積テーブル 19 メッセージテーブル 20 ハードウェア監視テーブル 21 ソフトウェア監視テーブル 22 対処履歴監視テーブル。[Description of Signs] 10 online system 11 message acquisition unit 12 message monitoring module 13 hardware monitoring module 14 software monitoring module 15 failure analysis monitoring module 16 handling module 17 history accumulation table 18 work history accumulation table 19 message table 20 hardware monitoring table 21 Software monitoring table 22 Response history monitoring table.

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】システムから出力されるデータに関係する
情報を蓄積し、障害に関する情報と、システムから出力
されるデータに関係する情報との対応関係を検査し、対
応が一致したときは、障害に関係する原因と、障害の対
処方法の表示を実現することを特徴とする障害解析方
法。
1. A method for accumulating information relating to data output from a system, checking a correspondence between information relating to a failure and information relating to data outputted from the system, and detecting a failure when the correspondences match. A failure analysis method characterized by realizing the display of the cause related to the failure and the method of dealing with the failure.
【請求項2】請求項1において、ハードウェアの監視
と、ソフトウェアの監視を常時行い、ハードウェア及び
ソフトウェアの障害について、障害に関する原因と、障
害の対処方法の表示を実現することを特徴とする障害解
析方法。
2. The method according to claim 1, wherein the monitoring of the hardware and the monitoring of the software are constantly performed, and for the failure of the hardware and the software, the cause of the failure and the method of dealing with the failure are displayed. Failure analysis method.
【請求項3】請求項2において、障害に関係する情報
は、障害の原因に関係する情報と、過去の障害の事例に
関係する情報を管理することを特徴とする障害解析方
法。
3. The failure analysis method according to claim 2, wherein the information relating to the failure manages information relating to a cause of the failure and information relating to past cases of the failure.
JP9120484A 1997-05-12 1997-05-12 On-line system fault analyzing method Pending JPH10312321A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9120484A JPH10312321A (en) 1997-05-12 1997-05-12 On-line system fault analyzing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9120484A JPH10312321A (en) 1997-05-12 1997-05-12 On-line system fault analyzing method

Publications (1)

Publication Number Publication Date
JPH10312321A true JPH10312321A (en) 1998-11-24

Family

ID=14787331

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9120484A Pending JPH10312321A (en) 1997-05-12 1997-05-12 On-line system fault analyzing method

Country Status (1)

Country Link
JP (1) JPH10312321A (en)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6901535B2 (en) 1999-12-28 2005-05-31 Kabushiki Kaisha Toshiba Information processing apparatus, defect analysis program, and defect analysis method
JP2005276098A (en) * 2004-03-26 2005-10-06 Fujitsu Ltd Error correction support program, and recording medium therefor, error correction support device, and error correction support method
US7069473B2 (en) 2001-10-05 2006-06-27 Nec Corporation Computer recovery method and system for recovering automatically from fault, and fault monitoring apparatus and program used in computer system
WO2007013527A1 (en) * 2005-07-27 2007-02-01 Nec Corporation Management supporting system, management supporting method, and management supporting program
JP2009048403A (en) * 2007-08-20 2009-03-05 Hitachi Information Systems Ltd System failure recovery device, command generation method therefor, and program thereof
JP2010079528A (en) * 2008-09-25 2010-04-08 Fuji Xerox Co Ltd Image processing apparatus and fault information management system
JP2012174079A (en) * 2011-02-23 2012-09-10 Dainippon Printing Co Ltd Equipment management system
WO2012132101A1 (en) * 2011-03-29 2012-10-04 オムロン株式会社 Information processing device, and failure response program
JP2014049045A (en) * 2012-09-03 2014-03-17 Hitachi Solutions Ltd Counter-failure system for job management system and program therefor
JP2017509262A (en) * 2014-03-24 2017-03-30 マイクロソフト テクノロジー ライセンシング,エルエルシー Identify network failure troubleshooting options

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56149655A (en) * 1980-04-21 1981-11-19 Mitsubishi Paper Mills Ltd Detecting method of desired phenomenon in electronic computer system
JPS63182754A (en) * 1987-01-26 1988-07-28 Nec Corp System for editing and outputting fault analysis information
JPH03150643A (en) * 1989-11-08 1991-06-27 Hitachi Ltd Fault monitoring device and control method for information processing system
JPH04178743A (en) * 1990-11-13 1992-06-25 Nippon Denki Joho Service Kk Monitor device for remote operation
JPH0652018A (en) * 1992-07-31 1994-02-25 Fujitsu Ltd Error display system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56149655A (en) * 1980-04-21 1981-11-19 Mitsubishi Paper Mills Ltd Detecting method of desired phenomenon in electronic computer system
JPS63182754A (en) * 1987-01-26 1988-07-28 Nec Corp System for editing and outputting fault analysis information
JPH03150643A (en) * 1989-11-08 1991-06-27 Hitachi Ltd Fault monitoring device and control method for information processing system
JPH04178743A (en) * 1990-11-13 1992-06-25 Nippon Denki Joho Service Kk Monitor device for remote operation
JPH0652018A (en) * 1992-07-31 1994-02-25 Fujitsu Ltd Error display system

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6901535B2 (en) 1999-12-28 2005-05-31 Kabushiki Kaisha Toshiba Information processing apparatus, defect analysis program, and defect analysis method
US7069473B2 (en) 2001-10-05 2006-06-27 Nec Corporation Computer recovery method and system for recovering automatically from fault, and fault monitoring apparatus and program used in computer system
JP2005276098A (en) * 2004-03-26 2005-10-06 Fujitsu Ltd Error correction support program, and recording medium therefor, error correction support device, and error correction support method
WO2007013527A1 (en) * 2005-07-27 2007-02-01 Nec Corporation Management supporting system, management supporting method, and management supporting program
JP2007034739A (en) * 2005-07-27 2007-02-08 Nec Corp Management support system, management support method and management support program
US7949906B2 (en) 2005-07-27 2011-05-24 Nec Corporation Management supporting system, management supporting method, and management supporting program
JP2009048403A (en) * 2007-08-20 2009-03-05 Hitachi Information Systems Ltd System failure recovery device, command generation method therefor, and program thereof
JP2010079528A (en) * 2008-09-25 2010-04-08 Fuji Xerox Co Ltd Image processing apparatus and fault information management system
JP2012174079A (en) * 2011-02-23 2012-09-10 Dainippon Printing Co Ltd Equipment management system
WO2012132101A1 (en) * 2011-03-29 2012-10-04 オムロン株式会社 Information processing device, and failure response program
JP2014049045A (en) * 2012-09-03 2014-03-17 Hitachi Solutions Ltd Counter-failure system for job management system and program therefor
JP2017509262A (en) * 2014-03-24 2017-03-30 マイクロソフト テクノロジー ライセンシング,エルエルシー Identify network failure troubleshooting options

Similar Documents

Publication Publication Date Title
US5287505A (en) On-line problem management of remote data processing systems, using local problem determination procedures and a centralized database
EP2161664B1 (en) System and method for detecting temporal relationships uniquely associated with an underlying root cause
JPH10312321A (en) On-line system fault analyzing method
CN113312200A (en) Event processing method and device, computer equipment and storage medium
CN113609119A (en) Data account checking and repairing method and device, storage medium and electronic equipment
CN109101398A (en) AOI wire body monitoring method and system
CN111752741A (en) System performance detection method and device
JP2007257581A (en) Failure analysis device
WO2010010393A1 (en) Monitoring of backup activity on a computer system
CN104346233B (en) A kind of fault recovery method and device for computer system
JP3867868B2 (en) Fault integrated management device
JPH05260049A (en) Fault managing method for network system
CN111813872B (en) Method, device and equipment for generating fault troubleshooting model
JP2008198123A (en) Fault detection system and fault detection program
KR100506248B1 (en) How to Diagnose Links in a Private Switching System
JP2003085003A (en) Fault restoration assist method and fault restoration assist system
JP2011192201A (en) Remote maintenance system and remote maintenance method
JP2007201798A (en) System and method for managing telecommunication facilities
JP2004192293A (en) Software verification support tool
CN114338688B (en) Data management method and device
JP7334554B2 (en) Equipment management system and equipment management method
CN109656776B (en) Completeness inspection method and equipment for abnormal monitoring of computer system
JP2874578B2 (en) Multiple computer operation monitoring system
JP3533191B2 (en) Store POS terminal maintenance system
JP2000209202A (en) Network fault management system