JP2006293467A - Fault monitoring system - Google Patents

Fault monitoring system Download PDF

Info

Publication number
JP2006293467A
JP2006293467A JP2005109700A JP2005109700A JP2006293467A JP 2006293467 A JP2006293467 A JP 2006293467A JP 2005109700 A JP2005109700 A JP 2005109700A JP 2005109700 A JP2005109700 A JP 2005109700A JP 2006293467 A JP2006293467 A JP 2006293467A
Authority
JP
Japan
Prior art keywords
failure
notification
content
fault
countermeasure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005109700A
Other languages
Japanese (ja)
Inventor
Takeshi Shibazaki
武司 柴崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information Systems Ltd
Original Assignee
Hitachi Information Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Information Systems Ltd filed Critical Hitachi Information Systems Ltd
Priority to JP2005109700A priority Critical patent/JP2006293467A/en
Publication of JP2006293467A publication Critical patent/JP2006293467A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a fault monitoring system capable of accuratly and quickly dealing with occurred fault and preventing its reoccurrence, and capable of minimizing the effect of the fault on an operation system. <P>SOLUTION: When the occurrence of fault is detected by a notification distribution processing part 1, the fault contents are transmitted through a communication control part 7 to a predetermined notification destination by a mail transmission processing part 6, and the fault contents and the notification destination are stored so as to be associated with each other in a notification information DB 11 by a notification information storage processing part 3, and the result of countermeasure to the notified fault is received and stored in a notification status management DB 9 by a countermeasure result report registration processing part 4, and the regular transmission of a follow mail is operated until the countermeasures are completed by a status check/follow mail transmission processing part 5. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は、電話回線やコンピュータネットワーク等、複数機器から構成されるシステムにおける障害監視技術に係わり、特に、発生した障害の要因の特定および障害の再発防止等に有効な監視技術に関するものである。   The present invention relates to a failure monitoring technique in a system composed of a plurality of devices such as a telephone line and a computer network, and more particularly to a monitoring technique that is effective for identifying the cause of a failure that has occurred and preventing the recurrence of the failure.

電話回線やLAN、イントラネット等のネットワークにおいては、通常、その安定稼動を目的として、当該ネットワークに接続された各機器に障害が発生した場合、当該ネットワークに接続された監視装置が自動的に、発生した障害に関する情報を収集して、所定の通知先に通知を行う障害監視システムが実装されている。   In a network such as a telephone line, a LAN, or an intranet, a monitoring device connected to the network is automatically generated when a failure occurs in each device connected to the network for the purpose of stable operation. A failure monitoring system that collects information related to a failure and notifies a predetermined notification destination is implemented.

例えば、特許文献1においては、障害のレベルおよび発生頻度に応じて障害情報の通報を制御することができる障害自動通報装置に関する技術が開示されている。   For example, Patent Document 1 discloses a technology related to an automatic failure notification device that can control the notification of failure information according to the failure level and occurrence frequency.

しかし、この技術では、通報事象(障害)の検知および通知は行なっているが、実際に通報事象に対する処理・対策が実施されているかどうかのチェックまでは行なわれておらず、障害発生時の復旧が遅れることがある。   However, although this technology detects and notifies notification events (failures), it does not check whether the processing and countermeasures for the notification events are actually implemented, and recovery when a failure occurs. May be delayed.

特開平06−168160号公報Japanese Patent Laid-Open No. 06-168160

解決しようとする問題点は、上記従来の技術では、障害の発生を検出して通知することはできても、障害情報が確実に通知先に届いたのかの確認ができない点と、通知した障害に対する処置・対策が実際に実行されたのか、また、どのようにして行われたのかを監視することはできない点である。   The problems to be solved are that the conventional technology can detect and notify the occurrence of a failure, but cannot confirm whether the failure information has arrived at the notification destination. It is not possible to monitor whether and how the measures / measures for the above were actually executed.

本発明の目的は、これら従来技術の課題を解決し、発生した障害に対する確実で迅速な対応を可能とすると共に、一度発生した障害の再発防止を図ることを可能とし、かつ、ネットワークを利用した業務システムへの障害による影響を最小限に抑えることを可能とすることである。   The object of the present invention is to solve these problems of the prior art, enable a reliable and quick response to a failure that has occurred, prevent a recurrence of a failure that has occurred once, and use a network. It is possible to minimize the impact of failures on business systems.

上記目的を達成するため、本発明では、障害の発生を通知するのみに終わらず、通知した障害に対する対策として実行された処置内容を各障害毎に登録し、例えば表示装置等で表示出力する。また、通知した障害に対する対策処置が未実施で、当該障害が未解決であれば、定期的に、当該障害に関する情報を所定の通知先に通知してフォローする。その際、当該障害に対する対策がどこまで完了しているかを例えば3段階に分けて監視して、フォローする。3段階の監視・フォローとしては、(1)通知した障害に対する直接的な対策、(2)当該障害に起因する業務システムへの影響調査およびそれに対する対策、(3)今後の同一障害に対する再発防止策がある。このようにすることで、通知先に確実に障害情報が通知されたかの確認を行うことができると共に、通知した障害に対する対策、当該障害による業務への影響および対策、今後の再発防止策について効率的にフォローを行うことができる。   In order to achieve the above object, in the present invention, not only the occurrence of a failure is notified, but the treatment content executed as a countermeasure against the notified failure is registered for each failure, and displayed on a display device or the like, for example. In addition, if no countermeasure is taken for the notified failure and the failure has not been resolved, information on the failure is periodically notified to a predetermined notification destination and followed. At that time, it is monitored, for example, in three stages to determine how far the measure against the failure has been completed. There are three stages of monitoring and follow-up: (1) Direct measures for reported failures, (2) Investigation of effects on business systems caused by the failures and countermeasures, (3) Prevention of recurrence for future identical failures There is a solution. In this way, it is possible to confirm whether or not failure information has been notified to the notification destination, and it is efficient to take measures against the notified failure, its impact on the business and measures, and prevent future recurrence. Can follow.

本発明によれば、障害の発生を検出して通知することだけでなく、障害情報が確実に通知先に届いたのかを確認することができると共に、通知した障害に対する処置・対策が実際に実行されたのか、また、どのようにして行われたのかを監視することができ、障害情報の通知漏れを防ぐことが可能となると共に、発生した障害に対する確実で迅速な対応が可能となり、当該障害の再発防止を図ること、および、ネットワークを利用した業務システムへの障害による影響を最小限に抑えることが可能となる。   According to the present invention, it is possible not only to detect and notify the occurrence of a failure, but also to check whether the failure information has surely arrived at the notification destination and to actually execute the measures and countermeasures for the notified failure. It is possible to monitor the failure and how it was done, and to prevent the failure of notification of failure information. It is possible to prevent the recurrence of the problem and minimize the influence of the failure on the business system using the network.

以下、図を用いて本発明を実施するための最良の形態例を説明する。図1は、本発明に係わる障害監視システムの構成例を示すブロック図であり、図2は、図1における通報ID取得処理部の処理動作例を示すフローチャート、図3は、図1における通報情報格納処理部の処理動作例を示すフローチャート、図4は、図1における対策結果報告登録処理部の処理動作例を示すフローチャート、図5は、図1におけるステータスチェック・フォローメール送信処理部の処理動作例を示すフローチャート、図6は、図1における通報ID情報DBの登録内容例を示す説明図、図7は、図1における通報情報DBの登録内容例を示す説明図、図8は、図1における通報ステータス管理DBの登録内容例を示す説明図、図9は、図1における通報対策完了DBの登録内容例を示す説明図である。   The best mode for carrying out the present invention will be described below with reference to the drawings. 1 is a block diagram showing a configuration example of a failure monitoring system according to the present invention, FIG. 2 is a flowchart showing an example of processing operation of a report ID acquisition processing unit in FIG. 1, and FIG. 3 is report information in FIG. FIG. 4 is a flowchart showing an example of the processing operation of the countermeasure result report registration processing unit in FIG. 1, and FIG. 5 is a processing operation of the status check / follow mail transmission processing unit in FIG. FIG. 6 is an explanatory diagram showing an example of registered contents of the report ID information DB in FIG. 1, FIG. 7 is an explanatory diagram showing an example of registered contents of the report information DB in FIG. 1, and FIG. FIG. 9 is an explanatory diagram showing an example of registered contents of the report countermeasure completion DB in FIG. 1.

図1において、1は通報振り分け処理部、6はメール送信処理部、7は通信制御部(NCU)、8は対策メール受信処理部であり、これらは、既知の技術である。   In FIG. 1, 1 is a report distribution processing unit, 6 is a mail transmission processing unit, 7 is a communication control unit (NCU), and 8 is a countermeasure mail reception processing unit, which are known techniques.

これに対して、図1における通報対策管理処理部13が特に本発明に特徴的な機能を提供するものであり、通報対策管理処理部13は、通報ID取得処理部2、通報情報格納処理部3、対策結果報告処理部4、ステータスチェック・フォローメール送信処理部5、データベース(DB)14を有し、このデータベース(DB)14は、通報ステータス管理DB9、通報ID情報DB10、通報情報DB11、通報対策完了DB12からなる。   On the other hand, the notification countermeasure management processing unit 13 in FIG. 1 provides a function that is particularly characteristic of the present invention. The notification countermeasure management processing unit 13 includes the notification ID acquisition processing unit 2, the notification information storage processing unit. 3, a countermeasure result report processing unit 4, a status check / follow mail transmission processing unit 5, and a database (DB) 14, which are a report status management DB 9, a report ID information DB 10, a report information DB 11, Consists of report countermeasure completion DB12.

このような通報対策管理処理部13を構成する各処理部を含む、通報振り分け処理部1、メール送信処理部6、対策メール受信処理部8は、CPU(Central Processing Unit)や主記憶装置(主メモリ)、表示装置、入力装置、外部記憶装置、周辺装置等を具備したコンピュータにより構成される処理機能部であり、周辺装置としての光ディスク駆動装置等を介してCD−ROM等の記憶媒体に記録されたプログラムやデータを外部記憶装置内にインストールした後、この外部記憶装置から主メモリに読み込みCPUで処理することにより実現される。   The message distribution processing unit 1, the mail transmission processing unit 6, and the countermeasure mail reception processing unit 8 including each processing unit constituting the report countermeasure management processing unit 13 include a CPU (Central Processing Unit) and a main storage device (main storage device). Memory), display device, input device, external storage device, processing function unit composed of a computer equipped with a peripheral device, etc., recorded on a storage medium such as a CD-ROM via an optical disk drive device as a peripheral device The program and data are installed in the external storage device, and then read from the external storage device into the main memory and processed by the CPU.

通報対策管理処理部13は、通報ID取得処理部2により、通報対象の事象(通知する障害)に対して固有のID番号を割り当て、通報情報格納処理部3により、通報事象(障害)および通知先情報を格納し、対策結果報告登録処理部4により、通報事象(障害)に対する対策結果を格納し、ステータスチェック・フォローメール送信処理部5により、対策が完了するまで定期的にフォローメールを送信し、通報ID情報DB10において通報IDの情報を格納し、通報情報DB11において通報情報(障害内容)を格納し、通報対策完了DB12において対策内容情報を格納し、通報ステータス管理DB9において各障害(通報事象)に対する対策状況の進捗度合の情報を格納する。   The report countermeasure management processing unit 13 assigns a unique ID number to the event to be reported (failure to be notified) by the report ID acquisition processing unit 2, and the report information storage processing unit 3 reports and reports the event (failure) and notification Stores the destination information, stores the countermeasure result for the report event (failure) by the countermeasure result report registration processing section 4, and periodically sends a follow mail until the countermeasure is completed by the status check / follow mail transmission processing section 5. The report ID information DB 10 stores the report ID information, the report information DB 11 stores the report information (failure contents), the report countermeasure completion DB 12 stores the countermeasure content information, and the report status management DB 9 stores each fault (report Stores information on the degree of progress of countermeasure status against (event).

このような構成により、本例の障害監視システムでは、例えば、電話回線やLAN、イントラネット等のネットワークにおける、障害の発生を検出すると、検出した障害の内容を予め定められた通知先に通知すると共に、この障害内容の通知時刻を取得して当該障害内容に対応付けて登録し、かつ、登録した各障害内容に対して実行された処置内容を取得して各障害内容に対応付けて登録し、処置がなされていない障害に対しては定期的に通知先に通知を繰り返し、そして、このようにして登録した各障害に対する処置内容を読み出して、例えば表示装置等に出力する。   With such a configuration, in the fault monitoring system of this example, for example, when the occurrence of a fault is detected in a network such as a telephone line, a LAN, or an intranet, the content of the detected fault is notified to a predetermined notification destination. The failure time notification time is acquired and registered in association with the failure content, and the action content executed for each registered failure content is acquired and registered in association with each failure content. For a failure that has not been treated, notification is periodically repeated to the notification destination, and the treatment content for each failure registered in this way is read and output to, for example, a display device or the like.

すなわち、通知振り分け処理部1において障害の発生を検出すると、その障害内容(通報情報)を、メール送信処理部6により通信制御部7を介して予め定められた通知先に送信すると共に、通報対策管理処理部13において、上述の、通報ID取得処理部2による、通報対象の事象(障害)に対して固有のID番号を割り当て、通報情報格納処理部3による、通報事象(障害)および通知先情報の格納、対策結果報告登録処理部4による、通報事象(障害)に対する対策結果の格納、ステータスチェック・フォローメール送信処理部5による、対策が完了するまでの定期的なフォローメールの送信を行う。尚、対策結果報告登録処理部4により格納した各通報事象(障害)に対する対策結果は、図示していない表示装置等に表示する。   That is, when the occurrence of a failure is detected in the notification distribution processing unit 1, the content of the failure (report information) is transmitted by the mail transmission processing unit 6 to a predetermined notification destination via the communication control unit 7, and a countermeasure against the notification is made. In the management processing unit 13, a unique ID number is assigned to the event (failure) to be reported by the report ID acquisition processing unit 2 described above, and the report event (failure) and notification destination by the report information storage processing unit 3 are assigned. Information storage, countermeasure result report registration processing unit 4 stores countermeasure results for reporting events (failures), and status check / follow email transmission processing unit 5 sends periodic follow emails until countermeasures are completed. . The countermeasure result for each notification event (failure) stored by the countermeasure result report registration processing unit 4 is displayed on a display device (not shown).

以下、図2および図6を用いて、通報ID取得処理部2による、通報対象の事象(障害)に対して固有のID番号を割り当て処理を、図3および図7を用いて、通報情報格納処理部3による、通報事象(障害)および通知先情報の格納処理を、図4および図8を用いて、対策結果報告登録処理部4による、通報事象(障害)に対する対策結果の格納処理を、図5および図7〜図9を用いて、ステータスチェック・フォローメール送信処理部5による、対策が完了するまでの定期的なフォローメールの送信処理を説明する。   Hereinafter, the process of assigning a unique ID number to the event (failure) to be reported by the report ID acquisition processing unit 2 using FIG. 2 and FIG. 6, and storing the report information using FIG. 3 and FIG. The storing process of the notification event (failure) and the notification destination information by the processing unit 3, the storing process of the countermeasure result for the reporting event (failure) by the countermeasure result report registration processing unit 4 using FIG. 4 and FIG. With reference to FIG. 5 and FIG. 7 to FIG. 9, periodic follow mail transmission processing until the countermeasure is completed by the status check / follow mail transmission processing unit 5 will be described.

図2に示すように、通報ID取得処理部2は、事象発生(通報振り分け処理部1からの障害発生の通知)に伴い、通報ID情報DB10に対してID取得依頼を行い(ステップ201)、当該通報ID情報DB10より未割当のIDを取得する(ステップ202)。   As shown in FIG. 2, the report ID acquisition processing unit 2 makes an ID acquisition request to the report ID information DB 10 when an event occurs (notification of the occurrence of a failure from the report distribution processing unit 1) (step 201). An unassigned ID is acquired from the notification ID information DB 10 (step 202).

そして、取得したIDに対して割当済みのフラグおよび現在時刻を通報ID情報DB10に設定する(ステップ203)。   Then, the flag already assigned to the acquired ID and the current time are set in the notification ID information DB 10 (step 203).

通報ID情報DB10には、図6の通報ID情報DB10aに示すように、項番、ID番号、割当日時、割当の列項目からなるテーブルが格納されており、項番には、6桁の000001からなる項目番号が昇順に連続して登録されており、ID番号には、通報事象(障害)毎に固有に割り当てられた番号(ここでは10桁の英数字)が登録され、割当日時には、ID番号を登録した際の日時が登録され、割当には、当該ID番号が既に割り当てられて登録済みか否かを示すフラグ(0:未割当、1:割当済み)が登録される。   As shown in the report ID information DB 10a of FIG. 6, the report ID information DB 10 stores a table composed of an item number, an ID number, an allocation date and time, and an allocation column item. The item number includes a 6-digit 000001. The item number consisting of is registered continuously in ascending order, and the ID number is a number uniquely assigned for each reporting event (failure) (here, 10-digit alphanumeric characters). The date and time when the ID number was registered is registered, and a flag indicating whether the ID number has already been assigned and registered (0: not assigned, 1: assigned) is registered in the assignment.

図3に示すように、通報情報格納処理部3は、通報ID取得処理部2からID番号を受け取り(ステップ301)、当該ID番号と、通報振り分け処理部1からの障害発生の通報日時、メール送信処理部6で障害内容を通知したメール送信先および通報内容(障害内容)を通報情報DB11に格納する(ステップ302)。   As shown in FIG. 3, the notification information storage processing unit 3 receives the ID number from the notification ID acquisition processing unit 2 (step 301), the ID number, the notification date and time of occurrence of a failure from the notification distribution processing unit 1, and the mail The mail transmission destination notified of the failure content by the transmission processing unit 6 and the notification content (failure content) are stored in the notification information DB 11 (step 302).

通報情報DB11には、図7の通報情報DB11aに示すように、ID番号、通報日時、メール送信先、通報内容の列項目からなるテーブルが格納されており、ID番号には、図6の通報ID情報DB10aで管理されているID番号と同様、通報事象(障害)毎に固有に割り当てられた番号(10桁の英数字)が登録され、通報日時には、通報事象発生時の日時が登録され、メール送信先には、通報事象に対するメール送信先(メール送信処理部6により送信されたメールアドレス)が登録され、通報内容には、メール送信処理部6により送信されたメール内容(障害内容)が登録される。   As shown in the report information DB 11a of FIG. 7, the report information DB 11 stores a table composed of column items of ID number, report date and time, mail destination, and report contents. Similar to the ID number managed in the ID information DB 10a, a number (10-digit alphanumeric characters) uniquely assigned to each notification event (failure) is registered, and the date and time when the notification event occurred is registered in the notification date and time. In the mail transmission destination, the mail transmission destination for the notification event (the mail address transmitted by the mail transmission processing unit 6) is registered, and in the notification content, the mail content (failure content) transmitted by the mail transmission processing unit 6 is registered. Is registered.

図4に示すように、対策結果報告登録処理部4は、通報先からの対策完了メールを受信し(ステップ401)、受信したメールのステータスのチェック(確認)を行う(ステップ402)。すなわち、受信したメールの題名より、対策完了ステータスの確認を行う。ここでは、発生した事象に対する直接的な対策を「0」、業務システムへの影響調査およびそれに対する対策を「1」、今後、同一の通報事象(障害)の再発生防止のための再発防止策を「2」とする。また、それぞれのステータスに対して未対策を「0」、対策済みを「1」とする。   As shown in FIG. 4, the countermeasure result report registration processing unit 4 receives the countermeasure completion mail from the report destination (step 401), and checks (confirms) the status of the received mail (step 402). That is, the countermeasure completion status is confirmed from the title of the received mail. Here, “0” is the direct countermeasure for the event that has occurred, “1” is the impact investigation on the business system and the countermeasure is “1”, and future recurrence prevention measures to prevent the reoccurrence of the same reporting event (failure). Is “2”. Further, for each status, “0” is set for no countermeasure and “1” is set for the countermeasure.

その後、通報ステータスに対する対策内容を確認して(ステップ403)、ステップ402およびステップ403で確認したステータスに対する対策完了ステータスおよび対策内容を通報ステータス管理DB9に登録する(ステップ404)。   Thereafter, the countermeasure content for the notification status is confirmed (step 403), and the countermeasure completion status and the countermeasure content for the status confirmed in step 402 and step 403 are registered in the notification status management DB 9 (step 404).

通報先の障害管理者は、対策完了メールを返信する際、件名の通報IDの後ろに「:num」をつける。この「num」を通報ステータスとして判断する。従って、対策メールを返信するときは、件名の通報IDの後ろに「0」,「1」,「2」のいずれかの番号を付加しなければならない。   The failure manager of the report destination adds “: num” after the report ID of the subject when returning the countermeasure completion mail. This “num” is determined as the report status. Therefore, when a countermeasure mail is returned, any number of “0”, “1”, or “2” must be added after the report ID of the subject.

対策結果報告登録処理部4により、通報ステータス管理DB9には、図8の通報ステータス管理DB9aに示すように、ID番号、対策ステータス0、前回メール送信日時(0)、対策ステータス1、前回メール送信日時(1)、対策ステータス2、前回メール送信日時(2)の列項目からなるテーブルが格納されており、ID番号には、図6の通報ID情報DB10aで管理されているID番号と同様、通報事象(障害)毎に固有に割り当てられた番号(10桁の英数字)が登録され、対策ステータス0には、直接的な対策のステータスとして「0」(:未対応)もしくは「1」(:対策済み)が登録され、前回メール送信日時(0)には、直接的な対策に対するフォローメールの前回送信日時が登録され、対策ステータス1には、業務システムへの影響調査およびそれに対する対策のステータスとして「0」(:未対応)もしくは「1」(:対策済み)が登録され、前回メール送信日時(1)には、業務システムへの影響調査およびそれに対するフォローメールの前回送信日時が登録され、対策ステータス2には、同一通報事象(障害)の再発防止対策のステータスとして「0」(:未対応)もしくは「1」(:対策済み)が登録され、前回メール送信日時(2)には、同一通報事象(障害)の再発防止対策に対するフォローメールの前回送信日時が登録される。   As shown in the notification status management DB 9a of FIG. 8, the countermeasure result report registration processing unit 4 causes the notification status management DB 9 to store the ID number, countermeasure status 0, previous mail transmission date and time (0), countermeasure status 1, and previous mail transmission. A table including column items of date and time (1), countermeasure status 2 and previous mail transmission date and time (2) is stored, and the ID number is the same as the ID number managed in the report ID information DB 10a of FIG. A unique number (10-digit alphanumeric characters) assigned to each notification event (failure) is registered, and the countermeasure status 0 is “0” (not supported) or “1” (direct response status). : Countermeasured) is registered, and the previous mail transmission date and time (0) is registered with the previous transmission date and time of follow-up mail for direct countermeasures. “0” (: Not supported) or “1” (: Countermeasured) is registered as the status of the system impact investigation and countermeasures, and the last email transmission date and time (1) The previous transmission date and time of the follow mail is registered, and “0” (: Not supported) or “1” (: Countermeasured) is registered as the status of measures to prevent recurrence of the same report event (failure). In the previous mail transmission date and time (2), the previous transmission date and time of the follow mail for the recurrence prevention measures for the same report event (failure) is registered.

図5においては、ステータスチェック・フォローメール送信処理部5の処理手順を示しており、このステータスチェック・フォローメール送信処理部5は、他の処理部とは非同期に1時間ごとにタイマー起動される。   FIG. 5 shows a processing procedure of the status check / follow mail transmission processing unit 5. The status check / follow mail transmission processing unit 5 is started with a timer every hour asynchronously with other processing units. .

そして、ステータスチェック・フォローメール送信処理部5は、まず、図8に示す通報ステータス管理DB9aを参照して、対策ステータスが「0」で未対策の、すなわち完了フラグの無いID番号を検索し(ステップ501)、完了フラグの無いIDが無ければ(ステップ502)、本処理を終了し、有れば、完了フラグの無いIDのステータス番号を判定する(ステップ503)。   Then, the status check / follow-up email transmission processing unit 5 first searches the ID status management DB 9a shown in FIG. 8 for an ID number for which the countermeasure status is “0” and is not yet countermeasured, that is, without a completion flag ( If there is no ID with no completion flag (step 501), the process is terminated. If there is, the status number of the ID without the completion flag is determined (step 503).

ステータス番号「0」の場合は、ID番号をキーに、図7に示す通報情報DB11aからメールアドレス(メール送信先)を取得し(ステップ504)、当該メールアドレスの通報対象者にメールを送信する(ステップ515)。   In the case of the status number “0”, using the ID number as a key, an e-mail address (e-mail destination) is acquired from the e-mail information DB 11a shown in FIG. 7 (step 504), and e-mail is sent to the e-mail recipient of the e-mail address. (Step 515).

また、ステータス番号「1」の場合は、図8の通報ステータス管理DB9aを参照して、前回メール送信日時を取得して、経過時間を算出し(ステップ505)、経過時間が24時間を越えているか否かを判定する(ステップ506)。超えていなければ処理を終了するが、超えていれば、ID番号をキーに、図7の通報情報DB11aからメールアドレス(メール送信先)を取得して(ステップ507)、当該メールアドレスの通報対象者にメールを送信する(ステップ508)。そして、ID番号をキーに、図8の通報ステータス管理DB9aにおける前回メール送信日時の欄に現在時刻を設定する(ステップ509)。   In the case of status number “1”, referring to the notification status management DB 9a of FIG. 8, the previous mail transmission date and time is acquired, the elapsed time is calculated (step 505), and the elapsed time exceeds 24 hours. It is determined whether or not there is (step 506). If it does not exceed, the process ends. If it exceeds, the mail address (mail transmission destination) is acquired from the report information DB 11a of FIG. 7 using the ID number as a key (step 507), and the report target of the mail address is obtained. A mail is transmitted to the person (step 508). Then, using the ID number as a key, the current time is set in the previous mail transmission date / time field in the notification status management DB 9a of FIG. 8 (step 509).

また、ステータス番号「2」の場合は、図8に示す通報ステータス管理DB9aを参照して、前回メール送信日時を取得して、経過日数を算出し(ステップ510)、経過日数が7日間を越えているか否かを判定する(ステップ511)。超えていなければ処理を終了するが、超えていれば、ID番号をキーに、図7の通報情報DB11aからメールアドレス(メール送信先)を取得して(ステップ512)、当該メールアドレスの通報対象者にメールを送信する(ステップ513)。そして、ID番号をキーに、図8の通報ステータス管理DB9aの前回メール送信日時に現在日時を設定する(ステップ514)。   In the case of the status number “2”, referring to the notification status management DB 9a shown in FIG. 8, the previous mail transmission date and time is acquired, the elapsed days are calculated (step 510), and the elapsed days exceed 7 days. It is determined whether or not (step 511). If it does not exceed, the process ends. If it exceeds, the mail address (mail transmission destination) is acquired from the report information DB 11a of FIG. 7 using the ID number as a key (step 512), and the report target of the mail address is obtained. A mail is transmitted to the person (step 513). Then, using the ID number as a key, the current date and time are set as the previous mail transmission date and time of the notification status management DB 9a of FIG. 8 (step 514).

ステータスチェック・フォローメール送信処理部5は、このようなフォロー処理に応じて通知先から送られてきた対策結果メールの内容を、図9の通報対策完了DB12aに示すようにしてテーブル登録する。   The status check / follow mail transmission processing unit 5 registers the contents of the countermeasure result mail sent from the notification destination in accordance with such follow processing as shown in the report countermeasure completion DB 12a of FIG.

図9に示す通報対策完了DB12aには、ID番号、ステータス0対策完了日、ステータス0対策内容、ステータス1対策完了日、ステータス1対策内容、ステータス2対策完了日、ステータス2対策内容の列項目からなるテーブルが格納されており、ID番号には、図6の通報ID情報DB10aで管理されているID番号と同様、通報事象毎に固有に割り当てられた番号(10桁の英数字)が登録され、ステータス0対策完了日には、当該障害に対する直接的な対策の完了日時が登録され、ステータス0対策内容には、当該障害に対する直接的な対策の内容が登録され、ステータス1対策完了日には、当該障害による業務システムへの影響調査およびそれに対する対策の完了日時が登録され、ステータス1対策内容には、当該障害による業務システムへの影響調査およびそれに対する対策の内容が登録され、ステータス2対策完了日には、当該障害に対する再発防止対策の完了日時が登録され、ステータス2対策内容には、当該障害に対する再発防止対策の内容が登録される。   The report countermeasure completion DB 12a shown in FIG. 9 includes column items of ID number, status 0 countermeasure completion date, status 0 countermeasure content, status 1 countermeasure completion date, status 1 countermeasure content, status 2 countermeasure completion date, and status 2 countermeasure content. The ID number is registered with a number (10-digit alphanumeric characters) uniquely assigned to each notification event, similar to the ID number managed in the notification ID information DB 10a of FIG. The status 0 countermeasure completion date is registered with the date and time of completion of the direct countermeasure for the failure, the status 0 countermeasure content is registered with the content of the direct countermeasure against the failure, and the status 1 countermeasure completion date is The completion date and time of the investigation of the impact on the business system due to the failure and the countermeasure against it are registered. The contents of the investigation into the operational system and countermeasures against it are registered, and the completion date and time of the recurrence prevention countermeasure for the fault is registered on the status 2 countermeasure completion date, and the recurrence prevention countermeasure for the fault is registered in the status 2 countermeasure contents Is registered.

以上、図1〜図9を用いて説明したように、本例の障害監視システムでは、通知振り分け処理部1において障害の発生を検出すると、その障害内容を、メール送信処理部6により通信制御部7を介して予め定められた通知先に送信すると共に、通報情報格納処理部3により、障害内容と通知先を対応付けて通報情報DB11に格納し、対策結果報告登録処理部4により、通知した障害に対する対策結果を受信して通報ステータス管理DB9に格納し、さらに、ステータスチェック・フォローメール送信処理部5により、対策が完了するまで定期的なフォローメールの送信を行う。そして、対策結果を表示装置を介して表示出力等する。   As described above with reference to FIGS. 1 to 9, in the failure monitoring system of this example, when the occurrence of a failure is detected in the notification distribution processing unit 1, the failure content is transmitted to the communication control unit by the mail transmission processing unit 6. 7 is sent to a predetermined notification destination, and the notification information storage processing unit 3 associates the failure contents with the notification destination and stores them in the notification information DB 11, and the countermeasure result report registration processing unit 4 notifies them. The result of countermeasure against the failure is received and stored in the notification status management DB 9, and further, the status check / follow mail transmission processing unit 5 periodically transmits a follow mail until the countermeasure is completed. Then, the countermeasure result is output through a display device.

このことにより、従来技術の問題点、すなわち、障害の発生を検出して通知することはできても、障害情報が確実に通知先に届いたのかの確認ができない点と、通知した障害に対する処置・対策が実際に実行されたのか、また、どのようにして行われたのかを監視することはできない点を解決でき、発生した障害に対する確実で迅速な対応が可能となると共に、一度発生した障害の再発防止を図ることが可能となり、さらに、ネットワークを利用した業務システムへの障害による影響を最小限に抑えることを可能となる。   This makes it possible to detect the problem of the prior art, that is, to detect and notify the occurrence of a failure, but not to confirm whether the failure information has reached the notification destination, and to deal with the notified failure.・ It is possible to solve the problem that it is not possible to monitor whether the countermeasure has actually been taken and how it has been implemented. It is possible to prevent the recurrence of the problem and to minimize the influence of the failure on the business system using the network.

このように、本例では、障害の発生を検出して通知することだけでなく、障害情報が確実に通知先に届いたのかを確認することができると共に、通知した障害に対する処置・対策が実際に実行されたのか、また、どのようにして行われたのかを監視することができ、障害情報の通知漏れを防ぐことが可能となると共に、発生した障害に対する確実で迅速な対応が可能となり、当該障害の再発防止を図ること、および、ネットワークを利用した業務システムへの障害による影響を最小限に抑えることが可能となる。   In this way, in this example, not only can the occurrence of a failure be detected and notified, but it can be confirmed whether the failure information has reached the notification destination, and the measures and countermeasures for the notified failure are actually implemented. It is possible to monitor whether and how it was executed, and it is possible to prevent the failure of notification of failure information and to respond reliably and promptly to the failure that occurred, It becomes possible to prevent the recurrence of the failure and to minimize the influence of the failure on the business system using the network.

尚、本発明は、図1〜図9を用いて説明した例に限定されるものではなく、その要旨を逸脱しない範囲において種々変更可能である。例えば、対策結果報告登録処理部4によるメールの受信処理は、対策メール受信処理部6によって行うことでも良い。   In addition, this invention is not limited to the example demonstrated using FIGS. 1-9, In the range which does not deviate from the summary, various changes are possible. For example, mail reception processing by the countermeasure result report registration processing unit 4 may be performed by the countermeasure mail reception processing unit 6.

また、本例では、電話回線やLAN、イントラネット等のネットワークにおける障害を対象としているが、ネットワーク構成以外の障害監視にも適用することができる。   In this example, a failure in a network such as a telephone line, a LAN, or an intranet is targeted, but the present invention can also be applied to failure monitoring other than the network configuration.

また、本例のシステムを構成するコンピュータの構成に関しては、キーボードや光ディスクの駆動装置の無いコンピュータ構成としても良い。また、本例では、光ディスクを記録媒体として用いているが、FD(Flexible Disk)等を記録媒体として用いることでも良い。また、プログラムのインストールに関しても、通信装置を介してネットワーク経由でプログラムをダウンロードしてインストールすることでも良い。   The computer configuration of the system of this example may be a computer configuration without a keyboard or optical disk drive. In this example, an optical disk is used as a recording medium. However, an FD (Flexible Disk) or the like may be used as a recording medium. As for the program installation, the program may be downloaded and installed via a network via a communication device.

本発明に係わる障害監視システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the failure monitoring system concerning this invention. 図1における通報ID取得処理部の処理動作例を示すフローチャートである。It is a flowchart which shows the processing operation example of the report ID acquisition process part in FIG. 図1における通報情報格納処理部の処理動作例を示すフローチャートである。It is a flowchart which shows the process operation example of the report information storage process part in FIG. 図1における対策結果報告登録処理部の処理動作例を示すフローチャートである。It is a flowchart which shows the processing operation example of the countermeasure result report registration process part in FIG. 図1におけるステータスチェック・フォローメール送信処理部の処理動作例を示すフローチャートである。It is a flowchart which shows the processing operation example of the status check and follow mail transmission process part in FIG. 図1における通報ID情報DBの登録内容例を示す説明図である。It is explanatory drawing which shows the example of registration content of report ID information DB in FIG. 図1における通報情報DBの登録内容例を示す説明図である。It is explanatory drawing which shows the example of registration content of report information DB in FIG. 図1における通報ステータス管理DBの登録内容例を示す説明図である。It is explanatory drawing which shows the example of registration content of report status management DB in FIG. 図1における通報対策完了DBの登録内容例を示す説明図である。It is explanatory drawing which shows the example of registration content of report countermeasure completion DB in FIG.

符号の説明Explanation of symbols

1:通報振り分け処理部、2:通報ID取得処理部、3:通報情報格納処理部、4:対策結果報告登録処理部、5:ステータスチェック・フローメール送信処理部、6:メール送信処理部、7:通信制御部、8:対策メール受信処理部、9,9a:通報ステータス管理DB、10,10a:通報ID情報DB、11,11a:通報情報DB、12,12a:通報対策完了DB、13:通報対策管理処理部、14:データベース(DB)。   1: Report distribution processing unit 2: Report ID acquisition processing unit 3: Report information storage processing unit 4: Countermeasure result report registration processing unit 5: Status check / flow mail transmission processing unit 6: Mail transmission processing unit 7: Communication control unit, 8: Countermeasure mail reception processing unit, 9, 9a: Report status management DB, 10, 10a: Report ID information DB, 11, 11a: Report information DB, 12, 12a: Report countermeasure completion DB, 13 : Report countermeasure management processing unit, 14: Database (DB).

Claims (5)

プログラムされたコンピュータによって、障害の監視を行うシステムであって、
障害の発生を検出する障害検出手段と、
該障害検出手段で検出した障害の内容を予め定められた通知先に通知する通知手段と、
該通知手段により通知した当該障害内容を記憶装置に登録する格納処理手段と、
該格納処理手段で登録した各障害内容に対して実行された処置内容を取得して各障害内容に対応付けて上記記憶装置に登録する結果登録手段と、
該結果登録手段で上記記憶装置に登録した各障害に対する処置内容を読み出して出力する結果出力手段と
を有することを特徴とする障害監視システム。
A system for monitoring faults with a programmed computer,
A fault detection means for detecting the occurrence of a fault;
Notification means for notifying a predetermined notification destination of the content of the failure detected by the failure detection means;
Storage processing means for registering the failure content notified by the notification means in a storage device;
A result registration means for acquiring the action content executed for each failure content registered by the storage processing means and registering it in the storage device in association with each failure content;
A failure monitoring system comprising: a result output unit that reads out and outputs a treatment content for each failure registered in the storage device by the result registration unit.
プログラムされたコンピュータによって、ネットワーク構成要素で発生する障害の監視を行うシステムであって、
障害の発生を検出する障害検出手段と、
該障害検出手段で検出した障害の内容を予め定められた通知先に通知する通知手段と、
該通知手段により通知した当該障害内容を記憶装置に登録する格納処理手段と、
該格納処理手段で登録した各障害内容に対して実行された処置内容を取得して各障害内容に対応付けて上記記憶装置に登録する結果登録手段と、
該結果登録手段で上記記憶装置に登録した各障害に対する処置内容を読み出して出力する結果出力手段と
を有することを特徴とする障害監視システム。
A system for monitoring faults occurring in network components by a programmed computer,
A fault detection means for detecting the occurrence of a fault;
Notification means for notifying a predetermined notification destination of the content of the failure detected by the failure detection means;
Storage processing means for registering the failure content notified by the notification means in a storage device;
A result registration means for acquiring the action content executed for each failure content registered by the storage processing means and registering it in the storage device in association with each failure content;
A failure monitoring system comprising: a result output unit that reads out and outputs a treatment content for each failure registered in the storage device by the result registration unit.
請求項1もしくは請求項2のいずれかに記載の障害監視システムであって、
上記結果登録手段による上記記憶装置の登録内容を予め定められた時間毎に検索して、上記通知手段で通知した障害に対する処置が登録されていない未対策障害があれば、当該通知先に対して再通知を行うフォロー手段
を有することを特徴とする障害監視システム。
The fault monitoring system according to claim 1 or 2,
The registered contents of the storage device by the result registering unit are searched at predetermined time intervals, and if there is an unmeasured failure for which a measure for the failure notified by the notifying unit is not registered, the notification destination A failure monitoring system comprising a follower for performing re-notification.
請求項3に記載の障害監視システムであって、
上記障害に対する処置として、通知した障害に対する直接的な第1の処置と、通知した障害に起因する業務システムへの影響調査およびそれに対する第2の処理、および、通知した障害の再発を防止する第3の処置を含み、
上記フォロー手段は、第1〜第3の処理のそれぞれ個別に定められた時間毎に、未対策障害の検索と通知を行うことを特徴とする障害監視システム。
The fault monitoring system according to claim 3,
As a measure for the above-mentioned failure, a first direct treatment for the notified failure, an investigation of the influence on the business system caused by the notified failure, a second process for the same, and a first prevention of the recurrence of the notified failure Including 3 treatments,
The failure monitoring system, wherein the following means searches for and notifies an unmeasured failure at each time determined individually for each of the first to third processes.
(プログラム)
コンピュータを、請求項1から請求項4のいずれかに記載の障害監視システムにおける各手段として機能させるためのプログラム。
(program)
The program for functioning a computer as each means in the failure monitoring system in any one of Claims 1-4.
JP2005109700A 2005-04-06 2005-04-06 Fault monitoring system Pending JP2006293467A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005109700A JP2006293467A (en) 2005-04-06 2005-04-06 Fault monitoring system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005109700A JP2006293467A (en) 2005-04-06 2005-04-06 Fault monitoring system

Publications (1)

Publication Number Publication Date
JP2006293467A true JP2006293467A (en) 2006-10-26

Family

ID=37414010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005109700A Pending JP2006293467A (en) 2005-04-06 2005-04-06 Fault monitoring system

Country Status (1)

Country Link
JP (1) JP2006293467A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539879A (en) * 2020-04-21 2021-10-22 长鑫存储技术有限公司 Fault monitoring system and method in semiconductor manufacturing process

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113539879A (en) * 2020-04-21 2021-10-22 长鑫存储技术有限公司 Fault monitoring system and method in semiconductor manufacturing process
CN113539879B (en) * 2020-04-21 2023-12-12 长鑫存储技术有限公司 Failure monitoring system and method in semiconductor manufacturing process

Similar Documents

Publication Publication Date Title
US6898715B1 (en) Response to a computer virus outbreak
US10243989B1 (en) Systems and methods for inspecting emails for malicious content
US7225368B2 (en) Efficient real-time analysis method of error logs for autonomous systems
US7409720B1 (en) Virus prediction system and method
US8010840B2 (en) Generation of problem tickets for a computer system
JP4826831B2 (en) Fault detection device, fault detection method and program thereof
WO2020248658A1 (en) Abnormal account detection method and apparatus
CN105549508B (en) A kind of alarm method and device merged based on information
US20050038888A1 (en) Method of and apparatus for monitoring event logs
JP5125114B2 (en) Remote management device, remote management system, and remote management method
CN113672427A (en) Exception handling method, device, equipment and medium based on RPA and AI
JP2009116708A (en) Abnormality detection system
CN110798428A (en) Detection method, system and related device for violent cracking behavior of account
US10176033B1 (en) Large-scale event detector
CN106982141A (en) Weblogic examples monitoring method and device
JP2014199618A (en) Fault monitoring system
JP2006293467A (en) Fault monitoring system
JP4506376B2 (en) Image forming apparatus fault handling system, image forming apparatus, management apparatus, image forming apparatus fault handling system control method, and management apparatus control method
JPH1145195A (en) Computer system, abnormality detector and recording medium
JP5777076B1 (en) Inspection device and control program thereof
JP2008165628A (en) Notification control device
US20090151010A1 (en) Terminal theft protection process, and corresponding system, terminal and computer program
JP4851994B2 (en) Operation monitoring device, operation monitoring method, and operation monitoring program
CN113127856A (en) Network security operation and maintenance management method and device, computing equipment and storage medium
JP2007018235A (en) Illegal use detection system, terminal to be managed and management terminal

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080502

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080902