JP2007287042A - System trouble monitoring device and trouble information distribution system - Google Patents

System trouble monitoring device and trouble information distribution system Download PDF

Info

Publication number
JP2007287042A
JP2007287042A JP2006115917A JP2006115917A JP2007287042A JP 2007287042 A JP2007287042 A JP 2007287042A JP 2006115917 A JP2006115917 A JP 2006115917A JP 2006115917 A JP2006115917 A JP 2006115917A JP 2007287042 A JP2007287042 A JP 2007287042A
Authority
JP
Japan
Prior art keywords
failure
information
fault
unit
solution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006115917A
Other languages
Japanese (ja)
Inventor
Tetsuya Okubo
哲也 大久保
Masaya Tamura
真哉 田村
Norimasa Sugiyama
憲正 杉山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2006115917A priority Critical patent/JP2007287042A/en
Publication of JP2007287042A publication Critical patent/JP2007287042A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a system trouble monitoring device capable of rapidly coping with trouble when the trouble occurs in a computer system under operation and restoring the computer system in a short time, and to provide a trouble information distribution system. <P>SOLUTION: The system trouble monitoring device 200 for monitoring trouble which occurs in the computer system comprises a trouble information storage section 230 storing known trouble information and trouble solution information showing the solution, correspondingly; a trouble information retrieval section 220 determining whether the trouble information shown in a log file is stored in the trouble information storage section 230 when acquiring the log file showing trouble contents, from the computer system, and retrieving the corresponding trouble solution information when the trouble information is stored; and a trouble information communication section 224 notifying a system management terminal 13 of the retrieved trouble solution information. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、運用中のコンピュータシステムに発生する障害を監視し、該障害に関する情報をシステム管理者に通知するシステム障害監視装置および障害情報配信システムに関するものである。   The present invention relates to a system fault monitoring apparatus and a fault information distribution system for monitoring a fault occurring in an operating computer system and notifying a system administrator of information related to the fault.

従来、システム障害監視装置は、運用中のコンピュータシステムに障害が発生したとき、該障害を検出し、検出された障害の内容、即ち発生日時や障害個所などが該コンピュータシステムを管理するシステム管理者へ通知されていた。システム管理者は、該通知を受けると、前記通知内容から該障害を特定すべくその調査方法を検討し、特定された障害を解決する解決策を模索していた。   Conventionally, when a failure occurs in an operating computer system, the system failure monitoring apparatus detects the failure, and the content of the detected failure, that is, the date and time of occurrence and the location of the failure manages the computer system. Had been notified. Upon receiving the notification, the system administrator examines the investigation method to identify the failure from the content of the notification and searches for a solution to solve the identified failure.

システム管理者は、前記調査方法に基づいて障害を調査し、該障害の原因および障害個所を特定し、前記解決策に基づいて原因の排除および障害個所の修復を行って、コンピュータシステムを復旧させていた。従って、システム管理者へ通知される通知内容は、調査方法の検討および解決策の策定に必要で役立つものが求められていた。   The system administrator investigates the failure based on the investigation method, identifies the cause and location of the failure, eliminates the cause and repairs the failure location based on the solution, and restores the computer system. It was. Accordingly, the notification contents notified to the system administrator are required to be necessary and useful for examining the investigation method and formulating a solution.

特許文献1には、コンピュータシステムに投入されるジョブの状況を監視して、同一の障害が発生した場合でも、ジョブの投入状況、即ち障害が自動実行されたジョブの処理中に発生したときのみシステム管理者への障害発生の通知が必要と判断している。これにより、同一の障害メッセージでも操作員が投入したジョブであるときには障害と認識しないので、システム管理者へ不要な通報を行わない障害識別方式が開示されている。
特開2001−125808号公報
In Patent Document 1, the status of a job input to a computer system is monitored, and even when the same failure occurs, the job input status, that is, only when a failure occurs during processing of an automatically executed job. Judged that it is necessary to notify the system administrator of the failure. Thus, even if the same failure message is a job submitted by an operator, it is not recognized as a failure, so a failure identification method is disclosed in which unnecessary notifications are not made to the system administrator.
JP 2001-125808 A

しかしながら、従来のシステム障害監視装置には、下記の問題があった。即ち、
1)運用中のコンピュータシステムに障害が発生したとき、システム障害監視装置から障害内容の通知を受けたシステム管理者は、該通知内容に基づいて独自で障害への対処を検討しその調査方法および解決策を策定していたことから、該障害を解決しコンピュータシステムを復旧させるまで長時間を費やすことがあった。
However, the conventional system failure monitoring apparatus has the following problems. That is,
1) When a failure occurs in an operating computer system, a system administrator who has received a notification of the failure content from the system failure monitoring apparatus independently examines the countermeasure against the failure based on the notification content, and a method for investigating the investigation Since a solution has been formulated, it may take a long time to resolve the failure and restore the computer system.

2)既にその解決策が知られている障害がコンピュータシステムに発生したにも拘わらず、該解決策に関する情報が蓄積されてないシステム障害監視装置から通知を受けたシステム管理者は、前記解決策を知らずに発生した障害の情報を集め、集めた情報に基づいてその解決策を立案していたので、コンピュータシステムの復旧までに長時間を費やしていた。 2) A system administrator who has received a notification from a system failure monitoring apparatus for which no information relating to the solution has been stored, even though a failure whose solution has already been known has occurred in the computer system, Because we collected information on failures that occurred without knowing the problem, and designed a solution based on the collected information, it took a long time to recover the computer system.

3)また、他のコンピュータシステムで既に発生して、その解決策が確立されている障害が自コンピュータシステムで発生したとき、システム管理者間の情報連絡が無く前記解決策が伝わってないことがあった。その場合、前記解決策を知らないシステム管理者は、障害の情報を集め、集めた情報に基づいてその解決策を検討していた。そのため、自コンピュータシステムの復旧までに多くの時間を費やすことがあった。 3) In addition, when a failure that has already occurred in another computer system and the solution has been established occurs in the own computer system, there is no information communication between system administrators and the solution is not transmitted. there were. In that case, a system administrator who does not know the solution gathers information on the failure and examines the solution based on the collected information. For this reason, a lot of time may be spent until the computer system is restored.

従って、本発明の目的は、運用中のコンピュータシステムに障害が発生した時、該障害へ速やかに対処でき、コンピュータシステムを短時間で復旧しうるシステム障害監視装置および障害情報配信システムを提供することにある。   Accordingly, an object of the present invention is to provide a system failure monitoring device and a failure information distribution system that can promptly cope with a failure when a failure occurs in an operating computer system and can restore the computer system in a short time. It is in.

本発明は、以上の点を解決するために、次の構成を採用する。
〈構成1〉
コンピュータシステムに発生する障害を監視するシステム障害監視装置において、既知障害情報と、その解決を示す障害解決情報とが対応付けて格納されている障害情報記憶部と、コンピュータシステムから障害内容を示すログファイルを取得すると、ログファイルで示す障害情報が障害情報記憶部に格納されているか否かを判定し、格納されていると、対応する障害解決情報を検索する障害情報検索部と、障害情報検索部で検索された障害解決情報をシステム管理用コンピュータへ通知する障害情報通信部と、を備えることを特徴とする。
〈構成2〉
システム障害監視装置を複数台備え、各システム障害監視素装置が接続されている配信装置を有する障害情報配信システムにおいて、配信装置は、いずれかのシステム障害監視素装置の管理に用いる管理用コンピュータから監視対象コンピュータに対する新規障害の内容を示す障害情報を受信すると、障害情報に基づいて仮の障害解決情報を生成し、情報を管理用コンピュータへ送信する障害情報解析部と、新規障害の解決を示す信号を受けると、生成した障害解決情報を他のシステム障害監視装置へ送信する送信部とを含み、システム障害監視装置は、受信した障害解決情報を新規障害に対応させて障害情報記憶部に格納する書込部を有することを特徴とする。
The present invention adopts the following configuration in order to solve the above points.
<Configuration 1>
In a system fault monitoring apparatus that monitors faults occurring in a computer system, a fault information storage unit in which known fault information and fault resolution information indicating the resolution are stored in association with each other, and a log indicating the fault contents from the computer system When the file is acquired, it is determined whether or not the failure information indicated in the log file is stored in the failure information storage unit, and if stored, the failure information search unit that searches for the corresponding failure solution information, and the failure information search A failure information communication unit for notifying the system management computer of the failure solution information retrieved by the unit.
<Configuration 2>
In a failure information distribution system having a plurality of system failure monitoring devices and having a distribution device to which each system failure monitoring element is connected, the distribution device is managed by a management computer used for managing any of the system failure monitoring devices. When fault information indicating the content of a new fault for the monitored computer is received, temporary fault resolution information is generated based on the fault information, and the fault information analysis section for sending the information to the management computer and the new fault resolution are indicated. And a transmitter that transmits the generated fault solution information to another system fault monitoring device when the signal is received. The system fault monitoring device stores the received fault solution information in the fault information storage unit in association with the new fault. It has the writing part which performs.

本発明のシステム障害監視装置によれば、既知障害情報と、その解決を示す障害解決情報とが対応付けて格納されている障害情報記憶部を備え、コンピュータシステムから障害内容を示すログファイルを取得すると、該ログファイルで示す障害情報が前記障害情報記憶部に格納されているか否かを判定し、格納されていると、対応する障害解決情報を検索し、検索された障害解決情報をシステム管理用コンピュータへ通知することから、運用中のシステムに障害が発生した時、該障害への速やかな対処が可能となり、短時間でコンピュータシステムを復旧させることができる。   According to the system fault monitoring apparatus of the present invention, a fault information storage unit in which known fault information and fault solution information indicating the solution are stored in association with each other is provided, and a log file indicating the fault contents is obtained from the computer system. Then, it is determined whether or not the failure information indicated by the log file is stored in the failure information storage unit. If the failure information is stored, the corresponding failure solution information is retrieved, and the retrieved failure solution information is managed by the system management. By notifying the operating computer, when a failure occurs in the operating system, the failure can be promptly dealt with, and the computer system can be recovered in a short time.

本発明の障害情報配信システムによれば、システム障害監視装置を複数台備え、各システム障害監視素装置が接続されている配信装置を有する障害情報配信システムであって、配信装置は、いずれかのシステム障害監視素装置の管理に用いる管理用コンピュータから監視対象コンピュータに対する新規障害の内容を示す障害情報を受信すると、障害情報に基づいて仮の障害解決情報を生成し、情報を管理用コンピュータへ送信し、新規障害の解決を示す信号を受けると、生成した障害解決情報を他のシステム障害監視装置へ送信し、システム障害監視装置は、受信した障害解決情報を新規障害に対応させて障害情報記憶部に格納することにより、前記新規障害に対応する障害解決情報を各システム障害監視装置に追加し充実させることができる。   According to the failure information distribution system of the present invention, the failure information distribution system includes a plurality of system failure monitoring devices, each having a distribution device to which each system failure monitoring element device is connected. When fault information indicating the content of a new fault for the monitored computer is received from the management computer used to manage the system fault monitoring device, temporary fault resolution information is generated based on the fault information, and the information is sent to the management computer When the signal indicating the resolution of the new fault is received, the generated fault resolution information is transmitted to another system fault monitoring apparatus, and the system fault monitoring apparatus stores the fault information in association with the received fault resolution information corresponding to the new fault. Can be added to each system failure monitoring device to enhance the failure resolution information corresponding to the new failure. .

本発明の実施形態について、図を用いて詳細に説明する。以下の説明では、各実施の形態に用いる図面について同一の構成要素は同一の符号を付している。   Embodiments of the present invention will be described in detail with reference to the drawings. In the following description, the same components are denoted by the same reference numerals in the drawings used in the embodiments.

以下、本発明の実施形態について図を用いて詳細に説明する。
図2は、システム障害監視システム10の構成図である。
実施例1のシステム障害監視装置200の説明に先立ち、該システム障害監視装置200とコンピュータ100とから構成される障害監視システム10について説明する。
システム障害監視システム10において、コンピュータ100は、金融機関の情報処理を行っており、システム障害監視装置200は、前記コンピュータ100に発生する障害を監視する。
コンピュータ100とシステム障害監視装置200は、LAN(Local Area Network)11で通信可能に接続されている。
なお、システム障害監視システム10は、システム管理者Aによって管理されており、システム障害監視装置200とシステム管理者Aが管理のため使用するシステム管理用端末13は、IPネットワーク12で通信可能に接続されている。
なお、該システム管理用端末13は、パソコンなどを利用するとよい・
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 2 is a configuration diagram of the system failure monitoring system 10.
Prior to the description of the system fault monitoring apparatus 200 according to the first embodiment, the fault monitoring system 10 including the system fault monitoring apparatus 200 and the computer 100 will be described.
In the system failure monitoring system 10, the computer 100 performs information processing of a financial institution, and the system failure monitoring apparatus 200 monitors a failure that occurs in the computer 100.
The computer 100 and the system failure monitoring apparatus 200 are connected to each other via a LAN (Local Area Network) 11.
The system failure monitoring system 10 is managed by the system administrator A, and the system failure monitoring apparatus 200 and the system management terminal 13 used for management by the system administrator A are connected to be communicable via the IP network 12. Has been.
The system management terminal 13 may be a personal computer.

コンピュータ100は、システム障害監視装置200などと通信するためのIOインタフェース110と、OSおよび応用ソフトプログラムを格納するプログラム部120と、演算処理やデータ転送を行うCPU130と、データを一時保持するメモリ140と、データを大量に保持するDISK150と、コンピュータ100の各部の状態変化を示す情報を収集するイベント情報収集部160と、コンピュータ100の各部の状態を自己診断する自己診断部170と、自己診断部170で生成されたテキスト形式のログファイルを保持するログファイル保持部180とを備える。   The computer 100 includes an IO interface 110 for communicating with the system failure monitoring apparatus 200, a program unit 120 that stores an OS and application software programs, a CPU 130 that performs arithmetic processing and data transfer, and a memory 140 that temporarily stores data. A DISK 150 that holds a large amount of data, an event information collection unit 160 that collects information indicating a state change of each part of the computer 100, a self-diagnosis part 170 that self-diagnose the state of each part of the computer 100, and a self-diagnosis part And a log file holding unit 180 that holds the log file in the text format generated in 170.

イベント情報収集部160は、コンピュータ100の各部における状態変化に伴って生じるデータ変化を記録するログ、例えば、IOインタフェース110のログ、プログラム部120のログ、CPU130のログ、メモリ140のログ、DISK150のログなどを、各ログにデータの変化があると、そのログを収集する。イベント情報収集部160は、収集されたコンピュータ100の各部のログを自己診断部170へ出力する。   The event information collecting unit 160 is a log that records data changes caused by state changes in each unit of the computer 100, such as a log of the IO interface 110, a log of the program unit 120, a log of the CPU 130, a log of the memory 140, and a log of the DISK 150. Logs are collected when there is data change in each log. The event information collection unit 160 outputs the collected logs of each unit of the computer 100 to the self-diagnosis unit 170.

自己診断部170は、自己診断プログラムに基づいてコンピュータ100の各部の状態を自己診断しており、イベント情報収集部160からコンピュータ100の各部のログを受けると、該ログに基づいて該当部の状態を診断して、該診断結果に基づいて該当部の状態変化を記録するテキスト形式のログファイルを生成する。即ち、自己診断部170は、エラー記録も含むログファイルを生成する。該ログファイルは、ログファイル保持部180へ出力される。   The self-diagnosis unit 170 performs self-diagnosis of the state of each part of the computer 100 based on the self-diagnosis program. When the log of each part of the computer 100 is received from the event information collection unit 160, the state of the corresponding part is based on the log. And a text-format log file for recording the state change of the corresponding part based on the diagnosis result. That is, the self-diagnosis unit 170 generates a log file including error records. The log file is output to the log file holding unit 180.

ログファイル保持部180は、イベント情報収集部160からテキスト形式のログファイルを受けると、該テキスト形式のログファイルを保持する。ログファイル保持部180は、システム障害監視装置200からの送信要求を受けると、送信要求に応じて保持しているテキスト形式のログファイルをシステム障害監視装置200へ送信する。   When the log file holding unit 180 receives the log file in the text format from the event information collecting unit 160, the log file holding unit 180 holds the log file in the text format. When the log file holding unit 180 receives a transmission request from the system failure monitoring apparatus 200, the log file holding unit 180 transmits a log file in a text format held in response to the transmission request to the system failure monitoring apparatus 200.

次に、実施例1のシステム障害監視装置200を説明する。
図1は、実施例1のシステム障害監視装置200の機能ブロック図である。
システム障害監視装置200は,その解決手段が既知である既知障害の内容を示す既知障害情報、既知障害の概要およびその解決手段を示している障害解決情報、コンピュータ100に発生する障害を検出するための障害検出手順を示す検出手順情報および検出された障害が既知障害であるか否かを判定するための判定動作基準を示す判定基準情報を蓄積する障害情報記憶部230と、該障害情報記憶部230へのアクセス認証を行うとともに障害情報の管理を行う障害情報管理部210と、コンピュータ100に発生する障害を監視し、発生した障害に対応する障害解決情報を検索する障害監視部220と、検索された障害解決情報をシステム管理用端末13へ通知する障害情報通信部224とを備える。
Next, the system failure monitoring apparatus 200 according to the first embodiment will be described.
FIG. 1 is a functional block diagram of a system failure monitoring apparatus 200 according to the first embodiment.
The system fault monitoring apparatus 200 detects known fault information indicating the content of a known fault whose resolution is known, fault resolution information indicating a summary of the known fault and its resolution, and a fault occurring in the computer 100. A failure information storage unit 230 that accumulates detection procedure information indicating a failure detection procedure and determination criterion information indicating a determination operation criterion for determining whether or not the detected failure is a known failure, and the failure information storage unit 230, a failure information management unit 210 that performs access authentication and manages failure information, a failure monitoring unit 220 that monitors a failure that occurs in the computer 100, and searches for failure resolution information corresponding to the failure that has occurred. A failure information communication unit 224 that notifies the system management terminal 13 of the failure solution information that has been issued.

ここで、障害情報記憶部230に蓄積されている既知障害情報、障害解決情報、検出手順情報、および判定基準情報について説明する。
既知障害情報は、システム管理者Aが収集した既知障害の情報に基づいて作成されたものである。即ち、コンピュータ100に過去発生した障害および将来発生の可能性がある障害の中からその解決手段が確認されている障害情報がシステム管理者Aにより収集され、さらに、他のシステム管理者から連絡があった障害情報も収集されている。そして、収集された障害情報に基づいて既知障害情報は作成される。
Here, the known fault information, fault solution information, detection procedure information, and determination criterion information accumulated in the fault information storage unit 230 will be described.
The known fault information is created based on the known fault information collected by the system administrator A. That is, failure information whose solution has been confirmed among failures that have occurred in the computer 100 and failures that may occur in the future is collected by the system administrator A, and further contacted by other system administrators. The fault information that was present is also collected. Then, the known fault information is created based on the collected fault information.

図4は、障害解決情報のデータ構造の1例を示す。
障害解決情報は、障害情報管理部210の障害解決情報生成部211により既知障害情報に基づいて生成されており、障害の概要およびその解決手段を示している。
障害の概要は、生成順に付与された障害番号と、障害が発生した日時を示す発生日時と、障害の呼称を示す障害名からなる。障害名は、例えば、「Disk Error」、「Cpu Error」、「Memory Error」および「IO Error」などである。
FIG. 4 shows an example of the data structure of the fault solution information.
The failure solution information is generated based on the known failure information by the failure solution information generation unit 211 of the failure information management unit 210, and shows an outline of the failure and its solution means.
The outline of the fault includes a fault number given in the order of generation, an occurrence date and time indicating the date and time when the fault occurred, and a fault name indicating the name of the fault. The failure name is, for example, “Disk Error”, “Cpu Error”, “Memory Error”, “IO Error”, and the like.

解決手段を示す情報は、発生した障害を特定するための調査情報と、コンピュータ100を復旧させるための解決情報とからなる。その1例を示すと、調査情報として、「Memory Error」の場合、ログ情報に基づいて「SIngle bit errorが発生しているか否か」を調査し、SIngle bit errorであるとき、さらにerrorが多発しているか否かを調査することが示されている。該調査の結果に対応して復旧のための解決情報が示されている。即ち、1) Double bit以上のerrorが生じているときは、MEMORYを交換する、2) SIngle bit errorが多発しているときは、MEMORYを交換する、3) SIngle bit errorが数回発生するときは、MEMORYを交換せずに、注意して運用継続する、などの処置が示されている。   The information indicating the solution means includes investigation information for identifying the failure that has occurred and solution information for recovering the computer 100. As an example, in the case of “Memory Error” as the investigation information, “whether or not a SSingle bit error has occurred” is investigated based on the log information. If it is a SSingle bit error, more errors occur. It is shown to investigate whether or not. Corresponding to the result of the investigation, solution information for recovery is shown. That is, 1) MEMORY is exchanged when an error of more than double bit occurs 2) MEMORY is exchanged when SINGLE bit error occurs frequently 3) When SINGLE bit error occurs several times Shows a procedure such as continuing the operation with care without exchanging the MEMORY.

検出手順情報は、障害監視部220の障害検出部221に取り込まれるソフトウエアであり、コンピュータ100に発生する障害を検出するための検出手順を示しており、コンピュータ100からログファイルを取得して、「ERROR」キーワードのチェックソフトにより、障害を検出すべく取得したログファイルのチェックを行う。例えば、該検出手順は、取得したログファイルの第1行から最終行までの各行が「ERROR:」で始まるか否かをチェックするステップと、「ERROR:」で始まる行があった場合、「ERROR:」で始まる行を抽出するステップと、抽出された「ERROR:」で始まる行を解析し、エラーメッセージを作成するステップを含んでいる。   The detection procedure information is software that is imported into the failure detection unit 221 of the failure monitoring unit 220, and indicates a detection procedure for detecting a failure that occurs in the computer 100. A log file is acquired from the computer 100, The log file acquired to detect the failure is checked by the check software for the “ERROR” keyword. For example, the detection procedure includes a step of checking whether each line from the first line to the last line of the acquired log file starts with “ERROR:”, and if there is a line starting with “ERROR:”, “ The method includes a step of extracting a line starting with “ERROR:” and a step of analyzing the extracted line starting with “ERROR:” to generate an error message.

判定基準情報は、障害監視部220の障害判定部222に取り込まれるソフトウエアであり、検出された障害が既知障害であるか否かを判定するための動作基準を示している。
具体的には、コンピュータ100に発生の可能性のある障害として、例えば、図3に示されるように、DISK150に発生するDISK障害と、プログラム部120に発生するPROG障害と、CPU130に発生するCPU障害と、メモリ140に発生するメモリ障害と、IOインタフェース110に発生するIO障害がある。本実施例の障害判定部222は、障害検出部221で生成されたエラーメッセージを受けると、該前記エラーメッセージおよび判定基準情報に基づいて検出された障害が既知障害であるか否かを判定する。1例として、障害判定部222は、「ERROR:」で始まる行において、「ERROR:」に続いて「Disk Error」、「Prog Error」、「Cpu Error」、「Memory Error」および「IO Error」などと記述があると「検出された障害は既知障害である」旨の判定を行う。
The determination criterion information is software that is imported into the failure determination unit 222 of the failure monitoring unit 220 and indicates an operation criterion for determining whether or not the detected failure is a known failure.
Specifically, as a failure that may occur in the computer 100, for example, as shown in FIG. 3, a DISK failure that occurs in the DISK 150, a PROG failure that occurs in the program unit 120, and a CPU that occurs in the CPU 130 There are a failure, a memory failure occurring in the memory 140, and an IO failure occurring in the IO interface 110. When receiving the error message generated by the failure detection unit 221, the failure determination unit 222 according to the present embodiment determines whether or not the failure detected based on the error message and the determination criterion information is a known failure. . As an example, in the line starting with “ERROR:”, the failure determination unit 222 follows “ERROR:” followed by “Disk Error”, “Prog Error”, “Cpu Error”, “Memory Error”, and “IO Error”. Etc., it is determined that “the detected fault is a known fault”.

障害情報管理部210は、障害の概要とその解決手段とが対応付けられた障害解決情報を生成する障害解決情報生成部211と、生成された情報および更新された情報を障害情報記憶部230へ書込む障害情報書込部212とを備える。
障害情報管理部210は、不正アクセスの防止のためにパスワードに基づいて障害情報記憶部230へのアクセス認証を行うとともに、アクセスが認証されたとき、認証された認証日時と、アクセスした人の名前と、該アクセスの目的が、情報生成するためか、情報更新するためか、情報書込みのためか、情報削除のためであるかを確認して、認証日時と、アクセスした人の名前と、アクセス目的とが示された管理情報を生成する。障害情報管理部210は、アクセスが情報生成を目的とするとき、障害解決情報生成部211を起動し、アクセスが障害情報の書込みまたは障害情報の更新を目的とするとき、障害情報書込部212を起動する。
The failure information management unit 210 generates a failure solution information that associates the outline of the failure with the solution means, and the generated information and the updated information to the failure information storage unit 230. A failure information writing unit 212 for writing.
The failure information management unit 210 performs access authentication to the failure information storage unit 230 based on a password to prevent unauthorized access. When access is authenticated, the authentication date and time of access and the name of the person who has accessed And whether the purpose of the access is to generate information, to update information, to write information, or to delete information. Management information indicating the purpose is generated. The failure information management unit 210 activates the failure resolution information generation unit 211 when the access is for information generation, and the failure information writing unit 212 when the access is for the purpose of writing failure information or updating the failure information. Start up.

障害解決情報生成部211は、システム管理者Aが既知障害情報の障害の概要とその解決手段とを入力すると、前記障害解決情報(図4参照)を生成する。生成された障害解決情報は、障害情報書込部212へ送られて、障害情報記憶部230に格納される。   When the system administrator A inputs a summary of the failure in the known failure information and its solution means, the failure solution information generation unit 211 generates the failure solution information (see FIG. 4). The generated failure solution information is sent to the failure information writing unit 212 and stored in the failure information storage unit 230.

障害情報書込部212は、障害解決情報生成部211から生成された障害解決情報を受けると、障害情報記憶部230の所定のアドレスに格納する。   When the failure information writing unit 212 receives the failure solution information generated from the failure solution information generating unit 211, the failure information writing unit 212 stores the failure information in a predetermined address of the failure information storage unit 230.

障害監視部220は,コンピュータ100からテキスト形式のログファイルを取得し、該ログファイルおよび前記障害検出手順に基づいて前記コンピュータ100に発生する障害を検出し、検出された障害を示すエラーメッセージを生成する障害検出部221と、障害検出部221からのエラーメッセージおよび前記判定動作基準に基づいて検出された障害が既知障害であるか否かを判定する障害判定部222と、障害判定部222の判定結果に基づいて検出された障害に該当する障害解決情報を抽出すべく障害情報記憶部230を検索する障害情報検索部223とを備える。   The failure monitoring unit 220 acquires a log file in text format from the computer 100, detects a failure occurring in the computer 100 based on the log file and the failure detection procedure, and generates an error message indicating the detected failure A failure detection unit 221 that performs error determination from the failure detection unit 221, a failure determination unit 222 that determines whether or not a failure detected based on the determination operation criterion is a known failure, and a determination by the failure determination unit 222 A fault information search unit 223 that searches the fault information storage unit 230 to extract fault solution information corresponding to the fault detected based on the result.

障害検出部221は、定期的にコンピュータ100へ図5に示されるようなログファイルの送信を要求し、ログファイル保持部180に保持されているテキスト形式のログファイルをLAN11経由で障害情報通信部224を介して取得する。障害検出部221は、ログファイルを取得して、「ERROR」キーワードのチェックソフトにより、障害を検出すべく取得したログファイルのチェックを行う。1例として、障害検出部221は、取得したログファイルの第1行から最後の行まで読み込み、障害情報記憶部230から読出した検出手順情報に基づいて「ERROR:」で始まる行を抽出する。障害検出部221は、抽出された「ERROR:」で始まる行において、「ERROR:」に続いて記述されている文とに基づいて検出された障害を示すエラーメッセージを生成する。例えば、エラーメッセージは、「Double bit errorとして検出されたMemory Errorが発生」と生成される。   The failure detection unit 221 periodically requests the computer 100 to transmit a log file as shown in FIG. 5, and transmits the text format log file held in the log file holding unit 180 via the LAN 11 to the failure information communication unit. Via 224. The failure detection unit 221 acquires a log file, and checks the acquired log file to detect a failure using check software for the “ERROR” keyword. As an example, the failure detection unit 221 reads from the first line to the last line of the acquired log file, and extracts lines starting with “ERROR:” based on the detection procedure information read from the failure information storage unit 230. The failure detection unit 221 generates an error message indicating the detected failure based on the sentence described after “ERROR:” in the extracted line starting with “ERROR:”. For example, the error message is generated as “Memory Error detected as Double bit error occurs”.

また、障害検出部221は、抽出された「ERROR:」で始まる行において、「ERROR:」に続いて記述されている文が「 」のように空白となっている場合、「正体不明の障害が検出された」旨のエラーメッセージを生成する。生成されたエラーメッセージは障害判定部222へ出力される。   Further, in the extracted line starting with “ERROR:”, when the sentence described after “ERROR:” is blank like “” in the extracted line starting with “ERROR:” Error message is generated. The generated error message is output to the failure determination unit 222.

なお、本実施例では、コンピュータ100へログファイルの送信を定期的に要求する障害検出部221の例を説明するが、状態の変化に伴いデータの変更が生じたときコンピュータ100からシステム障害監視装置200へログファイルを送信するようにしてもよい。   In the present embodiment, an example of the failure detection unit 221 that periodically requests the computer 100 to transmit a log file will be described. However, when a data change occurs due to a change in state, the computer 100 detects a system failure monitoring device. The log file may be transmitted to 200.

障害判定部222は、障害検出部221からエラーメッセージを受けると、障害情報記憶部230から判定基準情報を読み出して、該判定基準情報が示す判定動作基準および前記エラーメッセージに基づいて検出された障害が既知障害であるか否かを判定する。具体的には、障害判定部222は、判定動作基準、即ち「ERROR:」に続いて、「Disk Error」、「Cpu Error」および「Memory Error」などと記述されていれば、検出された障害が既知障害であると判定する。例えば、障害判定部222は、エラーメッセージ「Double bit errorとして検出されたMemory
Errorが発生」を受けると、“障害は既知障害(Memory Error)である”と判定し、判定結果として“障害は既知障害の「Memory Error」であり、Double bit errorが検出された”を障害情報検索部223へ出力する。
また、障害判定部222は、エラーメッセージ「正体不明の障害が検出された」を受けると、前記障害は既知障害でないと判定する。判定結果として“障害は既知障害ではない”を障害情報検索部223へ出力する。
Upon receiving an error message from the failure detection unit 221, the failure determination unit 222 reads the determination criterion information from the failure information storage unit 230, and detects the failure detected based on the determination operation criterion indicated by the determination criterion information and the error message. Is a known fault. Specifically, if the failure determination unit 222 is described as “Disk Error”, “Cpu Error”, “Memory Error”, etc. following the determination operation criterion, that is, “ERROR:”, the detected failure is described. Is determined to be a known failure. For example, the failure determination unit 222 may detect the error message “Memory detected as a double bit error”.
When “Error occurs”, it is determined that “the failure is a known failure (Memory Error)”, and the determination result is “failure is a known failure“ Memory Error ”and a double bit error has been detected”. The information is output to the information search unit 223.
Further, upon receiving the error message “Unidentified failure detected”, the failure determination unit 222 determines that the failure is not a known failure. As a determination result, “failure is not a known failure” is output to the failure information search unit 223.

障害情報検索部223は、例えば、障害判定部222から“障害は既知障害の「Memory Error」であり、Double bit errorが検出された”旨の判定結果を受けると、該判定結果に基づいて既知障害に該当する障害解決情報を抽出すべく障害情報記憶部230を検索する。具体的には、障害情報検索部223は、「Memory
Error」および「Double bit error」をキーワードとして障害情報記憶部230に蓄積されている障害情報を検索し、「Double bit errorが検出」された既知障害の「Memory Error」に該当する障害解決情報を抽出する。抽出された障害解決情報は、前記障害の概要およびその解決手段を示している。解決手段は、検出された障害を特定する調査情報と復旧するための解決情報とを含む。これらの情報は、障害情報通信部224へ出力される。
障害情報通信部224は、障害情報検索部223で検索された障害解決情報を受けると、該障害解決情報をIPアドレスに基づいてシステム管理用端末13へIPネットワーク12を介して送信する。
When the failure information search unit 223 receives, for example, a determination result from the failure determination unit 222 that “the failure is“ Memory Error ”of a known failure and a double bit error has been detected”, the failure information search unit 223 is known based on the determination result. The fault information storage unit 230 is searched to extract the fault solution information corresponding to the fault, specifically, the fault information search unit 223 reads “Memory”.
The failure information stored in the failure information storage unit 230 is searched using “Error” and “Double bit error” as keywords, and the failure resolution information corresponding to “Memory Error” of the known failure in which “Double bit error is detected” is obtained. Extract. The extracted failure solution information shows an overview of the failure and its solution. The solving means includes investigation information for identifying the detected failure and solution information for recovery. These pieces of information are output to the failure information communication unit 224.
When the failure information communication unit 224 receives the failure solution information retrieved by the failure information retrieval unit 223, the failure information communication unit 224 transmits the failure solution information to the system management terminal 13 via the IP network 12 based on the IP address.

また、障害情報検索部223は、障害判定部222から「障害は既知障害ではない」旨の判定結果を受けたとき、障害情報記憶部230に蓄積されている障害情報を検索せずに、「障害に該当する障害解決情報が蓄積されてない」旨を障害情報通信部224へ出力する。
障害情報通信部224は、障害情報検索部223から「障害に該当する障害解決情報が蓄積されてない」旨を受けると、「障害はその障害解決情報が障害情報記憶部230に蓄積されていない新規障害である」旨をシステム管理用端末13へIPネットワーク12を介して送信する。
In addition, when the failure information search unit 223 receives the determination result that the “failure is not a known failure” from the failure determination unit 222, the failure information search unit 223 does not search for the failure information stored in the failure information storage unit 230, and “ “The failure solution information corresponding to the failure is not accumulated” is output to the failure information communication unit 224.
When the failure information communication unit 224 receives from the failure information search unit 223 that “the failure solution information corresponding to the failure is not accumulated”, “the failure is that the failure solution information is not accumulated in the failure information storage unit 230. “New failure” is transmitted to the system management terminal 13 via the IP network 12.

障害情報通信部224は、送信以外に受信機能を有し、コンピュータ100からLAN11を介してログファイルを受けると、該ログファイルを障害検出部221へ出力する。   The failure information communication unit 224 has a reception function in addition to transmission, and when receiving a log file from the computer 100 via the LAN 11, outputs the log file to the failure detection unit 221.

図6は、実施例1のシステム障害監視装置200のフロー図である。
実施例1のシステム障害監視装置200の動作を図6に沿って説明する。
コンピュータ100に、「Single bit error」が多発するメモリ障害が発生している例を説明する。
FIG. 6 is a flowchart of the system failure monitoring apparatus 200 according to the first embodiment.
The operation of the system failure monitoring apparatus 200 according to the first embodiment will be described with reference to FIG.
An example will be described in which a memory failure in which “Single bit error” occurs frequently occurs in the computer 100.

障害検出部221は、定期的にコンピュータ100へログファイルの送信を要求し、ログファイル保持部180に保持されているテキスト形式のログファイルをLAN11経由で障害情報通信部224を介して取得する。(ステップS401)
障害検出部221は、「ERROR」キーワードのチェックソフトにより、障害を検出すべく取得したログファイルのチェックを行う。例えば、障害検出部221は、前記ログファイルの第1行から最後の行までを読み込み、障害検出手順に基づいて「ERROR:」で始まる行を抽出する。(ステップS402)
The failure detection unit 221 periodically requests the computer 100 to transmit a log file, and acquires the text-format log file held in the log file holding unit 180 via the failure information communication unit 224 via the LAN 11. (Step S401)
The failure detection unit 221 checks a log file acquired to detect a failure using check software for the “ERROR” keyword. For example, the failure detection unit 221 reads from the first line to the last line of the log file, and extracts lines starting with “ERROR:” based on the failure detection procedure. (Step S402)

障害検出部221は、抽出された「ERROR:」で始まる行において、「ERROR:」に続いて記述されている文に基づいてコンピュータ100に発生した障害を示すエラーメッセージを生成する。例えば、MEMORY障害が発生した時のエラーメッセージは、「多発性のSingle bit errorとして検出されたMemory Errorが発生」であり、該エラーメッセージは障害判定部222へ出力される。   The failure detection unit 221 generates an error message indicating a failure that has occurred in the computer 100 based on a sentence described after “ERROR:” in the extracted line starting with “ERROR:”. For example, an error message when a MEMORY failure occurs is “A memory error detected as a multiple single bit error”, and the error message is output to the failure determination unit 222.

障害判定部222は、障害検出部221からエラーメッセージを受けると、該エラーメッセージおよび判定動作基準に基づいて発生した障害が既知障害であるか否かを判定する(ステップS403)。即ち、障害判定部222は、エラーメッセージ中に「Disk Error」、「Cpu Error」および「Memory Error」などの記述があると、発生した障害は既知障害であると判定する。本実施例では、判定結果として“障害は既知障害の「Memory Error」であり、多発性のSingle bit errorが検出された”旨を障害情報検索部223へ出力される。   When receiving the error message from the failure detection unit 221, the failure determination unit 222 determines whether or not the failure that has occurred based on the error message and the determination operation criterion is a known failure (step S403). That is, the failure determination unit 222 determines that the failure that has occurred is a known failure if there is a description such as “Disk Error”, “Cpu Error”, and “Memory Error” in the error message. In the present embodiment, the determination result is output to the failure information search unit 223 that “the failure is“ Memory Error ”of a known failure and a multiple single bit error has been detected”.

障害情報検索部223は、例えば、障害判定部222から“障害は既知障害の「Memory Error」であり、多発性のSingle bit errorが検出された”旨の判定結果を受けると、「Memory Error」、「Single bit error」および「多発」をキーワードとして障害情報記憶部230に蓄積されている障害情報を検索し、「Single bit errorの多発が検出された」既知障害の「Memory Error」に該当する障害解決情報を抽出する。抽出された障害解決情報は、前記障害の解決手段を示しており、障害を特定する調査情報と復旧するための解決情報、例えば「MEMORYを交換する」とを含む。障害情報検索部223は、前記障害に該当する障害解決情報が抽出されると、前記障害に該当する障害解決情報を障害情報通信部224へ出力する。   For example, when the failure information search unit 223 receives a determination result from the failure determination unit 222 that “the failure is“ Memory Error ”of a known failure and multiple single bit errors have been detected”, “Memory Error”. The failure information stored in the failure information storage unit 230 is searched using “Single bit error” and “Frequent occurrence” as keywords, and corresponds to “Memory Error” of the known failure “Frequent occurrence of single bit error” is detected. Extract failure resolution information. The extracted failure solution information indicates the solution means for the failure, and includes investigation information for identifying the failure and solution information for recovery, for example, “exchange MEMORY”. When the failure solution information corresponding to the failure is extracted, the failure information search unit 223 outputs the failure solution information corresponding to the failure to the failure information communication unit 224.

障害情報通信部224は、障害情報検索部223から障害解決情報を受けると、該情報をIPアドレスに基づいてシステム管理用端末13へIPネットワーク12を介して送信する。(ステップS404)
ところで、障害情報通信部224は、障害情報検索部223から「障害に該当する障害解決情報が蓄積されてない」旨を受けると、「障害は該当する障害解決情報が障害情報記憶部230に蓄積されていない新規障害である」旨をシステム管理用端末13へIPネットワーク12を介して送信する。
When receiving the failure resolution information from the failure information search unit 223, the failure information communication unit 224 transmits the information to the system management terminal 13 via the IP network 12 based on the IP address. (Step S404)
When the failure information communication unit 224 receives from the failure information search unit 223 that “the failure solution information corresponding to the failure has not been accumulated”, “the failure has the failure solution information corresponding to the failure accumulated in the failure information storage unit 230. Is transmitted to the system management terminal 13 via the IP network 12.

実施例1のシステム障害監視装置200によれば、その解決手段が既知である既知障害の内容を示す既知障害情報と、その解決手段を示す障害解決情報とが対応付けて格納されている障害情報記憶部230を備え、障害監視部220がコンピュータ100から障害内容を示すログファイルを取得し、該ログファイルで示す障害情報が障害情報記憶部230に格納されているか否かを判定し、格納されていると、対応する障害解決情報を検索し、検索された障害解決情報を障害情報通信部224がシステム管理用パソコンへ通知することから、運用中のコンピュータ100に障害が発生した時、該障害への速やかな対処が可能となり、短時間でシステムを復旧させることができる。   According to the system failure monitoring apparatus 200 of the first embodiment, the failure information in which the known failure information indicating the content of the known failure whose solution means is known and the failure solution information indicating the solution means are stored in association with each other. A storage unit 230, the failure monitoring unit 220 acquires a log file indicating the failure content from the computer 100, determines whether the failure information indicated by the log file is stored in the failure information storage unit 230, and is stored If there is a failure in the operating computer 100, the corresponding failure solution information is retrieved and the failure information communication unit 224 notifies the system management personal computer of the retrieved failure solution information. The system can be quickly recovered and the system can be restored in a short time.

図7は、実施例2の障害情報配信システム1の構成図である。
実施例2の障害情報配信システム1は、3つのシステム障害監視システム10、20、30と、配信装置90とで構成される。システム障害監視システム10、20、30と配信装置90とは、IPネットワーク80で通信可能に接続されている。
システム障害監視システム10はシステム管理者Aにより、システム障害監視システム20はシステム管理者Bにより、システム障害監視システム30はシステム管理者Cによりそれぞれ管理されている。
FIG. 7 is a configuration diagram of the failure information distribution system 1 according to the second embodiment.
The failure information distribution system 1 according to the second embodiment includes three system failure monitoring systems 10, 20, and 30 and a distribution device 90. The system failure monitoring systems 10, 20, and 30 and the distribution device 90 are communicably connected via an IP network 80.
The system fault monitoring system 10 is managed by a system manager A, the system fault monitoring system 20 is managed by a system manager B, and the system fault monitoring system 30 is managed by a system manager C.

3つのシステム障害監視システム10、20、30は、それぞれ監視対象のコンピュータに接続されているシステム障害監視装置を備えている。即ち、システム障害監視システム10は、システム障害監視装置200を備え、コンピュータ100と障害監視装置200とは、LAN11で通信可能に接続されている。システム障害監視システム20は、システム障害監視装置400を備え、コンピュータ300と障害監視装置400とは、LAN21で通信可能に接続されている。システム障害監視システム30は、システム障害監視装置600を備え、コンピュータ500と障害監視装置600とは、LAN31で通信可能に接続されている。   Each of the three system fault monitoring systems 10, 20, and 30 includes a system fault monitoring device connected to a computer to be monitored. That is, the system failure monitoring system 10 includes a system failure monitoring device 200, and the computer 100 and the failure monitoring device 200 are connected to be communicable via the LAN 11. The system failure monitoring system 20 includes a system failure monitoring device 400, and the computer 300 and the failure monitoring device 400 are connected to be communicable via a LAN 21. The system failure monitoring system 30 includes a system failure monitoring device 600, and the computer 500 and the failure monitoring device 600 are connected to be communicable via a LAN 31.

システム障害監視装置200とシステム管理者Aがシステム管理用コンピュータとして使用するシステム管理用端末13とはIPネットワーク12で通信可能に接続され、システム障害監視システム20のシステム障害監視装置400とシステム管理者Bが使用するシステム管理用端末23とはIPネットワーク22で通信可能に接続され、システム障害監視システム30のシステム障害監視装置600とシステム管理者Cが使用するシステム管理用端末33とはIPネットワーク32でそれぞれ通信可能に接続されている。
なお、これらシステム管理用端末13,23および33は、パソコンなどを利用するとよい。
The system failure monitoring apparatus 200 and the system administrator A used as a system management computer by the system administrator A are communicably connected via the IP network 12, and the system failure monitoring apparatus 400 and the system administrator of the system failure monitoring system 20 are connected. The system management terminal 23 used by B is communicably connected via the IP network 22. The system fault monitoring device 600 of the system fault monitoring system 30 and the system management terminal 33 used by the system administrator C are connected to the IP network 32. Are connected so that they can communicate with each other.
The system management terminals 13, 23 and 33 may be personal computers.

本実施例では同一構成で同一性能のコンピュータおよびシステム障害監視装置が使用されている。以後の説明では、システム障害監視システム10の監視対象のコンピュータ100および障害監視装置200について説明し、その他のシステム障害監視システムのコンピュータおよび障害監視装置の説明は省略する。   In this embodiment, a computer and a system fault monitoring apparatus having the same configuration and the same performance are used. In the following description, the computer 100 and the fault monitoring apparatus 200 to be monitored of the system fault monitoring system 10 will be described, and the description of the computer and fault monitoring apparatus of other system fault monitoring systems will be omitted.

コンピュータ100は、システム障害監視装置200や他の装置と通信するためのIOインタフェース110と、OSおよび応用ソフトプログラムを格納するプログラム部120と、演算処理やデータ転送を行うCPU130と、データを一時保持するメモリ140と、データを大量に保持するDISK150と、コンピュータ100の各部の状態変化を示すテキスト形式のログファイルを収集するイベント情報収集部160と、コンピュータ100の各部の状態を自己診断する自己診断部170と、自己診断部170で生成されたテキスト形式のログファイルを保持するログファイル保持部180とを備える。   The computer 100 includes an IO interface 110 for communicating with the system failure monitoring device 200 and other devices, a program unit 120 for storing the OS and application software programs, a CPU 130 for performing arithmetic processing and data transfer, and temporarily holding data. Memory 140, DISK 150 that holds a large amount of data, event information collection unit 160 that collects a log file in a text format that indicates a change in the state of each part of the computer 100, and self-diagnosis that self-diagnose the state of each part of the computer 100 Unit 170 and a log file holding unit 180 that holds a log file in a text format generated by the self-diagnosis unit 170.

システム障害監視装置200は、既知障害情報、障害解決情報、検出手順情報および判定基準情報を蓄積する障害情報記憶部230と、該障害情報記憶部230へのアクセス認証を行うとともに障害情報の管理を行う障害情報管理部210と、コンピュータ100に発生する障害を監視する障害監視部220とを備え、実施例1と同一構成を有している。   The system fault monitoring apparatus 200 performs a fault information storage unit 230 for accumulating known fault information, fault solution information, detection procedure information, and judgment criterion information, and performs access authentication to the fault information storage unit 230 and manages fault information. A failure information management unit 210 to be performed and a failure monitoring unit 220 for monitoring a failure occurring in the computer 100 are provided, and have the same configuration as that of the first embodiment.

配信装置90は、システム管理用端末から新規障害が発生した旨の連絡を受けたサービス提供者が操作入力する配信操作部91と、配信操作部91から入力された入力情報に基づいて新規障害を解析し、該解析結果に基づいて新規障害の概要とその解決手段とが対応付けられた仮の障害解決情報を生成し、該情報を前記システム管理用端末へ送信する障害情報解析部92と、前記新規障害の解決を示す信号を受けると、仮の障害解決情報を障害解決情報として登録する障害解決情報登録部93と、障害解決情報を送信指示に基づいて各システム障害監視素装置へ送信する障害情報送受信部94とを備える。   The distribution device 90 has a distribution operation unit 91 operated and input by a service provider who has received a notification that a new failure has occurred from the system management terminal, and a new failure based on the input information input from the distribution operation unit 91. Analyzing, generating a temporary failure solution information in which a summary of a new failure and its solving means are associated based on the analysis result, and transmitting the information to the system management terminal, a failure information analysis unit 92; Upon receipt of the signal indicating the resolution of the new fault, the fault resolution information registration unit 93 registers temporary fault resolution information as fault resolution information, and transmits the fault resolution information to each system fault monitoring element device based on a transmission instruction. A failure information transmission / reception unit 94.

配信操作部91は、システム管理用端末から新規障害が発生した旨の連絡を受けたサービス提供者が連絡内容に基づいて新規障害を解析するための情報を入力する。また、システム管理用端末から前記新規障害が解決された旨の連絡を受けたサービス提供者が、連絡内容に基づいて仮の障害解決情報を障害解決情報として登録すべく登録指示を行う。さらに、サービス提供者が、障害解決情報を各システム障害監視装置200、400,600へ送信するべく送信指示を行う。   The distribution operation unit 91 inputs information for analyzing a new failure based on the content of the contact by the service provider who has received a notification that a new failure has occurred from the system management terminal. Further, the service provider that has received a notification from the system management terminal that the new failure has been resolved issues a registration instruction to register temporary failure solution information as failure solution information based on the content of the communication. Further, the service provider issues a transmission instruction to transmit the failure solution information to each of the system failure monitoring apparatuses 200, 400, and 600.

ところで、サービス提供者は、システム障害監視システム10、20,30の障害復旧作業に従事しており、システム障害監視システム10、20,30の障害の情報を多く収集している。特に、サービス提供者は、将来発生の可能性がある障害の解決手段に関する情報も収集している。
サービス提供者は、システム管理用端末から新規障害が発生した旨の連絡を受けると、集積されている障害の情報を参照して配信操作部91へ新規障害を解析するための入力を行う。
By the way, the service provider is engaged in failure recovery work of the system failure monitoring systems 10, 20, and 30, and collects a lot of information on failures of the system failure monitoring systems 10, 20, and 30. In particular, the service provider also collects information on solutions for troubles that may occur in the future.
When the service provider receives notification from the system management terminal that a new failure has occurred, the service provider refers to the accumulated failure information and inputs to the distribution operation unit 91 to analyze the new failure.

障害情報解析部92は、配信操作部91からサービス提供者による入力情報を受けると、該入力情報に基づいて新規障害を解析し、該解析結果に基づいて新規障害の概要とその解決手段とが対応付けられた仮の障害解決情報を生成する。生成された障害解決情報は、障害情報送受信部94を介して前記システム管理用端末へ送信される。
また、障害情報解析部92は、配信操作部91へ仮の障害解決情報を登録すべく登録指示があると、該障害解決情報を障害解決情報登録部93へ出力する。
When the failure information analysis unit 92 receives the input information by the service provider from the distribution operation unit 91, the failure information analysis unit 92 analyzes the new failure based on the input information, and based on the analysis result, an overview of the new failure and its solution means The associated temporary failure solution information is generated. The generated failure solution information is transmitted to the system management terminal via the failure information transmission / reception unit 94.
Further, when there is a registration instruction for registering temporary failure solution information in the distribution operation unit 91, the failure information analysis unit 92 outputs the failure solution information to the failure solution information registration unit 93.

障害解決情報登録部93は、障害情報解析部92から障害解決情報を受けると、該障害解決情報を登録し、該障害解決情報を障害情報送受信部94へ出力する。   Upon receiving the failure solution information from the failure information analysis unit 92, the failure solution information registration unit 93 registers the failure solution information and outputs the failure solution information to the failure information transmission / reception unit 94.

障害情報送受信部94は、システム管理用端末から新規障害が発生している旨の連絡を受けると、該連絡内容を配信操作部91へ送出する。また、障害情報送受信部94は、障害情報解析部92から仮の障害解決情報を受けると、該障害解決情報をIPアドレスに基づいてシステム管理用端末へ送信する。さらに、障害情報送受信部94は、配信操作部91から障害解決情報の送信指示を受けると、該送信指示に基づいて障害解決情報登録部93から受けた障害解決情報をIPネットワーク80を介して各システム障害監視装置へ送信する。   When the failure information transmission / reception unit 94 receives a notification that a new failure has occurred from the system management terminal, the failure information transmission / reception unit 94 sends the communication content to the distribution operation unit 91. Further, when the failure information transmission / reception unit 94 receives temporary failure solution information from the failure information analysis unit 92, the failure information transmission / reception unit 94 transmits the failure solution information to the system management terminal based on the IP address. Further, when the failure information transmission / reception unit 94 receives a transmission instruction of failure solution information from the distribution operation unit 91, the failure information transmission / reception unit 94 receives the failure solution information received from the failure solution information registration unit 93 based on the transmission instruction via the IP network 80. Sent to the system fault monitoring device.

実施例2の障害情報配信システム1におけるシステム障害監視装置200および配信装置90の動作を説明する。
システム障害監視システム10のコンピュータ100に新規障害が発生している例を説明する。
The operations of the system fault monitoring apparatus 200 and the distribution apparatus 90 in the fault information distribution system 1 according to the second embodiment will be described.
An example in which a new failure has occurred in the computer 100 of the system failure monitoring system 10 will be described.

システム障害監視装置200は、“障害はその障害解決情報が障害情報記憶部230に蓄積されていない新規障害が発生している”旨の通知をシステム管理用端末13(システム管理者A)へ送信する。
システム管理用端末13は、通知を受けると、該通知内容に基づいてサービス提供者へ連絡する。サービス提供者は、システム管理用端末13からの新規障害が発生している旨の連絡を受けると、該連絡内容に基づいて配信装置90の配信操作部91に新規障害を解析するための情報を入力する。
The system failure monitoring apparatus 200 transmits a notification to the system management terminal 13 (system administrator A) that “a failure has occurred and a new failure has occurred whose failure solution information is not stored in the failure information storage unit 230”. To do.
Upon receiving the notification, the system management terminal 13 contacts the service provider based on the notification content. When the service provider receives a notification from the system management terminal 13 that a new failure has occurred, the service provider sends information for analyzing the new failure to the distribution operation unit 91 of the distribution device 90 based on the content of the communication. input.

配信装置90は、配信操作部91によりサービス提供者からの入力を受けると、該入力情報を障害情報解析部92へ送出し、障害情報解析部92が該入力情報に基づいて新規障害を解析し、該解析結果に基づいて新規障害の概要とその解決手段とが対応付けられた仮の障害解決情報を生成する。生成された障害解決情報は、障害情報送受信部94を介してシステム管理用端末13へ送信される。   When receiving the input from the service provider by the distribution operation unit 91, the distribution device 90 sends the input information to the failure information analysis unit 92, and the failure information analysis unit 92 analyzes the new failure based on the input information. Based on the analysis result, temporary fault solution information in which the outline of the new fault and its solution means are associated is generated. The generated failure resolution information is transmitted to the system management terminal 13 via the failure information transmission / reception unit 94.

システム管理用端末13は、配信装置90から新規障害の障害解決情報を受けると、該障害解決情報の示す解決手段に基づいて新規障害を解決すべく対処し、該対処結果は、配信装置90へ送信される。サービス提供者は、システム管理用端末13から“障害解決情報に基づいて対処した結果、新規障害が解決されコンピュータ100が復旧した”旨の連絡を受けると、配信操作部91へ障害解決情報を登録すべく登録指示を行う。
配信操作部91は、サービス提供者から障害解決情報の登録指示を受けると、障害解決情報を障害解決情報登録部93へ出力するように障害情報解析部92へ通知する。
When the system management terminal 13 receives the fault solution information of the new fault from the distribution apparatus 90, the system management terminal 13 takes measures to solve the new fault based on the solution means indicated by the fault resolution information, and the response result is sent to the distribution apparatus 90. Sent. When the service provider receives a notification from the system management terminal 13 that "the computer 100 has been restored as a result of the action taken based on the fault solution information", the service provider registers the fault solution information in the distribution operation unit 91. Instruct the registration as much as possible.
When the distribution operation unit 91 receives a failure resolution information registration instruction from the service provider, the distribution operation unit 91 notifies the failure information analysis unit 92 to output the failure resolution information to the failure resolution information registration unit 93.

障害情報解析部92は、通知を受けると、障害解決情報を障害解決情報登録部93へ出力する。障害解決情報登録部93は、障害情報解析部92から障害解決情報を受けると、該障害解決情報を登録し、該障害解決情報をシステム障害監視装置200に送信するために障害情報送受信部94へ出力する。   Upon receiving the notification, the failure information analysis unit 92 outputs the failure solution information to the failure solution information registration unit 93. Upon receiving the failure solution information from the failure information analysis unit 92, the failure solution information registration unit 93 registers the failure solution information and sends the failure solution information to the failure information transmission / reception unit 94 to transmit the failure solution information to the system failure monitoring apparatus 200. Output.

障害情報送受信部94は、配信操作部91から障害解決情報の送信指示を受けると、該送信指示に基づいて障害解決情報登録部93からの障害解決情報をIPネットワーク80を介してシステム障害監視装置200へ送信する。さらに、障害情報送受信部94は、配信操作部91から送信指示に基づいて該障害解決情報をシステム障害監視装置400およびシステム障害監視装置600へも送信する。   Upon receiving a failure resolution information transmission instruction from the distribution operation unit 91, the failure information transmission / reception unit 94 receives the failure resolution information from the failure resolution information registration unit 93 based on the transmission instruction via the IP network 80. 200. Further, the failure information transmission / reception unit 94 also transmits the failure solution information to the system failure monitoring device 400 and the system failure monitoring device 600 based on the transmission instruction from the distribution operation unit 91.

システム障害監視システム10のシステム障害監視装置200は、配信装置90から障害解決情報を受けると、該障害解決情報を障害情報記憶部230に新規障害に対応させて格納する。同様に、システム障害監視システム20のシステム障害監視装置400およびシステム障害監視システム30のシステム障害監視装置600は、配信装置90から障害解決情報を受けると、該障害解決情報を各障害情報記憶部にそれぞれ格納する。   When receiving the failure resolution information from the distribution device 90, the system failure monitoring device 200 of the system failure monitoring system 10 stores the failure solution information in the failure information storage unit 230 in association with the new failure. Similarly, when the system failure monitoring device 400 of the system failure monitoring system 20 and the system failure monitoring device 600 of the system failure monitoring system 30 receive the failure solution information from the distribution device 90, the failure solution information is stored in each failure information storage unit. Store each one.

実施例2の障害情報配信システム1によれば、3つのシステム障害監視システム10,20、30および配信装置90を備えており、各システム障害監視システムのシステム障害監視装置200、400、600は、発生している障害の障害解決情報が障害情報記憶部に蓄積されてないとき、障害は新規障害である旨を各システム管理用端末(システム管理者)へ通知し、通知を受けたシステム管理用端末は障害が新規障害である旨をサービス提供者へ連絡する。配信装置90は、前記連絡を受けたサービス提供者からの入力情報に基づいて障害情報解析部92により前記新規障害を解析し、該解析結果に基づいて前記新規障害の概要とその解決手段とが対応づけられた仮の障害解決情報を生成し、生成された障害解決情報を前記システム管理用端末へ通知し、該障害解決情報を受けた前記システム管理用端末が該情報に基づいて前記新規障害に対処した後、該対処結果をサービス提供者へ連絡し、サービス提供者はシステム管理用端末から対処結果として新規障害が解決された旨の連絡を受けると、障害解決情報登録部93により連絡内容に基づいて前記障害解決情報を登録し、障害情報送受信部94により該障害解決情報を送信指示に基づいて各システム障害監視装置200、400、600の障害情報記憶部へ送信することにより、前記障害情報記憶部へ新規障害に対応させ障害解決情報を格納して、各障害情報記憶部の障害解決情報を充実させることができる。   According to the failure information distribution system 1 of the second embodiment, the system failure monitoring system 10, 20, 30 and the distribution device 90 are provided, and the system failure monitoring devices 200, 400, 600 of each system failure monitoring system are: When failure resolution information for the failure that has occurred is not accumulated in the failure information storage unit, the system management terminal (system administrator) is notified that the failure is a new failure. The terminal informs the service provider that the failure is a new failure. The distribution device 90 analyzes the new failure by the failure information analysis unit 92 based on the input information from the service provider that has received the communication, and the outline of the new failure and the solution means are based on the analysis result. Corresponding provisional failure resolution information is generated, the generated failure resolution information is notified to the system management terminal, and the system management terminal that has received the failure resolution information uses the new failure based on the information After the response, the service provider is informed of the response result, and when the service provider receives notification from the system management terminal that the new failure has been resolved as the response result, the failure resolution information registration unit 93 provides a communication content. The failure solution information is registered based on the failure information, and the failure information transmission / reception unit 94 sends the failure solution information to the failure of each system failure monitoring device 200, 400, 600 based on the transmission instruction. By transmitting to the broadcast storage unit, stores the failure resolution data to correspond to the new failure to the failure information storage unit, it is possible to enhance the fault resolution information of each failure information storage unit.

実施例1のシステム障害監視装置の機能ブロック図である。1 is a functional block diagram of a system failure monitoring apparatus according to Embodiment 1. FIG. システム障害監視システムの構成図である。It is a block diagram of a system failure monitoring system. コンピュータに発生の可能性がある障害の分類例を示す図である。It is a figure which shows the example of classification | category of the failure which may generate | occur | produce in a computer. 障害解決情報のデータ構造を示す図である。It is a figure which shows the data structure of fault solution information. ログファイルの1例を示す図である。It is a figure which shows one example of a log file. 実施例1のシステム障害監視装置のフロー図である。It is a flowchart of the system failure monitoring apparatus of Example 1. 実施例2の障害情報配信システムの構成図である。It is a block diagram of the failure information delivery system of Example 2.

符号の説明Explanation of symbols

1 障害情報配信システム
10 システム障害監視システム
11 LAN
12 IPネットワーク
13 システム管理用端末
100 コンピュータ
110 IOインタフェース
120 プログラム部
130 CPU
140 メモリ
150 DISK
160 イベント情報収集部
170 自己診断部
180 ログファイル保持部
200 システム障害監視装置
210 障害情報管理部
211 障害解決情報生成部
212 障害情報書込部
220 障害監視部
221 障害検出部
222 障害判定部
223 障害情報検索部
224 障害情報通信部
230 障害情報記憶部
1 Fault Information Distribution System 10 System Fault Monitoring System 11 LAN
12 IP Network 13 System Management Terminal 100 Computer 110 IO Interface 120 Program Unit 130 CPU
140 memory 150 DISK
160 Event information collection unit 170 Self-diagnosis unit 180 Log file holding unit 200 System fault monitoring device 210 Fault information management unit 211 Fault solution information generation unit 212 Fault information writing unit 220 Fault monitoring unit 221 Fault detection unit 222 Fault determination unit 223 Fault Information search unit 224 Fault information communication unit 230 Fault information storage unit

Claims (3)

コンピュータシステムに発生する障害を監視するシステム障害監視装置において、
既知障害情報と、その解決を示す障害解決情報とが対応付けて格納されている障害情報記憶部と、
前記コンピュータシステムから障害内容を示すログファイルを取得すると、該ログファイルで示す障害情報が前記障害情報記憶部に格納されているか否かを判定し、格納されていると、対応する前記障害解決情報を検索する障害情報検索部と、
前記障害情報検索部で検索された障害解決情報を前記システム管理用コンピュータへ通知する障害情報通信部と、を備えることを特徴とするシステム障害監視装置。
In a system fault monitoring apparatus for monitoring faults occurring in a computer system,
A failure information storage unit in which known failure information and failure solution information indicating the solution are stored in association with each other;
When the log file indicating the failure content is acquired from the computer system, it is determined whether or not the failure information indicated by the log file is stored in the failure information storage unit. A fault information search unit that searches for
A system fault monitoring apparatus comprising: a fault information communication unit for notifying the system management computer of fault solution information searched by the fault information search unit.
前記障害情報通信部は、ログファイルで示す障害情報が前記障害情報記憶部に未格納であると新規障害である旨を前記システム管理用コンピュータへ通知することを特徴とする請求項1に記載のシステム障害監視装置。   2. The system according to claim 1, wherein the failure information communication unit notifies the system management computer that the failure information indicated by the log file is a new failure if the failure information is not stored in the failure information storage unit. System fault monitoring device. 請求項1記載のシステム障害監視装置を複数台備え、該各システム障害監視素装置が接続されている配信装置を有する障害情報配信システムにおいて、
前記配信装置は、前記いずれかのシステム障害監視素装置の管理に用いる管理用コンピュータから監視対象コンピュータに対する新規障害の内容を示す障害情報を受信すると、該障害情報に基づいて仮の障害解決情報を生成し、該情報を前記管理用コンピュータへ送信する障害情報解析部と、
前記新規障害の解決を示す信号を受けると、前記生成した障害解決情報を他のシステム障害監視装置へ送信する送信部とを含み、
前記システム障害監視装置は、受信した障害解決情報を前記新規障害に対応させて前記障害情報記憶部に格納する書込部を有することを特徴とする障害情報配信システム。
A failure information distribution system comprising a plurality of system failure monitoring devices according to claim 1 and having a distribution device to which the respective system failure monitoring element devices are connected.
When the distribution device receives failure information indicating the content of a new failure with respect to the monitored computer from the management computer used to manage any of the system failure monitoring element devices, the distribution device generates temporary failure solution information based on the failure information. A failure information analysis unit that generates and transmits the information to the management computer;
When receiving a signal indicating the solution of the new failure, a transmission unit that transmits the generated failure solution information to another system failure monitoring device,
The system fault monitoring apparatus includes a writing unit that stores the received fault solution information in the fault information storage unit in association with the new fault.
JP2006115917A 2006-04-19 2006-04-19 System trouble monitoring device and trouble information distribution system Pending JP2007287042A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006115917A JP2007287042A (en) 2006-04-19 2006-04-19 System trouble monitoring device and trouble information distribution system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006115917A JP2007287042A (en) 2006-04-19 2006-04-19 System trouble monitoring device and trouble information distribution system

Publications (1)

Publication Number Publication Date
JP2007287042A true JP2007287042A (en) 2007-11-01

Family

ID=38758736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006115917A Pending JP2007287042A (en) 2006-04-19 2006-04-19 System trouble monitoring device and trouble information distribution system

Country Status (1)

Country Link
JP (1) JP2007287042A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039941A (en) * 2008-08-07 2010-02-18 Fujitsu Ltd Network monitoring device, network monitoring system and network monitoring method

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305661A (en) * 1995-04-28 1996-11-22 Nec Corp Fault release system for distributedly installed system
JPH10240705A (en) * 1997-02-28 1998-09-11 Fujitsu Ltd Fault integrated managing device
JPH1173336A (en) * 1997-08-29 1999-03-16 Nec Corp Automatic restoration method for fault in computer system
JP2002074520A (en) * 2000-08-31 2002-03-15 Toshiba Tec Corp Method for addressing fault
JP2004086792A (en) * 2002-08-29 2004-03-18 Fujitsu Ltd Obstruction information collecting program and obstruction information collecting device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08305661A (en) * 1995-04-28 1996-11-22 Nec Corp Fault release system for distributedly installed system
JPH10240705A (en) * 1997-02-28 1998-09-11 Fujitsu Ltd Fault integrated managing device
JPH1173336A (en) * 1997-08-29 1999-03-16 Nec Corp Automatic restoration method for fault in computer system
JP2002074520A (en) * 2000-08-31 2002-03-15 Toshiba Tec Corp Method for addressing fault
JP2004086792A (en) * 2002-08-29 2004-03-18 Fujitsu Ltd Obstruction information collecting program and obstruction information collecting device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010039941A (en) * 2008-08-07 2010-02-18 Fujitsu Ltd Network monitoring device, network monitoring system and network monitoring method

Similar Documents

Publication Publication Date Title
JP4050497B2 (en) Log information management apparatus and log information management program
JP6333410B2 (en) Fault processing method, related apparatus, and computer
US7647530B2 (en) Network fault pattern analyzer
US11789760B2 (en) Alerting, diagnosing, and transmitting computer issues to a technical resource in response to an indication of occurrence by an end user
CN111046011B (en) Log collection method, system, device, electronic equipment and readable storage medium
CN102597962A (en) Method and system for fault management in virtual computing environments
JP2008217735A (en) Fault analysis system, method and program
JP2011210064A (en) Log information collection system, device, method and program
JP2008027022A (en) Fault data collection system
JP4102592B2 (en) Failure information notification system with an aggregation function and a program for causing a machine to function as a failure information notification means with an aggregation function
JP4625412B2 (en) Log management system and log management method
JP4256107B2 (en) Method and program for dealing with unauthorized intrusion to data server
JP2007287042A (en) System trouble monitoring device and trouble information distribution system
JP2005242988A (en) Log information management system, service providing system, log information management program, service providing program, log information management method, and service providing method
JP4434457B2 (en) Access log monitoring support method and system, and integrated monitoring apparatus
JP2005227982A (en) Network system equipped with security monitoring function, log data analysis terminal and information terminal
JP3691272B2 (en) Distributed processing system and failure analysis information storage method
JP4918669B2 (en) Remote maintenance system and method and program
JP4286594B2 (en) Fault analysis data collection device and method
JPH1188471A (en) Test method and test equipment
JP4271612B2 (en) Fault detection system and method
JP2003131905A (en) Management server system
US20090055818A1 (en) Method for supporting, software support agent and computer system
JP7367495B2 (en) Information processing equipment and communication cable log information collection method
CN111464516B (en) Safety network computer for effectively blocking attack from internal network system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080821

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101018

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101116