JP2007287042A - System trouble monitoring device and trouble information distribution system - Google Patents
System trouble monitoring device and trouble information distribution system Download PDFInfo
- Publication number
- JP2007287042A JP2007287042A JP2006115917A JP2006115917A JP2007287042A JP 2007287042 A JP2007287042 A JP 2007287042A JP 2006115917 A JP2006115917 A JP 2006115917A JP 2006115917 A JP2006115917 A JP 2006115917A JP 2007287042 A JP2007287042 A JP 2007287042A
- Authority
- JP
- Japan
- Prior art keywords
- failure
- information
- fault
- unit
- solution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、運用中のコンピュータシステムに発生する障害を監視し、該障害に関する情報をシステム管理者に通知するシステム障害監視装置および障害情報配信システムに関するものである。 The present invention relates to a system fault monitoring apparatus and a fault information distribution system for monitoring a fault occurring in an operating computer system and notifying a system administrator of information related to the fault.
従来、システム障害監視装置は、運用中のコンピュータシステムに障害が発生したとき、該障害を検出し、検出された障害の内容、即ち発生日時や障害個所などが該コンピュータシステムを管理するシステム管理者へ通知されていた。システム管理者は、該通知を受けると、前記通知内容から該障害を特定すべくその調査方法を検討し、特定された障害を解決する解決策を模索していた。 Conventionally, when a failure occurs in an operating computer system, the system failure monitoring apparatus detects the failure, and the content of the detected failure, that is, the date and time of occurrence and the location of the failure manages the computer system. Had been notified. Upon receiving the notification, the system administrator examines the investigation method to identify the failure from the content of the notification and searches for a solution to solve the identified failure.
システム管理者は、前記調査方法に基づいて障害を調査し、該障害の原因および障害個所を特定し、前記解決策に基づいて原因の排除および障害個所の修復を行って、コンピュータシステムを復旧させていた。従って、システム管理者へ通知される通知内容は、調査方法の検討および解決策の策定に必要で役立つものが求められていた。 The system administrator investigates the failure based on the investigation method, identifies the cause and location of the failure, eliminates the cause and repairs the failure location based on the solution, and restores the computer system. It was. Accordingly, the notification contents notified to the system administrator are required to be necessary and useful for examining the investigation method and formulating a solution.
特許文献1には、コンピュータシステムに投入されるジョブの状況を監視して、同一の障害が発生した場合でも、ジョブの投入状況、即ち障害が自動実行されたジョブの処理中に発生したときのみシステム管理者への障害発生の通知が必要と判断している。これにより、同一の障害メッセージでも操作員が投入したジョブであるときには障害と認識しないので、システム管理者へ不要な通報を行わない障害識別方式が開示されている。
しかしながら、従来のシステム障害監視装置には、下記の問題があった。即ち、
1)運用中のコンピュータシステムに障害が発生したとき、システム障害監視装置から障害内容の通知を受けたシステム管理者は、該通知内容に基づいて独自で障害への対処を検討しその調査方法および解決策を策定していたことから、該障害を解決しコンピュータシステムを復旧させるまで長時間を費やすことがあった。
However, the conventional system failure monitoring apparatus has the following problems. That is,
1) When a failure occurs in an operating computer system, a system administrator who has received a notification of the failure content from the system failure monitoring apparatus independently examines the countermeasure against the failure based on the notification content, and a method for investigating the investigation Since a solution has been formulated, it may take a long time to resolve the failure and restore the computer system.
2)既にその解決策が知られている障害がコンピュータシステムに発生したにも拘わらず、該解決策に関する情報が蓄積されてないシステム障害監視装置から通知を受けたシステム管理者は、前記解決策を知らずに発生した障害の情報を集め、集めた情報に基づいてその解決策を立案していたので、コンピュータシステムの復旧までに長時間を費やしていた。 2) A system administrator who has received a notification from a system failure monitoring apparatus for which no information relating to the solution has been stored, even though a failure whose solution has already been known has occurred in the computer system, Because we collected information on failures that occurred without knowing the problem, and designed a solution based on the collected information, it took a long time to recover the computer system.
3)また、他のコンピュータシステムで既に発生して、その解決策が確立されている障害が自コンピュータシステムで発生したとき、システム管理者間の情報連絡が無く前記解決策が伝わってないことがあった。その場合、前記解決策を知らないシステム管理者は、障害の情報を集め、集めた情報に基づいてその解決策を検討していた。そのため、自コンピュータシステムの復旧までに多くの時間を費やすことがあった。 3) In addition, when a failure that has already occurred in another computer system and the solution has been established occurs in the own computer system, there is no information communication between system administrators and the solution is not transmitted. there were. In that case, a system administrator who does not know the solution gathers information on the failure and examines the solution based on the collected information. For this reason, a lot of time may be spent until the computer system is restored.
従って、本発明の目的は、運用中のコンピュータシステムに障害が発生した時、該障害へ速やかに対処でき、コンピュータシステムを短時間で復旧しうるシステム障害監視装置および障害情報配信システムを提供することにある。 Accordingly, an object of the present invention is to provide a system failure monitoring device and a failure information distribution system that can promptly cope with a failure when a failure occurs in an operating computer system and can restore the computer system in a short time. It is in.
本発明は、以上の点を解決するために、次の構成を採用する。
〈構成1〉
コンピュータシステムに発生する障害を監視するシステム障害監視装置において、既知障害情報と、その解決を示す障害解決情報とが対応付けて格納されている障害情報記憶部と、コンピュータシステムから障害内容を示すログファイルを取得すると、ログファイルで示す障害情報が障害情報記憶部に格納されているか否かを判定し、格納されていると、対応する障害解決情報を検索する障害情報検索部と、障害情報検索部で検索された障害解決情報をシステム管理用コンピュータへ通知する障害情報通信部と、を備えることを特徴とする。
〈構成2〉
システム障害監視装置を複数台備え、各システム障害監視素装置が接続されている配信装置を有する障害情報配信システムにおいて、配信装置は、いずれかのシステム障害監視素装置の管理に用いる管理用コンピュータから監視対象コンピュータに対する新規障害の内容を示す障害情報を受信すると、障害情報に基づいて仮の障害解決情報を生成し、情報を管理用コンピュータへ送信する障害情報解析部と、新規障害の解決を示す信号を受けると、生成した障害解決情報を他のシステム障害監視装置へ送信する送信部とを含み、システム障害監視装置は、受信した障害解決情報を新規障害に対応させて障害情報記憶部に格納する書込部を有することを特徴とする。
The present invention adopts the following configuration in order to solve the above points.
<Configuration 1>
In a system fault monitoring apparatus that monitors faults occurring in a computer system, a fault information storage unit in which known fault information and fault resolution information indicating the resolution are stored in association with each other, and a log indicating the fault contents from the computer system When the file is acquired, it is determined whether or not the failure information indicated in the log file is stored in the failure information storage unit, and if stored, the failure information search unit that searches for the corresponding failure solution information, and the failure information search A failure information communication unit for notifying the system management computer of the failure solution information retrieved by the unit.
<Configuration 2>
In a failure information distribution system having a plurality of system failure monitoring devices and having a distribution device to which each system failure monitoring element is connected, the distribution device is managed by a management computer used for managing any of the system failure monitoring devices. When fault information indicating the content of a new fault for the monitored computer is received, temporary fault resolution information is generated based on the fault information, and the fault information analysis section for sending the information to the management computer and the new fault resolution are indicated. And a transmitter that transmits the generated fault solution information to another system fault monitoring device when the signal is received. The system fault monitoring device stores the received fault solution information in the fault information storage unit in association with the new fault. It has the writing part which performs.
本発明のシステム障害監視装置によれば、既知障害情報と、その解決を示す障害解決情報とが対応付けて格納されている障害情報記憶部を備え、コンピュータシステムから障害内容を示すログファイルを取得すると、該ログファイルで示す障害情報が前記障害情報記憶部に格納されているか否かを判定し、格納されていると、対応する障害解決情報を検索し、検索された障害解決情報をシステム管理用コンピュータへ通知することから、運用中のシステムに障害が発生した時、該障害への速やかな対処が可能となり、短時間でコンピュータシステムを復旧させることができる。 According to the system fault monitoring apparatus of the present invention, a fault information storage unit in which known fault information and fault solution information indicating the solution are stored in association with each other is provided, and a log file indicating the fault contents is obtained from the computer system. Then, it is determined whether or not the failure information indicated by the log file is stored in the failure information storage unit. If the failure information is stored, the corresponding failure solution information is retrieved, and the retrieved failure solution information is managed by the system management. By notifying the operating computer, when a failure occurs in the operating system, the failure can be promptly dealt with, and the computer system can be recovered in a short time.
本発明の障害情報配信システムによれば、システム障害監視装置を複数台備え、各システム障害監視素装置が接続されている配信装置を有する障害情報配信システムであって、配信装置は、いずれかのシステム障害監視素装置の管理に用いる管理用コンピュータから監視対象コンピュータに対する新規障害の内容を示す障害情報を受信すると、障害情報に基づいて仮の障害解決情報を生成し、情報を管理用コンピュータへ送信し、新規障害の解決を示す信号を受けると、生成した障害解決情報を他のシステム障害監視装置へ送信し、システム障害監視装置は、受信した障害解決情報を新規障害に対応させて障害情報記憶部に格納することにより、前記新規障害に対応する障害解決情報を各システム障害監視装置に追加し充実させることができる。 According to the failure information distribution system of the present invention, the failure information distribution system includes a plurality of system failure monitoring devices, each having a distribution device to which each system failure monitoring element device is connected. When fault information indicating the content of a new fault for the monitored computer is received from the management computer used to manage the system fault monitoring device, temporary fault resolution information is generated based on the fault information, and the information is sent to the management computer When the signal indicating the resolution of the new fault is received, the generated fault resolution information is transmitted to another system fault monitoring apparatus, and the system fault monitoring apparatus stores the fault information in association with the received fault resolution information corresponding to the new fault. Can be added to each system failure monitoring device to enhance the failure resolution information corresponding to the new failure. .
本発明の実施形態について、図を用いて詳細に説明する。以下の説明では、各実施の形態に用いる図面について同一の構成要素は同一の符号を付している。 Embodiments of the present invention will be described in detail with reference to the drawings. In the following description, the same components are denoted by the same reference numerals in the drawings used in the embodiments.
以下、本発明の実施形態について図を用いて詳細に説明する。
図2は、システム障害監視システム10の構成図である。
実施例1のシステム障害監視装置200の説明に先立ち、該システム障害監視装置200とコンピュータ100とから構成される障害監視システム10について説明する。
システム障害監視システム10において、コンピュータ100は、金融機関の情報処理を行っており、システム障害監視装置200は、前記コンピュータ100に発生する障害を監視する。
コンピュータ100とシステム障害監視装置200は、LAN(Local Area Network)11で通信可能に接続されている。
なお、システム障害監視システム10は、システム管理者Aによって管理されており、システム障害監視装置200とシステム管理者Aが管理のため使用するシステム管理用端末13は、IPネットワーク12で通信可能に接続されている。
なお、該システム管理用端末13は、パソコンなどを利用するとよい・
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 2 is a configuration diagram of the system
Prior to the description of the system
In the system
The
The system
The
コンピュータ100は、システム障害監視装置200などと通信するためのIOインタフェース110と、OSおよび応用ソフトプログラムを格納するプログラム部120と、演算処理やデータ転送を行うCPU130と、データを一時保持するメモリ140と、データを大量に保持するDISK150と、コンピュータ100の各部の状態変化を示す情報を収集するイベント情報収集部160と、コンピュータ100の各部の状態を自己診断する自己診断部170と、自己診断部170で生成されたテキスト形式のログファイルを保持するログファイル保持部180とを備える。
The
イベント情報収集部160は、コンピュータ100の各部における状態変化に伴って生じるデータ変化を記録するログ、例えば、IOインタフェース110のログ、プログラム部120のログ、CPU130のログ、メモリ140のログ、DISK150のログなどを、各ログにデータの変化があると、そのログを収集する。イベント情報収集部160は、収集されたコンピュータ100の各部のログを自己診断部170へ出力する。
The event
自己診断部170は、自己診断プログラムに基づいてコンピュータ100の各部の状態を自己診断しており、イベント情報収集部160からコンピュータ100の各部のログを受けると、該ログに基づいて該当部の状態を診断して、該診断結果に基づいて該当部の状態変化を記録するテキスト形式のログファイルを生成する。即ち、自己診断部170は、エラー記録も含むログファイルを生成する。該ログファイルは、ログファイル保持部180へ出力される。
The self-
ログファイル保持部180は、イベント情報収集部160からテキスト形式のログファイルを受けると、該テキスト形式のログファイルを保持する。ログファイル保持部180は、システム障害監視装置200からの送信要求を受けると、送信要求に応じて保持しているテキスト形式のログファイルをシステム障害監視装置200へ送信する。
When the log
次に、実施例1のシステム障害監視装置200を説明する。
図1は、実施例1のシステム障害監視装置200の機能ブロック図である。
システム障害監視装置200は,その解決手段が既知である既知障害の内容を示す既知障害情報、既知障害の概要およびその解決手段を示している障害解決情報、コンピュータ100に発生する障害を検出するための障害検出手順を示す検出手順情報および検出された障害が既知障害であるか否かを判定するための判定動作基準を示す判定基準情報を蓄積する障害情報記憶部230と、該障害情報記憶部230へのアクセス認証を行うとともに障害情報の管理を行う障害情報管理部210と、コンピュータ100に発生する障害を監視し、発生した障害に対応する障害解決情報を検索する障害監視部220と、検索された障害解決情報をシステム管理用端末13へ通知する障害情報通信部224とを備える。
Next, the system failure monitoring
FIG. 1 is a functional block diagram of a system
The system
ここで、障害情報記憶部230に蓄積されている既知障害情報、障害解決情報、検出手順情報、および判定基準情報について説明する。
既知障害情報は、システム管理者Aが収集した既知障害の情報に基づいて作成されたものである。即ち、コンピュータ100に過去発生した障害および将来発生の可能性がある障害の中からその解決手段が確認されている障害情報がシステム管理者Aにより収集され、さらに、他のシステム管理者から連絡があった障害情報も収集されている。そして、収集された障害情報に基づいて既知障害情報は作成される。
Here, the known fault information, fault solution information, detection procedure information, and determination criterion information accumulated in the fault
The known fault information is created based on the known fault information collected by the system administrator A. That is, failure information whose solution has been confirmed among failures that have occurred in the
図4は、障害解決情報のデータ構造の1例を示す。
障害解決情報は、障害情報管理部210の障害解決情報生成部211により既知障害情報に基づいて生成されており、障害の概要およびその解決手段を示している。
障害の概要は、生成順に付与された障害番号と、障害が発生した日時を示す発生日時と、障害の呼称を示す障害名からなる。障害名は、例えば、「Disk Error」、「Cpu Error」、「Memory Error」および「IO Error」などである。
FIG. 4 shows an example of the data structure of the fault solution information.
The failure solution information is generated based on the known failure information by the failure solution
The outline of the fault includes a fault number given in the order of generation, an occurrence date and time indicating the date and time when the fault occurred, and a fault name indicating the name of the fault. The failure name is, for example, “Disk Error”, “Cpu Error”, “Memory Error”, “IO Error”, and the like.
解決手段を示す情報は、発生した障害を特定するための調査情報と、コンピュータ100を復旧させるための解決情報とからなる。その1例を示すと、調査情報として、「Memory Error」の場合、ログ情報に基づいて「SIngle bit errorが発生しているか否か」を調査し、SIngle bit errorであるとき、さらにerrorが多発しているか否かを調査することが示されている。該調査の結果に対応して復旧のための解決情報が示されている。即ち、1) Double bit以上のerrorが生じているときは、MEMORYを交換する、2) SIngle bit errorが多発しているときは、MEMORYを交換する、3) SIngle bit errorが数回発生するときは、MEMORYを交換せずに、注意して運用継続する、などの処置が示されている。
The information indicating the solution means includes investigation information for identifying the failure that has occurred and solution information for recovering the
検出手順情報は、障害監視部220の障害検出部221に取り込まれるソフトウエアであり、コンピュータ100に発生する障害を検出するための検出手順を示しており、コンピュータ100からログファイルを取得して、「ERROR」キーワードのチェックソフトにより、障害を検出すべく取得したログファイルのチェックを行う。例えば、該検出手順は、取得したログファイルの第1行から最終行までの各行が「ERROR:」で始まるか否かをチェックするステップと、「ERROR:」で始まる行があった場合、「ERROR:」で始まる行を抽出するステップと、抽出された「ERROR:」で始まる行を解析し、エラーメッセージを作成するステップを含んでいる。
The detection procedure information is software that is imported into the
判定基準情報は、障害監視部220の障害判定部222に取り込まれるソフトウエアであり、検出された障害が既知障害であるか否かを判定するための動作基準を示している。
具体的には、コンピュータ100に発生の可能性のある障害として、例えば、図3に示されるように、DISK150に発生するDISK障害と、プログラム部120に発生するPROG障害と、CPU130に発生するCPU障害と、メモリ140に発生するメモリ障害と、IOインタフェース110に発生するIO障害がある。本実施例の障害判定部222は、障害検出部221で生成されたエラーメッセージを受けると、該前記エラーメッセージおよび判定基準情報に基づいて検出された障害が既知障害であるか否かを判定する。1例として、障害判定部222は、「ERROR:」で始まる行において、「ERROR:」に続いて「Disk Error」、「Prog Error」、「Cpu Error」、「Memory Error」および「IO Error」などと記述があると「検出された障害は既知障害である」旨の判定を行う。
The determination criterion information is software that is imported into the
Specifically, as a failure that may occur in the
障害情報管理部210は、障害の概要とその解決手段とが対応付けられた障害解決情報を生成する障害解決情報生成部211と、生成された情報および更新された情報を障害情報記憶部230へ書込む障害情報書込部212とを備える。
障害情報管理部210は、不正アクセスの防止のためにパスワードに基づいて障害情報記憶部230へのアクセス認証を行うとともに、アクセスが認証されたとき、認証された認証日時と、アクセスした人の名前と、該アクセスの目的が、情報生成するためか、情報更新するためか、情報書込みのためか、情報削除のためであるかを確認して、認証日時と、アクセスした人の名前と、アクセス目的とが示された管理情報を生成する。障害情報管理部210は、アクセスが情報生成を目的とするとき、障害解決情報生成部211を起動し、アクセスが障害情報の書込みまたは障害情報の更新を目的とするとき、障害情報書込部212を起動する。
The failure
The failure
障害解決情報生成部211は、システム管理者Aが既知障害情報の障害の概要とその解決手段とを入力すると、前記障害解決情報(図4参照)を生成する。生成された障害解決情報は、障害情報書込部212へ送られて、障害情報記憶部230に格納される。
When the system administrator A inputs a summary of the failure in the known failure information and its solution means, the failure solution
障害情報書込部212は、障害解決情報生成部211から生成された障害解決情報を受けると、障害情報記憶部230の所定のアドレスに格納する。
When the failure
障害監視部220は,コンピュータ100からテキスト形式のログファイルを取得し、該ログファイルおよび前記障害検出手順に基づいて前記コンピュータ100に発生する障害を検出し、検出された障害を示すエラーメッセージを生成する障害検出部221と、障害検出部221からのエラーメッセージおよび前記判定動作基準に基づいて検出された障害が既知障害であるか否かを判定する障害判定部222と、障害判定部222の判定結果に基づいて検出された障害に該当する障害解決情報を抽出すべく障害情報記憶部230を検索する障害情報検索部223とを備える。
The
障害検出部221は、定期的にコンピュータ100へ図5に示されるようなログファイルの送信を要求し、ログファイル保持部180に保持されているテキスト形式のログファイルをLAN11経由で障害情報通信部224を介して取得する。障害検出部221は、ログファイルを取得して、「ERROR」キーワードのチェックソフトにより、障害を検出すべく取得したログファイルのチェックを行う。1例として、障害検出部221は、取得したログファイルの第1行から最後の行まで読み込み、障害情報記憶部230から読出した検出手順情報に基づいて「ERROR:」で始まる行を抽出する。障害検出部221は、抽出された「ERROR:」で始まる行において、「ERROR:」に続いて記述されている文とに基づいて検出された障害を示すエラーメッセージを生成する。例えば、エラーメッセージは、「Double bit errorとして検出されたMemory Errorが発生」と生成される。
The
また、障害検出部221は、抽出された「ERROR:」で始まる行において、「ERROR:」に続いて記述されている文が「 」のように空白となっている場合、「正体不明の障害が検出された」旨のエラーメッセージを生成する。生成されたエラーメッセージは障害判定部222へ出力される。
Further, in the extracted line starting with “ERROR:”, when the sentence described after “ERROR:” is blank like “” in the extracted line starting with “ERROR:” Error message is generated. The generated error message is output to the
なお、本実施例では、コンピュータ100へログファイルの送信を定期的に要求する障害検出部221の例を説明するが、状態の変化に伴いデータの変更が生じたときコンピュータ100からシステム障害監視装置200へログファイルを送信するようにしてもよい。
In the present embodiment, an example of the
障害判定部222は、障害検出部221からエラーメッセージを受けると、障害情報記憶部230から判定基準情報を読み出して、該判定基準情報が示す判定動作基準および前記エラーメッセージに基づいて検出された障害が既知障害であるか否かを判定する。具体的には、障害判定部222は、判定動作基準、即ち「ERROR:」に続いて、「Disk Error」、「Cpu Error」および「Memory Error」などと記述されていれば、検出された障害が既知障害であると判定する。例えば、障害判定部222は、エラーメッセージ「Double bit errorとして検出されたMemory
Errorが発生」を受けると、“障害は既知障害(Memory Error)である”と判定し、判定結果として“障害は既知障害の「Memory Error」であり、Double bit errorが検出された”を障害情報検索部223へ出力する。
また、障害判定部222は、エラーメッセージ「正体不明の障害が検出された」を受けると、前記障害は既知障害でないと判定する。判定結果として“障害は既知障害ではない”を障害情報検索部223へ出力する。
Upon receiving an error message from the
When “Error occurs”, it is determined that “the failure is a known failure (Memory Error)”, and the determination result is “failure is a known failure“ Memory Error ”and a double bit error has been detected”. The information is output to the
Further, upon receiving the error message “Unidentified failure detected”, the
障害情報検索部223は、例えば、障害判定部222から“障害は既知障害の「Memory Error」であり、Double bit errorが検出された”旨の判定結果を受けると、該判定結果に基づいて既知障害に該当する障害解決情報を抽出すべく障害情報記憶部230を検索する。具体的には、障害情報検索部223は、「Memory
Error」および「Double bit error」をキーワードとして障害情報記憶部230に蓄積されている障害情報を検索し、「Double bit errorが検出」された既知障害の「Memory Error」に該当する障害解決情報を抽出する。抽出された障害解決情報は、前記障害の概要およびその解決手段を示している。解決手段は、検出された障害を特定する調査情報と復旧するための解決情報とを含む。これらの情報は、障害情報通信部224へ出力される。
障害情報通信部224は、障害情報検索部223で検索された障害解決情報を受けると、該障害解決情報をIPアドレスに基づいてシステム管理用端末13へIPネットワーク12を介して送信する。
When the failure
The failure information stored in the failure
When the failure
また、障害情報検索部223は、障害判定部222から「障害は既知障害ではない」旨の判定結果を受けたとき、障害情報記憶部230に蓄積されている障害情報を検索せずに、「障害に該当する障害解決情報が蓄積されてない」旨を障害情報通信部224へ出力する。
障害情報通信部224は、障害情報検索部223から「障害に該当する障害解決情報が蓄積されてない」旨を受けると、「障害はその障害解決情報が障害情報記憶部230に蓄積されていない新規障害である」旨をシステム管理用端末13へIPネットワーク12を介して送信する。
In addition, when the failure
When the failure
障害情報通信部224は、送信以外に受信機能を有し、コンピュータ100からLAN11を介してログファイルを受けると、該ログファイルを障害検出部221へ出力する。
The failure
図6は、実施例1のシステム障害監視装置200のフロー図である。
実施例1のシステム障害監視装置200の動作を図6に沿って説明する。
コンピュータ100に、「Single bit error」が多発するメモリ障害が発生している例を説明する。
FIG. 6 is a flowchart of the system
The operation of the system
An example will be described in which a memory failure in which “Single bit error” occurs frequently occurs in the
障害検出部221は、定期的にコンピュータ100へログファイルの送信を要求し、ログファイル保持部180に保持されているテキスト形式のログファイルをLAN11経由で障害情報通信部224を介して取得する。(ステップS401)
障害検出部221は、「ERROR」キーワードのチェックソフトにより、障害を検出すべく取得したログファイルのチェックを行う。例えば、障害検出部221は、前記ログファイルの第1行から最後の行までを読み込み、障害検出手順に基づいて「ERROR:」で始まる行を抽出する。(ステップS402)
The
The
障害検出部221は、抽出された「ERROR:」で始まる行において、「ERROR:」に続いて記述されている文に基づいてコンピュータ100に発生した障害を示すエラーメッセージを生成する。例えば、MEMORY障害が発生した時のエラーメッセージは、「多発性のSingle bit errorとして検出されたMemory Errorが発生」であり、該エラーメッセージは障害判定部222へ出力される。
The
障害判定部222は、障害検出部221からエラーメッセージを受けると、該エラーメッセージおよび判定動作基準に基づいて発生した障害が既知障害であるか否かを判定する(ステップS403)。即ち、障害判定部222は、エラーメッセージ中に「Disk Error」、「Cpu Error」および「Memory Error」などの記述があると、発生した障害は既知障害であると判定する。本実施例では、判定結果として“障害は既知障害の「Memory Error」であり、多発性のSingle bit errorが検出された”旨を障害情報検索部223へ出力される。
When receiving the error message from the
障害情報検索部223は、例えば、障害判定部222から“障害は既知障害の「Memory Error」であり、多発性のSingle bit errorが検出された”旨の判定結果を受けると、「Memory Error」、「Single bit error」および「多発」をキーワードとして障害情報記憶部230に蓄積されている障害情報を検索し、「Single bit errorの多発が検出された」既知障害の「Memory Error」に該当する障害解決情報を抽出する。抽出された障害解決情報は、前記障害の解決手段を示しており、障害を特定する調査情報と復旧するための解決情報、例えば「MEMORYを交換する」とを含む。障害情報検索部223は、前記障害に該当する障害解決情報が抽出されると、前記障害に該当する障害解決情報を障害情報通信部224へ出力する。
For example, when the failure
障害情報通信部224は、障害情報検索部223から障害解決情報を受けると、該情報をIPアドレスに基づいてシステム管理用端末13へIPネットワーク12を介して送信する。(ステップS404)
ところで、障害情報通信部224は、障害情報検索部223から「障害に該当する障害解決情報が蓄積されてない」旨を受けると、「障害は該当する障害解決情報が障害情報記憶部230に蓄積されていない新規障害である」旨をシステム管理用端末13へIPネットワーク12を介して送信する。
When receiving the failure resolution information from the failure
When the failure
実施例1のシステム障害監視装置200によれば、その解決手段が既知である既知障害の内容を示す既知障害情報と、その解決手段を示す障害解決情報とが対応付けて格納されている障害情報記憶部230を備え、障害監視部220がコンピュータ100から障害内容を示すログファイルを取得し、該ログファイルで示す障害情報が障害情報記憶部230に格納されているか否かを判定し、格納されていると、対応する障害解決情報を検索し、検索された障害解決情報を障害情報通信部224がシステム管理用パソコンへ通知することから、運用中のコンピュータ100に障害が発生した時、該障害への速やかな対処が可能となり、短時間でシステムを復旧させることができる。
According to the system
図7は、実施例2の障害情報配信システム1の構成図である。
実施例2の障害情報配信システム1は、3つのシステム障害監視システム10、20、30と、配信装置90とで構成される。システム障害監視システム10、20、30と配信装置90とは、IPネットワーク80で通信可能に接続されている。
システム障害監視システム10はシステム管理者Aにより、システム障害監視システム20はシステム管理者Bにより、システム障害監視システム30はシステム管理者Cによりそれぞれ管理されている。
FIG. 7 is a configuration diagram of the failure information distribution system 1 according to the second embodiment.
The failure information distribution system 1 according to the second embodiment includes three system
The system
3つのシステム障害監視システム10、20、30は、それぞれ監視対象のコンピュータに接続されているシステム障害監視装置を備えている。即ち、システム障害監視システム10は、システム障害監視装置200を備え、コンピュータ100と障害監視装置200とは、LAN11で通信可能に接続されている。システム障害監視システム20は、システム障害監視装置400を備え、コンピュータ300と障害監視装置400とは、LAN21で通信可能に接続されている。システム障害監視システム30は、システム障害監視装置600を備え、コンピュータ500と障害監視装置600とは、LAN31で通信可能に接続されている。
Each of the three system
システム障害監視装置200とシステム管理者Aがシステム管理用コンピュータとして使用するシステム管理用端末13とはIPネットワーク12で通信可能に接続され、システム障害監視システム20のシステム障害監視装置400とシステム管理者Bが使用するシステム管理用端末23とはIPネットワーク22で通信可能に接続され、システム障害監視システム30のシステム障害監視装置600とシステム管理者Cが使用するシステム管理用端末33とはIPネットワーク32でそれぞれ通信可能に接続されている。
なお、これらシステム管理用端末13,23および33は、パソコンなどを利用するとよい。
The system
The
本実施例では同一構成で同一性能のコンピュータおよびシステム障害監視装置が使用されている。以後の説明では、システム障害監視システム10の監視対象のコンピュータ100および障害監視装置200について説明し、その他のシステム障害監視システムのコンピュータおよび障害監視装置の説明は省略する。
In this embodiment, a computer and a system fault monitoring apparatus having the same configuration and the same performance are used. In the following description, the
コンピュータ100は、システム障害監視装置200や他の装置と通信するためのIOインタフェース110と、OSおよび応用ソフトプログラムを格納するプログラム部120と、演算処理やデータ転送を行うCPU130と、データを一時保持するメモリ140と、データを大量に保持するDISK150と、コンピュータ100の各部の状態変化を示すテキスト形式のログファイルを収集するイベント情報収集部160と、コンピュータ100の各部の状態を自己診断する自己診断部170と、自己診断部170で生成されたテキスト形式のログファイルを保持するログファイル保持部180とを備える。
The
システム障害監視装置200は、既知障害情報、障害解決情報、検出手順情報および判定基準情報を蓄積する障害情報記憶部230と、該障害情報記憶部230へのアクセス認証を行うとともに障害情報の管理を行う障害情報管理部210と、コンピュータ100に発生する障害を監視する障害監視部220とを備え、実施例1と同一構成を有している。
The system
配信装置90は、システム管理用端末から新規障害が発生した旨の連絡を受けたサービス提供者が操作入力する配信操作部91と、配信操作部91から入力された入力情報に基づいて新規障害を解析し、該解析結果に基づいて新規障害の概要とその解決手段とが対応付けられた仮の障害解決情報を生成し、該情報を前記システム管理用端末へ送信する障害情報解析部92と、前記新規障害の解決を示す信号を受けると、仮の障害解決情報を障害解決情報として登録する障害解決情報登録部93と、障害解決情報を送信指示に基づいて各システム障害監視素装置へ送信する障害情報送受信部94とを備える。
The
配信操作部91は、システム管理用端末から新規障害が発生した旨の連絡を受けたサービス提供者が連絡内容に基づいて新規障害を解析するための情報を入力する。また、システム管理用端末から前記新規障害が解決された旨の連絡を受けたサービス提供者が、連絡内容に基づいて仮の障害解決情報を障害解決情報として登録すべく登録指示を行う。さらに、サービス提供者が、障害解決情報を各システム障害監視装置200、400,600へ送信するべく送信指示を行う。
The
ところで、サービス提供者は、システム障害監視システム10、20,30の障害復旧作業に従事しており、システム障害監視システム10、20,30の障害の情報を多く収集している。特に、サービス提供者は、将来発生の可能性がある障害の解決手段に関する情報も収集している。
サービス提供者は、システム管理用端末から新規障害が発生した旨の連絡を受けると、集積されている障害の情報を参照して配信操作部91へ新規障害を解析するための入力を行う。
By the way, the service provider is engaged in failure recovery work of the system
When the service provider receives notification from the system management terminal that a new failure has occurred, the service provider refers to the accumulated failure information and inputs to the
障害情報解析部92は、配信操作部91からサービス提供者による入力情報を受けると、該入力情報に基づいて新規障害を解析し、該解析結果に基づいて新規障害の概要とその解決手段とが対応付けられた仮の障害解決情報を生成する。生成された障害解決情報は、障害情報送受信部94を介して前記システム管理用端末へ送信される。
また、障害情報解析部92は、配信操作部91へ仮の障害解決情報を登録すべく登録指示があると、該障害解決情報を障害解決情報登録部93へ出力する。
When the failure
Further, when there is a registration instruction for registering temporary failure solution information in the
障害解決情報登録部93は、障害情報解析部92から障害解決情報を受けると、該障害解決情報を登録し、該障害解決情報を障害情報送受信部94へ出力する。
Upon receiving the failure solution information from the failure
障害情報送受信部94は、システム管理用端末から新規障害が発生している旨の連絡を受けると、該連絡内容を配信操作部91へ送出する。また、障害情報送受信部94は、障害情報解析部92から仮の障害解決情報を受けると、該障害解決情報をIPアドレスに基づいてシステム管理用端末へ送信する。さらに、障害情報送受信部94は、配信操作部91から障害解決情報の送信指示を受けると、該送信指示に基づいて障害解決情報登録部93から受けた障害解決情報をIPネットワーク80を介して各システム障害監視装置へ送信する。
When the failure information transmission /
実施例2の障害情報配信システム1におけるシステム障害監視装置200および配信装置90の動作を説明する。
システム障害監視システム10のコンピュータ100に新規障害が発生している例を説明する。
The operations of the system
An example in which a new failure has occurred in the
システム障害監視装置200は、“障害はその障害解決情報が障害情報記憶部230に蓄積されていない新規障害が発生している”旨の通知をシステム管理用端末13(システム管理者A)へ送信する。
システム管理用端末13は、通知を受けると、該通知内容に基づいてサービス提供者へ連絡する。サービス提供者は、システム管理用端末13からの新規障害が発生している旨の連絡を受けると、該連絡内容に基づいて配信装置90の配信操作部91に新規障害を解析するための情報を入力する。
The system
Upon receiving the notification, the
配信装置90は、配信操作部91によりサービス提供者からの入力を受けると、該入力情報を障害情報解析部92へ送出し、障害情報解析部92が該入力情報に基づいて新規障害を解析し、該解析結果に基づいて新規障害の概要とその解決手段とが対応付けられた仮の障害解決情報を生成する。生成された障害解決情報は、障害情報送受信部94を介してシステム管理用端末13へ送信される。
When receiving the input from the service provider by the
システム管理用端末13は、配信装置90から新規障害の障害解決情報を受けると、該障害解決情報の示す解決手段に基づいて新規障害を解決すべく対処し、該対処結果は、配信装置90へ送信される。サービス提供者は、システム管理用端末13から“障害解決情報に基づいて対処した結果、新規障害が解決されコンピュータ100が復旧した”旨の連絡を受けると、配信操作部91へ障害解決情報を登録すべく登録指示を行う。
配信操作部91は、サービス提供者から障害解決情報の登録指示を受けると、障害解決情報を障害解決情報登録部93へ出力するように障害情報解析部92へ通知する。
When the
When the
障害情報解析部92は、通知を受けると、障害解決情報を障害解決情報登録部93へ出力する。障害解決情報登録部93は、障害情報解析部92から障害解決情報を受けると、該障害解決情報を登録し、該障害解決情報をシステム障害監視装置200に送信するために障害情報送受信部94へ出力する。
Upon receiving the notification, the failure
障害情報送受信部94は、配信操作部91から障害解決情報の送信指示を受けると、該送信指示に基づいて障害解決情報登録部93からの障害解決情報をIPネットワーク80を介してシステム障害監視装置200へ送信する。さらに、障害情報送受信部94は、配信操作部91から送信指示に基づいて該障害解決情報をシステム障害監視装置400およびシステム障害監視装置600へも送信する。
Upon receiving a failure resolution information transmission instruction from the
システム障害監視システム10のシステム障害監視装置200は、配信装置90から障害解決情報を受けると、該障害解決情報を障害情報記憶部230に新規障害に対応させて格納する。同様に、システム障害監視システム20のシステム障害監視装置400およびシステム障害監視システム30のシステム障害監視装置600は、配信装置90から障害解決情報を受けると、該障害解決情報を各障害情報記憶部にそれぞれ格納する。
When receiving the failure resolution information from the
実施例2の障害情報配信システム1によれば、3つのシステム障害監視システム10,20、30および配信装置90を備えており、各システム障害監視システムのシステム障害監視装置200、400、600は、発生している障害の障害解決情報が障害情報記憶部に蓄積されてないとき、障害は新規障害である旨を各システム管理用端末(システム管理者)へ通知し、通知を受けたシステム管理用端末は障害が新規障害である旨をサービス提供者へ連絡する。配信装置90は、前記連絡を受けたサービス提供者からの入力情報に基づいて障害情報解析部92により前記新規障害を解析し、該解析結果に基づいて前記新規障害の概要とその解決手段とが対応づけられた仮の障害解決情報を生成し、生成された障害解決情報を前記システム管理用端末へ通知し、該障害解決情報を受けた前記システム管理用端末が該情報に基づいて前記新規障害に対処した後、該対処結果をサービス提供者へ連絡し、サービス提供者はシステム管理用端末から対処結果として新規障害が解決された旨の連絡を受けると、障害解決情報登録部93により連絡内容に基づいて前記障害解決情報を登録し、障害情報送受信部94により該障害解決情報を送信指示に基づいて各システム障害監視装置200、400、600の障害情報記憶部へ送信することにより、前記障害情報記憶部へ新規障害に対応させ障害解決情報を格納して、各障害情報記憶部の障害解決情報を充実させることができる。
According to the failure information distribution system 1 of the second embodiment, the system
1 障害情報配信システム
10 システム障害監視システム
11 LAN
12 IPネットワーク
13 システム管理用端末
100 コンピュータ
110 IOインタフェース
120 プログラム部
130 CPU
140 メモリ
150 DISK
160 イベント情報収集部
170 自己診断部
180 ログファイル保持部
200 システム障害監視装置
210 障害情報管理部
211 障害解決情報生成部
212 障害情報書込部
220 障害監視部
221 障害検出部
222 障害判定部
223 障害情報検索部
224 障害情報通信部
230 障害情報記憶部
1 Fault
12
140
160 Event
Claims (3)
既知障害情報と、その解決を示す障害解決情報とが対応付けて格納されている障害情報記憶部と、
前記コンピュータシステムから障害内容を示すログファイルを取得すると、該ログファイルで示す障害情報が前記障害情報記憶部に格納されているか否かを判定し、格納されていると、対応する前記障害解決情報を検索する障害情報検索部と、
前記障害情報検索部で検索された障害解決情報を前記システム管理用コンピュータへ通知する障害情報通信部と、を備えることを特徴とするシステム障害監視装置。 In a system fault monitoring apparatus for monitoring faults occurring in a computer system,
A failure information storage unit in which known failure information and failure solution information indicating the solution are stored in association with each other;
When the log file indicating the failure content is acquired from the computer system, it is determined whether or not the failure information indicated by the log file is stored in the failure information storage unit. A fault information search unit that searches for
A system fault monitoring apparatus comprising: a fault information communication unit for notifying the system management computer of fault solution information searched by the fault information search unit.
前記配信装置は、前記いずれかのシステム障害監視素装置の管理に用いる管理用コンピュータから監視対象コンピュータに対する新規障害の内容を示す障害情報を受信すると、該障害情報に基づいて仮の障害解決情報を生成し、該情報を前記管理用コンピュータへ送信する障害情報解析部と、
前記新規障害の解決を示す信号を受けると、前記生成した障害解決情報を他のシステム障害監視装置へ送信する送信部とを含み、
前記システム障害監視装置は、受信した障害解決情報を前記新規障害に対応させて前記障害情報記憶部に格納する書込部を有することを特徴とする障害情報配信システム。
A failure information distribution system comprising a plurality of system failure monitoring devices according to claim 1 and having a distribution device to which the respective system failure monitoring element devices are connected.
When the distribution device receives failure information indicating the content of a new failure with respect to the monitored computer from the management computer used to manage any of the system failure monitoring element devices, the distribution device generates temporary failure solution information based on the failure information. A failure information analysis unit that generates and transmits the information to the management computer;
When receiving a signal indicating the solution of the new failure, a transmission unit that transmits the generated failure solution information to another system failure monitoring device,
The system fault monitoring apparatus includes a writing unit that stores the received fault solution information in the fault information storage unit in association with the new fault.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006115917A JP2007287042A (en) | 2006-04-19 | 2006-04-19 | System trouble monitoring device and trouble information distribution system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006115917A JP2007287042A (en) | 2006-04-19 | 2006-04-19 | System trouble monitoring device and trouble information distribution system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007287042A true JP2007287042A (en) | 2007-11-01 |
Family
ID=38758736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006115917A Pending JP2007287042A (en) | 2006-04-19 | 2006-04-19 | System trouble monitoring device and trouble information distribution system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007287042A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010039941A (en) * | 2008-08-07 | 2010-02-18 | Fujitsu Ltd | Network monitoring device, network monitoring system and network monitoring method |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08305661A (en) * | 1995-04-28 | 1996-11-22 | Nec Corp | Fault release system for distributedly installed system |
JPH10240705A (en) * | 1997-02-28 | 1998-09-11 | Fujitsu Ltd | Fault integrated managing device |
JPH1173336A (en) * | 1997-08-29 | 1999-03-16 | Nec Corp | Automatic restoration method for fault in computer system |
JP2002074520A (en) * | 2000-08-31 | 2002-03-15 | Toshiba Tec Corp | Method for addressing fault |
JP2004086792A (en) * | 2002-08-29 | 2004-03-18 | Fujitsu Ltd | Obstruction information collecting program and obstruction information collecting device |
-
2006
- 2006-04-19 JP JP2006115917A patent/JP2007287042A/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08305661A (en) * | 1995-04-28 | 1996-11-22 | Nec Corp | Fault release system for distributedly installed system |
JPH10240705A (en) * | 1997-02-28 | 1998-09-11 | Fujitsu Ltd | Fault integrated managing device |
JPH1173336A (en) * | 1997-08-29 | 1999-03-16 | Nec Corp | Automatic restoration method for fault in computer system |
JP2002074520A (en) * | 2000-08-31 | 2002-03-15 | Toshiba Tec Corp | Method for addressing fault |
JP2004086792A (en) * | 2002-08-29 | 2004-03-18 | Fujitsu Ltd | Obstruction information collecting program and obstruction information collecting device |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010039941A (en) * | 2008-08-07 | 2010-02-18 | Fujitsu Ltd | Network monitoring device, network monitoring system and network monitoring method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4050497B2 (en) | Log information management apparatus and log information management program | |
JP6333410B2 (en) | Fault processing method, related apparatus, and computer | |
US7647530B2 (en) | Network fault pattern analyzer | |
US11789760B2 (en) | Alerting, diagnosing, and transmitting computer issues to a technical resource in response to an indication of occurrence by an end user | |
CN111046011B (en) | Log collection method, system, device, electronic equipment and readable storage medium | |
CN102597962A (en) | Method and system for fault management in virtual computing environments | |
JP2008217735A (en) | Fault analysis system, method and program | |
JP2011210064A (en) | Log information collection system, device, method and program | |
JP2008027022A (en) | Fault data collection system | |
JP4102592B2 (en) | Failure information notification system with an aggregation function and a program for causing a machine to function as a failure information notification means with an aggregation function | |
JP4625412B2 (en) | Log management system and log management method | |
JP4256107B2 (en) | Method and program for dealing with unauthorized intrusion to data server | |
JP2007287042A (en) | System trouble monitoring device and trouble information distribution system | |
JP2005242988A (en) | Log information management system, service providing system, log information management program, service providing program, log information management method, and service providing method | |
JP4434457B2 (en) | Access log monitoring support method and system, and integrated monitoring apparatus | |
JP2005227982A (en) | Network system equipped with security monitoring function, log data analysis terminal and information terminal | |
JP3691272B2 (en) | Distributed processing system and failure analysis information storage method | |
JP4918669B2 (en) | Remote maintenance system and method and program | |
JP4286594B2 (en) | Fault analysis data collection device and method | |
JPH1188471A (en) | Test method and test equipment | |
JP4271612B2 (en) | Fault detection system and method | |
JP2003131905A (en) | Management server system | |
US20090055818A1 (en) | Method for supporting, software support agent and computer system | |
JP7367495B2 (en) | Information processing equipment and communication cable log information collection method | |
CN111464516B (en) | Safety network computer for effectively blocking attack from internal network system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080821 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100813 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100817 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101018 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101116 |