JP2009230522A - System monitoring device and program - Google Patents

System monitoring device and program Download PDF

Info

Publication number
JP2009230522A
JP2009230522A JP2008076016A JP2008076016A JP2009230522A JP 2009230522 A JP2009230522 A JP 2009230522A JP 2008076016 A JP2008076016 A JP 2008076016A JP 2008076016 A JP2008076016 A JP 2008076016A JP 2009230522 A JP2009230522 A JP 2009230522A
Authority
JP
Japan
Prior art keywords
monitoring
diagnostic
failure
analysis
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008076016A
Other languages
Japanese (ja)
Inventor
Akiyoshi Niimura
昭好 新村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2008076016A priority Critical patent/JP2009230522A/en
Publication of JP2009230522A publication Critical patent/JP2009230522A/en
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a system monitoring device and a program which can enhance the efficiency of system monitoring. <P>SOLUTION: The monitoring device 100 for monitoring a state of the monitoring target system 10 includes: a data acquiring part 102 for periodically acquiring analysis target data from the monitoring target system; an analysis processing part 108 for analyzing the analysis target data on the basis of a prescribed monitoring entry; a diagnosis processing part 114 for diagnosing a state of the monitoring target system on the basis of a result of analysis processing and prescribed diagnosis reference; and a failure information notifying part 116 for notifying failure information showing the occurrence of a failure when confirming a failure in the state of the monitoring target system on the basis of the result of the diagnosis processing. Since there is no need of setting a monitoring entry in each monitory target system in this way, setting work of a monitoring entry can be efficiently performed and failures of setting mistakes can be easily prevented even when many monitoring target systems are managed. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、システム監視装置およびプログラムに関し、特に、コンピュータシステムの状態を監視するシステム監視装置およびプログラムに関する。   The present invention relates to a system monitoring apparatus and program, and more particularly, to a system monitoring apparatus and program for monitoring the state of a computer system.

従来、例えばサーバ装置など、通信回線を通じて接続されたコンピュータシステム(以下、監視対象システムとも称する。)の状態を監視するシステム監視装置(以下、監視装置とも称する。)が知られている。   2. Description of the Related Art Conventionally, a system monitoring device (hereinafter also referred to as a monitoring device) that monitors the state of a computer system (hereinafter also referred to as a monitoring target system) connected via a communication line, such as a server device, is known.

従来の監視装置は、例えば、監視対象システム上で定期的に動作する障害検知プログラムが監視対象システムの障害を検知した場合に、障害の発生を示す障害情報を監視対象システムから受信する。そして、監視装置は、監視装置上で動作する監視プログラムにより、監視装置のモニタ、警報ランプなどの通知手段を介して障害情報を通知する。   For example, when a failure detection program that periodically operates on a monitoring target system detects a failure of the monitoring target system, the conventional monitoring device receives failure information indicating the occurrence of the failure from the monitoring target system. Then, the monitoring device notifies the failure information through a notification unit such as a monitor of the monitoring device or an alarm lamp by a monitoring program operating on the monitoring device.

また、従来の他の監視装置は、監視装置上で動作する監視プログラムにより、例えば、監視対象システムに定期的に死活確認要求を送信する。そして、監視装置は、監視対象システムからの応答状況が異常となった場合に、監視対象システムに障害が発生したものとみなし、通知手段を介して障害情報を通知する。   In addition, another conventional monitoring apparatus periodically transmits a life / death confirmation request to, for example, a monitoring target system by a monitoring program operating on the monitoring apparatus. Then, when the response status from the monitored system becomes abnormal, the monitoring device regards that the failure has occurred in the monitored system, and notifies the failure information via the notification means.

しかしながら、従来の監視装置は、監視対象システム上で動作する障害検知プログラムに設定された所定の監視項目のみに関して、障害の発生を検知するものである。ここで、障害検知プログラムに設定される監視項目は、一般に、監視対象システムのシステム構成などに応じて異なる。   However, the conventional monitoring device detects the occurrence of a failure only with respect to a predetermined monitoring item set in a failure detection program that operates on the monitored system. Here, the monitoring items set in the failure detection program generally differ depending on the system configuration of the monitoring target system.

このため、多数の監視対象システムを管理する際には、監視項目の設定作業が煩雑となり、また、設定ミスが生じてしまう場合があった。また、監視項目の更新に際しても、監視対象システム毎に設定が必要となるので、監視項目の更新作業が煩雑となる場合があった。このため、システム監視の効率性を向上することができないという問題があった。   For this reason, when managing a large number of monitoring target systems, the setting work of monitoring items becomes complicated, and a setting error may occur. Also, when updating the monitoring item, since setting is required for each monitoring target system, the monitoring item updating operation may be complicated. For this reason, there was a problem that the efficiency of system monitoring could not be improved.

さらに、監視項目毎の単純な条件判断に基づいて障害の発生を検知するので、特定または不特定の監視対象システムに関する障害履歴などを用いて、効率的なシステム監視を実現することができないという問題があった。   Furthermore, since the occurrence of a failure is detected based on simple condition judgment for each monitoring item, there is a problem that efficient system monitoring cannot be realized by using a failure history related to a specific or unspecified monitored system. was there.

本発明は上記問題点に鑑みてなされたものであり、その目的は、システム監視の効率性を向上可能な、新規かつ改良された、システム監視装置およびプログラムを提供することにある。   The present invention has been made in view of the above problems, and an object thereof is to provide a new and improved system monitoring apparatus and program capable of improving the efficiency of system monitoring.

上記課題を解決するために、本発明の第1の観点によれば、コンピュータシステムの状態を監視するシステム監視装置において、コンピュータシステムから解析対象データを定期的に取得するデータ取得部と、所定の監視項目に基づいて解析対象データを解析する解析処理部と、解析処理の結果および所定の診断基準に基づいてコンピュータシステムの状態を診断する診断処理部と、診断処理の結果に基づいてコンピュータシステムの状態に障害が確認された場合に、障害の発生を示す障害情報を通知する障害情報通知部と、を備えたシステム監視装置が提供される。   In order to solve the above-described problem, according to a first aspect of the present invention, in a system monitoring apparatus that monitors the state of a computer system, a data acquisition unit that periodically acquires analysis target data from the computer system; An analysis processing unit for analyzing data to be analyzed based on monitoring items, a diagnosis processing unit for diagnosing the state of the computer system based on the results of the analysis processing and predetermined diagnostic criteria, and a computer system based on the results of the diagnostic processing There is provided a system monitoring apparatus including a failure information notification unit that notifies failure information indicating the occurrence of a failure when a failure is confirmed in the state.

かかる構成によれば、システム監視装置(以下、監視装置とも称する。)が所定の監視項目に基づいて解析対象データを解析し、コンピュータシステム(以下、監視対象システムとも称する。)の状態を診断して障害情報を通知するので、監視対象システム毎に監視項目を設定する必要がない。これにより、多数の監視対象システムを管理する際でも、監視項目の設定作業を効率的に行うことができ、設定ミスの発生を容易に防止することができる。   According to this configuration, the system monitoring device (hereinafter also referred to as a monitoring device) analyzes the analysis target data based on a predetermined monitoring item, and diagnoses the state of the computer system (hereinafter also referred to as the monitoring target system). Therefore, it is not necessary to set monitoring items for each monitored system. Thereby, even when managing a large number of monitoring target systems, the setting work of monitoring items can be performed efficiently, and the occurrence of setting errors can be easily prevented.

また、上記所定の診断基準を記憶する診断基準記憶部をさらに備えてもよい。これにより、監視装置は、診断基準記憶部に記憶されている所定の診断基準に基づいて監視対象システムの状態を診断するので、特定または不特定の監視対象システムに関する障害履歴などを診断基準記憶部に記憶することで、効率的なシステム監視を実現することができる。   Moreover, you may further provide the diagnostic reference | standard memory | storage part which memorize | stores the said predetermined diagnostic reference | standard. As a result, the monitoring device diagnoses the state of the monitored system based on the predetermined diagnostic criteria stored in the diagnostic criteria storage unit. By storing them in the system, efficient system monitoring can be realized.

また、上記所定の監視項目を更新するための監視項目更新部をさらに備えてもよい。これにより、監視装置は、所定の監視項目を更新可能であるので、監視対象システム毎に監視項目を更新する必要がなく、監視項目の更新作業を効率的に行うことができる。   Moreover, you may further provide the monitoring item update part for updating the said predetermined monitoring item. Thereby, since the monitoring apparatus can update a predetermined monitoring item, it is not necessary to update the monitoring item for each monitoring target system, and the updating operation of the monitoring item can be performed efficiently.

また、上記診断基準記憶部に記憶されている所定の診断基準を更新するための診断基準更新部をさらに備えてもよい。これにより、監視装置は、所定の診断基準を更新可能であるので、更新された診断基準に基づいて監視対象システムの状態を診断することで、さらに効率的なシステム監視を実現することができる。   Further, a diagnostic standard update unit for updating a predetermined diagnostic standard stored in the diagnostic standard storage unit may be further provided. Thereby, since the monitoring apparatus can update a predetermined diagnostic criterion, more efficient system monitoring can be realized by diagnosing the state of the monitoring target system based on the updated diagnostic criterion.

上記課題を解決するために、本発明の第2の観点によれば、前述した第1の観点に係る監視装置としてコンピュータを機能させるためのプログラムが提供される。   In order to solve the above problems, according to a second aspect of the present invention, there is provided a program for causing a computer to function as the monitoring apparatus according to the first aspect described above.

本発明によれば、システム監視の効率性を向上可能な、システム監視装置およびプログラムを提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, the system monitoring apparatus and program which can improve the efficiency of system monitoring can be provided.

以下に、添付した図面を参照しながら、本発明の好適な実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。   Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the present specification and drawings, components having substantially the same functional configuration are denoted by the same reference numerals, and redundant description is omitted.

図1は、本発明の一実施形態に係る監視装置を含む監視システムの全体構成を示す説明図である。図1に示すように、監視システムは、監視装置100と、監視装置100に通信回線20を通じて接続された少なくとも1つの監視対象システム10a、10b、10c(以下、監視対象システム10として総称する。)とを含む。   FIG. 1 is an explanatory diagram showing the overall configuration of a monitoring system including a monitoring device according to an embodiment of the present invention. As shown in FIG. 1, the monitoring system includes a monitoring device 100 and at least one monitoring target system 10a, 10b, 10c connected to the monitoring device 100 through a communication line 20 (hereinafter collectively referred to as the monitoring target system 10). Including.

監視装置100は、解析機能を有する監視用のコンピュータシステムであり、監視対象システム10は、各種のシステム構成を有する、例えばサーバ装置などのコンピュータシステムである。   The monitoring device 100 is a monitoring computer system having an analysis function, and the monitoring target system 10 is a computer system such as a server device having various system configurations.

監視装置100は、監視対象システム10から解析対象データを定期的に取得し、所定の監視項目に基づいて解析対象データを解析し、解析処理の結果および所定の診断基準に基づいて監視対象システム10の状態を診断し、必要に応じて障害情報を通知する。   The monitoring apparatus 100 periodically acquires analysis target data from the monitoring target system 10, analyzes the analysis target data based on a predetermined monitoring item, and monitors the monitoring target system 10 based on a result of the analysis process and a predetermined diagnostic criterion. Is diagnosed, and failure information is notified if necessary.

監視装置100は、監視対象システム10上で動作するデータ取得プログラムから、スケジューリング機能などを利用して定期的に解析対象データを取得する。ここで、解析対象データとは、監視対象システム10の構成情報、設定情報、ログ情報、コマンド出力情報など、監視対象システム10の構成および動作状況などを診断するために用いられる情報である。解析対象データは、必要に応じて、監視対象システム10のオペレーティングシステム(OS)および解析対象データのデータ形式に関する情報を含む。解析対象データは、データファイルとして一括または複数のブロック単位で取得される。   The monitoring apparatus 100 periodically acquires analysis target data from a data acquisition program that operates on the monitoring target system 10 by using a scheduling function or the like. Here, the analysis target data is information used for diagnosing the configuration and operation status of the monitoring target system 10 such as configuration information, setting information, log information, and command output information of the monitoring target system 10. The analysis target data includes information related to the operating system (OS) of the monitoring target system 10 and the data format of the analysis target data as necessary. The analysis target data is acquired as a data file at once or in units of a plurality of blocks.

(監視装置100の構成)
以下では、図2〜図4を参照しながら監視装置100の構成について説明する。図2は、監視装置100の構成を示す説明図である。監視装置100は、データ取得部102、監視項目記憶部104、監視項目更新部106、解析処理部108、診断基準記憶部110、診断基準更新部112、診断処理部114、障害情報通知部116、入出力部118、記憶部120、および制御部122を含む。以下では、監視装置100の各構成要素について説明する。
(Configuration of the monitoring device 100)
Below, the structure of the monitoring apparatus 100 is demonstrated, referring FIGS. FIG. 2 is an explanatory diagram showing the configuration of the monitoring device 100. The monitoring apparatus 100 includes a data acquisition unit 102, a monitoring item storage unit 104, a monitoring item update unit 106, an analysis processing unit 108, a diagnostic reference storage unit 110, a diagnostic reference update unit 112, a diagnostic processing unit 114, a failure information notification unit 116, An input / output unit 118, a storage unit 120, and a control unit 122 are included. Below, each component of the monitoring apparatus 100 is demonstrated.

(データ取得部102)
データ取得部102は、監視対象システム10から通信回線20を通じて解析対象データを定期的に取得する。取得された解析対象データは、記憶部120に一時的に記憶され、解析処理に際して解析処理部108に出力される。
(Data acquisition unit 102)
The data acquisition unit 102 periodically acquires analysis target data from the monitoring target system 10 through the communication line 20. The acquired analysis target data is temporarily stored in the storage unit 120 and output to the analysis processing unit 108 during the analysis process.

図3は、解析対象データの一例を示す説明図である。図3に示す解析対象データは、監視対象システム10のディスク状態およびリソース状態などを表示するためのコマンド出力結果152である。コマンド出力結果152は、「ディスク基本情報」(製造元、製造番号、記憶容量、動作状態)、「ソフトウェアミラー情報」(ミラー元ディスク、ミラー先ディスク、同期状態)、「リソース使用状況」(メモリ使用率、CPU使用率)などを示す文字列形式の情報である。   FIG. 3 is an explanatory diagram illustrating an example of analysis target data. The analysis target data shown in FIG. 3 is a command output result 152 for displaying the disk status and resource status of the monitoring target system 10. The command output result 152 includes “disk basic information” (manufacturer, serial number, storage capacity, operation status), “software mirror information” (mirror source disk, mirror destination disk, synchronization status), “resource usage status” (memory usage) Rate, CPU usage rate) and the like.

(監視項目記憶部104)
監視項目記憶部104は、解析処理の対象となる所定の監視項目を記憶し、解析処理に際して解析処理部108に提供する。監視項目記憶部104は、複数のOSに適合する監視項目を記憶し、監視対象システム10のOSに応じて、適切な監視項目を解析処理部108に提供してもよい。
(Monitoring item storage unit 104)
The monitoring item storage unit 104 stores predetermined monitoring items to be analyzed, and provides them to the analysis processing unit 108 during the analysis processing. The monitoring item storage unit 104 may store monitoring items suitable for a plurality of OSs, and may provide appropriate monitoring items to the analysis processing unit 108 according to the OS of the monitoring target system 10.

なお、監視項目は、例えば、論理ディスク情報、ネットワーク情報、クラスタ情報、外部ストレージ情報、OS構成情報、プロセス情報、メモリ情報、時刻同期の状態、ファイルシステム情報、バックアップ情報などの情報を大項目として含む。そして、例えば、論理ディスク情報に関しては、ボリューム名、使用量、ミラーの数/状態などの情報を小項目として含む。   The monitoring items include, for example, information such as logical disk information, network information, cluster information, external storage information, OS configuration information, process information, memory information, time synchronization status, file system information, and backup information as major items. Including. For example, regarding the logical disk information, information such as a volume name, a usage amount, and the number / status of mirrors is included as small items.

(監視項目更新部106)
監視項目更新部106は、監視項目の更新情報を取得し、更新情報に基づいて監視項目記憶部104に記憶されている監視項目を更新する。更新情報は、監視装置100の運用者により更新されてもよく、通信回線20を通じて接続された更新サーバなどにより自動更新されてもよい。更新情報は、更新情報の適用対象となるOSのOS情報に関する情報を含んでもよい。
(Monitoring item update unit 106)
The monitoring item update unit 106 acquires update information of the monitoring item, and updates the monitoring item stored in the monitoring item storage unit 104 based on the update information. The update information may be updated by an operator of the monitoring apparatus 100, or may be automatically updated by an update server connected through the communication line 20. The update information may include information related to the OS information of the OS to which the update information is applied.

(解析処理部108)
解析処理部108は、所定の監視項目に基づいて解析対象データを解析する。図3に示すように、解析対象データは、システムユーザには理解可能であるが、監視装置100には直接的に理解不能であり、または理解困難な形式の情報を含んでいる。このため、解析処理部108は、解析対象データを解析し、診断処理に利用可能な情報を監視項目記憶部104から提供される監視項目に基づいて、解析対象データから抽出する。抽出された情報は、解析処理の結果として診断処理部114に出力される。
(Analysis processing unit 108)
The analysis processing unit 108 analyzes the analysis target data based on a predetermined monitoring item. As shown in FIG. 3, the analysis target data includes information in a format that can be understood by the system user but cannot be directly understood by the monitoring apparatus 100 or is difficult to understand. Therefore, the analysis processing unit 108 analyzes the analysis target data, and extracts information that can be used for diagnosis processing from the analysis target data based on the monitoring items provided from the monitoring item storage unit 104. The extracted information is output to the diagnosis processing unit 114 as a result of the analysis process.

解析処理部108は、例えば、図3に示す解析対象データから、監視項目「ソフトウェアミラー情報」に関して、「ミラー元ディスク:A」、「ミラー先ディスク:B」および「同期状態:同期失敗」という情報を抽出し、解析処理の結果として診断処理部114に出力する。また、監視項目「リソース使用状況」に関して、「メモリ使用率:90%」および「CPU使用率:95%」という情報を抽出し、解析処理の結果として診断処理部114に出力する。   For example, the analysis processing unit 108 refers to “mirror source disk: A”, “mirror destination disk: B”, and “synchronization state: synchronization failure” regarding the monitoring item “software mirror information” from the analysis target data illustrated in FIG. Information is extracted and output to the diagnosis processing unit 114 as a result of the analysis processing. Further, regarding the monitoring item “resource usage status”, information of “memory usage rate: 90%” and “CPU usage rate: 95%” is extracted and output to the diagnosis processing unit 114 as a result of the analysis processing.

解析処理部108は、複数のOSおよび/またはデータ形式に適合する解析処理ルーチンを有し、解析対象システムのOSおよび/または解析対象データのデータ形式に応じて、適切な解析処理ルーチンを選択してもよい。   The analysis processing unit 108 has an analysis processing routine adapted to a plurality of OSs and / or data formats, and selects an appropriate analysis processing routine according to the OS of the analysis target system and / or the data format of the analysis target data. May be.

(診断基準記憶部110)
診断基準記憶部110は、診断処理に用いられる所定の診断基準を記憶するナレッジデータベースとして機能する。診断基準は、解析処理の結果に基づいて、監視対象システム10の構成および動作状況などを診断する際に、診断の基準として用いられる情報である。診断基準記憶部110は、新たに採用された診断基準を蓄積するとともに、診断基準更新部112により最新の診断基準を記憶するように更新されている。
(Diagnostic criteria storage unit 110)
The diagnostic criteria storage unit 110 functions as a knowledge database that stores predetermined diagnostic criteria used for diagnostic processing. The diagnostic criterion is information used as a diagnostic criterion when diagnosing the configuration and operation status of the monitoring target system 10 based on the result of the analysis process. The diagnostic criteria storage unit 110 accumulates newly adopted diagnostic criteria and is updated by the diagnostic criteria update unit 112 to store the latest diagnostic criteria.

診断基準は、例えば、システムの状態を判定するために参照可能な定性的な情報(例えば、コマンド出力結果中の「正常」、「異常」などの出力結果)、定量的な情報(例えば、所定のパラメータの閾値など)などを含む。診断基準は、例えば、監視システムの適用対象となる各種監視対象システム10のシステム仕様、各種コマンド出力結果の様式、特定または不特定の監視対象システム10に関する障害履歴などに基づいて作成される。特に、診断基準としての障害履歴をシステム障害の予測、システム障害の発生予防に利用することで、効率的なシステム監視を実現することができる。   The diagnostic criteria are, for example, qualitative information (for example, output results such as “normal” and “abnormal” in the command output result) that can be referred to in order to determine the state of the system, and quantitative information (for example, predetermined Parameter thresholds, etc.). The diagnostic criteria are created based on, for example, system specifications of various monitoring target systems 10 to which the monitoring system is applied, various command output result formats, failure histories related to specific or non-specific monitoring target systems 10, and the like. In particular, efficient system monitoring can be realized by using a failure history as a diagnostic criterion for prediction of system failure and prevention of occurrence of system failure.

(診断基準更新部112)
診断基準更新部112は、診断基準の更新情報を取得し、更新情報に基づいて診断基準記憶部110に記憶されている所定の診断基準を更新する。更新情報は、監視項目更新部106と同様に、監視装置100の運用者により更新されてもよく、通信回線20を通じて接続された更新サーバなどにより自動更新されてもよい。更新情報は、更新情報の適用対象となるOSのOS情報、解析対象データの形式に関する情報を含んでもよい。
(Diagnostic criteria update unit 112)
The diagnostic reference update unit 112 acquires update information of the diagnostic reference, and updates a predetermined diagnostic reference stored in the diagnostic reference storage unit 110 based on the update information. The update information may be updated by the operator of the monitoring apparatus 100 as in the monitoring item update unit 106, or may be automatically updated by an update server connected through the communication line 20. The update information may include OS information of the OS to which the update information is applied and information on the format of the analysis target data.

(診断処理部114)
診断処理部114は、解析処理の結果および所定の診断基準に基づいて監視対象システム10の構成および動作状況など、監視対象システム10の状態を診断する。診断処理に用いられる所定の診断基準は、診断基準記憶部110に記憶されており、診断処理に際して診断基準記憶部110に提供される。診断処理部114は、監視対象システム10の状態を診断し、診断処理の結果を障害情報通知部116に通知する。
(Diagnosis processing unit 114)
The diagnosis processing unit 114 diagnoses the state of the monitoring target system 10 such as the configuration and operation status of the monitoring target system 10 based on the result of the analysis processing and a predetermined diagnosis criterion. Predetermined diagnostic criteria used for the diagnostic processing are stored in the diagnostic criteria storage unit 110 and are provided to the diagnostic criteria storage unit 110 during the diagnostic processing. The diagnosis processing unit 114 diagnoses the state of the monitoring target system 10 and notifies the failure information notification unit 116 of the result of the diagnosis processing.

診断処理部114は、例えば、監視項目「ソフトウェアミラー情報」に関する解析処理の結果に基づいて、ディスクAとディスクBとの間でミラー同期が取られていない旨を診断し、診断処理の結果として障害情報通知部116に出力する。また、診断処理部114は、監視項目「リソース使用状況」に関する解析処理の結果に基づいて、メモリ使用率およびCPU使用率が所定の閾値を超えていることから、使用可能なメモリが不足している旨、および、システム暴走の危険性がある旨を診断し、診断処理の結果として障害情報通知部116に出力する。   For example, the diagnosis processing unit 114 diagnoses that the mirror synchronization is not established between the disk A and the disk B based on the result of the analysis process regarding the monitoring item “software mirror information”, and as a result of the diagnosis process The information is output to the failure information notification unit 116. In addition, the diagnosis processing unit 114 runs out of available memory because the memory usage rate and the CPU usage rate exceed predetermined thresholds based on the result of the analysis processing related to the monitoring item “resource usage status”. And that there is a risk of system runaway, and outputs the result to the failure information notification unit 116 as a result of the diagnosis process.

診断基準記憶部110は、解析処理部108と同様に、複数のOSおよび/またはデータ形式に適合する診断基準を有し、解析対象システムのOSおよび/または解析対象データのデータ形式に応じて、適切な診断基準を診断処理部114に提供してもよい。   Similar to the analysis processing unit 108, the diagnostic standard storage unit 110 has diagnostic standards that are compatible with a plurality of OSs and / or data formats, and according to the OS of the analysis target system and / or the data format of the analysis target data, Appropriate diagnostic criteria may be provided to the diagnostic processor 114.

診断処理部114は、診断処理の結果として、システム障害の障害レベル、放置時に発生しうる現象、対処方法などの診断レポートを作成し、障害情報の一部として障害情報通知部116に出力してもよい。障害レベルは、例えば、「正常」、「注意(診断処理の結果に基づいて対応要否の判断を要する状態)」、「警告(即時対応を要する状態)」など、システム障害の重要度を示す情報である。放置時に発生しうる現象は、システム障害を放置していた場合の影響を示す情報である。対処方法は、対処可能なアクションアイテムの情報である。   As a result of the diagnosis processing, the diagnosis processing unit 114 creates a diagnosis report such as a failure level of the system failure, a phenomenon that may occur when left unattended, a countermeasure, and the like, and outputs the diagnosis report to the failure information notification unit 116 as part of the failure information. Also good. The failure level indicates, for example, the importance of the system failure such as “normal”, “caution (a state that requires determination of necessity of response based on the result of diagnosis processing)”, “warning (a state that requires immediate response)”, etc. Information. The phenomenon that can occur when left unattended is information indicating the effect of leaving a system failure. The coping method is information on action items that can be dealt with.

(障害情報通知部116)
障害情報通知部116は、診断処理の結果に基づいて監視対象システム10の状態を確認し、障害が確認された場合には、障害状態を示す障害情報を通知する。障害情報は、監視装置100のモニタ、プリンタ、監視装置100に接続された操作端末、または監視パネルなどに出力される。
(Failure information notification unit 116)
The failure information notification unit 116 confirms the state of the monitoring target system 10 based on the result of the diagnostic process, and when failure is confirmed, notifies failure information indicating the failure state. The failure information is output to a monitor, a printer, an operation terminal connected to the monitoring device 100, a monitoring panel, or the like.

図4は、障害情報の一例を示す説明図である。図4に示す障害情報154は、ソフトウェアミラーの同期障害を通知するものであり、診断レポートを含んでいる。障害情報154は、診断処理の結果、および診断レポートに含まれる、(1)障害レベル、(2)放置時に発生しうる現象、(3)対処方法の項目からなる。   FIG. 4 is an explanatory diagram illustrating an example of failure information. The failure information 154 shown in FIG. 4 notifies the synchronization failure of the software mirror, and includes a diagnosis report. The failure information 154 includes items of (1) a failure level, (2) a phenomenon that may occur when left unattended, and (3) a coping method included in the diagnosis processing result and the diagnosis report.

図4によれば、診断処理の結果として、ミラーの同期障害が発生している旨が通知されている。また、(1)障害レベルとして、システム障害の重要度が高いと診断され、「警告」レベルが通知されている。(2)放置時に発生しうる現象として、正常なディスクが故障した場合にOS起動が正常に行われなくなる虞がある旨が通知されている。(3)対処方法として、ディスクの交換、ミラーを再同期するためのコマンドの実行が通知されている。   According to FIG. 4, as a result of the diagnostic processing, it is notified that a mirror synchronization failure has occurred. Further, (1) as the failure level, it is diagnosed that the importance of the system failure is high, and the “warning” level is notified. (2) As a phenomenon that may occur when left unattended, there is a notice that there is a possibility that the OS startup may not be performed normally when a normal disk fails. (3) As a coping method, the exchange of the disk and the execution of the command for resynchronizing the mirror are notified.

(その他の構成要素)
入出力部118は、キーボード、モニタ、プリンタなどの入出力デバイスによる入出力処理などを実現する。記憶部120は、解析対象データ、解析処理の結果、診断処理の結果、監視装置100の動作に必要となる各種情報などを記憶する。制御部122は、前述した他の構成要素を制御することで、監視装置100全体の動作を制御する。
(Other components)
The input / output unit 118 realizes input / output processing by an input / output device such as a keyboard, a monitor, and a printer. The storage unit 120 stores analysis target data, results of analysis processing, results of diagnosis processing, various information necessary for the operation of the monitoring apparatus 100, and the like. The control unit 122 controls the overall operation of the monitoring apparatus 100 by controlling the other components described above.

以上、監視装置100の構成について説明した。なお、データ取得部102、監視項目更新部106、解析処理部108、診断基準更新部112、診断処理部114、障害情報通知部116、および制御部122の各構成要素は、各構成要素の機能を実行するソフトウェアプログラムを記憶部120にインストールして実現されてもよく、専用のハードウェアにより実現されてもよい。また、ソフトウェアプログラムは、コンピュータ読取可能な記憶媒体に記憶され、必要に応じて読出されて実行されてもよく、通信回線20を通じて提供されてもよい。また、監視項目記憶部104、診断基準記憶部110、および記憶部120は、例えば、半導体メモリ、光ディスク、磁気ディスクなどの各種記憶媒体として構成されてもよい。   The configuration of the monitoring device 100 has been described above. Each component of the data acquisition unit 102, the monitoring item update unit 106, the analysis processing unit 108, the diagnostic reference update unit 112, the diagnosis processing unit 114, the failure information notification unit 116, and the control unit 122 is a function of each component. May be realized by installing a software program for executing the above in the storage unit 120, or may be realized by dedicated hardware. The software program may be stored in a computer-readable storage medium, read and executed as necessary, or provided through the communication line 20. In addition, the monitoring item storage unit 104, the diagnostic reference storage unit 110, and the storage unit 120 may be configured as various storage media such as a semiconductor memory, an optical disk, and a magnetic disk, for example.

(監視装置100の動作)
以下では、図5を参照しながら、監視装置100の動作について説明する。図5は、監視装置100の動作方法を示すフロー図である。
(Operation of the monitoring device 100)
Hereinafter, the operation of the monitoring apparatus 100 will be described with reference to FIG. FIG. 5 is a flowchart showing an operation method of the monitoring apparatus 100.

監視項目更新部106は、監視項目の更新情報を取得したか否かを判定し(ステップS102)、更新情報を取得した場合には、監視項目記憶部104に記憶されている監視項目を更新する(S104)。ここで、監視項目の更新情報は、更新情報の適用対象となるOSのOS情報に関する情報などを含んでもよい。これにより、監視装置100の側で所定の監視項目を更新可能であるので、監視対象システム10毎に監視項目を更新する必要がなく、監視項目の更新作業を効率的に行うことができる。   The monitoring item update unit 106 determines whether or not the update information of the monitoring item has been acquired (step S102), and when the update information is acquired, the monitoring item stored in the monitoring item storage unit 104 is updated. (S104). Here, the update information of the monitoring item may include information related to OS information of the OS to which the update information is applied. Thereby, since a predetermined monitoring item can be updated on the monitoring apparatus 100 side, there is no need to update the monitoring item for each monitoring target system 10, and the updating operation of the monitoring item can be performed efficiently.

診断基準更新部112は、診断基準の更新情報を取得したか否かを判定し(S106)、更新情報を取得した場合には、診断基準記憶部110に記憶されている診断基準を更新する(S108)。ここで、診断基準の更新情報は、更新情報の適用対象となるOSのOS情報、解析対象データの形式に関する情報などを含んでもよい。これにより、監視装置100の側で所定の診断基準を更新可能であるので、更新された診断基準に基づいて監視対象システム10の状態を診断することで、効率的なシステム監視を実現することができる。   The diagnostic reference update unit 112 determines whether or not diagnostic reference update information has been acquired (S106), and when the update information is acquired, updates the diagnostic reference stored in the diagnostic reference storage unit 110 ( S108). Here, the update information of the diagnostic criteria may include OS information of the OS to which the update information is applied, information on the format of the analysis target data, and the like. Thus, since the predetermined diagnostic criteria can be updated on the monitoring device 100 side, efficient system monitoring can be realized by diagnosing the state of the monitored system 10 based on the updated diagnostic criteria. it can.

制御部122は、監視対象システム10からの解析対象データの受信の有無を確認する(S110)。制御部122は、解析対象データの受信が確認された場合には、S112以降の処理を実行し、確認されない場合には、確認処理を継続する。   The control unit 122 confirms whether or not the analysis target data is received from the monitoring target system 10 (S110). The control part 122 performs the process after S112, when reception of analysis object data is confirmed, and when a confirmation is not confirmed, it continues a confirmation process.

データ取得部102は、監視対象システム10上で動作するデータ取得プログラムから解析対象データを定期的に取得する(S112)。解析対象データは、監視対象システム10の識別情報、OS情報、解析対象データのデータ形式に関する情報などを含んでもよい。   The data acquisition unit 102 periodically acquires analysis target data from a data acquisition program operating on the monitoring target system 10 (S112). The analysis target data may include identification information of the monitoring target system 10, OS information, information on the data format of the analysis target data, and the like.

データ取得部102は、解析対象データを解析処理部108に出力する(S114)。ここで、データ取得部102は、解析対象データを記憶部120に一時的に記憶してもよい。特に、解析対象データをブロック単位で取得する場合には、データ取得部102は、解析処理の実行に必要となる全ての解析対象データを取得するまで、解析対象データを記憶部120に一時的に記憶する。   The data acquisition unit 102 outputs the analysis target data to the analysis processing unit 108 (S114). Here, the data acquisition unit 102 may temporarily store the analysis target data in the storage unit 120. In particular, when the analysis target data is acquired in units of blocks, the data acquisition unit 102 temporarily stores the analysis target data in the storage unit 120 until all of the analysis target data necessary for executing the analysis process is acquired. Remember.

解析処理部108は、監視項目記憶部104に記憶されている所定の監視項目を参照する(S116)。ここで、解析処理部108は、監視対象システム10のOS情報および/または解析対象データのデータ形式に適合する監視項目を参照してもよい。   The analysis processing unit 108 refers to a predetermined monitoring item stored in the monitoring item storage unit 104 (S116). Here, the analysis processing unit 108 may refer to monitoring items that match the OS information of the monitoring target system 10 and / or the data format of the analysis target data.

解析処理部108は、監視項目に基づいて解析対象データを解析する(S118)。ここで、解析処理に先立って、解析処理部108は、監視対象システム10のOS情報および/または解析対象データのデータ形式に適合する解析処理ルーチンを選択してもよい。   The analysis processing unit 108 analyzes the analysis target data based on the monitoring item (S118). Here, prior to the analysis processing, the analysis processing unit 108 may select an analysis processing routine that matches the OS information of the monitoring target system 10 and / or the data format of the analysis target data.

解析処理部108は、解析処理の結果を診断処理部114に出力する(S120)。ここで、解析処理部108は、解析処理の結果を記憶部120に一時的に記憶してもよい。   The analysis processing unit 108 outputs the result of the analysis processing to the diagnosis processing unit 114 (S120). Here, the analysis processing unit 108 may temporarily store the result of the analysis processing in the storage unit 120.

診断処理部114は、診断基準記憶部110に記憶されている所定の診断基準を参照する(S122)。ここで、診断処理部114は、監視対象システム10のOS情報および/または解析対象データのデータ形式に適合する診断基準を参照してもよい。これにより、診断基準記憶部110に記憶されている所定の診断基準に基づいて監視対象システム10の状態を診断するので、特定または不特定の監視対象システム10に関する障害履歴などを診断基準記憶部110に記憶することで、効率的なシステム監視を実現することができる。   The diagnostic processing unit 114 refers to a predetermined diagnostic criterion stored in the diagnostic criterion storage unit 110 (S122). Here, the diagnosis processing unit 114 may refer to a diagnosis standard that matches the OS information of the monitoring target system 10 and / or the data format of the analysis target data. Thereby, since the state of the monitoring target system 10 is diagnosed based on the predetermined diagnostic criterion stored in the diagnostic criterion storage unit 110, the diagnosis criterion storage unit 110 can display a failure history related to the specific or unspecified monitoring target system 10. By storing them in the system, efficient system monitoring can be realized.

診断処理部114は、解析処理の結果および所定の診断基準に基づいて監視対象システム10の状態を診断する(S124)。ここで、診断処理部114は、診断処理の結果として、診断レポートを作成してもよい。   The diagnosis processing unit 114 diagnoses the state of the monitoring target system 10 based on the result of the analysis process and a predetermined diagnosis criterion (S124). Here, the diagnosis processing unit 114 may create a diagnosis report as a result of the diagnosis processing.

診断処理部114は、診断処理の結果を障害情報通知部116に出力する(S126)。ここで、診断処理部114は、診断レポートを診断処理の結果の一部として障害情報通知部116に出力してもよい。また、診断処理部114は、診断処理の結果を記憶部120に一時的に記憶してもよい。   The diagnosis processing unit 114 outputs the result of the diagnosis processing to the failure information notification unit 116 (S126). Here, the diagnosis processing unit 114 may output the diagnosis report to the failure information notification unit 116 as a part of the result of the diagnosis processing. Further, the diagnostic processing unit 114 may temporarily store the result of the diagnostic processing in the storage unit 120.

障害情報通知部116は、診断処理の結果に基づいて監視対象システム10の状態に障害が確認されたか否かを判定し(S128)、確認された場合には、システム障害の発生を示す障害情報を通知し(S130)、確認されなかった場合には、処理S102に復帰する。   The failure information notification unit 116 determines whether or not a failure has been confirmed in the state of the monitored system 10 based on the result of the diagnostic processing (S128), and if confirmed, failure information indicating the occurrence of the system failure. (S130), if not confirmed, the process returns to S102.

以上説明したように、本実施形態に係る監視装置100によれば、監視装置100が所定の監視項目に基づいて解析対象データを解析し、監視対象システム10の状態を診断して障害情報を通知するので、監視対象システム10毎に監視項目を設定する必要がない。これにより、多数の監視対象システム10を管理する際でも、監視項目の設定作業を効率的に行うことができ、設定ミスの発生を容易に防止することができる。よって、本実施形態に係る監視装置100によれば、システム監視の効率性を向上させることができる。   As described above, according to the monitoring apparatus 100 according to the present embodiment, the monitoring apparatus 100 analyzes analysis target data based on a predetermined monitoring item, diagnoses the state of the monitoring target system 10, and notifies failure information. Therefore, there is no need to set monitoring items for each monitoring target system 10. As a result, even when managing a large number of monitoring target systems 10, it is possible to efficiently perform monitoring item setting work and easily prevent setting errors. Therefore, according to the monitoring apparatus 100 according to the present embodiment, the efficiency of system monitoring can be improved.

以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されない。当業者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。   As mentioned above, although preferred embodiment of this invention was described referring an accompanying drawing, this invention is not limited to the example which concerns. It is obvious for those skilled in the art that various changes or modifications can be conceived within the scope of the technical idea described in the claims. It is understood that it belongs to.

例えば、上記実施形態の説明では、監視装置100が診断基準記憶部110を備え、診断基準記憶部110に記憶されている所定の診断基準に基づいて、診断処理部114が診断処理を行う場合について説明した。しかし、本実施形態は、監視装置100が診断基準記憶部110を備えない場合についても適用可能であり、この場合、監視装置100は、記憶部120に記憶されている所定の診断基準に基づいて診断処理を行うことができる。   For example, in the description of the above embodiment, the monitoring apparatus 100 includes the diagnostic reference storage unit 110 and the diagnostic processing unit 114 performs the diagnostic processing based on a predetermined diagnostic reference stored in the diagnostic reference storage unit 110. explained. However, the present embodiment can also be applied to the case where the monitoring apparatus 100 does not include the diagnostic reference storage unit 110. In this case, the monitoring apparatus 100 is based on a predetermined diagnostic reference stored in the storage unit 120. Diagnostic processing can be performed.

本発明の一実施形態に係る監視装置を含む監視システムの全体構成を示す説明図である。It is explanatory drawing which shows the whole structure of the monitoring system containing the monitoring apparatus which concerns on one Embodiment of this invention. 監視装置の構成を示す説明図である。It is explanatory drawing which shows the structure of a monitoring apparatus. 解析対象データの一例を示す説明図である。It is explanatory drawing which shows an example of analysis object data. 障害情報の一例を示す説明図である。It is explanatory drawing which shows an example of failure information. 監視装置の動作方法を示すフロー図である。It is a flowchart which shows the operating method of a monitoring apparatus.

符号の説明Explanation of symbols

10 監視対象システム
100 システム監視装置
102 データ取得部
108 解析処理部
114 診断処理部
116 障害情報通知部
110 診断基準記憶部
104 監視項目更新部
112 診断基準更新部
DESCRIPTION OF SYMBOLS 10 Monitoring target system 100 System monitoring apparatus 102 Data acquisition part 108 Analysis processing part 114 Diagnosis processing part 116 Fault information notification part 110 Diagnosis reference memory | storage part 104 Monitoring item update part 112 Diagnosis reference update part

Claims (5)

コンピュータシステムの状態を監視するシステム監視装置において、
前記コンピュータシステムから解析対象データを定期的に取得するデータ取得部と、
所定の監視項目に基づいて前記解析対象データを解析する解析処理部と、
解析処理の結果および所定の診断基準に基づいて前記コンピュータシステムの状態を診断する診断処理部と、
診断処理の結果に基づいて前記コンピュータシステムの状態に障害が確認された場合に、障害の発生を示す障害情報を通知する障害情報通知部と、
を備えたシステム監視装置。
In a system monitoring device for monitoring the state of a computer system,
A data acquisition unit for periodically acquiring data to be analyzed from the computer system;
An analysis processing unit that analyzes the analysis target data based on a predetermined monitoring item;
A diagnostic processing unit for diagnosing the state of the computer system based on the result of analysis processing and a predetermined diagnostic criterion;
A failure information notification unit for notifying failure information indicating the occurrence of a failure when a failure is confirmed in the state of the computer system based on a result of diagnostic processing;
System monitoring device with
前記所定の診断基準を記憶する診断基準記憶部をさらに備えたことを特徴とする、請求項1に記載のシステム監視装置。   The system monitoring apparatus according to claim 1, further comprising a diagnostic criterion storage unit that stores the predetermined diagnostic criterion. 前記所定の監視項目を更新するための監視項目更新部をさらに備えたことを特徴とする、請求項1または2に記載のシステム監視装置。   The system monitoring apparatus according to claim 1, further comprising a monitoring item update unit for updating the predetermined monitoring item. 前記診断基準記憶部に記憶されている前記所定の診断基準を更新するための診断基準更新部をさらに備えたことを特徴とする、請求項2または3に記載のシステム監視装置。   The system monitoring apparatus according to claim 2, further comprising a diagnostic standard update unit for updating the predetermined diagnostic standard stored in the diagnostic standard storage unit. コンピュータシステムの状態を監視するシステム監視装置に適用されるプログラムにおいて、コンピュータを、
前記コンピュータシステムから解析対象データを定期的に取得するデータ取得手段、
所定の監視項目に基づいて前記解析対象データを解析する解析処理手段、
解析処理の結果および所定の診断基準に基づいて前記コンピュータシステムの状態を診断する診断処理手段、
診断処理の結果に基づいて前記コンピュータシステムの状態に障害が確認された場合に、障害の発生を示す障害情報を通知する障害情報通知手段、
として機能させるためのプログラム。
In a program applied to a system monitoring apparatus for monitoring the state of a computer system,
Data acquisition means for periodically acquiring data to be analyzed from the computer system;
Analysis processing means for analyzing the analysis object data based on a predetermined monitoring item;
Diagnostic processing means for diagnosing the state of the computer system based on the result of analysis processing and a predetermined diagnostic criterion;
Failure information notifying means for notifying failure information indicating the occurrence of a failure when a failure is confirmed in the state of the computer system based on a result of diagnostic processing;
Program to function as.
JP2008076016A 2008-03-24 2008-03-24 System monitoring device and program Withdrawn JP2009230522A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008076016A JP2009230522A (en) 2008-03-24 2008-03-24 System monitoring device and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008076016A JP2009230522A (en) 2008-03-24 2008-03-24 System monitoring device and program

Publications (1)

Publication Number Publication Date
JP2009230522A true JP2009230522A (en) 2009-10-08

Family

ID=41245825

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008076016A Withdrawn JP2009230522A (en) 2008-03-24 2008-03-24 System monitoring device and program

Country Status (1)

Country Link
JP (1) JP2009230522A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012023171A1 (en) * 2010-08-16 2012-02-23 富士通株式会社 Information processing apparatus, remote maintenance method, and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012023171A1 (en) * 2010-08-16 2012-02-23 富士通株式会社 Information processing apparatus, remote maintenance method, and program
JP5354107B2 (en) * 2010-08-16 2013-11-27 富士通株式会社 Information processing apparatus, remote maintenance method, and program

Similar Documents

Publication Publication Date Title
US8799709B2 (en) Snapshot management method, snapshot management apparatus, and computer-readable, non-transitory medium
US9459948B2 (en) Auxiliary method, apparatus and system for diagnosing failure of virtual machine
WO2009110111A1 (en) Server device, method of detecting failure of server device, and program of detecting failure of server device
US8914488B2 (en) Method and system for monitoring a monitoring-target process
US20140122931A1 (en) Performing diagnostic tests in a data center
US11157373B2 (en) Prioritized transfer of failure event log data
EP3591485B1 (en) Method and device for monitoring for equipment failure
US10275330B2 (en) Computer readable non-transitory recording medium storing pseudo failure generation program, generation method, and generation apparatus
JPWO2012046293A1 (en) Fault monitoring apparatus, fault monitoring method and program
JP7387469B2 (en) Communication equipment, monitoring server and log collection method
US9021078B2 (en) Management method and management system
JP6558037B2 (en) Operation management program, operation management method, and operation management apparatus
JP5282569B2 (en) Management device, management system, management method, and management program
US20120210176A1 (en) Method for controlling information processing apparatus and information processing apparatus
JP6504610B2 (en) Processing device, method and program
JP6880961B2 (en) Information processing device and log recording method
JP6317074B2 (en) Failure notification device, failure notification program, and failure notification method
JP2022052504A (en) Bmc, server system, device stabilization determination method, and program
CN111897626A (en) Cloud computing scene-oriented virtual machine high-reliability system and implementation method
JP2009230522A (en) System monitoring device and program
KR101783201B1 (en) System and method for managing servers totally
JP2009026182A (en) Program execution system and execution device
JP2001331330A (en) Process abnormality detection and restoration system
US7409605B2 (en) Storage system
JP2009048291A (en) System analysis device and program

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20110607