JP2005141467A - Monitoring device and method for computer system - Google Patents

Monitoring device and method for computer system Download PDF

Info

Publication number
JP2005141467A
JP2005141467A JP2003376818A JP2003376818A JP2005141467A JP 2005141467 A JP2005141467 A JP 2005141467A JP 2003376818 A JP2003376818 A JP 2003376818A JP 2003376818 A JP2003376818 A JP 2003376818A JP 2005141467 A JP2005141467 A JP 2005141467A
Authority
JP
Japan
Prior art keywords
message
replacement
storage unit
replacement candidate
received
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003376818A
Other languages
Japanese (ja)
Other versions
JP4530645B2 (en
Inventor
Masayuki Shimada
政行 島田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2003376818A priority Critical patent/JP4530645B2/en
Publication of JP2005141467A publication Critical patent/JP2005141467A/en
Application granted granted Critical
Publication of JP4530645B2 publication Critical patent/JP4530645B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Computer And Data Communications (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a technology for detecting a failure caused in a monitoring objective system based on a message about the monitoring objective system. <P>SOLUTION: An integrated monitoring device monitoring a computer system is provided with a message receipt part 13 receiving a message about the system to be monitored, a display control part 18 controlling a display device 4, a message storage part 17 storing the message displayed on the display device 4 by the display control part 18, a message replacement processing part 14 extracting a replacement candidate message from the received messages received by the message receipt part 13 and replaces the replacement candidate message according to a predetermined rule, and a filtering processing part 15 storing received messages excepting the replacement candidate in a message storage part 17 and storing a replaced message in the message storage part 17 if a message equal to the replaced message is not stored in the message storage part 17. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、コンピュータシステムの監視を行うための技術に関し、特に、多数のメッセージに基づいて、障害の切り分けを行うための技術に関する。   The present invention relates to a technique for monitoring a computer system, and more particularly to a technique for performing fault isolation based on a large number of messages.

近年、コンピュータのソフトウェアの多様化及びハードウェアの性能向上に伴い、システムの運用要件が複雑化してきている。このため、コンピュータシステムの運用監視を行う監視装置は、各ソフトウェアおよびハードウェアからより多くの情報、例えば情報メッセージおよび障害メッセージなどを取得しなければならなくなっている。この結果、処理しなければならないメッセージ数が膨大になり、監視装置の処理速度の低下、あるいは、運用オペレータの負担が増大することによるメッセージ見落としなどの問題が生じるおそれがある。このことは、ソフトウェア及びハードウェアごとに個別の運用管理ツールを導入し、それらのツールをさらに統合的に監視するツール(統合監視システム)を導入するようなときには、さらに顕著となる。   In recent years, with the diversification of computer software and the improvement of hardware performance, system operation requirements have become more complex. For this reason, a monitoring apparatus that monitors the operation of a computer system has to acquire more information, such as information messages and failure messages, from each software and hardware. As a result, the number of messages that need to be processed becomes enormous, which may cause problems such as a decrease in the processing speed of the monitoring apparatus or an oversight of messages due to an increase in the burden on the operation operator. This becomes even more prominent when individual operation management tools are introduced for each software and hardware, and tools (integrated monitoring system) for monitoring these tools in an integrated manner are introduced.

そこで、このような事態を回避するために、一部の監視装置には、不要なメッセージを破棄し、必要なメッセージのみを抽出するメッセージフィルタリング機能を搭載しているものがある。(例えば非特許文献1)。   In order to avoid such a situation, some monitoring apparatuses have a message filtering function that discards unnecessary messages and extracts only necessary messages. (For example, Non-Patent Document 1).

http://www-6.ibm.com/jp/software/tivoli/products/systems_mgr.htmlhttp://www-6.ibm.com/jp/software/tivoli/products/systems_mgr.html

しかし、一つの障害が生じると、それに起因して複数のエラーメッセージなどが出力されることがある。例えば、監視対象システムのあるノードがダウンしてしまうと、そのコンピュータを利用する複数の処理でエラーが生じたり、このコンピュータへアクセスできないというネットワークエラーが生じたりする。   However, when one failure occurs, a plurality of error messages may be output due to the failure. For example, if a node of the monitored system goes down, errors may occur in a plurality of processes that use the computer, or a network error may occur that the computer cannot be accessed.

本発明の目的は、監視対象システムに関するメッセージに基づいて、監視対象システムで発生した障害を検出するための技術を提供することである。   The objective of this invention is providing the technique for detecting the failure which generate | occur | produced in the monitoring object system based on the message regarding the monitoring object system.

本発明の一つの態様に従うコンピュータシステムの監視装置は、監視対象のシステムに関するメッセージを受信する受信部と、表示装置を制御する表示制御部と、前記表示制御部が前記表示装置に表示させるためのメッセージを記憶する記憶部と、前記受信部が受信した受信メッセージの中から置換候補メッセージを抽出するメッセージ抽出部と、前記メッセージ抽出部で抽出されなかった置換候補でない前記受信メッセージを前記記憶部へ格納する受信メッセージ格納処理部と、前記置換候補メッセージを所定のルールに従って置換する置換処理部と、前記置換処理部が置換した置換後のメッセージと同一のメッセージが前記記憶部に格納されていないときは、前記置換後のメッセージを前記記憶部へ格納する置換メッセージ格納処理部とを備える。   A monitoring device for a computer system according to one aspect of the present invention includes a receiving unit that receives a message related to a monitored system, a display control unit that controls a display device, and a display control unit that causes the display device to display the message. A storage unit that stores a message, a message extraction unit that extracts a replacement candidate message from received messages received by the reception unit, and the received message that is not a replacement candidate that has not been extracted by the message extraction unit to the storage unit When the received message storage processing unit to store, the replacement processing unit for replacing the replacement candidate message according to a predetermined rule, and the same message as the replaced message replaced by the replacement processing unit are not stored in the storage unit A replacement message storage processing unit for storing the replaced message in the storage unit; Provided.

好適な実施形態では、前記置換処理部は、前記置換候補メッセージが示す内容に関連する、前記監視対象システムの動作状況を確認し、その確認結果に基づいて前記置換候補メッセージを置換するようにしてもよい。   In a preferred embodiment, the replacement processing unit confirms the operation status of the monitoring target system related to the content indicated by the replacement candidate message, and replaces the replacement candidate message based on the confirmation result. Also good.

好適な実施形態では、前記受信部は、複数の他の監視装置のそれぞれから、前記監視対象のシステムに関するメッセージを受信する。そして、前記置換処理部は、前記複数の他の監視装置のいずれかに対して、前記置換候補メッセージが示す内容に関連する、前記監視対象システムの動作状況の問い合わせを行うこともできる。   In a preferred embodiment, the receiving unit receives a message related to the monitored system from each of a plurality of other monitoring devices. Then, the replacement processing unit can inquire of any of the plurality of other monitoring devices about the operation status of the monitoring target system related to the content indicated by the replacement candidate message.

好適な実施形態では、前記記憶部は、前記表示させるためのメッセージを記憶する領域と、このメッセージが格納された時刻を記憶する領域とを備える。そして、前記受信メッセージ格納処理部は、前記置換候補でない受信メッセージおよび現在時刻を前記記憶部へ格納し、前記置換メッセージ格納処理部は、現在時刻から所定時間前と現在時刻との間に前記記憶部に格納されたメッセージの中に、前記置換後のメッセージと同一のメッセージがないときは、前記置換後のメッセージおよび現在時刻を前記記憶部へ格納するようにしてもよい。   In a preferred embodiment, the storage unit includes an area for storing the message to be displayed and an area for storing a time when the message is stored. The received message storage processing unit stores the received message that is not the replacement candidate and the current time in the storage unit, and the replacement message storage processing unit stores the storage between a predetermined time before the current time and the current time. If the message stored in the section does not contain the same message as the replaced message, the replaced message and the current time may be stored in the storage section.

以下、本発明の一実施形態に係るコンピュータの統合監視システムついて、図面を用いて説明する。   Hereinafter, a computer integrated monitoring system according to an embodiment of the present invention will be described with reference to the drawings.

本システムの全体構成を図1に示す。本システムは、統合監視装置1と、記憶装置2と、外部運用管理装置3と、CRT(Cathode Ray Tube)または液晶表示装置などの表示装置4とを備える。統合監視装置1と外部運用管理装置3とは、LAN(Local Area Network)またはインターネットなどのネットワーク9で接続されている。   The overall structure of this system is shown in FIG. This system includes an integrated monitoring device 1, a storage device 2, an external operation management device 3, and a display device 4 such as a CRT (Cathode Ray Tube) or a liquid crystal display device. The integrated monitoring device 1 and the external operation management device 3 are connected by a network 9 such as a LAN (Local Area Network) or the Internet.

統合監視装置1および外部運用管理装置3は、いずれも例えば汎用的なコンピュータシステムにより構成され、以下に説明する各装置1,3内の個々の構成要素または機能は、例えば、コンピュータプログラムを実行することにより実現される。   The integrated monitoring device 1 and the external operation management device 3 are both configured by, for example, a general-purpose computer system, and individual components or functions in the devices 1 and 3 described below execute, for example, a computer program Is realized.

統合監視装置1は、監視対象となるコンピュータシステム(図示しない)を監視する。その際、本実施形態では、統合監視装置1は外部運用監視装置3を介して監視する。つまり、各外部運用監視装置3がそれぞれ監視対象としているコンピュータシステムを監視する。   The integrated monitoring apparatus 1 monitors a computer system (not shown) to be monitored. At this time, in the present embodiment, the integrated monitoring device 1 monitors via the external operation monitoring device 3. That is, each external operation monitoring device 3 monitors the computer system that is the monitoring target.

外部運用管理装置3は、例えば、個別にそれぞれの監視対象システムに含まれるノードのソフトウェア及びハードウェアを監視する。そして、外部運用管理装置3は、それぞれのノードの動作状態、例えばアプリケーションプログラムの動作状況(正常終了したかまたは異常終了したか)、ネットワークの通信状態、データベースの更新状況などを示す情報を取得する。従って、外部運用管理装置3は、例えば、市販されているジョブの運用管理を行うジョブスケジュールツール、ネットワーク障害を監視するネットワーク監視ツール、またはデータベースの稼働状況を監視するデータベース監視ツール等を用いることができる。   For example, the external operation management apparatus 3 individually monitors the software and hardware of the nodes included in each monitoring target system. Then, the external operation management device 3 acquires information indicating the operation status of each node, for example, the operation status of the application program (whether it has been normally or abnormally ended), the network communication status, the database update status, and the like. . Therefore, the external operation management apparatus 3 uses, for example, a job schedule tool that manages the operation of commercially available jobs, a network monitoring tool that monitors network failures, or a database monitoring tool that monitors the operating status of a database. it can.

それぞれの外部運用監視装置3は、監視対象コンピュータの動作状態を示す情報に基づいて、監視対象のコンピュータに関するメッセージ50を統合監視装置1へ送信する。   Each external operation monitoring device 3 transmits a message 50 relating to the monitoring target computer to the integrated monitoring device 1 based on the information indicating the operating state of the monitoring target computer.

統合監視装置1は、外部運用監視装置3から送られるメッセージ50を受信し、表示装置4に表示させる。ここで、統合監視装置1は、受信したメッセージ50を解析し、この解析結果に基づいてメッセージを置換したり、不要なメッセージを破棄したりするなど、メッセージの整理を行う。そして、整理したあとのメッセージが表示装置4に表示される。メッセージを置換する処理の詳細については後述する。   The integrated monitoring device 1 receives the message 50 sent from the external operation monitoring device 3 and displays it on the display device 4. Here, the integrated monitoring apparatus 1 analyzes the received message 50, and organizes the message, such as replacing the message or discarding an unnecessary message based on the analysis result. Then, the sorted message is displayed on the display device 4. Details of the message replacement process will be described later.

記憶装置2には、上述の障害の切り分けに用いる障害切り分け情報が記憶されている。記憶装置2としては、例えば、ハードディスクまたはCD−ROMなどを用いることができる。また、記憶装置2は、ネットワークを介して接続された他のコンピュータの記憶装置であってもよい。   The storage device 2 stores failure isolation information used for the above-described failure isolation. As the storage device 2, for example, a hard disk or a CD-ROM can be used. The storage device 2 may be a storage device of another computer connected via a network.

統合監視装置1は、図1に示すように、障害切り分け情報取得部11と、障害切り分け情報記憶部12と、メッセージ受信部13と、メッセージ置換処理部14と、フィルタリング処理部15と、バッファ16と、メッセージ記憶部17と、表示制御部18とを備える。   As shown in FIG. 1, the integrated monitoring apparatus 1 includes a fault isolation information acquisition unit 11, a fault isolation information storage unit 12, a message reception unit 13, a message replacement processing unit 14, a filtering processing unit 15, and a buffer 16. A message storage unit 17 and a display control unit 18.

障害切り分け情報取得部11は、記憶装置2に格納されているメッセージを置換するための障害切り分け情報を取得する。ここで取得した障害切り分け情報は、障害切り分け情報記憶部12に格納される。以下に説明するメッセージ置換処理を行うために、障害切り分け情報記憶部12にあらかじめ障害切り分け情報を格納しておく。   The fault isolation information acquisition unit 11 acquires fault isolation information for replacing a message stored in the storage device 2. The fault isolation information acquired here is stored in the fault isolation information storage unit 12. In order to perform the message replacement process described below, the fault isolation information is stored in the fault isolation information storage unit 12 in advance.

障害切り分け情報記憶部12は、例えば、図2に示すようなデータ構造を有する。すなわち、置換候補メッセージの判定条件120ごとに、置換判定順位121と、状況確認を行うための確認事項122と、置換を行うかを判定するための置換条件123と、置換条件が満たされたときに行う置換処理124とをデータ項目として有する。そして、障害切り分け情報記憶部12には、同図に示すように、一つの置換候補メッセージ判定条件120に対して、置換判定順位121から置換処理124までの各項目を有する複数のレコードが記憶される。確認事項122は、問い合わせを行う対象となる外部運用監視装置122aと、確認すべき確認内容122bとを含む。   The fault isolation information storage unit 12 has, for example, a data structure as shown in FIG. That is, for each determination condition 120 of the replacement candidate message, when the replacement determination rank 121, the confirmation item 122 for confirming the situation, the replacement condition 123 for determining whether to perform replacement, and the replacement condition are satisfied And a replacement process 124 to be performed as a data item. Then, as shown in the figure, the failure isolation information storage unit 12 stores a plurality of records having items from the replacement determination rank 121 to the replacement process 124 for one replacement candidate message determination condition 120. The The confirmation item 122 includes an external operation monitoring device 122a to be inquired and confirmation content 122b to be confirmed.

置換候補メッセージ判定条件120は、受信したメッセージの中から、置換判定を行う対象となる置換候補メッセージを抽出するための条件である。つまり、置換候補メッセージ判定条件120に合致するメッセージに対して、後述するような置換判定が行われる。   The replacement candidate message determination condition 120 is a condition for extracting a replacement candidate message to be subjected to replacement determination from received messages. That is, replacement determination as described later is performed on a message that matches the replacement candidate message determination condition 120.

置換判定順位121は、置換候補メッセージに対して、置換条件123を適用して置換判定を行うときの順位を示す。つまり、置換判定順位121が「1」のものから順に置換判定が行われる。   The replacement determination order 121 indicates the order in which replacement determination is performed by applying the replacement condition 123 to the replacement candidate message. That is, the replacement determination is performed in order from the one having the replacement determination rank 121 of “1”.

確認事項122は、置換候補メッセージが示す内容に関連する、監視対象システムの動作状況の問い合わせを行うための確認事項である。すなわち、確認事項122には、問い合わせ先を示す外部運用監視装置122aと、具体的に確認すべき確認内容122bとを含む。   The confirmation item 122 is a confirmation item for inquiring the operation status of the monitoring target system related to the content indicated by the replacement candidate message. In other words, the confirmation item 122 includes an external operation monitoring device 122a indicating an inquiry destination and a confirmation content 122b to be specifically confirmed.

置換条件123は、確認事項122に従って確認された監視対象システムの動作状況に基づいて、置換候補メッセージを置換するかどうかを示す条件である。   The replacement condition 123 is a condition indicating whether or not to replace a replacement candidate message based on the operation status of the monitoring target system confirmed according to the confirmation item 122.

置換処理124は、置換条件123に合致する置換候補メッセージに対して施す置換処理を示す。   The replacement process 124 indicates a replacement process performed on a replacement candidate message that matches the replacement condition 123.

図1を参照すると、メッセージ受信部13は、ネットワーク9を介して外部運用監視装置3から送られてくるメッセージ50を受信する。メッセージ受信部13が受信したメッセージ50は、バッファ16に一時的に蓄積される。   Referring to FIG. 1, the message receiving unit 13 receives a message 50 sent from the external operation monitoring device 3 via the network 9. The message 50 received by the message receiving unit 13 is temporarily stored in the buffer 16.

メッセージ受信部13が受信するメッセージ50のフォーマットの一例を図3に示す。メッセージ50は、同図に示すように、メッセージID51と、システム名52と、発生元ノードID53と、発生元AP名54と、重大度55と、発生日時56と、メッセージ種別57と、メッセージテキスト58とをデータ項目として含む。   An example of the format of the message 50 received by the message receiving unit 13 is shown in FIG. The message 50 includes a message ID 51, a system name 52, a source node ID 53, a source AP name 54, a severity 55, a date and time 56, a message type 57, and a message text, as shown in FIG. 58 as data items.

メッセージID51は、メッセージを一意に識別するための情報である。システム名52は、監視対象となっているシステムの名称である。発生元ノードID53は、このメッセージで通知されるイベントが発生したノードを識別する情報である。発生元AP名54は、このメッセージで通知されるイベントが発生したAP(アプリケーションプログラム)を識別する情報である。重大度55は、このメッセージで通知されるイベントの重大性を示す。重大度55は、例えば、重大性の大きさに応じた数値で示される。発生日時56は、このメッセージで通知されるイベントの発生日時を示す。メッセージ種別57は、例えば、エラー(E)、警告(W)、情報(I)などのメッセージの種類を示す。メッセージテキスト58は、文字列を格納するための領域である。各外部運用監視装置3が自由に設定可能である。   The message ID 51 is information for uniquely identifying a message. The system name 52 is the name of the system being monitored. The source node ID 53 is information for identifying the node in which the event notified by this message has occurred. The source AP name 54 is information for identifying an AP (application program) in which an event notified by this message has occurred. The severity 55 indicates the severity of the event notified by this message. The severity 55 is indicated by a numerical value corresponding to the magnitude of the severity, for example. Occurrence date and time 56 indicates the occurrence date and time of the event notified by this message. The message type 57 indicates the type of message such as error (E), warning (W), information (I), and the like. The message text 58 is an area for storing a character string. Each external operation monitoring device 3 can be set freely.

メッセージ置換処理部(以下、単に置換処理部という)14は、受信したメッセージの中から置換候補になるメッセージを抽出し、所定のルールに従って置換候補メッセージを置換する。例えば、置換候補メッセージの抽出および置換候補メッセージの置換は、いずれも障害切り分け情報記憶部12に格納されている障害切り分け情報に従って行われる。置換候補とならないメッセージに対しては何も処理を行わず、フィルタリング処理部15へ出力する。   A message replacement processing unit (hereinafter simply referred to as a replacement processing unit) 14 extracts a message that becomes a replacement candidate from the received message, and replaces the replacement candidate message according to a predetermined rule. For example, the extraction of the replacement candidate message and the replacement of the replacement candidate message are both performed according to the fault isolation information stored in the fault isolation information storage unit 12. No processing is performed on a message that is not a replacement candidate, and the message is output to the filtering processing unit 15.

置換処理部14は、バッファ16からメッセージを一つずつ取得する。そして、一つのメッセージを取得するごとに所定のルール、例えば、障害切り分け情報記憶部12に記憶されている障害切り分け情報に従って、メッセージの置換判定を行う。このときの具体的な処理手順を図4に示す。   The replacement processing unit 14 acquires messages one by one from the buffer 16. Each time one message is acquired, a message replacement determination is performed according to a predetermined rule, for example, the fault isolation information stored in the fault isolation information storage unit 12. A specific processing procedure at this time is shown in FIG.

まず、置換処理部14がバッファ16からメッセージを一つ取得する(S11)。そして、置換処理部14は、このメッセージに対して障害切り分け情報記憶部12に格納されているすべての障害切り分け情報を適用し、置換判定を行ったかどうかを判定する(S12)。全障害切り分け情報を適用済みであれば(S12:Yes)、ステップS18へスキップする。まだ適用していない障害切り分け情報があるとき(S12:No)、未適用の障害切り分け情報について、順次これ以降の処理を行う。   First, the replacement processing unit 14 acquires one message from the buffer 16 (S11). Then, the replacement processing unit 14 applies all the fault isolation information stored in the fault isolation information storage unit 12 to this message, and determines whether or not the replacement determination has been performed (S12). If all the fault isolation information has been applied (S12: Yes), the process skips to step S18. When there is fault isolation information that has not been applied yet (S12: No), the subsequent processing is sequentially performed on the fault isolation information that has not been applied.

置換処理部14は、未適用の障害切り分け情報に対して、ステップS11で取得した処理対象メッセージがこの障害切り分け情報で置換候補となるメッセージであるかを判定する(S13)。つまり、置換処理部14は、処理対象メッセージが置換候補メッセージ判定条件120と合致するかを判定する。処理対象メッセージが置換候補メッセージでないときは(S13:No)、ステップS12へ戻る。処理対象メッセージが置換候補メッセージであるときは(S13:Yes)、この置換候補メッセージ判定条件120に対応付けられている複数のレコードについて、順次、置換判定処理を行う。   The replacement processing unit 14 determines whether or not the processing target message acquired in step S11 is a message that is a replacement candidate in the fault isolation information for the unapplied fault isolation information (S13). That is, the replacement processing unit 14 determines whether the processing target message matches the replacement candidate message determination condition 120. If the message to be processed is not a replacement candidate message (S13: No), the process returns to step S12. When the processing target message is a replacement candidate message (S13: Yes), a replacement determination process is sequentially performed on a plurality of records associated with the replacement candidate message determination condition 120.

すなわち、置換処理部14は、置換候補メッセージに対して、全レコードに対する置換判定を行ったかを判定する(S14)。すべてについて置換判定済みであるときは(S14:Yes)、ステップS12へ戻る。   That is, the replacement processing unit 14 determines whether or not replacement determination has been performed for all records with respect to the replacement candidate message (S14). When the replacement determination has been completed for all (S14: Yes), the process returns to step S12.

すべての置換条件を適用していないときは(S14:No)、置換判定順位121に従って、順次置換判定を行う。つまり、置換処理部14は、確認事項122に従って監視対象システムの状況確認をする(S15)。例えば、置換処理部14が外部運用監視装置122aに対して、確認内容122bに示す状況を照会するためのコマンドを送信して、監視対象システムの動作状況を確認する。   When all the replacement conditions are not applied (S14: No), the replacement determination is sequentially performed according to the replacement determination rank 121. That is, the replacement processing unit 14 confirms the status of the monitoring target system according to the confirmation item 122 (S15). For example, the replacement processing unit 14 transmits a command for inquiring the status shown in the confirmation content 122b to the external operation monitoring device 122a to check the operation status of the monitoring target system.

置換処理部14は、上記の状況確認を行った結果に基づいて、置換条件123が満たされるかどうかを判定する(S16)。つまり、置換処理部14は上記の監視対象システムの動作状況照会により取得した情報が、置換条件123に合致するかどうかを判定する。そして、置換条件123に合致しないときは(S16:No)、ステップS14へ戻る。置換条件124に合致するときは(S16:Yes)、置換処理124に指定されているメッセージを置換するための処理を実行する(S17)。   The replacement processing unit 14 determines whether or not the replacement condition 123 is satisfied based on the result of the above situation check (S16). That is, the replacement processing unit 14 determines whether the information acquired by the operation status inquiry of the monitoring target system matches the replacement condition 123. If the replacement condition 123 is not met (S16: No), the process returns to step S14. When the replacement condition 124 is met (S16: Yes), a process for replacing the message specified in the replacement process 124 is executed (S17).

置換処理部14は、上述の処理手順により(1)置換候補でないと判定されたメッセージ、(2)置換候補であってもいずれの置換条件123に合致せず置換されなかったメッセージ、および(3)置換された置換後のメッセージを、フィルタリング処理部15に対して出力する(S18)。   The replacement processing unit 14 performs (1) a message determined not to be a replacement candidate by the above-described processing procedure, (2) a message that is not a replacement candidate and does not meet any replacement condition 123, and (3 ) The replaced message after replacement is output to the filtering processing unit 15 (S18).

上述のように障害切り分け情報に従ってメッセージの置換を行うことにより、監視対象システムで起きている真の障害を示すメッセージを得ることができる。   By performing message replacement according to the fault isolation information as described above, a message indicating a true fault occurring in the monitored system can be obtained.

フィルタリング処理部15は、置換処理部14から上述の(1)〜(3)のメッセージを受け取ると、受け取ったメッセージに対してフィルタリング処理を適用する。そして、以下のようなフィルタリング処理を通過したメッセージをメッセージ記憶部17へ格納する。   When the filtering processing unit 15 receives the messages (1) to (3) described above from the replacement processing unit 14, the filtering processing unit 15 applies the filtering processing to the received message. Then, the message that has passed the following filtering process is stored in the message storage unit 17.

メッセージ記憶部17は、例えば、図5に示すように、メッセージを記憶するメッセージ領域171と、メッセージが書き込まれた時刻を記憶する書き込み時刻領域172とを有する。フィルタリング処理部15がメッセージ記憶部17へメッセージを書き込むときは、メッセージ領域171および時刻領域172を併せて書き込む。   For example, as illustrated in FIG. 5, the message storage unit 17 includes a message area 171 that stores a message and a writing time area 172 that stores a time when the message is written. When the filtering processing unit 15 writes a message to the message storage unit 17, the message region 171 and the time region 172 are written together.

ここで、フィルタリング処理部15は、例えば、所定の条件を満たす(または満たさない)メッセージのみをメッセージ記憶部17へ格納して、フィルタリングを行うようにしてもよい。   Here, for example, the filtering processing unit 15 may store only messages that satisfy (or do not satisfy) a predetermined condition in the message storage unit 17 and perform filtering.

フィルタリングの条件は、例えば、置換処理部14から受け取ったメッセージと同一メッセージが、すでにメッセージ記憶部17に記憶されているときは、書き込みを行わないとすることがきる。さらには、例えば、フィルタリング処理部15が書き込み時刻172を参照し、現在時刻から所定時間(例えば60秒、3分、5分など)遡った時刻以降に、同一のメッセージが書き込まれているときに、書き込まないとしてもよい。   For example, when the same message as the message received from the replacement processing unit 14 is already stored in the message storage unit 17, the filtering condition may be that no writing is performed. Further, for example, when the same message is written after the time when the filtering processing unit 15 refers to the writing time 172 and goes back a predetermined time (for example, 60 seconds, 3 minutes, 5 minutes, etc.) from the current time. , You may not write.

本実施形態によれば、監視対象システムで生じた一つの障害から多数のメッセージが生成されたときでも、その一つの障害の発生を知らせるための一つのメッセージのみがメッセージ記憶部17に記憶されることになる。この結果、統合監視システム1のオペレータは、直ちに障害の原因を特定することができる。   According to the present embodiment, even when a large number of messages are generated from a single failure that has occurred in the monitoring target system, only one message for notifying the occurrence of the single failure is stored in the message storage unit 17. It will be. As a result, the operator of the integrated monitoring system 1 can immediately identify the cause of the failure.

上述した本発明の実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。当業者は、本発明の要旨を逸脱することなしに、他の様々な態様で本発明を実施することができる。   The above-described embodiments of the present invention are examples for explaining the present invention, and are not intended to limit the scope of the present invention only to those embodiments. Those skilled in the art can implement the present invention in various other modes without departing from the gist of the present invention.

例えば、複数の外部運用監視装置3は、一つのコンピュータマシンで集中的に実現することもできるし、それぞれ別々のコンピュータマシンに分けて実現することもできる。   For example, the plurality of external operation monitoring devices 3 can be realized intensively with a single computer machine, or can be separately realized with separate computer machines.

本発明の一実施形態にかかる統合監視システムの構成を示す図である。It is a figure which shows the structure of the integrated monitoring system concerning one Embodiment of this invention. 障害切り分け情報記憶部12のデータ構造の一例を示す図である。It is a figure which shows an example of the data structure of the fault isolation information storage part. メッセージ50のデータ構造の一例を示す図である。4 is a diagram illustrating an example of a data structure of a message 50. FIG. メッセージ置換処理部14の処理手順を示すフローチャートである。4 is a flowchart illustrating a processing procedure of a message replacement processing unit 14. メッセージ記憶部17のデータ構造の一例を示す図である。4 is a diagram illustrating an example of a data structure of a message storage unit 17. FIG.

符号の説明Explanation of symbols

1…統合監視装置、2…記憶装置、3…外部運用監視装置、4…表示装置、9…ネットワーク、12…障害切り分け情報記憶部、14…メッセージ置換処理部、15…フィルタリング処理部、50…メッセージ。

DESCRIPTION OF SYMBOLS 1 ... Integrated monitoring apparatus, 2 ... Storage apparatus, 3 ... External operation monitoring apparatus, 4 ... Display apparatus, 9 ... Network, 12 ... Fault isolation information storage part, 14 ... Message replacement process part, 15 ... Filtering process part, 50 ... message.

Claims (6)

監視対象のシステムに関するメッセージを受信する受信部と、
表示装置を制御する表示制御部と、
前記表示制御部が前記表示装置に表示させるためのメッセージを記憶する記憶部と、
前記受信部が受信した受信メッセージの中から置換候補メッセージを抽出するメッセージ抽出部と、
前記メッセージ抽出部で抽出されなかった置換候補でない前記受信メッセージを前記記憶部へ格納する受信メッセージ格納処理部と、
前記置換候補メッセージを所定のルールに従って置換する置換処理部と、
前記置換処理部が置換した置換後のメッセージと同一のメッセージが前記記憶部に格納されていないときは、前記置換後のメッセージを前記記憶部へ格納する置換メッセージ格納処理部とを備えるコンピュータシステムの監視装置。
A receiver that receives messages about the monitored system;
A display control unit for controlling the display device;
A storage unit for storing a message for the display control unit to display on the display device;
A message extraction unit that extracts a replacement candidate message from the received message received by the reception unit;
A received message storage processing unit that stores the received message that is not a replacement candidate that was not extracted by the message extraction unit in the storage unit;
A replacement processing unit that replaces the replacement candidate message according to a predetermined rule;
A replacement message storage processing unit that stores the replaced message in the storage unit when the same message as the replaced message replaced by the replacement processing unit is not stored in the storage unit. Monitoring device.
前記置換処理部は、前記置換候補メッセージが示す内容に関連する、前記監視対象システムの動作状況を確認し、その確認結果に基づいて前記置換候補メッセージを置換する請求項1記載のコンピュータシステムの監視装置。   The computer system monitoring according to claim 1, wherein the replacement processing unit confirms an operation status of the monitoring target system related to contents indicated by the replacement candidate message, and replaces the replacement candidate message based on the confirmation result. apparatus. 前記受信部は、複数の他の監視装置のそれぞれから、前記監視対象のシステムに関するメッセージを受信し、
前記置換処理部は、前記複数の他の監視装置のいずれかに対して、前記置換候補メッセージが示す内容に関連する、前記監視対象システムの動作状況の問い合わせを行う請求項2記載のコンピュータシステムの監視装置。
The receiving unit receives a message about the monitored system from each of a plurality of other monitoring devices,
The computer system according to claim 2, wherein the replacement processing unit makes an inquiry about an operation status of the monitoring target system related to the content indicated by the replacement candidate message to any one of the plurality of other monitoring devices. Monitoring device.
前記記憶部は、前記表示させるためのメッセージを記憶する領域と、このメッセージが格納された時刻を記憶する領域とを備え、
前記受信メッセージ格納処理部は、前記置換候補でない受信メッセージおよび現在時刻を前記記憶部へ格納し、
前記置換メッセージ格納処理部は、現在時刻から所定時間前と現在時刻との間に前記記憶部に格納されたメッセージの中に、前記置換後のメッセージと同一のメッセージがないときは、前記置換後のメッセージおよび現在時刻を前記記憶部へ格納する請求項1記載のコンピュータシステムの監視装置。
The storage unit includes an area for storing the message to be displayed and an area for storing a time when the message is stored,
The received message storage processing unit stores the received message that is not the replacement candidate and the current time in the storage unit,
The replacement message storage processing unit, after there is no message that is the same as the message after replacement in the message stored in the storage unit between a predetermined time before the current time and the current time, after the replacement The computer system monitoring apparatus according to claim 1, wherein the message and the current time are stored in the storage unit.
監視対象のシステムに関するメッセージを受信し、
前記受信した受信メッセージの中から置換候補メッセージを抽出し、
前記置換候補メッセージとして抽出されなかった置換候補でない前記受信メッセージをメッセージ記憶部へ格納し、
前記置換候補メッセージを所定のルールに従って置換し、置換後のメッセージと同一のメッセージが前記メッセージ記憶部に格納されていないときは、前記置換後のメッセージを前記メッセージ記憶部へ格納し、
前記メッセージ記憶部に格納されているメッセージを表示装置に表示させる、コンピュータシステムの監視方法。
Receive messages about monitored systems,
Extracting a replacement candidate message from the received received message;
Storing the received message that is not a replacement candidate that was not extracted as the replacement candidate message in a message storage unit;
The replacement candidate message is replaced according to a predetermined rule, and when the same message as the replaced message is not stored in the message storage unit, the replaced message is stored in the message storage unit,
A monitoring method for a computer system, wherein a message stored in the message storage unit is displayed on a display device.
コンピュータに実行されると、
監視対象のシステムに関するメッセージを受信し、
前記受信した受信メッセージの中から置換候補メッセージを抽出し、
前記置換候補メッセージとして抽出されなかった置換候補でない前記受信メッセージをメッセージ記憶部へ格納し、
前記置換候補メッセージを所定のルールに従って置換し、置換後のメッセージと同一のメッセージが前記メッセージ記憶部に格納されていないときは、前記置換後のメッセージを前記メッセージ記憶部へ格納し、
前記メッセージ記憶部に格納されているメッセージを表示装置に表示させる、コンピュータシステムの監視のためのコンピュータプログラム。
When executed on a computer,
Receive messages about monitored systems,
Extracting a replacement candidate message from the received received message;
Storing the received message that is not a replacement candidate that was not extracted as the replacement candidate message in a message storage unit;
The replacement candidate message is replaced according to a predetermined rule, and when the same message as the replaced message is not stored in the message storage unit, the replaced message is stored in the message storage unit,
A computer program for monitoring a computer system, wherein a message stored in the message storage unit is displayed on a display device.
JP2003376818A 2003-11-06 2003-11-06 Computer system monitoring apparatus and monitoring method Expired - Lifetime JP4530645B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003376818A JP4530645B2 (en) 2003-11-06 2003-11-06 Computer system monitoring apparatus and monitoring method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003376818A JP4530645B2 (en) 2003-11-06 2003-11-06 Computer system monitoring apparatus and monitoring method

Publications (2)

Publication Number Publication Date
JP2005141467A true JP2005141467A (en) 2005-06-02
JP4530645B2 JP4530645B2 (en) 2010-08-25

Family

ID=34687747

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003376818A Expired - Lifetime JP4530645B2 (en) 2003-11-06 2003-11-06 Computer system monitoring apparatus and monitoring method

Country Status (1)

Country Link
JP (1) JP4530645B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015191327A (en) * 2014-03-27 2015-11-02 日本電気株式会社 System monitoring device, system monitoring method, and program
US10621947B2 (en) 2015-12-21 2020-04-14 Nec Corporation Display control apparatus, display control method, and recording medium on which display control program is recorded
US10949318B2 (en) 2015-12-21 2021-03-16 Nec Corporation Display control apparatus, display control method, and recording medium on which display control program is recorded

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02172344A (en) * 1988-12-26 1990-07-03 Nec Corp Fault processing system for communication network
JPH10240705A (en) * 1997-02-28 1998-09-11 Fujitsu Ltd Fault integrated managing device
JP2003162430A (en) * 2001-11-27 2003-06-06 Mitsubishi Electric Corp Apparatus and method for trouble information management

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02172344A (en) * 1988-12-26 1990-07-03 Nec Corp Fault processing system for communication network
JPH10240705A (en) * 1997-02-28 1998-09-11 Fujitsu Ltd Fault integrated managing device
JP2003162430A (en) * 2001-11-27 2003-06-06 Mitsubishi Electric Corp Apparatus and method for trouble information management

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015191327A (en) * 2014-03-27 2015-11-02 日本電気株式会社 System monitoring device, system monitoring method, and program
US10621947B2 (en) 2015-12-21 2020-04-14 Nec Corporation Display control apparatus, display control method, and recording medium on which display control program is recorded
US10949318B2 (en) 2015-12-21 2021-03-16 Nec Corporation Display control apparatus, display control method, and recording medium on which display control program is recorded

Also Published As

Publication number Publication date
JP4530645B2 (en) 2010-08-25

Similar Documents

Publication Publication Date Title
US7552447B2 (en) System and method for using root cause analysis to generate a representation of resource dependencies
US6565608B1 (en) Method and system for customizing alert messages
US7523357B2 (en) Monitoring system and method
US20050193386A1 (en) Intelligent patch checker
US20080098109A1 (en) Incident resolution
EP2682868A2 (en) Remote notification and action system
CN112463421A (en) Information processing system
JP2008090504A (en) Computer maintenance support system and analysis server
JP2003233512A (en) Client monitoring system with maintenance function, monitoring server, program, and client monitoring/ maintaining method
JP2006313399A (en) Maintenance work support program
CN101421682A (en) Presenting status information of field devices in process control plants
US6966014B2 (en) Method for system obstacle correspondence support
JP4888465B2 (en) Message management system, monitoring target device, monitoring device, message management method and program thereof
JP4530645B2 (en) Computer system monitoring apparatus and monitoring method
JP2006252459A (en) Monitoring device and monitoring method
JP4464655B2 (en) Computer monitoring apparatus and message processing method related to monitored computer
US8028204B2 (en) Method and system for maintenance of a data-processing apparatus
JP7061636B2 (en) Operating equipment and programs
US20070214396A1 (en) Round-trip resolution of customer error reports
JP2007025820A (en) Risk diagnostic program for software
JP2007295279A (en) Trouble management device, trouble management method, and program
JP2007164494A (en) Information output method, system and program
JP5168348B2 (en) Control device and control program
JP2005284357A (en) Log analyzing program and log analyzing device
JP2009026052A (en) Fault monitoring system, manager device, fault monitoring method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061031

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090915

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091112

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100525

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100608

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4530645

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130618

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140618

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term