JP2010231292A - 監視装置 - Google Patents

監視装置 Download PDF

Info

Publication number
JP2010231292A
JP2010231292A JP2009075379A JP2009075379A JP2010231292A JP 2010231292 A JP2010231292 A JP 2010231292A JP 2009075379 A JP2009075379 A JP 2009075379A JP 2009075379 A JP2009075379 A JP 2009075379A JP 2010231292 A JP2010231292 A JP 2010231292A
Authority
JP
Japan
Prior art keywords
information processing
monitoring
operation state
state
abnormality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009075379A
Other languages
English (en)
Other versions
JP5378847B2 (ja
Inventor
Shigeru Katsuzaki
繁 勝碕
Masayuki Shimada
政行 島田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2009075379A priority Critical patent/JP5378847B2/ja
Publication of JP2010231292A publication Critical patent/JP2010231292A/ja
Application granted granted Critical
Publication of JP5378847B2 publication Critical patent/JP5378847B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】監視対象装置間における異常発生の連鎖関係に応じて、監視装置の監視対象範囲を適宜調整する。
【解決手段】本発明の実施の一形態である監視装置30は、監視対象装置10の各装置と、監視対象装置10間における異常発生の連鎖関係に応じて決定された監視優先度とを対応づけて記憶する手段と、監視対象装置10の各装置における動作状態を取得する手段と、各装置における動作状態が異常か否かを判定する手段とを備える。ある監視対象装置10における動作状態が異常と判定された際、動作状態を取得する手段は、その装置よりも監視優先度が低い別の監視対象装置10からの動作状態の取得を停止する。
【選択図】図1

Description

この発明は、複数の情報処理装置の動作状態を監視する技術に関する。
現在の情報処理システムにおいては、多数のコンピュータが連係して動作し、一連の情報処理サービスを提供することが多く、また、情報処理システムには高い稼働率が要求されることが多い。このため、複数のコンピュータの動作状態を一元的に監視し、異常が検出された場合には運用担当者にその異常を通知する監視装置が情報処理システムに導入されることが一般的となっている。
本出願人は、情報処理システムで生じた一つの障害から多数のメッセージが生成されたときでも、その一つの障害の発生を知らせるためのメッセージのみを運用担当者に通知しやすくするために、特許文献1に係る監視装置を提案している。
特開2005−141467号公報
監視すべきコンピュータ(以下、適宜「監視対象装置」とも呼ぶ。)の動作状態を監視装置において監視する場合には、通常、監視対象装置・監視装置・ネットワークのそれぞれにおけるハードウェアリソースを消費する。本発明者は、監視対象装置間で異常発生が連鎖する場合、その連鎖関係に応じて監視対象範囲を適宜調整することにより、効率的な動作状態の監視を実現できると考えた。
本発明は、発明者の上記認識に基づきなされたものであり、その主たる目的は、監視対象装置間における異常発生の連鎖関係に応じて、監視装置の監視対象範囲を適宜調整する技術を提供することである。
上記課題を解決するために、本発明のある態様の監視装置は、動作状態を監視すべき複数の情報処理装置のそれぞれと、情報処理装置間における異常発生の連鎖関係に応じて決定された監視優先度とを対応づけて記憶する優先度記憶部と、複数の情報処理装置のそれぞれにおける動作状態を取得する状態取得部と、複数の情報処理装置のそれぞれにおける動作状態が異常か否かを判定する状態判定部と、を備える。複数の情報処理装置のうち一つの情報処理装置における動作状態が異常と判定された際、状態取得部はその情報処理装置よりも監視優先度が低い別の情報処理装置からの動作状態の取得を停止し、もしくは、状態判定部は別の情報処理装置における動作状態に対する判定処理を停止する。
なお、以上の構成要素の任意の組合せ、本発明の表現を装置、方法、システム、プログラム、プログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、情報処理システムにおける効率的な運用監視を実現できる。
本発明の実施の形態における情報処理システムの構成を示す図である。 従来の監視装置から出力される異常通知メッセージを示す図である。 監視対象装置の各装置と対応づけられる監視優先度を示す図である。 実施の形態の監視装置の機能構成を示すブロック図である。 監視属性情報のデータ構造を示す図である。 実施の形態の監視装置の動作を示すフローチャートである。 監視対象装置の各装置の動作状態を示すタイミングチャートである。 実施の形態の監視装置から出力される異常通知メッセージを示す図である。 監視対象装置の各装置の動作状態を示すタイミングチャートである。
図1は、本発明の実施の形態における情報処理システムの構成を示す。情報処理システム100は、ユーザ端末20と、監視装置30と、監視対象装置10で総称されるDBサーバ12、第1のAPサーバ14a、第2のAPサーバ14b、第1のウェブサーバ16a、第2のウェブサーバ16b、第3のウェブサーバ16c、第4のウェブサーバ16d、ルータ18とを備える。
ユーザ端末20は、運用担当者によって操作される一般的なPC端末であり、監視対象装置10の異常を示すメッセージ(以下、適宜「異常通知メッセージ」とも呼ぶ。)を運用担当者に提示する。具体的には、監視装置30から受信された異常通知メッセージが逐次表示されるメッセージコンソールをディスプレイに表示させる。
監視装置30は、監視対象装置10の各装置の動作状態を取得して、その動作状態が正常か異常かを判定する。監視対象装置10の動作状態が異常と判定された際には、異常通知メッセージをユーザ端末20に送信する。監視装置30の詳細な構成は後述する。
DBサーバ12は、DBMS(database management system)ソフトウェアがインストールされたデータベースサーバである。DBサーバ12は、第1のAPサーバ14aおよび第2のAPサーバ14bにおけるデータ処理に必要な各種データを保持する。
第1のウェブサーバ16a、第2のウェブサーバ16b、第3のウェブサーバ16cおよび第4のウェブサーバ16d(以下、総称する場合、単に「ウェブサーバ16」と呼ぶ。)は、特定のURL(Uniform Resource Locator)が指定されたGET要求を図示しないウェブクライアント端末から受け付ける。そして、そのURLで特定されるウェブページをウェブクライアント端末に送信する。第1のウェブサーバ16aおよび第2のウェブサーバ16bは、ウェブページに設定すべきデータを第1のAPサーバ14aから取得する。第3のウェブサーバ16cおよび第4のウェブサーバ16dは、ウェブページに設定すべきデータを第2のAPサーバ14bから取得する。
第1のAPサーバ14aは、ウェブページに設定すべきデータの取得要求を第1のウェブサーバ16aおよび第2のウェブサーバ16bから受け付ける。そして、DBサーバ12に保持された各種データを参照して、ウェブページに設定すべきデータを生成し、取得要求元の第1のウェブサーバ16aまたは第2のウェブサーバ16bに送信する。第2のAPサーバ14bは、データの提供先が第3のウェブサーバ16cおよび第4のウェブサーバ16dであることを除き、第1のAPサーバ14aと同様に動作する。以下、第1のAPサーバ14aおよび第2のAPサーバ14bを総称する場合、単に「APサーバ14」と呼ぶこととする。
DBサーバ12、APサーバ14、ウェブサーバ16には、運用監視ソフトウェアにおけるエージェントプログラムがインストールされている。このエージェントプログラムは、監視装置30からの取得要求を受け付けて、その時点における自装置の動作状態を示すデータを監視装置30に送信する。
例えば、DBサーバ12におけるエージェントプログラムは、データベースのテーブルスペースの状態を示すデータを監視装置30に送信する。また、APサーバ14におけるエージェントプログラムは、APサーバ14でのデータ処理の状況を示すデータを監視装置30に送信する。ウェブサーバ16におけるエージェントプログラムは、特定のURLを指定したGET要求をウェブサーバプログラムに送出して、そのレスポンス状況を示すデータを監視装置30に送信する。なお、各装置におけるエージェントプログラムは、ハードウェアリソースの使用状況を示す各種統計データを監視装置30に送信してもよい。この統計データには、CPU使用率、メモリ使用量・使用率、ハードディスク使用量・使用率、その他のI/O統計量が含まれてもよい。
ルータ18は、監視装置30、DBサーバ12、APサーバ14、ウェブサーバ16をネットワーク上で相互接続させるためのルータである。監視装置30は、ルータ18を介して、DBサーバ12、APサーバ14、ウェブサーバ16のそれぞれから動作状態を取得する。また、監視装置30は、ルータ18の動作状態、言い換えればネットワークの疎通状態も確認する。例えば、ICMP(Internet Control Message Protocol)パケットをルータ18に送信してその応答データを受信することで確認してもよい。
ここで情報処理システム100が、監視装置30に代えて、従来の監視装置を備える場合を考察する。情報処理システム100において、ルータ18の動作状態が異常となると、従来の監視装置は、DBサーバ12、APサーバ14、ウェブサーバ16から各装置の動作状態を取得できなくなる。その結果、従来の監視装置は、監視対象装置10のいずれの装置の動作状態とも異常であると判断する。
図2は、従来の監視装置から出力される異常通知メッセージを示す。同図では、監視対象装置10のいずれの装置についても動作状態が異常である旨が表示されている。運用担当者は、メッセージコンソールを見ても、障害の根本原因を迅速に把握することは困難である。また、ルータ18の動作状態が異常と判定された場合、他の監視対象装置10の動作状態も異常と判定されることは明らかであり、他の監視対象装置10のそれぞれから動作状態を取得することはネットワークに不要な負荷を生じさせていることにもなる。
本実施の形態の情報処理システム100においては、監視対象装置10の各装置における動作状態を監視する際の優先度(以下、適宜「監視優先度」とも呼ぶ。)が予め決定され、監視対象装置10の各装置と対応づけられる。具体的には、監視対象装置10間における異常発生の連鎖関係において、第1の監視対象装置で発生した異常に起因して、第1の監視対象装置とは異なる第2の監視対象装置でも異常が発生する場合、第1の監視対象装置よりも低い監視優先度が第2の監視対象装置と対応づけられる。
図3は、監視対象装置10の各装置と対応づけられる監視優先度を示す。同図においては、「優先度1」が最も監視優先度が高く、「優先度4」が最も監視優先度が低い。すなわち、ルータ18の異常はルータ18自身に起因し、DBサーバ12の異常はDBサーバ12自身もしくはルータ18に起因する。また、APサーバ14の異常はAPサーバ14自身、DBサーバ12もしくはルータ18に起因し、ウェブサーバ16の異常はウェブサーバ16自身、APサーバ14、DBサーバ12もしくはルータ18に起因する。したがって、ウェブサーバ16<APサーバ14<DBサーバ12<ルータ18となるように、各装置と監視優先度とが対応づけられる。言い換えれば異常発生の連鎖関係の起原に位置するものほど、さらに言い換えれば障害の根本原因となるものほど、高い監視優先度と対応づけられることになる。
なお、第1のウェブサーバ16aおよび第2のウェブサーバ16bは、第1のAPサーバ14aとの間で異常発生の連鎖関係が結ばれている。その一方で、第3のウェブサーバ16cおよび第3のウェブサーバ16cは、第2のAPサーバ14bとの間で異常発生の連鎖関係が結ばれている。したがって、情報処理システム100には2つの連鎖関係が存在することとなる。すなわち、第1の連鎖関係は、ルータ18、DBサーバ12、第1のAPサーバ14a、第1のウェブサーバ16a、第2のウェブサーバ16bで構成される。また、第2の連鎖関係は、ルータ18、DBサーバ12、第2のAPサーバ14b、第3のウェブサーバ16c、第4のウェブサーバ16dで構成される。図1に戻る。
本実施の形態における監視装置30は、ある監視対象装置10における異常発生を検出すると、その監視対象装置10の監視優先度よりも低い監視優先度と対応づけられた別の監視対象装置10の監視を停止する。これにより、本来不要な動作状態取得の処理を排除し、情報処理システム100における効率的な運用監視を実現する。また、ユーザ端末20のメッセージコンソールに出力される異常通知メッセージとして、障害の根本原因を示すメッセージが優先して出力されやすくなり、運用担当者の利便性を向上させる。
図4は、本実施の形態における監視装置30の機能構成を示すブロック図である。本明細書のブロック図において示される各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。
監視装置30は、監視属性記憶部32と、メッセージ記憶部34と、状態取得部36と、状態判定部38と、状態通知部40とを有する。これらの機能ブロックは、運用監視ソフトウェアにおけるマネージャプログラムとして実装されてもよい。メッセージ記憶部34は、複数の異常通知メッセージと、各異常通知メッセージの識別情報を示すメッセージIDとを対応づけて記憶する。
監視属性記憶部32は、監視対象装置10の動作状態の監視に関する属性情報(以下、適宜「監視属性情報」とも呼ぶ。)が記憶される記憶領域である。図5は、監視属性情報のデータ構造を示す。監視対象欄には、監視対象装置10の装置名が記録される。監視項目欄には、監視対象装置10の各装置から取得した動作状態について正常か異常かを判定すべき項目が記録される。監視間隔欄には、監視対象装置10の各装置から動作状態を取得する時間間隔が記録される。連鎖関係欄には、異常発生の連鎖関係の識別情報が記録される。優先度欄には、各連鎖関係における監視優先度が記録される。メッセージID欄には、監視項目が異常と判定された際にユーザ端末20に出力すべき異常通知メッセージのIDが記録される。異常フラグ欄には、監視項目が異常と判定されたことを示す所定値が設定される。停止フラグ欄には、監視対象からの動作状態の取得を停止すべきことを示す所定値が設定される。
図5には図示しないが、各監視項目について正常もしくは異常と判定するために、取得した動作状態と比較するための判定条件が各監視項目に対応づけて記憶されている。例えば、監視項目「ネットワーク疎通」については、ネットワークの疎通状態を異常と判定すべきパケットロス率が判定条件として記録されてもよい。また、監視項目「URLレスポンス」については、レスポンスデータを取得できないことが判定条件として記録されてもよい。
また、図5の監視対象「ルータ」において、連鎖関係「1,2」と優先度「1」とを対応づけていることは、連鎖関係1における優先度が「1」であり、連鎖関係2における優先度も「1」であることを示している。また、同図では、一つの監視対象当たり一つの監視項目を割り当てているが、複数の監視項目を割り当ててもよい。また、異常発生の連鎖関係は監視項目ごとの関係であってもよく、例えば、DBサーバ12に対する別の監視項目と、ウェブサーバ16に対する別の監視項目との間には、APサーバ14を含まない別の連鎖関係が結ばれてもよい。図4に戻る。
状態取得部36は、監視対象装置10の各装置に対応づけられた監視間隔に応じて、監視対象装置10の各装置から動作状態を取得すべき日時になったことを検出する。例えば、ある監視対象装置10について、前回の動作状態取得を10時10分に実行し、その監視間隔が5分である場合、10時15分になったことを検出すると、次回の動作状態取得のタイミングであると判定する。
状態取得部36は、動作状態を取得すべき監視対象装置10について、その監視属性情報において停止フラグが設定されていないことを条件として、当該監視対象装置10から動作状態を示すデータ(以下、適宜「状態データ」とも呼ぶ。)を取得する。なお、特定日時において動作状態を取得すべき監視対象装置10が複数存在する場合、監視優先度が高い監視対象装置10ほど優先して、言い換えれば、先にその状態データを取得する。
状態判定部38は、監視対象装置10の各装置から取得された状態データと、監視属性情報において各装置と対応づけられた判定条件とを比較して、監視対象装置10の各装置の動作状態が異常か否かを判定する。
状態判定部38は、ある監視対象装置10の動作状態が正常から異常に変化したと判定したとき、すなわち異常フラグが未設定の監視対象装置10の動作状態を異常と判定したとき(この監視対象装置10を以下、適宜「異常発生装置」とも呼ぶ。)、監視属性情報を更新する。具体的には、異常発生装置の異常フラグに所定値を設定する。それとともに、異常発生装置と異常発生の連鎖関係を有する他の監視対象装置10であって、異常発生装置よりも監視優先度が低い他の監視対象装置10(以下、適宜「低優先装置」)の停止フラグに所定値を設定する。これにより、低優先装置からの状態データの取得が停止されることになる。また、状態判定部38は、監視属性情報において異常発生装置と対応づけられたメッセージIDを状態通知部40に通知する。
また、状態判定部38は、低優先装置の停止フラグに所定値を設定した後の判定において、異常発生装置の動作状態が正常に回復したことを検出した際、すなわち異常フラグに所定値が設定された監視対象装置10の動作状態を正常と判定したとき、監視属性情報を更新する。具体的には、異常発生装置の異常フラグにおける所定値の設定を解除するとともに、低優先装置の停止フラグにおける所定値の設定を解除する。例えば、各フラグの値を所定の初期値に戻すことでこの解除処理を実行してもよい。これにより、低優先装置からの状態データの取得が再開されることになる。
また、状態判定部38は、低優先装置の停止フラグに所定値を設定した後の判定において、異常発生装置と異常発生の連鎖関係を有する他の監視対象装置10であって、異常発生装置よりも監視優先度が高い他の監視対象装置10(以下、適宜「高優先装置」)の動作状態を異常と判定したとき、監視属性情報を更新する。具体的には、高優先装置の異常フラグに所定値を設定するとともに、異常発生装置の異常フラグにおける所定値の設定を解除し、異常発生装置の停止フラグに所定値を設定する。この処理は、高優先装置が異常発生装置となり、異常発生装置が低優先装置となった場合の処理とも言える。これにより、異常発生装置からの状態データの取得がさらに停止されることになる。なお、この場合、高優先装置に関するメッセージIDが状態通知部40に通知される。
状態通知部40は、状態判定部38から通知されたメッセージIDと対応づけられた異常通知メッセージのデータをメッセージ記憶部34から取得する。状態通知部40は、メッセージ記憶部34から取得した異常通知メッセージのデータをユーザ端末20に送信する。これにより、ユーザ端末20のメッセージコンソールにおいて、異常通知メッセージを表示させる。
以上の構成による動作を以下説明する。
図6は、監視装置30の動作を示すフローチャートである。状態取得部36は、監視属性情報を参照して、特定の監視対象装置10についてその動作状態を取得すべきタイミングとなったことを検出し(S10のY)、その停止フラグが設定されていないとき(S12のY)、当該装置から状態データを取得する(S14)。いずれの監視対象装置10についてもその動作状態を取得すべきタイミングでなく(S10のN)、所定の終了条件が充足されていれば(S26のY)、監視処理を終了する。所定の終了条件が充足されていなければ(S26のN)、S10に戻る。動作状態を取得すべきタイミングとなった監視対象装置10の停止フラグが設定されているとき(S12のN)、S10に戻る。
状態判定部38において監視対象装置10の動作状態が正常から異常に変化したと判定されたとき(S16のY)、状態通知部40は異常通知メッセージをユーザ端末20に送信する(S18)。状態判定部38は、その異常発生装置よりも監視優先度が低い低優先装置の停止フラグに所定値を設定することで、低優先装置からの状態データの取得を停止させる(S20)。状態判定部38において監視対象装置10の動作状態が正常と判定されたとき、もしくは、継続して異常と判定されたとき(S16のN)、S18およびS20はスキップされる。
状態判定部38において監視対象装置10の動作状態が異常から正常に回復したと判定されたとき(S22のY)、状態判定部38は低優先装置の停止フラグの設定を解除することで、低優先装置からの状態データの取得を再開させる(S24)。状態判定部38において監視対象装置10の動作状態が異常と判定されたとき、もしくは、継続して正常と判定されたとき(S22のN)、S24はスキップされる。以降、S26が実行される。
図7は、監視対象装置10の各装置の動作状態を示すタイミングチャートである。横軸は開始時点からの経過時間を示しており、開始時点において各装置の動作状態が判定され、以降は図5の監視間隔にしたがってその判定が実行される。また、同図の「○」は動作状態が正常と判定されたこと、「×」は動作状態が異常と判定されたこと、「△」は動作状態の取得が行われなかったことを示している。同図においては、開始時刻から5分〜8分の間にDBサーバ12の動作状態が異常となり、開始時刻から15分〜20分の間にその動作状態が正常に回復した場合が示されている。
開始時刻から8分経過時点でAPサーバ14の動作状態が異常と判定され、ウェブサーバ16からの状態データの取得が停止される。開始時刻から10分経過時点でDBサーバ12の動作状態が異常と判定され、APサーバ14からの状態データの取得も停止される。この時点においてウェブサーバ16から状態データは取得されない。開始時点から20分経過時点でDBサーバ12の動作状態が正常に回復したことが判定されると、APサーバ14およびウェブサーバ16からの動作状態の取得が再開され、その時点においてウェブサーバ16の動作状態が取得され正常と判定されている。開始時刻から24分経過時点でAPサーバ14の動作状態が取得され正常と判定されている。
以上説明した監視装置30によれば、複数の監視対象装置10それぞれの動作状態に変化が生じたとき、監視対象装置10間における異常発生の連鎖関係に応じて決定された監視優先度に応じて、監視装置30による監視対象範囲が調整される。これにより、本来不要な監視対象装置10からの状態データの取得が排除され、情報処理システム100におけるネットワーク負荷、監視対象装置10および監視装置30におけるデータ処理負荷が低減される。言い換えれば、本来不要でありながら、言わば無駄に消費されていたハードウェアリソース量を低減できる。
また、監視装置30によれば、運用担当者に提供される異常通知メッセージの量も低減される。さらに、異常発生の起原となった装置以外の監視対象装置10に関する異常通知メッセージは提供されにくくなり、運用担当者は、異常発生の根本原因を特定しやすくなる。すなわち、監視対象装置10で発生した異常の根本原因に対して、運用担当者が迅速かつ適切に対応できるよう支援できる。
図8は、監視装置30から出力される異常通知メッセージを示す。図8の(a)における異常通知メッセージは、図2の異常通知メッセージに対応するものである。1時32分の時点でルータ18の異常が検出され、その他の監視対象装置10に対する監視は停止されるため、ルータ18に関する異常通知メッセージ以降、異常通知メッセージの出力は抑止される。なお、図8の(a)においては、DBサーバ12の異常通知メッセージは出力されたが、図5で示したように、監視優先度が高い監視対象装置10ほど監視間隔を短く設定されることにより、他の装置よりも監視優先度が高い監視対象装置10の異常が検出されやすくなる。これにより、図8の(b)で示すように、異常発生の根本原因であるルータ18に関する異常通知メッセージのみが出力されやすくなり、運用担当者は発生した障害の根本原因を容易に特定できる。
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下変形例を示す。
第1の変形例を説明する。実施の形態においては、状態取得部36が監視対象装置10それぞれの停止フラグを確認して、監視対象装置10それぞれからの状態データの取得を適宜停止することにより、監視対象範囲の調整が実行された。変形例においては、状態取得部36は監視対象装置10の動作状態によらず状態データの取得を継続してもよい。その代わりに、状態判定部38は監視対象装置10それぞれの停止フラグを確認して、監視対象装置10それぞれからの状態データに対する異常判定を適宜停止してもよい。具体的には、停止フラグが設定された監視対象装置10からの状態データに対しては異常判定を実行しないこととしてもよい。なお、複数の状態データが同時に取得された場合には、監視優先度が高い監視対象装置10の状態データほど優先的に、すなわち先に異常判定を実行することが好ましい。本変形例によれば、本来不要な判定処理が排除されるため、監視装置30の処理負荷が低減されるとともに、運用担当者に提供される異常通知メッセージの量も削減される。
第2の変形例を説明する。実施の形態においては、異常発生装置の動作状態が異常から正常に回復すると、低優先装置の停止フラグは一律に解除された。例えば、図7のタイミングチャートにおいては、最初に異常が検出されたのはAPサーバ14であっても、DBサーバ12の異常が検出されるとAPサーバ14の異常フラグは解除され、DBサーバ12の動作状態が正常に回復すると、APサーバ14およびウェブサーバ16の停止フラグは一律に解除された。
第2の変形例においては、監視優先度がより高い高優先装置において異常が検出されても、監視優先度がより低い低優先装置に設定された異常フラグは解除されない。そして、高優先装置の動作状態が異常から正常に回復すると、状態取得部36は、低優先装置のうち異常フラグが設定され、かつ、監視優先度が最も高い装置を第2高優先装置として特定する。そして、異常発生の連鎖関係が第2高優先装置と同一であり、かつ、第2高優先装置よりも監視優先度が低い第2低優先装置については、その停止フラグの設定解除を保留する。第2高優先装置における動作状態が正常と判定されれば、第2低優先装置についても停止フラグの設定解除が実行される。第2高優先装置が存在しない、すなわち低優先装置の中に異常フラグが設定された装置が存在しない場合には、実施の形態と同様に低優先装置の停止フラグは一律に解除される。
図9は、第2の変形例における監視対象装置10の各装置の動作状態を示すタイミングチャートである。同図における監視対象装置10それぞれの動作状態の変化は、図7の場合と同様である。開始時点から10分経過時点でDBサーバ12の動作状態が異常と判定されても、APサーバ14の異常フラグの設定は維持される。開始時点から20分経過時点でDBサーバ12の動作状態が正常に回復したことが判定されると、APサーバ14からの動作状態の取得が再開されるが、ウェブサーバ16の停止フラグの設定は維持される。開始時点から24分経過時点でAPサーバ14の動作状態が正常に回復したことが判定されると、ウェブサーバ16からの動作状態の取得も再開される。
第2の変形例が特に有効な場面は、異常発生の連鎖関係があっても、実際にはそれぞれの異常が独立している可能性がある場合である。具体的には、APサーバ14におけるデータ処理の異常は、DBサーバ12における異常に起因するものもあれば、データ処理内部での例外発生に起因するものもあり、APサーバ14の異常とDBサーバ12の異常とが独立して発生することがある。また、DBサーバ12の異常に起因して、APサーバ14でもトランザクション矛盾など、単にDBサーバ12が正常状態に回復しても解決しない異常が発生することがある。例えば、図9の開始時点から20分経過時点において、DBサーバ12の正常状態に回復しても、DBサーバ12の異常とAPサーバ14の異常とが独立しているときには、ウェブサーバ16からの動作状態取得は無駄な場合がある。
第2の変形例によれば、一旦異常発生装置が特定されると、その異常発生装置が正常に回復したことが判定されるまでは、その異常発生装置に対する低優先装置の監視は停止される。その結果、異常発生の連鎖関係があるものの、それぞれの異常が独立している場合でも、本来不要な監視処理を排除して、ネットワーク負荷や各装置の処理負荷を低減できる。また、運用担当者に対して適切な異常通知メッセージを提供しやすくなる。
上述した実施の形態および変形例の任意の組み合わせもまた本発明の実施の形態として有用である。組み合わせによって生じる新たな実施の形態は、組み合わされる実施の形態および変形例それぞれの効果をあわせもつ。
請求項に記載の各構成要件が果たすべき機能は、実施の形態および変形例において示された各構成要素の単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。
10 監視対象装置、 20 ユーザ端末、 30 監視装置、 32 監視属性記憶部、 34 メッセージ記憶部、 36 状態取得部、 38 状態判定部、 40 状態通知部、 100 情報処理システム。

Claims (6)

  1. 動作状態を監視すべき複数の情報処理装置のそれぞれと、情報処理装置間における異常発生の連鎖関係に応じて決定された監視優先度とを対応づけて記憶する優先度記憶部と、
    前記複数の情報処理装置のそれぞれにおける動作状態を取得する状態取得部と、
    前記複数の情報処理装置のそれぞれにおける動作状態が異常か否かを判定する状態判定部と、
    を備え、
    前記複数の情報処理装置のうち一つの情報処理装置における動作状態が異常と判定された際、前記状態取得部はその情報処理装置よりも監視優先度が低い別の情報処理装置からの動作状態の取得を停止し、もしくは、前記状態判定部は前記別の情報処理装置における動作状態に対する判定処理を停止することを特徴とする監視装置。
  2. 前記優先度記憶部は、情報処理装置間における異常発生の連鎖関係において、第1の情報処理装置で発生した異常に起因して、前記第1の情報処理装置とは異なる第2の情報処理装置でも異常が発生する場合、前記第1の情報処理装置の監視優先度よりも低い監視優先度を前記第2の情報処理装置と対応づけることを特徴とする請求項1に記載の監視装置。
  3. 前記一つの情報処理装置における動作状態が異常と判定された後、前記一つの情報処理装置における動作状態が正常と判定された際、前記状態取得部は前記別の情報処理装置からの動作状態の取得を再開し、もしくは、前記状態判定部は前記別の情報処理装置における動作状態に対する判定処理を再開することを特徴とする請求項1または2に記載の監視装置。
  4. 前記一つの情報処理装置における動作状態が異常と判定された後、前記一つの情報処理装置よりも監視優先度が高いさらに別の情報処理装置における動作状態が異常と判定された際、前記状態取得部は前記一つの情報処理装置からの動作状態の取得をさらに停止し、もしくは、前記状態判定部は前記一つの情報処理装置における動作状態に対する判定処理をさらに停止することを特徴とする請求項1から3のいずれかに記載の監視装置。
  5. 前記優先度記憶部は、情報処理装置間における異常発生の連鎖関係を示す第1の連鎖関係に応じて決定された監視優先度を当該第1の連鎖関係で結ばれた情報処理装置のそれぞれと対応づけて記憶するとともに、前記第1の連鎖関係とは異なる第2の連鎖関係に応じて決定された監視優先度を当該第2の連鎖関係で結ばれた情報処理装置のそれぞれと対応づけて記憶し、
    前記複数の情報処理装置のうち一つの情報処理装置における動作状態が異常と判定された際、前記状態取得部は当該一つの情報処理装置と前記第1または第2の連鎖関係を有し、かつ、その第1または第2の連鎖関係において当該一つの情報処理装置よりも監視優先度が低い別の情報処理装置からの動作状態の取得を停止し、もしくは、前記状態判定部は前記別の情報処理装置における動作状態に対する判定処理を停止することを特徴とする請求項1に記載の監視装置。
  6. 動作状態を監視すべき複数の情報処理装置のそれぞれと、情報処理装置間における異常発生の連鎖関係に応じて決定された監視優先度とを対応づけて所定の記憶装置に記憶させる機能と、
    前記複数の情報処理装置のそれぞれにおける動作状態を取得する機能と、
    前記複数の情報処理装置のそれぞれにおける動作状態が異常か否かを判定する機能と、
    をコンピュータに実現させ、
    前記複数の情報処理装置のうち一つの情報処理装置における動作状態が異常と判定された際、前記取得する機能はその情報処理装置よりも監視優先度が低い別の情報処理装置からの動作状態の取得を停止し、もしくは、前記判定する機能は前記別の情報処理装置における動作状態に対する判定処理を停止することを特徴とするコンピュータプログラム。
JP2009075379A 2009-03-26 2009-03-26 監視装置 Expired - Fee Related JP5378847B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009075379A JP5378847B2 (ja) 2009-03-26 2009-03-26 監視装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009075379A JP5378847B2 (ja) 2009-03-26 2009-03-26 監視装置

Publications (2)

Publication Number Publication Date
JP2010231292A true JP2010231292A (ja) 2010-10-14
JP5378847B2 JP5378847B2 (ja) 2013-12-25

Family

ID=43047078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009075379A Expired - Fee Related JP5378847B2 (ja) 2009-03-26 2009-03-26 監視装置

Country Status (1)

Country Link
JP (1) JP5378847B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012128388A1 (ja) * 2011-03-23 2012-09-27 日本電気株式会社 運用管理システム、運用管理方法、及びプログラム
JP2017068354A (ja) * 2015-09-28 2017-04-06 沖電気工業株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04356831A (ja) * 1991-06-03 1992-12-10 Fujitsu Ltd アラーム抑止方式
JPH07192188A (ja) * 1993-12-27 1995-07-28 Hitachi Ltd 設備管理システム
JPH08288944A (ja) * 1995-04-18 1996-11-01 Hitachi Ltd 通信設備管理システム
JPH11120036A (ja) * 1997-10-20 1999-04-30 Fujitsu Ltd 障害メッセージ出力制御システム
JP2002141905A (ja) * 2000-10-31 2002-05-17 Pfu Ltd ノード監視方法,ノード監視システム、および記録媒体
JP2007020115A (ja) * 2005-07-11 2007-01-25 Nec Corp 通信網の障害検出システム、通信網の障害検出方法及び障害検出プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04356831A (ja) * 1991-06-03 1992-12-10 Fujitsu Ltd アラーム抑止方式
JPH07192188A (ja) * 1993-12-27 1995-07-28 Hitachi Ltd 設備管理システム
JPH08288944A (ja) * 1995-04-18 1996-11-01 Hitachi Ltd 通信設備管理システム
JPH11120036A (ja) * 1997-10-20 1999-04-30 Fujitsu Ltd 障害メッセージ出力制御システム
JP2002141905A (ja) * 2000-10-31 2002-05-17 Pfu Ltd ノード監視方法,ノード監視システム、および記録媒体
JP2007020115A (ja) * 2005-07-11 2007-01-25 Nec Corp 通信網の障害検出システム、通信網の障害検出方法及び障害検出プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012128388A1 (ja) * 2011-03-23 2012-09-27 日本電気株式会社 運用管理システム、運用管理方法、及びプログラム
US9417940B2 (en) 2011-03-23 2016-08-16 Nec Corporation Operations management system, operations management method and program thereof
US10430268B2 (en) 2011-03-23 2019-10-01 Nec Display Solutions, Ltd. Operations management system, operations management method and program thereof
JP2017068354A (ja) * 2015-09-28 2017-04-06 沖電気工業株式会社 情報処理装置、情報処理システム、情報処理方法及びプログラム

Also Published As

Publication number Publication date
JP5378847B2 (ja) 2013-12-25

Similar Documents

Publication Publication Date Title
US8010840B2 (en) Generation of problem tickets for a computer system
US7523357B2 (en) Monitoring system and method
JP2006277696A (ja) ジョブ実行監視システム、ジョブ制御装置、ジョブ実行方法及びジョブ制御プログラム
JP6595861B2 (ja) 情報処理装置、ログ取得方法およびログ取得プログラム
JP2011210064A (ja) ログ情報収集システム、装置、方法及びプログラム
JP2010231293A (ja) 監視装置
JP2003233512A (ja) 保守機能付きクライアント監視システム及び監視サーバ及びプログラム並びにクライアント監視・保守方法
JP5378847B2 (ja) 監視装置
JP2004206634A (ja) 監視方法、稼動監視装置、監視システム及びコンピュータプログラム
JP2006195554A (ja) 統合監視システム
JP5558279B2 (ja) 監視制御システム、およびこれに利用する監視制御装置、監視制御方法
JP6418377B2 (ja) 管理対象装置、管理装置及びネットワーク管理システム
JP2006252459A (ja) 監視装置及び監視方法
JP2016076072A (ja) 障害通報装置、障害通報方法及び障害通報プログラム
JP4533716B2 (ja) 障害メッセージに対する再警告発動システム
JP2008124977A (ja) メッセージ配送方法、装置及びプログラム
JP2001331330A (ja) プロセス異常検知及び復旧システム
JP2011146989A (ja) 監視制御システム、被監視制御装置およびサーバ
JP2006178851A (ja) 障害監視方法、障害監視システムおよびプログラム
JP2006011718A (ja) エラー監視装置、エラー監視システム及びエラー処理方法
JP2007272328A (ja) コンピュータ・システム
JP5006302B2 (ja) 監視プログラム、監視方法および情報処理装置
JP5691248B2 (ja) タスク引継プログラム、処理装置及びコンピュータ・システム
JP2013073260A (ja) 障害監視システムおよび障害監視ソフトウェアによる監視方法
JP4960283B2 (ja) 情報処理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130618

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130808

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130924

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130926

R150 Certificate of patent or registration of utility model

Ref document number: 5378847

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees