JP2010231293A - 監視装置 - Google Patents

監視装置 Download PDF

Info

Publication number
JP2010231293A
JP2010231293A JP2009075380A JP2009075380A JP2010231293A JP 2010231293 A JP2010231293 A JP 2010231293A JP 2009075380 A JP2009075380 A JP 2009075380A JP 2009075380 A JP2009075380 A JP 2009075380A JP 2010231293 A JP2010231293 A JP 2010231293A
Authority
JP
Japan
Prior art keywords
information processing
group
abnormality
state
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009075380A
Other languages
English (en)
Inventor
Shigeru Katsuzaki
繁 勝碕
Masayuki Shimada
政行 島田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2009075380A priority Critical patent/JP2010231293A/ja
Publication of JP2010231293A publication Critical patent/JP2010231293A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

【課題】情報処理システムの構成上ひとまとまりのグループとして把握される複数のコンピュータについては、そのグループ全体としての異常発生を運用担当者に通知する。
【解決手段】本発明の実施の一形態である監視装置30は、グループの異常状態を構成する複数の監視対象装置10それぞれにおける特定の動作状態の組み合わせを記憶する手段と、複数の監視対象装置10それぞれにおける動作状態を検出する手段と、複数の監視対象装置10それぞれから検出された動作状態の組み合わせが、特定の動作状態の組み合わせと合致する際、グループの異常を示すメッセージをユーザ端末20に通知する手段とを備える。
【選択図】図1

Description

この発明は、複数の情報処理装置の動作状態を監視する技術に関する。
現在の情報処理システムにおいては、多数のコンピュータが連係して動作し、一連の情報処理サービスを提供することが多く、また、情報処理システムには高い稼働率が要求されることが多い。このため、複数のコンピュータの動作状態を一元的に監視し、異常が検出された場合には運用担当者にその異常を通知する監視装置を、情報処理システムに導入することが一般的である。
本出願人は、情報処理システムで生じた一つの障害から多数のメッセージが生成されたときでも、その一つの障害の発生を知らせるためのメッセージのみを運用担当者に通知しやすくするために、特許文献1に係る監視装置を提案している。
特開2005−141467号公報
情報処理システムにおいて稼働する第1のコンピュータで障害が発生した場合でも、別の第2のコンピュータがその第1のコンピュータの非稼働分をカバーできれば、情報処理システム全体では情報処理サービスの提供を維持できる。この場合、第1のコンピュータに対する運用担当者による障害対応は急を要さないものとなる。
これまでの監視装置は、情報処理システムにおける個々の障害発生を示すメッセージを運用担当者に逐次通知していた。運用担当者は通知されたメッセージ間の関連に基づき、情報処理システムの状態を特定して、障害対応の要否や優先度を判断する必要があり、運用担当者の負担を増大させることがあった。
本発明は、上記課題を鑑みなされたものであり、その主たる目的は、情報処理システムの構成上ひとまとまりのグループとして把握される複数のコンピュータについては、そのグループ全体としての異常発生を運用担当者に通知する技術を提供することである。
上記課題を解決するために、本発明のある態様の監視装置は、複数の情報処理装置により構成されるグループについて、当該グループを単位とする異常状態が複数の情報処理装置のそれぞれにおける動作状態の組み合わせによって定義され、定義された異常状態を構成する各装置の動作状態をそれぞれ各装置の特定動作状態と呼ぶとき、異常状態を構成する複数の情報処理装置のそれぞれにおける特定動作状態の組み合わせを記憶する異常定義記憶部と、複数の情報処理装置のそれぞれにおける動作状態を検出する状態検出部と、複数の情報処理装置のそれぞれから検出された動作状態の組み合わせが、特定動作状態の組み合わせと合致する際、グループの異常を示すメッセージをユーザに通知する状態通知部と、を備える。
なお、以上の構成要素の任意の組合せ、本発明の表現を装置、方法、システム、プログラム、プログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。
本発明によれば、運用担当者による障害対応を支援できる。
本発明の実施の形態における情報処理システムの構成を示す図である。 従来の監視装置から出力される異常通知メッセージを示す図である。 本実施の形態における監視装置の機能構成を示すブロック図である。 サーバグループの定義データの構造を示す図である。 監視項目グループの定義データの構造を示す図である。 実施の形態の監視装置の動作を示すフローチャートである。 実施の形態の監視装置から出力される異常通知メッセージを示す図である。
図1は、本発明の実施の形態における情報処理システムの構成を示す。情報処理システム100は、ユーザ端末20と、監視装置30と、監視対象装置10で総称される第1のDBサーバ12a、第2のDBサーバ12b、第3のDBサーバ12c、第4のDBサーバ12d、第1のウェブサーバ14a、第2のウェブサーバ14b、第3のウェブサーバ14c、第4のウェブサーバ14dとを備える。これらの各装置は、LAN・WAN・インターネット等、公知の通信手段を含む通信網を介して、適宜相互に接続される。監視対象装置10の各装置は、その動作状態が監視装置30によって継続的に監視される。
第1のDBサーバ12a、第2のDBサーバ12b、第3のDBサーバ12c、第4のDBサーバ12d(以下、総称する場合、単に「DBサーバ12」と呼ぶ。)は、DBMS(database management system)ソフトウェアがインストールされたデータベースサーバであり、各種データを記憶する。第1のDBサーバ12aおよび第2のDBサーバ12bは、フェイルオーバー構成であり、一方が他の外部装置に対してデータアクセスサービスを提供するアクティブ状態であるとき、他方はスタンバイ状態となる。同様に、第3のDBサーバ12cおよび第4のDBサーバ12dもフェイルオーバー構成である。
第1のウェブサーバ14a、第2のウェブサーバ14b、第3のウェブサーバ14c、第4のウェブサーバ14d(以下、総称する場合、単に「ウェブサーバ14」と呼ぶ。)は、特定のURL(Uniform Resource Locator)が指定されたウェブページの取得要求を図示しないウェブクライアント端末から受け付ける。そして、そのURLで特定されるウェブページをウェブクライアント端末に送信する。ウェブクライアント端末からのウェブページ取得要求は、図示しないロードバランサにおいて一元的に受け付けられ、ウェブサーバ14のいずれかに転送される。このロードバランサは、例えばラウンドロビン方式で、一つのウェブページ取得要求をウェブサーバ14のいずれかに振り分ける。すなわち、ウェブサーバ14の各装置は、複数のウェブページ取得要求を水平負荷分散して処理する。
なお、監視対象装置10の各装置には、運用監視ソフトウェアにおけるエージェントプログラムがインストールされてもよい。このエージェントプログラムは、運用監視ソフトウェアにおけるマネージャプログラムの実行装置から、動作状態の取得要求を受け付け、その時点における自装置の動作状態を示すデータ(以下、適宜「状態データ」とも呼ぶ。)をその実行装置に送信してもよい。
この状態データには、例えば、CPU使用率、メモリ使用量・使用率、ハードディスク(HDD)使用量・使用率、その他のI/O統計量が含まれてもよい。また、ウェブクライアント端末からのアクセス数、ウェブクライアントへの転送データ量、ウェブサーバプログラムからのURL応答結果、ウェブページのデータの改ざん有無等が含まれてもよい。また、所定のプロセスまたはタスクの活動状態が含まれてもよい。エージェントプログラムは、自装置の動作状態を示すデータを、自装置の基本的な制御を実行する基本ソフトウェア、典型的にはオペレーティングシステムから取得してもよい。
ユーザ端末20は、運用担当者によって操作される一般的なPC端末であり、監視対象装置10の異常を示すメッセージ(以下、適宜「異常通知メッセージ」とも呼ぶ。)を運用担当者に提示する。具体的には、監視装置30から受信された異常通知メッセージが逐次表示されるメッセージコンソールをディスプレイに表示させる。
監視装置30は、監視対象装置10の各装置から状態データを取得して、監視対象装置10の各装置の動作状態が正常か異常かを判定する。そして、その判定結果に応じて、異常通知メッセージをユーザ端末20に送信する。
ここで情報処理システム100が、監視装置30に代えて、従来の監視装置を備える場合を考察する。情報処理システム100において、第1のウェブサーバ14a、第2のウェブサーバ14b、第1のDBサーバ12a、第3のDBサーバ12c、第4のDBサーバ12dにおいて障害が発生すると、従来の監視装置は、各装置の異常を検出して、各装置の個々に関する異常通知メッセージをユーザ端末20に通知した。
図2は、従来の監視装置から出力される異常通知メッセージを示す。同図の異常通知メッセージはユーザ端末20のメッセージコンソールに表示される。運用担当者は、通知された異常通知メッセージ間の関係を確認して、障害対応の要否や優先度を判断していた。例えば、異常通知メッセージ200および異常通知メッセージ202については、第1のウェブサーバ14aおよび第2のウェブサーバ14bとともに、ウェブページ取得要求を処理している第3のウェブサーバ14cおよび第4のウェブサーバ14dの異常が通知されていないため、緊急の障害対応は不要であると判断した。また、異常通知メッセージ204については、第1のDBサーバ12aのフェイルオーバー先である第2のDBサーバ12bの異常が通知されていないため、緊急の障害対応は不要であると判断した。また、異常通知メッセージ206および異常通知メッセージ208については、フェイルオーバー構成のDBサーバの両方で障害が発生したため、緊急の障害対応が必要であると判断した。
このように従来の監視装置は、情報処理システム100の構成を意識せず、監視対象装置10個々の異常通知メッセージをユーザ端末20に通知した。そして、運用担当者が、異常通知メッセージの相関に応じて、障害対応の要否や優先度を決定する必要があった。したがって、障害対応の要否や優先度を適切に決定するためには、運用担当者が情報処理システム100の構成を理解している必要があり、運用担当者の負担を増大させていた。また、高優先度で対応すべき異常を示す異常通知メッセージと、低優先度での対応で構わない異常を示す異常通知メッセージとが混在する場合、異常通知メッセージに対する運用担当者の注意を弱め、ミスを誘発しやすくもなっていた。
さらに、従来の監視装置においては、監視対象装置10の各装置の動作状態を異常と判定するための条件を示す異常条件データが、監視対象装置10の各装置に対してそれぞれ設定された。また、監視対象装置10の各装置に対して設定された異常条件データには、監視項目と、その監視項目が異常あるか否かを判定するための判定基準とがそれぞれ含まれた。したがって、監視対象装置10として新たな装置が追加される場合、その新たな装置に対して新たな異常条件データを設定する必要があった。また、新たな監視項目が追加される場合や判定基準が変更される場合、監視対象装置10の各装置に対して設定された異常条件データをそれぞれ変更する必要があった。すなわち、従来の監視装置において監視処理の内容を変更する場合、多くの工数を要していた。
本実施の形態の監視装置30においては、監視対象装置10の各装置が適宜グループ化され、このグループ(以下、適宜「サーバグループ」とも呼ぶ。)を単位として動作状態が異常か否かが判定される。具体的には、サーバグループの各装置の動作状態の組み合わせに応じて、サーバグループの動作状態が異常か否かが判定される。そして、サーバグループ単位の異常通知メッセージが運用担当者に通知される。このサーバグループは、典型的には、同質の構成または同質の動作を実行すると想定される複数のサーバにより構成される。例えば、外部からの複数の要求を水平負荷分散して処理するサーバ群や、フェイルオーバー構成のサーバ群が、同一のサーバグループとして集約される。これにより、運用担当者に通知される異常通知メッセージは、サーバグループ全体としての異常、すなわち、運用担当者が対応すべき異常を示すものとなり、運用担当者が異常通知メッセージの相関を判断する負担を低減できる。
また、監視装置30においては、1以上の監視項目により構成される監視項目グループが定義され、監視項目グループにおける監視項目それぞれの異常の判定基準が一元的に定義される。各サーバグループに対しては、監視項目グループが適宜選択して設定されることにより、同一のサーバグループの各装置には、同一の異常条件データが設定される。したがって、監視対象装置10の特定のサーバグループに対して新たなサーバが追加される場合、その新たなサーバをサーバグループの定義データに追加すればよく、その新たなサーバのための新たな異常条件データは設定不要となる。また、新たな監視項目が追加される場合や判定基準データが変更される場合、その追加・変更内容を監視項目グループの定義データに反映させることで、各サーバグループにおける異常判定を一元的に変更できる。これにより、監視装置30における監視処理の内容を容易に変更できる。
図3は、本実施の形態における監視装置30の機能構成を示すブロック図である。本明細書のブロック図において示される各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。
監視装置30は、各種データが記憶される記憶領域を示す監視対象記憶部32、異常定義記憶部34、メッセージ記憶部36を有する。さらに、ユーザインタフェース処理や通信処理を含む各種データ処理を実行する監視対象更新部38、異常定義更新部40、状態取得部42、状態判定部44、状態通知部46を有する。これらの機能ブロックは、運用監視ソフトウェアにおけるマネージャプログラムの一部機能として実装されてもよい。
メッセージ記憶部36は、複数の異常通知メッセージと、各異常通知メッセージの識別情報を示すメッセージIDとを対応づけて記憶する。
監視対象記憶部32は、サーバグループの定義データを記憶する。図4は、サーバグループの定義データの構造を示す。サーバグループ欄には、サーバグループの識別情報が記録される。監視対象サーバ欄には、サーバグループに属する1以上の監視対象装置10それぞれの識別情報が記録される。監視項目グループ欄には、サーバグループに適用される1以上の監視項目グループそれぞれの識別情報が記録される。図3に戻る。
異常定義記憶部34は、監視項目グループの異常判定のための定義データを記憶する。この定義データには、監視項目グループの異常状態として、サーバグループの各装置における特定の動作状態の組み合わせが定義される。図5は、監視項目グループの定義データの構造を示す。監視項目グループ欄には、監視項目グループの識別情報が記録される。監視項目欄には、監視項目グループに含まれる1以上の監視項目が記録される。項目異常条件欄には、監視項目それぞれが異常か否かを判定するための条件が記録される。個別異常条件欄には、サーバグループに属する監視対象サーバそれぞれの動作状態が異常か否かを判定するための条件が記録される。例えば、リソース監視については、2つ以上の監視項目の異常が検出されたとき、監視対象サーバの動作状態が異常であると判定される。
続いて、グループ異常条件欄には、サーバグループ全体としての動作状態が異常か否かを判定するための条件が記録される。具体的には、サーバグループにおいて、何台以上または何割以上の監視対象サーバの動作状態が異常である場合に、サーバグループ全体の動作状態を異常とするかが規定される。通知時間帯欄には、サーバグループの異常を示す異常通知メッセージをユーザ端末20に送信する時間帯が記録される。メッセージID欄には、異常通知メッセージの識別情報が記録される。図3に戻る。
監視対象更新部38は、サーバグループの定義に対する変更情報をユーザ端末20から受け付けて、監視対象記憶部32に記憶された定義データを更新し、その変更内容をサーバグループに反映させる。この変更情報は、例えば、特定のサーバグループに対する監視対象サーバの追加・削除や、特定のサーバグループに対する監視項目グループの追加・削除等を指示するデータである。
異常定義更新部40は、監視項目グループの定義に対する変更情報をユーザ端末20から受け付けて、異常定義記憶部34に記憶された定義データを更新し、その変更内容を監視項目グループに反映させる。この変更情報は、例えば、特定の監視項目グループに対する監視項目の追加・削除や、項目異常条件・個別異常条件・グループ異常条件の少なくとも1つの変更等を指示するデータである。
状態取得部42は、監視対象装置10の各装置から定期的に状態データを取得する。典型的には、サーバグループごとに、サーバグループに属する監視対象サーバそれぞれのエージェントプログラムにアクセスして状態データを取得する。状態判定部44は、監視対象記憶部32および異常定義記憶部34を参照し、監視対象装置10の各装置から取得された状態データにしたがって、サーバグループの動作状態が異常か否かを判定する。
状態判定部44における具体的な判定処理を説明する。状態判定部44は、まず、サーバグループに対応づけられた監視項目グループのそれぞれについて、状態データに応じて項目異常条件が充足されるか否かを判定することで、監視項目レベルの異常有無を検出する。次に、監視項目レベルの異常有無に応じて個別異常条件が充足されるか否かを判定することで、各監視対象サーバの異常有無を検出する。そして、各監視対象サーバの異常有無に応じてグループ異常条件が充足されるか否かを判定することで、サーバグループ全体としての異常有無を検出する。状態判定部44は、サーバグループに対応づけられた監視項目グループについて、サーバグループ全体としての異常を検出した際、サーバグループのIDと、その監視項目グループに対応づけられたメッセージIDとを状態通知部46に通知する。
ここでは、サーバグループ「ウェブグループ」における、監視項目グループ「リソース監視」についての異常判定処理を説明する。この場合、状態判定部44は、ウェブサーバ14のそれぞれから取得された状態データにしたがって、リソース監視の各監視項目の異常を判定する。例えば、CPU使用率が90%以上であるか否かを判定する。続いて状態判定部44は、2つ以上の監視項目で異常と判定されたウェブサーバ14を動作状態が異常な装置として特定する。そして、全てのウェブサーバ14の動作状態が異常と判定したとき、ウェブグループ全体として動作状態が異常であると特定し、ウェブグループの識別情報と、メッセージID「0001」とを状態通知部46に送出する。
状態通知部46は、異常定義記憶部34を参照して、状態判定部44から通知されたメッセージIDと対応づけられた通知時間帯を取得する。状態通知部46は、現在時刻が通知時間帯に含まれることを条件として、そのメッセージIDと対応づけられた異常通知メッセージのデータをメッセージ記憶部36から取得し、ユーザ端末20に送信する。これにより、ユーザ端末20のメッセージコンソールに異常通知メッセージを表示させる。なお、現在時刻が通知時間帯の外であるときには、そのメッセージIDと対応づけられた異常通知メッセージをユーザ端末20に送信することなく、処理を終了する。
以上の構成による動作を以下説明する。図6は、監視装置30の動作を示すフローチャートである。同図は、監視装置30における特定のサーバグループに対する監視処理の流れを示している。同図の一連の処理は、サーバグループごとに実行されてもよく、所定時間が経過するたびに繰り返し実行されてもよい。
状態取得部42は、サーバグループの監視対象サーバのそれぞれから状態データを取得する(S10)。状態判定部44は、サーバグループと対応づけられた監視項目グループについて、状態データにしたがって監視項目レベルの異常判定を実行し(S12)、その判定結果にしたがって監視対象サーバ個別の異常判定を実行する(S14)。監視対象サーバ個別の異常判定の結果、すなわちその組み合わせがグループ異常条件を充足するとき(S16のY)、状態判定部44は、監視項目グループのメッセージIDを状態通知部46に通知する。現在時刻がそのメッセージIDと対応づけられた通知時刻帯であるとき(S18のY)、状態通知部46は、サーバグループの異常を示す異常通知メッセージをユーザ端末20に送信する(S20)。監視対象サーバ個別の異常判定の結果がグループ異常条件を充足しなければ(S16のN)、S18およびS20はスキップされ、現在時刻が通知時刻帯の外であるときには(S18のN)、S20はスキップされる。
以上説明した監視装置30によれば、情報処理システム100において同質の構成もしくは同質の機能を有する複数の装置が適宜グループ化される。そして、個々の装置の異常ではなく、サーバグループの異常を単位として、サーバグループの異常を示すメッセージが運用担当者に通知される。これにより、運用担当者側においてメッセージ間の関係を判断し、障害対応の要否や優先度を決定することが不要となり、運用担当者の負担を低減できる。すなわち、異常な値を示す監視項目の数や、動作状態が異常なサーバ数に応じて、サーバグループ全体の正常性を監視装置30側で判定することにより、運用担当者による優先的な対応が必要な障害を精度よく通知できる。
図7は、監視装置30から出力される異常通知メッセージを示す。図2で示したように、従来の監視装置においては、異常通知メッセージ200〜異常通知メッセージ208が出力された。これに対して、監視装置30においては、図2の異常通知メッセージ206および異常通知メッセージ208に対応する異常通知メッセージ210のみが出力される。すなわち、図2の異常通知メッセージ200および異常通知メッセージ202に対応する異常については、監視項目グループ「ウェブ監視その2」で定義されたグループ異常条件を充足しないため、グループ全体としての異常とは判定されず、異常通知メッセージは通知されていない。また、図2の異常通知メッセージ204に対応する異常については、監視項目グループ「DB監視」で定義されたグループ異常条件を充足しないため、異常通知メッセージは同様に通知されていない。運用担当者は、情報処理システム100の構成を意識しなくても、この異常通知メッセージを確認することで、第2DBグループへの障害対応を優先的に実行すべきことを判断できる。
また、監視装置30によれば、サーバグループの定義において、監視対象装置10の各装置がサーバグループおよび監視項目グループに対応づけられる。また、監視項目グループの異常判定のための条件は、特定のサーバグループに依存することなく、一元的に定義される。したがって、監視対象装置10として新たな装置が追加される場合には、その新たな装置をサーバグループの定義に追加すればよく、その新たな装置に対する異常判定のための条件を新たに設定することは不要となる。また、個々の監視項目や異常判定のための条件を変更する場合には、監視項目グループの定義データを変更することで、その監視項目が対応づけられたサーバグループの異常判定に対してその変更内容を反映できる。言い換えれば、個々のサーバグループごとの設定を変更する必要はない。
さらに、監視装置30によれば、監視項目グループと通知時間帯とが対応づけられ、この通知時間帯の外においては、サーバグループの異常が検出されても運用担当者への異常通知メッセージは非通知となる。通知時間帯は、監視項目グループの障害対応の優先度に応じて決定されてもよく、例えば障害対応の優先度が低い監視項目グループについては異常通知メッセージが夜間に通知されないように通知時間帯が設定されてもよい。現実のシステム運用においては、夜間に障害が発生してもシステム全体の運用に影響がないものについては翌朝以降の対応とされることが多い。監視装置30によれば、このような実際のシステム運用に則して運用担当者を支援できる。
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下変形例を示す。
第1の変形例を説明する。実施の形態では、状態通知部46において、通知時間帯の外における異常通知メッセージの抑止が実行された。変形例では、通知時間帯の外においては、状態判定部44がメッセージIDを状態通知部46に通知しないことにより、通知時間帯の外における異常通知メッセージの抑止を実行してもよい。
第2の変形例を説明する。状態通知部46は、通知時間帯の外においては、メッセージIDまたは異常通知メッセージを所定の記憶装置に一時的に保持させてもよい。そして、通知時間帯となった際に、その記憶装置に保持させたメッセージIDまたは異常通知メッセージを取得して、通知を抑止した異常通知メッセージをユーザ端末20に送信してもよい。なお、第1の変形例と組み合わせて、本変形例の処理は状態判定部44において実行されてもよい。
第3の変形例を説明する。実施の形態では、サーバグループ全体としての異常が運用担当者に通知される一方で、サーバグループの各装置個別の異常は通知されなかった。変形例においては、サーバグループの各装置個別の異常も運用担当者に通知されてもよい。この場合、状態判定部44はサーバグループの各装置個別の異常を検出すると、その旨を状態通知部46に通知し、状態通知部46は各装置個別の異常を示す異常通知メッセージをユーザ端末20に送信する。好適には、サーバグループ全体としての異常を示す異常通知メッセージと、各装置個別の異常を示す異常通知メッセージとは、ユーザ端末20において別のメッセージコンソールに表示される。この場合、状態通知部46は、サーバグループ全体としての異常を示す異常通知メッセージは第1のメッセージコンソールに、各装置個別の異常を示す異常通知メッセージは別の第2のメッセージコンソールに表示されるよう、所定データを付加した異常通知メッセージを送信する。
第3の変形例の別の態様としては、サーバグループ全体としての異常を通知する異常通知メッセージと、各装置個別の異常を通知する異常通知メッセージとは、異なるレベルを示すデータがそれぞれ設定されてもよい。例えば、サーバグループ全体としての異常を通知する異常通知メッセージには、各装置個別の異常を通知する異常通知メッセージよりも高い対応優先度を示すために、より高いレベルが設定されてもよい。ユーザ端末20のメッセージコンソールは、高いレベルが設定された異常通知メッセージほど優先して、言い換えれば運用担当者から視認されやすい態様で表示してもよい。例えば、文字サイズを大きくし、強調するための色を設定する等の方法により、高いレベルが設定された異常通知メッセージほど強調して表示してもよい。第3の変形例によれば、サーバグループ全体としての異常が運用担当者に通知されるとともに、各装置個別の異常も通知されるため、サーバグループ全体としての異常に至る前の各装置個別の異常にも対処しやすくなる。また、サーバグループ全体としての異常が運用担当者に対して優先的に示されることで、運用担当者は情報処理サービスの全面停止を招くおそれのある重大な障害に対して優先的に対応しやすくなる。
第4の変形例を説明する。実施の形態においては、サーバグループとしてグループ化される装置として、同質の構成または機能を提供する装置群、具体的にはロードバランス構成の装置群およびフェイルオーバー構成の装置群を示した。変形例においては、同じ監視項目グループを設定すべき装置群がグループ化されてもよい。例えば、Windows(登録商標)、UNIX(登録商標)等の同じオペレーティングシステムの装置群が、同一のグループとしてグループ化されてもよい。
上述した実施の形態および変形例の任意の組み合わせもまた本発明の実施の形態として有用である。組み合わせによって生じる新たな実施の形態は、組み合わされる実施の形態および変形例それぞれの効果をあわせもつ。
請求項に記載の各構成要件が果たすべき機能は、実施の形態および変形例において示された各構成要素の単体もしくはそれらの連係によって実現されることも当業者には理解されるところである。
10 監視対象装置、 20 ユーザ端末、 30 監視装置、 32 監視対象記憶部、 34 異常定義記憶部、 36 メッセージ記憶部、 38 監視対象更新部、 40 異常定義更新部、 42 状態取得部、 44 状態判定部、 46 状態通知部、 100 情報処理システム。

Claims (7)

  1. 複数の情報処理装置により構成されるグループについて、当該グループを単位とする異常状態が前記複数の情報処理装置のそれぞれにおける動作状態の組み合わせによって定義され、定義された異常状態を構成する各装置の動作状態をそれぞれ各装置の特定動作状態と呼ぶとき、
    前記異常状態を構成する前記複数の情報処理装置のそれぞれにおける特定動作状態の組み合わせを記憶する異常定義記憶部と、
    前記複数の情報処理装置のそれぞれにおける動作状態を検出する状態検出部と、
    前記複数の情報処理装置のそれぞれから検出された動作状態の組み合わせが、前記特定動作状態の組み合わせと合致する際、前記グループの異常を示すメッセージをユーザに通知する状態通知部と、
    を備えることを特徴とする監視装置。
  2. 前記グループを構成する複数の情報処理装置を記憶するグループ記憶部と、
    前記グループに加入させるべき新たな情報処理装置が追加された際、前記複数の情報処理装置のそれぞれから検出される動作状態を、前記新たな情報処理装置からも検出させるために、前記グループ記憶部に前記新たな情報処理装置をさらに記憶させるグループ更新部と、
    をさらに備えることを特徴とする請求項1に記載の監視装置。
  3. 前記グループにおける異常状態の定義を変更すべき際、その定義を構成する前記複数の情報処理装置のそれぞれにおける特定動作状態を一元的に変更する異常定義更新部をさらに備えることを特徴とする請求項1または2に記載の監視装置。
  4. 前記異常定義更新部は、前記異常定義記憶部において複数の情報処理装置によりそれぞれ構成される複数のグループに対して同じ異常状態の定義が対応づけられている際、前記異常定義記憶部に記憶された異常状態の定義を一元的に変更することで、当該異常状態の定義の変更内容を前記複数のグループのそれぞれに反映することを特徴とする請求項3に記載の監視装置。
  5. 前記異常定義記憶部は、外部からの要求を水平負荷分散して処理する複数の情報処理装置を、前記グループを構成する複数の情報処理装置として取り扱うことを特徴とする請求項1から4のいずれかに記載の監視装置。
  6. 前記異常定義記憶部は、前記メッセージをユーザに通知すべき時間帯をさらに記憶し、
    前記状態通知部は、前記複数の情報処理装置のそれぞれから検出された動作状態の組み合わせが前記特定動作状態の組み合わせと合致しても、前記時間帯の外においては、前記メッセージをユーザに対して非通知とすることを特徴とする請求項1から5のいずれかに記載の監視装置。
  7. 複数の情報処理装置により構成されるグループについて、当該グループを単位とする異常状態が前記複数の情報処理装置のそれぞれにおける動作状態の組み合わせによって定義され、定義された異常状態を構成する各装置の動作状態をそれぞれ各装置の特定動作状態と呼ぶとき、
    前記異常状態を構成する前記複数の情報処理装置のそれぞれにおける特定動作状態の組み合わせを所定の記憶装置に記憶させる機能と、
    前記複数の情報処理装置のそれぞれにおける動作状態を検出する機能と、
    前記複数の情報処理装置のそれぞれから検出された動作状態の組み合わせが、前記特定動作状態の組み合わせと合致する際、前記グループの異常を示すメッセージをユーザに通知する機能と、
    をコンピュータに実現させるためのコンピュータプログラム。
JP2009075380A 2009-03-26 2009-03-26 監視装置 Pending JP2010231293A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009075380A JP2010231293A (ja) 2009-03-26 2009-03-26 監視装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009075380A JP2010231293A (ja) 2009-03-26 2009-03-26 監視装置

Publications (1)

Publication Number Publication Date
JP2010231293A true JP2010231293A (ja) 2010-10-14

Family

ID=43047079

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009075380A Pending JP2010231293A (ja) 2009-03-26 2009-03-26 監視装置

Country Status (1)

Country Link
JP (1) JP2010231293A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013030062A (ja) * 2011-07-29 2013-02-07 Nomura Research Institute Ltd 運用管理支援装置
JP2014153390A (ja) * 2013-02-05 2014-08-25 Seiko Epson Corp プロジェクター、及びプロジェクターの制御方法
JP2014232442A (ja) * 2013-05-29 2014-12-11 西日本電信電話株式会社 Webサーバシステム、Webサーバ連携方法、及びプログラム
JP5790891B1 (ja) * 2015-01-27 2015-10-07 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2017220139A (ja) * 2016-06-10 2017-12-14 三菱電機株式会社 ログ解析装置、ログ解析方法及びログ解析プログラム
JP2021128664A (ja) * 2020-02-17 2021-09-02 富士通フロンテック株式会社 メッセージ監視サーバ、メッセージ監視方法及びメッセージ監視プログラム

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756770A (ja) * 1993-08-16 1995-03-03 Nec Commun Syst Ltd 利用者障害監視制御方式
JP2001344227A (ja) * 2000-06-01 2001-12-14 Hitachi Ltd 階層型リソース監視システム
JP2005327261A (ja) * 2004-04-16 2005-11-24 Ns Solutions Corp 性能監視装置、性能監視方法及びプログラム
JP2006072784A (ja) * 2004-09-03 2006-03-16 Hitachi Information Systems Ltd 統合監視システム
JP2007280155A (ja) * 2006-04-10 2007-10-25 Hitachi Ltd 分散システムにおける信頼性向上方法
JP2007323193A (ja) * 2006-05-30 2007-12-13 Nec Corp 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP2008059599A (ja) * 2007-09-28 2008-03-13 Hitachi Ltd 仮想化されたリソースの割当て方法及びその実施システム
JP2008134691A (ja) * 2006-11-27 2008-06-12 Mitsubishi Electric Corp 保守管理システム
JP2008217735A (ja) * 2007-03-08 2008-09-18 Nec Corp 障害解析システム、方法、及び、プログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756770A (ja) * 1993-08-16 1995-03-03 Nec Commun Syst Ltd 利用者障害監視制御方式
JP2001344227A (ja) * 2000-06-01 2001-12-14 Hitachi Ltd 階層型リソース監視システム
JP2005327261A (ja) * 2004-04-16 2005-11-24 Ns Solutions Corp 性能監視装置、性能監視方法及びプログラム
JP2006072784A (ja) * 2004-09-03 2006-03-16 Hitachi Information Systems Ltd 統合監視システム
JP2007280155A (ja) * 2006-04-10 2007-10-25 Hitachi Ltd 分散システムにおける信頼性向上方法
JP2007323193A (ja) * 2006-05-30 2007-12-13 Nec Corp 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP2008134691A (ja) * 2006-11-27 2008-06-12 Mitsubishi Electric Corp 保守管理システム
JP2008217735A (ja) * 2007-03-08 2008-09-18 Nec Corp 障害解析システム、方法、及び、プログラム
JP2008059599A (ja) * 2007-09-28 2008-03-13 Hitachi Ltd 仮想化されたリソースの割当て方法及びその実施システム

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013030062A (ja) * 2011-07-29 2013-02-07 Nomura Research Institute Ltd 運用管理支援装置
JP2014153390A (ja) * 2013-02-05 2014-08-25 Seiko Epson Corp プロジェクター、及びプロジェクターの制御方法
JP2014232442A (ja) * 2013-05-29 2014-12-11 西日本電信電話株式会社 Webサーバシステム、Webサーバ連携方法、及びプログラム
JP5790891B1 (ja) * 2015-01-27 2015-10-07 富士ゼロックス株式会社 情報処理装置及びプログラム
JP2017220139A (ja) * 2016-06-10 2017-12-14 三菱電機株式会社 ログ解析装置、ログ解析方法及びログ解析プログラム
JP2021128664A (ja) * 2020-02-17 2021-09-02 富士通フロンテック株式会社 メッセージ監視サーバ、メッセージ監視方法及びメッセージ監視プログラム
JP7208939B2 (ja) 2020-02-17 2023-01-19 富士通フロンテック株式会社 メッセージ監視サーバ、メッセージ監視方法及びメッセージ監視プログラム

Similar Documents

Publication Publication Date Title
US20190155677A1 (en) Proactive failure handling in data processing systems
JP5440273B2 (ja) スナップショット管理方法、スナップショット管理装置、及びプログラム
US8949658B1 (en) Load balancer host selection and fault detection
JP4811830B1 (ja) コンピュータリソース制御システム
JP4538736B2 (ja) ジョブ実行監視システム、ジョブ制御装置、ジョブ実行方法及びジョブ制御プログラム
JP2010231293A (ja) 監視装置
JP6482984B2 (ja) クラウド管理方法及びクラウド管理システム
JP5975094B2 (ja) 交換候補提示方法、情報処理装置、及びプログラム
JPWO2014006692A1 (ja) 制御対象フロー特定プログラム、制御対象フロー特定方法および制御対象フロー特定装置
JP2004206634A (ja) 監視方法、稼動監視装置、監視システム及びコンピュータプログラム
JP2020038506A (ja) 情報処理システム、情報処理方法、及び、プログラム
JPWO2012004891A1 (ja) コンピュータの監視プログラム,監視方法及び監視装置
JP5378847B2 (ja) 監視装置
JP4804139B2 (ja) 情報出力方法、システム及びプログラム
JP4034436B2 (ja) クライアント・サーバシステム及びクライアント稼働監視方法
JP5467936B2 (ja) 分散・並列処理システムの障害監視装置と方法およびプログラム
JP2012089109A (ja) コンピュータリソース制御システム
JP2015114991A (ja) データ処理装置、データ処理装置監視方法およびデータ処理システム
JP7395908B2 (ja) 情報処理システム
WO2013035264A1 (ja) 監視装置、監視方法およびプログラム
JP7230332B2 (ja) 管理サーバ、方法、プログラム及び管理システム
JP2013003896A (ja) 情報提供装置、情報提供方法およびプログラム
US10116540B1 (en) System, method, and computer program for managing data objects in a multiprocessor unit telecommunications network
JP5643015B2 (ja) 二重化サーバシステム、還元サーバ、二重化サーバシステムにおけるポイント還元方法、およびプログラム
JP5384566B2 (ja) フロントエンドサーバ、インタプリタ型プログラム及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111213

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130122

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130618