JP6187021B2 - 情報処理システム、情報処理システムの制御方法及び管理装置の制御プログラム - Google Patents

情報処理システム、情報処理システムの制御方法及び管理装置の制御プログラム Download PDF

Info

Publication number
JP6187021B2
JP6187021B2 JP2013169188A JP2013169188A JP6187021B2 JP 6187021 B2 JP6187021 B2 JP 6187021B2 JP 2013169188 A JP2013169188 A JP 2013169188A JP 2013169188 A JP2013169188 A JP 2013169188A JP 6187021 B2 JP6187021 B2 JP 6187021B2
Authority
JP
Japan
Prior art keywords
information processing
state
notification
change notification
management device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013169188A
Other languages
English (en)
Other versions
JP2015036957A (ja
Inventor
良輔 小久保
良輔 小久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013169188A priority Critical patent/JP6187021B2/ja
Priority to US14/334,733 priority patent/US9880912B2/en
Publication of JP2015036957A publication Critical patent/JP2015036957A/ja
Application granted granted Critical
Publication of JP6187021B2 publication Critical patent/JP6187021B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2048Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3048Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the topology of the computing system or computing system component explicitly influences the monitoring activity, e.g. serial, hierarchical systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents

Description

本発明は、情報処理システム、情報処理システムの制御方法及び管理装置の制御プログラムに関する。
近年の高度科学技術計算を行うHPC(High Performance Computing)システムにおいては、システム全体の演算処理性能に対する要求から、従来よりも大量の計算サーバを管理し並列に動作させる必要性が年々高まりつつある。
このような大量のサーバを有するHPCシステムについては、システムの停止時間をより少なくし、稼働時間の長時間化が求められる。従って、ファイルサーバなど主要なサーバは冗長構成を採用し、異常が発生した場合は運用系から待機系への切り替え(フェイルオーバ)が行われ、継続運用が可能な可用性が高いシステムが採用される。
一方、HPCシステムでは性能を向上させるためには演算処理を行う計算サーバの数(例えば80000個の計算サーバ)も比例して多くなるため、システム内のネットワークにおける通信負荷の低減が望まれる。
そのため、大規模なHPCシステムの計算サーバとファイルサーバとを含むサーバ群の状態を監視するために、従来、階層構造を用いてシステム監視を行っている。
例えば図1に示すように、システム全体を監視する監視マスタサーバを、例えば木構造等の階層構造における最上位階層に設け、第2階層には管理の中継器となる複数の監視サブマスタサーバを設け、最下位階層には監視される複数のサーバ(図1の例ではファイルサーバ及び計算サーバ)を設けるようにしている。すなわち、監視マスタサーバは、複数の監視サブマスタサーバを監視し、監視サブマスタサーバは、自身の配下の被監視サーバである計算サーバ及びファイルサーバの監視を行う。図1の例では、ファイルサーバAとファイルサーバBは、互いにフェイルオーバペアとなっている。
例えば、各被監視サーバ(計算サーバ及びファイルサーバ)は、各サーバ上にサービス監視デーモンを有し、自サーバ内のサービス(ジョブ運用のためのサービス)を一定間隔(例えば60秒間隔)で監視している。例えば、ファイルサーバAで異常が発生した場合、ファイルサーバAは、次の監視タイミングで、当該異常の発生によるファイルサーバAのダウン状態への状態変化を通知するための状態変更通知を、監視サブマスタサーバへ送信する(図2:1000)。監視サブマスタサーバは、直ぐに監視マスタサーバに状態変更通知を転送するのではなく、監視サブマスタサーバ内に当該状態変更通知を一定時間(例えば30秒)キャッシュ(保持)する(図2:1010)。このキャッシュを状態変更通知キャッシュとも呼ぶ。
状態変更通知キャッシュは、大規模なHPCシステムにおいて一斉起動及び停止を行った際に、システム内において木構造等の階層構造における上位階層のサーバ及び下位階層のサーバに対して状態変更通知のためのパケットが飛び交うことによりネットワークに負荷を与えるため、状態変更通知を一定時間キャッシュしてネットワーク負荷を軽減させる技術である。
一定時間が経過すると、監視サブマスタサーバは、キャッシュしたファイルサーバAの状態変化を他のサーバに通知するための状態変更通知を監視マスタサーバへ送信する(図2:1020)。監視マスタサーバは、状態変更通知を受信しても直ぐには処理せず、状態変更通知を一定時間(例えば30秒)キャッシュ(保持)する(図2:1030)。一定時間経過後、当該状態変更通知を、監視マスタサーバは、2つの監視サブマスタサーバへ送信する(図2:1040)。
監視サブマスタサーバは、状態変更通知を受信しても直ぐには処理せず、監視サブマスタサーバ内に当該状態変更通知を一定時間(例えば30秒)キャッシュ(保持)する(図2:1050)。一定時間経過後、この状態変更通知を、監視サブマスタサーバは、ファイルサーバA以外の被監視サーバへ送信する(図2:1060及び1070)。
ファイルサーバAのフェイルオーバペアであるファイルサーバBは、当該状態変更通知を受信すると、フェイルオーバを開始するが(150秒後)、ファイルサーバBは、次の監視タイミング(180秒後)でなければ、当該状態変更通知によるフェイルオーバという状態を検出しない。以降、フェイルオーバについての状態変更通知の伝搬と、フェイルオーバからダブル(Double。サービス片寄せ状態)についての状態変更通知の伝搬とが、同じような時間をかけて行われる。すなわち、390秒程度、ファイルサーバの切り替えが完了するまでかかることになる。
このようにサーバの切り替え処理は、各被監視サーバにおける監視時間間隔及び状態変更通知キャッシュのために時間がかかり、重要な状態変化に拘わらず結果として運用停止時間が長期化する。
監視装置による被監視装置の監視時間間隔を動的に変更したり、監視装置から被監視装置に対して監視時間間隔の変更を指示する技術は存在しているが、監視装置側の管理負荷が大きい。
特開昭61−221542号公報 特開平9−83641号公報
従って、本発明の目的は、一側面によれば、情報処理システムに含まれる情報処理装置の状態変化を当該状態変化に応じて柔軟に通知できるようにするための技術を提供することである。
本発明に係る情報処理システムは、第1の管理装置と、複数の情報処理装置と、第1の管理装置と複数の情報処理装置とに接続される第2の管理装置とを有する。そして、上記第2の管理装置は、複数の情報処理装置のうち状態の変更が発生した通知元情報処理装置から、当該通知元情報処理装置の状態の変更が発生した旨を通知する状態変更通知を受信した場合、受信した当該状態変更通知に含まれる通知元情報処理装置の変化後の状態を示す状態情報に対応して規定された所定時間だけ受信した当該状態変更通知を保持してから、受信した当該状態変更通知を第1の管理装置に送信する。
一側面によれば、情報処理システムに含まれる情報処理装置の状態変化を当該状態変化に応じて柔軟に通知できるようになる。
図1は、システム構成例を示す図である。 図2は、状態変更通知の配信態様を説明するための図である。 図3は、実施の形態におけるシステム構成例を示す図である。 図4は、被監視サーバの構成例を示す図である。 図5は、監視サブマスタサーバの構成例を示す図である。 図6は、監視マスタサーバの構成例を示す図である。 図7は、ファイルサーバにおける監視間隔に関する設定データの一例を示す図である。 図8は、計算サーバにおける監視間隔に関する設定データの一例を示す図である。 図9は、管理サーバにおける監視間隔に関する設定データの一例を示す図である。 図10は、監視サブマスタサーバに格納される監視間隔に関する設定データの一例を示す図である。 図11は、監視マスタサーバに格納される監視間隔に関する設定データの一例を示す図である。 図12は、監視マスタサーバ及び監視サブマスタサーバに格納されるキャッシュ時間に関する設定データの一例を示す図である。 図13は、被監視サーバにおける処理フローを示す図である。 図14は、監視サブマスタサーバにおける処理フローを示す図である。 図15は、監視マスタサーバにおける処理フローを示す図である。 図16は、第1の実施の形態における処理例を示す図である。 図17は、第2の実施の形態を説明するための図である。 図18は、第2の実施の形態における処理フローを示す図である。 図19は、コンピュータの機能ブロック図である。
[実施の形態1]
図3に、本実施の形態に係る情報処理システムの構成例を示す。本情報処理システムは、監視マスタサーバ100と、監視サブマスタサーバ110及び120と、フェイルオーバペアとなっているファイルサーバA及びBと、計算サーバ210及び220と、管理サーバ230とを有する。
そして、この情報処理システムは、論理的な階層構造を有しており、最上位階層として監視マスタサーバ100を含み、中間階層として監視サブマスタサーバ110及び120を含み、最下位階層の被監視サーバとして、ファイルサーバA及びBと、計算サーバ210及び220と、管理サーバ230とを有する。但し、中間階層は複数層の場合もある。
ファイルサーバA及びBは、計算サーバ210及び220等によって用いられるファイルを管理している。計算サーバ210及び220は、指示された計算処理を実行する。管理サーバ230は、計算サーバ210及び220と、ファイルサーバA及びBとを管理する処理を行う。
被監視サーバの数及び監視サブマスタサーバの数は一例であり、図示した数に限定されない。特に管理サーバ230についてはフェイルオーバを行う場合には複数台の管理サーバが設けられる。
次に、被監視サーバ(ファイルサーバA及びB、計算サーバ210及び220、及び管理サーバ230)の構成例を図4に示す。
図4に示すように、被監視サーバは、監視デーモン500と、被監視サービス群600と、設定データ格納部700とを含む。被監視サービス群600は、ここではサービスα乃至γを含み、それぞれ予め定められたジョブのための処理を実行する。一方、監視デーモン500は、通信部510と、サービス監視部520とを有する。
通信部510は、サービスに発生した異常に基づく状態変化を他のサーバに通知するための状態変更通知を送信したり、他のサーバ等からの状態変更通知を、関係するサービスに通知する処理を行う。サービス監視部520は、設定データ格納部700に格納されている設定データによる監視間隔で被監視サービス群600に含まれる各サービスを監視し、異常が検出されると当該異常に基づく状態変化を他のサーバに通知するための状態変更通知を、通信部510に送信させる。
次に、監視サブマスタサーバ110の構成例を図5に示す。監視サブマスタサーバ110は、第1受信部111と、第1振分処理部112と、第1キュー群113と、第1送信部114と、設定データ格納部115と、第2受信部116と、第2振分処理部117と、第2キュー群118と、第2送信部119とを有する。
第1受信部111は、配下の被監視サーバから状態変更通知を受信し、第1振分処理部112に出力する。第1振分処理部112は、設定データ格納部115に格納されているデータに従って、第1キュー群113のうち該当するキューに状態変更通知を格納する。第1送信部114は、設定データ格納部115に格納されているデータに従って特定される間隔で、各キューに格納されている状態変更通知を、監視マスタサーバ100に送信する。
第2受信部116は、監視マスタサーバ100から状態変更通知を受信し、第2振分処理部117に出力する。第2振分処理部117は、設定データ格納部115に格納されているデータに従って、第2キュー群118のうち該当するキューに状態変更通知を格納する。第2送信部119は、設定データ格納部115に格納されているデータに従って特定される間隔で、各キューに格納されている状態変更通知を、該当する被監視サーバへ送信する。
監視マスタサーバ100の構成例を図6に示す。監視マスタサーバ100は、受信部101と、振分処理部102と、キュー群103と、出力部104と、設定データ格納部105と、送信部109と、状態管理部130とを有する。
受信部101は、配下の監視サブマスタサーバ110又は120から状態変更通知を受信し、振分処理部102に出力する。振分処理部102は、設定データ格納部105に格納されているデータに従って、キュー群103のうち該当するキューに状態変更通知を格納する。出力部104は、設定データ格納部105に格納されているデータに従って特定される間隔で、各キューに格納されている状態変更通知を、状態管理部130に送信する。状態管理部130は、状態変更通知に応じて定められた処理を実行する。なお、状態管理部130は、状態変更通知を、ダウン状態(すなわち停止状態)以外の状態の被監視サーバ等に配信する処理も行う。この場合、状態管理部130は、状態変更通知を、送信部109に出力する。なお、状態管理部130のこれ以外の処理については、本実施の形態には関係しないので、これ以上述べない。
送信部109は、該当する監視サブマスタサーバ110及び120へ送信する。
次に、被監視サーバが有する設定データ格納部700に格納されるデータについて説明する。
本実施の形態では、被監視サーバの種別及び検出された変化後の状態に応じて異なる監視間隔が自律的に採用される。
すなわち、ファイルサーバA及びBの設定データ格納部700には、例えば図7に示すようなデータが格納される。図7の例では、通常実行状態「Run」であれば監視間隔は30秒であり、フェイルオーバ状態「Failover」であれば監視間隔は3秒であり、片寄せ状態「Double」であれば監視間隔は3秒であることが規定されている。すなわち、何らかの事情によりフェイルオーバ状態に遷移した場合及び片寄せ状態に遷移した場合については、発生する問題に早期に対処するため監視間隔を短縮する。なお、ダウン状態であれば、監視は行わなくなるので、規定されていない。
また、計算サーバ210及び220の設定データ格納部700には、例えば図8に示すようなデータが格納される。図8の例では、通常実行状態「Run」であれば監視間隔は60秒であることが規定されている。なお、計算サーバ210及び220の場合には、他の状態はダウン状態のみであり、ダウン状態であれば監視は行わなくなるので、規定されていない。
さらに、管理サーバ230の設定データ格納部700には、例えば図9に示すようなデータが格納される。図9の例では、通常実行状態「Run」であれば監視間隔は60秒であり、フェイルオーバ状態「Failover」であれば監視間隔は3秒であることが規定されている。なお、管理サーバ230の場合には、片寄せ状態「Double」という状態は存在しないので、規定されていない。また、ダウン状態であれば監視は行わなくなるので、規定されていない。
なお、監視サブマスタサーバ110及び120の設定データ格納部115には、配下の被監視サーバの種別に応じたデータを格納している。すなわち、監視サブマスタサーバ110であれば、配下はファイルサーバのみなので、図7に示すようなデータが設定データ格納部115に格納される。また、監視サブマスタサーバ120であれば、配下は計算サーバ及び管理サーバなので、図10に示すようなデータが設定データ格納部115に格納される。より具体的には図8及び図9のデータが格納される。なお、監視サブマスタサーバ110及び120がファイルサーバ機能、計算サーバ機能、管理サーバ機能をも有する場合には、その機能に応じた監視時間についてのデータも格納される。
さらに、監視マスタサーバ100の設定データ格納部105には、配下の被監視サーバの種別に応じたデータが格納される。本例では、図11に示すように、ファイルサーバ、計算サーバ及び管理サーバに対する監視時間の規定を含む。
このようなデータについては、監視マスタサーバ100から配下のサーバへ配信される場合もある。
また、本実施の形態では、状態変化の検出元サーバ種別と変化後の状態とに応じて状態変更通知のキャッシュ時間を動的に且つ自律的に変化させる。
そのため、監視サブマスタサーバ110及び120の設定データ格納部115には、キャッシュ時間についてのデータも格納される。また、監視マスタサーバ100の設定データ格納部105にも、同様のキャッシュ時間についてのデータが格納される。
すなわち、図12に示すように、ファイルサーバから通知される変化後の状態が「Run」であれば最大10秒キャッシュし、変化後の状態が「Down(ダウン)」であれば最大5秒キャッシュし、変化後の状態が「Failover」又は「Double」であれば、0秒キャッシュする(すなわち、キャッシュしない)ということを表すデータが格納される。
また、計算サーバから通知される変化後の状態が「Run」であれば最大30秒キャッシュし、変化後の状態が「Down」であれば最大10秒キャッシュするということを表すデータが格納される。これ以外の状態は通知されないので、規定されない。また、管理サーバから通知される変化後の状態が「Run」であれば最大20秒キャッシュし、変化後の状態が「Down」であれば最大5秒キャッシュし、変化後の状態が「Failover」であれば0秒キャッシュする(すなわち、キャッシュしない)ということを表すデータが格納される。
次に、図13乃至図16を用いて、各サーバの動作について説明する。
まず、図13を用いて各被監視サーバにおける処理を説明する。
監視デーモン500におけるサービス監視部520は、被監視サービス群600に含まれる各サービスに対するサービス監視を実行する(ステップS1)。具体的には、異常発生の有無や現在の状態を検知する。そうすると、サービス監視部520は、従前の状態からの状態変化を検出したか判断する(ステップS3)。状態変化が検知されていないと判断された場合には、処理はステップS11に移行する。すなわち、サービス監視部520は、時間の計測を開始する(ステップS11)。なお、初期的には、状態変化が検出されるものとする。
一方、状態変化が検出されると、サービス監視部520は、通信部510に、検出元サーバの識別子、検出元サーバ種別及び変化後の状態についてのデータを含む状態変更通知を上位の監視サーバ(ここでは監視サブマスタサーバ110又は120)に送信させる(ステップS5)。
ここで、変化後の状態がダウン状態「Down」である場合には、以降非監視になる。従って、サービス監視部520は、変化後の状態がダウン状態のように予め設定されている非監視の状態であるか否かを判断する(ステップS7)。非監視の状態であれば、処理を終了する。
一方、非監視の状態でなければ、サービス監視部520は、変化後の状態に応じた監視間隔を、設定データ格納部700のデータにおいて特定し、設定する(ステップS9)。ファイルサーバA又はBにおいて、フェイルオーバ状態が検出されると、図7に示すように、監視間隔は3秒となる。
そして、サービス監視部520は、時間の計測を開始する(ステップS11)。その後、サービス監視部520は、計測時間が、設定された監視間隔に達したか否かを判断する(ステップS13)。監視間隔に達していない場合には、サービス監視部520は、処理終了が指示されたか判断する(ステップS15)。処理終了が指示された場合には、処理を終了する。一方、処理終了が指示されていない場合には、処理はステップS13に戻る。
一方、計測時間が、設定された監視間隔に達した場合には、処理はステップS1に戻る。
以上のような処理を行うことで、サービス監視の重要性が高い状態への変化が検出されれば監視間隔を短くし、サービス監視の重要度が高くない状態への変化が検出されれば、監視期間を長くすることができるようになる。すなわち、状態の重要度に応じた間隔で状態変化を検出できるようになる。
次に、監視サブマスタサーバ110又は120の処理内容について、図14を用いて説明する。
第1受信部111は、配下の被監視サーバから状態変更通知を受信すると(ステップS21)、当該状態変更通知を第1振分処理部112へ出力する。第1振分処理部112は、状態変更通知から検出元サーバ種別及び変化後の状態を抽出し(ステップS23)、設定データ格納部115に格納されたデータから、検出元サーバ種別及び変化後の状態に対して規定されているキャッシュ時間を特定する(ステップS25)。
そして、第1振分処理部112は、キャッシュ時間が0秒であるか否かを判断する(ステップS27)。キャッシュ時間が0秒であれば、キャッシュせずに送信することになるので、第1振分処理部112は、受信した状態変更通知を第1送信部114に出力する。
第1送信部114は、状態変更通知を監視マスタサーバ100へ送信する(ステップS29)。これによって、重要な状態変更通知については即座に監視マスタサーバ100へ送信されるようになる。
一方、キャッシュ時間が0秒ではない場合には、第1振分処理部112は、状態変更通知を、第1キュー群113において、特定されたキャッシュ時間のためのキューに格納する(ステップS31)。監視サブマスタサーバ110の場合には、配下はファイルサーバA及びBのみなので、キャッシュ時間は10秒と5秒と0秒のいずれかになる。従って、10秒のためのキューと、5秒のためのキューとを設けて、変化後の状態が「Run」であれば10秒のキューに状態変更通知を格納し、変化後の状態が「Down」であれば5秒のキューに状態変更通知を格納する。
一方、第1送信部114は、キュー毎に、当該キューに設定されたキャッシュ時間間隔で、当該キューに格納されている状態変更通知を、監視マスタサーバ100へ送信する(ステップS33)。第1送信部114の処理は、図示の都合上ステップS33に示しているが、実際にはそれ以外の処理とは非同期に行われる。
このような処理を実行することで、状態変更通知の重要度に応じて、当該状態変更通知を即座に監視マスタサーバ100へ転送したり、短い時間キャッシュしたり、長い時間キャッシュしたりして、監視マスタサーバ100への通知速度を調整できるようになる。
なお、第2受信部116、第2振分処理部117、第2キュー群118及び第2送信部119についての処理も、おおよそ図14に示すような処理フローに従う。
すなわち、第2受信部116は、監視マスタサーバ100から状態変更通知を受信すると(ステップS21)、当該状態変更通知を第2振分処理部117へ出力する。第2振分処理部117は、状態変更通知から検出元サーバ種別及び変化後の状態を抽出し(ステップS23)、設定データ格納部115に格納されたデータから、検出元サーバ種別及び変化後の状態に対して規定されているキャッシュ時間を特定する(ステップS25)。
そして、第2振分処理部117は、キャッシュ時間が0秒であるか否かを判断する(ステップS27)。キャッシュ時間が0秒であれば、キャッシュせずに送信することになるので、第2振分処理部117は、受信した状態変更通知を第2送信部119に出力する。
第2送信部119は、状態変更通知を配下の被監視サーバへ送信する(ステップS29)。但し、監視マスタサーバ100からの状態変更通知は、ダウンしたサーバ以外の被監視サーバへ通知することになるので、ここでも、ダウンしたサーバ以外の被監視サーバへ送信する。
これによって、重要な状態変更通知については即座に他の被監視サーバへ送信されるようになる。
一方、キャッシュ時間が0秒ではない場合には、第2振分処理部117は、状態変更通知を、第2キュー群118において、特定されたキャッシュ時間のためのキューに格納する(ステップS31)。監視マスタサーバ100からの状態変更通知には、検出元サーバがファイルサーバの場合もあれば、管理サーバ、計算サーバである場合もあるので、設定データ格納部115に格納されているキャッシュ時間の各々についてキューを設ける。
そして、監視サブマスタサーバ120の場合には、検出元サーバがファイルサーバAで且つ変化後の状態「Down」である状態変更通知を受信すると、5秒のためのキューに状態変更通知を格納する。
一方、第2送信部119は、キュー毎に、当該キューに設定されたキャッシュ時間間隔で、当該キューに格納されている状態変更通知を、配下の被監視サーバ(検出元サーバを除く)へ送信する(ステップS33)。第2送信部119の処理は、図示の都合上ステップS33に示しているが、実際にはそれ以外の処理とは非同期に行われる。
このような処理を実行することで、状態変更通知の重要度に応じて、当該状態変更通知を即座に各被監視サーバへ転送したり、短い時間キャッシュしたり、長い時間キャッシュしたりして、被監視サーバへの通知速度を調整できるようになる。
次に、監視マスタサーバ100の処理内容について、図15を用いて説明する。
受信部101は、配下の監視サブマスタサーバ110又は120から状態変更通知を受信すると(ステップS41)、当該状態変更通知を振分処理部102へ出力する。振分処理部102は、状態変更通知から検出元サーバ種別及び変化後の状態を抽出し(ステップS43)、設定データ格納部105に格納されたデータから、検出元サーバ種別及び変化後の状態に対して規定されているキャッシュ時間を特定する(ステップS45)。
そして、振分処理部102は、キャッシュ時間が0秒であるか否かを判断する(ステップS47)。キャッシュ時間が0秒であれば、キャッシュせずに出力することになるので、振分処理部102は、受信した状態変更通知を出力部104に出力する。
出力部104は、状態変更通知を状態管理部130へ出力する(ステップS49)。これによって、重要な状態変更通知については即座に状態管理部130へ出力されるようになる。そして処理はステップS55に移行する。
一方、キャッシュ時間が0秒ではない場合には、振分処理部102は、状態変更通知を、キュー群103において、特定されたキャッシュ時間のためのキューに格納する(ステップS51)。状態変更通知の送信元サーバは、ファイルサーバの場合もあれば、管理サーバ、計算サーバである場合もあるので、設定データ格納部105に格納されているキャッシュ時間の各々についてキューを設ける。
ファイルサーバAの変化後の状態が「Run」であれば10秒のキューに状態変更通知を格納し、ファイルサーバAの変化後の状態が「Down」であれば5秒のキューに状態変更通知を格納する。
一方、出力部104は、キュー毎に、当該キューに設定されたキャッシュ時間間隔で、当該キューに格納されている状態変更通知を、状態管理部130へ送信する(ステップS53)。出力部104の処理は、図示の都合上ステップS53に示しているが、実際にはそれ以外の処理とは非同期に行われる。
状態管理部130は、状態変更通知を出力部104から受信すると、当該状態変更通知について予め定められている処理を実行する(ステップS55)。一方、状態管理部130は、ダウンした被監視サーバ以外の被監視サーバへ通知するために状態変更通知を、送信部109へ出力する(ステップS57)。
このような処理を実行することで、状態変更通知の重要度に応じて、当該状態変更通知を即座に状態管理部130へ出力したり、短い時間キャッシュしたり、長い時間キャッシュしたりして、状態管理部130への通知速度を調整できるようになる。
例えば、ファイルサーバAにおいて異常が発生してダウンしてしまった場合について図16を用いて説明する。
ファイルサーバAでサービス監視が0秒で行われた後に異常が発生しても、30秒まではサービス監視が行われないので、異常による状態変化は検出されない。30秒になると、サービス監視部520は、ファイルサーバAのダウン状態への状態変化を検出し、通信部510に、状態変更通知を監視サブマスタサーバ110へ送信させる(図16:1101)。監視サブマスタサーバ110は、ファイルサーバAから状態変更通知を受信すると、検出元サーバの種別「ファイルサーバ」及び変化後の状態「Down」から、キャッシュ時間「5秒」を特定し、5秒のためのキューに格納する(図16:1102)。最大5秒キューに格納された後に、監視サブマスタサーバ110は、キュー内の状態変更通知を、監視マスタサーバ100に送信する(図16:1103)。
監視マスタサーバ100は、状態変更通知を受信すると、ここでも状態変更通知における検出元サーバの種別「ファイルサーバ」及び変化後の状態「Down」から、キャッシュ時間「5秒」を特定し、5秒のためのキューに格納する(図16:1104)。その後、監視マスタサーバ100は、この状態変更通知を他の被監視サーバなどに通知するために、配下の監視サブマスタサーバ110及び120に送信する(図16:1105)。
監視サブマスタサーバ110及び120は、監視マスタサーバ100から状態変更通知を受信すると、上で述べた場合と同様に、5秒のためのキューに格納する(図16:1106)。その後、監視サブマスタサーバ110及び120は、ダウンしたファイルサーバA以外の被監視サーバへ、状態変更通知を送信する(図16:1107及び1108)。
ファイルサーバBは、このような状態変更通知を受信すると、フェイルオーバペアのファイルサーバAがダウンしたことを認識して、フェイルオーバを実行する。但し、まだ30秒間隔でサービス監視が行われるので、60秒になるまでフェイルオーバ状態は検出されない。60秒になると、ファイルサーバBのサービス監視部520は、フェイルオーバ状態を検出すると、通信部510に、状態変更通知を監視サブマスタサーバ110へ送信させる(図16:1109)。
監視サブマスタサーバ110は、状態変更通知を受信すると、ここでも状態変更通知における検出元サーバの種別「ファイルサーバ」及び変化後の状態「Failover」から、キャッシュ時間「0秒」を特定し、そのまま状態変更通知を即座に監視マスタサーバ100へ送信する(図16:1110)。
監視マスタサーバ100は、状態変更通知を受信すると、ここでも状態変更通知における検出元サーバの種別「ファイルサーバ」及び変化後の状態「Failover」から、キャッシュ時間「0秒」を特定するので、そのまま状態変更通知を状態管理部130に出力する。さらに、監視マスタサーバ100は、この状態変更通知を他の被監視サーバなどに通知するために、配下の監視サブマスタサーバ110及び120に送信する(図16:1111)。
監視サブマスタサーバ110及び120は、監視マスタサーバ100から状態変更通知を受信すると、上で述べた場合と同様に、ダウンしたファイルサーバA以外の被監視サーバへ、状態変更通知を送信する(図16:1112及び1113)。
ファイルサーバA及びB以外の被監視サーバは、フェイルオーバが発生したことを認識して、ファイルサーバBへファイルを要求するようになる。
一方、ファイルサーバBは、フェイルオーバが他の被監視サーバなどに通知されたことを確認すると、Double状態に遷移する。ファイルサーバBのサービス監視部520は、30秒間隔での監視から3秒間隔での監視に移行しているので、63秒以内にDouble状態に遷移していれば、63秒のサービス監視において状態変化が検出される。この例では、処理が遅れて63秒では、Double状態になったと検出されなかった例を示している。
66秒で、ファイルサーバBのサービス監視部520は、Double状態への状態変化を検出して、通信部510に、状態変更通知を監視サブマスタサーバ110へ送信させる(図16:1114)。
監視サブマスタサーバ110は、状態変更通知を受信すると、ここでも状態変更通知における検出元サーバの種別「ファイルサーバ」及び変化後の状態「Double」から、キャッシュ時間「0秒」を特定し、そのまま状態変更通知を即座に監視マスタサーバ100へ送信する(図16:1115)。
監視マスタサーバ100は、状態変更通知を受信すると、ここでも状態変更通知における検出元サーバの種別「ファイルサーバ」及び変化後の状態「Double」から、キャッシュ時間「0秒」を特定するので、そのまま状態変更通知を状態管理部130に出力する。さらに、監視マスタサーバ100は、この状態変更通知をダウンした被監視サーバ以外の被監視サーバなどに通知するために、配下の監視サブマスタサーバ110及び120に送信する(図16:1116)。
監視サブマスタサーバ110及び120は、監視マスタサーバ100から状態変更通知を受信すると、上で述べた場合と同様に、ダウンしたファイルサーバA以外の被監視サーバへ、状態変更通知を送信する(図16:1117及び1118)。
以上のような処理を行うことで、状態変化を他の被監視サーバなどに、状態変化の重要度に応じた速度で通知できるようになる。
なお、計算サーバ210又は220がダウンした場合には、図16の1101から1108のような状態変更通知の配信が行われて、このダウンについての通知は完了する。フェイルオーバが発生しないためである。
また、管理サーバ230がダウンした場合には、図16と同様に、3回状態変更通知の配布が行われるが、最後はDouble状態ではなくRun状態に遷移するので、図16のようにキャッシュ時間が0秒ではなく長くなる。上で述べた例では、監視サブマスタサーバ110及び120と監視マスタサーバ100では、20秒がキャッシュ時間として特定される。管理サーバ230がダウンしても計算サーバ210及び220のジョブ実行には影響がないためである。
以上のように、状態変更通知で通知される状態変化の重要度(又は他のサーバへの影響度)に応じて、その通知の緩急が付けられるようになる。
[実施の形態2]
状態変更通知キャッシュは、短時間に大量の状態変更通知が情報処理システム内のネットワークを流れるのを防止するために行われるが、被監視サーバの数が少ない場合には、ネットワークにおける通信負荷が抑えられている場合もある。また、被監視サーバの数が多くても、ダウンしている被監視サーバの数が多ければ又は稼働中の被監視サーバの数が少なければ、同様にネットワークにおける通信負荷が抑えられている場合もある。
従って、本実施の形態では、図17に模式的に示すように、監視マスタサーバ100の状態管理部130が把握している配下の被監視サーバの数、稼働中の被監視サーバの数又はダウンしている被監視サーバの数等のデータを、監視サブマスタサーバ110及び120に例えば定期的に又は任意のタイミングで通知する。
監視マスタサーバ100並びに監視サブマスタサーバ110及び120は、このようなサーバ数データに基づき、例えば図18に示すような処理を実行するようにしても良い。
すなわち、監視マスタサーバ100並びに監視サブマスタサーバ110及び120は、総被監視サーバ数又は稼働中被監視サーバ数が、対応する閾値未満であるか否かを判断する(ステップS61)。ダウンした被監視サーバ数による判断であっても良いが、この場合には、対応する閾値以上であるか否かを判断する。
ステップS61の条件が満たされている場合には、監視マスタサーバ100並びに監視サブマスタサーバ110及び120は、キャッシュ無しモードに遷移し、キャッシュ無しで状態変更通知を送信又は出力するようにする(ステップS65)。そして、処理はステップS67に移行する。
一方、ステップS61の条件が満たされていない場合には、監視マスタサーバ100並びに監視サブマスタサーバ110及び120は、通常キャッシュモードに遷移し、第1の実施の形態で示したように状態変更通知に応じたキャッシュを実行する(ステップS63)。
そして、監視マスタサーバ100並びに監視サブマスタサーバ110及び120は、処理終了が指示されたか判断し(ステップS67)、処理終了が指示された場合には処理を終了する。一方、処理終了が指示されていない場合には、監視マスタサーバ100並びに監視サブマスタサーバ110及び120は、モード変更タイミングであるか否かを判断する(ステップS69)。例えば、監視マスタサーバ100から指示されたタイミング又は定期的に、モード変更タイミングが設定される。
モード変更タイミングでない場合には、ステップS69に戻る。一方、モード変更タイミングであれば、監視マスタサーバ100並びに監視サブマスタサーバ110及び120は、ステップS61に戻る。
このようにすれば、情報処理システムのネットワークにおける通信負荷が低いと想定される状態においては、状態変更通知キャッシュを行わず、通信負荷が通常以上と想定される状態においては、第1の実施の形態のように、状態変更通知に応じてキャッシュ時間が設定される。
以上本発明の実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、図4乃至図6の機能ブロック図は一例であって、プログラムモジュール構成及びデータ格納部構成とは一致しない場合もある。
処理フローについても、処理結果が変わらない限り、ステップの処理順番を入れ替えたり、複数ステップを並列に実行するようにしても良い。
なお、上で述べた各種サーバは、コンピュータ装置であって、図19に示すように、メモリ2501とCPU(Central Processing Unit)2503とハードディスク・ドライブ(HDD:Hard Disk Drive)2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本技術の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本実施の形態をまとめると、以下のようになる。
本実施の形態に係る情報処理システムは、第1の管理装置(例えば監視マスタサーバ)と、第1の管理装置の配下の第2の管理装置(例えば監視サブマスタサーバ)と、第2の管理装置の配下の複数の情報処理装置とを有する。そして、上記第2の管理装置が、複数の情報処理装置のいずれかの情報処理装置から、当該情報処理装置の状態変更通知を受信すると、当該状態変更通知において示される変化後の状態に対応して予め規定されている時間に応じたキャッシュを行ってから、当該状態変更通知を第1の管理装置に送信する。
変化後の状態毎にキャッシュの時間を適切に規定しておけば、情報処理システムに含まれる情報処理装置の状態変化を当該状態変化に応じて柔軟に通知できるようになる。なお、キャッシュの時間は0も含まれる。
また、上で述べた第2の管理装置が、受信した状態変更通知において示される、状態変化の検出元である情報処理装置の種別にさらに対応して予め規定されている時間に応じたキャッシュを行うようにしても良い。情報処理装置の種別によって重要性や他の情報処理装置への影響度合いも異なるためである。
さらに、上で述べた第2の管理装置が、第1の管理装置から、ある情報処理装置の状態変化を通知するための状態変更通知を受信すると、ある情報処理装置の変化後の状態及び上記ある情報処理装置の種別に対応して予め規定されている時間に応じたキャッシュを行ってから、当該状態変更通知を複数の情報処理装置のうち停止状態以外の状態の情報処理装置に送信するようにしても良い。
このようにすれば、情報処理装置も他の情報処理装置で発生した状態変化に応じた処理を行うことができるようになる。
また、上で述べた複数の情報処理装置の各々は、自情報処理装置の状態の変化を検出すると、当該変化後の状態に対応して予め設定されている時間間隔で自情報処理装置の監視を行うように設定するようにしても良い。変化後の状態によっては、頻繁に状態変更通知を送信することが好ましい場合もあるためである。
さらに、上で述べた第1の管理装置が、第2の管理装置から状態変更通知を受信すると、当該状態変更通知において示される変化後の状態に対応して予め規定されている時間に応じたキャッシュを行ってから、当該状態変更通知の処理を行うようにしても良い。
さらに、上で述べた第2の管理装置が、複数の情報処理装置の数又は複数の情報処理装置のうち稼働中の情報処理装置の数が閾値以上である場合に、状態変更通知のキャッシュを行うようにしても良い。情報処理システムのネットワークにおける通信負荷を考慮するものである。
なお、上で述べたような処理をコンピュータに実行させるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブル・ディスク、CD−ROMなどの光ディスク、光磁気ディスク、半導体メモリ(例えばROM)、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。なお、処理途中のデータについては、RAM等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
第1の管理装置と、複数の情報処理装置と、前記第1の管理装置と前記複数の情報処理装置とに接続される第2の管理装置とを有する情報処理システムにおいて、
前記第2の管理装置は、
前記複数の情報処理装置のうち状態の変更が発生した通知元情報処理装置から、前記通知元情報処理装置の状態の変更が発生した旨を通知する状態変更通知を受信した場合、受信した前記状態変更通知に含まれる前記通知元情報処理装置の変化後の状態を示す状態情報に対応して規定された所定時間だけ受信した前記状態変更通知を保持してから、受信した前記状態変更通知を前記第1の管理装置に送信する
情報処理システム。
(付記2)
前記第2の管理装置はさらに、
受信した前記状態変更通知に含まれる前記通知元情報処理装置の状態情報と、受信した前記状態変更通知に含まれる前記通知元情報処理装置の種別を示す種別情報とに対応して規定された所定時間だけ受信した前記状態変更通知を保持する
付記1記載の情報処理システム。
(付記3)
前記第2の管理装置はさらに、
前記第1の管理装置を経由して前記通知元情報処理装置についての状態変更通知を受信した場合、前記通知元情報処理装置の変化後の状態を示す状態情報と前記通知元情報処理装置の種別を示す種別情報とに対応して規定された所定時間だけ保持してから、受信した前記状態変更通知を前記複数の情報処理装置のうち稼動状態の情報処理装置に送信する
付記2記載の情報処理システム。
(付記4)
前記複数の情報処理装置の各々は、
自装置の状態の変化を検出した場合、自装置の変化後の状態に対応して設定された時間間隔で自装置を監視する
付記1乃至3のいずれか1つ記載の情報処理システム。
(付記5)
前記第1の管理装置は、
前記第2の管理装置を経由して前記通知元情報処理装置からの状態変更通知を受信した場合、前記通知元情報処理装置からの状態変更通知に含まれる前記通知元情報処理装置の変化後の状態を示す状態情報に対応して規定された所定時間だけ受信した前記状態変更通知を保持してから受信した前記状態変更通知を処理する
付記1乃至4のいずれか1つ記載の情報処理システム。
(付記6)
前記第2の管理装置は、
前記複数の情報処理装置の数又は前記複数の情報処理装置のうち稼働中の情報処理装置の数が閾値以上である場合、受信した前記状態変更通知を前記所定時間だけ保持する
付記1乃至5のいずれか1つ記載の情報処理システム。
(付記7)
第1の管理装置と、複数の情報処理装置と、前記第1の管理装置と前記複数の情報処理装置とに接続される第2の管理装置とを有する情報処理システムの制御方法において、
前記複数の情報処理装置のうち状態の変更が発生した通知元情報処理装置から、前記通知元情報処理装置の状態の変更が発生した旨を通知する状態変更通知を受信した場合、前記第2の管理装置が、受信した前記状態変更通知を保持し、
受信した前記状態変更通知に含まれる前記通知元情報処理装置の変化後の状態を示す状態情報に対応して規定された所定時間の経過後、前記第2の管理装置が、受信した前記状態変更通知を前記第1の管理装置に送信する
制御方法。
(付記8)
他の管理装置と、複数の情報処理装置と、前記他の管理装置と前記複数の情報処理装置とに接続される管理装置の制御プログラムにおいて、
前記複数の情報処理装置のうち状態の変更が発生した通知元情報処理装置から、前記通知元情報処理装置の状態の変更が発生した旨を通知する状態変更通知を受信した場合、前記管理装置に、受信した前記状態変更通知を保持させ、
受信した前記状態変更通知に含まれる前記通知元情報処理装置の変化後の状態を示す状態情報に対応して規定された所定時間の経過後、前記管理装置に、受信した前記状態変更通知を前記他の管理装置に送信させる
制御プログラム。
100 監視マスタサーバ
110,120 監視サブマスタサーバ
210,220 計算サーバ
230 管理サーバ

Claims (8)

  1. 第1の管理装置と、複数の情報処理装置と、前記第1の管理装置と前記複数の情報処理装置とに接続される第2の管理装置とを有する情報処理システムにおいて、
    前記第2の管理装置は、
    前記複数の情報処理装置のうち状態の変更が発生した通知元情報処理装置から、前記通知元情報処理装置の状態の変更が発生した旨を通知する状態変更通知を受信した場合、通常状態を示す状態情報に対応付けられた時間と非通常状態を示す状態情報に対応付けられた時間とを格納するデータ格納部から、受信した前記状態変更通知に含まれる前記通知元情報処理装置の変化後の状態を示す状態情報に対応付けられた時間を特定し、
    特定された前記時間だけ受信した前記状態変更通知を保持してから、受信した前記状態変更通知を前記第1の管理装置に送信する
    情報処理システム。
  2. 前記データ格納部に格納された、前記通常状態を示す状態情報に対応付けられた時間及び前記非通常状態を示す状態情報に対応付けられた時間は、情報処理装置の種別を示す種別情報にさらに対応付けられ、
    前記第2の管理装置はさらに、
    受信した前記状態変更通知に含まれる前記通知元情報処理装置の状態情報と、受信した前記状態変更通知に含まれる前記通知元情報処理装置の種別を示す種別情報とに対応付けられた時間を前記データ格納部から特定し、
    特定された前記時間だけ受信した前記状態変更通知を保持する
    請求項1記載の情報処理システム。
  3. 前記第2の管理装置はさらに、
    前記第1の管理装置を経由して前記通知元情報処理装置についての状態変更通知を受信した場合、前記通知元情報処理装置の変化後の状態を示す状態情報と前記通知元情報処理装置の種別を示す種別情報とに対応付けられた時間を前記データ格納部から特定し、
    特定された前記時間だけ受信した前記状態変更通知を保持してから、受信した前記状態変更通知を前記複数の情報処理装置のうち稼働状態の情報処理装置に送信する
    請求項2記載の情報処理システム。
  4. 前記複数の情報処理装置の各々は、
    自装置の状態の変化を検出した場合、自装置の変化後の状態に対応して設定された時間間隔で自装置を監視する
    請求項1乃至3のいずれか1つ記載の情報処理システム。
  5. 前記第1の管理装置は、
    前記第2の管理装置を経由して前記通知元情報処理装置からの状態変更通知を受信した場合、前記通知元情報処理装置からの状態変更通知に含まれる前記通知元情報処理装置の変化後の状態を示す状態情報に対応して規定された所定時間だけ受信した前記状態変更通知を保持してから受信した前記状態変更通知を処理する
    請求項1乃至4のいずれか1つ記載の情報処理システム。
  6. 前記第2の管理装置は、
    前記複数の情報処理装置の数又は前記複数の情報処理装置のうち稼働中の情報処理装置の数が閾値以上である場合、受信した前記状態変更通知を、特定された前記時間だけ保持する
    請求項1乃至5のいずれか1つ記載の情報処理システム。
  7. 第1の管理装置と、複数の情報処理装置と、前記第1の管理装置と前記複数の情報処理装置とに接続される第2の管理装置とを有する情報処理システムの制御方法において、
    前記複数の情報処理装置のうち状態の変更が発生した通知元情報処理装置から、前記通知元情報処理装置の状態の変更が発生した旨を通知する状態変更通知を受信した場合、前記第2の管理装置が、受信した前記状態変更通知を保持し、
    前記第2の管理装置が、通常状態を示す状態情報に対応付けられた時間と非通常状態を示す状態情報に対応付けられた時間とを格納するデータ格納部から、受信した前記状態変更通知に含まれる前記通知元情報処理装置の変化後の状態を示す状態情報に対応付けられた時間を特定し、
    特定された前記時間の経過後、前記第2の管理装置が、受信した前記状態変更通知を前記第1の管理装置に送信する
    制御方法。
  8. 他の管理装置と、複数の情報処理装置と、前記他の管理装置と前記複数の情報処理装置とに接続される管理装置の制御プログラムにおいて、
    前記複数の情報処理装置のうち状態の変更が発生した通知元情報処理装置から、前記通知元情報処理装置の状態の変更が発生した旨を通知する状態変更通知を受信した場合、前記管理装置に、受信した前記状態変更通知を保持させ、
    通常状態を示す状態情報に対応付けられた時間と非通常状態を示す状態情報に対応付けられた時間とを格納するデータ格納部から、受信した前記状態変更通知に含まれる前記通知元情報処理装置の変化後の状態を示す状態情報に対応付けられた時間を前記管理装置に特定させ、
    特定された前記時間の経過後、前記管理装置に、受信した前記状態変更通知を前記他の管理装置に送信させる
    制御プログラム。
JP2013169188A 2013-08-16 2013-08-16 情報処理システム、情報処理システムの制御方法及び管理装置の制御プログラム Active JP6187021B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013169188A JP6187021B2 (ja) 2013-08-16 2013-08-16 情報処理システム、情報処理システムの制御方法及び管理装置の制御プログラム
US14/334,733 US9880912B2 (en) 2013-08-16 2014-07-18 Information processing system, control method of information processing system, and non-transitory computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013169188A JP6187021B2 (ja) 2013-08-16 2013-08-16 情報処理システム、情報処理システムの制御方法及び管理装置の制御プログラム

Publications (2)

Publication Number Publication Date
JP2015036957A JP2015036957A (ja) 2015-02-23
JP6187021B2 true JP6187021B2 (ja) 2017-08-30

Family

ID=52467713

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013169188A Active JP6187021B2 (ja) 2013-08-16 2013-08-16 情報処理システム、情報処理システムの制御方法及び管理装置の制御プログラム

Country Status (2)

Country Link
US (1) US9880912B2 (ja)
JP (1) JP6187021B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016115155A (ja) * 2014-12-15 2016-06-23 株式会社リコー 機器管理装置、機器管理システム、対応指示方法及びプログラム
US10580407B1 (en) * 2017-12-08 2020-03-03 Amazon Technologies, Inc. State detection and responses for electronic devices

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61221542A (ja) 1985-03-27 1986-10-01 株式会社日立製作所 集中監視制御システム
JPH04319900A (ja) * 1991-04-19 1992-11-10 Fujitsu Ltd 状態変化情報再送信方式
JPH07319836A (ja) * 1994-05-30 1995-12-08 Hitachi Ltd 障害監視方式
JPH0983641A (ja) 1995-09-20 1997-03-28 Nec Corp 監視制御方式
DE60106467T2 (de) * 2001-12-14 2006-02-23 Hewlett-Packard Development Co., L.P., Houston Verfahren zum Installieren Überwachungsagenten, System und Computerprogramm von Objekten in einem IT-Netz Überwachung
JP3583767B2 (ja) * 2002-06-06 2004-11-04 株式会社エヌ・ティ・ティ・ドコモ メッセージ配信システム及びメッセージ配信方法
US8230445B2 (en) * 2003-01-14 2012-07-24 International Business Machines Corporation Event management method and system
JP2008015722A (ja) * 2006-07-05 2008-01-24 Hitachi Electronics Service Co Ltd データ処理システム
JP5588127B2 (ja) * 2009-06-08 2014-09-10 株式会社日立システムズ 障害監視装置

Also Published As

Publication number Publication date
US9880912B2 (en) 2018-01-30
US20150052384A1 (en) 2015-02-19
JP2015036957A (ja) 2015-02-23

Similar Documents

Publication Publication Date Title
US10467136B2 (en) Adaptable data caching mechanism for in-memory cluster computing
KR101888029B1 (ko) 가상 머신 클러스터 모니터링 방법 및 모니터링 시스템
JP4920391B2 (ja) 計算機システムの管理方法、管理サーバ、計算機システム及びプログラム
US20190342380A1 (en) Adaptive resource-governed services for performance-compliant distributed workloads
US10095547B1 (en) Stream processing at scale
JP6019995B2 (ja) 分散システム、サーバ計算機、及び障害発生防止方法
US8479038B1 (en) Method and apparatus for achieving high availability for applications and optimizing power consumption within a datacenter
US8510742B2 (en) Job allocation program for allocating jobs to each computer without intensively managing load state of each computer
US9553810B2 (en) Dynamic reconfiguration of network devices for outage prediction
JP2004030363A (ja) 論理計算機システム、論理計算機システムの構成制御方法および論理計算機システムの構成制御プログラム
US20180032387A1 (en) Predictive Analytics on Database Wait Events
US7925922B2 (en) Failover method and system for a computer system having clustering configuration
JP2012088770A (ja) コンピュータリソース制御システム
US10732873B1 (en) Timeout mode for storage devices
US10540202B1 (en) Transient sharing of available SAN compute capability
CN111418187A (zh) 云网络中的可伸缩统计和分析机制
JP6187021B2 (ja) 情報処理システム、情報処理システムの制御方法及び管理装置の制御プログラム
JP2008250669A (ja) ウェブ監視制御システム、ウェブサーバ制御装置およびウェブサーバ制御プログラム
US9836342B1 (en) Application alerting system and method for a computing infrastructure
KR101326451B1 (ko) 복합 장애 조건을 이용하여 시스템 장애를 판단하는 시스템 장애 모니터링 방법 및 서버
CN115934304A (zh) 一种数据处理方法、装置、计算机设备及可读存储介质
CN115840635A (zh) 计算资源管理方法、电子设备和程序产品
Mondal et al. Energy modeling of virtual machine replication schemes with checkpointing in data centers
JP2012089109A (ja) コンピュータリソース制御システム
US20230221961A1 (en) Remote front-drop for recovery after pipeline stall

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160510

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170328

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170717

R150 Certificate of patent or registration of utility model

Ref document number: 6187021

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150