JP5727404B2 - 死活監視サーバ、死活監視プログラム及び死活監視方法 - Google Patents

死活監視サーバ、死活監視プログラム及び死活監視方法 Download PDF

Info

Publication number
JP5727404B2
JP5727404B2 JP2012048465A JP2012048465A JP5727404B2 JP 5727404 B2 JP5727404 B2 JP 5727404B2 JP 2012048465 A JP2012048465 A JP 2012048465A JP 2012048465 A JP2012048465 A JP 2012048465A JP 5727404 B2 JP5727404 B2 JP 5727404B2
Authority
JP
Japan
Prior art keywords
network
monitoring
data
server
life
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012048465A
Other languages
English (en)
Other versions
JP2013186481A (ja
Inventor
昌義 梅田
昌義 梅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2012048465A priority Critical patent/JP5727404B2/ja
Publication of JP2013186481A publication Critical patent/JP2013186481A/ja
Application granted granted Critical
Publication of JP5727404B2 publication Critical patent/JP5727404B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Computer And Data Communications (AREA)

Description

本発明は、死活監視サーバ、死活監視プログラム及び死活監視方法に関する。
従来、大規模な分散ファイルシステムでは、死活監視技術が用いられている。死活監視技術が用いられた分散ファイルシステムでは、監視サーバは、分散ファイルシステムを形成するサーバ各々について死活監視用データを送信し、応答の有無に基づいて死活監視を行う。監視サーバは、分散ファイルシステムにて処理されるデータの送受信に用いられるネットワークを介して、死活監視用データを送信する。そして、分散ファイルシステムでは、監視サーバによりダウンしていると判断されたサーバについて、復旧するまで分散対象としない。
サーバ負荷分散概論、[online]、[2012年2月14日検索]、インターネット(URL:http://lab.klab.org/wiki/%E3%82%B5%E3%83%BC%E3%83%90%E8%B2%A0%E8%8D%B7%E5%88%86%E6%95%A3%E6%A6%82%E8%AB%96) 死活監視とは、[online]、[2012年2月14日検索]、インターネット(URL:http://asp.ag−monitor.com/about_watching.php)
しかしながら、上述の従来技術では、死活監視に時間がかかったり、死活監視自体ができなかったりするという問題がある。例えば、上述の従来技術では、死活監視と他のデータ通信とが競合した場合や、回線に障害が発生した場合などにおいて、死活監視に時間がかかったり、死活監視自体ができなくなったりする。
開示の技術は、上述に鑑みてなされたものであって、死活監視を確実かつ迅速に実行可能となる死活監視サーバ、死活監視プログラム及び死活監視方法を提供することを目的とする。
開示する死活監視サーバは、1つの態様において、サーバ群に含まれるサーバ各々について、データの送受信が行われているか否かを監視する監視部を備える。また、開示する死活監視サーバは、前記監視部により前記データの送受信が行われていないとの監視結果が得られた場合に、データの送受信に用いられる第1のネットワークを介して、該監視結果が得られたサーバに死活監視用データを送信する送信部を備える。また、開示する死活監視サーバは、前記送信部により送信された前記死活監視用データに対する応答がない場合に、前記第1のネットワークとは別の第2のネットワークを介して、前記サーバ群に含まれる前記サーバ各々に任意の処理を分散させて実行させる分散装置に、応答がなかったサーバを通知する通知部を備える。
開示する死活監視サーバの1つの態様によれば、死活監視を確実かつ迅速に実行可能となるという効果を奏する。
図1は、実施形態1に係る死活監視サーバの全体像について説明するための図である。 図2は、実施形態1に係る死活監視サーバの構成の一例について説明するためのブロック図である。 図3は、実施形態1に係る死活監視サーバの構成の一例について説明するための図である。 図4は、実施形態1に係る死活監視サーバによる処理の流れの一例を説明するためのフローチャートである。 図5は、サーバの状況を把握する場合における死活監視サーバによる処理の流れの一例を説明するためのフローチャートである。 図6は、死活監視用データを制御ネットワークを介して送信する場合について説明するための図である。 図7は、一連の処理を実行するためのプログラムによる情報処理がコンピュータを用いて具体的に実現されることを示す図である。
以下に、開示する死活監視サーバ、死活監視プログラム及び死活監視方法の実施形態について、図面に基づいて詳細に説明する。なお、本実施形態により開示する発明が限定されるものではない。各実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
以下では、実施形態1に係る死活監視サーバ、死活監視プログラム及び死活監視方法について説明する。具体的には、死活監視サーバの全体像について簡単に説明した上で、死活監視サーバの構成の一例、死活監視サーバによる処理の一例について順に説明する。
[死活監視サーバの全体像]
図1は、実施形態1に係る死活監視サーバの全体像について説明するための図である。図1に示す例では、説明の便宜上、死活監視サーバ100に加えて、n個の死活監視サブサーバ200と、m個の分散ファイルワーカ300と、分散ファイルマスタ400とを併せて示した。死活監視サーバ100と、n個の死活監視サブサーバ200と、m個の分散ファイルワーカ300と、分散ファイルマスタ400とは、それぞれ、データの送受信に用いられるデータネットワーク10と、データネットワーク10とは別途設けられた制御ネットワーク20とで接続される。なお、図1の「n」「m」は、任意の自然数である。
なお、分散ファイルマスタ400を「分散装置」とも称する。データネットワーク10を「第1のネットワーク」とも称する。制御ネットワーク20を「第2のネットワーク」とも称する。m個の分散ファイルワーカ300を「サーバ群」や「大規模な分散ファイルシステム」とも称する。
死活監視サーバ100は、m個の分散ファイルワーカ300各々の死活監視を行う。具体的には、死活監視サーバ100は、m個の分散ファイルワーカ300各々について、データの送受信が可能な状態であるか否かや、動作しているか否かなどを監視する。より詳細には、死活監視サーバ100は、データネットワーク10を介して死活監視用データを送信し、制御ネットワーク20を介して監視結果を通知する。死活監視サーバ100の詳細については後述する。なお、死活監視サーバ100による死活監視対象となる分散ファイルワーカ300は、例えば、分散ファイルマスタ400により通知される。
n個の死活監視サブサーバ200は、死活監視サーバ100とマスタ・スレーブ関係を有する死活監視サーバである。例えば、死活監視サーバ100が動作しなくなった場合に、n個ある死活監視サブサーバ200のうち任意の1つの死活監視サブサーバ200が、マスタとして死活監視を行う。なお、死活監視サーバ100とn個の死活監視サブサーバ200との間におけるマスタ・スレーブ関係は、公知の技術を用いて実現して良い。
m個の分散ファイルワーカ300各々は、分散ファイルマスタ400との間でデータネットワーク10を介してデータ通信を行う。m個の分散ファイルワーカ300各々は、分散ファイルマスタ400により割り振られた処理を行う。分散ファイルワーカ300各々は、例えば、公知のサーバを用いて実現される。また、新たな分散ファイルワーカ300がデータネットワーク10と制御ネットワーク20とに接続されると、新たに接続された分散ファイルワーカ300は、自装置が動作していることを制御ネットワーク20を介して分散ファイルマスタ400に通知する。
分散ファイルマスタ400は、分散ファイルワーカ300との間でデータネットワーク10を介してデータ通信を行う。分散ファイルマスタ400は、サーバ群に含まれるサーバ各々に任意の処理を分散させて実行させる。具体的には、分散ファイルマスタ400は、m個の分散ファイルワーカ300各々に処理を割り当てることで、任意の処理を実行する。例えば、分散ファイルマスタ400は、動作していると通知があった分散ファイルワーカ300各々に対して、処理を割り当てる。また、分散ファイルマスタ400は、死活監視サーバ100に問い合わせたり、死活監視サーバ100からの通知を受信したりすることで、m個ある分散ファイルワーカ300各々のうち障害が発生している分散ファイルワーカ300を判断する。なお、分散ファイルマスタ400は、障害が発生していると判断した分散ファイルワーカ300については、復旧するまで処理を割り当てない。言い換えると、分散ファイルマスタ400は、制御ネットワーク20を介して処理の割当先を切り替える切替処理を実行する。
なお、分散ファイルマスタ400は、例えば、分散ファイルワーカ300が動作していないことが制御ネットワーク20を介して通知されると、通知された分散ファイルワーカ300に係る管理情報を削除する。また、分散ファイルマスタ400は、新たに分散ファイルワーカ300がデータネットワーク10に接続され、データネットワーク10を介して通知を受信した場合には、制御ネットワーク20を介して死活監視サーバ100にその旨を通知する。その後、死活監視サーバ100は、通知された分散ファイルワーカ300の死活監視を開始する。
分散ファイルマスタ400は、例えば、公知のサーバを用いて実現される。また、分散ファイルマスタ400に障害が発生した場合には、m個ある分散ファイルワーカ300のうち任意の分散ファイルワーカ300が、分散ファイルマスタ400として処理を実行する。分散ファイルマスタ400とm個の分散ファイルワーカ300との関係は、公知の技術を用いて実現して良い。
ここで、データネットワーク10と制御ネットワーク20とについて補足する。データネットワーク10と制御ネットワーク20とは、別個のネットワークであり、例えば、別個の回線である。また、データネットワーク10は、例えば、分散ファイルマスタ400と分散ファイルワーカ300間におけるデータ処理用のデータが送受信される。また、制御ネットワーク20は、例えば、障害が発生したサーバの通知に用いられる。ここで、制御ネットワーク20は、分散ファイルマスタ400と分散ファイルワーカ300との間におけるデータ処理用のデータの送受信には用いられない結果、ネットワークの帯域混雑による影響を受けることがデータネットワーク10と比較して少なく、各種の制御データを迅速に送受信可能となる。この結果、データネットワーク10とは別の制御ネットワーク20を介して制御データを送受信することで、瞬時の制御を実現可能となる。
[死活監視サーバの構成]
図2は、実施形態1に係る死活監視サーバの構成の一例について説明するためのブロック図である。図2に示す例では、死活監視サーバ100は、入出力部101と、記憶部110と、制御部120とを有する。
入出力部101は、制御部120と接続される。入出力部101は、各種の情報を受け付け、受け付けた情報を制御部120に入力する。また、入出力部101は、制御部120から情報を受け付け、受け付けた情報を出力する。入出力部101によって受け付けられたり出力されたりする情報については、後述する。
記憶部110は、制御部120と接続される。記憶部110は、制御部120による各種処理に用いるデータを記憶する。記憶部110は、例えば、RAM(Random Access Memory)やROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子、又は、ハードディスクや光ディスクなどである。
制御部120は、入出力部101と記憶部110と接続される。制御部120は、各種の処理手順などを規定したプログラムを記憶する内部メモリを有し、種々の処理を制御する。制御部120は、例えば、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、CPU(Central Processing Unit)、MPU(Micro Processing Unit)などである。図2に示す例では、制御部120は、監視部121と、送信部122と、通知部123とを有する。
監視部121は、図3の(2)に示すように、サーバ群に含まれるサーバ各々について、データの送受信が行われているか否かを監視する。図3は、実施形態1に係る死活監視サーバの構成の一例について説明するための図である。なお、図3の(1)に示すように、分散ファイルマスタ400と分散ファイルワーカ300とは、データネットワーク10を介してデータ通信を行う。
監視部121の説明に戻る。監視部121は、m個ある分散ファイルワーカ300各々について、データネットワーク10を介したデータの送受信が行われているか否かを監視する。例えば、監視部121は、データネットワーク10を形成するルータからデータの送受信に関する情報を受信したり、データネットワーク10を流れるデータをモニタしたり、他の公知の手法を用いたりすることで、データの送受信の有無を監視する。すなわち、監視部121は、データネットワーク10上の分散ファイルマスタ400と分散ファイルワーカ300間のデータの流れを監視(スヌープ)する。
送信部122は、監視部121によりデータの送受信が行われていないとの監視結果が得られた場合に、図3の(3)に示すように、データの送受信に用いられる第1のネットワークを介して、監視結果が得られたサーバに死活監視用データを送信する。例えば、送信部122は、死活監視用データを1度送信する。
より詳細な一例をあげて説明すると、送信部122は、所定の期間内にデータの流れがない分散ファイルワーカ300に対して、データネットワーク10を介して、死活監視用データとしてKeepAliveパケットを送信する。
通知部123は、送信部122により送信された死活監視用データに対する応答がない場合に、図3の(4)に示すように、死活監視通知を行う。つまり、通知部123は、第1のネットワークとは別の第2のネットワークを介して、サーバ群に含まれるサーバ各々に任意の処理を分散させて実行させる分散装置に、応答がなかったサーバを通知する。例えば、通知部123は、送信部122により1度送信された死活監視用データに対する応答がない場合に、分散装置に通知する。
より詳細な一例をあげて説明すると、通知部123は、分散ファイルワーカ300から応答となるHearBeatメッセージがない場合には、送信部122によりKeepAliveパケットが再送されることなく、直ちに、制御ネットワーク20を介して分散ファイルマスタ400に分散ファイルワーカ300に障害が発生していることを通知する。
このように、実施形態1における死活監視サーバ100は、データの送受信が行われていないにもかかわらず、死活監視用データに対する応答がない場合には、データネットワーク10に障害が発生していたり、分散ファイルワーカ300に障害が発生していたりすると判断し、制御ネットワーク20を介して直ちに分散ファイルマスタ400に通知する。この結果、データネットワーク10に障害が発生したり、分散ファイルワーカ300に障害が発生したりした場合には、分散ファイルマスタ400において、制御ネットワーク20を介した切替処理が迅速に実行されることになる。
[死活監視サーバによる処理]
図4は、実施形態1に係る死活監視サーバによる処理の流れの一例を説明するためのフローチャートである。死活監視サーバ100では、監視部121が、分散ファイルワーカ300によるデータの送受信があるかを監視している。つまり、監視部121は、サーバ群に含まれるサーバ各々について、データの送受信が行われているか否かを監視している。
ここで、図4に示すように、死活監視サーバ100の送信部122は、データの送受信がない場合には(ステップS101否定)、死活監視用データをデータネットワーク10を介して送信する(ステップS102)。つまり、送信部122は、監視部121によりデータの送受信が行われていないとの監視結果が得られた場合に、データの送受信に用いられるデータネットワーク10を介して、データの送受信が行われていないとの監視結果が得られたサーバに死活監視用データを送信する。
そして、送信部122により送信された死活監視用データに対する応答がある場合には(ステップS103肯定)、通知部123は、分散ファイルマスタ400に通知しない(ステップS104)。一方、送信部122により送信された死活監視用データに対する応答がない場合に(ステップS103否定)、通知部123は、制御ネットワーク20を介して、分散ファイルマスタ400に応答がなかった分散ファイルワーカ300を通知する(ステップS105)。
なお、上記の処理手順は、上記の順番に限定されるものではなく、処理内容を矛盾させない範囲で適宜変更しても良い。例えば、ステップS103において、送信部122により送信された死活監視用データに対する応答がある場合に、応答があった旨を分散ファイルマスタ400に通知しても良い。
[実施形態1の効果]
上述したように、実施形態1によれば、死活監視サーバ100は、分散ファイルワーカ300各々について、データの送受信が行われているか否かを監視する。また、死活監視サーバ100は、データの送受信が行われていないとの監視結果が得られた場合に、データの送受信に用いられるデータネットワーク10を介して、データの送受信が行われていないとの監視結果が得られた分散ファイルワーカ300に対して、死活監視用データを送信する。そして、死活監視サーバ100は、死活監視用データに対する応答がない場合に、制御ネットワーク20を介して、分散ファイルマスタ400に、応答がなかった分散ファイルワーカ300を通知する。この結果、死活監視を確実かつ迅速に実行可能となる。
例えば、データの送受信に用いられるデータネットワークとは別のネットワークを介して通知する結果、データネットワークの混雑状況にかかわらず、迅速かつ確実に通知可能となる。また、例えば、データネットワークにおける通信量の増加を抑えることも可能となる。より詳細な一例をあげて説明すると、死活監視用データが1kbyte、分散ファイルワーカ300が1000台ある場合には、分散ファイルワーカ300各々に一度死活監視用データを送信するだけで、8Mbit(1kbyte×8×1000=8Mbit)必要なことになる。また、分散ファイルワーカ300の台数が増えれば増えるほど、死活監視用データの送信に要するデータ量は多くなる。実施形態1によれば、死活監視用データは何度も送信されない結果、死活監視に要するデータを抑えることができ、データネットワーク10に対する負荷を軽減することが可能となる。
また、例えば、多数のサーバにより処理が分散されて実行される大規模な分散ファイルシステム環境下においても、いずれのサーバが活きているのかを迅速かつ確実に把握でき、性能の良い分散ファイル制御を実現可能となり、分散ファイルシステムの管理を容易とすることが可能となる。
また、実施形態1によれば、死活監視サーバ100は、死活監視用データを1度送信し、1度送信された死活監視用データに対する応答がない場合に通知する。この結果、データの送受信がないにもかかわらず死活監視用データに応答がない場合に、直ぐに障害発生と検知するので、何度も死活監視用データを送信する手法と比較して、迅速に障害を検出可能となる。
また、例えば、データの送受信がない場合に死活監視用データを送信して死活監視を実行するので、死活監視用データが1度しか送信しなくても、死活監視を確実に実行可能である。また、死活監視用データが1度しか送信しなくても、死活監視を確実に行いつつ、データネットワークに対する影響を最小限とすることが可能である。
また、例えば、死活監視用データの再送を行わず、制御ネットワーク20を介して通知することで、死活監視に関連して送受信されるデータ量を少なくでき、迅速な死活監視も可能となる。より詳細な一例をあげて説明すると、死活監視に関連して送受信されるデータ量を最大で5分の1にすることができ、死活監視に要する時間を180分の1にすることが可能である。すなわち、今までは10秒,20秒,40秒,80秒,160秒と3分(180秒)の間に死活監視用データを繰り返し送信することで、管理していたが、本方式では1回のみで、それ以外の死活監視用データを送信しないことで実現が可能となる。
さて、これまで実施形態1について説明したが、上述した実施形態以外にも、その他の実施形態にて実施されても良い。そこで、以下では、その他の実施形態を示す。
[分散ファイルワーカの状態]
例えば、上述した実施形態では、データネットワーク10を介して送信された死活監視用データに応答がない場合に、直ちに分散ファイルマスタ400に通知する場合について説明したが、これに限定されるものではない。
例えば、送信部122は、データネットワーク10を介して送信した死活監視用データに対する応答がない場合に、応答がなかったサーバに対して制御ネットワーク20を介して死活監視用データを送信しても良い。また、通知部123は、制御ネットワーク20を介して送信された死活監視用データに対する応答がある場合には、データネットワーク10に障害がある旨を通知し、制御ネットワーク20を介して送信された死活監視用データに対する応答がない場合には、データネットワーク10及び制御ネットワーク20に障害がある旨、又は、サーバが使用不可な旨を通知しても良い。この結果、サーバの状況を正確に把握可能となる。
図5は、サーバの状況を把握する場合における死活監視サーバによる処理の流れの一例を説明するためのフローチャートである。なお、図5に示す一連の処理のうち、ステップS201〜S204は、図4におけるステップS101〜S104と同様であり、説明を省略する。
図5に示すように、死活監視サーバ100では、送信部122により送信された死活監視用データに対する応答がない場合に(ステップS203否定)、送信部122は、死活監視用データを制御ネットワーク20を介して送信する(ステップS205)。つまり、送信部122は、データネットワーク10を介して送信した死活監視用データに対する応答がない場合に、応答がなかった分散ファイルワーカ300に対して制御ネットワーク20を介して死活監視用データを送信する。
そして、通知部123は、制御ネットワーク20を介して送信された死活監視用データに対する応答がある場合には(ステップS206肯定)、データネットワーク10に障害ありと分散ファイルマスタ400に通知する(ステップS207)。一方、通知部123は、制御ネットワーク20を介して送信された死活監視用データに対する応答がない場合には(ステップS206否定)、データネットワーク10及び制御ネットワーク20に障害がある旨、又は、サーバが使用不可な旨を通知する(ステップS208)。
なお、上記の処理手順は、上記の順番に限定されるものではなく、処理内容を矛盾させない範囲で適宜変更しても良い。例えば、上記のステップS202をS204の後に実行しても良い。
[死活監視用データを送信するネットワーク]
また、例えば、上述した実施形態1では、死活監視用データをデータネットワーク10を介して送信する場合について説明した。ただし、限定されるものではく、制御ネットワーク20を介して送信しても良い。図6は、死活監視用データを制御ネットワークを介して送信する場合について説明するための図である。
図6の(1)に示すように、送信部122は、データネットワーク10に障害が発生している場合に、図6の(2)に示すように、制御ネットワーク20を介して死活監視用データを送信する。つまり、データネットワーク10を迂回して制御ネットワーク20を介して送信する。その後、通知部123は、送信部122により制御ネットワーク20を介して送信された死活監視用データに対する応答がない場合に、制御ネットワーク20を介して分散ファイルマスタ400に通知する。この結果、データネットワーク10に障害が発生している場合でも、死活監視を確実に実行可能となる。
[システム構成]
また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上述文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報(図1〜図6)については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。例えば、死活監視サーバ100の記憶部110を別装置とし、ネットワーク経由で接続されて協働するようにしても良い。
[プログラム]
図7は、一連の処理を実行するためのプログラムによる情報処理がコンピュータを用いて具体的に実現されることを示す図である。図7に例示するように、コンピュータ3000は、例えば、メモリ3010と、CPU(Central Processing Unit)3020と、ネットワークインタフェース3070と、ハードディスクドライブ3080とを有する。コンピュータ3000の各部はバス3100によって接続される。
メモリ3010は、図7に例示するように、ROM3011及びRAM3012を含む。ROM3011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。
ここで、図7に例示するように、ハードディスクドライブ3080は、例えば、OS3081、アプリケーションプログラム3082、プログラムモジュール3083、プログラムデータ3084を記憶する。すなわち、開示の技術に係る更新プログラムは、コンピュータによって実行される指令が記述されたプログラムモジュール3083として、例えばハードディスクドライブ3080に記憶される。具体的には、上記実施形態で説明した制御部120の各部と同様の情報処理を実行する手順各々が記述されたプログラムモジュールが、ハードディスクドライブ3080に記憶される。
また、上死活監視プログラムによる情報処理に用いられるデータは、プログラムデータ3084として、例えばハードディスクドライブ3080に記憶される。そして、CPU3020が、ハードディスクドライブ3080に記憶されたプログラムモジュール3083やプログラムデータ3084を必要に応じてRAM3012に読み出し、各種の手順を実行する。
なお、死活監視プログラムに係るプログラムモジュール3083やプログラムデータ3084は、ハードディスクドライブ3080に記憶される場合に限られない。例えば、プログラムモジュール3083やプログラムデータ3084は、着脱可能な記憶媒体に記憶されても良い。この場合、CPU3020は、ディスクドライブなどの着脱可能な記憶媒体を介してデータを読み出す。また、同様に、死活監視プログラムに係るプログラムモジュール3083やプログラムデータ3084は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されても良い。この場合、CPU3020は、ネットワークインタフェースを介して他のコンピュータにアクセスすることで各種データを読み出す。
[その他]
なお、本実施形態で説明した死活監視プログラムは、インターネットなどのネットワークを介して配布することができる。また、死活監視プログラムは、ハードディスク、フレキシブルディスク(FD)、CD−ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することもできる。
10 データネットワーク
20 制御ネットワーク
100 死活監視サーバ
101 入出力部
110 記憶部
120 制御部
121 監視部
122 送信部
123 通知部
200 死活監視サブサーバ
300 分散ファイルワーカ
400 分散ファイルマスタ

Claims (4)

  1. サーバ群に含まれるサーバ各々について、データの送受信が行われているか否かを監視する監視部と、
    前記監視部により前記データの送受信が行われていないとの監視結果が得られた場合に、データの送受信に用いられる第1のネットワークを介して、該監視結果が得られたサーバに死活監視用データを送信する送信部と、
    前記送信部により送信された前記死活監視用データに対する応答がない場合に、前記第1のネットワークとは別の第2のネットワークを介して、前記サーバ群に含まれる前記サーバ各々に任意の処理を分散させて実行させる分散装置に、応答がなかったサーバを通知する通知部とを備え、
    前記送信部は、前記第1のネットワークを介して送信した前記死活監視用データに対する応答がない場合に、応答がなかったサーバに対して前記第2のネットワークを介して前記死活監視用データを送信し、
    前記通知部は、前記第2のネットワークを介して送信された前記死活監視用データに対する応答がある場合には、第1のネットワークに障害がある旨を通知し、前記第2のネットワークを介して送信された前記死活監視用データに対する応答がない場合には、前記第1のネットワーク及び前記第2のネットワークに障害がある旨を通知すると共に、
    前記送信部は、前記第1のネットワークに障害が発生している場合に、前記第1のネットワークを迂回して、前記第2のネットワークを介して前記死活監視用データを送信し、
    前記通知部は、前記送信部により前記第2のネットワークを介して送信された前記死活監視用データに対する応答がない場合に、該第2のネットワークを介して、前記第1のネットワークの障害を前記分散装置に通知する
    とを特徴とする死活監視サーバ。
  2. 前記送信部は、前記死活監視用データを1度送信し、
    前記通知部は、前記送信部により1度送信された前記死活監視用データに対する応答がない場合に通知することを特徴とする請求項1に記載の死活監視サーバ。
  3. サーバ群に含まれるサーバ各々について、データの送受信が行われているか否かを監視する監視ステップと、
    前記監視ステップにより前記データの送受信が行われていないとの監視結果が得られた場合に、データの送受信に用いられる第1のネットワークを介して、該監視結果が得られたサーバに死活監視用データを送信する送信ステップと、
    前記送信ステップにより送信された前記死活監視用データに対する応答がない場合に、前記第1のネットワークとは別の第2のネットワークを介して、前記サーバ群に含まれる前記サーバ各々に任意の処理を分散させて実行させる分散装置に、応答がなかったサーバを通知する通知ステップとをコンピュータに実行させ、
    前記送信ステップでは、前記第1のネットワークを介して送信した前記死活監視用データに対する応答がない場合に、応答がなかったサーバに対して前記第2のネットワークを介して前記死活監視用データを送信し、
    前記通知ステップでは、前記第2のネットワークを介して送信された前記死活監視用データに対する応答がある場合には、第1のネットワークに障害がある旨を通知し、前記第2のネットワークを介して送信された前記死活監視用データに対する応答がない場合には、前記第1のネットワーク及び前記第2のネットワークに障害がある旨を通知すると共に、
    前記送信ステップでは、前記第1のネットワークに障害が発生している場合に、前記第1のネットワークを迂回して、前記第2のネットワークを介して前記死活監視用データを送信し、
    前記通知ステップでは、前記送信ステップにより前記第2のネットワークを介して送信された前記死活監視用データに対する応答がない場合に、該第2のネットワークを介して、前記第1のネットワークの障害を前記分散装置に通知する処理
    をコンピュータに実行させるための死活監視プログラム。
  4. サーバ群に含まれるサーバ各々について、データの送受信が行われているか否かを監視する監視工程と、
    前記監視工程により前記データの送受信が行われていないとの監視結果が得られた場合に、データの送受信に用いられる第1のネットワークを介して、該監視結果が得られたサーバに死活監視用データを送信する送信工程と、
    前記送信工程により送信された前記死活監視用データに対する応答がない場合に、前記第1のネットワークとは別の第2のネットワークを介して、前記サーバ群に含まれる前記サーバ各々に任意の処理を分散させて実行させる分散装置に、応答がなかったサーバを通知する通知工程とを含み、
    前記送信工程は、前記第1のネットワークを介して送信した前記死活監視用データに対する応答がない場合に、応答がなかったサーバに対して前記第2のネットワークを介して前記死活監視用データを送信し、
    前記通知工程は、前記第2のネットワークを介して送信された前記死活監視用データに対する応答がある場合には、第1のネットワークに障害がある旨を通知し、前記第2のネットワークを介して送信された前記死活監視用データに対する応答がない場合には、前記第1のネットワーク及び前記第2のネットワークに障害がある旨を通知すると共に、
    前記送信工程は、前記第1のネットワークに障害が発生している場合に、前記第1のネットワークを迂回して、前記第2のネットワークを介して前記死活監視用データを送信し、
    前記通知工程は、前記送信工程により前記第2のネットワークを介して送信された前記死活監視用データに対する応答がない場合に、該第2のネットワークを介して、前記第1のネットワークの障害を前記分散装置に通知する処理
    を含んだことを特徴とする死活監視方法。
JP2012048465A 2012-03-05 2012-03-05 死活監視サーバ、死活監視プログラム及び死活監視方法 Active JP5727404B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012048465A JP5727404B2 (ja) 2012-03-05 2012-03-05 死活監視サーバ、死活監視プログラム及び死活監視方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012048465A JP5727404B2 (ja) 2012-03-05 2012-03-05 死活監視サーバ、死活監視プログラム及び死活監視方法

Publications (2)

Publication Number Publication Date
JP2013186481A JP2013186481A (ja) 2013-09-19
JP5727404B2 true JP5727404B2 (ja) 2015-06-03

Family

ID=49387904

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012048465A Active JP5727404B2 (ja) 2012-03-05 2012-03-05 死活監視サーバ、死活監視プログラム及び死活監視方法

Country Status (1)

Country Link
JP (1) JP5727404B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6740985B2 (ja) 2017-08-30 2020-08-19 京セラドキュメントソリューションズ株式会社 画像形成システム、サーバー、及び画像形成方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05158834A (ja) * 1991-12-05 1993-06-25 Nec Corp Lan障害復旧方式
JP2002149439A (ja) * 2000-11-15 2002-05-24 Nec Soft Ltd 分散処理システムにおけるサーバ切替え方法及びサーバ装置
JP2002169732A (ja) * 2000-12-04 2002-06-14 Matsushita Electric Ind Co Ltd ネットワーク監視システム
JP4039195B2 (ja) * 2001-12-27 2008-01-30 富士ゼロックス株式会社 ネットワークシステム
JP2007316837A (ja) * 2006-05-24 2007-12-06 Fujitsu Ltd サーバシステム
JP2010003054A (ja) * 2008-06-19 2010-01-07 Yokogawa Electric Corp ネットワーク管理システム、データ取得装置及びノード稼動状態把握方法

Also Published As

Publication number Publication date
JP2013186481A (ja) 2013-09-19

Similar Documents

Publication Publication Date Title
US10680874B2 (en) Network service fault handling method, service management system, and system management module
WO2020093500A1 (zh) 智能调度方法、终端设备、边缘节点集群与智能调度系统
JP6563936B2 (ja) クラウドに基づく仮想オーケストレーターのための方法、システム、およびコンピュータ読取可能な媒体
US9602406B2 (en) Data transfer control device and data transfer control method
US20180077197A1 (en) Diffusing denial-of-service attacks by using virtual machines
EP3016316A1 (en) Network control method and apparatus
JP2015518336A5 (ja)
JP2013226037A5 (ja)
JP2014515851A5 (ja)
JP2014515851A (ja) ウィットネスサービスの提供
US20150256622A1 (en) Connection management device, communication system, connection management method, and computer program product
US20170085629A1 (en) Multi-homing load balancing system
WO2015149625A1 (zh) 一种多实例并行的网元接入方法和系统
JPWO2012133300A1 (ja) 仮想デスクトップシステム、ネットワーク処理装置、管理方法、及び管理プログラム
US9491067B2 (en) Timeout for identifying network device presence
JP2013187656A (ja) 分散型クラウドインフラのための網制御システム及び経路管理サーバ及び網制御方法及びプログラム
WO2017066940A1 (zh) 一种网络虚拟化环境下的监控方法、监控装置和网络节点
JP5727404B2 (ja) 死活監視サーバ、死活監視プログラム及び死活監視方法
CN109479214A (zh) 一种负载均衡的方法及相关装置
JP6790667B2 (ja) クラスタシステム、サーバ、動作方法、及びプログラム
JP2016052044A (ja) 仮想マシンのリソース管理システム、方法及びプログラム
JP2015082131A (ja) 監視システム、監視方法、監視プログラム及び監視装置
CN110572290B (zh) 主设备确定方法、装置、电子设备、存储介质及网络系统
JP6350602B2 (ja) 通信ネットワーク判定装置、通信ネットワーク判定方法、及び、通信ネットワーク判定プログラム
WO2022228121A1 (zh) 提供服务的方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140924

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141120

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150331

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150402

R150 Certificate of patent or registration of utility model

Ref document number: 5727404

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150