JP5664662B2 - 管理システム、管理装置、管理方法および管理プログラム - Google Patents

管理システム、管理装置、管理方法および管理プログラム Download PDF

Info

Publication number
JP5664662B2
JP5664662B2 JP2012545589A JP2012545589A JP5664662B2 JP 5664662 B2 JP5664662 B2 JP 5664662B2 JP 2012545589 A JP2012545589 A JP 2012545589A JP 2012545589 A JP2012545589 A JP 2012545589A JP 5664662 B2 JP5664662 B2 JP 5664662B2
Authority
JP
Japan
Prior art keywords
node
monitoring
management
monitoring target
application source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012545589A
Other languages
English (en)
Other versions
JPWO2012070155A1 (ja
Inventor
直広 田村
直広 田村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2012070155A1 publication Critical patent/JPWO2012070155A1/ja
Application granted granted Critical
Publication of JP5664662B2 publication Critical patent/JP5664662B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/44Program or device authentication
    • G06F21/445Program or device authentication by mutual authentication, e.g. between devices or programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Computer And Data Communications (AREA)

Description

本発明は、管理システム、管理装置、管理方法および管理プログラムに関する。
従来、大規模なネットワークシステムを管理するには、運用管理用の装置である運用管理マネージャを階層化する技術が用いられてきた。このような大規模システム環境の管理の一例としては、大規模データセンタ等の分散コンピュータシステムの運用管理がある。また、ネットワーク上のノードの生死を監視する技術が各種知られている。
特開平11−85649号公報 特開2009−77216号公報
運用管理マネージャを階層化して大規模データセンタ等のネットワークを運用管理する場合には、例えばポーリングおよびSNMP(Simple Network Management Protocol) Trapによる生死イベントは、各階層のマネージャに順次伝送される。このため、生死イベントの検出にタイムラグが生じるという問題点があった。また、マネージャから管理対象への定期的なポーリングのために、マネージャのCPU(Central Processing Unit)使用率とネットワークトラフィックが増大していた。
開示の技術は、上記に鑑みてなされたものであって、管理対象の状態変化を迅速に把握する管理システム、管理装置、管理方法および管理プログラムを提供することを目的とする。
本願の開示する管理システム、管理装置、管理方法および管理プログラムは、申請元ノードが監視対象のノードに対して生死情報の購読を申請すると、監視対象ノードは申請元ノードと相互接続するとともに、自ノードをルーティングテーブルに有するノードに自ノードの監視および監視結果の申請元ノードへの通知を依頼する。監視対象ノードからの依頼を受けた監視ノードは監視対象ノードを監視し、監視対象ノードからの応答が停止した場合に申請元ノードに通知する。申請元ノードは、監視対象ノードとの通信が途絶え、且つ監視ノードから通知を受けた場合に監視対象ノードが停止したと判定する。
本願の開示する管理システム、管理装置、管理方法および管理プログラムによれば、管理対象の状態変化を迅速に把握することができる。
図1は、本実施例に係る管理システムの説明図である。 図2は、本実施例に係るネットワークの説明図である。 図3は、本実施例にかかる管理装置の構成図である。 図4は、管理プログラムによる実施についての説明図である。 図5は、階層化した管理の説明図である。 図6は、サーバのハードウェアと管理プログラムの関係についての説明図である。 図7は、オーバーレイネットワークの説明図である。 図8は、ハッシュテーブルの定義の具体例についての説明図である。 図9は、図3に示したセルフノードテーブルt2の具体例である。 図10は、図3に示したドメインテーブルt3の具体例である。 図11は、図3に示したノード管理テーブルt4の具体例である。 図12は、図3に示したルーティングテーブルt5の具体例である。 図13は、申請元ノードの処理動作を説明するフローチャートである。 図14は、監視対象ノードの処理動作を説明するフローチャートである。 図15は、監視ノードの処理動作を説明するフローチャートである。
以下に、本発明にかかる管理システム、管理装置、管理方法および管理プログラムの実施例を図面に基づいて詳細に説明する。なお、本実施例は開示の技術を限定するものではない。
図1は、本実施例に係る管理システムの説明図である。図1に示したノードN1は、監視対象のノードN2に対して生死情報の購読を申請する購読申請部m31を有する申請元ノードであり、購読申請部m31に加えて判定部m34を有する。
監視対象ノードであるノードN2は、ノードN1から購読の申請を受けてノードN1と相互接続するとともに、自ノードをルーティングテーブルに有するノードN3に自ノードの監視および監視結果の申請元ノードN1への通知を依頼する監視依頼部m32を有する。
ノードN3は、監視対象ノードN2からの依頼を受けて監視対象ノードN2を監視し、監視対象ノードN2からの応答が停止した場合に申請元ノードN1に通知する監視部m33を有する監視ノードである。
申請元ノードN1の判定部m34は、監視対象ノードN2との通信が途絶え、且つ監視ノードN3から通知を受けた場合に監視対象ノードN2が停止したと判定する。
また、判定部m34は、監視対象ノードN2との通信が途絶えた場合であって、監視ノードN3から通知がない場合には監視対象ノードN2との通信回線に問題が発生したと判定する。
このように、申請元ノードN1は、監視対象ノードN2と相互接続するとともに、監視対象ノードN2を監視ノードN3によって監視させ、ノードN2からの直接の応答と監視ノードN3からの通知とを組み合わせて判定する。
このため、生死イベントは、階層化された管理マネージャを経由するのではなく、直接管理対象からマネージャに送付されるので、タイムラグを抑え、管理対象の状態変化を迅速に把握できる。マネージャは、他の管理対象の提供する生死監視サービスを購読することで、管理対象から生死イベントを入手できる。また、マネージャは、生死監視サービスが必要でなくなれば、いつでも購読を停止できる。以上のような管理システムにより、マネージャから管理対象へのポーリングの必要はなくなり、生死イベントをメッセージとして受け取れるので、マネージャのCPU使用率とネットワークトラフィックを抑えることができる。また、監視対象ノードN2のダウンと、ネットワークのダウンとを区別することができる。
図1では、申請元ノード、監視対象ノード、監視ノードを区別して説明したが、各ノードは、申請元ノード、監視対象ノード、監視ノードのいずれとしても動作することが好適である。
図2は、本実施例に係るネットワークの説明図であり、図3は、本実施例にかかる管理装置の構成図である。図1に示したように、管理対象装置n1〜4は、ネットワークを介して接続されている。このネットワークが監視対象のネットワークとなる。
管理対象装置n1には、管理装置m1が接続され、管理対象装置n2には、管理装置m2が接続され、管理対象装置n3には、管理装置m3が接続されている。管理装置m1〜4は、管理対象装置n1〜4のネットワークインタフェースを利用して、管理対象装置n1〜4が属するネットワークに対してオーバーレイネットワークを構築する。管理装置m1〜4は、このオーバーレイネットワークのノードとして機能し、互いに通信可能である。
管理装置m1〜4は、同一の構成を有するので、以降の説明では管理装置m1を例に説明を行なう。管理装置m1は、生死監視部m30、オーバーレイネットワーク構築部m11を有する。
より詳細には、図2に示したように、管理装置m1は、オーバーレイネットワーク構築部m11、管理対象検索部m12、管理情報作成部m13および生死監視部m30を有する。また、管理装置m1は、SAN(Storage Area Network)と接続し、SANに後述する各種情報を保持させる。
オーバーレイネットワーク構築部m11は、管理対象のネットワークに対してオーバーレイネットワークを構築する処理部であり、通信処理部m21、ハッシュ処理部m22、情報取得部m23、通知部m24を有する。
通信処理部m21は、管理装置が直接接続された管理対象装置がノードとして参加するネットワーク上の他のノードと通信する処理を行なう。ハッシュ処理部m22は、通信処理部m21が他のノードから取得した情報や管理対象装置の情報からハッシュ値を求め、得られたハッシュ値をオーバーレイネットワークのキーとする。情報取得部m22は、通信処理部m21を介してオーバーレイネットワークの他のノードから情報を取得する処理部である。通知部m24は、通信処理部m21を介してオーバーレイネットワークの他のノードに対して情報を通知する処理部である。
管理対象検索部m12は、オーバーレイネットワーク構築部m11が構築したオーバーレイネットワークから、管理装置m1が直接接続された管理対象装置である自ノードと同一の管理範囲に属するノードを検索する処理を行なう。
管理情報作成部m13は、管理対象検索部m12による検索によって得られたノードを管理対象ノードとする管理情報を作成する。
生死監視部m30は、購読申請部m31、監視依頼部m32、監視部m33、判定部m34を有する。購読申請部m31は、監視対象のノードに対して生死情報の購読を申請する処理部である。
監視依頼部m32は、他のノードから購読の申請を受けた場合に申請元ノードと相互接続するとともに、自ノードをルーティングテーブルに有するノードに自ノードの監視および監視結果の前記申請元ノードへの通知を依頼する処理部である。
監視部m33は、他のノードから監視および監視結果の申請元ノードへの通知の依頼を受けた場合に、当該ノードを監視し、当該ノードからの応答が停止した場合に前記申請元ノードに通知する処理部である。
判定部m34は、記監視対象ノードとの通信が途絶え、且つ前記監視対象ノードを監視する監視ノードから通知を受けた場合に前記監視対象ノードが停止したと判定する処理部である。
すなわち、購読申請部m31と判定部m34は、管理装置m1を申請元ノードとして動作させる処理部である。監視依頼部m32は、管理装置m1を監視対象ノードとして動作させる処理部である。そして、監視部m33、は管理装置m1を監視ノードとして動作させる処理部である。
管理装置m1は、管理対象装置であるコンピュータ上で動作する管理プログラムとして実施することが好適である。図4に示した例では、ドメインAとドメインBにそれぞれ3つのサーバが含まれており、ドメインAとドメインBとの間は通信可能である。
ドメインAのサーバのうち1つでは、他のコンピュータシステムの動作環境を仮想的に実現するVM(Virtual Machines)ホストプログラムが動作している。そして、VMホストプログラム上に4つのVMゲストプログラムが動作している。このサーバでは、VMホストプログラム上で運用管理プログラムがさらに動作している。VMホストプログラム上で動作する運用管理プログラムは、サーバを管理装置として機能させる。この運用管理プログラムの管理対象装置は、サーバ自体とサーバ上で動作するVMホストプログラム、VMゲストプログラムである。
また、ドメインAのサーバのうち1つでは、OS(Operating System)が動作し、OS上で運用管理プログラムが動作している。そして、このサーバにはスイッチとルータが接続されている。このサーバのOS上で動作する運用管理プログラムは、サーバを管理装置として機能させる。この運用管理プログラムの管理対象装置は、サーバ自体とサーバに接続されたスイッチおよびルータである。
また、ドメインAのサーバのうち1つでは、OS(Operating System)が動作し、OS上で運用管理プログラムが動作している。そして、このサーバにはストレージが接続されている。このサーバのOS上で動作する運用管理プログラムは、サーバを管理装置として機能させる。この運用管理プログラムの管理対象装置は、サーバ自体とサーバに接続されたストレージである。
ドメインAと同様にドメインBに含まれる3つのサーバについても、サーバ上のVMホストプログラムやOS上でそれぞれ運用管理プログラムが動作し、各サーバを管理装置として機能させる。このため、各サーバ、各サーバ上で動作する各種プログラム、各サーバに接続されたハードウェアは、対応するサーバ上で動作する運用管理プログラムによって管理される。
各サーバ上の運用管理プログラムは、互いに通信し、オーバーレイネットワークを構築する。加えて、運用管理プログラムは、自らが属するドメイン内の他のノードについて情報を収集し、管理情報を作成することができる。なお、運用管理プログラムは、ドメインAとドメインBの双方からアクセス可能な端末から取得することができる。
図4に示したように、運用管理プログラムは、管理を階層化することなく、自動的に自ドメインに属するノードの情報を取得することができる。図5は、図4に対する比較例であり、階層化した管理の説明図である。
図5に示したシステムでは、ドメインAを管理するサブマネージャとドメインBを管理するサブマネージャが設けられており、2つのサブマネージャを統合マネージャが管理している。
サブマネージャは、自らの担当するドメインに属する装置に対してSNMPなどを用いて状態監視ポーリングを行う。また、サブマネージャは、自らの担当するドメインに属する装置から、SNMPトラップなどのイベントを受信し情報を収集する。
このように、管理を階層化した場合、階層ごとに異なる装置もしくはプログラムを用意することとなる。また、管理対象からサブマネージャ、サブマネージャから統合マネージャとイベントが受け渡されていくため、各マネージャのCPU負荷とネットワークの負荷が大きくなる。
これに対し、図4に示した管理プログラムは同一のプログラムを各サーバに配布したものであり、統合マネージャ用、サブマネージャ用の区別がない。また、管理プログラムは、統合マネージャ用のコンピュータやサブマネージャ用のコンピュータを区別して設置することなく、すべての管理対象上で動作する。このため、監視対象と直接イベントの送受信を行なうことができ、管理対象へのポーリングを必要としないので、CPU負荷とネットワーク負荷を低減できる。
図6は、サーバのハードウェアと管理プログラムの関係についての説明図である。管理プログラムpg10は、サーバ内部のHDD(Hard disk drive)p13に格納される。管理プログラムpg10は、オーバーレイネットワーク構築部としての動作を記述されたオーバーネットワーク構築プロセスpg11、管理対象検索部としての動作を記述された管理対象検索プロセスpg12、管理情報作成部としての動作を記述された管理情報作成プロセスpg13および生死監視部としての動作を記述された生死監視プロセスpg14を含む。
サーバが起動すると、管理プログラムpg10はHDDp13から読み出され、メモリp12に展開される。そして、CPU(Central Processing Unit)p11がメモリに展開されたプログラムを順次実行することで、サーバを管理装置として機能させる。この時、管理装置におけるオーバーレイネットワークのインタフェースとしては、サーバの通信インタフェースp14を使用する。
図7は、オーバーレイネットワークの説明図である。管理装置もしくは管理プログラムは、起動するとオーバーレイネットワークを形成する。オーバーレイネットワーク構築部m11が、例えば、DHT(分散ハッシュテーブル)アルゴリズムのChordを用いた場合、図7に示したような環状のオーバーレイネットワークが形成される。
DHTでは、キー(Key)とバリュー(Value)のペアが、オーバーレイネットワークに参加する各ノードで分散して保持される。Chordの場合は、SHA(Secure Hash Algorithm)-1でハッシュした値をキーに用い、各キーは自分のキーより大きい値のキーを持ち、管理プログラムが動作している最初のノードに格納される。
図7の例では、vmhost2のキーが1、domain1のキーが5、server1のキーが15、server2のキーが20、group1のキーが32、user1のキーが40、vmguest11のキーが55である。同様に、server3のキーが66、vmguest12のキーが70、vmhost3のキーが75、vmguest13のキーが85、vmguest14のキーが90である。そして、vmhost1のキーが100、switch1のキーが110、storage1のキーが115、vmguest21のキーが120である。
ここで、vmhost1〜3、server1〜3は、domain1に属し、管理プログラムが実行されたノードであり、図7において黒い円形記号で示している。また、domain1に属するvmguet、storage、swichなどについては、図7において二重円形記号で示している。加えて、図7では、domain2に属するノード(キーが4,33,36のノード)については、網掛けの円形記号で示している。
既に述べたように、各キーとvalueのペアは自分のキーより大きい値のキーを持つ最初のノードに格納されるので、Key 40, 55 は、Key = 66 のノードに格納される。
また、Chordの場合、各ノードは、直前のノードと、直後のノード及び(自ノードkey+2^(x-1)) mod (2^k) (xは1からkの自然数、kはkeyのビット数) のノードの情報をルーティング情報として保持している。具体的には、1,2,4,8,16,32,64,128…というように離散したノードの情報を持つ。
これによって、Chord DHTでは、各ノードがKeyに対するValueを、Keyより大きい最初のKeyを持つノードに保持させ、更にKeyに対応するValueを、Keyより大きい最初のKeyを持つノードから取得することが可能になる。
さらに、図7に示した例では、Key100のvmhost1が新規マネージャであり、Key75のvmhost3とKey66のsever3に対して購読申請(i)を行なっている。Key66のsever3は、Key20のsever2に自身の監視依頼(ii)を行なう。その後、Key66のsever3でダウンイベント(iii)が発生すると、Key100のvmhost1がダウンイベントを直接検知するとともに、Key20のsever2からKey100のvmhost1に対して通知(iv)が行なわれる。
図8は、DHT(分散ハッシュテーブル)の定義の具体例についての説明図である。このDHTは、図3のSANにおけるハッシュテーブルt1に相当する。
図8では、ハッシュするキーとしてノード名を用い、キーに対応するValueを示している。
サーバについては、サーバ名をSHA-1でハッシュしてKeyとする。そして、サーバであることを示すタグ「server」、サーバ名、サーバ名から求めたkey、サーバが有するIPアドレスの一覧(IPリスト)、サーバが有するWWNの一覧(WWNリスト)、管理ノードとして機能しているかを示すmanager-flag、サーバの属するドメインとドメインのキーのリスト、をValueとして有する。
VMホストについては、VMホスト名をSHA-1でハッシュしてKeyとする。そして、VMホストであることを示すタグ「vmhost」、VMホスト名、VMホスト名から求めたkey、VMホストのIPリスト、VMホストの属するドメインとドメインのキーのリスト、VMホスト上で動作するVMゲストのリスト、をValueとして有する。
VMゲストについては、VMゲスト名をSHA-1でハッシュしてKeyとする。そして、VMホストであることを示すタグ「vmguest」、VMゲスト名、VMゲスト名から求めたkey、VMゲストのIPリスト、VMゲストが動作しているVMホストの名前とkey、をValueとして有する。
スイッチについては、スイッチ名をSHA-1でハッシュしてKeyとする。そして、スイッチであることを示すタグ「switch」、スイッチ名、スイッチ名から求めたkey、スイッチのIPリスト、スイッチの属するドメインとドメインのキーのリスト、をValueとして有する。
ストレージについては、ストレージ名をSHA-1でハッシュしてKeyとする。そして、ストレージであることを示すタグ「storage」、ストレージ名、ストレージ名から求めたkey、ストレージのIPリスト、ストレージのWWNリスト、ストレージの属するドメインとドメインのキーのリスト、をValueとして有する。
ユーザについては、ユーザ名をSHA-1でハッシュしてKeyとする。そして、ユーザであることを示すタグ「user」、ユーザ名、ユーザ名から求めたkey、ユーザの属するグループ名とグループのkeyのリスト、をValueとして有する。
グループについては、グループ名をSHA-1でハッシュしてKeyとする。そして、グループであることを示すタグ「group」、グループ名、グループ名から求めたkey、グループに属するユーザ名とkeyのリスト、をValueとして有する。
ドメインについては、ドメイン名をSHA-1でハッシュしてKeyとする。そして、ドメインであることを示すタグ「domain」、ドメイン名、ドメイン名から求めたkey、ドメインの管理装置のキーのリスト、をValueとして有する。
図9は、図3に示したセルフノードテーブルt2の具体例である。図9は、vmguest11〜14とともに、vmhost1上で動作する管理プログラムが作成したセルフノードテーブルを示している。セルフノードテーブルには、種別、ノード名、key、IP、WWNの項目を有する。
図9の例では、種別がvmhost、ノード名がvmhost1.domain1.company.com、keyが100、IPが10.20.30.40、WWNが10:00:00:60:69:00:23:74のエントリが登録されている。また、種別がvmguest、ノード名がvmguest11.domain1.company.com、keyが55、IPが10.20.30.41、WWNがnullのエントリが登録されている。
同様に、種別がvmguest、ノード名がvmguest12.domain1.company.com、keyが70、IPが10.20.30.42、WWNがnullのエントリが登録されている。そして、種別がvmguest、ノード名がvmguest13.domain1.company.com、keyが85、IPが10.20.30.43、WWNがnullのエントリと、種別がvmguest、ノード名がvmguest14.domain1.company.com、keyが90、IPが10.20.30.44、WWNがnullのエントリが登録されている。
図10は、図3に示したドメインテーブルt3の具体例である。各管理装置や管理プログラムは、自ノードが属するドメインのドメイン名をSHA−1でハッシュしてkeyを求め、ドメインテーブルt3に登録する。また、ドメインテーブルt3には、ドメイン名とドメインのkeyの他、ドメインの管理を行なうマネージャのkeyを登録する。
図11は、図3に示したノード管理テーブルt4の具体例である。ノード管理テーブルt4は、ドメイン内のノードを管理するマネージャとして動作する管理装置や管理プログラムが作成する管理情報である。
図11のノード管理テーブルt4は、図7に示したオーバーレイネットワークのうちdomain1を管理するマネージャ(Key100,vmhost1)が作成し、保持するテーブルを示している。図11では、Key100,vmhost1のノード管理テーブルt4を示したので、生死監視通知先は全てブランクとなっている。Key20,server2のノード管理テーブルt4であれば、Key66,server3を監視し、監視結果をKey100,vmhost1に通知するので、server3のエントリの生死監視通知先が100となる。
図11に示したノード管理テーブルt4は、図7の新規マネージャ(vmhost1, key100)のノード管理テーブルの例であり、種別、ノード名、key、Domain key、Manager Flag、Managed Flag、生死監視フラグ、生死監視通知先の項目(カラム)を有する。Manager Flagは、そのノードがマネージャである場合にtrue、マネージャではない場合にfalseの値をとる。Managed Flagは、そのノードが管理されている場合にtrue、管理されていない場合にfalseの値をとる。生死監視フラグは、自ノードが申請元ノードとして動作する際の監視対象のノードについてtrue、監視対象ではないノードについてfalse、監視対象とならないものについてNULLの値をとる。生死監視通知先の項目は、自ノードが監視ノードとして動作する際に、そのノードの監視結果を通知すべき通知先のkeyを示す。
具体的には、図11に示したノード管理テーブルt4は、種別がvmhost、ノード名がvmhost2.domain1.company.com、Keyが1、Domain Keyが5、Manager Flagがfalse、Managed Flagがtrue、生死監視フラグがfalse、生死監視通知先がブランクのエントリを有する。
また、ノード管理テーブルt4は、種別がserver、ノード名がserver1.domain1.company.com、Keyが15、Domain Keyが5、Manager Flagがtrue、Managed Flagがtrue、生死監視フラグがfalse、生死監視通知先がブランクのエントリを有する。
また、ノード管理テーブルt4は、種別がserver、ノード名がserver2.domain1.company.com、Keyが20、Domain Keyが5、Manager Flagがfalse、Managed Flagがtrue、生死監視フラグがfalse、生死監視通知先がブランクのエントリを有する。
また、ノード管理テーブルt4は、種別がvmguest、ノード名がvmguest11.domain1.company.com、Keyが55、Domain Keyが5、Manager Flagがfalse、Managed Flagがtrue、生死監視フラグがNULL、生死監視通知先がブランク、のエントリを有する。
また、ノード管理テーブルt4は、種別がserver、ノード名がserver3.domain1.company.com、Keyが66、Domain Keyが5、Manager Flagがfalse、Managed Flagがtrue、生死監視フラグがtrue、生死監視通知先がブランク、のエントリを有する。
また、ノード管理テーブルt4は、種別がvmguest、ノード名がvmguest12.domain1.company.com、Keyが70、Domain Keyが5、Manager Flagがfalse、Managed Flagがtrue、生死監視フラグがNULL、生死監視通知先がブランク、のエントリを有する。
また、ノード管理テーブルt4は、種別がvmhost、ノード名がvmhost3.domain1.company.com、Keyが75、Domain Keyが5、Manager Flagがfalse、Managed Flagがtrue、生死監視フラグがtrue、生死監視通知先がブランク、のエントリを有する。
また、ノード管理テーブルt4は、種別がvmguest、ノード名がvmguest13.domain1.company.com、Keyが85、Domain Keyが5、Manager Flagがfalse、Managed Flagがtrue、生死監視フラグがNULL、生死監視通知先がブランク、のエントリを有する。
また、ノード管理テーブルt4は、種別がvmguest、ノード名がvmguest14.domain1.company.com、Keyが90、Domain Keyが5、Manager Flagがfalse、Managed Flagがtrue、生死監視フラグがNULL、生死監視通知先がブランク、のエントリを有する。
また、ノード管理テーブルt4は、種別がvmhost、ノード名がvmhost1.domain1.company.com、Keyが100、Domain Keyが5、Manager Flagがtrue、Managed Flagがtrue、生死監視フラグがNULL、生死監視通知先がブランク、のエントリを有する。
また、ノード管理テーブルt4は、種別がswitch、ノード名がswitch1.domain1.company.com、Keyが110、Domain Keyが5、Manager Flagがfalse、Managed Flagがtrue、生死監視フラグがNULL、生死監視通知先がブランク、のエントリを有する。
また、ノード管理テーブルt4は、種別がstorage、ノード名がstorage1.domain1.company.com、Keyが115、Domain Keyが5、Manager Flagがfalse、Managed Flagがtrue、生死監視フラグがNULL、生死監視通知先がブランク、のエントリを有する。
また、ノード管理テーブルt4は、種別がvmguest、ノード名がvmguest21.domain1.company.com、Keyが120、Domain Keyが5、Manager Flagがfalse、Managed Flagがtrue、生死監視フラグがNULL、生死監視通知先がブランク、のエントリを有する。
なお、ノード管理テーブルt4は、ドメイン1に属するノードを管理するテーブルであるので、ドメイン2に属するノードについては登録されていない。
図12は、図3に示したルーティングテーブルt5の具体例である。ルーティングテーブルt5は、各管理装置や管理プログラムがオーバーレイネットワークにおけるルーティングに用いるテーブルである。
図12に示した例では、ルーティングテーブルt5は、最終的な宛先である目的地のキーを示すdistance、目的地のノード名、目的地と通信する場合のルーティング先を示す宛先のキーであるDestination Key、ルーティング先のIPアドレスであるDestination IPの項目を有する。
図12は、キー100のノードが用いるルーティングテーブルの具体例である。図11のルーティングテーブルt5は、distanceが1、ノード名がvmhost1.domain1.company.com、Destination Keyが1、Destination IPがa1.b1.c1.d1、distanceが2、ノード名がvmhost2.domain1.company.com、Destination Keyが1、Destination IPがa1.b1.c1.d1の項目を有する。
また、ルーティングテーブルt5は、distanceが3、ノード名がvmhost2.domain1.company.com、Destination Keyが1、Destination IPがa1.b1.c1.d1の項目を有する。
また、ルーティングテーブルt5は、distanceが5、ノード名がvmhost2.domain1.company.com、Destination Keyが1、Destination IPがa1.b1.c1.d1の項目を有する。
また、ルーティングテーブルt5は、distanceが9、ノード名がvmhost2.domain1.company.com、Destination Keyが1、Destination IPがa1.b1.c1.d1の項目を有する。
また、ルーティングテーブルt5は、distanceが17、ノード名がvmhost2.domain1.company.com、Destination Keyが1、Destination IPがa1.b1.c1.d1の項目を有する。
また、ルーティングテーブルt5は、distanceが33、ノード名がnode1.domain2.company.com、Destination Keyが4、Destination IPがa4.b4.c4.d4の項目を有する。
また、ルーティングテーブルt5は、distanceが65、ノード名がnode3.domain2.company.com、Destination Keyが36、Destination IPがa36.b36.c36.d36の項目を有する。
このように、ルーティングテーブルt5は、ドメイン1に属するノード(key:1,2,3,5,9,17)が目的地である場合にはKey1(IP:a1.b1.c1.d1)にルーティングすることを規定している。また、ルーティングテーブルt5は、ドメイン1に属するノードkey:33が目的地である場合にはKey4(IP:a4.b4.c4.d4)にルーティングし、ドメイン2に属するノードkey:65が目的地である場合にはKey36(IP:a36.b36.c36.d36)にルーティングすることを規定している。
図13は、申請元ノードの処理動作を説明するフローチャートである。図13では、図7のマネージャA(Key 100)がKey 66, 75の購読を申請する場合を例に説明する。まず、管理者はマネージャA(Key 100)の管理GUI(Graphical User Interface)に接続し、ハッシュテーブルt1より、ドメインに参加している管理対象リソースの一覧を得る(S101)。
申請元ノードは、生死監視する管理対象リソースを指定する(S102)。ここでは、図7に示したように Key 66, 75を指定するものとする。この管理対象は、同じ業務に属する管理対象リソースを自動的に指定してもよいし、同じ属性(例えば、vmhost)の管理対象を自動的に選択してもよい。また、オペレータが個別に指定することとしてもよい。
マネージャAの運用管理プログラムは、指定されたリソースのKeyよりIPを取得し、各管理対象リソースの生死監視サービスに購読を申し込む(S103)。このとき、マネージャはノード管理テーブルt4の生死監視カラムのフラグのうち、生死監視サービスを購読した管理対象のフラグをTrueにする(S104)。
この時点で、申請元であるマネージャAの運用管理プログラムと管理対象(図7の Key 66, 75)の運用管理プログラム間で、相互接続を開始する(S105)。この相互接続は例えばTCP接続でKeep Aliveオプションを有効にしたもので、接続が切断すると、マネージャA及び管理対象(図7 Key 66, 75)の運用管理プログラムにイベントがあがる。
監視対象ノードとの通信が切断すると(S106,Yes)、申請元であるマネージャAの運用管理プログラムは、監視対象をルーティングテーブルにもつ監視ノードから監視対象のダウン通知があったかを判定する(S107)。
監視ノードからダウン通知があった場合、申請元であるマネージャAの運用管理プログラムは、監視対象がダウンしたと判定して(S108)、処理を終了する。一方、監視ノードからダウン通知がない場合、申請元であるマネージャAの運用管理プログラムは、ネットワークがダウンしたと判定して(S109)、処理を終了する。
図14は、監視対象ノードの処理動作を説明するフローチャートである。図14では、図7のKey 66, 75がマネージャA(Key 100)から購読申請を受けた場合を例に説明する。
監視対象ノード(図7 Key 66, 75)の監視依頼部は、購読申請を受信する(S201)と、自ノードをルーティングテーブルに持つ各ノードに対して、自ノードが応答しない場合に、マネージャA へ死んだことを通知するように監視依頼を行なう(S202)。図7の例では、Key66 から Key20 へ監視依頼する。
その後、監視対象ノード(図7Key 66, 75)は、申請元ノード(図7Key100)と相互接続する(S203)。このため、監視対象ノードがダウンすると、申請元ノードにイベントがあがり、また、監視対象ノードを監視している監視ノードにもイベントがあがる。
図15は、監視ノードの処理動作を説明するフローチャートである。図15では、図7のKey20がKey66 から監視依頼を受けた場合を例に説明する。
監視ノード(Key20)は、監視対象ノード(Key66)から監視依頼を受信し(S301)、監視ノード(Key20)が有するノード管理テーブルt4の生死監視通知先カラムの監視対象(Key66)の欄に申請元ノードであるKey100を登録する(S302)。
その後、監視ノード(Key20)は、監視対象ノード(Key66)の監視を開始(S303)、監視対象ノード(Key66)との通信が切断した場合(S304,Yes)に申請元ノードKey 100にダウン通知を行なう(S305)。
このように、監視対象ノードが異常終了しONからOFFになった場合は、監視対象ノードをルーティングテーブルに持つ各ノードが監視ノードとして、申請元ノードへ死んだことを通知することとなる。
なお、管理対象ノードが正常終了しONからOFFになる場合は、監視対象ノードは、申請元ノードに正常終了することを通知すればよい。また、監視対象ノードは、自ノードがOFFからONになったとき、ノードKey 100へ生きていることを通知する。
上述したように、本実施例にかかる管理システム、管理装置、管理方法および管理プログラムは、申請元ノードN1が監視対象ノードN2と相互接続するとともに、監視対象ノードN2を監視ノードN3によって監視させ、ノードN2からの直接の応答と監視ノードN3からの通知とを組み合わせて判定する。このため、管理対象の状態変化を迅速に把握し、また、監視対象ノードN2のダウンと、ネットワークのダウンとを区別することができる。
N1 申請元ノード
N2 監視対象ノード
N3 監視ノード
m1 管理装置
m11 オーバーレイネットワーク構築部
m12 管理対象検索部
m13 管理情報作成部
m21 通信処理部
m22 ハッシュ処理部
m23 情報取得部
m24 通知部
m30 生死監視部
m31 購読申請部
m32 監視依頼部
m33 監視部
m34 判定部
t1 ハッシュテーブル
t2 セルフノードテーブル
t3 ドメインテーブル
t4 ノード管理テーブル
t5 ルーティングテーブル
p11 CPU
p12 メモリ
p13 HDD
p14 通信インタフェース
pg10 管理プログラム
pg11 オーバーレイネットワーク構築プロセス
pg12 管理対象検索プロセス
pg13 管理情報作成プロセス
pg14 生死監視プロセス

Claims (6)

  1. 監視対象のノードに対して生死情報の購読を申請する申請元ノードと、
    前記購読の申請を受けて申請元ノードと相互接続して前記申請元ノードに応答を送信するとともに、自ノードをルーティングテーブルに有するノードに自ノードの監視および監視結果の前記申請元ノードへの通知を依頼する監視対象ノードと、
    前記監視対象ノードからの依頼を受けて前記監視対象ノードを監視し、監視対象ノードからの応答が停止した場合に前記申請元ノードに通知する監視ノードと、を備え、
    前記申請元ノードは、前記監視対象ノードからの応答が停止し、且つ前記監視ノードから通知を受けた場合に前記監視対象ノードが停止したと判定することを特徴とする管理システム。
  2. 前記申請元ノード、前記監視対象ノードおよび前記監視ノードは、分散ハッシュを用いたオーバーレイネットワーク上のノードであることを特徴とする請求項1に記載の管理システム。
  3. 前記申請元ノードは、前記監視対象ノードからの応答が停止し 、且つ監視ノードから通知がない場合には、監視対象ノードとの通信回線に問題が発生したと判定することを特徴とする請求項1または2に記載の管理システム。
  4. 監視対象ノードに対して生死情報の購読を申請する購読申請部と、
    他のノードから購読の申請を受けた場合に申請元ノードと相互接続して前記申請元ノードに応答を送信するとともに、自ノードをルーティングテーブルに有するノードに自ノードの監視および監視結果の前記申請元ノードへの通知を依頼する監視依頼部と、
    他のノードから監視および監視結果の申請元ノードへの通知の依頼を受けた場合に、当該ノードを監視し、当該ノードからの応答が停止した場合に前記申請元ノードに通知する監視部と、
    前記監視対象ノードからの応答が停止し、且つ前記監視対象ノードを監視する監視ノードから通知を受けた場合に前記監視対象ノードが停止したと判定する判定部と、
    を備えたことを特徴とする管理装置。
  5. 申請元ノードが監視対象ノードに対して生死情報の購読を申請するステップと、
    監視対象ノードが前記購読の申請を受けて申請元ノードと相互接続して前記申請元ノードに応答を送信するとともに、自ノードをルーティングテーブルに有するノードに自ノードの監視および監視結果の前記申請元ノードへの通知を依頼するステップと、
    監視ノードが前記監視対象ノードからの依頼を受けて前記監視対象ノードを監視し、監視対象ノードからの応答が停止した場合に前記申請元ノードに通知するステップと、
    前記申請元ノードが、前記監視対象ノードからの応答が停止し、且つ前記監視ノードから通知を受けた場合に前記監視対象ノードが停止したと判定するステップと、
    を含んだことを特徴とする管理方法。
  6. 監視対象ノードに対して生死情報の購読を申請する購読申請手順と、
    他のノードから購読の申請を受けた場合に申請元ノードと相互接続して前記申請元ノードに応答を送信するとともに、自ノードをルーティングテーブルに有するノードに自ノードの監視および監視結果の前記申請元ノードへの通知を依頼する監視依頼手順と、
    他のノードから監視および監視結果の申請元ノードへの通知の依頼を受けた場合に、当該ノードを監視し、当該ノードからの応答が停止した場合に前記申請元ノードに通知する監視手順と、
    前記監視対象ノードからの応答が停止し、且つ前記監視対象ノードを監視する監視ノードから通知を受けた場合に前記監視対象ノードが停止したと判定する判定手順と、
    をコンピュータに実行させることを特徴とする管理プログラム。
JP2012545589A 2010-11-26 2010-11-26 管理システム、管理装置、管理方法および管理プログラム Expired - Fee Related JP5664662B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2010/071180 WO2012070155A1 (ja) 2010-11-26 2010-11-26 管理システム、管理装置、管理方法および管理プログラム

Publications (2)

Publication Number Publication Date
JPWO2012070155A1 JPWO2012070155A1 (ja) 2014-05-19
JP5664662B2 true JP5664662B2 (ja) 2015-02-04

Family

ID=46145530

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012545589A Expired - Fee Related JP5664662B2 (ja) 2010-11-26 2010-11-26 管理システム、管理装置、管理方法および管理プログラム

Country Status (4)

Country Link
US (1) US9674061B2 (ja)
EP (1) EP2645261B1 (ja)
JP (1) JP5664662B2 (ja)
WO (1) WO2012070155A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8849977B2 (en) * 2012-03-09 2014-09-30 Telefonaktiebolaget Lm Ericsson (Publ) Method and a control node in an overlay network
JP6740985B2 (ja) * 2017-08-30 2020-08-19 京セラドキュメントソリューションズ株式会社 画像形成システム、サーバー、及び画像形成方法
CN109144824B (zh) * 2018-07-19 2022-07-08 中科曙光信息产业成都有限公司 双路服务器节点的运行状态显示装置
CN113220472A (zh) * 2021-04-16 2021-08-06 阿波罗智联(北京)科技有限公司 应用程序通信方法、设备和存储介质
CN115328566A (zh) * 2021-04-25 2022-11-11 华为技术有限公司 应用保活方法、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007189615A (ja) * 2006-01-16 2007-07-26 Mitsubishi Electric Corp ネットワーク監視支援装置、ネットワーク監視支援方法およびネットワーク監視支援プログラム
JP2010011374A (ja) * 2008-06-30 2010-01-14 Fujitsu Ltd ネットワーク障害検知プログラム、システム、及び方法
JP2010098591A (ja) * 2008-10-17 2010-04-30 Fujitsu Ltd 障害監視システム、サーバ装置およびノード装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08235134A (ja) * 1995-02-24 1996-09-13 Hitachi Ltd マルチコンピュータシステムにおける計算機立ち上げ方法
US6237024B1 (en) * 1998-03-20 2001-05-22 Sun Microsystem, Inc. Method and apparatus for the suspension and continuation of remote processes
JPH1185649A (ja) 1997-09-05 1999-03-30 Hitachi Ltd ネットワーク上の計算機管理システム
JP2001101033A (ja) * 1999-09-27 2001-04-13 Hitachi Ltd オペレーティングシステム及びアプリケーションプログラムの障害監視方法
JP3740982B2 (ja) * 2001-01-15 2006-02-01 日本電気株式会社 ネットワークに接続されたホストコンピュータの死活監視方法
US7139823B2 (en) * 2001-08-23 2006-11-21 International Business Machines Corporation Dynamic intelligent discovery applied to topographic networks
US7975016B2 (en) * 2001-10-29 2011-07-05 Oracle America, Inc. Method to manage high availability equipments
JP3577067B2 (ja) * 2002-12-24 2004-10-13 一 福嶋 動的ipアドレス割当てを受けた機器を管理する方法およびシステム
JP2004207878A (ja) * 2002-12-24 2004-07-22 Fujitsu Ltd 通信装置
JP4372098B2 (ja) * 2003-07-09 2009-11-25 富士通株式会社 ネットワークにおける特定サービスの最適ルーティング方法並びに同ネットワークに用いられるサーバ及びルーティングノード
US8005937B2 (en) * 2004-03-02 2011-08-23 Fatpot Technologies, Llc Dynamically integrating disparate computer-aided dispatch systems
US20060167921A1 (en) * 2004-11-29 2006-07-27 Grebus Gary L System and method using a distributed lock manager for notification of status changes in cluster processes
JP4616159B2 (ja) * 2005-11-30 2011-01-19 富士通株式会社 クラスタシステム、ロードバランサ、ノード振替方法およびノード振替プログラム
WO2007105271A1 (ja) * 2006-03-10 2007-09-20 Fujitsu Limited ネットワーク・システム
JP5340525B2 (ja) * 2006-03-30 2013-11-13 富士通株式会社 通話再開システム、通話再開プログラム、通話再開方法、携帯端末および中継装置
JP5278677B2 (ja) * 2006-07-06 2013-09-04 日本電気株式会社 クラスタシステム、サーバクラスタ、クラスタメンバ、クラスタメンバの冗長化方法、負荷分散方法
JP2008123493A (ja) * 2006-10-16 2008-05-29 Hitachi Ltd リモートアクセス環境におけるコンピュータ管理サーバ
US8159960B2 (en) * 2006-12-18 2012-04-17 Verizon Patent And Licensing Inc. Content processing device monitoring
WO2008129597A1 (ja) * 2007-04-04 2008-10-30 Fujitsu Limited 負荷分散システム、ノード装置、負荷分散装置、負荷分散制御プログラム、負荷分散プログラム及び負荷分散方法
US20080281959A1 (en) * 2007-05-10 2008-11-13 Alan Robertson Managing addition and removal of nodes in a network
EP2034662A1 (en) * 2007-07-20 2009-03-11 Nokia Siemens Networks Oy Self monitoring of managed entities in a telecommunication network
US8156219B2 (en) * 2007-08-03 2012-04-10 At&T Intellectual Property I, L.P. System and method of health monitoring and fault monitoring in a network system
JP4780075B2 (ja) 2007-09-21 2011-09-28 ブラザー工業株式会社 ピアツーピア通信システム、ノード装置およびプログラム
JP4518169B2 (ja) * 2008-03-24 2010-08-04 ブラザー工業株式会社 ツリー型放送システム、モード切替指示方法、放送装置、及び放送処理プログラム
JP4586902B2 (ja) * 2008-07-16 2010-11-24 日本電気株式会社 ブリッジ、システム、ブリッジ制御方法、及びプログラム
US8930539B1 (en) * 2009-03-26 2015-01-06 Symantec Corporation Method and apparatus for optimizing resource utilization within a cluster and facilitating high availability for an application

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007189615A (ja) * 2006-01-16 2007-07-26 Mitsubishi Electric Corp ネットワーク監視支援装置、ネットワーク監視支援方法およびネットワーク監視支援プログラム
JP2010011374A (ja) * 2008-06-30 2010-01-14 Fujitsu Ltd ネットワーク障害検知プログラム、システム、及び方法
JP2010098591A (ja) * 2008-10-17 2010-04-30 Fujitsu Ltd 障害監視システム、サーバ装置およびノード装置

Also Published As

Publication number Publication date
WO2012070155A1 (ja) 2012-05-31
US20130262670A1 (en) 2013-10-03
EP2645261B1 (en) 2018-09-26
EP2645261A4 (en) 2017-05-10
EP2645261A1 (en) 2013-10-02
JPWO2012070155A1 (ja) 2014-05-19
US9674061B2 (en) 2017-06-06

Similar Documents

Publication Publication Date Title
TWI813743B (zh) 在網路路由環境中的獨立資料儲存空間
US11706102B2 (en) Dynamically deployable self configuring distributed network management system
KR101762237B1 (ko) 서비스 지향 아키텍쳐 내에서 능력을 모니터링하는 방법
JP4421817B2 (ja) 向上されたコラボレーション、スケーラビリティ、およびリライアビリティを提供するために接続され得るネットワーク装置のセットのための方法およびシステム
TWI483581B (zh) 用以搜尋網路裝置之方法及設備
JP5664662B2 (ja) 管理システム、管理装置、管理方法および管理プログラム
WO2007110942A1 (ja) ネットワークシステムにおけるサーバ管理プログラム
US9912544B2 (en) System and method for master switch election
WO2012004872A1 (ja) 管理装置、管理プログラムおよび管理方法
US20170141950A1 (en) Rescheduling a service on a node
JP5741595B2 (ja) 管理装置、管理方法および管理プログラム
JP5408359B2 (ja) 管理装置、管理プログラムおよび管理方法
WO2012153388A1 (ja) 管理情報生成方法、管理情報生成プログラムおよび管理情報生成装置
WO2011116652A1 (zh) 网络管理方法及网络管理系统

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140430

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141111

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141124

R150 Certificate of patent or registration of utility model

Ref document number: 5664662

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees