JP2006526212A - コンピュータクラスタにおけるデータ収集 - Google Patents

コンピュータクラスタにおけるデータ収集 Download PDF

Info

Publication number
JP2006526212A
JP2006526212A JP2006508328A JP2006508328A JP2006526212A JP 2006526212 A JP2006526212 A JP 2006526212A JP 2006508328 A JP2006508328 A JP 2006508328A JP 2006508328 A JP2006508328 A JP 2006508328A JP 2006526212 A JP2006526212 A JP 2006526212A
Authority
JP
Japan
Prior art keywords
computer
cluster
heartbeat
state information
message
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006508328A
Other languages
English (en)
Other versions
JP4129473B2 (ja
Inventor
ユッカ アー ヴァイニオ
テーム ヴェー ヤロネン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from FI20030796A external-priority patent/FI20030796A0/fi
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of JP2006526212A publication Critical patent/JP2006526212A/ja
Application granted granted Critical
Publication of JP4129473B2 publication Critical patent/JP4129473B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Landscapes

  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)

Abstract

複数のコンピュータノードを含むコンピュータクラスタにおけるステート情報の送信のためのメカニズムが開示される。当該方法においては、ハートビートメッセージが、コンピュータクラスタの第一のコンピュータノードからコンピュータクラスタのその他のコンピュータノードへ定期的に送信される。前記その他のノードは、それぞれ、少なくとも一つのクラスタ向けのタスクを実行するための少なくとも一つのリソースを含んでいる。クラスタ向けのタスクを実行するためのリソースの能力についての更新されたステート情報が大きなクラスタにおいてでさえ収集され得るようにするために、現在のステート情報がハートビート確認応答メッセージの中でハートビートメッセージを送信したノードへ送り返される。

Description

一般的に、本発明は複数のコンピュータノードを含むコンピュータクラスタに関連する。特に、本発明はステート情報をクラスタの中で収集するためのメカニズムに関連している。本明細書において、ステート情報とはコンピュータノードのリソースがクラスタにおけるタスクをいかに完了することが可能であるかを示す情報を言う。このように、ステート情報は、コンピュータノードにおける様様なリソースの負荷を示すデータだけでなく、コンピュータノードにおける現在の性能または容量についてのデータ、すなわち、クラスタにおけるそれらのタスクを完了するためのリソースの現在の能力についてのデータをも含むことが考えられる。
一般的に知られているように、コンピュータクラスタは一つ又は複数のタスクを完了するために協働するコンピュータのグループである。コンピュータクラスタは、例えば、負荷バランシング、耐障害性向上(すなわち、障害が発生した場合の使用可能性向上)、または、並列コンピューティングのために使用され得る。
典型的なコンピュータクラスタは、複数のコンピュータノードを含んでいる。ここで、コンピュータノードとは、エンティティであって、そのエンティティのためのプロセッサ、メモリ、および、基本ソフトによって提供されるエンティティを意味する。このエンティティは、さらに、そのクラスタにおける他のコンピュータノードと通信を行うためのネットワークインターフェースもまた有している。クラスタにおけるコンピュータノードの少なくとも一つは、管理ノードとして振舞うための機能を備えている。この管理ノードはクラスタの管理を行う。管理ノードは、クラスタ内の障害を検出するために、ハートビート(heartbeats)と呼ばれるある一定のメッセージを、定期的にクラスタ内のその他のコンピュータノードに送信する。一般的にある時間において管理ノードとして振舞うのは一つのコンピュータノードのみである。
一般的に管理ノード内に備えられた制御ソフトウェアは、そのクラスタに属するすべてのコンピュータノードを監視しなければならない。正しく、かつ、更新されたノードのステート情報を得るために、制御ソフトウェアは、かなり頻繁にノードからステート情報を収集しなければならない。これは、数千個や、それに相当するような数のコンピュータノードからなる大きなコンピュータクラスタにおいては、特に問題となる。こういった大きなコンピュータクラスタにおいては、ネットワークおよびコンピュータノードの性能の利益となるように、データ収集レートを妥協しなければならない。なぜなら、データ収集の影響によってネットワークへの負荷が大きくなることを避け、かつ、データ収集を実行しつつも、コンピュータノードの性能を許容できるレベルに維持することを保証する必要があるからである。言い換えれば、大きなクラスタにおいては、ネットワークまたはコンピュータノードの性能を著しく低下させないために、データ収集レートは妥協して設定されなければならないということである。
本発明の目的は、この欠点を排除または低減することである。
本発明は、コンピュータクラスタのコンピュータノードから、ステート情報を収集するための新規なメカニズムをもたらすことを追求する。本発明は、大きなクラスタであっても、ネットワークかノードの性能の利益となるように妥協されたステート情報収集レートを要求しないメカニズムを提供することを追及する。
本発明においては、監視と制御の目的のために、コンピュータクラスタの内部特性でもあるハートビートメカニズムを、コンピュータノードからステート情報を収集するために利用する。以下に記載するように、コンピュータクラスタ内で、または、ネットワーク監視もしくは管理システムのような外部エンティティによって、収集されたステート情報が利用され得る。
本発明の一実施例に従うと、コンピュータクラスタにおいてステート情報を転送するための方法は、複数のコンピュータノードを使用する。この方法は、コンピュータクラスタの第一のコンピュータノードからそのコンピュータクラスタの第二のコンピュータノードへハートビートメッセージを送信するステップを含む。このコンピュータクラスタにおいて、第二のコンピュータノードは、少なくとも一つのクラスタ向けのタスクを実行し、ハートビートメッセージを受信する少なくとも一つのリソースを第二のコンピュータノードの中に有する。また、この方法は、バートビートメッセージへの応答として送信されるハートビート確認応答メッセージのためのステート情報を読み出すことを含む。このステート情報は、少なくとも一つのクラスタ向けタスクを実行するための少なくとも一つのリソースの能力を示し、ハートビート確認応答メッセージの中のこのステート情報を第一のコンピュータノードに送信する。
もう一つの実施例においては、本発明は複数のコンピュータノードを有するコンピュータクラスタを提供する。そのコンピュータクラスタは、そのコンピュータクラスタの第一のコンピュータノードからそのコンピュータクラスタの第二のコンピュータノードへハートビートを送信するための第一の手段を備える。このコンピュータクラスタにおいては、第二のコンピュータノードは、少なくとも一つのクラスタ向けタスクを実行するための少なくとも一つのリソースを含む。そして、このコンピュータクラスタは、第二のコンピュータ内でハートビートメッセージを受信するための第二の手段を備える。このコンピュータクラスタは、また、ハートビートメッセージの応答として送信されるハートビート確認応答メッセージのためにステート情報を読み出すための第三の手段をも備える。このステート情報は、少なくとも一つのクラスタ向けタスクを実行するための少なくとも一つのリソースの能力を示す。そして、このコンピュータクラスタは、第一のコンピュータノードへハートビート確認応答メッセージの中のステート情報を送信するための第四の手段を備える。
もう一つの実施例では、本発明は、コンピュータクラスタにおけるコンピュータノードを提供する。このコンピュータノードは、少なくとも一つのクラスタ向けタスクを実行するための少なくとも一つのリソースと、その他のコンピュータノードからハートビートメッセージを受信するための第一の手段と、ハートビートメッセージに対する応答として、ハートビート確認応答メッセージのためのステート情報を読み出すための第二の手段と、少なくとも一つのクラスタ向けタスクを実行する少なくとも一つのリソースの能力を示すステート情報と、第二の手段に応答してもう一つのコンピュータノードにハートビート確認応答メッセージ内のステート情報を送信するための第3の手段と、を備える。
本発明の手段によって、リアルタイムなステート情報が、ネットワークまたはコンピュータノードにおける過剰な負荷を伴うことなくコンピュータクラスタのコンピュータノードから収集することができる。すなわち情報収集レートが、収集によって生じる負荷の影響によって妥協される必要がない。特に、最小送信単位を越えない場合には、確認応答メッセーの増加された長さによって生じるオーバーヘッドは比較的低い。
本発明の一つの実施例においては、ハートビートメッセージを受信するコンピュータノードは、ステート情報がハートビートメッセージに対する応答として送信されるハートビート確認応答メッセージのために読み出されるべきか否かを確認する。この方法では、不要なステート情報の送信を避けることができる。
更なる本発明の利点は、収集された情報がコンピュータクラスタ内または外の異なるエンティティによって同時に利用され得ることである。
本発明のその他の特徴および利点は、以下に記載される詳細な説明とそれに伴う図を参照することで、明らかになるであろう。
図1は、本発明のメカニズムが適用されるコンピュータクラスタ100の一例を示している。このクラスタは、N個のコンピュータノード110i(i=1、2、3、...N)を有する。各コンピュータノードは、プロセッサ、メモリおよびそれ自身のコピーである基本ソフトによって提供される、独立したエンティティである。各コンピュータノードは典型的にはインターネットプロトコル(IP)ネットワークであるネットワーク120に接続するためのネットワークインターフェースもまた有している。ここで、本発明のメカニズムが、送信プロトコルに依存せず、多くの異なる環境において適用され得るところに注意されたい。しかし、IPネットワークは、本発明の典型的な環境を形成する。
毎回、一つのコンピュータノードが、この例においてはノード1101が、管理ノードとして動作する。当該管理ノードは、クラスタおよびリソースの管理を行う。そのクラスタ内で発生した障害を検出するために、管理ノードは、ハートビートメッセージHBを、そのクラスタ内のその他のコンピュータに、定期的に送信する。クラスタは、管理ノードとして振舞うことができる一つ以上のノードを有するかもしれないが、一度には、そういったノードのうちの一つが管理ノードとして動作する。典型的には、単一のハートビートメッセージは、そのクラスタのすべてのノード用に定義されたマルチキャストメッセージである。そして、二つの連続するハートビートメッセージの間の期間は、アプリケーション環境に大きく依存する。
コンピュータノードが、ハートビートメッセージを管理ノードから受信したときは、そのコンピュータノードは、ハートビート確認応答メッセージHB_ACKを管理ノードに送り返し、管理ノードに対して、そのコンピュータノードが動作中であり、したがって、クラスタ内に依然として存在していることを示す。もし、管理ノードがハートビート確認応答メッセージをコンピュータノードから受信しなかった場合には、管理ノードによって即座に復旧手段が開始される。典型的には、通信障害が検出されたコンピュータノードは、そのクラスタから削除され、そのノードが持っていたクラスタ向けの処理は、その他の一つかそれ以上のノードに再度割り当てられる。
様様な異なるタスクがクラスタによって実行され、そして、実際のアプリケーションは、クラスタ内において様様な方法で分散され得る。一つかそれ以上のクラスタノードは、クラスタの外部の要素からは、単一のエンティティであるように見えることも考えられる。例えば、複数のコンピュータノードがルーティングを行った場合、そのクラスタの外側から見ると、一つかそれ以上のコンピュータが、一つのルーティングネットワーク要素を形成しているように見え得る。もう一つの例としては、外部から見る者にとっては、すべてのコンピュータノードが単一のエンティティとして見える。
もし、負荷分散グループがクラスタ内で利用された場合、さらに、一つかそれ以上のコンピュータが一つのIPD(Internet Protocol Director)ノードとして動作する。IPDは、入力タスク要求を負荷分散グループの中でルーティングする負荷分散制御ノードである。図1の例では、コンピュータノード1102が、コンピュータクラスタの外からのタスク要求を受信する一つのIPDノードとして動作する。
本発明においては、コンピュータクラスタが元々有しているハートビートのメカニズムをコンピュータノードからステート情報を収集するために利用する。このデータは、クラスタの目的のためのみに収集されるか、ネットワークに接続されたネットワークを監視または管理するシステム160のようなクラスタ外のエンティティのために収集される。クラスタノードから管理ノードにステート情報を搬送するためにハートビート確認応答メッセージは使用される。管理ノードは、その情報を管理情報データベース(MIB)150に格納する。
本発明の一実施例では、MIBは、コンピュータクラスタ内のエンティティおよびコンピュータクラスタ外のエンティティの両方のために使用され得る。例えば、クラスタの内部障害管理のために収集されたデータを利用する。障害管理システムがMIBからデータを読むことができるように、障害管理ロジックは管理ノード内に存在しているエージェント(agent)130を用いてクラスタ内で分散される。言い換えれば、障害管理システムは、管理ノード内に備えられたサーバー部、および、コンピュータ内部に備えられたクライアント部を用いたクライアント−サーバーメカニズムを含むということである。MIBを利用する機能を有するもう一つのクラスタエンティティは、コンピュータノードである。このコンピュータノードは、入力タスクをその入力タスクを実行するそのコンピュータノードに割り当てる。上記IPDノードに加えてその他のクラスタノードは、負荷バランシングエンティティのようなものとして動作する。
MIBが独立したネットワークノードを形成するか否か、または、MIBが管理ノードに接続されているか否かに応じて、いずれかの既知の方法で、MIBへのアクセスは、直接的にまたは管理ノードを通じて実行することができる。MIBは管理ノード以外のその他のコンピュータノードにもまた接続され得る。
図2は、他のコンピュータノードへ送信される一つのハートビートメッセージについての管理ノードの基本的動作例を説明したフローチャートである。したがって、ここで、図2は、送信される一つのハートビートメッセージに関する動作を説明しており、ハートビートメッセージの定期的な送信は図示されていないことに注意されたい。管理ノードがハートビートメッセージを送信したとき、管理ノードはタイマーを設定し(ステップ201)、そして、前記その他のコンピュータノードから応答としてハートビート確認応答メッセージが受信されたか否かの監視を開始する(ステップ202)。もし、タイマーが満了する前に、確認応答メッセージが到達した場合には、管理ノードは、そのメッセージを調べる(ステップ204)。もし、そのメッセージがステート情報を含んでいることを管理ノードが検出した場合、管理ノードは、そのメッセージから前記情報を読み出し、その情報に基づいてMIBを更新する(ステップ207)。確認応答メッセージがステート情報を含んでいない場合には、管理ノードは従来の方法を続行する。
もし、ハートビート確認応答メッセージを受信する前にタイマーが満了してしまった場合には、管理ノードはそのコンピュータノードにおいて通信障害が発生したと結論付け、復旧手段を開始する(ステップ205)。実際には、このタイマーによって測定される期間は、その期間内で一つ以上のハートビートメッセージを送信することができるくらい長い。それらのメッセージのいずれかに対するハートビート確認応答が受信されれば、それは、処理をステップ204へ移行させるトリガーとなる。通常、管理ノードは、N個の連続したハートビートメッセージが、あるコンピュータノードからの一つの確認応答も無いまま残された場合には、そのコンピュータについては障害が発生したことを宣言する。したがって、復旧手段が開始される前に、管理ノードが所定の数のハートビートメッセージを喪失することは許容され得る。特に、一般的にハートビートメッセージを搬送するために使用されるUDP(User Datagram Protocol)の場合には、ネットワーク内に本質的な問題が存在していなくても、メッセージは失われ得る。上記観点において、図2は、管理ノードにおける単なる入力ハートビート確認応答メッセージの処理原理の説明図に過ぎない。一方で、当該の管理ノードアルゴリズムの現実的な実装においては、多くの方法によって変更されることが考えられる。
図3aは、管理ノードから受信された一つのハートビートメッセージに関するコンピュータノードの動作例を説明したフローチャートである。ハートビートメッセージが受信された場合、コンピュータノードは、規定状態が満たされているか否かを検証する(ステップ301)。この規定状態は、確認応答メッセージにおいて不必要なステート情報を送信しないために設定される。もし、状態が満たされていれば、コンピュータノードは、メモリからステート情報を読み出して(ステップ303)、受信されたステート情報を含んだハートビート確認応答メッセージを生成する。もし、規定状態が満たされなければ、通常のハートビート確認応答メッセージ、すなわち、ステート情報を含まないハートビート確認応答メッセージを生成する(302)。生成されたメッセージは、管理ノードに送り返される(ステップ305)。
典型的には、ステート情報を読み出すために設定された規定状態は、管理情報へのステート情報の最後の送信から、ある最小期間が経過したような状態である。もし、この制限時間を超えた場合には、新たなステート情報が読み出され、ハートビート確認応答メッセージの中に挿入される。それ以外の場合は、通常のハートビート確認応答メッセージが送信される。制限時間が超えるたことを検出するために、コンピュータノードは、カウンターをステップ305で開始することが考えられる。カウンターの現在値が、次のハートビートメッセージと一緒に、ステップ301で調査される。したがって、典型的には、コンピュータノードは、通常のハートビート確認応答メッセージとステート情報を含んだハートビート確認応答メッセージの両方を送信する。これら二つのメッセージタイプの比率は、ハートビートメッセージ受信レートに依存する。
ステート情報を読み出すために設定された規定状態は、ステート情報が読み出される以前に満たされるべき数個の副状態からなることもまた考えられる。もしコンピュータノードの負荷が、そういった副状態のようなものとして使用された場合には、例えば、ステート情報の最後の送信からある最小の期間が過ぎ、かつ、コンピュータノードの現在の負荷がある最大レベルを下回ったときにのみ、ステート情報の読み出しが発生することが考えられる。
図3bに示されるように、ハートビートメッセージの受信応答として読み出されるべきステート情報のタイプを、ノードが決定することもまた可能である(ステップ311)。したがって、異なるタイプの情報が、連続的なハートビート確認応答メッセージによって搬送されることが考えられる。例えば、もし、ハートビートメッセージが十分頻繁に送信された場合、あるパラメータセットがN個の連続するハートビート確認応答メッセージによって搬送され、同じセットが、次のN個のハートビート確認応答メッセージによって再び送信されるようなことが考えられる。また、ある情報(パラメータ)は他の情報に比べて少ない頻度で送信されることも考えられる。
一般的には、メモリから読み出されたステート情報は、コンピュータ上で動作しているアプリケーションに依存する。しかし、コンピュータノードの基本ソフトに関連する基本的なパラメータは、すべてのコンピュータノードについて同一である。これらのパラメータは、例えば、CPU非稼動時間、および、ある入出力操作の数を含む。基本的に、ステート情報は、二つのグループに分けられる。一つは、アプリケーションの性能に関するパラメータであり、もう一つは、ノードプラットフォームの性能、および/または、状態に関するパラメータである。
図4は、コンピュータノードにおける、ハートビート確認応答生成のソフトウェアアーキテクチャの一例を示したものである。カーネル空間に備えられたカーネルモジュール400は、基本ソフトに関連するパラメータをコンピュータノードのカーネル空間から直接に受信する。アプリケーションが実行されるユーザー空間においては、各アプリケーション401はライブラリ402を有し、そのライブラリを介して、カーネルモジュールに関連するパラメータを書き込むことが可能となる。もし、規定状態が満たされた場合、ユーザー空間に備えられた監督エージェント403は、カーネルモジュールからステート情報を読み出し、読み出した情報を含んだハートビート確認応答メッセージを構築する。したがって、図4の実施例では、ステート情報の保存は基本ソフト内で実行され、より早い動作を可能とする。しかし、ステート情報は、ディスクのような大きなメモリに記憶されることもまた、考えられる。
図5は、ステート情報を含んだハートビート確認応答メッセージの一般的な構成を示している。このメッセージは3つの連続する部分からなる。一つは、ヘッダ部501であって、ヘッダ部は、(イーサーネット、IPやTCP/UDPヘッダのような)関連するプロトコルのヘッダを含む。そして、確認応答識別子502、および、コンピュータノードの中で読み出されたステート情報を含んだペイロード部503である。したがって、このメッセージは、ステート情報を含んだペイロード部を含んでいること以外は、従来のハートビート確認応答メッセージと同じである。本発明の一実施例では、ペイロード部はASN.1(Abstract Syntax Notation One)およびPER(Packed Encoding Rules)コーディングを使用してエンコードされる。この方法により、ステート情報は効率的に圧縮され、更なる情報を同じメッセージ空間に挿入することが可能となる。使用されるプロトコルにもよるが、ステート情報部は、ネットワークにおけるいかなる余分な負荷を引き起こすことなく送信され得る。従来のハートビートメッセージ長が、最小送信単位よりも小さい場合には、パディングビットとしてステート情報が使用され得る。
本発明のハートビート確認応答メッセージによって生じる増加負荷は、従来のハートビート確認応答メッセージによって生じる負荷に比べて比較的小さい。これは、短いメッセージにおいては、プロトコルヘッダが送信されたメッセージの主な部分を占めるため、より長いメッセージによって生じるオーバーヘッドは、比較的低くなることに起因する。更に、通常、最小メッセージ長よりも短いメッセージは満杯にされるけれども、ここでは、それらは、ステート情報によって満たされる。この方法によって、ステート情報部はネットワークにおける余分な負荷を発生させることなく転送される。本発明の方法によって生じる余分な負荷は、本発明が適用される環境にもまた依存する。例えば、イーサーネットネットワークにおいては、最小メッセージ長は64バイトであり、これは、部分501および502の要求よりも長い。
添付された図面において示された例を参照しながら、ここまで本発明について説明してきたが、本発明がこれらに制限されないことは明らかであり、当業者によって本発明の範囲および精神から逸脱することなく変更されることが考えられる。例えば、通常のハートビート確認応答メッセージかステート情報を含んだハートビート確認応答メッセージが送信されるべきか否かを確認する必要がなく、ステート情報を含んだ確認応答メッセージがハートビートメッセージ毎に応答して送信されることが考えられる。
図1は、本発明に従った一つのコンピュータクラスタを説明する。 図2は、一つのハートビートメッセージを考慮した管理ノードの基本動作を説明するフローチャートである。 図3aは、コンピュータノードからステート情報を送信するための一実施例を説明するフローチャートである。 図3bは、コンピュータノードからステート情報を送信するためのもう一つの実施例を説明するフローチャートである。 図4は、コンピュータノードにおけるステート情報の収集を説明する概略図である。 図5は、本発明に従ったハートビートメッセージを図示したものである。

Claims (23)

  1. 複数のコンピュータノードを含むコンピュータクラスタにおいてステート情報を転送する方法であって、
    コンピュータクラスタの第一のコンピュータノードから前記コンピュータクラスタの、少なくとも一つのクラスタ向けタスクを実行するための少なくとも一つのリソースを含む、第二のコンピュータノードへハートビートメッセージを送信する段階と、
    前記第二のコンピュータノードにおいて前記ハートビートメッセージを受信する段階と、
    前記ハートビートメッセージの応答として送信されるハートビート確認応答メッセージのための、少なくとも一つの前記クラスタ向けタスクを実行するための少なくとも一つの前記リソースの能力を示す、ステート情報を読み出す段階と、
    前記第一のコンピュータノードへ前記ハートビート確認応答メッセージ内の前記ステート情報を送信する段階と、
    を備えることを特徴とする方法。
  2. 請求項1に記載の方法であって、更に、
    前記受信する段階の応答としてステート情報が前記ハートビート確認応答メッセージのために読み出されるべきか否かを調べる段階を備えることを特徴とする方法。
  3. 請求項2に記載の方法において、
    前記調査する段階が、規定状態が満たされているか否かを調査することを含む、
    ことを特徴とする方法。
  4. 請求項3に記載の方法において、
    前記調査する段階が、前記規定状態が満されていることを示したときに、前記読み出す段階および前記送信する段階が実行され、
    更に、前記調査する段階が、前記規定状態が満たされることに失敗したことを示したときに、前記方法がステート情報を伴わずにハートビート確認応答メッセージを送信する段階を含む、
    ことを特徴とする方法。
  5. 請求項1に記載の方法であって、更に、
    前記ハートビート確認応答メッセージのために読み出されるステート情報のタイプを決定する段階を含む、
    ことを特徴とする方法。
  6. 請求項1に記載の方法であって、更に、
    管理情報データベース(MIB)の中に、前記第一コンピュータノードへ送信された前記ステート情報を記憶する段階を含む、
    ことを特徴とする方法。
  7. 請求項6に記載の方法であって、管理情報データベースから前記コンピュータクラスタ外のエンティティへデータを転送する段階を含む、
    ことを特徴とする方法。
  8. 複数のコンピュータノードを含むコンピュータクラスタであって、
    前記コンピュータクラスタの第一のコンピュータノードから前記コンピュータクラスタの、少なくとも一つのクラスタ向けタスクを実行するための少なくとも一つのリソースを含む、第二のコンピュータノードへハートビートメッセージを送信するための第一の手段と、
    前記第二のコンピュータノードにおいて前記ハートビートメッセージを受信するための第二の手段と、
    前記ハートビートメッセージの応答として送信されるハートビート確認応答メッセージのために、前記少なくとも一つのクラスタ向けのタスクを実行するための前記少なくとも一つのリソースの能力を示す、ステート情報を読み出すための第三の手段と、
    前記第一のコンピュータノードへのハートビート確認応答メッセージ内の前記ステート情報を送信するための第四の手段と、
    を含むことを特徴とするコンピュータクラスタ。
  9. 請求項8に記載のコンピュータクラスタであって、更に、
    前記第一のコンピュータノードへ送信される前記ステート情報を記憶するための前記第一のコンピュータノードに操作可能な状態で接続された管理情報データベース(MIB)を含む、
    ことを特徴とするコンピュータクラスタ。
  10. 請求項9に記載のコンピュータクラスタであって、更に、
    前記コンピュータクラスタから前記管理情報データベースへアクセスするための第一のアクセス手段を含む、
    ことを特徴とするコンピュータクラスタ。
  11. 請求項9に記載のコンピュータクラスタであって、更に、
    前記コンピュータクラスタの外側から前記管理情報データベースへアクセスする第二のアクセス手段を含む、
    ことを特徴とするコンピュータクラスタ。
  12. 請求項11に記載のコンピュータクラスタにおいて、
    前記第二のアクセス手段が前記第一のコンピュータノードの中にネットワークインターフェースを含む、
    ことを特徴とするコンピュータクラスタ。
  13. コンピュータクラスタのためのコンピュータノードであって、
    少なくとも一つのクラスタ向けタスクを実行するための少なくとも一つのリソースと、
    もう一つのコンピュータノードからハートビートメッセージを受信するための第一の手段と、
    前記ハートビートメッセージに応答して送信されるハートビート確認応答メッセージのための、前記少なくとも一つのクラスタ向けタスクを実行するための前記少なくとも一つのリソースの能力を示す、ステート情報を読み出すための第二の手段と、
    前記第二の手段に応答して、前記ハートビート確認応答メッセージ内のステート情報を前記もう一つのコンピュータノードへ送信するための第三の手段と、
    を含むことを特徴とするコンピュータノード。
  14. 請求項13に記載のコンピュータノードであって、更に、
    前記ハートビート確認応答メッセージのためにステート情報が読み出されるべきか否かを調べるための第四の手段を含む、
    ことを特徴とするコンピュータノード。
  15. 複数のコンピュータノードを含むコンピュータクラスタにおいてステート情報を得るための方法であって、
    コンピュータクラスタの第一のコンピュータノードから前記コンピュータクラスタの、少なくとも一つのクラスタ向けタスクを実行するための少なくとも一つのリソースを含む、第二のコンピュータノードへハートビートメッセージを送信する段階と、
    前記第二のコンピュータノードからハートビート確認応答メッセージの受信を待ち受ける段階と、
    前記少なくとも一つのクラスタ向けタスクを実行するための前記少なくとも一つのリースの能力を示すステート情報を含む前記ハートビート確認応答メッセージを受信する段階と、
    を含むことを特徴とする方法。
  16. 請求項15に記載の方法であって、更に、
    管理情報データベース(MIB)において前記第一のコンピュータノードへ送信される前記ステート情報を記憶する段階を含む、
    ことを特徴とする方法。
  17. 請求項16に記載の方法であって、更に、
    前記管理情報データベースから前記コンピュータクラスタの外部のエンティティへデータを転送する段階を含む、
    ことを特徴とする方法。
  18. 請求項15に記載の方法において、
    前記ハートビート確認応答メッセージを受信する段階が、更に、
    ハートビート確認応答メッセージが予定された期間内に受信されなかった場合に、前記クラスタから前記第二のコンピュータノードを削除することを含むこと、
    を特徴とする方法。
  19. 複数のコンピュータノードを含むコンピュータクラスタにおいてステート情報を提供するための方法であって、
    コンピュータクラスタの第一のコンピュータノードからのハートビートメッセージについての、前記コンピュータクラスタの第二のコンピュータノードによる受信を待機する段階と、
    前記第一のコンピュータノードからの、少なくとも一つのクラスタ向けタスクを実行するための少なくとも一つのリソースを含む、前記ハートビートメッセージを受信する段階と、
    前記少なくとも一つのクラスタ向けタスクを実行するための前記少なくとも一つのリソースの能力を示すステート情報を含むハートビート確認応答メッセージを送信する段階と、
    を含むことを特徴とする方法。
  20. 請求項19に記載の方法であって、更に、
    前記受信する段階に応答して、ステート情報がハートビート確認応答メッセージのために読み出されるべきか否かを調べる段階を含む、
    ことを特徴とする方法。
  21. 請求項20に記載の方法において、
    前記調べる段階が、規定状態を満たしているか否かを調査することを含む、
    ことを特徴とする方法。
  22. 請求項21に記載の方法において、
    前記調べる段階が、前記規定状態が満たされていることを示す場合に、前記ハートビート確認応答メッセージのためのステート情報を読み出し段階と前記送信する段階が実行され、かつ、
    前記方法が、更に、
    前記調査する段階が、規定状態が満たされることに失敗したときには、ステート情報を伴わずに、ハートビート確認応答メッセージを送信する段階を含むこと、
    を特徴とする方法。
  23. 請求項19に記載の方法であって、更に、
    前記ハートビート確認メッセージのために、読み出されるべきステート情報のタイプを決定する段階を含む、
    ことを特徴とする方法。
JP2006508328A 2003-05-27 2004-05-24 コンピュータクラスタにおけるデータ収集 Expired - Fee Related JP4129473B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FI20030796A FI20030796A0 (fi) 2003-05-27 2003-05-27 Tiedonkeruu tietokoneklusterissa
US10/630,972 US7546366B2 (en) 2003-05-27 2003-07-31 Data collection in a computer cluster
PCT/FI2004/000314 WO2004107196A1 (en) 2003-05-27 2004-05-24 Data collection in a computer cluster

Publications (2)

Publication Number Publication Date
JP2006526212A true JP2006526212A (ja) 2006-11-16
JP4129473B2 JP4129473B2 (ja) 2008-08-06

Family

ID=33492204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006508328A Expired - Fee Related JP4129473B2 (ja) 2003-05-27 2004-05-24 コンピュータクラスタにおけるデータ収集

Country Status (4)

Country Link
EP (1) EP1627316B1 (ja)
JP (1) JP4129473B2 (ja)
PL (1) PL1627316T3 (ja)
WO (1) WO2004107196A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145828A (ja) * 2010-01-13 2011-07-28 Fujitsu Ltd データベースシステムおよびデータベース制御方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6928589B1 (en) * 2004-01-23 2005-08-09 Hewlett-Packard Development Company, L.P. Node management in high-availability cluster
JP4968568B2 (ja) * 2004-12-24 2012-07-04 日本電気株式会社 障害監視方法、障害監視システムおよびプログラム
GB0501697D0 (en) * 2005-01-27 2005-03-02 Ibm Controlling service failover in clustered storage apparatus networks
ITTO20050439A1 (it) * 2005-06-23 2006-12-24 Magneti Marelli Sistemi Elettr Disposizione circuitale di un nodo di rete can.
US8892936B2 (en) 2012-03-20 2014-11-18 Symantec Corporation Cluster wide consistent detection of interconnect failures
US9515899B2 (en) 2012-12-19 2016-12-06 Veritas Technologies Llc Providing optimized quality of service to prioritized virtual machines and applications based on quality of shared resources
EP3761559A4 (en) * 2018-03-19 2021-03-17 Huawei Technologies Co., Ltd. ERROR DETECTION METHOD, DEVICE AND SYSTEM
CN111258840B (zh) * 2018-11-30 2023-10-10 杭州海康威视数字技术股份有限公司 一种集群节点管理方法、装置及集群

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5526358A (en) * 1994-08-19 1996-06-11 Peerlogic, Inc. Node management in scalable distributed computing enviroment
JP2000500956A (ja) 1996-09-18 2000-01-25 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 情報分配システム
US6609213B1 (en) * 2000-08-10 2003-08-19 Dell Products, L.P. Cluster-based system and method of recovery from server failures
US6880100B2 (en) 2001-07-18 2005-04-12 Smartmatic Corp. Peer-to-peer fault detection
US6721907B2 (en) * 2002-06-12 2004-04-13 Zambeel, Inc. System and method for monitoring the state and operability of components in distributed computing systems

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011145828A (ja) * 2010-01-13 2011-07-28 Fujitsu Ltd データベースシステムおよびデータベース制御方法

Also Published As

Publication number Publication date
EP1627316A1 (en) 2006-02-22
JP4129473B2 (ja) 2008-08-06
EP1627316B1 (en) 2018-02-21
PL1627316T3 (pl) 2018-10-31
WO2004107196A1 (en) 2004-12-09

Similar Documents

Publication Publication Date Title
US7546366B2 (en) Data collection in a computer cluster
US7234073B1 (en) System and methods for failover management of manageable entity agents
US7518983B2 (en) Proxy response apparatus
CN1881944B (zh) 改进型分布式核心操作系统
JP2005209201A (ja) 高可用性クラスタにおけるノード管理
JPH11102299A (ja) 高信頼リモート・オブジェクト参照管理の方法とシステム
WO2019148716A1 (zh) 数据传输方法、服务器及存储介质
Ye et al. A middleware for replicated web services
JP4129473B2 (ja) コンピュータクラスタにおけるデータ収集
EP1762069B1 (en) Method of selecting one server out of a server set
CN109728981A (zh) 一种云平台故障监测方法及装置
WO2021139571A1 (zh) 存储系统中的数据存储方法、数据读取方法、装置及系统
US20050066017A1 (en) Deterministically electing an active node
CN112416594A (zh) 一种微服务分配方法、电子设备和计算机存储介质
JP2015069384A (ja) 情報処理システム、情報処理システムの制御方法及び情報処理装置の制御プログラム
US20050234919A1 (en) Cluster system and an error recovery method thereof
US8036105B2 (en) Monitoring a problem condition in a communications system
JP5408620B2 (ja) データ分散管理システム及びデータ分散管理方法
US8537662B2 (en) Global detection of resource leaks in a multi-node computer system
JP2009025971A (ja) 情報処理装置、ログデータ収集システム
JP2011203941A (ja) 情報処理装置、監視方法、および監視プログラム
CN115801642A (zh) 基于状态控制的rdma通讯管理模块、方法、设备及介质
JPH07168790A (ja) 情報処理装置
CN113518131B (zh) 一种网络异常的传输数据容错处理方法、装置及系统
JP2012124829A (ja) 情報処理プログラム、中継装置及び中継管理装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070723

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20071023

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20071030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080421

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080519

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110523

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4129473

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110523

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120523

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130523

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130523

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R370 Written measure of declining of transfer procedure

Free format text: JAPANESE INTERMEDIATE CODE: R370

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees