JP2007304687A - クラスタ構成とその制御手段 - Google Patents

クラスタ構成とその制御手段 Download PDF

Info

Publication number
JP2007304687A
JP2007304687A JP2006130037A JP2006130037A JP2007304687A JP 2007304687 A JP2007304687 A JP 2007304687A JP 2006130037 A JP2006130037 A JP 2006130037A JP 2006130037 A JP2006130037 A JP 2006130037A JP 2007304687 A JP2007304687 A JP 2007304687A
Authority
JP
Japan
Prior art keywords
computer
node
cluster
network switch
port
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006130037A
Other languages
English (en)
Inventor
Tomonori Sekiguchi
知紀 関口
Koji Amano
光司 天野
Takahiro Ohira
崇博 大平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2006130037A priority Critical patent/JP2007304687A/ja
Priority to CN2007100915975A priority patent/CN101072125B/zh
Priority to US11/783,262 priority patent/US20070288585A1/en
Publication of JP2007304687A publication Critical patent/JP2007304687A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2048Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share neither address space nor persistent storage
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/40Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Security & Cryptography (AREA)
  • Hardware Redundancy (AREA)

Abstract

【課題】二台の計算機ノードからなる共通の記憶装置を持たないクラスタにおい
ては、ネットワークによって互いの生死を監視するが、それだけでは相手ノード
を停止していると誤判定してしまう場合がある。誤判定により系切り替えを実行
してしまうと、系切り替えの後に相手ノードが正常状態に復帰し、二台の計算機
が両方とも実行系として動作してしまうという課題がある。
【解決手段】クラスタを構成する二台のノード、クラスタと通信する他の計算機
は、各計算機が接続するポートを無効とすることが可能なスイッチで接続する。
それらのスイッチを制御するネットワーク制御プログラムが、ノードの系切り替
えと同期してノードが接続するポートの使用可否を変更する。
【選択図】図2

Description

本発明は、二台の計算機から構成するクラスタシステムの高可用化のための構成、および、制御手段に関する。特に、二台の計算機の間で共有する外部記憶装置を持たない構成のクラスタシステムの高可用化方式に関する。
計算機システムで実行する処理の可用性を向上する方式として、クラスタという考え方がある。クラスタシステムにおいては、複数の計算機に同一のプログラムをインストールしておき、その内のいくつかを実際の処理を実行する計算機とする。残りの計算機は、処理を実行している計算機で障害が発生したことを検知したときに、当該の計算機に代わって処理を実行するように制御される。
一般的なクラスタシステムは、二台の計算機で構成する。一方は実際の処理を行う計算機(実行系)であり、残りは実行系の異常に備えて実行系の処理を引き継げるように待機している計算機(待機系)となる。二台の計算機は、ネットワークを介した通信によって、定期的に互いの実行状況を監視している。また、一般に、待機系から実行系へと系を切り替える際に待機系がデータを引き継げるように、二台の計算機の両方からアクセス可能な共有の外部記憶装置を配置する。この共有記憶装置は、その時々の実行系からしかアクセスできないように排他制御の下で利用される。これを実現するアクセス手段として、SCSIプロトコルが一般的である。
このようなクラスタでは、待機系が実行系の異常を検知すると、待機系は自らを実行系に切り替える。この時に、待機系は共有記憶装置のアクセス権を奪ってから、アプリケーションの実行を開始する。アプリケーションは、共有記憶装置に格納されているデータを参照して引継ぎのための処理を実行し、実際の処理を開始する。
このようなクラスタは、クラスタ制御のためのソフトウェアと、それと連携し
て実行するアプリケーションによって構成される。また、クラスタ制御ソフトと
連携するソフトウェアの例としては、データベースが挙げられる。
一方、クラスタシステムにおいては、待機系が実行系として実行を開始するまでの時間が問題になる場合がある。上記のクラスタシステムでは、共有記憶装置のアクセス権を奪う処理と、実行系となった計算機の側での引き継ぎ処理の間は、システムは他に対してサービスを提供できない。特に、共有記憶装置のアクセス権制御は、一般には十数秒かかる処理である。
十数秒のサービス中断が許容できないシステムでは、いわゆる、パラレルクラスタとして知られる共有記憶装置を配置しないクラスタシステムを構成する例もある。この例としては、特許文献1(特開2001−109642)がある。ここでは、要求を実行系で処理し、その結果を待機系に送信し、実行系と待機系で処理状況を一致化させている。また、特許文献2(特開2001−344125)のように、実行系、待機系間の連携を二重化して系切り替えの信頼度を上げる工夫がなされている。さらに、特許文献3(特開平05−260134)のように、監視装置を階層化して、監視装置の異常に対する処理を工夫してシステムの信頼性を向上させる工夫もなされている。
また、実行系、待機系の両方の計算機が処理要求を受け取って処理する場合もある。実行系である計算機は処理結果を出力し、待機系は処理結果を内部に保存し実行系に切り替わる際に備える。両方の計算機は、互いに通信して処理の進捗を同期しながら要求の処理を進めていてもよい。
これらの方式によれば、系切り替えでは共有記憶装置のアクセス権の引継ぎが不要で、待機系は実行系として直ぐに実行を開始できる。このように待機系が実行系と同じ状態を持つように制御し、常に系切り替えに備えていることによって、待機系から実行系への切り替え時間を短縮でき、サービス中断時間を短縮できる。
クラスタシステムにおいては、二台の計算機が互いの状態を正確に把握することが重要である。共有記憶装置を持つ構成のクラスタは、ネットワークによる通信と、共有記憶装置のアクセス権制御という2つの異なる共有の媒体を利用して、相手の状態を確認する。一方のパラレルクラスタにおいては、互い、あるいは、第3者を介在させたネットワーク通信によって、二台の計算機の状態を把握する。
特開2001−109642 特開2001−344125 特開平05−260134
パラレルクラスタでは、実行系と待機系の二台の計算機を連携するための共通の媒体は相互のネットワークによる通信しかない。ネットワーク通信による状態監視では通信ができなくなったことを以って相手系が停止していると判定する。
しかしながら、ネットワーク通信による状態監視だけでは、相手系の不調のため通信が途絶したのか、目系のネットワーク処理やネットワーク機器の不調のため通信が途絶したのか、ネットワーク自身が不調なため通信が途絶したのかを、クラスタを構成する計算機では区別できない。このため、一方の計算機が、相手系は実際には停止していないのに、通信途絶によって、停止していると誤判定してしまう問題がある。
更に、何らかの要因で一時的に通信が途絶している間に待機系が誤判定により系切り替えを実行してしまうと、系切り替えの後に相手系が正常状態に復帰し、二台の計算機が両方とも実行系として動作する可能性がある。この場合、クラスタシステムが、外部のシステムを混乱させてしまう虞があり問題である。
これを解決する手段の1つとして、停止していると判定された計算機に停止することを要求する、あるいは、リセット信号等を送信して強制的に計算機を停止させる方法がある。前者の方法は、停止していると考えられる計算機に指示を送るのであるから、正常に受信できるかどうか不明であり、信頼性に欠ける問題がある。後者の方法は、計算機をリセットしてしまうため、その計算機の障害情報が消えてしまい、障害要因の解析が困難になるという問題がある。
パラレルクラスタ(第1ノード、第2ノード)を構成する二台の計算機および各クラスタの計算機と通信する他の計算機(たとえばクライアント計算機)を、各計算機が接続されるポートを独立して有効化、無効化が制御できる1台以上のネットワークスイッチで接続する。これらのネットワークスイッチには、クラスタ制御計算機を接続し、これで実行するネットワーク制御プログラムが、第1ノードを構成する計算機および第2ノードを構成する計算機が実行するクラスタ制御プログラムが待機系を実行系に切り替える前に、元々の実行系の計算機が接続するポートを無効化するように前記ネットワークスイッチの制御を実行する。これにより、元々実行系であった計算機をネットワークから切り離す。
一方、クラスタの各ノードを構成する計算機が実行するクラスタ制御プログラムは、クラスタ制御計算機が実行するネットワーク制御プログラムと連携して、前記ネットワークスイッチによる系切り替えを開始する前に、実行系の切り離しをクラスタ制御計算機が実行するネットワーク制御プログラムに要求する。
クラスタ制御計算機が実行するネットワーク制御プログラムがクラスタのノードの状態に合わせた制御を適正に実施するために、クラスタのノードを構成する計算機が実行するクラスタ制御プログラムは、クラスタ制御計算機が実行するネットワーク制御プログラムに、ノードの起動、実行系・待機系の遷移、ノードの停止といったイベントを通知する。
本発明によれば、二台の計算機で構成されるクラスタであって、クラスタの制御のために計算機間で共有する記憶装置がないクラスタ構成の場合に、相手系の状態を誤認識して系切り替えを実行してしまい、両方の計算機が実行系として振る舞うことを防止できる。
また、クラスタを構成する計算機の外部から計算機間の相互監視の状況を監視して、通信が途絶した側と判定される計算機をクラスタから隔絶することで、両系が実行系として振る舞うことを防止でき、かつ、確実に実行系の切り替えを実行できる。
また、不調である計算機を強制的に停止しなくても良いため、その計算機の障害解析に必要なデータが削除されてしまうことを防止できる。
以下に、図面を用いて本発明の実施の形態を説明する。
(実施例1)
図1は、本発明の実施例1のシステムの構成を示すブロック図である。本発明に関するクラスタは、クラスタを構成する第1ノードの計算機100と第2ノードの計算機110、クラスタ相互の通信ネットワークを形成する内部ネットワークスイッチ120、それぞれのクラスタにアクセスするクライアント計算機、それぞれのクラスタとクライアント計算機相互の通信ネットワークを形成する外部ネットワークスイッチ130、各クラスタからの情報を受けて、前記それぞれのネットワークスイッチのポートの有効化、無効化を制御するプログラムを実行するクラスタ制御計算機140から構成する。
第1ノードの計算機100および第2ノードの計算機110は、通常の計算機であり、それぞれ、CPU104,114およびメモリ105,115、これらをバス106,116へ接続するのを制御するバス制御装置107,117、ディスクアダプタ108,118を介してバス106,116へ接続される記憶装置109,119を備える。これらの計算機は、バス106,116と外部ネットワークスイッチ130を接続するための外部ネットワークアダプタ101,111、各ノードの計算機100,110の実行系・待機系の切り替えを制御し、各ノードの計算機100,110と内部ネットワークスイッチ120とを接続するための制御ネットワークアダプタ102,112および各ノードの計算機の実行系・待機系の評価とともに、各ノードの計算機100,110と内部ネットワ一クスイッチ120とを接続するための内部ネットワークアダプタ103,113を備える。
外部ネットワークアダプタ101,111はポート130,130を介して外部ネットワークスイッチ130に接続される。また、クライアント計算機150はポート130を介して外部ネットワークスイッチ130に接続される。第1ノードの計算機100が実行系であれば、ポート130,130のみが有効化され、第1ノードの計算機100とクライアント計算機150が接続される。第2ノードの計算機110が実行系であれば、ポート130,130のみが有効化され、第2ノードの計算機110とクライアント計算機150が接続される。
また、内部ネットワークアダプタ103,113はポート120,120を介して内部ネットワークスイッチ120に接続され、相互に自ノードの計算機100,110の状態についての情報を伝達する。
制御ネットワークアダプタ102,112はポート120,120を介して内部ネットワークスイッチ120に接続される。また、内部ネットワークスイッチ120にはポート120を介してクラスタ制御計算機140が接続される。制御ネットワークアダプタ102,112は前記内部ネットワークアダプタ103,113を介して得られる他ノードの計算機110,100の状態についての情報と自ノードの計算機100,110の状態に応じた制御信号を相互に交換するとともに、クラスタ制御計算機140とも制御信号を交換する。クラスタ制御計算機140は、収集した情報を基礎に、内部ネットワークスイッチ120および外部ネットワークスイッチ130の各ポートに有効化あるいは無効化の信号を送る。
第1ノードの計算機100の内部ネットワークアダプタ103と第2ノードの計算機110の内部ネットワークアダプタ113が、内部ネットワークスイッチ120を介して相互に通信するために構成するネットワークおよび第1ノードの計算機100、第2ノードの計算機110、クラスタ制御計算機140が、内部ネットワークスイッチ120を介してクラスタの制御に関する通信を行うために構成するネットワークは、内部ネットワークスイッチ120の設定により実現される。
図2は、実施例1におけるクラスタ制御を実現する手順を実行するプログラムの構成に着目したブロック図である。各ノードの計算機100,110各プログラムは、それが実行される計算機の記憶装置108,118に格納されており、実行時はメモリ105,115にロードされて、CPU104,114がプログラムを実行するが、簡単にプログラムを実行する、と簡明に表現することとする。クラスタ制御計算機140については、記憶装置、メモリ、CPUおよび内部ネットワークアダプタ103,113、外部ネットワークアダプタ101,111に対応するアダプタについて図示しなかったが、各ノードの計算機100,110と同様に、記憶装置、メモリ、およびCPUおよびアダプタを備えるものであることは言うまでもない。また、保持しているプログラムの実行についても同様である。
クラスタを構成する各ノードの計算機100,110は、クラスタの外部、すなわち、クライアント計算機150に実際のサービスを提供するサービスプログラム201,211、クラスタの構成の制御を実施するクラスタ制御プログラム202,212、クラスタ制御計算機140にノードの実行状態の変更を連絡するネットワーク制御連携プログラム203,213を備え、実行される。
クラスタ制御計算機140は、内部ネットワークスイッチ120の各クラスタの接続ポートの有効化、無効化のネットワーク状況を監視する内部ネットワーク監視プログラム241、外部ネットワークスイッチ130の各クラスタの接続ポートの有効化、無効化の設定を変更するネットワーク制御プログラム242を備え、実行している。また、それらが参照する設定データを保持するスイッチ構成テーブル500,クラスタ構成テーブル510を備える。これらについては、後述する。
次に、実施例1における各プログラムの動作について説明する。
各ノードのクラスタ制御プログラム202,212は、各ノードの運転モードを管理するプログラムである。クラスタ制御プログラム202,212は、内部ネットワークスイッチ120を介して互いに相手ノードの実行状態を監視している。例えば、第1ノードの計算機100で実行するクラスタ制御プログラム202と第2ノードの計算機110で実行するクラスタ制御プログラム212は、制御ネットワークアダプタ102が接続される内部ネットワークスイッチ120のポート120、制御ネットワークアダプタ112が接続されるポート120を通じて、相互に、一定の周期で継続してメッセージを送る。それぞれのクラスタ制御プログラム202,212は相手ノードからのメッセージが一定の周期で継続して受信されるのを確認する。この相互の通信によって、各ノードの計算機100,110は相互に実行状態を監視している。
各ノードの計算機の運転モードは、クラスタ制御プログラム202,212が実行していない停止状態、クラスタ制御202,212は実行しているがサービスプログラム201,212が実行していない開始状態、サービスプログラム201,212がサービスを提供している実行状態、サービスプログラム201,212が実行しているが処理結果を出力していない待機状態のいずれかである。
各ノードの計算機の運転モードの遷移について説明する。ノードの計算機を起動すると、運転モードは停止状態から開始状態へと遷移する。開始状態から実行状態、あるいは、待機状態への遷移は、通常、クラスタのオペレータの指示により実行する。自ノードの計算機が待機状態であるときに、相手ノードの計算機が待機状態になった、あるいは、実行状態であった相手ノードの計算機の運転状態が不明になった場合、クラスタ制御プログラム202,212が、自ノードの計算機の運転モードを待機状態から運転状態に遷移させる。オペレータの指示により実行状態のノードと待機状態のノードを入れ替える場合は、実行状態のノードを待機状態に遷移させる。これにより、待機状態にあった相手ノードのクラスタ制御プログラムが、実行状態にあったノードが待機状態に遷移したことを検知するようにして実施する。
サービスプログラム201,211は、クラスタ制御プログラム202,212と連携して、外部ネットワークアダプタ101,111が接続される外部ネットワークスイッチ130のポート130,130、クライアント計算機150が接続されるポート130を介して、クライアント計算機150から送信されたサービス要求を処理する。クラスタ制御プログラム202,212とサービスプログラム201,212との連携は、サービスプログラム201,212を実行しているノードの計算機100,110の実行状態の取得を含む。
第1ノードの計算機100の運転モードが実行状態である場合、サービスプログラム201は要求の処理結果を出力する。この時、待機状態である第2ノードの計算機110では、サービスプログラム211は、処理結果を外部に出力せずに計算機110の内部、例えばディスク119、に記録する。記録するデータの内容は、第2ノードの計算機110が実行状態になったときに、サービスプログラム211が実行状態としてサービス要求処理の処理結果として出力するに足るデータである。また、実行系と待機系のサービスプログラム同士が連携して、リクエスト処理の進捗を同期していても良い。
図3は本発明の実施例1におけるクラスタの系切り替え手順の前半を示す処理フローである。これを参照して、第1ノードの計算機100の動作を主体に運転モードの遷移について説明する。
第1ノードの計算機100では、クラスタ制御プログラム202の監視処理は、第2ノードの計算機110からの一定周期のメッセージの受信に備えて待機している(ステップ301)。この受信処理は、内部ネットワークスイッチ120のポート120該こ接続されている内部ネットワークアダプタ103に一定時間メッセージが到着しない場合、失敗する。内部ネットワークアダプタ103にメッセージが正常に受信された場合(ステップ302の判定がYes)は、メッセージ待機を繰り返す。第2ノードの計算機110からのメッセージ受信に失敗した場合(ステップ302の判定がNo)には、第2ノードの計算機110が停止しているのかどうか判定する(ステップ303)。この判定の方法は様々の方法があるが、一般には、予め定めた期間連続してメッセージの正常受信に失敗した場合に第2ノードの計算機110が停止していると判定する。停止していると判定できない場合は、メッセージの受信処理(ステップ301)に戻る。
ステップ303で第2ノードの計算機110が停止していると判定された場合は、状態遷移(系切り替え処理)が必要かどうかを判定する(ステップ304)。状態遷移が必要と判定されたときは、第1ノードの計算機100の運転モードが待機状態であるか判定する(ステップ305)。判定がNo、すなわち、第1ノードの計算機100の運転モードが実行状態である場合には系切り替えに関しては何もしないが、もし、待機状態である場合は、状態遷移開始処理(ステップ306)を実行する。この場合、ステップ306は、系切り替え処理を起動する処理である。
以上が、パラレルクラスタの基本的な動作である。次に、本発明を実現するための追加される手順について説明する。
一般に、クラスタのノードの計算機100,110で実行するクラスタ制御プログラム202,212は、ノードの計算機の運転モードの変更を開始する時に、そのノードの計算機が提供するサービスにあわせた処理を組み込むことができるインターフェイスを持っている。本発明では、これを前提とする。本発明では、このインターフェイスを用いて、ネットワーク制御連携プログラム203,213が組み込まれる。これらネットワーク制御連携プログラム203,213は、クラスタ制御プログラム202,212の起動時と停止時、ノードの計算機の運転モード遷移時に実行される。
以下に、本発明における系切り替え処理について説明する。図3に示すフローの状態遷移開始処理(ステップ306)は系切り替え処理を起動する処理である。系切り替え処理は、状態遷移開始処理(ステップ306)にトリガーされて、組み込まれているネットワーク制御連携プログラム203を起動する(ステップ311)。この時、現在の運転モードと、新しく設定される運転モードをパラメータとしてネットワーク制御連携プログラム203に渡す。系切り替え処理は、ネットワーク制御連携プログラム203の起動後、その終了を待機する(ステップ312)。ステップ312の終了待機処理は、予め定義された時間でタイムアウトしても良い。
ネットワーク制御連携プログラム203は、クラスタ制御計算機140で実行するネットワーク制御プログラム242に、第1ノードの計算機100で運転モード遷移が開始された旨を連絡し(ステップ321)、ネットワーク制御プログラム242の処理(ネットワーク遮断処理、すなわち、外部ネットワークスイッチ130のポート130の無効化)完了を待機し(ステップ322)、処理完了後に終了する。ステップ322における待機処理は、予め定義された時間でタイムアウトしても良い。
連携プログラム203の終了を受けて、クラスタ制御プログラム202の系切り替え処理は、ノードの計算機の運転モードの変更処理を実施する(ステップ313)。
クラスタ制御プログラム202の起動処理と停止処理も、同様に、ネットワーク制御連携プログラム203を起動する処理を含む。これは、図3のステップ306からと同様の処理である。つまり、起動時は停止から開始への遷移であり、停止時はその時のモードから停止への遷移である。これらの処理フローは省略する。
図4は本発明の実施例1におけるクラスタの系切り替え手順の後半を示す処理フローである。これを参照して、ノードの計算機の運転モードの遷移と連携してクラスタのネットワーク構成を変更するクラスタ制御計算機140のネットワーク制御プログラム242の処理フローについて説明する。ここでも、第1ノードの計算機100の動作を主体に説明する。
ネットワーク制御プログラム242は、クラスタのノードの計算機からの運転モード遷移の通知を待機している(ステップ401)。遷移の通知は、第1ノードの計算機100の制御ネットワークアダプタ102、第2ノードの計算機110の制御ネットワークアダプタ112が接続されるポート120,120を介して内部ネットワークスイッチ120に導入されて、ポート120によりクラスタ制御計算機140にステップ313で伝達される。
運転モード遷移の通知を受信すると、受け取った遷移の内容から処理を分岐する(ステップ402)。例えば、前述の相手ノードの計算機異常による系切り替え処理では、第2ノードの計算機110を停止と判定した第1ノードの計算機100のクラスタ制御プログラム202は、第1ノードの計算機100の運転モードが待機モードであるときは待機モードから実行モードに変更する。ネットワーク制御プログラム242は、この遷移の内容からステップ403に処理を移す。ステップ403では、運転モードを遷移するとの通知を送信した第1ノードの計算機100の相手の第2ノードの計算機110を、内部ネットワークスイッチ120と外部ネットワークスイッチ130から切断する。具体的には、ネットワーク制御プログラム242は、内部ネットワークスイッチ120と、外部ネットワークスイッチ130に対して、第2ノードの計算機110の内部ネットワークアダプタ113と外部ネットワークアダプタ111が接続するポート120,130を無効化するように指示する。
ネットワーク制御連携プログラム203の通知(ステップ401)がクラスタ制御プログラム202の起動処理、すなわち、クラスタノードの計算機の停止から開始への遷移である起動時には、運転モード遷移通知元の第1ノードの計算機100が接続される内部ネットワークスイッチ120のポート120と外部ネットワークスイッチ130のポート130を有効化するように指示する。(ステップ404)。逆に、クラスタノードの計算機を停止する場合、つまり、クラスタ制御プログラム202を停止する場合は、これらのポートを無効化する(ステップ405)。それ以外の遷移、実行→待機、実行・待機→開始の場合は、何もしない(図4のフローには記載なし)。
これらの処理のあと、通知の送信元にネットワーク構成変更の完了通知を送信する(ステップ406)。
次に、クラスタ制御計算機140が保持するデータ構造について、実施例1のデータ構造を図5(a)、(b)を参照して説明する。このデータ構造は、例えば、クラスタ制御計算機140内の設定ファイルに、クラスタ制御計算機140で実行するプログラムが解釈可能な形式で記録され、それらのプログラムが参照可能である。クラスタ制御計算機140に、このような設定ファイルを作成する手順があってもよい。
図5(a)に示す500はスイッチ構成テーブルである。このテーブル500は、クラスタのネットワークを構成している内部ネットワークスイッチ120、外部ネットワークスイッチ130の情報を保持する。例えば、内部ネットワークスイッチ120、外部ネットワークスイッチ130の設定を変更する要求の送信先となる制御用ネットワークアドレス、実際にポートの有効化、無効化の制御や統計情報の取得を行う処理を実装する制御プログラムのパスなどを格納する。
図5(b)に示す510はクラスタ構成テーブルである。このテーブル510には、クラスタの各ノードの計算機がスイッチのどのポートに接続しているかを保持する。例えば、内部ネットワークスイッチ120とそのポートの番号、外部ネットワークスイッチ130とそのポート番号を記録する。
ネットワーク制御プログラム242は、これらのテーブル500,510を参照して、クラスタのネットワーク構成を変更できる。
クラスタ制御計算機140は、上記の設定内容をテーブルに格納する手順も有している。
また、テーブル510には、過去に取得した統計情報に関する記録に関するデータを記載しても良い。これについては、実施例2で説明する。
以上により、クラスタの運転モード遷移と連携して、系切り替え時にクラスタを構成するネットワーク構成を変更することができる。これにより、相互監視により停止していると判定されたノードの計算機をクラスタから切り離すことができ、確実に障害を発生しているノードの計算機の影響を遮断できる。加えて、相手ノードの計算機が一時的に停止している場合でも、2つのノードの計算機の運転モードが両方とも実行状態となることが確実に防止可能となる。
(実施例2)
実施例2では、実施例1の制御に加えて、以下の制御を実行するものとする。クラスタ制御計算機140で実行するネットワーク制御プログラム242が、ノードの計算機の相互監視のためのネットワークを構成している内部ネットワークスイッチ120のポートの送受信の統計情報を参照し、相手ノードの計算機からの通信が途絶していると判定される場合にクラスタ制御プログラム202,212に通知し、系切り替えを要求する。あるいは、ネットワーク制御プログラム242が、通信が途絶していると判定した相手ノードの計算機が接続するポートを無効化するようにスイッチの制御を実施する。
次に、本発明の実施例2について具体的に説明する。実施例2では、クラスタ制御計算機140が、内部ネットワークスイッチ120が収集している内部ネットワークの通信状況に関する統計情報を参照して、クラスタのネットワーク構成を変更することにより、障害が発生していると疑われるノードの計算機を隔離する方式を実現する。
一般に、ネットワークを構成するネットワークスイッチは、計算機が接続される各ポートの単位でパケット送受信数等の統計情報を記録している。また、これらの統計情報は、外部から参照可能となっている。
実施例2では、クラスタ制御計算機140で実行する内部ネットワーク監視プログラム241が、内部ネットワークを構成する内部ネットワークスイッチ120が取得している統計情報を取得する。具体的には、第1ノードの計算機100の内部ネットワークアダプタ103および第2ノードの計算機110の内部ネットワークアダプタ113のそれぞれが接続している内部ネットワークスイッチ120のポート120およびポート120のネットワーク統計情報を取得する。
図6に、内部ネットワーク監視プログラム241の処理フローを示す。内部ネットワーク監視プログラム241は、一定の周期でステップ601ないし602の処理を実行する。まず、スイッチ構成テーブル500とクラスタ構成テーブル510を参照して、内部ネットワークを構成している内部ネットワークスイッチ120のポートのネットワーク統計情報を取得する(ステップ601)。具体的には、クラスタ構成テーブル510の内部ネットワークの定義を参照して当該スイッチとポートの番号を求め、その統計情報を取得し記録する。
図5(b)に示すテーブル510では、第1ノードの内部ネットワークスイッチポートは120−120と記載しているが、第1ノードは内部ネットワークスイッチ120の第1ポート120、第3ポート120で内部ネットワークに接続していることを意味する。これは図1の構成では、内部ネットワークスイッチ120のポート120に内部ネットワークアダプタ103が接続され、内部ネットワークスイッチ120のポート120に制御ネットワークアダプタ102が接続されていることを意味する。同様に、第2ノードの内部ネットワークスイッチポートは120−120と記載しているが、第2ノードは内部ネットワークスイッチ120の第2ポート120、第4ポート120で内部ネットワークスイッチ120に接続されていることを意味する。一方、第1ノードの外部ネットワークスイッチポートは130と記載しているが、第1ノードは外部ネットワークスイッチ130の第1ポート130で外部ネットワークに接続していることを意味する。これは図1の構成では、外部ネットワークスイッチ130のポート130に外部ネットワークアダプタ101が接続されていることを意味する。同様に、第2ノードは外部ネットワークスイッチ130のポート130で外部ネットワークスイッチ130に接続されていることを意味する。更に、テ一ブル500を参照すれば、内部ネットワークスイッチ120から統計情報を取得するのに必要な管理ネットワークのアドレスや、スイッチ制御プログラムを取得できる。これらにより、内部ネットワークを構成するポートに関する統計情報を取得する。
次に、取得した統計情報に基づいて、クラスタのノードの運転状態を判定する(ステップ602)。判定の条件は様々であるが、例えば、ノードから内部ネットワークスイッチ120に対してある一定時間以上データの送信がない場合は、そのノードが停止していると判定する、といったことが可能である。
異常であると判定されたノードがある場合、そのノードが内部ネットワーク、外部ネットワークに接続するために利用しているポートを無効化する(ステップ603)。ここでも、テーブル510を参照すれば、無効化しなければならないスイッチ、及び、そのポート番号を取得できる。異常であると判定されたノードの運転モードが実行状態で、相手ノードが待機状態であれば、相手ノードのクラスタ制御プログラム202,212が系切り替えを実行し、待機状態から実行状態へ運転モードを遷移する。
以上により、クラスタの内部ネットワークをスイッチで構成し、そこで収集される統計情報から異常と判定されるノードを、クラスタから隔離することができる。これによって、ノードで実行するクラスタ制御プログラム202や212とは独立して、障害を発生しているノードをクラスタから切り離せる。例えば、クラスタ制御プログラムや何らかの要因によってノードの運転モードが変更できなくなってしまった場合でも、そのノードを切り離すことができ、外部への影響を抑えることができる。
加えて、異常なノードの計算機が接続するポートを無効化することに加えて、クラスタ制御計算機140から、残存したノードの計算機に系切り替えを実行するよう指示しても良い(ステップ604)。指示されたノードの計算機は、その時点で運転モードが待機状態ならば、系切り替えを起動して実行状態に遷移する処理を開始することができる。これによって、ノードの計算機のクラスタ制御プログラムが異常を検知するのを待つことなく、系切り替え処理を開始できる。
実施例2では、クラスタの内部ネットワークを1つの内部ネットワークスイッチ120で構成したが、複数のスイッチで構成されていても良い。この場合、ノードの計算機には内部ネットワークに接続するためのネットワークアダプタを複数搭載し、クラスタ構成テーブル510の内部ポートに複数のポートを記載しておけば良い。ネットワーク制御プログラム242は、テーブル510に記載されている全てのポートの有効化・無効化を実施する。また、内部ネットワーク監視プログラム241も、テーブル510記載の全ての内部ポートの統計情報を取得してノードの計算機の運転状態を判断すればよい。これによって、内部ネットワークを構成する内部ネットワークスイッチ120の1つが故障しても、クラスタとしての動作を継続させることが可能となる。
なお、上述の実施例では、内部ネットワークスイッチ120、外部ネットワークスイッチ130を別のものとして構成したが、これらは、ひとつのネットワークスイッチとしてもよいことは言うまでも無い。
共有の記憶装置を持たずに、ネットワークによる通信で処理を二重化するクラスタに適用可能である。
本発明の実施例1のシステムの構成を示すブロック図である。 実施例1におけるクラスタ制御を実現する手順を実行するプログラムの構成に着目したブロック図である。 本発明の実施例1におけるクラスタの系切り替え手順の前半を示す処理フローである。 本発明の実施例1におけるクラスタの系切り替え手順の後半を示す処理フローである。 (a)、(b)は本発明の実施例におけるクラスタ制御計算機が保持するデータ構造の例を示す図である。 本発明の実施例2における内部ネットワークの監視の手順を示す処理フローである。
符号の説明
100,110…ノードの計算機、101,111…外部ネットワークアダプタ、102,112…制御ネットワークアダプタ、103,113…内部ネットワークアダプタ、120…内部ネットワークスイッチ、130…外部ネットワークスイッチ、140…クラスタ制御計算機、150…クライアント計算機、201,211…サービスプログラム、202,212…クラスタ制御プログラム、203,213…ネットワーク制御連携プログラム、241…内部ネットワーク監視プログラム、242…ネットワーク制御プログラム、500…スイッチ構成テーブル、510…クラスタ構成テーブル。

Claims (5)

  1. 二つのノードを形成する計算機と、
    前記二つの計算機が相互に情報を交換してそれぞれ他の計算機の生死監視を実施する内部ネットワークスイッチと、
    前記二つの計算機と前記二つの計算機にアクセスしてサービスを受けるクライアント計算機とを接続するための外部ネットワークスイッチと、
    前記内部ネットワークスイッチに接続され、前記二つの計算機の一つの計算機が前記クライアント計算機からの要求を処理する主系、他方を主系の処理を引き継ぐよう待機している従系として運転モードを制御するクラスタ制御計算機と、
    よりなり、
    前記内部ネットワークスイッチおよび外部ネットワークスイッチと前記各計算機との接続は接続の有効化、無効化が外部から制御可能なポートで接続されるとともに、
    前記二つの計算機は内部ネットワークスイッチを通した情報交換によって運転モード遷移の要否を判定するとともに、前記クラスタ制御計算機は前記運転モード遷移通知を受けてノードが接続するネットワークスイッチのポートの有効化、無効化を変更することを特徴とするクラスタシステム。
  2. 前記ノードの計算機の運転モードを待機状態から運転状態に遷移する場合に、前記クラスタ制御計算機は、先に運転状態にあった他ノードの計算機が接続されている前記内部ネットワークスイッチのポートと、前記クライアント計算機にサービス提供のために前記他ノードの計算機が接続されている前記外部ネットワークスイッチのポートを無効化する請求項1記載のクラスタシステム。
  3. 前記ノードの計算機の運転モードを停止状態から開始状態に遷移する場合に、前記クラスタ制御計算機は、当該計算機が接続されている前記内部ネットワークスイッチのポートと、前記クライアント計算機にサービス提供のために前記他ノードの計算機が接続されている前記外部ネットワークスイッチのポートを有効化する請求項1記載のクラスタシステム。
  4. 前記ノードの計算機の運転モードを停止状態に遷移する場合に、前記クラスタ制御計算機は、当該計算機が接続されている前記内部ネットワークスイッチのポートと、前記クライアント計算機にサービス提供のために前記他ノードの計算機が接続されている前記外部ネットワークスイッチのポートを無効化する請求項1記載のクラスタシステム。
  5. 前記クラスタ制御計算機は、前記内部ネットワークスイッチのポートの有効化、無効化に関するデータを収集するものであるとともに、当該データを参照して前記内部ネットワークスイッチに接続されている計算機の運転モード遷移の要否を判定するとともに、前記クラスタ制御計算機は前記運転モード遷移通知を受けてノードが接続するネットワークスイッチのポートの有効化、無効化を変更する請求項1記載のクラスタシステム。
JP2006130037A 2006-05-09 2006-05-09 クラスタ構成とその制御手段 Pending JP2007304687A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2006130037A JP2007304687A (ja) 2006-05-09 2006-05-09 クラスタ構成とその制御手段
CN2007100915975A CN101072125B (zh) 2006-05-09 2007-03-29 集群结构及其控制单元
US11/783,262 US20070288585A1 (en) 2006-05-09 2007-04-06 Cluster system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006130037A JP2007304687A (ja) 2006-05-09 2006-05-09 クラスタ構成とその制御手段

Publications (1)

Publication Number Publication Date
JP2007304687A true JP2007304687A (ja) 2007-11-22

Family

ID=38823210

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006130037A Pending JP2007304687A (ja) 2006-05-09 2006-05-09 クラスタ構成とその制御手段

Country Status (3)

Country Link
US (1) US20070288585A1 (ja)
JP (1) JP2007304687A (ja)
CN (1) CN101072125B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR200452322Y1 (ko) 2009-02-05 2011-02-21 주식회사 건우씨텍 크레들을 구비하는 네트워크 분리용 컴퓨터
WO2012114443A1 (ja) * 2011-02-21 2012-08-30 富士通株式会社 プロセッサ管理方法
WO2013111240A1 (ja) * 2012-01-25 2013-08-01 株式会社 東芝 二重化制御システムおよびその制御方法

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1738258A4 (en) 2004-03-13 2009-10-28 Cluster Resources Inc SYSTEM AND METHOD IMPLEMENTING OBJECT TRIGGERS
US8782654B2 (en) 2004-03-13 2014-07-15 Adaptive Computing Enterprises, Inc. Co-allocating a reservation spanning different compute resources types
US20070266388A1 (en) 2004-06-18 2007-11-15 Cluster Resources, Inc. System and method for providing advanced reservations in a compute environment
US8176490B1 (en) 2004-08-20 2012-05-08 Adaptive Computing Enterprises, Inc. System and method of interfacing a workload manager and scheduler with an identity manager
CA2827035A1 (en) 2004-11-08 2006-05-18 Adaptive Computing Enterprises, Inc. System and method of providing system jobs within a compute environment
US8863143B2 (en) 2006-03-16 2014-10-14 Adaptive Computing Enterprises, Inc. System and method for managing a hybrid compute environment
US9075657B2 (en) 2005-04-07 2015-07-07 Adaptive Computing Enterprises, Inc. On-demand access to compute resources
US9231886B2 (en) 2005-03-16 2016-01-05 Adaptive Computing Enterprises, Inc. Simple integration of an on-demand compute environment
US8209417B2 (en) * 2007-03-08 2012-06-26 Oracle International Corporation Dynamic resource profiles for clusterware-managed resources
US7870417B2 (en) * 2007-04-20 2011-01-11 International Business Machines Corporation Apparatus, system, and method for adapter card failover
US8041773B2 (en) 2007-09-24 2011-10-18 The Research Foundation Of State University Of New York Automatic clustering for self-organizing grids
WO2009042856A1 (en) * 2007-09-28 2009-04-02 Allied Telesis, Inc. Method and apparatus for preventing network conflict
US9465771B2 (en) 2009-09-24 2016-10-11 Iii Holdings 2, Llc Server on a chip and node cards comprising one or more of same
US8599863B2 (en) 2009-10-30 2013-12-03 Calxeda, Inc. System and method for using a multi-protocol fabric module across a distributed server interconnect fabric
US20130107444A1 (en) 2011-10-28 2013-05-02 Calxeda, Inc. System and method for flexible storage and networking provisioning in large scalable processor installations
US9077654B2 (en) 2009-10-30 2015-07-07 Iii Holdings 2, Llc System and method for data center security enhancements leveraging managed server SOCs
US20110103391A1 (en) 2009-10-30 2011-05-05 Smooth-Stone, Inc. C/O Barry Evans System and method for high-performance, low-power data center interconnect fabric
US9054990B2 (en) 2009-10-30 2015-06-09 Iii Holdings 2, Llc System and method for data center security enhancements leveraging server SOCs or server fabrics
US9876735B2 (en) 2009-10-30 2018-01-23 Iii Holdings 2, Llc Performance and power optimized computer system architectures and methods leveraging power optimized tree fabric interconnect
US9069929B2 (en) 2011-10-31 2015-06-30 Iii Holdings 2, Llc Arbitrating usage of serial port in node card of scalable and modular servers
US20110078472A1 (en) * 2009-09-25 2011-03-31 Electronics And Telecommunications Research Institute Communication device and method for decreasing power consumption
US9680770B2 (en) 2009-10-30 2017-06-13 Iii Holdings 2, Llc System and method for using a multi-protocol fabric module across a distributed server interconnect fabric
US9648102B1 (en) 2012-12-27 2017-05-09 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US9311269B2 (en) 2009-10-30 2016-04-12 Iii Holdings 2, Llc Network proxy for high-performance, low-power data center interconnect fabric
US11720290B2 (en) 2009-10-30 2023-08-08 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
US10877695B2 (en) 2009-10-30 2020-12-29 Iii Holdings 2, Llc Memcached server functionality in a cluster of data processing nodes
SE537688C2 (sv) * 2010-07-26 2015-09-29 Connectblue Ab Metod och anordning för roaming i ett lokalt kommunikationssystem
CN102170398B (zh) * 2011-05-09 2016-09-28 中兴通讯股份有限公司 外接时间端口的倒换方法及装置
US20120322479A1 (en) * 2011-06-15 2012-12-20 Renesas Mobile Corporation Communication link monitoring and failure handling in a network controlled device-to-device connection
JP5910811B2 (ja) * 2011-07-27 2016-04-27 日本電気株式会社 スイッチ装置の制御システム、その構成制御装置および構成制御方法
US9477739B2 (en) 2011-09-23 2016-10-25 Hybrid Logic Ltd System for live-migration and automated recovery of applications in a distributed system
US9547705B2 (en) 2011-09-23 2017-01-17 Hybrid Logic Ltd System for live-migration and automated recovery of applications in a distributed system
US9501543B2 (en) 2011-09-23 2016-11-22 Hybrid Logic Ltd System for live-migration and automated recovery of applications in a distributed system
US10331801B2 (en) 2011-09-23 2019-06-25 Open Invention Network, Llc System for live-migration and automated recovery of applications in a distributed system
US10311027B2 (en) 2011-09-23 2019-06-04 Open Invention Network, Llc System for live-migration and automated recovery of applications in a distributed system
US9483542B2 (en) 2011-09-23 2016-11-01 Hybrid Logic Ltd System for live-migration and automated recovery of applications in a distributed system
GB2495079A (en) * 2011-09-23 2013-04-03 Hybrid Logic Ltd Live migration of applications and file systems in a distributed system
US10826811B1 (en) * 2014-02-11 2020-11-03 Quest Software Inc. System and method for managing clustered radio networks
CN105991305B (zh) * 2015-01-28 2019-06-14 中国移动通信集团四川有限公司 一种识别链路异常的方法及装置
CN107171820B (zh) * 2016-03-08 2019-12-31 北京京东尚科信息技术有限公司 信息传输、发送、获取方法和装置
US10243780B2 (en) * 2016-06-22 2019-03-26 Vmware, Inc. Dynamic heartbeating mechanism
US11368298B2 (en) 2019-05-16 2022-06-21 Cisco Technology, Inc. Decentralized internet protocol security key negotiation
US11539788B2 (en) * 2019-05-28 2022-12-27 Hitachi, Ltd. Information processing system and method of controlling information processing system

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59194253A (ja) * 1983-03-31 1984-11-05 Fujitsu Ltd 障害装置判定方式
JPH06175868A (ja) * 1992-12-04 1994-06-24 Kawasaki Steel Corp 二重化計算機故障監視方法
JPH096638A (ja) * 1995-06-22 1997-01-10 Toshiba Corp 二重化計算機システム及びその切り替え装置
JPH1011369A (ja) * 1996-06-27 1998-01-16 Hitachi Ltd 通信システムおよびホットスタンバイ切替機能を備える情報処理装置
JPH11203157A (ja) * 1998-01-13 1999-07-30 Fujitsu Ltd 冗長装置
JPH11345140A (ja) * 1998-06-01 1999-12-14 Mitsubishi Electric Corp 二重系監視システムおよび二重系監視方法
JP2000181501A (ja) * 1998-12-14 2000-06-30 Hitachi Ltd 二重化制御装置
JP2002312189A (ja) * 2001-01-12 2002-10-25 Hitachi Ltd クラスターシステムにおける遠隔ミラーを使用した障害通知方法及びシステム
JP2004246621A (ja) * 2003-02-13 2004-09-02 Fujitsu Ltd 情報採取プログラム、情報採取装置および情報採取方法

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5321813A (en) * 1991-05-01 1994-06-14 Teradata Corporation Reconfigurable, fault tolerant, multistage interconnect network and protocol
US5906658A (en) * 1996-03-19 1999-05-25 Emc Corporation Message queuing on a data storage system utilizing message queuing in intended recipient's queue
US5663966A (en) * 1996-07-24 1997-09-02 International Business Machines Corporation System and method for minimizing simultaneous switching during scan-based testing
US6363497B1 (en) * 1997-05-13 2002-03-26 Micron Technology, Inc. System for clustering software applications
US6134673A (en) * 1997-05-13 2000-10-17 Micron Electronics, Inc. Method for clustering software applications
WO2001084313A2 (en) * 2000-05-02 2001-11-08 Sun Microsystems, Inc. Method and system for achieving high availability in a networked computer system
US6856591B1 (en) * 2000-12-15 2005-02-15 Cisco Technology, Inc. Method and system for high reliability cluster management
US6785678B2 (en) * 2000-12-21 2004-08-31 Emc Corporation Method of improving the availability of a computer clustering system through the use of a network medium link state function
US6895534B2 (en) * 2001-04-23 2005-05-17 Hewlett-Packard Development Company, L.P. Systems and methods for providing automated diagnostic services for a cluster computer system
JP4782941B2 (ja) * 2001-05-16 2011-09-28 サンデン株式会社 車両用空気調和装置
US6910078B1 (en) * 2001-11-15 2005-06-21 Cisco Technology, Inc. Methods and apparatus for controlling the transmission of stream data
US6823807B2 (en) * 2002-01-31 2004-11-30 Melco Industries, Inc. Computerized stitching including embroidering
US7308333B2 (en) * 2002-01-31 2007-12-11 Melco Industries, Inc. Computerized stitching including embroidering
US7421478B1 (en) * 2002-03-07 2008-09-02 Cisco Technology, Inc. Method and apparatus for exchanging heartbeat messages and configuration information between nodes operating in a master-slave configuration
CN1294509C (zh) * 2002-09-06 2007-01-10 劲智数位科技股份有限公司 具有分布式负载平衡系统的集群计算机
US6865597B1 (en) * 2002-12-20 2005-03-08 Veritas Operating Corporation System and method for providing highly-available volume mount points
US6862540B1 (en) * 2003-03-25 2005-03-01 Johnson Controls Technology Company System and method for filling gaps of missing data using source specified data
US7451208B1 (en) * 2003-06-28 2008-11-11 Cisco Technology, Inc. Systems and methods for network address failover
US20050028028A1 (en) * 2003-07-29 2005-02-03 Jibbe Mahmoud K. Method for establishing a redundant array controller module in a storage array network
US20050105554A1 (en) * 2003-11-18 2005-05-19 Michael Kagan Method and switch system for optimizing the use of a given bandwidth in different network connections
US6996502B2 (en) * 2004-01-20 2006-02-07 International Business Machines Corporation Remote enterprise management of high availability systems
TWI235299B (en) * 2004-04-22 2005-07-01 Univ Nat Cheng Kung Method for providing application cluster service with fault-detection and failure-recovery capabilities
US20060053216A1 (en) * 2004-09-07 2006-03-09 Metamachinix, Inc. Clustered computer system with centralized administration
US8194534B2 (en) * 2005-02-28 2012-06-05 International Business Machines Corporation Blade server system with at least one rack-switch having multiple switches interconnected and configured for management and operation as a single virtual switch
US20060206602A1 (en) * 2005-03-14 2006-09-14 International Business Machines Corporation Network switch link failover in a redundant switch configuration
JP4437984B2 (ja) * 2005-08-24 2010-03-24 アラクサラネットワークス株式会社 ネットワーク中継装置及びその制御方法
US7525957B2 (en) * 2005-09-01 2009-04-28 Emulex Design & Manufacturing Corporation Input/output router for storage networks
JP4246248B2 (ja) * 2005-11-11 2009-04-02 富士通株式会社 クラスタシステムのコンピュータにおいて実行されるネットワークモニタ・プログラム、情報処理方法及びコンピュータ
EP2238535A4 (en) * 2007-12-20 2011-03-09 Virtual Computer Inc SYSTEMS AND METHODS FOR VIRTUAL COMPUTER MANAGEMENT

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59194253A (ja) * 1983-03-31 1984-11-05 Fujitsu Ltd 障害装置判定方式
JPH06175868A (ja) * 1992-12-04 1994-06-24 Kawasaki Steel Corp 二重化計算機故障監視方法
JPH096638A (ja) * 1995-06-22 1997-01-10 Toshiba Corp 二重化計算機システム及びその切り替え装置
JPH1011369A (ja) * 1996-06-27 1998-01-16 Hitachi Ltd 通信システムおよびホットスタンバイ切替機能を備える情報処理装置
JPH11203157A (ja) * 1998-01-13 1999-07-30 Fujitsu Ltd 冗長装置
JPH11345140A (ja) * 1998-06-01 1999-12-14 Mitsubishi Electric Corp 二重系監視システムおよび二重系監視方法
JP2000181501A (ja) * 1998-12-14 2000-06-30 Hitachi Ltd 二重化制御装置
JP2002312189A (ja) * 2001-01-12 2002-10-25 Hitachi Ltd クラスターシステムにおける遠隔ミラーを使用した障害通知方法及びシステム
JP2004246621A (ja) * 2003-02-13 2004-09-02 Fujitsu Ltd 情報採取プログラム、情報採取装置および情報採取方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR200452322Y1 (ko) 2009-02-05 2011-02-21 주식회사 건우씨텍 크레들을 구비하는 네트워크 분리용 컴퓨터
WO2012114443A1 (ja) * 2011-02-21 2012-08-30 富士通株式会社 プロセッサ管理方法
US9342451B2 (en) 2011-02-21 2016-05-17 Fujitsu Limited Processor management method
WO2013111240A1 (ja) * 2012-01-25 2013-08-01 株式会社 東芝 二重化制御システムおよびその制御方法
JP2013152631A (ja) * 2012-01-25 2013-08-08 Toshiba Corp 二重化制御システムおよびその制御方法
US9910754B2 (en) 2012-01-25 2018-03-06 Kabushiki Kaisha Toshiba Duplexed control system and control method thereof

Also Published As

Publication number Publication date
US20070288585A1 (en) 2007-12-13
CN101072125A (zh) 2007-11-14
CN101072125B (zh) 2010-09-22

Similar Documents

Publication Publication Date Title
JP2007304687A (ja) クラスタ構成とその制御手段
US7418627B2 (en) Cluster system wherein failover reset signals are sent from nodes according to their priority
JP5592931B2 (ja) アプリケーションステーションで利用される冗長マネージャ
US7853767B2 (en) Dual writing device and its control method
US7898937B2 (en) Voting to establish a new network master device after a network failover
US20140095925A1 (en) Client for controlling automatic failover from a primary to a standby server
US7653769B2 (en) Management of devices connected to infiniband ports
CN111585835B (zh) 一种带外管理系统的控制方法、装置和存储介质
CN107071189B (zh) 一种通讯设备物理接口的连接方法
US10721135B1 (en) Edge computing system for monitoring and maintaining data center operations
JP2008283608A (ja) 冗長化された通信経路を切り替える計算機、プログラム及び方法
JP2009223368A (ja) クラスタリング制御装置、制御システム、制御方法及び制御プログラム
JP2008225567A (ja) 情報処理システム
CN100421381C (zh) 一种获取网络设备运行和故障状态信息的方法及装置
JP4442528B2 (ja) 冗長構成装置、冗長構成システム、バージョンアップ可能化方法、及びバージョンアップ可能化プログラム
JP2001346181A (ja) データ記憶部共有装置およびプログラム記録媒体
JP6134720B2 (ja) 接続方法
CN114979036A (zh) 一种基于心跳和隔离交换矩阵的网闸的双机热备系统
JP5176914B2 (ja) 伝送装置及び冗長構成部の系切替え方法
JP2009015425A (ja) ログ収集システム、ログ収集方法、および、ノード
CN109491236B (zh) 用于运行高可用性的自动化系统的方法
JP5691248B2 (ja) タスク引継プログラム、処理装置及びコンピュータ・システム
JP2008204113A (ja) ネットワーク監視システム
KR100303344B1 (ko) 시스템이중화를위한프로토콜및시스템절체우선순위관리방법
CN115426250B (zh) 一种用于靶场指控的双机热备切换方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110329

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110524

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111011

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120313