JP6007522B2 - クラスタシステム - Google Patents

クラスタシステム Download PDF

Info

Publication number
JP6007522B2
JP6007522B2 JP2012052640A JP2012052640A JP6007522B2 JP 6007522 B2 JP6007522 B2 JP 6007522B2 JP 2012052640 A JP2012052640 A JP 2012052640A JP 2012052640 A JP2012052640 A JP 2012052640A JP 6007522 B2 JP6007522 B2 JP 6007522B2
Authority
JP
Japan
Prior art keywords
node
management unit
node device
cluster
node management
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012052640A
Other languages
English (en)
Other versions
JP2013186781A (ja
Inventor
孝昌 大竹
孝昌 大竹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2012052640A priority Critical patent/JP6007522B2/ja
Priority to EP13152199.9A priority patent/EP2637102B1/en
Priority to US13/748,189 priority patent/US9210059B2/en
Priority to BR102013005401A priority patent/BR102013005401A2/pt
Priority to IN960CH2013 priority patent/IN2013CH00960A/en
Priority to CN2013100731727A priority patent/CN103312767A/zh
Publication of JP2013186781A publication Critical patent/JP2013186781A/ja
Priority to US14/879,253 priority patent/US20160036654A1/en
Application granted granted Critical
Publication of JP6007522B2 publication Critical patent/JP6007522B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5019Ensuring fulfilment of SLA
    • H04L41/5025Ensuring fulfilment of SLA by proactively reacting to service quality change, e.g. by reconfiguration after service quality degradation or upgrade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level

Description

本発明は、クラスタシステムにかかり、特に、複数のノードで構成され、当該ノードの死活を管理するクラスタシステムに関する。
近年、クラウドコンピューティングの登場により、事業者がユーザに提供するサービスの品質を保障すること、つまり、SLA(Service Level Agreement)を如何に維持するかということ、が課題となっている。このため、特許文献1に示すような複数のノードにて構成されるクラスタシステムにおいては、サービスを提供しているノードがダウン状態となった場合であっても、他のノードにサービスを引き継ぐよう冗長構成とすることで、サービスの質を保障している。一方で、このようなクラスタシステムに搭載されるクラスタウェアにおいても、さらに高いSLAを実現するために、ノードの状態(稼動状態や障害発生の有無)をいかに素早く、正確に把握するか、ということが課題となっている。
ここで、クラスタシステムにおけるノードの死活監視は、例えば、LAN(Local Area Network)、シリアルポート、共有ディスクなどノード間で情報が交換できるものを通信経路として、互いの稼働状態を確認することで行っている。そして、あるノードとの通信が一定時間以上行えない場合、当該ノードをダウン状態と判断している。
特開2006−79161号公報
しかしながら、上述した方法では、LAN、シリアルポート、共有ディスクなどは、いずれもOS(Operating System)の管理資源として制御されるため、通信経路の物理的な障害以外にも、OSの稼動状態に影響を受けてしまう。例えば、ある特定のノードのOSが高負荷状態になり、他のノードと通信が一定時間以上行えない場合、当該ノードは実際にはダウン状態ではないが、他のノードからはダウン状態とみなされてしまう。
また、ハードウェア障害などでノードがダウンした場合、当該ノードがダウン状態と判断されるまでに一定時間以上を要するため、即座に系切り替えが実施できない。例えば、CPU(Central Processing Unit)障害による電源断が発生し、ノードがダウン状態となったとしも、他のノードが当該ノードをダウン状態と判断するには一定時間以上かかってしまう。
以上のように、クラスタシステムにおいて、ノードの状態を正確かつ迅速に把握することができないため、ノードの切替を迅速に行うことができず、システム自体の信頼性が低下する、とい問題がある。
このため、本発明の目的は、上述した課題である、クラスタシステムにおける信頼性の低下、を解決することにある。
本発明の一形態であるクラスタシステムは、
複数のノード装置を備えたクラスタシステムであって、
前記ノード装置は、
第一ネットワーク網及び第二ネットワーク網により他のノード装置と相互に接続されており、
自装置に組み込まれたオペレーティングシステム上で作動し、前記第一ネットワーク網を介して他のノード装置の稼働状態を検出する第一ノード管理部と、
前記オペレーティングシステムに影響を受けずに作動し、前記第二ネットワーク網を介して他のノード装置の稼働状態を検出する第二ノード管理部と、
前記第一ノード管理部と前記第二ノード管理部とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定するノード状態判定部と、
を備えた、
という構成をとる。
また、本発明の他の形態であるプログラムは、
複数のノード装置を備えたクラスタシステムを構成する前記ノード装置に、
自装置に組み込まれたオペレーティングシステム上で作動し、他のノード装置と接続されている第一ネットワーク網を介して他のノード装置の稼働状態を検出する第一ノード管理部と、
前記オペレーティングシステムに影響を受けずに作動し、他のノード装置と接続されている第二ネットワーク網を介して他のノード装置の稼働状態を検出する第二ノード管理部と、
前記第一ノード管理部と前記第二ノード管理部とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定するノード状態判定部と、
を実現させるためのプログラムである。
また、本発明の他の形態であるノード管理方法は、
複数のノード装置を備えたクラスタシステムにて、
前記ノード装置に組み込まれたオペレーティングシステム上で作動する第一ノード管理部が、他のノード装置と接続されている第一ネットワーク網を介して他のノード装置の稼働状態を検出すると共に、
前記ノード装置に組み込まれた前記オペレーティングシステムに影響を受けずに作動する第二ノード管理部が、他のノード装置と接続されている第二ネットワーク網を介して他のノード装置の稼働状態を検出し、
前記第一ノード管理部と前記第二ノード管理部とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定する、
という構成をとる。
本発明は、以上のように構成されることにより、クラスタシステムにおける信頼性の向上を図ることができる。
本発明の実施形態1におけるクラスタシステムの構成を示すブロック図である。 図1に開示したクラスタシステムを構成するノードの構成を示すブロック図である。 図1に開示したクラスタシステムの動作を説明する説明図である。 図2に開示したノードが備えるクラスタ制御部の動作を示すフローチャートである。 図2に開示したノードが備えるノード管理部の動作を示すフローチャートである。 図2に開示したノードが備える稼働状態送信部の動作を示すフローチャートである。 図2に開示したノードが備える稼働状態受信部の動作を示すフローチャートである。 図2に開示したノードが備えるBMCノード管理部の動作を示すフローチャートである。 図2に開示したノードが備えるBMC稼働状態取得部の動作を示すフローチャートである。 図2に開示したノードが備えるBMC制御部の動作を示すフローチャートである。 図2に開示したノードが備えるハードウェア監視部の動作を示すフローチャートである。 本発明の実施形態2におけるクラスタシステムの構成を示すブロック図である。 図12に開示したクラスタシステムを構成する仮想化基板の構成を示すブロック図である。 本発明の付記1におけるクラスタシステムの構成を示すブロック図である。
本発明におけるクラスタシステム(以降、「クラスタ」とも呼ぶ)は、複数のノード装置(以降、「ノード」とも呼ぶ)を備えて構成されている。そして、各ノードがお互いに死活監視を実施し、あるノードがダウン状態となった場合、当該ノードで実行していたサービスを、他のノードで再開する系切り替え処理を実施する機能を有する。以下、本発明におけるクラスタシステムについて説明する。
<実施形態1>
本発明の第1の実施形態を、図1乃至図11を参照して説明する。図1乃至図2は、クラスタシステムの構成を説明するための図である、図3乃至図11は、クラスタシステムの動作を説明するための図である。
図1に示すように、本実施形態におけるクラスタシステムは、ノード(1)101,ノード(2)102,ノード(N)103に示すように、複数のノード装置を備えて構成されている。これらノード装置101等は、サーバコンピュータといった情報処理装置にて構成されている。但し、ノード装置101等は、後述する実施形態2で説明するように、仮想的に構築された情報処理装置にて構成されていてもよい。なお、本発明におけるクラスタシステムを構成するノード装置101等の数は、図1に示す数に限定されない。
上記各ノード装置101等には、オペレーティングシステム(以下、「OS」との呼ぶ)が組み込まれており、当該OS上で作動する機能として、ユーザに提供する所定のサービス処理を行うサービス106等と、クラスタシステムの動作を制御するクラスタウェア107等と、を備えている。当該サービス106等及びクラスタウェア107等は、ノード装置101等に装備された演算装置にプログラムが組み込まれることで構築されるものである。なお、以下では、ノード装置101等を、符号201にて図2にも示して説明する。
上記サービス106は、クラスタシステムを構成するノード装置101等のうち、1つの現用系であるノード装置101に搭載されているものが作動し、ユーザにサービス処理を提供している。一方、待機系である他のノード装置102,103に装備されたサービス109,112は、待機中となっている(図1の点線参照)。そして、サービス106等の開始や停止処理は、上記クラスタウェア107が制御する。従って、ノード装置101の障害などにより上記サービス106の継続動作が不能な場合には、上記クラスタウェア107によってノード装置の現用系と待機系を切り替える系切り替えが実行され、別の1つのノード装置に装備されているサービスにてサービスが再開される。
上記クラスタウェア107は、図2では符号203で示しているが、この図に示すように、クラスタ制御部205と、ノード管理部206と、稼働状態送信部207と、稼働状態受信部208と、を備えている。そして、ノード管理部206は、クラスタシステム配下の全ノードの「識別子」、「アドレス」、「稼働状態」を保持するためのノードリストA209を管理している。なお、上記各部205〜208やノードリストA209については、後の動作説明時に詳述する。
また、各ノード装置101等は、図1に示すように、有線通信あるいは無線通信によるLAN(Local Area Network)(第一ネットワーク網)に接続されている。そして、各ノード装置101等は、オペレーティングシステム上で作動する上記クラスタウェア107により、上記LAN及びネットワークスイッチ(1)104を介して、相互に通信が可能である。
さらに、各ノード装置101等は、図1に示すように、ベースボード管理コントローラ108等を備えている。ベースボード管理コントローラ108等は、ノード装置101等に装備されたプロセッサなどのハードウェア上に実装されたファームウェアとして動作し、当該ノード装置101等に実装されている上述したOSとは独立して動作する。このため、ノード装置101等が停止状態となった場合であっても、当該ノード装置101等に装備されているベースボード管理コントローラ204は、動作し続けることが可能である。
そして、各ノード装置101等に装備された上記各ベースボード管理コントローラ108等は、有線通信または無線通信による管理LAN(第二ネットワーク網)に接続されており、当該管理LAN及びネットワークスイッチ(2)105を介して、相互に通信が可能である。なお、ネットワークスイッチ(1)104とネットワークスイッチ(2)105は、所定のネットワークでつながっているため、クラスタウェア107等とベースボード管理コントローラ108等との通信も可能である。
上記ベースボード管理コントローラ108等は、図2では符号204で示しているが、この図に示すように、BMCノード管理部210と、BMC稼働状態取得部211と、BMC制御部212と、ハードウェア監視部213と、を備えている。そして、BMCノード管理部210は、クラスタシステム配下の全ノードの「識別子」、「アドレス」を保持するためのノードリストB214を管理している。なお、上記各部210〜213やノードリストB214については、後の動作説明時に詳述する。
次に、上述した各ノード装置201(101等)の動作について、図2乃至図11を参照して説明する。
まず、クラスタ制御部205は、ノード管理部206に対して、ノード装置の死活監視、つまり、自ノードあるいは他ノードが正常に稼働しているか、ダウンしているか(正常に稼働していない状態であるか)を表す稼働状態の検出の開始を依頼する(図4のステップS1)。そして、クラスタ制御部205は、各ノード装置からの稼働状態の通知を待つ(図4のステップS2)。
上記ノード管理部206(第一ノード管理部)は、上述したようにクラスタ制御部205から稼働状態の死活監視の依頼を受けると、稼動状態送信部207に対して、自ノードの稼働状態(稼働中)の通知を依頼する(図5のステップS21)。すると、稼動状態送信部207は、ノード管理部206を介してノードリストA209から取得した全ノードのアドレスに基づいて(図6のステップS31)、自ノードの稼働状態(稼働中)を全ノードに通知する(図6のステップS32,S33)。そして、上記稼働状態送信部207による通知は、各ノードの稼動状態受信部208にて受信され、当該稼動状態受信部208は、通知された各ノードの稼働状態を、その都度、ノード管理部206へ通知する(図7のステップS41,S42)。ノード管理部206は、上記稼動状態受信部208から各ノードの稼働状態を受信し(図5のステップS23)、各ノードの稼働状態の検出結果として保持する。
なお、ノード管理部206は、稼働状態受信部208への通知がある一定時間以上ないノード装置は、ダウン状態であるとして、当該ノード装置の稼働状態の検出結果を保持する。例えば、上記ノード管理部206による全ノード装置の稼働状態の検出は、OS上で実行されるため、自ノード装置や他のノード装置のOSが高負荷状態である場合には、他のノードと通信が一定時間以上行えず、上述したように、ノード装置が実際にはダウン状態ではないが、ダウン状態として検出される。
また、上記ノード管理部206は、上述したOS上で実行される全ノード装置の稼働状態の検出処理に前後して、BMCノード管理部210に対し、全ノードの稼動状態の取得を依頼する(図5のステップS22)。すると、BMCノード管理部210(第二ノード管理部)は、BMC稼働状態取得部211に対し、全ノードの稼動状態の取得を依頼する(図8のステップS51)。
上記BMC稼動状態取得部211は、BMCノード管理部210を介してノードリストB214から取得した全ノードのアドレスに基づいて(図9のステップS61)、各ノードのBMC稼動状態取得部211から稼動状態を取得する(図9のステップS62,S63)。そして、取得した稼働状態の結果は、BMCノード管理部210へ通知され(図9のステップS64、図8のステップS52)、当該BMCノード管理部210からノード管理部206へ通知される(図8のステップS53)。
以上のように、ノード管理部206は、BMCノード管理部210からの通知により、ベースボード管理コントローラ204を介して、OSの影響を受けずに、全ノードの稼働状態の検出結果を受け付けて保持する(図5のステップS24)。なお、ノード管理部206からBMCノード管理部210に対する依頼(上記図5のステップS22)は周期的に行われるが、依頼がある一定時間以上がない場合、BMCノード管理部210における自ノードの稼動状態はダウン状態として検出される。
続いて、ノード管理部206(ノード状態判定部)は、上述したように稼働状態受信部208から受信し、OS上で実行した全ノード装置の稼働状態の検出結果と、BMCノード管理部210から受信し、OSの影響を受けずに実行した全ノード装置の稼働状態の検出結果と、に基づいて、ノード装置の稼働状態を判定する(図5のステップS25)。具体的には、両検出結果がダウン状態とあると検出されたノード装置のみを、実際に正常に稼働していないダウン状態であると判定する。
そして、ノード管理部206は、ダウン状態と判定されたノード装置が存在する場合に(図5のステップS26でYes)、ノードリストA209内における該当するノードの稼働状態を更新する(図5のステップS28)。そして、ノード管理部206は、ダウン状態と判定されたノード装置でサービス202が稼働していた場合には、クラスタ制御部205に系切り替え処理を依頼する(図5のステップS29)。その後、クラスタ制御部205が系切り替え依頼を受けると(図4のステップS3)、系切り替え処理を実行し、ノード管理部206は一定時間待機状態となる(図5のステップS27)。
次に、ベースボード管理コントローラ204(第二ノード管理部)によるノード装置のハードウェアの監視動作について説明する。ハードウェア監視部213は、自ノードのハードウェアの監視を行なっており(図11のステップS91)、障害を検知するとBMC制御部212へ通知を行う(図11のステップS92でYes,ステップS94、図10のステップS71)。BMC制御部212は、障害の重度に応じてノードを停止させる必要があるかどうか判断し、以下の処置を行う。
(1)即時ノードを停止させる必要がある場合(図10のステップS72でYes,ステップS74でYes)
BMC制御部212は、ノードを強制的に停止させ(図10のステップS81)、ノードの停止を他のノードのクラスタ制御部205へ通知する(図10のステップS82、図11のステップS93)。停止させたノード201でサービス202が稼働していた場合には、通知を受け取ったノード201のクラスタ制御部205は、系切り替えを実行する。
(2)既定時間内にノードを停止させる必要がある場合(図10のステップS72でYes,ステップS74でNo)
BMC制御部212は、自ノード201のクラスタ制御部205へ停止予告を通知する(図10のステップS75、図3の矢印Y1)。自ノードにてサービス202が稼働していない場合(図4のステップS3で「自ノードから」,ステップS6でNo)、クラスタ制御部205はBMC制御部212へノードの停止を依頼し(図4でステップS11、図10のステップS76,ステップS77でYes)、BMC制御部212は当該ノード201を停止させる(図10のステップS81)。
また、自ノード201にてサービス202が稼動していた場合(図4のステップS6でYes)、クラスタ制御部205はBMC制御部212の停止処理を抑止するため、BMC制御部212へ系切り替えの完了待ちを依頼する(図10のステップS77でNo,ステップS78、図4のステップS7、図3の矢印Y2)。クラスタ制御部205は、系切り替えを実行する(図4のステップS8)。例えば、図3の例では、符号101のノード(1)で稼働しているサービス106を停止し、符号102のノード(2)でサービス109を可動させるよう、系切り替えを実行する(図3の矢印Y3,Y4)。
系切り替え完了後、BMC制御部212の停止処理の抑止を解除するため系切り替えの完了を通知する(図4のステップS9、図3の矢印Y5)。通知を受け取ったBMC制御部212は、当該ノード201を停止させる(図10のステップS79でNo,ステップS80、図3の矢印Y6)。ただし、系切り替えが既定時間内に完了しない場合(図10のステップS79でYes)、BMC制御部212は、当該ノード201を強制的に停止させ(図10のステップS81)、ノード201の停止を他のノード201のクラスタ制御部205へ通知する(図10のステップS82)。通知を受け取った他のノード201のクラスタ制御部205は、系切り替えを実行する(図4のステップS10,ステップS3で「他ノードから」,ステップS4,ステップS5)。
(3)ノードを停止させる必要がない場合(図10のステップS72でNo)
BMC制御部212は障害が発生したハードウェアに対し、復旧の処置を施す(図10のステップS73)。
以上のように、本発明のクラスタシステムでは、ベースボード管理コントローラ108によるノードの死活監視は、OSの稼働状況に影響を受けないため、ノードがOSの稼働状況により他のノードと通信が行えない状態になっても、ノードの稼働状態を正しく把握することができる。従って、ノード装置が不用意にダウン状態であると判定してしまうことを回避することができ、クラスタシステムの信頼性の向上を図ることができる。
また、本発明のクラスタシステムでは、OSの稼働状況に影響を受けないベースボード管理コントローラ108によるハードウェア監視にてハードウェア障害を検知し、即座に全ノードに通知するため、ノードがハードウェア障害によりダウン状態に陥った場合に、即座に系切り替えが実施できる。その結果、クラスタシステムの信頼性の向上を図ることができる。
<実施形態2>
次に、本発明の第2の実施形態を、図12乃至図13を参照して説明する。図12及び図13に示すように、本発明のクラスタシステムを、仮想化環境においても実現することが可能である。
ここで、仮想化環境の場合、図12に示すように、仮想化基盤(1)1101内で複数のノード1105等が動作するが、ベースボード管理コントローラ1108は1つ装備すればよいこととなる。図13に示す仮想化基盤1201内のK個の各ノードは、同一のベースボード管理コントローラ1205を介して、OSの影響を受けずに他のノードの稼働状態を取得する。
なお、ノード管理部1209が管理するノードリストA1212は、上述した実施形態1におけるものと構成は同じであるが、BMCノード管理部1213が管理するノードリストB1217は、仮想化基盤の「アドレス」と「仮想基盤内のノードの稼動状態」を保持している。これにより、1つの仮想化基盤から複数のノードの稼動状態をまとめて取得することができる。
<付記>
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明におけるクラスタシステム(図14参照)、プログラム、ノード管理方法の構成の概略を説明する。但し、本発明は、以下の構成に限定されない。
(付記1)
複数のノード装置を備えたクラスタシステムであって、
前記ノード装置1は、
第一ネットワーク網5及び第二ネットワーク網6により他のノード装置と相互に接続されており、
自装置に組み込まれたオペレーティングシステム上で作動し、前記第一ネットワーク網5を介して他のノード装置の稼働状態を検出する第一ノード管理部2と、
前記オペレーティングシステムに影響を受けずに作動し、前記第二ネットワーク網6を介して他のノード装置の稼働状態を検出する第二ノード管理部3と、
前記第一ノード管理部2と前記第二ノード管理部3とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定するノード状態判定部4と、
を備えたクラスタシステム。
(付記2)
付記1に記載のクラスタシステムであって、
前記ノード状態判定部は、前記第一ノード管理部と前記第二ノード管理部とにより、ノード装置が予め設定された基準によりダウン状態であるとそれぞれ検出された場合に、当該ノード装置がダウン状態であると判定する、
クラスタシステム。
(付記3)
付記2に記載のクラスタシステムであって、
前記ノード状態判定部にてダウン状態であると判定されたノード装置が予め設定された処理を実行している場合に、当該処理を別のノード装置が実行するよう切り替えるノード切替処理を実行するクラスタ制御部を備えた、
クラスタシステム。
(付記4)
付記3に記載のクラスタシステムであって、
前記第二ノード管理部は、前記OSの影響を受けずに作動して自装置に装備されたハードウェアの稼働状態を監視し、その監視結果に応じて、自装置の稼働を停止する、
クラスタシステム。
(付記5)
付記4に記載のクラスタシステムであって、
前記第二ノード管理部は、前記監視結果に応じて自装置の稼働を停止する予定である旨を前記クラスタ制御部に通知し、
前記クラスタ制御部は、前記第二ノード管理部から自装置の稼働を停止する予定である旨の通知を受け、自装置が予め設定された処理を実行している場合に、当該処理を別のノード装置が実行するよう切り替えるノード切替処理を実行し、当該ノード切替処理が完了した後にその旨を前記第二ノード管理部に通知し、
前記第二ノード管理部は、前記クラスタ制御部による前記ノード切替処理が完了した旨の通知を受けてから、自装置の稼働を停止する、
クラスタシステム。
(付記6)
複数のノード装置を備えたクラスタシステムを構成する前記ノード装置に、
自装置に組み込まれたオペレーティングシステム上で作動し、他のノード装置と接続されている第一ネットワーク網を介して他のノード装置の稼働状態を検出する第一ノード管理部と、
前記オペレーティングシステムに影響を受けずに作動し、他のノード装置と接続されている第二ネットワーク網を介して他のノード装置の稼働状態を検出する第二ノード管理部と、
前記第一ノード管理部と前記第二ノード管理部とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定するノード状態判定部と、
を実現させるためのプログラム。
(付記7)
付記6に記載のプログラムであって、
前記ノード状態判定部は、前記第一ノード管理部と前記第二ノード管理部とにより、ノード装置が予め設定された基準によりダウン状態であるとそれぞれ検出された場合に、当該ノード装置がダウン状態であると判定する、
プログラム。
(付記8)
複数のノード装置を備えたクラスタシステムにて、
前記ノード装置に組み込まれたオペレーティングシステム上で作動する第一ノード管理部が、他のノード装置と接続されている第一ネットワーク網を介して他のノード装置の稼働状態を検出すると共に、
前記ノード装置に組み込まれた前記オペレーティングシステムに影響を受けずに作動する第二ノード管理部が、他のノード装置と接続されている第二ネットワーク網を介して他のノード装置の稼働状態を検出し、
前記第一ノード管理部と前記第二ノード管理部とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定する、
ノード管理方法。
(付記9)
付記8に記載のノード管理方法であって、
前記第一ノード管理部と前記第二ノード管理部とにより、ノード装置が予め設定された基準によりダウン状態であるとそれぞれ検出された場合に、当該ノード装置がダウン状態であると判定する、
ノード管理方法。
なお、上述したプログラムは、記憶装置に記憶されていたり、コンピュータが読み取り可能な記録媒体に記録されている。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
以上、上記実施形態等を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。
1 ノード装置
2 第一ノード管理部
3 第二ノード管理部
4 ノード状態判定部
5 第一ネットワーク網
6 第二ネットワーク網
101,102,103,201 ノード
104,105 ネットワークスイッチ
106,109,112,202 サービス
107,110,113,203 クラスタウェア
108,111,114,204 ベースボード管理コントローラ
205 クラスタ制御部
206 ノード管理部
207 稼働状態送信部
208 稼働状態受信部
209 ノードリストA
210 BMCノード管理部
211 BMC稼働状態取得部
212 BMC制御部
213 ハードウェア監視部
214 ノードリストB
1101,1102,1201 仮想基板
1105,1106,1107,1109,1202,1203,1204 ノード
1103,1104 ネットワークスイッチ
1111,1113,1115,1206 サービス
1112,1114,1116,1207 クラスタウェア
1108,1110,1205 ベースボード管理コントローラ
1212 ノードリストA
1217 ノードリストB

Claims (6)

  1. 複数のノード装置を備えたクラスタシステムであって、
    前記ノード装置は、
    第一ネットワーク網及び第二ネットワーク網により他のノード装置と相互に接続されており、
    自装置に組み込まれたオペレーティングシステム上で作動し、前記第一ネットワーク網を介して他のノード装置の稼働状態を検出する第一ノード管理部と、
    前記オペレーティングシステムに影響を受けずに作動し、前記第二ネットワーク網を介して他のノード装置の稼働状態を検出する第二ノード管理部と、
    前記第一ノード管理部と前記第二ノード管理部とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定するノード状態判定部と、
    を備え、
    前記ノード状態判定部は、前記第一ノード管理部と前記第二ノード管理部とにより、ノード装置が予め設定された基準によりダウン状態であるとそれぞれ検出された場合に、当該ノード装置がダウン状態であると判定する、
    クラスタシステム。
  2. 請求項に記載のクラスタシステムであって、
    前記ノード状態判定部にてダウン状態であると判定されたノード装置が予め設定された処理を実行している場合に、当該処理を別のノード装置が実行するよう切り替えるノード切替処理を実行するクラスタ制御部を備えた、
    クラスタシステム。
  3. 請求項に記載のクラスタシステムであって、
    前記第二ノード管理部は、前記OSの影響を受けずに作動して自装置に装備されたハードウェアの稼働状態を監視し、その監視結果に応じて、自装置の稼働を停止する、
    クラスタシステム。
  4. 請求項に記載のクラスタシステムであって、
    前記第二ノード管理部は、前記監視結果に応じて自装置の稼働を停止する予定である旨を前記クラスタ制御部に通知し、
    前記クラスタ制御部は、前記第二ノード管理部から自装置の稼働を停止する予定である旨の通知を受け、自装置が予め設定された処理を実行している場合に、当該処理を別のノード装置が実行するよう切り替えるノード切替処理を実行し、当該ノード切替処理が完了した後にその旨を前記第二ノード管理部に通知し、
    前記第二ノード管理部は、前記クラスタ制御部による前記ノード切替処理が完了した旨の通知を受けてから、自装置の稼働を停止する、
    クラスタシステム。
  5. 複数のノード装置を備えたクラスタシステムを構成する前記ノード装置に、
    自装置に組み込まれたオペレーティングシステム上で作動し、他のノード装置と接続されている第一ネットワーク網を介して他のノード装置の稼働状態を検出する第一ノード管理部と、
    前記オペレーティングシステムに影響を受けずに作動し、他のノード装置と接続されている第二ネットワーク網を介して他のノード装置の稼働状態を検出する第二ノード管理部と、
    前記第一ノード管理部と前記第二ノード管理部とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定するノード状態判定部と、
    を実現させ、
    さらに、前記ノード状態判定部は、前記第一ノード管理部と前記第二ノード管理部とにより、ノード装置が予め設定された基準によりダウン状態であるとそれぞれ検出された場合に、当該ノード装置がダウン状態であると判定する、
    プログラム。
  6. 複数のノード装置を備えたクラスタシステムにて、
    前記ノード装置に組み込まれたオペレーティングシステム上で作動する第一ノード管理部が、他のノード装置と接続されている第一ネットワーク網を介して他のノード装置の稼働状態を検出すると共に、
    前記ノード装置に組み込まれた前記オペレーティングシステムに影響を受けずに作動する第二ノード管理部が、他のノード装置と接続されている第二ネットワーク網を介して他のノード装置の稼働状態を検出し、
    前記第一ノード管理部と前記第二ノード管理部とによる他のノード装置の検出結果に応じて、ノード装置が予め設定された基準によるダウン状態であるか否かを判定すると共に、前記第一ノード管理部と前記第二ノード管理部とにより、ノード装置が予め設定された基準によりダウン状態であるとそれぞれ検出された場合に、当該ノード装置がダウン状態であると判定する、
    ノード管理方法。
JP2012052640A 2012-03-09 2012-03-09 クラスタシステム Active JP6007522B2 (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2012052640A JP6007522B2 (ja) 2012-03-09 2012-03-09 クラスタシステム
EP13152199.9A EP2637102B1 (en) 2012-03-09 2013-01-22 Cluster system with network node failover
US13/748,189 US9210059B2 (en) 2012-03-09 2013-01-23 Cluster system
IN960CH2013 IN2013CH00960A (ja) 2012-03-09 2013-03-06
BR102013005401A BR102013005401A2 (pt) 2012-03-09 2013-03-06 sistema de agrupamento, programa e método de gerenciamento de nós
CN2013100731727A CN103312767A (zh) 2012-03-09 2013-03-07 集群系统
US14/879,253 US20160036654A1 (en) 2012-03-09 2015-10-09 Cluster system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012052640A JP6007522B2 (ja) 2012-03-09 2012-03-09 クラスタシステム

Publications (2)

Publication Number Publication Date
JP2013186781A JP2013186781A (ja) 2013-09-19
JP6007522B2 true JP6007522B2 (ja) 2016-10-12

Family

ID=47747342

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012052640A Active JP6007522B2 (ja) 2012-03-09 2012-03-09 クラスタシステム

Country Status (6)

Country Link
US (2) US9210059B2 (ja)
EP (1) EP2637102B1 (ja)
JP (1) JP6007522B2 (ja)
CN (1) CN103312767A (ja)
BR (1) BR102013005401A2 (ja)
IN (1) IN2013CH00960A (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102170720B1 (ko) * 2013-10-30 2020-10-27 삼성에스디에스 주식회사 클러스터 노드 상태 변경 장치 및 방법과 그 프로그램을 기록한 기록 매체
CN105681070A (zh) * 2014-11-21 2016-06-15 中芯国际集成电路制造(天津)有限公司 一种自动收集计算机集群节点信息并分析的方法及系统
CN105988908B (zh) * 2015-02-04 2018-11-06 昆达电脑科技(昆山)有限公司 单一bmc多服务器的全局数据处理系统
JP6424134B2 (ja) * 2015-04-23 2018-11-14 株式会社日立製作所 計算機システム及び計算機システムの制御方法
US10157115B2 (en) * 2015-09-23 2018-12-18 Cloud Network Technology Singapore Pte. Ltd. Detection system and method for baseboard management controller
CN107025151A (zh) * 2016-01-30 2017-08-08 鸿富锦精密工业(深圳)有限公司 电子装置连接系统
JP6838334B2 (ja) * 2016-09-26 2021-03-03 日本電気株式会社 クラスタシステム、サーバ、サーバの動作方法、及びプログラム
CN107247564B (zh) * 2017-07-17 2021-02-02 苏州浪潮智能科技有限公司 一种数据处理的方法及系统

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6277656A (ja) * 1985-05-22 1987-04-09 Nec Corp プログラムデバッグ方式
JPH08185379A (ja) * 1994-12-29 1996-07-16 Nec Corp パラレルプロセッシングシステム
US5805785A (en) * 1996-02-27 1998-09-08 International Business Machines Corporation Method for monitoring and recovery of subsystems in a distributed/clustered system
US6212573B1 (en) * 1996-06-26 2001-04-03 Sun Microsystems, Inc. Mechanism for invoking and servicing multiplexed messages with low context switching overhead
US6308282B1 (en) * 1998-11-10 2001-10-23 Honeywell International Inc. Apparatus and methods for providing fault tolerance of networks and network interface cards
US6581166B1 (en) * 1999-03-02 2003-06-17 The Foxboro Company Network fault detection and recovery
US6862613B1 (en) * 2000-01-10 2005-03-01 Sun Microsystems, Inc. Method and apparatus for managing operations of clustered computer systems
US7627694B2 (en) * 2000-03-16 2009-12-01 Silicon Graphics, Inc. Maintaining process group membership for node clusters in high availability computing systems
US7149918B2 (en) * 2003-03-19 2006-12-12 Lucent Technologies Inc. Method and apparatus for high availability distributed processing across independent networked computer fault groups
US7786987B2 (en) * 2003-09-25 2010-08-31 The Nielsen Company (Us), Llc Methods and apparatus to detect an operating state of a display based on visible light
US9178784B2 (en) * 2004-04-15 2015-11-03 Raytheon Company System and method for cluster management based on HPC architecture
JP4339763B2 (ja) 2004-09-07 2009-10-07 株式会社日立製作所 フェイルオーバ方法及び計算機システム
WO2007055014A1 (ja) * 2005-11-11 2007-05-18 Fujitsu Limited クラスタシステムのコンピュータにおいて実行されるネットワークモニタ・プログラム、情報処理方法及びコンピュータ
JP2008152552A (ja) * 2006-12-18 2008-07-03 Hitachi Ltd 計算機システム及び障害情報管理方法
US7850260B2 (en) * 2007-06-22 2010-12-14 Oracle America, Inc. Injection/ejection mechanism
US8010833B2 (en) * 2009-01-20 2011-08-30 International Business Machines Corporation Software application cluster layout pattern
US8930527B2 (en) * 2009-05-26 2015-01-06 Oracle International Corporation High availability enabler
CN101594383B (zh) * 2009-07-09 2012-05-23 浪潮电子信息产业股份有限公司 一种双控制器存储系统的服务和控制器状态监控方法
JP2011191854A (ja) * 2010-03-12 2011-09-29 Hitachi Ltd 計算機システム、計算機システムの制御方法及びプログラム
CN102137017B (zh) * 2011-03-17 2013-10-09 华为技术有限公司 用于虚拟网络单元的工作方法及装置
CN102231681B (zh) * 2011-06-27 2014-07-30 中国建设银行股份有限公司 一种高可用集群计算机系统及其故障处理方法
US9100320B2 (en) * 2011-12-30 2015-08-04 Bmc Software, Inc. Monitoring network performance remotely

Also Published As

Publication number Publication date
US20160036654A1 (en) 2016-02-04
EP2637102B1 (en) 2020-06-17
IN2013CH00960A (ja) 2015-08-14
US20130238787A1 (en) 2013-09-12
EP2637102A1 (en) 2013-09-11
US9210059B2 (en) 2015-12-08
BR102013005401A2 (pt) 2017-06-06
JP2013186781A (ja) 2013-09-19
CN103312767A (zh) 2013-09-18

Similar Documents

Publication Publication Date Title
JP6007522B2 (ja) クラスタシステム
WO2016202051A1 (zh) 一种通信系统中管理主备节点的方法和装置及高可用集群
TW201502774A (zh) 協調分散式系統中的故障復原
JP2015103092A (ja) 障害回復システム及び障害回復システムの構築方法
JP2013030863A (ja) スイッチ装置の制御システム、その構成制御装置および構成制御方法
JP6179101B2 (ja) 管理装置、管理方法、および管理プログラム
JP2014127134A (ja) 情報処理装置、サーバ管理方法およびサーバ管理プログラム
JP2014522052A (ja) ハードウェア故障の軽減
JP2012190264A (ja) 電源装置およびプログラム
JP2016536920A (ja) ネットワークパフォーマンス監視のための機器および方法
JP7348983B2 (ja) 負荷分散システム、方法、装置、電子機器及び記憶媒体
CN107071189B (zh) 一种通讯设备物理接口的连接方法
JP6253956B2 (ja) ネットワーク管理サーバおよび復旧方法
JP5613119B2 (ja) マスター/スレーブシステム、制御装置、マスター/スレーブ切替方法、および、マスター/スレーブ切替プログラム
JP2018056633A (ja) クラスタシステム、サーバ、サーバの動作方法、及びプログラム
JP5483784B1 (ja) 制御装置、計算資源管理方法及び計算資源管理プログラム
CN108234215B (zh) 一种网关的创建方法、装置、计算机设备及存储介质
JP2012190101A (ja) クラスタシステム
JP2017083935A (ja) 情報処理装置、クラスタシステム、クラスタリング方法、及びプログラム
JP2013145460A (ja) 情報処理装置、情報処理装置の制御方法、制御プログラム、記録媒体
JP2019185511A (ja) クラスタシステム、オートスケールサーバ監視装置、オートスケールサーバ監視プログラムおよびオートスケールサーバ監視方法
JP2016009413A (ja) 網監視システムおよび網監視方法
US20230254270A1 (en) Computer-readable recording medium storing program, information processing method, and information processing system
JP2013156963A (ja) 制御プログラム、制御方法、情報処理装置、制御システム
CN115499296B (zh) 一种云桌面热备管理方法、装置及系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150210

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160816

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160829

R150 Certificate of patent or registration of utility model

Ref document number: 6007522

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150