JP2004355446A - Cluster system and its control method - Google Patents

Cluster system and its control method Download PDF

Info

Publication number
JP2004355446A
JP2004355446A JP2003153984A JP2003153984A JP2004355446A JP 2004355446 A JP2004355446 A JP 2004355446A JP 2003153984 A JP2003153984 A JP 2003153984A JP 2003153984 A JP2003153984 A JP 2003153984A JP 2004355446 A JP2004355446 A JP 2004355446A
Authority
JP
Japan
Prior art keywords
server
active
spare
servers
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003153984A
Other languages
Japanese (ja)
Inventor
Toshiyuki Saito
敏之 齋藤
Nobuo Ito
暢夫 伊藤
Hiroki Hamanishi
宏樹 濱西
Masakazu Hiramatsu
正和 平松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2003153984A priority Critical patent/JP2004355446A/en
Publication of JP2004355446A publication Critical patent/JP2004355446A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Hardware Redundancy (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To improve the reliability of a cluster system by arranging one auxiliary server for a plurality of working servers, and when a fault is generated in one of the working servers, switching the failed working server to the the auxiliary server by the lead of the auxiliary server. <P>SOLUTION: Each server is provided with an operation setting part, an operation display part, a fault communication part, and a system control part. A plurality of working servers and one or more auxiliary servers are arranged to constitute a cluster system. The working server monitors its own server's fault, and when a fault is generated, reports fault generation to the fault communication part. The auxiliary server monitors the fault communication parts of the working servers, and when the generation of a fault in one of the working servers is confirmed, shuts down the failed working server by the lead of the auxiliary server and switches the failed working server to the auxiliary server itself. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

【0001】
【発明の属する技術分野】
本発明は、複数のサーバで構成し信頼性を増したクラスタシステム及びその制御方法に係り、現用(稼動)サーバに障害が発生した時の現用サーバから予備(待機)サーバへの切り替えを行うクラスタシステム及びその制御方法に関するものである。
【0002】
【従来の技術】
近年のサーバシステムの普及に伴い、サーバシステムにはより高い信頼度が求められている。通常、サーバシステムの高信頼化には、現用サーバに障害が発生しても、システム全体がダウンすることなく稼動できるようにするため、通常は稼動していない予備サーバを用意する冗長構成がよく採用されている。
【0003】
冗長構成を採る従来のサーバシステムとしてよく用いられるのは、サーバを二重化構成にしたシステムである。この場合、現用サーバとそれと組になる予備サーバを用意し、両者間で相互に状態を監視する。現用サーバに障害が発生した場合には、予備サーバが現用サーバに交替し業務を継承する。
【0004】
他の障害時の切り替え方法としては、特許文献1の方法のように、現用サーバと予備サーバおよび管理サーバを配し、管理サーバが現用サーバの状態を監視し、現用サーバに障害が発生した場合には、管理サーバの主導により予備サーバに切り替える方法がある。
【特許文献1】
特開2000−347959号公報
【0005】
【発明が解決しようとする課題】
しかしながら、従来の二重化構成の方法では、各現用サーバ毎に予備サーバが必要であるため2倍のリソースが求められコストが高くなる。また、どのサーバがいずれの動作状態にあるかを外観で判別できず、サーバの数が多くなるとメンテナンスが困難になる。
【0006】
また、特許文献1に記載の方法では、予備サーバの他に管理サーバが必要であり、現用サーバに障害が発生するまでの間、予備サーバは遊んでしまうため効率的ではない。
【0007】
本発明は上記の問題を鑑みてなされたものであり、複数のサーバで構成され信頼性が高く、かつ、コストの増大を抑えたクラスタシステム及びその制御方法を提供することを目的とする。
【0008】
本発明の他の目的は、複数のサーバで構成され信頼性が高く、かつ、外観から容易に各サーバの動作状態を判別できメンテナンスの容易なクラスタシステム及びその制御方法を提供することにある。
【0009】
本発明の他の目的は、複数のサーバで構成され信頼性が高く、かつ、効率の良いクラスタシステム及びその制御方法を提供することにある。
【0010】
【課題を解決するための手段】
上記目的を達成するために、本発明のクラスタシステムでは、同様のサービスを提供する複数の現用サーバに対し、1台もしくは複数台の予備サーバを配し、現用サーバに障害が発生した場合に予備サーバの主導により、現用サーバから予備サーバへ切り替えることを特徴とする。すなわち、構成及び機能が同じで現用/予備の動作状態を切り替え可能な複数のサーバをネットワーク接続して構成され、現用として稼動中の現用サーバに障害が発生した際に現用サーバを動作停止させ予備として待機中の予備サーバを稼動させ現用サーバとして切り替えるクラスタシステムであって、前記複数のサーバを、現用サーバと、現用サーバよりも少ない数の予備サーバに設定し、現用サーバ障害時に予備サーバ主導で予備/現用サーバの切り替えを行なう。
【0011】
また、本発明のクラスタシステムは、複数のサーバをネットワーク接続して構成されたクラスタシステムであって、上記各サーバが、現用/予備の動作状態を設定する動作設定部と、現在の動作状態を外部に示す動作表示部と、動作状態を“予備”と設定された場合には予備サーバとして機能し動作状態を“現用”と設定された現用サーバの障害有無を定期的に監視する現用監視部と、動作状態を“現用”と設定された場合には自サーバの障害を監視し障害の有無を示す障害検出部と、自サーバのシャットダウン制御とリブート制御を実施するシステム制御部とを備え、複数の現用サーバの障害有無を現用サーバよりも少ない数の予備サーバで監視し、現用サーバの障害を検出した際に該現用サーバをシャットダウンし前記予備サーバの1つを現用サーバとして切り替えることを特徴とする。
【0012】
上記他の目的を達成するために、本発明のクラスタシステムでは、上記現用サーバの障害時に予備サーバを現用サーバに切り替える時に、予備サーバが現用サーバに切り替わったことおよび現用サーバがシステム停止したことを外観から容易に判別できる表示を提供する。
【0013】
すなわち、上記構成において、各サーバの動作表示部が、現用サーバとして動作しているときには現用動作を意味する表示を、予備サーバとして動作しているときには予備動作を意味する表示を、障害が発生し停止したときには障害停止を意味する表示を、上記動作表示部にて表示することを特徴とする。
【0014】
これにより、障害発生によりサーバ動作が切り替えられた後でも、どのサーバが現用、予備、障害停止なのかを外観から容易に判別することが可能となり、メンテナンスが容易となる。
【0015】
また、本発明のクラスタシステムでは、複数の現用サーバに対しそれより少ない数の予備サーバを配し、現用サーバ障害時に予備サーバ主導でサーバの切り替えを可能とする。これにより、予備サーバの他に管理サーバを用意する必要がなく切り替えを実施することが可能となる。
【0016】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を参照して説明する。まず、本発明の第1の実施形態によるクラスタシステムを図1ないし図5で説明する。
【0017】
本発明の第1の実施形態によるクラスタシステムは、図1に示すように、同一構成要素を備えかつ同一のサービスを提供可能な第1の現用サーバ100、第2の現用サーバ200、及び予備サーバ300が、LAN400および制御バス500によってネットワーク接続されている構成となっている。
【0018】
なお、第2の現用サーバ200の構成要素は第1の現用サーバと同じであるため図1では詳細を省略する。
【0019】
ここでいう本発明での現用サーバとは、クライアントにサービスを提供する業務を実施しているサーバであり、予備サーバとはクライアントにサービスを提供する業務は実施していないサーバのことである。本発明では、クラスタシステムを構成する複数のサーバを、現用サーバと、この現用サーバよりも少ない数の予備サーバに設定する。
【0020】
第1の現用サーバ100(及び第2の現用サーバ200)は、起動時に現用動作することをあらかじめ設定しておく動作設定部120と、現用動作中であることを外観から容易に判別可能な表示をする動作表示部110と、システムのシャットダウンやリブートを制御するシステム制御部140と、障害検出を行い障害通知を行う障害通信部130を備えている。
【0021】
また予備サーバ300も同様に、起動時に予備動作することをあらかじめ設定しておく動作設定部320と、予備動作中であることを外観から容易に判別可能な表示をする動作表示部310と、システムのシャットダウンやリブートを制御するシステム制御部340と、障害検出を行って障害通知を行う障害通信部330を備えている。
【0022】
障害通信部130、330は、現用監視部131、331と障害検出部132、332を備え、動作設定部120、320に設定された内容によりその動きを変える。動作設定が“現用”の場合には、障害検出部をアクティブにする。障害検出部は、自サーバ(現用サーバ)の障害を監視し予備サーバからのハートビート監視があった際に自サーバのディスクエラーやメモリエラー、電源エラーなどの障害通知およびハートビート応答をする。動作設定が“予備”の場合には、現用監視部をアクティブにする。現用監視部は現用サーバの障害検出部に定期的にアクセスし現用サーバの障害有無を監視する。
【0023】
次に、第1の実施形態について、図2に初期設定動作説明図、図3に同フローチャート、図4に現用サーバ障害時の切り替え動作説明図、図5に同フローチャートを示し、動作を説明する。簡単のため、現用サーバ2台、予備サーバ1台の構成で説明する。
【0024】
まず初期設定として、図2及び図3に示すように、第1の現用サーバ100(および第2の現用サーバ200)に、動作初期設定を入力する(図3のP10)。設定の方法としては、例えばディップスイッチによる設定、ソフトウェアコマンド入力による設定などで良い。動作設定部120は、入力された情報を保存し(図3のP20)、動作表示部110は動作設定部120の保存した設定に基づき動作表示を行う(図3のP30)。
【0025】
図10に動作表示部110の具体的な一例を示す。例えば、動作状態を、“現用動作”、“予備動作”、“予備2動作”、“障害停止”、“停止”の5状態と定義し、5個のLEDで表示する。
【0026】
障害通信部130は、動作設定部120の保存した設定に基づき動作判定を行う(図3のP40)。現用動作の場合には、自サーバ(現用サーバ)の障害を監視し予備サーバからのハートビート監視があった際に自サーバのディスクエラーやメモリエラー、電源エラーなどの障害通知およびハートビート応答をする障害検出部132をアクティブにする(図3のP50)。
【0027】
同様に予備サーバ300も図3のP10からP40までの動作を行い、予備動作の場合には、現用サーバの障害検出部に定期的にアクセスし現用サーバの障害有無を監視する現用監視部331をアクティブにする(図3のP60)。
【0028】
次に、現用サーバでの障害発生時の切り替え方法について説明する。図4及び図5に示すように、第1の現用サーバ100(および第2の現用サーバ200)の障害検出部132は、自サーバのディスクエラーやメモリエラー、電源エラーなど障害発生を監視し、障害発生を検出する(図5のS10)。
【0029】
予備サーバ300の現用監視部331は一定の周期で第1の現用サーバ100(および第2の現用サーバ200)の障害検出部132にアクセスし第1の現用サーバ100(および第2の現用サーバ200)の障害有無確認とハートビート監視を実施する(図5のS20)。
【0030】
予備サーバ300の現用監視部331が第1の現用サーバ100の障害を検出した場合(図5のS30のYesルート)には、第1の現用サーバ100をシャットダウンし予備サーバ300自身が現用サーバに切り替わるために、予備サーバ300の現用監視部331から第1の現用サーバ100の障害検出部132に対しシャットダウン指示を出す(図5のS40)。
【0031】
第1の現用サーバ100の障害検出部132は、予備サーバ300の現用監視部331からシャットダウン指示を受け取ると、動作状態が切り替わったことを外観から容易に判別可能とするため、動作表示部110の表示設定を“現用”から“障害停止”に変更し(図5のS50)、第1の現用サーバ100のシステム制御部140に対しシャットダウンを指示し、第1の現用サーバ100のシステム制御部140は第1の現用サーバ100のシャットダウンを実行する(図5のS60)。
【0032】
予備サーバ300側は、第1の現用サーバ100の障害検出部132にシャットダウン指示を出した後、予備サーバ300の動作設定部320の表示設定を“予備”から“現用”に変更する(図5のS70)。すると予備サーバ300の動作表示部310は、動作設定部320の設定変更を受け、動作表示を“予備”から“現用”に変更し(図3のS80)、現用サーバとして動作開始する。
【0033】
本第1の実施形態では、現用サーバ2台と予備サーバ1台の場合を例にして説明したが、現用サーバをN台としても当然実施可能である。
【0034】
以上述べた第1の実施形態の手順によれば、複数のサーバで構成し信頼性を増したクラスタシステムにおいて、複数の現用サーバに対しそれより少ない予備サーバを配し、現用サーバ障害時に予備サーバ主導でサーバの切り替えが可能であり、予備サーバの他に管理サーバを用意することもなく切り替えを実施することが可能となる。これにより、信頼性が高く、かつ、コストの増大を抑えたクラスタシステムを提供することができる。また複数サーバが存在し、障害発生によりサーバ動作が切り替えられた後でも、どのサーバが現用、予備、障害停止なのかを外観から容易に判別することが可能となり、メンテナンスが容易となる。
【0035】
次に、本発明の第2の実施形態によるクラスタシステムについて、図6ないし図7で説明する。
【0036】
第2の実施形態は、複数のサーバで構成し信頼性を増したクラスタシステムにおいて、上記サーバに現用/予備の動作状態を設定する動作設定部と、現在の動作状態を外部に示す動作表示部と、動作状態を“予備”と設定された場合には動作状態を“現用”と設定された現用サーバの障害有無を定期的に監視する現用監視部と、動作状態を“現用”と設定された場合には自サーバ(現用サーバ)の障害を監視し障害の有無を示す障害検出部と、自サーバのシャットダウン制御とリブート制御を実施するシステム制御部とを備え、予備動作中に現用サーバの障害有無を監視し、障害監視していた現用サーバの1回目の障害を検出した際に同現用サーバをリブートし、リブート後に再度同じ現用サーバの障害を検出した際に同現用サーバをシャットダウンし予備サーバを現用サーバとして切り替えることを特徴とするクラスタシステムである。
【0037】
また第2の実施形態は、複数のサーバで構成し信頼性を増したクラスタシステムに対して稼動中の現用サーバに障害が発生した際に現用サーバを動作停止させ待機中の予備サーバを稼動させ現用サーバとして切り替える方法において、予備(待機)動作時に、稼動中の現用サーバの障害監視を実行するステップと、現用サーバの1回目の障害を検出した際に同現用サーバのリブートを指示するステップと、リブート後に再度同現用サーバの障害を検出した際に同現用サーバのシャットダウンを指示するステップと、予備サーバの動作設定を“予備”から“現用”に変更するステップと、予備サーバの動作表示を動作設定に基づき変更するステップと、予備動作から現用動作に切り替えて動作するステップを備えたことを特徴とするクラスタシステムのサーバ切り替え方法である。
【0038】
第2の実施形態になるクラスタシステムの基本構成及び初期設定動作は、上記第1の実施形態と同様である。第2の実施形態が第1の実施形態と相違する点に関し、図6に現用サーバ障害時の切り替え動作説明図、図7に同フローチャートを示し、動作を説明する。簡単のため、現用サーバ2台、予備サーバ1台の構成で説明する。
【0039】
第1の現用サーバ100(および第2の現用サーバ200)の障害検出部132は、自サーバ(現用サーバ)のディスクエラーやメモリエラー、電源エラーなど障害発生を監視し、障害発生を検出する(図7のS10)。
【0040】
予備サーバ300の現用監視部331は一定の周期で第1の現用サーバ100(および第2の現用サーバ200)の障害検出部132にアクセスし第1の現用サーバ100(および第2の現用サーバ200)の障害有無確認とハートビート監視を実施する(図7のS20)。
【0041】
予備サーバ300の現用監視部331が第1の現用サーバ100の障害を検出した場合(図7のS30のYesルート)には、予備サーバ300の現用監視部331は第1の現用サーバ100での障害検出回数を確認する(図7のS31)。第1の現用サーバ100の障害検出回数が1回目の場合には、第1の現用サーバ100をリブートするために、予備サーバ300の現用監視331から第1の現用サーバ100の障害検出部132に対しリブート指示を出す(図7のS32)。
【0042】
第1の現用サーバ100の障害検出部132は、予備サーバ300の現用監視部331からリブート指示を受け取ると、第1の現用サーバ100のシステム制御部140に対しリブートを指示し、システム制御部140は第1の現用サーバ100のリブートを実行する(図7のS33)。
【0043】
第1の現用サーバ100がリブート後、第1の現用サーバ100の障害検出部132が再度障害を検出した場合(図7のS10’〜S30)には、予備サーバ300の現用監視部331は第1の現用サーバ100での障害検出回数を確認する(図7のS31)。第1の現用サーバ100の障害検出回数が2回目の場合には、第1の現用サーバ100をシャットダウンし予備サーバ300自身が現用サーバに切り替わるために、予備サーバ300の現用監視部331から第1の現用サーバ100の障害検出部132に対しシャットダウン指示を出す(図7のS40)。
【0044】
第1の現用サーバ100の障害検出部132は、予備サーバ300の現用監視部331からシャットダウン指示を受け取ると、動作状態が切り替わったことを外観から容易に判別可能とするため、動作表示部110の表示設定を“現用”から“障害停止”に変更し(図7のS50)、第1の現用サーバ100のシステム制御部140に対しシャットダウンを指示し、第1の現用サーバ100のシステム制御部140は第1の現用サーバ100のシャットダウンを実行する(図5のS60)。
【0045】
予備サーバ300側は、第1の現用サーバ100の障害検出部132にシャットダウン指示を出した後、予備サーバ300の動作設定部320の表示設定を“予備”から“現用”に変更する(図7のS70)。すると予備サーバ300の動作表示部310は、動作設定部320の設定変更を受け、動作表示を“予備”から“現用”に変更し(図7のS80)、現用サーバとして動作開始する。
【0046】
本第2の実施形態では、現用サーバ2台と予備サーバ1台の場合を例にして説明したが、現用サーバをN台としても当然可能である。
【0047】
以上述べた第2の実施形態の手順によれば、実用上多くみられるリブートによって復旧可能な現用サーバの障害に対しては現用サーバのリブートのみで対処し、リブートでは復旧不可能であり切り替えを必要とする障害に対しては予備サーバを現用サーバに切り替えることが可能となる。
【0048】
次に、上記第1、第2の実施形態における予備サーバを複数台に増設した場合の具体的な一例を、本発明の第3の実施形態として図8ないし図9で説明する。説明する。予備サーバを複数台とする場合は、例えば動作状態として、“予備の予備”という意味で“予備2”という状態を新たに定義する。
【0049】
図8に現用サーバ障害時の複数台の予備サーバ動作切り替え説明図、図9に同フローチャートを示し、動作を説明する。簡単のため、現用サーバ1台、予備サーバ2台の構成とし、第1の実施形態および第2の実施形態から追加のある内容に関して説明する。第3の実施形態の基本構成及び初期設定動作は、上記第1の実施形態および第2の実施形態と同様であり、第2の予備サーバ600の初期設定が追加されるのみである。
【0050】
第3の実施形態の動作に関し、第1の実施形態の図4、図5のS10からS80および第2の実施形態の図6、図7のS10からS80までは、第3の実施形態も同様である。その後、第3の実施形態では予備サーバが2台(第1の予備サーバ300、第2の予備サーバ600)あるため、追加の処理を行う。
【0051】
すなわち、図9のS80において、第1の実施形態または第2の実施形態のS80と同様に、第1の予備サーバ300の動作表示部310は、動作設定部320の設定変更を受け、動作表示を“予備”から“現用”に変更する。
【0052】
この処理の次に、第1の予備サーバ300の現用監視部331は第2の予備サーバ600の現用監視部631に対し“予備2”動作から“予備”動作への切り替え指示を出す(図9のS90)。第2の予備サーバ600の現用監視部631は、“予備”動作への切り替え指示を受けると、第2の予備サーバ600の動作設定部620の表示設定を“予備2”から“予備”に変更する(図9のS100)。すると第2の予備サーバ600の動作表示部610は、動作設定部620の設定変更を受け、動作表示を“予備2”から“予備”に変更し(図9のS110)、予備サーバとして動作開始する。
【0053】
この例では、現用サーバ1台、予備サーバ2台の場合を例にして説明したが、現用サーバを複数台、予備サーバも複数台(現用サーバよりも少ない数)としても容易に拡張でき、当然可能である。
【0054】
第3の実施形態によれば、予備サーバを複数台用意することにより、現用サーバが一時期に複数台障害が発生しても予備サーバを現用サーバに切り替え、システムの停止期間を短くすることが可能である。
【0055】
図10は、本発明の各実施形態における動作表示部110の具体的な一例であり、動作状態を、“現用動作”、“予備動作”、“予備2動作”、“障害停止”、“停止”の5状態と定義し、5個のLEDで表示する。この実施形態によれば、現用サーバ、予備サーバが入れ替わっても外観で容易にいずれがどの動作状態にあるかを判別できるので、サーバの数が多い場合でもメンテナンスが容易である。
【0056】
図11は、本発明の各実施形態における動作表示部110の別の具体的な一例である。例えば、動作状態を、“現用動作”、“予備動作”、“予備2動作”、“障害停止”、“停止”の5状態と定義し、3個のLEDで表示する。この実施形態によれば、現用サーバ、予備サーバが入れ替わっても外観で容易にいずれがどの動作状態にあるかを判別できるので、サーバの数が多い場合でもメンテナンスが容易である。また、動作表示部のLEDの数を減らすことができる。
【0057】
図10、図11では、本発明の各実施形態における動作表示部110の具体的な一例としてLEDの点灯、消灯に意味を持たせ動作状態を判別したが、同様にLEDの点滅周期も組み合わせた表示方法でも当然判別可能である。またLEDではなく、液晶画面を搭載し、文字情報により動作状態を表示することも当然可能である。
【0058】
【発明の効果】
以上説明したとおり、本発明によれば、複数の現用サーバに対し1台または複数台の予備サーバを配するクラスタシステムにおいて、予備サーバに管理サーバの機能を持たせることで、予備サーバ主導により管理サーバを必要とせず現用サーバから予備サーバへの切り替えを行なうことが可能となる。管理サーバを必要としない簡単な構成であり、システムのコスト増を抑えることができる。
【0059】
本発明の各サーバは、起動時に現用/予備どちらで動作するかあらかじめ設定しておく動作設定部と、現在の動作モードを外観から容易に判断可能とする動作表示部と、システムのシャットダウンやリブートを制御するシステム制御部と、障害の有無を監視し障害を通知する障害通信部とを備えている。そして、これら各サーバの連携により、予備サーバ主導により現用サーバから予備サーバへの切り替えが可能となる。現用サーバの障害発生時に予備サーバの主導により速やかに切り替えを実施でき、信頼性を高めることができる。
【0060】
さらに、各サーバに設けられた動作表示部により現在の動作モードを外観から容易に判断でき、また、現用サーバ、予備サーバの動作切り替え後も外観から容易にどのサーバがいずれの動作状態にあるかを判別することが可能となる。よって、メンテナンスが容易である。
【図面の簡単な説明】
【図1】本発明の第1の実施形態(および第2、第3の実施形態)であるクラスタシステムの構成を示すブロック図である。
【図2】本発明の第1の実施形態(および第2、第3の実施形態)における初期動作図である。
【図3】本発明の第1の実施形態(および第2、第3の実施形態)における初期動作フローチャートである。
【図4】本発明の第1の実施形態における障害切り替え動作図である。
【図5】本発明の第1の実施形態における障害切り替えフローチャートである。
【図6】本発明の第2の実施形態における障害切り替え動作図である。
【図7】本発明の第2の実施形態における障害切り替えフローチャートである。
【図8】本発明の第3の実施形態における障害切り替え動作図である。
【図9】本発明の第3の実施形態における障害切り替えフローチャートである。
【図10】本発明の各実施形態における動作表示部の一具体例である。
【図11】本発明の各実施形態における動作表示部の別の一具体例である。
【符号の説明】
100 第1の現用サーバ
110 動作表示部
120 動作設定部
130 障害通信部
131 現用監視部
132 障害検出部
140 システム制御部
200 第2の現用サーバ
300 予備サーバ(第1の予備サーバ)
310 動作表示部
320 動作設定部
330 障害通信部
331 現用監視部
332 障害検出部
340 システム制御部
400 LAN
500 制御バス
600 第2の予備サーバ
610 動作表示部
620 動作設定部
630 障害通信部
631 現用監視部
632 障害検出部。
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a cluster system configured with a plurality of servers and having increased reliability and a control method thereof, and more particularly to a cluster that switches from an active server to a standby (standby) server when a failure occurs in an active (active) server. The present invention relates to a system and a control method thereof.
[0002]
[Prior art]
With the spread of server systems in recent years, higher reliability is required for server systems. Normally, to increase the reliability of a server system, a redundant configuration that prepares a spare server that is not normally operating is often used so that even if a failure occurs in the active server, the entire system can be operated without going down. Has been adopted.
[0003]
A commonly used conventional server system having a redundant configuration is a system in which a server has a redundant configuration. In this case, an active server and a spare server to be paired with the active server are prepared, and the states are mutually monitored. When a failure occurs in the active server, the spare server takes over for the active server and takes over the work.
[0004]
As another switching method at the time of failure, as in the method of Patent Document 1, an active server, a spare server, and a management server are arranged, the management server monitors the state of the active server, and a failure occurs in the active server. There is a method of switching to a spare server at the initiative of the management server.
[Patent Document 1]
JP 2000-347959 A
[Problems to be solved by the invention]
However, in the conventional dual configuration method, a spare server is required for each active server, so twice as many resources are required and the cost is increased. Further, it is not possible to determine which server is in which operation state by appearance, and maintenance becomes difficult when the number of servers increases.
[0006]
Further, the method described in Patent Document 1 requires a management server in addition to the spare server, and is inefficient because the spare server idles until a failure occurs in the active server.
[0007]
The present invention has been made in view of the above-described problems, and has as its object to provide a cluster system including a plurality of servers, having high reliability, and suppressing an increase in cost, and a control method thereof.
[0008]
Another object of the present invention is to provide a cluster system which is composed of a plurality of servers, has high reliability, can easily determine the operation state of each server from the external appearance, and can be easily maintained, and a control method therefor.
[0009]
Another object of the present invention is to provide a highly reliable and efficient cluster system including a plurality of servers and a control method thereof.
[0010]
[Means for Solving the Problems]
In order to achieve the above object, in the cluster system according to the present invention, one or more spare servers are arranged for a plurality of active servers providing the same service, and when a failure occurs in the active server, the spare server is provided. The server is switched from the active server to the spare server at the initiative of the server. In other words, a plurality of servers having the same configuration and function and capable of switching between the active and standby operating states are connected to a network, and when a failure occurs in the active server that is operating as the active server, the active server is stopped and the standby server is stopped. A standby system that is operated as a standby server and switches as the active server, wherein the plurality of servers are set as the active server and a smaller number of standby servers than the active server, and the standby server is initiative when the active server fails. The backup / active server is switched.
[0011]
The cluster system according to the present invention is a cluster system configured by connecting a plurality of servers to a network, wherein each of the servers includes an operation setting unit that sets an active / standby operation state and a current operation state. An external operation display unit, and an active monitoring unit that functions as a standby server when the operating status is set to “spare” and periodically monitors the presence or absence of a failure of the active server whose operating status is set to “active” A failure detection unit that monitors the failure of the server when the operation state is set to “working” and indicates whether there is a failure, and a system control unit that performs shutdown control and reboot control of the server. A plurality of active servers are monitored for failures by a smaller number of spare servers than the active servers. When a failure of the active server is detected, the active servers are shut down and one of the spare servers is shut down. And switches as the active server.
[0012]
In order to achieve the above and other objects, in the cluster system of the present invention, when the spare server is switched to the active server in the event of a failure of the active server, the fact that the spare server has been switched to the active server and the fact that the active server has been shut down. Provide a display that can be easily identified from the appearance.
[0013]
That is, in the above-described configuration, when the operation display unit of each server is operating as the active server, the display indicating the active operation is performed, and when operating as the standby server, the display indicating the standby operation is displayed. When stopped, a display indicating a failure stop is displayed on the operation display section.
[0014]
As a result, even after the server operation is switched due to the occurrence of a failure, it is possible to easily determine from the appearance which server is currently in use, standby, or stopped due to a failure, thereby facilitating maintenance.
[0015]
Further, in the cluster system according to the present invention, a smaller number of spare servers are allocated to a plurality of active servers, and when the active server fails, the servers can be switched under the initiative of the spare server. This makes it possible to perform switching without having to prepare a management server in addition to the spare server.
[0016]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings. First, a cluster system according to a first embodiment of the present invention will be described with reference to FIGS.
[0017]
As shown in FIG. 1, the cluster system according to the first embodiment of the present invention includes a first active server 100, a second active server 200, and a spare server that have the same components and can provide the same service. 300 is connected to a network by a LAN 400 and a control bus 500.
[0018]
Note that the components of the second active server 200 are the same as those of the first active server, so that the details are omitted in FIG.
[0019]
Here, the active server in the present invention is a server that performs a task of providing a service to a client, and a spare server is a server that does not perform a task of providing a service to a client. According to the present invention, a plurality of servers constituting the cluster system are set as an active server and a smaller number of spare servers than the active server.
[0020]
The first active server 100 (and the second active server 200) has an operation setting unit 120 for setting in advance that an active operation is to be performed at the time of start-up, and a display for easily determining from the appearance that the active operation is being performed. The system includes an operation display unit 110 that performs the operation, a system control unit 140 that controls the shutdown and reboot of the system, and a failure communication unit 130 that detects a failure and notifies a failure.
[0021]
Similarly, the spare server 300 also includes an operation setting unit 320 for setting in advance that a preliminary operation is to be performed at the time of startup, an operation display unit 310 for displaying a display that allows the user to easily determine from the appearance that the preliminary operation is being performed, and a system. A system control unit 340 for controlling shutdown and reboot of the system, and a failure communication unit 330 for detecting a failure and notifying a failure.
[0022]
The failure communication units 130 and 330 include active monitoring units 131 and 331 and failure detection units 132 and 332, and change their movements according to the contents set in the operation setting units 120 and 320. When the operation setting is “working”, the failure detection unit is activated. The failure detection unit monitors a failure of its own server (active server) and, when a heartbeat is monitored from the spare server, notifies failures such as a disk error, a memory error, and a power supply error of the own server and a heartbeat response. When the operation setting is “spare”, the active monitoring unit is activated. The active monitoring unit periodically accesses the failure detection unit of the active server and monitors whether the active server has a failure.
[0023]
Next, the operation of the first embodiment will be described with reference to FIG. 2 illustrating the initial setting operation, FIG. 3 illustrating the same flowchart, FIG. 4 illustrating the switching operation in the event of a failure of the active server, and FIG. . For simplicity, the configuration will be described with two active servers and one spare server.
[0024]
First, as an initial setting, as shown in FIGS. 2 and 3, an operation initial setting is input to the first active server 100 (and the second active server 200) (P10 in FIG. 3). As a setting method, for example, setting by a dip switch, setting by software command input, and the like may be used. The operation setting unit 120 stores the input information (P20 in FIG. 3), and the operation display unit 110 displays the operation based on the settings saved by the operation setting unit 120 (P30 in FIG. 3).
[0025]
FIG. 10 shows a specific example of the operation display unit 110. For example, the operation states are defined as five states of “working operation”, “preliminary operation”, “preliminary 2 operation”, “failure stop”, and “stop”, and are indicated by five LEDs.
[0026]
The failure communication unit 130 makes an operation determination based on the settings saved by the operation setting unit 120 (P40 in FIG. 3). In the case of the active operation, the failure of the local server (active server) is monitored, and when a heartbeat is monitored from the spare server, a failure notification and a heartbeat response such as a disk error, a memory error, and a power error of the local server are performed. The failure detection unit 132 to be activated is activated (P50 in FIG. 3).
[0027]
Similarly, the spare server 300 performs the operations from P10 to P40 in FIG. 3, and in the case of the spare operation, the active monitoring unit 331 that periodically accesses the failure detection unit of the active server and monitors the active server for a failure is provided. Activate (P60 in FIG. 3).
[0028]
Next, a switching method when a failure occurs in the active server will be described. As shown in FIGS. 4 and 5, the failure detection unit 132 of the first active server 100 (and the second active server 200) monitors the occurrence of a failure such as a disk error, a memory error, and a power supply error of its own server. A failure is detected (S10 in FIG. 5).
[0029]
The active monitoring unit 331 of the spare server 300 accesses the failure detecting unit 132 of the first active server 100 (and the second active server 200) at a fixed cycle, and accesses the first active server 100 (and the second active server 200). ), And performs heartbeat monitoring (S20 in FIG. 5).
[0030]
When the active monitoring unit 331 of the spare server 300 detects the failure of the first active server 100 (Yes route in S30 of FIG. 5), the first active server 100 is shut down, and the spare server 300 itself becomes the active server. In order to switch, the active monitoring unit 331 of the spare server 300 issues a shutdown instruction to the failure detecting unit 132 of the first active server 100 (S40 in FIG. 5).
[0031]
Upon receiving the shutdown instruction from the active monitoring unit 331 of the spare server 300, the failure detection unit 132 of the first active server 100 enables the operation display unit 110 to easily determine from the appearance that the operation state has been switched. The display setting is changed from “active” to “failure stop” (S50 in FIG. 5), a shutdown instruction is issued to the system control unit 140 of the first active server 100, and the system control unit 140 of the first active server 100 is shut down. Executes the shutdown of the first active server 100 (S60 in FIG. 5).
[0032]
After issuing a shutdown instruction to the failure detection unit 132 of the first active server 100, the standby server 300 changes the display setting of the operation setting unit 320 of the standby server 300 from “spare” to “active” (FIG. 5). S70). Then, the operation display unit 310 of the spare server 300 receives the setting change of the operation setting unit 320, changes the operation display from “spare” to “active” (S80 in FIG. 3), and starts operation as the active server.
[0033]
In the first embodiment, the case of two active servers and one spare server has been described as an example. However, the present invention can be implemented with N active servers.
[0034]
According to the procedure of the first embodiment described above, in a cluster system composed of a plurality of servers and having increased reliability, fewer spare servers are allocated to a plurality of active servers, and the spare server The server can be switched under the initiative, and the switching can be performed without preparing a management server in addition to the spare server. This makes it possible to provide a cluster system with high reliability and reduced cost. Further, even if there are a plurality of servers and the server operation is switched due to the occurrence of a failure, it is possible to easily determine which server is currently in use, a backup, or a failure, from the appearance, thereby facilitating maintenance.
[0035]
Next, a cluster system according to a second embodiment of the present invention will be described with reference to FIGS.
[0036]
In a second embodiment, in a cluster system composed of a plurality of servers and having increased reliability, an operation setting unit for setting an active / standby operation state in the server and an operation display unit for externally displaying the current operation state. When the operation state is set to “spare”, an active monitoring unit that periodically monitors the presence or absence of a failure of the active server whose operation state is set to “active”, and the operation state is set to “active”. In this case, the system includes a failure detection unit that monitors the failure of the own server (active server) and indicates whether there is a failure, and a system control unit that performs shutdown control and reboot control of the own server. Monitors the presence or absence of a failure, reboots the active server when the first failure of the active server that has been monitored for failure is detected, and shuts down the same active server when the same active server failure is detected again after the reboot. A cluster system and switches the standby server down as the active server.
[0037]
In the second embodiment, when a failure occurs in an active server that is operating in a cluster system having a plurality of servers and having increased reliability, the active server is stopped and a standby server that is on standby is operated. In the method of switching as an active server, a step of executing a failure monitoring of an active active server during a standby (standby) operation, and a step of instructing a reboot of the active server when a first failure of the active server is detected. The step of instructing shutdown of the active server when the failure of the active server is detected again after the reboot, the step of changing the operation setting of the spare server from “spare” to “active”, and displaying the operation display of the spare server. A cluster system comprising: a step of changing based on an operation setting; and a step of operating by switching from a preliminary operation to a working operation. A server switching method systems out.
[0038]
The basic configuration and the initial setting operation of the cluster system according to the second embodiment are the same as those of the first embodiment. Regarding the difference of the second embodiment from the first embodiment, FIG. 6 is an explanatory view of the switching operation when the active server fails, and FIG. For simplicity, the configuration will be described with two active servers and one spare server.
[0039]
The failure detection unit 132 of the first active server 100 (and the second active server 200) monitors the occurrence of a failure such as a disk error, a memory error, or a power supply error of the own server (active server) and detects the occurrence of the failure ( S10 in FIG. 7).
[0040]
The active monitoring unit 331 of the spare server 300 accesses the failure detecting unit 132 of the first active server 100 (and the second active server 200) at a fixed cycle, and accesses the first active server 100 (and the second active server 200). ) Is performed and the heartbeat monitoring is performed (S20 in FIG. 7).
[0041]
When the active monitoring unit 331 of the spare server 300 detects a failure of the first active server 100 (Yes route of S30 in FIG. 7), the active monitoring unit 331 of the spare server 300 performs the operation on the first active server 100. The number of failure detections is confirmed (S31 in FIG. 7). When the first active server 100 detects the first failure, the active monitor 331 of the spare server 300 sends the failure to the failure detection unit 132 of the first active server 100 in order to reboot the first active server 100. In response, a reboot instruction is issued (S32 in FIG. 7).
[0042]
Upon receiving the reboot instruction from the active monitoring unit 331 of the spare server 300, the failure detection unit 132 of the first active server 100 instructs the system control unit 140 of the first active server 100 to perform a reboot, and the system control unit 140 Executes the reboot of the first active server 100 (S33 in FIG. 7).
[0043]
When the failure detection unit 132 of the first active server 100 detects a failure again after the first active server 100 is rebooted (S10 ′ to S30 in FIG. 7), the active monitoring unit 331 of the spare server 300 sets The number of times of failure detection in the first active server 100 is confirmed (S31 in FIG. 7). When the failure detection number of the first active server 100 is the second time, the first active server 100 is shut down and the spare server 300 itself is switched to the active server. A shutdown instruction is issued to the failure detection unit 132 of the active server 100 (S40 in FIG. 7).
[0044]
Upon receiving the shutdown instruction from the active monitoring unit 331 of the spare server 300, the failure detection unit 132 of the first active server 100 enables the operation display unit 110 to easily determine from the appearance that the operation state has been switched. The display setting is changed from “active” to “failure stop” (S50 in FIG. 7), a shutdown instruction is issued to the system control unit 140 of the first active server 100, and the system control unit 140 of the first active server 100 is shut down. Executes the shutdown of the first active server 100 (S60 in FIG. 5).
[0045]
After issuing a shutdown instruction to the failure detection unit 132 of the first active server 100, the spare server 300 changes the display setting of the operation setting unit 320 of the standby server 300 from "spare" to "active" (FIG. 7). S70). Then, the operation display unit 310 of the spare server 300 receives the setting change of the operation setting unit 320, changes the operation display from “spare” to “active” (S80 in FIG. 7), and starts operation as the active server.
[0046]
In the second embodiment, the case of using two active servers and one spare server has been described as an example, but it is naturally possible to use N active servers.
[0047]
According to the procedure of the second embodiment described above, the failure of the active server that can be recovered by rebooting, which is often seen in practical use, is dealt with only by rebooting the active server. For a required failure, the spare server can be switched to the active server.
[0048]
Next, a specific example in which a plurality of spare servers in the first and second embodiments are added will be described as a third embodiment of the present invention with reference to FIGS. explain. When there are a plurality of spare servers, for example, a state of “spare 2” meaning “spare spare” is newly defined as an operation state.
[0049]
FIG. 8 is an explanatory view of switching the operation of a plurality of spare servers in the event of a failure of the active server, and FIG. For simplicity, one active server and two spare servers are used, and additional contents from the first embodiment and the second embodiment will be described. The basic configuration and the initial setting operation of the third embodiment are the same as those of the first embodiment and the second embodiment. Only the initial setting of the second spare server 600 is added.
[0050]
Regarding the operation of the third embodiment, S10 to S80 of FIGS. 4 and 5 of the first embodiment and S10 to S80 of FIGS. 6 and 7 of the second embodiment are the same as those of the third embodiment. It is. After that, in the third embodiment, since there are two spare servers (the first spare server 300 and the second spare server 600), additional processing is performed.
[0051]
That is, in S80 of FIG. 9, similarly to S80 of the first or second embodiment, the operation display unit 310 of the first spare server 300 receives the setting change of the operation setting unit 320 and displays the operation display. From “spare” to “working”.
[0052]
Subsequent to this processing, the active monitoring unit 331 of the first standby server 300 issues an instruction to the active monitoring unit 631 of the second standby server 600 to switch from the “standby 2” operation to the “standby” operation (FIG. 9). S90). When receiving the instruction to switch to the “spare” operation, the active monitoring unit 631 of the second spare server 600 changes the display setting of the operation setting unit 620 of the second spare server 600 from “spare 2” to “spare”. (S100 in FIG. 9). Then, the operation display unit 610 of the second spare server 600 receives the setting change of the operation setting unit 620, changes the operation display from “spare 2” to “spare” (S110 in FIG. 9), and starts operation as a spare server. I do.
[0053]
In this example, the case of one active server and two spare servers has been described as an example. However, a plurality of active servers and a plurality of spare servers (smaller than the active server) can be easily expanded. It is possible.
[0054]
According to the third embodiment, by preparing a plurality of spare servers, even if a failure occurs in a plurality of active servers at one time, the spare server can be switched to the active server, and the system suspension period can be shortened. It is.
[0055]
FIG. 10 is a specific example of the operation display unit 110 in each embodiment of the present invention, and the operation states are “active operation”, “preliminary operation”, “secondary operation”, “failure stop”, and “stop”. "5 states are indicated by five LEDs. According to this embodiment, even when the active server and the spare server are exchanged, it is possible to easily determine which operating state is in the external appearance, so that maintenance is easy even when the number of servers is large.
[0056]
FIG. 11 is another specific example of the operation display unit 110 in each embodiment of the present invention. For example, the operation states are defined as five states of “active operation”, “preliminary operation”, “preliminary 2 operation”, “failure stop”, and “stop”, and are indicated by three LEDs. According to this embodiment, even when the active server and the spare server are exchanged, it is possible to easily determine which operating state is in the external appearance, so that maintenance is easy even when the number of servers is large. Further, the number of LEDs of the operation display unit can be reduced.
[0057]
In FIG. 10 and FIG. 11, as a specific example of the operation display unit 110 in each embodiment of the present invention, the operation state is determined by giving meaning to turning on and off of the LED, but the blinking cycle of the LED is similarly combined. Naturally, it can be determined by the display method. Also, it is naturally possible to mount a liquid crystal screen instead of the LED and display the operation state by character information.
[0058]
【The invention's effect】
As described above, according to the present invention, in a cluster system in which one or more spare servers are allocated to a plurality of active servers, the spare server has the function of a management server, and the spare server has the function of the management server. It is possible to switch from the active server to the spare server without requiring a server. It has a simple configuration that does not require a management server, and can suppress an increase in system cost.
[0059]
Each server according to the present invention includes an operation setting unit that sets in advance whether to operate as a current or a standby at the time of startup, an operation display unit that allows the current operation mode to be easily determined from the appearance, a system shutdown and a reboot. And a failure communication unit that monitors the presence or absence of a failure and notifies the failure. Then, by the cooperation of these servers, switching from the active server to the spare server can be performed under the initiative of the spare server. When a failure occurs in the active server, switching can be promptly performed under the initiative of the spare server, and reliability can be improved.
[0060]
Further, the current operation mode can be easily determined from the appearance by the operation display unit provided in each server, and which server is in which operation state easily from the appearance even after switching the operation of the active server and the spare server. Can be determined. Therefore, maintenance is easy.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a cluster system according to a first embodiment (and second and third embodiments) of the present invention.
FIG. 2 is an initial operation diagram according to the first embodiment (and the second and third embodiments) of the present invention.
FIG. 3 is an initial operation flowchart according to the first embodiment (and the second and third embodiments) of the present invention.
FIG. 4 is a failure switching operation diagram according to the first embodiment of the present invention.
FIG. 5 is a failure switching flowchart according to the first embodiment of the present invention.
FIG. 6 is a failure switching operation diagram according to the second embodiment of the present invention.
FIG. 7 is a failure switching flowchart according to the second embodiment of the present invention.
FIG. 8 is a failure switching operation diagram according to the third embodiment of the present invention.
FIG. 9 is a failure switching flowchart according to the third embodiment of the present invention.
FIG. 10 is a specific example of an operation display unit in each embodiment of the present invention.
FIG. 11 is another specific example of the operation display unit in each embodiment of the present invention.
[Explanation of symbols]
100 first active server 110 operation display unit 120 operation setting unit 130 failure communication unit 131 active monitoring unit 132 failure detection unit 140 system control unit 200 second active server 300 spare server (first spare server)
310 operation display unit 320 operation setting unit 330 failure communication unit 331 active monitoring unit 332 failure detection unit 340 system control unit 400 LAN
500 control bus 600 second spare server 610 operation display unit 620 operation setting unit 630 failure communication unit 631 active monitoring unit 632 failure detection unit.

Claims (7)

構成及び機能が同じで現用/予備の動作状態を切り替え可能な複数のサーバをネットワーク接続して構成され、現用として稼動中の現用サーバに障害が発生した際に現用サーバを動作停止させ予備として待機中の予備サーバを稼動させ現用サーバとして切り替えるクラスタシステムであって、
前記複数のサーバを、現用サーバと、現用サーバよりも少ない数の予備サーバに設定し、現用サーバ障害時に予備サーバ主導で予備/現用サーバの切り替えを行なうことを特徴とするクラスタシステム。
A plurality of servers having the same configuration and function and capable of switching between active and standby operating states are connected to a network. When a failure occurs in the active active server, the active server is stopped and the standby is activated. A cluster system in which a spare server in operation is operated and switched as an active server,
A cluster system, wherein the plurality of servers are set as an active server and a smaller number of standby servers than the active server, and when the active server fails, the standby server takes the initiative to switch the standby / active server.
複数のサーバをネットワーク接続して構成されたクラスタシステムであって、上記各サーバが、現用/予備の動作状態を設定する動作設定部と、現在の動作状態を外部に示す動作表示部と、動作状態を“予備”と設定された場合には予備サーバとして機能し動作状態を“現用”と設定された現用サーバの障害有無を定期的に監視する現用監視部と、動作状態を“現用”と設定された場合には自サーバの障害を監視し障害の有無を示す障害検出部と、自サーバのシャットダウン制御とリブート制御を実施するシステム制御部とを備え、
複数の現用サーバの障害有無を現用サーバよりも少ない数の予備サーバで監視し、現用サーバの障害を検出した際に該現用サーバをシャットダウンし前記予備サーバの1つを現用サーバとして切り替えることを特徴とするクラスタシステム。
What is claimed is: 1. A cluster system comprising a plurality of servers connected to a network, wherein each of the servers has an operation setting unit for setting an active / standby operation state, an operation display unit for externally displaying a current operation state, When the status is set to “spare”, the active monitoring unit functions as a spare server and periodically monitors the presence or absence of a failure of the active server whose operation status is set to “current”, and the operation status is set to “active”. When set, a failure detection unit that monitors the failure of the own server and indicates whether there is a failure, and a system control unit that performs shutdown control and reboot control of the own server,
It is characterized in that the presence / absence of a plurality of active servers is monitored by a smaller number of spare servers than the active server, and when a failure of the active server is detected, the active server is shut down and one of the spare servers is switched as the active server. And a cluster system.
複数のサーバをネットワーク接続して構成されたクラスタシステムであって、上記各サーバが、現用/予備の動作状態を設定する動作設定部と、現在の動作状態を外部に示す動作表示部と、動作状態を“予備”と設定された場合には予備サーバとして機能し動作状態を“現用”と設定された現用サーバの障害有無を定期的に監視する現用監視部と、動作状態を“現用”と設定された場合には現用サーバとして機能し自サーバの障害を監視し障害の有無を示す障害検出部と、自サーバのシャットダウン制御とリブート制御を実施するシステム制御部とを備え、
現用サーバの障害有無を現用サーバよりも少ない数の予備サーバで監視し、現用サーバが現用動作中に自サーバの障害を検出した際には、該障害発生を予備サーバに伝え、該予備サーバよりシャットダウン指示を受けた際に該自サーバをシャットダウンし、または該予備サーバよりリブート指示を受けた際に該自サーバをリブートすることを特徴とするクラスタシステム。
What is claimed is: 1. A cluster system comprising a plurality of servers connected to a network, wherein each of the servers has an operation setting unit for setting an active / standby operation state, an operation display unit for externally displaying a current operation state, When the status is set to “spare”, the active monitoring unit functions as a spare server and periodically monitors the presence or absence of a failure of the active server whose operation status is set to “current”, and the operation status is set to “active”. When set, the system includes a failure detection unit that functions as an active server, monitors a failure of the own server, and indicates whether there is a failure, and a system control unit that performs shutdown control and reboot control of the own server,
The presence or absence of a failure of the active server is monitored by a smaller number of spare servers than the active server. When the active server detects a failure of its own server during the active operation, the occurrence of the failure is reported to the spare server, and A cluster system which shuts down its own server upon receiving a shutdown instruction or reboots its own server upon receiving a reboot instruction from the spare server.
請求項1ないし3のいずれかに記載のクラスタシステムにおいて、サーバの動作状態を表示する動作表示部に複数の表示素子を有する表示手段を備え、各表示素子の点灯条件に動作状態を意味づけ、サーバ動作切り替え後もサーバ動作状態を外観から判別可能とすることを特徴とするクラスタシステム。4. The cluster system according to claim 1, further comprising a display unit having a plurality of display elements in an operation display unit for displaying an operation state of the server, wherein a lighting condition of each display element means an operation state, A cluster system characterized in that the server operation state can be determined from the appearance even after the server operation is switched. 構成及び機能が同じで現用/予備の動作状態を切り替え可能な複数のサーバをネットワーク接続して構成され、現用として稼動中の現用サーバに障害が発生した際に現用サーバを動作停止させ予備として待機中の予備サーバを稼動させ現用サーバとして切り替えるクラスタシステムの制御方法であって、
前記複数のサーバを、現用サーバと、現用サーバよりも少ない数の予備サーバに設定するステップと、
現用サーバ障害時に予備サーバ主導で予備/現用サーバの切り替えを行なうステップを含むことを特徴とするクラスタシステムの制御方法。
A plurality of servers having the same configuration and function and capable of switching between active and standby operating states are connected to a network. When a failure occurs in the active active server, the active server is stopped and the standby is activated. A method for controlling a cluster system in which a middle spare server is operated and switched as an active server,
Setting the plurality of servers as an active server and a smaller number of spare servers than the active server;
A method for controlling a cluster system, comprising the step of switching between a standby server and an active server under the initiative of a standby server when an active server fails.
現用/予備の動作状態を切り替え可能な複数のサーバをネットワーク接続して構成されたクラスタシステムに対して、現用として稼動中の現用サーバに障害が発生した際に現用サーバを動作停止させ予備として待機中の予備サーバを稼動させ現用サーバとして切り替えるクラスタシステムの制御方法であって、
前記複数のサーバを、現用サーバと、現用サーバよりも少ない数の予備サーバに設定するステップと、
予備サーバの動作時に、稼動中の現用サーバの障害監視を実行するステップと、
現用サーバの障害を検出した際に該現用サーバのシャットダウンを指示するステップと、
予備動作している予備サーバの動作設定を“予備”から“現用”に変更するステップと、
外部に対する予備サーバの動作表示を動作設定に基づき変更するステップと、
予備動作から現用動作に切り替えて動作するステップを含むことを特徴とするクラスタシステムの制御方法。
In a cluster system configured by connecting a plurality of servers capable of switching between active / standby operation states to a network, when a failure occurs in an active server that is operating as an active server, the active server stops operating and stands by as a standby server A method for controlling a cluster system in which a middle spare server is operated and switched as an active server,
Setting the plurality of servers as an active server and a smaller number of spare servers than the active server;
Performing failure monitoring of the active working server when the spare server is operating;
Instructing shutdown of the active server when detecting a failure of the active server;
Changing the operation setting of the spare server operating as a spare from “spare” to “working”;
Changing the operation display of the spare server to the outside based on the operation setting;
A method for controlling a cluster system, comprising a step of operating by switching from a standby operation to an active operation.
現用/予備の動作状態を切り替え可能な複数のサーバをネットワーク接続して構成され、上記各サーバが、現用/予備の動作状態を設定する動作設定部と、現在の動作状態を外部に示す動作表示部と、現用監視部と、障害検出部と、システム制御部とを備えたクラスタシステムの制御方法であって、
前記複数のサーバを、現用サーバと、現用サーバよりも少ない数の予備サーバに設定するステップと、
現用動作時に自サーバの障害を検出し待機中の予備サーバに対して障害を示すステップと、
予備サーバからシャットダウン指示を受けた際に稼動中の自サーバの動作表示を“現用”から“障害停止”に変更し自サーバのシャットダウンを実行するステップと、
予備サーバからリブート指示を受けた際に自サーバのリブートを実行するステップを含むことを特徴とするクラスタシステムの制御方法。
A plurality of servers capable of switching between active / standby operation states are connected to a network, and each of the servers is configured to set an active / standby operation state, and an operation display externally showing the current operation state. , A working monitoring unit, a failure detection unit, and a control method of a cluster system including a system control unit,
Setting the plurality of servers as an active server and a smaller number of spare servers than the active server;
Detecting a failure of the own server during the active operation and indicating a failure to the standby spare server;
Changing the operation display of the running own server from “working” to “failure stop” when the shutdown instruction is received from the spare server and executing the shutdown of the own server;
A method for controlling a cluster system, comprising a step of executing a reboot of a server when a reboot instruction is received from a spare server.
JP2003153984A 2003-05-30 2003-05-30 Cluster system and its control method Pending JP2004355446A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003153984A JP2004355446A (en) 2003-05-30 2003-05-30 Cluster system and its control method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003153984A JP2004355446A (en) 2003-05-30 2003-05-30 Cluster system and its control method

Publications (1)

Publication Number Publication Date
JP2004355446A true JP2004355446A (en) 2004-12-16

Family

ID=34048764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003153984A Pending JP2004355446A (en) 2003-05-30 2003-05-30 Cluster system and its control method

Country Status (1)

Country Link
JP (1) JP2004355446A (en)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007208324A (en) * 2006-01-30 2007-08-16 Fujitsu Ltd Redundant device
JP2007207219A (en) * 2006-01-06 2007-08-16 Hitachi Ltd Computer system management method, management server, computer system, and program
CN101876926B (en) * 2009-11-26 2012-06-20 北京航空航天大学 Asymmetric software triple-computer hot backup fault-tolerant method
JP2012128325A (en) * 2010-12-17 2012-07-05 Panasonic Corp Image forming apparatus
US8275872B2 (en) 2009-05-07 2012-09-25 Canon Kabushiki Kaisha Network system using WSD protocol, comprising plurality of devices capable of changeover between representative device and non-representative device, and management method therefor
WO2013108386A1 (en) * 2012-01-19 2013-07-25 株式会社日立製作所 Method for managing computer system, computer system, and storage medium
CN103596652A (en) * 2013-07-30 2014-02-19 华为技术有限公司 Network control method and device
CN105554130A (en) * 2015-12-18 2016-05-04 深圳中兴网信科技有限公司 Distributed storage system-based NameNode switching method and switching device
JP2016099634A (en) * 2014-11-18 2016-05-30 富士電機株式会社 Control system, repeating device, and control device
JP2017083935A (en) * 2015-10-23 2017-05-18 日本電気株式会社 Information processor, cluster system, clustering method, and program
JP2021019208A (en) * 2019-07-17 2021-02-15 株式会社京三製作所 Mobile IP system and home agent redundant control method

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007207219A (en) * 2006-01-06 2007-08-16 Hitachi Ltd Computer system management method, management server, computer system, and program
JP2007208324A (en) * 2006-01-30 2007-08-16 Fujitsu Ltd Redundant device
JP4616183B2 (en) * 2006-01-30 2011-01-19 富士通株式会社 Redundant device
US8275872B2 (en) 2009-05-07 2012-09-25 Canon Kabushiki Kaisha Network system using WSD protocol, comprising plurality of devices capable of changeover between representative device and non-representative device, and management method therefor
CN101876926B (en) * 2009-11-26 2012-06-20 北京航空航天大学 Asymmetric software triple-computer hot backup fault-tolerant method
JP2012128325A (en) * 2010-12-17 2012-07-05 Panasonic Corp Image forming apparatus
WO2013108386A1 (en) * 2012-01-19 2013-07-25 株式会社日立製作所 Method for managing computer system, computer system, and storage medium
JPWO2013108386A1 (en) * 2012-01-19 2015-05-11 株式会社日立製作所 Computer system management method, computer system, and storage medium
US9400761B2 (en) 2012-01-19 2016-07-26 Hitachi, Ltd. Management method for computer system, computer system, and non-transitory computer-readable storage medium
CN103596652A (en) * 2013-07-30 2014-02-19 华为技术有限公司 Network control method and device
WO2015013896A1 (en) * 2013-07-30 2015-02-05 华为技术有限公司 Network control method and apparatus
JP2016099634A (en) * 2014-11-18 2016-05-30 富士電機株式会社 Control system, repeating device, and control device
JP2017083935A (en) * 2015-10-23 2017-05-18 日本電気株式会社 Information processor, cluster system, clustering method, and program
CN105554130A (en) * 2015-12-18 2016-05-04 深圳中兴网信科技有限公司 Distributed storage system-based NameNode switching method and switching device
JP2021019208A (en) * 2019-07-17 2021-02-15 株式会社京三製作所 Mobile IP system and home agent redundant control method

Similar Documents

Publication Publication Date Title
US7802127B2 (en) Method and computer system for failover
JP2012531138A (en) Main / standby board switching method and system
JP5548647B2 (en) Partial failure handling method in computer system
US20020120884A1 (en) Multi-computer fault detection system
CN114090184B (en) Method and equipment for realizing high availability of virtualization cluster
JP2004355446A (en) Cluster system and its control method
CN103532753A (en) Double-computer hot standby method based on memory page replacement synchronization
CN110874261A (en) Usability system, usability method, and storage medium storing program
CN105242980A (en) Complementary watchdog system and complementary watchdog monitoring method
CN105589756A (en) Batch processing cluster system and method
WO2006005251A1 (en) Method and system for carrying out the function of switching in a communication system
CN107071189B (en) Connection method of communication equipment physical interface
US20030177224A1 (en) Clustered/fail-over remote hardware management system
JP5285045B2 (en) Failure recovery method, server and program in virtual environment
CN108833189A (en) A kind of memory node management system and method
JP5445572B2 (en) Computer system, standby power reduction method, and program
JP2005250840A (en) Information processing apparatus for fault-tolerant system
JP2008015704A (en) Multiprocessor system
JP4675567B2 (en) Large screen display system
JP5455846B2 (en) Substation monitoring and control system and control function switching method of console
CN116360865A (en) Cluster management method, device and computing system
JPH08185330A (en) Method for switching redundant computer system
CN110752955A (en) Seat invariant fault migration system and method
JP5464886B2 (en) Computer system
JPH10133963A (en) Fault detecting and recovering system for computer