JP2021051532A

JP2021051532A - 計算機システム

Info

Publication number: JP2021051532A
Application number: JP2019173820A
Authority: JP
Inventors: 亮相川; Ryo Aikawa
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2021-04-01
Also published as: US20210089379A1

Abstract

【課題】システムの可用性を損なうことなくマスタノードの冗長性を回復する。【解決手段】クラスタは、ネットワークを介して互いに通信可能であり、１以上の計算ノードからのユーザデータを格納する複数のノードを含む。複数のノードは、複数の旧マスタノードを含む。複数のノードの各ノードは、クラスタのマスタノードを示す参照情報を保持する。複数の旧マスタノードにおける一つのマスタノードでの障害に対して、クラスタの管理を行うために予め定められた最小単位のマスタノードの数以上の、新マスタノードが追加される。各稼働している旧マスタノードは、保持している参照情報を、新マスタノードが含まれるように書き換える。【選択図】図６

Description

本発明は計算機システムに関する。

本開示の背景技術として、特許文献１がある。特許文献１は、例えば、「分散コンピューティングクラスタ内のノードのコンセンサスグループの第１のノードで実行される権限モジュールのインスタンスが失敗したと判定することにより、分散コンピューティングクラスタ内のコンセンサスグループを管理し、コンセンサスグループの２番目のノードにある権限モジュールのインスタンスにより、コンセンサスグループに新しいノードを追加して、最初のノードを置き換える。新しいノードは、第１のノードで実行されている権限モジュールのインスタンスが失敗したと判定された時点でコンセンサスグループのメンバーではなかったコンピューティングクラスタ内のノードである。」ことを開示する（例えば要約）。

米国特許第９６９０６７５号

複数のストレージノードからなり、さらに、複数のマスタノードを含むクラスタにおいて、マスタノードに障害が発生すると、マスタノードの冗長性が低下する又はなくなる。システム（クラスタ）を停止することなくマスタノードを追加する動的な追加は、マスタノードに実装されているコーディネーションサービス／スケールアウトデータベースの動的追加可否に大きく依存する。コーディネーションサービス／スケールアウトデータベースが動的追加不可の場合、システムの停止及び再起動が必要となり、クラスタの可用性が大きく損なわれる。

したがって、コーディネーションサービス／スケールアウトデータベースが動的追加に対応していなくても、システムの可用性を損なうことなくマスタノードの冗長性を回復できる技術が望まれる。

本発明の一態様は、クラスタを含む計算機システムであって、前記クラスタは、ネットワークを介して互いに通信可能であり、１以上の計算ノードからのユーザデータを格納する複数のノードを含み、前記複数のノードは、複数の旧マスタノードを含み、前記複数のノードの各ノードは、前記クラスタのマスタノードを示す参照情報を保持し、前記複数の旧マスタノードにおける一つのマスタノードでの障害に対して、前記クラスタの管理を行うために予め定められた最小単位のマスタノードの数以上の、新マスタノードが追加され、前記複数の旧マスタノードにおいて各稼働している旧マスタノードは、保持している前記参照情報を、前記新マスタノードが含まれるように書き換える。

本発明の一態様によれば、システムの可用性を損なうことなくマスタノードの冗長性を回復できる。

実施例１において、計算機システムの構成を模式的に示すブロック図である。実施例１において、マスタノードのハードウェア構成例を示実施例１において、構成情報ファイルの構成例を示す。実施例１において、コーディネーションサービス設定ファイルの構成例を示す。実施例１において、スケールアウトデータベース設定ファイルの構成例を示す。実施例１において、フローチャートを参照して、クラスタの一つのマスタノードにおいて障害が発生した場合の処理を図６に示す処理の詳細を示すシーケンス図を示す。図６に示す処理の詳細を示すシーケンス図を示す。実施例１において、障害発生前の、各旧マスタノードにおけるコーディネーションサービス設定ファイル及びスケールアウトデータベース設定ファイルを示す。実施例１において、障害発生前の、ワーカノードにおける構成情報ファイルの参照先情報を示す。実施例１において、各新マスタノードにおけるコーディネーションサービス設定ファイル及びスケールアウトデータベース設定ファイルを示す。実施例１において、ワーカノードの変更された構成情報ファイルにおける参照先情報を示す。実施例２において、クラスタの一つのマスタノードにおいて障害が発生した場合の処理を説明するフローチャートである。図１２に示す処理の詳細を示すシーケンス図を示す。図１２に示す処理の詳細を示すシーケンス図を示す。実施例２において、各新マスタノードにおけるコーディネーションサービス設定ファイル及びスケールアウトデータベース設定ファイルを示す。実施例２において、ワーカノードの変更された構成情報ファイルにおける参照先情報を示す。実施例２において、旧マスタノードの変更後のコーディネーションサービス設定ファイル及びスケールアウトデータベース設定ファイルを示す。実施例２において、旧マスタノード群が障害後マスタノード群に参加した後の、ワーカノードの構成情報ファイルにおける参照先情報を示す。実施例３において、クラスタの一つのセカンダリマスタノードにおいて障害が発生した場合の処理を説明するシーケンス図である。実施例３において、クラスタの一つのセカンダリマスタノードにおいて障害が発生した場合の処理を説明するシーケンス図である。

以下、本開示の実施例を、添付図面を参照しながら説明する。以下の説明では、計算機システムは、１以上の物理的な計算機を含んだシステムである。物理的な計算機は、汎用計算機でも専用計算機でもよい。物理的な計算機は、Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ）要求を発行する計算機として機能してもよいし、Ｉ／Ｏ要求に応答してデータのＩ／Ｏを行う計算機として機能してもよい。

すなわち、計算機システムは、Ｉ／Ｏ要求を発行する１以上の計算機で構成されるシステム、及び、Ｉ／Ｏ要求に応答してデータのＩ／Ｏを行う１以上の計算機で構成されるシステムのうちの少なくとも１つでよい。少なくとも１つの物理的な計算機において、１以上の仮想的な計算機が実行されてもよい。仮想的な計算機は、Ｉ／Ｏ要求を発行する計算機でもよいし、Ｉ／Ｏ要求に応答してデータのＩ／Ｏを行う計算機でもよい。

以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサによって実行されることで、定められた処理を、適宜に記憶部及び／又はインタフェース部等を用いながら行うため、処理の主語が、プロセッサ（或いは、そのプロセッサを有するコントローラのようなデバイス）とされてもよい。

プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバ又は計算機が読み取り可能な（例えば非一時的な）記録媒体であってもよい。また、以下の説明において、２以上のプログラムが１つのプログラムとして実現されてもよいし、１つのプログラムが２以上のプログラムとして実現されてもよい。

以下の説明では、「ｘｘｘファイル」といった表現にて、入力に対して出力が得られる情報を説明することがあるが、当該情報は、どのような構造のデータでもよい。また、以下の説明において、各ファイルの構成は一例であり、１つのファイルは、２以上のファイルに分割されてもよいし、２以上のファイルの全部又は一部が１つのファイルであってもよい。

図１は、本実施例の計算機システムの構成を模式的に示すブロック図である。計算機システムは、１以上の計算ノード（ホストノード）１０、管理端末１３及びクラスタ２０を含む。図１は、二つの計算ノード１０を例として図示し、その内の一つが例として符号１０で指示されている。計算ノード１０、管理端末１３及びクラスタ２０は、計算ネットワーク（ＮＷ）１５を介して互いに通信を行うことができる。

クラスタ２０は、複数のストレージノードを含む分散ストレージシステムであり、計算ノード１０からのＩ／Ｏを受け付ける。クラスタ２０は、計算ノード１０からのライト要求に従って計算ノード１０から受信したライトデータを格納し、計算ノード１０からのリード要求に従って、格納されているデータから指定されたデータを読み出し、計算ノード１０に返す。管理端末１３は、管理者（ユーザ）により、計算機システムを管理するために使用される。

クラスタ２０は、複数のマスタノードで構成される又は、複数のマスタノード及び１以上のワーカノードで構成される。ワーカノードはクラスタ２０に含まれていなくてもよい。図１に示す構成例において、クラスタ２０は、三つのマスタノード（ノード(１)）２１Ａ、マスタノード（ノード（２））２１Ｂ及びマスタノード（ノード（３））２１Ｃ並びに一つのワーカノード（ノード（４））２３で構成されている。クラスタ２０内のノードは、物理ノード又は仮想ノードである。

マスタノード２１Ａ、２１Ｂ及び２１Ｃ並びにワーカノード２３は、クラスタネットワーク２９により互いに通信可能である。なお、計算ネットワーク１５とクラスタネットワーク２９とは一つのネットワークで構成されていてもよい。

クラスタ２０内のノードは、ストレージノード（ストレージ装置）であって、計算ノード１０から受信したユーザデータを格納し、計算ノード１０に対して指定されたユーザデータを返す。各ノードは、ストレージプログラム２１１及びストレージ２１４を含む。図１において、マスタノード２１Ａにおけるストレージプログラム及びストレージが、例として、符号２１１及び２１４によってそれぞれ指示されている。ストレージ２１４は、計算ノード１０からのユーザデータを格納する。ストレージプログラム２１１は、計算ノード１０からの要求に応じて、Ｉ／Ｏ処理を実行する。

マスタノード２１Ａ、２１Ｂ及び２１Ｃは、計算ノード１０からのＩ／Ｏを受け付けることに加え、ワーカノード２３が行わない、クラスタ２０の管理、制御を実行するする。マスタノード２１Ａ、２１Ｂ及び２１Ｃには、一つのマスタノードをプライマリマスタノードに選出する。他のマスタノードはセカンダリマスタノードである。図１の構成例において、マスタノード２１Ａはプライマリマスタノードであり、他のマスタノード２１Ｂ及び２１Ｃはセカンダリマスタノードである。

プライマリマスタノード２１Ａは、クラスタ２０の全体管理を行う。プライマリマスタノード２１Ａは、クラスタ２０における構成の変更、例えば、ボリューム構成やノード構成の変更を他のノードに指示する。例えば、クラスタ２０におけるいずれかのノードにおいて障害が発生すると、プライマリマスタノード２１Ａは、他のノードに必要な処理を実行することを指示する。

セカンダリマスタノード２１Ｂ及び２１Ｃは、プライマリマスタノードの候補となるノードであり、プライマリマスタノード２１Ａにおいて障害が発生すると、セカンダリマスタノード２１Ｂ及び２１Ｃのいずれかが、プライマリマスタノードとして選出される。複数のマスタノードにより、プライマリマスタノードの障害に対する冗長性が確保される。

各マスタノードは、コーディネーションサービス２１２及びスケールアウトデータベース（ＤＢ）２１３を含む。コーディネーションサービス２１２はプログラムである。図１において、マスタノード２１Ａにおけるコーディネーションサービス及びスケールアウトデータベースが、例として、符号２１２及び２１３によってそれぞれ指示されている。

コーディネーションサービス２１２は、マスタノード間の処理を実行する。例えば、コーディネーションサービス２１２は、マスタノードからプライマリマスタノードを選出する処理を実行し、また、マスタノード間で管理情報の同期のための通信を行う。マスタノードのコーディネーションサービス２１２は、プライマリマスタノードが常に存在するように、互いに通信を行う。上記管理情報は、コーディネーションサービス２１２が保持する情報及びスケールアウトデータベース２１３に格納されている情報を含む。

スケールアウトデータベース２１３は、クラスタ２０の構成情報及び制御情報を格納している。スケールアウトデータベース２１３は、例えば、クラスタ２０内の各ノードの構成（ハードウェア構成及びソフトウェア構成）やアドレスの情報、クラスタ２０内で管理されているボリュームの情報等を格納している。

スケールアウトデータベース２１３は、また、各ノードのロール、プライマリマスタノード、障害が発生しているノード等、クラスタ２０内のノードの状態についての情報を格納している。スケールアウトデータベース２１３は、システム起動時に予め格納されている情報及びシステム内で更新された情報を含む。

スケールアウトデータベース２１３は、ストレージプログラム２１１により更新される。スケールアウトデータベース２１３の内容は、コーディネーションサービス２１２によって、マスタノード間において同期されている（同一内容に維持される）。なお、スケールアウトデータベース２１３が、その内容の同期処理を実行する機能を有していてもよい。後述する管理テーブルの情報は、スケールアウトデータベース２１３から取得される。

図２は、マスタノード２１Ａのハードウェア構成例を示す。クラスタ２０における他のノードも、同様の構成を有することができる。マスタノード２１Ａは、計算機構成を有することができる。マスタノード２１Ａは、プロセッサ２２１、主記憶装置２２２、補助記憶装置２２３、及び通信インタフェース（Ｉ／Ｆ）２２７を含む。上記構成要素は、バスによって互いに接続されている。

主記憶装置２２２、補助記憶装置２２３又はこれらの組み合わせは非一過性の記憶媒体を含む記憶装置であり、プロセッサ２２１が使用するプログラム及びデータを格納している。また、補助記憶装置２２３は、計算ノード１０のユーザデータを格納するストレージ２１４の記憶領域を提供する。

主記憶装置２２２は、例えば半導体メモリから構成され、主に実行中のプログラムやデータを保持するために利用される。プロセッサ２２１は、主記憶装置２２２に格納されているプログラムに従って、様々な処理を実行する。プロセッサ２２１がプログラムに従って動作することで、様々な機能部が実現される。補助記憶装置２２３は、例えば１又は複数のハードディスクドライブやソリッドステートドライブなどの大容量の記憶装置から構成され、プログラムやデータを長期間保持するために利用される。

プロセッサ２２１は、単一の処理ユニットまたは複数の処理ユニットで構成することができ、単一もしくは複数の演算ユニット、又は複数の処理コアを含むことができる。プロセッサ２２１は、１又は複数の中央処理装置、マイクロプロセッサ、マイクロ計算機、マイクロコントローラ、デジタル信号プロセッサ、ステートマシン、ロジック回路、グラフィック処理装置、チップオンシステム、及び／又は制御指示に基づき信号を操作する任意の装置として実装することができる。

補助記憶装置２２３に格納されたプログラム及びデータが起動時又は必要時に主記憶装置２２２にロードされ、プログラムをプロセッサ２２１が実行することにより、マスタノード２１Ａの各種処理が実行される。したがって、以下においてマスタノード２１Ａにより実行される処理は、プロセッサ２２１又はプログラムによる処理である。通信Ｉ／Ｆ２２７は、ネットワークとの接続のためのインタフェースである。

計算ノード１０及び管理端末１３は、図２に示すような計算機構成を有することができる。管理端末１３は、さらに、入力装置及び出力装置を含むことができる。入力装置は、ユーザが管理端末１３に指示や情報などを入力するためのハードウェアデバイスである。出力装置は、入出力用の各種画像を提示するハードウェアデバイスであり、例えば、表示デバイス又は印刷デバイスである。入出力装置が、計算ノード１０やクラスタ２０のノードに実装されていてもよい。

以下において、計算機システムのノードが保持する管理テーブルの例を説明する。図３は、構成情報ファイル３１の構成例を示す。クラスタ２０の各ノードは、構成情報ファイル３１を保持している。構成情報ファイル３１は、自ノードのロール及びアクセスのためにマスタノードそれぞれを特定する情報（例えばＩＰアドレス）を格納している。自ノードのロールは、自ノードがマスタノードであるか、ワーカノードであるかを示す。図３は、マスタノードの構成情報ファイル３１の例を示す。

図４は、コーディネーションサービス設定ファイル３３の構成例を示す。クラスタ２０の各マスタノードは、コーディネーションサービス設定ファイル３３を保持している。コーディネーションサービス設定ファイル３３は、コーディネーションサービスのクラスタを構成するノード、つまり、クラスタ２０におけるマスタノードそれぞれにアクセスできるように、それらを特定する情報（例えばＩＰアドレス）を格納している。

図５は、スケールアウトデータベース設定ファイル３５の構成例を示す。クラスタ２０の各マスタノードは、スケールアウトデータベース設定ファイル３５を保持している。スケールアウトデータベース設定ファイル３５は、スケールアウトデータベースのクラスタを構成するノード、つまり、クラスタ２０におけるマスタノードそれぞれにアクセスできるように、それらを特定する情報（例えばＩＰアドレス）を格納している。

次に、図６のフローチャートを参照して、クラスタ２０の一つのマスタノードにおいて障害が発生した場合の処理を説明する。図１に示す構成例において、マスタノード群の最小単位は、三つのマスタノード、つまり、一つのプライマリマスタノードと二つのセカンダリマスタノードで構成される。最小単位は、システム設計において予め定められており、クラスタの管理のために必要とされる冗長性を有する最小数のマスタノードを示す。そのため、何れかのマスタノードにおいて障害が発生すると、必要とされる冗長性が確保されていないことになる。

本実施例において、クラスタ２０は、既存のマスタノードにマスタノードを追加するために停止が必要となる。例えば、既存のマスタノードにマスタノードを追加するために、マスタノードにおけるコーディネーションサービス２１２やスケールアウトデータベース２１３のリスタートが必要となる。

本実施例は、マスタノードの障害に対して、最小単位のマスタノードの数以上の新マスタノードを、クラスタ２０に追加する。つまり、最小単位のマスタノード数が３である場合、３以上のマスタノードを、クラスタ２０に追加する。これにより、クラスタ２０を停止することなく、旧マスタノード群からクラスタ２０の管理（マスタ権限）を、新たに追加されるマスタノード群（新マスタノード群）に移行することができる。これにより、クラスタ２０の可用性を損なうことなく、要求される冗長性を回復（拡張を含む）することができる。なお、最小単位のマスタノードの数は、設計に依存する。

以下に説明する例において、新マスタノードの数は３であり、最小単位のマスタノード数と一致する。これにより、効率的なクラスタ管理が可能となる。なお、追加する新マスタノードの数を、障害発生直性の旧マスタノードの数と同一にすることで、マスタノード冗長性を障害発生直前の冗長性に戻すことができる。以下に説明する例は、障害後マスタノード群を、追加される新マスタノードのみで構成し、旧マスタノードを含めない。これにより、マスタノード冗長性を回復しつつ、効率的なクラスタ管理が可能となる。

以下に説明する例においては、最小単位のマスタノードの一つのマスタノードにおいて障害が発生した場合に、新マスタノード群を追加する。これにより、要求されるマスタノード冗長性を維持しつつ、新マスタノード群追加の処理をできるだけ避けることができる。これと異なり、マスタノードの障害発生後に、最小単位のマスタノードの数以上のマスタノードが存在している場合に、新マスタノード群を追加してもよい。

図６を参照して、クラスタ２０におけるいずれかのマスタノードにおいて、障害が発生すると（Ｓ１１）、３以上のマスタノードからなる新マスタノード群が、クラスタ２０に追加される（Ｓ１３）。例えば、システム管理者は、必要な設定を行った新マスタノード群を、クラスタ２０に追加する。各新マスタノードは、物理マスタノード又は仮想マスタノードである。

追加された各新マスタノードは、新マスタノードそれぞれの情報を予め保持し、互いに、通信することができる。追加された新マスタノード群は、一つのプライマリマスタノードを選出する。新マスタノード群は、クラスタ２０内の旧マスタノードと通信可能であり、旧マスタノード群から、コーディネーションサービス２１２及びスケールアウトデータベース２１３が保持している情報を取得する。

次に、各既存ノードは、構成情報ファイル３１の参照先情報を、新マスタノード群の情報に変更する（Ｓ１５）。さらに、旧マスタノード群の各稼働している旧マスタノードは、構成情報ファイル３１の自ノードのロールを、“マスタ”から“ワーカ”に変更する（Ｓ１７）。各旧マスタノードは、コーディネーションサービス２１２及びスケールアウトデータベース２１３を停止する。以上により、新マスタノード群の動的追加（冗長性回復）が完了する。

図７Ａ及び７Ｂは、図６に示す処理の詳細を示すシーケンス図を示す。図７Ａが示す処理の後に、図７Ｂが示す処理が続く。図７Ａ及び７Ｂにおいて、各稼働中の旧マスタノードは、ストレージプログラム２１１Ａ、コーディネーションサービス２１２Ａ、スケールアウトデータベース２１３Ａ、構成情報ファイル３１Ａ、コーディネーションサービス設定ファイル３３Ａ、及びスケールアウトデータベース設定ファイル３５Ａを含む。ワーカノード２３は、ストレージプログラム２１１Ｃ及び構成情報ファイル３１Ｃを含む。

各新マスタノードは、ストレージプログラム２１１Ｂ、コーディネーションサービス２１２Ｂ、スケールアウトデータベース２１３Ｂ、構成情報ファイル３１Ｂ、コーディネーションサービス設定ファイル３３Ｂ、及びスケールアウトデータベース設定ファイル３５Ｂを含む。以下に説明する例において、新マスタノード群は、最小単位を構成する三つのマスタノードで構成される。これにより、要求される冗長性を効率的に実現できる。

図７Ａを参照して、クラスタ２０のいずれかのマスタノードにおいて障害が発生する（Ｓ１１）と、マスタノード冗長性回復処理開始される（Ｓ１２）。新マスタノード群がクラスタ２０に追加される（Ｓ１３）。スケールアウトデータベース２１３Ｂは、新マスタノード群の情報を保持しており、その情報はファイル３１Ｂ、３３Ｂ及び３５Ｂに反映されている。また、スケールアウトデータベース２１３Ｂは、旧マスタノードのアドレス情報を保持している。

図８は、障害発生前の、各旧マスタノードにおけるコーディネーションサービス設定ファイル３３Ａ及びスケールアウトデータベース設定ファイル３５Ａを示す。コーディネーションサービス設定ファイル３３Ａ及びスケールアウトデータベース設定ファイル３５Ａは、それぞれ、旧マスタノード群（ノード（１）、ノード（２）及びノード（３））を示す。

図９は、障害発生前の、ワーカノード２３における構成情報ファイル３１Ｃの参照先情報を示す。構成情報ファイル３１Ｃの参照先情報は、旧マスタノード群（ノード（１）、ノード（２）及びノード（３））を示す。旧マスタノード群のマスタノード２１Ａ、２１Ｂ及び２１Ｃにおける構成情報の参照先情報も、同様に、旧マスタノード群を示す。

図１０は、各新マスタノードにおけるコーディネーションサービス設定ファイル３３Ｂ及びスケールアウトデータベース設定ファイル３５Ｂを示す。コーディネーションサービス設定ファイル３３Ａ及びスケールアウトデータベース設定ファイル３５Ａは、それぞれ、新マスタノード群（ノード（４）、ノード（５）及びノード（６））を示す。本例においては、上述のように、旧マスタノードはワーカノードに変更され、マスタノードとしての役割を終了する。

図７Ａに戻って、各新マスタノードのストレージプログラム２１１Ｂは、旧プライマリマスタノードに、クラスタ構築のための情報同期要求を送信する（Ｓ１３１）。旧プライマリマスタノードのストレージプログラム２１１Ａは、コーディネーションサービス２１２Ａが保持している情報を要求元の新マスタノードに送信し、新マスタノードのコーディネーションサービス２１２Ｂは受信した情報を保持する（Ｓ１３２）。

さらに、ストレージプログラム２１１Ａは、スケールアウトデータベース２１３Ａに格納されている情報を要求元の新マスタノードに送信し、新マスタノードのスケールアウトデータベース２１３Ｂは、受信した情報を格納する（Ｓ１３３）。必要な情報の送信が完了すると、旧プライマリマスタノードのストレージプログラム２１１Ａは、応答完了を要求元の新マスタノードに通知する（Ｓ１３４）。

旧プライマリマスタノードからの情報と予め保持する新マスタノードの情報により、クラスタ内の全てのノードの情報が、新マスタノード群によって保持される。新マスタノード群は、保持している情報によって、適切に、クラスタ２０を管理及び制御することがきる。

情報同期要求の送信（Ｓ１３１）前に新マスタノード群においてプライマリマスタノードが選出されている場合、新プライマリマスタノードが代表して、旧プライマリマスタノードに対して情報同期要求を送信してもよい。新プライマリマスタノードは、旧プライマリマスタノードからステップＳ１３２及びＳ１３３で受信した情報を、新セカンダリマスタノードに転送する。

図７Ｂを参照して、次に、既存ノードは、その構成情報の参照先情報を“新マスタノード群”に変更する（Ｓ１５）。例えば、旧プライマリマスタノードは、情報同期要求（Ｓ１３１）と共に、新マスタノード群の各ノードを特定する情報を受信し、新マスタノード群の情報と共に、構成情報ファイルの参照先情報の変更を、稼働中の旧セカンダリマスタノード及びワーカノードに指示する（Ｓ１５１）。旧プライマリマスタノードは、コーディネーションサービス２１２Ａ及びスケールアウトデータベース２１３Ａの情報の送信完了後に、新マスタノードそれぞれのアクセス先情報を、新マスタノードから受信してもよい。

旧プライマリマスタノード及び指示を受けた旧セカンダリマスタノードのストレージプログラム２１１Ａは、自ノードの構成情報ファイル３１Ａにおいて、参照先情報を新マスタノード群の情報に変更する（Ｓ１５２）。指示を受けたワーカノードのストレージプログラム２１１Ｃは、自ノードの構成情報ファイル３１Ｃにおいて、参照先情報を新マスタノード群の情報に変更する（Ｓ１５３）。変更が完了すると、ストレージプログラム２１１Ｃは、旧プライマリマスタノードに完了を通知する（Ｓ１５４）。旧セカンダリマスタノードのストレージプログラム２１１Ａも同様に、旧プライマリマスタノードに完了を通知する。

図１１は、ワーカノードの変更された構成情報ファイル３１Ｃにおける参照先情報を示す。図９に示す変更前の旧マスタノード群（ノード（１）、ノード（２）、ノード（３））の情報から、新マスタノード群（ノード（５）、ノード（６）、ノード（７））の情報に変更されている。旧マスタノードの構成情報ファイル３１Ａの変更後の内容も、構成情報ファイル３１Ｃと同様である。

図７Ｂに戻って、次に、旧マスタノード群の各ノードは、その構成情報ファイル３１Ａのロールを“ワーカ”に変更する（Ｓ１７）。具体的には、各旧マスタノードのストレージプログラム２１１Ａは、構成情報ファイル３１Ａのロールを“ワーカ”に変更し（Ｓ１７１）、さらに、コーディネーションサービス２１２及びスケールアウトデータベース２１３を停止する（Ｓ１７２及びＳ１７３）。この後、各旧マスタノードは、ワーカノードに降格して動作する（Ｓ１９）。

以上の処理により、クラスタのマスタノード群の更新が完了する。上述のように、最小単位の新規マスタノードを追加することで、旧マスタノードのコーディネーションサービス及びスケールアウトデータベースを停止する前に、マスタ権限を新マスタノードに移行することができる。これにより、クラスタを停止することなく、マスタノード冗長性を回復することができる。

実施例１は、旧マスタノード群をワーカノードに変更し、新マスタノードのみで障害後マスタノード群を構成する。以下に説明する実施例２は、新たに追加されたマスタノードに加え、稼働している（正常な）旧マスタノードを、障害後マスタノード群に含める。これにより、マスタノード冗長性を拡張することができる。以下において、主に実施例１との相違点を説明する。

図１２は、クラスタ２０の一つのマスタノードにおいて障害が発生した場合の処理を説明するフローチャートである。クラスタ２０におけるいずれかのマスタノードにおいて、障害が発生すると（Ｓ２１）、３以上のマスタノードからなる新マスタノード群が、クラスタ２０に追加される（Ｓ２３）。例えば、システム管理者は、必要な設定を行った新マスタノード群を、クラスタ２０に追加する。各新マスタノードは、物理マスタノード又は仮想マスタノードである。

追加された各新マスタノードは、新マスタノードそれぞれの情報を予め保持する。さらに、各新マスタノードは、稼働している旧マスタノードそれぞれを特定する情報を保持している。新マスタノード群は、クラスタ２０内の旧マスタノードと通信可能であり、旧マスタノード群から、コーディネーションサービス２１２及びスケールアウトデータベース２１３が保持している情報を取得する。

次に、各既存ノードは、構成情報ファイル３１の参照先情報を、追加された新マスタノード群の情報に変更する（Ｓ２５）。次に、旧マスタノード群の稼働している各ノードは、コーディネーションサービス設定ファイル３３及びスケールアウトデータベース設定ファイル３５を、新マスタノード群の設定ファイルと同じ内容に変更する（Ｓ２７）。

最後に、旧マスタノード群の稼働している各ノードは、コーディネーションサービス２１２及びスケールアウトデータベース２１３を再起動する（Ｓ２９）。これにより、旧マスタノード群は、障害後マスタノード群に参加できる。障害後マスタノード群は、追加された新マスタノード群と、障害発生していない旧マスタノード群とで構成される。

障害後マスタノード群のプライマリマスタノードは、旧マスタノード群の障害後マスタノード群への参加に応答して、構成情報ファイルにおける参照情報に旧マスタノード群の情報を追加することを各ノードに指示する。プライマリマスタノード及び他の各ノードは、構成情報ファイルを、新マスタノード群及び旧マスタノード群を示すように変更する。以上により、新マスタノード群の動的追加（冗長性拡張）が完了する。

図１３Ａ及び１３Ｂは、図１２に示す処理の詳細を示すシーケンス図を示す。図１３Ａが示す処理の後に、図１３Ｂが示す処理が続く。以下において、ノード（１）（プライマリマスタノード２１Ａ）において障害が発生した場合を例として説明する。

図１３Ａを参照して、ステップＳ２１及びＳ２２は、図７ＡにおけるステップＳ１１及びＳ１２と同様である。上述のように、ここでは、ノード（１）（プライマリマスタノード２１Ａ）において障害が発生したとする。マスタノード冗長性拡張処理開始される（Ｓ２２）と、新マスタノード群がクラスタ２０に追加される（Ｓ３３）。

図１４は、各新マスタノードにおけるコーディネーションサービス設定ファイル３３Ｂ及びスケールアウトデータベース設定ファイル３５Ｂを示す。コーディネーションサービス設定ファイル３３Ｂ及びスケールアウトデータベース設定ファイル３５Ｂは、それぞれ、新マスタノード群（ノード（４）、ノード（５）及びノード（６））及び稼働している旧マスタノード群（ノード（２）及びノード（３））を示す。本例においては、上述のように、旧マスタノードも障害後マスタノード群に追加される。

障害発生前の、各旧マスタノードにおけるコーディネーションサービス設定ファイル３３Ａ及びスケールアウトデータベース設定ファイル３５Ａの内容は、図８に示す通りである。また、障害発生前の、ワーカノード２３における構成情報ファイル３１Ｃの参照先情報は、図９に示す通りである。

図１３Ａに戻って、ステップＳ２３１からＳ２３４は、図７ＡにおけるステップＳ１３１からＳ１３４と同様である。次に、各既存ノードは、構成情報ファイルの参照先情報を、障害後マスタノード群の情報に変更する（Ｓ２５）。具体的には、旧プライマリマスタノードは、情報同期要求（Ｓ２３１）と共に又はステップＳ２３４の後に、新マスタノード群の各ノードを特定する情報を受信し、新マスタノード群の情報と共に、構成情報ファイルの参照先情報の変更を、稼働中の旧セカンダリマスタノード及びワーカノードに指示する（Ｓ２５１）。

旧プライマリマスタノード及び指示を受けた旧セカンダリマスタノードのストレージプログラム２１１Ａは、自ノードの構成情報ファイル３１Ａにおいて、参照先情報を、新マスタノード群の情報に変更する（Ｓ２５２）。指示を受けたワーカノードのストレージプログラム２１１Ｃは、自ノードの構成情報ファイル３１Ｃにおいて、参照先情報を新マスタノード群の情報に変更する（Ｓ２５３）。ステップＳ２５４は、図７におけるステップＳ１５４と同様である。

図１５は、ワーカノードの変更された構成情報ファイル３１Ｃにおける参照先情報を示す。図９に示す変更前の旧マスタノード群（ノード（１）、ノード（２）、ノード（３））の情報から、新マスタノード群（ノード（５）、ノード（６）、ノード（７））の情報に変更されている。旧マスタノードの構成情報ファイル３１Ａの変更後の内容も、構成情報ファイル３１Ｃと同様である。

図１３Ｂを参照して、次に、稼働している各旧マスタノードは、コーディネーションサービス設定ファイル３３Ａ及びスケールアウトデータベース設定ファイル３５Ａを、新マスタノード群の設定ファイル３３Ｂ及び３５Ｂと同じ内容（図１４参照）に変更する（Ｓ２７）。

具体的には、旧プライマリマスタノードのストレージプログラム２１１Ａは、旧セカンダリマスタノードに、コーディネーションサービス設定ファイル３３Ａの書き換えを指示する。旧プライマリマスタノード及び旧セカンダリマスタノードのそれぞれのストレージプログラム２１１Ａは、コーディネーションサービス設定ファイル３３Ａを、各新マスタノードを特定する情報と、稼働中の各旧マスタノードを特定する情報とを示すように、書き換える（Ｓ２７１）。

さらに、旧プライマリマスタノードのストレージプログラム２１１Ａは、旧セカンダリマスタノードに、スケールアウトデータベース設定ファイル３５Ａの書き換えを指示する。旧プライマリマスタノード及び旧セカンダリマスタノードのそれぞれのストレージプログラム２１１Ａは、スケールアウトデータベース設定ファイル３５Ａを、各新マスタノードを特定する情報と、稼働中の各旧マスタノードを特定する情報とを示すように、書き換える（Ｓ２７２）。

図１６は、旧マスタノードの変更後のコーディネーションサービス設定ファイル３３Ａ及びスケールアウトデータベース設定ファイル３５Ａを示す。設定ファイル３３Ａ及び３５Ａは、それぞれ、稼働している旧マスタノード群（ノード（２）、ノード（３））及び新マスタノード群（ノード（５）、ノード（６）、ノード（７））の情報を示す。

次に、稼働している各旧マスタノードは、コーディネーションサービス２１２Ａ及びスケールアウトデータベース２１３Ａを再起動する（Ｓ２９）。具体的には、ストレージプログラム２１１Ａは、コーディネーションサービス２１２Ａを再起動する（Ｓ２９１）。コーディネーションサービス２１２Ａは、他の旧マスタノードのコーディネーションサービス２１２Ａ及び新マスタノードのコーディネーションサービス２１２Ｂと共に、クラスタを構築する（Ｓ２９２）。

ストレージプログラム２１１Ａは、さらに、スケールアウトデータベース２１３Ａを再起動する（Ｓ２９３）。スケールアウトデータベース２１３Ａは、他の旧マスタノードのスケールアウトデータベース２１３Ａ及び新マスタノードのスケールアウトデータベース２１３Ｂと共に、クラスタを構築する（Ｓ２９４）。

コーディネーションサービス２１２Ａ及びスケールアウトデータベース２１３Ａの再起動により、旧マスタノードは、障害後マスタノード群に参加する。障害後マスタノード群のプライマリマスタノードのストレージプログラムは、クラスタ２０内の各ノードに対して、参加した旧マスタノード群の情報を、構成情報ファイルの参照先情報に追加することを、指示する。プライマリマスタノード及び他の各ノードのストレージプログラムは、構成情報ファイルを、新マスタノード群及び旧マスタノード群を示すように変更する。

図１７は、旧マスタノードが参加した後に変更されたワーカノードの構成情報ファイル３１Ｃにおける参照先情報を示す。参照先情報は、新マスタノード群（ノード（５）、ノード（６）、ノード（７））に加え、旧マスタノード群（ノード（２）、ノード（３））の情報を含む。

以上の処理により、クラスタのマスタノード群の更新が完了する。上述のように、最小単位の新規マスタノードを追加することで、旧マスタノードのコーディネーションサービス及びスケールアウトデータベースを再起動する前に、クラスタ２０の管理を新マスタノード群に移行することができる。さらに、障害後マスタノード群に再起動した旧マスタノード群を追加することで、マスタノード冗長性を回復するにとどまらず、さらに拡張できる。

以下において、実施例３に係る計算機システムを説明する。本実施例は、クラスタが自動的にマスタノードの障害を検出し、さらに、新マスタノード群を、システムを停止することなく追加する。これにより、ユーザの作業を要することなく、冗長性を回復し、さらに拡張することができる。以下においては、実施例２と同様に、旧マスタノードを障害後マスタノード群に追加する例を説明するが、本実施例の手法は、実施例１のように旧マスタノードをワーカノードに変換する例にも適用できる。

図１８Ａ及び１８Ｂは、クラスタ２０の一つのセカンダリマスタノードにおいて障害が発生した場合の処理を説明するシーケンス図である。図１８Ａを参照して、セカンダリマスタノードにおいて障害が発生し（Ｓ３１）、マスタノード冗長性拡張処理が開始され（Ｓ３２）、クラスタ２０に対して新マスタノード群が追加される（Ｓ３３）。

具体的には、旧プライマリマスタノードのストレージプログラム２１１Ａは、旧セカンダリノードのストレージプログラム２１１Ａ２との通信障害によって、旧セカンダリノードにおいて障害が発生したことを検出する（Ｓ３３１）。旧プライマリマスタノードのストレージプログラム２１１Ａは、新マスタノード群の追加処理を実行する（Ｓ３３２）。

例えば、ストレージプログラム２１１Ａは、仮想マスタノードのテンプレートが格納されている物理ノードそれぞれに、必要な設定情報と共に、仮想マスタノードの生成を指示する。生成された新マスタノードは、それぞれ、実施例２において説明新マスタノードと同様の情報を保持する。新マスタノード群は、新プライマリマスタノードを選出する。

図１８Ａにおいて、ステップＳ３３３からＳ３３６は、図１３ＡにおけるステップＳ２３１からＳ２３４と同様である。図１８Ａにおいて、ステップＳ３５、Ｓ３５１からＳ３５４は、図１３ＡにおけるステップＳ３５、Ｓ３５１からＳ３５４と同様である。図１８Ｂを参照して、ステップＳ３７、Ｓ３７１、及びＳ３７２は、図１３ＢにおけるステップＳ２７、Ｓ２７１、及びＳ２７２と同様である。さらに、図１８ＢにおけるステップＳ３９、Ｓ３９１からＳ３９４は、図１３ＢにおけるステップＳ２９、Ｓ２９１からＳ２９４と同様である。

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード等の記録媒体に置くことができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。

１０計算ノード
１３管理端末
１５計算ネットワーク
２０クラスタ
２１マスタノード
２３ワーカノード
２９クラスタネットワーク
３１構成情報ファイル
３３コーディネーションサービス設定ファイル
３５スケールアウトデータベース設定ファイル
１１２制御端末
２１１ストレージプログラム
２１２コーディネーションサービス
２１３スケールアウトデータベース
２１４ストレージ
２２１プロセッサ
２２２主記憶装置
２２３補助記憶装置
２２７通信インタフェース

Claims

クラスタを含む計算機システムであって、
前記クラスタは、ネットワークを介して互いに通信可能であり、１以上の計算ノードからのユーザデータを格納する複数のノードを含み、
前記複数のノードは、複数の旧マスタノードを含み、
前記複数のノードの各ノードは、前記クラスタのマスタノードを示す参照情報を保持し、
前記複数の旧マスタノードにおける一つのマスタノードでの障害に対して、前記クラスタの管理を行うために予め定められた最小単位のマスタノードの数以上の、新マスタノードが追加され、
前記複数の旧マスタノードにおいて各稼働している旧マスタノードは、保持している前記参照情報を、前記新マスタノードが含まれるように書き換える、計算機システム。
請求項１に記載の計算機システムであって、
前記複数の旧マスタノードにおける各稼働している旧マスタノードは、保持している前記参照情報を、前記新マスタノードのみを示すように書き換え、
前記複数の旧マスタノードにおける各稼働している旧マスタノードは、前記新マスタノードが追加された後に、ワーカノードに変化する、計算機システム。
請求項１に記載の計算機システムであって、
前記複数の旧マスタノードにおける各稼働している旧マスタノードは、前記障害後に、前記新マスタノードと共にマスタノードの役割を担い、
前記複数の旧マスタノードにおける各稼働している旧マスタノードは、保持している前記参照情報を、前記新マスタノード及び前記複数の旧マスタノードにおける各稼働している旧マスタノードを示すように書き換える、計算機システム。
請求項１に記載の計算機システムであって、
前記新マスタノードの数は、前記最小単位の数と一致する、計算機システム。
請求項１に記載の計算機システムであって、
前記新マスタノードの数は、前記複数の旧マスタノードの数と一致する、計算機システム。
請求項１に記載の計算機システムであって、
前記新マスタノードは、それぞれ、仮想ノードであり、
前記複数の旧マスタノードにおいて稼働している一つの旧マスタノードは、前記新マスタノードを生成して前記クラスタに追加する、計算機システム。
クラスタにおけるマスタノードの障害を処理する方法であって、
前記クラスタは、ネットワークを介して互いに通信可能な、ユーザデータを格納する複数のノードを含み、
前記複数のノードは、複数の旧マスタノードを含み、
前記複数のノードの各ノードは、前記クラスタのマスタノードを示す参照情報を保持し、
前記方法は、
前記複数の旧マスタノードにおける一つのマスタノードでの障害に対して、前記クラスタの管理を行うために予め定められた最小単位のマスタノードの数以上の新マスタノードを追加し、
前記複数の旧マスタノードにおける各稼働している旧マスタノードにおいて、保持されている前記参照情報を、前記新マスタノードが含まれるように書き換える、方法。