JP2022070769A

JP2022070769A - クラスタシステム、クラスタシステムのフェイルオーバー制御方法

Info

Publication number: JP2022070769A
Application number: JP2020180031A
Authority: JP
Inventors: 啓太杉原; Keita Sugihara; 計典松元; Keisuke Matsumoto; 雄樹黒田; Yuki Kuroda
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2022-05-13
Anticipated expiration: 2040-10-27
Also published as: US20220129357A1; US11734133B2; JP7179810B2

Abstract

【課題】コンテナ型仮想化環境において永続データを伴うフェイルオーバーを安全に行う。【解決手段】クラスタシステム１０は、複数のノードを有する。複数のノードは、マスタノード１００ａと、第２のネットワークを介して複数のボリュームを有するストレージ装置１５０の第１のボリュームに対しＩＯ要求を行う第１のノード１００ｂと、第１のノードの障害時に第１のノードの処理を引き継ぐ第２のノード１００ｃとを含む。第１のノードで第１のネットワーク障害が発生した場合、マスタノードは、ストレージ装置に対し、第１のノードと第１のボリュームとの接続を解除を指示する。ストレージ装置は、第１のノードと第１のボリュームとの接続を解除する。第１のノードは、第２のネットワーク経由でストレージ装置の接続状態管理情報を取得し、取得した接続状態に基づいて、接続解除指示に伴う第１のボリュームに関する後処理を実行する。【選択図】図１

Description

本発明は、クラスタシステムにおけるフェイルオーバーに関し、特に、コンテナ型仮想化環境におけるフェイルオーバーの技術に関する。

ＩＴ（ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ）サービスの可用性を向上させる方法として、実際にサービスを提供するアクティブノードと、アクティブノードに障害が発生した場合にサービスを引き継いで提供するスタンバイノードで構成されるクラスタシステムを構築する方法がある。スタンバイノードがアクティブノードからサービスを引き継ぐためには、アクティブノードで利用していたプログラムだけではなく、プログラムが利用していたデータも引き継ぐ必要がある。

クラスタシステムの運用コストを削減し、フェイルオーバーを実現するための技術が特許文献１に開示されている。

特許第６５５５３５３号

上記特許文献１のクラスタシステムは、第１の記憶部を有し、稼働系として動作する第１のノードと、第２の記憶部を有し、待機系として動作する第２のノードと、前記第２のノードの起動を制御する第１の制御装置と、前記第１のノード及び前記第２のノードとは別に設けられた第３の記憶部を備える。そして、前記第１のノードは、前記第１の記憶部の記憶内容が更新された場合に、前記第１の記憶部の記憶内容と前記第２の記憶部の記憶内容を同期させるための同期データを生成する同期データ生成手段と、前記同期データ生成手段により生成された前記同期データを前記第３の記憶部に送信して前記第３の記憶部に記憶させる同期データ送信手段と、前記同期データ送信手段により前記同期データを送信する場合に、前記第２のノードを停止状態から起動状態へと移行するよう指示する起動指示を前記第１の制御装置へ送信する第１の起動指示送信手段を有する。また、前記第１の制御装置は、前記起動指示を受信した場合に、前記第２のノードを起動する。また、前記第２のノードは、前記第３の記憶部に記憶された前記同期データを取得する同期データ取得手段と、前記同期データ取得手段により取得された前記同期データにより示される更新内容を前記第２の記憶部の記憶内容に反映させて、前記第２の記憶部の記憶内容を更新する更新手段を有し、前記同期データ取得手段は、前記第３の記憶部に記憶された前記同期データの取得に失敗した場合、前記第１のノードに前記同期データを要求し、前記同期データ送信手段は、前記同期データ取得手段からの要求に応じて、前記同期データを前記第２のノードに送信する、よう構成されている。

上記特許文献１では、待機系の第２のノードが常に起動状態でなくても、稼働系の第１のノードから待機系の第２のノードへのフェイルオーバーを行うことができるため、運用コストの抑制を可能としている。

また、１つのホストＯＳ上に複数のコンテナと呼ばれる独立空間を形成するコンテナ型仮想化環境では、コンテナ管理アプリケーション(ＣＯ)が様々なノードの障害を検知し、コンテナを適切にフェイルオーバー(ＦＯ)させる必要がある。永続データを必要とするアプリケーションでは、ストレージのボリュームも適切にＦＯする必要がある。

特に、ネットワーク障害が発生したノード（ＦＯ元ノード）は、マスタノードや他のノード等の外部装置から孤立するため、マスタノードや他のノード等とネットワーク経由の通信を受信できなくなる。しかし、ＦＯ元ノード上では、アプリケーションは動き続けるため、マスタノードや他のノード等と接続されるネットワークとは異なる他のネットワーク（ＳＡＮ等のＳＣＳＩネットワーク）で接続されるブロックストレージ装置へのライト処理が継続してしまう。その結果、ＦＯ元ノードとＦＯ元ノードの処理を引き継ぐノードであるＦＯ先ノードの双方から同一のストレージ装置の同一ボリュームに対してライト動作が発生し、ボリュームに格納されたデータを破壊してしまう。上記特許文献１は、この課題について言及されていない。

また、ＦＯ元ノードとストレージ装置のボリュームとの接続を解除する際、ストレージ装置側の操作だけでなく、ＦＯ元ノード側でも接続解除に伴うボリュームのデバイスファイルの削除等の適切な「後処理」を実行する必要がある。しかし、ネットワーク障害が発生した状態では、マスタノードからＦＯ元ノードに後処理を促すことが出来ないため、ボリュームのデバイスファイルやマウントポイント情報がＦＯ元ノードに残留し、ＦＯ元ノードが復旧した際に、正常にボリュームを認識できないといった問題が発生する。上記特許文献１では、この課題についても言及されていない。

そこで、本発明の目的は、コンテナ型仮想化環境において永続データを伴うフェイルオーバーを安全に行うことができるクラスタシステム、クラスタシステムのフェイルオーバー制御方法を提供することにある。

上記目的を達成するため、本発明のクラスタシステムの一態様は、第１のネットワークで接続される複数のノードを有し、複数のノードは、マスタノードと、第２のネットワークを介して複数のボリュームを有することができるストレージ装置の第１のボリュームに対しＩＯ要求を行う第１のノードと、第１のノードの障害時に第１のノードの処理を引き継ぐ第２のノードとを含む。第１のノードで第１のネットワークの障害が発生した場合、マスタノードは、ストレージ装置に対し、第２のネットワークを介して第１のノードと第１のボリュームとの接続を解除する接続解除指示を送信し、ストレージ装置は、接続解除指示を受領すると、第１のノードと第１のボリュームとの接続を解除し、第１のノードと第１のボリュームとの接続状態を管理する接続状態管理情報を更新し、第１のノードは、第２のネットワークを経由でストレージ装置の接続状態管理情報で管理される接続状態を取得し、取得した接続状態に基づいて、接続解除指示に伴う第１のボリュームに関する後処理を実行する。

また、本発明のクラスタシステムのフェイルオーバー制御方法の一態様は、第１のネットワークで接続される複数のノードを有し、複数のノードは、マスタノードと、第２のネットワークを介して複数のボリュームを有することができるストレージ装置の第１のボリュームに対しＩＯ要求を行う接続元ノードと、接続元ノードの障害時に接続元ノードの処理を引き継ぐ接続先ノードとを含むクラスタシステムのフェイルオーバー制御方法において、マスタノードは、接続元ノードの第１のネットワークの障害を検知すると、複数のノードの内、接続元ノードを除く他のノードを接続先ノードとして、第１のボリュームとの接続を要求する接続要求を発行する。さらに、マスタノードは、ストレージ装置に対し、第２のネットワークを介して接続要求に含まれる第１のボリュームとの接続状態を問い合わせる。マスタノードは、第１のボリュームが接続先ノード以外のノードに接続されている場合、ストレージ装置に対し、第２のネットワークを介して第１のボリュームと接続先ノード以外のノードの接続解除指示を発行する。ストレージ装置は、第２のネットワークを介して接続解除指示を受領すると、第１のボリュームの接続状態を接続解除待ちに設定して、接続元ノードと第１のボリュームとの接続を解除した後、第１のボリュームの接続状態を未接続に設定する。接続元ノードは、第２のネットワークを介してストレージ装置に対し、第１のボリュームの接続状態を問い合わせ、接続元ノードとの関係が接続解除待ちの場合に、第１のボリュームに関するデバイスファイルの削除を含む後処理を実行する。

本発明によれば、コンテナ型仮想化環境において永続データを伴うフェイルオーバーを安全に行うことができる。

実施の形態にかかる、クラスタシステムの構成の概要を示すブロック図である。実施の形態にかかる、ノードのハードウェアブロック図の一例を示す図である。実施の形態にかかる、マスタノードのハードウェアブロック図の一例を示す図である。実施の形態にかかる、ストレージ装置のハードウェアブロック図の一例を示す図である。実施の形態にかかる、マウントポイント情報の一例を示す図である。実施の形態にかかる、ストレージ装置で管理されるボリューム接続状態管理情報の一例を示した図である。実施の形態にかかる、コンテナ管理部が管理するノード情報の一例を示した図である。実施の形態にかかる、コンテナ管理部が管理するボリューム情報の一例を示した図である。実施の形態にかかる、デバイスファイルの一例を示したものである。実施の形態にかかる、ＳＣＳＩ通信用情報の一例を示した図である。実施の形態にかかる、ネットワーク障害発生等によるフェイルオーバー時のコンテナ管理部の処理を示したフローチャートである。実施の形態にかかる、ネットワーク障害発生等によるフェイルオーバー時のプラグインの処理を示したフローチャートである。実施の形態にかかる、ネットワーク障害発生等によるフェイルオーバー時のストレージ装置の処理を示したフローチャートである。実施の形態にかかる、マスタノード以外のノードのプラグインの処理を示したフローチャートである。実施の形態にかかる、マスタノード以外の障害が発生したノードのプラグインの処理を示したフローチャートである。実施の形態にかかる、マスタノード以外の障害が発生したノードのプラグインの処理を示したフローチャートである。実施の形態にかかる、マスタノード以外のノードのプラグインが行う処理を示したフローチャートである。実施の形態にかかる、ストレージ装置で、ノードのプラグインから接続解除を受けた場合の処理の流れを示すフローチャートである。実施の形態にかかる、ノードとボリュームとの接続を行う際の処理を示すシーケンス図である。実施の形態にかかる、障害発生時にノードとボリュームの接続を解除するためのシーケンス図である。

以下、図面を参照しながら実施の形態を説明する。また、以下の説明では、「テーブル」等の表現にて各種情報を説明することがあるが、テーブル以外のデータ構造で表現されていてもよい。また、データ構造に依存しないことを示すために「テーブル」を「管理情報」と呼ぶことができる。

また、「プログラム」を主語として処理を説明する場合がある。そのプログラムは、処理部であるプロセッサ、例えば、ＭＰ（ＭｉｃｒｏＰｒｏｃｅｓｓｏｒ）やＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）によって実行され、定められた処理をするものである。尚、プロセッサは、適宜に記憶資源（例えばメモリ）及び通信インターフェース装置（例えば、通信ポート）を用いながら処理を行うため、処理の主語がプロセッサ、或いは処理部とされてもよい。プロセッサは、ＣＰＵの他に専用ハードウェアを有していてもよい。コンピュータプログラムは、プログラムソースから各コンピュータにインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバ又は記憶メディアなどで提供されるものであってもよい。

また、本実施例の図及び説明において同一部分には同一符号を付与しているが、本発明が本実施例に制限されることは無く、本発明の思想に合致するあらゆる応用例が本発明の技術的範囲に含まれる。また、特に限定しない限り、各構成要素は複数でも単数でも構わない。

実施の形態の説明に先立って、本発明にかかる実施の形態の概要を説明する。

ノードとストレージ装置のボリュームとの接続を解除する際、ストレージ装置側の処理に加えて、ノード側でも接続解除に伴う「後処理」を行う必要がある。「後処理」は、ノードにおいて、接続解除に伴うボリュームに関するデバイスファイルの削除、ボリュームのマウントポイント情報の削除を行う処理である。

図１は、実施の形態にかかるクラスタシステム１０の構成の概要を示すブロック図である。クラスタシステム１０は、図１に示されるように、複数のノード１００を有する。複数のノード１００の内、ストレージ装置１５０のボリューム１５４にアクセスしているノードをＦＯ元ノード１００ｂ、ＦＯ元ノード１００ｂの障害時にその処理を引き継ぐ他の１台ノードをＦＯ先ノード１００ｃと呼ぶ。

ここで、「ノード」とは、ソフトウェアを実行するハードウェア、仮想マシン、又は、コンテナ等に相当するものであり、典型的には、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）の動作単位に対応するものである。例えば、各ノードは、それぞれ、オンプレミス環境で実現されてもよいし、仮想マシンを使用したクラウドコンピューティング基盤を用いた環境であるクラウドサービスにより実現されてもよい。なお、ノードは、情報処理装置と称されることもある。

クラスタシステムは、ＦＯ元ノードにより所定のサービスを提供し、ＦＯ元ノードに異常が発生した際に、フェイルオーバー（ＦＯ）を実施し、ＦＯ元ノードに代わりＦＯ先ノードが所定のサービスを提供する。

クラスタシステム１０は、複数のノード１００とネットワークを介して接続される少なくとも一つのストレージ装置１５０とを含む。

複数のノード１００は、マスタノード１００ａ、ＦＯ元ノード１００ｂ、ＦＯ先ノード１００ｃを含む。ネットワークは、ＬＡＮスイッチ１３０を介して各ノード１００とストレージ装置１５０を接続するＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ＩＰネットワーク）と、ＦＣスイッチ１３１を介して各ノード１００とストレージ装置１５０とを接続するＳＡＮ（ＳｔｏｒａｇｅＡｒｅａＮｅｔｗｏｒｋ、ＳＣＳＩネットワーク）を含む。

マスタノード１００ａは、システム全体を管理する。ＦＯ元ノード１００ｂは、ストレージ装置内のボリューム１５４に対してＩ／Ｏ命令を行う。ＦＯ先ノード１００ｃは、ＦＯ元ノード１００ｂの障害時に、その処理を引継ぐ。本明細書において、フェイルオーバーを単にＦＯと記載し、フェイルオーバー元ノードをＦＯ元ノード、フェイルオーバー先ノードをＦＯ先ノードと記載することがある。

各ノード１００は、オペレーティングシステム１０３上に、コンテナ管理ソフトウェア、プラグインソフトウェアが動作し、コンテナ管理部１０２、プラグイン１０１を構成する。ＦＯ元ノード１００ｂには、ボリューム１５４に格納されたデータの読み出し要求、ボリューム１５４に対しデータの書き込む要求を行う、その他のアプリケーション１０４も動作する。各ノード１００は、ＬＡＮスイッチ１３０と接続されるＮＩＣ１１０と、ＦＣスイッチ１３１と接続されるＨＢＡ１１１とを有する。

ストレージ装置１５０は、ＬＡＮスイッチ１３０と接続されるＮＩＣ１５１と、ＦＣスイッチ１３１と接続されるＨＢＡ１５２とを有する。ストレージ装置１５０は、ＦＣネットワークにより、ＦＯ元ノード１００ｂ、ＦＯ先ノード１００ｃ等のノードと接続され、これらノードからＳＣＳＩプロトコルのＩ／Ｏ要求を受付け、ボリューム１５４に対してデータを書き込んだり、ボリューム１５４からデータを読み出したりするブロックストレージ装置である。

また、ストレージ装置１５０は、ＦＯ元ノード１００ｂからのＩ／Ｏ要求先となる少なくとも一つのボリューム１５４と、ボリューム１５４と接続先ノードを特定する情報（接続先ノード情報）と、その状態を管理するボリューム接続状態管理情報１５３と、ＳＣＳＩコマンド通信用ボリューム１５５とを有する。尚、接続先ノード情報は、ボリューム１５４と接続されるノードとそのＨＢＡを特定する情報を含むが、以下、説明を容易にするため、単にノードＩＤとして説明することがある。

ＦＯ元ノード１００ｂのＯＳ１０３ｂは、ボリューム１５４に対するＩ／Ｏ命令を行うためのコマンドを一時的に格納するデバイスファイル１２２ｂ、ＳＣＳＩコマンド通信用ボリューム１５５に対するコマンドを一時的に格納するＳＣＳＩ通信用デバイスファイル１２１ｂと、を参照する。ＳＣＳＩ通信用デバイスファイル１２１は、本実施例によるＳＣＳＩコマンドの送受信に用いられる。

図１では、ＦＯ元ノードにＬＡＮの障害が発生し、ＦＯ元ノードからＦＯ先ノードにＦＯする場合を示している。そのため、ＦＯ先ノード上にストレージ装置１５０のボリューム１５４に対するＩ／Ｏ命令を行えるよう新しくＳＣＳＩ通信用デバイスファイル１２１ｃが作成され、ＦＯ元ノードのデバイスファイルが古いデバイスファイル１２２ｂとして、記載されている。

本実施例では、接続解除に伴い、この古いデバイスファイル１１２ｂをＦＯ元ノードから確実に削除（後処理）することにより、ＦＯ元ノードによるストレージ装置１５０のボリューム１５４のデータ破壊防止と、ＦＯ元ノードが障害から復旧した場合に、ストレージ装置のボリュームを正しく認識できるようにする。

図２は、ＦＯ元ノード１００ｂ、ＦＯ先ノード１００ｃのハードウェアブロック図であり、ＳＳＤなど不揮発性記憶素子からなる記憶装置２３０、ＲＡＭなど揮発性記憶素子からなるメモリ２２０、記憶装置２３０に保持されるプログラムをメモリ２２０に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうＣＰＵなどの処理部２１０、ユーザからのキー入力や音声入力を受け付ける入力装置（図示せず）、処理データの表示を行うディスプレイ等の出力装置(図示せず）、ネットワークと接続し、他の装置との通信処理を担う通信装置であるＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）１１０やＨＢＡ１１１、処理部２１０、メモリ２２０、記憶装置２３０、入力装置、出力装置、ＮＩＣ１１０等をそれぞれ接続するバス等の接続装置２４０と、を有する一般的な計算機である。

尚、アプリケーション、プラグインコンテナ管理ソフトウェアは、ＯｐｅｒａｔｉｎｇＳｏｆｔｗａｒｅ（ＯＳ）１０３上で動作し、処理部２１０によって実行され、プラグイン１０１、コンテナ管理部（ＣＯ）１０２等の各機能を実現する。

アプリケーション１０４は、ボリューム１５４に格納されたデータを読み出し、ボリューム１５４にデータを書き込む要求を行う。

プラグイン１０１は、ＣｏｎｔａｉｎｅｒＳｔｏｒａｇｅＩｎｔｅｒｆａｃｅというコンテナ-ストレージ仮想装置間の標準的なインターフェースで定義された機能を有し、ＳＡＮを介して接続されるストレージ装置のボリュームと複数のノードとの接続を管理する。例えば、日立製作所のＨｉｔａｃｈｉＳｔｏｒａｇｅＰｌｕｇ-ｉｎｆｏｒＣｏｎｔａｉｎｅｒｓを利用することができる。

コンテナ管理部１０２は、ノード１００とストレージ装置１５０の接続関係を管理し、ノード１００やストレージ装置１５０の障害を検出する機能を有する。例えば、ＯＳＳのＫｕｂｅｒｎｅｔｅｓを利用することができる。

ＯＳ１０３は、アプリケーション１０４とハードウェアの中間に位置し、ユーザやアプリケーション１０４に対して標準的なインターフェースを提供すると同時に、ハードウェアなどの各リソースに対して効率的な管理を行なう。ＯＳ１０３は、アプリケーション１０４の要求をストレージ装置１５０のボリューム１５４に伝えるため、デバイスファイルを管理する。

図３は、マスタノード１００ａのハードウェアブロック図である。図２のＦＯ元ノード１００ｂ及びＦＯ先ノード１００ｃと比較し、メモリ２２０上にアプリケーションがない点を除き、同様の構成である。

図４、ストレージ装置のハードウェアブロック図である。

ストレージ装置１５０は、ノードからＳＣＳＩプロトコルのＩ／Ｏ要求を受付け、ボリューム１５４に対してデータを書き込んだり、ボリューム１５４からデータを読み出したりするブロックストレージ装置であり、複数（又は１つ）の物理的記憶デバイスから構成されるボリューム４０３と、ボリューム４０３に接続されたストレージコントローラ４０１とを有する。ストレージコントローラ４０１は、プロセッサ４０２を含むコントローラの一例である。

ストレージコントローラ４０１は、ＳＡＮに接続されるＨＢＡ４０４と、ＬＡＮに接続されるＮＩＣ４０５と、ＩＦ４０６、メモリ４０７と、それらに接続されたプロセッサ４０２とを有する。

ＨＢＡ４０４は、ノード１００とストレージコントローラ４０１との間のデータのやり取りを仲介する通信インターフェースデバイスである。ＨＢＡ４０４に、ＳＣＳＩネットワーク（ＦＣネットワークを含む）を介して、ノード１００が接続される。

ノード１００の内、ＦＯ元ノード１００ｂは、ストレージコントローラ４０１に対して、Ｉ／Ｏ先（例えばＬＵＮ（Logical Unit Number）のような論理ボリューム番号や、ＬＢＡ（Logical Block Address）のような論理アドレス）を指定したＩ／Ｏ要求（ライト要求又はリード要求）を送信する。

ＮＩＣ４０５は、ＬＡＮを介してノード１００とストレージコントローラ４０１の間のデータのやり取りを仲介する通信インターフェースデバイスである。

Ｉ／Ｆ４０６は、複数のボリューム４０３とストレージコントローラ４０１の間のデータのやり取りを仲介する通信インターフェースデバイスである。複数のボリューム４０３のそれぞれは、図１のボリューム１５４やＳＣＳＩコマンド通信用ボリューム１５５に対応するとともに、ボリューム接続状態管理情報１５３を格納するボリュームに対応する。

メモリ４０７は、プロセッサ４０２が実行するプログラムと、プロセッサ４０２が使用するデータを記憶する。プロセッサ４０２は、メモリ４０７に格納されているプログラムを実行する。例えば、メモリ４０７及びプロセッサ４０２の組が二重化されている。

図５は、マウントポイント情報を示す図である。

マウントポイント情報５００は、ＯＳ１０３によって管理され、マウント元５０１、マウント先５０２と、を対応付けて管理する。

マウント元５０１はＯＳ１０３がストレージ装置１５０のボリューム１５４にアクセスするためのデバイスファイルのデバイスファイル名の情報を管理する。各デバイスファイルは、ノード１００毎に、そのノードにマウントされているデバイスを管理する。マウント先５０２はマウントポイントを示している。

図６は、ストレージ装置１５０で管理されるボリューム接続状態管理情報を示した図である。

ボリューム接続状態管理情報６００は、ストレージ装置１５０のストレージコントローラ４０１よって管理され、少なくともボリュームＩＤ６０１、接続元情報６０２、接続先情報６０３、接続状態６０４と、を対応付けて管理する。
ボリュームＩＤ６０１はストレージ装置１５０のボリューム１５４を識別するための情報である。
接続元情報(ストレージＩＤ)６０２はストレージ装置１５０を識別する情報である。
接続先情報(ノードＩＤ）６０３はボリュームＩＤによって特定されるボリュームが接続されるノードを識別する情報である。
接続状態６０４はボリュームＩＤによって特定されるボリュームと接続先情報６０３によって特定されるノードとの接続状態に関する情報である。接続状態は、ノードとボリュームが接続されている「接続中」、接続されていない「未接続」、接続解除指示を受け解除中で未接続になる前の「接続解除待ち」の３種類の状態を管理する。

例えば、ボリュームＩＤ６０１が「０」のボリュームは、接続元情報(ストレージＩＤ)６０２「００１」に存在し、接続先情報６０３「１」で特定されるノードと、「接続中」の状態であることを示す。

尚、各ストレージ装置１５０にボリューム接続状態管理情報６００を有する場合には、接続元情報(ストレージＩＤ)６０２は一意に特定できるため、省略してもかまわない。

図７は、コンテナ管理部１０２が管理するノード情報を示した図である。
ノード情報７００は、コンテナ管理部１０２によって管理され、少なくともノード名７０１とノードＩＤ７０２とを対応して管理する。ノード名７０１はノードに付された名前であり、ノードＩＤ７０２はノードを識別する情報である。ノードＩＤ７０２は、例えばノード名とストレージ装置１５０が接続されるポートのｗｗｎとを有することができる。

図８は、コンテナ管理部１０２が管理するボリューム情報を示した図である。
ボリューム情報８００は、コンテナ管理部１０２によって管理され、少なくともボリューム名８０１、ストレージＩＤ８０２、ボリュームＩＤ８０３と、を対応付けて管理する。
ボリューム名８０１はボリュームの名前であり、ストレージＩＤ８０２はストレージ装置を識別する情報であり、図６のボリューム接続状態管理情報６００の接続元情報(ストレージＩＤ)６０２に相当する情報である。ボリュームＩＤ８０３はストレージ装置１５０内のボリュームを識別する情報であり、図６のボリュームＩＤ６０１に対応する情報である。
例えば、ボリューム名８０１「ｐｖｃＡ」が、ストレージＩＤ「００１」のボリュームＩＤ「１」と対応していることを示している。

図７と図８に示したように、各ノードのコンテナ管理部１０２は、ノード１００、ストレージ装置１５０、ストレージ装置１５０内のボリューム１５４の情報を有し、各ノードとノードに接続されるストレージ装置のボリュームとの関係をノードボリューム対応関係として管理することができる。

図９は、デバイスファイルを示したものである。デバイスファイル９００は、ＯＳ１０３によって参照され、少なくともデバイスファイル名９０１、ストレージＩＤ９０２、ボリュームＩＤ９０３を対応付けて管理する。

デバイスファイル名９０１は、図５のマウントポイント情報５００のマウント元（デバイスファイル名）５０１に相当する情報である。ストレージＩＤ９０２は、ストレージ装置を識別する情報で図６のボリューム接続状態管理情報６００の接続元情報（ストレージＩＤ）６０２、図８のボリューム情報８００のストレージＩＤ８０２に相当する情報である。ボリュームＩＤ９０３はストレージ装置１５０内のボリュームを識別する情報であり、図６のボリュームＩＤ６０１、図８のボリュームＩＤ８０３に対応する情報である。

図１０は、ＦＯ元ノード１００ｂ、ＦＯ先ノード１００ｃで管理されるＳＣＳＩ通信用情報１０００を示した図である。

ＳＣＳＩ通信用情報１０００は、ＯＳ１０３によって参照され、少なくともストレージＩＤ１００１、ボリュームＩＤ１００２、デバイスファイル名１００３、ＳＣＳＩ通信用１００４と、を対応付けて管理する。

ストレージＩＤ１００１は、ストレージ装置の識別情報であり、図６のストレージＩＤ６０２、図８のストレージＩＤ８０２に相当する情報である。

ボリュームＩＤ１００２は、ストレージ装置内のボリュームを識別するための情報である。

デバイスファイル名１００３は、図５のマウントポイント情報５００のマウント元(デバイスファイル名）５０１に相当する情報である。

ＳＣＳＩ通信用１００４は、ＳＣＳＩ通信可能か否かを示す情報である。

尚、ストレージＩＤ１００１、ボリュームＩＤ１００２、デバイスファイル名１００３、ＳＣＳＩ通信用１００４は、ＮＡＡとして提供されても良い。

図１１は、ネットワーク障害発生等によるフェイルオーバー時のマスタノード１００ａのコンテナ管理部１０２ａの処理を示したフローチャートである。尚、以降の説明でネットワーク障害とは、ＬＡＮスイッチで接続されるネットワークの障害を意図し、ＳＡＮ側の障害を指すものではない。

コンテナ管理部１０２ａは、ノードのネットワーク障害を検知し、プラグイン１０１ａに対し、接続先ノードとボリュームとを接続する接続指示を送信する（Ｓ１１１）。

詳細には、ステップＳ１１１では、コンテナ管理部１０２ａは、障害を検知すると、障害の発生したノードのコンテナ管理部１０２が使用しているボリュームを特定する。コンテナ管理部１０２ａは、ノード情報７００とボリューム情報８００とにより、ノードとストレージ装置内のボリュームとの対応関係を把握している。そして、コンテナ管理部１０２ａは、特定したボリュームのボリュームＩＤと対応する、ストレージＩＤ、及び障害が発生していないノード（接続先ノード）のノードＩＤを特定する。接続先ノードは、障害が発生していないノードをノード情報に基づいて特定する。これら特定したストレージＩＤ、ボリュームＩＤ、接続先ノードＩＤを指定して、プラグイン１０１ａに対し接続指示を送信する。

コンテナ管理部１０２ａは、プラグイン１０１ａに接続指示を発行した後、プラグイン１０１ａの処理を待ち、接続指示により接続される接続先ノード（ＦＯ先ノード）のコンテナ管理部１０２を起動する。

図１２はネットワーク障害発生等によるフェイルオーバー時のマスタノード１００ａのプラグイン１０１ａの処理を示したフローチャートである。

プラグイン１０１ａは、コンテナ管理部１０２ａから接続指示を受け取ると、接続指示の対象となるボリュームに関する接続状態をストレージ装置１５０に、ＳＡＮを介して問い合わせて確認する（Ｓ１２１）。尚、接続指示には、接続されるノードとボリュームを特定するため、接続先ノードを特定するノードＩＤと、接続されるボリュームを有するストレージ装置を特定するストレージＩＤと、ボリュームを特定するボリュームＩＤと、が含まれる。尚、ストレージＩＤとボリュームＩＤは、ＦＯ元ノードが利用していたボリュームを特定する情報である。プラグイン１０１ａは、接続指示で指定されたストレージ装置にボリュームの接続状態を問い合わせるコマンドを送信する。

ストレージ装置１５０に問い合わせた結果、接続指示されたボリュームが、接続指示により接続される接続先ノード以外に接続されているか判断する（Ｓ１２２）。この判断は、接続指示のノードＩＤと、ストレージ装置１５０から送信される接続状態に対応するノードＩＤとを比較して行う。ストレージ装置１５０からの接続状態に対応するノードＩＤは、接続指示に含まれるボリュームに接続され、ボリューム接続状態管理情報６００によって管理されるノードＩＤである。

ステップＳ１２２で、ＮＯの場合、ステップＳ１２５に進み、ＹＥＳの場合ステップＳ１２３に進む。

ステップＳ１２３では、ストレージ装置１５０に対して、ＳＣＳＩネットワーク（ＳＡＮ）経由で接続解除指示を送信する。つまり、プラグイン１０１ａは、接続指示されたボリュームが接続指示されたノード以外のノードに既に接続されている場合、既に接続されているノードの接続を解除する接続解除指示を、ＳＣＳＩネットワーク経由でストレージ装置１５０（ＳＣＳＩ通信用ボリューム１５５）に送信する。接続解除指示は、接続が解除されるノードを特定するノードＩＤ（ＦＯ元ノード）と、ボリュームを特定するボリュームＩＤとが含まれる。ストレージＩＤは、接続解除指示の送信先のストレージ装置を特定するために参照される。

ステップＳ１２４で、プラグイン１０１ａは、ストレージ装置１５０からＳＣＳＩネットワーク経由で接続解除完了通知を受領する。

ストレージ装置１５０から接続解除完了通知を受領すると、プラグイン１０１ａは、再度、ＦＯ先ノードとなる接続先ノードＩＤとボリュームＩＤを含む接続指示をＳＣＳＩネットワーク経由でストレージ装置１５０に送信する（Ｓ１２５）。この際、接続指示には、ストレージＩＤを含まなくても良い。ストレージ装置を特定して接続指示を送信するためである。尚、図では示していないが、ステップＳ１２５で、プラグイン１０１ａは、ＦＯ先ノードとなる接続先ノードＩＤによって特定されるノード１００ｃのプラグイン１０１ｃに対し、ＦＯ先ノードとなる接続先ノードＩＤとボリュームＩＤを含む接続指示を送信する。ＦＯ先ノードとなる接続先ノード１００ｃでは、接続指示に従って、接続対象であるボリュームに関するデバイスファイル１２２ｃ及びＳＣＳＩ通信用デバイスファイル１２１ｃの設定、ＳＣＳＩ通信用情報１２０ｃの更新を行う。接続指示を受領したプラグイン１０１ｃの処理は、既存のプラグインの処理と同じであるため、詳細な説明は省略する。

ストレージ装置１５０から接続指示を処理し、ＳＣＳＩネットワーク経由で接続完了通知を受領すると（Ｓ１２６）、プラグイン１０１ａは、コンテナ管理部１０２ａに対して、接続の完了を通知する（Ｓ１２７）。

ＬＡＮのネットワーク障害が発生したＦＯ元ノードは、マスタノードやＦＯ先ノード等の外部装置から孤立するため、ＦＯ元ノードとストレージ装置のボリュームとの接続や接続解除の処理を行うことができないが、図１２に示した処理によれば、マスタノードからストレージ装置に対し、ＳＣＳＩネットワーク経由でＦＯ元ノードとボリュームとの接続解除を指示することができる。

図１３は、ネットワーク障害発生等によるフェイルオーバー時のストレージ装置１５０の処理を示したフローチャートである。

ストレージ装置１５０は、プラグイン１０１ａから接続解除指示を受信すると、ボリューム接続状態管理情報６００の内容の更新処理を開始する（Ｓ１３１）。具体的には、ストレージ装置１５０はプラグイン１０１ａから、接続中のノード（ＦＯ元ノード）とボリュームとをそれぞれ特定するノードＩＤとボリュームＩＤと、を含む接続解除指示を受領する。接続解除指示を受領すると、接続解除指示に含まれるボリュームＩＤの接続状態を「接続解除待ち」に設定する。接続状態が「接続解除待ち」となると、接続解除を実行し、接続が解除されたらボリューム接続状態管理情報６００に「未接続」と設定する処理を実行する。基本的に、接続制御を行うソフトウェアと、ボリューム接続状態管理情報６００を更新するソフトウェアが異なるため、接続解除を行うソフトウェアがボリューム接続状態管理情報の状態を確認した後、接続解除を実行する処理となる。このように、ストレージ装置では、ノードとボリュームとの接続状態を管理する。

ステップＳ１３２で、ボリューム接続状態管理情報６００を確認し、接続解除指示を受けたボリュームの接続状態を調べ（Ｓ１３２）、当該ボリュームの接続状態が「未接続」か、を判定する（Ｓ１３４）。

未接続でない場合、ステップＳ１３１に戻り、未接続の場合はＳ１３５に進み、接続解除指示を受けたボリュームとノードとの接続を解除する（Ｓ１３５）。

このように、ストレージ装置１５０では、ノードとボリュームの接続状態をボリューム接続状態管理情報６００で管理し、プラグイン１０１ａからノードとボリュームとの接続解除指示を受領すると、ボリューム接続状態管理情報６００で接続状態を更新する。これにより、プラグイン１０１ａの接続解除指示を、ＳＣＳＩネットワーク経由で、ストレージ装置１５０が管理し、障害の発生したノード（ＦＯ元ノード）に対して、伝えることができる。

この図で示した処理は、種々の変形が考えられ、ストレージ装置でボリュームとノードとの接続状態を管理し、接続状態を確認したうえで接続解除が実行できれば他の態様で実現されても良い。

図１４は、マスタノード以外のノードのプラグイン１０１の処理を示したフローチャートであり、ネットワーク障害が発生する前の通常時の処理を示している。

各ノードのプラグイン１０１は、マスタノード１００ａのコンテナ管理部１０２ａから、管理しているボリューム情報８００を受け取り、各ノードのメモリ２２０に格納する。

接続先情報（ノードＩＤ）、接続元情報（ストレージＩＤ）、ボリュームＩＤはマスタノード１００ａのコンテナ管理部１０２ａが管理しており、各ノードのプラグイン１０１はこれらの情報を有していない。そのため、ネットワーク障害発生に備えて、通常時に情報を取得するため、図１４の処理は、定期的に実行されることが好ましい。

尚、図１４では、ステップＳ１４１でボリューム情報８００を受け取ると説明したが、ノード情報７００や接続されているノード（ノードＩＤ）とボリューム（ストレージＩＤ、ボリュームＩＤ）との対応関係を受領し、メモリに格納しても良い。

図１５は、障害が発生したノードのプラグイン１０１の処理を示したフローチャートであり、ネットワーク障害が発生し、フェイルオーバーを行う際の処理の流れを示している。

プラグイン１０１は、本処理を定期的に実行するものとする。図１４のＳ１４１で取得したボリューム情報を利用し、ボリューム毎にＳ１５１からＳ１５８の処理を実行し、全てのボリュームに対して処理を実行したら、処理を終了する。

ステップＳ１５２で、プラグイン１０１は、ボリュームの接続状況を、ＳＣＳＩネットワーク経由でストレージ装置１５０に問い合わせるＳＣＳＩコマンドを発行する。詳細には、プラグイン１０１は、処理対象のストレージ装置とボリュームを特定するストレージＩＤ、ボリュームＩＤに基づき、処理対象のボリュームを有するストレージ装置に対して、ＳＣＳＩコマンドを送信する。

ステップＳ１５３で、プラグイン１０１はストレージ装置１５０からボリュームの接続状態をＳＣＳＩネットワーク経由で受領する。ストレージ装置１５０は、ＳＣＳＩコマンドで問い合わせのあったボリュームＩＤに基づいて、ボリューム接続状態管理情報６００を参照し、接続状態をプラグイン１０１に返す。

ステップＳ１５４で、ストレージ装置１５０から接続状態を受領したプラグイン１０１は、状態が「接続解除待ち」であるかを判断し、接続解除待ちであればステップＳ１５５に進み、接続解除待ちでなければ、ステップＳ１５１に戻り、違うボリュームの処理を行う。

ステップＳ１５５では、処理対象のボリュームのマウント状態を確認し、接続解除に伴うマウント状態を解除する。詳細には、プラグイン１０１は、ボリュームＩＤ、ストレージＩＤからＯＳ１０３に対応するデバイスファイル名を問い合わせる。ＯＳ１０３はデバイスファイル９００を参照し、ボリュームＩＤ、ストレージＩＤに対応するデバイスファイル名を特定する。この際ＯＳ１０３は、マウントポイント情報５００を参照し、特定したデバイスファイル名からマウント元５０１を特定し、マウント先（マウントポイント）５０２との関係を削除する（マウントポイント情報を削除）。

ステップＳ１５６で、プラグイン１０１は、接続解除に伴い、処理対象のボリュームのデバイスファイルを削除する。ステップＳ１５５で、既に対象ボリュームのデバイスファイル名が特定されているので、この特定されたデバイスファイルを削除する。

ステップＳ１５７で、プラグイン１０１は、ＳＣＳＩ通信用情報１０００からＳＣＳＩコマンド通信用ボリューム１５５を選択し、接続解除を通知するＳＣＳＩコマンドを、ＳＣＳＩネットワーク経由で送信する。ＳＣＳＩ通信用情報１０００には、ストレージＩＤ１００１、ボリュームＩＤ１００２、デバイスファイル名１００３、ＳＣＳＩ通信用のボリュームかを示す情報１００４が対応付けて管理されているため、ＳＣＳＩ通信用のボリュームを選択することができる。

ステップＳ１５８で、未処理のボリュームが存在する場合ステップＳ１５１に戻り、全てのボリュームについて処理を実行した場合処理を終了する。

図１５の処理により、障害が発生したノード（ＦＯ元ノード）では、ＳＣＳＩネットワーク経由で接続解除が指示されたことを知り、接続指示対象のボリュームに関するマウントポイント情報及びデバイスファイルを削除する後処理を実行するため、ＦＯ元ノードとＦＯ先ノードによる同一ボリュームに対するライト動作の発生を防止することができる。

さらに、ＦＯ元ノードが復旧した際、既に、古いデバイスファイルやマウントポイント情報が削除されているため、復旧時にボリュームを新たに認識してデバイスファイルの設定等を行うので、ストレージ装置内のボリュームを正しく認識することができる。

通常、デバイスファイルはボリュームが新たに接続された際に、ＯＳＳ（例えば、Ｌｉｎｕｘ（登録商標））により自動的に作られるが、古いデバイスファイルが残った状態だと、新たに接続されたことを認識できないことがある。例えば、新たな接続は、ノードのＨＢＡやＬＵＮなどを元に識別されるが、このＬＵＮの値は古い接続と同じ値になることがある。より詳細には、ボリュームＩＤ「１」のボリュームがＬＵＮ「１００」でノードと接続された状態で、デバイスファイルを削除せずに、ストレージ装置側だけで接続を解除すると、ストレージ装置側ではＬＵＮ「１００」は空いた状態になるが、ノード側ではＬＵＮ「１００」で認識したデバイスファイルが残留する。この時、ボリュームＩＤ「２」のボリュームをＬＵＮ「１００」でノードと接続すると、ノードでは新たにデバイスファイルは削除されず、古いデバイスファイルが使い回される。図１５の処理により、古いデバイスファイルが残らなくなり、Ｌｉｎｕｘは正常にデバイスファイルを認識することができるため、復旧時に特別な操作は必要ない。

このように、図１５に示した処理により、障害の発生したノードでは、確実に後処理を行うことができる。

図１６は、マスタノードのプラグイン１０１ａの処理を示したフローチャートであり、ＳＣＳＩ通信用ボリュームを管理する処理の流れを示している。

ステップＳ１６１で、プラグイン１０１ａは、最初にストレージ装置１５０のボリューム１５４とノード１００との接続を行う際に、ストレージ装置１５０にＳＣＳＩコマンド通信用ボリューム１５５を作成し、ＳＣＳＩコマンド通信用ボリューム１５５とＦＯ元ノード１００ｂとＦＯ先ノード１００ｃとの接続を行う。ＳＣＳＩ通信用ボリュームを作成し、ノードと接続したらＯＳ１０３ａに通知し、ＳＣＳＩ通信用情報１０００に登録する。

ステップＳ１６２で、プラグイン１０１ａは、ＦＯ元ノード１００ｂ、ＦＯ先ノード１００ｃのプラグイン１０１ｂ、プラグイン１０１ｃに対して、作成したＳＣＳＩ通信用ボリュームの情報を送信する。つまり、ＳＣＳＩ通信用情報１０００に登録した、ＳＣＳＩコマンド通信用ボリューム１５５を有するストレージＩＤ、ボリュームＩＤ、デバイスファイル名等の情報を送信する。これにより、ＳＣＳＩコマンド通信用ボリューム１５５に関するＳＣＳＩ通信用デバイスファイル１２１ｂ、１２１ｃの設定を行うことができる。

図１７は、マスタノード以外のノードのプラグイン１０１が行う処理であって、ＳＣＳＩ通信用ボリュームの管理を行う処理を示したものである。

ＦＯ元ノード１００ｂのプラグイン１０１ｂ、あるいは、ＦＯ先ノード１００ｃのプラグイン１０１ｃは、マスタノードのプラグイン１０１ａから、ＳＣＳＩコマンド通信用ボリューム１５５の情報を受けとったら、各ノードのＳＣＳＩ通信用情報１０００にその情報を格納する。これにより、ＦＯ先ノードとしてボリュームに関するＳＣＳＩ通信用のデバイスファイルの設定を行うことができる。

図１８は、ストレージ装置１５０で、ノードのプラグイン１０１から接続解除を受けた場合の処理の流れを示すフローチャートである。

ステップＳ１８１で、ストレージ装置１５０は、任意のノードのプラグインから受領した接続解除を指示する接続解除指示コマンド（ＳＣＳＩコマンド）を受信する。

尚、このＳＣＳＩコマンドには、接続が解除されるノードとボリュームを、それぞれ特定するノードＩＤ、ボリュームＩＤの情報が含まれる。

ステップＳ１８２で、ストレージ装置１５０は、受信したＳＣＳＩコマンドから、ボリューム接続状態管理情報６００の接続解除の対象となるボリュームとノードの接続状態を未接続にする。

以上の通り、各ノード１００とストレージ装置１５０間でのＳＣＳＩコマンドは、ＳＡＮ経由で、ＳＣＳＩ通信用ボリューム１５５を介して行われる。

図１９は、ノードとストレージ装置１５０のボリューム１５４との接続を行う際の処理を示すシーケンス図である。この処理は、図１１と図１２の内容に対応する。

まず、マスタノード１００ａのコンテナ管理部１０２ａは、マスタノードのプラグイン１０１ａに対し、接続先ノードＩＤ、ストレージ装置ＩＤ、ボリュームＩＤを指定して、接続指示を行う（Ｓ１９１）。接続指示は、図１１のステップＳ１１１で説明した通り、障害が発生したノードが使用していたボリュームのボリュームＩＤと対応する、ストレージＩＤ、及び障害が発生していないノード（接続先ノード）のノードＩＤを特定する。

接続指示を受けたプラグイン１０１ａは、接続指示に含まれるストレージＩＤによって特定されるストレージ装置１５０に対し、接続指示に含まれるボリュームＩＤによって特定されるボリュームの接続状態を問い合わせる（Ｓ１９２）。

ストレージ装置１５０では、ボリューム接続状態管理情報６００を参照して、問い合わせのあったボリュームに接続されているノードＩＤと、そのノードとの接続状態を接続先情報としてプラグイン１０１ａに送信する（Ｓ１９３）。

プラグイン１０１ａは、ステップＳ１９１で得た接続指示のノードＩＤと、ステップＳ１９３で得た接続先情報のノードＩＤとを比較し（Ｓ１９４）、異なる場合、接続解除指示をストレージ装置１５０に送信する（Ｓ１９５）。つまり、プラグイン１０１ａは、接続指示されたボリュームが接続指示されたノード以外のノードに接続されている場合、既に接続されているノードの接続を解除する接続解除指示をストレージ装置１５０に送信する。

ストレージ装置１５０は、接続解除指示に従って、既に接続されているボリュームとノードの接続状態を未接続に変更し、接続が解除されると、プラグイン１０１ａに対して、完了通知を行う（Ｓ１９６）。

ステップＳ１９７で、プラグイン１０１ａは、ストレージ装置１５０に対し、ボリュームとノードを接続するためボリュームＩＤと接続先ノードＩＤを含む接続指示を送信する。この際のボリュームＩＤと接続先ノードＩＤは、ステップＳ１９１で接続指示されたボリュームＩＤとノードＩＤに対応する。

ストレージ装置１５０は、ステップＳ１９７で接続指示を受けたボリュームＩＤと接続先ノードＩＤとの接続を行い、ボリューム接続状態管理情報６００の接続状態を「接続中」を登録し、プラグイン１０１ａに完了報告を行う（Ｓ１９８）。

図２０は、障害発生時にノードとボリュームの接続を解除するためのシーケンス図である。このシーケンス図により、ＦＯ元ノードでは、接続解除されたボリュームに関するマウントポイント情報とデバイスファイルを削除する。

ネットワーク障害等が発生する前の通常状態において、各プラグイン１０１は、マスタノード１００ａのコンテナ管理部１０２ａからボリューム情報８００を要求し（Ｓ２０１）、ボリュームＩＤ、ストレージＩＤとの対応関係等を受信する（Ｓ２０２）。

ステップＳ２０１、Ｓ２０２は、図１４に示した処理である。

プラグイン１０１は、ステップＳ２０２で受け取ったボリューム情報に基づき、処理を開始する（Ｓ２０４）。プラグイン１０１は、ストレージ装置１５０に対し、ボリュームの接続状態を問い合わせる（Ｓ２０５）。

ストレージ装置１５０は、問い合わせのあったボリューム関する接続状態をプラグイン１０１に対して返す（Ｓ２０６）。

プラグイン１０１では、ストレージ装置１５０からの接続状態が「接続解除待ち」かを判定し、接続解除待ちの場合は、当該ボリュームに関するマウントポイント情報、デバイスファイル情報を削除する（Ｓ２０７）。

プラグイン１０１は、ストレージ装置１５０に対し、当該ボリュームを特定するボリュームＩＤと接続されていたノードのノードＩＤを指定した接続解除完了通知を、ＳＣＳＩ通信用ボリュームを介して送信する（Ｓ２０８）。ステップＳ２０５からＳ２０８は、図１５に記載した処理に対応する。

本実施例によれば、１つのホストＯＳ上に複数のコンテナと呼ばれる独立空間を形成するコンテナ型仮想化環境において、ストレージのボリュームも適切にＦＯすることができる。

また本実施例によれば、ネットワーク障害が発生したＦＯ元ノードは、マスタノードやＦＯ元ノード等の外部装置から孤立するため、マスタノードやＦＯ先ノード等とネットワーク経由の通信を受信できなくなるが、マスタノードからストレージ装置に対し、ＳＣＳＩネットワーク経由でＦＯ元ノードとボリュームとの接続解除を指示し、ＦＯ元ノードでは、ＳＣＳＩネットワークを経由して、ストレージ装置から接続解除指示を受け取ることができる。

また、本実施例によれば、障害が発生したノード（ＦＯ元ノード）では、ＳＣＳＩネットワーク経由で接続解除指示を受けると、接続指示対象のボリュームに関するマウントポイント情報及びデバイスファイルを削除するため、ＦＯ元ノードとＦＯ先ノードによる同一ボリュームに対するライト動作の発生を防止することができる。

さらに、本実施例によれば、ＦＯ元ノードが復旧した際、既に古いデバイスファイルやマウントポイント情報が削除されているため、ストレージ装置内のボリュームを正しく認識することができる。

以上の通り、本実施例によれば、コンテナ型仮想化環境において永続データを伴うフェイルオーバーを安全に行うことができる。

上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することにより、ソフトウェアを使用して実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード等の記録媒体に置くことができる。

１００：ノード
１００ａ：マスタノード
１００ｂ：ＦＯ元ノード
１００ｃ：ＦＯ先ノード
１０１：プラグイン
１０２：コンテナ管理ソフトウェア
１０３：ＯＳ
１１０：ＮＩＣ
１１１：ＨＢＡ
１２０：ＳＣＳＩ通信用情報
１２１：ＳＣＳＩ通信用デバイスファイル
１２２：デバイスファイル
１３０：ＬＡＮスイッチ
１３１：ＦＣスイッチ
１５０：ストレージ装置
１５３：ボリューム接続状態管理情報
１５４：ボリューム
１５５：ＳＣＳＩコマンド通信用ボリューム
２１０：ＣＰＵ
２２０：メモリ
２３０：記憶装置
４０１：ストレージコントローラ
４０２：プロセッサ
４０３：ボリューム
４０７：メモリ

Claims

第１のネットワークで接続される複数のノードを有し、複数のノードは、マスタノードと、第２のネットワークを介して複数のボリュームを有することができるストレージ装置の第１のボリュームに対しＩＯ要求を行う第１のノードと、前記第１のノードの障害時に前記第１のノードの処理を引き継ぐ第２のノードとを含み、
前記第１のノードで前記第１のネットワークの障害が発生した場合、前記マスタノードは、前記ストレージ装置に対し、前記第２のネットワークを介して前記第１のノードと前記第１のボリュームとの接続を解除する接続解除指示を送信し、
前記ストレージ装置は、前記接続解除指示を受領すると、前記第１のノードと前記第１のボリュームとの接続を解除し、前記第１のノードと前記第１のボリュームとの接続状態を管理する接続状態管理情報を更新し、
前記第１のノードは、前記第２のネットワークを経由で前記ストレージ装置の接続状態管理情報で管理される接続状態を取得し、取得した接続状態に基づいて、前記接続解除指示に伴う、前記第１のボリュームに関する後処理を実行する、ことを特徴とするクラスタシステム。
請求項１に記載のクラスタシステムにおいて、
前記第２のネットワークは、ＳＣＳＩプロトコルによるネットワークであり、
前記第１のノードで実行される後処理は、前記第１のボリュームに関するデバイスファイルの削除を含む、ことを特徴とするクラスタシステム。
請求項２に記載のクラスタシステムにおいて、
前記第１のノードで実行される後処理は、さらに、前記第１のボリュームに関するマウントポイント情報の削除を含む、ことを特徴とするクラスタシステム。
請求項３に記載のクラスタシステムにおいて、
前記第１のノードは、前記ストレージ装置が管理する前記第１のノードと前記第１のボリュームとの接続状態が接続解除待ちの場合に後処理を実行する、ことを特徴とするクラスタシステム。
請求項４に記載のクラスタシステムにおいて、
前記第１のノードは、前記ストレージ装置に送信する接続解除指示を格納するＳＣＳＩ通信用デバイスファイルを有することを特徴とするクラスタシステム。
請求項４に記載のクラスタシステムにおいて、
前記複数のノードのそれぞれには、前記複数のノードと前記ストレージ装置の接続関係を管理し、前記複数のノードの前記第１のネットワークの障害を検出するコンテナ管理部を有することを特徴とするクラスタシステム。
請求項４に記載のクラスタシステムにおいて、
前記複数のノードは、仮想マシン、あるいはコンテナであることを特徴とするクラスタシステム。
第１のネットワークで接続される複数のノードを有し、複数のノードは、マスタノードと、第２のネットワークを介して複数のボリュームを有することができるストレージ装置の第１のボリュームに対しＩＯ要求を行う接続元ノードと、前記接続元ノードの障害時に前記接続元ノードの処理を引き継ぐ接続先ノードとを含むクラスタシステムのフェイルオーバー制御方法において、
前記マスタノードは、
前記接続元ノードの前記第１のネットワークの障害を検知すると、前記複数のノードの内、前記接続元ノードを除く他のノードを接続先ノードとして、前記第１のボリュームとの接続を要求する接続要求を発行し、
前記ストレージ装置に対し、前記第２のネットワークを介して接続要求に含まれる前記第１のボリュームとの接続状態を問い合わせ、
前記第１のボリュームが前記接続先ノード以外のノードに接続されている場合、前記ストレージ装置に対し、前記第２のネットワークを介して前記第１のボリュームと前記接続先ノード以外のノードの接続解除指示を発行し、
前記ストレージ装置は、前記第２のネットワークを介して前記接続解除指示を受領すると、前記第１のボリュームの接続状態を接続解除待ちに設定して、前記接続元ノードと前記第１のボリュームとの接続を解除した後、前記第１のボリュームの接続状態を未接続に設定し、
前記接続元ノードは、前記第２のネットワークを介して前記ストレージ装置に対し、前記第１のボリュームの接続状態を問い合わせ、前記接続元ノードとの関係が接続解除待ちの場合に、前記第１のボリュームに関するデバイスファイルの削除を含む後処理を実行する、ことを特徴とするクラスタシステムのフェイルオーバー制御方法。
請求項８記載のクラスタシステムのフェイルオーバー制御方法において、
前記第２のネットワークは、ＳＣＳＩネットワークであり、
前記第１のネットワークは、ＬＡＮスイッチで接続されるＩＰネットワークである、ことを特徴とするクラスタシステムのフェイルオーバー制御方法。
請求項９記載のクラスタシステムのフェイルオーバー制御方法において、
前記マスタノードを除く複数のノードは、前記マスタノードから前記ストレージ装置の前記複数のボリュームと前記複数のノードとの接続関係に関する情報を受け取る、ことを特徴とするクラスタシステムのフェイルオーバー制御方法。