JP2011180658A - 分散ファイルシステムにおける冗長化方法 - Google Patents
分散ファイルシステムにおける冗長化方法 Download PDFInfo
- Publication number
- JP2011180658A JP2011180658A JP2010041815A JP2010041815A JP2011180658A JP 2011180658 A JP2011180658 A JP 2011180658A JP 2010041815 A JP2010041815 A JP 2010041815A JP 2010041815 A JP2010041815 A JP 2010041815A JP 2011180658 A JP2011180658 A JP 2011180658A
- Authority
- JP
- Japan
- Prior art keywords
- file
- management server
- server
- meta information
- servers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】分散ファイルシステムの運用に関し、ファイルサーバを管理する管理サーバの障害によるシステム全体のサービス停止を回避可能とした冗長化方法を得る。
【解決手段】記憶部を有する複数のファイルサーバと、複数のファイルサーバをそれぞれ管理する複数の管理サーバとを備え、前記管理サーバに対して複数ユーザによるファイル書込み要求を行い、前記ファイルサーバの記憶部に記録するネットワークを構成し、前記複数のファイルサーバを広域な範囲に分散配置させた分散ファイルシステムにおいて、一のユーザによる前記管理サーバ12への前記ファイルサーバ11の書込み要求に対して、前記ファイルサーバへのメタ情報をメモリキャッシュ(メタ情報保管部)に保管する管理サーバが、前記ユーザの書込み要求と並行して前記ユーザへのファイルサーバ書込み終了の応答前に各管理サーバにおけるメタ情報更新処理を行う。
【選択図】図1
【解決手段】記憶部を有する複数のファイルサーバと、複数のファイルサーバをそれぞれ管理する複数の管理サーバとを備え、前記管理サーバに対して複数ユーザによるファイル書込み要求を行い、前記ファイルサーバの記憶部に記録するネットワークを構成し、前記複数のファイルサーバを広域な範囲に分散配置させた分散ファイルシステムにおいて、一のユーザによる前記管理サーバ12への前記ファイルサーバ11の書込み要求に対して、前記ファイルサーバへのメタ情報をメモリキャッシュ(メタ情報保管部)に保管する管理サーバが、前記ユーザの書込み要求と並行して前記ユーザへのファイルサーバ書込み終了の応答前に各管理サーバにおけるメタ情報更新処理を行う。
【選択図】図1
Description
本発明は、複数のユーザによるファイル書込み要求及びファイル読込み要求が行われるネットワークにおいて、記憶部(ストレージ)を有する複数のファイルサーバを広域な範囲に分散配置させて形成される分散ファイルシステムでファイル(ユーザデータ)を保存する際に、分散ファイルシステムを運用する複数の管理サーバ間で行われるメタ情報の管理に関し、特に、システム全体のサービス停止の回避を目的とした分散ファイルシステムにおける冗長化方法に関する。
この種の技術としては、非特許文献1や非特許文献2で示されるように、複数のマシンのディスクを組み合わせて1つのファイルシステムとして機能する分散プラットフォームが提案されている。
非特許文献1に示されたGfarmは、広域ネットワーク上で、大容量、大規模データ処理の要求に応えるスケーラブルな分散ファイルシステムプラットフォームであり、広域なネットワーク上での効率的なファイル共有に適した分散プラットフォームである。
一方、非特許文献2に示されたHadoopは、1つのディスクで保存できない大量のデータを並列化することで高速かつ効率良く処理できるものであり、比較的大きなサイズかつ基本的に更新されることのないファイルのI/Oに適した分散プラットフォームである。
非特許文献1に示されたGfarmは、広域ネットワーク上で、大容量、大規模データ処理の要求に応えるスケーラブルな分散ファイルシステムプラットフォームであり、広域なネットワーク上での効率的なファイル共有に適した分散プラットフォームである。
一方、非特許文献2に示されたHadoopは、1つのディスクで保存できない大量のデータを並列化することで高速かつ効率良く処理できるものであり、比較的大きなサイズかつ基本的に更新されることのないファイルのI/Oに適した分散プラットフォームである。
URL:http://datafarm.apgrid.org/index.ja.html
URL:http://hadoop.apache.org/
非特許文献1に示されたGfarmは、広域なネットワーク上での効率的なファイル共有に適した分散プラットフォームであり、この分散プラットフォームでは、広域な範囲に配置した複数のファイルサーバに、ユーザから書込み要求のあったファイルを、データの可用性を高めるために分散配置する。しかしながら、ファイル自体の可用性は高めることができるが、ファイルのメタ情報は、管理サーバが一か所で管理しており、管理サーバが障害となった場合、ユーザからの分散ファイルシステムに対するアクセスが不可能となる(サービスのダウンタイムが発生する)現象が生じる。
この現象を回避するため、管理サーバを複数台で冗長化する技術が提案されている。例えば、図6に示すように、分散ファイルシステムにおける管理サーバの一台を現用機とし、残りを予備機として運用し、現用機に障害が発生した際に予備機に以降の処理を切り替えてサービスを継続するように構成する。この構成であっても、予備機が現用機として使用可能になるまでの過度期(切替期間)においてはユーザからのアクセスが不能となり、その間はユーザに対すサービス提供が遮断される。
また、図7に示すように、分散ファイルシステムにおいて管理サーバを複数台用意し、管理サーバが管理するメタ情報を、ユーザからの操作とは非同期に各管理サーバ間で相互に定期的に送受信を行い、全ての管理サーバを現用機として並列に動作させることで、いずれかの管理サーバに障害が発生しても残りの現用機でサービスを継続する構成も提案されている。
しかしながら、この構成によれば、ユーザからファイルが書き込まれ、ある管理サーバがそのファイルのメタ情報を保持し、次の同期のタイミングで別の管理サーバにそのメタ情報を受け渡す前にその管理サーバが障害となった場合には、そのファイルにはアクセス不可能となる(例えば図7において、障害発生時点(t2)から見て、管理サーバ間で最後に同期をとった時点(t1)までのメタ情報は保障されるが、t1〜t2 間に書き込まれたユーザデータのメタ情報(更新6及び更新8)は失われるため、アクセス不可能となる)。
また、ユーザからのファイル書込みに対しては、各管理サーバ間でメタ情報が受け渡しされる前に、書込みが終了したことをユーザに示すため、書込みを行ったデータは可用性が保たれているとユーザ側では認識してしまうという課題も生じる。
また、ユーザからのファイル書込みに対しては、各管理サーバ間でメタ情報が受け渡しされる前に、書込みが終了したことをユーザに示すため、書込みを行ったデータは可用性が保たれているとユーザ側では認識してしまうという課題も生じる。
更に、各管理サーバ間において、短い周期で複製を行う設定も考えられるが、クラウドサービスとして巨大ストレージを提供する場合など、増加するユーザの膨大なメタ情報を高い頻度で同期をとることになり、相互管理サーバ間での処理負荷が増加するため現実的でない。
本発明は上記事情に鑑みて提案されたもので、分散ファイルシステムの運用に関し、記憶部(ストレージ)を提供するファイルサーバと分散ファイルシステムを利用するユーザとの間を仲介する管理サーバの障害により、システム全体のサービス停止を回避することを可能とした分散ファイルシステムにおける冗長化方法を提供することを目的とする。
上記目的を達成するため本発明の請求項1の分散ファイルシステムにおける冗長化方法は、記憶部を有する複数のファイルサーバと、メモリキャッシュ及び情報データベースを有し前記複数のファイルサーバをそれぞれ管理する複数の管理サーバとを備え、前記管理サーバに対して複数ユーザによるファイル書込み要求を行い、前記ファイルサーバの記憶部に記録するネットワークを構成し、前記複数のファイルサーバを広域な範囲に分散配置させた分散ファイルシステムにおいて、
一のユーザによる前記管理サーバへの前記ファイルサーバの書込み要求に対して、前記ファイルサーバへのメタ情報を前記メモリキャッシュに保管する管理サーバが、前記ユーザの書込み要求と並行して前記ユーザへのファイルサーバ書込み終了の応答前に各管理サーバにおけるメタ情報更新処理を行う
ことを特徴としている。
一のユーザによる前記管理サーバへの前記ファイルサーバの書込み要求に対して、前記ファイルサーバへのメタ情報を前記メモリキャッシュに保管する管理サーバが、前記ユーザの書込み要求と並行して前記ユーザへのファイルサーバ書込み終了の応答前に各管理サーバにおけるメタ情報更新処理を行う
ことを特徴としている。
すなわち、本発明方法は、複数の管理サーバが設置された分散ファイルシステムにおいて、定期的に管理サーバ間でメタ情報を受け渡すのではなく、書き込まれたファイルのメタ情報を保管する管理サーバが、書込み要求と並行して他の管理サーバにメタ情報(メモリ及びディスク等の記憶装置上に存在するメタ情報)を渡した後に、ユーザに対して書込み終了を示すことが行われる。
請求項2は、請求項1の分散ファイルシステムにおける冗長化方法において、
前記メタ情報更新処理は、
前記ユーザの書込み要求と並行して他の管理サーバに対して前記メタ情報の複製依頼を行い、
各管理サーバのメモリキャッシュでメタ情報を更新完了後に前記ユーザに対してファイルサーバ書込み終了の応答を行い、
前記各管理サーバのメモリキャッシュのメタ情報の更新内容を各管理サーバの情報データベースにそれぞれ記録する処理である
ことを特徴としている。
前記メタ情報更新処理は、
前記ユーザの書込み要求と並行して他の管理サーバに対して前記メタ情報の複製依頼を行い、
各管理サーバのメモリキャッシュでメタ情報を更新完了後に前記ユーザに対してファイルサーバ書込み終了の応答を行い、
前記各管理サーバのメモリキャッシュのメタ情報の更新内容を各管理サーバの情報データベースにそれぞれ記録する処理である
ことを特徴としている。
本発明方法によれば、各管理サーバにおいてメタ情報更新処理を行って対障害性を高めた上でデータの保存が終了したことをユーザに示すことができ、その後において、いかなるタイミングで管理サーバに障害が発生した場合でも、他の管理サーバが常時メタ情報の複製を保持しているため、ユーザが他の管理サーバを介して書込みを行ったファイルサーバからデータを読み込むことができる。
本発明の分散ファイルシステムにおける冗長化方法について、図1及び図2を参照しながら説明する。
本発明の冗長化方法が適用される分散ファイルシステム10は、複数(N個)のファイルサーバ11と、複数のファイルサーバ11をそれぞれ管理する複数(M個)の管理サーバ12と、ユーザ端末1との間で要求(書込みや読込み)及び通知(書込み終了通知やデータ閲覧)を行うファイルシステムクライアント13とにより、ユーザ端末1によるファイル書込み要求やファイル読込み要求に対して、ファイルサーバ11への書込みやファイルサーバ11からの読込みが行われるネットワークを構成している。
本発明の冗長化方法が適用される分散ファイルシステム10は、複数(N個)のファイルサーバ11と、複数のファイルサーバ11をそれぞれ管理する複数(M個)の管理サーバ12と、ユーザ端末1との間で要求(書込みや読込み)及び通知(書込み終了通知やデータ閲覧)を行うファイルシステムクライアント13とにより、ユーザ端末1によるファイル書込み要求やファイル読込み要求に対して、ファイルサーバ11への書込みやファイルサーバ11からの読込みが行われるネットワークを構成している。
ロードバランサ2は、各管理サーバ12が並列に動作するように接続され、ユーザ端末1からのファイル書込み要求又はファイル読込み要求をファイルシステムクライアント13が受けた場合、ロードバランサ2が管理サーバ12を選択し、この管理サーバ12が管理する書込み先又は読込み先のファイルサーバ11をファイルシステムクライアント13へ応答するように構成されている。
各ファイルサーバ11は、それぞれ記憶部(ストレージ)を有し、ネットワーク内の広域な範囲に分散配置されている。
各管理サーバ12は、メモリキャッシュ及び情報データベースを有し、前記複数(N個)のファイルサーバ11をそれぞれ管理する。各管理サーバ12は、メタ情報の複製(メタ情報のミラーリング)を行うことでメタ情報の複製をそれぞれ保持するように構成する。すなわち、ユーザ端末1からファイルサーバ11への書込み要求があった場合、選択された管理サーバ12が管理する一のファイルサーバ11にファイル(ユーザデータ)を書込み、そのファイルのメタ情報は、この管理サーバ12を複製元として他の管理サーバ12にミラーリングされる(図1)。
各管理サーバ12は、メモリキャッシュ及び情報データベースを有し、前記複数(N個)のファイルサーバ11をそれぞれ管理する。各管理サーバ12は、メタ情報の複製(メタ情報のミラーリング)を行うことでメタ情報の複製をそれぞれ保持するように構成する。すなわち、ユーザ端末1からファイルサーバ11への書込み要求があった場合、選択された管理サーバ12が管理する一のファイルサーバ11にファイル(ユーザデータ)を書込み、そのファイルのメタ情報は、この管理サーバ12を複製元として他の管理サーバ12にミラーリングされる(図1)。
ファイルシステムクライアント13は、ロードバランサ2、ファイルサーバ11及び管理サーバ12との間での指示や通知等の処理を行うもので、ユーザ端末1からのファイル書込み要求Aがあった場合、ロードバランサ2及び管理サーバ12に対して書込み先ファイルサーバの問い合わせBを行うとともに、管理サーバ12及びロードバランサ2から書込み先ファイルサーバ応答Cを受け、当該ファイルサーバ11に対して書込み指示Dを行い、当該ファイルサーバ11の記憶部(ストレージ)へのデータ保存Eが行われる。
そして、このファイルサーバ11から管理サーバ12へ対して書込み終了通知Fを行い、管理サーバ12では他の管理サーバ12との間でメタ情報の複製Gが行われる。
次に、この管理サーバ12からファイルシステムクライアント13へ書込み終了通知Hがなされ、ファイルシステムクライアント13はユーザ端末1に対して書込み終了通知Iを行う(図1)。
そして、このファイルサーバ11から管理サーバ12へ対して書込み終了通知Fを行い、管理サーバ12では他の管理サーバ12との間でメタ情報の複製Gが行われる。
次に、この管理サーバ12からファイルシステムクライアント13へ書込み終了通知Hがなされ、ファイルシステムクライアント13はユーザ端末1に対して書込み終了通知Iを行う(図1)。
すなわち、ユーザ端末1から管理サーバ12を介してファイルサーバ11への書込み要求に対して、この管理サーバ12がファイルサーバ11へのメタ情報を保管し(後述するメモリキャッシュへの記録)、メタ情報を保管する最初の管理サーバがユーザの書込み要求と並行してユーザへのファイルサーバ書込み終了の応答前に各管理サーバ12におけるメタ情報の複製処理(更新処理)を行う。
また、ユーザ端末1からのファイル読込み要求Oがあった場合、ファイルシステムクライアント13はロードバランサ2及び管理サーバ12に対して読込み先ファイルサーバの問い合わせPを行うとともに、管理サーバ12及びロードバランサ2から読込み先ファイルサーバ応答Qを受け、当該ファイルサーバ11に対して読込み指示Rを行い、当該ファイルサーバ11においてデータ読込みSが行われる。
そして、このファイルサーバ11からファイルシステムクライアント13へ読込み応答Tがなされ、ファイルシステムクライアント13はユーザ端末1に対してデータ閲覧Uの処理を行う(図2)。
そして、このファイルサーバ11からファイルシステムクライアント13へ読込み応答Tがなされ、ファイルシステムクライアント13はユーザ端末1に対してデータ閲覧Uの処理を行う(図2)。
ユーザ端末1からのアクセスに伴い、ロードバランサ2が管理サーバ12を選択する場合、処理を割り振る最適な管理サーバ12を選択するロードバランサ2の負荷分散アルゴリズムに関しては、下記(1)及び(2)のいずれかの方式が静的に定義されている。
(1)スタティック負荷分散
スタティック負荷分散方式は、更に2つの方式に分けられる。
・ラウンドロビン方式
各管理サーバ12に均等にトラフィックを振り分ける方法で、サーバの処理能力に違いがないときに使用する。
・重み付けラウンドロビン方式
管理サーバ12に優先順位を付け、振り分けるトラフィック量を管理サーバごとに変えることができる。主としてサーバの処理能力に違いがある場合に使用する。
スタティック負荷分散方式は、更に2つの方式に分けられる。
・ラウンドロビン方式
各管理サーバ12に均等にトラフィックを振り分ける方法で、サーバの処理能力に違いがないときに使用する。
・重み付けラウンドロビン方式
管理サーバ12に優先順位を付け、振り分けるトラフィック量を管理サーバごとに変えることができる。主としてサーバの処理能力に違いがある場合に使用する。
(2)ダイナミック負荷分散
ダイナミック負荷分散は、更に4つの方式に分けられる。
・最速応答時間/最小サーバ負荷方式
最も速くレスポンスがあった管理サーバ12、最も負荷の小さい管理サーバ12などサーバの稼働状況によって振り分ける。
・最小コネクション方式
最もコネクションが少ない管理サーバ12を抽出することで振り分ける。
・最小クライアント数方式
各管理サーバ12が通信するクライアント数が均等になるようにリクエストを振り分ける。クライアント単位に分散対象サーバを割り当てる場合に有効である。
・最小データ通信量方式
各管理サーバ12が転送するデータ量が均等になるようにリクエストを振り分ける。コネクション当たりのデータ通信量の多いアプリケーションの負荷分散を行う場合に有効である。
ダイナミック負荷分散は、更に4つの方式に分けられる。
・最速応答時間/最小サーバ負荷方式
最も速くレスポンスがあった管理サーバ12、最も負荷の小さい管理サーバ12などサーバの稼働状況によって振り分ける。
・最小コネクション方式
最もコネクションが少ない管理サーバ12を抽出することで振り分ける。
・最小クライアント数方式
各管理サーバ12が通信するクライアント数が均等になるようにリクエストを振り分ける。クライアント単位に分散対象サーバを割り当てる場合に有効である。
・最小データ通信量方式
各管理サーバ12が転送するデータ量が均等になるようにリクエストを振り分ける。コネクション当たりのデータ通信量の多いアプリケーションの負荷分散を行う場合に有効である。
上述した構成の分散ファイルシステム10によれば、図1の書込み処理時において、ロードバランサ2により選択された管理サーバ12を介してファイルサーバ11に保存するというメタ情報は、他の管理サーバ12にミラーリングされているため、図2の読込み時において、どの管理サーバ12がロードバランサ2により選択された場合であってもファイルサーバ11に保存したデータをユーザ端末1でデータ閲覧が可能となる。
次に、管理サーバ2の詳細な構成について、図3を参照しながら説明する。
管理サーバ12は、ユーザ端末からの書込み要求を受け付ける書込み要求受付部121と、ユーザデータの保存先となるファイルサーバ11を決める書込み先決定部122と、ファイルサーバのリソース情報を管理するファイルサーバ情報管理部123と、ファイルサーバへの書込み終了受信部124と、メタ情報を記録するメタ情報保管部125と、メタ情報を複製するメタ情報複製部126を備えて構成されている。
管理サーバ12は、ユーザ端末からの書込み要求を受け付ける書込み要求受付部121と、ユーザデータの保存先となるファイルサーバ11を決める書込み先決定部122と、ファイルサーバのリソース情報を管理するファイルサーバ情報管理部123と、ファイルサーバへの書込み終了受信部124と、メタ情報を記録するメタ情報保管部125と、メタ情報を複製するメタ情報複製部126を備えて構成されている。
書込み要求受付部121は、ファイルシステムを利用するファイルシステムクライアント13から、ユーザ端末1からのユーザデータの書込み要求を受信し、書込み先決定部122に書込み先となるファイルサーバ11の選択を依頼する。この時、書込み要求受付部121から書込み先決定部122に対して、ユーザデータのファイルサイズ、ファイル名等のメタ情報も通知される。
書込み先決定部122は、ファイルサーバ情報管理部123で管理されたファイルサーバ11のリソース情報に基づいて、ユーザデータの書込み先となるファイルサーバ11を決定する。書込み先となるファイルサーバ11が決定した場合には、書込み先決定部122はファイルシステムクライアント13に対して書込み先ファイルサーバ11を通知する。
ファイルサーバ情報管理部123は、各ファイルサーバ11からリソース情報(空き容量、保存ファイル数、CPU利用率等)を受信し管理する。これらの情報は、書込み先決定部122へ各ファイルサーバ11のリソース情報として提供される。
ファイルサーバへの書込み終了受信部124は、書込み先のファイルサーバ11からファイルの書込みが終了した通知を受信し、このファイル書込み終了をメタ情報保管部125に通知するとともに、メタ情報の複製をメタ情報複製部126に指示する。
メタ情報保管部125は、メモリキャッシュと情報データベースを備え、書込み要求受付部121からの全ユーザデータのファイル名、ファイルサイズ、ファイルサーバへの書込み終了受信部124からの書込み先等をメタ情報として保管する。
このメタ情報保管部125では、先ずメモリキャッシュにメタ情報が一時的に書き込まれ、その後にメモリキャッシュに書き込まれたメタ情報がディスク等から構成される情報データベース(DB)に書き込まれる処理が行われる。メモリキャッシュに書き込まれたメタ情報は、メタ情報複製部126に出力される。
このメタ情報保管部125では、先ずメモリキャッシュにメタ情報が一時的に書き込まれ、その後にメモリキャッシュに書き込まれたメタ情報がディスク等から構成される情報データベース(DB)に書き込まれる処理が行われる。メモリキャッシュに書き込まれたメタ情報は、メタ情報複製部126に出力される。
メタ情報複製部126は、他の管理サーバ12にメタ情報を渡し、メタ情報の複製を指示する。メタ情報複製部126は、他の管理サーバ12からメタ情報の複製完了の応答があった場合に、書込み先決定部121に対してメタ情報複製終了通知を出力する。管理サーバ12、12間でのメタ情報の複製処理については、後述する。
次に、分散ファイルシステム10のファイルサーバ11及び管理サーバ12において、ユーザデータの書込みを行うファイルサーバ11の選択から書込み終了通知までの処理の流れについて、図4を参照しながら説明する。
先ず、書込み要求受付部121がファイルシステムクライアント13を介してユーザ端末1からのユーザデータの書込み要求を受信すると(ステップ41)、管理サーバ12が選択され、管理サーバ12の書込み先決定部122において書込み先となるファイルサーバ11の選択を行う。
この選択は、選択対象となるファイルサーバ(FS)のリソース状況をチェックすることで行う。すなわち、選択対象となる複数のファイルサーバから1台を選出し(ステップ42)、リソース状況をチェックし(ステップ44)、余裕があれば(ステップ45)、このファイルサーバにユーザデータを登録する等のメタ情報について、選択された管理サーバへの登録が行われる(ステップ46)。
この選択は、選択対象となるファイルサーバ(FS)のリソース状況をチェックすることで行う。すなわち、選択対象となる複数のファイルサーバから1台を選出し(ステップ42)、リソース状況をチェックし(ステップ44)、余裕があれば(ステップ45)、このファイルサーバにユーザデータを登録する等のメタ情報について、選択された管理サーバへの登録が行われる(ステップ46)。
ファイルサーバに余裕がなければ(ステップ45)、次のファイルサーバを選択し同じ処理が行われる。全てのファイルサーバについて余裕がない場合(ステップ43で全ファイルサーバチェック完了)には、ファイルサーバへの書込み失敗と判断し、その旨をユーザに通知し(ステップ55)、プログラムを終了する。
メタ情報の管理サーバへの登録が行われた後(ステップ46)、管理サーバ12はファイルサーバ11の記憶部(ストレージ)へのユーザデータの書込みを指示する(ステップ47)。
管理サーバ12のファイルサーバへの書込み終了受信部124がファイルサーバへの書込み終了通知を受けると(ステップ48)、ファイルサーバへの書込み成功と判断し(ステップ49)、メタ情報複製部126を介して他の管理サーバに対してメタ情報の複製を指示する(ステップ50)。
ファイルサーバへの書込み終了通知がない場合には、ファイルサーバへの書込み失敗と判断し(ステップ49)、その旨をユーザに通知し(ステップ55)、プログラムを終了する。
管理サーバ12のファイルサーバへの書込み終了受信部124がファイルサーバへの書込み終了通知を受けると(ステップ48)、ファイルサーバへの書込み成功と判断し(ステップ49)、メタ情報複製部126を介して他の管理サーバに対してメタ情報の複製を指示する(ステップ50)。
ファイルサーバへの書込み終了通知がない場合には、ファイルサーバへの書込み失敗と判断し(ステップ49)、その旨をユーザに通知し(ステップ55)、プログラムを終了する。
他の管理サーバでのメタ情報の複製が成功であるかを判断し(ステップ51)、複製が成功した場合(他の管理サーバからの応答があった場合)はメタ情報複製成功をメタ情報複製部126が書込み先決定部122に通知し(ステップ52)、書込み先決定部122がユーザに対し書込み終了を通知する(ステップ53)。
メタ情報複製部126で行われた複製が失敗した場合(他の管理サーバからの応答がなかった場合)は、メタ情報複製部126がメタ情報複製失敗を書込み先決定部122に通知し(ステップ54)、書込み失敗をユーザに通知し(ステップ55)、プログラムを終了する。
メタ情報複製部126で行われた複製が失敗した場合(他の管理サーバからの応答がなかった場合)は、メタ情報複製部126がメタ情報複製失敗を書込み先決定部122に通知し(ステップ54)、書込み失敗をユーザに通知し(ステップ55)、プログラムを終了する。
次に、管理サーバ12,12におけるメタ情報の複製処理について、図5を参照しながら説明する。
管理サーバ12,12同士の間には、TCPセッションが確立されている(S1)。
この状態でファイルサーバ11から管理サーバM(M=1)12にファイルサーバへの書込み終了通知がなされると(S2)、管理サーバM(M=1)12では、メタ情報保管部125のメモリキャッシュへメタ情報の書込みが行われる(S3)。
管理サーバ12,12同士の間には、TCPセッションが確立されている(S1)。
この状態でファイルサーバ11から管理サーバM(M=1)12にファイルサーバへの書込み終了通知がなされると(S2)、管理サーバM(M=1)12では、メタ情報保管部125のメモリキャッシュへメタ情報の書込みが行われる(S3)。
管理サーバM(M=1)12でのメタ情報の書込みが完了後、他の管理サーバM(M=M)12にメタ情報複製を依頼し(S4)、管理サーバM(M=M)12では、メタ情報保管部125のメモリキャッシュへメタ情報の書込みが行われる(S5)。
管理サーバM(M=M)12でのメタ情報の書込みが完了後、メタ情報の書込みが成功した場合に、管理サーバM(M=1)12に対してメタ情報複製応答が行われる(S6)。なお、管理サーバM(M=M)12におけるメタ情報の複製処理の失敗については、管理サーバM(M=1)12へのエラー応答の受信や応答なし(タイムアウト)により判断する。
管理サーバM(M=M)12でのメタ情報の書込みが完了後、メタ情報の書込みが成功した場合に、管理サーバM(M=1)12に対してメタ情報複製応答が行われる(S6)。なお、管理サーバM(M=M)12におけるメタ情報の複製処理の失敗については、管理サーバM(M=1)12へのエラー応答の受信や応答なし(タイムアウト)により判断する。
ユーザ端末1に対する書込み終了通知は、管理サーバM(M=1)12及び管理サーバM(M=M)12におけるメタ情報のメモリキャッシュへの書込みが完了した後に通知される(S7)。
その後、管理サーバM(M=1)12及び管理サーバM(M=M)12のそれぞれにおいて、メタ情報保管部125のメモリキャッシュに書き込まれたメタ情報をメタ情報保管部125の情報データベース(DB)に書き込む処理が行われる(S8,S9)。
その後、管理サーバM(M=1)12及び管理サーバM(M=M)12のそれぞれにおいて、メタ情報保管部125のメモリキャッシュに書き込まれたメタ情報をメタ情報保管部125の情報データベース(DB)に書き込む処理が行われる(S8,S9)。
各管理サーバ12へのメタ情報の登録は、先ずメタ情報保管部125のメモリキャッシュに書き込まれ、その後にメタ情報保管部125の情報データベース(DB)に書き込まれる。そして、ユーザ端末1に対する書込み終了通知は、メタ情報が各管理サーバ12のメモリキャッシュに書き込まれた後に行われるので、ディスク等への記録に時間を要する情報データベース(DB)への書込み前に通知することができ、ユーザ側への書込み終了通知を早い時期に行うことができる。
図5においては、管理サーバM(M=1)をメタ情報の複製元、管理サーバM(M=M)を複製先としているが、逆方向でも同様に動作する(ユーザからの書込み要求時に、ロードバランサにより管理サーバM(M=M)が選択された場合、メタ情報の複製元が管理サーバM(M=M)、複製先が他の管理サーバとなる)。
上述した分散ファイルシステムの冗長化方法によれば、書込み終了後にいかなるタイミングで管理サーバ12に障害が発生した場合でも、他の管理サーバ12が常時メタ情報の複製をミラーリングにより保持しているため、ユーザが書込みを行ったデータの一部を取り出せなくなるというリスクを回避しつつサービスを継続することが可能となる。
また、管理サーバ12によるキャッシュを含めたメタ情報の複製が終了した上で書込みの終了をユーザに通知するので、ユーザに通知があった場合には必ずメタ情報の複製が完了していることになる。したがって、ユーザが書込みの終了を受けた場合は、データの対障害性が確保されているので、書込みの終了が通知された場合のデータ障害の可能性を排除でき、ユーザによる誤認識を無くすことができる。
また、システム内部で複製処理に失敗した場合でも、ユーザに対して書込み失敗の通知がなされるので、その旨を認識することができ、再度書込みを実施する等の措置をとることができる。
1…ユーザ端末、 2…ロードバランサ、 10…分散ファイルシステム、 11…ファイルサーバ、 12…管理サーバ、 13…ファイルシステムクライアント、 121…書込み要求受付部、 122…書込み先決定部、 123…ファイルサーバ情報管理部、 124…ファイルサーバへの書込み終了受信部、 125…メタ情報保管部(メモリキャッシュ、情報データベース)、 126…メタ情報複製部。
Claims (2)
- 記憶部を有する複数のファイルサーバと、メモリキャッシュ及び情報データベースを有し前記複数のファイルサーバをそれぞれ管理する複数の管理サーバとを備え、前記管理サーバに対して複数ユーザによるファイル書込み要求を行い、前記ファイルサーバの記憶部に記録するネットワークを構成し、前記複数のファイルサーバを広域な範囲に分散配置させた分散ファイルシステムにおいて、
一のユーザによる前記管理サーバへの前記ファイルサーバの書込み要求に対して、前記ファイルサーバへのメタ情報を前記メモリキャッシュに保管する管理サーバが、前記ユーザの書込み要求と並行して前記ユーザへのファイルサーバ書込み終了の応答前に各管理サーバにおけるメタ情報更新処理を行う
ことを特徴とする分散ファイルシステムにおける冗長化方法。 - 前記メタ情報更新処理は、
前記ユーザの書込み要求と並行して他の管理サーバに対して前記メタ情報の複製依頼を行い、
各管理サーバのメモリキャッシュでメタ情報を更新完了後に前記ユーザに対してファイルサーバ書込み終了の応答を行い、
前記各管理サーバのメモリキャッシュのメタ情報の更新内容を各管理サーバの情報データベースにそれぞれ記録する処理である
請求項1に記載の分散ファイルシステムにおける冗長化方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010041815A JP2011180658A (ja) | 2010-02-26 | 2010-02-26 | 分散ファイルシステムにおける冗長化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010041815A JP2011180658A (ja) | 2010-02-26 | 2010-02-26 | 分散ファイルシステムにおける冗長化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2011180658A true JP2011180658A (ja) | 2011-09-15 |
Family
ID=44692127
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010041815A Pending JP2011180658A (ja) | 2010-02-26 | 2010-02-26 | 分散ファイルシステムにおける冗長化方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2011180658A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014032530A (ja) * | 2012-08-03 | 2014-02-20 | Nippon Telegr & Teleph Corp <Ntt> | 分散処理システムおよび分散処理方法 |
JP2016162170A (ja) * | 2015-03-02 | 2016-09-05 | 日本電気株式会社 | ストレージシステム、ストレージ、管理サーバおよびファイル管理方法 |
-
2010
- 2010-02-26 JP JP2010041815A patent/JP2011180658A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014032530A (ja) * | 2012-08-03 | 2014-02-20 | Nippon Telegr & Teleph Corp <Ntt> | 分散処理システムおよび分散処理方法 |
JP2016162170A (ja) * | 2015-03-02 | 2016-09-05 | 日本電気株式会社 | ストレージシステム、ストレージ、管理サーバおよびファイル管理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220124149A1 (en) | Synchronous replication for storage | |
US7546486B2 (en) | Scalable distributed object management in a distributed fixed content storage system | |
US7590672B2 (en) | Identification of fixed content objects in a distributed fixed content storage system | |
CN103890729B (zh) | 计算机化方法、存储服务器及管理服务器 | |
JP6225262B2 (ja) | 分散データグリッドにおいてデータを同期させるためにパーティションレベルジャーナリングをサポートするためのシステムおよび方法 | |
JP2021521551A (ja) | ブロックストレージシステムのための分散されたレプリカ | |
CN107924354A (zh) | 动态镜像 | |
US9984139B1 (en) | Publish session framework for datastore operation records | |
US12105983B2 (en) | Resilient implementation of client file operations and replication | |
CN108604163A (zh) | 针对文件访问协议存储的同步复制 | |
US11868623B2 (en) | Database management system with coding cluster and methods for use therewith | |
JP2012008934A (ja) | 分散ファイルシステム及び分散ファイルシステムにおける冗長化方法 | |
JP2011180658A (ja) | 分散ファイルシステムにおける冗長化方法 | |
JP6055197B2 (ja) | データベースシステム | |
JP2010271797A (ja) | 分散ストレージにおけるデータ位置管理方法及び装置及びプログラム | |
US11297010B2 (en) | In-line data operations for storage systems | |
WO2012046585A1 (ja) | 分散ストレージシステム、その制御方法、およびプログラム | |
JP6093320B2 (ja) | 分散処理システム | |
JP6291977B2 (ja) | 分散ファイルシステム、バックアップファイル取得方法、制御装置及び管理装置 | |
Ruty et al. | Collapsing the layers: 6Stor, a scalable and IPv6-centric distributed storage system | |
JP5845298B2 (ja) | ノードおよびプログラム | |
Li et al. | High-Available Cloud Platform Based on OpenStack | |
CN117931087A (zh) | 基于Ceph的存储方法、设备、系统和存储介质 | |
CN112988462A (zh) | 容器镜像中心和容器镜像中心运行方法 | |
Canceill et al. | A study of scalable storage systems |