JP2013025742A - 分散ファイル管理装置、分散ファイル管理方法及びプログラム - Google Patents

分散ファイル管理装置、分散ファイル管理方法及びプログラム Download PDF

Info

Publication number
JP2013025742A
JP2013025742A JP2011162970A JP2011162970A JP2013025742A JP 2013025742 A JP2013025742 A JP 2013025742A JP 2011162970 A JP2011162970 A JP 2011162970A JP 2011162970 A JP2011162970 A JP 2011162970A JP 2013025742 A JP2013025742 A JP 2013025742A
Authority
JP
Japan
Prior art keywords
management information
physical
logical
management
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011162970A
Other languages
English (en)
Inventor
Takashi Hayashi
孝志 林
Miyoshi Hanaki
三良 花木
Takeshi Takakura
健 高倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011162970A priority Critical patent/JP2013025742A/ja
Publication of JP2013025742A publication Critical patent/JP2013025742A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】大容量ファイルが分散して複数のサーバマシンに書き込まれたシステムにおいて、システム全体の障害管理や構成管理を容易に実現でき、システムの故障の切り分けや、影響範囲の特定、増減設の計画等を容易に行う。
【解決手段】大容量ファイルを論理的に構成、制御するマスター機能22から、大容量ファイルについての管理情報を取得するとともに、大容量ファイルが分散したデータを書き込まれた複数のサーバマシン40−1〜40−n毎に、サーバマシン40−1〜40−nへのデータの物理的な書き込み/読み出しを制御するワーカー機能41−1〜41−nから、サーバマシン40−1〜40−nに書き込まれたデータについての管理情報を取得し、これらの情報を指定された設定に基づいて対応づけて管理する。
【選択図】図1

Description

本発明は、ファイルを複数のサーバマシンに分散して書き込むことにより、大容量のファイルの書き込みや読み出しを可能とするネットワークにて分散ファイルを管理する管理装置に関する。
大規模分散ファイルシステムは、個々のマシンに搭載される物理的なディスク単体では扱えない大容量のファイルを提供するものである。多数のマシンをネットワークで接続することにより、いくらでもファイル容量を拡大できる特徴がある。
図17は、大規模分散ファイルシステムと従来の管理装置の一例を示す図である。
図17に示すように、従来は、論理管理装置111と物理管理装置113とによって大規模分散ファイルシステム120を管理している。大規模分散ファイルシステム120は、特定のマシン121に設けられ、大容量ファイル123a〜123zを論理的に構成、制御するマスター機能122と、大容量ファイル123a〜123zが分散したデータを書き込まれた複数のサーバマシン140−1〜140n毎に、そのサーバマシン140−1〜140nの物理的なディスク142−1〜142−nへの書き込み/読み出しを制御するワーカー機能141−1〜141−nとを有している。また、物理的なスイッチ群として、構成管理機能131−1,131−2及び監視機能132−1,132−2を具備するスイッチ130−1,130−2を有している。
このような大規模分散ファイルシステム120に対して、論理管理装置111は、論理的なファイル管理機能112によって大規模分散ファイルシステム120の論理的な大容量ファイル123a〜123zを管理し、また、物理管理装置113は、物理的なディスク管理機能115によってサーバマシン140−1〜140n個々の物理的なディスク142−1〜142−nを管理するとともに、ネットワーク管理機能114によってスイッチ130−1,130−2を含むネットワークを管理している(例えば、非特許文献1参照)。
図18は、図17に示した管理装置にて管理される情報を示す図であり、(a)は論理管理装置111にて管理される情報を示す図、(b)は物理管理装置113にて管理される情報を示す図である。
図18に示すように、論理管理装置111においては、論理的なファイル管理として、ファイルの容量や作成日、利用者等を管理しており、物理管理装置113においては、物理的なディスク管理として、ディスクの使用容量や空き容量等を管理している(例えば、非特許文献2,3参照)。
The Google File System (S.Ghemawat, 他), 19th ACM Symposium on Operating Systems Principles, October, 2003. http://labs.google.com/papers/gfs.html HadoopのWebUI, Hadoop徹底入門, 太田他, 翔泳社,pp.287-292, 2011年 HUE(Hadoop User Experience): a Web UI for Hadoop, cloudera社, by bc, July 19, 2010 http://www.cloudera.com/blog/2010/07/whats-new-in-cdh3b2-hue/, 2011年3月ブラウズ
しかしながら、上述したように論理的な大容量ファイルの情報は物理的なディスクに格納されているが、その対応関係は、論理管理装置でも物理管理装置でも分からない。そのため、故障の切り分けや影響範囲の特定、増減設の計画等の構成管理が困難であるという問題点がある。
図19は、図17に示したネットワーク構成における問題点の一例を説明するための図である。
図19に示すように、例えば、論理的な大容量ファイル123aの情報A1〜Axが、物理的なディスク142−1,142−3,142−nに書き込まれているとする。このとき、情報A2が書き込まれた物理的なディスク142−3を有するサーバマシン140−3に故障が生じたとしても、その故障が論理的な大容量ファイル123aに影響があるか判定することは容易ではない。
ここで、UNIXシステムで利用される分散ファイル共有システムとしてNFS(Network File System)がある。NFSを使うと、離れた場所にあるコンピュータのファイルを、あたかも自分のコンピュータにあるファイルのように操作することができるが、複数のサーバマシンの物理ディスクを論理的な大容量ファイルとして提供するものではないので、NFSの管理装置・方法で生じていなかった課題である。
図20は、図17に示したネットワーク構成における問題点の他の例を説明するための図である。
図20に示すように、例えば、論理的な大容量ファイル123aの情報A1〜Axが、物理的なディスク142−1,142−3,142−nに書き込まれており、物理的なスイッチ130−1の配下に複数のサーバマシン140−1,140−3,140−nが接続しているとする。このとき、スイッチ130−1に故障が生じると、サーバマシン140−1,140−3,140−nに接続できなくなり、結果的に論理的な大容量ファイル123aにも接続できなくなるが、その判定は容易ではない。
本発明は、上述したような従来の技術が有する問題点に鑑みてなされたものであって、大容量ファイルが分散して複数のサーバマシンに書き込まれたシステムにおいて、システム全体の障害管理や構成管理を容易に実現でき、システムの故障の切り分けや、影響範囲の特定、増減設の計画等を容易に行うことができる、分散ファイル管理装置、分散ファイル管理方法及びプログラムを提供することを目的とする。
上記目的を達成するために本発明は、
大容量ファイルを論理的に構成、制御するマスター機能と、前記大容量ファイルが分散したデータを書き込まれた複数のサーバマシン毎に、当該サーバマシンへのデータの物理的な書き込み/読み出しを制御するワーカー機能とを有するネットワークにて、前記大容量ファイルと該大容量ファイルが分散したデータとを管理する分散ファイル管理装置であって、
大容量ファイルについての管理情報を前記マスター機能から取得する論理管理情報取得部と、
前記複数のサーバマシンに書き込まれたデータについての管理情報を前記ワーカー機能から取得する物理管理情報取得部と、
指定された設定に基づいて、前記論理管理情報取得部にて取得された大容量ファイルについての管理情報と、前記物理管理情報取得部にて取得されたデータについての管理情報とを対応づけて論理物理情報として記憶する論理物理管理部とを有する。
また、大容量ファイルを論理的に構成、制御するマスター機能と、前記大容量ファイルが分散したデータを書き込まれた複数のサーバマシン毎に、当該サーバマシンへのデータの物理的な書き込み/読み出しを制御するワーカー機能とを有するネットワークにて、前記大容量ファイルと該大容量ファイルが分散したデータとを管理する分散ファイル管理方法であって、
大容量ファイルについての管理情報を前記マスター機能から取得する論理管理情報取得処理と、
前記複数のサーバマシンに書き込まれたデータについての管理情報を前記ワーカー機能から取得する物理管理情報取得処理と、
指定された設定に基づいて、前記論理管理情報取得処理にて取得された大容量ファイルについての管理情報と、前記物理管理情報取得処理にて取得されたデータについての管理情報とを対応づけて論理物理情報として記憶する論理物理管理処理とを有する。
また、大容量ファイルを論理的に構成、制御するマスター機能と、前記大容量ファイルが分散したデータを書き込まれた複数のサーバマシン毎に、当該サーバマシンへのデータの物理的な書き込み/読み出しを制御するワーカー機能とを有するネットワークにて、前記大容量ファイルと該大容量ファイルが分散したデータとを管理するコンピュータに実行させるためのプログラムであって、
大容量ファイルについての管理情報を前記マスター機能から取得する論理管理情報取得手順と、
前記複数のサーバマシンに書き込まれたデータについての管理情報を前記ワーカー機能から取得する物理管理情報取得手順と、
指定された設定に基づいて、前記論理管理情報取得手順にて取得された大容量ファイルについての管理情報と、前記物理管理情報取得手順にて取得されたデータについての管理情報とを対応づけて論理物理情報として記憶する論理物理管理手順とを実行させる。
本発明は、大容量ファイルを論理的に構成、制御するマスター機能から、大容量ファイルについての管理情報を取得するとともに、大容量ファイルが分散したデータを書き込まれた複数のサーバマシン毎に、当該サーバマシンへのデータの物理的な書き込み/読み出しを制御するワーカー機能から、複数のサーバマシンに書き込まれたデータについての管理情報を取得し、これらの情報を指定された設定に基づいて対応づけて論理物理情報として記憶する構成としたため、大容量ファイルが分散して複数のサーバマシンに書き込まれたシステムにおいて、システム全体の障害管理や構成管理を容易に実現でき、システムの故障の切り分けや、影響範囲の特定、増減設の計画等を容易に行うことができる。
本発明の分散ファイル管理装置が採用されたシステムの実施の一形態を示す図である。 図1に示した管理情報記憶部に記憶された情報を示す図である。 図1に示した分散ファイル管理装置における処理手順の概要動作を示すフローチャートである。 図3に示した設定フェーズの手順を示すフローチャートである。 図3に示した管理情報取得・通知フェーズの手順を示すフローチャートである。 図1に示した分散ファイル管理装置における処理手順の具体例を示す図であり、(a)は通常時の処理手順を示す図、(b)はサーバマシンの故障時の処理手順を示す図である。 図1に示した分散ファイル管理装置における処理手順の具体例を示す図であり、(a)は通常時の処理手順を示す図、(b)はサーバマシンの故障時の処理手順を示す図である。 図2に示した論理物理管理情報の一例を示す図である。 図1に示したサーバマシンがダウンした際の論理物理管理情報の一例を示す図である。 故障したサーバマシンが回復した際の論理物理管理情報の一例を示す図である。 図2に示した論理物理管理情報の一例を示す図である。 図2に示した論理物理管理情報の一例を示す図である。 図1に示した大規模分散ファイルシステムにてチャンクのレプリカの集中が生じた状態を示す図であり、(a)はサーバマシンの故障前の状態を示す図、(b)はサーバマシンの故障後の図12に示した状態を示す図である。 図2に示した論理物理管理情報の一例を示す図である。 図2に示した論理物理管理情報の一例を示す図である。 図1に示した大規模分散ファイルシステムにて仮想サーバを用いた場合の仮想マシンとチャンクのレプリカ配置を示す図であり、(a)は仮想マシンの故障前の状態を示す図、(b)は仮想マシンの故障後の図15に示した状態を示す図である。 大規模分散ファイルシステムと従来の管理装置の一例を示す図である。 図17に示した管理装置にて管理される情報を示す図であり、(a)は論理管理装置にて管理される情報を示す図、(b)は物理管理装置にて管理される情報を示す図である。 図17に示したネットワーク構成における問題点の一例を説明するための図である。 図17に示したネットワーク構成における問題点の他の例を説明するための図である。
以下に、本発明の実施の形態について図面を参照して説明する。
図1は、本発明の分散ファイル管理装置が採用されたシステムの実施の一形態を示す図である。
本形態は図1に示すように、大規模分散ファイルシステム20を分散ファイル管理装置10によって管理するものである。大規模分散ファイルシステム20は、特定のマシン21に設けられ、大容量ファイル23a〜23zを論理的に構成、制御するマスター機能22と、大容量ファイル23a〜23zが分散したデータを書き込まれた複数のサーバマシン40−1〜40n毎に、そのサーバマシン40−1〜40nの物理的なディスク42−1〜42−nへの書き込み/読み出しを制御するワーカー機能41−1〜41−nとを有している。また、物理的なスイッチ群として、構成管理機能31−1,31−2及び監視機能32−1,32−2を具備するスイッチ30−1,30−2を有している。
分散ファイル管理装置10は、論理管理情報取得部11と、物理管理情報取得部12と、論理物理管理部13とから構成されている。
論理管理情報取得部11は、大容量ファイル23a〜23zについての管理情報をマスター機能22から取得する。
物理管理情報取得部12は、複数のサーバマシン40−1〜40−nに書き込まれたデータについての管理情報をワーカー機能41−1〜41−nから取得する。
論理物理管理部13は、指定された設定情報に基づいて、論理管理情報取得部11にて取得された大容量ファイル23a〜23zについての管理情報と、物理管理情報取得部12にて取得されたデータについての管理情報とを対応づけて論理物理情報として記憶するものであって、論理物理管理情報対応付け部14と、通知閾値判定部15と、管理情報記憶部16と、制御部17と、ユーザ通知部となるユーザインタフェース部18とから構成されている。
論理物理対応付け部14は、論理管理情報取得部11にて取得された大容量ファイル23a〜23zについての管理情報と、物理管理情報取得部12にて取得されたデータについての管理情報とを対応づけて論理物理情報として管理情報記憶部16に記憶する。
通知閾値判定部15は、物理管理情報取得部12にて取得されたデータについての管理情報に基づいて、大規模分散ファイルシステム20の各種状態が通知すべき状態かどうか、すなわち、管理情報が予め決められた条件を満たしているかどうかを判定する。
ユーザインタフェース部18は、通知閾値判定部15にて、大規模分散ファイルシステム20の各種状態が通知すべき状態であると判定された場合にその旨をユーザに通知したり、上述した管理情報の対応付けや閾値の設定のためのGUIやCUIを提供したりする。
制御部17は、管理情報記憶部16に対する各種設定の入力、削除、変更を行うとともに、各種設定を参照しつつ、上述した管理情報の取得、対応付け、通知判定を制御する。
図2は、図1に示した管理情報記憶部16に記憶された情報を示す図である。
図1に示した管理情報記憶部16は図2に示すように、論理管理情報取得部11にて取得された論理管理情報52と、論理管理情報52を取得するために必要な論理管理情報取得設定51と、物理管理情報取得部12にて取得された物理管理情報54と、物理管理情報54を取得するために必要な物理管理情報取得設定53と、論理物理管理情報対応付け部14にて対応付けられた論理物理管理情報56と、論理物理管理情報56を対応付けるために必要な論理物理管理情報対応付け設定55と、通知のための閾値設定57とにより構成される。なお、論理管理情報52とは、論理的な大容量ファイル23a〜23zについての情報であって、ファイル名や使用容量等である。また、物理管理情報54とは、サーバマシン40−1〜40−nの名称や物理的なディスク42−1〜42−nの名称や使用容量、状態、さらには、個々のスイッチ30−1,30−2等の物理構成やネットワークの利用状況に関する情報である。
上記のように構成された分散ファイル管理装置10を用いて大容量ファイルの分散ファイル管理を行う場合は、オペレータは予め、ユーザインタフェース部18を介して、論理管理情報取得設定51と、物理管理情報取得設定53と、論理物理対応付け設定55と、通知のための通知閾値57とを設定する。
ここで、論理管理情報取得設定51とは、論理管理情報52を取得するために必要な情報であり、例えば、大規模分散ファイルシステム20のマスター機能22に接続するため、マスター機能22が稼動しているマシン21のIPアドレスやマスター機能22から必要な情報を取り出すための設定等である。例えば、取得のタイミングや具体的な取得方法(問い合わせによる取得やイベントによる通知、マスター機能22がエージェント機能を有していれば、当該機能による定期的な報告等)を設定する。
また、物理管理情報取得設定53とは、物理管理情報54を取得するために必要な情報であり、例えば、ワーカー機能41−1〜41−nが稼動している個々のサーバマシン40−1〜40−nやスイッチ30−1,30−2のIPアドレスや必要な情報を取り出すための設定等である。例えば、取得のタイミングや具体的な取得方法(問い合わせによる取得やイベントによる通知、ワーカー機能41−1〜41−nがエージェント機能を有していれば、当該機能による定期的な報告等)を設定する。
また、論理物理管理情報対応付け設定55とは、論理管理情報52と物理管理情報54とを対応付けるための設定である。例えば、個々のサーバマシン40−1〜40−nのIPアドレスや、大容量ファイル23a〜23zのチャンクID等が対応付けるためのキーとなる。
また、オペレータは、ユーザインタフェース部18を介して、大規模分散ファイルシステム20の状態について通知を受けるための通知閾値57を設定する。例えば、故障したレプリカの数、マシンの数や特定のファイルの破損等を通知閾値57として設定する。これにより、オペレータは、その後、大規模分散ファイルシステム20の状態と通知閾値57とに基づいた通知をユーザインタフェース部18を介して受け取る。
このような設定が行われた後、論理管理情報取得部11は、予め設定されている論理管理情報取得設定51を参照し、大規模分散ファイルシステム20のマスター機能22に問い合せることで、論理管理情報52を取得する。取得される論理管理情報52としては、大規模分散ファイルシステム20における論理的な大容量ファイル23a,23bに関する情報であり、例えば、ファイル名、ファイルの容量、最終更新日等がある。
また、物理管理情報取得部12は、予め設定されている物理管理情報取得設定53を参照し、ワーカー機能41−1〜41−nが稼動しているサーバマシン40−1〜40−n及び各スイッチ30−1,30−2の構成管理機能31−1,31−2と監視機能32−1,32−2に問い合せることで、物理管理情報54を取得する。取得される物理管理情報54としては、大規模分散ファイルシステム20を構成する個々のサーバマシン40−1〜40−nとネットワークの利用状況であり、例えば、サーバマシン40−1〜40−nの名称、CPU使用率、物理的なディスク42−1〜42−nの名称、ディスク使用量、メモリ使用量等と個々のスイッチ等の物理構成、トラフィック量、パケットロス等がある。
そして、論理物理管理情報対応付け部14は、予め設定されている論理物理管理情報対応付け設定55を参照し、論理管理情報52と物理管理情報54との対応付けを行い、論理物理管理情報56を作成する。
また、通知閾値判定部15は、予め設定されている通知閾値57に基づき、大規模分散ファイルシステム20の状態を確認し、オペレータに対して通知をすべき状態かの判定を行う。
以下に、上述した分散ファイル管理装置10における処理手順について説明する。
図3は、図1に示した分散ファイル管理装置10における処理手順の概要動作を示すフローチャートである。
図1に示した分散ファイル管理装置10を起動すると(ステップ1)、まず、設定フェーズにおける処理が行われ(ステップ2)、次に、管理情報取得・通知フェーズにおける処理が行われる(ステップ3)。
その後、設定変更を行う場合は、ステップ2の設定フェーズに戻る(ステップ4)。
また、処理が終了した場合(ステップ5)、分散ファイル管理装置10を停止させる(ステップ6)。
図4は、図3に示した設定フェーズの手順を示すフローチャートである。
設定フェーズでは、論理管理情報52を取得するために必要な情報がユーザインタフェース部18を介して入力されることにより、論理管理情報取得設定51を設定する(ステップ21)。
また、物理管理情報54を取得するために必要な情報がユーザインタフェース部18を介して入力されることにより、物理管理情報取得設定53を設定する(ステップ22)。
また、論理管理情報52と物理管理情報54とを対応付けるための設定がユーザインタフェース部18を介して入力されることにより、論理物理管理情報対応付け設定55を設定する(ステップ23)。例えば、個々のサーバマシン40−1〜40−nのIPアドレスや、大容量ファイル23a〜23zのチャンクID等が対応付けるためのキーとし、大容量ファイル23a〜23zのチャンクIDによって識別されるデータがどのサーバマシン40−1〜40−nに分散されるかを設定する。
また、大規模分散ファイルシステム20の状態について通知を受けるための情報がユーザインタフェース部18を介して入力されることにより通知閾値57を設定する。
なお、これらの処理は、オペレータがユーザインタフェース部18を介して情報を入力して設定する代わりに、大規模分散ファイルシステム20のマスター機能22やワーカー機能41−1〜41−nが、それぞれの管理情報を返却する機構を有していれば、その機能を利用して自動的に設定しても良い。
図5は、図3に示した管理情報取得・通知フェーズの手順を示すフローチャートである。
管理情報取得・通知フェーズでは、まず、論理管理情報取得部11にて論理管理情報を取得する(ステップ31)。取得に必要な設定については、予め設定フェーズで設定した管理情報記憶部16内の論理管理情報取得設定51(マスター機能22が稼働しているマシン20のIPアドレス、取得方法やタイミング等)を参照する。取得方法は、マスター機能22に問い合せて結果を取得する方法や、マスター機能22からのイベント通知を取得する方法、また、マスター機能22がエージェント機能を有していれば、その機能による定期的な報告等がある。
そして、取得した論理管理情報を管理情報記憶部16に書き込む(ステップ32)。
同様に、物理管理情報取得部12にて物理管理情報を取得する(ステップ33)。取得に必要な設定については、予め設定フェーズで設定した管理情報記憶部16内の物理管理情報取得設定53(ワーカー機能41−1〜41−nが稼働しているサーバマシン40−1〜40−nのIPアドレス、取得方法やタイミング等)を参照する。取得方法は、ワーカー機能41−1〜41−nに問い合せて結果を取得する方法や、ワーカー機能41−1〜41−nからのイベント通知を取得する方法、また、ワーカー機能41−1〜41−nがエージェント機能を有していれば、その機能による定期的な報告等がある。例えば、故障の通知にはイベント通知やエージェント機能が向いている。
そして、取得した物理管理情報を管理情報記憶部16に書き込む(ステップ34)。
続いて、管理情報記憶部16に書き込まれた論理管理情報52と物理管理情報54との対応付けを行う(ステップ35)。対応付けに必要な設定については、管理情報記憶部16内の論理物理管理情報対応付け設定55を参照する。例えば、上述したように、論理物理管理情報対応付け設定55において、個々のサーバマシン40−1〜40−nのIPアドレスや、大容量ファイル23a〜23zのチャンクID等が対応付けるためのキーとし、大容量ファイル23a〜23zのチャンクIDによって識別されるデータがどのサーバマシン40−1〜40−nに分散されるかが設定されている場合は、これらをキーとして、大容量ファイル23a〜23zについての論理管理情報と、この大容量ファイル23a,23bの分散データが実際に書き込まれたサーバマシン40−1〜40−nの物理管理情報とを対応付ける。
そして、対応付けた論理物理管理情報を管理情報記憶部16に書き込む(ステップ36)。
その後、通知閾値判定部15において、管理情報記憶部16に書き込まれた論理管理情報52、物理管理情報54及び論理物理管理情報56と、通知閾値57とに基づいて、通知を行うかどうかを判定し(ステップ37)、通知が必要であれば、ユーザインタフェース部18を介して、オペレータに大規模分散ファイルシステム20の状態を通知する(ステップ38)。
ここで、上述した処理を具体的に説明する。
図6は、図1に示した分散ファイル管理装置10における処理手順の具体例を示す図であり、(a)は通常時の処理手順を示す図、(b)はサーバマシンの故障時の処理手順を示す図である。
通常時は、論理管理情報取得部11において、論理的な大容量ファイル23a〜23zについての管理情報をマスター機能22に問い合せて取得し(ステップ41)、また、物理管理情報取得部12において、個々のサーバマシン40−1〜40−nの物理的なディスク42−1〜42−nについての管理情報を、サーバマシン40−1〜40−n個々のワーカー機能41−1〜41−nに問い合せて取得する(ステップ42)。
そして、論理物理管理部13において、取得した論理管理情報と物理管理情報を対応付けて管理情報記憶部16に書き込む(ステップ43)。この処理を、常時、最新状態の情報を管理できるように繰り返す。マスター機能22やワーカー機能41−1〜41−nからの各管理情報の取得については、予め設定した取得のタイミングや取得方法(問い合わせによる取得やイベントによる通知、エージェント機能による定期的な報告等)に基づいて、制御部17が制御する。
故障時は、論理管理情報取得部11において、論理的な大容量ファイル23a〜23zについての管理情報を取得し(ステップ44)、また、故障が生じたサーバマシンのワーカー機能からの故障通知を物理管理情報として取得すると(ステップ45)、管理情報記憶部16の内容を読み出し、通知閾値判定部15において、通知閾値57に基づいて故障通知を行うかどうかを判定し(ステップ46)、ユーザインタフェース部18を介してオペレータに対して故障を通知する(ステップ47)。
図7は、図1に示した分散ファイル管理装置10における処理手順の具体例を示す図であり、(a)は通常時の処理手順を示す図、(b)はサーバマシンの故障時の処理手順を示す図である。
通常時は、論理管理情報取得部11において、論理的な大容量ファイル23a〜23zについての管理情報をマスター機能22に問い合せて取得し(ステップ51)、また、物理管理情報取得部12において、個々のサーバマシン40−1〜40−nの物理的なディスク42−1〜42−nについての管理情報を、サーバマシン40−1〜40−n個々のワーカー機能41−1〜41−nに問い合せて取得するとともに、ネットワークの管理情報について、個々のスイッチ30−1,30−2の構成管理機能31−1,31−2や監視機能32−1,32−2に問い合せて取得する(ステップ52)。
そして、論理物理管理部13において、取得した論理管理情報と物理管理情報を対応付けて、時刻印とともに管理情報記憶部16に書き込む(ステップ53)。この処理を、常時、最新状態の情報及び過去の情報を管理できるように繰り返す。マスター機能22やワーカー機能41−1〜41−nからの各管理情報の取得については、予め設定した取得のタイミングや取得方法(問い合わせによる取得やイベントによる通知、エージェント機能による定期的な報告等)に基づいて、制御部17が制御する。
故障時は、論理管理情報取得部11において、論理的な大容量ファイル23a〜23zについての管理情報を取得し(ステップ54)、また、故障が生じたスイッチの監視機能からの故障通知を物理管理情報として取得すると(ステップ55)、管理情報記憶部16の内容を読み出し、通知閾値判定部15において、通知閾値57に基づいて故障通知を行うかどうかを判定し(ステップ56)、ユーザインタフェース部18を介してオペレータに対して故障を通知する(ステップ57)。
以下に、上述した処理手順の詳細を、管理情報記憶部16内の論理管理情報52、物理管理情報53及び論理物理管理情報56の例を用いて具体的に説明する。
図8は、図2に示した論理物理管理情報56の一例を示す図である。
大規模分散ファイルシステム20として、図8に示すように、論理的な大容量ファイルが特定の大きさ(例えば、64MByte)を1つのブロックとする複数のチャンクに分割され、個々のチャンクが、通常3つのサーバマシンの物理ディスクにコピーされて保管されているとする。本形態では、分散ファイル管理装置10の論理物理管理部13が、どのファイルがいくつのチャンクで構成されるか、どのサーバマシンがどのチャンクのコピー(レプリカと称する)を持っているか、等の情報を管理情報記憶部16で管理する。
図9は、図1に示したサーバマシンがダウンした際の論理物理管理情報56の一例を示す図である。
通常の運用時は、論理的な大容量ファイル−aを構成する各チャンクのレプリカが3つ、正常状態(up)である。そして、図9に示すように、あるサーバマシン―3の物理的なディスク−×3が故障(down)したとする。
すると、サーバマシン−3のワーカー機能は、分散ファイル管理装置10に対して、物理的なディスクの故障を通知する。分散ファイル管理装置10の論理物理管理部13は、論理物理管理情報56(レプリカの管理)より、対応する論理的な大容量ファイル−aを特定し、ユーザインタフェース部18を介してオペレータに対して故障の旨を通知する。なお、論理物理管理部13においては、通知閾値57により、故障したレプリカの数が所定数以上となった場合にオペレータに通知することや、故障したレプリカの数(例えば、3つのレプリカのうち、2つが故障)等に応じて、オペレータへの故障通知の内容を変えることもできる。例えば、信号表示の色を青・黄・赤と変えたり、重要なお客さまの論理的な大容量ファイルのレプリカが1つになったらアラームを上げたりする等が考えられる。
図10は、故障したサーバマシンが回復した際の論理物理管理情報56の一例を示す図である。
上述した故障に対して、サーバマシンや物理的なディスクの交換や、大規模分散ファイルシステム自体のレプリカの再配置処理により、リカバリが完了したとする(本例では、サーバマシン−35の物理ディスク−×23にレプリカがコピーされ、状態がrecoveryになったとする)。
すると、リカバリが完了したサーバマシンのワーカー機能は、分散ファイル管理装置10に対して、物理的なディスクの復旧を通知する。分散ファイル管理装置10の論理物理管理部13は、論理物理管理情報56(レプリカの管理)より、対応する論理的な大容量ファイルを特定し(本例は、論理的な大容量ファイル−a)、ユーザインタフェース部18を介してオペレータに対して復旧の旨を通知する。
図11は、図2に示した論理物理管理情報56の一例を示す図である。
本例においては、図11に示すように、論理物理管理情報56として、物理サーバ、物理ディスク等と、論理的な大容量ファイル、チャンク等との対応を管理する。この論理物理管理情報56により、大規模分散ファイルシステム10を構成する多数のサーバマシンについて、サーバマシン毎に、論理的な大容量ファイルの持ち分や、使用容量の片寄り(本例では、サーバマシン−1に対してサーバマシン−2の物理ディスクの使用に片寄り)等を管理することができる。
図12は、図2に示した論理物理管理情報56の一例を示す図である。
本例においては、図12に示すように、論理物理管理情報56として、スイッチ、物理サーバ等と、論理的な大容量ファイル、チャンク等との対応を管理する。この論理物理管理情報56により、スイッチが故障した際に接続できなくなるチャンクが存在するか否かが判定可能となる。
図13は、図1に示した大規模分散ファイルシステム20にてチャンクのレプリカの集中が生じた状態を示す図であり、(a)はサーバマシンの故障前の状態を示す図、(b)はサーバマシンの故障後の図12に示した状態を示す図である。
大規模分散ファイルシステムにおいては、通常は、スイッチの故障に対する耐故障性を高めるため、チャンクのレプリカが異なるスイッチ配下に配置される配置戦略をとることが一般的である。ただし、図13(a)に示す大規模分散ファイルシステム20にてサーバマシン4に故障が生じたり、サーバマシン4を交換するために停止したりした場合、リペアが発生し、図13(b)に示すように、1つのスイッチ−1の配下に、あるチャンクのレプリカが全て集中してしまう可能性がある。そのため、スイッチ−1が故障すると、チャンク1を取得できなくなってしまう。
そこで、本形態のような構成とすることにより、1つのスイッチの配下にあるチャンクのレプリカが全て集中してしまうことを回避することができる。
図14は、図2に示した論理物理管理情報56の一例を示す図である。
本例においては、図14に示すように、論理物理管理情報56として、スイッチ、トラフィック、物理サーバ、物理ディスクとそのアクセス履歴等と、論理的な大容量ファイル、チャンクとそのアクセス履歴等との対応を管理する。この論理物理管理情報56により、物理的なトラフィックやアクセス履歴と論理的なアクセス履歴とを統合的に監視すること可能となり、増減設の計画などの構成管理が容易となる。
図15は、図2に示した論理物理管理情報56の一例を示す図である。
本例においては、図15に示すように、論理物理管理情報56として、物理マシン、仮想マシンと、論理的な大容量ファイル、チャンク等との対応を管理する。本例は、図12及び図13における説明において、スイッチと当該スイッチに接続する物理サーバの管理を行うと同様に、物理マシンと当該物理マシンで動作する仮想マシンの管理を行うことで実現されるシステムの管理方法である。この論理物理管理情報56により、物理マシンが故障した際に接続できなくなるチャンクが存在するか否かが判定可能となる。
図16は、図1に示した大規模分散ファイルシステム20にて仮想サーバを用いた場合の仮想マシンとチャンクのレプリカ配置を示す図であり、(a)は仮想マシンの故障前の状態を示す図、(b)は仮想マシンの故障後の図15に示した状態を示す図である。
大規模分散ファイルシステムにおいては、通常は、サーバの故障に対するシステムとしての耐故障性を高めるため、チャンクのレプリカが異なるサーバ配下に配置される配置戦略をとることが一般的である。ただし、図16(a)に示す大規模分散ファイルシステム20にて仮想マシン−4に故障が生じたり、仮想マシン−4を交換するために停止したりした場合、リペアが発生し、図16(b)に示すように、特定のマシン−1の配下に、あるチャンクのレプリカが全て集中してしまう可能性がある。そのため、故障発生時の処理で、同一物理マシンにチャンクを配置した場合、すなわち、仮想マシン−4で管理していたチャンク1を仮想マシン−2に配置した場合、マシン−1が故障するとチャンク1を取得できなくなってしまう。
そこで、本形態のように、物理マシンと仮想マシンの対応を論理物理管理情報56として管理しておけば、この論理物理管理情報56から同一物理マシンにチャンク1が偏ることが分かるので、別の物理マシンの配下の仮想マシンにチャンク1を配置する判断が可能になる。
このように、本形態においては、故障時にデータ(論理情報)が失われてしまう可能性の高い箇所(物理情報)の検出やトラフィックが集中している箇所(論理・物理)の検出が容易となる。
10 分散ファイル管理装置
11 論理管理情報取得部
12 物理管理情報取得部
13 論理物理管理部
14 論理物理管理情報対応付け部
15 通知閾値判定部
16 管理情報記憶部
17 制御部
18 ユーザインタフェース部
20 大規模分散ファイルシステム
21 マシン
22 マスター機能
23a,23b 論理的な大容量ファイル
30−1,30−2 スイッチ
31−1,31−2 構成管理機能
32−1,32−2 監視機能
40−1〜40−n サーバマシン
41−1〜41−n ワーカー機能
42−1〜42−n 物理的なディスク
51 論理管理情報取得設定
52 論理管理情報
53 物理管理情報取得設定
54 物理管理情報
55 論理物理管理情報対応付け設定
56 論理物理管理情報
57 通知閾値

Claims (8)

  1. 大容量ファイルを論理的に構成、制御するマスター機能と、前記大容量ファイルが分散したデータを書き込まれた複数のサーバマシン毎に、当該サーバマシンへのデータの物理的な書き込み/読み出しを制御するワーカー機能とを有するネットワークにて、前記大容量ファイルと該大容量ファイルが分散したデータとを管理する分散ファイル管理装置であって、
    大容量ファイルについての管理情報を前記マスター機能から取得する論理管理情報取得部と、
    前記複数のサーバマシンに書き込まれたデータについての管理情報を前記ワーカー機能から取得する物理管理情報取得部と、
    指定された設定に基づいて、前記論理管理情報取得部にて取得された大容量ファイルについての管理情報と、前記物理管理情報取得部にて取得されたデータについての管理情報とを対応づけて論理物理情報として記憶する論理物理管理部とを有する分散ファイル管理装置。
  2. 請求項1に記載の分散ファイル管理装置において、
    前記論理物理管理部は、
    前記物理管理情報取得部にて取得されたデータについての管理情報が予め決められた条件を満たしているかどうかを判定する通知閾値判定部と、
    前記通知閾値判定部にて、前記物理管理情報取得部にて取得されたデータについての管理情報が前記条件を満たしていると判定された場合に、その旨をユーザに通知するユーザ通知部とを有する分散ファイル管理装置。
  3. 請求項2に記載の分散ファイル管理装置において、
    前記ユーザ通知部は、前記条件を満たしていると判定された管理情報に対応づけられた大容量ファイルについての管理情報をユーザに通知する分散ファイル管理装置。
  4. 請求項1乃至3のいずれか1項に記載の分散ファイル管理装置において、
    前記物理管理情報取得部は、前記サーバマシンが接続されたネットワークについての管理情報を取得し、
    前記論理物理管理部は、指定された設定に基づいて、前記論理管理情報取得部にて取得された大容量ファイルについての管理情報と、前記物理管理情報取得部にて取得されたデータについての管理情報及びネットワークについての管理情報とを対応づけて論理物理情報として記憶する分散ファイル管理装置。
  5. 大容量ファイルを論理的に構成、制御するマスター機能と、前記大容量ファイルが分散したデータを書き込まれた複数のサーバマシン毎に、当該サーバマシンへのデータの物理的な書き込み/読み出しを制御するワーカー機能とを有するネットワークにて、前記大容量ファイルと該大容量ファイルが分散したデータとを管理する分散ファイル管理方法であって、
    大容量ファイルについての管理情報を前記マスター機能から取得する論理管理情報取得処理と、
    前記複数のサーバマシンに書き込まれたデータについての管理情報を前記ワーカー機能から取得する物理管理情報取得処理と、
    指定された設定に基づいて、前記論理管理情報取得処理にて取得された大容量ファイルについての管理情報と、前記物理管理情報取得処理にて取得されたデータについての管理情報とを対応づけて論理物理情報として記憶する論理物理管理処理とを有する分散ファイル管理方法。
  6. 請求項5に記載の分散ファイル管理方法において、
    前記物理管理情報取得処理にて取得されたデータについての管理情報が予め決められた条件を満たしているかどうかを判定する通知閾値判定処理と、
    前記通知閾値判定処理にて、前記物理管理情報取得処理にて取得されたデータについての管理情報が前記条件を満たしていると判定された場合に、その旨をユーザに通知するユーザ通知処理とを有する分散ファイル管理方法。
  7. 大容量ファイルを論理的に構成、制御するマスター機能と、前記大容量ファイルが分散したデータを書き込まれた複数のサーバマシン毎に、当該サーバマシンへのデータの物理的な書き込み/読み出しを制御するワーカー機能とを有するネットワークにて、前記大容量ファイルと該大容量ファイルが分散したデータとを管理するコンピュータに、
    大容量ファイルについての管理情報を前記マスター機能から取得する論理管理情報取得手順と、
    前記複数のサーバマシンに書き込まれたデータについての管理情報を前記ワーカー機能から取得する物理管理情報取得手順と、
    指定された設定に基づいて、前記論理管理情報取得手順にて取得された大容量ファイルについての管理情報と、前記物理管理情報取得手順にて取得されたデータについての管理情報とを対応づけて論理物理情報として記憶する論理物理管理手順とを実行させるプログラム。
  8. 請求項7に記載のプログラムにおいて、
    前記コンピュータに、
    前記物理管理情報取得手順にて取得されたデータについての管理情報が予め決められた条件を満たしているかどうかを判定する通知閾値判定手順と、
    前記通知閾値判定手順にて、前記物理管理情報取得手順にて取得されたデータについての管理情報が前記条件を満たしていると判定された場合に、その旨をユーザに通知するユーザ通知手順とを実行させるプログラム。
JP2011162970A 2011-07-26 2011-07-26 分散ファイル管理装置、分散ファイル管理方法及びプログラム Pending JP2013025742A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011162970A JP2013025742A (ja) 2011-07-26 2011-07-26 分散ファイル管理装置、分散ファイル管理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011162970A JP2013025742A (ja) 2011-07-26 2011-07-26 分散ファイル管理装置、分散ファイル管理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2013025742A true JP2013025742A (ja) 2013-02-04

Family

ID=47783976

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011162970A Pending JP2013025742A (ja) 2011-07-26 2011-07-26 分散ファイル管理装置、分散ファイル管理方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2013025742A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105765554A (zh) * 2013-12-05 2016-07-13 谷歌公司 在分布式存储系统上分发数据
JP2017500670A (ja) * 2013-12-27 2017-01-05 グーグル インコーポレイテッド 分散ストレージシステムにおけるオブジェクトの階層チャンキング
JP2018525705A (ja) * 2016-07-22 2018-09-06 平安科技(深▲せん▼)有限公司 仮想マシン性能を向上させる方法、端末、装置及びコンピュータ可読記憶媒体

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108420A (ja) * 2001-09-27 2003-04-11 Hitachi Ltd データストレージシステム及びこの制御方法
JP2004013454A (ja) * 2002-06-06 2004-01-15 Hitachi Ltd データマッピング管理装置
JP2007328727A (ja) * 2006-06-09 2007-12-20 Hitachi Ltd 分散ファイル管理方法及び情報処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003108420A (ja) * 2001-09-27 2003-04-11 Hitachi Ltd データストレージシステム及びこの制御方法
JP2004013454A (ja) * 2002-06-06 2004-01-15 Hitachi Ltd データマッピング管理装置
JP2007328727A (ja) * 2006-06-09 2007-12-20 Hitachi Ltd 分散ファイル管理方法及び情報処理装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105765554A (zh) * 2013-12-05 2016-07-13 谷歌公司 在分布式存储系统上分发数据
CN105765554B (zh) * 2013-12-05 2019-01-08 谷歌有限责任公司 在分布式存储系统上分发数据
JP2017500670A (ja) * 2013-12-27 2017-01-05 グーグル インコーポレイテッド 分散ストレージシステムにおけるオブジェクトの階層チャンキング
JP2018525705A (ja) * 2016-07-22 2018-09-06 平安科技(深▲せん▼)有限公司 仮想マシン性能を向上させる方法、端末、装置及びコンピュータ可読記憶媒体

Similar Documents

Publication Publication Date Title
JP6328432B2 (ja) ゲートウェイ装置、ファイルサーバシステム及びファイル分散方法
CN104715001B (zh) 用于对数据处理系统的集群中的共享资源执行写入操作的方法和系统
CN111031096B (zh) 一种基于拟态防御的分布式存储系统构建方法
JP5060485B2 (ja) 複製データの可用性及び最新性を検証するための方法及びシステム。
US10146636B1 (en) Disaster recovery rehearsals
CN109815049A (zh) 节点宕机恢复方法、装置、电子设备及存储介质
US9361592B2 (en) Automated defect and optimization discovery
JP4327831B2 (ja) ストレージシステム、管理計算機及びコピーペア監視方法
US10747776B2 (en) Replication control using eventually consistent meta-data
TW201306632A (zh) 用於服務之回復服務位置
JP4596889B2 (ja) ストレージシステムの管理方法
KR20140038450A (ko) 복구 서비스의 자동 구성 기법
EP3535955B1 (en) Systems, devices and methods for managing file system replication
CN106657167A (zh) 管理服务器、服务器集群、以及管理方法
JP5405530B2 (ja) 分散データストアシステムおよび障害復旧方法
JP5969315B2 (ja) データ移行処理システムおよびデータ移行処理方法
US10417255B2 (en) Metadata reconciliation
JP2013025742A (ja) 分散ファイル管理装置、分散ファイル管理方法及びプログラム
CN105550230B (zh) 分布式存储系统节点故障的侦测方法和装置
US11057264B1 (en) Discovery and configuration of disaster recovery information
US11079960B2 (en) Object storage system with priority meta object replication
WO2007094041A1 (ja) サーバ管理装置及びサーバ管理プログラム
JP2009151677A (ja) ストレージ制御装置、ストレージ制御プログラムおよびストレージ制御方法
US11093465B2 (en) Object storage system with versioned meta objects
US20200401312A1 (en) Object Storage System with Meta Object Replication

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20130305

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130807

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140826

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20141027

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20141031

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20141224