JP2003323328A - 分散ファイルシステム及びそのデータ多重化方法 - Google Patents

分散ファイルシステム及びそのデータ多重化方法

Info

Publication number
JP2003323328A
JP2003323328A JP2002129028A JP2002129028A JP2003323328A JP 2003323328 A JP2003323328 A JP 2003323328A JP 2002129028 A JP2002129028 A JP 2002129028A JP 2002129028 A JP2002129028 A JP 2002129028A JP 2003323328 A JP2003323328 A JP 2003323328A
Authority
JP
Japan
Prior art keywords
area
file
master
data
transferred
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002129028A
Other languages
English (en)
Other versions
JP4148698B2 (ja
Inventor
Hirokuni Yano
浩邦 矢野
Seiji Maeda
誠司 前田
Kiyoko Satou
記代子 佐藤
Nobuo Sakiyama
伸夫 崎山
Takuya Hayashi
拓也 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002129028A priority Critical patent/JP4148698B2/ja
Publication of JP2003323328A publication Critical patent/JP2003323328A/ja
Application granted granted Critical
Publication of JP4148698B2 publication Critical patent/JP4148698B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】マスターファイル及び複製ファイルの多重化の
再の通信量を低減してシステムの性能を向上させる。 【解決手段】マスター領域Mから読み込んだマスターフ
ァイルをキャッシュ領域にキャッシュする(b1)。キ
ャッシュ領域の変更されたデータ部分(塗り潰し部分)
(b2)をマスター領域の対応する部分に転送する(b
3)。これにより、変更されたデータ部分についてはキ
ャッシュ領域とマスター領域とで多重化され、変更され
ていないデータ部分についてはマスター領域と複製領域
とで多重化される。最後に変更されていないデータ部分
をキャッシュ領域に転送して、キャッシュ領域に複製デ
ータを統合して複製領域とする(b4)。複製ファイル
の作成時(b3)には、マスター領域にのみデータを転
送すればよく、多重化に際して通信量を削減することが
できる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の計算機ノー
ドで構成される計算機クラスタシステムに好適な分散フ
ァイルシステム及びそのデータ多重化方法に関する。
【0002】
【従来の技術】従来、複数台のコンピュータを連携して
使用して、1台のコンピュータと同様の使用を可能にす
る計算機クラスタシステムが採用されることがある。計
算機クラスタシステムは、比較的安価なコンピュータを
用いた場合でも、高度な業務処理が可能であり、しか
も、システムの拡張が極めて容易である。
【0003】計算機クラスタシステムでは、複数の独立
した計算機ノードを組み合わせてプログラムを動作させ
る。この場合において、各コンピュータで扱うファイル
を格納する手段としては、大きく分類して、共有ディス
クを使用する場合としない場合の2種類がある。
【0004】共有ディスクを備えない計算機クラスタシ
ステムでは、ファイルを計算機ノード間で分散して保持
する。このようなシステムにおいて、プロセスがどの計
算機ノードで動作していても、全てのファイルへのアク
セスを同様に可能とするために、分散ファイルシステム
が用いられる。
【0005】分散ファイルシステムを使用すると、全て
の計算機ノードの全プロセスが、クラスタシステム内の
計算機ノードに分散して格納されているファイルを一意
に指定することができる。分散ファイルシステムの代表
例としては、AFS(Andrew File Sys
tem)がある。分散ファイルシステムは、ファイルの
実体であるマスターファイルをシステム内のいずれかの
計算機ノード上の記憶装置に格納し、ファイルがどの計
算機ノードに格納されているかという情報をシステム内
のデータベースに登録する。ファイルを使用する場合に
は、システム内のデータベースからマスターファイルが
実際に格納されている計算機ノードを検索し、この検索
結果を利用することで、いずれの計算機ノードにおいて
もマスターファイルの読み出しを可能にしている。
【0006】なお、分散ファイルシステムでは、ファイ
ルアクセスの高速化のために、プロセスが動作している
計算機ノードに作業用のキャッシュファイルを作成し、
ファイル中の参照したことがある領域をキャッシュし
て、以降の読み出しをキャッシュファイルから行うよう
にする手法が採用されることがある。キャッシュファイ
ルを用いたこのような高速化処理においては、ファイル
の内容の更新はキャッシュファイルに対して行い、一定
のタイミングでキャッシュファイルに対する更新をマス
ターファイルに対してまとめて行うようになっている。
【0007】ところで、計算機クラスタシステムには、
大きく2つに分けて、科学技術計算等の高速化を目的と
した計算・解析クラスタシステムと、システムの高信頼
化を目的とした高信頼クラスタシステムとがある。
【0008】高信頼計算機クラスタシステムは、計算機
ノードを複数にすることにより、システムの冗長度を向
上させるものである。即ち、システムを構成する計算機
ノードの一部が故障等の理由によるシステムダウンで使
用不能となった場合でも、計算機クラスタシステムを構
成する他の計算機ノードがシステムダウンした計算機ノ
ードの代替となることで、システム全体を停止させるこ
となく動作の継続を可能にする。
【0009】特に、計算機システムで記憶装置として用
いられることが多いハードディスクは、機械的に稼動す
る部品等を用いていることから、計算機システムを構成
する他の部品と比べて故障する可能性が高い。しかも、
一般的な情報システムにおいては、システム内の情報デ
ータ、つまりファイルの内容は極めて重要で、これを失
うことは避けなくてはならない。
【0010】一般的には、システム内のファイルを保護
するために、ディスクアレイを利用したRedunda
nt Arrays of Inexpensicve
Disks(RAID)という方式が多く採用されて
いる。RAIDはディスクアレイの各ディスクに重複し
てデータを記録するものである。
【0011】これに対し、分散ファイルシステムを用い
た計算機クラスタシステムにおいては、ファイルの実体
であるマスターファイルと同一の内容を持った複製ファ
イルを作成し、マスターファイルが格納されている計算
機ノードとは別の計算機ノードに複製ファイルを格納す
る多重化が採用される。このような高信頼型の分散ファ
イルシステムでは、ファイルに対する更新は、マスター
ファイルに行うと同時に逐一複製ファイルに対しても行
い、ファイルの多重度を維持する。この方法によれば、
マスターファイル及び複製ファイルのいずれか一方が壊
れた場合でも、ファイルの内容を他方から復元すること
ができる。
【0012】このように、高信頼計算機クラスタシステ
ムは、分散ファイルシステムにおいてデータを多重記録
することにより、データ保存の高い信頼性を確保してい
る。なお、このような分散ファイルシステムの一例とし
ては、特開2001−160039号公報等に記載され
たものがある。
【0013】
【発明が解決しようとする課題】ところで、計算機シス
テムにおいて、ファイルアクセスは、頻繁に発生する動
作であり、システム全体の性能のボトルネックになりや
すい項目である。一般的に、計算機ノード間の通信帯域
は単一の計算機内のデバイス間の通信帯域に比べて狭
い。従って、計算機ノード間の通信を伴う処理は、計算
機ノード内で閉じた処理に比べて極めて低速である。こ
のため、ファイルアクセスのたびに発生する計算機ノー
ド間のデータ通信量の多さはシステム全体の性能を低下
させる要因となる。
【0014】ところが、高信頼計算機クラスタシステム
においては、高信頼化した分散ファイルシステムを用い
て、ファイルの冗長度を維持するために、ファイルに対
する更新をマスターファイルと複製ファイルの双方に対
して行う必要があり、計算機ノード間のデータ通信量
は、マスターファイルに対してのみ更新を行う高信頼化
されていない分散ファイルシステムに比較して、2倍以
上の量になってしまい、性能が著しく低下するという問
題点があった。
【0015】本発明は、ファイルの冗長度を損なうこと
なく性能を向上させた高信頼計算機クラスタシステムを
可能にすることができる分散ファイルシステム及び分散
ファイルシステムのデータ多重化方法を提供することを
目的とする。
【0016】
【課題を解決するための手段】本発明に係る分散ファイ
ルシステムは、ネットワークに接続された複数の計算機
ノードに夫々設けられる記憶手段と、自計算機ノードが
有する前記記憶手段にキャッシュ領域を設定し、前記ネ
ットワークを介して他の計算機ノードが有する記憶手段
に設定されているマスター領域からマスターファイルを
読出して、読出した前記マスターファイルをキャッシュ
するキャッシュ手段と、前記キャッシュ領域中の更新さ
れたデータ部分で前記マスター領域のマスターファイル
を更新する転送手段と、前記ネットワークに接続された
複数の計算機ノードの各記憶手段に前記マスター領域に
記憶されているマスターファイルと同一内容の複製ファ
イルを格納する複製領域を設定するものであって、前記
キャッシュ領域を複製領域に設定する多重化手段とを具
備したものである。
【0017】本発明においては、ネットワークには複数
の計算機ノードが接続されており、各計算機ノードには
夫々記憶手段が設けられる。所定の2つ以上の計算機ノ
ードの各記憶手段に、マスター領域又は複製領域が設定
されてマスターファイル及び複製ファイルが格納され
る。キャッシュ手段は、自計算機ノードの記憶手段にキ
ャッシュ領域を設定し、読み込んだマスターファイルを
キャッシュする。転送手段は、キャッシュ領域中の更新
されたデータ部分をマスター領域の対応する領域に転送
する。多重化手段はキャッシュ領域を複製領域に設定す
る。これにより、キャッシュ領域とマスター領域とで多
重化が行われる。この多重化に際して、転送手段は変更
されたデータをマスター領域にのみ転送すればよく、既
存の複製領域への転送は不要であるので転送データ量が
削減され、データ転送による性能低下が抑制される。
【0018】なお、装置に係る本発明は方法に係る発明
としても成立する。
【0019】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について詳細に説明する。図1は本発明の一実
施の形態に係る分散ファイルシステムのデータ多重化方
法を示す説明図である。図1(a1)〜図1(a4)は
従来における高信頼化された分散ファイルシステムにお
けるファイルの記憶方法を示し、図1(b1)〜(b
4)は本実施の形態の高信頼化された分散ファイルシス
テムにおけるファイルの記憶方法を示している。
【0020】本実施の形態は高信頼計算機クラスタシス
テムに採用される高信頼化された分散ファイルシステム
に適用したものである。
【0021】図1(a1)〜(a4)及び図1(b1)
〜(b4)において、C,M,Rは夫々高信頼計算機ク
ラスタシステムにおけるクライアント(コンピュータ)
が備えるキャッシュ領域、高信頼計算機クラスタシステ
ムにおける任意のコンピュータが備えるマスターファイ
ルを記憶する記憶領域(以下、マスター領域ともいう)
及び高信頼計算機クラスタシステムにおける任意のコン
ピュータが備える複製(リプリカ)ファイルを記憶する
記憶領域(以下、複製領域ともいう)を示している。
【0022】図1において、C,M,Rの各記憶領域を
示す枠内の四角枠は、1つのファイルに対する記憶領域
を示している。また、斜線部分は更新前のデータ領域を
示し、梨地部分は使用されたキャッシュ領域のうち更新
されていない部分又は複製領域のうち有効でない(使用
しない)データ部分を示し、塗り潰し部分は、更新され
たデータ領域を示している。
【0023】先ず、図1(a1)〜(a4)を参照し
て、従来例における高信頼化された分散ファイルシステ
ムのデータ伝送について説明する。
【0024】高信頼計算機クラスタシステムにおける高
信頼化された分散ファイルシステムでは、データをファ
イル単位で扱うようになっており、また、キャッシュ領
域はファイル毎に設けられる。
【0025】いま、図1(a1)に示すように、所定の
2台のコンピュータの各記憶領域M,Rに、夫々マスタ
ーファイル及び複製ファイルが記憶されているものとす
る。ここで、所定のクライアントが通信回線を介してマ
スター領域Mからデータを読出すものとする。マスター
領域Mから読出された1ファイル分のデータは、クライ
アントのキャッシュ領域(以下、キャッシュ領域Cとい
う)に記憶される。クライアントにおいてマスターファ
イルを使用する場合には、図1(a2)に示すように、
キャッシュ領域C中に記憶されているデータ、例えば斜
線部分に示すデータが読出される。
【0026】マスターファイルに対するアクセスを、ク
ライアント内部のキャッシュ領域Cに対して行うことに
より、高速処理が可能である。
【0027】次に、キャッシュ領域Cに記憶されている
マスターファイルに対して更新を行うものとする。図1
(a3)の塗り潰し部分は、更新したファイルが記憶さ
れている領域を示している。
【0028】図1(a3)の状態は、更新されたマスタ
ーファイルがキャッシュ領域Cのみに記憶されている状
態を示している。即ち、この状態ではデータは多重化さ
れていない。そこで、更新されたデータに応じてマスタ
ーファイル及び複製ファイルを更新する。
【0029】即ち、クライアントのキャッシュ領域Cの
更新された部分(塗り潰し部分)のデータを、所定の通
信回線を介して、所定の2台のコンピュータのマスター
領域M及び複製領域Rに転送する。図1(a4)はこの
状態を示している。マスター領域Mと複製領域Rには、
斜線部分及び塗り潰し部分において同一のデータが記憶
されている。こうして、マスターファイルと複製ファイ
ルとで多重度が維持される。
【0030】次に、本実施の形態におけるマスターファ
イル及び複製ファイルの伝送について説明する。
【0031】いま、図1(a1)と同様に、所定の2台
のコンピュータの各記憶領域M,Rに、夫々マスターフ
ァイル及び複製ファイルが記憶されているものとする。
本実施の形態においては、ファイルを所定のデータ単位
で扱うようになっている。なお、キャッシュ領域Cはフ
ァイル毎に設けられる。
【0032】図1(b2)に示すように、マスター領域
からのマスターファイルの読出し及びキャッシュ領域へ
の格納、クライアントにおいて使用するためのマスター
ファイル中のデータの読出しは、従来と同様である。
【0033】本実施の形態においても、マスターファイ
ルに対するアクセスを、クライアント内部のキャッシュ
領域Cに対して行うことにより、高速処理が可能であ
る。
【0034】次に、キャッシュ領域Cに記憶されている
マスターファイルに対して更新を行うものとする。この
処理も従来と同様であり、図1(b2)の塗り潰し部分
は、キャッシュ領域C中の更新したファイルが記憶され
ている領域を示している。
【0035】次に、データは多重化するために、更新さ
れたデータを転送する。本実施の形態においては、更新
されたデータの転送は、マスター領域Mに対してのみ行
うようになっている。
【0036】図1(b3)はこの状態を示している。キ
ャッシュ領域Cに記憶されたマスターファイル中の更新
された部分(塗り潰し部分)は、所定の通信回線を介し
て、所定のコンピュータ内のマスター領域Mに転送さ
れ、マスター領域M中のマスターファイルは、キャッシ
ュ領域C中の更新されたデータによって更新される。
【0037】本実施の形態においては、更新されたデー
タはマスター領域Mにのみ転送し、複製領域Rには転送
しない。この場合でも、図1(b3)に示すように、キ
ャッシュ領域Cにおいて更新されたデータ部分は、マス
ター領域Mの塗り潰し部分とキャッシュ領域Cの塗り潰
し部分に示すように、マスター領域Mとキャッシュ領域
Cとで多重化されている。
【0038】一方、複製領域Rは更新されていないの
で、マスター領域M中の更新されていないデータ部分
(斜線部)は、複製領域R中の対応する領域にも存在す
る。即ち、更新されていない部分についても、マスター
領域Mと複製領域Rとで多重化されている。
【0039】つまり、本実施の形態においては、更新さ
れたデータ部分は、マスター領域Mとキャッシュ領域C
とで多重化され、更新されていないデータ部分は、マス
ター領域Mと複製領域Rとの間で多重化される。
【0040】即ち、キャッシュ領域Cを複製領域として
も用いることによって、マスター領域Mへの転送だけの
少ない転送量で、データの多重化が可能である。各ファ
イルについて、複製領域としていずれの領域を用いるか
を示すテーブルを設けることで、少ないデータ転送量
で、データを多重化するのである。
【0041】しかし、図1(b3)の状態では、複製領
域が2つの領域に分割されて存在する。そうすると、領
域の管理が煩雑になってしまうことが考えられる。そこ
で、2つに分かれて存在する2台のコンピュータ上の2
つの複製領域の一方を他方に転送して、複製領域を1つ
にする。図1(b4)はこの状態を示している。
【0042】この場合には、図1(b4)のキャッシュ
領域Cを複製領域としてもよく、また、複製領域Rを複
製領域としてもよい。データの転送量が少なくなるよう
に複製領域を選択すればよい。図1(b3)の場合に
は、塗り潰し部分のデータ量と斜線部分のデータ量とで
は、塗り潰し部分のデータ量の方が大きいので、斜線部
分に相当するデータを転送する。即ち、マスター領域M
の斜線部分に相当するデータを、キャッシュ領域Cの対
応する領域に転送して記憶させる。
【0043】図2は図1の分散ファイルシステムのデー
タ多重化方法を実現する分散ファイルシステムを示すブ
ロック図である。図2は本実施の形態の分散ファイルシ
ステムを高信頼計算機クラスタシステムに適用したもの
である。
【0044】図2は複数台の計算機ノードによって計算
機クラスタシステムが構成されたネットワーク120を
示している。図2では3台の計算機ノード101、10
8、114のみを示しているが、計算機ノードは3台よ
りも多くてもよい。各計算機ノードには、夫々通信装
置、リソース管理部、制御ソフトウェア、記憶装置が含
まれる。これらによって、クラスタシステム上の分散フ
ァイルシステムが構成される。
【0045】図2はクラスタシステム内のプロセス10
2が、計算機ノード101で動作しており、プロセス1
02によって、分散ファイルシステム上のファイルに対
してファイルアクセスする例を示している。
【0046】各計算機ノード101,103,114の
通信装置103,109,115は、ネットワーク12
0を介して他の計算機ノードとの間で通信が可能であ
る。制御ソフトフェア105,111,117は、記憶
装置106,112,118にデータの書き込み行うと
共に、記憶装置106,112,118から読み出した
データをリソース管理部104に出力する。リソース管
理部104,110,116は、夫々、制御ソフトフェ
ア105,111,117を駆動して、記憶装置10
5,112,118に対するアクセスを行う。プロセス
102は、リソース管理部104と連携して、ネットワ
ーク102上の各記憶装置106,112,118に対
するアクセスを行う。
【0047】なお、ネットワーク120及び、ネットワ
ーク120を使って通信を行うことができる通信装置1
03、109、115はイーサネット(R)をはじめと
する、何らかのネットワーク通信装置であり、計算機ノ
ード間で通信を行うことができれば種類は問わない。
【0048】記憶装置106,112,118は、複数
のファイルを記憶する領域を有しており、各領域は1つ
のファイルを1つ以上の管理単位(データ単位)に分割
した場合の各管理単位を記憶する複数の領域を有してい
る。各ファイルは管理情報を有しており、管理情報は各
管理単位がマスターファイルであるか複製ファイルであ
るかの情報を有する。
【0049】なお、各計算機ノードにある記憶装置10
6、112、118と、その制御ソフトウェア105、
111、117は、ファイルの識別子からハードディス
ク等の記憶装置のどの位置にファイルが格納しているか
を調べ、データを読み書きすることができる一般的なフ
ァイルシステムであり、同様の機能を有すれば、どのよ
うな形態でもかまわない。
【0050】本実施の形態においては、ファイルは所定
の管理単位(データ単位)に分割して転送可能である。
従って、図1(b4)に示す1つの複製ファイルへの統
合を行わずに、図1(b3)の状態のままの場合には、
そのファイルに対するファイルアクセス毎に、ファイル
が分割されて格納される可能性がある。即ち、各ファイ
ルは、1つ以上の領域に分割されて各管理単位毎に格納
され、必ず、各格納単位はマスターと複製とを有する。
【0051】リソース管理部104,110,116
は、テーブルを用いて、マスターファイルとその複製フ
ァイルの組について、格納する記憶装置及び記憶装置内
の記憶領域の位置を管理するようになっている。
【0052】図3はリソース管理部において管理するテ
ーブル601を示す説明図である。テーブル601は、
分散ファイルシステム上のファイルの識別子及びデータ
領域がどの計算機ノードのどのファイルと対応するかを
検索するためのものである。図3のテーブルは、ネット
ワーク120上の全ての計算機ノードのリソース管理部
が有していてもよく、また、いずれか1つのリソース管
理部が有していてもよく、更に、ネットワーク120上
の読出し可能な任意の位置に格納するようにしてもよ
い。
【0053】図3の例は、ファイル識別子がF001〜
F003の3つのファイルの格納状態を示している。フ
ァイルF001は、0−999のデータ領域を有してお
り、ファイルF002は0−299のデータ領域を有し
ており、ファイルF003は0−2999のデータ領域
を有している。本実施の形態においては、ファイルF0
02は、データ領域0−99,100−199,200
−299の3つのデータ単位に分割されている。
【0054】そして、各ファイル(データ単位)は、マ
スターファイルと複製ファイルとを有している。例え
ば、F001は、その実体が計算機ノード108中の記
憶装置106中のファイル113として格納され、その
複製が計算機ノード114の記憶装置118中のファイ
ル119として格納されている。また、例えば、ファイ
ルF002のデータ領域100−199のデータ単位
は、図示しない計算機ノード1001の記憶装置101
0にマスターファイルが記憶され、図示しない計算機ノ
ード2300の記憶装置2308に複製ファイルが記憶
されている。
【0055】なお、テーブル601においては、データ
領域の情報を有する例を示しているが、このデータ領域
の情報は省略可能である。また、表601と同様の機能
を有すれば、リソース管理部が持つ検索のための表は、
表601の構成でなくともよい。
【0056】次に、高信頼計算機クラスタシステムの高
信頼化された分散ファイルシステムにおけるファイルの
アクセスについて図4及び図5のフローチャートを参照
して説明する。
【0057】先ず、図4を参照して、計算機ノード10
1で動作しているプロセス102が、分散ファイルシス
テム上のファイルF001を参照する(更新を伴わな
い)場合の例について説明する。
【0058】先ず、プロセス102は、参照したいファ
イルの識別子F001と要求するデータをリソース管理
部104に渡す(ステップ202)。リソース管理部1
04は、リソース管理部の管理している表601を用い
て要求されたファイルがどの計算機ノードに格納されて
いるかを調べる。図3の例では、リソース管理部104
において、参照要求されたファイルF001は、計算機
ノード108のファイル113及び計算機ノード114
のファイル119であることを示す情報が得られる(ス
テップ203)。
【0059】更新を伴わない参照の動作なので、マスタ
ーファイルであるファイル113を参照しても、また、
複製ファイルであるファイル119を参照してもよい。
リソース管理部104は、いずれのファイルからデータ
を取得するかを決定する。いずれのファイルにアクセス
するかについては、データ転送速度や、計算機ノードの
負荷等によってリソース管理部104において決定して
もよい。
【0060】リソース管理部104は、通信装置10
3、ネットワーク120を介して計算機ノード108、
又は計算機ノード114にデータの取得の要求を出す
(ステップ204,205)。作業用のキャッシュファ
イル107が既に作成されており、要求するデータがす
でに作業用のキャッシュファイル107に存在するか否
かを制御ソフトウェア105に確認する。参照要求した
ファイルF001のキャッシュファイルが存在する場合
には、作業用のキャッシュファイル107からデータを
読み込んで(ステップ208,209)、ステップ21
1に処理を移行する。
【0061】作業用のキャッシュファイルに要求するデ
ータが存在しない場合は、ステップ206,207にお
いて、要求を受けた計算機ノードのリソース管理部11
0またはリソース管理部116は格納しているファイル
113、119からデータを取得し、計算機ノード10
1のリソース管理部104に渡す。
【0062】作業用のキャッシュファイルが未作成の場
合、リソース管理部104は以後のファイルアクセスを
高速にするために、制御ソフトウェア105を介してロ
ーカルの記憶装置106内に作業用のキャッシュファイ
ル107を作成する。次に作業用のキャッシュファイル
107の管理情報を更新し、取得したデータを格納する
(ステップ210)。更に、リソース管理部104はプ
ロセス102に取得したデータを渡す(ステップ21
1)。
【0063】次に、図5を参照して、計算機ノード10
1で動作しているプロセス102が、ファイルF001
を更新する場合の動作を説明する。
【0064】先ず、プロセス102は更新したいファイ
ルの識別子F001と更新するデータ単位をリソース管
理部104に渡す(ステップ302)。リソース管理部
104は、リソース管理部が管理している表601を用
いて要求されたファイルの全体がどの計算機ノードにあ
るかを調べる。この場合には、計算機ノード108のフ
ァイル113が得られる(ステップ303)。
【0065】リソース管理部104は制御ソフトウェア
105を介してローカルの記憶装置106内の作業用の
キャッシュファイル107にファイルの管理情報と更新
するデータを書き込む(ステップ304)。
【0066】次に、本実施の形態においては、キャッシ
ュ領域内の更新したデータ単位について、マスターファ
イルの対応するデータ単位の更新を行う。即ち、リソー
ス管理部104は、通信装置103、ネットワーク12
0を通して計算機ノード108にファイル113の更新
を要求する(ステップ305)。計算機ノード108の
リソース管理部110は、要求に従ってファイル113
の管理情報及びデータを制御ソフトウェア111を介し
て更新する(ステップ306)。
【0067】これにより、図1(b3)と同様の状態が
得られる。即ち、ファイルF001のデータのうち、プ
ロセス102によって更新されていない領域に関して
は、ファイル113、119によって多重化され、プロ
セス102によって更新された領域に関しては、ファイ
ル107、113によって多重化される。つまり、ファ
イルF001全体でファイルの実体が多重化されること
になる。
【0068】ファイル全体で多重化されていれば、各フ
ァイルが複数のデータ単位に分割されていても特には問
題はない。従って、1つの複製ファイルに統合すること
なく、分割された状態でファイルアクセスを行うことも
考えられる。図6はこの場合において、計算機ノード1
01で動作しているプロセス102のファイルF001
への更新が終了したときの動作を示している。
【0069】プロセス102は、作業用キャッシュファ
イル107の更新した領域を新たな複製ファイルとして
用いることを、ファイル識別子F001と更新した領域
をリソース管理部104に渡す(ステップ402)。リ
ソース管理部104は、リソース管理部104を含め、
計算機クラスタシステムを構成するすべての計算機ノー
ドのリソース管理部に対して、作業用のキャッシュファ
イル107のプロセス102によって更新された領域を
ファイルF001の新たな複製ファイルとして使用する
ことを要求する(ステップ403)。
【0070】リソース管理部104から要求を受け取っ
た各ノードのリソース管理部は、ファイルがどのノード
に格納されているかという情報を示す表601の内容
を、ファイル107のうち、プロセス102によって更
新された領域を、ファイルF001の複製ファイルと
し、ファイル119を同じ領域の複製ファイルとして扱
わないように、書き換える(ステップ404)。
【0071】図7は複数に分割された複製ファイルを1
つの統合する場合の動作について、計算機ノード101
で動作しているプロセス102のファイルF001への
更新が終了した場合を例に示すフローチャートである。
【0072】図7のステップ502において、プロセス
102はファイルF001の更新が終了したことをファ
イルの識別子F001と共にリソース管理部104に渡
す。リソース管理部104は、リソース管理部が管理し
ている表601を用いて要求されたファイルの実体がど
の計算機ノードにあるかを調べる。この場合には、計算
機ノード108のファイル113が得られる(ステップ
503)。
【0073】リソース管理部104は、プロセス102
によって更新された領域の大きさS1と、未参照等の理
由でファイルの実体から作業用のキャッシュファイル1
07にデータが取得されていない領域の大きさS2を、
制御ソフトウェア105を介して、ファイル106の管
理情報から取得する(ステップ504)。S1とS2の
値を比較し、S1の方が大きければ、リソース管理部1
04はプロセス102によって更新された領域の内容を
通信装置103、ネットワーク120を通して計算機ノ
ード114のリソース管理部116に渡す(ステップ5
05)。更新データを受け取ったリソース管理部116
は、制御ソフトウェア117を通してファイル119の
データ及び管理情報を更新する(ステップ506)。
【0074】ステップ503において、S2の方がS1
よりも大きかった場合には、リソース管理部104は作
業用のキャッシュファイル107にデータが取得されて
いない領域のデータを通信装置103、ネットワーク1
20を介して、計算機ノード107のリソース管理部1
10に要求する(ステップ507)。リソース管理部1
10は、要求に従ってファイル113からデータを読み
出し、計算機ノード101のリソース管理部104に渡
す(ステップ508)。計算機ノード107からデータ
を受け取ったリソース管理部104は制御ソフトウェア
105を通して受け取ったデータでファイル107のデ
ータ及び管理情報を更新する。次に、リソース管理部1
04は、計算機クラスタシステムを構成する全ての計算
機ノードのリソース管理部に対して、ファイルF001
の実体が、計算機ノード108のファイル113と計算
機ノード101のファイル107であるとリソース管理
部の管理する表を書き換えるように要求する。(ステッ
プ509)各リソース管理部はリソース管理部104の
要求どおりに表を書き換え、ファイルF001の実体を
安定した状態にする(ステップ510)。
【0075】このように、本実施の形態においては、複
数の計算機ノードから構成される計算機クラスタシステ
ム上の高信頼分散ファイルシステムにおいて、更新を分
散ファイルシステム上のファイルの実体のひとつと、作
業用のキャッシュファイルに対してのみ行うことで、分
散ファイルシステム上のファイルの実体の多重度を保ち
つつ、計算機ノード間の通信量を削減することができ
る。更に、ファイルの更新終了後にファイルの多重度を
保つために必要なデータ転送量に応じて、従来どおり分
散ファイルシステム上のファイルの複製ファイルを更新
するか、作業用のキャッシュファイルを新たに分散ファ
イルシステム上のファイルの複製ファイルとするかを決
定して、計算機ノード間でデータ転送を行う。これによ
り、分散ファイルシステム上のファイルの多重度を保ち
つつ計算機ノード間の通信量を削減することが可能であ
る。
【0076】
【発明の効果】以上説明したように本発明によれば、フ
ァイルの冗長度を損なうことなく性能を向上させた高信
頼計算機クラスタシステムを可能にすることができる分
散ファイルシステム及び分散ファイルシステムのデータ
多重化方法を提供することを目的とする。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る分散ファイルシス
テムのデータ多重化方法を示す説明図。
【図2】図1の分散ファイルシステムのデータ多重化方
法を実現する分散ファイルシステムを示すブロック図。
【図3】リソース管理部において管理するテーブル60
1を示す説明図。
【図4】計算機ノード101で動作しているプロセス1
02が、分散ファイルシステム上のファイルF001を
参照する(更新を伴わない)場合の例を示すフローチャ
ート。
【図5】計算機ノード101で動作しているプロセス1
02が、ファイルF001を更新する場合の動作を説明
するためのフローチャート。
【図6】計算機ノード101で動作しているプロセス1
02のファイルF001への更新が終了したときの動作
を説明するためのフローチャート。
【図7】複数に分割された複製ファイルを1つの統合す
る場合の動作について、計算機ノード101で動作して
いるプロセス102のファイルF001への更新が終了
した場合を例に示すフローチャート。
【符号の説明】
101,108,114…計算機ノード、104,11
0,116…リソース管理部、106,112,118
…記憶装置、120…ネットワーク。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 佐藤 記代子 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 (72)発明者 崎山 伸夫 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 (72)発明者 林 拓也 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 Fターム(参考) 5B065 BA01 CH01 EA33 5B082 DE05

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 ネットワークに接続された複数の計算機
    ノードに夫々設けられる記憶手段と、 自計算機ノードが有する前記記憶手段にキャッシュ領域
    を設定し、前記ネットワークを介して他の計算機ノード
    が有する記憶手段に設定されているマスター領域からマ
    スターファイルを読出して、読出した前記マスターファ
    イルをキャッシュするキャッシュ手段と、 前記キャッシュ領域中の更新されたデータ部分で前記マ
    スター領域のマスターファイルを更新する転送手段と、 前記ネットワークに接続された複数の計算機ノードの各
    記憶手段に前記マスター領域に記憶されているマスター
    ファイルと同一内容の複製ファイルを格納する複製領域
    を設定するものであって、前記キャッシュ領域を複製領
    域に設定する多重化手段とを具備したことを特徴とする
    分散ファイルシステム。
  2. 【請求項2】 前記転送手段は、転送するファイルを所
    定のデータ単位に分割して転送し、 前記多重化手段は、前記所定のデータ単位で複製領域を
    設定することを特徴とする請求項1に記載の分散ファイ
    ルシステム。
  3. 【請求項3】 前記多重化手段は、複製領域をデータ単
    位で設定する場合には、前記転送手段によって転送され
    たデータ部分については前記マスター領域と前記キャッ
    シュ領域とでデータの多重化を行い、前記転送手段によ
    って転送されていないデータ部分については既存の複製
    領域とマスター領域とでデータの多重化を行うことを特
    徴とする請求項2に記載の分散ファイルシステム。
  4. 【請求項4】 前記多重化手段は、キャッシュ手段が設
    定したキャッシュ領域を順次複製領域に設定することに
    より、マスター領域と複数の複製領域とでファイル全体
    のデータの多重化を行うことを特徴とする請求項2に記
    載の分散ファイルシステム。
  5. 【請求項5】 前記多重化手段は、前記転送手段によっ
    て転送されたデータ部分については前記マスター領域と
    前記キャッシュ領域とでデータの多重化を行い、前記転
    送手段によって転送されていないデータ部分については
    既存の複製領域とマスター領域とでデータの多重化を行
    った後、前記転送手段によって転送されたデータ部分を
    前記既存の複製領域に転送するか又は前記転送手段によ
    って転送されていないデータ部分を前記既存の複製領域
    から前記キャッシュ領域に転送することにより前記複製
    領域を統合することを特徴とする請求項3に記載の分散
    ファイルシステム。
  6. 【請求項6】 前記多重化手段は、前記転送手段によっ
    て転送されているデータ部分と転送されていないデータ
    部分とのデータ量を比較して、データ転送量が少なくな
    るように前記複製領域の統合を行うことを特徴とする請
    求項5に記載の分散ファイルシステム。
  7. 【請求項7】 ネットワークに接続された複数の計算機
    ノードに夫々設けられた記憶手段にアクセスする処理
    と、 自計算機ノードが有する前記記憶手段にキャッシュ領域
    を設定し、前記ネットワークを介して他の計算機ノード
    が有する記憶手段に設定されているマスター領域からマ
    スターファイルを読出して、読出した前記マスターファ
    イルをキャッシュする処理と、 前記キャッシュ領域中の更新されたデータ部分で前記マ
    スター領域のマスターファイルを更新する処理と、 前記ネットワークに接続された複数の計算機ノードの各
    記憶手段に前記マスター領域に記憶されているマスター
    ファイルと同一内容の複製ファイルを格納する複製領域
    を設定するものであって、前記キャッシュ領域を複製領
    域に設定する多重化処理とを具備したことを特徴とする
    分散ファイルシステムのデータ多重化方法。
  8. 【請求項8】 ネットワークに接続された複数の計算機
    ノードに夫々設けられた記憶手段のうちの所定の記憶手
    段に設定されたマスター領域からマスターファイルを読
    出し、自計算機ノードが有する前記記憶手段に設定した
    キャッシュ領域に読出した前記マスターファイルをキャ
    ッシュするステップと、 前記キャッシュ領域中の更新されたデータ部分で前記マ
    スター領域のマスターファイルを更新する転送ステップ
    と、 前記ネットワークに接続された複数の計算機ノードの各
    記憶手段に前記マスター領域に記憶されているマスター
    ファイルと同一内容の複製ファイルを格納する複製領域
    を設定するものであって、前記キャッシュ領域を複製領
    域に設定する多重化ステップとを具備したことを特徴と
    する分散ファイルシステムのデータ多重化方法。
  9. 【請求項9】 前記多重化ステップは、1ファイルを分
    割した所定のデータ単位で複製領域を設定可能であり、
    前記転送ステップにおいて転送されたデータ部分につい
    ては前記マスター領域と前記キャッシュ領域とでデータ
    の多重化を行い、前記転送ステップにおいて転送されて
    いないデータ部分については既存の複製領域とマスター
    領域とでデータの多重化を行うことを特徴とする請求項
    8に記載の分散ファイルシステムのデータ多重化方法。
  10. 【請求項10】 前記多重化ステップは、前記転送ステ
    ップにおいて転送されたデータ部分については前記マス
    ター領域と前記キャッシュ領域とでデータの多重化を行
    い、前記転送ステップにおいて転送されていないデータ
    部分については既存の複製領域とマスター領域とでデー
    タの多重化を行った後、前記転送ステップにおいて転送
    されたデータ部分を前記既存の複製領域に転送するか又
    は前記転送ステップにおいて転送されていないデータ部
    分を前記既存の複製領域から前記キャッシュ領域に転送
    することにより前記複製領域を統合することを特徴とす
    る請求項9に記載の分散ファイルシステムのデータ多重
    化方法。
JP2002129028A 2002-04-30 2002-04-30 分散ファイルシステム及びそのデータ多重化方法 Expired - Fee Related JP4148698B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002129028A JP4148698B2 (ja) 2002-04-30 2002-04-30 分散ファイルシステム及びそのデータ多重化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002129028A JP4148698B2 (ja) 2002-04-30 2002-04-30 分散ファイルシステム及びそのデータ多重化方法

Publications (2)

Publication Number Publication Date
JP2003323328A true JP2003323328A (ja) 2003-11-14
JP4148698B2 JP4148698B2 (ja) 2008-09-10

Family

ID=29542591

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002129028A Expired - Fee Related JP4148698B2 (ja) 2002-04-30 2002-04-30 分散ファイルシステム及びそのデータ多重化方法

Country Status (1)

Country Link
JP (1) JP4148698B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7591019B1 (en) 2009-04-01 2009-09-15 Kaspersky Lab, Zao Method and system for optimization of anti-virus scan
US7698308B2 (en) 2004-11-19 2010-04-13 Nec Corporation Storage system and method for data replication with reduced redundant data transfer

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7698308B2 (en) 2004-11-19 2010-04-13 Nec Corporation Storage system and method for data replication with reduced redundant data transfer
US7591019B1 (en) 2009-04-01 2009-09-15 Kaspersky Lab, Zao Method and system for optimization of anti-virus scan

Also Published As

Publication number Publication date
JP4148698B2 (ja) 2008-09-10

Similar Documents

Publication Publication Date Title
AU2017204760B2 (en) Log record management
AU2017239539B2 (en) In place snapshots
US20230092908A1 (en) Database system with database engine and separate distributed storage service
US11120152B2 (en) Dynamic quorum membership changes
US10437721B2 (en) Efficient garbage collection for a log-structured data store
US11755415B2 (en) Variable data replication for storage implementing data backup
US10229011B2 (en) Log-structured distributed storage using a single log sequence number space
US10534768B2 (en) Optimized log storage for asynchronous log updates
KR101771246B1 (ko) 분산 데이터 시스템들을 위한 전 시스템에 미치는 체크포인트 회피
KR101914019B1 (ko) 분산 데이터베이스 시스템들을 위한 고속 장애 복구
US10303564B1 (en) Reduced transaction I/O for log-structured storage systems
US11341163B1 (en) Multi-level replication filtering for a distributed database
JP2003323328A (ja) 分散ファイルシステム及びそのデータ多重化方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070904

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071101

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080617

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080624

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110704

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110704

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120704

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees