JP2003345613A - 分散ファイル装置及びそのプロセスマイグレーション方法並びにコンピュータ装置 - Google Patents

分散ファイル装置及びそのプロセスマイグレーション方法並びにコンピュータ装置

Info

Publication number
JP2003345613A
JP2003345613A JP2002153004A JP2002153004A JP2003345613A JP 2003345613 A JP2003345613 A JP 2003345613A JP 2002153004 A JP2002153004 A JP 2002153004A JP 2002153004 A JP2002153004 A JP 2002153004A JP 2003345613 A JP2003345613 A JP 2003345613A
Authority
JP
Japan
Prior art keywords
file
computer
storage device
secondary storage
save file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002153004A
Other languages
English (en)
Other versions
JP3754393B2 (ja
Inventor
Kiyoko Satou
記代子 佐藤
Seiji Maeda
誠司 前田
Nobuo Sakiyama
伸夫 崎山
Hirokuni Yano
浩邦 矢野
Takuya Hayashi
拓也 林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002153004A priority Critical patent/JP3754393B2/ja
Publication of JP2003345613A publication Critical patent/JP2003345613A/ja
Application granted granted Critical
Publication of JP3754393B2 publication Critical patent/JP3754393B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Hardware Redundancy (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 (修正有) 【課題】ページインに要する時間を短縮すると共に、プ
ロセスマイグレーションに要する時間を短縮する。 【解決手段】ネットワーク上には複数の計算機A,B,
…が接続される。各計算機ノードには夫々2次記憶装置
1a,1b,…が設けられる。仮想記憶管理部8は、自
計算機ノードが実行するプロセスに従って退避ファイル
を作成する。この退避ファイルは、分散ファイルシステ
ム2によって、2次記憶装置1aに記憶される。更に、
分散ファイルシステム2は、退避ファイル5の複製ファ
イルを計算機Bの2次記憶装置1bに記憶させる。プロ
セスマイグレーション実現部6aは、仮想記憶管理テー
ブル9aの内容から、プロセスの移送先として退避ファ
イルの複製ファイル5を記憶した2次記憶装置1bが属
する計算機ノードを決定する。これにより、プロセスマ
イグレーション時に、退避ファイルの転送は不要となり
プロセスの移送に要する時間を短縮することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の計算機ノー
ドで構成される計算機クラスタシステムに採用される分
散ファイル装置及びそのプロセスマイグレーション方法
並びにコンピュータ装置に関する。
【0002】
【従来の技術】従来、計算機においては、プロセスを実
行するために、プロセスの実行プログラムに基づくデー
タを自計算機の主記憶装置上に展開する必要がある。し
かし、計算機が実装している主記憶装置の容量は有限で
あることから、同時に複数のプロセスを実行しようとす
る場合等においては、主記憶装置の容量不足が発生す
る。そこで、一般的には、主記憶装置の容量以上の記憶
空間を使用可能にして、実メモリの制約を越えたプロセ
スを実行可能にする仮想記憶が採用される。
【0003】仮想記憶技術では、プログラムが特定する
データの位置を仮想アドレスによって表し、例えばオペ
レーションシステム(OS)によって、この仮想アドレ
スを主記憶装置上の位置を表す実アドレスに変換する。
従って、異なる複数のプログラムで同一の仮想アドレス
が使用されている場合であっても、各プログラムの同一
の仮想アドレスを相互に異なる実アドレスに変換するこ
とで、これらの複数のプログラムを同時に実行すること
が可能となる。また、仮想アドレスが有限の実アドレス
に制限されることもない。
【0004】仮想記憶では、プロセスの実行プログラム
のうちプロセス実行中に必要なデータのみを主記憶装置
に読み込み、主記憶の容量が不足してくると、不要にな
ったデータは主記憶装置から除去する。この結果、主記
憶装置上に無駄なスペースが無くなり、主記憶装置を最
大限有効に使用することができる。
【0005】また、仮想記憶は、主記憶装置上で不要に
なったデータのうち、プロセス実行中に更新されたデー
タについては、2次記憶装置の退避スペースに書き出し
て退避する処理(ページアウトともいう)を行う。
【0006】主記憶装置上の未変更のデータは退避され
ない。除去して主記憶装置上にないデータが再度必要に
なると、退避したものについては退避スペースからデー
タを主記憶装置に読み込み(ページインともいう)、単
に除去しただけのデータは実行ファイルからデータを主
記憶装置に読みこむ。なお、仮想記憶によって使用され
る退避スペースは、通常、自計算機専用のスペースであ
る2次記憶装置上に確保するようになっている。
【0007】ところで、従来、複数台のコンピュータを
連携して使用して、1台のコンピュータと同様の使用を
可能にする計算機クラスタシステムが採用されることが
ある。計算機クラスタシステムは、比較的安価なコンピ
ュータを用いた場合でも、高度な業務処理が可能であ
り、しかも、システムの拡張が極めて容易である。
【0008】このようなクラスタシステムにおいて、実
行中のプロセスを他計算機に移動させ、移動した計算機
上でプロセスの実行を継続させるプロセスマイグレーシ
ョンが採用されることがある。
【0009】このプロセスマイグレーションによれば、
クラスタシステム内の任意の計算機が故障した場合にお
いて、故障した計算機で実行していたプロセスをクラス
タシステム内の他の正常な計算機に移すことで、プロセ
ス実行をそのまま継続することができる。これにより、
クラスタシステム全体では安定した動作を続けることが
可能となる。また、実行中のプロセスをクラスタシステ
ム内で負荷が小さい他の計算機に移動して、プロセス実
行を継続することで、クラスタシステム内の負荷分散を
可能にすることもできる。
【0010】このようなプロセスマイグレーションを実
現するには、 (1)プロセスの移動元となる計算機において移動させ
るプロセスのプロセス状態を取得し、このプロセス状態
をプロセスの移動先となる計算機に送る。
【0011】(2)プロセス移動先の計算機は、(1)
でプロセス移動元から送られたプロセス状態を自計算機
上に復元する。
【0012】(3)プロセス移動先の計算機でプロセス
の実行を再開する。
【0013】という過程を経る。
【0014】この場合において、プロセス状態は、プロ
セスを実行するために使用していた主記憶装置の全内容
(退避スペースの内容を含む)、CPUのレジスタ値を
伝達することによって、移動させることができる。
【0015】
【発明が解決しようとする課題】プロセス状態の移動に
際して伝送する情報のうち、主記憶装置の全内容(退避
スペースの内容を含む)及びCPUのレジスタ値につい
ては、夫々プロセス移動先の計算機内の主記憶装置及び
レジスタに格納する。プロセスマイグレーションに要す
る時間は、プロセス状態の伝送に必要な情報の伝送に要
する時間の制約を受ける。
【0016】そこで、Fred Douglis及びJohn Ousterhou
t は、文献1(「Transparent Process Migration: Des
ign Alternatives and the Sprite Implementation」)
において、プロセスマイグレーション時に、主記憶装置
の全内容をプロセス移動先の計算機内の主記憶装置に全
て伝送する代わりに、プロセス実行中に更新されたペー
ジのみを、プロセス毎の退避スペースとして用意した退
避ファイルにページアウトする。そして、プロセス状態
の伝送に必要な情報の伝送量を低減して、プロセスマイ
グレーションに要する時間を短縮した技術を提案してい
る。即ち、この提案においては、退避ファイルを転送元
及び転送先の計算機が属するネットワーク上のファイル
サーバ内の2次記憶装置に記憶させる。
【0017】この場合には、退避ファイルは、転送元及
び転送先の計算機によってアクセス可能である。退避フ
ァイルはプロセス毎に作成されるので、プロセスの移動
にともなって、移動するプロセスに対応した退避ファイ
ルの使用権を転送元から転送先に移動させればよく、退
避ファイルの転送は不要である。
【0018】ところで、計算機システムにおいて、ファ
イルアクセスは、頻繁に発生する動作であり、システム
全体の性能のボトルネックになりやすい項目である。一
般的に、計算機ノード間の通信帯域は単一の計算機内の
デバイス間の通信帯域に比べて狭い。従って、計算機ノ
ード間の通信を伴う処理は、計算機ノード内で閉じた処
理に比べて極めて低速である。このため、ファイルアク
セスのたびに発生する計算機ノード間のデータ通信量の
多さはシステム全体の性能を低下させる要因となる。
【0019】ところが、上述した文献1では、退避ファ
イルがネットワーク上の他のノードに存在することか
ら、ページイン毎にファイルサーバ内の退避ファイルを
プロセス実行中の計算機に転送する必要があり、結果と
してページインに長時間を要してしまい、プロセスが低
速になってしまうという欠点がある。また、プロセスマ
イグレーション直後には、退避ファイル内のデータの多
くを移動先の計算機内の主記憶装置に転送することが多
い。このためプロセス移動先において、実際にプロセス
が稼働するまでに比較的長時間を要してしまうという問
題もあった。
【0020】本発明はかかる問題点に鑑みてなされたも
のであって、ページインに要する時間を短縮すると共
に、プロセスマイグレーションに要する時間を短縮する
ことができる分散ファイル装置及びそのプロセスマイグ
レーション方法並びにコンピュータ装置を提供すること
を目的とする。
【0021】
【課題を解決するための手段】本発明の請求項1に係る
分散ファイル装置は、ネットワーク上に接続された複数
の計算機ノードに夫々設けられる2次記憶装置と、前記
各計算機ノードに夫々設けられ、自計算機ノードの計算
機が実行するプロセスに従って退避ファイルを作成する
退避ファイル作成手段と、前記退避ファイル作成手段で
該プロセス毎に作成された前記退避ファイルを前記ネッ
トワーク上の任意の計算機ノードの2次記憶装置に記憶
させると共に、前記任意の計算機ノードの2次記憶装置
とは異なる他の計算機ノードの2次記憶装置に前記退避
ファイルを複製した複製退避ファイルを記憶させる記憶
制御手段と、実行中のプロセスを他の計算機ノードに移
送する場合に、前記実行中のプロセスに従って作成され
た退避ファイルの複製退避ファイルが記憶された2次記
憶装置が属する計算機ノードを、前記プロセスの移送先
に決定する決定手段とを具備したものであり、本発明の
請求項7に係るコンピュータ装置は、2次記憶装置を備
えた複数のコンピュータ装置とネットワークで接続され
る、2次記憶装置を備えたコンピュータ装置であって、
実行中のプロセスに従って退避ファイルを作成する退避
ファイル作成手段と、前記退避ファイル作成手段で作成
された前記退避ファイルを自装置の2次記憶装置に記憶
させると共に、前記ネットワークと接続される複数のコ
ンピュータ装置の何れかのコンピュータ装置の2次記憶
装置に記憶させるために前記退避ファイルを複製した複
製退避ファイルを送信する分散ファイル手段と、実行中
のプロセスを他のコンピュータ装置へ移送する場合に、
前記実行中のプロセスに従って作成された退避ファイル
の複製退避ファイルを前記分散ファイル手段で送信した
前記他のコンピュータ装置を、前記プロセスの移送先に
決定する決定手段とを具備したものである。
【0022】本発明の請求項1において、ネットワーク
上に接続された複数の計算機ノードには夫々2次記憶装
置が設けられる。退避ファイル作成手段は、自計算機ノ
ードの計算機が実行するプロセスに従って退避ファイル
を作成する。この退避ファイルは、記憶制御手段によっ
て、ネットワーク上の任意の計算機ノードの2次記憶装
置に記憶される。更に、記憶制御手段は、退避ファイル
の複製ファイルを他の計算機ノードの2次記憶装置に記
憶させる。決定手段は、実行中のプロセスを他の計算機
ノードに移送する場合には、移送先として退避ファイル
の複製ファイルを記憶した2次記憶装置が属する計算機
ノードを決定する。これにより、プロセスマイグレーシ
ョン時に、退避ファイルの転送は不要である。また、移
送先の計算機ノードにおいては、退避ファイルは自計算
機ノードの2次記憶装置から読出せばよい。
【0023】本発明の請求項7に係るコンピュータ装置
は、2次記憶装置を備えた複数のコンピュータ装置とネ
ットワークで接続される、2次記憶装置を備えたコンピ
ュータ装置であって、実行中のプロセスに従って退避フ
ァイルを作成する退避ファイル作成手段と、前記退避フ
ァイル作成手段で作成された前記退避ファイルを自装置
の2次記憶装置に記憶させると共に、前記ネットワーク
と接続される複数のコンピュータ装置の何れかのコンピ
ュータ装置の2次記憶装置に記憶させるために前記退避
ファイルを複製した複製退避ファイルを送信する分散フ
ァイル手段と、実行中のプロセスを他のコンピュータ装
置へ移送する場合に、前記実行中のプロセスに従って作
成された退避ファイルの複製退避ファイルを前記分散フ
ァイル手段で送信した前記他のコンピュータ装置を、前
記プロセスの移送先に決定する決定手段とを具備したも
のである。
【0024】本発明の請求項7において、2次記憶装置
を備えた複数のコンピュータ装置とはネットワークを介
して接続される。退避ファイル作成手段は、実行中のプ
ロセスに従って退避ファイルを作成する。この退避ファ
イルは、記憶制御手段によって、ネットワーク上の複数
のコンピュータ装置のいずれかのコンピュータ装置の2
次記憶装置に記憶される。更に、記憶制御手段は、退避
ファイルの複製退避ファイルを他のコンピュータ装置の
2次記憶装置に記憶させる。決定手段は、実行中のプロ
セスを他のコンピュータ装置に移送する場合には、移送
先として退避ファイルの複製ファイルを記憶した2次記
憶装置を備えたコンピュータ装置を決定する。これによ
り、プロセスマイグレーション時に、退避ファイルの転
送は不要である。また、移送先のコンピュータ装置にお
いては、退避ファイルは自コンピュータ装置の2次記憶
装置から読出せばよい。
【0025】なお、装置に係る本発明は、プロセスマイ
グレーションの方法に係る発明としても成立する。
【0026】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態について詳細に説明する。図1は本発明の一実
施の形態に係る分散ファイル装置を示すブロック図であ
る。本実施の形態は本発明を計算機クラスタシステムに
適用した例である。
【0027】計算機クラスタシステムでは、ファイルを
計算機ノード間で分散して保持することがある。このよ
うなシステムにおいて、プロセスがどの計算機ノードで
動作していても、全てのファイルへのアクセスを同様に
可能とするために、分散ファイルシステムが用いられ
る。
【0028】分散ファイルシステムを使用すると、全て
の計算機ノードの全プロセスが、クラスタシステム内の
計算機ノードに分散して格納されているファイルを一意
に指定することができる。分散ファイルシステムの代表
例としては、AFS(Andrew File Sys
tem)がある。分散ファイルシステムは、ファイルの
実体であるマスターファイルをシステム内のいずれかの
計算機ノード上の記憶装置に格納し、ファイルがどの計
算機ノードに格納されているかという情報をシステム内
のデータベースに登録する。ファイルを使用する場合に
は、システム内のデータベースからマスターファイルが
実際に格納されている計算機ノードを検索し、この検索
結果を利用することで、いずれの計算機ノードにおいて
もマスターファイルの読み出しを可能にしている。
【0029】この場合において、システム内のファイル
を保護して、システムの信頼性を向上させるために、フ
ァイルの多重化が行われる。即ち、分散ファイルシステ
ムを用いた計算機クラスタシステムにおいては、ファイ
ルの実体であるマスターファイルと同一の内容を持った
複製ファイルを作成し、マスターファイルが格納されて
いる計算機ノードとは別の計算機ノードに複製ファイル
を格納する多重化を採用する。このような高信頼型の分
散ファイルシステムでは、ファイルに対する更新は、マ
スターファイルに行うと同時に逐一複製ファイルに対し
ても行い、ファイルの多重度を維持する。この方法によ
れば、マスターファイル及び複製ファイルのいずれか一
方が壊れた場合でも、ファイルの内容を他方から復元す
ることができる。
【0030】本実施の形態においては、プロセスマイグ
レーションに際して、分散ファイルシステムによって作
成される退避ファイルの複製ファイルを格納する計算機
ノードに、プロセスマイグレーション先を設定すること
で、プロセスマイグレーションに要する時間を短縮する
と共に、ページインに要する時間を短縮するようになっ
ている。
【0031】図1において、LAN(ローカルエリアネ
ットワーク)等の所定のネットワーク13上には複数の
計算機A,B,…が接続されている。なお、図1では2
台の計算機A,Bのみを示している。各計算機A,B,
…は略同一構成であり、各計算機A,B,…及び後述す
る各2次記憶装置1a,1b,…によって計算機クラス
タシステムの各計算機ノードが構成されている。
【0032】各計算機A,B,…には、夫々、プロセス
マイグレーション実現部6a,6b,…(以下、代表し
てプロセスマイグレーション実現部6という)、主記憶
装置7a,7b,…(以下、代表して主記憶装置7とい
う)、仮想記憶管理部8a,8b,…(以下、代表して
仮想記憶管理部8という)及び分散ファイルシステム2
a,2b,…(以下、代表して分散ファイルシステム2
という)が含まれると共に、各計算機ノードは、ネット
ワーク13よりも高速な通信が可能なローカルの2次記
憶装置1a,1b,…(以下、代表して2次記憶装置1
という)が接続されている。なお、2次記憶装置1とし
ては、各計算機内の内部バスによって接続されたもので
あってもよく、他の通信ケーブル等によって接続された
ものでもよい。
【0033】2次記憶装置1a,1b,…は、計算機ク
ラスタシステム内の各計算機ノードによってアクセス可
能であり、2次記憶装置1a,1b,…に格納されるフ
ァイルは、分散ファイルシステム2によって一元管理さ
れるようになっている。
【0034】図2は分散ファイルシステム2のファイル
管理に用いるファイル管理テーブルを示す説明図であ
る。
【0035】図2に示すように、各ファイルは、ファイ
ルIDによって管理され、各ファイルID毎に、1つの
マスターファイルと複数の複製ファイルとが設定され
る。マスターファイル及び複数の複製ファイルは、夫々
ネットワーク内の各計算機ノードに分散して記憶される
ようになっており、各ファイル毎に、保存先の計算機ノ
ードが決定されるようになっている。
【0036】即ち、各ファイルは、ファイルIDによっ
て特定され、各ファイルID毎にマスターファイルが格
納される計算機ノードのID(マスターノードID)と
1つ以上の複製ファイルが夫々格納される計算機ノード
のID(レプリカノードID)が対応付けられる。ファ
イル管理テーブルは、マスターファイルと1つ以上の複
製ファイルとのネットワーク上の位置を記述している。
【0037】プロセスマイグレーション実現部6は、実
行中のプロセスを他計算機に移し実行を継続させるため
の処理を行う部分である。即ち、自計算機で実行中のプ
ロセスを他計算機に移送する場合は、プロセスを一旦停
止してその状態を保存し、移送先の計算機のプロセスマ
イグレーション実現部6へ送出する。また、他計算機で
実行されていたプロセスを自計算機に移送して実行を継
続させる場合には、移送元の計算機のプロセスマイグレ
ーション実現部6から受け取ったプロセス状態を自計算
機で復元する処理を行う。
【0038】主記憶装置7は、プロセスの実行に必要な
データを展開するメモリ領域である。仮想記憶管理部8
は、仮想記憶管理のための処理を行う部分である。即
ち、仮想記憶管理部8は、仮想アドレスから実アドレス
への変換や、主記憶装置7上の領域のうち、プロセス実
行中に書きかえれれた領域のみを退避ファイルとして、
自ノードの2次記憶装置1にページアウトし、退避ファ
イル上の必要な領域のみをその領域が必要とされた場合
に自計算機の主記憶装置7にページインさせるための処
理を行う。なお、主記憶装置7の退避スペースとして利
用する退避ファイルは、プロセス毎に固有のファイルで
ある。
【0039】なお、退避ファイルは、他ノードの2次記
憶装置1に設けてもよいが、高速なページインを可能に
するためには、自ノードの2次記憶装置1に退避ファイ
ルを記憶させた方がよい。
【0040】各仮想記憶管理部8a,8b,…は、夫
々、メモリ管理テーブルを用いることによって仮想記憶
を実現する。図3は仮想記憶管理部8が記憶保持してい
るメモリ管理テーブルを示す説明図である。
【0041】図3に示すように、メモリ管理テーブル
は、仮想アドレス、実アドレス及び退避ファイルのオフ
セットの関係を記述したものであり、プロセス毎に設け
られる。仮想アドレスは、プログラムが特定するデータ
の位置を示すアドレスであり、この仮想アドレスは、実
際の主記憶装置7上の位置を表す実アドレスに変換に変
換される。メモリ管理テーブルは、この場合の仮想アド
レスと実アドレスとの間の対応を示している。
【0042】また、ページアウトが発生した場合には、
仮想アドレスによって与えられるデータが退避ファイル
上のいずれの位置のデータであるかの対応を取ることが
できる。
【0043】本実施の形態においては、上述したよう
に、プロセス毎に退避ファイルを設けることができる。
プロセス毎に退避ファイルを設けた仮想記憶を実現する
ために、仮想記憶管理部8a,8b,…は夫々仮想記憶
管理テーブル9a,9b,…(以下、代表して仮想記憶
管理テーブル9という)を有している。
【0044】図4は仮想記憶管理テーブル9の内容を示
す説明図である。
【0045】仮想記憶管理テーブル9は、各プロセス毎
に退避ファイルとメモリ管理テーブルとの対応を示すも
のである。
【0046】各プロセスは、プロセスIDによって特定
され、退避ファイルは退避ファイルのID(退避ファイ
ルID)によって特定される。仮想記憶管理テーブル9
によって、プロセスと、そのプロセスに用いる退避ファ
イルとそのプロセスに利用する仮想記憶のためのメモリ
管理テーブルとの対応が記述される。
【0047】仮想記憶管理部8は、プロセスマイグレー
ション実現部6がプロセスを他計算機に移送する際に、
移送するプロセスの仮想記憶管理テーブル9をプロセス
移送先の仮想記憶管理部8に送る。そして、プロセス移
送先の仮想記憶管理部8は、受け取ったプロセスの仮想
記憶管理テーブル9を用いてプロセスの仮想記憶管理を
引き継いで行うようになっている。
【0048】本実施の形態においては、仮想記憶管理部
8は、分散ファイルシステム2との間でデータの授受を
行って、退避ファイルについての複製ファイル(複製退
避ファイル)の位置の情報を得て、仮想記憶管理テーブ
ル9に書き込むようになっている。
【0049】そして、本実施の形態においては、プロセ
スマイグレーション実現部6は、仮想記憶管理部8に記
憶されている仮想記憶管理テーブル9と分散ファイルシ
ステム2が用いるファイル管理テーブルとを用いて、複
製退避ファイルが格納されている2次記憶装置1を有す
る計算機ノードの情報を得て、この計算機ノードをプロ
セスマイグレーションの移送先に設定するようになって
いる。
【0050】次に、このように構成された実施の形態の
動作について図5及び図6のフローチャートを参照して
説明する。図5は計算機Aで実行中のプロセスを計算機
Bに移送する場合の、計算機Aにおけるプロセスマイグ
レーション実現部6a及び仮想記憶管理部8aの処理手
順を示すフローチャートであり、図6は計算機Aで実行
中のプロセスを計算機Bに移送する場合の、計算機Bに
おけるプロセスマイグレーション実現部6b及び仮想記
憶管理部8bの処理手順を示すフローチャートである。
【0051】いま、図1の計算機Aにおいてプロセス1
0a,11aを実行中であり、また、計算機Bにおいて
プロセス12bを実行中であるものとする。
【0052】即ち、計算機Aの仮想記憶管理部8aは、
プロセス10aの実行に伴って、主記憶装置7aにプロ
セス10aの実行に必要なデータを展開する。また、仮
想記憶管理部8aは、プロセス10aが書き換えた主記
憶装置7aの領域をプロセス10a用の退避ファイル4
として、分散ファイルシステム2aを介して、2次記憶
装置1aに転送して格納させる(ステップS1 )。
【0053】仮想記憶管理部8は、各プロセス毎にプロ
セスIDを割当て、各プロセスID毎に退避ファイルを
作成して、プロセスと退避ファイルとの対応を仮想記憶
管理テーブル9に記述する。例えば、図1の例では、仮
想記憶管理部8aは、プロセス10aについてプロセス
IDを割当て、このプロセスIDについて退避ファイル
を作成する。
【0054】一方、分散ファイルシステム2は、各ファ
イル毎にファイルIDを割当て、各ファイルIDで示さ
れるファイルのマスターファイルを記憶させた計算機ノ
ードのIDとその複製ファイルを記憶させた計算機ノー
ドのIDとの関連を、ファイル管理テーブルに記述して
いる。本実施の形態においては、退避ファイルについて
も、分散ファイルシステム2によって管理される。
【0055】仮想記憶管理部8aは、分散ファイルシス
テム2aとの間で通信を行って、作成した退避ファイル
のファイルIDを取得し、プロセスID、退避ファイル
ID及びメモリ管理テーブルからなる仮想記憶管理テー
ブル9aを作成する。(ステップS2 )なお、分散ファ
イルシステム2aは、退避ファイルを計算機クラスタシ
ステム内のいずれのノードの計算機に接続された2次記
憶装置に記憶させることも可能であるが、退避ファイル
については、プロセスを実行中の自ノードの2次記憶装
置に記憶させた方が、処理を高速化させることが可能で
ある。
【0056】また、分散ファイルシステム2aは、他の
計算機ノードの分散ファイルシステム2b,…と通信を
行って、2次記憶装置1aに記憶させた退避ファイルを
マスターファイルとし、このマスターファイルの複製で
ある複製退避ファイル5を他の計算機ノードに接続され
た2次記憶装置に記憶させるようになっている。
【0057】これらの退避ファイルのマスターファイル
及び複製ファイルについても、分散ファイルシステム2
によって管理される。例えば、図1の例では、分散ファ
イルシステム2aによって、プロセス10aの実行に伴
う退避ファイルにファイルIDが付され、このファイル
IDに関連付けて、マスターファイル4が格納されてい
る計算機Aが属する計算機ノードのIDと、退避ファイ
ルの複製ファイル5が格納されている計算機Bが属する
計算機ノードのIDとが記述される。
【0058】ここで、計算機Aで実行中のプロセス10
aを他の計算機に移送するものとする。この場合には、
プロセスマイグレーション実現部6aは、仮想記憶管理
テーブル9aの内容を読出して、プロセス移送先の計算
機ノードを決定する(ステップS3 )。即ち、プロセス
マイグレーション実現部6aは、仮想記憶管理部8aに
問い合わせを行って、仮想記憶管理テーブル9aの記述
から、移送しようとするプロセス10aについての退避
ファイルのファイルIDを取得する。そして、プロセス
マイグレーション実現部6aは、取得したファイルID
を元に、分散ファイルシステム2aに問い合わせを行っ
て、ファイル管理テーブルの記述から、プロセス10a
についての退避ファイルの複製ファイル5が記憶されて
いる計算機ノードの情報を得る。
【0059】本実施の形態においては、プロセスマイグ
レーション実現部6aは、退避ファイルの複製ファイル
5が作成されている2次記憶装置1が接続された計算機
ノードをプロセス移送先に決定する。いま、プロセス1
0aの退避ファイルの複製ファイル5が計算機Bに接続
された2次記憶装置1bに記憶されているものとする。
この場合には、プロセスマイグレーション実現部6aに
よって、プロセス10aの移送先として計算機Bが選択
される。
【0060】次に、仮想記憶管理部8aは、プロセスの
移送先として選択された計算機Bの仮想記憶管理部8b
にプロセス10aの仮想記憶管理テーブル9aを送る
(ステップS4 )。仮想記憶管理部8bは、仮想記憶管
理テーブル9aの内容を仮想記憶管理テーブル9bに書
き込む。
【0061】次に、プロセスマイグレーション実現部6
aは、プロセス10aのプロセス状態を取得して計算機
Bのプロセスマイグレーション実現部6bに出力する
(ステップS5 )。
【0062】一方、計算機Bにおいては、図6のステッ
プS11において、プロセスマイグレーション実現部6b
が、計算機Aのプロセスマイグレーション実現部6aか
ら受け取ったプロセス10aのプロセス状態を復元す
る。そして、計算機Bは、プロセス10aの実行が再開
されると、仮想記憶管理部8bによって、計算機Aから
受け取ったプロセス10aの仮想記憶管理テーブル9a
(仮想記憶管理テーブル9b)を参照してプロセス10
aの実行プログラムまたは計算機Aの仮想記憶管理部が
退避したプロセス10a用の退避ファイルから必要な領
域のみを必要な時に主記憶装置7bに読み込む(ステッ
プS12)。
【0063】本実施の形態においては、仮想記憶管理部
8bは、分散ファイルシステム2bを介して、自ノード
に接続された2次記憶装置1bに記憶されている退避フ
ァイルの複製ファイル5を、退避ファイルとして読み込
む。
【0064】即ち、本実施の形態においては、ページア
ウト及びページインは、プロセスマイグレーションの前
後において、常に、自ノードに接続された2次記憶装置
1に対して行われる。従って、高速なページアウト及び
ページインが可能である。しかも、プロセスマイグレー
ションの移送先として、退避ファイルの複製ファイルを
保持する2次記憶装置が接続された計算機ノードを選択
しており、退避ファイルについては、移送の必要がな
く、しかも、プロセスマイグレーション後におけるペー
ジインを自ノードの2次記憶装置から行うことができ、
高速なページインが可能である。
【0065】これにより、本実施の形態においては、プ
ロセスマイグレーションに要する時間を短縮することが
でき、しかも、移送先の計算機ノードにおいて、ページ
インに要する時間を短縮することができる。
【0066】各計算機ノードのプロセスマイグレーショ
ン実現部6及び分散ファイルシステム2は、相互に協働
してプロセスマイグレーション及び分散ファイルシステ
ムを提供するもので、ネットワーク上のいずれの計算機
ノードによって制御可能であり、また、ネットワーク上
のいずれかの計算機ノードのみに設けて集中制御するよ
うに構成してもよい。
【0067】
【発明の効果】以上説明したように本発明によれば、ペ
ージインに要する時間を短縮すると共に、プロセスマイ
グレーションに要する時間を短縮することができるとい
う効果を有する。
【図面の簡単な説明】
【図1】本発明の一実施の形態に係る分散ファイル装置
を示すブロック図。
【図2】分散ファイルシステム2のファイル管理に用い
るファイル管理テーブルを示す説明図。
【図3】仮想記憶管理部8が記憶保持しているメモリ管
理テーブルを示す説明図。
【図4】仮想記憶管理テーブル9の内容を示す説明図。
【図5】実施の形態の動作を説明するためのフローチャ
ート。
【図6】実施の形態の動作を説明するためのフローチャ
ート。
【符号の説明】
1a,1b…2次記憶装置、2a,2b…分散ファイル
システム、4…退避ファイルのマスターファイル、5…
退避ファイルの複製ファイル、6a,6b…プロセスマ
イグレーション実現部、7a,8b…主記憶装置、8
a,8b…仮想記憶管理部、9a,9b…仮想記憶管理
テーブル、10a,11a,12b…プロセス
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 15/177 G06F 15/177 678C (72)発明者 崎山 伸夫 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 (72)発明者 矢野 浩邦 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 (72)発明者 林 拓也 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 Fターム(参考) 5B034 BB11 BB17 CC01 CC03 DD05 5B045 BB28 BB42 DD16 GG01 JJ26 JJ42 5B082 DE03 DE04 DE06 HA00 5B098 AA10 DD02 GA04 GC01 GD02 GD14

Claims (8)

    【特許請求の範囲】
  1. 【請求項1】 ネットワーク上に接続された複数の計算
    機ノードに夫々設けられる2次記憶装置と、 前記各計算機ノードに夫々設けられ、自計算機ノードの
    計算機が実行するプロセスに従って退避ファイルを作成
    する退避ファイル作成手段と、 前記退避ファイル作成手段で該プロセス毎に作成された
    前記退避ファイルを前記ネットワーク上の任意の計算機
    ノードの2次記憶装置に記憶させると共に、前記任意の
    計算機ノードの2次記憶装置とは異なる他の計算機ノー
    ドの2次記憶装置に前記退避ファイルを複製した複製退
    避ファイルを記憶させる記憶制御手段と、 実行中のプロセスを他の計算機ノードに移送する場合
    に、前記実行中のプロセスに従って作成された退避ファ
    イルの複製退避ファイルが記憶された2次記憶装置が属
    する計算機ノードを、前記プロセスの移送先に決定する
    決定手段とを具備したことを特徴とする分散ファイル装
    置。
  2. 【請求項2】 前記ネットワーク上の任意の計算機ノー
    ドの2次記憶装置は、前記プロセスを実行中の計算機ノ
    ードの2次記憶装置であることを特徴とする請求項1に
    記載の分散ファイル装置。
  3. 【請求項3】 前記記憶制御手段との間でデータの授受
    を行って、前記退避ファイル及び複製退避ファイルの前
    記ネットワーク上の記憶位置を示す管理テーブルを生成
    ・管理する管理手段を更に備え、 前記決定手段は、前記管理テーブルを用いて、プロセス
    の移送先を決定することを特徴とする請求項1に記載の
    分散ファイル装置。
  4. 【請求項4】 前記記憶制御手段及び前記決定手段は、
    移送するプロセスを実行する計算機ノード以外のネット
    ワーク上に設けられることを特徴とする請求項1に記載
    の分散ファイル装置。
  5. 【請求項5】 ネットワーク上に接続された複数の計算
    機ノードに夫々設けられる2次記憶装置にアクセスする
    処理と、 自計算機ノードの計算機が実行するプロセスに従って退
    避ファイルを作成する処理と、 プロセス毎に作成された前記退避ファイルを前記ネット
    ワーク上の任意の計算機ノードの2次記憶装置に記憶さ
    せると共に、前記任意の計算機ノードとは異なる他の計
    算機ノードの2次記憶装置に前記退避ファイルを複製し
    た複製退避ファイルを記憶させる処理と、 実行中のプロセスを他の計算機ノードに移送する場合
    に、前記実行中のプロセスに従って作成された退避ファ
    イルの複製退避ファイルが記憶された2次記憶装置が属
    する計算機ノードを、前記プロセスの移送先に決定する
    処理とを具備したことを特徴とする分散ファイル装置の
    プロセスマイグレーション方法。
  6. 【請求項6】 ネットワーク上に接続された複数の計算
    機ノードのうちの所定の計算機ノードが実行するプロセ
    スに従って退避ファイルを作成するステップと、 プロセス毎に作成された前記退避ファイルを前記ネット
    ワーク上の任意の計算機ノードの2次記憶装置に記憶さ
    せると共に、前記任意の計算機ノードとは異なる他の計
    算機ノードの2次記憶装置に前記退避ファイルを複製し
    た複製退避ファイルを記憶させるステップと、 実行中のプロセスを、前記実行中のプロセスに従って作
    成された複製退避ファイルが記憶された2次記憶装置が
    属する計算機ノードに対して移送するステップとを具備
    したことを特徴とする分散ファイル装置のプロセスマイ
    グレーション方法。
  7. 【請求項7】 2次記憶装置を備えた複数のコンピュー
    タ装置とネットワークで接続される、2次記憶装置を備
    えたコンピュータ装置であって、 実行中のプロセスに従って退避ファイルを作成する退避
    ファイル作成手段と、 前記退避ファイル作成手段で作成された前記退避ファイ
    ルを自装置の2次記憶装置に記憶させると共に、前記ネ
    ットワークと接続される複数のコンピュータ装置の何れ
    かのコンピュータ装置の2次記憶装置に記憶させるため
    に前記退避ファイルを複製した複製退避ファイルを送信
    する分散ファイル手段と、 実行中のプロセスを他のコンピュータ装置へ移送する場
    合に、前記実行中のプロセスに従って作成された退避フ
    ァイルの複製退避ファイルを前記分散ファイル手段で送
    信した前記他のコンピュータ装置を、前記プロセスの移
    送先に決定する決定手段とを具備したことを特徴とする
    コンピュータ装置。
  8. 【請求項8】 前記分散ファイル手段との間でデータの
    授受を行って、前記退避ファイルに対応する複製退避フ
    ァイルの送信先を示す管理テーブルを生成・管理する管
    理手段を更に備え、 前記決定手段は、前記管理テーブルを用いて、プロセス
    の移送先を決定することを特徴とする請求項7に記載の
    コンピュータ装置。
JP2002153004A 2002-05-27 2002-05-27 分散ファイル装置及びそのプロセスマイグレーション方法並びにコンピュータ装置 Expired - Fee Related JP3754393B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002153004A JP3754393B2 (ja) 2002-05-27 2002-05-27 分散ファイル装置及びそのプロセスマイグレーション方法並びにコンピュータ装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002153004A JP3754393B2 (ja) 2002-05-27 2002-05-27 分散ファイル装置及びそのプロセスマイグレーション方法並びにコンピュータ装置

Publications (2)

Publication Number Publication Date
JP2003345613A true JP2003345613A (ja) 2003-12-05
JP3754393B2 JP3754393B2 (ja) 2006-03-08

Family

ID=29770191

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002153004A Expired - Fee Related JP3754393B2 (ja) 2002-05-27 2002-05-27 分散ファイル装置及びそのプロセスマイグレーション方法並びにコンピュータ装置

Country Status (1)

Country Link
JP (1) JP3754393B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100737522B1 (ko) 2005-12-02 2007-07-10 한국전자통신연구원 마이그레이션 데이터 모니터링 방법 및 시스템
US7761737B2 (en) 2005-03-29 2010-07-20 Fujitsu Limited Apparatus, method, and computer product for executing program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7761737B2 (en) 2005-03-29 2010-07-20 Fujitsu Limited Apparatus, method, and computer product for executing program
KR100737522B1 (ko) 2005-12-02 2007-07-10 한국전자통신연구원 마이그레이션 데이터 모니터링 방법 및 시스템

Also Published As

Publication number Publication date
JP3754393B2 (ja) 2006-03-08

Similar Documents

Publication Publication Date Title
EP1179770B1 (en) File system
US6339793B1 (en) Read/write data sharing of DASD data, including byte file system data, in a cluster of multiple data processing systems
JP5607059B2 (ja) パーティション化した拡張可能で可用性の高い構造化ストレージにおけるパーティション管理
US7024525B2 (en) Distributed background track processing
CN102339283A (zh) 集群文件系统访问控制方法及集群节点
US20070233900A1 (en) System and method for synchronizing copies of data in a computer system
JP4746838B2 (ja) データベースへのアクセスを制御するための異なったデータベースサーバ間のデータベースのオーナーシップのパーティション化
JP2006202337A (ja) データ処理の方法及び装置
JPH09311839A (ja) データ共用方式
JP2003186742A (ja) ディレクトリ・キャッシュの更新
KR100745878B1 (ko) 저장 제어 장치 및 방법, 컴퓨터 프로그램 제품
US8332844B1 (en) Root image caching and indexing for block-level distributed application management
JP3848268B2 (ja) 計算機システム、計算機装置、計算機システムにおけるデータアクセス方法及びプログラム
JP4512386B2 (ja) バックアップシステムおよび方法
JP3754393B2 (ja) 分散ファイル装置及びそのプロセスマイグレーション方法並びにコンピュータ装置
US20090210452A1 (en) Method of substituting process in storage system
JP2002222107A (ja) データ同期装置
JP4664931B2 (ja) データベースへのアクセスを制御するための異なったデータベースサーバ間のデータベースのオーナーシップのパーティション化
CN109343928B (zh) 虚拟化集群中虚拟机的虚拟内存文件重定向方法及其系统
CN112685130A (zh) 分布式存储环境下的虚拟机备份方法、装置和存储介质
JPH04364549A (ja) ファイル格納方式とアクセス方式
JPH09297702A (ja) 情報処理装置及びシステム及びその制御方法
WO2024021746A1 (zh) 数据处理方法、通信系统和相关设备
JP2003157194A (ja) ファイルサーバプログラム
JP4148698B2 (ja) 分散ファイルシステム及びそのデータ多重化方法

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051215

LAPS Cancellation because of no payment of annual fees