JPH0991185A - Distributed computing system - Google Patents
Distributed computing systemInfo
- Publication number
- JPH0991185A JPH0991185A JP7211279A JP21127995A JPH0991185A JP H0991185 A JPH0991185 A JP H0991185A JP 7211279 A JP7211279 A JP 7211279A JP 21127995 A JP21127995 A JP 21127995A JP H0991185 A JPH0991185 A JP H0991185A
- Authority
- JP
- Japan
- Prior art keywords
- file
- token
- copy
- write
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/52—Program synchronisation; Mutual exclusion, e.g. by means of semaphores
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
- G06F16/166—File name conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
- G06F16/184—Distributed file systems implemented as replicated file system
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- Hardware Redundancy (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】本発明は、コンピュータシス
テムに関し、特に、緩く接続された分散システムにおけ
る動作の同期に関する。FIELD OF THE INVENTION This invention relates to computer systems, and more particularly to synchronizing operations in loosely connected distributed systems.
【0002】[0002]
【従来の技術】元来、コンピュータシステムは、単一の
プロセッサと、ファイルを記憶するディスクドライブの
ような大容量記憶装置とから構成された。プロセッサの
ユーザはそれぞれプロセッサに接続された端末を有し、
そのプロセッサを使用してファイルにアクセスすること
ができた。このようなシステムでは、すべてのアクセス
はシステムの単一のプロセッサを通じてのものであり、
システムには与えられたファイルの単一のコピーのみが
存在した。プロセッサ、メモリ、および大容量記憶装置
(例えばディスクドライブ)の価格が低下するにつれ
て、このようなシングルプロセッサシステムは分散シス
テムによって置き換えられている。分散システムには、
ネットワークへと接続されたいくつものローカルなプロ
セッサおよび記憶装置がある。このような分散システム
の簡単な例としては、各ユーザがパーソナルコンピュー
タまたはワークステーションを有し、ワークステーショ
ンにファイルを提供するファイルサーバがあり、ワーク
ステーションがローカルエリアネットワークによって相
互におよびファイルサーバに接続されたものがある。も
ちろん、このような分散システムはそれ自体、より大き
な分散システムの要素となることもあり、その場合に
は、他のシングルプロセッサシステムおよび分散システ
ムが、ローカルエリアネットワークまたは電話システム
のような広域ネットワークによって接続される。BACKGROUND OF THE INVENTION Originally, computer systems consisted of a single processor and a mass storage device such as a disk drive for storing files. Each user of the processor has a terminal connected to the processor,
I was able to access the file using that processor. In such a system, all access is through the system's single processor,
There was only a single copy of a given file on the system. Such single processor systems are being replaced by distributed systems as the price of processors, memory, and mass storage devices (eg, disk drives) decrease. Distributed systems include
There are a number of local processors and storage devices connected to the network. A simple example of such a distributed system is a file server in which each user has a personal computer or workstation and provides files to the workstations, which workstations are connected to each other and to the file server by a local area network. There was something that was done. Of course, such a distributed system may itself be a component of a larger distributed system, in which case other single processor systems and distributed systems may be connected by a local area network or a wide area network such as a telephone system. Connected.
【0003】このような分散システムの利点には、ロバ
ストネス(頑強さ)および速度が改善されることがあ
る。ロバストネスの改善は、システムを構成する要素の
数から生じる。例えば、1つのワークステーションが故
障しても、ネットワーク上の他のワークステーションが
役に立たなくなることはない。さらに、各ワークステー
ションは固有のファイルシステムを有し、そのため、シ
ステムにはファイルの複数のコピーが存在することがあ
る。ファイルの1つのコピーが使用不能になった場合、
他のワークステーションからコピーを使用可能である。
速度の改善は、ユーザがローカルな処理能力および他人
と共有していないローカルな記憶装置を有するというこ
とから生じる。The advantages of such a distributed system include improved robustness and speed. The improvement in robustness comes from the number of elements that make up the system. For example, the failure of one workstation does not render other workstations on the network useless. In addition, each workstation has its own file system, so there may be multiple copies of a file on the system. If one copy of a file becomes unavailable,
The copy is available from other workstations.
The speed improvement results from the user having local processing power and local storage that is not shared with others.
【0004】ファイルのローカルなコピーは分散システ
ムのロバストネスおよび速度を改善するが、書き込み可
能なファイルのローカルなコピーは1つの主要な欠点を
有する。それらのコピーの相互の一貫性を保つことが困
難であるという欠点である。理想的には、分散システム
におけるファイル操作の意味規則(セマンティクス)
は、プロセスのグループがプロセッサを共有するような
システムにおけるものと同一であろう。例えば、UNI
Xオペレーティングシステムでは(UNIXはX/OP
EN財団の商標である)、プロセスがデータをファイル
に書き込むとき、他のプロセスは、最初のプロセスによ
る書き込みが完了するまで、そのファイルからデータを
読み出すことも、そのファイルにデータを書き込むこと
もできない。これは、読み出しプロセスがファイルをオ
ープンしたのが、書き込みプロセスがシステムコールを
実行する前か後かにかかわらず成り立つ。While local copying of files improves the robustness and speed of distributed systems, local copying of writable files has one major drawback. The drawback is that it is difficult to keep those copies consistent with each other. Ideally, semantics for file operations in distributed systems
Would be the same as in a system where a group of processes share a processor. For example, UNI
X operating system (UNIX is X / OP
(A trademark of the EN Foundation), when a process writes data to a file, no other process can read data from or write data to that file until the first process completes writing . This is true whether the read process has opened the file before or after the write process makes a system call.
【0005】利用可能な分散システムはローカルコピー
の問題を「キャッシュ」によって処理している。サーバ
にファイルの単一の主コピー(マスタコピー)があり、
そのファイルを使用しているワークステーションはその
ファイルの一部または全部を含むキャッシュを有する。
キャッシュされたコピーにおける変化はマスタコピーに
は即時には反映されず、その逆もそうであるため、キャ
ッシュされたコピーは相互にあるいは主コピーと矛盾す
ることがある。その結果、あるワークステーションによ
るファイルの読み出しが他のワークステーションによる
書き込みの後にあっても、その読み出しは、キャッシュ
されたコピーを使用しているため、書き込みの結果を見
ないことがある。The available distributed systems handle the problem of local copies by means of "caches". The server has a single primary copy (master copy) of the file,
The workstation using the file has a cache containing some or all of the file.
Changes in the cached copy are not immediately reflected in the master copy, and vice versa, so cached copies may conflict with each other or with the main copy. As a result, even if a file read by one workstation follows a write by another workstation, the read may not see the result of the write because it uses the cached copy.
【0006】キャッシュを使用するシステムのファイル
操作の意味規則は一貫性の欠如を反映している。このよ
うなシステムの一例は、アール.サンドバーグ(R. Sand
berg)他、「Sun Network File Systemの設計と実装(Des
ign and Implementation ofthe Sun Network File Syst
em)」、Proceedings of Summer Usenix(1985年6
月)第119〜130ページ、に記載されたSun Networ
k File System(NFS)である。NFSでは、与えら
れたファイルはファイルサーバに存在する。ワークステ
ーションはその与えられたファイルのコピーを含むキャ
ッシュを有することが可能である。キャッシュ内のコピ
ーは、そのコピーがキャッシュにロードされた後3秒間
はファイルサーバ内のコピーと同一であると仮定され
る。キャッシュされたディレクトリデータは、フェッチ
された後30秒間は有効であると仮定される。The semantics of file operations in systems that use caches reflect a lack of consistency. An example of such a system is Earl. R. Sand
Berg, et al., “Design and Implementation of Sun Network File System (Des
ign and Implementation of the Sun Network File Syst
em) ”, Proceedings of Summer Usenix (6 June 1985)
Mon) Sun Networ, pages 119-130.
k File System (NFS). In NFS, the given file resides on the file server. The workstation may have a cache containing a copy of the given file. The copy in the cache is assumed to be identical to the copy in the file server for 3 seconds after the copy is loaded into the cache. The cached directory data is assumed to be valid for 30 seconds after being fetched.
【0007】もう1つの例は、エム.カザー(M. Kaza
r)、「アンドリューファイルシステムにおける同期とキ
ャッシュの問題(Synchronization and caching issues
in theandrew file system)」、Proceedings of Winter
Usenix(1988年)に記載されたアンドリューファ
イルシステムである。アンドリューファイルシステム
は、ファイルシステムコールが完了した後、そのファイ
ルシステムコールの結果は、2つの重要な例外を除い
て、ネットワークのどこでも即時に見えることを保証す
る。第1の例外は、書き込みシステムコールの場合、フ
ァイルに書き込まれた新しいデータは、そのファイルに
書き込みをしているプロセスがファイルを閉じるまで
は、主コピーには実際には書き込まれないことである。
第2の例外は、ファイルのキャッシュされたコピーは、
プロセスがそのファイルをオープンするときに主コピー
との一貫性が検査されるだけである。従って、2つのプ
ロセスがファイルを共有するとき、あるワークステーシ
ョンで実行中の第1のプロセスは、他のワークステーシ
ョンで実行中の第2のプロセスによって書き込まれたデ
ータを、第2のプロセスがそのファイルをクローズした
後に第1のプロセスがそれをオープンするまでは、見な
いことになる。Another example is M.E. Kaza (M. Kaza
r), "Synchronization and caching issues in the Andrew file system.
in the andrew file system) '', Proceedings of Winter
The Andrew file system described in Usenix (1988). The Andrew file system ensures that after a file system call is complete, the results of that file system call are instantly visible anywhere on the network, with two important exceptions. The first exception is that in the case of a write system call, new data written to the file is not actually written to the main copy until the process writing to the file closes the file. .
The second exception is that the cached copy of the file is
Only when the process opens the file is it checked for consistency with the primary copy. Thus, when two processes share a file, a first process running on one workstation may transfer data written by a second process running on another workstation to the second process. You won't see until after the first process has opened the file after closing it.
【0008】[0008]
【発明が解決しようとする課題】ファイルの複数のコピ
ーを許容するがファイルシステムの意味規則はファイル
の単一のコピーのものであるような分散システムが必要
とされている。本発明の目的は、このような分散システ
ムを実現することである。What is needed is a distributed system that allows multiple copies of a file, but the semantics of the file system are that of a single copy of the file. The object of the present invention is to realize such a distributed system.
【0009】[0009]
【課題を解決するための手段】本発明の分散システムで
は、いくつかのファイルが「複製ファイル」として指定
される。複製ファイルは、分散システム内に複数のコピ
ーが存在して、各コピーが他のコピーと完全に同等であ
るようなファイルである。ファイルが完全に同等である
とは、いずれのコピーへのアクセスも、そのファイルの
ただ1つのローカルコピーのみが存在しすべてのアクセ
スプロセスが同一のホスト上で実行される場合のアクセ
スと同一の結果となることである。こうして、本発明の
分散システムは、プロセスが同一のホストで実行される
ようなシステム上の単一のファイルへのアクセスのファ
イルシステム意味規則と、ファイルのローカルコピーと
の利点を合わせ持っている。In the distributed system of the present invention, some files are designated as "duplicate files". A duplicate file is one in which there are multiple copies in the distributed system, each copy being exactly equivalent to the other copy. Exact equality of files means that accessing any copy has the same result as having only one local copy of the file and all access processes running on the same host. Is to be. Thus, the distributed system of the present invention combines the advantages of a local copy of a file with the file system semantics of accessing a single file on the system such that processes run on the same host.
【0010】本発明のもう1つの特徴は、複製ファイル
のコピーに対する書き込み操作を同期する技術にある。
分散システムホストの要素システムが、複製ファイルを
変更する操作を、複製ファイルのコピーに対して実行す
るときはいつでも、同一の操作を指定するメッセージ
が、その複製ファイルのコピーを有する他のすべての要
素システムに送られる。すべてのメッセージは同一のチ
ャネルを通じて移動するため、操作の順序はすべてのコ
ピーに対して同一である。書き込み操作は、基本書き込
み操作であることも可能であり、あるいは、複製ファイ
ルに含まれるデータに関する操作の指定であることも可
能である。Another feature of the present invention is a technique for synchronizing write operations for copies of duplicate files.
Whenever an element system of a distributed system host performs an operation that modifies a duplicate file on a copy of the duplicate file, a message specifying the same operation will cause all other elements that have that copy of the duplicate file to have a message specifying the same operation. Sent to the system. Since all messages travel over the same channel, the order of operation is the same for all copies. The write operation can be a basic write operation, or it can be the designation of an operation on the data contained in the duplicate file.
【0011】もう1つの特徴は、複製ファイルに対する
順次読み出し操作が書き込み操作と同期していることで
あり、その結果、シングルプロセッサシステムにおける
通常のファイルに対して実行される読み出し操作と同一
の意味規則を有することになる。Another feature is that the sequential read operations on the duplicate files are synchronized with the write operations, which results in the same semantics as read operations performed on regular files in single processor systems. Will have.
【0012】順次読み出し操作と書き込み操作の同期
は、各複製ファイルに対する読み出しトークンおよび書
き込みトークンと、分散システムの各要素内のトークン
サーバとを使用する分散同期システムによって実現され
る。複製ファイルに対して書き込み操作を実行するシス
テムの要素は書き込みトークンを有していなければなら
ず、順次読み出し操作を実行する要素は、読み出しトー
クンまたは書き込みトークンを有していなければならな
い。要素がトークンを取得するには、その要素のトーク
ンサーバが他の要素のトークンサーバにそのトークンを
要求する。トークンサーバは、未完了の書き込み操作を
指定するすべてのメッセージを他の要素から受信した後
にのみそのトークンを受信する。その結果、書き込み操
作はすべてのローカルコピーに対して同じ順序で実行さ
れ、順次読み出し操作はすべてのコピーに対して同じ結
果を有する。Synchronization of sequential read and write operations is accomplished by a distributed synchronization system that uses read and write tokens for each replicated file and a token server within each element of the distributed system. The element of the system that performs a write operation on the duplicate file must have a write token, and the element that performs a sequential read operation must have a read token or a write token. To get a token, an element's token server requests the token from another element's token server. The token server receives the token only after receiving all messages specifying incomplete write operations from other elements. As a result, write operations are performed in the same order for all local copies, and sequential read operations have the same results for all copies.
【0013】本発明の同期システムのもう1つの特徴
は、複製ファイルの各ローカルコピーに対する7個のロ
ックを使用して実装されることである。これらのロック
は、標準的なオペレーティングシステムの共有ロックお
よび排他ロックを使用して順に実装される。Another feature of the synchronization system of the present invention is that it is implemented using seven locks on each local copy of the duplicate file. These locks are in turn implemented using standard operating system shared and exclusive locks.
【0014】本発明のさらにもう1つの特徴は、複製フ
ァイルへのアクセスのトランザクション的同期をサポー
トするために使用することができることである。Yet another feature of the invention is that it can be used to support transactional synchronization of access to replicated files.
【0015】本発明の利点は、複製ファイルを保守する
ために必要な操作が、分散システムのユーザレベルで実
装可能であることにある。その結果、本発明は、特殊な
ハードウェアや特殊なオペレーティングシステムを必要
としない。好ましい実施の形態は、ユーザレベルのバッ
クアップファイルシステムの変更として実装される。An advantage of the present invention is that the operations required to maintain duplicate files can be implemented at the user level of a distributed system. As a result, the present invention does not require special hardware or special operating systems. The preferred embodiment is implemented as a user level backup file system modification.
【0016】[0016]
[ライブラリを使用したインタフェースの変更:図2]
既に説明したように、コンピュータシステムは層化され
ている。各層は隣の上位層へのインタフェースを提供す
る。上位層は、下位層のインタフェースによって要求さ
れるように下位層が実行する操作を指定する。上位層が
下位層によって要求されるインタフェースに従っていな
い場合、上位層と下位層の間にアダプタ層を追加しなけ
ればならない。アダプタ層の目的は、上位層によって期
待されるインタフェースに従ってなされる操作指定を、
下位層のインタフェースによって要求される操作指定に
変換することである。この技術を使用して、例えば、M
SDOSオペレーティングシステムを実行しているPC
が、ユーザには、UNIXオペレーティングシステムを
実行しているコンピュータであるかのように見えるよう
にすることが可能である。[Changing the interface using the library: Figure 2]
As already mentioned, computer systems are layered. Each layer provides an interface to the next higher layer. The upper layer specifies the operations to be performed by the lower layer as required by the lower layer interface. If the upper layer does not follow the interface required by the lower layer, an adapter layer must be added between the upper and lower layers. The purpose of the adapter layer is to specify the operational specifications made according to the interfaces expected by the upper layers,
It is to convert to the operation specification required by the lower layer interface. Using this technique, for example, M
PC running SDOS operating system
However, it is possible for the user to appear as though it were a computer running the UNIX operating system.
【0017】アダプタ層が多くのアプリケーションプロ
グラムによって要求されるとき、これはライブラリルー
チンのセットとして実装されることが多い。その名前か
らわかるように、ライブラリルーチンは、コンピュータ
システムのサブシステムのメーカが、そのコンピュータ
システムのユーザに対して、アプリケーションプログラ
ムとともに使用するように提供するルーチンのことであ
る。図2に、どのようにしてライブラリルーチンがアダ
プタ層をなすように使用されるかを示す。ユーザプログ
ラム201は、次の層(この場合には、システムルーチ
ンのセット)へのインタフェース206を有する。しか
し、ユーザプログラム201が使用されるコンピュータ
システムのシステムルーチンは、インタフェース213
を有する。インタフェース206とインタフェース21
3の相違は、図2では、インタフェースを表す線の形の
相違によって表されている。アダプタ層はライブラリル
ーチン207からなり、ユーザプログラム201によっ
て要求される隣の上位層に対するインタフェース206
と、システムルーチン205によって要求される隣の下
位層に対するインタフェース213とを有する。インタ
フェースは実際にはファンクション(関数)呼出しから
なり、ライブラリルーチン207内のルーチンは、イン
タフェース206によって要求されるファンクション呼
出し203に応答して、インタフェース213によって
要求されるファンクション呼出しを生成し、ファンクシ
ョン呼出し203によって指定される操作を実行するこ
とによって動作する。システムルーチン215は、終了
すると、その実行の結果を矢印211で示されるように
ライブラリルーチン207に返し、続いてライブラリル
ーチン211はその結果を復帰205によって示される
ようにユーザプログラム201に返す。When the adapter layer is required by many application programs, it is often implemented as a set of library routines. As the name implies, library routines are routines provided by the manufacturer of a subsystem of a computer system to users of the computer system for use with application programs. FIG. 2 shows how the library routines are used to form the adapter layer. The user program 201 has an interface 206 to the next layer (in this case, a set of system routines). However, the system routine of the computer system in which the user program 201 is used is the interface 213.
Having. Interface 206 and interface 21
The difference 3 is represented in FIG. 2 by the difference in the shape of the lines representing the interfaces. The adapter layer is composed of library routines 207, and is an interface 206 to the next upper layer required by the user program 201.
And an interface 213 to the next lower layer required by the system routine 205. The interface actually consists of a function call, and the routines in the library routine 207 respond to the function call 203 required by the interface 206 to generate the function call required by the interface 213 and to call the function call 203. It works by performing the operation specified by. When finished, the system routine 215 returns the result of its execution to the library routine 207 as indicated by arrow 211, which in turn returns the result to the user program 201 as indicated by the return 205.
【0018】[動的リンクライブラリルーチンを使用し
たインタフェースの再定義]インタフェースを再定義す
るためのライブラリルーチンの有用性は、従来のシステ
ムでは、ユーザプログラム201に対する実行可能コー
ドが生成されるときにユーザプログラム201にリンク
されなければならないということによって制限されてい
た。この場合のリンクとは、ユーザプログラム201に
おけるライブラリルーチンの呼出しが、ライブラリルー
チン207のコピー内のライブラリルーチンの位置に関
係づけられるプロセスをいう。リンクは実行可能コード
が生成されるときに行われなければならなかったため、
実行可能コードのコピーしか有しないユーザは、あるラ
イブラリルーチン207の他のライブラリルーチン20
7のセットと置換することは不可能であった。Redefining Interfaces Using Dynamic Link Library Routines The usefulness of library routines for redefining interfaces is that in conventional systems, when the executable code for user program 201 is generated by the user. It was limited by the fact that it had to be linked to program 201. Linking in this case refers to the process by which the invocation of the library routine in the user program 201 is related to the position of the library routine in the copy of the library routine 207. The link had to be done when the executable code was generated, so
A user who has only a copy of the executable code can copy one library routine 207 to another library routine 20.
It was not possible to replace the 7 set.
【0019】現在ではコンピュータシステムは発展して
きており、ライブラリルーチンはユーザプログラムに動
的にリンクすることが可能である。このようなコンピュ
ータシステムでは、リンクは、ユーザプログラムを実行
するプロセスが実行前にコンピュータシステムのメモリ
にロードされるときに行われる。動的リンクにより、ユ
ーザプログラムのオブジェクトコードを変更せずに、あ
るライブラリルーチンのセットを他のセットと置換する
ことが可能であり、それによって、ユーザプログラムが
動作するシステムの挙動を変えることが可能である。動
的リンクについての説明は、「共有ライブラリ(Shared
Libraries)」、Sun Microsystems, Inc.、米国カリフォ
ルニア州マウンテン・ビュー(1988年5月)、に記
載されている。Computer systems are now evolving and library routines can be dynamically linked into user programs. In such computer systems, the linking occurs when the process executing the user program is loaded into the memory of the computer system prior to execution. Dynamic linking allows you to replace one set of library routines with another without changing the object code of your program, which can change the behavior of the system on which your program runs. Is. For a description of dynamic linking, see Shared Library.
Libraries), Sun Microsystems, Inc., Mountain View, Calif., USA (May 1988).
【0020】図3に、どのようにして動的リンクを使用
してシステムの挙動を変えるかを示す。システム1(3
01)において、ユーザプロセス306はアプリケーシ
ョンプログラム309を実行しており、これに、オペレ
ーティングシステムライブラリ1(315)が動的にバ
インドされている。オペレーティングシステムライブラ
リ1(315)は、コール311および復帰313によ
って示されるアプリケーションプログラム309へのイ
ンタフェースを提供し、カーネルサーバ305へのコー
ル317およびカーネルサーバ305からの復帰319
を使用してコール311によって指定される操作を実行
する。システム2では、ユーザプロセス306は同じア
プリケーションプログラム309を実行し同じカーネル
サーバ305を使用しているが、こちらでは、オペレー
ティングシステムライブラリ2(321)によってオペ
レーティングシステムライブラリ1(315)が置換さ
れている。オペレーティングシステムライブラリ2(3
21)は、オペレーティングシステムライブラリ1(3
15)が行うすべてのことを行う。すなわち、システム
301を、システム301のように挙動するが副次的効
果323も生成するシステム303へと変換するのに必
要なことは、オペレーティングシステムライブラリ2
(321)をオペレーティングシステムライブラリ1
(315)の代わりにユーザプログラム309に動的に
リンクすることだけである。FIG. 3 illustrates how dynamic links are used to change the behavior of the system. System 1 (3
In 01), the user process 306 is executing the application program 309, to which the operating system library 1 (315) is dynamically bound. The operating system library 1 (315) provides an interface to the application program 309 indicated by call 311 and return 313, call 317 to kernel server 305 and return 319 from kernel server 305.
To perform the operation specified by call 311. In the system 2, the user process 306 executes the same application program 309 and uses the same kernel server 305, but here, the operating system library 2 (321) replaces the operating system library 1 (315). Operating system library 2 (3
21) is the operating system library 1 (3
Do all that 15) does. That is, what is needed to transform the system 301 into a system 303 that behaves like the system 301 but also produces side effects 323 is the operating system library 2.
Operating system library 1 (321)
It is only dynamically linked to the user program 309 instead of (315).
【0021】[動的リンクライブラリを使用したユーザ
レベル名前空間の作成]さらに、図4に、どのようにし
て動的リンクオペレーティングシステムライブラリ40
3を使用してユーザレベル名前空間405を作成し、ど
のようにしてユーザレベル名前空間405を使用して副
次的効果323を制御するかを示す。ファンクション、
ファイルおよびデバイスのようなコンピュータシステム
におけるエンティティはプログラムにおいて名前によっ
て呼ばれ、プログラムで使用される名前をその名前によ
って表されるエンティティに関係づけることはコンピュ
ータシステムの名前空間の機能である。従来のコンピュ
ータシステムでは、ユーザプログラムによって使用され
る名前空間はオペレーティングシステムによって作成さ
れ保守されている。システム401では、オペレーティ
ングシステムライブラリ403がユーザプロセス409
に対する1つ以上のユーザレベル名前空間405を作成
し保守する。ユーザレベル名前空間405がライブラリ
ルーチン403によって使用されることを可能にする1
つの方法は、カーネルサーバ305によってユーザプロ
グラム309に提供されるファイルシステムとは挙動、
構造、またはその両方において異なるユーザレベルの論
理ファイルシステムを作成することである。その後、こ
の論理ファイルシステムを使用して、副次的効果323
を制御する。例えば、システム401がバックアップフ
ァイルシステムである場合、副次的効果323は、バッ
クアップファイルシステムを生成するために要求される
ものであり、ユーザレベル名前空間405は、カーネル
サーバ305によって提供されるファイルシステムにお
けるどのファイルがバックアップファイルシステムにバ
ックアップされるべきかを指定することが可能である。
図4から明らかなように、ユーザレベル名前空間405
はユーザプロセス409の環境の一部である。[Creation of User-Level Namespace Using Dynamic Link Library] Further, FIG. 4 shows how to dynamically link operating system library 40.
3 is used to create the user-level namespace 405 and how the user-level namespace 405 is used to control the side effect 323. function,
Entities in a computer system, such as files and devices, are referred to by names in programs, and it is a function of the computer system's namespace to associate a name used in a program with the entity represented by that name. In conventional computer systems, the namespace used by user programs is created and maintained by the operating system. In the system 401, the operating system library 403 is the user process 409.
Create and maintain one or more user-level namespaces 405 for. Allows user level namespace 405 to be used by library routines 403 1
Two methods behave differently from the file system provided by the kernel server 305 to the user program 309,
Creating a user-level logical file system that differs in structure, or both. Then, using this logical file system, side effect 323
Control. For example, if system 401 is a backup file system, side effect 323 is that required to create a backup file system, and user level namespace 405 is the file system provided by kernel server 305. It is possible to specify which files in the backup file system should be backed up.
As is clear from FIG. 4, the user level namespace 405
Is a part of the environment of the user process 409.
【0022】[ユーザレベルバックアップファイルシス
テムの概観:図5〜図6]上記の動的リンクライブラリ
およびユーザレベル名前空間を使用して、アプリケーシ
ョンプログラムを実行しているアプリケーションプロセ
スによって変更されたファイルのうち選択したもののみ
を自動的にバックアップするユーザレベルバックアップ
ファイルシステムを形成することが可能である。図5
に、そのようなユーザレベルバックアップファイルシス
テム501を示す。システム501は、2つのコンピュ
ータシステムによって実装される。主システム511で
は、アプリケーションプロセス503が実行され、バッ
クアップシステム513では、アプリケーションプロセ
ス503によって変更されたファイルのバックアップコ
ピーが保守される。主システム511およびバックアッ
プシステム513は通信媒体によって接続され、これに
よって、主システム511で実行されているプロセスか
らのメッセージをバックアップシステム513で実行さ
れているプロセスへ送ることができる。[Overview of User Level Backup File System: FIG. 5 to FIG. 6] Of the files modified by the application process executing the application program using the dynamic link library and the user level namespace described above. It is possible to create a user-level backup file system that automatically backs up only what you select. FIG.
Shows such a user level backup file system 501. System 501 is implemented by two computer systems. The main system 511 runs the application process 503, and the backup system 513 maintains a backup copy of the files modified by the application process 503. The primary system 511 and the backup system 513 are connected by a communication medium, which allows messages from processes running on the primary system 511 to be sent to processes running on the backup system 513.
【0023】主システム511上のシステム501の要
素は、アプリケーションプロセス503およびカーネル
サーバ305(a)である。カーネルサーバ305
(a)は主システム511にファイルシステムを提供す
る。図5において、ファイルシステムは主システム51
1に対してローカルなディスク307(a)によって表
されているが、これは他のシステム上に位置するリモー
トファイルシステムでも全くかまわない。いずれの場合
にも、カーネルサーバ305(a)は、アプリケーショ
ンプロセス503からのコール317に応答して、提供
するファイルシステムに対するファイル操作を実行し、
結果319をプロセス503に返し、自分自身必要な操
作をディスク307(a)に対して実行する。アプリケ
ーションプロセス503は、動的リンク可能ライブラリ
を使用して、カーネルサーバ305(a)とともにファ
イル操作を実行する。主システム511では、このライ
ブラリは、lib.3d(507)と呼ばれる新たなラ
イブラリによって置換されている。ライブラリ507
は、いくつかのファイルを変更するファイル操作を指定
するコール311に応答して、カーネルサーバ305へ
の適当なコール317を提供するだけでなく、バックア
ップメッセージ512をバックアップシステム513に
送る。変更の結果バックアップメッセージ512を送る
ことになるファイルはフロントエンド複製ツリー(FR
T)505で指定される。複製ツリー505は、矢印5
06で示されるように、lib.3d(507)内のル
ーチンによって保守され使用される。このようにして、
複製ツリー505は、変更の結果システム513上のバ
ックアップファイルを変更することになるファイルから
なるユーザレベル論理ファイルシステムを定義する。The elements of system 501 on main system 511 are application process 503 and kernel server 305 (a). Kernel server 305
(A) provides a file system to the main system 511. In FIG. 5, the file system is the main system 51.
Although represented by a disk 307 (a) local to 1, it can be a remote file system located on another system at all. In any case, the kernel server 305 (a) executes the file operation for the file system to be provided in response to the call 317 from the application process 503,
The result 319 is returned to the process 503, and the operation required by itself is executed on the disk 307 (a). The application process 503 uses the dynamically linkable library to perform file operations with the kernel server 305 (a). In the main system 511, this library is the lib. It has been replaced by a new library called 3d (507). Library 507
In addition to providing an appropriate call 317 to kernel server 305 in response to a call 311 that specifies a file operation that modifies some files, sends a backup message 512 to backup system 513. The file that will result in the backup message 512 being sent is the front end replication tree (FR).
T) 505. The replication tree 505 is arrow 5
06, the lib. It is maintained and used by the routines in 3d (507). In this way,
Replication tree 505 defines a user-level logical file system of files that will result in modification of the backup files on system 513 as a result of modification.
【0024】バックアップシステム513上のシステム
501の要素は、バックエンドサーバ515、ユーザレ
ベルプロセス、ならびにカーネルサーバ305(b)お
よびディスク307(b)であり、バックアップシステ
ム513のための標準的なファイルシステムサーバおよ
びディスクドライブである。カーネルサーバ305
(b)はバックエンドサーバ515にファイルシステム
を提供する。図5では、ファイルシステムのためのデー
タはローカルディスク307(b)上に記憶されてい
る。しかし、これはリモートシステムに記憶することも
可能である。バックエンドサーバ515は、カーネルサ
ーバ305(b)へのコール317によってファイル操
作を実行し、そのコールの結果をサーバ305(b)か
ら受け取る。バックエンドサーバ515はバックエンド
マップ517を保守する。バックエンドマップ517
は、フロントエンド複製ツリー505によって指定され
るファイルを、バックアップとして使用されるバックア
ップシステム513のファイルシステム内のファイル上
にマップする。カーネルサーバ305(a)によって生
成されるファイルシステムとカーネルサーバ305
(b)によって生成されるファイルシステムが同一の名
前空間を有するような実施の形態では、バックエンドマ
ップ517は不要となる。The elements of system 501 on backup system 513 are backend server 515, user-level processes, and kernel server 305 (b) and disk 307 (b), the standard file system for backup system 513. Server and disk drive. Kernel server 305
(B) provides the backend server 515 with a file system. In FIG. 5, the data for the file system is stored on local disk 307 (b). However, it can also be stored on a remote system. The backend server 515 performs a file operation by a call 317 to the kernel server 305 (b) and receives the result of the call from the server 305 (b). The backend server 515 maintains a backend map 517. Backend map 517
Maps the file specified by the front-end replication tree 505 onto a file in the file system of the backup system 513 used as a backup. File system generated by kernel server 305 (a) and kernel server 305
In the embodiment in which the file systems generated by (b) have the same namespace, the backend map 517 is unnecessary.
【0025】どのようにしてシステム501が動作する
かは図6から明らかとなる。図6には、ファイルを変更
するライブラリ507内のルーチン601の形式の一般
的概略が示されている。ルーチン名603およびこのル
ーチンがとる引数605は、ライブラリ507によって
置換されたライブラリ内のファイル操作を実行するため
に使用される関数の名前および引数と同一である。その
結果、アプリケーションプログラム509におけるこの
ルーチンの呼出しはルーチン601を呼び出す。必要な
準備を実行した後、ルーチン601はカーネルサーバ3
05(a)に、ルーチン601によって置換されたルー
チンと同じファイル操作を実行させる。この操作が成功
した場合、ルーチン613は、変更されたファイルの名
前とともに関数613を呼び出し、変更されたファイル
がバックアップされるべきであるということをフロント
エンド複製ツリー505が示しているかどうかを判定す
る。フロントエンド複製ツリーがそのように示している
場合、関数615は引数617によりメッセージ512
をバックアップシステム513へ送る。メッセージ51
2は、バックアップシステム513が、サーバ305
(a)によって提供されるファイルシステム上でちょう
ど実行されたのと全く同じ操作をバックアップファイル
システムに対して実行するよう要求する。このメッセー
ジを送った後、ルーチン601は復帰する。これは、フ
ァイルがフロントエンド複製ツリー505内になかった
場合、または、関数607によって指定される操作が成
功しなかった場合も同様である。図6で611とラベル
されているコードのセクションは、副次的効果(この場
合はメッセージ512)を指定する。ここで注意すべき
ルーチン601の特徴は、メッセージ512がバックア
ップシステム513に送られるのはファイル操作が主シ
ステム511で成功した場合のみであるということであ
る。これは、不成功の操作はバックアップする必要がな
いためである。It will be clear from FIG. 6 how the system 501 operates. FIG. 6 shows a general outline of the format of routine 601 in library 507 that modifies a file. The routine name 603 and the arguments 605 it takes are the same as the names and arguments of the functions used to perform file operations in the library replaced by the library 507. As a result, the calling of this routine in the application program 509 calls the routine 601. After performing the necessary preparations, routine 601 executes kernel server 3
05 (a) executes the same file operation as the routine replaced by routine 601. If this operation is successful, routine 613 calls function 613 with the name of the modified file to determine if front-end replication tree 505 indicates that the modified file should be backed up. . If the front end replication tree indicates so, function 615 returns message 512 with argument 617.
To the backup system 513. Message 51
2, the backup system 513 is the server 305.
Request the backup file system to perform exactly the same operations that were just performed on the file system provided by (a). After sending this message, routine 601 returns. This is also the case if the file was not in the front end replication tree 505, or if the operation specified by function 607 was unsuccessful. The section of code labeled 611 in FIG. 6 specifies a side effect (message 512 in this case). A feature of routine 601 to be noted here is that message 512 is sent to backup system 513 only if the file operation is successful on primary system 511. This is because unsuccessful operations do not need to be backed up.
【0026】システム501には一般的に2つのクラス
のファイル操作がある。フロントエンド複製ツリー50
5およびバックエンドマップ517によって実装された
ユーザレベル名前空間405を変更するものとそうでな
いものである。第2のクラスの操作の一例は、フロント
エンド複製ツリー505に指定されたファイルへの書き
込みである。lib.3d(507)内の書き込みファ
ンクションは、lib.3dによって置換されたライブ
ラリ内の書き込みファンクションと同じインタフェース
を有する。好ましい実施の形態では、これは、引数とし
て、ファイルを指定するためにカーネルサーバ305
(a)によって使用される整数のファイルディスクリプ
タと、書き込むデータを含むバッファへのポインタと、
書き込むデータのサイズを示す整数とをとる。lib.
3d内の書き込みファンクションは、カーネルサーバ3
05(a)が、ファイルディスクリプタによって指定さ
れるファイルに対してシステム書き込みファンクション
を実行することを要求し、その操作が成功した場合、こ
のファンクションは、そのファイルディスクリプタによ
って指定されるファイルがフロントエンド複製ツリー5
05内に存在するかどうかを検査する。存在する場合、
ファンクションはバックアップシステム513内のバッ
クエンドサーバ515へ書き込みメッセージ512を送
り復帰する。このメッセージは、カーネルサーバ305
(a)によってちょうど書き込まれたファイルを指定
し、カーネルサーバ305(a)によって提供されるフ
ァイルシステム内のシステム書き込み操作によってちょ
うど実行された書き込み操作を全く同様にバックアップ
ファイルシステムにおいて実行するのに必要な情報を含
む。バックエンドサーバ515は、このメッセージを受
け取ると、バックエンドマップ517を使用して、カー
ネルサーバ305(b)がバックアップファイルに対し
て使用するファイルディスクリプタを判定してから、カ
ーネルサーバ305(b)によって提供されるシステム
書き込みファンクションを使用して、このメッセージに
よって提供されるデータおよび位置の情報を用いてバッ
クアップファイルに対して書き込み操作を実行する。There are generally two classes of file operations in system 501. Front-end replication tree 50
5 and the user level namespace 405 implemented by the backend map 517 are modified and not modified. An example of a second class of operation is writing to a file specified in the front end replication tree 505. lib. The write function in 3d (507) is the lib. It has the same interface as the write function in the library replaced by 3d. In the preferred embodiment, this is the kernel server 305 to specify the file as an argument.
An integer file descriptor used by (a) and a pointer to a buffer containing the data to be written,
Takes an integer indicating the size of the data to be written. lib.
The write function in 3d is the kernel server 3
05 (a) requests that the system write function be performed on the file specified by the file descriptor, and if the operation is successful, this function returns the file specified by that file descriptor as a front-end replica. Tree 5
Check if it exists in 05. If there,
The function sends a write message 512 to the backend server 515 in the backup system 513 and returns. This message is sent to the kernel server 305
Required to specify a file just written by (a) and perform a write operation just performed by a system write operation in the file system provided by kernel server 305 (a) on the backup file system just as well. Including information. Upon receiving this message, the backend server 515 uses the backend map 517 to determine the file descriptor that the kernel server 305 (b) uses for the backup file, and then the kernel server 305 (b) determines The system write function provided is used to perform a write operation on the backup file with the data and location information provided by this message.
【0027】ユーザレベル名前空間405を変更する操
作の簡単な場合はファイル削除である。lib.3dに
よって提供される削除ファンクションは、まずカーネル
サーバ305(a)にファイルを削除するよう要求す
る。この削除が終了すると、削除ファンクションは、削
除されたファイルに関する情報をフロントエンド複製ツ
リー505から削除することが必要かどうかを検査す
る。それが必要な場合、ファンクションはその情報を削
除する。次に、ファンクションは、削除に必要なメッセ
ージをバックエンドサーバ515へ送り復帰する。バッ
クエンドサーバ515は、このメッセージを受け取る
と、バックエンドマップ517内でそのファイルを見つ
け、カーネルサーバ305(b)にそのファイルを削除
するよう要求するとともに、この削除によって要求され
る操作をバックエンドマップ517に対して実行する。A simple case of the operation of changing the user level namespace 405 is file deletion. lib. The delete function provided by 3d first requests the kernel server 305 (a) to delete the file. When this delete is complete, the delete function checks if information about the deleted file needs to be deleted from the front end replication tree 505. If it does, the function deletes that information. The function then sends the message needed for deletion to the backend server 515 and returns. Upon receiving this message, the backend server 515 finds the file in the backend map 517, requests the kernel server 305 (b) to delete the file, and backends the operation requested by this deletion. Execute on map 517.
【0028】より複雑な例は名前変更である。カーネル
サーバ305(a)によって提供されるファイルシステ
ム内のファイルの名前変更がユーザレベル名前空間40
5において引き起こす結果には3つの可能性がある。A more complex example is renaming. Renaming a file in the file system provided by the kernel server 305 (a) causes the user level namespace 40
There are three possible outcomes to cause in 5.
【0029】1.そのファイルの古い名前がユーザレベ
ル名前空間405の一部であり、新しい名前もまたユー
ザレベル名前空間405の一部である場合、そのファイ
ルはユーザレベル名前空間405内にとどまる。 2.そのファイルの古い名前はユーザレベル名前空間4
05の一部でないが、新しい名前はユーザレベル名前空
間405の一部である場合、そのファイルはユーザレベ
ル名前空間405に追加される。 3.そのファイルの古い名前はユーザレベル名前空間4
05の一部であるが、新しい名前はユーザレベル名前空
間405の一部でない場合、そのファイルはユーザレベ
ル名前空間405から削除される。1. If the old name of the file is part of the user-level namespace 405 and the new name is also part of the user-level namespace 405, then the file remains in the user-level namespace 405. 2. The old name of the file is user-level namespace 4
If the new name is not part of 05 but is part of the user level namespace 405, then the file is added to the user level namespace 405. 3. The old name of the file is user-level namespace 4
05 but the new name is not part of the user level namespace 405, the file is deleted from the user level namespace 405.
【0030】第1の場合、lib.3dの名前変更ファ
ンクションは、カーネルサーバ305(a)に、そのフ
ァイルシステムにおける名前変更を行うよう要求する。
次に、このファンクションは、名前変更されたファイル
がユーザレベル名前空間405内にあるかどうかを検査
し、ユーザレベル名前空間405内にある場合、名前変
更ファンクションは、その変更を反映するようにフロン
トエンド複製ツリー505を変更し、バックエンドサー
バ515における名前変更を要求するメッセージをバッ
クエンドサーバ515へ送り、復帰する。このメッセー
ジはもちろん、旧パス名および新パス名を含む。バック
エンドサーバ515は、このメッセージを受信すると、
カーネルサーバ305(b)に名前変更を要求する。In the first case, lib. The rename function of 3d requests the kernel server 305 (a) to perform the rename in its file system.
The function then checks if the renamed file is in the user-level namespace 405, and if it is in the user-level namespace 405, the rename function fronts it to reflect the change. It modifies the end replication tree 505, sends a message to the backend server 515 requesting a name change at the backend server 515, and returns. This message will of course include the old and new pathnames. When the backend server 515 receives this message,
Request a name change from the kernel server 305 (b).
【0031】第2の場合、名前変更ファンクションは、
サーバ305(a)に名前変更を要求し、前のように、
名前変更されたファイルがユーザレベル名前空間405
内にあるかどうかを検査するが、今度は、ファンクショ
ンは、名前変更されたファイルをフロントエンド複製ツ
リー505から削除し、メッセージをバックエンドサー
バ515へ送り、復帰する。バックエンドサーバ515
へのメッセージは、そのファイルに対する削除メッセー
ジである。このメッセージに応答して、バックエンドサ
ーバ515はカーネルサーバ305(b)にバックアッ
プファイルを削除させる。In the second case, the rename function is
Request the server 305 (a) to rename and, as before,
Renamed file is in user-level namespace 405
, But this time the function deletes the renamed file from the frontend replication tree 505, sends a message to the backend server 515, and returns. Back-end server 515
Is a delete message for the file. In response to this message, the backend server 515 causes the kernel server 305 (b) to delete the backup file.
【0032】第3の場合も、前のように、名前変更ファ
ンクションは名前変更を要求するが、今度は、2つのメ
ッセージを送らなければならない。第1のメッセージ
は、ユーザレベル名前空間405へ移動されたファイル
の名前を有するファイルをバックアップシステム513
内に作成することを要求する。バックエンドサーバ51
5はこのメッセージに応答してカーネルサーバ305
(b)がそのファイルを作成することを要求し、バック
エンドマップ517内にそのファイルのエントリを作成
する。その後、名前変更ファンクションはユーザレベル
名前空間405に移動されたファイルの現在の内容とと
もに書き込みメッセージを送る。バックエンドサーバ5
15はこの書き込みメッセージに応答して、カーネルサ
ーバ305(b)によって、バックアップシステム51
3内のバックアップファイルにその内容を書き込む。In the third case, as before, the rename function requests a rename, but now it has to send two messages. The first message backs up the file with the name of the file that was moved to the user-level namespace 405, the backup system 513.
Request to create in. Back-end server 51
5 responds to this message by the kernel server 305
(B) requests that the file be created and creates an entry for that file in backend map 517. The rename function then sends a write message with the current contents of the file moved to the user level namespace 405. Back-end server 5
15 responds to this write message by the kernel server 305 (b), and the backup system 51
Write the contents to the backup file in 3.
【0033】以上のことからわかるように、主システム
511内のカーネルサーバ305(a)によって実行さ
れる単一の操作は、バックエンドサーバ505がカーネ
ルサーバ305(b)に一連の操作を実行させることを
要求する。さらに理解されるように、lib.3d(5
07)内のファンクションによって実行される操作の最
後には、バックエンドマップ517およびフロントエン
ド複製ツリー505は常に同じ状態になる。As can be seen from the above, a single operation performed by the kernel server 305 (a) in the main system 511 causes the backend server 505 to cause the kernel server 305 (b) to perform a series of operations. Request that. As will be further understood, lib. 3d (5
At the end of the operations performed by the functions in 07), the backend map 517 and the frontend replication tree 505 are always in the same state.
【0034】[好ましい実施の形態の実装:図7〜図1
1]図7に、ユーザレベルバックアップファイルシステ
ムの好ましい実施の形態701の詳細ブロック図を示
す。この好ましい実施の形態は、一方のプロセッサがU
NIXオペレーティングシステムのSunOS4.1バージ
ョンを実行しており他方のプロセッサがUNIXオペレ
ーティングシステムのMIPS4.5バージョンを実行
しているシステムにおいて実装された。システム701
には要素の2つのグループがある。一方のグループの要
素はバックアップファイル操作を実行し、他方のグルー
プの要素はシステム701をフォールトトレラントにす
る。以下の説明では、まず、バックアップファイル操作
を実行する要素について説明し、その後で、フォールト
トレランスを提供する要素について説明する。[Implementation of the Preferred Embodiment: FIGS.
1] FIG. 7 shows a detailed block diagram of a preferred embodiment 701 of the user level backup file system. In this preferred embodiment, one processor is U
It was implemented in a system running the SunOS 4.1 version of the UNIX operating system and the other processor running the MIPS 4.5 version of the UNIX operating system. System 701
There are two groups of elements. Elements of one group perform backup file operations and elements of the other group make system 701 fault tolerant. The following description first describes the elements that perform backup file operations, and then the elements that provide fault tolerance.
【0035】主システム511から始めると、アプリケ
ーションプロセス503は、アプリケーションプログラ
ム509、動的リンク可能ライブラリlib.3d(5
07)、およびフロントエンド複製ツリー505を有す
る。ライブラリ507のファンクションはファイル操作
の副次的効果としてバックアップファイル操作を実行す
る。システム501において、ファイル操作は、カーネ
ルサーバ305(a)によって実行される。ライブラリ
507内のファンクションによって生成されるメッセー
ジは、パイプ710によってバックアップシステム51
3へ運ばれる。パイプ710は、パイププロセス711
によってアプリケーションプロセス503に提供され、
パイププロセス711自体、パイプ709によってアプ
リケーションプロセス503と通信する。以下でさらに
詳細に説明するように、パイププロセス711は、バッ
クアップシステム513上にバックアップを作成するす
べてのアプリケーションプロセス503によって使用さ
れる単一のパイプ710を提供する。Starting from the main system 511, the application process 503 consists of an application program 509, a dynamically linkable library lib. 3d (5
07), and the front end replication tree 505. The functions of library 507 perform backup file operations as a side effect of file operations. In the system 501, file operations are executed by the kernel server 305 (a). The message generated by the function in the library 507 is sent by the pipe 710 to the backup system 51.
Carried to 3. The pipe 710 is a pipe process 711.
Provided to the application process 503 by
The pipe process 711 itself and the pipe 709 communicate with the application process 503. As will be described in more detail below, pipe process 711 provides a single pipe 710 used by all application processes 503 to create backups on backup system 513.
【0036】次に、好ましい実施の形態におけるバック
アップシステム513において、バックエンドサーバ5
15は2つのプロセス、すなわち、バックエンドログプ
ロセス(BLP)716およびシステムコールエンジン
(SYSCALL ENG)715に分かれる。いずれ
もカーネルサーバ305(b)を使用してファイル操作
を実行する。バックアップファイルに加えて、カーネル
サーバ305(b)によって保守されるファイルシステ
ムはログファイル703(b)を含むNext, in the backup system 513 in the preferred embodiment, the backend server 5
15 is divided into two processes: a backend log process (BLP) 716 and a system call engine (SYSCALL ENG) 715. Both use the kernel server 305 (b) to perform file operations. In addition to the backup files, the file system maintained by the kernel server 305 (b) includes log files 703 (b).
【0037】動作は以下の通りである。アプリケーショ
ンプロセス503は、初期化されると、パイプ710を
指定するファイル識別子をパイププロセス711から取
得する。アプリケーションプログラム509の実行の結
果、ファイル操作が実行されると、lib.3d(50
7)内のその操作に対するファンクションは、カーネル
サーバ305(a)によって提供されるファイルシステ
ムに対して、カーネルサーバ305(a)にそのファン
クションを実行させ、さらに、パイプ710を通じてメ
ッセージをバックアップシステム513に送る。このメ
ッセージは、バックアップシステム513に到着する
と、バックアップログプロセス716によって受け取ら
れる。バックアップログプロセス716は、カーネルサ
ーバ305(b)によって提供されるファイルシステム
内のログファイル703(b)内にそのメッセージをロ
グする。ログファイル703(b)がメッセージを有す
るときにはいつでも、そのメッセージは、到着順に、シ
ステムコールエンジンプロセス715によって読み出さ
れる。好ましい実施の形態では、バックエンドマップ5
17はシステムコールエンジンプロセス715に属す
る。システムコールエンジンプロセス715は、メッセ
ージを読み出すと、カーネルサーバ305(b)に、そ
のメッセージによって要求されるファイル操作を実行さ
せ、システムコールエンジンプロセス715自信は、そ
のメッセージによって要求されるようにバックエンドマ
ップ517を保守する。The operation is as follows. When initialized, the application process 503 acquires a file identifier designating the pipe 710 from the pipe process 711. When a file operation is executed as a result of the execution of the application program 509, lib. 3d (50
The function for that operation in 7) causes the kernel server 305 (a) to execute the function for the file system provided by the kernel server 305 (a), and further sends a message to the backup system 513 via the pipe 710. send. Upon arrival at the backup system 513, this message is received by the backup log process 716. The backup log process 716 logs the message in the log file 703 (b) in the file system provided by the kernel server 305 (b). Whenever log file 703 (b) has a message, that message is read by system call engine process 715 in order of arrival. In the preferred embodiment, the backend map 5
17 belongs to the system call engine process 715. When the system call engine process 715 reads the message, it causes the kernel server 305 (b) to perform the file operation requested by the message, and the system call engine process 715 self-backends as requested by the message. Maintain map 517.
【0038】[システム701のフォールトトレラント
動作]システムのフォールトトレラント動作には、故障
が検出され、検出された故障に応じてシステムが動作を
継続することができるようになっていることが要求され
る。好ましい実施の形態では、故障の検出およびその故
障への応答は、WatchDという、分散システムをフ
ォールトトレラントにするためのユーザレベルのシステ
ムによって扱われる。WatchDについての詳細は、
ワイ.フアン(Y. Huang)、シー.キンタラ(C. Kintal
a)、「ソフトウェア実装フォールトトレラント:技術と
経験(Software Implemented Fault Tolerance: Technol
ogies andExperiences)」、第23回フォールトトレラ
ントコンピューティングに関する国際会議(23rd Intern
ational Conference on Fault Tolerant Computing)、
フランス国ツールーズ、1993年6月22〜24日、
に記載され、また、米国特許出願第07/954,54
9号(発明者:ワイ.フアン(Y. Huang)、出願日:19
92年9月30日)の主題ともなっている。本発明の説
明のためには、WatchDシステムが、libftと
いうライブラリと、分散システムの各ノード上の1つの
モニタプロセスとを含むことを理解していればよい。l
ibftは、WatchDにプロセスを登録する操作、
自動バックアップ用にメモリの領域を指定する操作、お
よび、そのメモリ領域に対してチェックポイント操作を
実行する操作などを実行するルーチンを含む。モニタプ
ロセスは、WatchDに登録されたユーザプロセスを
モニタするとともに、相互をモニタする。モニタは、登
録されているプロセスが故障したと判定すると、そのプ
ロセスを再起動する。プロセスは、libftファンク
ションによって再起動されたときに何が起きたかを判定
することが可能である。分散システムの1つのノード上
のユーザプロセスをモニタする間、モニタは、重要デー
タ(これもまたlibftファンクションを使用して定
義される)のコピーを分散システムの他のノードへ移動
することが可能である。そのモニタのノードが故障する
と、他のノード上のモニタがその故障を検出し、重要デ
ータの現在のコピーを使用して当該他のノード上でユー
ザプロセスを再起動する。故障したノードが復旧する
と、そのノードのモニタは、他のノードからの重要情報
を使用してユーザプロセスを再起動し、ユーザプロセス
が再起動されたことを示すメッセージを送る。他のノー
ドのモニタは、そのメッセージを受け取ると、当該他の
ノードで実行されているユーザプロセスを終了する。一
般に、WatchDモニタはリング構成で配置され、各
モニタはリングにおける隣のモニタをモニタする。リン
グ内のノードの数およびユーザプロセスの重要データの
コピーを受け取るモニタの数は、WatchDに登録さ
れたユーザプロセスを再起動することができなくなる前
に分散システムのいくつのノードが故障しなければなら
ないかを決定する。[Fault-Tolerant Operation of System 701] Fault-tolerant operation of the system requires that a failure be detected and that the system be able to continue operation in response to the detected failure. . In the preferred embodiment, fault detection and response to that fault is handled by WatchD, a user-level system for making distributed systems fault tolerant. For more information on WatchD,
Wai. Huang, Yi. C. Kintal
a), "Software Implemented Fault Tolerance: Technol
ogies and Experiences), 23rd International Conference on Fault Tolerant Computing (23rd Intern
ational Conference on Fault Tolerant Computing),
Toulouse, France, June 22-24, 1993,
And in US patent application Ser. No. 07 / 954,54.
No. 9 (Inventor: Y. Huang, filing date: 19
It is also the subject of September 30, 1992). For purposes of describing the present invention, it should be understood that the WatchD system includes a library called libft and one monitor process on each node of the distributed system. l
ibft is an operation to register a process in WatchD,
It includes routines that perform operations such as specifying an area of memory for automatic backup, and performing checkpoint operations on that memory area. The monitor process monitors user processes registered in WatchD and monitors each other. When the monitor determines that the registered process has failed, the monitor restarts the process. The process can determine what happened when it was restarted by the libft function. While monitoring a user process on one node of a distributed system, the monitor is able to move a copy of important data (also defined using the libft function) to another node of the distributed system. is there. If that monitor's node fails, the monitor on the other node will detect the failure and restart the user process on that other node using the current copy of the critical data. When the failed node comes back up, the monitor for that node restarts the user process using the critical information from the other node and sends a message indicating that the user process has been restarted. Upon receiving the message, the monitor of the other node terminates the user process executing in the other node. In general, WatchD monitors are arranged in a ring configuration, with each monitor monitoring the next monitor in the ring. The number of nodes in the ring and the number of monitors that receive a copy of the critical data of the user process must dictate how many nodes in the distributed system must fail before the user process registered with WatchD cannot be restarted. Decide
【0039】好ましい実施の形態では、主システム51
1およびバックアップシステム513はそれぞれWat
chDモニタを有する。これらのモニタとシステム70
1の要素の間の関係は、破線矢印721で示されてい
る。主システム511のモニタはモニタ717である。
破線矢印721で示されるように、モニタ717は、パ
イププロセス711、フロントエンドログプロセス70
5、およびシステム513内のモニタ719を監視す
る。モニタ719は、モニタ717、システムコールエ
ンジンプロセス715、およびバックエンドログプロセ
ス716を監視する。In the preferred embodiment, the main system 51
1 and backup system 513 are Wat
It has a chD monitor. These monitors and systems 70
The relationships between the elements of one are shown by the dashed arrows 721. The monitor of the main system 511 is the monitor 717.
As indicated by the dashed arrow 721, the monitor 717 has a pipe process 711 and a front end log process 70.
5 and monitor 719 in system 513. Monitor 719 monitors monitor 717, system call engine process 715, and backend log process 716.
【0040】図7に示されるように、システム701
は、フロントエンドログプロセス705、パイププロセ
ス711、システムコールエンジン715、バックエン
ドログプロセス716における故障、およびシステム5
13の故障を処理することができる。この設計は、フォ
ールトトレランスを与えるシステム701の2つの部分
を有し、2つの主要な目的を有する。As shown in FIG. 7, a system 701.
Is a failure in the front-end log process 705, the pipe process 711, the system call engine 715, the back-end log process 716, and the system 5
Thirteen faults can be handled. This design has two parts of the system 701 that provide fault tolerance and has two main purposes.
【0041】・パフォーマンスに関して、回復のオーバ
ヘッドが少ないことを保証する。 ・故障および回復がアプリケーションに透過的であり、
実行中のアプリケーションが停止しないことを保証す
る。In terms of performance, ensure that recovery overhead is low. · Failure and recovery are transparent to the application,
Guarantees that running applications are never stopped.
【0042】回復手続きは、WatchDがシステムに
おける最も信頼性のある要素であるという仮定に基づ
く。その理由は、WatchDは非常に単純なタスクを
実行し、故障後に自己回復が可能であるためである。The recovery procedure is based on the assumption that WatchD is the most reliable element in the system. The reason is that WatchD performs a very simple task and is capable of self-healing after a failure.
【0043】以下では、バックアップシステム513の
故障からの回復について詳細に説明し、他のプロセスの
故障からの回復についても概観する。バックアップシス
テム513の故障から始めると、このような場合、シス
テム701は以下のように動作する。モニタ717は、
システム513の故障を検出すると、パイププロセス7
11に通知する。パイププロセス711はフロントエン
ドログプロセス705を作成し、パイプ710のファイ
ルディスクリプタをフロントエンドログプロセス705
へのパイプ707のファイルディスクリプタで置換す
る。アプリケーションプロセス503によって使用され
るメッセージファンクションは、パイプ710の故障を
検出すると、パイププロセス711にパイプの新しいフ
ァイルディスクリプタを要求する。パイププロセス71
1は、フロントエンドログプロセス705に接続された
パイプ707のファイルディスクリプタをそのメッセー
ジファンクションに与え、メッセージファンクションに
よって送られたメッセージは、バックエンドログプロセ
ス716ではなくフロントエンドログプロセス705へ
行く。フロントエンドログプロセス705は、そのメッ
セージを受け取ると、そのメッセージを主システム51
1内のログファイル703(a)に入れる。In the following, the recovery from the failure of the backup system 513 will be described in detail, and the recovery from the failure of other processes will also be reviewed. Starting with the failure of the backup system 513, in such a case, the system 701 operates as follows. Monitor 717
When a failure of the system 513 is detected, the pipe process 7
Notify 11 The pipe process 711 creates the front-end log process 705 and stores the file descriptor of the pipe 710 in the front-end log process 705.
Replace with the file descriptor of the pipe 707 to. When the message function used by application process 503 detects a failure of pipe 710, it requests pipe process 711 for a new file descriptor for the pipe. Pipe process 71
1 gives its message function the file descriptor of the pipe 707 connected to the front-end log process 705, and the message sent by the message function goes to the front-end log process 705 instead of the back-end log process 716. When the front-end log process 705 receives the message, it sends the message to the main system 51.
It is put in the log file 703 (a) in 1.
【0044】好ましい実施の形態では、メッセージファ
ンクションはパイプ710の故障を以下のように検出す
る。プロセス503はTCP/IPプロトコルを使用し
てパイプ710を通じてメッセージを送る。このプロト
コルでは、前のメッセージが受け取られた場合に限り次
のメッセージを送ることができる。従って、ライブラリ
ルーチン507内のファンクションによって使用される
メッセージファンクションは、2つのメッセージ、すな
わち、実際のメッセージおよびダミーのメッセージを送
ることによってパイプ710を通じてメッセージを送
る。メッセージファンクションがダミーメッセージを送
ることができる場合、実際のメッセージは到着したこと
になる。システム513が故障すると、パイプ710を
通じて送られたメッセージは到着せず、ダミーメッセー
ジを送ることはできない。In the preferred embodiment, the message function detects a failure of pipe 710 as follows. Process 503 sends a message through pipe 710 using the TCP / IP protocol. The protocol allows the next message to be sent only if the previous message was received. Thus, the message function used by the function in library routine 507 sends a message through pipe 710 by sending two messages, an actual message and a dummy message. If the message function can send a dummy message, then the actual message has arrived. If system 513 fails, the message sent through pipe 710 will not arrive and a dummy message cannot be sent.
【0045】バックアップファイルシステム513が回
復すると、モニタ719は、システムコールエンジン7
15およびバックエンドログプロセス716を再起動
し、モニタ717に通知する。モニタ717はパイププ
ロセス711に通知し、パイププロセス711は、パイ
プ710のファイルディスクリプタを取得してフロント
エンドログプロセス705を終了させる。バックエンド
ログプロセス716は、システム513において再起動
されると、カーネルサーバ305(a)からログファイ
ル703(a)のコピーを取得し、それをログファイル
703(b)に付加する。続いて、システムコールエン
ジン715は、ログファイル703(b)内のメッセー
ジの実行を再開する。When the backup file system 513 is restored, the monitor 719 displays the system call engine 7
15 and the backend log process 716 is restarted and the monitor 717 is notified. The monitor 717 notifies the pipe process 711, and the pipe process 711 acquires the file descriptor of the pipe 710 and terminates the front end log process 705. When the backend log process 716 is restarted in the system 513, it gets a copy of the log file 703 (a) from the kernel server 305 (a) and attaches it to the log file 703 (b). Subsequently, the system call engine 715 resumes execution of the message in the log file 703 (b).
【0046】lib.3dによって使用されるメッセー
ジファンクションは、パイプ707のファイルディスク
リプタを取得したのと同じようにパイプ710のファイ
ルディスクリプタを取得する。次にメッセージファンク
ションは、パイプ707のファイルディスクリプタを使
用してメッセージを送ることを試み、この試みが失敗す
ると、メッセージファンクションは再びパイププロセス
711にパイプファイルディスクリプタを要求する。メ
ッセージファンクションはパイプ710のファイルディ
スクリプタを受け取り、再びバックエンドに接続され
る。Lib. The message function used by 3d gets the file descriptor of pipe 710 the same way it got the file descriptor of pipe 707. The message function then attempts to send the message using the file descriptor of pipe 707, and if this attempt fails, the message function again requests the pipe process 711 for the pipe file descriptor. The message function receives the file descriptor of pipe 710 and connects again to the backend.
【0047】残りの故障シナリオは以下のように扱われ
る。The remaining failure scenarios are treated as follows.
【0048】・パイププロセス711が故障した場合。 モニタ717が、故障を検出し、サーバを再起動する。
新たに再起動されたプロセスは、WatchDによって
保存されたプロセス状態からパイプ710への接続を取
得する。他のプロセスはこの故障および回復について全
く知らない。When the pipe process 711 fails. Monitor 717 detects the failure and restarts the server.
The newly restarted process gets the connection to pipe 710 from the process state saved by WatchD. Other processes know nothing about this failure and recovery.
【0049】・システムコールエンジン715が故障し
た場合。 モニタ719が、故障を検出し、システムコールエンジ
ン715を再起動する。libftによって提供される
チェックポイントおよび回復のファンクションによっ
て、新たに再起動されたシステムコールエンジン715
は、外部ファイルから、前にチェックポイントしたステ
ータスに回復することができる。他のプロセスはこの故
障および回復について全く知らない。When the system call engine 715 fails. Monitor 719 detects the failure and restarts system call engine 715. Checkpoint and recovery functions provided by libft have newly restarted system call engine 715
Can recover from an external file to a previously checkpointed status. Other processes know nothing about this failure and recovery.
【0050】・バックエンドログプロセス716が故障
した場合。 モニタ719が、故障を検出し、バックエンドログプロ
セス716を再起動する。今度も、プロセス716は、
チェックポイントファイルからステータスを復元する。
さらに、モニタ719は、モニタ717に、バックエン
ドログプロセス716が再起動されたことを通知し、続
いてモニタ717は、パイププロセス711に通知す
る。次に、プロセス711は、パイプ710を、新しい
バックエンドログプロセス716に接続する。各アプリ
ケーションの次の書き込みは失敗し、lib.3dはパ
イププロセス711から新たな接続を取得する。If the backend log process 716 fails. Monitor 719 detects the failure and restarts backend log process 716. Again, the process 716
Restore status from checkpoint file.
Further, the monitor 719 notifies the monitor 717 that the backend log process 716 has been restarted, and subsequently the monitor 717 notifies the pipe process 711. Process 711 then connects pipe 710 to a new backend log process 716. The next write of each application fails and the lib. 3d gets a new connection from the pipe process 711.
【0051】・フロントエンドログプロセス705が故
障した場合。 フロントエンドログプロセス705は、システム513
の故障の期間中にのみ存在する。モニタ717は、フロ
ントエンドログプロセス705の故障を検出すると、パ
イププロセス711に通知する。続いて、パイププロセ
ス711は、フロントエンドログプロセス705を再起
動し、それにパイプ708を再接続する。アプリケーシ
ョンプログラム509の次の書き込みは失敗し、li
b.3d内のメッセージ送信ファンクションは、パイプ
プロセス711から新たなパイプ708のファイルディ
スクリプタを取得する。When the front-end log process 705 fails. The front end log process 705 is the system 513.
Present only during the period of failure. When the monitor 717 detects a failure in the front end log process 705, the monitor 717 notifies the pipe process 711. Subsequently, the pipe process 711 restarts the front end log process 705 and reconnects the pipe 708 to it. The next write of the application program 509 fails, and
b. The message transmission function in 3d acquires the file descriptor of the new pipe 708 from the pipe process 711.
【0052】[ユーザレベル名前空間405の実装:図
8〜図11]ユーザレベル名前空間405は、カーネル
サーバ305(a)によってアプリケーションプロセス
503に提供されるファイルシステムからのファイルの
任意のセットを指定するために使用することができる。
図8に、カーネルサーバ305(a)によって提供され
るファイルシステムの名前空間801と、ユーザレベル
バックアップファイルシステム701内のユーザレベル
名前空間405の間の関係を示す。[Implementation of User-Level Namespace 405: FIGS. 8-11] The user-level namespace 405 specifies an arbitrary set of files from the file system provided to the application process 503 by the kernel server 305 (a). Can be used to
FIG. 8 shows the relationship between the file system namespace 801 provided by the kernel server 305 (a) and the user level namespace 405 in the user level backup file system 701.
【0053】名前空間801において、ファイル名はツ
リー(木)に配置される。図8のツリーの葉をなすファ
イル(B,D,E,G,I,M,N)はデータまたはプ
ログラムを含む。残りのファイルは他のファイルのリス
トである。このようなファイルはディレクトリと呼ばれ
る。名前空間801内の任意のファイルは、カーネルサ
ーバ305(a)に対して、パス名によって指定するこ
とが可能である。パス名は、ルート「/」で始まり、ル
ートからそのパス名によって指定されているファイルの
名前までのすべてのファイルの名前を含む。従って、フ
ァイルDのパス名は/A/C/Dであり、ファイルLの
パス名は/J/K/Lである。In the name space 801, file names are arranged in a tree. The files (B, D, E, G, I, M, N) forming the leaves of the tree in FIG. 8 contain data or programs. The remaining files are a list of other files. Such files are called directories. An arbitrary file in the namespace 801 can be designated by a path name to the kernel server 305 (a). The path name begins with the root "/" and contains the names of all files from the root to the name of the file specified by the path name. Therefore, the path name of the file D is / A / C / D, and the path name of the file L is / J / K / L.
【0054】ユーザレベルバックアップファイルシステ
ム701は、バックアップすべきファイルを、そのファ
イルを含む名前空間801のサブツリーを指定すること
によって指定する。次に、サブツリー内のファイルを変
更するようなファイルに対する操作が、バックアップシ
ステム513内のバックアップファイルに対して実行さ
れる。図8では、3つのサブツリー、803(a)、8
03(b)、および803(c)がバックアップすべき
ものとして選択されている。その結果、名前空間801
内のデータファイルD、E、G、I、M、またはNへの
変更の結果として、そのデータファイルに対するバック
アップファイルへの変更が行われ、ディレクトリC、
F、H、およびLへの変更も同様にそれらのバックアッ
プファイルへの変更を引き起こす。サブツリー内のすべ
てのファイルがバックアップされるため、バックアップ
すべきファイルは、ユーザレベル名前空間405ではそ
のサブツリーのルートであるディレクトリのパス名によ
って指定することが可能である。こうして、サブツリー
803(a)はユーザレベル名前空間405ではパス名
/A/C(805(a))によって指定される。The user level backup file system 701 specifies a file to be backed up by specifying the subtree of the namespace 801 that contains the file. Next, an operation on the file that modifies the file in the subtree is performed on the backup file in the backup system 513. In FIG. 8, three subtrees, 803 (a), 8
03 (b) and 803 (c) have been selected to be backed up. As a result, the namespace 801
As a result of a change to a data file D, E, G, I, M, or N in a backup file for that data file is made,
Changes to F, H, and L also cause changes to their backup files. Since all files in a subtree are backed up, the files to be backed up can be specified in the user-level namespace 405 by the pathname of the directory that is the root of that subtree. Thus, the subtree 803 (a) is specified in the user level namespace 405 by pathname / A / C (805 (a)).
【0055】もちろん、ユーザレベル名前空間405
は、カーネルサーバ305(b)によってシステムコー
ルエンジン715に提供されるファイルシステムにもマ
ップされなければならない。これはバックエンドマップ
517によって行われる。図9に示したように、バック
エンドマップ517は、ユーザレベル名前空間405に
おける各オープンファイルに対するエントリ901を含
む。このエントリは2つの部分を有する。ユーザレベル
名前空間情報903は、ユーザレベル名前空間405に
おけるファイルを指定し、バックアップシステム情報9
05は、カーネルサーバ305(b)によって提供され
るファイルシステムにおいて、ユーザレベル名前空間情
報によって指定されたファイルに対応するファイルを指
定する。Of course, the user level namespace 405
Must also be mapped to the file system provided to the system call engine 715 by the kernel server 305 (b). This is done by the backend map 517. As shown in FIG. 9, backend map 517 includes an entry 901 for each open file in user level namespace 405. This entry has two parts. The user level name space information 903 specifies a file in the user level name space 405, and the backup system information 9
Reference numeral 05 designates a file corresponding to the file designated by the user level namespace information in the file system provided by the kernel server 305 (b).
【0056】バックエンドマップ517により、カーネ
ルサーバ305(b)がバックエンドログプロセス71
6およびシステムコールエンジン715に提供するファ
イルシステムの名前空間907のサブツリーに、名前空
間801のサブツリーをマップすることが可能となる。
このマッピングは、名前空間801のサブツリーのルー
トのパス名を、名前空間907の対応するサブツリーの
ルートのパス名にマップすることによって行われる。ル
ートのパス名は、サブツリー内ではファイルのパス名の
プレフィクスと呼ばれる。こうして、サブツリー803
(a)におけるパス名はプレフィクス/A/Cを有し、
サブツリー803(a)内のファイルEのパス名はEと
なる。名前空間907では、名前空間801のプレフィ
クス/A/Cを名前空間907のプレフィクス/Zにマ
ップすることによって、サブツリー909はサブツリー
803(a)に対応するようになる。マッピングをした
後は、名前空間801においてパス名/A/C/Eによ
って指定されるファイルの変更の結果、名前空間907
においてパス名/Z/Eによって指定されるファイルの
変更が行われることになる。According to the backend map 517, the kernel server 305 (b) is set to the backend log process 71.
6 and the system call engine 715, it is possible to map the subtree of the namespace 801 to the subtree of the namespace 907 of the file system.
This mapping is done by mapping the pathname of the root of the subtree of namespace 801 to the pathname of the root of the corresponding subtree of namespace 907. The root pathname is called the file pathname prefix in the subtree. Thus, subtree 803
The path name in (a) has the prefix / A / C,
The path name of the file E in the subtree 803 (a) is E. In namespace 907, subtree 909 corresponds to subtree 803 (a) by mapping prefix / A / C of namespace 801 to prefix / Z of namespace 907. After mapping, as a result of the change of the file designated by the path name / A / C / E in the namespace 801, the namespace 907
In, the file specified by the path name / Z / E will be changed.
【0057】[フロントエンド複製ツリー505の詳
細:図10]好ましい実施の形態では、ユーザレベル名
前空間405はフロントエンド複製ツリー505として
実装される。図10に、フロントエンド複製ツリー50
5の詳細を示す。フロントエンド複製ツリー505の2
つの主要な要素は、RTREE1015およびファイル
ディスクリプタ(FD)キャッシュ1027である。R
TREE1015は、バックアップすべきファイルから
なるサブツリー803のルートのパス名の連結リストで
ある。ファイルディスクリプタキャッシュ1027は、
ファイルディスクリプタをデバイスおよびiノード識別
子に関係づける配列である。この実装の形式は、UNI
Xオペレーティングシステムによって提供されるファイ
ルシステムがファイルを3通りの方法で、すなわち、パ
ス名によって、整数のファイルディスクリプタによっ
て、および、ファイルが存在するデバイスの識別子とU
NIXファイルシステムテーブル内のそのファイルに対
するエントリ(iノード)とによって、指定することの
結果である。ファイルのファイルディスクリプタは、そ
のファイルをオープンしたプロセスに対してのみ、か
つ、そのプロセスがそのファイルをオープンしている間
にのみ有効である。UNIXファイルシステムテーブル
では、パス名とデバイスおよびiノードとの間、ならび
に、デバイスおよびiノードと現在のファイルディスク
リプタとの間の変換は可能であるが、パス名と現在のフ
ァイルディスクリプタとの間の直接の変換はできない。[Details of Front-End Replication Tree 505: FIG. 10] In the preferred embodiment, the user-level namespace 405 is implemented as a front-end replication tree 505. FIG. 10 shows the front end replication tree 50.
5 shows the details. Frontend replication tree 505-2
The two main components are the RTREE 1015 and the file descriptor (FD) cache 1027. R
TREE 1015 is a linked list of pathnames of roots of the subtree 803 composed of files to be backed up. The file descriptor cache 1027 is
It is an array that associates a file descriptor with a device and an inode identifier. The format of this implementation is UNI
The file system provided by the X operating system processes files in three ways: by path name, by an integer file descriptor, and by the identifier of the device where the file resides and the U.
It is the result of specification by the entry (i-node) for that file in the NIX file system table. The file descriptor of a file is valid only for the process that opened the file, and only while that process has the file open. The UNIX file system table allows translations between pathnames and devices and inodes, and between devices and inodes and current file descriptors, but between pathnames and current file descriptors. No direct conversion is possible.
【0058】さらに詳細に説明すると、MAXTRY1
003およびINIT1005は、フロントエンド複製
ツリー505を初期化する際に使用される。MAXTR
Y1003は、初期化ファンクションが、バックアップ
システム513へのパイプ710の設定を試みてあきら
めるまでの回数を示す。INIT1005は、パイプが
設定されたかどうかを示す。RPLOP配列1009
は、複製ツリー505に対して実行可能な操作の名前1
011の配列である。More specifically, MAXTRY1
003 and INIT 1005 are used in initializing the front end replication tree 505. MAXTR
Y1003 indicates the number of times the initialization function attempts to set the pipe 710 in the backup system 513 and gives up. INIT 1005 indicates whether the pipe has been set. RPLOP array 1009
Is the name of the operation 1 that can be performed on the replication tree 505
011 is the sequence.
【0059】RTREE PTR1013は、RTRE
Eリスト1015の第1要素へのポインタである。RT
REEリスト1015は、複製ツリー803ごとに1要
素1017を含む連結リストである。各要素1017
は、複製ツリー803のルートのパス名1021、パス
名1021の長さ1019、およびこの連結リストにお
ける次の要素へのポインタ1023を含む。接続サーバ
1025は、バックアップシステム513へのパイプ7
10の、名前空間801におけるパス名である。RTREE PTR1013 is an RTRE
This is a pointer to the first element of the E list 1015. RT
The REE list 1015 is a linked list including one element 1017 for each replication tree 803. Each element 1017
Contains the pathname 1021 of the root of the replication tree 803, the length 1019 of the pathname 1021, and a pointer 1023 to the next element in this linked list. The connection server 1025 uses the pipe 7 to the backup system 513.
10 is a path name in the namespace 801.
【0060】FDキャッシュ1027は、ファイルディ
スクリプタキャッシュエントリ1029の配列である。
この配列には、アプリケーションプロセス503に利用
可能なファイルディスクリプタと同じ数だけ、エントリ
1029がある。FDキャッシュ1027内の与えられ
たファイルディスクリプタに対するエントリのインデッ
クスはそのファイルディスクリプタである。エントリ1
029は、そのエントリが現在有効であるかどうかを示
し、かつ、そのファイルがオープンであった間に子プロ
セスを作成したかどうかをも示すステータスフラグを含
む。また、エントリ1029は、主システム511にお
いてそのファイルが存在するデバイスの識別子1101
と、主システム511におけるそのファイルのiノード
の識別子1103とを含む。RTREE1015内のエ
ントリによって指定されるサブツリー803には、現在
オープンのファイルごとに有効なエントリ1029が存
在する。The FD cache 1027 is an array of file descriptor cache entries 1029.
The array has as many entries 1029 as there are file descriptors available to the application process 503. The index of the entry for a given file descriptor in the FD cache 1027 is that file descriptor. Entry 1
029 contains a status flag that indicates whether the entry is currently valid and also indicates whether the child process was created while the file was open. The entry 1029 is an identifier 1101 of the device in which the file exists in the main system 511.
And an identifier 1103 of the inode of the file in the main system 511. In the subtree 803 designated by the entry in the RTREE 1015, there is a valid entry 1029 for each file that is currently open.
【0061】[バックエンドマップ517の詳細]バッ
クエンドマップ517は2つの部分、すなわち、パス名
マップ1113およびオープン複製ファイルリスト11
17を有する。パス名マップ1113は単に、主システ
ム511の名前空間801内のパス名を、バックアップ
システム513の名前空間907内のパス名にマップす
る。マップ内の各エントリ1115は、フロントエンド
パス名1118とバックエンドパス名1119の間の関
係を確立する。パス名マップ1113には、フロントエ
ンド名前空間907内のサブツリー803のルートを、
名前空間907内のサブツリーのルートにマップするエ
ントリが含まれる。バックエンドパス名1119はバッ
クエンドシステム情報905の一部である。好ましい実
施の形態では、これらのマッピングは、システム設定フ
ァイルで指定される。[Details of Backend Map 517] The backend map 517 has two parts, that is, the path name map 1113 and the open duplicate file list 11.
Seventeen. The path name map 1113 simply maps the path name in the namespace 801 of the primary system 511 to the path name in the namespace 907 of the backup system 513. Each entry 1115 in the map establishes a relationship between the front end path name 1118 and the back end path name 1119. In the path name map 1113, the root of the subtree 803 in the front end namespace 907,
Contains an entry that maps to the root of a subtree in namespace 907. The backend path name 1119 is a part of the backend system information 905. In the preferred embodiment, these mappings are specified in the system configuration file.
【0062】オープン複製ファイルリスト1117は、
アプリケーションプロセス503が複製ツリー803に
おいて現在オープンしている各ファイルに対するエント
リ1120を含む。エントリ1120内のユーザレベル
名前空間情報903は、フロントエンドファイル識別子
(FFID)1105およびフロントエンドパス名(F
P)1106を含む。フロントエンドファイル識別子1
105は、主システム511内のファイルに対するデバ
イス識別子およびiノード識別子からなる。フロントエ
ンドパス名1106は、フロントエンドプレフィクス
(FPR)1107およびサブツリーパス名1108に
分けられる。フロントエンドプレフィクス(FPR)1
107は、フロントエンド名前空間801における当該
ファイルのサブツリーに対するプレフィクスである。サ
ブツリーパス名1108は、サブツリーにおけるファイ
ルのパス名である。エントリ1120内のバックアップ
システム情報905は、バックエンドファイルディスク
リプタ1111からなる。バックエンドファイルディス
クリプタ1111は、カーネルサーバ305(b)によ
って提供されるファイルシステムにおける当該ファイル
のファイルディスクリプタである。好ましい実施の形態
では、バックエンドマップ517は、フロントエンドフ
ァイル識別子1105およびフロントエンドパス名11
06のいずれによってもアクセス可能なハッシュテーブ
ルとして実装される。The open duplicate file list 1117 is
Application process 503 contains an entry 1120 for each file currently open in replication tree 803. The user level namespace information 903 in the entry 1120 includes the front end file identifier (FFID) 1105 and the front end path name (F
P) 1106 is included. Front-end file identifier 1
Reference numeral 105 includes a device identifier and an inode identifier for a file in the main system 511. The front end path name 1106 is divided into a front end prefix (FPR) 1107 and a subtree path name 1108. Front end prefix (FPR) 1
107 is a prefix for the subtree of the file in the front end namespace 801. The subtree path name 1108 is the path name of a file in the subtree. The backup system information 905 in the entry 1120 is made up of a backend file descriptor 1111. The backend file descriptor 1111 is a file descriptor of the file in the file system provided by the kernel server 305 (b). In the preferred embodiment, the backend map 517 includes a frontend file identifier 1105 and a frontend pathname 11
It is implemented as a hash table that can be accessed by any of 06.
【0063】[データ構造体505および517に関す
る操作]以下では、どのようにしてデータ構造体505
および517を作成するか、および、これらのデータ構
造体がさまざまなファイル操作によってどのように影響
を受けるかを説明する。好ましい実施の形態では、アプ
リケーションプロセス503は、Kornシェルを使用
するUNIXオペレーティングシステム上で時刻され
る。Kornシェルによれば、プロセスは、当該プロセ
スがKornシェルを呼び出すときにはいつも実行され
るファイルを指定するENV変数を設定することが可能
である。アプリケーションプロセス503においてEN
V変数によって指定されるファイルは、アプリケーショ
ンプロセス503が、フロントエンド複製テーブル50
5を構成し初期化するのに必要な情報を含む。いったん
作成されると、テーブル505は、アプリケーションプ
ロセス503のアドレス空間の一部となり、UNIXオ
ペレーティングシステムのforkシステムコールで作
成されそれによって親の環境を継承する、アプリケーシ
ョン503の任意の子プロセスに利用可能となる。他
方、execシステムコールは、子プロセスに新しい環
境を与える。execシステムコールで作成されるアプ
リケーションプロセス503の子プロセスにフロントエ
ンド複製ツリー505が利用できるようにするため、l
ib.3dは、フロントエンド複製ツリー505を新し
いプロセスのENV変数にコピーするexecファンク
ションを有する。これにより、その新しいプロセスは、
親のアドレス空間を継承していなくても、フロントエン
ド複製ツリー505を利用することができる。他の実施
の形態では、execによって作成される子プロセスに
フロントエンド複製ツリー505を渡すために、名前付
きパイプまたは外部ファイルを使用することも可能であ
る。[Operation on Data Structures 505 and 517] Below, how is the data structure 505?
And 517, and how these data structures are affected by various file operations. In the preferred embodiment, application process 503 is timed on a UNIX operating system using a Korn shell. The Korn shell allows a process to set an ENV variable that specifies a file to be executed whenever the process calls the Korn shell. EN in application process 503
The file specified by the V variable is stored in the front end replication table 50 by the application process 503.
It contains the information necessary to configure and initialize 5. Once created, the table 505 becomes part of the application process 503's address space and is available to any child process of the application 503 that is created with the UNIX operating system fork system call and thereby inherits its parent's environment. Becomes On the other hand, the exec system call gives the child process a new environment. In order to make the front end replication tree 505 available to the child process of the application process 503 created by the exec system call, l
ib. 3d has an exec function that copies the front end replication tree 505 to the ENV variable of the new process. This allows the new process to
The front end replication tree 505 can be used without inheriting the parent address space. In other embodiments, named pipes or external files can be used to pass the front end replication tree 505 to the child process created by exec.
【0064】ファイル操作の説明に進むと、第1のファ
イル操作はmount(マウント)操作である。UNI
Xオペレーティングシステムでは、mountはファイ
ルシステムからの名前のツリーを、オペレーティングシ
ステムの名前空間に追加する。好ましい実施の形態で
は、lib.3dで実装されるmountのバージョン
は、フロントエンド名前空間801のサブツリーが複製
ツリー805としてユーザレベル名前空間405に追加
されるモードを有する。mountがこのモードで使用
されるとき、パス名引数は、ユーザレベル名前空間40
5に追加されるサブツリー803のルートのパス名であ
る。ファンクションは、そのパス名に対する複製ツリー
エントリ1017を作成し、そのエントリを複製ツリー
1015に追加することによって、サブツリー803を
ユーザレベル名前空間405に追加する。また、指定さ
れたパス名を有する複製ツリーエントリ1017を複製
ツリー1015から削除するumount(マウント解
除)操作もある。Proceeding to the description of the file operation, the first file operation is a mount operation. UNI
In the X operating system, mount adds a tree of names from the file system to the operating system namespace. In a preferred embodiment, lib. The version of mount implemented in 3d has a mode in which a subtree of the frontend namespace 801 is added to the user level namespace 405 as a replication tree 805. When mount is used in this mode, the pathname argument is the user-level namespace 40
5 is the path name of the root of the subtree 803 added to item 5. The function adds the subtree 803 to the user-level namespace 405 by creating a replication tree entry 1017 for that pathname and adding that entry to the replication tree 1015. There is also a umount (unmount) operation that deletes the replication tree entry 1017 having the specified path name from the replication tree 1015.
【0065】アプリケーションプロセス503が複製ツ
リー805内のファイルに対してオープン操作を実行す
ると、lib.3d内のオープンファンクションは、新
たにオープンされるファイルに対するファイルディスク
リプタキャッシュエントリ1029を作成し、オープン
メッセージをバックエンドログプロセス716へ送る。
このオープンメッセージは、オープンしたファイルの主
システム511におけるパス名、デバイス識別子、およ
びiノード識別子を含む。このメッセージがシステムコ
ールエンジン715によって実行されると、その結果、
バックエンドマップ517内にエントリ901が作成さ
れる。パス名マップ1113を使用して、主システム5
11内のオープンされているファイルに対応するバック
エンドシステム513内のファイルが発見され、対応す
るファイルに対するファイルディスクリプタがバックエ
ンドファイルディスクリプタ1111に入れられる。When the application process 503 executes an open operation on a file in the replication tree 805, lib. The open function in 3d creates a file descriptor cache entry 1029 for the newly opened file and sends an open message to the backend log process 716.
This open message includes the path name, device identifier, and inode identifier in the main system 511 of the opened file. When this message is executed by the system call engine 715, the result is:
An entry 901 is created in the backend map 517. The main system 5 using the path name map 1113
The file in the backend system 513 corresponding to the open file in 11 is found and the file descriptor for the corresponding file is placed in the backend file descriptor 1111.
【0066】ファイルがオープンされると、主システム
511におけるファイル操作は、そのファイルを識別す
るファイルディスクリプタを使用する。バックアップシ
ステム513内のバックアップファイルに対する対応す
る操作に対するメッセージは、デバイス識別子およびi
ノード識別子を使用してファイルを識別する。このよう
なメッセージを実行するためには、システムコールエン
ジン715は、メッセージで指定されるデバイスおよび
iノードに対するオープン複製ファイルリスト1117
内のエントリ1119にアクセスするだけでよい。この
エントリは、バックアップシステム513における操作
を実行するのに必要なファイルディスクリプタ1111
を含む。When a file is opened, file operations in main system 511 use a file descriptor that identifies the file. The message for the corresponding operation on the backup file in the backup system 513 is the device identifier and i
Use the node identifier to identify the file. To execute such a message, the system call engine 715 uses the open duplicate file list 1117 for the device and inode specified in the message.
You only need to access entry 1119 in. This entry is a file descriptor 1111 required to execute an operation in the backup system 513.
including.
【0067】アプリケーションプロセス503が複製ツ
リー505内のファイルをクローズすると、lib.3
dのクローズファンクションは、ステータスフィールド
1033から、子プロセスがそのファイルを使用してい
るかどうかを判断する。どの子プロセスも使用していな
い場合、クローズファンクションは、複製ツリー505
内のそのファイルに対するファイルディスクリプタキャ
ッシュエントリ1029を無効にし、デバイス識別子お
よびiノード識別子を含むクローズメッセージをバック
アップシステム513へ送る。システムコールエンジン
715は、このメッセージを実行するとき、デバイス識
別子およびiノード識別子を使用してこのファイルに対
するエントリ1119を見つける。続いて、このファイ
ルを識別するためにバックエンドファイルディスクリプ
タ1111を使用して、バックアップシステム513内
のファイルをクローズし、最後に、オープン複製ファイ
ルリスト1117からエントリ1119を削除する。When the application process 503 closes a file in the replication tree 505, lib. 3
The close function of d determines from the status field 1033 whether the child process is using the file. If no child process is in use, the close function returns the replication tree 505.
Invalidates the file descriptor cache entry 1029 for that file in and sends a close message to the backup system 513 containing the device identifier and the inode identifier. When the system call engine 715 executes this message, it uses the device identifier and the inode identifier to find the entry 1119 for this file. Subsequently, the backend file descriptor 1111 is used to identify this file, the file in the backup system 513 is closed, and finally, the entry 1119 is deleted from the open duplicate file list 1117.
【0068】[ユーザレベルバックアップファイルシス
テムを使用した複製ファイルの実装:図13]バックア
ップファイルシステム501は、アプリケーションプロ
セス503のフロントエンド複製ツリー505において
指定される、主システム511からの各ファイルの現在
のコピーが、バックアップシステム513上に存在する
ことが保証されるという点で有効である。しかし、主シ
ステム511からのファイルのコピーを変更するバック
アップシステム513における操作の結果は、主システ
ム511内のファイルには反映されない。実際に、この
ことは、主システム511しか、バックアップシステム
513上にバックアップされているファイルを変更する
ことができないことを意味する。[Implementing Duplicate Files Using User Level Backup File System: FIG. 13] The backup file system 501 specifies the current file for each file from the primary system 511 specified in the front end replication tree 505 of the application process 503. It is useful in that the copy is guaranteed to reside on the backup system 513. However, the result of the operation in the backup system 513 that modifies the copy of the file from the main system 511 is not reflected in the file in the main system 511. In fact, this means that only the primary system 511 can modify the files backed up on the backup system 513.
【0069】ファイルが複製ファイルである場合に必要
とされるように、主システム511およびバックアップ
システム513がいずれもファイルのコピーを変更する
ことができるためには、各システムは、互いのシステム
上でなされる変更をバックアップしなければならない。
すなわち、2つのシステムは、複製ファイルのコピーに
対する操作に関してピアでなければならない。図5に関
していえば、2つのシステム511および513はそれ
ぞれ、他方のシステムへのバックアップメッセージのた
めのチャネル512と、バックエンドサーバ515とを
有していなければならない。さらに、ファイルを変更し
たいシステム上のプロセスは、lib.3d(507)
と、ファイルが複製ファイルとしてリストされたフロン
トエンド複製ツリー505を有していなければならな
い。さらに、複製ファイルのコピーの変更が両方のシス
テムにおいて同じ順序で起こること、および、複製ファ
イルのローカルコピーに対する読み出し操作が、複製フ
ァイルのリモートコピーでなされた書き込みを考慮に入
れて提供されることを確実にするため、同期システムが
要求される。In order for both primary system 511 and backup system 513 to be able to modify the copy of the file, as required if the file is a duplicate file, each system must be on its own system. You have to back up the changes made.
That is, the two systems must be peers with respect to operations on copies of duplicate files. With respect to FIG. 5, the two systems 511 and 513 must each have a channel 512 for backup messages to the other system and a backend server 515. Further, the process on the system that wants to change the file is lib. 3d (507)
And the file must have a front end replication tree 505 listed as a replication file. In addition, changes to the duplicate file copies occur in the same order on both systems, and read operations on the local copy of the duplicate file are provided taking into account the writes made on the remote copy of the duplicate file. A synchronization system is required to ensure.
【0070】図13に、2つのピアホスト1302
(A)および1302(B)ならびに複製ファイル13
25を有する分散システム1301の概観を示す。各ホ
ストはカーネルサーバ305(図示せず)および大容量
記憶装置を有する。大容量記憶装置は、ここでは、ホス
ト1302(A)に対してはディスク307(a)であ
り、ホスト1302(B)に対してはディスク307
(b)である。各ディスクは複製ファイル1325の同
一のコピーを有する。ホスト1302(A)上のコピー
はコピー1325(A)であり、ホスト1302(B)
上のコピーはコピー1325(B)である。さらに、各
ホスト1302は、バックエンドサーバ515を有し、
他方のホスト1302からバックアップメッセージを受
け取ることができる。ホスト1302(A)における3
つのプロセス1309(A,1..3)はlib.3dコ
ード507を含み、ファイル1325を複製ファイルと
して指定するフロントエンド複製ツリー505を有す
る。ホスト1302(B)上の1つのプロセス1309
(B,1)はコード506およびそのようなフロントエ
ンド複製ツリーを有する。各ホスト1302は互いにバ
ックアップとして機能するため、プロセス1309
(A,1..3)が書き込み操作(すなわち、ホスト13
02(A)上の複製ファイル1325のコピー1325
(A)を変更する操作)を実行するごとに、その書き込
み操作の結果、バックアップメッセージ512(A)が
生じ、ホスト1302(B)上のバックエンドサーバ5
15(B)はこれに応答して、複製ファイルのコピー1
325(B)に対して同じ書き込み操作を実行する。プ
ロセス1309(B,1)がコピー1325(B)に対
して書き込み操作を実行すると、この書き込み操作の結
果バックアップメッセージ512(B)が生じ、バック
エンドサーバ515(A)はこれに応答して、コピー1
325(A)に対して同じ書き込み操作を実行する。バ
ックアップメッセージ512は、送信された順にメッセ
ージが到着することを保証するチャネルを通じて送ら
れ、その結果、コピー1325(A)および1325
(B)に対する書き込み操作は同じ順序で行われる。こ
のようなチャネルを実装する1つの方法は、TCP/I
Pを通じてバックアップメッセージ512を送ることで
ある。FIG. 13 shows two peer hosts 1302.
(A) and 1302 (B) and duplicate file 13
25 shows an overview of a distributed system 1301 with 25. Each host has a kernel server 305 (not shown) and mass storage. The mass storage device is here disk 307 (a) for host 1302 (A) and disk 307 for host 1302 (B).
(B). Each disc has an identical copy of the duplicate file 1325. The copy on host 1302 (A) is copy 1325 (A) and host 1302 (B)
The top copy is copy 1325 (B). Further, each host 1302 has a backend server 515,
A backup message can be received from the other host 1302. 3 in host 1302 (A)
Two processes 1309 (A, 1..3) are associated with lib. It has a front end replication tree 505 that contains the 3d code 507 and designates the file 1325 as a replication file. One process 1309 on host 1302 (B)
(B, 1) has code 506 and such a front end replication tree. Since each host 1302 functions as a backup for each other, process 1309
(A, 1..3) is a write operation (ie, host 13
Copy 1325 of duplicate file 1325 on 02 (A)
(Operation to change (A)), a backup message 512 (A) is generated as a result of the write operation, and the backend server 5 on the host 1302 (B)
15 (B) responds to this by copying 1 of the duplicate file.
Perform the same write operation on 325 (B). When process 1309 (B, 1) performs a write operation on copy 1325 (B), this write operation results in a backup message 512 (B), which backend server 515 (A) responds to with Copy 1
Perform the same write operation on 325 (A). The backup message 512 is sent over a channel that ensures that the messages arrive in the order in which they were sent, resulting in copies 1325 (A) and 1325.
The write operations for (B) are done in the same order. One way to implement such a channel is TCP / I.
Sending a backup message 512 through P.
【0071】もちろん、バックエンドサーバ513は、
プロセス1309が複製ファイル1325(A)に対し
て書き込み操作を実行するのと同時に複製ファイル13
25(B)に対して書き込み操作を実行するわけではな
い。その結果、ファイル1325(B)に対する読み出
し操作は、ファイル1325(A)に対する同時の読み
出し操作と異なる結果となる可能性がある。ある場合に
は、これは異ならないが、他の場合には異なることがあ
る。その結果、システム1301には、複製ファイル1
325に対する2種類の読み出し操作が可能である。第
1の読み出し操作は「アトミック読み出し」操作であ
る。アトミック読み出し操作は、複製ファイル1325
のコピーに一貫性がある必要がないときに使用される。
この操作は単に、複製ファイル1325のローカルコピ
ーに対する現在の書き込み操作が終了するまで待機して
からそのローカルコピーを読み出す。第2の読み出し操
作は「順次読み出し」操作である。この操作は、複製フ
ァイル1325のコピーに一貫性がなければならない場
合に使用され、従って、読み出されている複製ファイル
のコピーは、その複製ファイルの他のすべてのコピーと
一貫性があるように、複製ファイルに対する書き込み操
作と同期している。Of course, the backend server 513 is
At the same time as the process 1309 performs a write operation on the duplicate file 1325 (A), the duplicate file 13
No write operation is performed on 25 (B). As a result, a read operation on file 1325 (B) may have different results than a simultaneous read operation on file 1325 (A). In some cases this is not the case, but in others it may be different. As a result, the system 1301 has a duplicate file 1
Two types of read operations for 325 are possible. The first read operation is an "atomic read" operation. Atomic read operations are duplicate files 1325
Used when the copy of does not need to be consistent.
This operation simply waits until the current write operation to the local copy of the replicated file 1325 is complete before reading that local copy. The second read operation is a "sequential read" operation. This operation is used when the copy of the duplicate file 1325 must be consistent, so that the copy of the duplicate file being read is consistent with all other copies of that duplicate file. , Synchronize with the write operation to the duplicate file.
【0072】書き込み操作と順次読み出し操作の同期
は、複製ファイル1325に対する2つのトークン、す
なわち、書き込みトークン1327および読み出しトー
クン1328によって実現される。書き込みトークン1
327を有するホスト1302は、複製ファイルのロー
カルコピーに対する読み出し操作または書き込み操作を
実行することが可能である。読み出しトークン1328
を有するホスト1302は、ローカルコピーに対する読
み出し操作を実行することは可能であるが、書き込み操
作を実行することはできない。いずれのトークンも有し
ないホスト1302は、アトミック読み出し操作のみ実
行可能である。ホスト1302は、必要なトークンを有
しない場合、他のホスト1302にそのトークンを要求
する。他のいずれかのホスト1302で書き込み操作が
未完了である場合、最後の書き込みバックアップメッセ
ージ512を送った後に、バックアップメッセージ51
2のために使用したチャネルにトークンを送る。このよ
うにトークンを送ることによって、ホスト1302は、
複製ファイル1325のすべてのローカルコピーにおい
て書き込み操作が同じ順序で起こること、および、複製
ファイル1325の同一のローカルコピーに対して順次
読み出しが実行されることを保証する。The synchronization of the write operation and the sequential read operation is realized by two tokens for the duplicate file 1325, that is, a write token 1327 and a read token 1328. Write token 1
Host 1302, which has 327, can perform read or write operations on the local copy of the duplicate file. Read token 1328
The host 1302 having the host can perform a read operation for the local copy, but cannot perform a write operation. Host 1302, which does not have any token, can only perform atomic read operations. If the host 1302 does not have the required token, it requests the token from another host 1302. If the write operation is incomplete on any of the other hosts 1302, the backup message 51 is sent after sending the last write backup message 512.
Send the token to the channel used for 2. By sending the token in this way, the host 1302
It ensures that write operations occur in the same order in all local copies of duplicate file 1325, and that sequential reads are performed on the same local copy of duplicate file 1325.
【0073】与えられた瞬間にはただ1つのホスト13
02のみが書き込みトークン1327を有し、その瞬間
には、他のすべてのホスト1302はトークンを有しな
い。いずれのホストも書き込みトークン1327を有し
ない場合、すべてのホストは読み出しトークン1328
を有する。読み出しトークンおよび書き込みトークンの
いずれも有しないホスト1302はいずれかを要求する
ことが可能である。書き込みトークンを有するホスト
は、読み出しトークンまたは書き込みトークンのいずれ
かを与えることが可能である。読み出しトークンを有す
るホストは書き込みトークンを要求または授与すること
が可能である。Only one host 13 at a given moment
02 only has a write token 1327, and at that moment all other hosts 1302 have no token. If neither host has a write token 1327, then all hosts have a read token 1328.
Having. A host 1302 that has neither a read token nor a write token can request either. A host with a write token can give either a read token or a write token. A host with a read token can request or grant a write token.
【0074】システム1301が3つ以上のホスト13
02を有するとき、書き込み操作は、書き込みトークン
1327を有しないすべてのホスト1302へ同報され
る。トークンの要求およびトークンの授与もまたすべて
のホスト1302に同報される。同報は、要求および授
与の信頼性のある同報順序を提供する信頼性のある同報
パッケージを使用して行われる。このようなパッケージ
の一例は、コーネル大学によって提供されているISI
Sである。ISISは、「故障がある場合の信頼性のあ
る通信(Reliable Communication in the Presence of F
ailures)」、ACM Transactions on Computer Systems,
5, 1、1987年2月、第47〜76ページ、に記載さ
れている。読み出しトークン1328の場合、読み出し
トークンを授与することができる唯一のホスト1302
は、書き込みトークンを有するホストである。その結
果、読み出しトークンを授与するメッセージが複数存在
することはない。書き込みトークン1327の場合、書
き込みトークン1327を有する単一のホスト1302
が存在するか、または、すべてのホストが読み出しトー
クン1328を有する。前者の場合、書き込みトークン
1327を授与するメッセージはただ1つ存在する。後
者の場合、要求中のホスト1302は、書き込みトーク
ン1327を実際に有する前に、読み出しトークン13
28を有するすべてのホスト1302から授与メッセー
ジを受け取らなければならない。The system 1301 has three or more hosts 13.
When it has a 02, the write operation is broadcast to all hosts 1302 that do not have a write token 1327. Token requests and token grants are also broadcast to all hosts 1302. Broadcasting is done using a reliable broadcast package that provides a reliable broadcast order of requests and awards. An example of such a package is the ISI provided by Cornell University.
S. ISIS refers to "Reliable Communication in the Presence of F
ailures) '', ACM Transactions on Computer Systems,
5, 1, February 1987, pp. 47-76. For read token 1328, the only host 1302 that can present the read token.
Is a host that has a write token. As a result, there will never be more than one message granting a read token. For write token 1327, a single host 1302 having write token 1327
, Or all hosts have a read token 1328. In the former case, there is only one message granting the write token 1327. In the latter case, the requesting host 1302 may have read token 13 before it actually has write token 1327.
The award message must be received from all hosts 1302 with 28.
【0075】プロセス1309が自己のホスト1302
上の複製ファイル1325のコピーに書き込みをするた
めには、2つの条件が満たされなければならない。 ・このプロセスが実行されているホスト1302は、複
製ファイルに対する書き込みトークン1327を有して
いなければならない。 ・ホスト1302内の複製ファイル1325のコピーに
対する他のホスト1302からの未完了の書き込み操作
があってはならない。Process 1309 is own host 1302
In order to write to the copy of duplicate file 1325 above, two conditions must be met. The host 1302 on which this process is running must have a write token 1327 for the duplicate file. There must be no uncompleted write operations from another host 1302 to the copy of the duplicate file 1325 in the host 1302.
【0076】ホスト1302は、書き込みトークン13
27を有しない場合、他のホストに書き込みトークン1
327を要求しなければならない。他のホスト1302
はバックアップメッセージ512において書き込みトー
クン1327を送り、それによって、第2の条件が満た
されること、すなわち、受信側ホスト1302は最後の
バックアップメッセージ512で指定される変更が完了
するまで複製ファイル1325のコピーを変更しないこ
とを保証する。The host 1302 uses the write token 13
Write token 1 to another host if you do not have 27
Must request 327. Another host 1302
Sends a write token 1327 in the backup message 512 so that the second condition is met, ie, the receiving host 1302 will have a copy of the duplicate file 1325 until the modification specified in the last backup message 512 is complete. Guaranteed not to change.
【0077】好ましい実施の形態では、書き込みトーク
ン1327を使用した同期は、各ホスト1302上のト
ークンサーバ1311と、トークンファイル1307
と、バックアップメッセージ512を受信した順序で送
出するチャネルとによって実現される。トークンファイ
ル1307は、ホスト1302上にコピーを有する各複
製ファイル1325に対する領域を有する。標準的なオ
ペレーティングシステムのロッキングサブシステムで
は、ファイルの領域をロックすることが可能である。2
種類のロックがある。排他ロックでは、ただ1つのプロ
セスのみがそのファイルにアクセスすることが可能であ
る。共有ロックでは、任意数のプロセスがアクセスする
ことができる。一般に、プロセスは、領域に書き込むた
めにはその領域に排他ロックを有し、領域から読み出す
ためには共有ロックを有していなければならない。好ま
しい実施の形態では、トークンファイル1307におけ
る複製ファイル1325の領域に対するオペレーティン
グシステムロックを使用して、その複製ファイル132
5に対する書き込み操作と順次読み出し操作を同期させ
るために使用されるトークンを実現する。In the preferred embodiment, synchronization using the write token 1327 is performed by the token server 1311 on each host 1302 and the token file 1307.
And the channels that send out the backup messages 512 in the order in which they are received. Token file 1307 has an area for each duplicate file 1325 that has a copy on host 1302. A standard operating system locking subsystem can lock an area of a file. Two
There are different types of locks. Exclusive locks allow only one process to access the file. Shared locks can be accessed by any number of processes. In general, a process must have an exclusive lock on an area to write to it and a shared lock to read from it. In the preferred embodiment, an operating system lock on the area of the duplicate file 1325 in the token file 1307 is used to copy the duplicate file 132.
Implements the token used to synchronize write and sequential read operations for 5.
【0078】例えば、好ましい実施の形態では、書き込
みトークンは、複製ファイル1325の領域に対するオ
ペレーティングシステムロックから形成される書き込み
トークンロックとして実現される。トークンサーバ13
11は、書き込みトークンを有することを示すメッセー
ジを受け取ると、書き込みトークンロックを獲得する。
トークンサーバ1311が書き込みトークンロックを有
する限り、ホスト1302上で実行中のプロセス130
9は、複製ファイルのローカルコピーに対するアトミッ
ク読み出し操作、順次読み出し操作、または書き込み操
作のロックを獲得することができる。これらのロックも
また、トークンファイル1307におけるオペレーティ
ングシステムロックを使用して実現される。For example, in the preferred embodiment, the write token is implemented as a write token lock formed from an operating system lock on an area of the duplicate file 1325. Token server 13
Upon receiving the message indicating that it has a write token, 11 acquires the write token lock.
Process 130 running on host 1302 as long as token server 1311 has write token lock
9 can acquire locks for atomic read operations, sequential read operations, or write operations on the local copy of the duplicate file. These locks are also implemented using operating system locks in token file 1307.
【0079】他のホスト1302が書き込みトークンを
要求すると、トークンサーバ1311は書き込みトーク
ンロックを解放し、トークンなしロック(他のロックと
同様に実現される)を獲得する。トークンサーバ131
1がトークンなしロックを有する限り、ホストシステム
1302において複製ファイル1325に書き込むこと
が可能な唯一のプロセスはバックエンドサーバ515で
ある。もちろん、バックエンドサーバ515は、現在書
き込みトークン1327を有するホスト1302からの
バックアップメッセージ512に応答する。When another host 1302 requests a write token, the token server 1311 releases the write token lock and acquires a tokenless lock (implemented like any other lock). Token server 131
As long as 1 has a tokenless lock, backend server 515 is the only process in host system 1302 that can write to duplicate file 1325. Of course, the backend server 515 responds to the backup message 512 from the host 1302 that currently has the write token 1327.
【0080】システム1301の動作は以下の通りであ
る。ユーザレベルバックアップファイルシステム501
の説明で既に述べたように、lib.3d(507)
は、複製ファイルに対する操作を実行するアプリケーシ
ョンプロセス509のコードに静的にまたは動的にバイ
ンドされる。その後、ファイルがフロントエンド複製ツ
リー505において複製ファイルとして指定される。シ
ステム1301で使用されるlib.3d(507)の
バージョンは、標準的なI/Oライブラリ書き込みルー
チンを、図12に示す書き込み操作で置き換える。第3
行のget_write_token()関数1201は、関連するホス
トのトークンサーバ1311に書き込みトークン132
7を要求する。そのホストのトークンサーバ1311が
書き込みトークン1327を有する場合、この関数は直
ちに復帰する。トークンサーバ1311は、書き込みト
ークン1327を有していない場合、他のホストに要求
し、書き込みトークンが到着すると復帰する。トークン
サーバ1311が書き込みトークン1327を有する
と、プロセス1309は第4行で書き込みシステムコー
ルsyscall(SYS_write, fildes, buf, nbyte)を実行す
る。その後、システム501の説明で述べたように、関
数は、フロントエンド複製ツリー505から、ファイル
が複製されているかどうかを判断する。複製されている
場合、書き込みメッセージ512が他のホスト1302
に送られ、書き込みトークンは解放される(120
3)。書き込みトークン1327は、同じようにして、
複製ファイル1325を変更するいずれのホスト130
2上の書き込み操作に対しても、獲得されなければなら
ない。その結果、すべての変更は複製ファイル1325
のすべてのコピーに対して行われ、すべての変更は同じ
順序で行われる。The operation of system 1301 is as follows. User level backup file system 501
As already described in the explanation of Lib. 3d (507)
Is statically or dynamically bound to the code of application process 509 that performs operations on the duplicate files. The file is then designated as a replicated file in the front end replication tree 505. Used in the system 1301. The 3d (507) version replaces the standard I / O library write routine with the write operation shown in FIG. Third
The get_write_token () function 1201 of the line writes the write token 132 to the token server 1311 of the related host.
Request 7 If the host's token server 1311 has a write token 1327, this function returns immediately. If the token server 1311 does not have the write token 1327, it requests another host and returns when the write token arrives. When the token server 1311 has the write token 1327, the process 1309 executes the write system call syscall (SYS_write, fildes, buf, nbyte) in the fourth line. The function then determines from the front end replication tree 505 whether the file has been replicated, as described in the description of system 501. If duplicated, the write message 512 is sent to another host 1302.
And the write token is released (120
3). The write token 1327 is the same as
Any host 130 that modifies the duplicate file 1325
Must also be acquired for write operations on 2. As a result, all changes are duplicated in file 1325.
All copies are made and all changes are made in the same order.
【0081】[同期の詳細な実装:図14]好ましい実
施の形態では、与えられたホスト1302上の複製ファ
イル1325のコピーに属するロックファイル1307
の領域は、書き込み操作に関連する2つのロックを有す
る。第1のロックは、書き込みトークン1327がホス
ト1302上にあるかどうかを示し、第2のロックは、
複製ファイル1325のコピーが、当該ホスト1302
上のプロセス1309による書き込みに利用可能である
かどうかを示す。図14に、好ましい実施の形態におい
てこれら2つのロックをどのようにして使用するかを示
す。図の擬似コード1401は今度もlib.3d(5
07)の書き込み操作に対するものである。ロックを含
む領域は変数TOKEN_REGION(1403)によって表さ
れ、これは2つのフィールドを有する。ロックのSTATE
は、書き込みトークン1327がホスト1302上にあ
るかどうかを示し、ロックのTOKENは、プロセス130
9が書き込みを実行することができるかどうかを示す。
STATEによって表されるロックは、トークン1327が
他のホスト1302上にあるとき、ローカルトークンサ
ーバ1311によって排他ロックされたまま保持され
る。[Detailed Implementation of Synchronization: FIG. 14] In the preferred embodiment, the lock file 1307 belonging to the copy of the duplicate file 1325 on a given host 1302.
Region has two locks associated with the write operation. The first lock indicates whether the write token 1327 is on the host 1302 and the second lock is
A copy of the duplicate file 1325 is the copy of the host 1302.
Indicates if it is available for writing by the above process 1309. FIG. 14 shows how these two locks are used in the preferred embodiment. The pseudo code 1401 in the figure is again the lib. 3d (5
07) write operation. The region containing the lock is represented by the variable TOKEN_REGION (1403), which has two fields. STATE of lock
Indicates whether the write token 1327 is on host 1302, and the lock TOKEN is process 130
9 indicates whether writing can be performed.
The lock represented by STATE is held exclusively locked by the local token server 1311 when the token 1327 is on another host 1302.
【0082】擬似コード1401によって記述される動
作は以下の通りである。第3行に示されるように、ロッ
ク1403を含むトークンファイル1307の領域が関
数fd2tokenによって検索される。この関数は、複製ファ
イル1325のローカルコピーのファイルディスクリプ
タをとり、領域1403を返す。次のステップで、複製
ファイル1325に対する書き込みトークン1327が
ローカルホスト1302内にあるかどうかを判定する。
これは、第4行で、領域1403のSTATEフィールドの
非ブロッキング共有ロックを要求することによって行わ
れる。このロックが取得可能である場合、書き込みトー
クン1327はローカルホスト1302上にある。この
ロックが取得可能でない場合、擬似コード1401は、
トークンサーバ1311が他のホスト1302上の対応
するトークンサーバにトークン1327を要求するメッ
セージを送り、そのトークンを提供するメッセージが返
るのを待機するようにする関数(図示せず)を呼び出
す。第4行では、書き込みトークン1327がローカル
ホスト1302上にあるかどうかを複数のプロセス13
09が判定できるように、共有ロックの取得を試みる。The operation described by the pseudo code 1401 is as follows. As shown in the third line, the area of the token file 1307 containing the lock 1403 is searched by the function fd2token. This function takes the file descriptor of the local copy of the duplicate file 1325 and returns the area 1403. The next step is to determine if the write token 1327 for the replicated file 1325 is in the local host 1302.
This is done by requesting a non-blocking shared lock in the STATE field of field 1403 in line 4. If this lock is retrievable, the write token 1327 is on the local host 1302. If this lock is not obtainable, the pseudo code 1401
The token server 1311 sends a message requesting the token 1327 to the corresponding token server on the other host 1302 and calls a function (not shown) that waits for the message providing the token to return. In the fourth line, whether the write token 1327 is on the local host 1302
09 attempts to acquire a shared lock so that 09 can determine.
【0083】書き込みトークン1327がローカルに利
用可能となると、次のステップへ進む。第6行に示され
るように、領域1403のSTATEフィールドに対しても
う1つのロック要求がなされる。今度はこれはブロッキ
ングであり、コード1401を実行しているプロセス1
309は、STATEに対する共有ロックを取得することが
できるまで(すなわち、書き込みトークン1327がロ
ーカルに利用可能になるまで)待機し(第6行)、その
後、TOKENに対する排他ロックを獲得するまでブロック
する。プロセス1309が排他ロックを受け取ると、実
際に書き込みシステムコールがなされ、メッセージ51
2が、複製ファイル1325のローカルコピーへの書き
込みの内容とともに、他方のホスト1302へ送られ
る。これが行われると、領域1403はロック解除さ
れ、書き込み操作が終了する。Once the write token 1327 is locally available, proceed to the next step. Another lock request is made to the STATE field of area 1403, as shown in line 6. This time it is blocking and process 1 executing code 1401
309 waits until a shared lock on STATE can be acquired (ie, until write token 1327 is locally available) (line 6), then blocks until it acquires an exclusive lock on TOKEN. When the process 1309 receives the exclusive lock, the write system call is actually made, and the message 51
2 is sent to the other host 1302, with the contents of writing to the local copy of the duplicate file 1325. When this is done, area 1403 is unlocked and the write operation ends.
【0084】もちろん、ローカルホスト1302上で複
製ファイル1325に対する書き込みを試みている他の
いずれのプロセス1309も、STATEに対する共有ロッ
クを有し、TOKENに対する排他ロックを待機しているプ
ロセスの待ち行列に入ることができる。書き込みを完了
したプロセス1309がTOKEN_REGIONをロック解除する
と、待ち行列における次のこのようなプロセスがTOKEN
に対する排他ロックを取得し書き込み操作を実行するこ
とができる。さらに、ローカルトークンサーバ1311
が、他のトークンサーバ1311から複製ファイル13
25に対する書き込みトークン1327を要求するメッ
セージ512を受け取ると、ローカルトークンサーバ1
311はSTATEに対する排他ロックを要求する。ローカ
ルトークンサーバ1311は、STATEに対する共有ロッ
クを有するすべてのプロセス1309が書き込み操作を
完了した後にのみ、その排他ロックを受け取る。ローカ
ルトークンサーバは、STATEに対する排他ロックを受け
取ると、書き込み操作によって生成されたメッセージが
他のホスト1302に送られたのと同じチャネルによっ
て、そのことを知らせるメッセージを他のホスト130
2へ送る。チャネルに入れられたメッセージは、送られ
た順序で到着し、その結果、他のホスト1302上のト
ークンサーバ1311は、当該他のホスト1302上の
バックエンドサーバ515が、トークン1325を有し
ていたホスト1302からのすべての書き込みメッセー
ジ512を処理した後にのみ、STATEに対する排他ロッ
クを解放する。Of course, any other process 1309 attempting to write to the duplicate file 1325 on the local host 1302 will have a shared lock on STATE and will be in the queue of processes waiting for an exclusive lock on TOKEN. be able to. When the process 1309 that completed writing unlocks TOKEN_REGION, the next such process in the queue
Can get an exclusive lock on and perform write operations. Furthermore, the local token server 1311
From the other token server 1311
When the message 512 requesting the write token 1327 for 25 is received, the local token server 1
311 requests an exclusive lock for STATE. The local token server 1311 receives its exclusive lock only after all processes 1309 that have a shared lock on STATE have completed write operations. When the local token server receives the exclusive lock on STATE, it sends a message informing the other host 130 through the same channel that the message generated by the write operation was sent to the other host 1302.
Send to 2. The messages put on the channel arrived in the order in which they were sent, so that the token server 1311 on the other host 1302 had the token 1325 on the backend server 515 on the other host 1302. Only after all write messages 512 from host 1302 have been processed will the exclusive lock on STATE be released.
【0085】他のホスト1302上で実行される順次読
み出し操作と書き込み操作の同期は、書き込みトークン
1327に関して説明したのとほぼ同様に、読み出しト
ークン1328によって達成される。順次読み出しを実
行するプロセス1309は、読み出しトークン1328
または書き込みトークン1327がホスト1302上に
あるかどうかを示すトークンファイル1307の一部に
対する共有ロックを取得することをまず試みる、li
b.3d(507)内のコードを実行する。この試みが
失敗した場合、プロセス1309は、トークンサーバ1
311が読み出しトークン1328を他のホスト130
2から取得することを要求する。トークンは、書き込み
トークン1327について説明したのと同様にして取得
される。次に、プロセス1309は、そのトークンを表
す領域に対する排他ロックを取得することを試み、読み
出しトークン1328がホスト1302に到着するまで
ブロッキングする。トークンが到着すると、プロセス1
309は、複製ファイル1325のローカルコピーに対
する共有ロックを要求する。プロセス1309は、その
ローカルコピーが他のプロセス1309によって実行さ
れているローカル書き込み操作に対する排他ロックでな
く、かつ、バックアップメッセージ512に応答してバ
ックアップサーバ515によって実行されているリモー
ト書き込み操作に対する排他ロックでもない場合にの
み、その共有ロックを受け取ることができる。Synchronization of sequential read and write operations performed on the other host 1302 is accomplished by the read token 1328, much as described with respect to the write token 1327. The process 1309 of performing a sequential read is a read token 1328.
Or first try to get a shared lock on a portion of the token file 1307 that indicates whether the write token 1327 is on the host 1302, li
b. Execute the code in 3d (507). If this attempt is unsuccessful, process 1309 proceeds to token server 1
311 reads the read token 1328 to another host 130.
Request to get from 2. The token is obtained in the same manner as described for the write token 1327. Next, process 1309 attempts to acquire an exclusive lock on the region representing the token and blocks until read token 1328 arrives at host 1302. When the token arrives, process 1
309 requests a shared lock on the local copy of the duplicate file 1325. Process 1309 is not an exclusive lock on its local copy whose local copy is being executed by another process 1309, and is also an exclusive lock on a remote write operation being executed by backup server 515 in response to backup message 512. The shared lock can only be taken if it is not.
【0086】既に示したように、書き込みトークン13
27を有するトークンサーバ1311は読み出しトーク
ン1328を授与することができる。書き込みトークン
1327を有するトークンサーバ1311が要求を受け
取った場合、複製ファイルに対する書き込み操作が終了
するのを待ち、複製ファイルのローカルコピーに対する
ロックを排他ロックから共有ロックに変更し、書き込み
バックアップメッセージ512のために使用しているチ
ャネルによって読み出しトークンを送る。このことすべ
てにより、読み出しトークン1328は、最後の書き込
みバックアップメッセージ512の後に、要求側ホスト
1302に到着する。As already indicated, the write token 13
Token server 1311 with 27 can present read token 1328. When the token server 1311 with the write token 1327 receives the request, waits for the write operation on the duplicate file to finish, changes the lock on the local copy of the duplicate file from the exclusive lock to the shared lock, and for the write backup message 512. Send a read token depending on the channel used for. All of this causes the read token 1328 to arrive at the requesting host 1302 after the last write backup message 512.
【0087】[複製ファイルに対する状態マシン:図1
5]ホスト1302内のアプリケーションプロセス13
09、トークンサーバ1311、およびバックエンドサ
ーバ515の協力ならびにホスト1302間でのトーク
ンサーバ1311の協力は、プロセス1309、トーク
ンサーバ1311、およびバックエンドサーバ515を
状態マシンとして考察することによってより良く理解さ
れる。与えられた複製ファイル1325に関して、これ
らの各マシンの状態は、そのファイルに対する書き込み
トークン1327および読み出しトークン1328に依
存し、トークンがホスト1302間を移動するにつれて
変化する。[State Machine for Duplicate Files: FIG. 1
5] Application process 13 in host 1302
09, token server 1311, and backend server 515 cooperation, as well as token server 1311 cooperation between hosts 1302, is better understood by considering process 1309, token server 1311, and backend server 515 as state machines. It For a given duplicate file 1325, the state of each of these machines depends on the write token 1327 and read token 1328 for that file and changes as the token moves between hosts 1302.
【0088】アプリケーションプロセス1309は、複
製ファイル1325に関して4つの状態を有する。Application process 1309 has four states with respect to duplicate file 1325.
【0089】1.操作なし状態。この状態では、アプリ
ケーションプロセス1309は、複製ファイル1325
のローカルコピーに対するいかなる種類のロックも有し
ておらず、従って、ローカルコピーに対する読み出し操
作も書き込み操作を実行することができない。1. No operation. In this state, the application process 1309 has the duplicate file 1325.
It does not have any kind of lock on its local copy, and therefore cannot perform read or write operations on the local copy.
【0090】2.アトミック読み出し状態。この状態で
は、プロセス1309はローカルコピーに対する共有ロ
ックのみを有し、従って、アトミック読み出し操作のみ
を実行することができる。2. Atomic read state. In this state, process 1309 has only a shared lock on the local copy, and therefore can only perform atomic read operations.
【0091】3.順次読み出し状態。この状態では、複
製ファイル1325に対する読み出しトークン1328
または書き込みトークン1327がホスト1302にあ
り、プロセス1309はローカルコピーに対する共有ロ
ックを有し、従って、アトミック読み出しのみならず順
次読み出し操作を実行することができる。3. Sequential read state. In this state, the read token 1328 for the duplicate file 1325
Alternatively, the write token 1327 is on the host 1302 and the process 1309 has a shared lock on the local copy, so it can perform sequential read operations as well as atomic reads.
【0092】4.書き込み状態。この状態では、複製フ
ァイル1325に対する書き込みトークン1327がホ
スト1302にあり、プロセス1309はローカルコピ
ーに対する排他ロックを有し、従って、順次読み出しお
よびアトミック読み出し操作のみならず書き込み操作を
実行することができる。書き込み操作は、複製ファイル
1325の他のコピーでバックアップされる。[0092] 4. Write state. In this state, the write token 1327 for the replicated file 1325 is on the host 1302, and the process 1309 has an exclusive lock on the local copy, so it can perform write operations as well as sequential read and atomic read operations. The write operation is backed up with another copy of the duplicate file 1325.
【0093】状態の説明から明らかなように、ある状態
から他の状態への遷移には、トークンおよびロックの獲
得および喪失が伴う。例えば、操作なし状態から順次読
み出し状態への遷移は、ホスト1302における読み出
しトークン1328の獲得およびプロセス1309によ
る共有ロックの獲得を要求する。As is clear from the description of states, the transition from one state to another involves the acquisition and loss of tokens and locks. For example, the transition from the no-operation state to the sequential read state requires acquisition of the read token 1328 at the host 1302 and acquisition of the shared lock by the process 1309.
【0094】バックエンドサーバ515を実現するプロ
セスの状態は、アプリケーションプロセス1309の状
態1および4と密接に関係している。The state of the process implementing the backend server 515 is closely related to the states 1 and 4 of the application process 1309.
【0095】1.操作なし状態。この状態では、バック
エンドサーバ515は、複製ファイル1325のローカ
ルコピーに対するいかなる種類のロックも有しておら
ず、従って、ローカルコピーに対する読み出し操作も書
き込み操作を実行することができない。1. No operation. In this state, the backend server 515 does not have any kind of lock on the local copy of the replicated file 1325 and therefore cannot perform read or write operations on the local copy.
【0096】2.書き込み状態。この状態では、バック
エンドサーバ515は、複製ファイル1325のローカ
ルコピーに対する排他ロックを有し、従って、ローカル
コピーに書き込みをすることができる。2. Write state. In this state, the backend server 515 has an exclusive lock on the local copy of the replicated file 1325 and can therefore write to the local copy.
【0097】以上のことからわかるように、状態変化
は、ホスト1302間のトークンの移動によって引き起
こされる。As can be seen from the above, the state change is caused by the movement of the token between the hosts 1302.
【0098】最も複雑な場合は、トークンサーバ131
1(A)および(B)を実現するプロセスの場合であ
る。トークンサーバ1311は、ホスト1302(A)
と(B)の間でトークンを渡すために相互に協力しなけ
ればならない。図15は、2つのトークンサーバ131
1に対する状態図である。図15において、各状態は番
号1501、1502、...、1506を有する。状態
遷移は矢印で示される。矢印の参照番号の最後の2桁
は、その矢印で示される遷移がなされる始状態および終
状態を示す。従って、矢印1531は、状態1503か
ら状態1501への遷移を示す。各状態遷移は、トーク
ンサーバ1311で受け取られるメッセージの結果であ
り、これにより、メッセージが他のトークンサーバ13
11に送られることもある。In the most complicated case, the token server 131
1 is a process for realizing (A) and (B). The token server 1311 is the host 1302 (A)
And (B) must cooperate with each other to pass the token. FIG. 15 shows two token servers 131.
3 is a state diagram for 1. FIG. In FIG. 15, each state has the numbers 1501, 1502, ..., 1506. State transitions are indicated by arrows. The last two digits of the arrow reference number indicate the start state and end state in which the transition indicated by the arrow is made. Therefore, the arrow 1531 indicates the transition from the state 1503 to the state 1501. Each state transition is the result of a message received at the token server 1311 so that the message is sent to another token server 1311.
May be sent to 11.
【0099】図15において、与えられた遷移に対して
受け取られるメッセージは、その遷移の矢印のそばに斜
体字で示され、送られるメッセージはブロック体で示さ
れる。例えば、矢印1531で示される遷移は、他のト
ークンサーバ1311からのTSgetRtokenTS(斜体)メ
ッセージの結果である。また、この遷移は、他のトーク
ンサーバへのTSgrantRtokenRP_TS(ブロック体)メッセ
ージを生成する。メッセージの名前は、メッセージの始
点、宛先、内容、およびそのメッセージがとる経路を示
す。例えば、TSgrantRtokenRP_TS(ブロック体)は、バ
ックアップメッセージ512のために使用されるチャネ
ルを通じて送られなければならない(RP_)、一方のト
ークンサーバ(第1のTS)から他方のトークンサーバ
(第2のTS)への読み出しトークン授与(grantRtoke
n)メッセージである。同様に、TSgetRtokenTS(斜体)
は、一方のトークンサーバから他方のトークンサーバへ
の読み出しトークン要求メッセージであるが、このメッ
セージは、バックアップメッセージ用のチャネルを通じ
て送られる必要はない。In FIG. 15, the message received for a given transition is shown in italics next to the transition arrow, and the message sent is shown in block. For example, the transition indicated by arrow 1531 is the result of a TSgetRtokenTS (italicized) message from another token server 1311. This transition also generates a TSgrantRtokenRP_TS (block body) message to another token server. The name of a message indicates the origin, destination, content of the message and the route taken by the message. For example, TSgrantRtokenRP_TS (block body) must be sent over the channel used for backup message 512 (RP_), from one token server (first TS) to another token server (second TS). Read token grant to (grantRtoke
n) A message. Similarly, TSgetRtokenTS (italics)
Is a read token request message from one token server to another token server, but this message need not be sent through the channel for backup messages.
【0100】図15の概観からはじめると、まず、3つ
の主要な状態がある。Starting with the overview of FIG. 15, there are three main states.
【0101】・書き込みトークン状態1503。この状
態では、ローカルホスト1302は書き込みトークン1
327を有し、プロセス1309は複製ファイル132
5のローカルコピーに対するすべての読み出し操作およ
び書き込み操作を実行することが可能であり、トークン
サーバ1311は読み出しトークンおよび書き込みトー
クンの両方を授与することが可能である。Write token state 1503. In this state, the local host 1302 has the write token 1
327 and the process 1309 has a duplicate file 132
It is possible to perform all read and write operations for the local copy of 5, and the token server 1311 can grant both read and write tokens.
【0102】・読み出しトークン状態1501。この状
態では、ローカルホスト1302は読み出しトークンの
みを有し、プロセス1309は複製ファイル1325の
ローカルコピーに対するすべての読み出し操作を実行す
ることができるがローカルコピーへの書き込みはでき
ず、トークンサーバ1311は書き込みトークン132
7の要求または授与をすることができる。Read token state 1501. In this state, the local host 1302 has only read tokens, and the process 1309 can perform all read operations on the local copy of the replicated file 1325 but cannot write to the local copy and the token server 1311 writes. Token 132
7 requests or awards can be made.
【0103】・トークンなし状態1505。この状態で
は、ローカルホスト1302はトークンを有さず、プロ
セス1309は複製ファイル1325のローカルコピー
に対するアトミック読み出し操作のみを実行することが
可能であり、バックエンドサーバ515のみが複製ファ
イル1325のローカルコピーに書き込むことが可能で
あり、トークンサーバ1311は、読み出しトークンま
たは書き込みトークンの要求のみをすることが可能であ
る。No token state 1505. In this state, the local host 1302 has no token, the process 1309 can only perform atomic read operations on the local copy of the replicated file 1325, and only the backend server 515 has the local copy of the replicated file 1325. It is writable, and the token server 1311 can only request read tokens or write tokens.
【0104】図15における始状態は読み出しトークン
状態1501である。アプリケーションプロセス130
9が読み出しトークン状態1501の間に書き込み操作
を試みると、状態遷移1512が起こる。トークンサー
バ1311はプロセス1309からAPgetWtokenTS(斜
体)要求を受け取り、この要求に応答して、他のホスト
1302のトークンサーバ1311へTSgetWtokenTS
(ブロック体)メッセージを送る。ここで、ローカルト
ークンサーバ1311は、読み出しトークン・書き込み
トークン待機(RwaitW)状態1502において、他のト
ークンサーバから書き込みトークンを授与するTSgrantW
tokenTS(斜体)メッセージを受け取るまで待機する。
状態の名前が示しているように、ローカルホストは、書
き込みトークンを待っている間、読み出しトークンを保
持する。TSgrantWtokenTS(斜体)メッセージを受け取
ると、遷移1523が起こり、トークンサーバ1311
は書き込みトークン状態1503に入り、ローカルホス
ト1302に書き込みトークン1327が来る。ここ
で、書き込みトークンに対する要求を生じた書き込み操
作が実行され、その結果、複製ファイル1325のロー
カルコピーに書き込みが行われ、他のホスト1302へ
書き込みバックアップメッセージ512が送られる。The initial state in FIG. 15 is the read token state 1501. Application process 130
When 9 attempts a write operation during read token state 1501, state transition 1512 occurs. The token server 1311 receives the APgetWtokenTS (italicized) request from the process 1309, and responds to this request to the token server 1311 of the other host 1302 by TSgetWtokenTS.
(Block type) Send a message. Here, the local token server 1311, in the read token / write token wait (RwaitW) state 1502, gives a write token from another token server TSgrantW.
Wait until you receive the tokenTS message.
As the state name implies, the local host holds a read token while waiting for a write token. Upon receiving the TSgrantWtokenTS (italicized) message, transition 1523 occurs and the token server 1311
Enters the write token state 1503 and the write token 1327 comes to the local host 1302. Here, the write operation that made the request for the write token is performed, resulting in a write to the local copy of the duplicate file 1325 and a write backup message 512 sent to the other host 1302.
【0105】もちろん、いずれのトークンサーバ131
1も書き込みトークン1327を有さず、それぞれが他
方から書き込みトークン1327を要求する可能性もあ
る。その場合、状態1502においてタイブレークアル
ゴリズム(状態遷移1522によって表されている)が
実行され、いずれのホスト1302が書き込みトークン
1327を受け取るかが決定される。このアルゴリズム
は、一方のホストが一次ホストとして指定され、他方の
ホストが二次ホストとして指定されることを要求する。
一次ホストは、他方のホスト1302からの要求に応答
して、その要求を無視して状態1503を続行する。二
次ホストはトークンなし・書き込みトークン待機(Nwai
tW)状態1504への遷移1524を行う。Of course, any token server 131
Neither 1 has write token 1327, and each may request write token 1327 from the other. In that case, the tiebreaking algorithm (represented by state transition 1522) is executed in state 1502 to determine which host 1302 receives the write token 1327. This algorithm requires that one host be designated as the primary host and the other host as the secondary host.
In response to the request from the other host 1302, the primary host ignores the request and continues in state 1503. Secondary host does not have token / write token wait (Nwai
tW) Transition 1524 to state 1504.
【0106】トークンサーバ1311は、状態1503
にあるとき、書き込みトークン1327を有し、要求中
のトークンサーバ1311へ書き込みトークン1327
または読み出しトークン1328のいずれかを提供する
ことができる。読み出しトークン1328に対する要求
に応答して、矢印1531で示される遷移が起こる。TS
getRtokenTS(斜体)メッセージに応答して、トークン
サーバ1311は書き込みトークン1327を放棄し、
要求中のトークンサーバ1311へTSgrantRtokenRP_TS
(ブロック体)メッセージを送るが、読み出しトークン
1328は保持する。その結果、いずれのトークンサー
バ1311も読み出しトークンを有し、状態1501に
あることになる。The token server 1311, state 1503
To the requesting token server 1311 with the write token 1327.
Alternatively, either read token 1328 can be provided. In response to the request for read token 1328, the transition indicated by arrow 1531 occurs. TS
In response to the getRtokenTS (italicized) message, the token server 1311 abandons the write token 1327,
To the requesting token server 1311, TSgrantRtokenRP_TS
Send a (block body) message, but retain the read token 1328. As a result, any token server 1311 has a read token and is in state 1501.
【0107】要求が、書き込みトークン1327に対す
るものであるとき、矢印1535で示される遷移が起こ
る。TSgetWtokenTS(斜体)要求に応答して、トークン
サーバ1311は自己のトークンを放棄し、メッセージ
512のために使用されるチャネルを通じてTSgrantWto
kenRP_TS(ブロック体)メッセージをバックエンドサー
バへ送り、トークンサーバ1311は状態1505に入
る。状態1505は、状態1501から遷移1515に
よって到達することもある。この遷移は、状態1501
にあるトークンサーバ1311がTSgetWtokenTS(斜
体)メッセージを受け取り、それに応答して今遷移15
35について説明したように動作するときに起こる。た
だし、トークンサーバ1311のホストは書き込みをし
ているのではないので、メッセージ512のチャネルを
通じてバックエンドサーバへメッセージを送る必要はな
い。When the request is for a write token 1327, the transition indicated by arrow 1535 occurs. In response to the TSgetWtokenTS request, the token server 1311 abandons its token and TSgrantWto through the channel used for message 512.
The kenRP_TS (block body) message is sent to the backend server, and the token server 1311 enters the state 1505. State 1505 may be reached from state 1501 by transition 1515. This transition is in state 1501
Token server 1311 at receives the TSgetWtokenTS (italicized) message and responds to it by transitioning now 15
Occurs when operating as described for 35. However, since the host of the token server 1311 is not writing, it is not necessary to send the message to the backend server through the channel of the message 512.
【0108】ローカルホスト1302上のアプリケーシ
ョンプロセス1309が複製ファイル1325のローカ
ルコピーに対する読み出し操作または書き込み操作を実
行しようと試みるまで、トークンサーバ1311は状態
1505にとどまる。読み出し操作の場合、この試みの
結果、遷移1556が起こり、プロセス1309からの
APgetRtokenTS(斜体)メッセージがトークンサーバ1
311によって受け取られ、トークンサーバ1311は
これに応答して他方のトークンサーバ1311へTSgetR
tokenTS(ブロック体)メッセージを送る。次に、トー
クンサーバ1311は、トークンなし・読み出しトーク
ン待機(NwaitR)状態1506に入り、読み出しトーク
ン1328を待機する。待機中、書き込みトークン13
27に対するローカル要求は待ち行列に入れる。このト
ークンを授与するTSgrantRtokenRP_TS(斜体)メッセー
ジがメッセージ512のチャネルを通じて到着すると、
結果として、読み出しトークン状態1501への遷移1
561が起こる。Token server 1311 remains in state 1505 until application process 1309 on local host 1302 attempts to perform a read or write operation on the local copy of replicated file 1325. For read operations, this attempt results in a transition 1556, from process 1309.
APgetRtokenTS (Italic) message is token server 1
311 and the token server 1311 responds with TSgetR to the other token server 1311.
Send a tokenTS (block body) message. Next, the token server 1311 enters the no token / wait for read token (NwaitR) state 1506 to wait for the read token 1328. Waiting, write token 13
Local requests for 27 are queued. When a TSgrantRtokenRP_TS (Italic) message granting this token arrives through the channel of message 512,
As a result, transition 1 to read token state 1501
561 happens.
【0109】アプリケーションプロセス1309が複製
ファイルに対する書き込み操作を試みた場合、結果とし
て遷移1554が起こる。この遷移において、トークン
サーバ1311はAPgetWtokenTS(斜体)メッセージに
応答して、TSgetWtokenTS(ブロック体)メッセージを
他方のトークンサーバ1311へ送り、その結果、状態
1504に入る。次に、トークンサーバは、状態150
4において、他方のトークンサーバ1311からのTSgr
antWtokenRP_TS(斜体)メッセージを待機する。このメ
ッセージが送られるチャネルは、バックエンドサーバ5
15へのメッセージ512のためのものである。TSgran
tWtokenRP_TS(斜体)メッセージが到着すると、状態1
503への遷移1543が起こる。When application process 1309 attempts a write operation on a duplicate file, transition 1554 results. In this transition, the token server 1311 responds to the APgetWtokenTS (italicized) message by sending a TSgetWtokenTS (blocked) message to the other token server 1311 resulting in state 1504. The token server then states 150
4, the TSgr from the other token server 1311
Wait for antWtokenRP_TS (italicized) message. The channel to which this message is sent is the backend server 5
It is for message 512 to 15. TSgran
When a tWtokenRP_TS (italicized) message arrives, status 1
Transition 1543 to 503 occurs.
【0110】[同期の実装:図1、図16、図17]好
ましい実施の形態では、同期は、複製ファイル1325
の各ローカルコピーに対する7個のロックのセットによ
って実装される。図16に、ロックの種類、ロックを有
しなければならないシステム1301の要素、および、
ロックの意味のリストである。ロック1601、160
3、および1605は、それぞれ、プロセス1309が
複製ファイル1325のローカルコピーに対してアトミ
ック読み出し操作、順次読み出し操作、および書き込み
操作を実行するために有しなければならないロックであ
る。ロック1607は、ローカルバックエンドサーバ5
15が複製ファイル1325のローカルコピーに書き込
みをするために有しなければならないロックである。ロ
ック1609、1611、および1613は、現在ロー
カルホスト1302にある複製ファイル1325に対す
るトークンによって要求されるように、ローカルトーク
ンサーバ1311によって要求される。例えば、ローカ
ルホスト1302が書き込みトークンを有し、その書き
込みトークンに対する要求を受け取った場合、ローカル
トークンサーバ1311は、書き込みトークンロック1
609を解放し、トークンなしロック1613を獲得す
る。[Implementation of Sync: FIGS. 1, 16 and 17] In the preferred embodiment, the sync is a duplicate file 1325.
Is implemented by a set of 7 locks for each local copy of In FIG. 16, the type of lock, the elements of system 1301 that must have the lock, and
Here is a list of the meanings of locks. Lock 1601, 160
3 and 1605 are locks that the process 1309 must have to perform atomic read operations, sequential read operations, and write operations on the local copy of the replicated file 1325, respectively. Lock 1607 is the local backend server 5
15 is a lock that must be held in order to write to the local copy of duplicate file 1325. Locks 1609, 1611, and 1613 are requested by the local token server 1311 as requested by the token for the duplicate file 1325 currently residing on the local host 1302. For example, if the local host 1302 has a write token and receives a request for that write token, the local token server 1311 will write the write token lock 1
Release 609 and acquire tokenless lock 1613.
【0111】図17に、ロックの意味規則を示す。図1
6の各ロックに対する行および列がある。行と列の交点
にxがある場合、相異なる要求者がその行のロックとそ
の列のロックとを同時に保有することはできない。例え
ば、トークンサーバ1311がトークンなしロック16
13を保有している場合、ローカルホスト1302にト
ークンがないという状況に対して要求されるとおり、プ
ロセス1309は、順次読み出しロック1603または
ローカル書き込みロック1605を有することはない。FIG. 17 shows a lock semantic rule. FIG.
There are rows and columns for each of the six locks. If there is an x at the intersection of a row and a column, different requesters cannot simultaneously hold the lock for that row and the lock for that column. For example, if the token server 1311 has a tokenless lock 16
If so, process 1309 will not have sequential read lock 1603 or local write lock 1605, as required for the situation where the local host 1302 has no token.
【0112】好ましい実施の形態では、図16のロック
は、UNIXオペレーティングシステムのSunOSオペレ
ーティングシステムまたはSystem V Release 4のような
オペレーティングシステムによって提供される共有ロッ
クおよび排他ロックにより実装される(SunOSはSun Mic
rosystems, Inc.の商標である)。オペレーティングシ
ステムによって提供されるロックにより、プロセスは、
ファイルのバイトに対する共有ロックまたは排他ロック
を取得することができる。さらに、このバイトは、他の
ファイルに対するロックを表すために使用することも可
能である。こうして、好ましい実施の形態では、図16
のロックは、トークンファイル1327において、トー
クンファイル1327内のバイト列を各複製ファイル1
325に割り当て、複製ファイルのバイト列内のバイト
を使用して複製ファイルのロックを表現することによっ
て実装される。複製ファイル1325に対するバイト列
はスロットと呼ばれる。好ましい実施の形態では、各ス
ロットは3バイトを有する。図16の各ロックはスロッ
トのバイトに対するロックの組合せによって表現され
る。In the preferred embodiment, the locks of FIG. 16 are implemented by shared and exclusive locks provided by an operating system such as the SunOS operating system of the UNIX operating system or System V Release 4 (SunOS is a Sun Mic
is a trademark of rosystems, Inc.). The lock provided by the operating system allows the process to
You can get a shared or exclusive lock on a byte of a file. In addition, this byte can also be used to represent locks on other files. Thus, in the preferred embodiment, FIG.
In the lock of the token file 1327, the byte string in the token file 1327 is copied to each duplicate file 1
It is implemented by allocating 325 and expressing the lock of the duplicate file using the bytes in the byte sequence of the duplicate file. The byte string for the duplicate file 1325 is called a slot. In the preferred embodiment, each slot has 3 bytes. Each lock in FIG. 16 is represented by a combination of locks on the bytes of the slot.
【0113】図1に、好ましい実施の形態において使用
される組合せを示す。第1列は、システム1301内の
複製ファイル1325のローカルコピーに対して使用さ
れるロックのリストである。第2列は、どの種類のオペ
レーティングシステムロックが使用されるかを示す。R
は共有ロック、Wは排他ロック、およびNLはロックな
しを示す。残りの列は、スロットのバイトを示す。バイ
トごとの列内のダッシュは、第2列で指定されるOSロ
ックがそのバイトに対して獲得されていることを示す。
こうして、プロセス1309は複製ファイル1325の
ローカルコピーに対するアトミック読み出しロック16
01を獲得しているとき、オペレーティングシステムは
複製ファイル1325に対するスロットのバイト0に共
有ロックを有する。同様に、プロセス1309がローカ
ルコピーに対する書き込みロック1605を獲得してい
るとき、オペレーティングシステムはスロットのバイト
1および2に共有ロックを有し、バイト0に排他ロック
を有する。FIG. 1 shows the combinations used in the preferred embodiment. The first column is a list of locks used on the local copy of duplicate file 1325 in system 1301. The second column shows what kind of operating system lock is used. R
Indicates a shared lock, W indicates an exclusive lock, and NL indicates no lock. The remaining columns show the bytes of the slot. A dash in a column for each byte indicates that the OS lock specified in the second column has been acquired for that byte.
Thus, process 1309 uses atomic read lock 16 on the local copy of replicated file 1325.
When acquiring 01, the operating system has a shared lock on byte 0 of the slot for duplicate file 1325. Similarly, when process 1309 has acquired the write lock 1605 for the local copy, the operating system has a shared lock on bytes 1 and 2 of the slot and an exclusive lock on byte 0.
【0114】OSロックのこのマッピングは、システム
1301のロックに対する図17の衝突テーブルを実現
する。衝突しているシステム1301のロックは、衝突
しているOSロックおよび重複したオフセットにマップ
され、一方、衝突していないシステム1301のロック
は、衝突していないOSロックまたは重複しないオフセ
ットにマップされる。好ましい実施の形態では、このマ
ッピングはSLEVEと呼ばれる同期ツールによって自
動的に生成される。(エイ.スカーラ(A. Skarra)、
「SLEVE:イベント同期のための意味規則ロック(S
LEVE: Semantic Locking for EVEnt synchronizatio
n)」、Proceedings of Ninth International Conferenc
e on Data Engineering(1993年)参照。)This mapping of OS locks implements the conflict table of FIG. 17 for system 1301 locks. The conflicting system 1301 locks are mapped to conflicting OS locks and overlapping offsets, while the non-conflicting system 1301 locks are mapped to non-conflicting OS locks or non-overlapping offsets. . In the preferred embodiment, this mapping is automatically generated by a synchronization tool called SLEVE. (A. Skarra,
"SLEVE: Semantic lock for event synchronization (S
LEVE: Semantic Locking for EVEnt synchronizatio
n) '', Proceedings of Ninth International Conferenc
See e on Data Engineering (1993). )
【0115】[複製ファイルに対する高水準操作の実
行]複製ファイルの各ローカルコピーが同様のすべての
他のコピーと等価であるということの重要な結果とし
て、上記の書き込み操作と全く同様にして高水準の操作
を扱うことができる。書き込み操作では、書き込みトー
クン1327を有するホスト1302が複製ファイル1
325のローカルコピーに対する書き込みを実行し、そ
の後、その書き込みおよび書き込まれるデータを指定す
るメッセージを他のホスト1302へ送り、そこで、バ
ックエンドサーバ515が、メッセージに指定された書
き込み操作を、当該他のホスト1302内の複製ファイ
ル1325のローカルコピーに対して実行する。全く同
じことを高水準操作、例えば、2つの複製ファイルに関
するソート(整列)・マージ(併合)を行う場合にも行
うことができる。複製ファイルはすべてのホスト130
2において等価であるため、書き込みトークン1327
を有するホスト1302は以下のように進むことが可能
である。ソート・マージを行いその操作に伴うすべての
書き込みに対する書き込みバックアップメッセージ51
2を送る代わりに、ホスト1302は、ローカルコピー
に対してソート・マージを実行してから、そのソート・
マージ操作を指定するメッセージ512を他のホスト1
302へ送ることが可能である。複製ファイル1325
は他のすべてのホスト1302上で等価であるため、こ
の指定されたソート・マージ操作の結果はすべてのホス
ト1302上で同一となる。このアプローチの利点は、
ソート・マージ操作の指定を送ることは、書き込みトー
クンを有するホスト1302上のソート・マージの結果
生じるすべての書き込み操作を他のホスト1302へ送
るよりもずっと少ない時間およびネットワーク資源しか
必要としないことである。Performing High Level Operations on Duplicate Files An important consequence of each local copy of a duplicate file being equivalent to all other copies of the same is the high level operation just like the write operation above. Can handle the operation of. For a write operation, host 1302 with write token 1327 will copy file 1
Performs a write to the local copy of 325 and then sends a message specifying the write and the data to be written to another host 1302, where the backend server 515 performs the write operation specified in the message. This is executed for the local copy of the duplicate file 1325 in the host 1302. Exactly the same can be done for high-level operations, such as sorting and merging two duplicate files. Duplicate files for all hosts 130
Write token 1327 because they are equivalent in 2
A host 1302 with a can proceed as follows. Write backup message 51 for all writes associated with sort / merge operations
Instead of sending 2, the host 1302 performs a sort-merge on the local copy and then
A message 512 specifying the merge operation is sent to another host 1
It is possible to send to 302. Duplicate file 1325
Are equivalent on all other hosts 1302, so the result of this specified sort-merge operation is the same on all hosts 1302. The advantage of this approach is that
Sending a specification of a sort-merge operation requires much less time and network resources than sending all write operations resulting from a sort-merge on host 1302 that has a write token to other hosts 1302. is there.
【0116】さらに詳細に説明すると、高水準操作は以
下のような状況で使用することができる。各ホスト13
02が2つの複製ファイル、すなわち、ソートされたマ
スタリストファイルおよび更新ファイルを有する。マス
タリストファイルへの更新は更新ファイルに対して行わ
れ、ソート・マージ操作が更新ファイルおよびマスタリ
ストファイルに対して周期的に実行されて新たなマスタ
リストファイルが生成される。その後更新ファイルは削
除され、再作成されて、このサイクルが再開される。更
新ファイルに対する更新は、上記のような書き込み操作
を使用して行われる。従って、ソート・マージ操作の時
刻が来ると、すべてのホスト1302は同一の更新ファ
イルおよびマスタリストファイルを有する。書き込みト
ークンを有するホスト1302はそれ自身ソート・マー
ジ操作を実行してから、書き込みバックアップメッセー
ジ512を送る場合と全く同様にしてソート・マージ操
作の指定を有するメッセージ512を他の各ホスト13
02へ送る。この指定は、ソート・マージ操作のコード
であることも可能であるが、この操作は反復して実行さ
れるため、この指定は一般には、ソート・マージが更新
ファイルおよびマスタリストファイルに対して実行され
ることを指定するコマンドラインである。次に、ソート
・マージが他の各ホスト1302に対して実行される。
同様に進行して、書き込みトークンを有するホスト13
02は更新ファイルを削除し再作成して、同じ操作を指
定するメッセージを他のホスト1302へ送る。もちろ
ん、操作の指定は任意のレベルのものが可能である。例
えば、上記の例では、更新ファイルのソート・マージな
らびに削除および再作成をすべてシェルスクリプトにお
いて指定することが可能であり、操作指定は、そのシェ
ルスクリプトとするか、または、他のすべてのホスト1
302がそのシェルスクリプトのコピーを有する場合に
は、そのシェルスクリプトを呼び出すために使用するコ
マンドラインとすることも可能である。More specifically, high level operations can be used in the following situations. Each host 13
02 has two duplicate files, a sorted master list file and an update file. The update to the master list file is performed on the update file, and the sort / merge operation is periodically performed on the update file and the master list file to generate a new master list file. The update file is then deleted, recreated and the cycle restarted. Updates to the update file are made using write operations as described above. Therefore, at the time of the sort-merge operation, all hosts 1302 have the same update file and master list file. The host 1302 having the write token performs the sort-merge operation by itself, and then sends the message 512 having the designation of the sort-merge operation to each of the other hosts 13 in exactly the same manner as when the write backup message 512 is sent.
Send to 02. This specification can be code for a sort-merge operation, but this operation is performed iteratively, so this specification is generally a sort-merge operation performed on update files and masterlist files. Is a command line that specifies that Next, sort merge is executed for each of the other hosts 1302.
Host 13 with write token proceeding in a similar manner
02 deletes and recreates the update file and sends a message designating the same operation to another host 1302. Of course, the operation can be specified at any level. For example, in the above example, it is possible to specify the sorting / merging and the deletion / re-creation of the update files in the shell script, and the operation specification may be that shell script, or all other hosts 1
If 302 has a copy of the shell script, it could be the command line used to invoke the shell script.
【0117】[複製ファイルへのアクセスのトランザク
ション的同期]説明したように、複製ファイルシステム
は、ファイルへの単一のアクセスに対する複製ファイル
間の一貫性を保証する。また、複製ファイルシステム
は、ファイルへのトランザクション的アクセスに対する
一貫性を保証するためにも使用することができる。トラ
ンザクションとは、単一アクセスのシーケンスからなる
単一の論理アクションである。トランザクションの例は
以下の通りである。ファイルf内の各レコードrは、プ
ログラムPがrを読み出した回数を記憶する属性readnu
mを含むと仮定する。Pは以下の擬似コードにおいてrea
dnumをインクリメントする。ただし、関数のパラメータ
リストは省略してある。[Transactional Synchronization of Access to Duplicate Files] As described, the duplicate file system guarantees consistency between duplicate files for a single access to a file. The replicated file system can also be used to ensure consistency for transactional access to files. A transaction is a single logical action consisting of a single access sequence. An example of a transaction is as follows. Each record r in the file f has an attribute readnu that stores the number of times the program P has read r.
Suppose that m is included. P is rea in the pseudo code below
Increment dnum. However, the parameter list of the function is omitted.
【0118】for every r in f read(f); increment_readnum(); write(f);For every r in f read (f); increment_readnum (); write (f);
【0119】Pのいくつかのインスタンスが並行して実
行されるときには、アクセスレベルの同期だけではfの
レコードにおける一貫性を保証するのに十分ではない。
あるPがrを読み出した直後は、Pがreadnumをインク
リメントしrをfに書き込むまでは、他のプログラムは
rの読み出しまたは書き込みを行うべきではない。読み
出し−インクリメント−書き込みのシーケンスは、アト
ミック単位として同期すべきrに対する単一の論理アク
ション(すなわち、トランザクション)である。When several instances of P are executed in parallel, access level synchronization alone is not sufficient to guarantee consistency in the records of f.
Immediately after a P reads r, no other program should read or write r until P increments readnum and writes r to f. The read-increment-write sequence is a single logical action (i.e., transaction) on r to be synchronized as an atomic unit.
【0120】別個のトランザクション機構がない場合、
プログラマは、オペレーティングシステムのロックプリ
ミティブを用いてこのようなシーケンスに対するトラン
ザクション同期の孤立性を実装することができる。プロ
グラマは単にシーケンスをexclusive_lock(f)...unlock
(f)のようなプリミティブでくくるだけである。一般の
場合、計算は複数のファイルに関係し、プログラムは、
孤立性を保証するときに複数のロックを要求しなければ
ならない。例えば、計算が2つのファイルf1およびf
2の内容に依存し、一方、その結果は他のファイルf3
に記憶される。 read(f1); read(f2); computation(); write(f3); そして、プログラムは以下のようにこのシーケンスをロ
ック要求で囲む。 share_lock(f1); share_lock(f2); exclusive_lock(f
3) ... unlock(f3); unlock(f2); unlock(f1); しかし、プロセスが一時に複数のロックを要求すると、
デッドロックが起こる可能性がある。同期プロトコル
を、トランザクション機構によって与えるか、または、
オペレーティングシステムロックを使用するアプリケー
ションによって定義するかによって、デッドロックを防
止するかまたは検出して解決するかしなければならな
い。If there is no separate transaction mechanism,
Programmers can use the locking primitives of the operating system to implement transaction synchronization isolation for such sequences. The programmer simply takes the sequence exclusive_lock (f) ... unlock
All you have to do is add a primitive like (f). In the general case, calculations involve multiple files and the program
Multiple locks must be required when guaranteeing isolation. For example, the calculation has two files f1 and f
2, while the result is another file f3
Is stored. read (f1); read (f2); computation (); write (f3); Then, the program encloses this sequence with a lock request as follows. share_lock (f1); share_lock (f2); exclusive_lock (f
3) ... unlock (f3); unlock (f2); unlock (f1); But if a process requests multiple locks at one time,
Deadlocks can occur. The synchronization protocol is provided by the transaction mechanism, or
Deadlocks must be prevented or detected and resolved depending on whether they are defined by the application using the operating system lock.
【0121】既存のオペレーティングシステムはローカ
ルエリアネットワーク内の(リモート)ファイルをロッ
クするプリミティブをサポートしている。しかし、分散
環境では、高い通信コストのためにロックは効果であ
り、特にデッドロック検出は大域的アルゴリズムを必要
とするため、より困難である。現在利用可能なオペレー
ティングシステムのロックプリミティブは、分散環境に
おけるトランザクション的同期を十分にサポートしてい
ない。Existing operating systems support primitives to lock (remote) files in local area networks. However, in a distributed environment, locks are effective due to high communication costs, and deadlock detection is more difficult, especially since it requires a global algorithm. Currently available operating system lock primitives do not fully support transactional synchronization in a distributed environment.
【0122】ここで説明した複製ファイルシステムは、
ローカルエリアネットワークまたは広域ネットワークに
わたる複製ファイルにアクセスするプログラムシーケン
スのデッドロックのないトランザクション的同期をサポ
ートするTXというサービスを提供する。複製ファイルシ
ステムは、並列プロセスを同期させるために必要なメッ
セージの数を最小にするプロトコルを実現する。The duplicate file system described here is
Provides a service called TX that supports deadlock-free transactional synchronization of program sequences that access replicated files across local or wide area networks. The replicated file system implements a protocol that minimizes the number of messages needed to synchronize parallel processes.
【0123】好ましい実施の形態では、複製ファイルシ
ステムは、管理する各ファイルfごとに現シーケンス番
号(curSeqNf)を生成する。複製ファイルシステムは、
プロセスが複製ツリー505にfを作成するとき(また
はこの複製ツリー505にfを移動するとき)にcurSeq
Nfを0に初期化し、プロセスがwrite()操作でfを変更
するときcurSeqNfをインクリメントする。プロセスP
は、fに対する読み出しトークンまたは書き込みトーク
ンを獲得することの一部としてcurSeqNfを受け取る。こ
の値は大域的(グローバル)である。すなわち、curSeq
Nfは、fへの変更に係るプロセスがPに対してローカル
であるかリモートであるかにかかわらず、そのすべての
変更を反映する。In the preferred embodiment, the duplicate file system generates a current sequence number (curSeqN f ) for each file f it manages. The duplicate file system is
CurSeq when the process creates f in the replica tree 505 (or moves f to this replica tree 505)
Initialize N f to 0 and increment curSeqN f when the process modifies f in a write () operation. Process P
Receives curSeqN f as part of getting a read or write token for f . This value is global. Ie curSeq
N f reflects all changes to f regardless of whether the process involved is local or remote to P.
【0124】TXを使用するために、プロセスPはフラグ
O_TXで複製ファイルfをオープンする。Pが最初にfの
読み出しまたは書き込みをするとき、TXはcurSeqNfを局
所変数locSeqNfに保存する。Pが次にfの読み出しまた
は書き込みをするとき、TXはlocSeqNfをcurSeqNfと比較
する。これらが等しくない場合、その間に他のプロセス
がfを変更したことになり、TXはエラーを返す。そうで
ない場合、TXはオペレーティングシステムのreadまたは
writeファンクションを呼び出し、その結果を返す。In order to use TX, process P is flagged
Open the duplicate file f with O_TX. When P first reads or writes f, TX stores curSeqN f in the local variable locSeqN f . The next time P reads or writes f, TX will compare locSeqN f with curSeqN f . If they are not equal, then another process has changed f in the meantime and TX returns an error. Otherwise, TX is the operating system read or
Call the write function and return the result.
【0125】複製ファイルシステムは、デッドロックを
避けるために、複製するファイル全体の順序を定義す
る。TXファンクションが複数のトークンを要求すると
き、事前に定義された順序に従ってその要求を行う。The duplicate file system defines the order of the entire files to be duplicated to avoid deadlock. When a TX function requests multiple tokens, it makes the requests in a predefined order.
【0126】[インタフェース]TXの制御構造は、UN
IXインタフェースopen/close/read/writeの名前およ
び返値を保ったまま再定義し拡張する関数インタフェー
ス内にカプセル化される。TXは、errnoに対する新たな
値としてETXを定義する。これは、トランザクション的
同期によるエラーを意味する。また、TXは2つの新たな
関数readtx()およびwritetx()を定義する。これらは、
ファイルの集合にアクセスし、型fd_set*(システムコ
ールselectの場合と同様)およびtx_t*のパラメータを
有する。ただし、struct txt {char *buf; int nbyt
e;}である。プログラムは、読み出しまたは書き込みを
するファイルに対してfd_setにセットされたビットによ
り関数を呼び出し、ETXエラー復帰の場合、関数は、fd_
setにおいて、curSeqNが変化しているファイル以外のす
べてのビットをクリアする。インタフェースおよび擬似
コードは以下の通りである。[Interface] The control structure of TX is UN
IX interface Encapsulated in a function interface that redefines and extends the open / close / read / write names and return values. TX defines ETX as a new value for errno. This means an error due to transactional synchronization. TX also defines two new functions, readtx () and writetx (). They are,
It accesses a set of files and has parameters of type fd_set * (as in the system call select) and tx_t *. However, struct txt (char * buf; int nbyt
e;}. The program calls the function with the bit set in fd_set for the file to be read or written, and in the case of ETX error return, the function is called fd_set.
On set, clear all bits except those for which curSeqN has changed. The interface and pseudo code are as follows:
【0127】・open(char *path; int flags; mode_t m
ode) flagsがO_TXを含む場合、局所変数locSeqNpathを0に初
期化し、O_TXをflagsから削除する。システムコールope
nを呼び出し、その結果を返す。Open (char * path; int flags; mode_t m
ode) If flags include O_TX, initialize the local variable locSeqN path to 0 and remove O_TX from flags. System call ope
Invokes n and returns the result.
【0128】・read(int fd; char *buf; int nbyte) fdでオープンしたファイルfに対する読み出しトークン
を取得する。fdに対してO_TXがセットされていない場
合、システムコールreadを呼び出し、読み出しトークン
を解放し、復帰する。それ以外の場合、locSeqNf=0で
あれば、curSeqNfをlocSeqNfに代入する。locSeqNf≠cu
rSeqNfの場合、errno = ETXとセットし、そうでない場
合、システムコールreadを呼び出す。読み出しトークン
を解放し復帰する。Read (int fd; char * buf; int nbyte) Acquires the read token for the file f opened with fd. If O_TX is not set for fd, call the system call read, release the read token, and return. Otherwise, if the locSeqN f = 0, substituting the curSeqN f to locSeqN f. locSeqN f ≠ cu
If rSeqN f , set errno = ETX, otherwise call system call read. Release the read token and return.
【0129】・write(int fd; char *buf; int nbyte) fdでオープンしたファイルfに対する書き込みトークン
を取得する。fdに対してO_TXがセットされていない場
合、fのローカルコピーに対するシステムコールwrite
を呼び出し、それが成功した場合、その更新をリモート
コピーへ送り、書き込みトークンを解放し、復帰する。
それ以外の場合、locSeqNf=0であれば、curSeqNfをlo
cSeqNfに代入する。locSeqNf≠curSeqNfの場合、errno
= ETXとセットし、そうでない場合、上記のようにfの
コピーを更新し、O_TXの場合、locSeqNf(およびcurSeq
Nf)をインクリメントする。書き込みトークンを解放し
復帰する。Write (int fd; char * buf; int nbyte) Acquires the write token for the file f opened with fd. If O_TX is not set for fd, the system call write for the local copy of f
And, if successful, sends the update to the remote copy, frees the write token, and returns.
Otherwise, if locSeqN f = 0, then curSeqN f is lo
Substitute in cSeqN f . errno if locSeqN f ≠ curSeqN f
= ETX, otherwise update the copy of f as above, and for O_TX locSeqN f (and curSeq
N f ) is incremented. Release the write token and return.
【0130】・readtx(fd_set *readfds; struct tx_t
*txp) セットされた各ビットreadfds[fd]に対して、複製ファ
イルシステムによって定義される順序で、fdでオープン
されたファイルfに対する読み出しトークンを取得し、
fdに対してO_TXがセットされている場合、次のことを実
行する。locSeqNf=0の場合、fを_nullとマークし、
それ以外の場合、locSeqNf≠curSeqNfであれば、fを変
更ありとマークする。いずれかのfが変更ありの場合、
errno =ETXとセットし、*readfdsにおいて、変更された
ファイルに対するビット以外のすべてのビットをクリア
する。いずれのfにも変更がない場合、各ファイルfに
対して、システムコールreadを呼び出し、fが_nullで
ある場合にはcurSeqNfをlocSeqNfに代入する。すべての
トークンを解放し復帰する。この関数は、いずれかのフ
ァイルが変更ありの場合にはいずれのファイルも読み出
さず、それ以外の場合にはすべてのファイルを読み出
す。Readtx (fd_set * readfds; struct tx_t
* txp) For each bit readfds [fd] set, get the read tokens for file f opened with fd in the order defined by the duplicate file system,
If O_TX is set for fd, do the following: If locSeqN f = 0, mark f as _null,
Otherwise, if locSeqN f ≠ curSeqN f , mark f as modified. If any f has changed,
Set errno = ETX and in * readfds clear all bits except those for modified files. If there are no changes in any of the f, for each file f, called the system call read, if f is _null substitutes CurSeqN f to LocSeqN f. Release all tokens and return. This function does not read any files if they have changed, otherwise it reads all files.
【0131】・writetx(fd_set *depends_on, *writefd
s; struct tx_t *txp) セットされた各ビットdepends_on[fd]またはwritefds[f
d]に対して、それぞれ、複製ファイルシステムによって
定義される順序で、fdでオープンされたファイルfに対
する読み出しトークンまたは書き込みトークンを取得
し、fdに対してO_TXがセットされている場合、次のこと
を実行する。locSeqNf≠0かつ≠locSeqNf≠curSeqNfで
ある場合、fを変更ありとマークする。いずれかのfが
変更ありの場合、errno = ETXとセットし、*depends_on
または*writefdsにおいて、変更されたファイルに対す
るビット以外のすべてのビットをクリアする。いずれの
fにも変更がない場合、*writefds内の各fdに対してシ
ステムコールwriteを呼び出す。これが成功した場合、
fのリモートコピーへその更新を送り、O_TXがセットさ
れている場合、locSeqNfをcurSeqNf+1とセットする
(そしてcurSeqNfをインクリメントする)。すべてのト
ークンを解放し復帰する。この関数は、いずれかのファ
イルが変更ありの場合には書き込みを実行せず、それ以
外の場合にはすべての書き込みを実行する。Writetx (fd_set * depends_on, * writefd
s; struct tx_t * txp) Each bit set depends_on [fd] or writefds [f
For each d], get the read token or write token for the file f opened by fd in the order defined by the duplicate file system, respectively, and if O_TX is set for fd, then To execute. If it is locSeqNf ≠ 0 and ≠ locSeqN f ≠ curSeqN f, to mark that there is a change the f. If any f has changed, set errno = ETX and * depends_on
Or in * writefds, clear all bits except those for modified files. If there is no change in any f, call the system call write for each fd in * writefds. If this succeeds,
Send the update to the remote copy of f, and set locSeqN f to curSeqN f +1 (and increment curSeqN f ) if O_TX is set. Release all tokens and return. This function does not write if any files have changed, otherwise it does all writes.
【0132】・resettx(fd_set *fds) セットされた各ビットfds[fd]に対して、fdでオープン
されているファイルfに対するlocSeqNfを0に再初期化
する。Resettx (fd_set * fds) For each set bit fds [fd], re-initialize locSeqN f to 0 for file f opened at fd.
【0133】[使用法]TXはアプリケーションが定義す
る再試行プロトコルをサポートする。例示のために、新
しい各レコードとの新しいトランザクションを開始する
アクセスについての上記の例を想起すると、TXを使用す
る擬似コードは、ファイルf内の各レコードrに対して
以下のようになる。 if(fd = open(f, O_RDWR O_TX)) < 0 exit; FD_ZERO(&fdset); FD_SET(fd, &fdset); for every r in f resettx(&fdset); for (try = TRY_NUM; try > 0; try--) { if read(fd, buf, nbyte) < 0 exit; increment_readnum(); if write(fd, buf, nbyte) >= 0 break; if errno != ETX exit; /* そうでなければリセットし再試行する。*/ /* いずれか他のプロセスがread()以降にfを変更した。*/ resettx(&fdset); }[Usage] TX supports an application defined retry protocol. For illustration purposes, recalling the above example of an access that initiates a new transaction with each new record, the pseudo code using TX would be as follows for each record r in file f: if (fd = open (f, O_RDWR O_TX)) <0 exit; FD_ZERO (&fdset); FD_SET (fd, &fdset); for every r in f resettx (&fdset); for (try = TRY_NUM; try>0; try- -) (if read (fd, buf, nbyte) <0 exit; increment_readnum (); if write (fd, buf, nbyte)> = 0 break; if errno! = ETX exit; / * otherwise reset and re-run To try. * / / * Some other process changed f after read (). * / resettx (&fdset);}
【0134】プログラムは、新たな読み出し−インクリ
メント−書き込みのシーケンスを開始するごとにresett
x()でlocSeqNfを再初期化する。これは、このシーケン
スが、fの(前の)状態に依存しない単一の論理アクシ
ョンから構成されるためである。The program resets each time it starts a new read-increment-write sequence.
Reinitialize locSeqN f with x (). This is because this sequence consists of a single logical action that does not depend on the (previous) state of f.
【0135】これに対して、ファイルf1、f2および
f3に関する第2の例に対してTXを使用する擬似コード
は、readtx()またはwritetx()の失敗後に再試行すると
きにのみ、locSeqNf1もしくはlocSeqNf2またはその両方
をリセットする。In contrast, the pseudo-code using TX for the second example for files f1, f2 and f3 shows that locSeqN f1 or locSeqN f1 Reset locSeqN f2 or both.
【0136】 /* O_TXフラグとともに、fd1〜fd3でf1〜f3をオープンする。*/ /* バッファでtx_t配列を初期化する。*/ FD_ZERO(&readset); FD_ZERO(&writeset); for (try = TRY_NUM; try > 0; try--) { FD_SET(fd1, &readset); FD_SET(fd2, &readset); if readtx(&readset, txp) < 0 { if errno != ETX exit; resettx(&readset); continue; } Computation(); FD_SET(fd3, &writeset); if writetx(&readset, &writeset, txp) >= 0 break; if errno != ETX exit; /* そうでなければリセットし再試行する。*/ /* いずれか他のプロセスがread()以降にf1またはf2を変更した。*/ resettx(&fdset); }/ * Open f1 to f3 with fd1 to fd3 together with O_TX flag. * / / * Initialize the tx_t array with the buffer. * / FD_ZERO (&readset); FD_ZERO (&writeset); for (try = TRY_NUM; try> 0; try--) {FD_SET (fd1, &readset); FD_SET (fd2, &readset); if readtx (& readset, txp) <0 {if errno! = ETX exit; resettx (&readset);continue;} Computation (); FD_SET (fd3, &writeset); if writetx (& readset, & writeset, txp)> = 0 break; if errno! = ETX exit; / * Otherwise reset and try again. * / / * Some other process changed f1 or f2 after read (). * / resettx (&fdset);}
【0137】プログラムが後でファイルに対してresett
x()を呼び出さずにf1、f2またはf3にアクセスす
る場合、他のプロセスがこの間にそのファイルを変更し
ていれば、アクセスは失敗する。The program later resets the file.
If you access f1, f2, or f3 without calling x (), the access will fail if another process has modified the file during this time.
【0138】[応用]TXは、データベースシステムで使
用される楽観的な、タイムスタンプに基づくアルゴリズ
ムに類似した一種のトランザクション的同期をサポート
する。楽観的方式では、トランザクションはデータを読
み出してタイムスタンプを記録し、計算を行い、データ
ベース更新のリストを作成する。コミット点において、
トランザクションは、その更新をタイムスタンプととも
にデータベースシステムへ送る。更新とタイムスタンプ
の組合せがトランザクション同期の孤立性を満足する場
合、データベースはそのトランザクションをコミットす
る。そうでない場合、トランザクションは中断する(そ
して再始動される)。[Applications] TX supports a type of transactional synchronization similar to the optimistic, timestamp-based algorithms used in database systems. In an optimistic manner, transactions read data, record timestamps, perform calculations, and create a list of database updates. At the commit point,
The transaction sends the update to the database system with a time stamp. If the combination of update and timestamp satisfies the transaction synchronization isolation, the database commits the transaction. If not, the transaction is suspended (and restarted).
【0139】これに対して、悲観的な、ロックに基づく
方式では、トランザクションTは各読み出しまたは書き
込みの前に、オブジェクトに対する許可(すなわち、ロ
ック)を取得する。ロックは、他のトランザクションに
よるそのオブジェクトにおける変更を排除する。そのロ
ック要求が他のトランザクションのロックと衝突した場
合、Tはそれ以上の計算を行わず、単に、他のトランザ
クションがそのロックを解放するまで待機する。悲観的
アプローチは、中断および再始動によって作業が失われ
ることが少ないため、トランザクションがデータベース
オブジェクトに対して集中的な長期間の計算を実行する
ようなアプリケーションに対しては良好である。In contrast, in the pessimistic, lock-based approach, transaction T gets permission (ie, lock) on the object before each read or write. Locks preclude changes in that object by other transactions. If the lock request conflicts with another transaction's lock, T does no further computation and simply waits until the other transaction releases the lock. The pessimistic approach is good for applications where transactions perform intensive long-running calculations on database objects, as work is less likely to be lost by suspending and restarting.
【0140】楽観的方式は、オペレーティングシステム
の領域では重要な効果を有する。オペレーティングシス
テムは通常いくつかのアプリケーションに同時にサービ
スするため、オペレーティングシステムによって制御さ
れる資源への公平なアクセスを各アプリケーションに提
供することに注意しなければならない。楽観的方式はロ
ックを待たないため、アプリケーションが資源へのアク
セスを拒否される可能性は小さい。The optimistic approach has important effects in the area of operating systems. It should be noted that the operating system typically serves several applications simultaneously, thus providing each application with fair access to the resources controlled by the operating system. The optimistic method does not wait for locks, so applications are less likely to be denied access to resources.
【0141】[結論]以上では、どのようにして、ユー
ザレベルのバックアップファイルシステムを改良して、
複製ファイルを有する分散システムを生成するかについ
て説明した。複製ファイルのローカルコピーに対して実
行される順次読み出し操作および書き込み操作は、ただ
1つのコピーが存在するファイルに対する読み出し操作
および書き込み操作と同じ意味規則を有する。この意味
規則は、分散システムの要素上のトークンサーバによっ
て管理される読み出しトークンおよび書き込みトークン
を使用する分散同期システムによって実現される。好ま
しい実施の形態では、分散同期システムは、複製ファイ
ルの各ローカルコピーに対する7個のロックによって実
現される。さらにこれらのロックは、3バイトのベクト
ルに対する標準的なオペレーティングシステムロックを
使用して実装される。[Conclusion] Above, how to improve the user-level backup file system,
It has been described how to create a distributed system with duplicate files. Sequential read and write operations performed on local copies of duplicate files have the same semantics as read and write operations on files where there is only one copy. This semantic is implemented by a distributed synchronization system using read and write tokens managed by a token server on elements of the distributed system. In the preferred embodiment, the distributed synchronization system is implemented with seven locks for each local copy of the replicated file. In addition, these locks are implemented using standard operating system locks on 3-byte vectors.
【0142】上記で説明したのは、発明者が現在知って
いるユーザレベルの複製ファイルシステムを有する分散
システムを実現する最適な形態であるが、多くの変形例
が可能である。特に、本発明の原理は、上記のユーザレ
ベルバックアップファイルシステムとは関係のないシス
テムでも使用可能である。例えば、ここで開示した同期
技術は、複製ファイルを指定すること、または、ファイ
ルバックアップ操作を実行することのために使用される
技術とはほとんど独立であり、実際、複製ファイルに対
する操作を同期させること以外の目的で使用することも
可能である。さらに、同期は、好ましい実施の形態で使
用したロックプロトコル以外の方法でも実現可能であ
る。Although the above is the optimum form for realizing the distributed system having the user-level duplicate file system that the present inventor is currently aware of, many variations are possible. In particular, the principles of the present invention can be used in systems that are unrelated to the user level backup file system described above. For example, the synchronization technique disclosed here is almost independent of the technique used to specify duplicate files or perform file backup operations, and in fact, synchronizes the operations on duplicate files. It can also be used for other purposes. Furthermore, synchronization can be achieved by methods other than the lock protocol used in the preferred embodiment.
【0143】[0143]
【発明の効果】以上述べたごとく、本発明によれば、複
製ファイルを保守するために必要な操作が、分散システ
ムのユーザレベルで実装可能となる。その結果、本発明
は、特殊なハードウェアや特殊なオペレーティングシス
テムを必要としない。好ましい実施の形態は、ユーザレ
ベルのバックアップファイルシステムの変更として実装
される。As described above, according to the present invention, the operation required for maintaining a duplicate file can be implemented at the user level of the distributed system. As a result, the present invention does not require special hardware or special operating systems. The preferred embodiment is implemented as a user level backup file system modification.
【図1】好ましい実施の形態における同期を実現するた
めに使用されるロックの実装の図である。FIG. 1 is a diagram of an implementation of locks used to achieve synchronization in the preferred embodiment.
【図2】ライブラリがユーザプログラムに対するインタ
フェースを再定義する方法の概観を示す図である。FIG. 2 is an overview of how the library redefines the interface to a user program.
【図3】動的リンクライブラリがオペレーティングシス
テムインタフェースを再定義するために使用可能である
ことを示す図である。FIG. 3 illustrates that dynamically linked libraries can be used to redefine operating system interfaces.
【図4】動的リンクライブラリがユーザレベル名前空間
を提供するために使用可能であることを示す図である。FIG. 4 illustrates that dynamically linked libraries can be used to provide a user level namespace.
【図5】動的リンクライブラリを使用したユーザレベル
バックアップファイルシステムの概略図である。FIG. 5 is a schematic diagram of a user level backup file system using a dynamic link library.
【図6】動的リンクライブラリ内のルーチンの概略図で
ある。FIG. 6 is a schematic diagram of a routine in a dynamic link library.
【図7】ユーザレベルバックアップファイルシステムの
好ましい実施の形態の概略図である。FIG. 7 is a schematic diagram of a preferred embodiment of a user level backup file system.
【図8】カーネルサーバ305(a)によって提供され
る名前空間とユーザレベル名前空間の間の関係を示す図
である。FIG. 8 is a diagram showing a relationship between a namespace provided by a kernel server 305 (a) and a user level namespace.
【図9】ユーザレベル名前空間とカーネルサーバ305
(b)によって提供される名前空間の間の関係を示す図
である。FIG. 9: User-level namespace and kernel server 305
FIG. 6 is a diagram showing relationships between namespaces provided by (b).
【図10】フロントエンド複製ツリー505の詳細図で
ある。FIG. 10 is a detailed view of a front end replication tree 505.
【図11】バックエンドマップ517の詳細図である。FIG. 11 is a detailed diagram of a back end map 517.
【図12】複製ファイルに対する同期システムの一部の
擬似コードを示す図である。FIG. 12 is a pseudo code diagram of a portion of a synchronization system for replicated files.
【図13】同期システムのトークン機構のブロック図で
ある。FIG. 13 is a block diagram of a token mechanism of a synchronization system.
【図14】好ましい実施の形態におけるwriteシス
テムコールを置換するコールの擬似コードを示す図であ
る。FIG. 14 shows pseudo code for a call that replaces the write system call in the preferred embodiment.
【図15】2要素システムを有する分散システムにおい
て複製ファイルに対する操作の同期を示す状態図であ
る。FIG. 15 is a state diagram showing synchronization of operations on a duplicate file in a distributed system having a two-element system.
【図16】好ましい環境で使用されるロックのテーブル
の図である。FIG. 16 is a diagram of a table of locks used in the preferred environment.
【図17】図16のロックの意味規則のテーブルの図で
ある。FIG. 17 is a diagram of a table of lock semantic rules of FIG. 16;
201 ユーザプログラム 203 ファンクション呼出し 205 復帰 206 インタフェース 207 ライブラリルーチン 209 ファンクション呼出し 211 復帰 213 インタフェース 215 システムルーチン 301 システム1 305 カーネルサーバ 306 ユーザプロセス 307 ディスク 309 アプリケーションプログラム(ユーザプログラ
ム) 311 コール 313 復帰 315 オペレーティングシステムライブラリ1 317 コール 319 復帰 321 オペレーティングシステムライブラリ2 323 副次的効果 401 システム 403 オペレーティングシステムライブラリ 405 ユーザレベル名前空間 409 ユーザプロセス 501 ユーザレベルバックアップファイルシステム 503 アプリケーションプロセス 505 フロントエンド複製ツリー(FRT) 507 lib.3dライブラリ 509 アプリケーションプログラム 511 主システム 512 バックアップメッセージ 513 バックアップシステム 515 バックエンドサーバ 517 バックエンドマップ 601 ルーチン 603 ルーチン名 605 引数 701 ユーザレベルバックアップファイルシステム 703 ログファイル 709 パイプ 710 パイプ 711 パイププロセス 715 システムコールエンジン(SYSCALL E
NG) 716 バックエンドログプロセス(BLP) 717 モニタ 719 モニタ 801 名前空間 803 サブツリー 901 エントリ 903 ユーザレベル名前空間情報 905 バックアップシステム情報 1003 MAXTRY 1005 INIT 1009 RPLOP配列 1013 RTREE PTR 1015 RTREE 1025 接続サーバ 1027 ファイルディスクリプタキャッシュ 1105 フロントエンドファイル識別子(FFID) 1106 フロントエンドパス名(FP) 1107 フロントエンドプレフィクス(FPR) 1108 サブツリーパス名 1111 バックエンドファイルディスクリプタ 1113 パス名マップ 1117 オープン複製ファイルリスト 1118 フロントエンドパス名 1119 バックエンドパス名 1301 分散システム 1302 ピアホスト 1307 トークンファイル 1309 プロセス 1311 トークンサーバ 1325 複製ファイル 1327 書き込みトークン 1328 読み出しトークン201 user program 203 function call 205 return 206 interface 207 library routine 209 function call 211 return 213 interface 215 system routine 301 system 1 305 kernel server 306 user process 307 disk 309 application program (user program) 311 call 313 return 315 operating system library 1 317 Call 319 Return 321 Operating System Library 2 323 Side Effects 401 System 403 Operating System Library 405 User Level Namespace 409 User Process 501 User Level Backup File System 503 Application Process 505 File Front end replication tree (FRT) 507 lib. 3d library 509 Application program 511 Main system 512 Backup message 513 Backup system 515 Back-end server 517 Back-end map 601 Routine 603 Routine name 605 Argument 701 User-level backup file system 703 Log file 709 Pipe 710 Pipe 711 Pipe process 715 System call engine (SYSCALL) E
NG) 716 Backend Log Process (BLP) 717 Monitor 719 Monitor 801 Namespace 803 Subtree 901 Entry 903 User Level Namespace Information 905 Backup System Information 1003 MAXTRY 1005 INIT 1009 RPLOP Array 1013 RTREE PTR 1015 RTREE 10 File Reserver 1025 Connection Server 1105 Front End File Identifier (FFID) 1106 Front End Path Name (FP) 1107 Front End Prefix (FPR) 1108 Subtree Path Name 1111 Back End File Descriptor 1113 Path Name Map 1117 Open Replication File List 1118 Front End Path Name 1119 Back End Path name 1301 distributed system 1302 peer host 1307 token file 1309 process 1311 token server 1325 duplicate file 1327 write token 1328 read token
───────────────────────────────────────────────────── フロントページの続き (72)発明者 アンドレア エイチ.スカーラ アメリカ合衆国,07928 ニュージャージ ー,チャタム,オーチャード ロード 26 ─────────────────────────────────────────────────── ─── Continuation of the front page (72) Inventor Andrea H. Scarla United States, 07928 New Jersey, Chatham, Orchard Road 26
Claims (5)
されるプロセスが資源に対して実行する操作を同期させ
る方法において、 前記プロセスにおいて、前記操作を実行するために要求
されるトークンが前記要素内にあるかどうかを判断する
ステップと、 前記プロセスにおいて、前記トークンが前記要素内にあ
る場合、前記トークンが利用可能になるまで待機して利
用可能になると前記操作を実行し、前記トークンが前記
要素内にない場合、前記要素内のトークンサーバが前記
分散データ処理システム内の他の要素に前記トークンを
要求するステップと、 前記プロセスにおいて、前記トークンが前記他の要素か
ら到着したとき、前記トークンが利用可能になると前記
操作を実行する操作実行ステップと、 前記トークンサーバにおいて、前記操作の完了後にはじ
めて前記他の要素への前記トークンに対する要求に応答
するステップとからなることを特徴とする、分散データ
処理システムの要素上で実行されるプロセスが資源に対
して実行する操作を同期させる方法。1. A method for synchronizing operations performed on a resource by a process executing on an element of a distributed data processing system, wherein a token required to execute the operation in the element is within the element. Determining whether the token is in the element, in the process, if the token is in the element, wait for the token to become available and perform the operation when the token becomes available; If not, the token server in the element requests the token from another element in the distributed data processing system; and in the process, when the token arrives from the other element, the token is An operation executing step for executing the operation when available, in the token server, Responding to a request for the token to the other element only after completion of the operation, synchronizing the operations performed on the resource by the process executing on the element of the distributed data processing system. How to make.
するロックを取得するまで前記プロセスを停止し、その
後で前記操作を実行するステップと、 前記操作を実行した後に前記ロックを解放するステップ
とを有することを特徴とする請求項1の方法。2. The operation executing step comprises: stopping the process until the process acquires a lock on a resource requested by the operation, and then executing the operation; and after executing the operation. Releasing the lock.
された、前記要素内のファイルに対する書き込み操作で
あることを特徴とする請求項2の方法。3. The method of claim 2, wherein the operation is a write operation to a file in the element that has been duplicated in the other element.
る装置において、 前記複製ファイルの第1のコピーに対して操作を実行す
る第1ローカル操作実行手段と、 前記複製ファイルの第1のコピーに対して前記操作を実
行する第2ローカル操作実行手段と、 各ローカル操作実行手段において、自己のファイルシス
テム手段で作成された複製ファイルのコピーに対する操
作を他方のローカル操作実行手段に通知する操作通知手
段と、 各ローカル操作実行手段において、他方のローカル操作
実行手段内の操作通知手段に応答して、当該ローカル操
作実行手段内の複製ファイルのコピーに対して、通知さ
れた操作を実行する通知操作実行手段と、 各ローカル操作実行手段において、複製ファイルのコピ
ーに対する操作がどのコピーに対して実行されるかにか
かわらず同じ結果を有するように複製ファイルのコピー
に対する操作を同期させる手段とからなることを特徴と
する、分散システム内に複製ファイルを生成する装置。4. An apparatus for generating a duplicate file in a distributed system, comprising: first local operation executing means for performing an operation on the first copy of the duplicate file; and for the first copy of the duplicate file. Second local operation executing means for executing the above-mentioned operation, and operation notifying means for notifying the other local operation executing means of the operation for the copy of the duplicate file created by its own file system means In each of the local operation executing means, in response to the operation notifying means in the other local operation executing means, a notification operation executing means for executing the notified operation for the copy of the duplicate file in the local operation executing means. In each local operation execution means, the operation for the copy of the duplicate file is executed for which copy. Characterized in that comprising a means for synchronizing the operation for copying the replicated file to have the same results regardless of Luke, apparatus for generating a replicated files in a distributed system.
を有する分散コンピューティングシステムにおいて、 要素コンピューティングシステム内に配置され、相異な
る要素コンピューティングシステム上にコピーを有する
複製ファイルを、コピーに対して実行される操作がどの
コピーに対して実行されるかにかかわらず同じ結果を有
するように維持する分散手段からなることを特徴とする
分散コンピューティングシステム。5. In a distributed computing system having a plurality of element computing systems, a duplicate file located in the element computing system and having a copy on different element computing systems is executed for the copy. A distributed computing system comprising distributed means for maintaining the same result regardless of which copy the operation is performed on.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US28268394A | 1994-07-29 | 1994-07-29 | |
US282683 | 1994-07-29 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003020368A Division JP2003263355A (en) | 1994-07-29 | 2003-01-29 | Device for generating duplicated file in distributed system |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0991185A true JPH0991185A (en) | 1997-04-04 |
JP3476973B2 JP3476973B2 (en) | 2003-12-10 |
Family
ID=23082665
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP21127995A Expired - Lifetime JP3476973B2 (en) | 1994-07-29 | 1995-07-28 | Distributed computing system |
JP2003020368A Pending JP2003263355A (en) | 1994-07-29 | 2003-01-29 | Device for generating duplicated file in distributed system |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003020368A Pending JP2003263355A (en) | 1994-07-29 | 2003-01-29 | Device for generating duplicated file in distributed system |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP0694839B1 (en) |
JP (2) | JP3476973B2 (en) |
CA (1) | CA2152528C (en) |
DE (1) | DE69522394T2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003505760A (en) * | 1999-07-19 | 2003-02-12 | グルーブ・ネットワークス・インコーポレイテッド | Method and apparatus for activity-based collaboration by a computer system with a dynamics manager |
JP2003526837A (en) * | 1999-07-19 | 2003-09-09 | グルーブ・ネットワークス・インコーポレイテッド | Method and apparatus for ranking data change requests and maintaining data consistency in a distributed computer system equipped with active collaboration |
JP2004515836A (en) * | 2000-06-06 | 2004-05-27 | グルーブ・ネットワークス・インコーポレイテッド | Method and apparatus for efficient management of XML documents |
JPWO2009147705A1 (en) * | 2008-06-04 | 2011-10-20 | 株式会社アテナテレコムラボ | Database connection program and device |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0908041D0 (en) * | 2009-05-11 | 2009-06-24 | True Blue Logic Ltd | Improvements in and relating to replicated file servers |
US9235595B2 (en) | 2009-10-02 | 2016-01-12 | Symantec Corporation | Storage replication systems and methods |
US9940042B2 (en) * | 2013-09-06 | 2018-04-10 | Hitachi, Ltd. | Distributed storage system, and data-access method therefor |
US10740298B2 (en) * | 2016-10-12 | 2020-08-11 | Microsoft Technology Licensing, Llc | File synchronization with reduced conflicts in computing systems |
US11650974B2 (en) | 2020-07-01 | 2023-05-16 | Sap Se | Cross-system process control framework |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5175851A (en) * | 1989-05-15 | 1992-12-29 | International Business Machines Corporation | System and method for controlling client machine access to a portion of a file with a variable length |
-
1995
- 1995-06-23 CA CA002152528A patent/CA2152528C/en not_active Expired - Fee Related
- 1995-07-19 DE DE69522394T patent/DE69522394T2/en not_active Expired - Lifetime
- 1995-07-19 EP EP95305025A patent/EP0694839B1/en not_active Expired - Lifetime
- 1995-07-28 JP JP21127995A patent/JP3476973B2/en not_active Expired - Lifetime
-
2003
- 2003-01-29 JP JP2003020368A patent/JP2003263355A/en active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003505760A (en) * | 1999-07-19 | 2003-02-12 | グルーブ・ネットワークス・インコーポレイテッド | Method and apparatus for activity-based collaboration by a computer system with a dynamics manager |
JP2003526837A (en) * | 1999-07-19 | 2003-09-09 | グルーブ・ネットワークス・インコーポレイテッド | Method and apparatus for ranking data change requests and maintaining data consistency in a distributed computer system equipped with active collaboration |
JP4750332B2 (en) * | 1999-07-19 | 2011-08-17 | マイクロソフト コーポレーション | Method and apparatus for ranking data change requests and maintaining data consistency in a distributed computer system with active collaboration |
JP4762467B2 (en) * | 1999-07-19 | 2011-08-31 | マイクロソフト コーポレーション | Method and apparatus for activity-based collaboration by a computer system with a dynamics manager |
US8024404B2 (en) | 1999-07-19 | 2011-09-20 | Microsoft Corporation | Method and apparatus for designating endpoints in a collaborative computer system to facilitate maintaining data consistency |
JP2004515836A (en) * | 2000-06-06 | 2004-05-27 | グルーブ・ネットワークス・インコーポレイテッド | Method and apparatus for efficient management of XML documents |
JPWO2009147705A1 (en) * | 2008-06-04 | 2011-10-20 | 株式会社アテナテレコムラボ | Database connection program and device |
Also Published As
Publication number | Publication date |
---|---|
EP0694839A2 (en) | 1996-01-31 |
EP0694839B1 (en) | 2001-08-29 |
CA2152528A1 (en) | 1996-01-30 |
EP0694839A3 (en) | 1998-02-04 |
CA2152528C (en) | 2000-04-18 |
DE69522394T2 (en) | 2002-05-23 |
JP3476973B2 (en) | 2003-12-10 |
DE69522394D1 (en) | 2001-10-04 |
JP2003263355A (en) | 2003-09-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5689706A (en) | Distributed systems with replicated files | |
US5175852A (en) | Distributed file access structure lock | |
Kazar et al. | DEcorum File System Architectural Overview. | |
US5991771A (en) | Transaction synchronization in a disconnectable computer and network | |
US5878434A (en) | Transaction clash management in a disconnectable computer and network | |
US6145094A (en) | Transaction locks for high availability | |
US5202971A (en) | System for file and record locking between nodes in a distributed data processing environment maintaining one copy of each file lock | |
US7072894B2 (en) | Data management application programming interface handling mount on multiple nodes in a parallel file system | |
Mueller et al. | A nested transaction mechanism for LOCUS | |
US20170315882A1 (en) | Protected write-back cache transaction replication | |
US6850969B2 (en) | Lock-free file system | |
EP0278312B1 (en) | Distributed file and record locking | |
US5968134A (en) | Distributed pipes and fifos in a multiprocessor | |
JP3476973B2 (en) | Distributed computing system | |
EP0278313B1 (en) | Distributed file management system | |
Shrivastava et al. | Structuring fault-tolerant object systems for modularity in a distributed environment | |
Welch | A comparison of the Vnode and Sprite file system architectures | |
Rao et al. | A transparent service for synchronized replication across loosely-connected file systems | |
EP0839351B1 (en) | Transaction clash management in a disconnectable computer and network | |
Skarra et al. | A file system interface for concurrent access | |
Zhang et al. | Cross-Partition Protocols in a Distributed File Service | |
Min | A Cache Coherence Protocol for Concurrency Control and Recovery in Distributed Object-orientated Systems | |
Tan | Comparison-based Filesystem Verification (The NFS Tee) | |
Mueller et al. | A nested transaction mechanism for LOCUS | |
Tan | A distributed file system server for networked multiprocessor workstations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080926 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080926 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090926 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100926 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110926 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110926 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120926 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120926 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130926 Year of fee payment: 10 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |