JP5130538B2 - Network file system and network file system recovery method - Google Patents

Network file system and network file system recovery method Download PDF

Info

Publication number
JP5130538B2
JP5130538B2 JP2007165188A JP2007165188A JP5130538B2 JP 5130538 B2 JP5130538 B2 JP 5130538B2 JP 2007165188 A JP2007165188 A JP 2007165188A JP 2007165188 A JP2007165188 A JP 2007165188A JP 5130538 B2 JP5130538 B2 JP 5130538B2
Authority
JP
Japan
Prior art keywords
file
file server
synchronization
failure
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007165188A
Other languages
Japanese (ja)
Other versions
JP2009003769A (en
Inventor
裕史 大津
純一 大和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Biglobe Inc
Original Assignee
NEC Corp
Biglobe Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, Biglobe Inc filed Critical NEC Corp
Priority to JP2007165188A priority Critical patent/JP5130538B2/en
Publication of JP2009003769A publication Critical patent/JP2009003769A/en
Application granted granted Critical
Publication of JP5130538B2 publication Critical patent/JP5130538B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Hardware Redundancy (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、多重化(ミラーリング)されたネットワークファイルシステムおよびネットワークファイルシステムの復旧方法に関する。   The present invention relates to a multiplexed (mirrored) network file system and a network file system recovery method.

多重化ネットワークファイルシステムでは、故障したファイルサーバのディスクを交換し、再び多重化構成に戻す際に、マスタとなるファイルサーバから、交換したファイルサーバのディスクに対してデータを同期させる、すなわち、交換後のファイルサーバのディスク内のデータを故障していないファイルサーバのディスク内のデータと一致させる必要がある。   In a multiplexed network file system, when a failed file server disk is replaced and returned to the multiplexed configuration, data is synchronized from the master file server to the replaced file server disk. It is necessary to match the data in the disk of the later file server with the data in the disk of the file server that has not failed.

関連する多重化ネットワークファイルシステムの仕組みでは、同期している最中にクライアントからの書き込みがあると、同期の完全性を保証できない。そのため、通常、オフラインで復旧作業を行う。   In the related multiplexed network file system mechanism, if there is a write from the client during synchronization, the integrity of synchronization cannot be guaranteed. Therefore, recovery work is usually performed offline.

重複したデータベース間のデータの整合性を障害発生から回復手続き完了までの間も保証し、かつこの障害回復手続きをユーザに対して隠ぺいして処理を継続させることによって、信頼性の向上とヒューマンインタフェースの向上が可能とされる障害回復透過型データベースシステムが提案されている(例えば、特許文献1参照。)。特許文献1には、クライアントからのリクエストのログを複数のサーバで取得しておき、障害回復後、ログの差分のリクエストを、障害が回復したサーバに適用することが記載されている。   Improve reliability and human interface by guaranteeing data consistency between duplicate databases from the occurrence of a failure until completion of the recovery procedure, and concealing this failure recovery procedure from the user to continue processing Has been proposed (see, for example, Patent Document 1). Patent Document 1 describes that logs of requests from clients are acquired by a plurality of servers, and after a failure recovery, a log difference request is applied to the server from which the failure has been recovered.

また、ネットワーク上で共有されるファイルのバックアップやバックアップデータの履歴管理を、オンライン状態で的確に実行するファイルバック方法が提案されている(例えば、特許文献2参照。)。その他、複数のファイルサーバがネットワークによって接続されたシステムにおいて、中央集権的な制御装置を用いることなくシステム内に保存されたファイルの冗長度を維持するファイルサーバおよびファイルサーバ制御装置が提案されている(例えば、特許文献3参照。)。   In addition, a file back method has been proposed in which backup of files shared on a network and history management of backup data are accurately executed in an online state (see, for example, Patent Document 2). In addition, in a system in which a plurality of file servers are connected by a network, a file server and a file server control device that maintain redundancy of files stored in the system without using a centralized control device have been proposed. (For example, refer to Patent Document 3).

特開平7−262066号公報(段落0045−0055)Japanese Patent Laid-Open No. 7-262066 (paragraphs 0045-0055) 特開2003−280965号公報(段落0021−0023)JP 2003-280965 A (paragraphs 0021-0023) 特開2005−141528号公報(段落0029−0033)Japanese Patent Laying-Open No. 2005-141528 (paragraphs 0029-0033)

しかし、特許文献1に記載された方式では、回復手続き実行中に、クライアントからリクエストが送られてきた場合、これらのリクエストは各サーバのリクエストキューにキューイングされ、差分の適用が完了するまで遅延される。つまり、差分の適用が完了されるまでの間は、クライアントから各サーバへのアクセスを中止しているのと同じことになる。   However, in the method described in Patent Document 1, when requests are sent from the client during the execution of the recovery procedure, these requests are queued in the request queue of each server, and the delay is applied until the application of the difference is completed. Is done. That is, until the application of the difference is completed, it is the same as the access from the client to each server is stopped.

そこで、本発明は、故障したノードを交換し復旧させる際にも、ファイルシステムを停止せずにデータ同期を行うことができるネットワークファイルシステムおよびネットワークファイルシステムの復旧方法を提供することを目的とする。   Therefore, an object of the present invention is to provide a network file system and a network file system recovery method that can perform data synchronization without stopping the file system even when a failed node is replaced and recovered. .

本発明によるネットワークファイルシステムは、ネットワークを介して多重化された複数のファイルサーバを備えたネットワークファイルシステムであって、ファイルサーバは、障害が発生したファイルサーバの記憶手段と障害が発生していないファイルサーバの記憶手段とのデータ同期をオンラインで行う同期手段を備え、各ファイルサーバに対してデータの書き込みを行うクライアントは、同期手段がデータ同期を行っている場合に、障害が発生したファイルサーバへの書き込みに失敗したときに、書き込みに失敗したファイルを特定する情報を含むエラー情報を送信するエラー情報送信手段を備え、受信したエラー情報に基づいて、障害が発生したファイルサーバに対して同期処理を行っているファイルサーバの同期手段に書き込みに失敗したファイルを特定する情報を含む再同期を指示する回復エージェントを備え、同期手段が、障害が発生したファイルサーバの記憶手段へ、再同期の指示に含まれるファイルの再書き込みを行うことによりデータ同期を行うことを特徴とする。 The network file system according to the present invention is a network file system including a plurality of file servers multiplexed via a network, and the file server does not have a failure with the storage means of the failed file server. A client that includes synchronization means that performs online data synchronization with the storage means of the file server, and the client that writes data to each file server is a file server that has failed when the synchronization means is performing data synchronization. When writing to the disk fails, it is equipped with error information sending means that sends error information including information that identifies the file that failed to write, and is synchronized with the file server where the failure occurred based on the received error information to write to the synchronization means of the file server that is doing the processing Including a recovery agent for instructing resynchronization including information identifying the over files, data synchronization means, to the file server storage means failed, by rewriting the files in the resynchronization instruction It is characterized by performing synchronization .

本発明によるネットワークファイルシステムの復旧方法は、ネットワークを介して多重化された複数のファイルサーバを備えたネットワークファイルシステムの復旧方法であって、障害が発生したファイルサーバの記憶手段と障害が発生していないファイルサーバの記憶手段とのデータ同期をオンラインで行い、データ同期を行っている場合に、各ファイルサーバに対してデータの書き込みを行うクライアントが、障害が発生したファイルサーバへの書き込みに失敗したときに、書き込みに失敗したファイルを特定する情報を含むエラー情報を送信し、受信したエラー情報に基づいて、障害が発生したファイルサーバに対して同期処理を行っているファイルサーバに、書き込みに失敗したファイルを特定する情報を含む再同期を指示し、障害が発生したファイルサーバの記憶手段へ、再同期の指示に含まれるファイルの再書き込みを行うことによりデータ同期を行うことを特徴とする。 A network file system recovery method according to the present invention is a network file system recovery method comprising a plurality of file servers multiplexed via a network, and the storage means of the file server in which the failure has occurred and the failure has occurred. When data synchronization is performed online with a file server storage method that is not available, the client that writes data to each file server fails to write to the failed file server Error information including information that identifies the file that failed to be written, and based on the received error information , writes to the file server that is performing synchronization processing on the file server where the failure occurred. instructing resynchronization including information identifying the failed files, disorders The storage means of the generated file server, and performs data synchronization by rewriting the files contained in the resynchronization instruction.

本発明によるネットワークファイルシステムの復旧プログラムは、ネットワークを介して多重化された複数のファイルサーバを備えたネットワークファイルシステムにおいて、ファイルサーバが、障害が発生したファイルサーバの記憶手段と障害が発生していないファイルサーバの記憶手段とのデータ同期をオンラインで行い、各ファイルサーバに対してデータの書き込みを行うクライアントが、データ同期われている場合に、障害が発生したファイルサーバへの書き込みに失敗したときに、書き込みに失敗したファイルを特定する情報を含むエラー情報を送信するネットワークファイルシステムの復旧プログラムであって、コンピュータに、受信したエラー情報に基づいて、障害が発生したファイルサーバに対して同期処理を行っているファイルサーバに書き込みに失敗したファイルを特定する情報を含む再同期を指示する処理を実行させることにより、障害が発生したファイルサーバの記憶手段へ、再同期の指示に含まれるファイルの再書き込みを行うことによるデータ同期を行わせることを特徴とする。 The network file system recovery program according to the present invention is a network file system comprising a plurality of file servers multiplexed over a network, wherein the file server has a failure with the storage means of the file server in which the failure has occurred. performs data synchronization with no file server storage means online, the client writes data to each file server, when data synchronization is cracking line fails to write to the file server failed A network file system recovery program that sends error information including information that identifies the file that failed to be written to the computer based on the received error information . Synchronized processing By executing the processing for instructing resynchronization including information specifying the files that fail file server in writing, to the file server storage means failed, rewriting the files in the resynchronization instruction It is characterized in that data synchronization is performed .

本発明によれば、多重化されたネットワークファイルシステムの一部のノードに障害が発生した場合であっても、クライアントからの利用を中断することなく、障害が発生したノードの交換および復旧を行うことができるという効果がある。   According to the present invention, even when a failure occurs in some of the nodes of the multiplexed network file system, replacement and recovery of the failed node is performed without interrupting use from the client. There is an effect that can be.

以下、本発明の実施例を図面を参照して説明する。図1は、本発明によるネットワークファイルシステムの構成例を示すブロック図である。図1に示すネットワークファイルシステムは、クライアント11,12,13と、ファイルサーバ21,22,23と、回復エージェント31とを備える。   Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing a configuration example of a network file system according to the present invention. The network file system shown in FIG. 1 includes clients 11, 12, 13, file servers 21, 22, 23, and a recovery agent 31.

クライアント11〜13、ファイルサーバ21〜23および回復エージェント31は、例えば、プログラムに従って動作するパーソナルコンピュータ等の情報処理端末によって実現される。また、クライアント11〜13、ファイルサーバ21〜23および回復エージェント31は、例えば、Ethernet(登録商標)等の規格によりネットワークを介して接続されている。   The clients 11 to 13, the file servers 21 to 23, and the recovery agent 31 are realized by an information processing terminal such as a personal computer that operates according to a program, for example. The clients 11 to 13, the file servers 21 to 23, and the recovery agent 31 are connected via a network according to a standard such as Ethernet (registered trademark), for example.

図2は、クライアント11〜13、ファイルサーバ21〜23および回復エージェント31の構成例を示すブロック図である。なお、図2には、クライアント11〜13のうちクライアント11のみを示すが、クライアント12,13についても同様の構成である。また、図2には、ファイルサーバ21〜23のうちファイルサーバ21のみを示すが、ファイルサーバ22,23についても同様の構成である。   FIG. 2 is a block diagram illustrating a configuration example of the clients 11 to 13, the file servers 21 to 23, and the recovery agent 31. 2 shows only the client 11 among the clients 11 to 13, the clients 12 and 13 have the same configuration. 2 shows only the file server 21 among the file servers 21 to 23, but the file servers 22 and 23 have the same configuration.

ファイルサーバ21〜23は、ファイルやディレクトリ等のデータを記憶する記憶手段201を有する。ファイルサーバ21〜23の各記憶手段201は多重化され、ファイルサーバ21〜23は、多重化ファイルシステムとして動作する。例えば、ミラーリング等の多重化方式により、ファイルサーバ21〜23の記憶手段201は、それぞれ同一の内容のデータを記憶する。   The file servers 21 to 23 include a storage unit 201 that stores data such as files and directories. The storage units 201 of the file servers 21 to 23 are multiplexed, and the file servers 21 to 23 operate as a multiplexed file system. For example, the storage units 201 of the file servers 21 to 23 store data having the same contents by a multiplexing method such as mirroring.

また、ファイルサーバ21〜23は、同期手段202を有する。同期手段202は、故障した記憶手段201を交換して多重化構成に戻す際に、故障していないファイルサーバの記憶手段201と、故障したファイルサーバの記憶手段201との同期を取る処理を実行する。同期手段202は、クライアント11〜13からファイルサーバ21〜23への書き込みを禁止することなく、同期処理を実行する。   Further, the file servers 21 to 23 have a synchronization unit 202. The synchronization unit 202 executes processing for synchronizing the storage unit 201 of the non-failed file server and the storage unit 201 of the failed file server when the failed storage unit 201 is replaced and returned to the multiplexed configuration. To do. The synchronization unit 202 executes the synchronization process without prohibiting writing from the clients 11 to 13 to the file servers 21 to 23.

クライアント11〜13は、アクセス制御手段101を有する。アクセス制御手段101は、ネットワークを介して、ファイルサーバ21〜23の記憶手段201が記憶するファイルやディレクトリ等のデータの読み書きを行う。アクセス制御手段101は、ファイルサーバ21〜23の記憶手段201に書き込みを行う際に、複数のファイルサーバ21〜23の記憶手段201のそれぞれに対して同時または順番に書き込み(多重read/write)を行う。   The clients 11 to 13 have access control means 101. The access control means 101 reads and writes data such as files and directories stored in the storage means 201 of the file servers 21 to 23 via the network. When the access control unit 101 writes data to the storage unit 201 of the file servers 21 to 23, the access control unit 101 writes data to the storage units 201 of the plurality of file servers 21 to 23 simultaneously or sequentially (multiple read / write). Do.

ファイルサーバ21〜23の記憶手段201のいずれかが故障した場合、故障した記憶手段201を有するファイルサーバは、自動的に、多重化ファイルシステムとしての接続を切り離す。例えば、ファイルサーバ23の記憶手段201が故障して、多重化構成から自動的に切り離された場合、クライアント11〜13のアクセス制御手段101は、残りのファイルサーバ21,22の記憶手段201に対し、引き続きデータの参照および書き込みを行うことができる。   When any of the storage units 201 of the file servers 21 to 23 fails, the file server having the failed storage unit 201 automatically disconnects the connection as a multiplexed file system. For example, when the storage unit 201 of the file server 23 breaks down and is automatically disconnected from the multiplexed configuration, the access control unit 101 of the clients 11 to 13 determines the storage unit 201 of the remaining file servers 21 and 22. Subsequently, data can be referred to and written.

ファイルサーバ23の故障したディスク(記憶手段201)を交換し、再び多重化ファイルシステムとして接続し多重化構成に戻す場合、ファイルサーバ21またはファイルサーバ22の記憶手段201が記憶するデータを、ファイルサーバ23のディスク(記憶手段201)に同期させる必要がある。一般に、同期させている最中にクライアント11〜13からの書き込みがあると、同期の完全性を保証できない。そのため、一般には、クライアント11〜13からファイルサーバ21〜23への書き込みを禁止した状態(オフライン)で、同期作業を行う必要がある。図4は、一般的なネットワークファイルシステムにおいて、クライアントがファイルサーバに読み書きを行っている状態の例を示す説明図である。図5は、一般的なネットワークファイルシステムにおけるクライアントからファイルサーバへの書き込みを禁止した状態の例を示す説明図である。図4、図5には、ファイルサーバ23のディスクが故障する前後の一般的な状態を示す。   When the failed disk (storage unit 201) of the file server 23 is replaced and connected again as a multiplexed file system to return to the multiplexed configuration, the data stored in the storage unit 201 of the file server 21 or the file server 22 is stored in the file server. It is necessary to synchronize with 23 disks (storage means 201). In general, if there is a write from the clients 11 to 13 during synchronization, the integrity of synchronization cannot be guaranteed. Therefore, in general, it is necessary to perform the synchronization work in a state where writing from the clients 11 to 13 to the file servers 21 to 23 is prohibited (offline). FIG. 4 is an explanatory diagram illustrating an example of a state in which a client is reading from and writing to a file server in a general network file system. FIG. 5 is an explanatory diagram showing an example of a state in which writing from a client to a file server is prohibited in a general network file system. 4 and 5 show general states before and after the disk of the file server 23 fails.

本発明によれば、故障した記憶手段201を交換して多重化構成に戻す際にも、オフラインとせずに、オンラインでデータ同期(ミラー同期)を行うことができる。オンラインでデータ同期を行うとは、クライアント11〜13からファイルサーバ21〜23への書き込みを禁止することなくデータ同期を行うことである。   According to the present invention, even when the failed storage unit 201 is replaced and returned to the multiplexed configuration, data synchronization (mirror synchronization) can be performed online without going offline. Performing online data synchronization means performing data synchronization without prohibiting writing from the clients 11 to 13 to the file servers 21 to 23.

図3は、本実施例におけるネットワークファイルシステムの動作を示すフローチャートである。以下、ファイルサーバ23の記憶手段201が故障した場合を例にして、図1を参照して本実施例の動作について説明する。   FIG. 3 is a flowchart showing the operation of the network file system in this embodiment. Hereinafter, the operation of this embodiment will be described with reference to FIG. 1, taking as an example the case where the storage unit 201 of the file server 23 fails.

ファイルサーバ23の記憶手段201を交換した場合、ファイルサーバ21またはファイルサーバ22がファイルサーバ23に対するデータ同期を行う前に、ファイルサーバ23は、多重化ファイルシステムとして接続し、多重化構成に復帰する(ステップS1)。この状態では、クライアント11〜13のアクセス制御手段101は、通常どおりファイルサーバ21〜23に対してデータの書き込みを行う。ただし、この状態において、データの読み込みについては、クライアント11〜13のアクセス制御手段101は、ファイルサーバ21,22のみから行う。   When the storage means 201 of the file server 23 is replaced, before the file server 21 or the file server 22 performs data synchronization with the file server 23, the file server 23 is connected as a multiplexed file system and returned to the multiplexed configuration. (Step S1). In this state, the access control means 101 of the clients 11 to 13 writes data to the file servers 21 to 23 as usual. However, in this state, the data reading is performed by the access control means 101 of the clients 11 to 13 only from the file servers 21 and 22.

次に、回復エージェント31は、ファイルサーバ21または22に、ファイルサーバ23に対するデータ同期処理を実行するよう指示する(ステップS2)。ファイルサーバ21または22の同期手段202は、ファイルサーバ21または22の記憶手段201のデータと、ファイルサーバ23の記憶手段201との同期を取る処理の実行を開始する(ステップS3)。なお、図1には、ファイルサーバ22が、ファイルサーバ22とファイルサーバ23との同期を取る処理を実行する場合を例示する。   Next, the recovery agent 31 instructs the file server 21 or 22 to execute data synchronization processing for the file server 23 (step S2). The synchronization unit 202 of the file server 21 or 22 starts execution of processing for synchronizing the data in the storage unit 201 of the file server 21 or 22 and the storage unit 201 of the file server 23 (step S3). FIG. 1 illustrates a case where the file server 22 executes processing for synchronizing the file server 22 and the file server 23.

ここで、データの同期中に、クライアント11〜13のアクセス制御手段101がファイルサーバ23の記憶手段201に対して書き込みを行う際、同期されていないディレクトリ配下のファイルまたはディレクトリに対して、作成、変更等を行うことはできない。クライアント11〜13のアクセス制御手段101がファイルサーバ23の記憶手段201への書き込みに失敗した場合、エラー情報送信手段102は、その旨を示すエラー情報(不完全処理フラグ)を、回復エージェント31に送信する(ステップS4)。なお、図1には、クライアント13が回復エージェント31に不完全処理フラグを送信する場合を例示する。   Here, when the access control means 101 of the clients 11 to 13 writes to the storage means 201 of the file server 23 during the data synchronization, a file or directory under the directory that is not synchronized is created, Changes cannot be made. When the access control unit 101 of the clients 11 to 13 fails to write to the storage unit 201 of the file server 23, the error information transmission unit 102 sends error information (incomplete processing flag) indicating that to the recovery agent 31. Transmit (step S4). FIG. 1 illustrates a case where the client 13 transmits an incomplete processing flag to the recovery agent 31.

回復エージェント31は、受信した不完全処理フラグに基づいて、ファイルサーバ21または22に、ファイルサーバ23に対するデータ同期処理を再度実行するよう指示する(ステップS5)。なお、図1には、回復エージェント31がファイルサーバ22にデータ同期処理を再度実行するよう指示する場合を例示する。   Based on the received incomplete processing flag, the recovery agent 31 instructs the file server 21 or 22 to execute the data synchronization processing for the file server 23 again (step S5). FIG. 1 illustrates a case where the recovery agent 31 instructs the file server 22 to execute the data synchronization process again.

ファイルサーバ21または22は、回復エージェント31からの指示に基づいて、ファイルサーバ23に対するデータ同期処理を再度実行する(ステップS6)。「データ同期処理を再度実行する」とは、不完全処理フラグが示すデータのみのデータ同期処理を、不完全処理フラグが示すボリュームやディレクトリ等の準備ができた後に、追加で実行することを意味する。なお、図1には、ファイルサーバ22が、ファイルサーバ23に対するデータ同期処理を再度実行する場合を例示する。   The file server 21 or 22 executes the data synchronization process for the file server 23 again based on the instruction from the recovery agent 31 (step S6). “Re-execute data synchronization processing” means that data synchronization processing of only the data indicated by the incomplete processing flag is additionally executed after the volume or directory indicated by the incomplete processing flag is prepared. To do. FIG. 1 illustrates a case where the file server 22 executes the data synchronization process for the file server 23 again.

ここで、ステップS3〜S6の処理について、具体例を挙げて説明する。ステップS3において、ファイルサーバ22は、ファイルサーバ23が多重化構成に復帰した時点においてファイルサーバ22の記憶手段201が記憶するデータを、ファイルサーバ23の記憶手段201にコピーすることにより、同期処理を行う。例えば、ファイルサーバ23が多重化構成に復帰した時点において、ファイルサーバ22の記憶手段201が、3つのデータ「¥aaa¥0001.file」「¥bbb¥0002.file」「¥ccc¥0003.file」を記憶している場合、ファイルサーバ22の同期手段202は、上記3データをファイルサーバ23の記憶手段201にコピーする。なお、例えば、「¥aaa¥0001.file」は、ディレクトリ「¥aaa¥」配下の「0001.file」を意味する。   Here, the processing of steps S3 to S6 will be described with a specific example. In step S3, the file server 22 copies the data stored in the storage unit 201 of the file server 22 to the storage unit 201 of the file server 23 when the file server 23 returns to the multiplexed configuration, thereby performing the synchronization process. Do. For example, when the file server 23 returns to the multiplexed configuration, the storage unit 201 of the file server 22 has three data “¥ aaa ¥ 0001.file”, “¥ bbb ¥ 0002.file”, “¥ ccc ¥ 0003.file”. ”Is stored, the synchronization unit 202 of the file server 22 copies the three data to the storage unit 201 of the file server 23. For example, “¥ aaa ¥ 0001.file” means “0001.file” under the directory “¥ aaa ¥”.

同期処理を開始した後の同期処理中のある時点においてファイルサーバ23の記憶手段201が記憶するデータが、「¥aaa¥0001.file」「¥bbb¥0002.file」の2データであるとする。   It is assumed that the data stored in the storage unit 201 of the file server 23 at a certain point during the synchronization process after the synchronization process is started are two data “¥ aaa ¥ 0001.file” and “¥ bbb ¥ 0002.file”. .

この時点で、クライアント13が「¥aaa¥0004.file」を書き込む場合、ファイルサーバ23の記憶手段201には、「¥aaa¥」ディレクトリが存在する。したがって、書き込みエラーは発生せず、データ「¥aaa¥0004.file」を書き込むことができる。   At this time, when the client 13 writes “¥ aaa ¥ 0004.file”, the storage unit 201 of the file server 23 includes the “¥ aaa ¥” directory. Therefore, no write error occurs, and the data “¥ aaa ¥ 0004.file” can be written.

しかし、クライアント13が「¥ccc¥0005.file」を書き込む場合、ファイルサーバ23の記憶手段201には、まだ「¥ccc¥」ディレクトリが存在しない。そのため、書き込みエラーが発生する。このように、ファイルサーバ23が多重化構成に復帰した以降にクライアント13がファイルサーバ21〜23に書き込むデータは、同期処理ではファイルサーバ23に反映されない可能性がある。   However, when the client 13 writes “¥ ccc ¥ 0005.file”, the “¥ ccc ¥” directory does not yet exist in the storage unit 201 of the file server 23. Therefore, a write error occurs. Thus, data that the client 13 writes to the file servers 21 to 23 after the file server 23 returns to the multiplexed configuration may not be reflected on the file server 23 in the synchronization process.

そこで、書き込みエラーが発生した場合には、クライアント13のエラー情報送信手段102は、ステップS4において、不完全処理フラグを回復エージェント31に送信する。不完全処理フラグは、例えば、ファイルの位置情報、データの書き込み(write)ができたサーバを示す情報およびデータの書き込み(write)ができなかったサーバを示す情報を含む。ここで、ファイルの位置情報は、例えば、ボリューム、ディレクトリ(絶対パス)、ファイル名、ファイル属性を含む情報である。   Therefore, when a write error occurs, the error information transmission unit 102 of the client 13 transmits an incomplete processing flag to the recovery agent 31 in step S4. The incomplete processing flag includes, for example, file location information, information indicating a server that has been able to write data, and information indicating a server that has not been able to write data. Here, the file position information is information including, for example, a volume, a directory (absolute path), a file name, and a file attribute.

回復エージェント31は、ファイルサーバ23が多重化構成に復帰した以降にクライアント13が書き込みを行ったデータを、不完全処理フラグとして把握することができる。そこで、回復エージェント31は、ステップS5において、ファイルサーバ21または22にデータの追加書き込みを指示し(rewrite request)、ファイルサーバ23への同期の完全性を保証する。例えば、回復エージェント31は、不完全処理フラグに基づいて、「¥ccc¥」ディレクトリが同期された後に「¥ccc¥0005.file」を追加で同期するようにファイルサーバ22に指示する。そして、ステップS6において、ファイルサーバ22は、回復エージェント31からの指示に基づいて、ファイルサーバ23に対するデータ同期処理を再度実行する。   The recovery agent 31 can grasp the data written by the client 13 after the file server 23 returns to the multiplexed configuration as an incomplete processing flag. Therefore, in step S5, the recovery agent 31 instructs the file server 21 or 22 to write additional data (rewrite request), and guarantees the integrity of synchronization with the file server 23. For example, the recovery agent 31 instructs the file server 22 to additionally synchronize “\ ccc \ 0005.file” after the “\ ccc \” directory is synchronized based on the incomplete processing flag. In step S <b> 6, the file server 22 executes the data synchronization process for the file server 23 again based on the instruction from the recovery agent 31.

回復エージェント31は、不完全処理フラグを受信した時点で、不完全処理フラグが示すデータおよびその上位ディレクトリのデータの書き込みをファイルサーバ22に要求(rewrite request)する。そして、ファイルサーバ22が不完全処理フラグが示すデータをファイルサーバ23に書き込むタイミングとして、同期処理に割り込みを入れて、ファイルサーバ22がファイルサーバ23に優先的に書き込む方法と、要求(rewrite request)をファイルサーバ22が溜めておき、同期処理が終了してから、溜めておいた要求(rewrite request)が示すデータをファイルサーバ23に書き込む方法とがある。   When the recovery agent 31 receives the incomplete processing flag, the recovery agent 31 requests the file server 22 to write the data indicated by the incomplete processing flag and the data in the higher directory (rewrite request). Then, as a timing at which the file server 22 writes the data indicated by the incomplete processing flag to the file server 23, the synchronous processing is interrupted, and the file server 22 preferentially writes to the file server 23 and a request (rewrite request). Is stored in the file server 22, and after the synchronization processing is completed, the data indicated by the accumulated request (rewrite request) is written in the file server 23.

なお、図1には、クライアント13が不完全処理フラグを送信する場合を例示するが、クライアント11または12が不完全処理フラグを送信することもある。また、図1には、回復エージェント31がファイルサーバ22にデータ同期処理を再度実行するよう指示し、ファイルサーバ22がデータ同期処理を再度実行する場合を例示するが、回復エージェント31がファイルサーバ21にデータ同期処理を再度実行するよう指示し、ファイルサーバ21がデータ同期処理を再度実行してもよい。   Although FIG. 1 illustrates the case where the client 13 transmits an incomplete processing flag, the client 11 or 12 may transmit the incomplete processing flag. Further, FIG. 1 illustrates a case where the recovery agent 31 instructs the file server 22 to execute the data synchronization process again, and the file server 22 executes the data synchronization process again. May be instructed to execute the data synchronization process again, and the file server 21 may execute the data synchronization process again.

以上に説明したように、本実施例によれば、多重化されたネットワークファイルシステムの一部のノードに障害が発生した場合であっても、クライアントからの利用を中断することなく、障害が発生したノードの交換および復旧を行うことができる。   As described above, according to this embodiment, even if a failure occurs in some nodes of the multiplexed network file system, the failure occurs without interrupting the use from the client. Node replacement and recovery can be performed.

なお、上記に示した実施例では、以下の(1)〜(5)に示すようなネットワークファイルシステムの特徴的構成が示されている。   In the embodiment described above, the characteristic configuration of the network file system as shown in the following (1) to (5) is shown.

(1)ネットワークを介して多重化された複数のファイルサーバ(例えば、ファイルサーバ21〜23によって実現される)を備えたネットワークファイルシステムであって、
ファイルサーバは、障害が発生したファイルサーバ(例えば、ファイルサーバ23によって実現される)の記憶手段(例えば、記憶手段201によって実現される)と障害が発生していないファイルサーバ(例えば、ファイルサーバ22によって実現される)の記憶手段とのデータ同期をオンラインで行う同期手段(例えば、同期手段202によって実現される)を備え、クライアント(例えば、クライアント11〜13によって実現される)は、同期手段がデータ同期を行っている場合に、各ファイルサーバへの書き込みに失敗したときに、エラー情報を送信するエラー情報送信手段(例えば、エラー情報送信手段102によって実現される)を備え、受信したエラー情報に基づいて、同期手段にデータ同期を再度行うよう指示する回復エージェント(例えば、回復エージェント31によって実現される)を備えたことを特徴とする。
(1) A network file system including a plurality of file servers (for example, realized by the file servers 21 to 23) multiplexed via a network,
The file server includes a storage unit (for example, realized by the storage unit 201) of a file server in which a failure has occurred (for example, realized by the file server 23) and a file server in which a failure has not occurred (for example, the file server 22). Synchronization means (for example, realized by the synchronization means 202) that performs online data synchronization with the storage means, and the client (for example, realized by the clients 11 to 13) When data synchronization is performed, error information transmission means (for example, realized by the error information transmission means 102) that transmits error information when writing to each file server fails is provided, and the received error information Based on the recovery error that instructs the synchronization means to perform data synchronization again. Stringent (e.g., as implemented by the recovery agent 31) characterized by comprising a.

(2)同期手段は、記憶手段への書き込みを禁止することなくデータ同期を行うように構成されていることが望ましい。   (2) The synchronization means is preferably configured to perform data synchronization without prohibiting writing to the storage means.

(3)同期手段は、回復エージェントからの指示に基づいて、再度データ同期を行うように構成されていることが望ましい。   (3) The synchronization unit is preferably configured to perform data synchronization again based on an instruction from the recovery agent.

(4)同期手段は、エラー情報に基づくデータ同期を優先的に行うように構成されていることが望ましい。   (4) The synchronization means is preferably configured to preferentially perform data synchronization based on error information.

(5)同期手段は、障害が発生したファイルサーバの記憶手段と障害が発生していないファイルサーバの記憶手段とのデータ同期が完了してから、エラー情報に基づくデータ同期を行うように構成されていることが望ましい。   (5) The synchronization unit is configured to perform data synchronization based on error information after data synchronization between the storage unit of the file server in which the failure has occurred and the storage unit of the file server in which the failure has not occurred. It is desirable that

本発明は、障害の発生に伴う復旧作業を、ファイルシステムを停止せずに実施する場合に効果的に適用できる。   The present invention can be effectively applied to a case where a recovery operation associated with the occurrence of a failure is performed without stopping the file system.

本発明によるネットワークファイルシステムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the network file system by this invention. クライアント、ファイルサーバおよび回復エージェントの構成例を示すブロック図である。It is a block diagram which shows the structural example of a client, a file server, and a recovery agent. 本実施例におけるネットワークファイルシステムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of the network file system in a present Example. 一般的なネットワークファイルシステムにおいて、クライアントがファイルサーバに読み書きを行っている状態の例を示す説明図である。It is explanatory drawing which shows the example of the state in which the client is reading / writing in a file server in a general network file system. 一般的なネットワークファイルシステムにおけるクライアントからファイルサーバへの書き込みを禁止した状態の例を示す説明図である。It is explanatory drawing which shows the example of the state which prohibited the writing to the file server from the client in a general network file system.

符号の説明Explanation of symbols

11,12,13 クライアント
21,22,23 ファイルサーバ
31 回復エージェント
11, 12, 13 Client 21, 22, 23 File server 31 Recovery agent

Claims (7)

ネットワークを介して多重化された複数のファイルサーバを備えたネットワークファイルシステムであって、
前記ファイルサーバは、障害が発生したファイルサーバの記憶手段と障害が発生していないファイルサーバの記憶手段とのデータ同期をオンラインで行う同期手段を備え、
各ファイルサーバに対してデータの書き込みを行うクライアントは、前記同期手段がデータ同期を行っている場合に、障害が発生したファイルサーバへの書き込みに失敗したときに、書き込みに失敗したファイルを特定する情報を含むエラー情報を送信するエラー情報送信手段を備え、
受信した前記エラー情報に基づいて、障害が発生したファイルサーバに対して同期処理を行っているファイルサーバの前記同期手段に書き込みに失敗したファイルを特定する情報を含む再同期を指示する回復エージェントを備え
前記同期手段は、障害が発生したファイルサーバの記憶手段へ、前記再同期の指示に含まれるファイルの再書き込みを行うことによりデータ同期を行う
ことを特徴とするネットワークファイルシステム。
A network file system comprising a plurality of file servers multiplexed over a network,
The file server includes synchronization means for performing online data synchronization between the storage means of the file server in which the failure has occurred and the storage means of the file server in which the failure has not occurred,
Client writes data to each file server, the synchronization means if the performing data synchronization, when it fails to write to the file server failed to identify the file that failed to write Comprising error information transmitting means for transmitting error information including information;
Based on the received the error information, the recovery agent for instructing resynchronization including information specifying the files that failed to write the synchronization means of the file server that is performing the synchronization process with respect to failure file server has occurred Prepared ,
The network file system , wherein the synchronization means performs data synchronization by rewriting a file included in the resynchronization instruction to a storage means of a file server in which a failure has occurred .
同期手段は、記憶手段への書き込みを禁止することなくデータ同期を行う請求項1記載のネットワークファイルシステム。   2. The network file system according to claim 1, wherein the synchronization means performs data synchronization without prohibiting writing to the storage means. 同期手段は、回復エージェントからの指示に基づいて、再度データ同期を行う請求項1または請求項2記載のネットワークファイルシステム。   3. The network file system according to claim 1, wherein the synchronization unit performs data synchronization again based on an instruction from the recovery agent. 同期手段は、エラー情報に基づくデータ同期を優先的に行う請求項3記載のネットワークファイルシステム。   4. The network file system according to claim 3, wherein the synchronization means preferentially performs data synchronization based on error information. 同期手段は、障害が発生したファイルサーバの記憶手段と障害が発生していないファイルサーバの記憶手段とのデータ同期が完了してから、エラー情報に基づくデータ同期を行う請求項3記載のネットワークファイルシステム。   4. The network file according to claim 3, wherein the synchronization means performs data synchronization based on error information after data synchronization between the storage means of the file server in which the failure has occurred and the storage means of the file server in which the failure has not occurred. system. ネットワークを介して多重化された複数のファイルサーバを備えたネットワークファイルシステムの復旧方法であって、
障害が発生したファイルサーバの記憶手段と障害が発生していないファイルサーバの記憶手段とのデータ同期をオンラインで行い、
データ同期を行っている場合に、各ファイルサーバに対してデータの書き込みを行うクライアントが、障害が発生したファイルサーバへの書き込みに失敗したときに、書き込みに失敗したファイルを特定する情報を含むエラー情報を送信し、
受信した前記エラー情報に基づいて、障害が発生したファイルサーバに対して同期処理を行っているファイルサーバに、書き込みに失敗したファイルを特定する情報を含む再同期を指示し、
障害が発生したファイルサーバの記憶手段へ、前記再同期の指示に含まれるファイルの再書き込みを行うことによりデータ同期を行う
ことを特徴とするネットワークファイルシステムの復旧方法。
A network file system recovery method comprising a plurality of file servers multiplexed over a network,
Online data synchronization between the storage means of the file server where the failure occurred and the storage means of the file server where the failure did not occur,
When data synchronization is performed, when a client that writes data to each file server fails to write to the failed file server, an error that includes information that identifies the file that failed to be written Send information,
Based on the received the error information, the file server that performs synchronization processing to the file server failed instructs resynchronization including information specifying the files that failed to write,
A network file system recovery method, wherein data synchronization is performed by rewriting a file included in the resynchronization instruction to storage means of a file server in which a failure has occurred .
ネットワークを介して多重化された複数のファイルサーバを備えたネットワークファイルシステムにおいて、前記ファイルサーバが、障害が発生したファイルサーバの記憶手段と障害が発生していないファイルサーバの記憶手段とのデータ同期をオンラインで行い、各ファイルサーバに対してデータの書き込みを行うクライアントが、データ同期われている場合に、障害が発生したファイルサーバへの書き込みに失敗したときに、書き込みに失敗したファイルを特定する情報を含むエラー情報を送信するネットワークファイルシステムの復旧プログラムであって、
コンピュータに、
受信した前記エラー情報に基づいて、障害が発生したファイルサーバに対して同期処理を行っているファイルサーバ書き込みに失敗したファイルを特定する情報を含む再同期を指示する処理を実行させることにより、障害が発生したファイルサーバの記憶手段へ、前記再同期の指示に含まれるファイルの再書き込みを行うことによるデータ同期を行わせる
ためのネットワークファイルシステムの復旧プログラム。
In a network file system comprising a plurality of file servers multiplexed via a network, the file server synchronizes data between storage means of a file server in which a failure has occurred and storage means of a file server in which no failure has occurred It was carried out online, client to perform the writing of data for each file server, if the data synchronization is our line, in case of failing to write to the file server where the failure has occurred, the file that failed to write A network file system recovery program that transmits error information including information to be identified ,
On the computer,
Based on the received the error information, by executing the processing for instructing resynchronization including information identifying the failed files to write to the file server that performs synchronization processing to the file server failed, A network file system recovery program for performing data synchronization by rewriting a file included in the resynchronization instruction to storage means of a file server in which a failure has occurred .
JP2007165188A 2007-06-22 2007-06-22 Network file system and network file system recovery method Active JP5130538B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007165188A JP5130538B2 (en) 2007-06-22 2007-06-22 Network file system and network file system recovery method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007165188A JP5130538B2 (en) 2007-06-22 2007-06-22 Network file system and network file system recovery method

Publications (2)

Publication Number Publication Date
JP2009003769A JP2009003769A (en) 2009-01-08
JP5130538B2 true JP5130538B2 (en) 2013-01-30

Family

ID=40320078

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007165188A Active JP5130538B2 (en) 2007-06-22 2007-06-22 Network file system and network file system recovery method

Country Status (1)

Country Link
JP (1) JP5130538B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010231257A (en) * 2009-03-25 2010-10-14 Nec Corp High availability system and method for handling failure of high availability system

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3172007B2 (en) * 1993-09-17 2001-06-04 富士通株式会社 Disk copy processing method
JP2939414B2 (en) * 1994-05-16 1999-08-25 三菱電機株式会社 Database Equivalent Processor for Dual Computer
US5513314A (en) * 1995-01-27 1996-04-30 Auspex Systems, Inc. Fault tolerant NFS server system and mirroring protocol
US6463573B1 (en) * 1999-06-03 2002-10-08 International Business Machines Corporation Data processor storage systems with dynamic resynchronization of mirrored logical data volumes subsequent to a storage system failure
US6732171B2 (en) * 2002-05-31 2004-05-04 Lefthand Networks, Inc. Distributed network storage system with virtualization
JP2006146299A (en) * 2004-11-16 2006-06-08 Nec Corp Split brain recovery system, split brain recovery method and program

Also Published As

Publication number Publication date
JP2009003769A (en) 2009-01-08

Similar Documents

Publication Publication Date Title
US7353335B2 (en) Storage control method for database recovery in logless mode
JP4870816B2 (en) Apparatus, system, and method for improved synchronous data mirror swap
JP4108074B2 (en) Data synchronization with multiple remote storage
EP1481324B1 (en) Producing a mirrored copy using incremental-divergence
KR101662212B1 (en) Database Management System providing partial synchronization and method for partial synchronization thereof
KR102441997B1 (en) Apparatus for controlling synchronization of metadata on network and method for the same
WO2018049983A1 (en) Data synchronization method and system, and synchronization acquisition method and device
US20070156781A1 (en) Detecting failover in a database mirroring environment
JP4715774B2 (en) Replication method, replication system, storage device, program
WO2014059804A1 (en) Method and system for data synchronization
JP2008059583A (en) Cluster system, method for backing up replica in cluster system, and program product
US9053073B1 (en) Use of timestamp logic in synchronous replication
JP6931081B2 (en) Data backup system, relay site storage, data backup method, and relay site storage control program
US20090063486A1 (en) Data replication using a shared resource
JP4320314B2 (en) Computer system, synchronization processing method, and program
US7730351B2 (en) Per file dirty region logging
US10049021B2 (en) Redundant system and redundancy method
CN113326251B (en) Data management method, system, device and storage medium
JP2006185108A (en) Management computer for managing data of storage system, and data management method
US8977897B2 (en) Computer-readable recording medium, data management method, and storage device
JP5130538B2 (en) Network file system and network file system recovery method
CN116389233B (en) Container cloud management platform active-standby switching system, method and device and computer equipment
CN106326030B (en) Method and apparatus for soft handoff in a storage system
JP6251965B2 (en) Information system and database recovery method
JP2009265973A (en) Data synchronization system, failure recovery method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120607

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121009

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121015

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151116

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5130538

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250