JP5154843B2 - Cluster system, computer, and failure recovery method - Google Patents
Cluster system, computer, and failure recovery method Download PDFInfo
- Publication number
- JP5154843B2 JP5154843B2 JP2007157828A JP2007157828A JP5154843B2 JP 5154843 B2 JP5154843 B2 JP 5154843B2 JP 2007157828 A JP2007157828 A JP 2007157828A JP 2007157828 A JP2007157828 A JP 2007157828A JP 5154843 B2 JP5154843 B2 JP 5154843B2
- Authority
- JP
- Japan
- Prior art keywords
- storage device
- history
- computer
- failure recovery
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、障害回復処理の技術に関し、特にクラスタシステムにおける障害回復処理の技術およびそれに適用される障害回復方法に関する。 The present invention relates to failure recovery processing technology, and more particularly to failure recovery processing technology in a cluster system and a failure recovery method applied thereto.
国際商取引が盛んに行われ、また、企業間競争が激化している時代背景にあって、情報処理システムには24時間365日連続の正常運転が要求されてきている。特に金融や通信等のミッションクリティカルなシステムの場合、わずかなシステムの停止がビジネスに致命的な打撃を与えることもある。 In the era when international commerce is actively conducted and competition between companies is intensifying, information processing systems are required to operate normally for 24 hours and 365 days in a row. Especially in the case of mission critical systems such as finance and communications, a slight system outage can have a fatal impact on the business.
計算機(以下、「ノード」と呼ぶ。)において情報処理されるデータが重要なものとなり、かつ、データ量が膨大になっている現在、そのデータの保持には高い信頼性が要求される。そのため、データ記憶装置に障害が発生したときに、障害回復処理を実行してデータを復旧するために、データ操作の履歴情報が記録されるのが一般的である。 At present, data processed in a computer (hereinafter referred to as “node”) is important and the amount of data is enormous, and high reliability is required to hold the data. For this reason, when a failure occurs in the data storage device, data operation history information is generally recorded in order to perform failure recovery processing and restore the data.
データ記憶装置に障害が発生した場合、データ記憶装置のバックアップファイルと、バックアップファイル作成時点から障害発生までの間のデータ操作の履歴情報とに基づき、記憶装置の障害回復処理を実行できる(例えば、特許文献1参照)。
一方で、ミッションクリティカルなシステムにおいては、システムの可用性向上と負荷分散のために、複数のノードを設け、複数のノードが並列して稼働するシステム(以下、「クラスタシステム」と呼ぶ。)が採用されることが多い。クラスタシステムにおいては、複数のノードでデータ記憶装置を共有して、それぞれのノードがデータ操作を行う。 On the other hand, in a mission critical system, a system in which multiple nodes are provided and operated in parallel (hereinafter referred to as a “cluster system”) is adopted to improve system availability and load distribution. Often done. In a cluster system, a plurality of nodes share a data storage device, and each node performs data operations.
クラスタシステムのそもそもの目的は可用性の向上であるため、データ記憶装置の一部に障害が発生したときでも、その障害の影響を受けないサービスについては停止することなく継続して提供されることが望ましい。前述したように、情報処理システムの可用性に対する要求レベルは日々高まっており、短期間のサービス提供停止であっても許容されない場合もある。 Since the original purpose of the cluster system is to improve availability, even if a failure occurs in a part of the data storage device, services that are not affected by the failure can be provided without interruption. desirable. As described above, the level of demand for availability of an information processing system is increasing day by day, and even if service provision is stopped for a short time, it may not be allowed.
しかし、従来の技術では、データ記憶装置に障害が発生すると、障害回復まではクラスタシステム全体のサービスが停止することが多く、ユーザの利便性を損なうことがあった。 However, according to the conventional technology, when a failure occurs in the data storage device, the service of the entire cluster system is often stopped until the failure is recovered, which may impair the convenience of the user.
本発明は、本発明者による上記着目に基づいて完成された発明であり、その主たる目的は、クラスタシステムにおける利便性の高い障害回復の技術を提供することである。 The present invention has been completed on the basis of the above-mentioned attention by the present inventor, and its main object is to provide a highly convenient failure recovery technique in a cluster system.
上記課題を解決するために、本発明のある態様のクラスタシステムは、計算機と、第1および第2の履歴記憶装置とを有する複数の計算機システムと、複数の計算機システムの計算機から操作されるデータを記憶するデータ記憶装置と、を備える。計算機は、自計算機システムの第1および第2の履歴記憶装置に、自計算機によるデータ記憶装置へのアクセス履歴を記録する履歴記録部と、複数の計算機システムの第2の履歴記憶装置のそれぞれと自計算機との接続を制御する接続制御部と、データ記憶装置における障害発生時において、障害回復処理を実行する障害回復部と、障害回復処理の終了後、第1の履歴記憶装置におけるアクセス履歴を第2の履歴記憶装置に反映させる履歴同期部と、を含む。データ記憶装置の一部の領域において障害が発生したとき、各計算機の履歴記録部は、第1の履歴記憶装置へのアクセスを維持したまま第2の履歴記憶装置への記録を停止し、複数の計算機システムのうちの一の計算機の接続制御部は、他計算機システムの第2の履歴記憶装置と自計算機とを接続し、一の計算機の障害回復部は、複数の計算機システムの第2の履歴記憶装置に記録されたアクセス履歴を参照して、データ記憶装置の障害回復処理を実行し、一の計算機による障害回復処理の実行中において、他の計算機は、データ記憶装置へのアクセス、および、第1の履歴記憶装置へのアクセス履歴の記録を継続し、各計算機の履歴同期部は、障害回復処理が終了した後で、自計算機システムの第1の履歴記憶装置から第2の履歴記憶装置にアクセス履歴の差分を反映する。 In order to solve the above problems, a cluster system according to an aspect of the present invention includes a plurality of computer systems having a computer, first and second history storage devices, and data operated from the computers of the plurality of computer systems. A data storage device. The computer records, in the first and second history storage devices of the own computer system, a history recording unit that records an access history to the data storage device by the own computer, and each of the second history storage devices of the plurality of computer systems. A connection control unit for controlling connection with the own computer, a failure recovery unit for executing failure recovery processing when a failure occurs in the data storage device, and an access history in the first history storage device after the completion of the failure recovery processing. And a history synchronization unit to be reflected in the second history storage device. When a failure occurs in a partial area of the data storage device, the history recording unit of each computer stops recording to the second history storage device while maintaining access to the first history storage device. The connection control unit of one computer of the computer systems connects the second history storage device of the other computer system and the own computer, and the failure recovery unit of one computer uses the second history storage device of the plurality of computer systems. Referring to the access history recorded in the history storage device, the failure recovery processing of the data storage device is executed, and during execution of the failure recovery processing by one computer, the other computer accesses the data storage device, and , Recording of the access history to the first history storage device is continued, and the history synchronization unit of each computer stores the second history storage from the first history storage device of its own computer system after the failure recovery processing is completed. apparatus To reflect the difference between the access history.
本明細書におけるクラスタシステムは、複数のノードが並列して、データ記憶装置に記憶されるデータを操作することにより情報処理サービスを提供する。各ノードは、同様のアプリケーションを搭載して同様のサービスを提供するものであってもよく、DBMS(Database Management System)ソフトウェアが動作するデータベースサーバであってもよい。アクセス履歴は、ノードによるデータ操作の履歴情報である。具体的には、データ記憶装置に対するデータの挿入、データ記憶装置により記憶されるデータに対する更新・削除等の操作内容と、その操作時刻と、その操作のトランザクション状態、例えばコミット済みであるかを示す情報等とを含む情報であってもよい。 The cluster system in this specification provides an information processing service by manipulating data stored in a data storage device in parallel by a plurality of nodes. Each node may be provided with a similar application and provide a similar service, or may be a database server on which DBMS (Database Management System) software operates. The access history is history information on data operations by nodes. Specifically, it indicates the operation contents such as insertion of data into the data storage device, update / deletion of data stored in the data storage device, the operation time, and the transaction state of the operation, for example, whether it has been committed. Information including information and the like may be used.
また、データ記憶装置の一部の領域における障害とは、物理障害と論理障害の両方を含む。物理障害は、データ記憶装置の一部、例えばハードディスクの一部が物理的に破損した結果、データ記憶装置が記憶するデータの一部に対しノードから正常なアクセスができない状態を含む。論理障害は、ノードで動作するソフトウェアからデータ記憶装置に不正なデータが書き込まれた結果、データ記憶装置が記憶するデータの一部が論理的に破壊されて、ノードから正常なアクセスができない状態を含む。 Further, the failure in a partial area of the data storage device includes both a physical failure and a logical failure. The physical failure includes a state in which a node cannot normally access a part of data stored in the data storage device as a result of a physical damage to a part of the data storage device, for example, a part of the hard disk. A logical failure is a situation in which a part of the data stored in the data storage device is logically destroyed as a result of illegal data being written to the data storage device from the software operating on the node, and normal access from the node is not possible. Including.
この態様によると、クラスタシステムの各ノードは、データ記憶装置の一部に障害が発生し、一のノードが障害回復処理を実行する間も、第1の履歴記憶装置へのアクセス履歴の記録を継続できる。したがって、その障害の影響を受けないデータ記憶装置の領域にアクセスするサービスを継続して提供できる。 According to this aspect, each node of the cluster system records the access history to the first history storage device even when a failure occurs in a part of the data storage device and one node executes the failure recovery process. Can continue. Therefore, it is possible to continuously provide a service for accessing an area of the data storage device that is not affected by the failure.
本発明の別の態様は、計算機である。この計算機は、所定のデータ記憶装置と接続される複数の計算機のうちの一つであって、自計算機に対応づけられる第1および第2の履歴記憶装置のそれぞれにデータ記憶装置に対するアクセス履歴を記録する履歴記録部と、データ記憶装置における障害発生時において、障害回復処理を実行する障害回復部と、障害回復処理の終了後、第1の履歴記憶装置におけるアクセス履歴を第2の履歴記憶装置に反映させる履歴同期部と、複数の計算機にそれぞれ対応づけられる第2の履歴記憶装置と自計算機との接続を制御する接続制御部と、を備える。データ記憶装置の一部の領域において障害が発生したとき、履歴記録部は、第1の履歴記憶装置へのアクセスを維持したまま第2の履歴記憶装置への記録を停止し、接続制御部は、履歴記録部による第2の履歴記憶装置への記録の停止後、他計算機に対応づけられている第2の履歴記憶装置と自計算機とを接続し、障害回復部は、複数の計算機にそれぞれ対応づけられている第2の履歴記憶装置のアクセス履歴を参照してデータ記憶装置の障害回復処理を実行し、履歴同期部は、障害回復処理中における自計算機によるアクセス履歴を第1の履歴記憶装置から第2の履歴記憶装置に反映させる。 Another embodiment of the present invention is a computer. This computer is one of a plurality of computers connected to a predetermined data storage device, and the access history for the data storage device is stored in each of the first and second history storage devices associated with the own computer. A history recording unit for recording, a failure recovery unit for executing failure recovery processing when a failure occurs in the data storage device, and an access history in the first history storage device after the completion of the failure recovery processing. And a connection control unit for controlling connection between the second history storage device associated with each of the plurality of computers and the own computer. When a failure occurs in a part of the data storage device, the history recording unit stops recording in the second history storage device while maintaining access to the first history storage device, and the connection control unit After the recording to the second history storage device by the history recording unit is stopped, the second history storage device associated with another computer is connected to the own computer, and the failure recovery unit is connected to each of the plurality of computers. The failure recovery processing of the data storage device is executed with reference to the access history of the associated second history storage device, and the history synchronization unit stores the access history by the own computer during the failure recovery processing in the first history storage. Reflected from the device to the second history storage device.
本発明のさらに別の態様は、障害回復方法である。この方法は、所定のデータ記憶装置と接続される複数の計算機のうちの一つにおける障害回復方法であって、自計算機に対応づけられる第1および第2の履歴記憶装置のそれぞれにデータ記憶装置に対するアクセス履歴を記録するステップと、データ記憶装置の一部に障害が発生したとき、第1の履歴記憶装置へのアクセスを維持したまま第2の履歴記憶装置への記録を停止するステップと、第2の履歴記憶装置への記録の停止後、他計算機に対応づけられている第2の履歴記憶装置と自計算機とを接続するステップと、複数の計算機にそれぞれ対応づけられている第2の履歴記憶装置のアクセス履歴を参照してデータ記憶装置の障害回復処理を実行するステップと、障害回復処理の終了後、障害回復処理中における自計算機によるアクセス履歴を第1の履歴記憶装置から第2の履歴記憶装置に反映させるステップと、を備える。 Yet another embodiment of the present invention is a failure recovery method. This method is a failure recovery method in one of a plurality of computers connected to a predetermined data storage device, and each of the first and second history storage devices associated with the own computer has a data storage device. Recording an access history for the first history storage device when a failure occurs in a part of the data storage device, and stopping recording to the second history storage device while maintaining access to the first history storage device; After stopping recording in the second history storage device, a step of connecting the second history storage device associated with the other computer and the own computer, and a second associated with each of the plurality of computers The step of executing the failure recovery processing of the data storage device with reference to the access history of the history storage device, and the access by the own computer during the failure recovery processing after completion of the failure recovery processing Comprising a gravel from the first history storage device comprising the steps of reflecting the second history storage device.
なお、以上の構成要素の任意の組合せ、本発明の表現を装置、方法、システム、プログラム、プログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。 It should be noted that any combination of the above-described constituent elements and a representation of the present invention converted between an apparatus, a method, a system, a program, a recording medium storing the program, and the like are also effective as an aspect of the present invention.
本発明によれば、クラスタシステムにおいて利便性の高い障害回復を実現できる。 According to the present invention, highly convenient failure recovery can be realized in a cluster system.
本発明の実施形態を説明する前に、従来技術にかかるクラスタシステムの構成と、その課題を示し、あわせて本発明の実施形態の概要を説明する。図1は、従来技術にかかるクラスタシステムの構成例を示す。クラスタシステム200は、ノード210で総称される第1のノード210aと、第2のノード210bと、第3のノード210cと、データ記憶装置220と、履歴記憶装置230で総称される履歴記憶装置230a〜230cとを備える。各ノード210は、それぞれ並列してデータ記憶装置220のデータにアクセスしながら情報処理サービスを提供し、そのアクセス履歴を自ノードに対応する履歴記憶装置230に記録する。
Before describing an embodiment of the present invention, a configuration of a cluster system according to the prior art and its problems will be shown, and an outline of the embodiment of the present invention will be described. FIG. 1 shows a configuration example of a cluster system according to the prior art. The
データ記憶装置220は、各ノード210の情報処理においてアクセスされるデータを記憶する。この例において、データ記憶装置220は、A情報とB情報とを記憶している。言い換えれば、データ記憶装置220には、A情報を含むテーブルと、B情報を含むテーブルとが含まれると考えてもよい。
The
クラスタシステム200では、データ記憶装置220は各ノード210から共有されるが、データ記憶装置220のデータにアクセスするのはノード210ごとであるため、アクセス履歴はノード210ごとに記録される。第1の履歴記憶装置230aは、第1のノード210aによるデータ記憶装置220へのアクセス履歴を記録するファイル(以下、「アクセス履歴ファイル」と呼ぶ。)「L01−01〜L01−03」を記憶している。第2のノード210bに対応づけられた履歴記憶装置230bと、第3のノード210cに対応づけられた履歴記憶装置230cについても同様に、アクセス履歴ファイル「L02−01〜L02−03」と「L03−01〜L03−03」とをそれぞれ記憶している。
In the
次に、クラスタシステム200において、データ記憶装置220に記憶されるデータの一部に障害が発生した場合(障害が発生したデータのことを、以下、「障害状態データ」と呼ぶ。)の回復処理について説明する。障害状態データの回復処理には、次に示す2段階の方法が一般にとられる。まず、データ記憶装置220に対する定期的なバックアップにおいて作成されたバックアップファイルに基づき、障害状態データの内容を過去の特定時点にまで戻す。次に、それぞれの履歴記憶装置230に記録されたアクセス履歴に基づき、ロールフォワードおよびロールバックを実施して、障害状態データの内容を障害が発生する直前の状態にまで回復させる。
Next, in the
したがって、データ記憶装置220の内容が変更される場合には、必ず履歴記憶装置230にそのアクセス履歴が記録される必要がある。データ記憶装置220が変更されたにもかかわらず、そのアクセス履歴が履歴記憶装置230に記録されていなければ、データ記憶装置220に障害が発生した際にその回復ができないからである。
Therefore, whenever the contents of the
図2は、図1のクラスタシステムにおける障害回復処理時の構成例を示す。同図では、データ記憶装置の一部に障害が発生した結果、A情報が障害状態データとなり、第1のノード210aがA情報の障害回復処理を実行する。この場合、第1のノード210aは、障害回復処理のために、履歴記憶装置230aに加えて履歴記憶装置230bと230cのアクセス履歴ファイルを参照する必要がある。そのため、第1のノード210aは各履歴記憶装置230とアタッチし、一方で、第2のノード210bは履歴記憶装置230bと、また、第3のノード210cは履歴記憶装置230cとデタッチする。
FIG. 2 shows a configuration example at the time of failure recovery processing in the cluster system of FIG. In the figure, as a result of a failure occurring in a part of the data storage device, the A information becomes failure status data, and the first node 210a executes a failure recovery process for the A information. In this case, the first node 210a needs to refer to the access history files of the
第2および第3のノードが履歴記憶装置230とデタッチするのは、複数のノードが同時に同一の履歴記憶装置230にアタッチをすると、履歴記憶装置230への要求競合が発生するからである。要求競合が発生すると、各ノードのファイルシステムの整合性維持が困難となり、また、履歴記憶装置230が破壊される可能性がある。第2のノード210bと第3のノード210cは、履歴記憶装置230とデタッチする結果、データ記憶装置のB情報へのアクセスは可能であるにもかかわらず、アクセス履歴の記録ができないため、B情報へのアクセスも停止せざるを得ない。なお、ノードと履歴記憶装置とのアタッチおよびデタッチについての説明は後述する。
The reason why the second and third nodes detach from the
図3は、従来技術にかかるクラスタシステムの別の構成例を示す。クラスタシステム300におけるノード310とデータ記憶装置320とは、前述したクラスタシステム200におけるノード210とデータ記憶装置220と同じである。同図のクラスタシステム300では、履歴記憶装置330への一元的なアクセス窓口としてNFS(Network File System)サーバ340が設けられている。各ノード310は、NFSサーバ340を介してアクセス履歴を記録する。これにより、例えば、データ記憶装置320のA情報が障害状態データとなり、第1のノード310aが障害回復処理を実行する場合にも、各ノード310はデータ記憶装置320のB情報へのアクセスを継続できる。
FIG. 3 shows another configuration example of the cluster system according to the prior art. The
つまり、第1のノード310aは、NFSサーバ340を介して、障害回復に必要なアクセス履歴「L01−01〜L01−03」と、「L02−01〜L02−03」と、「L03−01〜L03−03」とを参照して、A情報の障害回復処理を実行できる。一方で、各ノード310は、この障害回復処理と並列して、NFSサーバ340を介して、アクセス履歴を履歴記憶装置330に記録できるため、B情報へのアクセスを継続できる。
That is, the first node 310a, via the
図3では、第1のノード310aが障害回復処理中に、各ノード310が記録したアクセス履歴ファイルを、それぞれ「L01−04、L01−05」、「L02−04、L02−05」、および「L03−04、L03−05」として示している。なお、前述した「L01−01〜L01−03」と、「L02−01〜L02−03」と、「L03−01〜L03−03」とには、A情報およびB情報へのアクセス履歴が含まれる。一方で、「L01−04、L01−05」と、「L02−04、L02−05」と、「L03−04、L03−05」とには、B情報へのアクセス履歴が含まれるが、A情報へのアクセス履歴は含まれない。
In FIG. 3, the access history files recorded by each
しかし、クラスタシステム300にも課題がある。第1の課題として、各ノード310とNFSサーバ340とは、通信ネットワークにより接続されるため、アクセス履歴を記録するトラフィックが高い場合には、通信ネットワークが遅延して性能のボトルネックとなる可能性がある。データ記憶装置へのアクセスとアクセス履歴の記録とは常に同期をとる必要があるため、アクセス履歴を記録する性能が低い場合には、ノード310が提供するサービスの性能も低くなってしまう。1000BASE−SX等の高速な通信ネットワークであっても、高速なバスインタフェイス、例えばUltra320 SCSI等には通信速度で及ばず、また、ネットワークのトラフィックが増加すれば、実効通信速度はさらに遅くなる。これを回避するためには、ネットワークの多重化などによる、広帯域のネットワークの構築に多くの費用を要する。
However, the
第2の課題として、NFSサーバ340には非常に高い可用性が求められる。クラスタシステム300においては、履歴記憶装置330への一元的な窓口となるNFSサーバ340の可用性が、即クラスタシステム300の可用性となるためである。NFSサーバ340が停止すると、データ記憶装置320は正常動作中であっても、各ノード310は、データ記憶装置320へのアクセスを停止せざるを得ない。したがって、NFSサーバ340を冗長化構成とする等の手段により、NFSサーバ340の可用性を担保する必要がある。
As a second problem, the
このように、従来型のクラスタシステムにおいては、障害回復処理を実行しつつ、正常のデータへのアクセスを継続することは容易ではなかった。また、これを実現するには多大なコストを要していた。 As described above, in a conventional cluster system, it is not easy to continue accessing normal data while executing failure recovery processing. Moreover, enormous costs were required to realize this.
本発明の実施形態では、これらの課題を解決するために次の技術を提案する。すなわち、クラスタシステムの各ノードに対応づけられた履歴記憶装置を複数設け、データ記憶装置が正常動作中は、両方の履歴記憶装置にアクセス履歴を記録する。データ記憶装置の一部に障害が発生したときには、まず、第1の履歴記憶装置へのアクセス履歴の記録は維持する一方で、第2の履歴記憶装置へのアクセス履歴の記録は停止する。次に、障害回復処理を実行する一のノードは、自ノードおよび他ノードに対応づけられた第2の履歴記憶装置のアクセス履歴を参照して障害回復処理を実行する。この障害回復処理と並行して、各ノードは障害の影響を受けないデータへのアクセスを継続して、そのアクセス履歴を第1の履歴記憶装置に記録する。これにより、障害回復処理と正常なデータへのアクセスとを両立し、利便性の高い障害回復を実現する。以下、実施形態を説明する。 In the embodiment of the present invention, the following technique is proposed in order to solve these problems. That is, a plurality of history storage devices associated with each node of the cluster system are provided, and the access history is recorded in both history storage devices while the data storage device is operating normally. When a failure occurs in a part of the data storage device, first, the access history record to the first history storage device is maintained, while the access history record to the second history storage device is stopped. Next, one node that executes the failure recovery process executes the failure recovery process with reference to the access history of the second history storage device associated with the own node and other nodes. In parallel with this failure recovery processing, each node continues to access data that is not affected by the failure, and records its access history in the first history storage device. As a result, both failure recovery processing and access to normal data are achieved, and highly convenient failure recovery is realized. Hereinafter, embodiments will be described.
図4は、本発明の実施形態にかかるクラスタシステムの構成例を示す。同図のクラスタシステム100は、ノード110で総称される第1のノード110aと、第2のノード110bと、第3のノード110cと、データ記憶装置120と、主履歴記憶装置130で総称される第1の主履歴記憶装置130aと、第2の主履歴記憶装置130bと、第3の主履歴記憶装置130cと、副履歴記憶装置132で総称される第1の副履歴記憶装置132aと、第2の副履歴記憶装置132bと、第3の副履歴記憶装置132cとを備える。なお、主履歴記憶装置130は、前述した第1の履歴記憶装置に相当し、副履歴記憶装置132は、前述した第2の履歴記憶装置に相当する。
FIG. 4 shows a configuration example of the cluster system according to the embodiment of the present invention. The
各ノード110は、それぞれ並列してデータ記憶装置120にアクセスし、アクセス履歴を主履歴記憶装置130と副履歴記憶装置132とに記録する。正常時では、主履歴記憶装置130と副履歴記憶装置132とには同じ内容のアクセス履歴が記録される。
Each
次にクラスタシステム100において、データ記憶装置120のデータの一部に障害が発生した場合の回復処理について説明する。図5は、図4のクラスタシステムにおける障害回復処理時の構成例を示す。A情報が障害状態データとなり、第1のノード110aが障害回復処理を実行するとする。この場合、第2のノード110bは副履歴記憶装置132bを、第3のノード110cは副履歴記憶装置132cをそれぞれデタッチする。次に、第1のノード110aは、これらの副履歴記憶装置132をアタッチし、それぞれの副履歴記憶装置132に記憶されたアクセス履歴に基づき、障害発生データであるA情報に対する障害回復処理を実行する。
Next, recovery processing when a failure occurs in a part of data in the
第1のノード110aによる障害回復処理の間も、各ノード110は、主履歴記憶装置130へのアクセス履歴の記録ができるため、B情報へのアクセスを継続できる。図5においても、図3と同様に、第1のノード310aが障害回復処理中に、各ノード310が記録したアクセス履歴ファイルを、それぞれ「L01−04、L01−05」、「L02−04、L02−05」、「L03−04、L03−05」として示している。
Even during the failure recovery processing by the first node 110a, each
なお、所定の障害検知システムが障害を検知することにより、障害回復処理を自動で開始してもよく、運用担当者がその障害を検知して手動で開始してもよい。前者の場合、障害検知システムは、例えば、ノード110のアプリケーションによるデータ記憶装置120へのアクセスの失敗をそのアプリケーションからの通知等により検出して、障害回復処理のためのスクリプトを実行する。後者の場合、運用担当者は、例えば、ノード110のアプリケーションログのトラッキングによりデータ記憶装置120における障害の発生を検知し、障害回復処理のための適切な準備をした上で、手動で障害回復処理のためのスクリプトを実行する。この「適切な準備」には、データ記憶装置120のバックアップファイルのリストアにより、障害発生データを過去の特定時点まで戻すことも含まれてよいが、この準備もスクリプトにより自動化されてもよい。
The failure recovery process may be automatically started when a predetermined failure detection system detects the failure, or the operator may detect the failure and start it manually. In the former case, the failure detection system detects, for example, a failure in access to the
第1のノード110aにおける障害回復処理の終了後、各ノード110は、主履歴記憶装置130に記録されたアクセス履歴と、副履歴記憶装置132に記録されたアクセス履歴との同期をとる。図6は、図4のクラスタシステムにおける障害回復処理後の構成例を示す。同図では、アクセス履歴ファイル「L01−04、L01−05」、「L02−04、L02−05」、および「L03−04、L03−05」を、主履歴記憶装置130から副履歴記憶装置132に反映させることで、それぞれの履歴記憶装置の同期がとられている。これにより、データ記憶装置120において一部障害が再度発生した場合にも、同様の障害回復処理により障害回復できる。
After the failure recovery process in the first node 110 a is completed, each
図7は、図4のノード110の構成例を示す機能ブロック図である。ノード110は、履歴記録部10と、接続制御部12と、障害回復部14と、履歴同期部16とを備える。これらの構成は、ハードウェアコンポーネントでいえば、任意のコンピュータのCPU、メモリ、メモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
FIG. 7 is a functional block diagram illustrating a configuration example of the
履歴記録部10は、主履歴記憶装置130と副履歴記憶装置132との両方に、データ記憶装置120へのアクセス履歴を記録する。データ記憶装置120の一部の領域において障害が発生したとき、履歴記録部10は、主履歴記憶装置130へのアクセス履歴の記録は継続しつつ、副履歴記憶装置132へのアクセス履歴の記録を停止する。
The
接続制御部12は、クラスタシステム100の各ノード110に対応づけられた副履歴記憶装置132と自ノードとの接続を制御する。データ記憶装置120の一部の領域において障害が発生したとき、接続制御部12は、履歴記録部10による副履歴記憶装置132へのアクセス履歴の記録の停止後、他ノードに対応づけられた副履歴記憶装置132をアタッチする。また、自ノードがデータ記憶装置120の障害回復処理を実行しない場合には、接続制御部12は、副履歴記憶装置132をデタッチする。
The
例えば、図5における第1のノード110aは前者であり、第1のノード110aの接続制御部12は、第2の副履歴記憶装置132bおよび第3の副履歴記憶装置132cをアタッチする。一方で、図5における第2のノード110bと第3のノード110cは後者であり、これらのノードの接続制御部12は、第2の副履歴記憶装置132bまたは第3の副履歴記憶装置132cをそれぞれデタッチする。
For example, the first node 110a in FIG. 5 is the former, and the
なお、自ノードが副履歴記憶装置132にアタッチするのは、他ノードが副履歴記憶装置132をデタッチした後が望ましい。この場合、図示しない通信部を介して他ノードよりデタッチを完了した旨の通知を受け付け、その後に副履歴記憶装置132と自ノードとをアタッチするようにしてもよい。
Note that it is desirable that the own node attaches to the sub
また、接続制御部12は、自ノードが障害回復処理を終了したとき、他ノードに対応づけられた副履歴記憶装置132をデタッチする。なお、自ノードがデータ記憶装置120の障害回復処理を実行しなかった場合には、他ノードから障害回復処理の終了の通知を図示しない通信部を介して受け付けた後、自ノードに対応づけられた副履歴記憶装置132をアタッチする。
Further, the
ここで、ノード110と副履歴記憶装置132とのアタッチ、デタッチについて説明する。「アタッチする」とは、ノード110上のアプリケーションから副履歴記憶装置132へのアクセスを可能にすることである。「デタッチする」とは、アタッチとは反対に、副履歴記憶装置132へのアクセスを不可にすることである。
Here, attachment and detachment between the
各ノード110は、事前に、副履歴記憶装置132のそれぞれの物理ボリュームに対応するボリュームグループを設定しておく。アタッチする場合は、まず、副履歴記憶装置132に対応するボリュームグループをアクティベートする。次に、アクティベートしたボリュームグループをノード110の特定のディレクトリにマウントする。デタッチをする場合は、まず、副履歴記憶装置132に対応するボリュームグループをアンマウントする。次に、アンマウントしたボリュームグループを非アクティベートする。前述したように、ファイルシステムの整合性維持および記憶装置への要求競合による記憶装置の破損を防止するため、一の副履歴記憶装置132に対しては、一のノード110のみが同時にアタッチすることが望ましい。図7に戻る。
Each
障害回復部14は、データ記憶装置120の一部の領域において障害が発生したとき、アタッチされた副履歴記憶装置132に記録されたアクセス履歴を参照して、データ記憶装置120に対する障害回復処理を実行する。障害回復部14が実行する障害回復処理は、通常のデータベースリカバリ手段でよい。例えば、まず、バックアップファイルにより、データ記憶装置120のデータを特定の過去時点の状態に戻す。次に、アクセス履歴に記録されたデータ記憶装置120に対する操作に基づいてロールフォワードし、コミットが完了していない操作についてはロールバックする。このようにして、障害発生データを障害発生直前の状態まで回復してもよい。
When a failure occurs in a partial area of the
また、DBMSソフトウェアや障害回復処理を実行するアプリケーションの制約として、データ記憶装置120に対する障害回復処理を実行する際に、アクセス履歴ファイルは1ディレクトリに存在しなければならない場合がある。一方で、複数の副履歴記憶装置132は、接続制御部12により複数の異なるディレクトリにマウントされる。この場合、障害回復部14は、複数の異なるディレクトリに存在するアクセス履歴ファイルを、特定のディレクトリからアクセスできるように、それらのアクセス履歴ファイルを参照先とするシンボリックリンクファイルを特定のディレクトリに作成する。障害回復部14は、特定のディレクトリに作成したシンボリックリンクファイルを参照することで、副履歴記憶装置132に記録されたアクセス履歴を参照でき、前述したソフトウェアの制約を充足して障害回復処理を実行できる。
In addition, as a restriction of DBMS software or an application for executing failure recovery processing, when executing failure recovery processing for the
図8は、分散したアクセス履歴ファイルを特定のディレクトリに集約した状態を模式的に示す図である。履歴ディレクトリ30で総称される履歴ディレクトリ30a、30b、30cは、それぞれ、第1の副履歴記憶装置132a、第2の副履歴記憶装置132b、第3の副履歴記憶装置132cをマウントしたディレクトリを示す。障害回復部14は、複数の履歴ディレクトリ30に含まれるアクセス履歴ファイルを集約するための履歴集約ディレクトリ32を作成し、それぞれのアクセス履歴ファイルを参照先とするシンボリックリンクファイルをそのディレクトリに作成する。例えば、履歴集約ディレクトリ32の「SL−L01−01」は、履歴ディレクトリ30aのアクセス履歴ファイル「L01−01」を参照先とするシンボリックリンクファイルである。
FIG. 8 is a diagram schematically showing a state in which distributed access history files are collected in a specific directory. The history directories 30a, 30b, and 30c, which are collectively referred to as the
このように、シンボリックリンクファイルを作成してアクセス履歴ファイルの集約を実現することで、分散した個々のアクセス履歴ファイルを特定のディレクトリにコピー等をすることなく参照でき、ハードディスク資源の使用量を低減する効果もある。また、コピー時間が削減されるため、障害回復処理の準備時間を短縮できる。 In this way, by creating a symbolic link file and realizing the aggregation of access history files, it is possible to refer to each distributed access history file without copying it to a specific directory and reducing the amount of hard disk resources used There is also an effect. Further, since the copy time is reduced, the preparation time for the failure recovery process can be shortened.
なお、アクセス履歴ファイルを集約するディレクトリには、障害回復処理を実行するノードからアクセスできる任意のディレクトリが選択可能である。図8では、シンボリックリンクファイルのみで構成されたディレクトリを例示したが、例えば、図5における副履歴記憶装置132aがこのディレクトリとして選択されてもよい。この場合の障害回復処理では、アクセス履歴ファイル「L01−01〜L01−03」については実体ファイルが、他のアクセス履歴ファイルについてはシンボリックリンクファイルが用いられてもよい。図7に戻る。 An arbitrary directory that can be accessed from the node that executes the failure recovery process can be selected as a directory for collecting access history files. Although FIG. 8 illustrates a directory composed only of symbolic link files, for example, the secondary history storage device 132a in FIG. 5 may be selected as this directory. In the failure recovery processing in this case, an entity file may be used for the access history files “L01-01 to L01-03”, and a symbolic link file may be used for the other access history files. Returning to FIG.
履歴同期部16は、障害回復部14による障害回復処理が終了した後で、主履歴記憶装置130から副履歴記憶装置132にアクセス履歴の差分を反映することにより、それぞれの履歴記憶装置に記録されたアクセス履歴の同期をとる。例えば、図5では、第1のノード110aにより障害回復処理が実行されている間に、それぞれの主履歴記憶装置130にアクセス履歴ファイル「L01−04、L01−05」、「L02−04、L02−05」、「L03−04、L03−05」が作成された。障害回復処理の終了後を示す図6では、履歴同期部16により、これらのアクセス履歴ファイルが副履歴記憶装置132に反映されている。
The
履歴同期部16による差分の判定には、障害回復処理で用いたアクセス履歴ファイル名またはアクセス履歴ファイルの更新日時を記憶しておき、ファイル名またはファイルの更新日時に基づき判定してもよい。また、アクセス履歴には履歴記憶装置への記録日時が含まれてもよく、履歴同期部16はその記録日時に基づき判定してもよい。また、主履歴記憶装置130のアクセス履歴ファイルの内容と、副履歴記憶装置132のアクセス履歴ファイルの内容とを全文比較して差分を判定してもよい。
In the determination of the difference by the
図9は、図4のノード110の動作例を示すフローチャートである。同図では、履歴記録部10により、主履歴記憶装置130および副履歴記憶装置132にアクセス履歴を記録している状態において、データ記憶装置120の一部に障害が発生したときの動作例を示している。なお、同図が示すノード110は、障害回復処理を実行するノードであり、図5の例ではノード110aに相当する。
FIG. 9 is a flowchart showing an operation example of the
まず、履歴記録部10は、主履歴記憶装置130へのアクセス履歴の記録は継続したまま、副履歴記憶装置132へのアクセス履歴の記録を停止する(S10)。次に、接続制御部12は、他ノードに対応づけられている副履歴記憶装置132と自ノードとをアタッチする(S12)。次に、障害回復部14は、アタッチされた副履歴記憶装置132のアクセス履歴を参照してデータ記憶装置120の障害回復処理を実行する(S14)。障害回復処理の終了後、接続制御部12は、他ノードに対応づけられている副履歴記憶装置132と自ノードとをデタッチする(S16)。最後に、履歴同期部16は、障害回復処理中における自計算機によるアクセス履歴を、主履歴記憶装置130から副履歴記憶装置132に反映させることで、主履歴記憶装置130と副履歴記憶装置132とのアクセス履歴の同期をとる(S18)。
First, the
図10も、図4のノード110の動作例を示すフローチャートである。同図が示すノード110は、他ノードにより障害回復処理が実行されるノードであり、図5の例では第2のノード110bおよび第3のノード110cに相当する。S20およびS26の処理は、図9のS10およびS18と同じであるため、S22とS24とについて説明する。S20の後、接続制御部12は、副履歴記憶装置132と自ノードとをデタッチする(S22)。図7では図示しない通信部を介して、他ノードから障害回復処理の終了が通知されると、接続制御部12は、副履歴記憶装置132と自ノードとをアタッチする(S24)。
FIG. 10 is also a flowchart showing an operation example of the
本実施形態によれば、クラスタシステム100の各ノード110は、データ記憶装置120の一部に障害が発生し、一のノードが障害回復処理を実行する間も、主履歴記憶装置130へのアクセス履歴の記録を継続できる。したがって、その障害の影響を受けないデータ記憶装置120の領域へのアクセスを継続でき、障害に伴うサービスの停止を最小限にすることができる。例えば、図1のクラスタシステム200においては、少なくとも第2のノード210bおよび第3のノード210は、履歴記憶装置230とデタッチする必要があったため、サービスの継続は困難であった。本実施形態では、履歴記憶装置を冗長化し、一方の履歴記憶装置をデタッチした場合でも他方の履歴記憶装置との接続は維持することで、この課題を解決している。高可用性が要求されるミッションクリティカルなシステムにおいて、ここに開示した技術は特に有効である。
According to the present embodiment, each
なお、図1のクラスタシステム200においても、障害回復処理を実行するノード、例えば第1のノード210aは、自ら障害回復処理を実行する間に、その障害の影響を受けないデータ記憶装置120の領域へのアクセスを継続できる。しかし、障害回復処理の負荷に加え、本来は複数のノードで分散すべきサービス提供負荷がそのノードに集中するためいずれの処理も遅延しやすい。したがって、実際にはノード210aを障害回復処理に専念させる場合も多い。本実施の形態によれば、障害回復処理を実行しないノードは、サービス提供を継続できるため、サービス要求のトラヒックが高く多並列のクラスタシステムにおいて、ここに開示した技術は特に有効である。
In the
また、本実施形態によれば、クラスタシステム100の各ノード110は、主履歴記憶装置130と副履歴記憶装置132とに対し個別に接続され、また、高速なバスインタフェイスでの接続が可能である。したがって、図3のクラスタシステム200での課題であった通信ネットワークの遅延による性能のボトルネックは生じにくい。
Further, according to the present embodiment, each
また、本実施形態によれば、クラスタシステム200では必要であったNFSサーバ340も不要である。したがって、NFSサーバ340がSPOF(Single Point of Failure)となってしまうような可用性のリスクを低減でき、また、そのリスクに備えるためのコストを削減できる。
Further, according to the present embodiment, the
さらに、本実施形態によれば、データ記憶装置120の障害回復処理における、アクセス履歴ファイルの配置場所等に関するソフトウェアの制約に対し、シンボリックリンク等の参照オブジェクトを利用することで柔軟に対処できる。また、ハードウェア資源の効率的な利用を実現できる。
Furthermore, according to the present embodiment, it is possible to flexibly cope with the software restrictions related to the location of the access history file in the failure recovery processing of the
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。 The present invention has been described based on the embodiments. This embodiment is an exemplification, and it will be understood by those skilled in the art that various modifications can be made to combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there.
本実施の形態においては、第1のノードが障害回復処理を実行するとして説明したが、第2および第3のノードが実行してもよい。また、障害回復処理を実行するノードは、ハードウェアスペック等に基づいて事前に固定的に決められていてもよく、所定の障害検知システム等により障害が検知されたときに、所定のシステムにより特定のノードが動的に選択されてもよい。動的な特定のノード選択においては、各ノードのCPU使用率等のリソース使用状況を判定し、リソース使用率または使用量が最も小さいノードが選択されてもよい。 In the present embodiment, the first node has been described as executing the failure recovery process. However, the second and third nodes may execute the failure recovery process. The node that executes the failure recovery processing may be fixedly determined in advance based on hardware specifications, etc., and is specified by a predetermined system when a failure is detected by a predetermined failure detection system or the like. May be selected dynamically. In dynamic specific node selection, a resource usage state such as a CPU usage rate of each node may be determined, and a node having the smallest resource usage rate or usage amount may be selected.
10 履歴記録部、12 接続制御部、14 障害回復部、16 履歴同期部、30 履歴ディレクトリ、32 履歴集約ディレクトリ、100 クラスタシステム、110 ノード、120 データ記憶装置、130 主履歴記憶装置、132 副履歴記憶装置、200 クラスタシステム、210 ノード、220 データ記憶装置、230 履歴記憶装置、300 クラスタシステム、310 ノード、320 データ記憶装置、330 履歴記憶装置。 10 history recording unit, 12 connection control unit, 14 failure recovery unit, 16 history synchronization unit, 30 history directory, 32 history aggregation directory, 100 cluster system, 110 node, 120 data storage device, 130 main history storage device, 132 sub-history Storage device, 200 cluster system, 210 node, 220 data storage device, 230 history storage device, 300 cluster system, 310 node, 320 data storage device, 330 history storage device.
Claims (5)
前記複数の計算機システムの計算機から操作されるデータを記憶する一つのデータ記憶装置と、を備え、
前記計算機は、
前記データ記憶装置へのアクセスを行った場合に、自計算機システムの第1の履歴記憶装置と第2の履歴記憶装置の両方に、自計算機による前記データ記憶装置へのアクセス履歴を記録する履歴記録部と、
前記複数の計算機システムの第2の履歴記憶装置のそれぞれと自計算機との接続を制御する接続制御部と、
前記データ記憶装置における障害発生時において、障害回復処理を実行する障害回復部と、
前記障害回復処理の終了後、前記第1の履歴記憶装置におけるアクセス履歴を前記第2の履歴記憶装置に反映させる履歴同期部と、
を含み、
前記データ記憶装置の一部のデータに障害が発生したとき、
各計算機の前記履歴記録部は、前記第1の履歴記憶装置へのアクセス履歴の記録を継続する一方、前記第2の履歴記憶装置へのアクセス履歴の記録を停止し、
前記複数の計算機システムのうちの一の計算機の接続制御部は、他計算機システムの前記第2の履歴記憶装置と自計算機とを接続し、
前記一の計算機の障害回復部は、前記複数の計算機システムの第2の履歴記憶装置に記録されたアクセス履歴を参照して、前記データ記憶装置の障害発生データに対する障害回復処理を実行し
前記一の計算機による障害回復処理の実行中において、他の計算機は、前記データ記憶装置の障害発生データ以外へのアクセス、および、前記第1の履歴記憶装置への前記アクセス履歴の記録を継続し、
各計算機の前記履歴同期部は、前記障害回復処理が終了した後で、自計算機システムの前記第1の履歴記憶装置から前記第2の履歴記憶装置にアクセス履歴の差分を反映することを特徴とするクラスタシステム。 A plurality of computer systems having a computer and first and second history storage devices;
One data storage device for storing data operated from computers of the plurality of computer systems,
The calculator is
History record that records the access history to the data storage device by the own computer in both the first history storage device and the second history storage device of the own computer system when the data storage device is accessed And
A connection control unit for controlling connection between each of the second history storage devices of the plurality of computer systems and the own computer;
A failure recovery unit that executes failure recovery processing when a failure occurs in the data storage device;
A history synchronization unit for reflecting an access history in the first history storage device to the second history storage device after the failure recovery process is completed;
Including
When faulty part of the data of the data storage device is generated,
The history recording unit of each computer continues recording access history to the first history storage device, while stopping recording access history to the second history storage device,
The connection control unit of one computer among the plurality of computer systems connects the second history storage device of the other computer system and the own computer,
The failure recovery unit of the one computer refers to the access history recorded in the second history storage device of the plurality of computer systems, and executes failure recovery processing on the failure occurrence data of the data storage device. During the execution of the failure recovery process by the other computer, the other computers continue to access the data storage device other than the failure occurrence data and record the access history to the first history storage device,
The history synchronization unit of each computer reflects an access history difference from the first history storage device of the local computer system to the second history storage device after the failure recovery process is completed. Cluster system.
前記障害回復部は、前記複数の計算機システムの前記第2の履歴記憶装置に記録されたアクセス履歴を特定のディレクトリから参照するために、前記1以上のディレクトリから参照されるアクセス履歴を参照する1以上のシンボリックリンクファイルを特定のディレクトリに作成し、前記シンボリックリンクファイルを参照して、前記複数の計算機システムの前記第2の履歴記憶装置に記録されたアクセス履歴を参照することを特徴とする請求項1に記載のクラスタシステム。 The connection control unit of the one computer creates one or more directories with reference to each of the second history storage devices,
The failure recovery unit refers to an access history referenced from the one or more directories in order to refer to an access history recorded in the second history storage device of the plurality of computer systems from a specific directory. The symbolic link file is created in a specific directory, the access history recorded in the second history storage device of the plurality of computer systems is referred to by referring to the symbolic link file. Item 4. The cluster system according to Item 1.
前記データ記憶装置へのアクセスを行った場合に、本計算機に対応づけられる第1の履歴記憶装置と第2の履歴記憶装置の両方に、本計算機による前記データ記憶装置へのアクセス履歴を記録する履歴記録部と、
前記データ記憶装置における障害発生時において、障害回復処理を実行する障害回復部と、
前記障害回復処理の終了後、前記第1の履歴記憶装置におけるアクセス履歴を前記第2の履歴記憶装置に反映させる履歴同期部と、
前記複数の計算機にそれぞれ対応づけられる第2の履歴記憶装置と本計算機との接続を制御する接続制御部と、を備え、
前記データ記憶装置の一部のデータに障害が発生したとき、
前記履歴記録部は、前記第1の履歴記憶装置へのアクセス履歴の記録を継続する一方、前記第2の履歴記憶装置へのアクセス履歴の記録を停止し、
前記接続制御部は、前記履歴記録部による前記第2の履歴記憶装置への記録の停止後、他計算機に対応づけられている第2の履歴記憶装置と本計算機とを接続し、
前記障害回復部は、前記複数の計算機にそれぞれ対応づけられている前記第2の履歴記憶装置のアクセス履歴を参照して前記データ記憶装置の障害発生データに対する障害回復処理を実行し、
前記障害回復処理中も、本計算機および他計算機は、前記データ記憶装置の障害発生データ以外へのアクセス、および、自機に対応づけられている第1の履歴記憶装置へのアクセス履歴の記録を継続するものであり、
前記履歴同期部は、前記障害回復処理中における本計算機によるアクセス履歴を前記第1の履歴記憶装置から前記第2の履歴記憶装置に反映させることを特徴とする計算機。 One of a plurality of computers connected to one data storage device,
When the data storage device is accessed , the access history of the computer to the data storage device is recorded in both the first history storage device and the second history storage device associated with the computer. A history recording unit;
A failure recovery unit that executes failure recovery processing when a failure occurs in the data storage device;
A history synchronization unit for reflecting an access history in the first history storage device to the second history storage device after the failure recovery process is completed;
And a connection control unit for controlling a connection between the plurality of second history each computer is associated storage device and the computer,
When faulty part of the data of the data storage device is generated,
The history recording unit continues recording access history to the first history storage device, while stopping recording access history to the second history storage device,
The connection control unit connects said history after the recording stop of the recording unit to the second history storage device, the other to the computer is associated with the second history storage device and the computer,
The failure recovery unit refers to an access history of the second history storage device associated with each of the plurality of computers, and executes a failure recovery process for failure occurrence data of the data storage device;
Even during the failure recovery process, the computer and other computers record access to the data storage device other than the failure occurrence data and record the access history to the first history storage device associated with the own device. To continue,
The history synchronization unit, computer, characterized in that reflect the access history according to the computer during the failure recovery processing from the first history storage device to the second history storage device.
前記データ記憶装置へのアクセスを行った場合に、本計算機に対応づけられる第1の履歴記憶装置と第2の履歴記憶装置の両方に、本計算機による前記データ記憶装置へのアクセス履歴を記録するステップと、
前記データ記憶装置の一部のデータに障害が発生したとき、
前記第1の履歴記憶装置へのアクセス履歴の記録を継続する一方、前記第2の履歴記憶装置へのアクセス履歴の記録を停止するステップと、
前記第2の履歴記憶装置への記録の停止後、他計算機に対応づけられている第2の履歴記憶装置と本計算機とを接続するステップと、
前記複数の計算機にそれぞれ対応づけられている前記第2の履歴記憶装置のアクセス履歴を参照して前記データ記憶装置の障害発生データに対する障害回復処理を実行するステップと、を備え、
前記障害回復処理中も、本計算機および他計算機は、前記データ記憶装置の障害発生データ以外へのアクセス、および、自機に対応づけられている第1の履歴記憶装置へのアクセス履歴の記録を継続するものであり、
前記障害回復処理の終了後、前記障害回復処理中における本計算機によるアクセス履歴を前記第1の履歴記憶装置から前記第2の履歴記憶装置に反映させるステップをさらに備えることを特徴とする障害回復方法。 A failure recovery method according to one of the plurality of computers connected to one of the data storage device,
When the data storage device is accessed , the access history of the computer to the data storage device is recorded in both the first history storage device and the second history storage device associated with the computer. Steps,
When a failure occurs in some data in the data storage device,
Continuing to record access history to the first history storage device while stopping recording access history to the second history storage device;
After the recording to the second history storage device is stopped, connecting the second history storage device associated with the other computer and this computer;
Performing failure recovery processing on failure occurrence data of the data storage device with reference to the access history of the second history storage device associated with each of the plurality of computers ,
Even during the failure recovery process, the computer and other computers record access to the data storage device other than the failure occurrence data and record the access history to the first history storage device associated with the own device. To continue,
After completion of the fault recovery processing, further comprising that failure recovery characterized by the steps of reflecting the second history storage device access history according to the computer during the failure recovery processing from the first history storage device Method.
前記データ記憶装置へのアクセスを行った場合に、本計算機に対応づけられる第1の履歴記憶装置と第2の履歴記憶装置の両方に、本計算機による前記データ記憶装置へのアクセス履歴を記録する履歴記録機能と、
前記データ記憶装置における障害発生時において、障害回復処理を実行する障害回復機能と、
前記障害回復処理の終了後、前記第1の履歴記憶装置におけるアクセス履歴を前記第2の履歴記憶装置に反映させる履歴同期機能と、
前記複数の計算機にそれぞれ対応づけられる第2の履歴記憶装置と本計算機との接続を制御する接続制御機能と、実現させ、
前記データ記憶装置の一部のデータに障害が発生したとき、
前記履歴記録機能は、前記第1の履歴記憶装置へのアクセス履歴の記録を継続する一方、前記第2の履歴記憶装置へのアクセス履歴の記録を停止し、
前記接続制御機能は、前記履歴記録機能による前記第2の履歴記憶装置への記録の停止後、他計算機に対応づけられている第2の履歴記憶装置と本計算機とを接続し、
前記障害回復機能は、前記複数の計算機にそれぞれ対応づけられている前記第2の履歴記憶装置のアクセス履歴を参照して前記データ記憶装置の障害発生データに対する障害回復処理を実行し、
前記障害回復処理中も、本計算機および他計算機は、前記データ記憶装置の障害発生データ以外へのアクセス、および、自機に対応づけられている第1の履歴記憶装置へのアクセス履歴の記録を継続するものであり、
前記履歴同期機能は、前記障害回復処理中における本計算機によるアクセス履歴を前記第1の履歴記憶装置から前記第2の履歴記憶装置に反映させることを特徴とするコンピュータプログラム。 One of the computers connected to one data storage device
When the data storage device is accessed , the access history of the computer to the data storage device is recorded in both the first history storage device and the second history storage device associated with the computer. History recording function,
A failure recovery function for executing failure recovery processing when a failure occurs in the data storage device;
A history synchronization function for reflecting an access history in the first history storage device to the second history storage device after the failure recovery process is completed;
A connection control function for controlling the connection between said plurality of second history each computer is associated storage device and the computer to realize,
When faulty part of the data of the data storage device is generated,
The history recording function continues recording access history to the first history storage device, while stopping recording access history to the second history storage device,
It said connection control function, connects the history record after the recording stop function to by the second history storage device, the other to the computer is associated with the second history storage device and the computer,
The failure recovery function executes a failure recovery process for failure occurrence data of the data storage device with reference to an access history of the second history storage device associated with each of the plurality of computers.
Even during the failure recovery process, the computer and other computers record access to the data storage device other than the failure occurrence data and record the access history to the first history storage device associated with the own device. To continue,
The history synchronization feature, the computer program characterized by reflecting the second history storage device access history according to the computer during the failure recovery processing from the first history storage device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007157828A JP5154843B2 (en) | 2007-06-14 | 2007-06-14 | Cluster system, computer, and failure recovery method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007157828A JP5154843B2 (en) | 2007-06-14 | 2007-06-14 | Cluster system, computer, and failure recovery method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008310591A JP2008310591A (en) | 2008-12-25 |
JP5154843B2 true JP5154843B2 (en) | 2013-02-27 |
Family
ID=40238133
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007157828A Expired - Fee Related JP5154843B2 (en) | 2007-06-14 | 2007-06-14 | Cluster system, computer, and failure recovery method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5154843B2 (en) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5535993B2 (en) * | 2011-07-20 | 2014-07-02 | ビッグローブ株式会社 | Storage device sharing system and storage device sharing method |
AU2013381504B2 (en) | 2013-03-12 | 2016-06-23 | Kabushiki Kaisha Toshiba | Database system, program, and data processing method |
JP6382819B2 (en) | 2013-08-21 | 2018-08-29 | 株式会社東芝 | Database system, node, management apparatus, program, and data processing method |
JP6122126B2 (en) | 2013-08-27 | 2017-04-26 | 株式会社東芝 | Database system, program, and data processing method |
CN110990195A (en) * | 2019-11-24 | 2020-04-10 | 浪潮电子信息产业股份有限公司 | Data recovery method, equipment and storage medium |
CN113535474B (en) * | 2021-06-30 | 2022-11-11 | 重庆紫光华山智安科技有限公司 | Method, system, medium and terminal for automatically repairing heterogeneous cloud storage cluster fault |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0962557A (en) * | 1995-08-30 | 1997-03-07 | Oki Electric Ind Co Ltd | Distributed database system |
JP2001290687A (en) * | 2000-04-04 | 2001-10-19 | Nec Eng Ltd | Data-synchronization control system |
JP2002108679A (en) * | 2000-10-04 | 2002-04-12 | Canon Inc | Method for restoring data in data automatic duplication system of data base and device for the same and storage medium |
JP4575741B2 (en) * | 2004-09-30 | 2010-11-04 | 株式会社日本デジタル研究所 | Data backup system |
-
2007
- 2007-06-14 JP JP2007157828A patent/JP5154843B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008310591A (en) | 2008-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10831614B2 (en) | Visualizing restoration operation granularity for a database | |
US8924358B1 (en) | Change tracking of individual virtual disk files | |
US7925633B2 (en) | Disaster recovery system suitable for database system | |
US9535907B1 (en) | System and method for managing backup operations of virtual machines | |
US8074035B1 (en) | System and method for using multivolume snapshots for online data backup | |
US9798792B2 (en) | Replication for on-line hot-standby database | |
EP2973060B1 (en) | Fast crash recovery for distributed database systems | |
US9672237B2 (en) | System-wide checkpoint avoidance for distributed database systems | |
US7844856B1 (en) | Methods and apparatus for bottleneck processing in a continuous data protection system having journaling | |
US8868858B2 (en) | Method and apparatus of continuous data backup and access using virtual machines | |
US8127174B1 (en) | Method and apparatus for performing transparent in-memory checkpointing | |
US7802128B2 (en) | Method to avoid continuous application failovers in a cluster | |
US7103619B1 (en) | System and method for automatic audit data archiving within a remote database backup system | |
US10831741B2 (en) | Log-shipping data replication with early log record fetching | |
CN101539873B (en) | Data recovery method, data node and distributed file system | |
JP4378335B2 (en) | Device for dynamically switching transaction / data writing method to disk, switching method, and switching program | |
US7631214B2 (en) | Failover processing in multi-tier distributed data-handling systems | |
US7987325B1 (en) | Method and apparatus for implementing a storage lifecycle based on a hierarchy of storage destinations | |
US9275060B1 (en) | Method and system for using high availability attributes to define data protection plans | |
US20060089975A1 (en) | Online system recovery system, method and program | |
CN101243446A (en) | Online page restore from a database mirror | |
JP5154843B2 (en) | Cluster system, computer, and failure recovery method | |
US10261696B2 (en) | Performance during playback of logged data storage operations | |
CN106325768B (en) | A kind of two-shipper storage system and method | |
CN115878384A (en) | Distributed cluster based on backup disaster recovery system and construction method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120327 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120518 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121206 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151214 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |