JP2008242685A - Failover method, cluster system, information processor, and program - Google Patents
Failover method, cluster system, information processor, and program Download PDFInfo
- Publication number
- JP2008242685A JP2008242685A JP2007080534A JP2007080534A JP2008242685A JP 2008242685 A JP2008242685 A JP 2008242685A JP 2007080534 A JP2007080534 A JP 2007080534A JP 2007080534 A JP2007080534 A JP 2007080534A JP 2008242685 A JP2008242685 A JP 2008242685A
- Authority
- JP
- Japan
- Prior art keywords
- connection state
- information
- information processing
- computer
- connection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Abstract
Description
本発明は、フェイルオーバ方法にかかり、特に、クラスタシステムを構成しクライアント端末に接続された情報処理装置を切り替えるフェイルオーバ方法に関する。 The present invention relates to a failover method, and more particularly to a failover method for switching information processing apparatuses that constitute a cluster system and are connected to a client terminal.
コンピュータ及びネットワークシステムの発達に伴い、ネットワーク上に設置されたサーバコンピュータからネットワークを介した種々の情報サービスが提供されている。そして、このようなネットワークを介した情報システムは、今や社会基盤とも言えるものであり、これを支えるハードウェアとソフトウェアには、高い信頼性が要求されている。このため、近年では、仮に、サーバに障害が発生した場合であっても、他のサーバが処理を引き継ぐよう構成されている。このような複数のサーバコンピュータなどの情報処理装置が相互に状態を監視して処理を代替する機能をフェイルオーバ機能と呼ぶ。そして、このフェイオーバー機能には、できる限り短時間のうちに障害が発生したサーバの処理を引き継いで代替処理を再開することができよう、保守容易性が求められている。 With the development of computers and network systems, various information services are provided via a network from server computers installed on the network. Such an information system via a network can be said to be a social infrastructure now, and high reliability is required for hardware and software supporting the information system. For this reason, in recent years, even if a failure occurs in a server, another server is configured to take over the processing. Such a function that information processing apparatuses such as a plurality of server computers mutually monitor the state and substitute processing is called a failover function. The failover function is required to be maintainable so that the processing of the server in which the failure has occurred can be taken over in the shortest possible time and the alternative processing can be resumed.
ところが、上述したようにネットワーク上でのサービスを提供するコンピュータシステムにおいてフェイルオーバを実行する場合には、サービスを提供していたサーバから他の代替サーバに引き継ぐ間に、一時的にサービスを停止しなければならない、という問題があった。例えば、ファイル共有サービスを提供するシステムにおいて、ネットワーク接続にCIFSプロトコルを用いている場合には、TCPコネクションが切断されると、それまでの状態を捨てて再接続を行う必要があり、この再接続に所定の時間を要していた。 However, as described above, when performing a failover in a computer system that provides a service on the network, the service must be temporarily stopped while the server providing the service is transferred to another alternative server. There was a problem of having to. For example, in a system that provides a file sharing service, when the CIFS protocol is used for network connection, if the TCP connection is disconnected, it is necessary to reconnect by discarding the previous state. It took a certain amount of time.
ここで、特許文献1には、主プロセッサがチェックポイント状態のデータをネットワーク接続型永続メモリユニットに記憶し、これをバックアッププロセスがチェックポイント状態を取得して、主プロセスの障害時に当該主プロセスの機能を実行する、というシステムが開示されている。
Here, in
しかし、上記従来技術では、主プロセッサのチェックポイント状態のデータを、一旦、メモリユニットに記憶しているため、主プロセッサに障害が生じるなどバックアッププロセッサに迅速な処理の引継ぎが必要な場合であっても、チェックポイント状態のデータを取得する際に時間を要し、プロセスの再開の一時的な停止が生じうる、という問題があった。 However, in the above prior art, since the data of the check point state of the main processor is once stored in the memory unit, the backup processor needs to take over the processing quickly, such as when the main processor fails. However, there is a problem that it takes time to acquire checkpoint state data, and the process restart may be temporarily stopped.
また、チェックポイントの設定によっては、主プロセッサのプロセス内容が保障されずにバックアッププロセッサに引き継がれる場合も生じ、信頼性が低下しうる、という問題も生じうる。 Also, depending on the checkpoint setting, the process contents of the main processor may not be guaranteed and may be taken over by the backup processor, which may cause a problem that the reliability may be lowered.
さらには、予めプロセスを実行するアプリケーションに特別なチェックポイントを設定する必要があり、アプリケーション作成の手間が増大し、また、処理負担が増加する、という問題があった。 Furthermore, there is a problem that it is necessary to set a special checkpoint for an application that executes a process in advance, which increases the effort for creating the application and increases the processing load.
このため、本発明では、上記従来例の有する不都合を改善し、特に、サービス提供の停止を抑制しつつ迅速に処理を引き継ぐことで、システムの信頼性の向上を図ることができると共に、ユーザの利便性の向上を図ることができるフェイルオーバ方法を提供する、ことをその目的とする。 For this reason, the present invention improves the inconveniences of the above-mentioned conventional example, and in particular, can improve the reliability of the system by taking over the processing promptly while suppressing the suspension of service provision, and the user's An object of the present invention is to provide a failover method capable of improving convenience.
そこで、本発明の一形態では、
ネットワークを介して接続された所定のコンピュータに対して同一の情報サービスを提供可能な複数の情報処理装置を備えたクラスタシステムにおけるフェイルオーバ方法であって、
コンピュータと通信接続中の特定の情報処理装置が、コンピュータとの接続状態を他の情報処理装置にて再現するために必要な情報である接続状態情報を他の情報処理装置に送信し、この送信された接続状態情報を他の情報処理装置が受信して記憶する接続状態情報複製工程と、
他の情報処理装置が、特定の情報処理装置の状態に応じて、記憶している接続状態情報に基づいてコンピュータとの接続状態を再現する接続再現工程と、
を有することを特徴としている。
Therefore, in one embodiment of the present invention,
A failover method in a cluster system comprising a plurality of information processing devices capable of providing the same information service to a predetermined computer connected via a network,
A specific information processing apparatus in communication connection with a computer transmits connection state information, which is information necessary for reproducing the connection state with the computer to another information processing apparatus, to the other information processing apparatus, and this transmission A connection state information duplication step in which another information processing apparatus receives and stores the connection state information,
A connection reproduction step in which another information processing apparatus reproduces a connection state with a computer based on the stored connection state information according to the state of the specific information processing apparatus,
It is characterized by having.
上記発明によると、まず、クラスタシステムにおいて、所定のコンピュータに特定の情報処理装置が接続されて、ある情報サービスが提供されている場合に、特定の情報処理装置はコンピュータとの接続状態を表す接続状態情報を他の情報処理装置に送信する。すると、他の情報処理装置は、送信された接続状態情報を受信して記憶しておく。その後、他の情報処理装置は、特定の情報処理装置に障害が発生するなどした場合には、当該特定の情報処理装置から取得して記憶している上記接続状態情報を用いて、コンピュータとの接続状態を再現する。これにより、コンピュータとの接続が他の情報処理装置に切り替えられ、情報サービスの提供が継続される。従って、サービスを提供する情報処理装置を迅速に切り替えることができ、サービス提供を停止することが抑制されるため、システムの信頼性の向上を図ることができると共に、ユーザの利便性の向上を図ることができる。 According to the above invention, first, in a cluster system, when a specific information processing apparatus is connected to a predetermined computer and a certain information service is provided, the specific information processing apparatus is connected to indicate a connection state with the computer. The status information is transmitted to another information processing apparatus. Then, the other information processing apparatus receives and stores the transmitted connection state information. After that, when a failure occurs in the specific information processing apparatus, the other information processing apparatus uses the connection state information acquired and stored from the specific information processing apparatus to communicate with the computer. Reproduce the connection status. Thereby, the connection with the computer is switched to another information processing apparatus, and the provision of the information service is continued. Therefore, the information processing apparatus that provides the service can be switched quickly, and the service provision is suppressed from being stopped, so that the reliability of the system can be improved and the convenience of the user can be improved. be able to.
そして、上記接続状態情報複製工程は、特定の情報処理装置とコンピュータとの所定の送受信処理が正常に実行されたタイミングで他の情報処理装置に対して接続状態情報を送信する、ことを特徴としている。具体的に、接続状態情報複製工程は、特定の情報処理装置とコンピュータとの間でACK信号が送受信されるタイミングで他の情報処理装置に対して接続状態情報を送信する、ことを特徴としており、特に、特定の情報処理装置がコンピュータに対してACK信号を送信するタイミングで他の情報処理装置に対して接続状態情報を送信する、ことを特徴としている。 The connection state information duplicating step transmits the connection state information to another information processing device at a timing when a predetermined transmission / reception process between the specific information processing device and the computer is normally executed. Yes. Specifically, the connection state information duplication step is characterized in that connection state information is transmitted to another information processing device at a timing at which an ACK signal is transmitted and received between the specific information processing device and the computer. In particular, it is characterized in that connection state information is transmitted to another information processing apparatus at a timing when a specific information processing apparatus transmits an ACK signal to the computer.
これにより、特定の情報処理装置が、コンピュータの送受信処理が正常に実行されたタイミング、例えば、ACK信号の送受信のタイミングで、コンピュータとの接続状態を表す接続状態情報を他の情報処理装置に送信する。従って、特定の情報処理装置は、コンピュータとの相互間における送受信データが保障されたタイミングにおいて、そのときの接続状態情報を他の情報処理装置に送信して記憶させているため、その後に他の情報処理装置への切り替えが生じた場合であっても、データの欠損がなく処理を引き継ぐことができる。その結果、システムの信頼性の向上を図ることができると共に、ユーザの利便性の向上を図ることができる。また、通常、通信時に送受信されるACK信号を接続状態情報の送信タイミングとして利用することで、特定の情報処理装置側のアプリケーションなど特別なチェックポイントを予め設定しておく必要がなく、アプリケーション作成コストを軽減し、また、情報処理装置による処理負担を抑制することができる。 As a result, a specific information processing apparatus transmits connection state information indicating a connection state with the computer to another information processing apparatus at the timing when the transmission / reception process of the computer is normally executed, for example, the transmission / reception timing of the ACK signal. To do. Therefore, since the specific information processing apparatus transmits and stores the connection state information at that time to another information processing apparatus at the timing when the transmission / reception data with the computer is guaranteed, the other information processing apparatus thereafter Even when switching to the information processing apparatus occurs, it is possible to take over the processing without data loss. As a result, the reliability of the system can be improved and the convenience of the user can be improved. Also, by using an ACK signal that is normally transmitted and received during communication as the transmission timing of connection state information, there is no need to set in advance a special checkpoint such as an application on a specific information processing apparatus side. And the processing burden on the information processing apparatus can be suppressed.
また、上記接続状態情報複製工程は、特定の情報処理装置が複数の他の情報処理装置に対して接続状態情報を送信し、この送信された接続状態情報を複数の他の情報処理装置がそれぞれ受信して記憶し、上記接続再現工程は、接続状態情報を記憶した複数の他の情報処理装置のうちの1つがコンピュータとの接続を再現する、ことを特徴としている。これにより、コンピュータとの接続処理を引き継ぐことが可能な情報処理装置の台数が増え、システムの信頼性の向上を図ることができる。 In the connection state information duplication step, a specific information processing device transmits connection state information to a plurality of other information processing devices, and the plurality of other information processing devices respectively transmit the transmitted connection state information. The connection reproduction step is characterized in that one of a plurality of other information processing apparatuses storing the connection state information reproduces the connection with the computer. As a result, the number of information processing apparatuses that can take over the connection process with the computer increases, and the reliability of the system can be improved.
なお、上記接続状態情報は、コンピュータとの通信接続状態を特定する情報と、通信接続時に作動しているプロセスが扱っている情報と、を含む、ことを特徴としている。 The connection state information includes information for specifying a communication connection state with a computer and information handled by a process operating at the time of communication connection.
また、上記接続再現工程は、例えば、他の情報処理装置が、特定の情報処理装置に障害が生じたことを検出したときに、記憶している接続状態情報に基づいてコンピュータとの接続状態を再現する、ことを特徴としている。 In addition, the connection reproduction step may, for example, check the connection status with the computer based on the stored connection status information when another information processing device detects that a specific information processing device has failed. It is characterized by being reproduced.
そして、本発明の他の形態は、
ネットワークを介して接続された所定のコンピュータに対して同一の情報サービスを提供可能な複数の情報処理装置を備えたクラスタシステムであって、
コンピュータと通信接続中の特定の情報処理装置が、コンピュータとの接続状態を他の情報処理装置にて再現するために必要な情報である接続状態情報を他の情報処理装置に送信する接続状態情報送信手段を備え、
他の情報処理装置が、特定の情報処理装置から送信された接続状態情報を受信して記憶する接続状態情報受信手段と、特定の情報処理装置の状態に応じて記憶している接続状態情報に基づいてコンピュータとの接続状態を再現する接続再現手段と、を備えた、ことを特徴としている。
And the other form of this invention is:
A cluster system comprising a plurality of information processing devices capable of providing the same information service to a predetermined computer connected via a network,
Connection state information for transmitting a connection state information, which is information necessary for a specific information processing apparatus in communication connection with the computer to reproduce the connection state with the computer, to the other information processing apparatus A transmission means,
Another information processing device receives connection state information transmitted from the specific information processing device and stores the connection state information receiving means, and connection state information stored according to the state of the specific information processing device. And a connection reproduction means for reproducing the connection state with the computer based on the above.
さらに、本発明の他の形態は、
ネットワークを介して接続された所定のコンピュータに対して同一の情報サービスを提供可能な複数の情報処理装置を備えたクラスタシステムを構成する情報処理装置であって、
コンピュータと通信接続中に、当該コンピュータとの接続状態を他の情報処理装置にて再現するために必要な情報である接続状態情報を他の情報処理装置に送信する接続状態情報送信手段と、
コンピュータと通信接続中ではない場合に、コンピュータと通信接続中の他の情報処理装置に装備された接続状態情報送信手段から送信された接続状態情報を受信して記憶する接続状態情報受信手段と、コンピュータと通信接続中の他の情報処理装置の状態に応じて記憶している接続状態情報に基づいてコンピュータとの接続状態を再現する接続再現手段と、
を備えたことを特徴としている。
Furthermore, another aspect of the present invention is:
An information processing apparatus constituting a cluster system including a plurality of information processing apparatuses capable of providing the same information service to a predetermined computer connected via a network,
Connection state information transmitting means for transmitting connection state information, which is information necessary for reproducing the connection state with the computer, to another information processing device during communication connection with the computer;
A connection state information receiving unit that receives and stores connection state information transmitted from a connection state information transmission unit equipped in another information processing apparatus that is in communication connection with the computer when the computer is not in communication connection; Connection reproduction means for reproducing the connection state with the computer based on the connection state information stored in accordance with the state of the other information processing apparatus in communication connection with the computer;
It is characterized by having.
そして、上記接続状態情報送信手段は、コンピュータとの送受信処理が正常に実行されたタイミング、例えば、コンピュータとの間でACK信号が送受信されるタイミング、特に、コンピュータに対してACK信号を送信するタイミングで、他の情報処理装置に対して接続状態情報を送信する、ことを特徴としている。 Then, the connection state information transmitting means is a timing at which transmission / reception processing with the computer is normally executed, for example, timing at which an ACK signal is transmitted / received to / from the computer, particularly timing at which the ACK signal is transmitted to the computer. Thus, the connection state information is transmitted to another information processing apparatus.
また、上記接続状態情報送信手段は、複数の他の情報処理装置に対して接続状態情報を送信する、ことを特徴としている。なお、上記接続状態情報は、コンピュータとの接続状態を特定する情報と、接続時に作動しているプロセスが扱っている情報と、を含む、ことを特徴としている。 Further, the connection state information transmitting means transmits the connection state information to a plurality of other information processing apparatuses. The connection state information includes information for specifying a connection state with a computer and information handled by a process operating at the time of connection.
また、接続再現手段は、コンピュータと通信接続中の他の情報処理装置の状態を監視してこの情報処理装置に障害が生じたことを検出したときに、記憶している接続状態情報に基づいてコンピュータとの接続状態を再現する、ことを特徴としている。 The connection reproduction means monitors the status of another information processing apparatus that is in communication connection with the computer and detects that a failure has occurred in the information processing apparatus, based on the stored connection status information. It is characterized by reproducing the connection state with the computer.
さらに、本発明の他の形態であるプログラムは、
ネットワークを介して接続された所定のコンピュータに対して同一の情報サービスを提供可能な複数の情報処理装置を備えたクラスタシステムを構成する情報処理装置に、
コンピュータと通信接続中に、当該コンピュータとの接続状態を他の情報処理装置にて再現するために必要な情報である接続状態情報を他の情報処理装置に送信する接続状態情報送信手段と、
コンピュータと通信接続中ではない場合に、コンピュータと通信接続中の他の情報処理装置に装備された接続状態情報送信手段から送信された接続状態情報を受信して記憶する接続状態情報受信手段と、コンピュータと通信接続中の他の情報処理装置の状態に応じて記憶している接続状態情報に基づいてコンピュータとの接続状態を再現する接続再現手段と、
を実現させる、ことを特徴としている。
Furthermore, the program which is the other form of this invention is:
In an information processing apparatus constituting a cluster system including a plurality of information processing apparatuses capable of providing the same information service to a predetermined computer connected via a network,
Connection state information transmitting means for transmitting connection state information, which is information necessary for reproducing the connection state with the computer, to another information processing device during communication connection with the computer;
A connection state information receiving unit that receives and stores connection state information transmitted from a connection state information transmission unit equipped in another information processing apparatus that is in communication connection with the computer when the computer is not in communication connection; Connection reproduction means for reproducing the connection state with the computer based on the connection state information stored in accordance with the state of the other information processing apparatus in communication connection with the computer;
It is characterized by realizing.
上述した構成のシステム、情報処理装置、プログラムの発明であっても、上記フェイルオーバ方法と同様に作用するため、上述した本発明の目的を達成することができる。 Even the invention of the system, information processing apparatus, and program having the above-described configuration operates in the same manner as the above-described failover method, and thus the above-described object of the present invention can be achieved.
本発明は、以上のように構成され機能するので、これによると、クラスタシステムにおいて、クライアントのコンピュータに対してサービスを提供する情報処理装置を迅速に切り替えることができ、サービス提供を停止することが抑制されるため、システムの信頼性の向上を図ることができると共に、ユーザの利便性の向上を図ることができる、という従来にない優れた効果を有する。 Since the present invention is configured and functions as described above, according to this, in the cluster system, it is possible to quickly switch an information processing apparatus that provides a service to a client computer, and to stop providing the service. Therefore, the reliability of the system can be improved and the convenience of the user can be improved.
本発明では、サービスの提供を受けるクライアント端末に接続された複数の情報処理装置を備えたクラスタシステムにおいて、クライアント端末と通信中の情報処理装置を、その接続状態を維持したまま他の情報処理装置に迅速に切り替えることができる、という点に特徴を有する。以下、実施例にて、クライアント端末にネットワークストレージサービスを提供するクラスタシステムを一例に挙げて、詳細な構成及び動作を説明する。但し、本発明の特徴となるフェイルオーバ機能は、いかなる情報サービスを提供するクラスタシステムに利用されてもよく、例えば、Webサービスを提供するシステムに利用されてもよい。 In the present invention, in a cluster system including a plurality of information processing devices connected to a client terminal that receives service provision, another information processing device can be used while maintaining the connection state of the information processing device in communication with the client terminal. It is characterized in that it can be quickly switched to. Hereinafter, in the embodiment, a detailed configuration and operation will be described by taking as an example a cluster system that provides a network storage service to a client terminal. However, the failover function, which is a feature of the present invention, may be used in a cluster system that provides any information service, for example, may be used in a system that provides a Web service.
本発明の第1の実施例を、図1乃至図9を参照して説明する。図1は、クラスタシステムの構成を示すブロック図であり、図2は、そのうちのノードの構成を示す機能ブロック図である。図3は、接続状態情報のデータ構造の一例を示す図である。図4は、クラスタシステムにおけるフェイルオーバの動作を示すシーケンス図であり、図5乃至図6は、ノードの動作を示すフローチャートである。図7乃至図9は、クラスタシステムの動作を示す説明図である。 A first embodiment of the present invention will be described with reference to FIGS. FIG. 1 is a block diagram showing a configuration of a cluster system, and FIG. 2 is a functional block diagram showing a configuration of a node among them. FIG. 3 is a diagram illustrating an example of a data structure of connection state information. FIG. 4 is a sequence diagram showing the failover operation in the cluster system, and FIGS. 5 to 6 are flowcharts showing the node operations. 7 to 9 are explanatory diagrams showing the operation of the cluster system.
[構成]
図1に、本実施例におけるクラスタシステムの全体構成を示す。この図に示すように、本実施例におけるクラスタシステムは、ストレージ装置4と、このストレージ装置4にSAN40(ストレージエリアネットワーク)を介して接続された複数のノード1,2,3(情報処理装置)と、を備えている。そして、各ノード1,2,3にはネットワークを介してクライアント端末5(コンピュータ)が接続されており、このクライアント端末5にストレージ装置4に対するデータの共有サービス、つまり、ストレージサービスを提供するよう、クラスタシステムは構成されている。なお、クラスタシステムを構成するノード1,2,3は、少なくとも2台装備されていればよく、設置台数は任意である。
[Constitution]
FIG. 1 shows the overall configuration of the cluster system in this embodiment. As shown in this figure, the cluster system in this embodiment includes a
そして、各ノード1,2,3は、サーバコンピュータにて構成されており、クライアント端末5とストレージ装置4とを接続する中継点として機能する。つまり、ノード1,2,3は、そのうちの1台がクライアント端末5とTCP/IPを基盤としたCIFSプロトコルにて接続し、ストレージ装置4に対するファイル共有サービスを提供する機能を有する。そして、接続しているノードに障害などが発生してクライアント端末5との接続を維持できなくなると、他のノードがクライアント端末5との接続を引き継いでサービスを継続して提供するフェイルオーバ機能を有する。以下、ノード1,2,3の構成について説明するが、全ては同じ構成を有しているため、符号1に示すノードを例に挙げて説明する。
Each of the
図2に示すように、ノード1には、演算装置であるCPU1Aと、記憶装置であるメモリ1Bと、が装備されている。そして、CPU1Aには、プログラムが組み込まれることにより、通信処理部11と、接続状態コピー処理部12と、接続再現処理部13と、が構築されている。また、メモリ1Bには、接続状態情報が記憶される接続状態情報記憶部14が形成されている。以下、さらに詳述する。
As shown in FIG. 2, the
通信処理部11は、クライアント端末5とTCPコネクションを利用してCIFSプロトコルにて接続する機能を有し、ストレージ装置4を共有可能とする。なお、これに伴い、クライアント端末5にも、CIFSプロトコルにてノード1,2,3と接続する機能が装備されている。また、通信装置11は、ストレージ装置4と接続するよう機能し、さらには、他のノード2,3とも接続するよう機能する。
The communication processing unit 11 has a function of connecting to the
接続状態コピー処理部12(接続状態情報複製手段)は、上述したようにCIFSプロトコルにて通信接続中のクライアント端末5との接続状態を表す接続状態情報を抽出して、他のノードに送信する機能を有する。具体的に、接続状態情報は、図3に示すように、クライアント端末5との通信接続状態を特定するコネクション情報(例えば、送受信IPアドレス、ポート番号、TCPのシーケンス番号、返却ACK番号など)と、通信接続時に作動しているプロセスが扱っている情報(例えば、プロセスが持つデータ(コンテキスト)、プログラムカウンタなど)と、を含んでいる情報である。そして、この接続状態情報は、ノード1とクライアント端末5との接続状態を、他のノード2,3とクライアント端末5との間で再現するために必要な情報である。つまり、後述するように、他のノード2,3は、上記接続状態情報を得てこれを利用することで、クライアント端末5と通信しているノード1との接続状態を再現することができる。
As described above, the connection state copy processing unit 12 (connection state information duplicating means) extracts the connection state information indicating the connection state with the
そして、上記接続状態コピー処理部12は、特に、通信中のクライアント端末5の送受信処理において、当該送受信処理が正常に実行されたタイミング、つまり、クライアント端末5のデータの送受信時にTCP/IPプロトコルにてデータの送信先から送信元へ送られる肯定的な返事となる「ACK信号」が送受信されるタイミングで、他のノード2,3に接続状態情報を送信するよう作動する。具体的に、本実施例では、クライアント端末5がノード1に対してデータを送信し、そのデータをノード1が正常に受信したことをクライアント端末5に通知するためにACL信号を返送するが、このACK信号の返送時に、ノード1が他のノード2,3に対して接続状態情報を送信する。なお、このとき、ノード1の接続状態コピー処理部12は、RDMA(Remote Direct Memory Access)技術にて、他のノード2,3のメモリ(図示せず)に直接、接続状態情報を送信する。
Then, the connection status
また、接続状態コピー処理部12は、ノードがクライアント端末5と通信接続中ではない場合には、他のノードから送信された上述した接続状態情報を受信して、メモリ1Bの接続状態情報記憶部14に記憶する機能(接続状態情報受信手段)を有する。つまり、本実施例においては、他のノード2,3に装備された接続状態コピー処理部は、クライアント端末5と接続されているノード1の接続状態コピー処理部12から送信された当該ノード1における接続状態情報を受信して、メモリに記憶する。
Further, when the node is not in communication connection with the
そして、接続再現処理部13(接続再現手段)は、主にクライアント端末5と接続中ではないノードにて機能するものである。従って、ここでは、符号2のノード2に装備されているものとして説明する。この接続再現処理部は、通信処理部を介して、まず、他のノード(ここでは符号1,3のノード)の状態を監視している。特に、クライアント端末5と通信中のノード1に障害が発生していないかどうかを監視している。そして、上記ノード1に障害が発生したことを検出すると、自身のメモリの接続状態情報記憶部(符号14を参照)に記憶されている接続状態情報を読み出して、当該接続状態情報に基づいてクライアント端末5との接続状態を再現して、ノード2にてクライアント端末5に対するサービス提供を回復するよう作動する。つまり、クライアント端末5に対して符号1のノードが接続していたときの状態を、そのまま符合2のノードにて再現して引き継ぐ。このような引継ぎ処理は、接続状態情報が上述したようにコネクション情報やプロセス情報を利用することで実現可能である。
The connection reproduction processing unit 13 (connection reproduction means) mainly functions in a node that is not connected to the
[動作]
次に、上記構成のシステムの動作を、図4乃至図9を参照して説明する。図4は、システム全体の動作を示すシーケンス図であり、図5は、符号1のノードの動作を示すフローチャートであり、図6は、符号2のノードの動作を示すフローチャートである。図7乃至図9は、接続状態やデータの流れを示す説明図である。
[Operation]
Next, the operation of the system configured as described above will be described with reference to FIGS. 4 is a sequence diagram illustrating the operation of the entire system, FIG. 5 is a flowchart illustrating the operation of the node denoted by
まず、クライアント端末5と符号1のノード1との通信接続が確立され(図4のステップS1,S2、図7の(1))、ノード1がCIFSサービスの提供を開始し(図5のステップS21)、クライアント端末5にCIFSサービスを提供する(図5のステップS22)。これにより、クライアント端末5は、ノード1にて提供されるストレージサービスを利用することができる。つまり、ストレージ装置4にアクセスすることができ、当該ストレージ装置4に対するファイルの記録再生を行うことができる。
First, a communication connection is established between the
そして、クライアント端末5からデータ(A)の送信があり(図4のステップS3)、これをノード1が完全に受信すると、受信確認を表すACK信号をクライアント端末5に返送する(図4のステップS4、図5のステップS23でイエス、図7の(2))。すると、ノード1は、このACK返送のタイミングで、クライアント端末5との接続状態を表す接続状態情報を抽出して(図5のステップS24)、他のノード2,3に送信する(図4のステップS5、図5のステップS25、図7の(3)、接続状態情報複製工程)。
Then, there is data (A) transmission from the client terminal 5 (step S3 in FIG. 4), and when this is completely received by the
これに対し、他のノード2,3は、上記ノード1から送信された接続状態情報を受信して(図6のステップS31)、メモリ内の接続状態情報記憶部に記憶しておく(図4のステップS6、図6のステップS32、接続状態情報複製工程)。その後、ノード1は、CIFSサービス提供が終了するまで(図5のステップS26でノー、図6のステップS33でノー)、上述したように、クライアント端末5にACK信号を送信するたびに接続状態情報を他のノード2,3に送信し、これに応じて、ノード2,3は、送信されてきた接続状態情報を受信して最新のものを記憶しておく。
On the other hand, the
続いて、ノード1に障害が発生したときのことを考える。ここでは、図4に示すように、クライアント端末5からデータ(B)がノード1に送信され(図4のステップS7)、これをノード1が完全に受信しないうちに、当該ノード1に障害が発生したとする(図4のステップS8、図6のステップS33でイエス、図8の(4))。すると、他のノード2,3が、監視しているノード1の障害を検出し(図4のステップS9)、ノード2,3間の予め設定されたやり取りによってノード1の処理を引き継ぐことが決定した符号2のノードが、自己のメモリに記憶されているノード1から受信した接続状態情報を読み出して、これに基づいてクライアント端末5との接続を再現する。これにより、ノード2がクライアント端末5に対するCIFSサービスを回復し(図4のステップS10、図6のステップS35)、クライアント端末5のノード1への接続がノード2に引き継がれて、当該ノード2とクライアント端末5との接続が確立される(図4のステップS11,S12、図8の(5)(矢印Y1参照)、接続再現工程)。なお、ノード2がノード1の障害を検出したときには、既に接続を引き継ぐための接続状態情報が記憶されているため、かかる引継ぎ処理を迅速に実行することができる。
Next, consider the case where a failure occurs in
そして、その後は、ノード2からクライアント端末5に対してCIFSサービスが提供される(図6のステップS36)。すると、クライアント端末5は、ノード1に障害が生じる前にデータ(B)を送信しているが(図4のステップS7参照)、これに対する受信確認信号であるACK信号を得ていないため、データ(B)を再送する(図4のステップS13)。すると、現在は、ノード2が接続されているため、当該ノード2にデータ(B)を送信することとなる。従って、ノード1の障害発生前の処理がノード2で引き継がれるため、確実に処理が継続されうる。そして、ノード2がクライアント端末5からデータ(B)を完全に受信すると、その受信確認信号であるACKをクライアント端末5に送信する(図4のステップS14、図9の(6))。すると、これと同時に、ノード2は、上述同様に、このときのクライアント端末5との接続状態を表す接続状態情報を、他のノード1,3に送信する(図4のステップS15、図9の(7))。但し、ノード1が障害発生状態のままである場合には、当該ノード1には送信されない。
Thereafter, the CIFS service is provided from the
以上のように本発明によると、まず、常時、クライアント端末5と通信中であるノード1の接続状態を表す情報が他のノード2にコピーされているため、障害発生時には、他のノード2にて迅速に接続状態を引き継ぐことができ、信頼性の向上を図ることができると共に、利用者の利便性の向上を図ることができる。そして、特に、接続状態情報をコピーするタイミングをACK信号の送信タイミングとすることで、クライアント端末との通信されるデータが保障された状態で他のノードに接続を引き継ぐことができ、さらなる信頼性の向上を図ることができる。このことは、ノードのアプリケーションなどに接続状態情報をコピーするタイミングとして特別なチェックポイントを予め設定しておく必要がなく、アプリケーション作成コストを軽減し、また、ノードの処理負担を抑制することにもなる。
As described above, according to the present invention, first, since the information indicating the connection state of the
なお、上記では、接続状態情報をコピーするタイミングしてACK信号の送信時を一例に挙げて説明したが、クライアント端末5と通信接続中のノード1との通信データが保障されているタイミングであれば、いかなるタイミングで上記接続状態情報のコピーを実行してもよい。例えば、ディスクI/Oが完了していないデータを他のノードにコピーするといったデータ保障タイミングで、上記接続状態情報の他のノードへのコピーを実行してもよい。
In the above description, the timing of copying the connection state information has been described as an example of the transmission of the ACK signal. However, the communication data between the
また、上記では、ノード1,2,3はサーバコンピュータであるとして説明したが、上述した構成を具備した情報処理装置であれば、いかなる装置であってもよい。例えば、ルータであってもよい。
In the above description, the
さらに、上記では、ノードが装備されるシステムとして、ストレージサービスを提供するクラスタシステムを例示したが、他のシステムに適用してもよい。例えば、ノードが同一のウェブサイトを開設してウェブサービスを提供する複数のウェブサーバにて構成されていてもよい。 Furthermore, in the above description, a cluster system that provides a storage service is illustrated as a system equipped with nodes, but the present invention may be applied to other systems. For example, the nodes may be configured by a plurality of web servers that open the same website and provide web services.
本発明のフェイルオーバ方法は、ネットワークストレージサービスを提供するクラスタシステムのフェイルオーバや、ウェブサービスを提供するシステムのフェイルオーバといった用途などに適用することができ、産業上の利用可能性を有する。 The failover method of the present invention can be applied to uses such as failover of a cluster system that provides a network storage service and failover of a system that provides a web service, and has industrial applicability.
1,2,3 ノード
4 ストレージ装置
5 クライアント端末
11 通信処理部
12 接続状態コピー処理部
13 接続再現処理部
14 接続状態情報記憶部
1, 2, 3
Claims (16)
前記コンピュータと通信接続中の特定の前記情報処理装置が、前記コンピュータとの接続状態を他の情報処理装置にて再現するために必要な情報である接続状態情報を他の前記情報処理装置に送信し、この送信された前記接続状態情報を前記他の情報処理装置が受信して記憶する接続状態情報複製工程と、
前記他の情報処理装置が、前記特定の情報処理装置の状態に応じて、記憶している前記接続状態情報に基づいて前記コンピュータとの接続状態を再現する接続再現工程と、
を有することを特徴とするフェイルオーバ方法。 A failover method in a cluster system comprising a plurality of information processing devices capable of providing the same information service to a predetermined computer connected via a network,
A specific information processing apparatus in communication connection with the computer transmits connection state information, which is information necessary for reproducing the connection state with the computer, to the other information processing apparatus. The connection state information duplication step in which the other information processing apparatus receives and stores the transmitted connection state information,
The other information processing apparatus reproduces the connection state with the computer based on the stored connection state information according to the state of the specific information processing apparatus,
A failover method characterized by comprising:
ことを特徴とする請求項1記載のフェイルオーバ方法。 The connection state information duplication step transmits the connection state information to the other information processing device at a timing when a predetermined transmission / reception process between the specific information processing device and the computer is normally executed.
The failover method according to claim 1, wherein:
ことを特徴とする請求項2記載のフェイルオーバ方法。 The connection state information duplication step transmits the connection state information to the other information processing device at a timing at which an ACK signal is transmitted and received between the specific information processing device and the computer.
The failover method according to claim 2, wherein:
ことを特徴とする請求項3記載のフェイルオーバ方法。 The connection state information duplication step transmits the connection state information to the other information processing device at a timing when the specific information processing device transmits an ACK signal to the computer.
The failover method according to claim 3, wherein:
前記接続再現工程は、前記接続状態情報を記憶した前記複数の他の情報処理装置のうちの1つが前記コンピュータとの接続を再現する、
ことを特徴とするフェイルオーバ方法。 In the connection state information replication step, the specific information processing apparatus transmits the connection state information to a plurality of other information processing apparatuses, and the plurality of other information processing apparatuses transmit the transmitted connection state information. Each received and memorized,
In the connection reproduction step, one of the plurality of other information processing apparatuses storing the connection state information reproduces the connection with the computer.
A failover method characterized by that.
ことを特徴とする請求項1,2,3,4又は5記載のフェイルオーバ方法。 The connection state information includes information for specifying a communication connection state with the computer, and information handled by a process operating at the time of communication connection.
The failover method according to claim 1, 2, 3, 4 or 5.
ことを特徴とする請求項1,2,3,4,5又は6記載のフェイルオーバ方法。 In the connection reproduction step, when the other information processing apparatus detects that a failure has occurred in the specific information processing apparatus, a connection state with the computer is determined based on the stored connection state information. Reproduce,
The failover method according to claim 1, 2, 3, 4, 5, or 6.
前記コンピュータと通信接続中の特定の前記情報処理装置が、前記コンピュータとの接続状態を他の情報処理装置にて再現するために必要な情報である接続状態情報を他の前記情報処理装置に送信する接続状態情報送信手段を備え、
他の前記情報処理装置が、前記特定の情報処理装置から送信された前記接続状態情報を受信して記憶する接続状態情報受信手段と、前記特定の情報処理装置の状態に応じて記憶している前記接続状態情報に基づいて前記コンピュータとの接続状態を再現する接続再現手段と、を備えた、
ことを特徴とするクラスタシステム。 A cluster system comprising a plurality of information processing devices capable of providing the same information service to a predetermined computer connected via a network,
A specific information processing apparatus in communication connection with the computer transmits connection state information, which is information necessary for reproducing the connection state with the computer, to the other information processing apparatus. Connection state information transmitting means for
The other information processing apparatus receives and stores the connection state information transmitted from the specific information processing apparatus, and stores the connection state information according to the state of the specific information processing apparatus. Connection reproduction means for reproducing the connection state with the computer based on the connection state information,
A cluster system characterized by that.
前記コンピュータと通信接続中に、当該コンピュータとの接続状態を他の情報処理装置にて再現するために必要な情報である接続状態情報を他の情報処理装置に送信する接続状態情報送信手段と、
前記コンピュータと通信接続中ではない場合に、前記コンピュータと通信接続中の他の情報処理装置に装備された前記接続状態情報送信手段から送信された前記接続状態情報を受信して記憶する接続状態情報受信手段と、前記コンピュータと通信接続中の他の情報処理装置の状態に応じて記憶している前記接続状態情報に基づいて前記コンピュータとの接続状態を再現する接続再現手段と、
を備えたことを特徴とする情報処理装置。 An information processing apparatus constituting a cluster system including a plurality of information processing apparatuses capable of providing the same information service to a predetermined computer connected via a network,
A connection state information transmitting means for transmitting connection state information, which is information necessary for reproducing a connection state with the computer, to another information processing apparatus during communication connection with the computer;
Connection state information for receiving and storing the connection state information transmitted from the connection state information transmitting means provided in another information processing apparatus that is in communication connection with the computer when not in communication connection with the computer Receiving means; and connection reproduction means for reproducing the connection state with the computer based on the connection state information stored according to the state of another information processing apparatus in communication connection with the computer;
An information processing apparatus comprising:
ことを特徴とする請求項9記載の情報処理装置。 The connection state information transmitting means transmits the connection state information to another information processing apparatus at a timing at which transmission / reception processing with the computer is normally executed,
The information processing apparatus according to claim 9.
ことを特徴とする請求項10記載の情報処理装置。 The connection state information transmitting means transmits the connection state information to another information processing device at a timing at which an ACK signal is transmitted to and received from the computer.
The information processing apparatus according to claim 10.
ことを特徴とする請求項11記載の情報処理装置。 The connection state information transmitting means transmits the connection state information to another information processing apparatus at a timing of transmitting an ACK signal to the computer.
The information processing apparatus according to claim 11.
ことを特徴とする請求項9,10,11又は12記載の情報処理装置。 The connection state information transmitting means transmits the connection state information to a plurality of other information processing devices.
The information processing apparatus according to claim 9, 10, 11, or 12.
ことを特徴とする請求項9,10,11,12又は13記載の情報処理装置。 The connection state information includes information for specifying a connection state with the computer, and information handled by a process operating at the time of connection.
The information processing apparatus according to claim 9, 10, 11, 12, or 13.
ことを特徴とする請求項9,10,11,12,13又は14記載の情報処理装置。 The connection reproduction means monitors the state of another information processing apparatus in communication connection with the computer and detects that a failure has occurred in the information processing apparatus, based on the stored connection state information. To reproduce the connection status with the computer,
The information processing apparatus according to claim 9, 10, 11, 12, 13, or 14.
前記コンピュータと通信接続中に、当該コンピュータとの接続状態を他の情報処理装置にて再現するために必要な情報である接続状態情報を他の情報処理装置に送信する接続状態情報送信手段と、
前記コンピュータと通信接続中ではない場合に、前記コンピュータと通信接続中の他の情報処理装置に装備された前記接続状態情報送信手段から送信された前記接続状態情報を受信して記憶する接続状態情報受信手段と、前記コンピュータと通信接続中の他の情報処理装置の状態に応じて記憶している前記接続状態情報に基づいて前記コンピュータとの接続状態を再現する接続再現手段と、
を実現させるためのプログラム。
In an information processing apparatus constituting a cluster system including a plurality of information processing apparatuses capable of providing the same information service to a predetermined computer connected via a network,
A connection state information transmitting means for transmitting connection state information, which is information necessary for reproducing a connection state with the computer, to another information processing apparatus during communication connection with the computer;
Connection state information for receiving and storing the connection state information transmitted from the connection state information transmitting means provided in another information processing apparatus that is in communication connection with the computer when not in communication connection with the computer Receiving means; and connection reproduction means for reproducing the connection state with the computer based on the connection state information stored according to the state of another information processing apparatus in communication connection with the computer;
A program to realize
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007080534A JP2008242685A (en) | 2007-03-27 | 2007-03-27 | Failover method, cluster system, information processor, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007080534A JP2008242685A (en) | 2007-03-27 | 2007-03-27 | Failover method, cluster system, information processor, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2008242685A true JP2008242685A (en) | 2008-10-09 |
Family
ID=39913977
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007080534A Pending JP2008242685A (en) | 2007-03-27 | 2007-03-27 | Failover method, cluster system, information processor, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2008242685A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018533788A (en) * | 2015-10-22 | 2018-11-15 | ネットアップ,インコーポレイテッド | Automatic switchover implementation |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06139170A (en) * | 1992-10-23 | 1994-05-20 | Hitachi Ltd | Distributed processing system |
JPH086910A (en) * | 1994-06-23 | 1996-01-12 | Hitachi Ltd | Cluster type computer system |
JP2001022718A (en) * | 1999-07-09 | 2001-01-26 | Matsushita Electric Ind Co Ltd | Parallel processor |
JP2005050298A (en) * | 2003-07-11 | 2005-02-24 | Ns Solutions Corp | Computer system, computer, data communication method, and program |
JP2005301436A (en) * | 2004-04-07 | 2005-10-27 | Hitachi Ltd | Cluster system and failure recovery method for it |
JP2006065619A (en) * | 2004-08-27 | 2006-03-09 | Hitachi Information Systems Ltd | Apparatus and program for determine cause of fault in network application |
-
2007
- 2007-03-27 JP JP2007080534A patent/JP2008242685A/en active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06139170A (en) * | 1992-10-23 | 1994-05-20 | Hitachi Ltd | Distributed processing system |
JPH086910A (en) * | 1994-06-23 | 1996-01-12 | Hitachi Ltd | Cluster type computer system |
JP2001022718A (en) * | 1999-07-09 | 2001-01-26 | Matsushita Electric Ind Co Ltd | Parallel processor |
JP2005050298A (en) * | 2003-07-11 | 2005-02-24 | Ns Solutions Corp | Computer system, computer, data communication method, and program |
JP2005301436A (en) * | 2004-04-07 | 2005-10-27 | Hitachi Ltd | Cluster system and failure recovery method for it |
JP2006065619A (en) * | 2004-08-27 | 2006-03-09 | Hitachi Information Systems Ltd | Apparatus and program for determine cause of fault in network application |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018533788A (en) * | 2015-10-22 | 2018-11-15 | ネットアップ,インコーポレイテッド | Automatic switchover implementation |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI642282B (en) | Fail recovery method and internet of things system and charging system using the same | |
US20200073768A1 (en) | Storage cluster failure detection | |
CN102439903B (en) | Method, device and system for realizing disaster-tolerant backup | |
JP4087271B2 (en) | Proxy response device and network system | |
JP5828954B2 (en) | Packet processing method and router during server failure | |
US7739391B2 (en) | Gateway for wireless mobile clients | |
JP5863942B2 (en) | Provision of witness service | |
WO2016202051A1 (en) | Method and device for managing active and backup nodes in communication system and high-availability cluster | |
WO2020057445A1 (en) | Communication system, method, and device | |
WO2009117946A1 (en) | Main-spare realizing method for dispatch servers and dispatch server | |
CN113132159B (en) | Storage cluster node fault processing method, equipment and storage system | |
CN112671554A (en) | Node fault processing method and related device | |
WO2012171346A1 (en) | Telephone number mapping-domain name system (enum-dns) and disaster tolerance method thereof | |
JP2011203941A (en) | Information processing apparatus, monitoring method and monitoring program | |
JP4757670B2 (en) | System switching method, computer system and program thereof | |
JP2008242685A (en) | Failover method, cluster system, information processor, and program | |
JP5016696B2 (en) | High availability system, server, high availability maintenance method and program | |
KR20180099143A (en) | Apparatus and method for recovering tcp-session | |
JP2006260223A (en) | iSCSI STORAGE SYSTEM AND PASS MULTIPLEX METHOD FOR THE SYSTEM | |
CN114500577A (en) | Data access system and data access method | |
US10536875B2 (en) | System and method for seamless TCP connection handoff | |
CN113852514A (en) | Data processing system with uninterrupted service, processing equipment switching method and connecting equipment | |
CN109981717A (en) | A kind of connection optimization method, device and computer storage medium | |
JP2005284556A (en) | Method for coping with access trouble, system for coping with access trouble, data processor, and program | |
KR100793446B1 (en) | Method for processing fail-over and returning of duplication telecommunication system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100212 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20100610 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110222 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110419 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110517 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110920 |