JP4156470B2 - Node transfer device, node alternative device and program thereof - Google Patents

Node transfer device, node alternative device and program thereof Download PDF

Info

Publication number
JP4156470B2
JP4156470B2 JP2003297466A JP2003297466A JP4156470B2 JP 4156470 B2 JP4156470 B2 JP 4156470B2 JP 2003297466 A JP2003297466 A JP 2003297466A JP 2003297466 A JP2003297466 A JP 2003297466A JP 4156470 B2 JP4156470 B2 JP 4156470B2
Authority
JP
Japan
Prior art keywords
node
memory area
storage device
transfer
transfer device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003297466A
Other languages
Japanese (ja)
Other versions
JP2005070952A (en
Inventor
英俊 渡辺
健一 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Data Group Corp
Original Assignee
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Data Corp filed Critical NTT Data Corp
Priority to JP2003297466A priority Critical patent/JP4156470B2/en
Publication of JP2005070952A publication Critical patent/JP2005070952A/en
Application granted granted Critical
Publication of JP4156470B2 publication Critical patent/JP4156470B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

本発明は、移送元であるノード移送装置、ノード移送装置と同一のハードウェア構成を備え、ノード移送装置に対して外部の記憶装置に書き出されるノード移送装置のメモリ領域のコピーに基づいて、ノード移送装置のプロセスを引き継ぐノード代替装置及びそのプログラムに関する。   The present invention provides a node transfer device that is a transfer source, a node transfer device that has the same hardware configuration as the node transfer device, and is based on a copy of a memory area of the node transfer device that is written to an external storage device for the node transfer device. The present invention relates to a node alternative device that takes over the process of a transfer device and a program thereof.

複数のコモディティPCによるサーバ(PCクラスタ)は、高可用性と柔軟なスケーラビリテイを持ったサーバ機能を安価に実現することができ、従来、盛んに開発が行なわれている。PCクラスタでは、ハードやソフトの追加や変更等のためにノードを停止させてメンテナンス行う必要があるが、サービス全体としてはノード停止の影響を最小限に抑える必要がある。
そこで、ノードの可用性を高めるためには、動作中のノード(主ノード)に対してその代替となるノード(代替ノード)を用意する。主ノードの処理を代替ノードに移すこと(移送)で主ノードが停止・メンテナンス中の場合でも、走行中のサービスを継続することが可能である。ノード処理の移送に関する技術として以下のようなものがある。
Servers (PC clusters) with a plurality of commodity PCs can realize a server function having high availability and flexible scalability at low cost, and have been actively developed. In a PC cluster, it is necessary to perform maintenance by stopping a node for addition or change of hardware or software. However, as a whole service, it is necessary to minimize the influence of the node stop.
Therefore, in order to increase the availability of the node, a node (substitute node) as an alternative to the active node (main node) is prepared. By moving the processing of the main node to an alternative node (transfer), it is possible to continue the running service even when the main node is stopped or under maintenance. There are the following technologies related to node processing transfer.

PCクラスタにおいて、特定のノードの環境を他のノードに移行する場合には、ロールフォワード方式が一般的である。ロールフォワード方式とは、移行元ノードで実行されているプロセスのプログラムを移行先ノードで実行し直し、移行前と同じプロセスの状態に復元する方式である。
また、クラスタでないスタンドアロンのノード環境を他のノードに移行する方式として仮想計算機方式がある。仮想計算機方式は、ソフトウェアを用いて仮想的なノード環境を構築し、当該仮想ノードを他のノードの仮想ノード環境に移行する方式である。
また、同一ノードにおいてサスペンドさせたプロセスをリジュームする技術として、特許文献1には、電源切断時に動作していたネットワーク上の他の端末に存在するアプリケーションを電源切断時と同じ状態で再起動する複数端末アプリケーションの起動方法に関する発明が開示されている。
特開2000−322243号公報
In a PC cluster, when a specific node environment is migrated to another node, a roll forward method is common. The roll-forward method is a method in which a program of a process executed on the migration source node is re-executed on the migration destination node and restored to the same process state as before the migration.
There is a virtual machine method as a method for migrating a stand-alone node environment that is not a cluster to another node. The virtual computer method is a method of constructing a virtual node environment using software and transferring the virtual node to a virtual node environment of another node.
Further, as a technique for resuming a suspended process in the same node, Patent Document 1 discloses a plurality of applications that restart an application existing in another terminal on the network that was operating when the power is turned off in the same state as when the power is turned off. An invention related to a terminal application activation method is disclosed.
JP 2000-322243 A

しかし、上述した従来の技術においては次のような問題がある。
まずロールフォワード方式では、移行元ノードで実行されていたプロセスの内部状態は、移行先ノードにおいてリセットされる。このため、アプリケーションレベルで、プロセスの途中状態からのロールフォワード(最新の状態までの再トレース)が必要となる。これは、アプリケーションに依存する処理であることから対応できるアプリケーションが限定されてしまうという問題がある。
また、資源予約機能のないOS環境では、移行時に再起動されたアプリケーションに割り当てられるリソースID(プロセス識別子やソケットのポート番号)などが移行前後で異なってしまうため、完全な透過性を保障できないという問題点がある。
さらに、アプリケーションレベルでは、同一のものが起動されるがノード自身は移行前と異なっているものなので、ネットワークインターフェースで使われるIPアドレスが変化してしまう。そのために、ネットワークレイヤでのアドレス変換が必要である。ところが、このような変換を行った場合、移行元ノート及び移行先ノードの内部や外部(同一ネットワーク外のネットワーク機器のルーティングテーブルなど)に影響が及ぶため、このような変換を移行後の長期にわたって行い続けることは管理を煩雑にするという問題点がある。
However, the conventional techniques described above have the following problems.
First, in the roll forward method, the internal state of the process being executed at the migration source node is reset at the migration destination node. For this reason, it is necessary to roll forward (retrace to the latest state) from an intermediate state of the process at the application level. Since this is a process that depends on the application, there is a problem in that the applications that can be handled are limited.
Also, in an OS environment without a resource reservation function, the resource ID (process identifier or socket port number) assigned to the application restarted at the time of migration differs before and after the migration, so complete transparency cannot be guaranteed. There is a problem.
Furthermore, at the application level, the same one is started, but the node itself is different from the one before the migration, so the IP address used in the network interface changes. Therefore, address translation at the network layer is necessary. However, when such a conversion is performed, it affects the inside and outside of the migration source note and the migration destination node (such as the routing table of the network equipment outside the same network). Continuing to do so has the problem of complicated management.

また、仮想計算機方式では、目的のOSは仮想計算機上で動作するが、仮想計算機ソフトウェアのオーバーヘッドがある。このため、通常の使用時にも仮想計算機ソフトウェアにCPUを消費され、100%の性能を発揮できないという問題点がある。
また、仮想計算機ソフトがサポートしているデバイスしか、仮想計算機上では利用できないという問題点がある。
In the virtual machine method, the target OS operates on the virtual machine, but there is an overhead of virtual machine software. For this reason, there is a problem that the CPU is consumed by the virtual machine software even during normal use, and 100% performance cannot be exhibited.
In addition, there is a problem that only devices supported by the virtual machine software can be used on the virtual machine.

本発明は、このような事情を考慮してなされたものであり、その目的は、移送元ノードの環境を移送先ノードにそのまま引き継ぐことが出来るノード移送装置、ノード代替装置及びそのプログラムを提供することにある。   The present invention has been made in view of such circumstances, and an object of the present invention is to provide a node transfer device, a node replacement device, and a program thereof that can take over the environment of the transfer source node as it is to the transfer destination node. There is.

この発明は上記の課題を解決すべくなされたもので、本発明は、ノード移送装置と、前記ノード移送装置と同一のハードウェア構成を備え、前記ノード移送装置に対して外部の記憶装置に書き出されるノード移送装置のメモリ領域のコピーに基づいて、前記ノード移送装置のプロセスを引き継ぐノード代替装置とから構成されるコンピュータシステムにおけるノード移送装置であって、ノード移送プロセス以外の前記ノード移送装置において実行中のプロセスをすべて停止したサスペンド状態において、前記ノード移送装置上の制御部が、前記ノード移送装置上の主記憶装置上の物理メモリ領域上の移送プロセス以外のプロセス情報を前記ノード移送装置上の補助記憶装置上の仮想メモリ領域にスワップアウトするスワップアウト部と、当該仮想メモリ領域に記憶された情報のみを前記外部の記憶装置に転送する転送部と、を具備することを特徴とする。 The present invention has been made to solve the above-described problems. The present invention comprises a node transport device and the same hardware configuration as the node transport device, and is written to an external storage device for the node transport device. A node transport device in a computer system comprising a node replacement device that takes over the process of the node transport device based on a copy of the memory area of the node transport device to be executed, and executed in the node transport device other than the node transport process In the suspended state in which all processes in the process are suspended , the control unit on the node transfer device sends process information other than the transfer process on the physical memory area on the main storage device on the node transfer device to the node transfer device. a swap out section to swap out to the virtual memory space on the auxiliary storage device, the Only the information stored in the virtual memory area is characterized by comprising a transfer unit for transferring to the external storage device.

また、本発明は、前記スワップアウト部が、前記ノード移送装置上の主記憶装置上の物理メモリ領域にダミーページを確保することにより、前記物理メモリ領域に記憶された情報をすべて前記ノード移送装置上の補助記憶装置上の仮想メモリ領域に強制的にスワップアウトする、ことを特徴とする。 In the present invention, the swap-out unit secures a dummy page in the physical memory area on the main storage device on the node transfer device, so that all the information stored in the physical memory area is stored in the node transfer device. The virtual memory area on the auxiliary storage device is forcibly swapped out.

また、本発明は、前記転送部が、前記ノード移送装置上の補助記憶装置上の仮想メモリ領域に記憶された情報のうち、前記ノード移送装置において実行中のプロセスが使用していない仮想メモリ領域の情報以外の情報を前記外部の記憶装置にすべて転送することを特徴とする。 The present invention, the transfer unit, among the information stored in virtual memory space on the auxiliary storage device on the node transfer device, the virtual memory area process running in said node transfer device is not used All the information other than the above information is transferred to the external storage device.

また、本発明は、ノード移送プロセス以外の前記ノード移送装置において実行中のプロセスをすべて停止したサスペンド状態において、前記スワップアウト部が、前記ノード移送装置上の主記憶装置上の物理メモリ領域に記憶された情報のうち、カーネルに割り当てられたメモリ領域に記憶された情報以外を前記ノード移送装置上の補助記憶装置上の仮想メモリ領域にスワップアウトした後、前記物理メモリ領域にリザーブ領域を割り当て、前記カーネルに割り当てられたメモリ領域に記憶された情報を前記リザーブ領域に書き出して記憶させ、当該リザーブ領域に記憶された情報をすべて前記仮想メモリ領域にスワップアウトした後、前記転送部が、当該仮想メモリ領域に記憶された情報のみを前記外部の記憶装置にすべて転送することを特徴とする。 Further, according to the present invention, in the suspended state in which all processes being executed in the node transfer device other than the node transfer process are suspended, the swap-out unit stores the physical memory area on the main storage device on the node transfer device. After swapping out information other than the information stored in the memory area allocated to the kernel to the virtual memory area on the auxiliary storage device on the node transfer device, the reserved area is allocated to the physical memory area, the information stored in the memory area allocated to the kernel is stored by exporting the reserved area, after all the information stored in the reserved area is swapped out to the virtual memory area, the transfer unit, the virtual that all transfers only the information stored in the memory area in the external storage device And butterflies.

また、本発明は、ノード移送装置と、前記ノード移送装置のプロセスを引き継ぐノード代替装置とから構成されるコンピュータシステムであって、前記ノード移送装置に対して外部の記憶装置を有し、前記ノード代替装置が、前記ノード移送装置と同一のハードウェア構成を備え、前記ノード移送装置が、ノード移送プロセス以外の前記ノード移送装置において実行中のプロセスをすべて停止したサスペンド状態において、前記ノード移送装置上の制御部が、前記ノード移送装置上の主記憶装置上の物理メモリ領域上の移送プロセス以外のプロセス情報を前記ノード移送装置上の補助記憶装置上の仮想メモリ領域にスワップアウトし、当該仮想メモリ領域に記憶された情報のみを前記外部の記憶装置に転送前記ノード代替装置が、ノード移送待機プロセス以外の前記ノード代替装置において実行中のプロセスをすべて停止したサスペンド状態において、前記ノード代替装置上の制御部が、前記ノード移送装置がノード移送プロセス以外の前記ノード移送装置において実行中のプロセスをすべて停止したサスペンド状態において前記外部の記憶装置に書き出した前記ノード移送装置上の主記憶装置上の物理メモリ領域に記憶されたすべての情報を、前記ノード代替装置上の主記憶装置上の物理メモリ領域に書き出すとともに、前記ノード移送装置上の補助記憶装置上の仮想メモリ領域に記憶されたすべての情報を、前記ノード代替装置上の補助記憶装置上の仮想メモリ領域に書き出し、前記物理メモリ領域及び仮想メモリ領域へ書き出したコピーに基づいて、前記ノード移送装置において実行中だったプロセスを復帰することを特徴とする。 The present invention is also a computer system comprising a node transfer device and a node substitution device that takes over the process of the node transfer device, and includes a storage device external to the node transfer device, and the node The alternative device has the same hardware configuration as the node transfer device, and the node transfer device is suspended on the node transfer device in a suspended state in which all processes being executed in the node transfer device other than the node transfer process are stopped. The control unit swaps out process information other than the transfer process on the physical memory area on the main storage device on the node transfer device to the virtual memory area on the auxiliary storage device on the node transfer device, and forwards only the information stored in the area in said external storage device, the node alternative device, the node In the suspend state where the running process was stopped every at said nodes alternative devices other than the standby process feed, control on the node alternative device, said node transfer device is running in the node transfer device other than the node transfer process All the information stored in the physical memory area on the main storage device on the node transfer device written to the external storage device in the suspended state in which all processes are stopped is stored on the main storage device on the node alternative device. Writing to the physical memory area and all the information stored in the virtual memory area on the auxiliary storage device on the node transfer device to the virtual memory area on the auxiliary storage device on the node alternative device, The node transfer device based on the copy written to the area and the virtual memory area Characterized in that it return the process that was being Oite execution.

また、本発明は、ノード移送装置と、前記ノード移送装置と同一のハードウェア構成を備え、前記ノード移送装置に対して外部の記憶装置に書き出されるノード移送装置のメモリ領域のコピーに基づいて、前記ノード移送装置のプロセスを引き継ぐノード代替装置とから構成されるコンピュータシステムにおけるノード移送装置としてのコンピュータに、ノード移送プロセス以外の前記ノード移送装置において実行中のプロセスをすべて停止したサスペンド状態において、前記ノード移送装置上の主記憶装置上の物理メモリ領域上の移送プロセス以外のプロセス情報を前記ノード移送装置上の補助記憶装置上の仮想メモリ領域にスワップアウトするスワップアウト手順と、当該仮想メモリ領域に記憶された情報のみを前記外部の記憶装置に転送する転送手順と、を実行させることを特徴とする Further, the present invention is based on a node transfer device and a copy of a memory area of the node transfer device that has the same hardware configuration as the node transfer device and is written to an external storage device for the node transfer device. the computer as a node transfer device in a computer system composed of a node replacement device take over the process of the node transfer device, in the suspended state of stopping all running processes in the nodes transfer device other than the node transfer process, before Swap-out procedure for swapping out process information other than the transfer process on the physical memory area on the main storage device on the node transfer device to the virtual memory area on the auxiliary storage device on the node transfer device, and the virtual memory area rolling only information stored in the external storage device A transfer procedure which is characterized in that for the execution.

以上説明したように、本発明によれば、ノード移送装置と、ノード移送装置と同一のハードウェア構成を備え、ノード移送装置に対して外部の記憶装置に書き出されるノード移送装置のメモリ領域のコピーに基づいて、ノード移送装置のプロセスを引き継ぐノード代替装置とから構成されるコンピュータシステムにおいて、ノード移送装置が、ノード移送プロセス以外のノード移送装置において実行中のプロセスをすべて停止したサスペンド状態において、ノード移送装置上の主記憶装置上の物理メモリ領域に記憶された情報と、ノード移送装置上の補助記憶装置上の仮想メモリ領域に記憶された情報とを外部の記憶装置にすべて書き出す。
したがって、移送元ノードの環境を外部の記憶装置を介して、移送先ノードにそのまま引き継ぐことが出来る効果が得られる。
As described above, according to the present invention, a node transfer device and a copy of the memory area of the node transfer device that has the same hardware configuration as the node transfer device and is written to an external storage device for the node transfer device. In the computer system composed of the node alternative device that takes over the process of the node transfer device based on the node transfer device, in the suspended state in which all the processes being executed in the node transfer device other than the node transfer process are stopped, the node transfer device All of the information stored in the physical memory area on the main storage device on the transfer device and the information stored in the virtual memory area on the auxiliary storage device on the node transfer device are written out to an external storage device.
Therefore, there is an effect that the environment of the transfer source node can be directly transferred to the transfer destination node via the external storage device.

また、本発明によれば、ノード移送装置と同一のハードウェア構成を備え、ノード移送装置に対して外部の記憶装置に書き出されるノード移送装置のメモリ領域のコピーに基づいて、ノード移送装置のプロセスを引き継ぐノード代替装置が、ノード移送待機プロセス以外のノード代替装置において実行中のプロセスをすべて停止したサスペンド状態において、ノード移送装置がノード移送プロセス以外のノード移送装置において実行中のプロセスをすべて停止したサスペンド状態において外部の記憶装置に書き出したノード移送装置上の主記憶装置上の物理メモリ領域に記憶されたすべての情報を、ノード代替装置上の主記憶装置上の物理メモリ領域に書き出すとともに、ノード移送装置上の補助記憶装置上の仮想メモリ領域に記憶されたすべての情報を、ノード代替装置上の補助記憶装置上の仮想メモリ領域に書き出し、物理メモリ領域及び仮想メモリ領域へ書き出したコピーに基づいて、ノード移送装置において実行中だったプロセスを復帰する。
したがって、移送元ノードの環境を外部の記憶装置を介して、移送先ノードにそのまま引き継ぐことが出来る効果が得られる。
Further, according to the present invention, the process of the node transport device has the same hardware configuration as that of the node transport device, and is based on a copy of the memory area of the node transport device written to the external storage device for the node transport device. In the suspended state where the node replacement device that takes over the process has suspended all processes running on the node replacement device other than the node transport standby process, the node transport device has stopped all processes running on the node transport device other than the node transport process In the suspended state, all information stored in the physical memory area on the main storage device on the node transfer device written to the external storage device is written to the physical memory area on the main storage device on the node alternative device, and the node Stored in the virtual memory area on the auxiliary storage device on the transport device Information of Te and write to a virtual memory space on the auxiliary storage device on node alternative apparatus in accordance with the copy exported to the physical memory area and the virtual memory area, returns the process that was being executed at the node transfer device.
Therefore, there is an effect that the environment of the transfer source node can be directly transferred to the transfer destination node via the external storage device.

以下、本発明を実施するための最良の形態について説明する。
まず本発明の基本的な考え方について説明する。
本発明は、ノートPCなどで行われているハイバネーションをネットワーク経由で行うことで、同一構成の他のノード上でリジュームを行う方式を採用する。
ハイバネ−ションとは、ノードの電源切断オプションの1つであり、ハイバネーションを指示すると、その時点で主記憶装置に記憶されている情報や、各種のハードウェアステータスを補助記憶装置のハイバネーション領域に記録して、電源を落とす。再度電源を投入すると、ハイバネーション領域に記録された情報が主記憶装置に再度書き込まれ、前回にハイバネーションを開始した時点の状態が復帰される。これにより、実行中だったプロセスを復帰する。
すなわち、ハイバネーションはサスペンドとリジュームを同一のノードで行うことを前提としており、物理メモリなどの揮発記憶領域を内蔵ハードディスクのような不揮発の媒体に記録し、またリジューム特にこれを復元する。
一方、本発明は、移送元ノードと別の移送先ノードにおいてノード環境のリジュームを行う。すなわち、揮発性主記憶装置の物理メモリ領域のみならず、補助記憶装置の仮想メモリ領域(スワップ領域)のように、ハイバネーションでは関知しないメモリ領域についても、移送先ノードに転送を行う必要がある。以下、このような考え方に基づいて、本発明の実施形態について説明する。
Hereinafter, the best mode for carrying out the present invention will be described.
First, the basic concept of the present invention will be described.
The present invention employs a method of performing resume on another node having the same configuration by performing hibernation performed in a notebook PC or the like via a network.
Hibernation is one of the node power-off options. When hibernation is instructed, the information stored in the main storage device at that time and various hardware statuses are recorded in the hibernation area of the auxiliary storage device. Then turn off the power. When the power is turned on again, the information recorded in the hibernation area is written again to the main storage device, and the state at the time when hibernation was started last time is restored. As a result, the process that was being executed is restored.
That is, hibernation is based on the premise that suspend and resume are performed at the same node, and a volatile storage area such as a physical memory is recorded on a non-volatile medium such as a built-in hard disk, and resume, especially this is restored.
On the other hand, according to the present invention, the node environment is resumed at a transfer destination node different from the transfer source node. That is, it is necessary to transfer not only the physical memory area of the volatile main storage device but also the memory area not associated with hibernation, such as the virtual memory area (swap area) of the auxiliary storage device, to the transfer destination node. Hereinafter, embodiments of the present invention will be described based on such a concept.

以下、図面を参照して、本発明のノード移送装置とノード代替装置とから構成されるコンピュータシステムの一実施形態について説明する。図1は、本実施形態のノード移送装置1とノード代替装置2から構成されるコンピュータシステムの構成図である。
図1に示すように、本実施形態のコンピュータシステムは、PCクラスタを構成する同一仕様のn台のサービス提供ノードと、サービス提供ノードと同一仕様の代替ノード(ノード代替装置2)とから構成される。移送元ノードとなるノード移送装置1は、通常運用時において、サービス提供ノードとして処理を行い、メンテナンス等のためにサービス提供ノードを停止させる場合、運用停止したサービス提供ノードをノード移送装置1とする。
そして、ノード移送装置1のノード環境をノード代替装置2に移送して、ノード移送装置1を停止する。その場合、ノード移送装置1で動作していたプロセスやセッションはそのままノード代替装置2に引き継がれる。さらにノード代替装置2から、このPCクラスタ内の別のサービス提供ノードに再移送する場合もある。
Hereinafter, an embodiment of a computer system including a node transfer device and a node substitution device according to the present invention will be described with reference to the drawings. FIG. 1 is a configuration diagram of a computer system including a node transfer device 1 and a node substitution device 2 according to this embodiment.
As shown in FIG. 1, the computer system of this embodiment is composed of n service providing nodes having the same specifications constituting a PC cluster, and an alternative node (node alternative device 2) having the same specifications as the service providing nodes. The The node transport apparatus 1 serving as a transport source node performs processing as a service providing node during normal operation, and when the service providing node is stopped for maintenance or the like, the service providing node whose operation has been stopped is used as the node transport apparatus 1. .
Then, the node environment of the node transfer device 1 is transferred to the node alternative device 2 and the node transfer device 1 is stopped. In that case, the process or session that was operating in the node transfer apparatus 1 is directly taken over by the node substitution apparatus 2. Furthermore, the node replacement device 2 may be re-transferred to another service providing node in the PC cluster.

すなわち、ノード移送装置1は、処理の引継ぎに必要なノード資源として、主記憶装置の物理メモリ領域に記憶された情報(CPUコンテキストを含む)と、補助記憶装置の仮想メモリ領域(スワップ領域)に記憶された情報と、ファイルシステムとをノード移送装置1と異なる外部記憶装置3にすべて書き出す。
また、ノード代替装置2は、上述したようにノード移送装置1と同一のハードウェア構成を備え、外部記憶装置3に書き出されるノード移送装置1のメモリ領域のコピーに基づいて、ノード移送装置1のプロセスを引き継ぐ。
That is, the node transport apparatus 1 stores information (including the CPU context) stored in the physical memory area of the main storage device and the virtual memory area (swap area) of the auxiliary storage device as node resources necessary for taking over the processing. The stored information and the file system are all written out to the external storage device 3 different from the node transfer device 1.
Further, the node alternative device 2 has the same hardware configuration as the node transfer device 1 as described above, and based on the copy of the memory area of the node transfer device 1 written to the external storage device 3, Take over the process.

図2は、本実施形態のノード移送装置1、ノード代替装置2の構成を示すブロック図である。図2に示すように、ノード移送装置1は、制御部11と、主記憶装置12と、補助記憶装置13と、ネットワークインターフェイス部14とから構成され、ノード代替装置2は、制御部21と、主記憶装置22と、補助記憶装置23と、ネットワークインターフェイス部24とから構成される。
制御部11は、主記憶装置12、補助記憶装置13、ネットワークインターフェイス部14におけるデータ入出力を制御するCPU等で構成され、ノード移送プロセス以外のノード移送装置1において実行中のプロセスをすべて停止したサスペンド状態において、ノード資源として、主記憶装置の物理メモリ領域に記憶された情報(CPUコンテキストを含む)と、補助記憶装置の仮想メモリ領域(スワップ領域)に記憶された情報と、ファイルシステムとをノード移送装置1と異なる外部記憶装置3に移送する処理を行う。
FIG. 2 is a block diagram illustrating the configuration of the node transfer device 1 and the node substitution device 2 according to the present embodiment. As shown in FIG. 2, the node transfer device 1 includes a control unit 11, a main storage device 12, an auxiliary storage device 13, and a network interface unit 14, and the node alternative device 2 includes a control unit 21, The main storage device 22, the auxiliary storage device 23, and the network interface unit 24 are included.
The control unit 11 includes a CPU that controls data input / output in the main storage device 12, the auxiliary storage device 13, and the network interface unit 14, and stops all processes being executed in the node transfer device 1 other than the node transfer process. In the suspended state, as node resources, information (including the CPU context) stored in the physical memory area of the main storage device, information stored in the virtual memory area (swap area) of the auxiliary storage device, and the file system A process of transferring to an external storage device 3 different from the node transfer device 1 is performed.

このとき、補助記憶装置13の仮想メモリ領域に記憶された情報のうち、ノード移送装置1において実行中のプロセスが使用していない仮想メモリ領域の情報以外の情報を外部記憶装置3にすべて書き出すことも考えられる。
また他の実施形態としては、ノード移送プロセス以外のノード移送装置1において実行中のプロセスをすべて停止したサスペンド状態において、主記憶装置12の物理メモリ領域に記憶された情報をすべて補助記憶装置13の仮想メモリ領域に書き出した後、当該仮想メモリ領域に記憶された情報を外部記憶装置3に書き出すことも考えられる。
さらに、他の実施形態としては、ノード移送プロセス以外のノード移送装置1において実行中のプロセスをすべて停止したサスペンド状態において、主記憶装置12の物理メモリ領域に記憶された情報のうち、カーネル(OS)に割り当てられたメモリ領域に記憶された情報以外を補助記憶装置13の仮想メモリ領域に書き出した後、物理メモリ領域にリザーブ領域を割り当て、カーネルに割り当てられたメモリ領域に記憶された情報をリザーブ領域に書き出し、当該リザーブ領域に記憶された情報をすべて仮想メモリ領域に書き出した後、当該仮想メモリ領域に記憶された情報を外部記憶装置3に書き出すようにすることも考えられる。
At this time, all of the information stored in the virtual memory area of the auxiliary storage device 13 is written to the external storage device 3 except for the virtual memory area information not used by the process being executed in the node transfer device 1. Is also possible.
In another embodiment, all information stored in the physical memory area of the main storage device 12 is stored in the auxiliary storage device 13 in the suspended state in which all processes being executed in the node transfer device 1 other than the node transfer process are stopped. It is also conceivable to write the information stored in the virtual memory area to the external storage device 3 after writing to the virtual memory area.
Furthermore, as another embodiment, the kernel (OS) of the information stored in the physical memory area of the main storage device 12 in the suspended state in which all processes being executed in the node transfer device 1 other than the node transfer process are stopped. The information other than the information stored in the memory area allocated to) is written to the virtual memory area of the auxiliary storage device 13, the reserved area is allocated to the physical memory area, and the information stored in the memory area allocated to the kernel is reserved. It is also conceivable that the information stored in the virtual memory area is written to the external storage device 3 after all the information stored in the reserved area is written in the virtual memory area.

主記憶装置12は、RAM等の揮発性記憶装置で構成され、物理メモリ領域にリソースID(プロセス識別子やポート番号等)やIPアドレス等のアプリケーションプロセスの引継ぎに必要な情報を記憶する。
補助記憶装置13は、主記憶装置12の物理メモリ領域を補完するための仮想メモリ領域(スワップ領域)を有するローカルストレージであり、ページング方式やセグメント方式によりスワップ領域を管理する。通常時において、スワップ領域はOSに管理され、実行中のプロセスが使用中のページと、使用中でないページとをページ管理情報として記録している。
ネットワークインターフェイス部14は、LAN等のネットワークとのデータ入出力を管理し、ファイルサーバ等で構成される外部記憶装置3と接続される。
The main storage device 12 is configured by a volatile storage device such as a RAM, and stores information necessary for taking over an application process such as a resource ID (process identifier, port number, etc.) and an IP address in a physical memory area.
The auxiliary storage device 13 is a local storage having a virtual memory area (swap area) for complementing the physical memory area of the main storage device 12, and manages the swap area by a paging method or a segment method. In a normal time, the swap area is managed by the OS, and a page being used by a running process and a page not being used are recorded as page management information.
The network interface unit 14 manages data input / output with a network such as a LAN, and is connected to the external storage device 3 configured by a file server or the like.

制御部21は、制御部11と同様に、主記憶装置22、補助記憶装置23、ネットワークインターフェイス部24におけるデータ入出力を制御するCPU等で構成され、ノード移送待機プロセス以外のノード代替装置2において実行中のプロセスをすべて停止したサスペンド状態において、ノード移送装置1がノード移送プロセス以外のノード移送装置1において実行中のプロセスをすべて停止したサスペンド状態において外部記憶装置3に書き出した主記憶装置12の物理メモリ領域に記憶されたすべての情報を、主記憶装置22の物理メモリ領域に書き出すとともに、補助記憶装置13の仮想メモリ領域に記憶されたすべての情報を、補助記憶装置23の仮想メモリ領域に書き出し、物理メモリ領域及び仮想メモリ領域へ書き出したコピーに基づいて、ノード移送装置1において実行中だったプロセスを復帰する処理を行う。   Similar to the control unit 11, the control unit 21 includes a main storage device 22, an auxiliary storage device 23, a CPU that controls data input / output in the network interface unit 24, and the like in the node substitution device 2 other than the node transfer standby process. In the suspended state in which all processes being executed are stopped, the node transfer device 1 writes the data to the external storage device 12 in the suspended state in which all processes being executed in the node transfer device 1 other than the node transfer process are stopped. All the information stored in the physical memory area is written to the physical memory area of the main storage device 22 and all the information stored in the virtual memory area of the auxiliary storage device 13 is written to the virtual memory area of the auxiliary storage device 23. Copy and export to physical memory area and virtual memory area Based on, it performs a process of returning the process that was being executed at the node transport device 1.

主記憶装置22は、主記憶装置12と同様に、RAM等の揮発性記憶装置で構成され、物理メモリ領域に、主記憶装置12の物理メモリ領域に記憶されたすべての情報(リソースID(プロセス識別子やポート番号等)やIPアドレス等のアプリケーションプロセスの引継ぎに必要な情報)が書き出される。
補助記憶装置23は、補助記憶装置13と同様に、主記憶装置12の物理メモリ領域を補完するための仮想メモリ領域(スワップ領域)を有するローカルストレージである。
ネットワークインターフェイス部24は、ネットワークインターフェイス部14と同様に、LAN等のネットワークとのデータ入出力を管理し、外部記憶装置3を介して、ノード移送装置1と接続される。
The main storage device 22 is composed of a volatile storage device such as a RAM, like the main storage device 12, and all information (resource ID (process ID) stored in the physical memory region of the main storage device 12 is stored in the physical memory region. Information necessary for taking over the application process, such as an identifier and a port number) and an IP address.
Similar to the auxiliary storage device 13, the auxiliary storage device 23 is a local storage having a virtual memory area (swap area) for complementing the physical memory area of the main storage device 12.
Similar to the network interface unit 14, the network interface unit 24 manages data input / output with a network such as a LAN, and is connected to the node transfer device 1 via the external storage device 3.

次に、図面を参照して、本実施形態のノード移送装置1及びノード代替装置2の動作について説明する。図3、図4は、本実施形態のノード移送装置1とノード代替装置2との間におけるノード移送処理の概略図、シーケンス図である。
まず起動時において、ノード移送装置1は外部記憶装置3と接続して、予め記憶されたカーネルイメージを読み込んで、通常運用を開始する。
図3、4に示すように、通常運用時において(図4のステップS1)、サスペンドを開始すると(ステップS2)、ノード移送装置1は、物理メモリ領域において、実行中のプロセスが必要とするページをスワップインし、不必要なページをスワップアウトしながら処理を行う。具体的には、制御部11は、サスペンド指示によって、プロセスをフリーズさせ(ステップS3)、フリーズさせたプロセスのプロセスコンテクストを補助記憶装置13のスワップ領域に書き込む(ステップS4)。次に、制御部11は、物理メモリ領域の情報を補助記憶装置13のスワップ領域に強制スワップアウトし、外部記憶装置3と接続して(ステップS5)、スワップ領域のサスペンドイメージを外部記憶装置3に転送する(ステップS6)。
Next, operations of the node transfer device 1 and the node substitution device 2 according to the present embodiment will be described with reference to the drawings. 3 and 4 are a schematic diagram and a sequence diagram of the node transfer processing between the node transfer device 1 and the node alternative device 2 according to the present embodiment.
First, at startup, the node transfer device 1 connects to the external storage device 3, reads a kernel image stored in advance, and starts normal operation.
As shown in FIGS. 3 and 4, during normal operation (step S1 in FIG. 4), when suspend is started (step S2), the node transport apparatus 1 uses the page required by the process being executed in the physical memory area. To swap in and swap out unnecessary pages. Specifically, in response to the suspend instruction, the control unit 11 freezes the process (step S3), and writes the process context of the frozen process in the swap area of the auxiliary storage device 13 (step S4). Next, the control unit 11 forcibly swaps out the information in the physical memory area to the swap area of the auxiliary storage device 13 and connects the information to the external storage device 3 (step S5). (Step S6).

以下、まず物理メモリ領域の転送処理について詳述する。
クラスタPCにおいて、スワップ領域の使用量がゼロになることは希である。また、物理メモリ領域の使用量とスワップ領域の使用量を合計したものが、物理メモリ領域のメモリ容量を上回ることも多い。さらに、スワップ領域は物理メモリの延長として利用するようにOSのメモリ管理機構が構成されているため、スワップ領域と物理メモリの親和性は高い。
以上より、ノード移送装置1から外部記憶装置3に物理メモリ領域の内容を直接転送するのではなく、物理メモリ領域に記憶された情報をすべて一旦スワップ領域へスワップアウトした後、このスワップ領域全体をまとめて転送する。
The physical memory area transfer process will be described in detail below.
In the cluster PC, it is rare that the usage amount of the swap area becomes zero. Also, the sum of the physical memory area usage and the swap area usage often exceeds the memory capacity of the physical memory area. Furthermore, since the memory management mechanism of the OS is configured to use the swap area as an extension of the physical memory, the affinity between the swap area and the physical memory is high.
As described above, instead of directly transferring the contents of the physical memory area from the node transfer device 1 to the external storage device 3, all the information stored in the physical memory area is once swapped out to the swap area, and then the entire swap area is Transfer all at once.

物理メモリを一旦スワップ領域にすべて書き出す方式は、以下のように行う。
すなわち、制御部11は、まず他の全プロセスを、サスペンド処理プロセス以外のプロセスが動作しない特殊な停止状態に置く(プロセスのフリーズ)。
次に、制御部11は、物理メモリ上にダミーページを可能な限り確保する。
そうすると、OSのメモリ管理機構により、制御部11は、従来のプロセスが使用していた主記憶装置12上のメモリページを補助記憶装置13上のローカルのスワップ領域にスワップアウトする(図5の(a)を参照)。
しかし、ここで、カーネルが占めているメモリ空間やIO用のバッファなど、スワップアウト不可能なページは、そのままメモリ内に残る。本明細書ではこれをリサーブドページと呼ぶ。
そこで、リサーブドページについて、制御部11は、リザーブページと同容量だけのスワップアウト用ページバッファを確保し、各々のページをページバッファにコピーする(図5の(b)を参照)。ページバッファの各ページは、リザーブドページではないので、ページバッファはすべてスワップアウトされる(図5の(c)を参照)。
以上により、物理メモリ領域に記憶された情報(メモリイメージ)がすべてスワップ領域に転送される。
The method of writing all physical memory in the swap area once is performed as follows.
That is, the control unit 11 first places all other processes in a special stop state in which processes other than the suspend process do not operate (process freeze).
Next, the control unit 11 secures dummy pages as much as possible on the physical memory.
Then, by the OS memory management mechanism, the control unit 11 swaps out the memory page on the main storage device 12 used by the conventional process to the local swap area on the auxiliary storage device 13 ((( see a)).
However, pages that cannot be swapped out, such as the memory space occupied by the kernel and the buffer for IO, remain in the memory. In this specification, this is called a reserved page.
Therefore, for the reserved page, the control unit 11 secures a swap-out page buffer having the same capacity as the reserved page, and copies each page to the page buffer (see FIG. 5B). Since each page of the page buffer is not a reserved page, all the page buffers are swapped out (see FIG. 5C).
As described above, all the information (memory image) stored in the physical memory area is transferred to the swap area.

次にスワップ領域の転送処理について説明する。
一般にスワップ領域のすべてのページ領域を使い切ることは稀である。これは、スワップ領域があくまで物理メモリ領域の不足を補う補助的な機構であり、スワップ領域に完全に依存したシステム構成を取るとパフォーマンスが著しく悪化するという問題があるためである。したがって、ノード移送装置1は、スワップ領域の使用中のページのみを転送する。
Next, swap area transfer processing will be described.
In general, it is rare to use up all the page area of the swap area. This is because the swap area is an auxiliary mechanism that compensates for the shortage of the physical memory area, and there is a problem that the performance is remarkably deteriorated when a system configuration completely dependent on the swap area is adopted. Therefore, the node transport apparatus 1 transfers only the pages in use in the swap area.

具体的には、ノード移送装置1上のOSにノード移送機能を組み込むことで、制御部11は、カーネルプロセスが管理しているスワップ領域のページ管理データを読み込んで、スワップ領域の各ページの使用状況を把握する。
そして、制御部11は、スワップ領域の各ページの使用状況に基づいて、実行中のプロセスが使用しているページのみを選択し、ネットワークインターフェイス14を介して、外部記憶装置3に転送する。このとき、制御部11は、選択したページの転送記録をマッピングしておき、同様に、外部記憶装置3に転送する。
以上により、制御部11は、スワップ領域のサスペンドイメージを外部記憶装置3に転送する。そして、転送処理完了後、制御部11は、外部記憶装置3との接続を切断してシャットダウンする(ステップS7、S8)。
Specifically, by incorporating the node transfer function into the OS on the node transfer apparatus 1, the control unit 11 reads the page management data of the swap area managed by the kernel process and uses each page of the swap area. Know the situation.
Then, the control unit 11 selects only the page used by the process being executed based on the usage status of each page in the swap area, and transfers it to the external storage device 3 via the network interface 14. At this time, the control unit 11 maps the transfer record of the selected page and similarly transfers it to the external storage device 3.
As described above, the control unit 11 transfers the suspend image of the swap area to the external storage device 3. Then, after the transfer process is completed, the control unit 11 disconnects from the external storage device 3 and shuts down (steps S7 and S8).

ノード代替装置2はノード移送装置1と同様に、起動時において外部記憶装置3と接続して、予め記憶されたカーネルイメージを読み込む(ステップS10、S11)。次に、ノード代替装置2は、外部記憶装置3に記憶されたノード移送装置1のスワップ領域のサスペンドイメージを読み込んで外部記憶装置3との接続を切断する。
そして、ノード代替装置2は、リジューム処理を開始し、ノード移送装置1でフリーズさせたプロセスを復帰させる。
具体的には、制御部21は、ハイバネーション領域に記録された情報と同様に、サスペンドイメージを主記憶装置22に読み込んで、前回にハイバネーションを開始した時点と同様に、ノード移送装置1でフリーズさせたプロセスの状態を復帰させる。これにより、実行中だったプロセスを復帰する。
Similar to the node transfer device 1, the node substitution device 2 is connected to the external storage device 3 at the time of activation, and reads a kernel image stored in advance (steps S10 and S11). Next, the node substitution device 2 reads the suspend image of the swap area of the node transfer device 1 stored in the external storage device 3 and disconnects from the external storage device 3.
Then, the node substitution device 2 starts the resume process and restores the process frozen by the node transfer device 1.
Specifically, like the information recorded in the hibernation area, the control unit 21 reads the suspend image into the main storage device 22 and causes the node transfer device 1 to freeze the same as when the hibernation was started last time. Restores the state of the active process. As a result, the process that was being executed is restored.

以上説明したように、本実施形態のノード移送装置1及びノード代替装置2によれば、ノード移送装置1において、その環境(物理メモリやローカルのファイルシステム)を凍結し、凍結したノード環境をネットワーク経由でノード代替装置2に転送する。そして、ノード代替装置2において、凍結した環境を解凍する。
したがって、ノード移送装置1におけるノード環境をノード代替装置2に移送することが出来る効果が得られる。より具体的には、本実施形態のノード移送装置1及びノード代替装置2によれば、アプリケーションを実行させているOSの環境を含めて、ノード移送装置1の環境をノード代替装置2に移行する。また移行前に走行していたプロセスは一切終了することなく、移行先の計算機に引き継がれる。また、移行前、移行後は、OSがネイティブ環境で動作する。
すなわち、同一のノードにおいて、OSやプロセスを終了しないでノードの電源断を行う機能(ハイバネーション)とは、復帰する同一ノードではなく、異なるノードであるところが特徴的である。
As described above, according to the node transfer apparatus 1 and the node alternative apparatus 2 of the present embodiment, the node transfer apparatus 1 freezes its environment (physical memory or local file system), and the frozen node environment is networked. To the node alternative device 2 via Then, in the node substitution device 2, the frozen environment is thawed.
Therefore, the effect that the node environment in the node transfer device 1 can be transferred to the node alternative device 2 is obtained. More specifically, according to the node transfer device 1 and the node alternative device 2 of the present embodiment, the environment of the node transfer device 1 is migrated to the node alternative device 2 including the environment of the OS executing the application. . In addition, the process that was running before the transfer is not terminated at all, but is transferred to the transfer destination computer. In addition, before and after the migration, the OS operates in the native environment.
In other words, the function (hibernation) of turning off the power of a node without ending the OS or process in the same node is characterized in that it is not the same node to be restored but a different node.

すなわち、本実施形態のノード移送装置1及びノード代替装置2によれば、PCクラスタ環境において、全体のサービスを停止することなく、特定のノードをハードメンテナンスするために、当該ノード上で実行している処理を、他の予備系のノードに移行させることにより、全体としてのサービスを継続する。これにより、移行の際に実行されていたプロセスの内部状態は保持されるため、ロールフォワード方式のアプリケーションの用途が限定されるという問題が解決でき、完全に透過的な移行が実現できる効果が得られる。
また、移行時のアドレス変換も発生しないため、外部ネットワークへの影響を最小限に抑えることが出来る効果が得られる。
また、仮想計算機方式のようにCPUパワーを他のOSによって消費されてしまうことはないため、通常動作時はCPUの性能をすべて利用することができるので、処理能力の低下を防止することが出来る効果が得られる。
また、移送元ノードが移送先の代替ノードを特定する必要がないため、代替ノードの管理を外部で行う場合、ノード移送管理を簡略化することができる効果が得られる。
That is, according to the node transport apparatus 1 and the node alternative apparatus 2 of the present embodiment, in the PC cluster environment, in order to perform hard maintenance on a specific node without stopping the entire service, it is executed on the node. The entire service is continued by transferring the existing process to another standby node. As a result, the internal state of the process that was being executed at the time of migration is retained, so that the problem of limited use of roll-forward applications can be solved, and the effect of realizing a completely transparent migration is obtained. It is done.
In addition, since the address translation at the time of migration does not occur, the effect of minimizing the influence on the external network can be obtained.
In addition, since the CPU power is not consumed by another OS unlike the virtual machine method, the CPU performance can be fully utilized during normal operation, so that it is possible to prevent a reduction in processing capacity. An effect is obtained.
In addition, since it is not necessary for the transfer source node to specify an alternative node as a transfer destination, when the alternative node is managed externally, an effect of simplifying the node transfer management can be obtained.

なお、上記実施形態においては、外部記憶装置3を介して、ノード移送装置1のスワップ領域のサスペンドイメージをノード代替装置2から読み込む場合の例を示したが、本発明はこれに限られるものではなく、外部記憶装置3を介さずに直接サスペンドイメージを転送するようにしてもよい。具体的には、図6に示すように、ノード代替装置2を移送待機状態(アイドル状態)にしておいて、ノード移送装置1でフリーズさせたプロセスをスワップ領域に書き込んだ後、これを転送し、転送されたサスペンドイメージを読み込んでリジュームする。
このように構成することで、外部記憶装置3を介さずに、ノード移送装置1からノード代替装置2へノード環境を移行することが出来る。したがって、外部記憶装置3のハードウェアコストが削減できる効果が得られる。
In the above embodiment, an example in which the suspend image of the swap area of the node transfer device 1 is read from the node alternative device 2 via the external storage device 3 has been described, but the present invention is not limited to this. Alternatively, the suspend image may be directly transferred without going through the external storage device 3. Specifically, as shown in FIG. 6, the node alternative device 2 is set in the transfer standby state (idle state), and the process frozen by the node transfer device 1 is written in the swap area and then transferred. , Read the transferred suspend image and resume.
With this configuration, the node environment can be migrated from the node transfer device 1 to the node alternative device 2 without using the external storage device 3. Therefore, an effect that the hardware cost of the external storage device 3 can be reduced is obtained.

なお、上記実施形態においては、ノード資源の具体例については、特に限定しなかったが、例えば図7に示すように、ノード資源の階層構成を定義した場合、アプリケーションレベルのノード環境とともに、OSレベルのノード環境をすべて移行すると換言することが出来る。
参考として、図8にロールフォワード方式、図9に分散OS型、図10に仮想計算機型によるノード資源の階層構成図を示す。
既に述べたように、ロールフォワード方式では、移行元ノードで実行されていたアプリケーションを移行先ノードで新規に立ち上げて、スナップショットを利用して、当該アプリケーションの状態を移送元ノードと同じ状態に再実行するのに対して、本実施形態のノード移送装置1及びノード代替装置2では、OSレベルのノード環境も移行している。
また、分散OS型では、ノード間でOSが分散メモリを管理しながら、連携して動作するのに対して、本実施形態のノード移送装置1及びノード代替装置2では、分散メモリを用いない。
また、仮想計算機型では、仮想計算機エミュレータを用いるのに対して、本実施形態のノード移送装置1及びノード代替装置2では、仮想計算機エミュレータを用いない。
In the above embodiment, the specific example of the node resource is not particularly limited. However, for example, as shown in FIG. 7, when the hierarchical configuration of the node resource is defined, together with the node environment at the application level, the OS level In other words, all node environments can be migrated.
For reference, FIG. 8 shows a node resource hierarchical configuration diagram based on the roll forward method, FIG. 9 a distributed OS type, and FIG. 10 a virtual computer type.
As already mentioned, in the roll-forward method, the application that was executed on the migration source node is newly started on the migration destination node, and the status of the application is made the same as that of the transfer source node using the snapshot. In contrast to the re-execution, in the node transfer device 1 and the node alternative device 2 of the present embodiment, the OS level node environment is also migrated.
Further, in the distributed OS type, the OS operates in cooperation while managing the distributed memory between the nodes, whereas the node transfer device 1 and the node alternative device 2 of the present embodiment do not use the distributed memory.
In the virtual machine type, a virtual machine emulator is used, whereas in the node transfer device 1 and the node alternative device 2 of this embodiment, a virtual computer emulator is not used.

また、上記実施形態においては、補助記憶装置13のローカルファイルシステムを補助記憶装置23にマウントする方法について、特に限定しなかったが、例えば、上述した主記憶12の物理メモリ領域や補助記憶装置13のスワップ領域を外部記憶装置3に転送する場合と同様に、補助記憶装置13のローカルファイルシステムを一旦、外部記憶装置3に書き出して、リジューム時に、補助記憶装置23で読み込む構成とすることが考えられる。また、他の実施形態として、ノード移送装置1とノード代替装置2に共通のローカルファイルシステムを予め外部記憶装置3に書き込んでおき、同様に、リジューム時に、補助記憶装置23で読み込む構成とするようにしてもよい。   In the above embodiment, the method for mounting the local file system of the auxiliary storage device 13 on the auxiliary storage device 23 is not particularly limited. For example, the physical memory area of the main memory 12 or the auxiliary storage device 13 described above is used. As in the case of transferring the swap area to the external storage device 3, the local file system of the auxiliary storage device 13 is once written to the external storage device 3 and read by the auxiliary storage device 23 at the time of resume. It is done. As another embodiment, a local file system common to the node transfer device 1 and the node alternative device 2 is written in the external storage device 3 in advance, and similarly, the auxiliary storage device 23 reads the local file system when resuming. It may be.

上述したノード移送処理、ノード代替処理に関する一連の処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。
すなわち、ノード移送装置1及びノード代替装置2における、各処理手段、処理部は、CPU等の中央演算処理装置がROMやRAM等の主記憶装置に上記プログラムを読み出して、情報の加工・演算処理を実行することにより、実現されるものである。
ここでコンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
A series of processes related to the node transfer process and the node substitution process described above are stored in a computer-readable recording medium in the form of a program, and the above process is performed by the computer reading and executing this program. .
That is, each processing means and processing unit in the node transfer device 1 and the node substitution device 2 is a central processing unit such as a CPU that reads the above program into a main storage device such as a ROM or a RAM, and processes and calculates information. This is realized by executing.
Here, the computer-readable recording medium means a magnetic disk, a magneto-optical disk, a CD-ROM, a DVD-ROM, a semiconductor memory, or the like. Alternatively, the computer program may be distributed to the computer via a communication line, and the computer that has received the distribution may execute the program.

本実施形態のノード移送装置1とノード代替装置2から構成されるコンピュータシステムの構成図。The block diagram of the computer system comprised from the node transfer apparatus 1 and the node alternative apparatus 2 of this embodiment. 本実施形態のノード移送装置1、ノード代替装置2の構成を示すブロック図。The block diagram which shows the structure of the node transfer apparatus 1 of this embodiment, and the node alternative apparatus 2. FIG. 本実施形態のノード移送装置1とノード代替装置2との間におけるノード移送処理の概略図。Schematic of the node transfer process between the node transfer apparatus 1 and the node alternative apparatus 2 of this embodiment. 本実施形態のノード移送装置1とノード代替装置2との間におけるノード移送処理のシーケンス図。The sequence diagram of the node transfer process between the node transfer apparatus 1 and the node alternative apparatus 2 of this embodiment. 物理メモリ領域からスワップ領域にスワップアウトする様子を示す説明図。Explanatory drawing which shows a mode that it swaps out from a physical memory area | region to a swap area | region. 本実施形態のノード移送装置1とノード代替装置2との間で直接スワップ領域のサスペンドイメージを転送する様子を示すシーケンス図。The sequence diagram which shows a mode that the suspend image of a swap area | region is directly transferred between the node transfer apparatus 1 of this embodiment, and the node alternative apparatus 2. FIG. 本実施形態のノード移送装置1及びノード代替装置2の階層構成図。The hierarchical block diagram of the node transfer apparatus 1 and the node alternative apparatus 2 of this embodiment. ロールフォワード方式のノード資源の階層構成図。FIG. 4 is a hierarchical configuration diagram of roll-forward node resources. 分散OS型のノード資源の階層構成図。FIG. 2 is a hierarchical configuration diagram of a distributed OS type node resource. 仮想計算機型のノード資源の階層構成図。FIG. 2 is a hierarchical configuration diagram of virtual machine type node resources.

符号の説明Explanation of symbols

1…ノード移送装置
2…ノード代替装置
3…外部記憶装置
11、21…制御部
12、22…主記憶装置
13、23…補助記憶装置
14、24…ネットワークインターフェイス部

DESCRIPTION OF SYMBOLS 1 ... Node transfer apparatus 2 ... Node alternative device 3 ... External storage device 11, 21 ... Control part 12, 22 ... Main storage device 13, 23 ... Auxiliary storage device 14, 24 ... Network interface part

Claims (6)

ノード移送装置と、前記ノード移送装置と同一のハードウェア構成を備え、前記ノード移送装置に対して外部の記憶装置に書き出されるノード移送装置のメモリ領域のコピーに基づいて、前記ノード移送装置のプロセスを引き継ぐノード代替装置とから構成されるコンピュータシステムにおけるノード移送装置であって、
ノード移送プロセス以外の前記ノード移送装置において実行中のプロセスをすべて停止したサスペンド状態において、
前記ノード移送装置上の制御部が、
前記ノード移送装置上の主記憶装置上の物理メモリ領域上の移送プロセス以外のプロセス情報を前記ノード移送装置上の補助記憶装置上の仮想メモリ領域にスワップアウトするスワップアウト部と、
当該仮想メモリ領域に記憶された情報のみを前記外部の記憶装置に転送する転送部と、
を具備することを特徴とするノード移送装置。
A node transport device having the same hardware configuration as the node transport device, and a process of the node transport device based on a copy of a memory area of the node transport device written to a storage device external to the node transport device A node transfer device in a computer system comprising a node alternative device that takes over
In a suspended state in which all processes being executed in the node transport device other than the node transport process are stopped,
The control unit on the node transfer device is
A swap-out unit for swapping out process information other than a transfer process on a physical memory area on a main storage device on the node transfer device to a virtual memory area on an auxiliary storage device on the node transfer device;
A transfer unit that transfers only the information stored in the virtual memory area to the external storage device;
A node transfer apparatus comprising:
前記スワップアウト部が、  The swap-out unit is
前記ノード移送装置上の主記憶装置上の物理メモリ領域にダミーページを確保することにより、前記物理メモリ領域に記憶された情報をすべて前記ノード移送装置上の補助記憶装置上の仮想メモリ領域に強制的にスワップアウトする、  All the information stored in the physical memory area is forced to the virtual memory area on the auxiliary storage device on the node transfer device by securing a dummy page in the physical memory region on the main storage device on the node transfer device Swap out,
ことを特徴とする請求項1に記載のノード移送装置。  The node transfer apparatus according to claim 1.
前記転送部が、
前記ノード移送装置上の補助記憶装置上の仮想メモリ領域に記憶された情報のうち、
前記ノード移送装置において実行中のプロセスが使用していない仮想メモリ領域の情報以外の情報を前記外部の記憶装置にすべて転送する
ことを特徴とする請求項1または請求項2に記載のノード移送装置。
The transfer unit is
Of the information stored in the virtual memory area on the auxiliary storage device on the node transfer device,
Node transfer device according to claim 1 or claim 2, characterized in that all transfer information other than the information of the virtual memory area running process is not used in the node transfer device to said external storage device .
ノード移送プロセス以外の前記ノード移送装置において実行中のプロセスをすべて停止したサスペンド状態において、
前記スワップアウト部が、
前記ノード移送装置上の主記憶装置上の物理メモリ領域に記憶された情報のうち、カーネルに割り当てられたメモリ領域に記憶された情報以外を前記ノード移送装置上の補助記憶装置上の仮想メモリ領域にスワップアウトした後、
前記物理メモリ領域にリザーブ領域を割り当て、
前記カーネルに割り当てられたメモリ領域に記憶された情報を前記リザーブ領域に書き出して記憶させ、当該リザーブ領域に記憶された情報をすべて前記仮想メモリ領域にスワップアウトした後、
前記転送部が、
当該仮想メモリ領域に記憶された情報のみを前記外部の記憶装置にすべて転送する
ことを特徴とする請求項1から請求項3のいずれかに記載のノード移送装置。
In a suspended state in which all processes being executed in the node transport device other than the node transport process are stopped,
The swap-out unit is
Among the information stored in the physical memory area on the main storage device on the node transfer device, the virtual memory area on the auxiliary storage device on the node transfer device other than the information stored in the memory area assigned to the kernel After swapping out
A reserve area is allocated to the physical memory area;
The information stored in the memory area allocated to the kernel is stored by exporting the reserved area, after swapping out all the information stored in the reserved area in the virtual memory area,
The transfer unit is
The node transfer device according to any one of claims 1 to 3, wherein only the information stored in the virtual memory area is transferred to the external storage device.
ノード移送装置と、前記ノード移送装置のプロセスを引き継ぐノード代替装置とから構成されるコンピュータシステムであって、
前記ノード移送装置に対して外部の記憶装置を有し、
前記ノード代替装置が、
前記ノード移送装置と同一のハードウェア構成を備え、
前記ノード移送装置が、
ノード移送プロセス以外の前記ノード移送装置において実行中のプロセスをすべて停止したサスペンド状態において、
前記ノード移送装置上の制御部が、
前記ノード移送装置上の主記憶装置上の物理メモリ領域上の移送プロセス以外のプロセス情報を前記ノード移送装置上の補助記憶装置上の仮想メモリ領域にスワップアウトし、
当該仮想メモリ領域に記憶された情報のみを前記外部の記憶装置に転送
前記ノード代替装置が、
ノード移送待機プロセス以外の前記ノード代替装置において実行中のプロセスをすべて停止したサスペンド状態において、
前記ノード代替装置上の制御部が、
前記ノード移送装置がノード移送プロセス以外の前記ノード移送装置において実行中のプロセスをすべて停止したサスペンド状態において前記外部の記憶装置に書き出した前記ノード移送装置上の主記憶装置上の物理メモリ領域に記憶されたすべての情報を、前記ノード代替装置上の主記憶装置上の物理メモリ領域に書き出すとともに、
前記ノード移送装置上の補助記憶装置上の仮想メモリ領域に記憶されたすべての情報を、前記ノード代替装置上の補助記憶装置上の仮想メモリ領域に書き出し、
前記物理メモリ領域及び仮想メモリ領域へ書き出したコピーに基づいて、前記ノード移送装置において実行中だったプロセスを復帰する
ことを特徴とするコンピュータシステム。
A computer system comprising a node transport device and a node alternative device that takes over the process of the node transport device,
An external storage device for the node transport device;
The node alternative device is
The same hardware configuration as the node transport device,
The node transport device is
In a suspended state in which all processes being executed in the node transport device other than the node transport process are stopped,
The control unit on the node transfer device is
Swapping out process information other than the transfer process on the physical memory area on the main storage device on the node transfer device to the virtual memory area on the auxiliary storage device on the node transfer device ,
Only transfers the information stored in the virtual memory area in said external storage device,
The node alternative device is
In the suspended state in which all processes being executed in the node alternative device other than the node transfer standby process are stopped,
The control unit on the node alternative device is
Stored in the physical memory area on the main storage device on the node transfer device written to the external storage device in the suspended state in which all processes being executed on the node transfer device other than the node transfer process are stopped by the node transfer device And all the information thus written to the physical memory area on the main storage device on the node alternative device,
Writing all the information stored in the virtual memory area on the auxiliary storage device on the node transfer device to the virtual memory area on the auxiliary storage device on the node alternative device;
Based on the copy written to the physical memory area and the virtual memory area, the process being executed in the node transfer device is restored.
A computer system characterized by that.
ノード移送装置と、前記ノード移送装置と同一のハードウェア構成を備え、前記ノード移送装置に対して外部の記憶装置に書き出されるノード移送装置のメモリ領域のコピーに基づいて、前記ノード移送装置のプロセスを引き継ぐノード代替装置とから構成されるコンピュータシステムにおけるノード移送装置としてのコンピュータに
ノード移送プロセス以外の前記ノード移送装置において実行中のプロセスをすべて停止したサスペンド状態において
記ノード移送装置上の主記憶装置上の物理メモリ領域上の移送プロセス以外のプロセス情報を前記ノード移送装置上の補助記憶装置上の仮想メモリ領域にスワップアウトするスワップアウト手順と、
当該仮想メモリ領域に記憶された情報のみを前記外部の記憶装置に転送する転送手順と、
を実行させることを特徴とするノード移送プログラム。
A node transport device having the same hardware configuration as the node transport device, and a process of the node transport device based on a copy of a memory area of the node transport device written to a storage device external to the node transport device In a computer as a node transfer device in a computer system composed of a node alternative device that takes over
In a suspended state in which all processes being executed in the node transport device other than the node transport process are stopped ,
And swap out procedures to swap out to the virtual memory space on the auxiliary storage device of the process information for other transport processes in physical memory area on the main memory on the previous SL nodes transfer device on the node transfer device,
A transfer procedure for transferring only information relevant stored in the virtual memory area in said external storage device,
Node transfer program for causing the execution.
JP2003297466A 2003-08-21 2003-08-21 Node transfer device, node alternative device and program thereof Expired - Lifetime JP4156470B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003297466A JP4156470B2 (en) 2003-08-21 2003-08-21 Node transfer device, node alternative device and program thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003297466A JP4156470B2 (en) 2003-08-21 2003-08-21 Node transfer device, node alternative device and program thereof

Publications (2)

Publication Number Publication Date
JP2005070952A JP2005070952A (en) 2005-03-17
JP4156470B2 true JP4156470B2 (en) 2008-09-24

Family

ID=34403311

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003297466A Expired - Lifetime JP4156470B2 (en) 2003-08-21 2003-08-21 Node transfer device, node alternative device and program thereof

Country Status (1)

Country Link
JP (1) JP4156470B2 (en)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4157536B2 (en) 2005-03-29 2008-10-01 富士通株式会社 Program execution device, program execution method, and service providing program
JP4961146B2 (en) 2006-02-20 2012-06-27 株式会社日立製作所 Load balancing method and system
JP2009145931A (en) * 2007-12-11 2009-07-02 Hitachi Ltd Method of migration between virtual computer and physical computer, and computer system thereof
JP5090897B2 (en) 2007-12-28 2012-12-05 株式会社ディスコ Wafer dividing method
WO2010035480A1 (en) * 2008-09-26 2010-04-01 日本電気株式会社 Distributed processing system, distributed processing method, and program
JP2010086145A (en) * 2008-09-30 2010-04-15 Hitachi East Japan Solutions Ltd Distributed processing system

Also Published As

Publication number Publication date
JP2005070952A (en) 2005-03-17

Similar Documents

Publication Publication Date Title
JP4902501B2 (en) Power control method, computer system, and program
US7523344B2 (en) Method and apparatus for facilitating process migration
JP4281421B2 (en) Information processing system, control method therefor, and computer program
US20120272243A1 (en) Protecting high priority workloads in a virtualized datacenter
US6516342B1 (en) Method and apparatus for extending memory using a memory server
JP6123626B2 (en) Process resumption method, process resumption program, and information processing system
US20070266203A1 (en) Storage control method and system for performing backup and/or restoration
JP2003345525A (en) Computer system and replication method
JP2010123055A (en) Data migration program, data migration method, and data migration apparatus
JP2018088134A (en) Migration program, information processing device and migration method
JP2004234114A (en) Computer system, computer device, and method and program for migrating operating system
JPWO2012063334A1 (en) Memory control device and I / O switch for supporting live migration of virtual machine
CN103885811A (en) Device, system and method for system-wide online migration of virtual machine system
JP4322240B2 (en) Reboot method, system and program
JP4156470B2 (en) Node transfer device, node alternative device and program thereof
US20110137868A1 (en) Storage switch and storage area size change method
JP2014010540A (en) Data migration control device, method and system in virtual server environment
US8621260B1 (en) Site-level sub-cluster dependencies
US20190324868A1 (en) Backup portion of persistent memory
CN103888510B (en) A kind of business high availability method of cloud computation data center
CN113032091B (en) Method, system and medium for improving storage performance of virtual machine by adopting AEP
US11074099B2 (en) System and method for storage during virtual machine migration
US10540112B2 (en) System and method for migrating virtual machines with storage while in use
CN114077517A (en) Data processing method, equipment and system
JP5382471B2 (en) Power control method, computer system, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060310

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080408

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080605

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080701

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080709

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110718

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4156470

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110718

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130718

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term