JP2007334668A - Memory dumping method, cluster system, node constituting the system, and program - Google Patents

Memory dumping method, cluster system, node constituting the system, and program Download PDF

Info

Publication number
JP2007334668A
JP2007334668A JP2006166392A JP2006166392A JP2007334668A JP 2007334668 A JP2007334668 A JP 2007334668A JP 2006166392 A JP2006166392 A JP 2006166392A JP 2006166392 A JP2006166392 A JP 2006166392A JP 2007334668 A JP2007334668 A JP 2007334668A
Authority
JP
Japan
Prior art keywords
storage device
node
interface unit
memory
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006166392A
Other languages
Japanese (ja)
Inventor
Mitsuhiro Kawachi
光博 河内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Solution Innovators Ltd
Original Assignee
NEC System Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC System Technologies Ltd filed Critical NEC System Technologies Ltd
Priority to JP2006166392A priority Critical patent/JP2007334668A/en
Publication of JP2007334668A publication Critical patent/JP2007334668A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide technique for evading the occurrence of a fault in a magnetic disk interface during the sampling of a memory dump. <P>SOLUTION: When a fault such as an OS panic occurs in a node 10a, a microprocessor 12a samples information contents to be dumped in a control memory 13a of the node 10a and executes retreating processing to a magnetic disk 20a. When the retreating processing to the magnetic disk 20a is executed and abnormality in disk access is detected, a network interface 11a is accessed. Then data communication with a node 10b is executed through a LAN 30 and a transmission request of information contents to be dumped is output to the node 10b. The node 10b temporarily stores a part of the information contents received from the node 10a in its own control memory 13b, transfers the stored information to a disk interface 14b and writes the information to the magnetic disk 20a. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、メモリダンプ方法、クラスタシステム、それを構成するノードおよびプログラムに関し、特に複数のノードを有するクラスタシステムに設けられた共有の記憶装置に各ノードのメモリダンプデータを格納する技術に関する。   The present invention relates to a memory dump method, a cluster system, and nodes and programs constituting the memory dump method, and more particularly to a technique for storing memory dump data of each node in a shared storage device provided in a cluster system having a plurality of nodes.

従来、サーバ装置等にあっては、ソフト的あるいはハード的な問題によってOSパニック等の障害が発生した場合に、メモリの内容をディスクへ退避(メモリダンプ)し、後からディスクへ退避したメモリ情報を解析し、障害の発生原因を調査することがある。   Conventionally, in a server device or the like, when a failure such as an OS panic occurs due to a software or hardware problem, the memory contents are saved to a disk (memory dump) and later saved to the disk. To investigate the cause of the failure.

このようなメモリダンプを行うシステムとして、例えば特許文献1には、メモリダンプをクラスタ内の全ノードから参照できるディスクに採取し、クラスタ管理ノードを含めた他ノードからもそれを参照することを可能とするメモリダンプ採取方式が開示されている。このメモリダンプ採取方式は、複数のノードを有するクラスタシステムにおいて、複数のノードにネットワークを介して接続されるクラスタ管理ノードと、クラスタ管理ノードを含む各ノードに専用バスを介して接続される共有ディスクと、クラスタ管理ノードに指示されて、障害発生時の各ノードのメモリダンプを共有ディスクに格納し、共有ディスクに格納されたメモリダンプを各ノードから参照する手段を具備する。   As a system for performing such a memory dump, for example, in Patent Document 1, it is possible to collect a memory dump on a disk that can be referred to from all the nodes in the cluster and to refer to it from other nodes including the cluster management node. A memory dump collection method is disclosed. This memory dump collection method uses a cluster management node connected to a plurality of nodes via a network and a shared disk connected to each node including the cluster management nodes via a dedicated bus in a cluster system having a plurality of nodes. And a means for instructing the cluster management node to store the memory dump of each node at the time of failure in the shared disk and refer to the memory dump stored in the shared disk from each node.

また、関連する技術として、特許文献2には、分散処理システムにおけるメモリダンプ方式において、ホストコンピュータに連なる各端末処理装置内で発生した異常障害を通信回線を介してホストコンピュータ側の外部記憶装置にダンプするメモリダンプ方式が記載されている。   As a related technique, Patent Document 2 discloses that in a memory dump method in a distributed processing system, an abnormal failure that has occurred in each terminal processing device connected to a host computer is transmitted to an external storage device on the host computer side via a communication line. The memory dump method to dump is described.

特開2003−30011号公報JP 2003-30011 A 特開昭60−218141号公報JP 60-218141 A

ところで、特許文献1において、採取するダンプ情報の、他ノードへの送信、他ノードとの共有技術が開示されている。しかしながら、ダンプ採取時に、ディスクアクセスに障害が発生した場合の回避策は開示されていない。すなわち、OSパニックがディスク制御部の故障等によって発生した場合にあっては、メモリ内容をディスクへ退避する処理でディスクへのアクセスができず、メモリ内容の退避処理が失敗するため、障害調査が困難となってしまう虞がある。   By the way, Patent Document 1 discloses a technique for transmitting dump information to be collected to another node and sharing it with another node. However, no workaround is disclosed when a disk access failure occurs during dump collection. In other words, if an OS panic occurs due to a failure of the disk control unit, etc., the process of saving the memory contents to the disk cannot access the disk, and the memory contents saving process fails. There is a risk of difficulty.

したがって、本発明の目的は、クラスタシステムにおいて、ダンプ採取時にディスクアクセスに障害が発生した場合の回避技術を提供することにある。   Accordingly, an object of the present invention is to provide a technique for avoiding a failure in disk access when collecting dumps in a cluster system.

本発明の1つのアスペクトに係るメモリダンプ方法は、複数のノード間を通信経路によって相互に接続したクラスタシステムにおいて、第1のノードが障害発生時に第1のノードのメモリ内容を第2のノードと共有の記憶装置へ退避するメモリダンプ方法であって、第1のノードにおける記憶装置へのアクセスパスがアクセス可能であるか否かを判断するステップと、アクセスパスがアクセス不可能な場合には、通信経路を使用して第1のノードから第2のノードへメモリ内容を送信するステップと、第2のノードにおける記憶装置へのアクセスパスを使用して記憶装置へメモリ内容を書き込むステップと、を含む。   In a memory dump method according to one aspect of the present invention, in a cluster system in which a plurality of nodes are connected to each other via a communication path, when the first node fails, the memory contents of the first node are transferred to the second node. In the memory dump method for saving to a shared storage device, the step of determining whether or not the access path to the storage device in the first node is accessible, and the access path is inaccessible, Transmitting the memory contents from the first node to the second node using the communication path; and writing the memory contents to the storage device using the access path to the storage device in the second node. Including.

本発明の第1の展開形態のメモリダンプ方法において、記憶装置は、多重化された記憶装置で構成され、多重化された記憶装置の全てについてアクセスパスがアクセス可能であるか否かを判断するようにしてもよい。   In the memory dump method according to the first development mode of the present invention, the storage device is composed of multiplexed storage devices, and determines whether or not the access path is accessible for all of the multiplexed storage devices. You may do it.

本発明の1つのアスペクトに係るクラスタシステムは、複数のノード間を通信経路によって相互に接続したクラスタシステムにおいて、第1および第2のノードと、第1および第2のノードと接続されて共有される記憶装置と、を備え、第1のノードは、障害発生時に第1のノードのメモリ内容を記憶装置へ退避するに際して、記憶装置へのアクセスパスがアクセス可能であるか否かを判断し、アクセスパスがアクセス不可能な場合には、通信経路を使用して第1のノードから第2のノードへメモリ内容を送信し、第2のノードは、第2のノードにおける記憶装置へのアクセスパスを使用して記憶装置へメモリ内容を書き込む。   A cluster system according to one aspect of the present invention is connected to and shared by a first and second node and a first and second node in a cluster system in which a plurality of nodes are connected to each other by a communication path. The first node determines whether the access path to the storage device is accessible when saving the memory contents of the first node to the storage device when a failure occurs, If the access path is inaccessible, the memory contents are transmitted from the first node to the second node using the communication path, and the second node accesses the storage device in the second node. To write the memory contents to the storage device.

本発明の1つのアスペクトに係るクラスタシステムを構成するノードは、複数のノード間を通信経路によって相互に接続したクラスタシステムを構成する。このノードは、障害発生時におけるダンプの対象とされる情報を保持するメモリと、他のノードと接続されて共有とされる記憶装置への記憶装置インタフェース部と、他のノードと通信経路を介して接続するための通信インタフェース部と、制御部と、を備え、制御部は、障害発生時にメモリが保持する情報を記憶装置へ退避するに際して、記憶装置インタフェース部がアクセス可能であるか否かを判断し、記憶装置インタフェース部へのアクセスが不可能な場合には、通信インタフェース部を使用して他のノードへ情報を送信し、通常動作時に他のノードから記憶装置への書き込み要求が到来した場合には、記憶装置インタフェース部を使用して記憶装置へ書き込み要求に伴う情報を書き込むように制御する。   The nodes constituting the cluster system according to one aspect of the present invention constitute a cluster system in which a plurality of nodes are mutually connected by a communication path. This node includes a memory that holds information to be dumped when a failure occurs, a storage device interface unit to a storage device that is connected to and shared with other nodes, and a communication path with other nodes. A communication interface unit for connecting to each other and a control unit. The control unit determines whether the storage device interface unit is accessible when saving the information held in the memory to the storage device when a failure occurs. If the access to the storage device interface unit is impossible, information is transmitted to other nodes using the communication interface unit, and a write request from other nodes to the storage device has arrived during normal operation. In this case, the storage device interface unit is used to control to write information accompanying the write request to the storage device.

本発明の1つのアスペクトに係るプログラムは、複数のノード間を通信経路によって相互に接続したクラスタシステムを構成するノードであって、障害発生時におけるダンプの対象とされる情報を保持するメモリと、他のノードと接続されて共有とされる記憶装置への記憶装置インタフェース部と、他のノードと通信経路を介して接続するための通信インタフェース部と、を備えるノードを構成するコンピュータに、障害発生時にメモリが保持する情報を記憶装置へ退避するに際して、記憶装置インタフェース部がアクセス可能であるか否かを判断する処理と、記憶装置インタフェース部へのアクセスが不可能な場合には、通信インタフェース部を使用して他のノードへ情報を送信する処理と、通常動作時に他のノードから記憶装置への書き込み要求が到来した場合には、記憶装置インタフェース部を使用して記憶装置へ書き込み要求に伴う情報を書き込む処理と、を実行させる。   A program according to one aspect of the present invention is a node constituting a cluster system in which a plurality of nodes are connected to each other by a communication path, and a memory that holds information to be dumped when a failure occurs; A failure occurs in a computer that constitutes a node including a storage device interface unit connected to a shared storage device connected to another node and a communication interface unit connected to the other node via a communication path. When the information stored in the memory is sometimes saved to the storage device, a process for determining whether or not the storage device interface unit is accessible, and if the access to the storage device interface unit is impossible, the communication interface unit The process of sending information to other nodes using and the writing from other nodes to the storage device during normal operation When the viewing request has come, the process of writing the information accompanying the write request to the storage device using the storage device interface unit, thereby to execute.

本発明によれば、OSパニック時のメモリ内容の記憶装置への退避処理において、記憶装置へのアクセス経路が障害となった場合であっても、ノード間のデータ転送経路を使って、他方のノードへ送信し、他方のノードにおける記憶装置のアクセス経路を使用することで、OSパニック時のメモリ内容を記憶装置へ退避させることができる。   According to the present invention, even when the access path to the storage device becomes a failure in the saving process of the memory contents to the storage device at the time of OS panic, the other data transfer path between the nodes is used. By transmitting to the node and using the access path of the storage device in the other node, the memory contents at the time of OS panic can be saved to the storage device.

本発明の実施形態に係るクラスタシステムは、複数のノード間を通信経路(図1の30)によって相互に接続したクラスタシステムにおいて、第1および第2のノード(図1の10a、10b)と、第1および第2のノードと接続されて共有される記憶装置(図1の20a、20bの磁気ディスク)と、を備える。第1のノード(図1の10a)は、OSパニック等の障害発生時に制御メモリ(図1の13a)内のメモリ内容を記憶装置(図1の20a、20b)へ退避するに際して、記憶装置へのアクセスパスがアクセス可能であるか否か、すなわちディスクインタフェース(図1の14a、15a)を介してアクセス可能であるか否かを判断する。そして、記憶装置へのアクセスパスがアクセス不可能な場合には、通信経路(図1の30)を使用して第1のノードから第2のノードへメモリ内容を送信する。さらに、第2のノード(図1の10b)は、第2のノードにおける記憶装置へのアクセスパスを使用して、すなわちディスクインタフェース(図1の14b、15b)を介して記憶装置へメモリ内容を書き込む。   The cluster system according to the embodiment of the present invention includes a first and second nodes (10a and 10b in FIG. 1) in a cluster system in which a plurality of nodes are mutually connected by a communication path (30 in FIG. 1), And a storage device connected to the first and second nodes (magnetic disks 20a and 20b in FIG. 1). When the first node (10a in FIG. 1) saves the memory contents in the control memory (13a in FIG. 1) to the storage device (20a, 20b in FIG. 1) when a failure such as an OS panic occurs, the first node (10a in FIG. 1) It is determined whether the access path is accessible, that is, whether it is accessible via the disk interface (14a, 15a in FIG. 1). If the access path to the storage device is inaccessible, the memory contents are transmitted from the first node to the second node using the communication path (30 in FIG. 1). In addition, the second node (10b in FIG. 1) uses the access path to the storage device in the second node, that is, the memory contents to the storage device via the disk interface (14b, 15b in FIG. 1). Write.

以上のような高可用性を実現するクラスタサーバ等のクラスタシステムにおいて、片方のノードでOSパニックが発生し、障害となったノードでディスクアクセスが困難な場合には、他方の正常に動作するノードにおけるディスクアクセスパスを使用して、メモリ内容を磁気ディスクへ退避する。すなわち、単体のサーバをLANやRDMA(Remote Direct Memory Access)等の高速なデータ通信経路によって相互に接続し、クラスタソフトウェアによってクラスタ管理を行い、可用性を高めたクラスタサーバ等のクラスタシステムにおいて、OSパニック等の障害発生時にメモリ内容をディスクへ退避する。この退避処理において、ディスクへのアクセスパスがアクセス可能かを判断し、ディスクへアクセスができない場合には、ノード間の通信経路を使用して、他ノードと通信を行い、メモリ内容を相手ノードへ送信し、相手ノードのディスクアクセスパスを使用してディスクへ退避を行う。   In a cluster system such as a cluster server that achieves high availability as described above, if an OS panic occurs on one node and disk access is difficult on the failed node, the other normally operating node Use the disk access path to save the memory contents to the magnetic disk. In other words, OS panics in a cluster system such as a cluster server where a single server is connected to each other via a high-speed data communication path such as LAN or RDMA (Remote Direct Memory Access), and cluster management is performed by cluster software, thereby improving availability. The memory contents are saved to disk when a failure such as the above occurs. In this save process, it is determined whether the access path to the disk is accessible. If the disk cannot be accessed, the communication path between nodes is used to communicate with other nodes, and the memory contents are transferred to the other node. Send and save to disk using the disk access path of the other node.

このようなクラスタシステムによれば、OSパニックがディスク制御部の故障等によって発生した場合等、記憶装置へのアクセスパスが障害となった場合にあっても、メモリ内容をディスクへ退避する処理が可能である。以下、実施例に即し図面を参照して説明する。   According to such a cluster system, even when an OS panic occurs due to a failure of the disk control unit or the like, even when the access path to the storage device becomes a failure, the process of saving the memory contents to the disk is performed. Is possible. Hereinafter, description will be made with reference to the drawings in accordance with embodiments.

図1は、本発明の実施例に係るクラスタシステムの構成を示すブロック図である。図1に示すクラスタシステムは、単体サーバ間をLAN30によって接続して、相互に他方のノードとデータ通信を可能とした2ノードクラスタの構成例である。それぞれのサーバをノード10a、ノード10bとする。各ノード10a、10bは、他方のノードとLAN30を経由して通信するネットワークインタフェース11a(11b)、磁気ディスク20aとデータのやり取りを行うディスクインタフェース14a(14b)、磁気ディスク20bとデータのやり取りを行うディスクインタフェース15a(15b)、ノードを制御するプログラムを実行するマイクロプロセッサ12a(12b)、制御用の情報を保持する制御メモリ13a(13b)をバスで共通に接続する。ノード10a(10b)は、ディスクインタフェース14a(14b)を介して共通の磁気ディスク20aと接続し、またディスクインタフェース15a(15b)を介して他の共通の磁気ディスク20bと接続する。このような接続構成によって、各ノード10a、10bから共通の磁気ディスク20a、20bへアクセスが可能である。なお、磁気ディスク20a、20bは、可用性を高めるために多重化構成としたもので、ここでは、二重化構成の例を示している。冗長な構成を必要としない場合にあっては、一系統であってもよい。   FIG. 1 is a block diagram showing a configuration of a cluster system according to an embodiment of the present invention. The cluster system shown in FIG. 1 is a configuration example of a two-node cluster in which single servers are connected by a LAN 30 and can perform data communication with the other node. The servers are referred to as a node 10a and a node 10b. Each node 10a, 10b exchanges data with the other node via a network interface 11a (11b) that communicates via the LAN 30, a disk interface 14a (14b) that exchanges data with the magnetic disk 20a, and a magnetic disk 20b. A disk interface 15a (15b), a microprocessor 12a (12b) that executes a program for controlling a node, and a control memory 13a (13b) that holds control information are commonly connected by a bus. The node 10a (10b) is connected to the common magnetic disk 20a via the disk interface 14a (14b), and is connected to another common magnetic disk 20b via the disk interface 15a (15b). With such a connection configuration, it is possible to access the common magnetic disks 20a and 20b from the nodes 10a and 10b. The magnetic disks 20a and 20b have a multiplexed configuration in order to increase availability. Here, an example of a duplex configuration is shown. If a redundant configuration is not required, a single system may be used.

このような構成のクラスタシステムにおいて、ノード10aにおいてOSパニック等の障害が発生したとする。この場合の処理について説明する。図2は、本発明の実施例に係るクラスタシステムにおける動作を示すフローチャートである。ノード10aのマイクロプロセッサ12aは、ノード10aの制御メモリ13a中のダンプ対象となる情報内容を採取し(ステップS11)、磁気ディスク20aへ退避する処理を実行する。このとき、磁気ディスクへの退避処理を実行して、ディスクアクセスの異常を検出した場合(ステップS12)には、ネットワークインタフェース11aへアクセスする。そして、LAN30を経由してノード10bとのデータ通信を実行し、ダンプ対象となる情報内容の送信要求をノード10bに対して行う(ステップS13)。ノード10bは、ノード10aから受け取った情報内容の一部を自身の制御メモリ13bへ一旦格納し(ステップS14)、格納した情報をディスクインタフェース14bへ渡して、磁気ディスク20aへの書き込みを行う(ステップS15)。ノード10aとノード10bは、情報内容の最終データまでこれらの処理を繰り返し、制御メモリ13a中のダンプ対象となる情報内容の全てを磁気ディスク20aへ書き込む。   In the cluster system having such a configuration, it is assumed that a failure such as an OS panic occurs in the node 10a. Processing in this case will be described. FIG. 2 is a flowchart showing an operation in the cluster system according to the embodiment of the present invention. The microprocessor 12a of the node 10a collects information contents to be dumped in the control memory 13a of the node 10a (step S11), and executes a process of saving to the magnetic disk 20a. At this time, if a disk access abnormality is detected by executing a save process to the magnetic disk (step S12), the network interface 11a is accessed. Then, data communication with the node 10b is performed via the LAN 30, and a transmission request for information content to be dumped is made to the node 10b (step S13). The node 10b temporarily stores part of the information content received from the node 10a in its own control memory 13b (step S14), passes the stored information to the disk interface 14b, and writes to the magnetic disk 20a (step S14). S15). The nodes 10a and 10b repeat these processes until the final data of the information contents, and write all the information contents to be dumped in the control memory 13a to the magnetic disk 20a.

なお、以上の説明では、ノード10aにおいてダンプ対象となる情報内容を磁気ディスク20aへ退避する際に、磁気ディスク20aへのアクセスが不可能であった場合の処理について説明した。磁気ディスクが、磁気ディスク20a、20bで二重化されている場合には、磁気ディスク20aへのアクセスを試し、アクセスが不可能であった場合、さらに磁気ディスク20bへのアクセスを試し、それでもアクセスが不可能であった場合に、LAN30を経由してノード10bにおける磁気ディスク20aあるいは磁気ディスク20bへのディスクインタフェース14bあるいは15bを使用してダンプ対象となる情報内容を書き込むようにしてもよい。   In the above description, the processing in the case where it is impossible to access the magnetic disk 20a when saving the information content to be dumped to the magnetic disk 20a in the node 10a has been described. If the magnetic disk is duplicated with the magnetic disks 20a and 20b, the access to the magnetic disk 20a is tried. If the access is impossible, the access to the magnetic disk 20b is further tried and the access is still not possible. If possible, information contents to be dumped may be written using the disk interface 14b or 15b to the magnetic disk 20a or the magnetic disk 20b in the node 10b via the LAN 30.

本発明の実施例に係るクラスタシステムの構成を示すブロック図である。It is a block diagram which shows the structure of the cluster system which concerns on the Example of this invention. 本発明の実施例に係るクラスタシステムにおける動作を示すフローチャートである。It is a flowchart which shows the operation | movement in the cluster system based on the Example of this invention.

符号の説明Explanation of symbols

10a、10b ノード
11a、11b ネットワークインタフェース
12a、12b マイクロプロセッサ
13a、13b 制御メモリ
14a、14b、15a、15b ディスクインタフェース
20a、20b 磁気ディスク
30 LAN
10a, 10b Nodes 11a, 11b Network interfaces 12a, 12b Microprocessors 13a, 13b Control memories 14a, 14b, 15a, 15b Disk interfaces 20a, 20b Magnetic disk 30 LAN

Claims (8)

複数のノード間を通信経路によって相互に接続したクラスタシステムにおいて、第1のノードが障害発生時に前記第1のノードのメモリ内容を第2のノードと共有の記憶装置へ退避するメモリダンプ方法であって、
前記第1のノードにおける前記記憶装置へのアクセスパスがアクセス可能であるか否かを判断するステップと、
該アクセスパスがアクセス不可能な場合には、前記通信経路を使用して前記第1のノードから前記第2のノードへ前記メモリ内容を送信するステップと、
前記第2のノードにおける前記記憶装置へのアクセスパスを使用して前記記憶装置へ前記メモリ内容を書き込むステップと、
を含むことを特徴とするメモリダンプ方法。
In a cluster system in which a plurality of nodes are connected to each other via a communication path, a memory dump method is used to save the memory contents of the first node to a shared storage device with the second node when a failure occurs in the first node. And
Determining whether an access path to the storage device in the first node is accessible;
If the access path is inaccessible, transmitting the memory contents from the first node to the second node using the communication path;
Writing the memory contents to the storage device using an access path to the storage device in the second node;
A memory dump method comprising:
前記記憶装置は、多重化された記憶装置で構成され、該多重化された記憶装置の全てについてアクセスパスがアクセス可能であるか否かを判断することを特徴とする請求項1記載のメモリダンプ方法。   2. The memory dump according to claim 1, wherein the storage device is composed of multiplexed storage devices, and judges whether or not an access path is accessible for all of the multiplexed storage devices. Method. 複数のノード間を通信経路によって相互に接続したクラスタシステムにおいて、
第1および第2のノードと、
前記第1および第2のノードと接続されて共有される記憶装置と、
を備え、
前記第1のノードは、障害発生時に前記第1のノードのメモリ内容を前記記憶装置へ退避するに際して、前記記憶装置へのアクセスパスがアクセス可能であるか否かを判断し、該アクセスパスがアクセス不可能な場合には、前記通信経路を使用して前記第1のノードから前記第2のノードへ前記メモリ内容を送信し、
前記第2のノードは、前記第2のノードにおける前記記憶装置へのアクセスパスを使用して前記記憶装置へ前記メモリ内容を書き込むことを特徴とするクラスタシステム。
In a cluster system in which multiple nodes are connected to each other via communication paths,
First and second nodes;
A storage device connected to and shared with the first and second nodes;
With
When the first node saves the memory contents of the first node to the storage device when a failure occurs, the first node determines whether the access path to the storage device is accessible. If inaccessible, send the memory contents from the first node to the second node using the communication path;
The cluster system, wherein the second node writes the memory contents to the storage device using an access path to the storage device in the second node.
前記記憶装置は、多重化された記憶装置で構成され、前記第1のノードは、該多重化された記憶装置の全てについてアクセスパスがアクセス可能であるか否かを判断することを特徴とする請求項3記載のクラスタシステム。   The storage device includes a multiplexed storage device, and the first node determines whether an access path is accessible for all of the multiplexed storage devices. The cluster system according to claim 3. 複数のノード間を通信経路によって相互に接続したクラスタシステムを構成するノードにおいて、
障害発生時におけるダンプの対象とされる情報を保持するメモリと、
他のノードと接続されて共有とされる記憶装置への記憶装置インタフェース部と、
前記他のノードと前記通信経路を介して接続するための通信インタフェース部と、
制御部と、
を備え、
前記制御部は、障害発生時にメモリが保持する情報を前記記憶装置へ退避するに際して、前記記憶装置インタフェース部がアクセス可能であるか否かを判断し、前記記憶装置インタフェース部へのアクセスが不可能な場合には、前記通信インタフェース部を使用して前記他のノードへ前記情報を送信し、通常動作時に前記他のノードから前記記憶装置への書き込み要求が到来した場合には、前記記憶装置インタフェース部を使用して前記記憶装置へ書き込み要求に伴う情報を書き込むように制御することを特徴とするクラスタシステムを構成するノード。
In a node constituting a cluster system in which a plurality of nodes are connected to each other via a communication path,
A memory that holds information to be dumped at the time of failure; and
A storage device interface unit to a storage device connected to another node and shared;
A communication interface unit for connecting to the other node via the communication path;
A control unit;
With
The controller determines whether or not the storage device interface unit is accessible when evacuating information stored in the memory to the storage device when a failure occurs, and cannot access the storage device interface unit In this case, the information is transmitted to the other node using the communication interface unit. When a write request from the other node to the storage device arrives during normal operation, the storage device interface A node constituting a cluster system, wherein a control is performed so that information accompanying a write request is written to the storage device using a storage unit.
前記記憶装置は、多重化された記憶装置で構成され、前記記憶装置インタフェース部は、該多重化された記憶装置に対応した複数のインタフェース部を有し、前記制御部は、該多重化された記憶装置の全てにアクセス可能であるか否かを判断することを特徴とする請求項5記載のクラスタシステムを構成するノード。   The storage device is configured by a multiplexed storage device, the storage device interface unit includes a plurality of interface units corresponding to the multiplexed storage device, and the control unit is the multiplexed 6. The node constituting the cluster system according to claim 5, wherein it is determined whether or not all of the storage devices are accessible. 複数のノード間を通信経路によって相互に接続したクラスタシステムを構成するノードであって、障害発生時におけるダンプの対象とされる情報を保持するメモリと、他のノードと接続されて共有とされる記憶装置への記憶装置インタフェース部と、前記他のノードと前記通信経路を介して接続するための通信インタフェース部と、を備えるノードを構成するコンピュータに、
障害発生時にメモリが保持する情報を前記記憶装置へ退避するに際して、前記記憶装置インタフェース部がアクセス可能であるか否かを判断する処理と、
前記記憶装置インタフェース部へのアクセスが不可能な場合には、前記通信インタフェース部を使用して前記他のノードへ前記情報を送信する処理と、
通常動作時に前記他のノードから前記記憶装置への書き込み要求が到来した場合には、前記記憶装置インタフェース部を使用して前記記憶装置へ書き込み要求に伴う情報を書き込む処理と、
を実行させるプログラム。
A node that constitutes a cluster system in which a plurality of nodes are connected to each other via communication paths, and is connected to a memory that holds information to be dumped when a failure occurs, and is connected to other nodes and shared To a computer constituting a node comprising a storage device interface unit to a storage device and a communication interface unit for connecting to the other node via the communication path,
A process of determining whether or not the storage device interface unit is accessible when saving the information held in the memory when a failure occurs to the storage device;
When access to the storage device interface unit is impossible, processing to transmit the information to the other node using the communication interface unit;
When a write request to the storage device comes from the other node during normal operation, a process of writing information accompanying the write request to the storage device using the storage device interface unit;
A program that executes
前記記憶装置は、多重化された記憶装置で構成され、前記記憶装置インタフェース部は、該多重化された記憶装置に対応した複数のインタフェース部を有し、前記記憶装置インタフェース部がアクセス可能であるか否かを判断する処理において、該多重化された記憶装置の全てにアクセス可能であるか否かを判断することを特徴とする請求項7記載のプログラム。
The storage device includes a multiplexed storage device, and the storage device interface unit includes a plurality of interface units corresponding to the multiplexed storage device, and the storage device interface unit is accessible. 8. The program according to claim 7, wherein in the process of determining whether or not all of the multiplexed storage devices are accessible, it is determined.
JP2006166392A 2006-06-15 2006-06-15 Memory dumping method, cluster system, node constituting the system, and program Pending JP2007334668A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006166392A JP2007334668A (en) 2006-06-15 2006-06-15 Memory dumping method, cluster system, node constituting the system, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006166392A JP2007334668A (en) 2006-06-15 2006-06-15 Memory dumping method, cluster system, node constituting the system, and program

Publications (1)

Publication Number Publication Date
JP2007334668A true JP2007334668A (en) 2007-12-27

Family

ID=38934086

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006166392A Pending JP2007334668A (en) 2006-06-15 2006-06-15 Memory dumping method, cluster system, node constituting the system, and program

Country Status (1)

Country Link
JP (1) JP2007334668A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193231A (en) * 2008-02-13 2009-08-27 Nec Corp Information processor, information processing system, control method and control program
JP2010176345A (en) * 2009-01-29 2010-08-12 Nec Corp Multi-node system, node, memory dump processing method, and program
US9146799B2 (en) 2012-06-29 2015-09-29 Fujitsu Limited Storage system and method for controlling storage system
US9189171B2 (en) 2012-06-29 2015-11-17 Fujitsu Limited Storage system and method for controlling storage system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04342041A (en) * 1991-05-20 1992-11-27 Hitachi Ltd Backup maintenance method for computer system
JPH07239835A (en) * 1994-02-25 1995-09-12 Hitachi Ltd In-network data transfer control system for parallel computer
JPH0936862A (en) * 1995-07-19 1997-02-07 Mitsubishi Electric Corp Dynamic control system for communication channel
JP2000324127A (en) * 1999-05-13 2000-11-24 Oki Electric Ind Co Ltd Bypass selection method and system, fault recovery method and system, node and network system
JP2003030011A (en) * 2001-07-19 2003-01-31 Nec Soft Ltd System and method for sampling memory dump

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04342041A (en) * 1991-05-20 1992-11-27 Hitachi Ltd Backup maintenance method for computer system
JPH07239835A (en) * 1994-02-25 1995-09-12 Hitachi Ltd In-network data transfer control system for parallel computer
JPH0936862A (en) * 1995-07-19 1997-02-07 Mitsubishi Electric Corp Dynamic control system for communication channel
JP2000324127A (en) * 1999-05-13 2000-11-24 Oki Electric Ind Co Ltd Bypass selection method and system, fault recovery method and system, node and network system
JP2003030011A (en) * 2001-07-19 2003-01-31 Nec Soft Ltd System and method for sampling memory dump

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193231A (en) * 2008-02-13 2009-08-27 Nec Corp Information processor, information processing system, control method and control program
JP2010176345A (en) * 2009-01-29 2010-08-12 Nec Corp Multi-node system, node, memory dump processing method, and program
US9146799B2 (en) 2012-06-29 2015-09-29 Fujitsu Limited Storage system and method for controlling storage system
US9189171B2 (en) 2012-06-29 2015-11-17 Fujitsu Limited Storage system and method for controlling storage system

Similar Documents

Publication Publication Date Title
KR100711396B1 (en) Server duplexing method and duplexed server system
US5784617A (en) Resource-capability-based method and system for handling service processor requests
JP5094460B2 (en) Computer system, data matching method, and data matching processing program
JP2004213125A (en) High-availability disk controller and failure processing method therefor, and high-availability disk subsystem
US7069467B2 (en) System and method for data multiplexing
US7499987B2 (en) Deterministically electing an active node
JP2000181887A (en) Fault processing method for information processor and storage controller
JP2007334668A (en) Memory dumping method, cluster system, node constituting the system, and program
JP2008283608A (en) Computer, program and method for switching redundant communication path
US8732531B2 (en) Information processing apparatus, method of controlling information processing apparatus, and control program
JP2006172243A (en) Fault-tolerant computer device and synchronization method for the same
JP5034979B2 (en) START-UP DEVICE, START-UP METHOD, AND START-UP PROGRAM
JP2007280313A (en) Redundant system
JP5516411B2 (en) Information processing system
JP2006189963A (en) Storage access control method, cluster system, path connection switch, and storage access control program
EP3316114A1 (en) Data reading and writing method and device
JP4572138B2 (en) Server apparatus, server system, and system switching method in server system
JP5076400B2 (en) Data processing system and information processing apparatus
JP2014532236A (en) Connection method
JP5251690B2 (en) Remote copy system and remote copy method
JP2008197907A (en) Monitoring network system and data backup method
JP2006236371A (en) Control system
JP4117685B2 (en) Fault-tolerant computer and its bus selection control method
US20060059302A1 (en) Disk array subsystem
JP2005284556A (en) Method for coping with access trouble, system for coping with access trouble, data processor, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090514

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110830

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120110