CN101072125B

CN101072125B - 集群结构及其控制单元

Info

Publication number: CN101072125B
Application number: CN2007100915975A
Authority: CN
Inventors: 关口知纪; 天野光司; 大平崇博
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2006-05-09
Filing date: 2007-03-29
Publication date: 2010-09-22
Anticipated expiration: 2027-03-29
Also published as: JP2007304687A; CN101072125A; US20070288585A1

Abstract

在由两台计算机节点构成的不具有共享存储装置的集群中，存在如下课题：通过网络来监视相互的正常状态和停止状态，但仅通过这些有时会错误地判断对方节点已停止。当根据错误的判断执行了系切换时，在系切换后，对方节点恢复正常状态，两台计算机都作为执行系进行动作。构成集群的两台节点和与集群进行通信的其他计算机通过可以使各计算机所连接的端口无效的开关进行连接。控制这些开关的网络控制程序与节点的系切换同步地对节点所连接的端口是否可以使用进行变更。

Description

集群结构及其控制单元

技术领域

本发明涉及一种用于由两台计算机构成的集群(cluster)系统的高可用化的结构以及控制单元。尤其涉及不具有在两台计算机之间共享的外部存储装置的结构的集群系统的高可用化方式。

背景技术

作为提高在计算机系统中执行的处理的可用性的方式，具有被称为集群的思想。在集群系统中，在多个计算机中安装同一程序，将其中的几个计算机作为执行实际处理的计算机。剩下的计算机被控制成在检测到执行处理的计算机发生了故障时取代该计算机来执行处理。

一般的集群系统由两台计算机构成。一方是进行实际处理的计算机(执行系)，剩下的是待机的计算机(待机系)，为执行系的异常而准备来接替进行执行系的处理。两台计算机通过网络进行通信，由此定期地监视相互的执行状况。另外，一般在从待机系向执行系进行系切换时，为了使待机系接替数据的处理，配置由两台计算机都可以访问的共享的外部存储装置。该共享存储装置在排他控制下使用，使得只能由当前的执行系访问。作为实现该访问的访问方法一般使用SCSI协议。

在这样的集群中，当待机系检测到执行系的异常时，待机系就将自己切换为执行系。此时，待机系在争夺到共享存储装置的访问权后开始执行应用程序。应用程序参照存储在共享存储装置中的数据执行用于接替的处理，并开始实际的处理。

这样的集群由用于集群控制的软件和与其协作执行的应用程序构成。另外，作为与集群控制软件进行协作的软件的例子，可以列举出数据库。

另一方面，在集群系统中，有时直至待机系作为执行系开始执行为止的时间成为问题。在上述的集群系统中，在争夺共享存储装置的访问权的处理和成为执行系的计算机一侧的接替处理的期间，系统无法对外提供服务。特别是共享存储装置的访问权控制，一般需要花费十几秒。

在无法允许十几秒的服务中断的系统中，例如构成一种所谓的作为并行集群而公知的不配置共享存储装置的集群系统。作为这样的例子，具有专利文献1(特开2001-109642)。在这里，在执行系对请求进行处理，将其结果发送给待机系，使执行系和待机系的处理状况一致。另外，如专利文献2(特开2001-344125)那样，使执行系、待机系之间的协作双重化来提高系切换处理的可靠性。并且，如专利文献3(特开平05-260134)那样，使监视装置层次化，进行针对监视装置的异常的处理来提高系统的可靠性。

另外，还有执行系、待机系双方的计算机接受处理请求来进行处理的情况。作为执行系的计算机输出处理结果，待机系将处理结果保存在内部，为切换到执行系时而准备。双方计算机还可以一边互相通信来使处理的进展同步，一边进行请求的处理。

通过这些方式，在系切换中不需要共享存储装置的访问权的交接，待机系可以作为执行系立即开始执行。如此，控制待机系使其具有与执行系相同的状态，并且始终准备系切换，由此可以缩短从待机系向执行系的切换时间，可以缩短服务中断时间。

在集群系统中，重点是两台计算机正确掌握相互的状态。具有共享存储装置的结构的集群使用基于网络的通信和共享存储装置的访问权控制这两个不同的公共媒体来确认对方的状态。在一方的并行集群中，相互或者通过经由第三者的网络通信来掌握两台计算机的状态。

发明内容

在并行集群中，用于使执行系和待机系的两台计算机协作的公共媒体只有相互的基于网络的通信。在基于网络通信的状态监视下，根据无法通信这一状况来判断对方系已停止。

但是，仅仅通过基于网络通信的状态监视，在构成集群的计算机中无法区别是由于对方系的不正常而通信中断、还是由于自身系的网络处理或网络设备的不正常而通信中断、还是由于网络自身的不正常而通信中断。因此存在以下的问题：对方系实际上没有停止，但是由于通信中断，一方的计算机误判断为对方系已停止。

而且，在由于某种原因通信暂时中断的期间，当待机系由于误判断执行系切换时，存在系切换后对方系恢复正常状态，两台计算机都作为执行系进行动作的可能性。此时，存在集群系统可能会使外部系统发生混乱的问题。

作为解决该问题的手段之一，具有如下的方法：要求被判断为已停止的计算机停止、或者发送复位信号等来强制停止计算机。前者的方法是对被认为已停止的计算机发送指示，因此不知道是否能正常接收，存在可靠性欠缺的问题。后者的方法使计算机复位，因此该计算机的故障信息消失，存在故障原因分析困难的问题。

通过一台以上的网络开关连接构成并行集群(第一节点、第二节点)的两台计算机以及与各集群的计算机进行通信的其他计算机(例如，客户端计算机)，上述网络开关使连接各计算机的端口独立，来控制其有效、无效。在这些网络开关上连接集群控制计算机，由他执行的网络控制程序执行所述网络开关的控制，以便在构成第一节点的计算机以及构成第二节点的计算机所执行的集群控制程序将待机系切换为执行系之前，使原来的执行系的计算机连接的端口无效化。由此，将原来作为执行系的计算机从网络切断。

另一方面，构成集群的各节点的计算机所执行的集群控制程序与集群控制计算机所执行的网络控制程序协作，在通过所述网络开关开始进行系切换之前，向集群控制计算机所执行的网络控制程序请求切断执行系。

为了集群控制计算机所执行的网络控制程序恰当地执行与集群的节点的状态相符合的控制，构成集群的节点的计算机所执行的集群控制程序向集群控制计算机所执行的网络控制程序通知节点的启动、执行系/待机系的迁移、节点的停止等事件。

根据本发明，是一种由两台计算机构成的集群，在为了集群控制没有在计算机之间共享的存储装置的集群结构的情况下，可以防止错误识别对方系的状态来执行系切换，防止双方计算机都作为执行系进行动作。

另外，从构成集群的计算机的外部监视计算机之间的相互监视的状况，从集群中隔离被判断为通信中断一侧的计算机，由此可以防止两系都作为执行系进行动作，并且可以可靠地进行执行系的切换。

另外，因为可以不强制停止不正常的计算机，因此可以防止删除该计算机的故障分析所需的数据。

附图说明

图1是表示本发明实施例1的系统结构的框图。

图2是实施例1的执行用于实现集群控制的步骤的程序的结构框图。

图3是表示本发明实施例1的集群的系切换步骤的前半部分的处理流程。

图4是表示本发明实施例1的集群的系切换步骤的后半部分的处理流程。

图5(a)、(b)表示本发明实施例中的集群控制计算机所保存的数据结构的例子。

图6是表示本发明实施例2的内部网络的监视步骤的处理流程。

具体实施方式

以下，参照附图对本发明的实施方式进行说明。

(实施例1)

图1是表示本发明实施例1的系统结构的框图。本发明的集群由以下部分构成：构成集群的第一节点的计算机100和第二节点的计算机110；形成集群相互的通信网络的内部网络开关120；对各个集群进行访问的客户端计算机；形成各个集群和客户端计算机相互的通信网络的外部网络开关130；以及接收来自各个集群的信息，执行控制所述各个网络开关的端口的有效和无效的程序的集群控制计算机140。

第一节点的计算机100以及第二节点的计算机110是普通的计算机，分别具有：CPU104、114以及存储器105、115；控制它们向总线106、116连接的总线控制装置107、117；以及经由盘适配器108、118向总线106、116连接的存储装置109、119。这些计算机具有：用于连接总线106、116和外部网络开关130的外部网络适配器101、111；用于控制各节点的计算机100、110的执行系·待机系的切换，连接各节点的计算机100、110和内部网络开关120的控制网络适配器102、112；以及用于进行各节点的计算机的执行系·待机系的评价，并且连接各节点的计算机100、110和内部网络开关120的内部网络适配器103、113。

外部网络适配器101、111通过端口130₁、130₂连接到外部网络开关130。另外，客户端计算机150通过端口130₃连接到外部网络开关130。如果第一节点的计算机100为执行系，则只有端口130₁、130₃被有效化，第一节点的计算机100和客户端计算机150相连接。如果第二节点的计算机110为执行系，则只有130₂、130₃被有效化，第二节点的计算机110和客户端计算机150相连接。

另外，内部网络适配器103、113通过端口120₁、120₂连接到内部网络开关120，互相传递有关自身节点的计算机100、110的状态的信息。

控制网络适配器102、112通过端口120₃、120₄连接到内部网络开关120。另外，集群控制计算机140通过端口120₅连接到内部网络开关120。控制网络适配器102、112互相交换经由所述内部网络适配器103、113得到的有关其他节点的计算机110、100的状态的信息以及与自身节点的计算机100、110的状态相对应的控制信号，并且还与集群控制计算机140交换控制信号。集群控制计算机140以收集到的信息为基础，向内部网络开关120以及外部网络开关130的各端口发送有效化或无效化的信号。

为了第一节点的计算机100的内部网络适配器103和第二节点的计算机110的内部网络适配器113经由内部网络开关120互相进行通信而构成的网络以及为了第一节点的计算机100、第二节点的计算机110、集群控制计算机140经由内部网络开关120进行有关集群控制的通信而构成的网络通过内部网络开关120的设定来实现。

图2是实施例1的执行用于实现集群控制的步骤的程序的结构框图。各节点的计算机100、110的各程序被存储在执行各程序的计算机的存储装置108、118中，执行时载入存储器105、115，然后由CPU104、114执行程序，这简明地表现了简单的程序执行。关于集群控制计算机140，没有图示存储装置、存储器、CPU以及与内部网络适配器103、113、外部网络适配器101、111对应的适配器，但不言而喻，与各节点的计算机100、110相同，具有存储装置、存储器、CPU以及适配器。另外，有关所保存的程序的执行也相同。

构成集群的各节点的计算机100、110具备并执行：向集群的外部，即向客户端计算机150提供实际服务的服务程序201、211；执行集群结构的控制的集群控制程序202、212；向集群控制计算机140联络节点的执行状态的变更的网络控制协作程序203、213。

集群控制计算机140具备并执行：对内部网络开关120的各集群的连接端口的有效、无效的网络状况进行监视的内部网络监视程序241；以及对外部网络开关130的各集群的连接端口的有效、无效的设定进行变更的网络控制程序242。另外，具有对这些程序参照的设定数据进行保存的开关结构表500以及集群结构表510。对这些将在后面进行叙述。

下面，对实施例1的各程序的动作进行说明。

各节点的集群控制程序202、212是管理各节点的运转模式的程序。集群控制程序202、212经由内部网络开关120互相监视对方节点的执行状态。例如，由第一节点的计算机100执行的集群控制程序202和第二节点的计算机110执行的集群控制程序212经由连接控制网络适配器102的内部网络开关120的端口120₃、以及连接控制网络适配器112的端口120₄，互相在一定周期持续发送消息。各个集群控制程序202、212确认在一定的周期持续接收到来自对方节点的消息。通过该相互通信，各节点的计算机100、110互相监视执行状态。

各节点的计算机的运转模式为：没有执行集群控制程序202、212的停止状态、正在执行集群控制程序202、212但没有执行服务程序201、211的开始状态、服务程序201、211正在提供服务的执行状态、正在执行服务程序201、211但没有输出处理结果的待机状态中的某一种模式。

对各节点的计算机的运转模式的迁移进行说明。当启动节点的计算机时，运转模式从停止状态迁移到开始状态。从开始状态向执行状态、或者向待机状态的迁移通常是根据集群的操作员的指示来执行。在自身节点的计算机处于待机状态时，对方节点的计算机成为待机状态或者处于执行状态的对方节点的计算机的运转状态不明的情况下，集群控制程序202、212使自身节点的计算机的运转模式从待机状态迁移到运转状态。在根据操作员的指示对执行状态的节点和待机状态的节点进行转换时，使执行状态的节点迁移到待机状态。由此，执行处于待机状态的对方节点的集群控制程序，来对处于执行状态的节点迁移到待机状态的情况进行检测。

服务程序201、211与集群控制程序202、212进行协作，来处理经由连接外部网络适配器101、111的外部网络开关130的端口130₁、130₂以及连接客户端计算机150的端口1303，从客户端计算机150发送来的服务请求。集群控制程序202、212和服务程序201、211的协作包括：取得正在执行服务程序201、211的节点的计算机100、110的执行状态。

在第一节点的计算机100的运转模式为执行状态时，服务程序201输出请求的处理结果。此时，在处于待机状态的第二节点的计算机110中，服务程序211不把处理结果输出到外部，而是记录在计算机110的内部，例如记录在盘119中。记录的数据内容是在第二节点的计算机110变成执行状态时，服务程序211作为执行状态，足够作为服务请求处理的处理结果输出的数据。另外，执行系和待机系的服务程序之间也可以进行协作，使请求处理的进展同步。

图3是表示本发明实施例1的集群的系切换步骤的前半部分的处理。参照该图，以第一节点的计算机100的动作为主对运转模式的迁移进行说明。

在第一节点的计算机100中，集群控制程序202的监视处理准备接收来自第二节点的计算机110的一定周期的消息而进行待机(步骤301)。在一定时间消息没有到达与内部网络开关120的端口120₁连接的内部网络适配器103时，该接收处理失败。在内部网络适配器103正常接收到消息时(步骤302的判断为Yes)，反复执行消息待机。在接收来自第二节点的计算机110的消息失败的情况下(步骤302的判断为No)，判断第二节点的计算机110是否停止(步骤303)。该判断方法具有各种方法，一般在预先规定的期间消息的正常接收连续失败的情况下判断为第二节点的计算机110已停止。在无法判断为停止时，回到消息的接收处理(步骤301)。

当在步骤303中判断为第二节点的计算机110已停止时，判断是否需要状态迁移(系切换处理)(步骤304)。在判断为需要状态迁移时，判断第一节点的计算机100的运转模式是否为待机状态(步骤305)。在判断为No，即第一节点的计算机100的运转模式为执行状态时，关于系切换不进行任何处理，但如果是待机状态时，则执行状态迁移开始处理(步骤306)。此时，步骤306是启动系切换处理的处理。

以上是并行集群的基本动作。下面，对用于实现本发明而追加的步骤进行说明。

一般，由集群的节点的计算机100、110执行的集群控制程序202、212具有一种接口，该接口在开始进行节点的计算机的运转模式的变更时，可以加入与该节点的计算机所提供的服务相符合的处理。在本发明中，以此为前提。在本发明中，使用该接口加入网络控制协作程序203、213。这些网络控制协作程序203、213在集群控制程序202、212启动时、停止时以及节点的计算机的运转模式迁移时执行。

下面，对本发明的系切换处理进行说明。图3所示流程的状态迁移开始处理(步骤306)是启动系切换处理的处理。系切换处理被状态迁移开始处理(步骤306)触发，启动所加入的网络控制协作程序203(步骤311)。此时，将当前的运转模式和新设定的运转模式作为参数交给网络控制协作程序203。系切换处理在网络控制协作程序203启动后，等待其结束(步骤312)。步骤312的结束待机处理也可以根据预先定义的时间而暂停(time out)。

网络控制协作程序203向由集群控制计算机140执行的网络控制程序242联络在第一节点的计算机100中已开始了运转模式迁移(步骤321)，等待网络控制程序242的处理(网络切断处理，即外部网络开关130的端口1301的无效化)的完成(步骤322)，在处理完成后结束。步骤322的待机处理也可以根据预先定义的时间而暂停。

收到网络控制协作程序203的结束后，集群控制程序202的系切换处理执行节点的计算机的运转模式的变更处理(步骤313)。

集群控制程序202的启动处理和停止处理也同样包括启动网络控制协作程序203的处理。其与从图3的步骤306开始的处理为相同的处理。即，启动时是从停止向开始的迁移，停止时是从此时的模式向停止的迁移。对于这些处理流程，省略其说明。

图4是表示本发明实施例1的集群的系切换步骤的后半部分的处理流程。参照该图，对与节点的计算机的运转模式的迁移进行协作，来变更集群的网络结构的集群控制计算机140的网络控制程序242的处理流程进行说明。在这里，也以第一节点的计算机100的动作为主进行说明。

网络控制程序242等待来自集群的节点的计算机的运转模式迁移通知(步骤401)。迁移通知经由连接第一节点的计算机100的控制网络适配器102、第二节点的计算机110的控制网络适配器112的端口120₃、120₄被导入内部网络开关120，并在步骤313中通过端口120₅传递给集群控制计算机140。

当接收到运转模式迁移通知时，根据得到的迁移内容对处理进行分支(步骤402)。例如，在由所述对方节点的计算机异常引起的系切换处理中，将第二节点的计算机110判断为停止的第一节点的计算机100的集群控制程序202在第一节点的计算机100的运转模式为待机模式时，从待机模式变更为执行模式。网络控制程序242根据该迁移内容将处理移动到步骤403。在步骤403中，将发送了对运转模式进行迁移的通知的第一节点的计算机100的对象的第二节点的计算机110从内部网络开关120和外部网络开关130切断。具体而言，网络控制程序242指示内部网络开关120和外部网络开关130使第二节点的计算机110的内部网络适配器113和外部网络适配器111所连接的端口120₂和130₂无效。

在网络控制协作程序203的通知(步骤401)为集群控制程序202的启动处理时，即作为集群节点的计算机从停止向开始的迁移的启动时，指示使运转模式迁移通知源的第一节点的计算机100连接的内部网络开关120的端口120₁和外部网络开关130的端口130₁有效(步骤404)。相反，在停止集群节点的计算机时，即在停止集群控制程序202时，使这些端口无效(步骤405)。在除此之外的迁移、执行→待机、执行·待机→开始的情况下，不进行任何处理(在图4的流程中没有记载)。

在进行这些处理后，向通知的发送源发送网络结构变更的完成通知(步骤406)。

下面，关于集群控制计算机140保存的数据结构，参照图5(a)、(b)对实施例1的数据结构进行说明。该数据结构例如在集群控制计算机140内的设定文件中以集群控制计算机140所执行的程序可以解析的形式被进行记录，且这些程序可参照该数据结构。也可以在集群控制计算机140中具有生成这样的设定文件的步骤。

图5(a)所示的500是开关结构表。该表500保存构成集群的网络的内部网络开关120、外部网络开关130的信息。例如，存储控制用网络地址、控制程序的路径等。所述控制用网络地址是对内部网络开关120、外部网络开关130的设定进行变更的请求的发送源，所述控制程序安装实际进行端口的有效化、无效化的控制或取得统计信息的处理。

图5(b)所示的510是集群结构表。在该表510中保存集群的各节点的计算机与开关的哪一个端口连接。例如记录内部网络开关120和其端口号码、外部网络开关130和其端口号码。

网络控制程序242可以参照这些表500、510来变更集群的网络结构。

集群控制计算机140还具有在表内存储上述设定内容的步骤。

另外，在表510中也可以记录与有关过去取得的统计信息的记录有关的数据。关于这些，在实施例2中进行说明。

由此，可以与集群的运转模式迁移进行协作，在系切换时对构成集群的网络结构进行变更。由此，可以从集群中断开通过相互监视判定为已停止的节点的计算机，可以切实隔断发生了故障的节点的计算机的影响。除此之外，即使在对方节点的计算机暂时停止的情况下，也可以切实地防止两个节点的计算机的运转模式都变成执行状态。

(实施例2)

在实施例2中，除了实施例1的控制，还执行以下的控制。由集群控制计算机140执行的网络控制程序242参照内部网络开关120的端口收发的统计信息，在判断为来自对方节点的计算机的通信中断时，通知集群控制程序202、212，并请求系切换，上述内部网络开关120构成用于节点的计算机相互监视的网络。或者，网络控制程序242实施开关的控制，使判断为通信中断的对方节点的计算机所连接的端口无效。

下面，具体说明本发明的实施例2。在实施例2中，集群控制计算机140参照与内部网络开关120所收集的内部网络的通信状况有关的统计信息，变更集群的网络结构，由此实现对怀疑发生了故障的节点的计算机进行隔离的方式。

一般，构成网络的网络开关以连接计算机的各端口为单位对数据包收发数等统计信息进行记录。另外，可以从外部参照这些统计信息。

在实施例2中，由集群控制计算机140执行的内部网络监视程序241取得构成内部网络的内部网络开关120所取得的统计信息。具体而言，取得第一节点的计算机100的内部网络适配器103以及第二节点的计算机110的内部网络适配器113分别连接的内部网络开关120的端口120₁以及端口120₂的网络统计信息。

图6表示内部网络监视程序241的处理的流程。内部网络监视程序241在一定的周期执行步骤601至602的处理。首先，参照开关结构表500和集群结构表510，取得构成内部网络的内部网络开关120的端口的网络统计信息(步骤601)。具体而言，参照集群结构表510的内部网络的定义，求出该开关和端口的号码，取得并记录其统计信息。

在图5(b)所示的表510中，将第一节点的内部网络开关端口记载为120₁-120₃，意味着第一节点通过内部网络开关120的第一端口120₁、第三端口120₃与内部网络连接。这意味着在图1的结构中，在内部网络开关120的端口120₁上连接内部网络适配器103，在内部网络开关120的端口120₃上连接控制网络适配器102。同样，将第二节点的内部网络开关端口记载为120₂-120₄，意味着第二节点通过内部网络开关120的第二端口120₂、第四端口120₄与内部网络开关120连接。另一方面，将第一节点的外部网络开关端口记载为130₁，意味着第一节点通过外部网络开关130的第一端口130₁与外部网络连接。这意味着在图1的结构中，在外部网络开关130的端口130₁上连接了外部网络适配器101。同样，意味着第二节点通过外部网络开关130的端口130₂与外部网络开关130连接。而且，如果参照表500，则可以取得从内部网络开关120取得统计信息所需要的管理网络的地址、开关控制程序。通过这些，可以取得与构成内部网络的端口有关的统计信息。

然后，根据所取得的统计信息，判断集群的节点的运转状态(步骤602)。判断的条件多种多样，例如，可以在节点一定时间以上没有对内部网络开关120发送数据时判断为该节点已停止。

当存在判断为异常的节点时，使该节点为了与内部网络、外部网络连接而使用的端口无效(步骤603)。如果在这里参照表510，则也可以取得必须无效化的开关以及其端口号码。如果被判断为异常的节点的运转模式为执行状态，对方节点为待机状态，则对方节点的集群控制程序202、212执行系切换，将运转模式从待机状态迁移到执行状态。

根据以上，可以通过开关构成集群的内部网络，从集群中隔离根据在此处收集到的统计信息被判断为异常的节点。由此，与在节点执行的集群控制程序202或212独立地使发生了故障的节点从集群断开。例如，在由于集群控制程序或某种原因，节点的运转模式无法变更时，可以断开该节点，抑制对外部的影响。

除此之外，除了使异常节点的计算机所连接的端口无效之外，还可以由集群控制计算机140指示对剩余节点的计算机执行系切换(步骤604)。如果被指示的节点的计算机在该时刻的运转模式为待机状态，则可以开始进行启动系切换来迁移到执行状态的处理。由此，可以不等待节点的计算机的集群控制程序检测异常，来开始系切换处理。

在实施例2中，通过一个内部网络开关120来构成集群的内部网络，但也可以通过多个开关来构成。此时，可以在节点的计算机上搭载多个用于连接到内部网络的网络适配器，并在集群结构表510的内部端口记载多个端口。网络控制程序242执行记载在表510中的所有端口的有效化/无效化。另外，内部网络监视程序241也可以取得表510中记载的所有内部端口的统计信息来判断节点的计算机的运转状态。由此，即使构成内部网络的内部网络开关120中的一个发生了故障，也可以继续进行作为集群的动作。

此外，在上述实施例中，将内部网络开关120和外部网络开关130作为两个开关来构成，但不言而喻也可以将他们做成一个网络开关。

Claims

1.一种集群系统，其特征在于，

由以下各部分构成：

形成节点的两个计算机；

内部网络开关，用于两个所述计算机相互交换信息，分别监视另一计算机的正常和停止；

外部网络开关，用于将两个所述计算机和访问两个所述计算机来接收服务的客户端计算机连接；和

集群控制计算机，与所述内部网络开关连接，将两个所述计算机中的一个计算机作为对来自所述客户端计算机的请求进行处理的主系，将另一个计算机作为为了接替主系的处理而进行待机的从系，来控制运转模式，

所述内部网络开关以及外部网络开关和各个所述计算机的连接是通过从外部可以控制连接的无效、有效的端口来进行连接，而且，

所述两个计算机通过经由内部网络开关的信息交换判断是否需要进行运转模式迁移，并且所述集群控制计算机接收所述运转模式迁移的通知，将节点所连接的内部网络开关以及外部网络开关的端口变更为有效或无效。

2.根据权利要求1所述的集群系统，其特征在于，

在将所述节点的计算机的运转模式从待机状态迁移到运转状态时，所述集群控制计算机使连接之前处于运转状态的另一节点的计算机的所述内部网络开关的端口和为了向所述客户端计算机提供服务连接了所述另一节点的计算机的所述外部网络开关的端口无效。

3.根据权利要求1所述的集群系统，其特征在于，

在将所述节点的计算机的运转模式从停止状态迁移到开始状态时，所述集群控制计算机使连接该计算机的所述内部网络开关的端口和为了向所述客户端计算机提供服务连接了所述另一节点的计算机的所述外部网络开关的端口有效。

4.根据权利要求1所述的集群系统，其特征在于，

在将所述节点的计算机的运转模式迁移到停止状态时，所述集群控制计算机使连接该计算机的所述内部网络开关的端口和为了向所述客户端计算机提供服务连接了所述另一节点的计算机的所述外部网络开关的端口无效。

5.根据权利要求1所述的集群系统，其特征在于，

所述集群控制计算机是收集与所述内部网络开关的端口的有效化、无效化有关的数据的计算机，而且，参照该数据判断是否需要对与所述内部网络开关连接的计算机进行运转模式迁移，并且，所述集群控制计算机接收所述运转模式迁移的通知，将节点所连接的内部网络开关以及外部网络开关的端口变更为有效或无效。