CN1987804A - 并行计算系统中的冗余保护的方法和系统 - Google Patents

并行计算系统中的冗余保护的方法和系统 Download PDF

Info

Publication number
CN1987804A
CN1987804A CNA2006101465938A CN200610146593A CN1987804A CN 1987804 A CN1987804 A CN 1987804A CN A2006101465938 A CNA2006101465938 A CN A2006101465938A CN 200610146593 A CN200610146593 A CN 200610146593A CN 1987804 A CN1987804 A CN 1987804A
Authority
CN
China
Prior art keywords
computing node
node group
information
management
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101465938A
Other languages
English (en)
Other versions
CN100547558C (zh
Inventor
冈田雅州
大泽史朋
石井淑子
松尾直树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1987804A publication Critical patent/CN1987804A/zh
Application granted granted Critical
Publication of CN100547558C publication Critical patent/CN100547558C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2046Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant where the redundant components share persistent storage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component

Abstract

本发明的目的是提供一种方法、系统和程序,其中当在用于通过多处理器系统同步执行多个不同应用程序的并行处理的并行计算系统中发生故障时,通过将计算组切换到备用计算节点组,所述备用计算节点组可通过从发生故障的计算节点组中继承已经进入队列的作业而继续进行处理。此外,本发明的目的是提供一种方法、系统和程序,其中故障已被恢复的计算节点组被注册为新的待机备用计算节点组,并且如果再发生故障,它就作为可被用于切换的计算节点组。

Description

并行计算系统中的冗余保护的方法和系统
技术领域
本发明涉及一种实现提高并行计算系统的可靠性的冗余保护方法、系统和程序产品,该并行计算机利用多处理器系统执行多个应用程序的并行处理。
背景技术
近年来,随着计算机系统性能的显著增长和网络的提速,同步执行多个应用程序的并行处理的并行计算系统获得发展,并且在与网络连接的多个计算机系统组成的多处理器系统中实现了处理的提速。
在这种情况下,需要提供一种处理系统,其即使当在复杂的并行计算系统中发生故障时也可以高可靠度地运行且不停止处理,该并行计算机系统中多个应用程序被分布在多个计算机系统中并被并行处理。
因此,作为日本未审查专利出版物(kokai)No.H1-217642、No.H1-217643和No.H3-132861中公开的发明,提出了一种发明,其中提供有备用单元处理器,并且当有故障发生时,通过将单元处理器切换到备用单元处理器上来继续处理,以及另一种发明,通过利用多个处理器多路复用管理节点来应对管理节点的故障。
另外,作为目的在于提高多处理器系统的不停顿运行的可靠性的发明,公开有日本未审查专利出版物(kokai)No.H3-3351519中的标题为“服务器程序的管理处理系统”的发明,但是该发明中准备了至少两个双空间(bi-space)管理服务器,其中包括当前使用中的双空间管理服务器和待机双空间管理服务器,用于管理当前使用中的服务器和待机服务器,并且当前使用中的双空间管理服务器中的现有信息被写入存储器,而如果当前使用中的双空间管理服务器宕机,待机双空间管理服务器则充当当前使用中的双空间管理服务器。
不过,在如图1所示的传统的并行计算系统中,管理节点100包括用于把作业分配给计算节点组的作业调度器110和计算节点管理程序120,管理节点100管理执行计算和处理的所有计算节点组130。
如上所述,在现有技术中,管理节点和计算节点组相互集成,且仅仅通过把处理器或管理节点切换到备用处理器或备用管理节点来提供继续进行处理的功能,如果在网络的一部分中发生了故障或如果在其他组件的较大系统单元中发生故障(例如电源故障),则已进入队列的作业不能被移交给能够对其进行处理的计算节点组,并且部分处理不能被继续进行,于是整个系统被影响。
[专利文献1]
日本未审查专利出版物(kokai)No.H1-217642
[专利文献2]
日本未审查专利出版物(kokai)No.H1-217643
[专利文献3]
日本未审查专利出版物(kokai)No.H3-132861
[专利文献4]
日本未审查专利出版物(kokai)No.H3-3351519
发明内容
因此,本发明的目的在于提供一种方法、系统和程序产品,其中当在用于通过多处理器系统同步执行多个不同应用程序的并行处理的并行计算系统中发生故障时,通过将计算节点组切换到备用计算节点组,所述备用计算节点组可通过从发生故障的计算节点组中继承已经进入队列的作业而继续进行处理。
此外,本发明的目的是提供一种方法、系统和程序产品,其中故障已被恢复的计算节点组被注册为新的待机备用计算节点组,并且如果再发生故障,它就作为可被用于切换的计算节点组。
在具备包括至少一个备用计算节点组的多个计算节点组的并行计算系统中,多个用于向所述计算节点组分配作业的管理节点和具备各个计算节点组状态信息的信息管理服务器与所述计算节点组相关联,以及由所述各个管理节点通过访问所述信息管理服务器更新所述各个使用中的计算节点组状态信息。
同样,当所述管理节点检查到故障的发生时,由使用了所述计算节点组并且所述计算节点组因为故障随之失效的所述管理节点通过访问所述信息管理服务器中的计算节点组状态信息来标识备用计算节点组。
接着,由使用了所述计算节点组并且所述计算节点组随之失效的所述管理节点获得所述被标识的备用计算节点组的计算节点组信息。
此外,由使用了所述计算节点组并且所述计算节点组随之失效的所述管理节点可以基于所述被标识的备用计算节点组的计算节点组信息,通过把所述失效的计算节点组切换到作为将使用的计算节点组的所述被标识的备用计算节点组来继续进行处理。因此,可以在所述并行计算系统中进行冗余保护。
根据本发明,能够实现一种并行计算系统,即使在所述计算节点组的一部分因为网络的一部分的故障或电源故障以及并行计算系统中的计算节点组自身的故障而不能被使用时,其也能够通过立刻把当前计算节点组切换到待机备用计算节点组来继续进行对已进入队列的作业的处理。
另外,当所述有故障的计算节点组从所述故障中恢复后,其被登记为新的备用计算节点组,以便处理新的错误。
另外,通过在计划维护中切换到待机备用计算节点组来执行维护检查。因此,从用户视角看来,可以执行计划维护而无需停止系统。
附图说明
图1是并行计算系统(现有技术)的图;
图2是本发明的节点组的配置图;
图3是发生故障时的节点组的配置图;
图4是故障被恢复时的节点组的配置图;
图5是硬件和系统配置的图;
图6是方式A的系统配置图;
图7是说明方式A的计算节点组切换的图;
图8是说明正常操作的流程的流程图;
图9是说明从故障发生到故障恢复的流程的流程图;
图10是说明方式B的计算节点组切换的图;
图11是说明方式C的计算节点组切换的图;以及
图12是当提供有多个待机备用计算节点组时的系统配置图。
具体实施方式
如图2所示,本发明包括多个管理节点和多个计算节点组,而不是象图1所示的现有技术那样,由一个管理节点管理所有计算节点组。其理由将如下所示。
根据本发明,如图2所示,每个节点组200提供有管理节点210和计算节点组220,管理节点210包括用于把作业分配给计算节点组的作业调度器和用于管理计算节点组的节点管理程序。此外,在必须由计算节点组最多可以同步运行N个计算节点组来执行M个作业、并假设备有一个备用节点组的情况下,则整个系统中的计算节点组总数将是(N+1)。
也就是说,用于实现本发明的并行计算系统被提供有用于提供执行作业所需的最大资源的多个独立管理系统和至少一个备用系统。
如上所述,由于为每个计算节点组提供管理节点,并且相应计算节点组和相应管理节点都被容纳在单独的机柜上,所以即使某一个计算节点组中发生了故障,使用该发生了故障的计算节点组的管理节点也可通过切换到备用计算节点组而继续进行处理。
以下使用附图清楚地说明上述特征。如图3所示,在本发明中,如果在计算节点组m的管理节点m利用计算节点组m执行某些处理时在计算节点组m中发生了故障,则管理节点m可以通过把计算节点组m切换到备用节点组N来继续进行处理。
例如,一旦发生故障,管理节点组m就检查所述节点管理程序具有的作为数据的错误代码表,并且验证故障状态,例如Error/Failure/Fatal/Info/Severe/Warning。然后,如果管理节点m确定无法利用计算节点组m继续进行处理,则它将失效的计算节点组m切换到作为备用计算节点组的计算节点组N,并继续进行对包括已经通过作业调度器进入队列的作业的处理。
另外,作为已经进入队列的作业的例子,可以包括:作为任务执行的应用的二进制图像、传送到该应用的参数列表、运行该任务的节点的组名、该应用使用的节点数量、作业优先级等。
然后,如图4所示,如果通过切换到计算节点组N继续进行了处理之后计算节点组m的故障得以恢复,则计算节点组m被注册作为新的备用计算节点组。这样,即使再发生故障,使用了计算节点组并且所述计算节点组随之失效的管理节点也可通过把失效的计算机节点组切换到已经从失效状态恢复并充当备用计算节点组的计算节点组m,来继续进行处理。
如图1所示,在现有技术中,由于包括有作业调度器的管理节点与计算节点组相集成,因此如果在作业已经通过作业调度器进入了队列时某个计算节点组中发生了故障,则已经进入队列的作业不被处理。
但是,本发明具有的配置中提供多个管理节点和多个计算节点组,并且由于提供了下述方案,其中任意计算节点组的信息可被管理节点通过网络访问,并且可以通过进行管理节点和计算节点组之间的网络的切换来执行到备用计算节点组的切换,因此即使在某个计算节点组中发生故障,也能够通过切换到所述备用计算节点组而继续进行处理。
下面,将利用图5说明用于实现本发明的硬件配置的例子。用于实现本发明的并行计算系统具备信息管理服务器370、用户计算机300以及经由网络控制器315和380通过网络1连接于其上的多个管理节点服务器,还具备经由网络控制器365通过网络2连接于管理节点服务器的多个计算节点组等。
另外,每个计算节点组还包括多个节点卡360,中间(in-between)节点总线355连接在各个节点卡之间,并且每个节点卡360具有彼此之间通过内部总线相连的处理器345和存储器350。
接着各个节点卡360可通过中间节点总线355的动态互连而分组,由此使用多个处理器的并行操作处理得以执行,在该并行操作处理中一个应用程序在该组的单元中执行。
此处要注意,当通过中间节点总线355执行内部通信时,组中的每个处理器345都可执行程序。另外,计算节点组经由网络控制器365连接在外部网络2上,并且可与类似地经由网络控制器连接在网络2上的管理节点服务器进行通信。
下面将进行更详细的说明。在管理节点服务器1中具有作业调度器330和节点管理程序335,并且节点管理程序335通过网络2以及中间节点总线355和内部总线的路径,访问作为节点卡360上的硬件资源的存储器350、处理器345、总线控制器等;执行节点卡的分组和向已被分组的节点卡上的存储器加载程序,用来进行执行;获得计算节点组中的每个组件(处理器、存储器、总线等)的RAS信息;并控制该节点组。
此处要注意,所述RAS信息包括:发生故障的硬件的种类、发生故障的硬件本身的标识符、硬件故障种类(错误代码)、发生故障的软件、发生故障的作业的ID、作业状态(错误代码)等。
另外,由于所述管理节点服务器和所述计算节点组通过网络相互通信,如果例如管理节点服务器1使用的计算节点组中发生故障,则管理节点1可通过切换通信目的地的计算节点组的地址而切换节点管理程序335控制的计算节点组。
接下来,管理节点服务器1可以像这样改变通信目的地的计算节点组的地址的原因是,节点管理程序335可以访问计算节点组信息340和390以及计算节点组状态信息395,这些是控制计算节点组所需的信息段。
计算节点组信息包括每个计算节点组的标识信息、计算节点组的位置信息、计算节点组的故障信息等。
另外,计算节点组状态信息包括节点组ID、节点组在网络上的地址、节点组状态(“备用”、“使用中”、“故障”)等。
由此,节点管理程序335可通过访问计算节点组信息340和390以及计算节点组状态信息395用于获得上述信息而切换计算节点组。
另外,在节点管理程序335管理的节点组信息未存在于当地数据库340,而是存在于其它管理节点服务器或信息管理服务器370中的情形中,节点管理程序335可以经由通过网络控制器连接的网络与其它管理节点服务器或信息管理服务器370上的数据库管理程序375进行通信,并访问所需的节点组信息。
其间,通过管理节点上的作业调度器330来开始从管理节点的作业执行。通过使用作业调度器客户机310将对计算节点组进行操作的应用的进入请求从通过网络1连接的用户计算机300输入到作业调度器330,而执行对作业调度器330的作业进入,其中所述应用在用户计算机300的硬盘305上存在。
被输入了作业的作业调度器330检索可通过节点管理程序产品输入新作业的硬件资源,并如果有任何可用硬件资源,即请求节点管理程序开始新作业。
其间,如果没有可输入新作业的硬件资源,则作业请求被置于管理节点服务器的存储器上的队列中。如上所述,已经接收了作业执行请求的节点管理程序接着通过网络2把计算节点组中的节点卡分组,并且如果任意可用的硬件资源受保护,则其读入应用以开始处理。
同样,已经通过网络2从计算节点组接收了RAS信息的管理节点服务器上的节点管理程序335通过网络1与信息管理服务器370上的数据管理程序375进行通信,并引用和更新连接于信息管理服务器370的数据库385中的计算节点组状态信息395。计算节点状态信息可包括每个计算节点组的状态(“备用”、“使用中”、“故障”)、计算节点组在网络2上的地址等。
如果计算节点组中发生故障,则已使用发生了故障的计算节点组的节点管理程序通过经由网络1引用信息管理服务器中的计算节点组状态信息395从而获得备用计算节点组的地址,来检索“备用”计算节点组,并且管理节点的节点管理程序切换节点组信息的引用目的地和被控制的计算节点组的地址,并可通过使用待机模式下的普通备用计算节点组来继续进行同样包括队列中的由作业调度器进行管理的作业在内的处理。
这时,节点管理程序把新被使用的节点组的计算节点组状态信息由“备用”改变到“使用中”,并且还把发生了故障的计算节点组的信息改变到“故障”。当计算节点组通过维护工作被恢复至正常状态时所述状态从“故障”改变到“备用”。
至此如上所述,计算节点组信息包括每个计算节点组的标识信息、计算节点组的位置信息、计算节点组的故障信息等,而计算节点组状态信息包括例如节点组状态(“备用”、“使用中”、“故障”)等的信息。
另外,有以下三种如何管理计算节点组信息和计算节点组状态信息的方式。
方式A:信息管理服务器管理全部计算节点组信息和全部计算节点组状态信息(“备用”、“使用中”、“故障”)。
方式B:每个管理节点管理每个计算节点组的计算节点组信息,而信息管理服务器管理全部计算节点组状态信息(“备用”、“使用中”、“故障”)。
方法C:每个管理节点管理全部计算节点组的计算节点组信息,信息管理服务器管理全部计算节点组状态信息(“备用”、“使用中”、“故障”)。
下面分别用实施例1、2和3详细描述方式A、B和C。
如图6所示,在方式A中,信息管理服务器管理全部计算节点组信息和全部计算节点组状态信息。换句话说,信息管理服务器集中管理例如并行计算系统的每个管理节点使用哪个计算节点组、哪个计算节点组发生了故障、或者哪个计算节点组处于待机状态作为备用计算节点组等信息。
然后每个管理节点的节点管理程序通过经由网络访问信息管理服务器更新其自身节点的计算节点组信息。
因此,如图7所示,如果计算节点组1中发生故障,则管理节点1的节点管理程序通过引用信息管理服务器中的计算节点组状态信息获得计算节点组N是备用计算节点组的信息。于是基于信息管理服务器中的计算节点组信息,管理节点1使用的计算节点组1被切换到计算节点组N。
由于每个管理节点具有关于已经排队的作业的信息,所以能够在发生故障时利用新的计算节点组继续进行对已排队的作业的处理。
接着用图8描述发生故障前的正常操作的处理流程。
首先,当作业从客户机程序输入到作业调度器m时,作业调度器m开始执行作业处理(步骤400)。
然后作业调度器m向节点管理程序m问询是否有作业执行所需的资源(步骤410)。
作为响应,节点管理程序m返回可用硬件和其各自状态的列表(可用/不可用)(步骤420)。
然后,作业调度器m验证是否有可用资源(步骤430),如果没有所需要的可用资源,则再一次返回到可用资源验证步骤410。其间,如果有可用资源,则作业调度器m要求节点管理程序m输入该作业(步骤440)。
当作业被输入后,节点管理程序m接着把计算节点组分组以执行作业处理(步骤450),将应用读入计算节点组来执行处理(步骤460),在应用处理结束后(步骤470),通知作业调度器m作业终止(步骤480)。
下面,将利用图9描述方式A的情形中发生故障时的详细处理流程。首先,在计算节点组m中发生故障时(步骤500),RAS信息通过连接在管理节点m和计算节点组m之间的网络通知给管理节点m的节点管理程序m。节点管理程序m验证传来的错误代码,如果故障是不可恢复的故障,则认为节点组m已发生故障(步骤505)。
另外,为了检测发生在连接在管理节点m和计算节点组m之间的网络的故障,或在生成RAS信息的机制自身所发生的故障,管理节点m的节点管理程序m周期性地通过网络查询关于节点组m的信息。另外,如果没有针对该查询的响应,也可以认为节点组m中发生了故障(步骤505)。
此处要注意,“故障发生”的信息被传送给作业调度器m(步骤510),于是从作业调度器向节点组m的作业进入被停止(步骤545)。
现在解释作为示例的某个并行计算系统,“故障发生”信息是所述RAS信息中的作业ID、作业状态信息等。识别了故障的作业调度器尝试执行作业的重新进入,并且在这种情况下,作业调度器在从作业调度器向节点组输入作业时首先向节点管理程序查询是否有可用硬件资源。
作为该查询的结果,返回节点组中的可用硬件资源和各自的状态信息(“备用”、“使用中”、“故障”)的列表。在故障发生时,节点管理程序根据RAS信息识别故障的发生,然后硬件资源处于“故障”的信息传送到作业调度器。因此,被通知没有任何节点组的硬件资源可用的作业调度器停止作业输入请求(步骤545)。然后,作业调度器向节点管理程序周期性地查询是否有可用资源。
然后,如图9的步骤515所示,节点管理程序m检索到信息管理服务器上的计算节点组状态信息为“备用”的节点组,并从信息管理服务器获得计算节点N是备用计算节点组的信息(步骤515)。然后节点管理程序m获得计算节点组N的计算节点组信息(步骤520),并把计算节点组信息的应用目的地从计算节点组m切换到计算节点组N。
新被使用的节点组N的状态从“备用”改变到“使用中”,而曾经是“使用中”的节点组m的状态改变到“故障”(步骤525),于是节点管理程序m与计算节点组N建立连接(步骤530)。通过把连接目的地从管理节点m改变到从信息管理服务器的计算节点组状态信息获得的计算节点组N的网络地址来执行连接切换。
当管理节点与作为备用计算节点组的计算节点组N建立了连接时,通过从节点管理程序向周期性地查询可用资源的作业调度器返回包括可用硬件资源的列表,向作业调度器通知“系统恢复”信息(步骤535),并且从作业调度器输入的作业重新继续,从而在计算节点组N中开始作业处理(步骤540)。
在此要注意,一旦计算节点组m的故障被修复(步骤555),计算节点组m的状态就从“故障”切换到“备用”,并且计算节点组m注册作为新的备用计算节点组(步骤560)。
另外,对于其他方式B和C,虽然计算节点组信息存在的地点上有所不同,但其基本流程与如上所述的方式A的相同。
下面将描述如图10所示的方法B。在方式B中,每个管理节点管理每个计算节点组的计算节点组信息,而信息管理服务器管理全部计算节点组状态信息。
因此,与方式A不同,在使用中的计算节点组是同一个节点中的计算节点组时,方式B中的每个节点管理程序可通过在本地访问同一管理节点中的计算节点组信息更新计算节点组信息。
其间,当使用中的计算节点组与管理节点不在同一个节点时,节点管理程序通过经由网络访问具有相应的节点组信息的管理节点来更新计算节点组信息。
而且,仅在计算节点组状态信息改变时,节点管理程序才通过访问信息管理服务器来更新计算节点组状态信息,例如“备用”、“使用中”和“故障”。
作为结果,当计算节点组1中发生故障时,管理节点1中的节点管理程序通过引用信息管理服务器中的计算节点组状态信息来识别计算节点组N待机作为备用。然后,管理节点1中的节点管理程序通过把计算节点组1切换到作为将使用的计算节点组的备用计算节点组N来继续进行处理。
第三实施例
接着,将描述图11中所示的方式C。在方式C中,每个管理节点管理全部计算节点组的计算节点组信息,而信息管理服务器管理全部计算节点组状态信息(“备用”、“使用中”、“故障”)。
因而,在方式C中,例如,关于管理节点1使用的计算节点组1的计算节点组1的信息和关于作为备用计算节点组的计算节点组N的信息都在本地节点即管理节点1中。
因此,如图11所示,在方式C中,当计算节点组1中发生了故障时,管理节点1中的节点管理程序通过引用信息管理服务器中的计算节点组状态信息来标识计算节点组N待机作为备用,并且通过查询关于同一管理节点1上的计算节点组N的信息,可以通过将计算节点组1切换到作为将使用的计算节点组的备用计算节点组N来继续进行处理。
此外,更新要使用的计算节点组信息不需要经由网络访问信息管理服务器,而仅需要更新同一管理节点中作为节点管理程序的计算节点组信息。
在此要注意,在每个管理节点中的备用计算节点组信息可能是一样的,而关于与所述节点组不同的节点组的信息可能没有被保持为具有相同值。结果,每个管理节点的节点管理程序可更新计算节点组信息,该计算节点组信息存在于其自身的管理节点中,并且被其自身使用。
当计算节点组状态信息变化时,计算节点控制程序通过访问信息管理服务器来更新计算节点组状态信息,例如“备用”、“使用中”和“故障”。
另外,尽管上述说明中描述的待机备用计算节点组是一个,但也可以构成为具有多个备用计算节点组。
当提供有多个待机备用计算节点组时,存在计算节点组状态信息为“备用”的多个计算节点组,例如图12所示的计算节点组N和计算节点组N+n。发生了故障的节点的节点管理程序然后检索要切换到的计算节点组,并且仅切换到最先发现的备用计算节点组,其切换方式与所述的备用计算节点组只有一个时的方式相同。
如果有多个待机备用计算节点组,即使一个备用计算节点组由于某个计算节点组发生故障而被使用,且在当该发生了故障的计算节点组仍没有被修复时另一个计算节点组中发生另一故障时,也可以通过将计算节点组切换到另一个备用节点组来继续进行处理,这样可以构建无需中断系统的更可靠的系统。
另外,运行在管理节点中的节点管理程序被多路复用。或者,如果提供了由一个管理节点程序管理的多个节点组的实例,则一个节点可管理多个计算节点组,从而能够具有其中计算节点组的数量大于管理节点的数量的配置。
另外,本方面的多种实施例可以通过多种硬件和软件配置来实现。另外,用于实现本发明的程序可以存储在外部存储媒体上。另外,作为外部存储媒体,除了CD-ROM和软盘之外,还可以使用光记录媒体(例如DVD)、光磁记录媒体(例如MO)、磁带媒体、半导体存储媒体(例如IC卡)等。其间,例如连接在因特网或私有电信网络上的服务器系统中的硬盘和RAM等存储装置也可以用作记录媒体,从而经由网络向计算机提供程序。

Claims (10)

1.一种在具备包括至少一个备用计算节点组的多个计算节点组的并行计算系统中的冗余保护方法,包括以下步骤:
把多个用于向所述计算节点组分配作业的管理节点和具备各个计算节点组状态信息的信息管理服务器与所述计算节点组相关联;
由所述各个管理节点通过访问所述信息管理服务器更新所述各个使用中的计算节点组状态信息;
由所述管理节点检查故障的发生;
由使用了所述计算节点组并且所述计算节点组因为故障随之失效的所述管理节点通过访问所述信息管理服务器中的计算节点组状态信息来标识备用计算节点组;
由使用了所述计算节点组并且所述计算节点组随之失效的所述管理节点获得所述被标识的备用计算节点组的计算节点组信息;以及
由使用了所述计算节点组并且所述计算节点组随之失效的所述管理节点基于所述被标识的备用计算节点组的计算节点组信息,通过把所述失效的计算节点组切换到作为将使用的计算节点组的所述标识的备用计算节点组来继续进行处理。
2.根据权利要求1所述的方法,其中所述通过切换到所述备用计算节点组继续进行处理的步骤包括:在故障发生时由所述备用计算节点组处理已通过所述管理节点的作业调度器进入队列的作业的步骤,所述管理节点使用了所述计算节点组并且所述计算节点组随之失效。
3.根据权利要求1所述的方法,其中当所述失效计算节点组的故障被恢复后,所述失效计算节点组登记到所述信息管理服务器作为新的备用计算节点组。
4.根据权利要求1所述的方法,其中通过把同步进行所述作业所需要的备用计算节点组的数量加上所述至少一个计算节点组的数量,提供所述计算节点组的总数。
5.根据权利要求1所述的方法,其中所述计算节点组信息包括:计算节点组的标识信息、计算节点组的位置信息、计算节点组的故障信息,以及所述计算节点组状态信息包括用于指示计算节点组的状态的信息。
6.根据权利要求1所述的方法,其中所述各个计算节点组状态信息和所述计算节点组的所述各个计算节点组信息由所述信息管理服务器集中管理。
7.根据权利要求1所述的方法,其中各个计算节点组状态信息由所述信息管理服务器集中管理,而所述计算节点组的所述各个计算节点组信息由所述各个管理节点管理。
8.根据权利要求1所述的方法,其中所述各个计算节点组状态信息由所述信息管理服务器集中管理,而所述各个管理节点管理所述各个计算节点组的所述计算节点组信息和所述备用计算节点组的所述计算节点组信息。
9.一种具备包括至少一个用于冗余保护的备用计算节点组的多个计算节点组的并行计算系统,包括:
具备多个用于向计算节点组分配作业的管理节点和具有各个计算节点组状态信息的信息管理服务器;
用于由所述各个管理节点通过访问所述信息管理服务器更新所述各个使用中的计算节点组状态信息的装置;
用于由所述管理节点检查故障的发生的装置;
用于由使用了所述计算节点组并且所述计算节点组因为故障随之失效的所述管理节点通过访问所述信息管理服务器中的计算节点组状态信息来标识备用计算节点组的装置;
用于由使用了所述计算节点组并且所述计算节点组随之失效的所述管理节点获得所述备用计算节点组的计算节点组信息的装置;以及
用于由使用了所述计算节点组并且所述计算节点组随之失效的所述管理节点基于所述备用计算节点组的计算节点组信息,通过把所述失效的计算节点组切换到作为将使用的计算节点组的所述备用计算节点组来继续进行处理的装置。
10.一种具备包括至少一个用于冗余保护的备用计算节点组的多个计算节点组的并行计算系统,包括:
具备多个用于向计算节点组分配作业的管理节点和具有各个计算节点组状态信息的信息管理服务器;以及
管理节点,其具备存储在所述管理节点的存储媒体之中的节点管理程序产品;
其中,所述节点管理程序产品使所述管理节点运行作为:
用于通过访问所述信息管理服务器更新各个使用中的计算节点组状态信息的装置;
用于检查故障的发生的装置;
用于通过访问所述信息管理服务器中的计算节点组状态信息来标识备用计算节点组的装置;
用于获得所述被标识的备用计算节点组的计算节点组信息的装置;以及
用于基于所述被标识的备用计算节点组的计算节点组信息,通过把因为故障而失效的计算节点组切换到所述备用计算节点组来继续进行处理的装置。
CNB2006101465938A 2005-12-22 2006-11-15 并行计算系统中的冗余保护的方法和系统 Expired - Fee Related CN100547558C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP369863/2005 2005-12-22
JP2005369863A JP2007172334A (ja) 2005-12-22 2005-12-22 並列型演算システムの冗長性を確保するための方法、システム、およびプログラム

Publications (2)

Publication Number Publication Date
CN1987804A true CN1987804A (zh) 2007-06-27
CN100547558C CN100547558C (zh) 2009-10-07

Family

ID=38184609

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006101465938A Expired - Fee Related CN100547558C (zh) 2005-12-22 2006-11-15 并行计算系统中的冗余保护的方法和系统

Country Status (3)

Country Link
US (1) US8713352B2 (zh)
JP (1) JP2007172334A (zh)
CN (1) CN100547558C (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009092322A1 (zh) * 2008-01-18 2009-07-30 Huawei Technologies Co., Ltd. 一种多处理器系统故障恢复的方法及装置
CN102385536A (zh) * 2010-08-27 2012-03-21 中兴通讯股份有限公司 一种实现并行计算的方法及系统
CN102651712A (zh) * 2012-05-10 2012-08-29 华为技术有限公司 多处理器系统的节点路由方法、控制器及多处理器系统
CN102999385A (zh) * 2012-11-06 2013-03-27 苏州懿源宏达知识产权代理有限公司 计算设备中多处理器协同处理方法
CN103309764A (zh) * 2013-07-04 2013-09-18 曙光信息产业(北京)有限公司 虚拟机的容错机制的保护方法和装置
CN104601647A (zh) * 2013-10-30 2015-05-06 三星Sds株式会社 集群节点状态变更装置及方法
WO2014173295A3 (en) * 2013-04-26 2016-02-25 Huawei Technologies Co., Ltd. System and method for creating highly scalable high availability cluster in a massively parallel processing cluster of machines in a network
CN105511310A (zh) * 2015-11-30 2016-04-20 马鞍山市示范生产力促进中心有限公司 一种应用于轨道交通的计算机系统
CN107222352A (zh) * 2017-06-30 2017-09-29 郑州云海信息技术有限公司 一种管理网恢复方法及装置
CN108445857A (zh) * 2018-05-04 2018-08-24 南京国电南自轨道交通工程有限公司 一种scada系统的1+n冗余机制设计方法

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8495413B2 (en) * 2009-12-15 2013-07-23 Unisys Corporation System and method for providing a computer standby node
US9361624B2 (en) * 2011-03-23 2016-06-07 Ipar, Llc Method and system for predicting association item affinities using second order user item associations
JP6025161B2 (ja) * 2011-12-26 2016-11-16 ハンファテクウィン株式会社Hanwha Techwin Co.,Ltd. 電子部品実装の最適化方法及び最適化プログラム
US8943353B2 (en) 2013-01-31 2015-01-27 Hewlett-Packard Development Company, L.P. Assigning nodes to jobs based on reliability factors
US20140250319A1 (en) * 2013-03-01 2014-09-04 Michael John Rieschl System and method for providing a computer standby node
JP6213169B2 (ja) * 2013-11-12 2017-10-18 富士通株式会社 ジョブ管理プログラム、ジョブ管理方法及びジョブ管理装置
CN106528324A (zh) * 2015-09-10 2017-03-22 华为技术有限公司 故障恢复的方法和装置
CN105700975B (zh) * 2016-01-08 2019-05-24 华为技术有限公司 一种中央处理器cpu热移除、热添加方法及装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01217642A (ja) 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> 並列計算機の冗長構成方式
JPH01217643A (ja) 1988-02-26 1989-08-31 Nippon Telegr & Teleph Corp <Ntt> 並列計算機の冗長構成方式
JPH03132861A (ja) 1989-10-19 1991-06-06 Agency Of Ind Science & Technol マルチプロセッサ・システムの再構成制御方式
JP2785992B2 (ja) 1990-02-13 1998-08-13 富士通株式会社 サーバプログラムの管理処理方式
JP3300776B2 (ja) * 1994-03-15 2002-07-08 株式会社日立製作所 並列プロセッサの切替え制御方式
JPH08185330A (ja) * 1994-12-28 1996-07-16 Nippon Telegr & Teleph Corp <Ntt> 冗長コンピュータシステム切り替え方法
JPH08202573A (ja) * 1995-01-27 1996-08-09 Fuji Electric Co Ltd 二重化システムにおけるras情報の保存方法
JP3657665B2 (ja) * 1995-02-14 2005-06-08 富士通株式会社 共用メモリに結合される複数の計算機システム及び共用メモリに結合される複数の計算機システムの制御方法
US6154765A (en) * 1998-03-18 2000-11-28 Pasocs Llc Distributed digital rule processor for single system image on a clustered network and method
US6718486B1 (en) * 2000-01-26 2004-04-06 David E. Lovejoy Fault monitor for restarting failed instances of the fault monitor
JP4465824B2 (ja) * 2000-07-06 2010-05-26 富士電機システムズ株式会社 コントローラシステム
JP4335429B2 (ja) * 2000-11-09 2009-09-30 三菱重工業株式会社 系切替制御装置、及び制御装置のcpu二重化システム
US7100076B2 (en) * 2003-05-09 2006-08-29 Hewlett-Packard Development Company, L.P. Minimum latency reinstatement of database transaction locks
JP4363914B2 (ja) * 2003-06-20 2009-11-11 株式会社東芝 クラスタシステム
US8191078B1 (en) * 2005-03-22 2012-05-29 Progress Software Corporation Fault-tolerant messaging system and methods

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009092322A1 (zh) * 2008-01-18 2009-07-30 Huawei Technologies Co., Ltd. 一种多处理器系统故障恢复的方法及装置
CN102385536B (zh) * 2010-08-27 2014-06-11 中兴通讯股份有限公司 一种实现并行计算的方法及系统
CN102385536A (zh) * 2010-08-27 2012-03-21 中兴通讯股份有限公司 一种实现并行计算的方法及系统
CN102651712A (zh) * 2012-05-10 2012-08-29 华为技术有限公司 多处理器系统的节点路由方法、控制器及多处理器系统
CN102999385A (zh) * 2012-11-06 2013-03-27 苏州懿源宏达知识产权代理有限公司 计算设备中多处理器协同处理方法
US9448966B2 (en) 2013-04-26 2016-09-20 Futurewei Technologies, Inc. System and method for creating highly scalable high availability cluster in a massively parallel processing cluster of machines in a network
WO2014173295A3 (en) * 2013-04-26 2016-02-25 Huawei Technologies Co., Ltd. System and method for creating highly scalable high availability cluster in a massively parallel processing cluster of machines in a network
CN103309764A (zh) * 2013-07-04 2013-09-18 曙光信息产业(北京)有限公司 虚拟机的容错机制的保护方法和装置
CN104601647A (zh) * 2013-10-30 2015-05-06 三星Sds株式会社 集群节点状态变更装置及方法
CN104601647B (zh) * 2013-10-30 2018-09-28 三星Sds株式会社 集群节点状态变更装置及方法
CN105511310A (zh) * 2015-11-30 2016-04-20 马鞍山市示范生产力促进中心有限公司 一种应用于轨道交通的计算机系统
CN107222352A (zh) * 2017-06-30 2017-09-29 郑州云海信息技术有限公司 一种管理网恢复方法及装置
CN107222352B (zh) * 2017-06-30 2020-09-18 苏州浪潮智能科技有限公司 一种管理网恢复方法及装置
CN108445857A (zh) * 2018-05-04 2018-08-24 南京国电南自轨道交通工程有限公司 一种scada系统的1+n冗余机制设计方法
CN108445857B (zh) * 2018-05-04 2021-06-15 南京国电南自轨道交通工程有限公司 一种scada系统的1+n冗余机制设计方法

Also Published As

Publication number Publication date
CN100547558C (zh) 2009-10-07
US20070180288A1 (en) 2007-08-02
US8713352B2 (en) 2014-04-29
JP2007172334A (ja) 2007-07-05

Similar Documents

Publication Publication Date Title
CN100547558C (zh) 并行计算系统中的冗余保护的方法和系统
CN1645389B (zh) 用于实现高可用性系统的远程企业管理的系统和方法
US11269718B1 (en) Root cause detection and corrective action diagnosis system
CN100470494C (zh) 集群可用性管理方法和系统
CN1669001B (zh) 用于在服务器整合环境中执行业务连续性策略的方法和装置
WO2017140131A1 (zh) 数据写入、读取方法及装置、云存储系统
CN102402395B (zh) 基于仲裁磁盘的高可用系统不间断运行方法
EP2281240B1 (en) Maintaining data integrity in data servers across data centers
CN101689114B (zh) 用于集群软件实体的动态cli映射
CN101137984B (zh) 用于分布加载数据库的系统、方法和软件
CN100444140C (zh) 多重连接管理装置及管理方法
CN103248667B (zh) 一种分布式系统的资源访问方法和系统
CN110807064B (zh) Rac分布式数据库集群系统中的数据恢复装置
CN103917972A (zh) 用于在集群数据库环境中提供会话亲和性和改善的连通性的系统和方法
CN101535978A (zh) 分布式服务器系统中的消息转发备份管理器
CN1972312A (zh) 用于选择存储群集以用来存取存储装置的方法和系统
CN103593266A (zh) 一种基于仲裁盘机制的双机热备方法
WO2012145963A1 (zh) 数据管理系统及方法
BE1024939B1 (nl) Systeem en apparaat voor het gegarandeerd precies eenmalig verwerken van een gebeurtenis in een verdeelde gebeurtenissen-aangedreven omgeving
CN114003350B (zh) 超融合系统的数据分配方法和系统
US7120821B1 (en) Method to revive and reconstitute majority node set clusters
US20210191916A1 (en) Storage-Optimized Data-Atomic Systems and Techniques for Handling Erasures and Errors in Distributed Storage Systems
US20080250421A1 (en) Data Processing System And Method
US20190124145A1 (en) Method and apparatus for availability management
US20190268179A1 (en) Method and system for high availability topology for master-slave data systems with low write traffic

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20091007

Termination date: 20201115