CN1719415A - 用于管理可扩展计算机系统的方法和系统 - Google Patents

用于管理可扩展计算机系统的方法和系统 Download PDF

Info

Publication number
CN1719415A
CN1719415A CN200510082548.6A CN200510082548A CN1719415A CN 1719415 A CN1719415 A CN 1719415A CN 200510082548 A CN200510082548 A CN 200510082548A CN 1719415 A CN1719415 A CN 1719415A
Authority
CN
China
Prior art keywords
node
subregion
instrument
expanding
product
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200510082548.6A
Other languages
English (en)
Inventor
詹姆斯·J·博泽克
康纳·B·弗莱恩
德博雷·L·麦克唐纳
维诺德·迈诺恩
保罗·A·斯考格隆德
托尼·W·奥弗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1719415A publication Critical patent/CN1719415A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/34Signalling channels for network management communication
    • H04L41/344Out-of-band transfers

Abstract

一种用于远程管理可扩展计算机系统的方法和系统。把相关联的元件嵌入在服务器和相关联的控制台上。为每个分区提供服务处理器,其中所述服务处理器支持所述服务器和指定的分区之间的通信。操作者可以发现并确认计算机系统中元件的可用性。另外,操作者可以平衡从相关联的发现和确认接收的数据,以便配置或重新配置支持计划的工作量的系统中的分区。

Description

用于管理可扩展计算机系统的方法和系统
技术领域
本发明涉及一种用于管理可扩展(scalable)计算机系统的工具。更具体地说,所述工具支持配置并管理可扩展系统的每个组件和资源。
背景技术
按照定义,多处理器系统包含多个处理器,在此也称为CPU,其可以以一种称为并行计算的方式同时执行多个进程或者在单个进程内同时执行多个线程。一般说来,多处理器系统执行多个进程或者线程比例如个人计算机(PC)的顺序执行程序的常规单处理器系统快。实际的性能优势是多个因素的作用,这些因素包括可以并行执行部分多线程进程和/或多个不同进程的程度以及特定的多处理器系统的体系结构。一个关键因素是存在于现代多处理器中的高速缓存器。因此,可以通过在CPU上运行进程和线程来优化性能,所述CPU的高速缓存器包含那些进程和线程将要使用的存储器。
现代多处理器计算机系统是可扩展的计算机系统,其通常由多个节点组成,这些节点经由电缆互连。可扩展的计算机系统支持静态或者动态地添加和/或删除系统资源。可扩展系统的益处在于它适于把改变与系统的容量、配置和速度相关联。在不停止应用程序在系统上的执行的情况下,可扩展系统可以被扩大来实现更好的资源利用。
可扩展的多处理器计算系统可以依照硬件被分区,以便使计算机上的资源子集可用于具体应用。分区(partition)是能够执行一个操作系统映像的高速缓存相干节点的集合。每个分区具有一个主节点和可选的次节点。在动态分区的系统中,可以在操作期间重新配置资源分配以便更加有效地运行应用程序。对可动态分区的可扩展计算机系统的管理较为复杂。一些现有的解决方案对系统资源的人工配置提供了支持。然而,这些解决方案不支持系统资源的动态分区。因此,系统资源的人工配置要求临时关闭受影响的资源,直到完成重新配置。
在Zalewski等人提出的第6,260,068号美国专利中给出了一种现有的解决方案,其建议在多分区(multi-partition)的计算机系统中在各个分区之间动态移动硬件资源。每个分区具有至少一个处理器、存储器和I/O电路。所述分区中的某些资源可被分配给另一分区。采用了能够通过把一个分区的资源重新分配给另一分区来动态重新配置分区的机制。所述硬件资源是基于从一个分区到第二分区的请求而被重新分配的。然而,Zalewski等人局限于在多分区的计算系统中在各个分区之间移动硬件资源,而未能解决对分区内的资源的高级管理。
因此,需要一种用于提供可扩展的计算机系统和系统资源的动态配置和管理的工具。
发明内容
本发明包括一种用于创建可扩展计算机系统并且用于管理所创建系统的功能的工具。
依照本发明的第一方面,提供了一种用于管理计算机系统的方法。从一个未分配的可扩展节点创建可扩展的计算机系统。另外,远程管理所述系统内的可扩展功能以及所述系统的一个分区内的可扩展分区功能。
依照本发明的另一方面,提供了一种在计算机可读信号承载介质中的产品。提供了用于从一个未分配的节点创建可扩展计算机系统的介质中的装置;另外,提供了用于远程管理可扩展功能,以及用于远程管理所述系统的分区内的可扩展分区功能的介质中的装置。
依照本发明的又一方面,提供了一种计算机管理工具。所述工具包括协调器,适于从一个未分配的节点创建可扩展的计算机系统。提供远程功能管理器以便控制可扩展功能,并且提供远程分区管理器以便控制可扩展分区功能。
从下面结合附图对本发明目前的优选实施例的详细说明,本发明的其它特征和优点将变得显而易见。
附图说明
图1是依照本发明优选实施例的计算机管理工具的方框图。
图2是举例说明管理工具的元件功能的概况的流程图。
图3是举例说明发现系统部件的过程的流程图。
图4是举例说明确认(validate)系统部件的过程的流程图。
图5是举例说明配置分区的过程的流程图。
图6是举例说明向系统部件供电的过程的流程图。
图7是举例说明取消对系统部件的供电的过程的流程图。
图8是举例说明配置远程I/O附件的过程的流程图。
具体实施方式
概述
一种用于提供可扩展计算机系统的综合硬件分区管理的工具。所述工具提供了在所述计算机系统中所有节点的概况,包括关于可扩展节点和可扩展分区的细节。所述工具使操作者能从一个未分配(unassigned)的可扩展节点来创建可扩展计算机系统,并且管理可扩展分区功能。所述工具平衡服务处理器以便确定哪些节点属于所述可扩展系统。基于通信协议,可以把在所提供的时间帧内响应发现请求的节点添加到所述系统。发现请求之后,所述工具可以确认在系统中哪些端口起作用。从所述发现请求接收的结果和/或端口的确认能够把响应单元集成到所述系统中。因此,所述工具是能够管理可扩展计算机系统的单个接口。
技术细节
图1是示出了在所述可扩展计算机系统内管理工具(5)的物理位置的图表(10)。所述系统中支持所述工具的功能的基本元件包括管理控制台(20)、管理服务器(30)、服务处理器(15)和在分区内的节点上执行的操作系统(40)。管理控制台(20)具有三个嵌入工具:系统发现工具(22)、系统确认工具(24)和系统配置工具(26)。控制台工具(22)、(24)和(26)嵌入在物理上与管理服务器(30)分离的控制台(20)上。在一个实施例中,控制台(20)和服务器(30)可以是两个独立的机器,或者合并为一个机器。每个控制台工具(22)、(24)和(26)分别支持系统发现、系统确认和分区管理。所述管理服务器(30)包括用于存储分区信息的应用数据库(38),和三个嵌入工具组件:分区管理工具(32)、用于使能和禁止在远程I/O附件中的插槽的配置工具(34)以及用于支持试通(ping)任务的发现和确认工具(36)。服务器的嵌入工具组件为对应的控制台组件提供了支持的基础结构。嵌入在所述服务器(32)中的分区管理工具结合控制台的可扩展系统配置工具(22)来起作用。类似地,嵌入在所述服务器中的配置工具(34)结合嵌入在所述控制台(20)中的可扩展系统配置工具(24)来起作用,而嵌入在所述服务器中的发现和确认工具(36)结合嵌入在所述控制台(20)中的可扩展系统发现和可扩展系统确认工具(26)来起作用。每个分区在其主节点与服务处理器(15)通信。在一个实施例中,具有多个分区的系统可以包括多个服务处理器,每个服务处理器使与所述管理服务器(30)的通信便于进行。示出的每个分区(40)包括服务处理器设备驱动器(42)和管理工具的代理(44)。所述设备驱动器(42)支持服务处理器(15)和分区(40)之间的通信。类似地,所述代理(44)支持管理工具和分区(40)之间的通信。因此,所述管理工具包括嵌入在所述系统不同组件内的元件,以便能够从远程控制台来控制这种元件。
如图1所示,所示出的工具(5)的元件嵌入在管理应用的服务器和控制台内。管理控制台(20)和服务器(30)之间的通信是带内的,即通过内部通信协议,利用管理工具(5)来使其便于进行。类似地,所述系统中从服务处理器(15)到任何分区(40)的通信以及所述系统中从工具(5)到任何分区(40)的通信是带内的。然而,从服务器(30)到服务处理器(15)的所有通信都是带外的,即通过外部通信协议。因此,分别嵌入在所述控制台和服务器中的工具和应用提供了所有元件以便支持所述系统内的节点和分区的管理。
图2是示出所述管理工具的高级视图以及其怎样管理分区和分区功能的流程图(70)。第一步要求所述计算机系统的硬件与所述管理工具物理上相连(72)。此后,配置所述服务处理器以便与管理工具外部通信(74)。在一个实施例中,这包括为每个服务处理器(15)建立因特网协议地址,并且配置用户标识符和与所述服务处理器(15)相关联的密码。一旦完成步骤(72)和(74),那么启动管理控制台(20)(76),并且发现所述计算机系统的物理平台(节点)(78)。在步骤(78)的发现期间,可以请求用户提供他们的识别符和相关联的密码。在步骤(78)之后,进行测试以确定所述用户标识符和相关联的密码是否有效(80)。步骤(80)的测试的否定响应,将导致用户请求访问先前发现的所述计算机系统的物理平台(节点)(82)。这种请求可以包括向所述服务器的非易失性随机存取存储器(NVRAM)询问分区描述符。在步骤(82)之后或在步骤(80)测试的肯定响应之后,进行随后的测试以确定是否已经由所述分区或管理工具中的基本输入/输出系统(BIOS)配置所述系统内的可扩展元件(84)。步骤(84)的测试的否定响应表明在所述系统内可能存在未由所述BIOS定义的可扩展元件。在这种情况下,如图3中所示执行发现功能,以便识别所述未定义的可扩展元件(86)。
步骤(84)的测试的肯定响应之后或在步骤(86)完成所述发现任务之后,执行确认工具以便确定所述系统组件的物理连接(88)。图4举例说明了执行所述确认工具的细节。可以在步骤(84)测试的肯定响应之后执行所述确认工具,以便确定是否已经重新用电缆连接了任何可扩展的元件。在系统发现和确认之后,可以使用所述管理工具以便配置分区(90),如图5中所示。配置分区的过程可以包括创建可扩展分区,把节点插入到所述分区中,并且在所述分区内分配主节点。另外,配置分区的过程可以包括配置远程I/O附件,如图8中所示。最后,可以调用管理工具以便对由所述管理工具管理的分区通电和/或断电(92),如图6和7所示。因此,在发现所述可扩展计算机系统的物理平台之后,可以调用所述管理工具以便创建并管理可扩展的计算机系统。
如图2所示,由所述管理工具和应用支持的元件之一是系统发现工具。此工具采用与其它节点物理通信即有线的方式来与每个节点通信。图3是举例说明使用所述发现工具来把一个或多个节点添加到所述系统的过程的流程图(100)。在发现计算机系统中节点的请求(102)之后,所述管理服务器(30)向与被发现的节点通信的服务处理器发送试通(ping)请求,并且等待响应(104)。通过外部通信信道把试通请求的内部通信从控制台(20)发送到嵌入在管理服务器(30)中的发现工具(36)。在具有与不同节点通信的多个服务处理器的系统中,通过外部通信信道把试通请求发布至每个服务处理器。当接收所述试通请求时,所述服务处理器向物理上与请求发布所述试通程序的服务器相连的每个未锁节点发布试通程序(106)。此后,进行测试以确定是否由服务器(30)从所述试通程序的接受节点处接收到响应(108)。步骤(108)测试的否定响应表明在所述试通程序的接收端没有可用的节点可以添加到所述计算机系统(110)。然而,步骤(108)测试的肯定响应导致把响应的节点添加到所述系统(112)。对于添加到所述计算机系统的每个节点,编译响应所述试通程序的时间(114)。可以在部分发现的系统以及需要配置的系统上使用所述发现工具。因此,使用所述发现工具来确定所述系统的拓扑结构,并且把响应的节点添加到所述可扩展系统。
除所述发现工具以外,所述应用包括验证工具,用于确定在所述系统的节点中端口的可用性。图4是举例说明与系统发现操作相关联的被添加到所述系统的每个节点的每个端口的确认操作过程的流程图(150)。识别属于所述系统的所有节点(152)并识别把每个所识别的节点连接到所述系统中其它节点的电缆(154)。所述节点的识别可以从所述发现工具的完成开始。把试通程序形式的通信从管理服务器(30)发送到所述系统中所有识别的通信端口(156)。所述试通是双边通信协议。接收所述试通程序的每个节点的每个端口被期望用响应试通程序(response ping)来响应管理器。应当注意的是,所有试通程序首先被执行然后再被确认。进行测试以确定所述管理器是否在预定义的时间间隔内从所识别的端口接收了响应试通程序(158)。如果步骤(158)测试的响应是否定的,那么这表明所述确认失败(160)。可能由于各种原因而导致发生确认失败。例如,如果所述系统是具有两个处理器扩展模块的单节点系统,那么电缆连接可能局限于两个通信端口。在另一例子中,可能从不属于所述系统的节点接收响应,其中这种响应往往导致错误消息的产生。确认过程验证到通信端口的物理连接。在所述确认失败之后,经由管理服务器(30)把错误消息发送到管理控制台(20),表明对于所指定的通信端口所述确认过程失败(164)。作为选择,如果在步骤(158)测试的响应是肯定的,那么这表明对于所识别的端口所述确认是成功的,即所述端口恰当地工作。经由管理服务器(30)把消息发送到管理控制台(20),表明对于所指定的通信端口所述确认是成功的(162)。在确认成功或失败之后,编辑对每个端口进行确认的时间,并且生成报告以便把确认信息传送到与发布学习的管理控制台(20)通信的操作者(164)。在一个实施例中,发送到管理器的每个消息包括时间间隔,所述时间间隔表示从启动对所指定端口的确认直到终结时间之内所经过的时间。在所述管理器接收到合格消息或失败消息之后,产生报告以便所述管理器概括系统中每个端口的状态。因此,所述确认过程确定可扩展计算机系统的节点或资源的每个通信端口的物理连接。
所述管理器的主要元件之一是配置和/或管理多节点计算机系统中的可扩展分区。图5是举例说明配置可扩展计算机系统内分区的过程的流程图(200)。第一步是启动管理控制台(202)。此后,操作者可以在控制台上观看建议的可扩展系统的配置(204),在此之后是创建分区(206)。一旦已经创建所述分区,那么操作者可以从可扩展系统选择节点并且把它们分配到所述分区(208)。然后所述操作者把所述分区内的节点之一指定为主节点(210),其负责引导(boot)所述分区。此后,进行测试以确定在所述计算机系统中是否存在远程I/O附件(212)。步骤(212)测试的肯定响应将导致为所述分区配置远程I/O附件(214),如图8中所示。然而,步骤(212)测试的否定响应或在步骤(214)配置远程I/O附件之后,在管理服务器上保存分区配置信息(216)。因此,配置分区的过程包括从先前发现节点的列表中为所述分区选择节点,并且把那些节点之一指定为所述分区中的主节点。
在创建和/或配置分区之后,可以调用管理工具以便控制向所述计算机系统内的分区供电。图6是举例说明对可扩展计算机系统的分区供电的过程的流程图(240)。如图5中所示,只有已经配置了分区(242)才可以启动此过程。进行测试以确定所述分区是否具有被指定为主节点的节点(244)。步骤(244)测试的否定响应将导致把所述分区中的节点之一指定为主节点(246)。在步骤(246)之后或在步骤(244)测试的肯定响应之后,在所述主节点上提供到服务处理器的连接(248)。此后,进行另一测试以确定步骤(248)的连接是否成功(250)。步骤(250)测试的否定响应将导致管理器向操作者转发错误消息,表明无法建立在主节点和服务处理器之间的连接(252)。然而,步骤(250)测试的肯定响应将导致把分区描述符存储在所述服务处理器的非易失性随机存取存储器(NVRAM)中,并且把来自管理器的用于通电的指令转发到所指定的分区(254)。所述分区描述符是所述分区的描述,其包括可扩展系统和可扩展分区内节点的数目,分区中节点的唯一通用标识符、主节点和远程I/O附件。在步骤(254)之后,进行测试以确定对所指定分区的通电指令是否成功(256)。步骤(256)测试的否定响应表明无法向所指定的分区供电,并且把错误消息发送给控制台的操作者(258)。然而,步骤(256)测试的肯定响应表明所述分区的主节点已经引导并且开始操作(260)。因此,通过使用服务处理器并且把分区中的一个节点指定为主节点,所述管理器可以向所述主节点发送指令以对所指定分区供电。
与图6类似,分区可以从所述管理器接收关闭指令。图7是举例说明对计算机系统中的分区的断电过程的流程图(270)。只有已经配置了分区(272)才启动此过程。此后,进行测试以确定所述分区是否具有被指定为主节点的节点(274)。步骤(274)测试的否定响应将导致把所述分区中的节点之一指定为主节点(276)。在步骤(276)之后或在步骤(274)测试的肯定响应之后,在所述分区的主节点上提供到服务处理器的连接(278)。此后,进行另一测试以确定在步骤(278)的连接是否成功(280)。步骤(280)测试的否定响应将导致管理器向操作者转发错误消息,表明无法建立在主节点和服务处理器之间的连接(282)。然而,步骤(280)的肯定响应将导致向服务处理器转发指令以对所述分区断电(284)。此后,进行测试以确定是否成功执行所述断电指令(286)。步骤(286)测试的否定响应将导致所述管理器向操作者转发错误消息,表明没有执行所述断电指令(288)。作为选择,步骤(286)测试的肯定响应将导致向操作者转发消息,表明执行了所述断电指令(290)。因此,通过使用服务处理器并且把分区中的一个节点指定为主节点,所述管理器可以向主节点发送用于对所述分区断电的指令。
所述可扩展的计算机系统可以包括一个或多个远程I/O附件(RIOE)。可以通过所述管理器来远程配置每个RIOE。图8是举例说明配置远程RIOE的过程的流程图(300)。应当注意,只有已经配置了分区(302)才启动此过程。一旦已经确定所述系统包括配置的分区,从所述分区中的RIOE列表选择将要配置的RIOE(304)。查看所选择RIOE的当前配置(306),并且将其设置为所选择ROIE的默认配置。每个RIOE具有可用于一个或多个分区的两个插槽分组。从管理控制台,操作者选择将被包括在分区和相关联的分区描述符内的插槽的一个或两个分组(308)。作为选择要被包括在分区中的插槽分组的一部分,还选择电缆(310)。例如,如果用户使能分组一的插槽,那么还将选择附于该分组的电缆。在某些配置中,冗余的电缆连接是可能的,并且在这种情况下用户必须选择是使用所述冗余电缆连接还是从RIOE到节点的唯一电缆。操作者检查所选择的远程I/O附件配置(312),如步骤(308)和(310)所规定。把所述远程I/O配置与所述分区存储在管理服务器(30)上(314),并且完成所述配置。因此,通过在管理控制台提供的指令,所述操作者可以基于所述插槽分组到所述计算机系统的物理连接,将远程I/O附件的插槽分组远程分配到一个或多个分区。
与现有技术相比的优点
可以基于工作负荷情况对计算机系统或所述系统内的分区来添加或删除节点和系统资源。添加或删除节点或其它系统资源的过程可以静态或动态地进行。管理工具平衡所述服务处理器以便能够扩展控制系统资源。所述管理工具支持从远程控制台来管理所述计算机系统和/或所述系统内的资源。
可替换实施例
应当理解的是,尽管这里为了举例说明已经描述了本发明的具体实施例,但是在不脱离本发明精神和范围的情况下可以进行各种修改。特别的是,管理系统的操作者可以利用预定义的时限来配置发现和确认工具,以便从被指定来接收试通程序的节点和端口接收通信响应。如果在发现工具的最初通信中指定的节点没有在设置时限内响应,那么从节点接收的滞后响应将阻止所述节点加入所述系统。类似地,不会把已经被添加到与发现工具相关联系统的节点端口添加到管理工具以作为起作用的端口,其中所述发现工具向确认工具通信提供延迟的响应。另外,所述管理工具可以包括事件处理机和动作事件处理机,用于支持基于规则的分区故障转移(failover)。例如,事件过滤器可以为分区提供想要的操作范围,而事件处理机可以实现预定义的动作,如果发生分区故障转移的话可以由所述管理工具实现所述预定义的动作。因此,本发明的保护范围仅由下列权利要求及其等效物限制。

Claims (39)

1.一种用于计算机管理的方法,包括:
从一个未分配的可扩展节点来创建可扩展计算机系统;
远程管理所述系统中的可扩展功能;并且
远程管理所述系统的分区内的可扩展分区功能。
2.如权利要求1所述的方法,其中从由下列组成的组中选择所述可扩展功能:将可扩展节点插入所述可扩展系统,从所述可扩展系统删除节点,发现所述可扩展系统的拓扑结构,确认所述可扩展系统的连线,创建所述可扩展系统中的可扩展分区,及其组合。
3.如权利要求1所述的方法,其中从由下列组成的组中选择所述可扩展分区功能:将节点插入所述分区,从所述分区删除节点,设置所述分区中的主节点,配置远程I/O附件,执行电源管理任务,及其组合。
4.如权利要求1所述的方法,其中管理可扩展分区功能的步骤包括结合预定义事件自动执行分区故障转移。
5.如权利要求1所述的方法,还包括发现所述可扩展系统的拓扑结构。
6.如权利要求5所述的方法,其中发现拓扑结构的步骤包括从一个节点通过所述节点的一个或多个端口发布试通程序。
7.如权利要求6所述的方法,其中创建可扩展系统的步骤包括所述试通节点以及每个可扩展节点响应所述试通节点。
8.如权利要求7所述的方法,还包括确认所述可扩展系统的连线。
9.如权利要求8所述的方法,其中确认连线的步骤包括向所述可扩展系统中的所有节点的所有端口发布试通程序。
10.如权利要求5所述的方法,还包括在发现所述系统的拓扑结构之后发布发现报告。
11.如权利要求10所述的方法,其中所述发现报告包括从由下列组成的组中选择的数据:每个节点发现成功或失败的指示,发现时间,及其组合。
12.如权利要求8所述的方法,还包括在验证所述端口的连线之后发布确认报告。
13.如权利要求12所述的方法,其中所述确认报告包括从由下列组成的组中选择的数据:试通响应确认,每个端口确认成功或失败的指示,确认时间,及其组合。
14.一种产品,包括:
计算机可读的信号承载介质;
所述介质中的用于从一个未分配的节点来创建可扩展计算机系统的装置;
所述介质中的用于远程管理可扩展功能的装置;和
所述介质中的用于远程管理所述系统的分区内的可扩展分区功能的装置。
15.如权利要求14所述的产品,其中从由下列组成的组中选择所述介质:可记录的数据存储介质和调制的载波信号。
16.如权利要求14所述的产品,其中从由下列组成的组中选择所述可扩展功能:将可扩展节点插入所述可扩展系统,从所述可扩展系统删除节点,发现所述可扩展系统的拓扑结构,确认所述可扩展系统的连线,创建所述可扩展系统中的可扩展分区,及其组合。
17.如权利要求14所述的产品,其中从由下列组成的组中选择所述可扩展分区功能:将节点插入所述分区,从所述分区删除节点,设置所述分区中的主节点,配置远程I/O附件,执行电源管理任务,及其组合。
18.如权利要求14所述的产品,其中用于管理可扩展分区功能的所述装置包括结合预定义事件来自动执行分区故障转移。
19.如权利要求14所述的产品,还包括所述介质中的用于发现所述系统的拓扑结构的装置。
20.如权利要求19所述的产品,其中用于发现系统拓扑结构的所述装置包括适于从一个节点通过所述节点的一个或多个端口发布的试通程序。
21.如权利要求20所述的产品,其中所述介质中的用于创建可扩展系统的装置包括把所述试通节点和每个可扩展响应节点放置在所述系统中。
22.如权利要求21所述的产品,还包括所述介质中的用于确认所述可扩展系统的连线的装置。
23.如权利要求22所述的产品,其中用于确认所述可扩展系统的连线的所述装置包括向所述系统中的所有节点的所有端口发布试通程序。
24.如权利要求19所述的产品,还包括介质中的用于在发现所述系统的拓扑结构之后发布发现报告的装置。
25.如权利要求24所述的产品,其中所述发现报告包括从由下列组成的组中选择的数据:每个节点发现成功或失败的指示,发现时间,及其组合。
26.如权利要求22所述的产品,还包括介质中的用于在验证所述端口的连线之后发布确认报告的装置。
27.如权利要求26所述的产品,其中所述确认报告包括从由下列组成的组中选择的数据:试通响应确认,每个端口确认成功或失败的指示,确认时间,及其组合。
28.一种计算机管理工具,包括:
协调器,适用于从一个未分配的节点创建可扩展计算机系统;
远程功能管理器,适用于控制可扩展功能;和
远程分区管理器,适用于控制分区内的可扩展分区功能。
29.如权利要求28所述的工具,其中从由下列组成的组中选择所述可扩展功能:将可扩展节点插入所述可扩展系统,从所述可扩展系统删除节点,发现所述可扩展系统的拓扑结构,确认所述可扩展系统的连线,创建所述可扩展系统中的可扩展分区,及其组合。
30.如权利要求28所述的工具,其中从由下列组成的组中选择所述可扩展分区功能:将节点插入所述分区,从所述分区删除节点,设置所述分区中的主节点,配置远程I/O附件,执行电源管理任务,及其组合。
31.如权利要求28所述的工具,其中所述远程分区管理器适于与预定义的事件相关联地自动执行分区故障转移。
32.如权利要求28所述的工具,还包括拓扑结构发现工具,适于确定所述系统的成员节点。
33.如权利要求32所述的工具,其中所述拓扑结构发现工具适于将通信节点包括为所述系统中的成员。
34.如权利要求32所述的工具,还包括适于确证所述系统的连线的确认工具。
35.如权利要求34所述的工具,其中所述确认工具向所述系统中所有节点的所有端口发布试通程序。
36.如权利要求32所述的工具,还包括适于在所述成员节点确定之后发布的拓扑结构发现报告。
37.如权利要求36所述的工具,其中所述拓扑结构发现报告包括从由下列组成的组中选择的数据:每个节点发现成功或失败的指示,发现时间,及其组合。
38.如权利要求34所述的工具,还包括适于在确证所述连线之后发布的确认报告。
39.如权利要求38所述的工具,其中所述确认报告包括从由下列组成的组中选择的数据:试通响应确认,每个端口确认成功或失败的指示,确认时间,及其组合。
CN200510082548.6A 2004-07-09 2005-07-08 用于管理可扩展计算机系统的方法和系统 Pending CN1719415A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/888,766 2004-07-09
US10/888,766 US20140067771A2 (en) 2004-07-09 2004-07-09 Management of a Scalable Computer System

Publications (1)

Publication Number Publication Date
CN1719415A true CN1719415A (zh) 2006-01-11

Family

ID=35542586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200510082548.6A Pending CN1719415A (zh) 2004-07-09 2005-07-08 用于管理可扩展计算机系统的方法和系统

Country Status (3)

Country Link
US (1) US20140067771A2 (zh)
CN (1) CN1719415A (zh)
TW (1) TWI344090B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016097913A1 (en) * 2014-12-19 2016-06-23 International Business Machines Corporation Event-driven reoptimization of logically-partitioned environment for power management
CN112867989A (zh) * 2018-09-04 2021-05-28 阿韦瓦软件有限责任公司 基于流的组成以及监视服务器系统和方法
CN117312215A (zh) * 2023-11-28 2023-12-29 苏州元脑智能科技有限公司 一种服务器系统、作业执行方法、装置及设备和介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006124357A2 (en) 2005-05-11 2006-11-23 Bigfoot Networks, Inc. Distributed processing system and method
US9455844B2 (en) * 2005-09-30 2016-09-27 Qualcomm Incorporated Distributed processing system and method
US8255369B2 (en) * 2005-11-30 2012-08-28 Oracle International Corporation Automatic failover configuration with lightweight observer
WO2008118807A1 (en) * 2007-03-26 2008-10-02 Bigfoot Networks, Inc. Method and system for communication between nodes
US8180862B2 (en) * 2007-08-30 2012-05-15 International Business Machines Corporation Arrangements for auto-merging processing components
US8161393B2 (en) * 2007-09-18 2012-04-17 International Business Machines Corporation Arrangements for managing processing components using a graphical user interface
US8023434B2 (en) * 2007-09-18 2011-09-20 International Business Machines Corporation Arrangements for auto-merging and auto-partitioning processing components
CN101840314B (zh) * 2010-05-05 2011-08-17 北京星网锐捷网络技术有限公司 扩展数据库存储空间的方法及装置、服务器
CN102006193B (zh) * 2010-11-29 2012-07-04 深圳市新格林耐特通信技术有限公司 一种snmp网管系统对网络拓扑结构自动布局的方法
US20130311386A1 (en) 2012-05-18 2013-11-21 Mehdi Tehranchi System and method for creating and managing encapsulated workflow packages
US20150067144A1 (en) * 2013-09-03 2015-03-05 Stephen Kent Scovill Method and System for Detecting Network Printers without Prior Knowledge of Network Topology
CN106123943B (zh) * 2016-07-15 2019-05-21 苏州西斯派克检测科技有限公司 一种基于工业以太网的柔性在线检测系统

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US178262A (en) * 1876-06-06 Improvement in gas-burners
US195942A (en) * 1877-10-09 Improvement in shipping-cans
US37435A (en) * 1863-01-20 Improvement in screw-nuts
US130833A (en) * 1872-08-27 Improvement in apparatus for containing and measuring oils
US29358A (en) * 1860-07-31 Improvement in steam-plows
US120751A (en) * 1871-11-07 Improvement in paints
CA1143812A (en) * 1979-07-23 1983-03-29 Fahim Ahmed Distributed control memory network
US5197130A (en) * 1989-12-29 1993-03-23 Supercomputer Systems Limited Partnership Cluster architecture for a highly parallel scalar/vector multiprocessor system
JP3541039B2 (ja) * 1993-08-03 2004-07-07 サン・マイクロシステムズ,インコーポレイテッド コンピュータアプリケーションのためのフレキシブル多重プラットフォームパーティショニング
US6199179B1 (en) * 1998-06-10 2001-03-06 Compaq Computer Corporation Method and apparatus for failure recovery in a multi-processor computer system
US6260068B1 (en) * 1998-06-10 2001-07-10 Compaq Computer Corporation Method and apparatus for migrating resources in a multi-processor computer system
US6038651A (en) * 1998-03-23 2000-03-14 International Business Machines Corporation SMP clusters with remote resource managers for distributing work to other clusters while reducing bus traffic to a minimum
US6779016B1 (en) * 1999-08-23 2004-08-17 Terraspring, Inc. Extensible computing system
US6529953B1 (en) * 1999-12-17 2003-03-04 Reliable Network Solutions Scalable computer network resource monitoring and location system
US6801937B1 (en) * 2000-05-31 2004-10-05 International Business Machines Corporation Method, system and program products for defining nodes to a cluster
US6640272B1 (en) * 2000-08-31 2003-10-28 Hewlett-Packard Development Company, L.P. Automated backplane cable connection identification system and method
US6681282B1 (en) * 2000-08-31 2004-01-20 Hewlett-Packard Development Company, L.P. Online control of a multiprocessor computer system
US6738871B2 (en) * 2000-12-22 2004-05-18 International Business Machines Corporation Method for deadlock avoidance in a cluster environment
US7263552B2 (en) * 2001-03-30 2007-08-28 Intel Corporation Method and apparatus for discovering network topology
US6715031B2 (en) * 2001-12-28 2004-03-30 Hewlett-Packard Development Company, L.P. System and method for partitioning a storage area network associated data library
US6839824B2 (en) * 2001-12-28 2005-01-04 Hewlett-Packard Development Company, L.P. System and method for partitioning a storage area network associated data library employing element addresses
US7457847B2 (en) * 2002-01-02 2008-11-25 International Business Machines Corporation Serial redirection through a service processor
US7139925B2 (en) * 2002-04-29 2006-11-21 Sun Microsystems, Inc. System and method for dynamic cluster adjustment to node failures in a distributed data system
US7035858B2 (en) * 2002-04-29 2006-04-25 Sun Microsystems, Inc. System and method dynamic cluster membership in a distributed data system
US7024483B2 (en) * 2002-04-29 2006-04-04 Sun Microsystems, Inc. System and method for topology manager employing finite state automata for dynamic cluster formation
US7047286B2 (en) * 2002-06-13 2006-05-16 International Business Machines Corporation Method of modifying a logical library configuration from a remote management application
US6857011B2 (en) * 2002-10-31 2005-02-15 Paragon Development Systems, Inc. Method of remote imaging
US7979548B2 (en) * 2003-09-30 2011-07-12 International Business Machines Corporation Hardware enforcement of logical partitioning of a channel adapter's resources in a system area network

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016097913A1 (en) * 2014-12-19 2016-06-23 International Business Machines Corporation Event-driven reoptimization of logically-partitioned environment for power management
GB2549230A (en) * 2014-12-19 2017-10-11 Ibm Event-driven reoptimization of logically-partitioned environment for power management
US9886083B2 (en) 2014-12-19 2018-02-06 International Business Machines Corporation Event-driven reoptimization of logically-partitioned environment for power management
GB2549230B (en) * 2014-12-19 2019-05-29 Ibm Event-driven reoptimization of logically-partitioned environment for power management
US10664040B2 (en) 2014-12-19 2020-05-26 International Business Machines Corporation Event-driven reoptimization of logically-partitioned environment for power management
CN112867989A (zh) * 2018-09-04 2021-05-28 阿韦瓦软件有限责任公司 基于流的组成以及监视服务器系统和方法
CN117312215A (zh) * 2023-11-28 2023-12-29 苏州元脑智能科技有限公司 一种服务器系统、作业执行方法、装置及设备和介质
CN117312215B (zh) * 2023-11-28 2024-03-22 苏州元脑智能科技有限公司 一种服务器系统、作业执行方法、装置及设备和介质

Also Published As

Publication number Publication date
US20140067771A2 (en) 2014-03-06
TW200622674A (en) 2006-07-01
US20060010133A1 (en) 2006-01-12
TWI344090B (en) 2011-06-21

Similar Documents

Publication Publication Date Title
CN1719415A (zh) 用于管理可扩展计算机系统的方法和系统
KR101073171B1 (ko) 패일러 로드 밸런서의 제로 싱글 포인트의 장치 및 방법들
US7743142B2 (en) Verifying resource functionality before use by a grid job submitted to a grid environment
US7379959B2 (en) Processing information using a hive of computing engines including request handlers and process handlers
US6381321B1 (en) Telecommunication resource allocation system and method
JP4261543B2 (ja) 動作不能なマスタ作業負荷管理プロセスを代替するシステムおよび方法
CN110224860B (zh) 负载均衡应用创建方法、装置、计算机设备及存储介质
US8032786B2 (en) Information-processing equipment and system therefor with switching control for switchover operation
CN111597061B (zh) 一种客户端或服务端进行远程过程调用方法及装置
US20080196029A1 (en) Transaction Manager Virtualization
Keller et al. Anatomy of a Resource Management System
CN113382077B (zh) 微服务调度方法、装置、计算机设备和存储介质
WO2015067051A1 (zh) 测试代理方法及其装置
CN113886058A (zh) 一种跨集群资源调度方法和装置
EP3467655A1 (en) System and method for mpi implementation in an embedded operating system
US7769844B2 (en) Peer protocol status query in clustered computer system
Buntinas et al. A scalable tools communications infrastructure
Stantchev et al. Translucent replication for service level assurance
Li et al. Challenges to error diagnosis in hadoop ecosystems
CN113452729A (zh) 序列号确定方法、设备及存储介质
Koch et al. An operating system infrastructure for fault-tolerant reconfigurable networks
CN115811549B (zh) 支持混合异构运行时的云边资源管理调度方法及系统
CN115834594B (zh) 一种用于改善高性能计算应用的数据收集方法
Feng et al. GRAP: Group-level Resource Allocation Policy for Reconfigurable Dragonfly Network in HPC
US20240037026A1 (en) Memory pooling, provisioning, and sharing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication