CN1701562A - InfiniBand分布式系统区域网络的集中管理系统、方法和计算机程序产品 - Google Patents

InfiniBand分布式系统区域网络的集中管理系统、方法和计算机程序产品 Download PDF

Info

Publication number
CN1701562A
CN1701562A CNA2004800010506A CN200480001050A CN1701562A CN 1701562 A CN1701562 A CN 1701562A CN A2004800010506 A CNA2004800010506 A CN A2004800010506A CN 200480001050 A CN200480001050 A CN 200480001050A CN 1701562 A CN1701562 A CN 1701562A
Authority
CN
China
Prior art keywords
management
agent application
existence
application
subnet administrator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2004800010506A
Other languages
English (en)
Other versions
CN1320802C (zh
Inventor
戴维·阿伦·埃尔克
丹尼尔·莱伯力
切塔恩·梅塔
格利高里·弗朗西斯·福斯特
帕特里克·约翰·苏格瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN1701562A publication Critical patent/CN1701562A/zh
Application granted granted Critical
Publication of CN1320802C publication Critical patent/CN1320802C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • H04L41/082Configuration setting characterised by the conditions triggering a change of settings the condition being updates or upgrades of network functionality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/177Initialisation or configuration control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/044Network management architectures or arrangements comprising hierarchical management structures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/046Network management architectures or arrangements comprising network management agents or mobile agents therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer And Data Communications (AREA)
  • Multi Processors (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开一种在数据处理系统中用于提供包括多个端节点的InfiniBand分布式系统区域网络的集中管理的方法、系统和产品。管理应用建立在端节点的一个中。代理应用建立在一个或多个端节点中。每个代理应用与管理应用无关。管理应用维护活动代理应用的当前列表并使用列表来管理端节点中的代理应用。

Description

InfiniBand分布式系统区域网络的 集中管理系统、方法和计算机程序产品
技术领域
本发明一般地涉及计算机系统领域,尤其涉及一种用于集中管理InfiniBand分布式系统区域网络端节点的系统、方法和计算机程序产品。
背景技术
在历史上,日益增加的计算需求由计算机制造商通过设计更快的单处理器系统来满足。因为这种提供方案变得成本抑制并且不能够对即时上市的需求做出反应,多个处理器紧密耦合在一起以形成对称多处理器(SMP)系统。再次,由更高的计算需求所驱使,多个单或多处理器连接在一起以形成集群。多个系统的集群提供增加的计算能力。但是,这些集群经常使用私有互连以减小等待时间并且难以管理。
一种新的工业标准体系结构,通常称作“InfiniBand”已经被研制用于集群配置中互连系统。该新的体系结构能够提供减小的等待时间,更大的带宽以及增加的可扩展性。新的体系结构提供系统区域网络,其包括基于通道的交换组织技术。在这种系统区域网络(SAN)中,数据通过由分组构成的消息传输。每个设备,或者它是处理器或者是I/O设备,包括通道适配器。消息从一个设备的通道适配器经由交换机传输到另一个设备的通道适配器。
InfiniBand提供集群的工业标准互连并且定义端节点之间消息传送的机制。该体系结构概括初始化、配置和控制的关键管理要求,但是将这些要求仅局限于组织中的InfiniBand组件(InfiniBand适配器和交换机)。集群管理也需要节点间管理要求而这些被认为在体系结构范围之外。
因此,存在对用于集中管理InfiniBand分布式系统区域网络端节点的方法、系统和计算机程序产品的需求。
InfiniBand是InfiniBand行业协会的注册商标。
发明内容
公开一种在数据处理系统中用于提供包括多个端节点的InfiniBand分布式系统区域网络的集中管理的方法,系统和产品。至少一个管理应用建立在端节点的一个中。代理应用建立在一个或多个端节点中。每个代理应用与管理应用无关。每个管理应用通过在子网管理员数据库中创建服务记录来使用系统管理员(SA)中的InfiniBand体系结构服务记录,在组织中注册它的存在。代理应用,代替向子网管理员注册,向一个或多个管理应用来注册它们自己。管理应用维护活动代理应用的当前列表并且使用列表来管理端节点中的代理应用。代理查询SA来发现任何新的管理程序然后直接向这些管理程序注册它们自己。
本发明的上面以及另外的目的、特征和优点将在下面详细书面描述中变得明白。
从第一方面看,本发明提供一种方法,用于提供包括子网管理员和多个端节点的InfiniBand分布式系统区域网络的集中管理,所述方法包括步骤:由第一应用向所述子网管理员注册它在所述网络中的存在;由所述子网管理员在所述网络中公布所述第一应用的所述存在,所述存在需要在其他应用能够与所述第一应用通信之前被公布;由管理应用向所述子网管理员注册它在所述网络中的存在;由多个代理应用中的一个向所述管理应用注册它的存在,所述多个代理应用中所述一个不向所述子网管理员注册;以及由所述管理应用将所述多个代理应用中所述一个的存在公布到所述网络。
优选地,本发明提供一种方法,还包括步骤:要求所述第一应用向所述子网管理员注册以由所述子网管理员将所述第一应用的所述存在公布到所述网络,在所述第一应用的存在公布之前,第二应用不知道所述第一应用的存在并且不能与所述第一应用通信。
优选地,本发明提供一种方法,还包括步骤:由所述管理应用维护活动代理应用的当前列表;以及由所述管理应用利用所述列表来管理所述多个代理应用。
优选地,本发明提供一种方法,还包括步骤:建立所述多个代理应用,所述多个代理应用中至少一个在所述多个端节点的一些中建立,所述多个代理应用与所述管理应用无关。
优选地,本发明提供一种方法,还包括步骤:在所述多个端节点的一个或多个中建立所述管理应用。
优选地,本发明提供一种方法,还包括步骤:由所述管理应用接收命令以由所述多个代理应用中指定一些执行;将所述命令从所述管理应用发送到所述多个代理应用中所述指定一些;以及响应所述代理应用中所述指定一些执行所述命令,在所述管理应用中接收来自所述代理应用中所述指定一些的响应。
优选地,本发明提供一种方法,还包括步骤:由所述管理应用维护活动代理应用的当前列表;以及由所述管理应用利用所述列表来定位所述多个代理应用中所述指定一些。
优选地,本发明提供一种方法,还包括步骤:通过在所述子网管理员的数据库中创建服务记录,由所述管理应用向所述子网管理员注册它在所述网络中的存在。
优选地,本发明提供一种方法,还包括步骤:将租用时期与所述服务记录相关联,当所述租用时期终止时,所述服务记录自动从所述数据库中删除。
优选地,本发明提供一种方法,还包括步骤:在所述租用时期终止之前,由所述管理应用向所述子网管理员重新注册它在所述网络中的存在。
优选地,本发明提供一种方法,还包括步骤:由所述管理应用广播命令以识别所述多个代理应用。
优选地,本发明提供一种方法,还包括步骤:由所述管理应用从所述多个代理应用中一些接收标识所述多个代理应用中所述一些的活动/非活动状态的报告。
优选地,本发明提供一种方法,还包括步骤:由所述管理应用将所述多个代理中每个活动代理的名字添加到由所述活动代理的管理应用维护的列表;以及由所述管理应用从所述列表中删除所述多个代理中每个非活动代理的名字。
优选地,本发明提供一种方法,还包括步骤:将确认命令从所述管理应用发送到所述多个代理应用中每个活动代理,以确认所述多个代理应用中每个活动代理的状态;由所述管理应用接收对所述确认命令的答复;以及由所述管理应用更新所述列表。
优选地,本发明提供一种方法,还包括步骤:由所述子网管理程序维护向所述子网管理员注册的所有管理应用的列表;由所述多个代理应用中的一个获得所述列表;由所述多个代理应用中所述一个向包括在所述列表中的所述管理应用的每个注册它的存在。
优选地,本发明提供一种方法,还包括步骤:在所述多个代理应用的一个中接收停止执行的请求;将所述多个代理应用中所述一个将停止的通知传送到所述管理应用;以及由所述管理应用删除所述多个代理应用中所述一个的存在的注册。
从第二方面看,本发明提供一种系统,用于提供包括子网管理员和多个端节点的分布式系统区域网络的集中管理,所述系统包括:用于向所述子网管理员注册它在所述网络中的存在的第一应用;在所述网络中公布所述第一应用的所述存在的所述子网管理员,所述存在需要在其他应用能够与所述第一应用通信之前被公布;向所述子网管理员注册它在所述网络中的存在的管理应用;向所述管理应用注册它的存在的多个代理应用中的一个,所述多个代理应用中所述一个不向所述子网管理员注册;以及用于将所述多个代理应用中所述一个的存在公布到所述网络的所述管理应用。
优选地,本发明提供一种系统,还包括:要求所述第一应用向所述子网管理员注册以由所述子网管理员将所述第一应用的所述存在公布到所述网络的要求装置,在所述第一应用的存在公布之前,第二应用不知道所述第一应用的存在并且不能与所述第一应用通信。
优选地,本发明提供一种系统,还包括:所述管理应用维护活动代理应用的当前列表;以及所述管理应用利用所述列表来管理所述多个代理应用。
优选地,本发明提供一种系统,还包括:用于建立所述多个代理应用的建立装置,所述多个代理应用中至少一个在所述多个端节点的一些中建立,所述多个代理应用与所述管理应用无关。
优选地,本发明提供一种系统,还包括:用于在所述多个端节点的一个中建立所述管理应用的建立装置。
优选地,本发明提供一种系统,还包括:所述管理应用接收命令以由所述多个代理应用中指定一些执行;所述管理应用将所述命令发送到所述多个代理应用中所述指定一些;以及响应所述代理应用中所述指定一些执行所述命令,所述管理应用接收来自所述代理应用中所述指定一些的响应。
优选地,本发明提供一种系统,还包括:所述管理应用维护活动代理应用的当前列表;以及所述管理应用利用所述列表来定位所述多个代理应用中所述指定一些。
优选地,本发明提供一种系统,还包括:通过在所述子网管理员的数据库中创建服务记录,所述管理应用向所述子网管理员注册它在所述网络中的存在。
优选地,本发明提供一种系统,还包括:租用时期与所述服务记录相关联,当所述租用时期终止时,所述服务记录自动从所述数据库中删除。
优选地,本发明提供一种系统,还包括:在所述租用时期终止之前,所述管理应用向所述子网管理员重新注册它在所述网络中的存在。
优选地,本发明提供一种系统,还包括:命令由所述管理应用广播以识别所述多个代理应用。
优选地,本发明提供一种系统,还包括:所述管理应用从所述多个代理应用中一些接收标识所述多个代理应用中所述一些的活动/非活动状态的报告。
优选地,本发明提供一种系统,还包括:所述管理应用将所述多个代理中每个活动代理的名字添加到由所述活动代理的管理应用维护的列表;以及所述管理应用从所述列表中删除所述多个代理中每个非活动代理的名字。
优选地,本发明提供一种系统,还包括:所述管理应用发送确认命令到所述多个代理应用中每个活动代理,以确认所述多个代理应用中每个活动代理的状态;所述管理应用接收对所述确认命令的答复;以及所述管理应用更新所述列表。
优选地,本发明提供一种系统,还包括:所述子网管理程序维护向所述子网管理员注册的所有管理应用的列表;所述多个代理应用中的一个获得所述列表;所述多个代理应用中所述一个向包括在所述列表中的所述管理应用的每个注册它的存在。
优选地,本发明提供一种系统,还包括:所述多个代理应用的一个接收停止执行的请求;用于将所述多个代理应用中所述一个将停止的通知传送到所述管理应用的传送装置;以及所述管理应用删除所述多个代理应用中所述一个的存在的注册。
从第三方面看,本发明提供一种计算机程序产品,用于提供包括子网管理员和多个端节点的分布式系统区域网络的集中管理,所述产品包括:由第一应用向所述子网管理员注册它在所述网络中的存在的指令单元;由所述子网管理员在所述网络中公布所述第一应用的所述存在的指令单元,所述存在需要在其他应用能够与所述第一应用通信之前被公布;由管理应用向所述子网管理员注册它在所述网络中的存在的指令单元;由多个代理应用中的一个向所述管理应用注册它的存在的指令单元,所述多个代理应用中所述一个不向所述子网管理员注册;以及由所述管理应用将所述多个代理应用中所述一个的存在公布到所述网络的指令单元。
优选地,本发明提供一种计算机程序产品,还包括:要求所述第一应用向所述子网管理员注册以由所述子网管理员将所述第一应用的所述存在公布到所述网络的指令单元,在所述第一应用的存在公布之前,第二应用不知道所述第一应用的存在并且不能与所述第一应用通信。
优选地,本发明提供一种计算机程序产品,还包括:由所述管理应用维护活动代理应用的当前列表的指令单元;以及由所述管理应用利用所述列表来管理所述多个代理应用的指令单元。
优选地,本发明提供一种计算机程序产品,还包括:建立所述多个代理应用的指令单元,所述多个代理应用中至少一个在所述多个端节点的一些中建立,所述多个代理应用与所述管理应用无关。
优选地,本发明提供一种计算机程序产品,还包括:在所述多个端节点的一个中建立所述管理应用的指令单元。
优选地,本发明提供一种计算机程序产品,还包括:由所述管理应用接收命令以由所述多个代理应用中指定一些执行的指令单元;将所述命令从所述管理应用发送到所述多个代理应用中所述指定一些的指令单元;以及响应所述代理应用中所述指定一些执行所述命令,在所述管理应用中接收来自所述代理应用中所述指定一些的响应的指令单元。
优选地,本发明提供一种计算机程序产品,还包括:由所述管理应用维护活动代理应用的当前列表的指令单元;以及由所述管理应用利用所述列表来定位所述多个代理应用中所述指定一些的指令单元。
优选地,本发明提供一种计算机程序产品,还包括:通过在所述子网管理员的数据库中创建服务记录,由所述管理应用向所述子网管理员注册它在所述网络中的存在的指令单元。
优选地,本发明提供一种计算机程序产品,还包括:将租用时期与所述服务记录相关联的指令单元,当所述租用时期终止时,所述服务记录自动从所述数据库中删除。
优选地,本发明提供一种计算机程序产品,还包括:在所述租用时期终止之前,由所述管理应用向所述子网管理员重新注册它在所述网络中的存在的指令单元。
优选地,本发明提供一种计算机程序产品,还包括:由所述管理应用广播命令以识别所述多个代理应用的指令单元。
优选地,本发明提供一种计算机程序产品,还包括:由所述管理应用从所述多个代理应用中一些接收标识所述多个代理应用中所述一些的活动/非活动状态的报告的指令单元。
优选地,本发明提供一种计算机程序产品,还包括:由所述管理应用将所述多个代理中每个活动代理的名字添加到由所述活动代理的管理应用维护的列表的指令单元;以及由所述管理应用从所述列表中删除所述多个代理中每个非活动代理的名字的指令单元。
优选地,本发明提供一种计算机程序产品,还包括:将确认命令从所述管理应用发送到所述多个代理应用中每个活动代理,以确认所述多个代理应用中每个活动代理的状态的指令单元;由所述管理应用接收对所述确认命令的答复的指令单元;以及由所述管理应用更新所述列表的指令单元。
优选地,本发明提供一种计算机程序产品,还包括:由所述子网管理程序维护向所述子网管理员注册的所有管理应用的列表的指令单元;由所述多个代理应用中的一个获得所述列表的指令单元;由所述多个代理应用中所述一个向包括在所述列表中的所述管理应用的每个注册它的存在的指令单元。
优选地,本发明提供一种计算机程序产品,还包括:在所述多个代理应用的一个中接收停止执行的请求的指令单元;将所述多个代理应用中所述一个将停止的通知传送到所述管理应用的指令单元;以及由所述管理应用删除所述多个代理应用中所述一个的存在的注册的指令单元。
附图说明
本发明的实施方案参考附随附图仅作为实例在下面详细描述,其中:
图1描绘根据本发明实现用于传输数据的基于通道、交换组织体系结构的数据处理系统;
图2说明根据本发明描绘管理程序向子网管理员注册它的存在的高级流程图;
图3描绘根据本发明说明管理程序维护活动代理列表的高级流程图;
图4说明根据本发明描绘管理程序识别活动代理的高级流程图;
图5描绘根据本发明说明管理程序发送命令到代理以处理的高级流程图;
图6说明根据本发明描绘管理程序从子网管理员中删除它的存在的高级流程图;
图7描绘根据本发明说明代理向管理程序注册它的存在的高级流程图;
图8说明根据本发明描绘代理执行从管理程序接收的命令的高级流程图;以及图9描绘根据本发明说明代理发送代理现在非活动的报告到每个管理程序的高级流程图。
具体实施方式
本发明是一种在数据处理系统中用于集中管理利用InfiniBand组织的分布式系统区域网络端节点的方法、系统和产品。一个或多个管理应用建立在端节点的一个或多个中。代理应用建立在一个或多个端节点中。每个代理应用与管理应用无关。
每个管理应用将通过在子网管理员数据库中创建服务记录来向子网管理员注册它的存在。这样,将存在当前活动的每个管理程序的各自服务记录。以这种方式,每个管理程序将通过创建服务记录向InfiniBand子网的其余部分宣传它的存在。
子网内的任何处理可以通过使用应用的服务记录来确定什么应用,例如管理应用向子网管理员注册以及关于应用位于子网内哪里和如何联系它的更多信息。因为集群配置可以包括大量节点,节点间通信只有当节点能够在组织内彼此检测和定位时才可能处理。为了便于定位和发现,InfiniBand体系结构定义服务记录可以由希望在组织中宣传它的存在的任何节点创建。按照体系结构,这些服务记录通过子网管理员(SA)存储在子网管理员数据库(SADB)中。同样为了使一个节点上的应用由其他节点上的其他应用定位,遵循InfiniBand标准,应用必须向子网管理员注册。因此,根据InfiniBand标准当第一应用需要与第二应用通信时,第二应用需要向子网管理员注册,使得第一应用可以知道第二应用的存在并且可以获得关于如何定位第二应用的信息。
在主体发明中,代理应用将向每个管理程序注册它们的存在,而不是向子网管理员注册。因此,代理应用在子网数据库中将不具有服务记录条目。
每个服务记录具有相关联的租用时期。服务记录保存在子网管理员数据库中直到它的相关租用时期终止。当租用时期终止时,服务记录由服务管理员删除。所以当管理程序的服务记录被删除时,管理程序将不再向子网管理员注册。
根据本发明,当管理应用创建它的服务记录时,它将获得特定的租用时期。保证它们在它们的租用时期终止之前向子网管理员更新它们的租用将是每个管理程序的责任。
每个代理将使用由子网管理员在子网管理员数据库中维护的各种服务记录,以便识别和定位每个活动管理应用。每个代理然后将通知每个活动的管理应用,当代理变得活动或非活动时。
每个管理应用将维护活动代理应用的当前列表并且使用列表来将用户请求的命令路由到代理,以在端节点处执行。
图1描绘根据本发明的InfiniBand分布式存储区域网络(SAN)100。按照InfiniBand体系结构术语,这称作“子网”。子网是作为单个单元管理的一组端节点和级联交换机。节点是连接到网络的一个或多个链路并且形成网络中消息的起始地点和/或目的地的任何组件。在描绘的实例中,InfiniBand子网100包括端节点102,104,106,108,和110。图1中说明的节点仅用于说明的目的,因为子网100可以包括任意数目和任意类型的独立处理器节点和I/O设备节点。“端节点”定义为包括通道适配器并且可以在子网100中发起或最终消耗消息或分组的设备。
子网100可以包括支持I/O和处理器间通信(IPC)的基础结构。子网100包括允许许多设备在安全、远程管理的环境中以高带宽和低等待时间并行传输数据的交换通信组织。端节点可以通过多个端口通信,并且利用通过子网100的多个通路。
子网100中的每个节点包括至少一个通道适配器(CA)。子网100(如图1中所示,组织等价于子网)包括主机通道适配器(HCA)114,116,118,120,和122,以及交换机124和126。每个通道适配器是足够详细地实现利用InfiniBand组织100传输的源或宿分组的通道适配器接口。包括在处理器节点中的通道适配器通常称作主机通道适配器(HCA)。包括在除处理器节点之外的节点中的通道适配器通常称作目标通道适配器(TCA)。
主机通道适配器优选地以硬件实现。在该实现中,主机通道适配器硬件清除大量中央处理单元和I/O适配器通信开销。主机通道适配器的该硬件实现也允许在交换网络上的多个并行通信,而没有与通信协议相关联的传统开销。
交换机是将多个链路连接在一起并且允许使用小报头目的地局部标识符(DLID)字段在子网内将分组从一个链路路由到另一个链路的设备。通常,交换机可以将分组从一个端口路由到相同交换机上的任何其他端口。
组织是互连的交换机和端节点的集合。
子网100的节点的一个作为子网管理节点。例如,端节点108包括子网管理程序130和子网管理员及其数据库132。子网管理程序130用于组织的发现、配置和初始化。
需要被管理的每个节点包括至少一个代理应用。另外,节点中至少一个包括至少一个管理应用和远程管理应用。包括管理应用和远程管理应用的节点连接到远程管理控制台。
例如,端节点102包括管理应用140和远程管理应用144。端节点102连接到包括图形用户界面(GUI)142的远程管理控制台。
远程管理应用144用作两个目的:在前端它用作远程控制台142的外部接口,而在后端它与管理应用140接口以灌入经由远程管理控制台142输入的用户请求。管理应用140又翻译来自远程管理应用144的请求并且将它们转发到适当的代理应用。代理应用然后执行由管理应用140请求的服务。
在描绘的实施方案中,端节点102使用IP连接146和遵守IP协议的通信链路148连接到远程管理控制台142。本领域技术人员将认识到,其他类型的通信标准,例如以太网,可以用来连接端节点102到远程管理控制台142。
需要被管理的每个端节点将包括至少一个代理应用。例如,端节点102包括代理应用150,端节点104包括代理应用152,以及端节点106包括代理应用154。
另一个端节点110可能包括在SAN100中,其包括管理应用160和使用IP连接164和通信链路166连接到远程管理控制台142的远程管理应用162。端节点110可能需要被管理因此包括代理应用170。
SAN100向分布式计算机系统的I/O和处理器间通信(IPC)消耗者提供不涉及操作系统内核处理的零处理器拷贝数据传输,并且使用硬件来提供可靠的、容错的通信。
启动时,管理应用通过创建管理程序的服务记录向子网管理员注册它的存在。在这一点上,管理应用可能执行五种不同功能中的一种:
(1)当拥有代理应用的客户端节点启动或停止时,代理应用通知管理应用其进入或退出情况。这样,每个代理将向管理应用注册它的存在。管理应用然后适当地将代理添加到它的“活动代理”列表中,或者从“活动代理”列表中删除它。此后,管理应用确认进入/退出情况的接收到代理;
(2)远程管理程序请求当前活动代理的列表。管理应用“ping”也就是发送命令到一个或多个设备或者广播请求到所有设备,并且等待来自设备,它的“活动代理”列表上所有已知代理对该命令的接收确认,以确认它们的存在。管理应用然后将“活动代理”列表返回给远程管理程序。
(3)远程管理程序将命令传递到管理应用以在全部端节点或仅子网上执行。管理应用发送请求到指定代理。当接收到来自代理应用的响应时,响应返回到远程应用。
(4)管理应用在有限租用时期终止之前以周期间隔注册它自己;以及
(5)如果管理应用正在停止,例如当管理应用位于其上的端节点正在关机时,管理应用从子网管理员中删除它的服务记录。
任何代理应用的功能可能是三种功能中的一种:
(1)在代理启动之后,它查询子网管理员以获得管理应用服务记录的列表。对于每个新的管理程序,也就是先前没有由代理接触以在此会话中报告存在,代理应用经由进入情况注册它的存在。代理的该线程空闲或休眠预定义的间隔然后对于已经向子网管理员注册它们自己的任何新管理程序重复该周期。该功能是必需的以通知在代理已经开始执行之后启动的任何管理程序并且也发现和删除不再活动的管理程序;
(2)代理应用接收来自有效管理程序的命令。代理在其端节点上执行命令并且将命令执行的结果作为代理的响应返回到管理程序;以及
(3)代理应用正在停止,例如当用户关机代理正在其上执行的端节点时。代理应用查询子网管理员以获得所有活动管理应用的列表。代理应用将它的退出情况报告给每个活动管理程序。当成功确认时,代理应用终止。
管理程序和代理彼此独立。管理程序可以改变,启动,停止或移动而不影响代理或它们的端节点。管理应用管理所有活动代理应用而不增加开销到子网管理员。子网管理员不管理代理应用。每个管理应用管理代理应用。
图2说明根据本发明描绘管理程序向子网管理员注册它的存在的高级流程图。处理如框200描绘地开始,此后传递到框202,其说明管理应用通过经由子网管理员为管理应用创建具有有限租用时期的服务记录来向子网管理员注册它的存在。因此,子网管理员将包括每个已注册管理应用的服务记录。接下来,框206说明租用时期是否将终止的确定。如果做出租用时期不将终止的确定,过程传递返回到框206。再次参考框206,如果做出租用时期将要终止的确定,过程传递到框208,其描绘管理应用向子网管理员更新其租用。过程然后传递返回到框206。
图3描绘根据本发明说明管理应用维护活动代理应用列表的高级流程图。过程如框300说明地开始,此后传递到框302,其描绘管理程序建立用于存储活动代理名字的列表。接下来,框304说明管理程序从代理接收特定代理活动还是非活动的状态报告。然后,框306描绘管理程序将该代理的名字增加到活动代理列表(如果代理报告它自己是活动的)或者从列表中删除代理的名字(如果代理报告它自己变得非活动)。此后,框308说明管理程序将进入/退出的接收确认传送到代理。然后过程传递返回到框304。
图4说明根据本发明描绘管理程序识别活动代理的高级流程图。过程如框400描绘地开始,此后传递到框402,其说明管理程序从远程管理程序接收对活动代理列表的请求。接下来,框404描绘管理程序ping其名字在活动代理列表中列出的所有已知代理以确认它们的存在。此后,框406描绘管理程序适当地更新列表以包括所有活动代理的名字。因此,管理应用将包括答复“ping”代理是活动的所有代理的名字。管理应用也将从列表中删除不能响应的所有代理的名字。然后,框408说明管理程序将活动代理名字的列表传送到远程管理程序。过程然后传递返回到框402。
图5描绘根据本发明说明管理程序发送命令到代理以被处理的高级流程图。过程如框500描绘地开始,此后传递到框502,其说明管理程序从远程管理程序接收到将在一个或多个指定代理上执行的命令。接下来,框504描绘管理程序将命令发送到指定代理。然后,框506说明管理程序处理来自代理的响应。这些响应由代理响应执行命令而产生。此后,框508描绘管理程序将命令响应返回到远程管理程序。然后过程传递返回到框502。
图6说明根据本发明描绘管理程序从子网管理员删除它的存在的高级流程图。过程如框600描绘地开始,此后传递到框602,其描绘管理程序接收请求以停止管理应用。接下来,框604说明管理程序向子网管理员请求该管理程序服务记录的删除。然后过程如框606描绘地终止。
图7描绘根据本发明说明代理发送关于代理的活动或非活动状态的报告到管理程序的高级流程图。过程如框700描绘地开始,此后传递到框702,其说明代理查询子网管理员以获得管理程序服务记录的列表。接下来,框704描绘代理将关于它的存在和活动状态的报告发送到代理还没有已经报告的列表上的每个管理程序。这样,代理向这些管理程序注册。然后,框706说明该报告代理线程空闲长达预定义的时间段。过程然后传递返回到框702。
图8说明根据本发明描绘代理执行从管理程序接收的命令的高级流程图。过程如框800描绘地开始,此后传递到框802,其说明代理从有效管理程序接收命令以由代理执行。接下来,框804描绘代理执行命令。然后,框806说明代理将执行命令的结果返回到请求管理程序。过程然后传递返回到框802。
图9描绘根据本发明说明代理发送代理现在非活动的报告到每个管理程序的高级流程图。过程如框900描绘地开始,此后传递到框902,其说明接收请求以停止代理。接下来,框904说明代理向子网管理员查询服务记录的列表,以便识别所有活动管理程序。然后,框906描绘代理发送该特定代理现在非活动的报告给每个管理程序。过程然后如框908说明地终止。
重要地,应当注意本发明已经在完全运行的数据处理系统的上下文中描述,本领域技术人员将认识到,本发明的处理能够以指令的计算机可读介质的形式和各种形式发行,并且不管实际用于实施该发行的信号承载介质的特定类型,本发明同样适用。计算机可读介质的实例包括可记录型介质,例如软盘,硬盘驱动器,RAM,CD-ROM,DVD-ROM,以及使用传输形式例如射频和光波传输的传输型介质,例如数字和模拟通信链路,有线或无线通信链路。计算机可读介质可以采取在特定数据处理系统中解码以实际使用的编码格式的形式。
本发明的描述已经为了说明和描述的目的而呈现,并且不打算以公开的形式穷举或局限于发明。许多修改和变化将对于本领域技术人员是显然的。本实施方案被选择和描述以便最好地说明本发明的原理,实践应用,以及使得本领域技术人员能够对于具有适合于所考虑特定使用的各种修改的各种实施方案来理解本发明。

Claims (10)

1.一种提供包括子网管理员和多个端节点的InfiniBand分布式系统区域网络的集中管理的方法,所述方法包括步骤:由第一应用向所述子网管理员注册它在所述网络中的存在;由所述子网管理员在所述网络中公布所述第一应用的所述存在,所述存在需要在其他应用能够与所述第一应用通信之前被公布;由管理应用向所述子网管理员注册它在所述网络中的存在;由多个代理应用中的一个向所述管理应用注册它的存在,所述多个代理应用中所述一个不向所述子网管理员注册;以及由所述管理应用将所述多个代理应用中所述一个的存在公布到所述网络。
2.根据权利要求1的方法,还包括步骤:要求所述第一应用向所述子网管理员注册以由所述子网管理员将所述第一应用的所述存在公布到所述网络,在所述第一应用的存在公布之前,第二应用不知道所述第一应用的存在并且不能与所述第一应用通信。
3.根据权利要求1的方法,还包括步骤:由所述管理应用维护活动代理应用的当前列表;以及由所述管理应用利用所述列表来管理所述多个代理应用。
4.根据权利要求1的方法,还包括步骤:建立所述多个代理应用,所述多个代理应用中至少一个在所述多个端节点的一些中建立,所述多个代理应用与所述管理应用无关。
5.根据权利要求1的方法,还包括步骤:由所述管理应用接收命令以由所述多个代理应用中指定一些执行;将所述命令从所述管理应用发送到所述多个代理应用中所述指定一些;以及响应所述代理应用中所述指定一些执行所述命令,在所述管理应用中接收来自所述代理应用中所述指定一些的响应。
6.根据权利要求1的方法,还包括步骤:由所述管理应用从所述多个代理应用中一些接收标识所述多个代理应用中所述一些的活动/非活动状态的报告。
7.根据权利要求1的方法,还包括步骤:由所述子网管理程序维护向所述子网管理员注册的所有管理应用的列表;由所述多个代理应用中的一个获得所述列表;由所述多个代理应用中所述一个向包括在所述列表中的所述管理应用的每个注册它的存在。
8.根据权利要求1的方法,还包括步骤:在所述多个代理应用的一个中接收停止执行的请求;将所述多个代理应用中所述一个将停止的通知传送到所述管理应用;以及由所述管理应用删除所述多个代理应用中所述一个的存在的注册。
9.一种提供包括子网管理员和多个端节点的分布式系统区域网络的集中管理的系统,所述系统包括:用于向所述子网管理员注册它在所述网络中的存在的第一应用;在所述网络中公布所述第一应用的所述存在的所述子网管理员,所述存在需要在其他应用能够与所述第一应用通信之前被公布;向所述子网管理员注册它在所述网络中的存在的管理应用;向所述管理应用注册它的存在的多个代理应用中的一个,所述多个代理应用中所述一个不向所述子网管理员注册;以及用于将所述多个代理应用中所述一个的存在公布到所述网络的所述管理应用。
10.一种可载入数字计算机内部存储器中的计算机程序产品,包括当所述产品在计算机上运行时,用于执行以实现权利要求1~8的方法的软件代码部分。
CNB2004800010506A 2003-08-14 2004-08-04 InfiniBand分布式系统区域网络的集中管理系统和方法 Expired - Fee Related CN1320802C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/640,821 US7421488B2 (en) 2003-08-14 2003-08-14 System, method, and computer program product for centralized management of an infiniband distributed system area network
US10/640,821 2003-08-14

Publications (2)

Publication Number Publication Date
CN1701562A true CN1701562A (zh) 2005-11-23
CN1320802C CN1320802C (zh) 2007-06-06

Family

ID=34136178

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004800010506A Expired - Fee Related CN1320802C (zh) 2003-08-14 2004-08-04 InfiniBand分布式系统区域网络的集中管理系统和方法

Country Status (12)

Country Link
US (2) US7421488B2 (zh)
EP (1) EP1654831B1 (zh)
JP (1) JP2007502456A (zh)
KR (1) KR100935782B1 (zh)
CN (1) CN1320802C (zh)
AT (1) ATE343277T1 (zh)
BR (1) BRPI0413589B1 (zh)
CA (1) CA2532777C (zh)
DE (1) DE602004002880T2 (zh)
IL (1) IL173731A (zh)
MX (1) MXPA06001676A (zh)
WO (1) WO2005018149A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103765833A (zh) * 2011-08-23 2014-04-30 英特尔公司 无限带宽织状结构中的启用gid的交换

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7653769B2 (en) * 2006-12-14 2010-01-26 International Business Machines Corporation Management of devices connected to infiniband ports
US7757033B1 (en) 2004-02-13 2010-07-13 Habanero Holdings, Inc. Data exchanges among SMP physical partitions and I/O interfaces enterprise servers
US7664110B1 (en) 2004-02-07 2010-02-16 Habanero Holdings, Inc. Input/output controller for coupling the processor-memory complex to the fabric in fabric-backplane interprise servers
US7685281B1 (en) 2004-02-13 2010-03-23 Habanero Holdings, Inc. Programmatic instantiation, provisioning and management of fabric-backplane enterprise servers
US7633955B1 (en) 2004-02-13 2009-12-15 Habanero Holdings, Inc. SCSI transport for fabric-backplane enterprise servers
US7843906B1 (en) 2004-02-13 2010-11-30 Habanero Holdings, Inc. Storage gateway initiator for fabric-backplane enterprise servers
US7990994B1 (en) 2004-02-13 2011-08-02 Habanero Holdings, Inc. Storage gateway provisioning and configuring
US8145785B1 (en) 2004-02-13 2012-03-27 Habanero Holdings, Inc. Unused resource recognition in real time for provisioning and management of fabric-backplane enterprise servers
US8868790B2 (en) 2004-02-13 2014-10-21 Oracle International Corporation Processor-memory module performance acceleration in fabric-backplane enterprise servers
US7873693B1 (en) 2004-02-13 2011-01-18 Habanero Holdings, Inc. Multi-chassis fabric-backplane enterprise servers
US7953903B1 (en) 2004-02-13 2011-05-31 Habanero Holdings, Inc. Real time detection of changed resources for provisioning and management of fabric-backplane enterprise servers
US7860961B1 (en) 2004-02-13 2010-12-28 Habanero Holdings, Inc. Real time notice of new resources for provisioning and management of fabric-backplane enterprise servers
US7860097B1 (en) 2004-02-13 2010-12-28 Habanero Holdings, Inc. Fabric-backplane enterprise servers with VNICs and VLANs
US7561571B1 (en) 2004-02-13 2009-07-14 Habanero Holdings, Inc. Fabric address and sub-address resolution in fabric-backplane enterprise servers
US7843907B1 (en) 2004-02-13 2010-11-30 Habanero Holdings, Inc. Storage gateway target for fabric-backplane enterprise servers
US8713295B2 (en) 2004-07-12 2014-04-29 Oracle International Corporation Fabric-backplane enterprise servers with pluggable I/O sub-system
US20070115857A1 (en) * 2005-11-21 2007-05-24 International Business Machines Corporation Mapping connectivity of discrete types of nodes in a network of nodes
CN101485142B (zh) * 2006-06-19 2013-03-27 诺基亚西门子通信有限责任两合公司 代理自动检测
US7676623B2 (en) * 2006-12-14 2010-03-09 International Business Machines Corporation Management of proprietary devices connected to infiniband ports
US7933291B2 (en) * 2006-12-22 2011-04-26 Honda Motor Co., Ltd. Protocol neutral channel-based application communication
FR2917929B1 (fr) * 2007-06-19 2010-05-28 Alcatel Lucent Dispositif de gestion d'insertion de contenus complementaires dans des flux de contenus multimedia.
US8042004B2 (en) * 2008-02-25 2011-10-18 International Business Machines Corporation Diagnosing communications between computer systems
US7831710B2 (en) * 2008-02-25 2010-11-09 International Business Machines Corporation Communication of offline status between computer systems
CN101409715B (zh) * 2008-10-22 2012-04-18 中国科学院计算技术研究所 一种利用InfiniBand网络进行通信的方法及系统
US9565132B2 (en) * 2011-12-27 2017-02-07 Intel Corporation Multi-protocol I/O interconnect including a switching fabric
US9071631B2 (en) * 2012-08-09 2015-06-30 International Business Machines Corporation Service management roles of processor nodes in distributed node service management
US9678801B2 (en) 2012-08-09 2017-06-13 International Business Machines Corporation Service management modes of operation in distributed node service management
GB2515053A (en) 2013-06-12 2014-12-17 Acano Uk Ltd Collaboration Server
US9843512B2 (en) * 2013-08-27 2017-12-12 Oracle International Corporation System and method for controlling a data flow in an engineered system for middleware and application execution
US10432470B2 (en) 2015-09-23 2019-10-01 International Business Machines Corporation Distributed subnet manager for InfiniBand networks
US9692660B2 (en) * 2015-09-23 2017-06-27 International Business Machines Corporation Election and use of configuration manager
US10360205B2 (en) 2015-09-23 2019-07-23 International Business Machines Corporation Cooperative MKEY locking for managing infiniband networks
US10659340B2 (en) 2016-01-28 2020-05-19 Oracle International Corporation System and method for supporting VM migration between subnets in a high performance computing environment
US10536334B2 (en) 2016-01-28 2020-01-14 Oracle International Corporation System and method for supporting subnet number aliasing in a high performance computing environment
US10616118B2 (en) 2016-01-28 2020-04-07 Oracle International Corporation System and method for supporting aggressive credit waiting in a high performance computing environment
US10630816B2 (en) 2016-01-28 2020-04-21 Oracle International Corporation System and method for supporting shared multicast local identifiers (MILD) ranges in a high performance computing environment
US10374926B2 (en) 2016-01-28 2019-08-06 Oracle International Corporation System and method for monitoring logical network traffic flows using a ternary content addressable memory in a high performance computing environment
KR20230020661A (ko) 2021-08-04 2023-02-13 오정훈 데이터 패브릭을 기반으로 한 분산 환경에 최적화된 데이터 인프라 구축 시스템

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2803472B1 (fr) * 2000-01-03 2003-05-16 Nptv Procede informatique pour l'exploitation d'une emission de television numerique interactive
JP2001266052A (ja) * 2000-03-15 2001-09-28 Ricoh Co Ltd 情報の構造化及びアプリケーション生成の方法及び装置
US6810418B1 (en) * 2000-06-29 2004-10-26 Intel Corporation Method and device for accessing service agents on non-subnet manager hosts in an infiniband subnet
US20020069279A1 (en) 2000-12-29 2002-06-06 Romero Francisco J. Apparatus and method for routing a transaction based on a requested level of service
US7254647B2 (en) * 2001-03-23 2007-08-07 International Business Machines Corporation Network for decreasing transmit link layer core speed
JP4055393B2 (ja) * 2001-10-30 2008-03-05 ソニー株式会社 データ処理装置およびその方法とプログラム
US7099337B2 (en) * 2001-11-30 2006-08-29 Intel Corporation Mechanism for implementing class redirection in a cluster
US7185025B2 (en) * 2003-09-30 2007-02-27 Motorola, Inc. Subnet replicated database elements

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103765833A (zh) * 2011-08-23 2014-04-30 英特尔公司 无限带宽织状结构中的启用gid的交换
CN103765833B (zh) * 2011-08-23 2017-07-04 英特尔公司 用于无限带宽织状结构中的启用gid的交换的方法及装置

Also Published As

Publication number Publication date
CA2532777C (en) 2010-11-23
IL173731A0 (en) 2006-07-05
CN1320802C (zh) 2007-06-06
DE602004002880D1 (de) 2006-11-30
IL173731A (en) 2010-11-30
CA2532777A1 (en) 2005-02-24
KR20060040684A (ko) 2006-05-10
US20090031017A1 (en) 2009-01-29
ATE343277T1 (de) 2006-11-15
BRPI0413589B1 (pt) 2018-02-27
US20050038883A1 (en) 2005-02-17
US7647396B2 (en) 2010-01-12
BRPI0413589A (pt) 2006-10-17
MXPA06001676A (es) 2006-05-19
DE602004002880T2 (de) 2007-04-26
EP1654831B1 (en) 2006-10-18
KR100935782B1 (ko) 2010-01-06
EP1654831A1 (en) 2006-05-10
WO2005018149A1 (en) 2005-02-24
US7421488B2 (en) 2008-09-02
JP2007502456A (ja) 2007-02-08

Similar Documents

Publication Publication Date Title
CN1320802C (zh) InfiniBand分布式系统区域网络的集中管理系统和方法
WO2021036265A1 (zh) 一种边缘云的融合管理的方法及装置
US11784940B2 (en) Detecting faulty resources of a resource delivery system
US9872205B2 (en) Method and system for sideband communication architecture for supporting manageability over wireless LAN (WLAN)
JP6075804B2 (ja) バーチャルトラフィックマネージャーをホストするハイパーバイザー又はハードウェアマネージャーのためのインサービスアップグレード
CN1532723A (zh) 服务注册表的聚合
JP2020530722A (ja) Pduタイプ設定方法、ueポリシー設定方法、および関連エンティティ
CN110545260A (zh) 一种基于拟态构造的云管理平台构建方法
US20100332212A1 (en) Method and apparatus for sleep and wake of computer devices
CN1761944A (zh) 用于虚拟机的动态服务注册中心
US20110093743A1 (en) Method and System of Updating a Plurality of Computers
US7136907B1 (en) Method and system for informing an operating system in a system area network when a new device is connected
WO2004025466A2 (en) Distributed computing infrastructure
CN1731740A (zh) 网络设备的管理方法及网络管理系统
CN1767506A (zh) 使用即时消息传递设施关联系统管理信息的方法和设备
CN102822838B (zh) 连接目的地限制系统、连接目的地限制方法、终端设定控制系统、终端设定控制方法以及程序
US8331972B2 (en) Resolving potential conflicts in interoperability communications
CN1791034A (zh) 一种检测方法
US10110670B2 (en) Allocation of service endpoints to servers
CN1487752A (zh) 同步服务gprs支持节点和网关gprs支持节点的系统和方法
CN1820265A (zh) 用于集群中的设备的单点管理系统
US9465541B2 (en) Apparatus and method for constructing storage virtualization network
JP2003099341A (ja) ネットワークデバイス管理装置、管理システム及び管理方法、並びにネットワークデバイス
US7529809B1 (en) Systems and methods for efficiently using network bandwidth to download resources
CN107645405A (zh) 用来进行唤醒管理的方法与装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20070606

Termination date: 20210804