CN115225451A - 一种计算节点管理系统及针对多个计算节点的管理方法 - Google Patents

一种计算节点管理系统及针对多个计算节点的管理方法 Download PDF

Info

Publication number
CN115225451A
CN115225451A CN202110517965.8A CN202110517965A CN115225451A CN 115225451 A CN115225451 A CN 115225451A CN 202110517965 A CN202110517965 A CN 202110517965A CN 115225451 A CN115225451 A CN 115225451A
Authority
CN
China
Prior art keywords
node
centralized
offload
computing
communication channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110517965.8A
Other languages
English (en)
Inventor
叶川
刘劲松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Cloud Computing Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Cloud Computing Technologies Co Ltd filed Critical Huawei Cloud Computing Technologies Co Ltd
Priority to PCT/CN2022/087251 priority Critical patent/WO2022218434A1/zh
Priority to EP22787656.2A priority patent/EP4319057A1/en
Publication of CN115225451A publication Critical patent/CN115225451A/zh
Priority to US18/488,687 priority patent/US20240048612A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1031Controlling of the operation of servers by a load balancer, e.g. adding or removing servers that serve requests
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/12Arrangements for remote connection or disconnection of substations or of equipment thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/042Network management architectures or arrangements comprising distributed management centres cooperatively managing the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • H04L41/0826Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability for reduction of network costs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/59Providing operational support to end devices by off-loading in the network or by emulation, e.g. when they are unavailable
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/40Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供一种计算节点管理系统及针对多个计算节点的管理方法,可减少云厂商所需付出的成本。本申请的计算节点管理系统包括:集中式卸载节点以及多个计算节点,每个计算节点插置有转接卡,每个转接卡分别与集中式卸载节点连接,每个转接卡在集中式卸载节点与每个转接卡所插置的计算节点之间建立通信通道,集中式卸载节点用于通过每个通信通道分别为多个计算节点提供资源。

Description

一种计算节点管理系统及针对多个计算节点的管理方法
本申请要求于2021年4月17日提交中国专利局、申请号为202110414830.9、申请名称为“基于云服务的计算机系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及云技术领域,尤其涉及一种计算节点管理系统及针对多个计算节点的管理方法。
背景技术
随着云技术的飞速发展,云厂商开始转向对硬件的研发,基于此,云厂商定义云硬件的时代开启。具体地,通过在运行云实例的计算节点(服务器)上插置卸载卡(例如,智能卡等等)的方式,可将计算节点负责的云管理功能卸载至卸载卡实现,从而减轻计算节点的负载。
对于同一个机框中的多个计算节点而言,每个计算节点插置有卸载卡,由该卸载卡为该计算节点上运行的云实例进行管理。然而,不同计算节点上的负载(例如,运行的云实例的数量)不同,而云厂商为这部分计算节点定制的卸载卡的资源规格通常是相同的,可能导致不同计算节点上的不同卸载卡忙闲不一,有些卸载卡的资源可能剩余,有些卸载卡的资源可能不足。
因此,当出现上述情况时,云厂商可为不同的计算节点设计不同资源规格的卸载卡,但所需付出的成本巨大。
发明内容
本申请实施例提供了一种计算节点管理系统及针对多个计算节点的管理方法,可减少云厂商所需付出的成本。
本申请实施例的第一方面提供了一种计算节点管理系统,该系统包括:集中式卸载节点以及多个计算节点,每个计算节点插置有转接卡,每个转接卡分别与集中式卸载节点连接,每个转接卡在集中式卸载节点与每个转接卡所插置的计算节点之间建立通信通道,即每个转接卡可作为集中式卸载节点与每个转接卡所插置的计算节点之间的通信通道。
对于任意一个计算节点,转接卡可在计算节点与集中式卸载节点之间搭建通信通道,集中式卸载节点可通过该计算节点与集中式卸载节点之间的通信通道,为该计算节点提供资源,即转接卡只需搭建计算节点与集中式卸载节点之间的通信通道,实现信息搬运的功能即可,云厂商制定的通用转接卡的资源规格,足以支持该较为简单的功能,可见,在本方案中,即便不同计算节点的负载即使不同,插置于不同计算节点的转接卡的资源规格可以是相同的,云厂商不需为不同计算节点设计不同资源规格的转接卡。
在一种可能的实现方式中,每个通信通道包括节点外子通信通道和节点内子通信通道,节点外子通信通道设置在每个转接卡与集中式卸载节点之间,节点内子通信通道设置在每个转接卡与每个转接卡所插置的计算节点之间。
在一种可能的实现方式中,集中式卸载节点分配的资源包括存储资源,集中式卸载节点与提供存储资源的存储设备连接,例如,存储设备可集成在集中式卸载节点的内部,又如,存储设备可通过磁盘接口、串行高级技术附件(serial advanced technologyattachment,SATA)接口、电子集成驱动器(integrated drive electronics,IDE)接口等等,与集中式卸载节点连接,再如,存储设备与卸载节点通过网络远程连接。多个转接卡中的第一转接卡部署有第一虚拟化设备,插置有第一转接卡的第一计算节点中的第一云实例与第一虚拟化设备绑定(例如,第一转接卡的操作系统将第一转接卡的虚拟功能挂载到第一云实例的操作系统中),集中式卸载节点通过第一节点外子通信通道将与自身相连的存储设备中的存储资源分配至第一虚拟化设备,第一云实例通过第一节点内子通信通道访问分配有存储资源的第一虚拟化设备。前述实现方式中,插置于第一计算节点上的第一转接卡部署有第一虚拟化设备,第一计算节点上的第一云实例与第一虚拟化设备绑定,第一云实例通过第一节点内子通信通道与第一虚拟化设备实现通信,第一虚拟化设备通过第一节点外子通信通道与集中式卸载节点实现通信,因此,集中式卸载节点可将与自身相连的存储设备中的存储资源分配至第一虚拟化设备,以使得第一云实例通过第一虚拟化设备使用存储资源。
在一种可能的实现方式中,存储设备可例如为磁盘,存储资源可例如为磁盘中的逻辑盘。
在一种可能的实现方式中,集中式卸载节点还用于转发存储设备与第一云实例之间的输入/输出(input/output,IO)请求。前述实现方式中,当第一计算节点的第一云实例需实现读写数据的操作时,可生成相应的IO请求,并通过插置于第一计算节点的第一转接卡将该IO请求发送至集中式卸载节点。然后,集中式卸载节点将IO请求发送至存储设备,以使得存储设备根据IO请求实现数据读写操作。
在一种可能的实现方式中,集中式卸载节点还用于对IO请求进行处理,处理包括以下至少一种:数据加解密、数据校验、数据传输速度控制和数据服务质量控制。前述实现方式中,集中式卸载节点还可实现信息处理功能。具体地,集中式卸载节点可对其转发的IO请求,进行数据加解密、数据校验、数据传输速度控制和数据服务质量控制等操作,从而提高信息传输的安全性和可靠性,并确保端到端的通信质量。
在一种可能的实现方式中,集中式卸载节点分配的资源包括计算资源,集中式卸载节点与提供计算资源的计算设备连接,多个转接卡中的第二转接卡部署有第二虚拟化设备,插置有第二转接卡的第二计算节点中的第二云实例与第二虚拟化设备绑定,集中式卸载节点通过第二节点外子通信通道将与自身相连的计算设备的计算资源分配至第二虚拟化设备,第二云实例通过第二节点内子通信通道访问分配有计算资源的第二虚拟化设备。前述实现方式中,插置于第二计算节点上的第二转接卡部署有第二虚拟化设备,第二计算节点上的第二云实例与第二虚拟化设备绑定,第二云实例通过第二节点内子通信通道与第二虚拟化设备实现通信,第二虚拟化设备通过第二节点外子通信通道与集中式卸载节点实现通信,因此,集中式卸载节点可将与自身相连的计算设备中的计算资源分配至第二虚拟化设备,以使得第二云实例通过第二虚拟化设备使用计算资源。
在一种可能的实现方式中,计算设备为用于异构计算的处理器。例如,用于图像渲染或机器学习的图形处理单元(graphics process unit,GPU),张量处理单元(tensorprocessing unit,TPU),实现特定功能的现场可编程逻辑门阵列(field programmablegate array,FPGA),加密卡,解密卡或通用串行总线(universal serial bus,USB)设备等等,计算资源可例如为这些设备提供的运算能力。
在一种可能的实现方式中,集中式卸载节点分配的资源包括网络资源,集中式卸载节点与提供网络资源的网络设备连接,多个转接卡中的第三转接卡部署有第三虚拟化设备,插置有第三转接卡的第三计算节点中的第三云实例与第三虚拟化设备绑定,集中式卸载节点通过第三节点外子通信通道将与自身相连的网络设备的网络资源分配至第三虚拟化设备,第三云实例通过第三节点内子通信通道访问分配有网络资源的第三虚拟化设备。前述实现方式中,插置于第三计算节点上的第三转接卡部署有第三虚拟化设备,第三计算节点上的第三云实例与第三虚拟化设备绑定,第三云实例通过第三节点内子通信通道与第三虚拟化设备实现通信,第三虚拟化设备通过第三节点外子通信通道与集中式卸载节点实现通信,因此,集中式卸载节点可将与自身相连的网络设备中的网络资源分配至第三虚拟化设备,以使得第三云实例通过第三虚拟化设备使用网络资源。
在一种可能的实现方式中,网络设备例如为网关、网卡、路由器等,网络资源可例如为网关、网卡或路由器中的提供的网络功能。其中,网关可以为域名系统(domain namesystem,DNS)网关,网络地址转换(network address translation,NAT)网关,负载均衡网关等等。
可选地,计算设备和网络设备也可集成在集中式卸载节点内部。
在一种可能的实现方式中,集中式卸载节点还用于转发网络设备与第三云实例之间的网络报文。前述实现方式中,集中式卸载节点还与该网络设备连接,当第三计算节点的第三云实例需与外网进行通信时,可生成相应的网络报文,并通过插置于第三计算节点的第三转接卡将该网络报文发送至集中式卸载节点,然后,集中式卸载节点将网络报文发送至网络设备,以使得网络设备将网络报文发送至外网,响应报文可经集中式卸载节点沿原路径返回至第三计算节点的第三云实例。
在一种可能的实现方式中,集中式卸载节点还用于转发多个计算节点上的云实例之间的网络报文。前述实现方式中,集中式卸载节点可作为多个计算节点上的云实例之间的通信桥梁,转发云实例之间的网络报文,以使得不同计算节点上的云实例之间实现通信。
在一种可能的实现方式中,集中式卸载节点还用于对网络报文进行处理,处理包括以下至少一种:数据加解密、数据校验、数据传输速度控制和数据服务质量控制。前述实现方式中,集中式卸载节点还可实现信息处理功能。具体地,集中式卸载节点可对其转发的网络报文,进行数据加解密、数据校验、数据传输速度控制和数据服务质量控制等操作,从而提高信息传输的安全性和可靠性,并确保端到端的通信质量。
在一种可能的实现方式中,集中式卸载节点,具体用于通过通信通道管理多个计算节点上的云实例。前述实现方式中,集中式卸载节点可执行以下云实例的管理操作:通知计算节点创建云实例,通知计算节点释放云实例,通知计算节点迁移云实例以及通知计算节点监视云实例的状态。
在一种可能的实现方式中,集中式卸载节点分配的资源包括存储资源,集中式卸载节点与提供存储资源的存储设备连接,例如,存储设备可集成在集中式卸载节点的内部,又如,存储设备可通过磁盘接口、SATA接口、IDE接口等等,与集中式卸载节点连接。再如,存储设备与卸载节点通过网络远程连接。多个转接卡中的第一转接卡部署有第一虚拟化设备,插置有第一转接卡的第一计算节点与第一虚拟化设备绑定,集中式卸载节点通过第一节点外子通信通道将与自身相连的存储设备的存储资源分配至第一虚拟化设备,第一计算节点通过第一节点内子通信通道访问分配有存储资源的第一虚拟化设备。前述实现方式中,插置于第一计算节点上的第一转接卡部署有第一虚拟化设备,第一计算节点与第一虚拟化设备绑定,第一计算节点通过第一节点内子通信通道与第一虚拟化设备实现通信,第一虚拟化设备通过第一节点外子通信通道与集中式卸载节点实现通信,因此,集中式卸载节点可将与自身相连的存储设备中的存储资源分配至第一虚拟化设备,以使得第一计算节点通过第一虚拟化设备使用存储资源。
在一种可能的实现方式中,存储设备可例如为磁盘,存储资源可例如为磁盘中的逻辑盘。
在一种可能的实现方式中,集中式卸载节点还用于转发存储设备与第一计算节点之间的IO请求。前述实现方式中,当第一计算节点需实现读写数据的操作时,可生成相应的IO请求,并通过插置于第一计算节点的第一转接卡将该IO请求发送至集中式卸载节点。然后,集中式卸载节点将IO请求发送至存储设备,以使得存储设备根据IO请求实现数据读写操作。
在一种可能的实现方式中,集中式卸载节点还用于对IO请求进行处理,处理包括以下至少一种:数据加解密、数据校验、数据传输速度控制和数据服务质量控制。具体地,集中式卸载节点可对其转发的IO请求,进行数据加解密、数据校验、数据传输速度控制和数据服务质量控制等操作,从而提高信息传输的安全性和可靠性,并确保端到端的通信质量。
在一种可能的实现方式中,资源包括计算资源,集中式卸载节点与提供计算资源的计算设备连接,多个转接卡中的第二转接卡部署有第二虚拟化设备,插置有第二转接卡的第二计算节点与第二虚拟化设备绑定,集中式卸载节点通过第二节点外子通道将与自身相连的计算设备的计算资源分配至第二虚拟化设备,第二计算节点通过第二节点内子通信通道访问分配有计算资源的所述第二虚拟化设备。前述实现方式中,插置于第二计算节点上的第二转接卡部署有第二虚拟化设备,第二计算节点与第二虚拟化设备绑定,第二计算节点通过第二节点内子通信通道与第二虚拟化设备实现通信,第二虚拟化设备通过第二节点外子通信通道与集中式卸载节点实现通信,因此,集中式卸载节点可将与自身相连的计算设备中的计算资源分配至第二虚拟化设备,以使得第二计算节点通过第二虚拟化设备使用计算资源。
在一种可能的实现方式中,计算设备为用于异构计算的处理器。例如,用于图像渲染或机器学习的GPU,TPU,实现特定功能的FPGA,加密卡,解密卡或USB设备等等,计算资源可例如为这些设备提供的运算能力。
在一种可能的实现方式中,资源包括网络资源,集中式卸载节点与提供网络资源的网络设备连接,多个转接卡中的第三转接卡部署有第三虚拟化设备,插置有第三转接卡的第三计算节点与第三虚拟化设备绑定,集中式卸载节点通过第三节点外子通道将与自身相连的网络设备的网络资源分配至第三虚拟化设备,第三计算节点通过第三节点内子通信通道访问分配有网络资源的所述第二虚拟化设备。前述实现方式中,插置于第三计算节点上的第三转接卡部署有第三虚拟化设备,第三计算节点与第三虚拟化设备绑定,第三计算节点通过第三节点内子通信通道与第三虚拟化设备实现通信,第三虚拟化设备通过第三节点外子通信通道与集中式卸载节点实现通信,因此,集中式卸载节点可将与自身相连的网络设备中的网络资源分配至第三虚拟化设备,以使得第三计算节点通过第三虚拟化设备使用网络资源。
在一种可能的实现方式中,网络设备例如为网关、网卡、路由器等,网络资源可例如为网关、网卡或路由器中的提供的网络功能。其中,网关可以为DNS网关,NAT网关,负载均衡网关等等。
在一种可能的实现方式中,集中式卸载节点还用于转发网络设备与第三计算节点之间的网络报文。前述实现方式中,集中式卸载节点还与该网络设备连接,当第三计算节点需与外网进行通信时,可生成相应的网络报文,并通过插置于第三计算节点的第三转接卡将该网络报文发送至集中式卸载节点,然后,集中式卸载节点将网络报文发送至网络设备,以使得网络设备将网络报文发送至外网,响应报文可经集中式卸载节点沿原路径返回至第三计算节点。
在一种可能的实现方式中,集中式卸载节点还用于转发多个计算节点之间的网络报文。前述实现方式中,集中式卸载节点可作为多个计算节点之间的通信桥梁,转发计算节点之间的网络报文,以使得不同计算节点之间实现通信。
在一种可能的实现方式中,集中式卸载节点还用于对网络报文进行处理,处理包括以下至少一种:数据加解密、数据校验、数据传输速度控制和数据服务质量控制。前述实现方式中,集中式卸载节点还可实现信息处理功能。具体地,集中式卸载节点可对其转发的网络报文,进行数据加解密、数据校验、数据传输速度控制和数据服务质量控制等操作,从而提高信息传输的安全性和可靠性,并确保端到端的通信质量。
在一种可能的实现方式中,集中式卸载节点,具体用于通过通信通道管理多个计算节点。
在一种可能的实现方式中,节点外子通信通道通过高速通信总线实现,高速通信总线为以下任意一种:高速串行计算机扩展总线标准(peripheral componentinterconnect express,PCIE)总线、串行器/解串行器(serializer/deserializer,SERDES)总线、基于融合以太网的远程直接数据存取(remote direct memory access overconverged ethernet,RoCE)总线、以及远程直接数据存取(remote direct memoryaccess,RDMA)总线。
在一种可能的实现方式中,节点内子通信通道通过PCIE总线实现。
在一种可能的实现方式中,云服务系统可包含至少一个机框,每个机框包含一组计算节点,以及用于管理该组计算节点的至少一个集中式卸载节点。
在一种可能的实现方式中,云服务系统可包含多个机框,每个机框包含一组计算节点,各组计算节点被同一集中式卸载节点管理。
在一种可能的实现方式中,集中式卸载节点为服务器或卸载卡。
在一种可能的实现方式中,云实例为虚拟机或容器。
本申请实施例的第二方面提供了一种针对多个计算节点的管理方法,其特征在于,方法应用于集中式卸载节点,其中,多个计算节点中的每个计算节点插置有转接卡,每个转接卡分别与集中式卸载节点连接,每个转接卡在集中式卸载节点与每个转接卡所插置的计算节点之间建立通信通道,该方法包括:集中式卸载节点通过通信通道为多个计算节点提供资源;集中式卸载节点通过通信通道分别管理多个计算节点。
用于实现上述方法的计算节点管理系统包含集中式卸载节点以及多个计算节点。其中,每个计算节点插置有转接卡,每个计算节点插置有转接卡,每个转接卡分别与集中式卸载节点连接,每个转接卡在集中式卸载节点与每个转接卡所插置的计算节点之间建立通信通道。对于任意一个计算节点,集中式卸载节点可通过插置于该计算节点的转接卡,为运行在该计算节点提供资源,并管理该计算节点。可见,转接卡只需搭建计算节点与集中式卸载节点之间的通信通道,转接卡仅需实现信息搬运的功能,故当不同计算节点上的负载不同时,即使插置于不同计算节点的转接卡的资源规格相同,也可充分支撑各个转接卡需要实现的功能,云厂商不需为不同计算节点设计不同资源规格的转接卡,有利于减少成本。
在一种可能的实现方式中,通信通道包括节点外子通信通道和节点内子通信通道,节点外子通信通道设置在每个转接卡与集中式卸载节点之间,节点内子通信通道设置在每个转接卡与每个转接卡所插置的计算节点之间。
在一种可能的实现方式中,集中式卸载节点分配的资源包括存储资源,集中式卸载节点与提供存储资源的存储设备连接,多个转接卡中的第一转接卡部署有第一虚拟化设备,插置有第一转接卡的第一计算节点或第一计算节点上运行的第一云实例通过第一节点内子通信通道与第一虚拟化设备绑定,集中式卸载节点通过通信通道为多个计算节点提供资源,包括:集中式卸载节点通过第一节点外子通信通道将与自身相连的存储设备的存储资源分配至第一虚拟化设备。
在一种可能的实现方式中,该方法还包括:集中式卸载节点转发存储设备与第一云实例之间的IO请求。
在一种可能的实现方式中,该方法还包括:集中式卸载节点转发存储设备与第一计算节点之间的IO请求。
在一种可能的实现方式中,该方法还包括:集中式卸载节点对IO请求进行处理,处理包括以下至少一种:数据加解密、数据校验、数据传输速度控制和数据服务质量控制。
在一种可能的实现方式中,集中式卸载节点分配的资源包括计算资源,集中式卸载节点与提供计算资源的计算设备连接,多个转接卡中的第二转接卡部署有第二虚拟化设备,插置有第二转接卡的第二计算节点或第二计算节点上运行的第二云实例通过第二节点内子通信通道与第二虚拟化设备绑定,集中式卸载节点通过通信通道为多个计算节点提供资源,包括:集中式卸载节点通过第二节点外子通信通道将与自身相连的计算设备的计算资源分配至第二虚拟化设备。
在一种可能的实现方式中,集中式卸载节点分配的资源包括网络资源,集中式卸载节点与提供网络资源的网络设备连接,多个转接卡中的第三转接卡部署有第三虚拟化设备,插置有第三转接卡的第三计算节点或第三计算节点上运行的第三云实例通过第三节点内子通信通道与第三虚拟化设备绑定,集中式卸载节点通过通信通道为多个计算节点提供资源,包括:集中式卸载节点通过第三节点外子通信通道将与自身相连的网络设备的网络资源分配至第三虚拟化设备。
在一种可能的实现方式中,该方法还包括:集中式卸载节点转发网络设备与第三云实例之间的网络报文。
在一种可能的实现方式中,该方法还包括:集中式卸载节点转发网络设备与第三计算节点之间的网络报文。
在一种可能的实现方式中,该方法还包括:集中式卸载节点转发多个计算节点上的云实例之间的网络报文。
在一种可能的实现方式中,该方法还包括:集中式卸载节点转发多个计算节点之间的网络报文。
在一种可能的实现方式中,该方法还包括:集中式卸载节点对网络报文进行处理,处理包括以下至少一种:数据加解密、数据校验、数据传输速度控制和数据服务质量控制。
在一种可能的实现方式中,节点外子通信通道通过高速通信总线实现,高速通信总线为以下任意一种:PCIE总线、SERDES总线、RoCE总线、以及RDMA总线。
在一种可能的实现方式中,节点内子通信通道通过PCIE总线实现。
在一种可能的实现方式中,云服务系统可包含至少一个机框,每个机框包含一组计算节点,以及用于管理该组计算节点的至少一个集中式卸载节点。
在一种可能的实现方式中,云服务系统可包含多个机框,每个机框包含一组计算节点,各组计算节点被同一集中式卸载节点管理。
在一种可能的实现方式中,集中式卸载节点为服务器或卸载卡。
在一种可能的实现方式中,云实例为虚拟机或容器。
本申请实施例的第三方面提供了一种集中式卸载节点,该集中式卸载节点包括存储器和处理器;
存储器存储有代码,处理器被配置为执行代码,当该代码被执行时,集中式卸载节点执行如第二方面、第二方面中任意一种可能的实现方式所述的方法。
本申请实施例的第四方面提供了一种计算机存储介质,该计算机存储介质存储有计算机程序,该程序由计算机执行时,使得计算机实施第二方面、第二方面中任意一种可能的实现方式所述的方法。
本申请实施例的第五方面提供了一种计算机程序产品,该计算机程序产品存储有指令,该指令在由计算机执行时,使得计算机实施第二方面、第二方面中任意一种可能的实现方式所述的方法。
本申请实施例中,计算节点管理系统包含集中式卸载节点以及多个计算节点。其中,每个计算节点插置有转接卡,每个计算节点插置有转接卡,每个转接卡分别与集中式卸载节点连接,每个转接卡在集中式卸载节点与每个转接卡所插置的计算节点之间建立通信通道。对于任意一个计算节点,集中式卸载节点可通过插置于该计算节点的转接卡,为运行在该计算节点提供资源,并管理该计算节点。可见,转接卡只需搭建计算节点与集中式卸载节点之间的通信通道,转接卡仅需实现信息搬运的功能,故当不同计算节点上的负载不同时,即使插置于不同计算节点的转接卡的资源规格相同,也可充分支撑各个转接卡需要实现的功能,云厂商不需为不同计算节点设计不同资源规格的转接卡,有利于减少成本。
附图说明
图1为相关技术中的计算节点管理系统的一个结构示意图;
图2(a)为本申请实施例提供的计算节点管理系统的一个结构示意图;
图2(b)为本申请实施例提供的计算节点管理系统的另一结构示意图;
图3为本申请实施例提供的计算节点管理系统的另一结构示意图;
图4为本申请实施例提供的计算节点管理系统的另一结构示意图;
图5为本申请实施例提供的针对多个计算节点的管理方法的一个流程示意图;
图6为本申请实施例提供的集中式卸载节点的一个结构示意图;
图7为本申请实施例提供的集中式卸载节点的另一结构示意图。
具体实施方式
本申请实施例提供了一种计算节点管理系统及针对多个计算节点的管理方法,可减少云厂商所需付出的成本。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”并他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
本申请实施例可应用于计算节点管理系统中。目前,在计算节点管理系统中,云厂商通过在运行云实例的计算节点(即物理服务器)上插置卸载卡,能够令卸载卡代替计算节点实现云管理,即由卸载卡代替计算节点管理计算节点上的云实例,从而减轻计算节点的负载。
如图1所示(图1为相关技术中的计算节点管理系统的一个结构示意图),在计算节点管理系统的某一个机框中,部署有多个计算节点。其中,每个计算节点均插置有卸载卡,由该卸载卡对该计算节点上运行的云实例进行管理。然而,不同计算节点上的负载(例如,运行的云实例的数量、云实例的业务容量等等)不同,而云厂商为这部分计算节点定制的卸载卡的资源规格通常是相同的,可能导致不同计算节点上的不同卸载卡忙闲不一,有些卸载卡的资源可能剩余,有些卸载卡的资源可能不足。
因此,当出现上述情况时,云厂商可为不同的计算节点设计不同资源规格的卸载卡,但所需付出的成本巨大。为了解决该问题,本申请实施例提供了一种新的计算节点管理系统。图2(a)为本申请实施例提供的计算节点管理系统的一个结构示意图,图2(b)为本申请实施例提供的计算节点管理系统的一个结构示意图。如图2(a)和图2(b)所示,该系统包括:计算节点、转接卡以及集中式卸载节点,下文将对计算节点、转接卡以及集中式卸载节点分别进行简单的介绍:
计算节点通常部署有至少一个云实例,从而为存在云服务需求的用户提供业务服务。计算节点一般指物理服务器,计算节点的云实例既可以为物理服务器上的虚拟机(virtual machine,VM)、物理服务器上的容器(docker)等等。此外,计算节点也可不部署云实例,以裸机(也可称为裸金属服务器,即计算节点本身)的方式,为存在云服务需求的用户(例如公有云的租户或私有云的用户)提供云服务。在计算节点管理系统中,某一个数据中心可包含多个机框,每一个机框中可放置有多个计算节点,同一机框中的计算节点通常认为是一组计算节点。
转接卡可通过异构卡的方式呈现,例如,简化智能卡、图形处理器(graphicsprocessing unit,GPU)、网络接口控制器(network interface controller,NIC)等等。转接卡还可通过集成转发功能和虚拟化功能,例如单根I/O虚拟化(single-root I/Ovirtualization,SRIOV)功能的板卡呈现,例如,可通过在主板上嵌入一块芯片构成卸载卡,该芯片可以为专用集成电路(application specific integrated circuit,ASIC)或现场可编程逻辑门阵列(field programmable gate array,FPGA)等等。转接卡的两侧具有接口,从而设置于计算节点和集中式卸载节点之间,即转接卡的其中一侧与计算节点连接,转接卡的另一侧与集中式卸载节点连接。如此一来,转接卡可作为计算节点和集中式卸载节点之间的通信桥梁(通信通道),从而实现计算节点和集中式卸载节点之间的信息交互。
具体地,转接卡可支持SRIOV功能,即转接卡可创建出虚拟化设备,包括至少一个物理功能(physical function,PF)和多个虚拟功能(virtual function,VF)。例如,转接卡可基于virtio协议,创建出virtio-gpu、virtio-blk、virtio-scsi、virtio-net、virtio-vsock以及virtio-fs等各种类型的虚拟化设备,并将这些虚拟化设备与计算节点的云实例(或计算节点)绑定,使得虚拟化设备作为计算节点的云实例(或计算节点)与集中式卸载节点之间的虚拟IO接口,从而实现计算节点的云实例(或计算节点)与集中式卸载节点之间的通信。
集中式卸载节点可以为物理服务器,例如,基于X86架构的服务器或基于ARM架构的服务器等等。集中式卸载节点也可以为云厂商自定制的独立嵌入式硬件,例如,可提供网络、存储以及计算资源的卸载卡等等。集中式卸载节点可将网络、存储以及计算资源提供至转接卡的虚拟化设备,计算节点的云实例(或计算节点)可使用虚拟化设备,故集中式卸载节点可为计算节点的云实例(或计算节点)提供计算、网络以及存储资源,从而实现网络报文处理、IO转发、云存储、信息处理等等功能。
为了进一步理解计算节点、转接卡以及集中式卸载节点之间的关系,下文结合图3对计算节点、转接卡以及集中式卸载节点之间的关系作进一步的介绍,为了便于介绍计算节点、转接卡以及集中式卸载节点之间的关系,下文将以计算节点上部署有云实例进行示意性说明,若计算节点以裸机的方式呈现,计算节点、转接卡以及集中式卸载节点之间的关系也是类似的,后续不再赘述。
图3为本申请实施例提供的计算节点管理系统的另一结构示意图,需要说明的是,图3所示的例子是在图2(b)所示的例子上进行拓展得到。如图3所示,在计算节点管理系统的某个机框中,包含集中式卸载节点以及多个计算节点,每个计算节点插置有转接卡,每个转接卡分别与集中式卸载节点连接,每个转接卡在集中式卸载节点与每个转接卡所插置的计算节点之间建立通信通道,该通信通道包括每个转接卡与每个转接卡所插置的计算节点之间的节点内子通信通道,以及每个转接卡与集中式卸载节点之间的节点外子通信通道,即对于任意一个转接卡,该转接卡可作为集中式卸载节点与该转接卡所插置的计算节点之间的通信通道。为方便说明,以下均以图2(b)所示的例子进行示意性说明。如图2(b)所示,设某一机框包含插置有转接卡1的计算节点1,插置有转接卡2的计算节点2以及集中式卸载节点1,转接卡1可作为计算节点1与集中式卸载节点1之间的通信通道,转接卡2可作为计算节点2与集中式卸载节点1之间的通信通道,即集中式卸载节点1可通过转接卡1,与计算节点1实现通信,且集中式卸载节点1可通过转接卡2,与计算节点2实现通信。
具体地,对于任意一个计算节点而言,该计算节点具有PCIE接口,且分配至该计算节点的转接卡同样也具有PCIE接口。因此,将该计算节点的PCIE接口和分配至该计算节点的转接卡的PCIE接口连接,这两者的PCIE接口则构成了前述的节点内子通信通道,相当于将分配至该计算节点的转接卡插置于该计算节点中,从而实现二者的通信连接。
进一步地,对于任意一个计算节点而言,插置于该计算节点上的转接卡与集中式卸载节点之间可通过高速通信总线连接,在图2(a)中,高速通信总线由支持高速通信总线的交换机实现,该交换机设置有多个高速通信总线接口,分别与多个转接卡的高速通信总线接口和集中式卸载节点的高速通信总线接口连接。举例而言,高速通信总线为PCIE总线时,交换机为PCIE交换机,高速通信总线为RDMA总线时,交换机为无限带宽(infiniband,IB)交换机。交换机可在内部实现集中式卸载节点与转接卡之间的通信通道。
图2(a)是图2(b)的一种具体实现,在图2(b)中,交换机的功能可集成在集中式卸载节点中,此时集中式卸载节点上均设置有多个高速通信总线接口,转接口可通过自身的高速通信总线接口直接连接到集中式卸载节点的一个高速通信总线接口中。
高速通信总线接口例如为PCIE总线接口、SERDES总线接口、基于融合以太网的远程直接数据存取(remote direct memory access over converged ethernet,RoCE)总线接口、远程直接数据存取(remote direct memory access,RDMA)总线接口。
更进一步地,对于任意一个计算节点而言,插置于该计算节点上的转接卡部署有虚拟化设备,这些虚拟化设备与该计算节点的云实例绑定。因此,该计算节点的云实例可通过插置于该计算节点的转接卡的虚拟化设备,与集中式卸载节点实现通信。依旧如上述例子,如图2(b)所示,该机框中,计算节点1部署有虚拟机1,计算节点2部署有虚拟机2,转接卡1部署有虚拟化设备1、虚拟化设备2和虚拟化设备3,转接卡2部署有虚拟化设备4,其中,虚拟化设备1、虚拟化设备2、虚拟化设备3均与虚拟机1绑定,虚拟化设备4与虚拟化机2绑定。那么,虚拟机1可通过虚拟化设备1、虚拟化设备2、虚拟化设备3中的任意一个虚拟化设备,与集中式卸载节点1通信,且虚拟机2可通过虚拟化设备4,与集中式卸载节点1通信。
由于集中式卸载节点可通过插置于每个计算节点的转接卡,与该计算节点实现通信,故集中式卸载节点可对多个计算节点实现以下功能:
(1)集中式卸载节点可实现云实例管理功能,即通过插置于每个计算节点的转接卡,管理运行在该计算节点上的云实例。具体地,集中式卸载节点部署有用于管理多个计算节点的管控面,云厂商的工作人员或租户可向管控面输入相关指令,以使得集中式卸载节点通过插置于每个计算节点的转接卡,创建、释放、迁移或监视运行在该计算节点上的云实例,实现对每个计算节点的云实例的管理。依旧如上述例子,如图2(b)所示,集中式卸载节点1可通过转接卡1的虚拟化设备1(也可以是虚拟化设备2或虚拟化设备3),实时监视计算节点1的虚拟机1,从而确定虚拟机1的运行状态。
(2)集中式卸载节点还可实现转发功能。如图3所示(图3为本申请实施例提供的计算节点管理系统的另一结构示意图),计算节点管理系统的某个机框中,还包括用于接入网络的网络设备(例如,路由器、交换机等设备),集中式卸载节点与该网络设备连接。当某个计算节点的云实例需与外网进行通信时,可先生成相应的网络报文,并通过插置于该计算节点的转接卡将该网络报文发送至集中式卸载节点。然后,集中式卸载节点将网络报文发送至网络设备,以使得网络设备将网络报文发送至外网进行处理。依旧如上述例子,如图2(b)所示,设该机框还包括网络设备1。虚拟机1可通过虚拟化设备1,向集中式卸载节点1发送网络报文。接着,集中式卸载节点1可将网络报文转发至网络设备1,以使得网络设备1将网络报文发送至外网进行处理。
进一步地,计算节点管理系统中,不同机框的构成通常是相似的(即每一个机框均包含计算节点、集中式卸载节点和网络设备),不同机框的网络设备之间可建立通信连接,故不同机框的网络设备和集中式卸载节点,可用于转发不同机框的计算节点的云实例之间的网络报文,以使得这些云实例之间也能够实现通信。依旧如上述例子,如图2(b)和图3所示,该机框包含插置有转接卡1的计算节点1,集中式卸载节点1和网络设备1,设另一机框包括插置有转接卡7的计算节点7,集中式卸载节点2和网络设备2。那么,当计算节点1的虚拟机1需与计算节点7的虚拟机7通信时,可通过虚拟化设备1向集中式卸载节点1发送网络报文。接着,集中式卸载节点1将网络报文发送至网络设备1,以使得网络设备1将网络报文发送至网络设备2。然后,网络设备2可将网络报文发送至集中式卸载节点2,以使得集中式卸载节点2通过转接卡7的虚拟化设备7,将网络报文发送至虚拟机7进行处理。
更进一步地,在某一机框中,集中式卸载节点还可用于转发该机框中不同计算节点的云实例之间的网络报文,以使得该机框中不同计算节点的云实例之间也能够实现通信。依旧如上述例子,如图2(b)所示,在该机框中,当计算节点1的虚拟机1需与计算节点2的虚拟机2通信时,可通过虚拟化设备1向集中式卸载节点1发送网络报文。接着,集中式卸载节点1将网络报文发送至虚拟化设备4,以使得虚拟化设备4将网络报文发送至虚拟机2进行处理。
(3)集中式卸载节点还可实现云存储功能。计算节点管理系统的某个机框中,还包括用于存储数据的存储设备(例如,部署有云硬盘的服务器、硬盘、磁盘等设备),集中式卸载节点与存储设备连接。当某个计算节点的云实例需与向存储设备写入数据时(或从存储设备读取数据),可先生成相应的IO请求,并通过插置于该计算节点的转接卡将该IO请求发送至集中式卸载节点。然后,集中式卸载节点将IO请求发送至存储设备,以使得存储设备根据IO请求写入数据(或读取数据)。
进一步,集中式卸载节点不仅连接有存储资源和网络资源,还可连接有计算资源等资源。其中,存储资源可以是前述存储设备基于SRIVO功能所创建的至少一个物理功能(physical function,PF)和多个虚拟功能(virtual function,VF),网络资源可以是前述网络设备基于SRIVO功能所创建的至少一个PF和多个VF,计算资源可以是用于图像渲染或机器学习的GPU,TPU,实现特定功能的FPGA,加密卡,解密卡或USB设备等用于异构计算的计算设备基于SRIVO功能所创建的至少一个PF和多个VF。那么,集中式卸载节点可通过节点外子通信通道将这些资源的其中一部分资源,分配至某一转接卡的某些虚拟化设备,与这些虚拟化设备绑定的云实例通过节点内子通信通道访问这些虚拟化设备后,可使用分配至这些虚拟化设备的资源。依旧如上述例子,如图2(b)所示,该机框中,集中式卸载节点1不仅连接有网络设备1,还连接有存储设备1和计算设备1,网络设备1、存储设备1和计算设备1具有多个VF。集中式卸载节点1可通过集中式卸载节点1与转接卡1之间的节点外子通信通道1,将网络设备1的一部分VF分配至虚拟化设备1,集中式卸载节点1也可通过节点外子通信通道1将存储设备1的一部分VF分配至虚拟化设备2,集中式卸载节点1还可通过节点外子通信通道1将计算设备1的一部分VF分配至虚拟化设备3。因此,虚拟机1可通过计算节点1与转接卡1之间的节点内子通信通道1访问虚拟化设备1,从而使用网络设备1的VF,虚拟机1也可通过节点内子通信通道1访问虚拟化设备2,从而使用存储设备1的VF,虚拟机1还可通过节点内子通信通道1访问虚拟化设备3,从而使用计算设备1的VF。
(4)集中式卸载节点还可实现信息处理功能。具体地,集中式卸载节点可对待转发的信息(例如,前述的IO请求或网络报文等)进行处理,再转发处理后的信息。集中式卸载节点所执行的处理包括以下至少一种:数据加解密、数据校验、数据传输速度控制和数据服务质量控制等等。其中,数据加解密指,集中式卸载节点可利用某些加解密算法(例如,单向散列算法以及对称加密算法等等),对转发的信息进行加解密,从而提高信息传输的安全性和可靠性。数据校验指,集中式卸载节点还可对信息进行数据完整性字段(data integrityfield,DIF)的验证以及基于纠删码(erasure code,EC)算法的错误纠正,从而进一步提高信息传输的安全性和可靠性。数据传输速度控制指,集中式卸载节点可通过硬件加速等方式控制信息传输的速度,从而确保端到端的通信质量。数据服务质量控制指,集中式卸载节点可通过各种基础技术控制信息的转发质量,从而为整个计算节点管理系统提供更好的服务质量(quality of service,QoS)。此外,集中式卸载节点还可实现其他各种处理,此处不做一一展开。
应理解,在图2(b)所示的例子中,集中式卸载节点1还可通过集中式卸载节点1与转接卡2之间的节点外子通信通道2,将网络设备1的一部分VF(也可以是计算设备1的一部分VF,还可以是存储设备1的一部分VF)分配至虚拟化设备4,以使得计算节点2的虚拟机2可通过计算节点2与转接卡2之间的节点内子通信通道2访问虚拟化设备4,从而使用网络设备1的VF(也可以是计算设备1的VF,还可以是存储设备1的VF)。
应理解,图3所示的例子中,仅以每个机框包含一个集中式卸载节点进行示意性说明,并不对每个机框包含的集中式卸载节点的数量构成限制,每个机框包含的集中式卸载节点的数量可由该机框中计算节点的数量和容量决定。
还应理解,图3所示的例子中,仅以每个机框中均包含集中式卸载节点进行示意性说明,如图4所示(图4为本申请实施例提供的计算节点管理系统的另一结构示意图),多个机框的计算节点也可以由同一个集中式卸载节点进行管理,集中式卸载节点与各个机框的计算节点之间可通过高速通信总线实现通信。需要说明的是,在图4中,对于任意一个机框而言,该机框的计算节点可通过交换机接入高速通信总线,从而与集中式卸载节点以及其余机框的计算节点实现通信。其中,交换机的类型与高速通信总线的类型对应,例如,当高速通信总线为PCIE总线时,交换机为PCIE交换机(PCIE switch)。又如,当高速通信总线为RDMA总线时,交换机为IB交换机等等。
本申请实施例中,计算节点管理系统包含集中式卸载节点以及多个计算节点。其中,每个计算节点插置有转接卡,每个计算节点插置有转接卡,每个转接卡分别与集中式卸载节点连接,每个转接卡在集中式卸载节点与每个转接卡所插置的计算节点之间建立通信通道。对于任意一个计算节点,集中式卸载节点可通过插置于该计算节点的转接卡,为该计算节点提供资源,以及管理该计算节点。可见,云管理功能由集中式卸载节点实现,而转接卡仅需实现信息搬运的功能,故当不同计算节点上的负载不同时,即使插置于不同计算节点的转接卡的资源规格相同,也可充分支撑各个转接卡需要实现的功能,云厂商不需为不同计算节点设计不同资源规格的转接卡,有利于减少成本。
进一步地,若每个机框包含至少两个集中式卸载节点,同一机框中的不同集中式卸载节点可支持负载均衡或互为主备等功能,以提高计算节点管理系统的稳定性和可靠性。
进一步地,云厂商统一制定的转接卡,可支持不同厂家提供的计算节点(物理服务器),即转接卡可在任意支持PCIE接口的计算节点上安装,使得计算节点管理系统的部署更加方便、灵活。
进一步地,由集中式卸载节点管理计算节点的云实例,可根据实际需求令云实例在虚拟机、容器和裸机之间灵活切换,从而满足不同用户的需求。
进一步地,集中式卸载节点的部署可不受单一机框的限制(可参考图4所示的例子),更具备弹性,且资源利用率更高。
以上是对本申请实施例提供的计算节点管理系统的架构所进行的详细说明,以下将对本申请实施例提供的基于针对多个计算节点的管理方法进行介绍。图5为本申请实施例提供的针对多个计算节点的管理方法的一个流程示意图。如图5所示,该方法应用于集中式卸载节点,其中,多个计算节点中的每个计算节点插置有转接卡,每个转接卡分别与集中式卸载节点连接,每个转接卡在所述集中式卸载节点与每个转接卡所插置的计算节点之间建立通信通道。需要说明的是,计算节点管理系统可参考前述图3或图4所示的例子,后续不再赘述。
该方法包括:
501、集中式卸载节点通过通信通道为多个计算节点提供资源;需要说明的是,步骤501可参考前述关于集中式卸载节点的转发功能、云存储功能以及信息处理功能的相关说明部分,此处不再赘述。
502、集中式卸载节点通过通信通道分别管理多个计算节点。需要说明的是,步骤502可参考前述关于集中式卸载节点的云实例管理功能的相关说明部分,此处不再赘述。
具体地,集中式卸载节点可通过通信通道分别管理分配有步骤501所述的资源的多个计算节点。
需要说明的是,上述方法各模块/单元之间的信息交互、执行过程等内容,由于与本申请系统实施例基于同一构思,其带来的技术效果与本申请系统实施例相同,具体内容可参考本申请实施例前述所示的系统实施例中的叙述,此处不再赘述。
图6为本申请实施例提供的集中式卸载节点的一个结构示意图。如图6所示,本申请实施例中集中式卸载节点一个实施例可以包括一个或一个以上中央处理器601,存储器602,输入输出接口603,有线或无线网络接口604,电源605。
存储器602可以是短暂存储或持久存储。更进一步地,中央处理器601可以配置为与存储器602通信,在集中式卸载节点上执行存储器602中的一系列指令操作。
本实施例中,中央处理器601可以执行前述图3或图4所示实施例中集中式卸载节点所能实现的步骤,具体此处不再赘述。
图7为本申请实施例提供的集中式卸载节点的另一结构示意图,如图7所示,集中式卸载节点包括:
资源提供模块701,用于通过通信通道为多个计算节点提供资源;例如,资源提供模块701可用于实现图5所示实施例中的步骤501。
管理模块702,用于通过通信通道分别管理多个计算节点。例如,管理模块702可用于实现图5所示实施例中的步骤502。
本申请实施例还涉及一种计算机存储介质,包括计算机可读指令,当所述计算机可读指令被执行时,实现前述基于针对多个计算节点的管理方法。
本申请实施例还涉及一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行前述基于针对多个计算节点的管理方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (28)

1.一种计算节点管理系统,其特征在于,所述系统包括:集中式卸载节点以及多个计算节点,每个计算节点插置有转接卡,每个转接卡分别与所述集中式卸载节点连接,每个转接卡在所述集中式卸载节点与每个转接卡所插置的计算节点之间建立通信通道,所述集中式卸载节点用于通过每个通信通道分别为所述多个计算节点提供资源。
2.根据权利要求1所述的系统,其特征在于,所述通信通道包括节点外子通信通道和节点内子通信通道,所述节点外子通信通道设置在每个转接卡与所述集中式卸载节点之间,所述节点内子通信通道设置在每个转接卡与所述每个转接卡所插置的计算节点之间。
3.根据权利要求2所述的系统,其特征在于,所述资源包括存储资源,所述集中式卸载节点与提供所述存储资源的存储设备连接,多个转接卡中的第一转接卡部署有第一虚拟化设备,插置有所述第一转接卡的第一计算节点中的第一云实例与所述第一虚拟化设备绑定,所述集中式卸载节点通过第一节点外子通信通道将与自身相连的所述存储设备中的所述存储资源分配至所述第一虚拟化设备,所述第一云实例通过第一节点内子通信通道访问分配有所述存储资源的所述第一虚拟化设备。
4.根据权利要求3所述的系统,其特征在于,所述集中式卸载节点还用于转发所述存储设备与所述第一云实例之间的输入/输出IO请求。
5.根据权利要求4所述的系统,其特征在于,所述集中式卸载节点还用于对所述IO请求进行处理,所述处理包括以下至少一种:数据加解密、数据校验、数据传输速度控制和数据服务质量控制。
6.根据权利要求2至5任一项所述的系统,其特征在于,所述资源包括计算资源,所述集中式卸载节点与提供所述计算资源的计算设备连接,多个转接卡中的第二转接卡部署有第二虚拟化设备,插置有所述第二转接卡的第二计算节点中的第二云实例与所述第二虚拟化设备绑定,所述集中式卸载节点通过第二节点外子通信通道将与自身相连的所述计算设备的所述计算资源分配至所述第二虚拟化设备,所述第二云实例通过第二节点内子通信通道访问分配有所述计算资源的所述第二虚拟化设备。
7.根据权利要求6所述的系统,其特征在于,所述计算设备为用于异构计算的处理器。
8.根据权利要求2至7任意一项所述的系统,其特征在于,所述资源包括网络资源,所述集中式卸载节点与提供所述网络资源的网络设备连接,多个转接卡中的第三转接卡部署有第三虚拟化设备,插置有所述第三转接卡的第三计算节点中的第三云实例与所述第三虚拟化设备绑定,所述集中式卸载节点通过第三节点外子通信通道将与自身相连的所述网络设备的所述网络资源分配至所述第三虚拟化设备,所述第三云实例通过第三节点内子通信通道访问分配有所述网络资源的所述第三虚拟化设备。
9.根据权利要求8所述的系统,其特征在于,所述集中式卸载节点还用于转发所述网络设备与所述第三云实例之间的网络报文。
10.根据权利要求8或9所述的系统,其特征在于,所述集中式卸载节点还用于转发所述多个计算节点上的云实例之间的网络报文。
11.根据权利要求8或9所述的系统,其特征在于,所述集中式卸载节点还用于对所述网络报文进行处理,所述处理包括以下至少一种:数据加解密、数据校验、数据传输速度控制和数据服务质量控制。
12.根据权利要求1至9任意一项所述的系统,其特征在于,所述集中式卸载节点,具体用于通过所述通信通道管理所述多个计算节点上的云实例。
13.根据权利要求2所述的系统,其特征在于,所述资源包括存储资源,所述集中式卸载节点与提供所述存储资源的存储设备连接,多个转接卡中的第一转接卡部署有第一虚拟化设备,插置有所述第一转接卡的第一计算节点与所述第一虚拟化设备绑定,所述集中式卸载节点通过第一节点外子通信通道将与自身相连的所述存储设备的所述存储资源分配至所述第一虚拟化设备,所述第一计算节点通过第一节点内子通信通道访问分配有所述存储资源的所述第一虚拟化设备。
14.根据权利要求2或11所述的系统,其特征在于,所述资源包括计算资源,所述集中式卸载节点与提供所述计算资源的计算设备连接,多个转接卡中的第二转接卡部署有第二虚拟化设备,插置有所述第二转接卡的第二计算节点与所述第二虚拟化设备绑定,所述集中式卸载节点通过第二节点外子通信通道将与自身相连的所述计算设备的所述计算资源分配至所述第二虚拟化设备,所述第二计算节点通过第二节点内子通信通道访问分配有所述计算资源的所述第二虚拟化设备。
15.根据权利要求2、13、14任意一项所述的系统,其特征在于,所述资源包括网络资源,所述集中式卸载节点与提供所述网络资源的网络设备连接,多个转接卡中的第三转接卡部署有第三虚拟化设备,插置有所述第三转接卡的第三计算节点与所述第三虚拟化设备绑定,所述集中式卸载节点通过第三节点外子通信通道将与自身相连的所述网络设备的所述网络资源分配至所述第三虚拟化设备,所述第三计算节点通过第三节点内子通信通道访问分配有所述网络资源的所述第三虚拟化设备。
16.根据权利要求2至15所述的系统,其特征在于,所述节点外子通信通道通过高速通信总线实现,所述高速通信总线为以下任意一种:高速串行计算机扩展总线标准PCIE总线、串行器/解串行器SERDES总线、远程直接数据存取RDMA总线、以及基于融合以太网的远程直接数据存取RoCE总线。
17.根据权利要求2至15任一项所述的系统,其特征在于,所述节点内子通信通道通过高速串行计算机扩展总线标准PCIE总线实现。
18.根据权利要求1至17任意一项所述的系统,其特征在于,所述多个计算节点设置于同一机框。
19.根据权利要求1至17任意一项所述的系统,其特征在于,所述多个计算节点包含多组计算节点,每组计算节点设置于同一机框。
20.根据权利要求1至19任意一项所述的系统,其特征在于,所述集中式卸载节点为服务器或卸载卡。
21.一种针对多个计算节点的管理方法,其特征在于,所述方法应用于集中式卸载节点,其中,所述多个计算节点中的每个计算节点插置有转接卡,每个转接卡分别与所述集中式卸载节点连接,每个转接卡在所述集中式卸载节点与每个转接卡所插置的计算节点之间建立通信通道,所述方法包括:
所述集中式卸载节点通过所述通信通道为所述多个计算节点提供资源;
所述集中式卸载节点通过所述通信通道分别管理所述多个计算节点。
22.根据权利要求21所述的方法,其特征在于,所述通信通道包括节点外子通信通道和节点内子通信通道,所述节点外子通信通道设置在每个转接卡与所述集中式卸载节点之间,所述节点内子通信通道设置在每个转接卡与所述每个转接卡所插置的计算节点之间。
23.根据权利要求22所述的方法,其特征在于,所述资源包括存储资源,所述集中式卸载节点与提供所述存储资源的存储设备连接,多个转接卡中的第一转接卡部署有第一虚拟化设备,插置有所述第一转接卡的第一计算节点或所述第一计算节点上运行的第一云实例通过第一节点内子通信通道与所述第一虚拟化设备绑定,所述集中式卸载节点通过所述通信通道为所述多个计算节点提供资源,包括:
所述集中式卸载节点通过第一节点外子通信通道将与自身相连的所述存储设备的所述存储资源分配至所述第一虚拟化设备。
24.根据权利要求22或23所述的方法,其特征在于,所述资源包括计算资源,所述集中式卸载节点与提供所述计算资源的计算设备连接,多个转接卡中的第二转接卡部署有第二虚拟化设备,插置有所述第二转接卡的第二计算节点或所述第二计算节点上运行的第二云实例通过第二节点内子通信通道与所述第二虚拟化设备绑定,所述集中式卸载节点通过所述通信通道为所述多个计算节点提供资源,包括:
所述集中式卸载节点通过第二节点外子通信通道将与自身相连的所述计算设备的所述计算资源分配至所述第二虚拟化设备。
25.根据权利要求22至24任一项所述的方法,其特征在于,所述资源包括网络资源,所述集中式卸载节点与提供所述网络资源的网络设备连接,多个转接卡中的第三转接卡部署有第三虚拟化设备,插置有所述第三转接卡的第三计算节点或所述第三计算节点上运行的第三云实例通过第三节点内子通信通道与所述第三虚拟化设备绑定,所述集中式卸载节点通过所述通信通道为所述多个计算节点提供资源,包括:
所述集中式卸载节点通过第三节点外子通信通道将与自身相连的所述网络设备的所述网络资源分配至所述第三虚拟化设备。
26.一种集中式卸载节点,其特征在于,所述集中式卸载节点包括存储器和处理器;
所述存储器存储有代码,所述处理器被配置为执行所述代码,当所述代码被执行时,所述集中式卸载节点执行如权利要求21至25任一项所述的方法。
27.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,该程序由计算机执行时,使得所述计算机实施权利要求21至25任一项所述的方法。
28.一种计算机程序产品,其特征在于,所述计算机程序产品存储有指令,所述指令在由计算机执行时,使得所述计算机实施权利要求21至25任一项所述的方法。
CN202110517965.8A 2021-04-17 2021-05-12 一种计算节点管理系统及针对多个计算节点的管理方法 Pending CN115225451A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/CN2022/087251 WO2022218434A1 (zh) 2021-04-17 2022-04-16 一种计算节点管理系统及针对多个计算节点的管理方法
EP22787656.2A EP4319057A1 (en) 2021-04-17 2022-04-16 Computing node management system, and management method for multiple computing nodes
US18/488,687 US20240048612A1 (en) 2021-04-17 2023-10-17 Computing Node Management System and Method for Managing a Plurality of Computing Nodes

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202110414830 2021-04-17
CN2021104148309 2021-04-17

Publications (1)

Publication Number Publication Date
CN115225451A true CN115225451A (zh) 2022-10-21

Family

ID=83606725

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110517965.8A Pending CN115225451A (zh) 2021-04-17 2021-05-12 一种计算节点管理系统及针对多个计算节点的管理方法

Country Status (4)

Country Link
US (1) US20240048612A1 (zh)
EP (1) EP4319057A1 (zh)
CN (1) CN115225451A (zh)
WO (1) WO2022218434A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10318311B2 (en) * 2016-06-30 2019-06-11 Amazon Technologies, Inc. Memory allocation techniques at partially-offloaded virtualization managers
CN109698845B (zh) * 2017-10-20 2020-10-09 华为技术有限公司 数据传输的方法、服务器、卸载卡及存储介质
CN108874510A (zh) * 2018-07-11 2018-11-23 郑州云海信息技术有限公司 一种基于云管理平台的多节点部署与对接架构及方法
US11593138B2 (en) * 2019-05-20 2023-02-28 Microsoft Technology Licensing, Llc Server offload card with SoC and FPGA
CN112148422A (zh) * 2019-06-29 2020-12-29 华为技术有限公司 一种io处理的方法和装置

Also Published As

Publication number Publication date
WO2022218434A1 (zh) 2022-10-20
US20240048612A1 (en) 2024-02-08
EP4319057A1 (en) 2024-02-07

Similar Documents

Publication Publication Date Title
US11934341B2 (en) Virtual RDMA switching for containerized
US8954785B2 (en) Redundancy and load balancing in remote direct memory access communications
US20200241926A1 (en) Selection and management of disaggregated computing resources
US20080263544A1 (en) Computer system and communication control method
US11563799B2 (en) Peripheral device enabling virtualized computing service extensions
US11949559B2 (en) Composed computing systems with converged and disaggregated component pool
US11520530B2 (en) Peripheral device for configuring compute instances at client-selected servers
US10949313B2 (en) Automatic failover permissions
CN102316043A (zh) 端口虚拟化方法、交换机及通信系统
CN107291568A (zh) 智能网卡侧的异常处理方法和装置
CN110795209B (zh) 一种控制方法和装置
US20230138867A1 (en) Methods for application deployment across multiple computing domains and devices thereof
US11985065B2 (en) Enabling isolated virtual network configuration options for network function accelerators
CN115225451A (zh) 一种计算节点管理系统及针对多个计算节点的管理方法
WO2021061414A1 (en) Peripheral device for configuring compute instances at client- selected servers
CN117499318B (zh) 云计算虚拟网络系统、及其使用方法、装置、设备及介质
CN115361255B (zh) 外设组件互连(pci)主机设备
US20230169017A1 (en) Dynamic server rebalancing
US20240195693A1 (en) Formation of compute units from converged and disaggregated component pools
US20230409363A1 (en) Radio-based application processing server with network function accelerator at virtualization management offloading card
US20230409362A1 (en) Managing network function accelerators for radio-based applications from virtualized computing service control plane
WO2023245067A1 (en) Managing network function accelerators for radio-based applications from virtualized computing service control plane
WO2023141418A1 (en) Local instantiation of remote peripheral devices

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination