CN115586964A - 资源共享装置、资源管理装置及资源管理方法 - Google Patents
资源共享装置、资源管理装置及资源管理方法 Download PDFInfo
- Publication number
- CN115586964A CN115586964A CN202211214544.9A CN202211214544A CN115586964A CN 115586964 A CN115586964 A CN 115586964A CN 202211214544 A CN202211214544 A CN 202211214544A CN 115586964 A CN115586964 A CN 115586964A
- Authority
- CN
- China
- Prior art keywords
- resource pool
- resource
- pcie
- memory
- pool
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 96
- 230000015654 memory Effects 0.000 claims abstract description 116
- 238000000034 method Methods 0.000 claims description 16
- 230000001133 acceleration Effects 0.000 claims description 10
- 238000013468 resource allocation Methods 0.000 abstract description 6
- 238000011176 pooling Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000012544 monitoring process Methods 0.000 description 9
- 239000004744 fabric Substances 0.000 description 8
- 230000000903 blocking effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000017525 heat dissipation Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000011229 interlayer Substances 0.000 description 2
- 239000010410 layer Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000013341 scale-up Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5016—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/42—Bus transfer protocol, e.g. handshake; Synchronisation
- G06F13/4204—Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
- G06F13/4221—Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F13/38—Information transfer, e.g. on bus
- G06F13/42—Bus transfer protocol, e.g. handshake; Synchronisation
- G06F13/4282—Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2209/00—Indexing scheme relating to G06F9/00
- G06F2209/50—Indexing scheme relating to G06F9/50
- G06F2209/5011—Pool
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2213/00—Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
- G06F2213/0026—PCI express
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multi Processors (AREA)
Abstract
本发明实施例提供了一种资源共享装置、资源管理装置及资源管理方法,包括:计算资源池、内存资源池和设备资源池,所述计算资源池通过CXLFabric交换网络与所述内存资源池连接,所述计算资源池通过PCIeI/OFabric交换网络与所述设备资源池相连;所述计算资源池、内存资源池和设备资源池均由多个资源构成,所述资源设置于至少两个终端设备上。本发明实施例可以通过资源共享装置实现多个设置在至少两个终端设备上的资源的动态分配与多主机共享,满足用户对资源分配的实际需求。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及资源共享装置、资源管理装置及资源管理方法。
背景技术
随着AI、HPC、大数据、云计算等技术的快速发展,对不同资源的拓展和管理至关重要。
现有技术中,传统数据中心整机柜架构可以实现对整机柜中的资源进行集中管理、集中供电与集中散热,快速部署与运维,但是传统的资源拓展方式如节点scale-up(Scale vertically,纵向扩展)以及柜内节点堆叠scale-out(Scale horizontally,横向扩展)无法实现资源的多主机共享与动态分配,从而无法满足用户对资源分配的实际需求。
发明内容
本发明实施例的目的在于提供一种计算装置及终端设备,以解决现有技术中计算主板上走线距离较长,传输损耗较多的技术问题。具体技术方案如下:
在本发明实施的第一方面,首先提供了一种资源共享装置,包括:计算资源池、内存资源池和设备资源池,所述计算资源池通过CXL Fabric交换网络与所述内存资源池连接,所述计算资源池通过PCIe I/O Fabric交换网络与所述设备资源池相连;所述计算资源池、内存资源池和设备资源池均由多个资源构成,所述资源设置于至少两个终端设备上。
可选地,所述CXLFabric交换网络和或所述PCIe I/O Fabric交换网络为CLOS拓扑结构;
所述CXL Fabric交换网络由多个CXL switch组成,任意两个所述CXL switch之间互联;和/或,
所述PCIe I/O Fabric交换网络由多个PCIe switch组成,任意两个所述PCIeswitch之间互联。
可选地,所述内存资源池包括以下任意一种或组合:
基于E3.S形态的内存资源池、PCIe标准AIC卡形态的内存资源池以及基于DIMM条的JBOM内存资源池。
可选地,存在多种内存资源池的情况下,所述内存资源池内部通过内存控制器进行连接。
可选地,所述设备资源池包括以下任意一种或组合:
GPU资源池、NVME SSD存储资源池以及异构加速资源池。
可选地,所述计算资源池通过PCIe I/O Fabric交换网络与所述设备资源池相连为:
所述GPU资源池通过第一PCLe GEN5总线与第一PCIe I/O Fabric交换网络相连,通过所述第一PCIe I/O Fabric交换网络与所述计算资源池相连;和/或,
所述NVME SSD存储资源池通过第二PCLe GEN5总线与第二PCIe I/OFabric交换网络相连,通过所述第二PCIe I/O Fabric交换网络与所述计算资源池相连;和/或,
所述异构加速资源池通过第三PCLe GEN5总线与第三PCIe I/O Fabric交换网络相连,通过所述第三PCIe I/O Fabric交换网络与所述计算资源池相连。
可选地,还包括:以太网交换机,所述以太网交换机分别与所述计算资源池、所述内存资源池以及所述设备资源池相连。
在本发明实施的第二方面,还提供了一种资源管理装置,包括权利要求1-7中任意一项所述的资源共享装置,以及与所述资源共享装置相连的资源管理模块。
可选地,所述资源管理模块通过PCIe I/O Fabric交换网络与所述资源共享装置相连。
在本发明实施的第二方面,还提供了一种资源管理方法,应用于任一所述的资源管理装置,所述方法包括:
通过资源管理模块接收用户发送的资源管理命令,对所述资源管理命令进行解析确定目标资源池,所述目标资源池包括以下任意一种或组合:计算资源池、内存资源池和设备资源池;
通过所述资源管理模块根据所述资源管理命令对所述目标资源池进行管理,获取资源管理结果;
通过所述资源管理模块将所述资源管理结果反馈给所述用户。
本发明实施例提供的资源共享装置包括计算资源池、内存资源池和设备资源池,通过对整机柜中资源进行资源池化可以将所有的资源分解到最小单位,屏蔽不同资源的差异性,实现资源按需分配,相比于现有技术中如图1所示的集中式整机柜架构,通过本申请的资源共享装置可以更好的实现大规模的资源池解耦,实现资源的多主机共享与动态分配,包括计算资源池、内存资源池、设备资源池的解耦池化,资源池可以按需分配给多个用户,同时可以方便地进行资源拓展来增加资源池容量。进一步地,计算资源池通过CXLFabric交换网络与内存资源池连接,通过CXL Fabric交换网络实现内存资源池化,从而可以实现计算资源和内存资源之间的多主机无阻塞共享资源,计算资源池通过PCIe I/OFabric交换网络与所述设备资源池相连,相比于现有技术中通过PCIe switch的基础扇出功能,现有技术的基础扇出功能仅能实现对CPU PCIe资源的拓展,并没有导入PCIe I/OFabric交换网络来实现资源的动态分配与多主机共享,进一步地,计算资源池、内存资源池和设备资源池均由多个资源构成,所述资源设置于至少两个终端设备上,即各个资源池中均是由多个资源构成,资源设置于至少两个终端设备上,这样通过上述连接和设置才可以实现对多个资源之间的共享与动态分配。
另外,通过本发明实施例提供的资源管理装置以及资源管理方法,通过与资源共享装置相连的资源管理模块以及对应的对资源管理的方法,可以实现在对多个资源进行共享的同时可以满足用户对资源共享装置的管理和实时查看装置对应的资源相关信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为一种现有技术中示例性传统集中式整机柜架构示意图;
图2为本发明实施例中提供的一种资源共享装置架构示意图;
图3为本发明实施例中提供的一种资源共享装置示意图;
图4为图3中本发明实施例中提供的一种资源共享装置示意图中的Fabric网络拓扑示意图;
图5为本发明实施例中提供的一种示例性现有技术中设备资源拓展示意图;
图6为图3中本发明实施例中提供的一种资源共享装置示意图中的一种设备资源拓展示意图;
图7为图3中本发明实施例中提供的一种资源共享装置连接示意图中的一种内存资源拓展示意图;
图8为本发明实施例中提供的一种整机柜部署示意图;
图9为本发明实施例中提供的一种资源管理装置示意图;
图10为本发明实施例中提供的一种资源管理方法的应用示意图;
图11为本发明实施例中提供的一种资源管理方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
传统数据中心整机柜架构实现了整机柜的集中管理、集中供电与集中散热,方便进行快速部署与运维。随着AI、HPC、大数据、云计算等技术的发展,传统的资源拓展方式如节点scale-up以及柜内节点堆叠scale-out已经无法满足用户对资源的需求。
参照图1和图2,图1是本发明实施例中提供的一种示例性传统集中式整机柜架构,图2是本发明实施例中提供的一种资源共享装置架构示意图。可以明显看出现有技术中只能实现整机柜的集中管理、集中供电与集中散热,以及机柜内资源部署与运维,但是对于CPU、内存、GPU等资源仍是单独工作,各个资源之间无法实现共享和动态分配。
为了解决上述问题,第一方面,本发明实施例提供了一种资源共享装置,包括:计算资源池、内存资源池和设备资源池,所述计算资源池通过CXLFabric交换网络与所述内存资源池连接,所述计算资源池通过PCIe I/O Fabric交换网络与所述设备资源池相连;所述计算资源池、内存资源池和设备资源池均由多个资源构成,所述资源设置于至少两个终端设备上。该资源共享装置可以实现对对个资源的共享和动态分配,即资源共享装置可以实现大规模的资源池解耦,以及多个资源之间的共享与动态分配,包括计算资源池、内存资源池、设备资源池的解耦池化,通过资源池可以按需分配给多个用户,同时可以方便地进行资源拓展来增加资源池容量。下面对上述提到的资源共享装置进行具体描述。
参照图3,资源共享装置中包括计算资源池、内存资源池、GPU资源池、NVME SSD存储资源池、异构加速器资源池,其中,计算资源池中Memory表示每个CPU对应的近端内存,内存资源池中的Mem.Ctrl.(Memory Control)表示内存控制器,CXL SW(CXL swtich)表示CXL互联交换机,每个CXL SW可以连接4个其他的CXL SW,DDR(Double Data Rate)代表DDR接口,符合DDR协议,GPU Pool表示GPU资源池,NVEM Pool代表NVME SSD资源池,AcceleratorPool表示异构加速器资源池,PCIe Gen5是一个树状形的接口总线,可以为CPU提供访问外围设备的总线接口。
具体的,资源共享装置包括三种资源池,第一种为计算资源池,该计算资源池内部包括多个CPU,每个CPU均有对应连接的近端内存,每个cpu之间可以通过UPI(Ultra PathInterconnect)总线实现计算节点的拓展以及计算节点间的缓存一致性,并通过CPUFabric互连网络实现计算资源池化,其中,CPU Fabric可以是由多个交换机构成的Fabric拓扑结构。UPI总线用于实现CPU芯片之间的直接互联,通过UPI总线实现节点间的拓展可以保证计算节点间更高的通信速率、效率和更低的功耗。
需要说明的是,如图4所示,Fabric拓扑架构本质上是一种2*4CLOS拓扑,CLOS是一种多级电路交换网络的结构,通过CLOS拓扑可以提供无阻塞的网络,其中,该Fabric拓扑包括两层交换机switch,该拓扑结构对内可以实现层间全互连,对外可以支持40个端口,除了2*4CLOS拓扑外,支持2*2、2*1拓扑调整,所有端口均支持上行和下行复用。因此,本发明中Fabric交换网络可以由多个互联的交换机组成,这些交换机上可以设置有PCIe接口或者CXL接口,通过PCIe总线和CXL接口连接,可以实现不同资源池之间的互联。
本发明中的计算资源池通过UPI、CCIX(缓存一致性互联标准,Cache CoherentInterconnect forAccelerators)为代表的CPU缓存一致性互连总线实现跨平台异构CPU计算资源池化,设备端可以按需获取计算资源,同时CPU资源可以实现灵活进行拓展。
第二种为内存资源池,在现有的整机柜架构中,DDR内存是放置在CPU两端的并行DIMM内存形态,由于标准机箱宽度的限制,内存数量拓展有限,本发明实施例中,将基于CXL(缓存一致性互联,Compute Express Link)串行缓存一致性协议进行内存资源池化拓展与多主机访问,如图7所示,主机端可以通过CXL switch访问基于E3.S形态的内存模组或PCIe标准AIC卡形态的内存资源池和基于DIMM条的JBOM内存资源池,实现内存的多主机共享池化,即本发明的内存资源扩展架构中,在多个CPU互联的基础上,通过CXL Fabric进一步实现计算资源和内存资源池互联。需要说明的是,CXL可以帮助系统(尤其是具有加速器的系统)更高效地运行,CXL位于PCIe Gen5链路基础架构之上,可以有PCIe Gen5设备。
内存资源池中包括以CXL switch构成的CXLFabric,内存控制器,以及,DIMM条内存,其中,内存控制器用于进行协议转换,例如,当任一内存资源池和其他资源池连接的时候,可以将DDR协议和CXL协议进行转换,进而通过接口和总线进行连接以及信号传输,DIMM内存条是内存资源池内部是并行的DDR接口拓展DIMM条内存,这些内存条通过内存控制器将DDR协议转换成CXL协议再控制远端内存连接到CXL Fabric中,从而实现对外和计算资源池连接,向CPU提供可以按需分配的扩展内存资源。
进一步地,所述内存资源池包括以下任意一种或组合:基于E3.S形态的内存资源池、PCIe标准AIC卡形态的内存资源池以及基于DIMM条的JBOM内存资源池。
需要说明的是,对于上述三种内存资源池,在本发明实施例中可以实现计算资源池和以上三种任意一种内存资源池连接或者多个内存资源池同时连接,以实现资源扩展,相比于现有技术不仅不会由于机箱导致内存扩展受限制,还可以适用不同的内存资源,适用性强。
进一步地,存在多种内存资源池的情况下,所述内存资源池内部通过内存控制器进行连接。
需要说明的是,内存资源池除了进行协议转换之外,可以进一步地实现存在多种内存资源池的情况下,内存资源池内部通过内存控制器进行连接,内存资源池还包括内存资源池对外接口,该接口由CXL串行一致性总线与CXL switch连接。
本发明中的内存资源池通过以CXL为代表的串行缓存一致性总线实现了数据中心的内存形态由传统的服务器内置的DIMM并行内存转变为并行内存与串行内存共存,进而实现基于串行缓存一致性总线的内存资源池化。基于CXL总线协议及串行内存模组,可以实现内存的远端拓展与多主机共享内存资源池化。
第三中为设备资源池,如图5所示,图5中的SW1、2、3、4代表任一交换机,现有的整机柜方案中,针对I/O资源的拓展,采用的是PCIe switch的基础扇出功能,虽然实现了CPUPCIe资源的拓展,但是并没有导入PCIe switch高级功能实现资源的动态分配与多主机共享。本发明实施例中,如图6所示,图6中的SWA、SWB代表任一互联交换机,在实现针对I/O资源拓展上,通过引入PCIe高性能交换网络,即PCIe I/O Fabric交换网络实现设备的多主机共享,主机跨交换节点访问设备,设备间端到端通信,主机到主机通信等资源池化高级功能。
进一步地,所述设备资源池包括以下任意一种或组合:GPU资源池、NVME SSD存储资源池以及异构加速资源池。
具体的,设备资源池主要包括GPU资源池、NVME SSD存储资源池以及异构加速资源池,以GPU资源池为例,现有技术中实现GPU资源的扩展是对每个CPU通过PCIe switch的基础扇出功能实现GPU的扩展,例如,如图所示,向每个CPU分配两个GPU,然而这种扩展方式会存在,当一部分CPU对GPU资源需求过大会存在GPU资源不够分配,导致CPU处理速度缓慢,另外一部分CPU对GPU的资源需求小,导致GPU资源浪费,因此,通过本发明中的PCIe I/OFabric交换网络,可以实现不同CPU可以访问多台GPU,可以根据需求分配GPU资源,不会造成GPU资源浪费,也会提高CPU运行速度。
进一步地,所述CXLFabric交换网络和或所述PCIe I/O Fabric交换网络为CLOS拓扑结构;所述CXL Fabric交换网络由多个CXL switch组成,任意两个所述CXL switch之间互联;和/或,所述PCIe I/O Fabric交换网络由多个PCIe switch组成,任意两个所述PCIeswitch之间互联。
具体的,如图4所示,Fabric拓扑架构本质上是一种2*4CLOS拓扑,CLOS是一种多级电路交换网络的结构,通过Clos拓扑可以提供无阻塞的网络,其中,该Fabric拓扑包括两层交换机switch,该拓扑结构对内可以实现层间全互连,对外可以支持40个端口,除了2*4CLOS拓扑外,支持2*2、2*1拓扑调整,所有端口均支持上行和下行复用。
需要说明的是,除了通过CXL switch或者PCIe switch实现交换网络的构成,其他的只要能够实现交换网络本质的设备均可以,例如,CXL管理器或者PCIe管理器等。
需要说明的是,PCIe(Peripheral Component Interface Extend)是一种通用的总线规格,可以用于计算机系统内部的总线传输接口,不只包括显示接口,还包括CPU、PCI、HDD、Network等多种应用接口,其中,本发明实施例中的PCIe是PCIe 5.0,PCIe 5.0可以实现128GB/s的X16双工带宽,速率达到32GT/s,并且PCIe 5.0的高速交换芯片可以实现大规模的I/O资源互连交换和上下行通道动态分配,并可以根据需求场景做灵活的分叉进行I/O设备资源适配,进而可以实现PCIe I/O Fabric全互连架构的实现。
上述三种资源池之间,计算资源池分别与另外两个资源池连接,具体的,计算资源池通过CXLFabric交换网络与内存资源池连接,计算资源池通过PCIe I/O Fabric交换网络与设备资源池相连。
进一步地,所述计算资源池通过PCIe I/O Fabric交换网络与所述设备资源池相连为:所述GPU资源池通过第一PCLe GEN5总线与第一PCIe I/O Fabric交换网络相连,通过所述第一PCIe I/O Fabric交换网络与所述计算资源池相连;和/或,所述NVME SSD存储资源池通过第二PCLe GEN5总线与第二PCIe I/OFabric交换网络相连,通过所述第二PCIe I/O Fabric交换网络与所述计算资源池相连;和/或,所述异构加速资源池通过第三PCLeGEN5总线与第三PCIe I/OFabric交换网络相连,通过所述第三PCIe I/O Fabric交换网络与所述计算资源池相连。
具体的,PCLe GEN5总线即PCLe 5.0总线,是一个树状形的接口总线,可以为CPU提供访问外围设备的总线接口,因此,计算资源池和设备资源池均是通过PCLe GEN5总线与PCIe I/O Fabric交换网络连接,因此,当计算资源池分别与三种设备资源池进行连接的时候,即GPU资源池通过第一PCLe GEN5总线与第一PCIe I/O Fabric交换网络相连,通过第一PCIe I/O Fabric交换网络与计算资源池相连;NVME SSD存储资源池通过第二PCLe GEN5总线与第二PCIe I/O Fabric交换网络相连,通过第二PCIe I/O Fabric交换网络与计算资源池相连;异构加速资源池通过第三PCLe GEN5总线与第三PCIe I/OFabric交换网络相连,通过第三PCIe I/O Fabric交换网络与计算资源池相连。
需要说明的是,PCIe I/O Fabric交换网络是由交换机构成的,交换机上会设置有符合PCLe GEN5总线的接口,因此,实际连接时,通过PCLe接口连接总线从而实现资源池之间的连接。
进一步地,本发明实施例中资源共享装置还包括:以太网交换机,所述以太网交换机分别与所述计算资源池、所述内存资源池以及所述设备资源池相连。
需要说明的是,本发明实施例中资源共享装置除了上述计算资源池、内存资源池和设备资源池之外,还包括以太网交换机,其中,以太网交换机分别与计算资源池、内存资源池以及设备资源池相连,以太网交换机能同时连通许多对的端口,使每一对相互通信的主机都能像独占通信媒体那样,进行无冲突地传输数据,以太网交换机是为了实现整个资源共享装置对内对外的以太网连接,提供网络服务。
在本发明实施例中,通过以太网交换机还可以实现远程互联。
需要说明的是,上述所有的资源池中均由多个资源构成,即计算资源池、内存资源池和设备资源池均由多个资源构成,资源设置于至少两个终端设备上,其中,终端设备可以包括CPU处理器,GPU处理器以及内存处理器等。
具体的,本发明实施例中,如图8所示,以整机柜部署示例,其中,计算资源池是由多个CPU构成,内存资源池中包括多个DRAM(Dynamic Random Access Memory,动态随机存取存储器),以及,SCM(Storage-Class-Memory,存储级内存),其中,网络交换机放置于机箱顶端,用于机柜对内对外的以太网连接;多台服务器(可通过UPI互连进行计算资源拓展)作为多主机放置于机柜的上部,通过CXLFabric与内存资源池连接,以PCIe I/O Fabric为枢纽与设备资源池(包括GPU资源池、NVME SSD存储资源池、异构加速资源池)连接,机箱底部部署液冷分配单元模块与整机柜备电模块。
需要说明的是,上述整机柜部署示例只是本申请资源共享装置的一种具体实现方案,整机柜部署可灵活根据用户需求进行池化资源的部署,比如对GPU资源需求较大的用户可多放置GPU机箱进行资源拓展。
本发明资源共享装置可以满足AI、HPC、大数据、云计算、裸金属实例等多场景需求,以AI为例,例如在AI应用场景中按需分配GPU资源,AI的训练需要大量的GPU资源提供高算力,在此场景下GPU资源可以同时分配给一台服务器做AI的训练;AI的推理需要大量的并行运算能力,在此场景下,GPU资源可以分配给多台服务器做AI的推理。
另一个应用场景是高并发的存储,该应用场景下可以配置为16个服务器通过PCIeswitch I/O Fabric连接64个NVME SSD硬盘,存储资源可以实现多主机并发访问,实现NVMESSD高性能存储资源池。
本发明实施例提供的资源共享装置包括计算资源池、内存资源池和设备资源池,通过对整机柜中资源进行资源池化可以将所有的资源分解到最小单位,屏蔽不同资源的差异性,实现资源按需分配,相比于现有技术中如图1所示的集中式整机柜架构,通过本申请的资源共享装置可以更好的实现大规模的资源池解耦,实现资源的多主机共享与动态分配,包括计算资源池、内存资源池、设备资源池的解耦池化,资源池可以按需分配给多个用户,同时可以方便地进行资源拓展来增加资源池容量。进一步地,计算资源池通过CXLFabric交换网络与内存资源池连接,通过CXL Fabric交换网络实现内存资源池化,从而可以实现计算资源和内存资源之间的多主机无阻塞共享资源,计算资源池通过PCIe I/OFabric交换网络与所述设备资源池相连,相比于现有技术中通过PCIe switch的基础扇出功能,现有技术的基础扇出功能仅能实现对CPU PCIe资源的拓展,并没有导入PCIe I/OFabric交换网络来实现资源的动态分配与多主机共享,进一步地,计算资源池、内存资源池和设备资源池均由多个资源构成,所述资源设置于至少两个终端设备上,即各个资源池中均是由多个资源构成,资源设置于至少两个终端设备上,这样通过上述连接和设置才可以实现对多个资源之间的共享与动态分配。
第二方面,本发明实施例提供了一种资源管理装置,该资源管理装置包括第一方面中任意一项所述的资源共享装置,以及与所述资源共享装置相连的资源管理模块,以实现对资源的动态管理。下面对上述提到的资源管理装置进行具体描述。
参照图9,资源管理装置,包括第一方面中任意一项所述的资源共享装置,以及与所述资源共享装置相连的资源管理模块。
上述资源管理模块可以用于实现对不同资源和复杂拓扑的集中管理、物理拓扑的自动发现与资源拓扑展示、主机与各资源池机箱的上下电时序控制,并且,可以通过资源管理模块实现设备利用率监控、设备分配情况配置与管理、I/O吞吐量监控、链路监控诊断。
进一步地,所述资源管理模块通过PCIe I/O Fabric交换网络与所述资源共享装置相连。
需要说明的是,资源管理模块可以通过PCIe I/O Fabric交换网络与资源共享装置相连,基于PCIe I/O Fabric交换网络的特点从而能够实现对资源共享装置中配置的资源进行按需分配和动态管理。
在一种场景下,该资源管理模块可以搭配显示装置,可以通过可视化形式对整个资源共享装置中的资源进行资源拓扑可视化展示,可以清楚的显示出当前状态下资源池中的资源分配情况,实时查看资源的占取量,并且可以单独控制资源对应的单一资源池进行上下电时序控制等。
在一种场景下,该资源管理模块可以搭载用户管理软件,通过用户管理软件实现对资源的按需分配和动态管理,如图10所示,用户管理软件通过PCIe I/O Fabric中的BMC(基板管理控制器,Baseboard Manager Controller)和以太网交换机实现互联,以太网交换机分别和计算资源池、内存资源池、存储资源池、GPU资源池以及异构加速资源池连接,每个资源池都有对应的BMC模块,通过BMC模块接口和以太网交换机远程连接从而实现用户管理软件对资源池的管理控制。
通过本发明实施例提供的资源管理装置,通过与资源共享装置相连的资源管理模块,可以实现在对多个资源进行共享的同时可以满足用户对资源共享装置的管理和实时查看装置对应的资源相关信息。
第三方面,本发明实施例提供了一种资源管理方法,该方法应用于第二方面中任一资源管理装置,如图所示,该方法包括以下步骤:
步骤101,通过资源管理模块接收用户发送的资源管理命令,对所述资源管理命令进行解析确定目标资源池,所述目标资源池包括以下任意一种或组合:计算资源池、内存资源池和设备资源池。
需要说明的是,在本发明实施例中,通过资源管理模块接收用户发送的资源管理命令,其中,资源管理命令可以包括不限于设备利用率监控、设备分配情况配置与管理、I/O吞吐量监控、链路监控诊断,例如,以里查看设备利用率为例,当通过资源管理模块接收到用户需要查看设备利用率的指令,此时,指令中会携带用户所需要查看的对应的目标资源池,因此,此时对资源管理命令进行解析,确定目标资源池,其中目标资源池是基于资源共享装置中包括的三种资源池,即计算资源池、内存资源池以及设备资源池中的任意一种或几种。
步骤102,通过所述资源管理模块根据所述资源管理命令对所述目标资源池进行管理,获取资源管理结果。
需要说明的是,在本发明实施例中,在步骤101确定好目标资源池之后,通过资源管理模块根据资源管理命令对目标资源池管理,获取资源管理结果例如,在确定好是对设备资源池中的GPU资源池后,根据查看设备利用率的指令对GPU资源池中的GPU设备进行查询,确定GPU的利用率,例如,查询到GPU0-GPU5属于非运行状态。
步骤103,通过所述资源管理模块将所述资源管理结果反馈给所述用户。
需要说明的是,在本发明实施例中,在步骤102中获取好资源管理结果之后,通过资源管理模块将资源管理结果反馈给用户,此时用户可以通过资源管理模块查询到GPU0-5属于非运行状态,用户可以通过查询结果进一步地对GPU资源进行分配,例如将GPU0-GPU5的资源分配给其他CPU。
除了上述举例说明,用户可以通过本发明实施例中资源管理方法实现设备利用率监控、设备分配情况配置与管理、I/O吞吐量监控、链路监控诊断等,本申请对此不做具体限定,用户可以根据实际情况对资源共享装置进行动态管理。
本发明实施例提供的资源共享装置包括计算资源池、内存资源池和设备资源池,通过对整机柜中资源进行资源池化可以将所有的资源分解到最小单位,屏蔽不同资源的差异性,实现资源按需分配,相比于现有技术中如图1所示的集中式整机柜架构,通过本申请的资源共享装置可以更好的实现大规模的资源池解耦,实现资源的多主机共享与动态分配,包括计算资源池、内存资源池、设备资源池的解耦池化,资源池可以按需分配给多个用户,同时可以方便地进行资源拓展来增加资源池容量。进一步地,计算资源池通过CXLFabric交换网络与内存资源池连接,通过CXL Fabric交换网络实现内存资源池化,从而可以实现计算资源和内存资源之间的多主机无阻塞共享资源,计算资源池通过PCIe I/OFabric交换网络与所述设备资源池相连,相比于现有技术中通过PCIe switch的基础扇出功能,现有技术的基础扇出功能仅能实现对CPU PCIe资源的拓展,并没有导入PCIe I/OFabric交换网络来实现资源的动态分配与多主机共享,进一步地,计算资源池、内存资源池和设备资源池均由多个资源构成,所述资源设置于至少两个终端设备上,即各个资源池中均是由多个资源构成,资源设置于至少两个终端设备上,这样通过上述连接和设置才可以实现对多个资源之间的共享与动态分配。
另外,通过本发明实施例提供的资源管理装置以及资源管理方法,通过与资源共享装置相连的资源管理模块以及对应的对资源管理的方法,可以实现在对多个资源进行共享的同时可以满足用户对资源共享装置的管理和实时查看装置对应的资源相关信息。
本发明实施例提供的终端设备包括上述任一的实施例中计算装置的各个结构,为避免重复,这里不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
以上对本申请所提供的资源共享装置、资源管理装置及资源管理方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的结构及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种资源共享装置,其特征在于,包括:计算资源池、内存资源池和设备资源池,所述计算资源池通过CXL Fabric交换网络与所述内存资源池连接,所述计算资源池通过PCIeI/O Fabric交换网络与所述设备资源池相连;所述计算资源池、内存资源池和设备资源池均由多个资源构成,所述资源设置于至少两个终端设备上。
2.根据权利要求1所述的装置,其特征在于,所述CXL Fabric交换网络和或所述PCIeI/O Fabric交换网络为CLOS拓扑结构;
所述CXL Fabric交换网络由多个CXL switch组成,任意两个所述CXL switch之间互联;和/或,
所述PCIe I/O Fabric交换网络由多个PCIe switch组成,任意两个所述PCIe switch之间互联。
3.根据权利要求1所述的装置,其特征在于,所述内存资源池包括以下任意一种或组合:
基于E3.S形态的内存资源池、PCIe标准AIC卡形态的内存资源池以及基于DIMM条的JBOM内存资源池。
4.根据权利要求3所述的装置,其特征在于,存在多种内存资源池的情况下,所述内存资源池内部通过内存控制器进行连接。
5.根据权利要求1所述的装置,其特征在于,所述设备资源池包括以下任意一种或组合:
GPU资源池、NVME SSD存储资源池以及异构加速资源池。
6.根据权利要求5所述的装置,其特征在于,所述计算资源池通过PCIeI/OFabric交换网络与所述设备资源池相连为:
所述GPU资源池通过第一PCLe GEN5总线与第一PCIe I/O Fabric交换网络相连,通过所述第一PCIe I/O Fabric交换网络与所述计算资源池相连;和/或,
所述NVME SSD存储资源池通过第二PCLe GEN5总线与第二PCIe I/OFabric交换网络相连,通过所述第二PCIe I/O Fabric交换网络与所述计算资源池相连;和/或,
所述异构加速资源池通过第三PCLe GEN5总线与第三PCIe I/O Fabric交换网络相连,通过所述第三PCIe I/O Fabric交换网络与所述计算资源池相连。
7.根据权利要求1所述的装置,其特征在于,还包括:以太网交换机,所述以太网交换机分别与所述计算资源池、所述内存资源池以及所述设备资源池相连。
8.一种资源管理装置,其特征在于,包括权利要求1-7中任意一项所述的资源共享装置,以及与所述资源共享装置相连的资源管理模块。
9.根据权利要求8所述的装置,其特征在于,所述资源管理模块通过PCIe I/O Fabric交换网络与所述资源共享装置相连。
10.一种资源管理方法,其特征在于,应用于权利要求8或9所述的资源管理装置,所述方法包括:
通过资源管理模块接收用户发送的资源管理命令,对所述资源管理命令进行解析确定目标资源池,所述目标资源池包括以下任意一种或组合:计算资源池、内存资源池和设备资源池;
通过所述资源管理模块根据所述资源管理命令对所述目标资源池进行管理,获取资源管理结果;
通过所述资源管理模块将所述资源管理结果反馈给所述用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211214544.9A CN115586964A (zh) | 2022-09-30 | 2022-09-30 | 资源共享装置、资源管理装置及资源管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211214544.9A CN115586964A (zh) | 2022-09-30 | 2022-09-30 | 资源共享装置、资源管理装置及资源管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115586964A true CN115586964A (zh) | 2023-01-10 |
Family
ID=84778372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211214544.9A Pending CN115586964A (zh) | 2022-09-30 | 2022-09-30 | 资源共享装置、资源管理装置及资源管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115586964A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982078A (zh) * | 2023-01-19 | 2023-04-18 | 北京超弦存储器研究院 | 一种cxl内存模组及内存存储系统 |
CN116185641A (zh) * | 2023-04-24 | 2023-05-30 | 苏州浪潮智能科技有限公司 | 融合架构系统、非易失性存储系统及存储资源获取方法 |
CN117041184A (zh) * | 2023-10-10 | 2023-11-10 | 苏州元脑智能科技有限公司 | IO拓展架构、IO交换机及PCIe设备 |
CN118210634A (zh) * | 2024-04-30 | 2024-06-18 | 苏州元脑智能科技有限公司 | 服务器系统、服务器系统的资源调度方法、芯片及芯粒 |
-
2022
- 2022-09-30 CN CN202211214544.9A patent/CN115586964A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115982078A (zh) * | 2023-01-19 | 2023-04-18 | 北京超弦存储器研究院 | 一种cxl内存模组及内存存储系统 |
CN116185641A (zh) * | 2023-04-24 | 2023-05-30 | 苏州浪潮智能科技有限公司 | 融合架构系统、非易失性存储系统及存储资源获取方法 |
CN116185641B (zh) * | 2023-04-24 | 2023-08-15 | 苏州浪潮智能科技有限公司 | 融合架构系统、非易失性存储系统及存储资源获取方法 |
CN117041184A (zh) * | 2023-10-10 | 2023-11-10 | 苏州元脑智能科技有限公司 | IO拓展架构、IO交换机及PCIe设备 |
CN117041184B (zh) * | 2023-10-10 | 2024-02-09 | 苏州元脑智能科技有限公司 | Io拓展装置及io交换机 |
CN118210634A (zh) * | 2024-04-30 | 2024-06-18 | 苏州元脑智能科技有限公司 | 服务器系统、服务器系统的资源调度方法、芯片及芯粒 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115586964A (zh) | 资源共享装置、资源管理装置及资源管理方法 | |
CN113810312B (zh) | 用于管理存储器资源的系统和方法 | |
US9104586B2 (en) | Address space management while switching optically-connected memory | |
US20130089104A1 (en) | System and Method for High-Performance, Low-Power Data Center Interconnect Fabric | |
US20120023210A1 (en) | Server system and operation method thereof | |
EP2887223A1 (en) | Memory system, memory module, memory module access method and computer system | |
US10534541B2 (en) | Asynchronous discovery of initiators and targets in a storage fabric | |
CN113448402B (zh) | 一种支持多背板级联的服务器 | |
CN106155959A (zh) | 数据传输方法及数据传输系统 | |
TWI459211B (zh) | 用以共享電腦記憶體之電腦系統與方法 | |
CN116501681B (zh) | Cxl数据传输板卡及控制数据传输的方法 | |
JP7317727B2 (ja) | 複数のチップ間の通信をサポートする方法、装置、電子機器およびコンピューター記憶媒体 | |
CN114675722A (zh) | 一种内存扩展装置和一种机架 | |
US20210311800A1 (en) | Connecting accelerator resources using a switch | |
CN105874758A (zh) | 内存访问方法、交换机及多处理器系统 | |
CN115934366A (zh) | 服务器存储扩展方法、装置、设备、介质及整机柜系统 | |
CN108270877B (zh) | 分布式网络节点数据共享系统 | |
CN117834447B (zh) | 基于PCIe Switch的互联池化系统拓扑管理装置及方法 | |
US20240073100A1 (en) | Isolation method for high-performance computer system, and high-performance computer system | |
CN116185641B (zh) | 融合架构系统、非易失性存储系统及存储资源获取方法 | |
CN116225177B (zh) | 内存系统、内存资源调节方法、装置、电子设备和介质 | |
CN116074179B (zh) | 基于cpu-npu协同的高扩展节点系统及训练方法 | |
US11055252B1 (en) | Modular hardware acceleration device | |
CN116401065A (zh) | 一种服务器、异构设备及其数据处理装置 | |
CN114968895A (zh) | 一种异构互联系统及集群 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |