CN114063725A - 用于计算和存储集群的模块化基础设施 - Google Patents

用于计算和存储集群的模块化基础设施 Download PDF

Info

Publication number
CN114063725A
CN114063725A CN202110601880.8A CN202110601880A CN114063725A CN 114063725 A CN114063725 A CN 114063725A CN 202110601880 A CN202110601880 A CN 202110601880A CN 114063725 A CN114063725 A CN 114063725A
Authority
CN
China
Prior art keywords
interface
substrates
substrate
board
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110601880.8A
Other languages
English (en)
Other versions
CN114063725B (zh
Inventor
高天翼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu USA LLC
Original Assignee
Baidu USA LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu USA LLC filed Critical Baidu USA LLC
Publication of CN114063725A publication Critical patent/CN114063725A/zh
Application granted granted Critical
Publication of CN114063725B publication Critical patent/CN114063725B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/14Mounting supporting structure in casing or on frame or rack
    • H05K7/1485Servers; Data center rooms, e.g. 19-inch computer racks
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K5/00Casings, cabinets or drawers for electric apparatus
    • H05K5/0026Casings, cabinets or drawers for electric apparatus provided with connectors and printed circuit boards [PCB], e.g. automotive electronic control units
    • H05K5/0065Casings, cabinets or drawers for electric apparatus provided with connectors and printed circuit boards [PCB], e.g. automotive electronic control units wherein modules are associated together, e.g. electromechanical assemblies, modular structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/18Packaging or power distribution
    • G06F1/181Enclosures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/18Packaging or power distribution
    • G06F1/183Internal mounting support structures, e.g. for printed circuit boards, internal connecting means
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K5/00Casings, cabinets or drawers for electric apparatus
    • H05K5/02Details
    • H05K5/0256Details of interchangeable modules or receptacles therefor, e.g. cartridge mechanisms
    • H05K5/0286Receptacles therefor, e.g. card slots, module sockets, card groundings
    • H05K5/0291Receptacles therefor, e.g. card slots, module sockets, card groundings for multiple cards
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/14Mounting supporting structure in casing or on frame or rack
    • H05K7/1422Printed circuit boards receptacles, e.g. stacked structures, electronic circuit modules or box like frames
    • H05K7/1427Housings
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/14Mounting supporting structure in casing or on frame or rack
    • H05K7/1485Servers; Data center rooms, e.g. 19-inch computer racks
    • H05K7/1487Blade assemblies, e.g. blade cases or inner arrangements within a blade
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/14Mounting supporting structure in casing or on frame or rack
    • H05K7/1485Servers; Data center rooms, e.g. 19-inch computer racks
    • H05K7/1488Cabinets therefor, e.g. chassis or racks or mechanical interfaces between blades and support structures
    • H05K7/1492Cabinets therefor, e.g. chassis or racks or mechanical interfaces between blades and support structures having electrical distribution arrangements, e.g. power supply or data communications
    • HELECTRICITY
    • H05ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
    • H05KPRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
    • H05K7/00Constructional details common to different types of electric apparatus
    • H05K7/20Modifications to facilitate cooling, ventilating, or heating

Landscapes

  • Engineering & Computer Science (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Power Engineering (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Thermal Sciences (AREA)
  • Multi Processors (AREA)
  • Cooling Or The Like Of Electrical Apparatus (AREA)

Abstract

一种计算和存储系统包括:壳体;电力设施,所述电力设施设置在所述壳体内;冷却设施,所述冷却设施在所述壳体内;多个插槽,所述多个插槽设置在所述壳体内,每个插槽具有接口连接;互连板,所述互连板联接到所述多个插槽的接口连接;以及多个基板,每个基板插入所述多个插槽中的一个插槽中,并且具有与所述接口连接配合的板接口。所有基板具有相同的形状因数和相同的板接口;并且每个基板具有多个电子器件,并且安装到所述多个基板中的一个基板上的所有电子器件都是相同的。一种计算和存储集群包括至少两个所述系统。至少两个所述系统在它们之间具有通信信道。

Description

用于计算和存储集群的模块化基础设施
技术领域
本发明的实施方式总体涉及电子系统。更具体地,本发明的实施方式涉及用于通常安装在数据中心中的计算和存储硬件以及封装的架构。
背景技术
随着业务模型快速发展和变化,尤其是在AI和云计算领域中,传统的计算和存储基础设施可能不能够继续支持或高效地支持工作负载要求。新程序需要越来越快的计算性能和能力、越来越大的数据存储容量、越来越强的数据移动吞吐量。随着摩尔定律的减速,即使单芯片的能力随着越来越多的核而仍在增加,但单芯片和部件性能已经达到了它们在这些工作负载环境中运行的性能瓶颈。因此,向外扩展是解决该挑战的关键焦点。
软件比硬件动态得多,因此开发一个或甚至若干个通用硬件系统或平台以支持所有类型的软件或业务工作负载是非常具有挑战性的。这意味着在硬件系统和平台上运行的一些工作负载是计算密集的,一些工作负载是存储密集的,并且一些工作负载对通信带宽更敏感。传统的服务器封装方法和配置可能不再适合或者可能不再高效或成本有效地用于在将来操作新类型的工作负载。而且,通过增加额外的服务器容量来升级是低效的,因为所寻求的额外性能不是需要新服务器中包括的所有部件。
数据中心通常由数百或数千个服务器和有关的操作设备组成。这些服务器互连以向用户提供计算和存储设施。这些服务器中的每一个容纳规定量的CPU、GPU、ASIC、DIMM、SSD或HHD等。当需要增加容量时,可以添加额外的服务器单元,各个服务器单元具有其自己的规定量的CPU、GPU、ASIC、DIMM、SSD或HHD。服务器的添加还需要添加设施设备,诸如电力和冷却设备。然而,这种容量扩展的方法是低效的。
因此,需要一种新的架构,该架构使得能够更高效地利用计算和存储硬件和资源,并且启用更高效的改变用途或容量扩展的形式。
发明内容
一种计算和存储系统包括:壳体;电力设施,所述电力设施设置在所述壳体内;冷却设施,所述冷却设施在所述壳体内;多个插槽,所述多个插槽设置在所述壳体内,每个插槽具有接口连接;互连板,所述互连板联接到所述多个插槽的接口连接;以及多个基板,每个基板插入所述多个插槽中的一个插槽中,并且具有与所述接口连接配合的板接口;其中,所有基板具有相同的形状因数和相同的板接口;并且其中,每个基板具有多个电子器件,并且安装到所述多个基板中的一个基板上的所有电子器件都是相同的。
根据一些实施例,所述多个电子器件包括中央处理单元CPU、图形处理单元GPU、双列直插存储模块DIMM、固态驱动器SSD和专用集成电路ASIC,并且其中,所述多个基板包括上面安装有多个CPU的至少一个基板和上面安装有多个GPU的至少一个基板。
根据一些实施例,每个基板都包括板内通信信道。
根据一些实施例,所述板内通信信道在安装在所述基板上的所述多个电子器件之间形成内联接,并且在安装在所述基板上的所述多个电子器件中的每一个电子器件与所述板接口之间形成相互联接。
根据一些实施例,所述互连板包括交换机和多个网络接口卡NIC。
根据一些实施例,所述多个NIC中的至少两个以不同的速度运行。
根据一些实施例,所述互连板还包括CPU和现场可编程门阵列FPGA。
根据一些实施例,所述互连板还包括联接到接口总线的接口切换模块。
根据一些实施例,所述互连板可配置用于器件连接以及针对不同类型的流量和工作负载的联网资源分配和调度。
一种计算和存储集群包括:至少两个系统,所述至少两个系统在它们之间具有通信信道。每个系统包括:壳体;电力设施和冷却设施,所述电力设施和所述冷却设施设置在所述壳体内;多个插槽,所述多个插槽设置在所述壳体内,每个插槽具有接口连接;互连板,所述互连板联接到所述多个插槽的接口连接;以及多个基板,每个基板插入所述多个插槽中的一个插槽中,并且具有与所述接口连接配合的板接口;其中,所有基板具有相同的形状因数和相同的板接口;并且其中,每个基板具有多个电子器件,并且安装到所述多个基板中的一个基板上的所有电子器件都是相同的。
根据一些实施例,来自所述多个基板中的第一组基板包括CPU基板,每个CPU基板上安装有多个CPU芯片。
根据一些实施例,每个CPU芯片包括多核CPU芯片。
根据一些实施例,来自所述多个基板中的第二组基板包括GPU基板,每个GPU基板上安装有多个图形处理单元。
根据一些实施例,来自所述多个基板中的第三组基板包括存储基板,每个存储基板上安装有多个存储芯片。
根据一些实施例,所述多个基板中的每一个包括板内通信信道。
根据一些实施例,设置二维接口,在所述二维接口中,第一维包括到所述多个基板的接口连接,并且第二维包括到所述接口连接的互连板连接。
根据一些实施例,所述板内通信信道在安装在所述基板上的所述多个电子器件之间形成内联接,并且在安装在所述基板上的所述多个电子器件中的每一个电子器件与所述板接口之间形成相互联接。
根据一些实施例,所述互连板包括交换机和多个网络接口卡NIC。
根据一些实施例,所述互连板还包括联接到接口总线的接口切换模块。
根据一些实施例,所述接口切换模块选择性地将选定的网络接口卡连接到选定的基板,以形成用于不同类型的流量和工作负载的不同类型的拓扑。
附图说明
在附图中,通过示例而非限制的方式例示了本发明的实施方式,在附图中,同样的附图标记指示相似的元件。
图1是例示了根据实施方式的系统架构的示例的框图。
图2是例示了根据实施方式的另一系统架构的示例的框图。
图3A和图3B是例示了根据所公开的实施方式的部件封装配置的示例的框图。
图4例示了根据实施方式的高速互连板的示例。
图5例示了根据实施方式的集群设计的示例。
图6例示了根据实施方式的用于异构计算的集群设计的示例,而图6A例示了根据实施方式的部件隔离的示例。
图7例示了根据实施方式的系统构建和递送的流程图。
具体实施方式
将参考以下讨论的细节来描述本发明的各种实施方式和方面,并且附图将例示各种实施方式。下面的描述和附图是对本发明的例示,而不应被解释为限制本发明。描述了许多具体细节以提供对本发明的各种实施方式的透彻理解。然而,在某些情况下,为了提供对本发明实施方式的简明讨论,没有描述公知或常规的细节。
本说明书中对“一个实施方式”或“实施方式”的参考意指结合实施方式描述的特定特征、结构或特性可以被包括在本公开的至少一个实施方式中。在说明书中的各个地方出现的短语“在一个实施方式中”不必都指同一实施方式。
以下详细描述提供了突出本文要求保护的创新模块化架构的某些特征和方面的示例。不同的实施方式或其组合可以用于不同的应用或实现不同的结果或益处。根据寻求实现的结果,本文所公开的不同特征可以单独或与其它特征组合而部分或完全利用,这平衡优点与要求和约束。因此,将参考不同的实施方式突出某些益处,但并不限于所公开的实施方式。即,本文所公开的特征不限于在其中描述它们的实施方式,而是可以与其它特征“混合和匹配”并且结合在其它实施方式中。
本公开引入了模块化设计和架构,该模块化设计和架构使得能够容易地配置计算、存储和互连/联网资源,改变资源的用途和对资源进行容量扩展。本公开的方面提供了一种统一的架构,该架构可以适应各种器件以满足用户所需的不同计算和存储要求。在所公开的实施方式中,可用的CPU、GPU、ASIC、DIMM、SSD或HHD等的量可以容易地配置。
如将从本文所提供的公开中揭示的,引入了一种新颖的设计概念,用于设计和配置用于云、AI和高性能计算相关应用的计算和存储集群。所公开的基础设施提供了用于计算和存储集群的动态配置。在所公开的实施方式中,可以使用不同的计算和存储系统来容易地重新配置或升级集群,这些计算和存储系统包括部件,诸如CPU、存储器、SSD和高性能加速器、ASIC和联网设备。这使得能够设计针对不同应用、工作负载和流量类型定制的不同大规模系统或集群。硬件部件被分成组,但是利用高速系统内(基板内)和系统间(基板间)连接来互连。所有的基板在形状因数和界面方面具有统一的配置。在一个实施方式中,基板可以遵循具有标准规格的多于一个的参考设计。标准电力和冷却基础设施被并入到系统中,并且可以基于用例被灵活地重新配置。
通常,在所公开的实施方式中,整个集群可以被认为是大型模块化计算机系统,并且该设计使得能够重新配置内部器件以形成不同类型的计算机,诸如计算密集型机器、存储密集型机器、异构计算机器、专用机器等。基础设施包括若干主要部件,诸如部件基板、IT容器、互连板、冷却和电力模块等。该基础设施和开发方法提供了一种高效且成本有效的方式来设计、构建和递送定制的计算和存储集群。另外,基础设施可以基于用例或任何其他要求变化来灵活地重新配置。在另一实施方式中,集群可以具有不同代的部件,或者与高端处理器和低端处理器或系统混合。这为以更成本有效的基础设施操作不同的服务和工作负载提供了更多的灵活性。在其它实施方式中,本基础设施可以部署有不同的存储层次设计。
开发用于特别是云计算中的高弹性要求的计算和存储隔离的基础设施正变得越来越重要。在本文所公开的实施方式中,提供了一种隔离的平台,该平台使得能够容易地升级、容易地重新配置计算资源和容易地改变计算资源的用途。由于实施方式隔离计算部件,所以各个部件可以被引退、改变、升级、以及与其他部件一起重新配置,以满足不同的用户要求和环境需求。
图1例示了根据一个实施方式的系统架构的顶视图。统一基板105和108用于封装不同类型的部件,诸如CPU、GPU、SSD/HDD、FPGA、ASIC等。基板可以使用给定标准化尺寸的PCB来制造,并且包括标准化安装附件和接口。由此,任何基板都可以被安装到IT容器100中的任何基板插槽上。在该意义上,由于基板都具有相同的形状因数、电力输送设计、冷却要求、安装附件和接口,所以基板是统一的。
在所公开的实施方式中,各个统一板105-108被结构化为安装相同类型的多个部件,但是所有统一基板具有相同的形状因数和相同的接口,如图1中的接口#2指示的。例如,基板105被配置为安装多个CPU,而基板106被配置为安装多个GPU;然而,两者具有相同的形状因数和接口,使得它们可以互换。在内部,各种类型的基板可以具有不同的互连拓扑或PCB迹线和布线设计,以容纳被设计为安装在其上的类型的部件。还要注意,由于各个基板可仅承载一种类型的部件,所以它不能独立地工作,而是必须与其它基板互连以便执行任务。需要提及的是,一些基板也可以与一些其它特定芯片一起封装,诸如用于基本控制和管理功能的CPLD(复杂可编程逻辑器件)。
为了清楚起见,考虑标准母板的布局。该母板将具有用于CPU的一个或多个插口、用于GPU的一个或多个插口、DIMM存储器插槽、PCIe插槽、ATX连接器、SATA连接器等。实质上,一旦母板被供电,它就是全功能的并且可以执行计算任务。相反,在所公开的实施方式中,各个基板具有仅用于一种类型的部件的多个插口、插槽或连接器。因此,例如,CPU基板将具有多个CPU插口,但是所有这些插口仅能接受CPU芯片。除了为CPU供电和运行CPU所需的部件之外,CPU基板上不能安装其它部件。类似地,存储基板可以具有多个DIMM插槽,但是没有其他类型的插口或插槽。因此,基板不起作用,并且除非它连接到其它基板,否则不能执行任何计算任务。
返回到图1,IT容器100可以是有些类似于IT机架的机柜、外壳或壳体,具有被配置为容纳多个基板的多个插槽。IT容器100结合了在图1中被指示为接口#1的接口,该接口经由接口#2接受基板。即,各个基板的板接口(接口#2)与IT容器100接口(接口#1)配合。接口#1联接到将基板互连的互连板110或形成其一部分。接口#1和互连板110形成高速网络115,并且可以包括无限带宽(InfiniBand)(IB)、以太网、RDMA(远程直接存储器存取)等。高速网络115使得来自一个基板的各个部件能够与其他基板中的任何其他部件通信,完全连接或者在特定控制和管理设计下连接。该控制和管理设计使得能够在给定集群内的互连和联网资源的情况下更高效地管理流量。
IT容器100还包括经由设施接口125向基板和高速网络115提供电力和冷却的设施设备120。设施设备120可以包括备用电池和空气和/或液体冷却设备。这些单元被模块化,并且可以独立地维修,或者在不影响在集群上运行的任何服务的情况下升级(通常被称为可热插拔的)。
利用图1所例示的架构,各个IT容器100可以容易地根据需要被配置和重新配置为提供特定性能特性以解决特定任务。例如,对于高计算密集型任务,IT容器可以装载有大量CPU基板105,而在其它类型的基板较少。相反,对于备用解决方案,IT容器100可以主要装载有SSD/HDD基板107。作为另一示例,对于AI应用和张量密集型处理,IT容器100可仅大量装载有GPU基板106或仅装载有存储部件107。而且,由于所有基板的形状因数和接口相同,因此为一个任务配置的IT容器100可以容易地通过根据需要简单地替换基板来改变用途或升级。
由于冷却和供电是模块化的,因此基于基板105-108的要求配置不同类型的方法或架构是更容易的。例如,考虑安装在不同IT容器中的基板105-108。一些IT容器可能需要液体冷却解决方案,而其余容器可能需要空气冷却。类似地,一些IT容器可能需要48V电力输送系统,而其他IT容器可能需要12V电力输送系统。在这种情况下,电力模块和冷却模块可以容易且高效地配置以满足这些不同的要求。
图1所例示的架构在利用计算和存储部件方面提供了增强的效率。为了例示,考虑具有多个母板的标准IT机架,各个母板具有用于CPU的插口、两个具有RAM芯片的DIMM插槽、两个具有ASIC芯片的PCI插槽、北桥(Northbridge)芯片组、南桥(Southbridge)芯片组等。考虑IT机架将被升级以提供更高的计算设施,例如需要十几个CPU。然后,需要将十几个母板添加到IT机架。然而,该升级也添加了十倍的以下部件:两个具有RAM芯片的DIMM插槽、两个具有ASIC芯片的PCI插槽、北桥芯片组、南桥芯片组等。这些附加部件是不需要的,并且将无法充分发挥它们的潜力,因此升级是低效的。
现在考虑对IT容器100的升级。为了添加十个CPU,只需要添加一个上面安装有十个CPU的CPU基板105、或者两个上面各安装有五个CPU的CPU基板105等。即,由于只需要附加的CPU,因此只添加CPU。这种升级比传统的母板架构更高效。
图1所示的实施方式不仅便于硬件升级和系统升级,而且使得能够高效利用硬件资源。一旦硬件被组装并连接在系统中,它就与集群内的所有其它部件共享所有资源(计算、存储和联网资源)。资源池化使得各个部件能够使用由系统控制和调度的最高效的通信和连接来参与与任何其它部件一起完成工作或任务。
应当理解,通过提供高速网络115,IT容器100作为整体可以执行任何计算或存储任务。虽然各个基板本身不能执行任何任务,但是由于它可以与IT容器100内的任何其他部件通信,所以任何任务可以由装载到IT容器100上的集体部件来执行。由此,尽管各种单独的部件被隔离到不同的基板中,但是通过将基板安装到IT容器100上并提供高速网络115来聚集部件的整体。而且,高速网络115提供到其它IT容器的通信设施,使得多个IT容器可以一起解决给定任务。
图2例示了可以根据需要容易地重新配置和升级的模块化系统架构的另一实施方式。图2的实施方式与图1的实施方式有些类似,除了在基板205-208之间设置互连板210,这形成系统间连接拓扑和通信217。尽管基板205-208的一般形状因数和接口可以不同于基板105-108的一般形状因数和接口,但一般结构是相同的,因为所有的基板205-208具有相同的形状因数和接口,使得它们是可互换的。
在图2所例示的实施方式中,互连板210被用在各个基板的侧面上,并且接口被设计在基板的侧面上。连接拓扑可以由位于各个基板两侧的互连板提供。这样,电力和冷却模块可以直接附接到IT容器的后侧,以完成完整功能的模块。
图3A和图3B例示了基板的两个示例,各个示例专用于一种类型的部件或芯片组。板内连接拓扑和通信可以被设计用于要被安装在板上的特定部件。各种类型的部件或芯片组可以具有不同的协议和/或通信吞吐量要求,诸如CCIX、PCIE、CXL等。因此,基板的不同内部设计使其能够专用于该特定部件,使得专用基板为该特定部件或芯片组提供最佳功能环境。虽然一些部件可能需要专有发现协议,但是其他部件可能使用供应商中立协议(例如,链路层发现协议(LLDP))来适当地起作用。类似地,虽然一些部件可以使用单向链路检测(UDLD),但是D-链路专有部件将需要DULD(D-链路单向链路检测)。由此,各个基板的内部设计可以针对其被设计支持的部件的特定类型、品牌和/或型号而优化。
为了视觉地例示该特征,图3A所示的连接迹线(板内拓扑)不同于图3B所例示的连接迹线。而且,插口或插槽303的数量和类型可以不同,以适应待安装器件。然而,在各个基板上,所有的插口或插槽303都是相同的,并且互连迹线是相同的。而且,标准接口309对于所有的基板也是相同的。标准接口由许多连接器构成,诸如I/O、PCIe(周边部件互连高速)连接器、电力和冷却。所有连接器都封装在该接口部分中。在另一实施方式中,电力和冷却接口和连接可以是分开的。
图4以正视图例示了IT容器的实施方式。如以上描述中指示的,实现所公开的架构的重要元素是各个基板之间的高速通信网络。在该实施方式中,高速互连板430提供基板之间的高速互连,并与接口总线435和接口切换模块440一起操作。接口总线435在所有不同类型的基板之间运送通信流量。接口切换模块440用于控制和切换基板和互连板之间的互连。
高速互连板430的一个实施方式与多个联网器件和设备(诸如NIC(网络接口卡)和交换机)一起组装。在互连板内,各个NIC板互连,这意味着任何单个NIC卡可以访问封装在该互连板内的其它部件。因为联网器件彼此互连,因此可以针对不同类型的流量和数据流控制不同类型的连接信道。通过包括不同性能特性的联网器件,可以生成不同的通信信道以服务不同的任务或执行不同的通信拓扑。不同的通信信道可以提供不同级别的服务。
在一些实施方式中,一些互连板可以与附加计算和/或存储单元一起组装。例如,互连板可以结合本地计算部件,诸如CPU、FPGA、存储器等,这些部件可以由不同系统基于用例在不同时间直接访问,并且可用于NIC部件中的任何一个。该单元的设计可以由最终用户定制和唯一配置。在一些示例中,本地计算和/或存储部件可以用于执行一些本地计算任务,而不是将任务引导到一个基板,或者在将任务引导到一个基板之前执行。
为了提供可以如何将一些计算卸载到本地计算部件的具体示例,考虑视频转码。当接收到大的视频流时,系统可以使用本地计算部件来对视频流进行转码。在一个示例中,本地计算部件可以运行算法以高效地确定哪个视频是流行的并且应当以多个副本和可能不同的格式来存储,使得许多用户可以同时流式传输它。相反,如果本地计算确定视频不太流行并且不被许多用户观看,则需要存储较少的副本。目标是实现系统加速,改进网络、存储和计算的性能。
图5例示了由多个IT容器组成的集群的简化图,这里仅示出了两个IT容器,但是可以使用任何数量的IT容器。为了清楚起见,在该图中未示出电力模块和冷却模块。如图例示,各个IT容器装载有布置成行和列的多个基板。例如,在一个IT容器中指示了五个CPU基板505、一个GPU基板506、两个SSD基板507和一个ASIC基板508。其余的基板可以是任何类型的,并且所有基板都在其侧面上连接到接口535,而互连板530设置在背面上并连接在各个基板之间。互连板530可以被理解为大规模母板,该母板用于连接所有类型的通信部件,并且同时根据需要提供所有部件之间的互连。交换机、不同速度的NIC、光链路以及它们对应的功能通过互连板530集成和实现。这样,提供了二维互连布置,在该布置中,接口535在基板的侧面上以一维方式设置,而互连板530设置在IT容器的背板上,形成第二维。
图6例示了根据实施方式的模块化异构计算集群的示例。该集群由具有不同类型的计算和存储器件的多个基板构成,各个基板具有在基板内安装和互连的相同部件。为了简单起见,图6中例示了少量的基板,但是应当理解,IT容器可以被结构化为容纳与期望的一样多的基板。而且,多个IT容器可以互连以形成集群,从而增加容量。在另一实施方式中,多个集群可以连接在一起。
由于所有的基板具有相同的形状因数和接口,所以不同的器件可以安装在相同类型的不同基板上。例如,一个或多个CPU基板605可以装载有多个第一类型的处理器,各个处理器具有运行在2.1GHz的16个核,而其它CPU基板可以装载有多个第二类型的处理器,各个处理器具有运行在2.0Ghz的32个核,而另一些基板可以装载有多个第三类型的处理器,各个处理器具有运行在2.1GHz的24个核等。类似地,GPU基板可以装载有多个AI芯片或加速器,而其它GPU基板可以装载有多个因特尔GPU,而又一些GPU基板可以装载有多个另外AIGPU芯片或加速器。存储基板也可以由不同类型的存储器装载。例如,一些存储基板可以具有SSD,而其他存储基板可以具有HDD。装载SSD的存储基板可以具有不同的密度和不同的访问速度。
利用图6所例示的实施方式,通过简单地互连执行任务所需的基板,集群可以被配置为执行特定任务,然后被重新配置为执行不同的任务。而且,集群可以被配置为通过适当的互连同时执行不同类型的操作。例如,大量GPU基板606可以与少量存储基板607、CPU基板605和ASIC基板608配对以执行张量计算,而同时,大量存储基板607可以与少量CPU基板605配对以执行备用操作。即,不同的基板可以与其它类型的基板配对以在运行中生成定制的计算或存储服务器。
如所指示的,各种计算和存储部件可以根据需要被共享和分组以执行特定任务。类似地,可以基于实际工作负载需要和系统负担来共享和分配联网资源。例如,如果集群正在进行离线训练和在线推理,则高性能网络资源可以被控制并用于推理活动,这由于SLA(服务水平协议)要求而对时延具有较高的要求,而较低性能网络资源可以被分配来处理离线训练。这可以被理解为可以使用可用的网络硬件来动态地处理不同类型的流量,从而形成不同的互连拓扑。
例如,各种类型和等级的硬件被安装到互连板上。一些接口部件是高性能类型的,但是当然是更昂贵的。因此,较低性能的接口部件也被包括在互连板中以便降低总成本。各种接口部件可以根据需要用于服务不同的要求。因此,可以实时改变拓扑以提供不同任务所需求的服务水平。
作为更具体的示例,在高流量事件期间,高性能网络资源可以互连以服务于高流量要求-例如,在所选择的GPU与CPU之间提供高性能接口。相反,在夜间,可能存在许多数据移动,例如,用于模型训练等。在这种情况下,拓扑可以变化以在加速器之间提供高水平服务。
图6A例示了另一实施方式,在该实施方式中,部件隔离可以在不同的IT容器或甚至不同的位置或IT中心之间扩展。在图6A的示例中,IT容器662可以根据本文所公开的任何实施方式来组装,包括关于图6详细描述的实施方式。相反,IT容器664仅装载有CPU基板605,从而提供增强的计算能力。另一方面,IT容器666仅装载有存储基板607,例如SSD底板,从而提供扩展的存储设施。如双头箭头668例示,所有IT容器经由通信信道互连,使得各个部件可以访问其IT容器内或不同容器中的其他部件。而且,如所指示的,IT容器不需要驻留在相同的地理位置。尽管图6A提供了用特定部件装载不同IT容器的特定示例,但是可以容易地提供其他布置。例如,IT容器可以仅包括GPU基板、仅包括ASIC基板、包括一半CPU基板和一半GPU基板等。
图7是例示了根据实施方式的用于集群容器的产品开发的过程的流程图。如上所述,所有的基板都符合统一或标准的形状因数,该形状因数限定和规定基板的尺寸、形状和其它物理规格。然而,如700中指示的,各个基板内的内部互连拓扑可以被不同地设计,如可以由不同的部件供应商定义的。例如,一个CPU基板供应商可以定义与另一CPU供应商不同的互连拓扑。类似地,互连拓扑对于不同类型的基板是不同的,例如,CPU基板将具有与SSD或ASIC基板不同的互连拓扑。而且,如705中注释的,部件/基板供应商可以与系统供应商或集成商一起工作,以确定基板及其互连的适当设计、电力要求、冷却要求等。
互连板用于集群级互连,因此可以根据其对集群的预期使用而专用于各个最终用户。根据预期的互连负载,不同的互连板可以被设计有不同的带宽和速度能力。在715中,系统供应商或集成商使用在720处从容器供应商接收的IT容器将基板和互连板组装到操作系统中。
一旦在715处完成了包括所有测试和验证的系统测试,则在725处将系统递送到现场。在一种选择中,在720处,集成商还接收各种IT模块,可能包括冷却和电力模块。相反,如730所例示,冷却和电力模块可以单独地直接递送到现场。在735处,执行到现场的集成和调试。而且,如果冷却和电力模块被直接递送到现场,则在735处将这些模块集成到系统中。
所有者和操作者可以基于需要现场动态地改变板和IT集群。即,即使在系统交付和调试之后,用户也可以在任何时间容易地升级操作集群、改变操作集群的用途或增强操作集群。例如,系统的原始目的可能是执行大量图形处理,因此被大量装载GPU基板。然而,在稍后的时间,可能不再对图形处理有高需求,而是要求变为高CPU处理。在这种情况下,用户可以简单地去除一些GPU基板并插入CPU基板代替。类似地,新一代CPU可能变得可用,并且具有比安装在集群中的CPU更高的性能。用户然后可以用装载有新一代CPU的新CPU基板替换一些或所有CPU基板。这样,随着要求变化并且添加依赖于新一代部件的新应用时,可以维护系统以提供随时间所需的性能水平。重要的是,由于所有部件都是隔离的,因此用户可以替换或升级特定部件,而保持系统的其余部分不变。
在前述说明书中,已经参考本发明的具体示例性实施方式描述了本发明的实施方式。但是很明显,在不背离所附权利要求书所阐述的本发明的更宽泛精神和范围的情况下,可以对其进行各种修改。因此,说明书和附图应被认为是例示性的而不是限制性的。

Claims (20)

1.一种计算和存储系统,包括:
壳体;
电力设施,所述电力设施设置在所述壳体内;
冷却设施,所述冷却设施在所述壳体内;
多个插槽,所述多个插槽设置在所述壳体内,每个插槽具有接口连接;
互连板,所述互连板联接到所述多个插槽的接口连接;以及
多个基板,每个基板插入所述多个插槽中的一个插槽中,并且具有与所述接口连接配合的板接口;
其中,所有基板具有相同的形状因数和相同的板接口;并且
其中,每个基板具有多个电子器件,并且安装到所述多个基板中的一个基板上的所有电子器件都是相同的。
2.根据权利要求1所述的系统,其中,所述多个电子器件包括中央处理单元CPU、图形处理单元GPU、双列直插存储模块DIMM、固态驱动器SSD和专用集成电路ASIC,并且其中,所述多个基板包括上面安装有多个CPU的至少一个基板和上面安装有多个GPU的至少一个基板。
3.根据权利要求2所述的系统,其中,每个基板都包括板内通信信道。
4.根据权利要求3所述的系统,其中,所述板内通信信道在安装在所述基板上的所述多个电子器件之间形成内联接,并且在安装在所述基板上的所述多个电子器件中的每一个电子器件与所述板接口之间形成相互联接。
5.根据权利要求1所述的系统,其中,所述互连板包括交换机和多个网络接口卡NIC。
6.根据权利要求5所述的系统,其中,所述多个NIC中的至少两个以不同的速度运行。
7.根据权利要求5所述的系统,其中,所述互连板还包括CPU和现场可编程门阵列FPGA。
8.根据权利要求5所述的系统,其中,所述互连板还包括联接到接口总线的接口切换模块。
9.根据权利要求1所述的系统,其中,所述互连板可配置用于器件连接以及针对不同类型的流量和工作负载的联网资源分配和调度。
10.一种计算和存储集群,包括:
至少两个系统,所述至少两个系统在它们之间具有通信信道,每个系统包括:
壳体;
电力设施和冷却设施,所述电力设施和所述冷却设施设置在所述壳体内;
多个插槽,所述多个插槽设置在所述壳体内,每个插槽具有接口连接;
互连板,所述互连板联接到所述多个插槽的接口连接;以及
多个基板,每个基板插入所述多个插槽中的一个插槽中,并且具有与所述接口连接配合的板接口;
其中,所有基板具有相同的形状因数和相同的板接口;并且
其中,每个基板具有多个电子器件,并且安装到所述多个基板中的一个基板上的所有电子器件都是相同的。
11.根据权利要求10所述的集群,其中,来自所述多个基板中的第一组基板包括CPU基板,每个CPU基板上安装有多个CPU芯片。
12.根据权利要求11所述的集群,其中,每个CPU芯片包括多核CPU芯片。
13.根据权利要求12所述的集群,其中,来自所述多个基板中的第二组基板包括GPU基板,每个GPU基板上安装有多个图形处理单元。
14.根据权利要求13所述的集群,其中,来自所述多个基板中的第三组基板包括存储基板,每个存储基板上安装有多个存储芯片。
15.根据权利要求14所述的集群,其中,所述多个基板中的每一个包括板内通信信道。
16.根据权利要求10所述的集群,其中,设置二维接口,在所述二维接口中,第一维包括到所述多个基板的接口连接,并且第二维包括到所述接口连接的互连板连接。
17.根据权利要求15所述的集群,其中,所述板内通信信道在安装在所述基板上的所述多个电子器件之间形成内联接,并且在安装在所述基板上的所述多个电子器件中的每一个电子器件与所述板接口之间形成相互联接。
18.根据权利要求10所述的集群,其中,所述互连板包括交换机和多个网络接口卡NIC。
19.根据权利要求18所述的集群,其中,所述互连板还包括联接到接口总线的接口切换模块。
20.根据权利要求19所述的集群,其中,所述接口切换模块选择性地将选定的网络接口卡连接到选定的基板,以形成用于不同类型的流量和工作负载的不同类型的拓扑。
CN202110601880.8A 2020-07-30 2021-05-31 用于计算和存储集群的模块化基础设施 Active CN114063725B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/943,620 2020-07-30
US16/943,620 US11202378B1 (en) 2020-07-30 2020-07-30 Modular infrastructure for compute and storage clusters

Publications (2)

Publication Number Publication Date
CN114063725A true CN114063725A (zh) 2022-02-18
CN114063725B CN114063725B (zh) 2023-08-01

Family

ID=78828757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110601880.8A Active CN114063725B (zh) 2020-07-30 2021-05-31 用于计算和存储集群的模块化基础设施

Country Status (2)

Country Link
US (1) US11202378B1 (zh)
CN (1) CN114063725B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102077703A (zh) * 2008-07-01 2011-05-25 格雷索明尼苏达有限公司 模块化电子系统
CN102541804A (zh) * 2011-12-26 2012-07-04 中国人民解放军信息工程大学 一种异构系统中多gpu互连体系结构
CN102576337A (zh) * 2009-08-28 2012-07-11 先进绿色计算机-Ip有限公司 具有集成共享资源的高密度多节点计算机
CN205693677U (zh) * 2016-06-08 2016-11-16 广州市银讯通信科技有限公司 一种模块化pcm装置
CN106230717A (zh) * 2016-07-22 2016-12-14 杭州华三通信技术有限公司 集群系统中的路由获取方法及装置
CN109313580A (zh) * 2016-07-22 2019-02-05 英特尔公司 用于托架架构的技术
CN109564558A (zh) * 2016-06-10 2019-04-02 利奇得公司 数据存储系统中的多端口插入器架构
AU2019100718A4 (en) * 2019-07-01 2019-08-01 Oxti Corporation Electronic device capable of quick assembly and maintenance
CN110651536A (zh) * 2017-05-31 2020-01-03 罗博德夫公司 模块化结构的现场设备

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120151098A1 (en) * 2002-10-22 2012-06-14 Sullivan Jason A Systems and methods for providing a universal computing system
US7281076B2 (en) * 2003-04-30 2007-10-09 Hewlett-Packard Development Company, L.P. Form factor converter and tester in an open architecture modular computing system
US8854831B2 (en) * 2012-04-10 2014-10-07 Arnouse Digital Devices Corporation Low power, high density server and portable device for use with same
US8369092B2 (en) * 2010-04-27 2013-02-05 International Business Machines Corporation Input/output and disk expansion subsystem for an electronics rack
US8395900B2 (en) * 2010-06-09 2013-03-12 Amazon Technologies, Inc. Power routing device for expansion slot of computer system
US10966339B1 (en) * 2011-06-28 2021-03-30 Amazon Technologies, Inc. Storage system with removable solid state storage devices mounted on carrier circuit boards
US9936603B2 (en) * 2013-02-28 2018-04-03 Oracle International Corporation Backplane nodes for blind mate adapting field replaceable units to bays in storage rack
US9936611B1 (en) * 2014-03-17 2018-04-03 Amazon Technologies, Inc. Modular mass storage system
US10133698B2 (en) * 2016-02-09 2018-11-20 Baidu Usa Llc Hot-plug capable input and output (IO) subsystem

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102077703A (zh) * 2008-07-01 2011-05-25 格雷索明尼苏达有限公司 模块化电子系统
CN102576337A (zh) * 2009-08-28 2012-07-11 先进绿色计算机-Ip有限公司 具有集成共享资源的高密度多节点计算机
CN102541804A (zh) * 2011-12-26 2012-07-04 中国人民解放军信息工程大学 一种异构系统中多gpu互连体系结构
CN205693677U (zh) * 2016-06-08 2016-11-16 广州市银讯通信科技有限公司 一种模块化pcm装置
CN109564558A (zh) * 2016-06-10 2019-04-02 利奇得公司 数据存储系统中的多端口插入器架构
CN106230717A (zh) * 2016-07-22 2016-12-14 杭州华三通信技术有限公司 集群系统中的路由获取方法及装置
CN109313580A (zh) * 2016-07-22 2019-02-05 英特尔公司 用于托架架构的技术
CN110651536A (zh) * 2017-05-31 2020-01-03 罗博德夫公司 模块化结构的现场设备
AU2019100718A4 (en) * 2019-07-01 2019-08-01 Oxti Corporation Electronic device capable of quick assembly and maintenance

Also Published As

Publication number Publication date
US11202378B1 (en) 2021-12-14
CN114063725B (zh) 2023-08-01

Similar Documents

Publication Publication Date Title
US11689436B2 (en) Techniques to configure physical compute resources for workloads via circuit switching
US8159973B2 (en) Ultra-scalable supercomputer based on MPU architecture
US9172628B2 (en) Dynamic distribution of nodes on a multi-node computer system
US7017140B2 (en) Common components in interface framework for developing field programmable based applications independent of target circuit board
KR100302981B1 (ko) 에뮬레이션 모듈
US7421575B2 (en) Configuring a physical platform in a reconfigurable data center
US7734858B2 (en) Fabric interposer for blade compute module systems
US11100040B2 (en) Modular remote direct memory access interfaces
US10834023B2 (en) Distributed FPGA solution for high-performance computing in the cloud
US11487694B1 (en) Hot-plug events in a pool of reconfigurable data flow resources
Wang et al. CAMON: Low-cost silicon photonic chiplet for manycore processors
Yazdanshenas et al. Quantifying and mitigating the costs of FPGA virtualization
Kidane et al. NoC based virtualized accelerators for cloud computing
CN109739802B (zh) 计算集群及计算集群配置方法
CN111258951B (zh) 一种实现fpga服务器的方法和系统
CN117687956A (zh) 多加速卡异构服务器及资源链路重构方法
CN114063725B (zh) 用于计算和存储集群的模块化基础设施
Kidane et al. NoC based virtualized FPGA as cloud Services
US20060294317A1 (en) Symmetric multiprocessor architecture with interchangeable processor and IO modules
CN111722930B (zh) 一种数据预处理系统
US20090300752A1 (en) Utilizing virtual private networks to provide object level security on a multi-node computer system
WO2021138846A1 (zh) 一种实现fpga服务器的方法和系统
Katrinis et al. On interconnecting and orchestrating components in disaggregated data centers: The dReDBox project vision
Flich et al. From a FPGA prototyping platform to a computing platform: The MANGO experience
US20240028406A1 (en) Ihs (information handling system) mesh architecture for circuit optimization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant