CN110622145A - 可重新配置的服务器以及具有可重新配置的服务器的服务器机架 - Google Patents

可重新配置的服务器以及具有可重新配置的服务器的服务器机架 Download PDF

Info

Publication number
CN110622145A
CN110622145A CN201880032500.XA CN201880032500A CN110622145A CN 110622145 A CN110622145 A CN 110622145A CN 201880032500 A CN201880032500 A CN 201880032500A CN 110622145 A CN110622145 A CN 110622145A
Authority
CN
China
Prior art keywords
pcie
pld
module
server
near memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880032500.XA
Other languages
English (en)
Other versions
CN110622145B (zh
Inventor
奥古斯托·帕尼拉
阿兰·坎托尔
雷·马蒂卡
小约翰·W·柯米什
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Molex LLC
Original Assignee
Molex LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Molex LLC filed Critical Molex LLC
Publication of CN110622145A publication Critical patent/CN110622145A/zh
Application granted granted Critical
Publication of CN110622145B publication Critical patent/CN110622145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/76Architectures of general purpose stored program computers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4004Coupling between buses
    • G06F13/4027Coupling between buses using bus bridges
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/16Handling requests for interconnection or transfer for access to memory bus
    • G06F13/1668Details of memory controller
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/382Information transfer, e.g. on bus using universal interface adapter
    • G06F13/385Information transfer, e.g. on bus using universal interface adapter for adaptation of a particular data processing system to different peripheral devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4063Device-to-bus coupling
    • G06F13/4068Electrical coupling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4204Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
    • G06F13/4221Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus
    • G06F13/423Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being an input/output bus, e.g. ISA bus, EISA bus, PCI bus, SCSI bus with synchronous protocol
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4204Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus
    • G06F13/4234Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being a memory bus
    • G06F13/4243Bus transfer protocol, e.g. handshake; Synchronisation on a parallel bus being a memory bus with synchronous protocol
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4282Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q1/00Details of selecting apparatus or arrangements
    • H04Q1/02Constructional details
    • H04Q1/04Frames or mounting racks for selector switches; Accessories therefor, e.g. frame cover
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0026PCI express

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Multi Processors (AREA)
  • Information Transfer Systems (AREA)
  • Memory System (AREA)

Abstract

一种可重新配置的服务器包括连接于相邻服务器的改进的带宽并允许对近存储器存储的改进的存取以及为相邻服务器提供资源的改进的能力。服务器包括处理器阵列以及包括近存储器的近存储加速器模块,近存储加速器模块帮助在处理器阵列和近存储器之间提供足够的带宽。一硬件平面模块可用于提供相邻服务器和/或相邻交换机之间的另外的带宽和互连。

Description

可重新配置的服务器以及具有可重新配置的服务器的服务器 机架
相关申请
本申请主张于2017年5月15日提交的美国临时申请号为US62/506374的优先权。
技术领域
本发明涉及数据中心领域,更具体地涉及能够用于服务器以改善性能的特征。
背景技术
服务器机架通常位于数据中心。为了使数据中心有效地运行,需要一些类型的统一(consistent)的架构(architecture)。一种典型的配置称为叶脊拓扑。在这种配置中,一交换机通过无源线缆与同一机架中的所有服务器通信且机架被认为是叶。交换机经由光缆(因为距离太远且信号频率太高而不能有效地使用铜介质传输信号)与一数据中心“脊”进行通信,并且脊允许在各种机架/TOR交换机之间进行通信。脊还与允许在数据中心之外进行通信的内核(core)进行通信。这样结构的一实施例在图1中示出。
图2至图2D示出具有一已知配置(该配置是OPENCAPI标准的一部分)的一服务器1的特征,且所示服务器1能够设置在机架中并连接于交换机。更具体地,服务器1包括16个信道(channel)的PCIe通信连接于一网络接口卡(NIC)专用集成电路(ASIC)(统称B)一链路7,并且这能够提供服务器1与交换机之间的连接(如图1所示)。作为典型的服务器设计,母板(MB)(标记为A)具有对于处理器能快速(fast and quick)存取的主存储器以及存取较慢的近存储器(near-memory)。虽然大部分工作能够在主存储器中完成,但某些任务需要存取近存储器。为了存取近存储器,MB具有连接处理器(示出为POWER 9)的串行高级技术附件(SATA)控制器,且SATA控制器经由一扩展板(以C示出)将处理器连接于近存储器卡(近存储器卡可以包括一固态硬盘(SSD))阵列(以D示出)。由于所述SATA连接,带宽相对受限于各SSD且由此对于近存储器的更多带宽会是有益的任务而言,服务器1未提供针对这些任务的可行的性能。由此,某些人群会赏识服务器配置的进一步改进。
发明内容
一机架系统中的一服务器能配置为包括在机架系统中的CPU和近存储器模块之间的改进的连接性以及近存储器模块与交换机之间的更直接的连接。一可编程逻辑器件(PLD)能设置成允许增加带宽并且基本上可以使大体消除使服务器运行效率较低的瓶颈成为可能。PLD能由一现场可编程门阵列(FPGA)提供。
在一实施例中,一处理器模块包括直接连接于多个近存储加速器模块的一处理器阵列。所述多个近存储加速器模块中的每一个包括一PLD和一PCIe交换机,PCIe交换机有助于确保处理器模块上的一处理器阵列与设置在近存储加速器模块上的一近存储器模块之间的更高的带宽。
处理器模块包括多个PCIe信道且在一实施例中,一PCIe扩展模块能被设置成提供在所述PLD和所述处理器阵列之间的一另外的路径。多个PCIe信道能连接于PCIe扩展模块且一PCIe交换机能将所述多个PCIe信道的一部分连接于多个近存储加速器模块中的每一个PLD。
在另一实施例中,具有一处理器阵列的一处理器模块连接于具有一第一PLD的一硬件平面模块。所述硬件平面模块包括连接于所述第一PLD的多个连接器且这些连接器配置成连接于外部设备。所述第一PLD还连接于一近存储器加速模块中的一第二PLD。所述近存储加速器模块包括:一近存储器模块,其包括一固态硬盘(SSD)阵列,且因为第一PLD和第二PLD直接连接,由此所述近存储器模块在所述处理器阵列和所述近存储模块之间提供高的带宽。
所述处理器模块包括多个PCIe信道且在一实施例中,扩展模块能设置成提供在所述第二PLD和所述处理器阵列之间的一另外的路径。多个PCIe信道能连接于PCIe扩展模块,且PCIe扩展模块中的一PCIe交换机能将所述多个PCIe信道的一部分连接于多个近存储加速器模块中的每一个第二PLD。
附图说明
本发明通过举例示出但不限于附图,在附图中类似的附图标记表示类似的部件,且在附图中:
图1是一已知的数据中心配置的一示意图。
图2是一已知的服务器配置的一示意图。
图2A是图2所示的服务器配置的一处理器模块的一示意图。
图2B是图2所示的服务器配置的一网络接口卡(NIC)的一示意图。
图2C是图2所示的服务器配置的一扩展板的一示意图。
图2D是图2所示的服务器配置的一近存储器模块的一示意图。
图3是具有一硬件平面的一改进的服务器架构的一示意图。
图4是一改进的服务器配置的一示意图。
图4A是图4的改进的服务器配置的一近存储加速器模块的一示意图。
图4B是图4的改进的服务器配置的一处理器模块的一示意图。
图4C是图4的改进的服务器配置的一PCIe扩展模块的一示意图。
图5是另一改进的服务器配置的一示意图。
图5A是图5的改进的服务器配置的硬件平面模块的一示意图。
图5B是图5的改进的服务器配置的一处理器模块的一示意图。
图5C是图5的改进的服务器配置的一PCIe扩展模块的一示意图。
图5D是图5的改进的服务器配置的一近存储加速器模块的一示意图。
具体实施方式
下面详细的说明描述多个示范性实施例且不意欲限制到明确公开的组合。因此,除非另有说明,本文所公开的各种特征可以组合在一起而形成出于简明目的而未示出的多个另外组合。
从图中可以看出,与现有技术相比,所公开的系统的优点之一是减少了协议之间的部件和转换。例如,图2所示的设计具有转换为SAS/SATA协议的PCIe信道且然后使用一扩展板连接于固态硬盘(SSDs)阵列。相比之下,所示的系统使一高效且直接的OpenCAPI信道位于一处理器和一PLD之间且然后在PLD与近存储器模块之间使用外设部件互连标准表达(PCIe)信道。PCIe信道众所周知为具有最小延迟的高性能信道。OpenCAPI信道由OpenCAPI标准定义,并允许传输数据的高速路径。这减少了串行连接的数量。具体地,不像图2至图2D所示的设计那样在母板和扩展卡之间以及扩展卡和近存储模块之间具有连接,所示的设计允许在近存储卡和处理器阵列之间的一直接连接或在处理器阵列与能够集成来自不同来源的信息的一硬件平面模块之间的一直接连接。一般而言,所示的设计是插入损耗,并应允许低功率传送、节省成本和低功率使用。
图3示出具有一替代配置的服务器15的一示意图,与已知服务器相比,该替代配置提供更高的性能和存储器(storage)存取的能力。应该注意的是,
图3所示的数据速率是指要传输的带宽和要接收的带宽之和。为了一致性的目的,在“相同带宽将沿相反方向延伸”的理解之下,本文中的术语“带宽”的使用将指代单个方向上的带宽(例如,传输(transmit)带宽)。
从图3中能够认识到的是,主存储器20连接于可以包括一处理器阵列的一处理器阵列25。应注意的是,尽管列出了POWER 9处理器,但是任何合适的处理器都可以胜任。处理器阵列25连接于一网络接口卡(NIC)以允许服务器15与交换机(且由此与图1所示的现有配置兼容)通信。一可编程硬件平面35(其包括一现场可编程门阵列(FPGA))将处理器阵列25连接于一存储加速器40(其如所示地还包括一FPGA)。存储加速器40进而连接于包括适于长期存储的存储器的一近存储器模块45。应注意的是,同时近存储器模块45示出为置入有(populated)固态硬盘(SSD)或密集存储模块(DMM)。DMM为包括存取并行LPDDR 3存储器的一FPGA的一混合存储模块,且各种版本的DMM均可用,其中DMM的优点之一是将DRAM“收发(transceiverize)”进一收发附加接口的能力,这将减少传统并行DRAM的限制。由于主要问题是性能,所以提供所需性能的任何其它合适类型的存储器(包括RRAM或其它新形式的存储器)也可以被使用。由此存储器的类型以及物理构造不受限制且任何类型的存储器以及存储器类型的组合可以置于近存储器模块45中。近存储器模块45具有充足带宽有益于允许192GB/s的带宽充分被利用来有助保持处理器阵列25饱和(saturated),但这样配置的近存储器模块45不是必须的。
能够认识到的是,这种设计的一个显著优点是它允许处理器阵列25和近存储器模块45之间以及近存储器模块45和一外部设备(其可以通过链路32来被运行(serviced))之间的高得多(much higher)的带宽。具体地,处理器阵列25和硬件平面模块35之间的带宽能达到200千兆字节/秒(GB/S),硬件平面模块35与外部设备(经由链路32)之间的带宽能达到200GB/s,而硬件平面模块35与近存储器模块45之间的带宽能达到192GB/s。应注意的是,可编程硬件平面35是可选的且可替代地处理器阵列25可以直接连接于存储加速模块40。然而,使用可编程硬件平面35的一个优点是能够支持在可编程硬件平面35与近存储器模块45(经由存储加速模块40)、处理器模块25以及外部设备(经由链路32连接)中的至少一个之间的高的带宽。
能够认识到的是,各种链路设置在模块之间以允许模块之间共享信息。传统上,这些链路为电路板的一部分。为了改善性能,模块之间的各种链路可以通过允许在较长距离上损耗最小(例如,与当使用一电路板时发现的插入损耗相比,具有相对较低的插入损耗水平)且信号完整性是所需的缆线连接来提供。为了便于制造和组装(以及增加的灵活性和改进的可升级性),各个模块安装在单独的基板(诸如电路板)上通常是有益的,但是这样的构造不是必须的。
应注意的是,在各个块(block)(一模块的内部和外部)之间的通信旨在是双向的,除非另有说明。由此一PCIe 4x连接将具有4个发送的子信道和4个接收的子信道。由此,用于提供这样连接的物理结构将有8个差分对,其中4个差分对提供发送、4个差分对提供接收。由此,一连接器将具有至少8对差分信号引脚。用于接地返回和计时(time)等(andsuch)的另外的信号引脚将按需要预期增设。应注意的是,各图所示的PCIe通道(lanes)的数量旨在基于每个PCIe信道所预期的PCIe的性能来提供所需的带宽。图3所示的需要提供性能的PCIe信道的数量将取决于PCIe信道是以16Gbps(第4代)还是以8Gbps(第3代)运行。如果各个PCIe信道的性能发生变化,那么PCIe信道的数量可以相应地改变,以提供所需的带宽(同时理解的是,利用整个的带宽可能需要更快或另外的SSD)。
图4至图4C示出具有互补模块卡的一服务器的一实施例。一处理器模块139(其包括支持可以为一个以上处理器的一处理器阵列140的一母板MB)示出在图4B中。如能够认识到的是,Power 9处理器被示出且适于许多应用,但根据预期的应用和处理器的能力,也可以使用其它处理器。处理器阵列140连接于信道146(如所示出的,各组信道包括8条通道,各通道能支持25Gbps发送)且各组信道146经由一链路105连接于一近存储加速器模块120(图4A示出),从而各个近存储加速器模块120具有与处理器阵列140连接的一200Gbps带宽且在处理器阵列140与近存储加速器模块120之间的总带宽为100GB/s。当然,通过将各通道的数据速率(例如,从25Gbps切换到50Gbps通道)加倍,能够使带宽加倍。通过再次使数据速率加倍可以获得进一步的性能改进,但是自然地,每个通道的性能受到处理器阵列的能力的限制,且因此带宽的进一步增加可能不会提供额外的性能。
处理器阵列140连接于主存储器142(其通常为常规RAM的形式)且还连接于PCIe链路148以及能包括一个或多个RJ45连接器的一板控制器150。一SATA控制器152还可以连接于处理器阵列140。针对更多的功能,处理器模块139还可以包括多个PCIe信道144且所述多个信道144中的一些可以经由链路115连接于一PCIe扩展模块159。
能够认识到的是,所示出的PCIe扩展模块159包括:一PCIe交换机160,其连接于PCIe交换机与处理器模块139之间的一1x16信道166以及一4x4PCIe信道连接164,4x4 PCIe信道连接164连接于一连接器162,连接器162进而通过链路110连接于近存储加速器模块120。
为了提供连接于近存储器(近存储器预期比主存储器142要慢一些且延迟也要高,但存储空间相对较多)的一高的带宽,所示出的近存储加速器模块120包括一可编程逻辑器件(PLD)122,PLD 122经由一连接器库(connector bank)123连接于链路105。PLD 122可以为一FPGA且可以包括一个以上的DIMM存储器模块124以及一片上系统(system on chip,SoC)DDR4,以为PLD 122提供发挥功能并记录PLD 122的所需功能的存储器。PLD 122经由多个PCIe信道(在实施例中为32个PCIe信道)连接于交换机130,交换机130进而经由多个PCIe信道连接于多个固态驱动器(SSD)132(其可以为所需的RAID配置)。在一实施例中,8个SSD驱动器通过8组的4PCIe信道连接,但根据各个SSD的性能,可以使用一些其它数量的驱动器和信道来提供所需的带宽。有益的是,交换机130和各个SSD(其可以是非易失性存储器表达(non-volatile memory express)或NVME驱动器或任何其它合适的驱动器的形式)之间的带宽为使得PLD 122能基本上使用各个PLD 122与处理器阵列140之间的所有带宽。如能够认识到的是,PLD 122能具有足够的带宽,以也允许PLD 122和连接器128之间的200Gbps连接被饱和。在四个近存储加速器模块120连接于处理器阵列140的一实施例中,四个200Gbps连接提供处理器阵列140和近存储器之间的总共100GB/s的带宽。
PLD 122还通过连接器134连接于链路110,链路110连接于PCIe扩展模块159中的连接器162。使用链路115和链路110以在处理器模块139和近存储加速器模块120之间提供通信允许额外的带宽并进一步确保处理器阵列140不必等待很长时间才能存取存储在近存储加速器模块120中的信息。
为了进一步改善与存储在近存储加速器模块120中的信息的连接性,近存储加速器模块120还可以包括能连接于服务器之外位置的高数据速率能力的连接(high datarate capable connection)128。这允许根据需要从存储在近存储加速器模块120到交换机或服务器(提供连接并准备存取存储在其内的信息)的一直接连接。应该注意的是,在各种框图中示出的连接器可以是各种不同的连接器配置(包括一个或多个单独的连接器),只要它们提供必要的功能和性能。如所示出的,性能是200Gbps的集体带宽(collectivebandwith),但可以提供一些其它量的带宽。
图5至图5D示意性地示出了类似于图3中提供的示意性示出的另一实施例。能够认识到的是,图5B、图5C和图5D中示出的特征类似于图4至图4C中示出的特征。更具体地,图5B中示出的处理器模块219类似于图4B中示出的处理器模块139,图5D中示出的近存储加速器模块269类似于
图4A中示出的近存储加速器模块120,且图中示出的PCIe扩展器模块260类似于图4C中示出的PCIe扩展器模块159。图4至图4C与图5至图5D之间的主要不同是包含硬件平面模块239。
图5至图5D示出的实施例在处理器阵列220和硬件平面模块239之间提供100Gb/s的带宽。在硬件平面模块239和近存储器之间提供相似的带宽。如上所述,通过将各个通道的数据速率提高2倍,该带宽可以加倍,因此所示出的设计能够提供图3所示的系统的性能。当然,这种变化也会增加整个系统的成本,因为提供50Gbps来代替25Gbps的信道对设计更具挑战性,并且通常需要更高性能的部件。
如所示出的,处理器模块219包括连接于主存储器222的处理器阵列220。处理器阵列220具有分别连接于链路209、211的PCIe信道223、224。处理器阵列220还连接于SATA控制器以及用于经由链路207连接于硬件平面模块239的信道226(可以是OpenCAPI信道)。处理器模块219还可以包括与USB接口模块230的USB连接,且具有能经由RJ45连接器连接于外部设备的板管理控制器227。
PCIe扩展模块260包括PCIe交换机262,PCIe交换机262包括连接于链路211的1x16PCIe信道266(该连接可以通过PCIe扩展器插入其中的边缘卡连接器来进行)以及连接于连接器264(连接器264进而连接于链路213)的4x4 PCIe信道268。
近存储加速器模块269包括一PLD 270,PLD 270连接于一个或多个DIMM模块272和SoC DDR4模块273。为了连接于链路213,PLD 270连接于连接器282,且连接器282能支持PCIe 4x连接。PLD连接于PCIe交换机274,且PCIe交换机274进而连接于近存储器模块276(可以是SSD阵列)。PLD 270经由通道281连接于连接器280。如所示出的,PCIe交换机274和PLD 270之间存在有32个PCIe信道,PCIe交换机274和近存储器模块276之间也存在有32个PCIe信道。如果使用第3代(Gen 3)PCIe信道,那么每个近存储加速器模块269的集体带宽为256Gbps或32GB/s。PLD 270通过连接281(如所示出的,该连接设置成为每个差分对提供高达25Gbps的数据速率(总计200Gbps或25GB/s))经由连接器280与链路205通信。所示出的PLD还被配置为通过连接279与两个连接器278进行通信(如上所述,连接器278可以但不限于QSFP或NearStack式的连接器)。当然,如果使用具有高带宽(例如,具有更多差分对)的连接器,则单个连接器可以替代这两个连接器278,或者可以增加总带宽。
值得注意的是,图4A和图5D中所示的近存储加速器模块均包括用于内部通信或外部通信的端口。这使得存储阵列也可以作为机架中的其它交换机或其它服务器之间的通信发挥功能。应当注意的是,对于连接器的接口类型以四信道小型可插拔接口(QSFP)或NEWSTACK(NS)说明,但可以更改并可被满足带宽要求的任何连接器接口所替代。此外,不是提供100Gbps连接器,而是通过使用50Gbps通道(这可以通过在各条通道上从采用NRV编码的25Gbps切换到采用PAM4编码的50Gbps来提供)或者将通道的数目加倍并采用双四信道小型可插拔连接器(DQSFP)来使带宽加倍。当然,每个通道的带宽的相同变化也可以应用到OpenCAPI通道上。
虽然使用不具有硬件平面的近存储加速器模块有助于对外部设备提供一些另外的连接,但硬件平面模块239的使用使得服务器中的处理器与其他服务器中的处理器和存储器之间的互连性大大增加,且还对一个或多个交换机提供增加的连接性。这种结构允许改进的可扩充性(scalability),因为它更容易将服务器连接于相邻服务器,并且硬件平面模块提供大的带宽的量(足以支持完全存取各个近存储加速器器模块)。当然,如果需要,可以更改各个模块之间的连接的数量。此外,硬件平面模块与外部部件之间的连接的数量也可以改变。然而,可能需要保持处理器模块和近存储加速器模块之间的带宽等于近存储加速器模块和外部点之间的带宽。可选的硬件平面模块有助于提供此功能。
如所示出的,硬件平面模块239包括具有存储器242的PLD 240,PLD 240可以置入有常规RAM存储器且还包括OpenCAPI D-DIMM 246(其中D-DIMM可以是由联合电子设备工程理事会或JEDEC最终确定(finalized)的差分DIMM)。PLD 240连接于链路205(链路205连接于近存储加速器模块)、链路207(经由OpenCAPI信道连接于处理器阵列)和链路209(经由PCIe信道连接于处理器阵列220)。连接器244提供物理连接于链路205,且连接器252提供物理连接于链路207,且连接器250提供物理连接于链路209。在各种情况下,连接器244、250和252可以被配置为接受一个或多个线缆连接器以进行所述连接,且由此可以是一个或多个连接器。如能够认识到的是,PLD 240将来自处理器阵列220的带宽重新分配给多个近存储加速器模块269。
PLD 240还连接于一连接器阵列248,连接器阵列248可以包括适于与外部设备通信的多个连接器。虽然示出了8个100Gbps连接器,但还可以提供一些其他数量。连接器阵列248可以包括例如8个QSFP连接器,每个QSFP连接器配置为100Gbps的性能。如能够认识到的是,具有对外部设备的8个100Gbps的通信链路允许在相邻服务器和/或交换机之间进行更多的互连,并且基本上匹配PLD 240和处理器220之间或PLD 240与近存储器模块276之间的带宽。
此外,可选的硬件平面模块还允许重新配置(reconfigured)服务器而不需要大量的软件开销(overhead)。例如,硬件平面模块239能连接于相邻服务器中的硬件平面模块,且这将允许第一服务器向第二服务器提供可用资源。在一实施例中,第一服务器将停止在自身上执行活动,并且它突然看起来具有零资源,取而代之的是处理器阵列可以由第二服务器控制。第二服务器将突然拥有双倍的资源,并且能够更快地完成适合并行处理的任务。该改进的服务器配置由此允许快速处理可变负载。因此,所述的服务器允许创建将多个服务器连接在一起的二级网络,以便更快速地共享资源并可能更有效地完成任务。这种硬件配置的更改可以在不重新启动整个系统的情况下发生。
回到图1所示的标准配置,硬件平面模块239的使用允许连接于同一交换机的服务器之间以及连接于两个不同交换机的服务器之间的互连。如能够认识到的是,这种连接使得服务器系统整体更加灵活而且能够支持不同的工作负载并且很自然地非常适合使用具有极大灵活性的交换机。
如上所述,线缆可以用于连接各种模块。一个实施例可以是具有硬件平面模块(如果包括的话)的单个卡和位于单个卡上的多个近存储加速器模块。在替代实施例中,硬件平面模块可以是第一卡,并且可以通过一个或多个线缆组件连接到OpenCAPI信道。多个近存储加速器模块可以设置在多个第二卡上,并且每个第二卡可以通过一个或多个线缆组件连接到第一卡。能够认识到的是,因此,系统可以提供高程度的灵活性。另一潜在优点是对第一卡和第二卡中的PLD重新编程的能力。例如,如果第一卡不打算用于OpenCAPI信道,则将其编程为与OpenCAPI协议一起工作。同一第一卡还可潜在地插入与第三代、或第四代、或第五代PCIe协作的第二系统,并且只要PLD被重新编程,它就可以正常(appropriately,恰当地)工作。当然,可能需要修改线缆连接,以适应不同的连接器配置,但是,一旦经过适当地编程,则卡本身仍发挥作用。
本文提供的公开内容以其优选示范性实施例说明了各个特征。本领域技术人员在阅读本该公开内容后将作出落入随附权利要求的范围和精神内的许多其它的实施例、修改以及变形。

Claims (19)

1.一种可重新配置的服务器,包括:
一处理器模块,具有一处理器阵列,所述处理器阵列连接于主存储器且具有多个PCIe信道和多个OpenCAPI信道;
一近存储加速器模块,连接于所述多个OpenCAPI信道中的一个,所述近存储加速器模块具有为一现场可编程门阵列(FPGA)的一可编程逻辑器件(PLD),其中,所述PLD连接于所述多个OpenCAPI信道中的一个且所述PLD通过一预定数量的PCIe通道连接于一PCIe交换机,所述PCIe交换机通过大致所述预定数量的PCIe通道连接于一近存储器模块,其中,所述PLD与所述近存储器模块之间的带宽大致等于所述PLD与所述处理器阵列之间的带宽。
2.如权利要求1所述的可重新配置的服务器,其中,所述处理器阵列与所述PLD之间的带宽大约是每秒25千兆字节(GB/s)。
3.如权利要求2所述的可重新配置的服务器,其中,所述PLD与所述近存储器模块之间的带宽大约是32GB/s。
4.如权利要求1所述的可重新配置的服务器,其中,存在有多个所述近存储加速器模块,所述多个近存储加速器模块中的每一个连接于所述多个OpenCAPI信道中的一个。
5.如权利要求4所述的可重新配置的服务器,其中,所述处理器阵列与所述多个近存储模块之间的所述连接提供100GB/s的带宽。
6.如权利要求4所述的可重新配置的服务器,其中,所述处理器阵列与所述多个近存储模块之间的所述连接提供200GB/s的带宽。
7.如权利要求4所述的可重新配置的服务器,还包括:一PCIe扩展模块,连接于从所述处理器阵列延伸的所述多个PCIe信道的一部分,所述PCIe扩展模块包括:一第二PCIe交换机,其将从所述处理器阵列的所述多个PCIe信道的所述部分连接于在所述第二PCIe交换机与所述多个近存储加速器模块中的所述多个PLD之间延伸的PCIe信道。
8.如权利要求1所述的可重新配置的服务器,其中,所述近存储加速器模块还包括连接于所述PLD的一连接器,所述连接器配置成连接于另一服务器且支持100Gbps数据速率。
9.如权利要求8所述的可重新配置的服务器,其中,所述连接器为一四信道小型可插拔(QSFP)式连接器。
10.一种可重新配置的服务器,包括:
一处理器模块,具有一处理器阵列,所述处理器阵列连接于主存储器且具有多个PCIe信道和多个OpenCAPI信道;
一硬件平面模块,具有为一现场可编程门阵列(FPGA)的一第一可编程逻辑器件(PLD),所述第一PLD连接于所述多个OpenCAPI信道;以及
多个近存储加速器模块,连接于所述第一PLD,所述多个近存储加速器模块中的每一个具有一第二PLD,其中,所述第二PLD连接所述第一PLD且所述多个第二PLD中的每一个通过一预定数量的PCIe通道连接于一PCIe交换机,所述多个PCIe交换机中的每一个通过大致所述预定数量的PCIe通道连接于一近存储器模块,其中,所述第二PLD与对应的近存储器模块之间的带宽大致等于所述第二PLD与所述第一PLD之间的带宽。
11.如权利要求10所述的可重新配置的服务器,其中,所述第一PLD与所述多个第二PLD之间的所述连接提供100GB/s的带宽。
12.如权利要求10所述的可重新配置的服务器,其中,所述硬件平面模块包括连接于所述第一PLD的一连接器阵列,所述连接器阵列包括配置成连接于外部设备的多个连接器。
13.如权利要求12所述的可重新配置的服务器,其中,所述多个连接器向所述外部设备提供一100GB/s的带宽。
14.如权利要求12所述的可重新配置的服务器,其中,所述近存储加速器模块中的每一个包括配置成连接于一外部设备的一连接器。
15.如权利要求12所述的可重新配置的服务器,还包括:一PCIe扩展模块,连接于从所述处理器阵列延伸的所述多个PCIe信道的一部分,所述PCIe扩展模块包括:一第二PCIe交换机,其将从所述处理器阵列的所述多个PCIe信道的所述部分连接于在所述第二PCIe交换机与所述多个近存储加速器模块中的所述多个第二PLD之间延伸的PCIe信道。
16.一种服务器机架,包括:
一交换机;以及
多个服务器,连接于所述交换机,所述多个服务器中的至少一个为一可重新配置的服务器,所述可重新配置的服务器包括:
一处理器模块,具有一处理器阵列,所述处理器阵列连接于主存储器且具有多个PCIe信道和多个OpenCAPI信道;
一硬件平面模块,具有为一现场可编程门阵列(FPGA)的一第一可编程逻辑器件(PLD),所述第一PLD连接于所述多个OpenCAPI信道,其中,所述硬件平面模块包括连接于所述第一PLD的一连接器阵列,所述连接器阵列包括多个配置成连接于外部设备的连接器,以及
多个近存储加速器模块,连接于所述第一PLD,所述多个近存储加速器模块中的每一个具有一第二PLD,其中,所述第二PLD连接所述第一PLD且所述多个第二PLD中的每一个通过一预定数量的PCIe通道连接于一PCIe交换机,所述多个PCIe交换机中的每一个通过大致所述预定数量的PCIe通道连接于一近存储器模块,其中,所述第二PLD与对应的近存储器模块之间的带宽大致等于所述第二PLD和所述第一PLD之间的带宽;
其中,所述多个服务器中的其余服务器中的至少一个经由所述多个连接器中的一个连接于所述硬件平面模块。
17.如权利要求16所述的服务器机架,其中,所述多个服务器中的每一个像所述至少一个服务器一样配置。
18.如权利要求16所述的服务器机架,其中,所述至少一个服务器还包括:一PCIe扩展模块,连接于从所述处理器阵列延伸的所述多个PCIe信道的一部分,所述PCIe扩展模块包括:一第二PCIe交换机,其将从所述处理器阵列的所述多个PCIe信道的所述部分连接于在所述第二PCIe交换机与所述多个近存储加速器模块中的所述多个第二PLD之间延伸的PCIe信道。
19.如权利要求16所述的服务器机架,其中,所述多个连接器集体提供100GB/s的带宽。
CN201880032500.XA 2017-05-15 2018-05-15 可重新配置的服务器以及服务器机架 Active CN110622145B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762506374P 2017-05-15 2017-05-15
US62/506,374 2017-05-15
PCT/US2018/032652 WO2018213232A1 (en) 2017-05-15 2018-05-15 Reconfigurable server and server rack with same

Publications (2)

Publication Number Publication Date
CN110622145A true CN110622145A (zh) 2019-12-27
CN110622145B CN110622145B (zh) 2023-06-13

Family

ID=64274804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880032500.XA Active CN110622145B (zh) 2017-05-15 2018-05-15 可重新配置的服务器以及服务器机架

Country Status (5)

Country Link
US (3) US11100026B2 (zh)
JP (2) JP6929446B2 (zh)
CN (1) CN110622145B (zh)
TW (1) TWI685753B (zh)
WO (1) WO2018213232A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021143135A1 (zh) * 2020-01-13 2021-07-22 苏州浪潮智能科技有限公司 一种基于fpga云平台的远端数据搬移装置和方法
CN113805809A (zh) * 2021-09-17 2021-12-17 北京计算机技术及应用研究所 一种基于qsfp接口的存储微阵列设备

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110622145B (zh) 2017-05-15 2023-06-13 莫列斯有限公司 可重新配置的服务器以及服务器机架
US11375300B2 (en) 2017-06-10 2022-06-28 International Business Machines Corporation Networking hardware and software and data center topologies leveraging same
US10635609B2 (en) * 2018-03-02 2020-04-28 Samsung Electronics Co., Ltd. Method for supporting erasure code data protection with embedded PCIE switch inside FPGA+SSD
CN114817107B (zh) * 2022-06-28 2022-10-25 深圳云豹智能有限公司 Pcie设备切换系统、方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102150147A (zh) * 2008-07-03 2011-08-10 惠普开发有限公司 存储器服务器
CA2800809A1 (en) * 2010-05-28 2011-12-01 Lawrence A. Laurich Accelerator system for use with secure data storage
US20120310899A1 (en) * 2011-06-03 2012-12-06 Scott Lawrence Wasserman System and method for efficient data exchange in a multi-platform network of heterogeneous devices
CN103150427A (zh) * 2013-02-19 2013-06-12 浪潮电子信息产业股份有限公司 一种基于ssd硬盘缓存加速与备份的raid设计方法
CN104657308A (zh) * 2015-03-04 2015-05-27 浪潮电子信息产业股份有限公司 一种用fpga实现的服务器硬件加速的方法
CN105677595A (zh) * 2016-01-21 2016-06-15 方一信息科技(上海)有限公司 一种同时实现计算加速和pciessd存储的fpga方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6209067B1 (en) 1994-10-14 2001-03-27 Compaq Computer Corporation Computer system controller and method with processor write posting hold off on PCI master memory request
US8805195B2 (en) * 2007-07-16 2014-08-12 Ciena Corporation High-speed optical transceiver for InfiniBand and Ethernet
US7856545B2 (en) 2006-07-28 2010-12-21 Drc Computer Corporation FPGA co-processor for accelerated computation
US20110031289A1 (en) * 2009-08-10 2011-02-10 Robert Haskell Wrist worn electronic device holder
TWI367408B (en) * 2009-08-26 2012-07-01 Dell Products Lp Multi-mode processing module and information handle system
US9430437B1 (en) * 2013-08-09 2016-08-30 Inphi Corporation PCIE lane aggregation over a high speed link
US10180889B2 (en) * 2014-06-23 2019-01-15 Liqid Inc. Network failover handling in modular switched fabric based data storage systems
US9710624B2 (en) * 2014-11-20 2017-07-18 International Business Machines Corporation Implementing extent granularity authorization initialization processing in CAPI adapters
JP6329318B2 (ja) * 2015-02-25 2018-05-23 株式会社日立製作所 情報処理装置
US20160320818A1 (en) * 2015-04-28 2016-11-03 Quanta Computer Inc. Dynamic management of power supply units
US10089275B2 (en) * 2015-06-22 2018-10-02 Qualcomm Incorporated Communicating transaction-specific attributes in a peripheral component interconnect express (PCIe) system
US10152435B2 (en) 2016-06-20 2018-12-11 Western Digital Technologies, Inc. Coherent controller
CN110622145B (zh) 2017-05-15 2023-06-13 莫列斯有限公司 可重新配置的服务器以及服务器机架

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102150147A (zh) * 2008-07-03 2011-08-10 惠普开发有限公司 存储器服务器
CA2800809A1 (en) * 2010-05-28 2011-12-01 Lawrence A. Laurich Accelerator system for use with secure data storage
CN103238305A (zh) * 2010-05-28 2013-08-07 安全第一公司 用于安全数据储存的加速器系统
US20120310899A1 (en) * 2011-06-03 2012-12-06 Scott Lawrence Wasserman System and method for efficient data exchange in a multi-platform network of heterogeneous devices
CN103150427A (zh) * 2013-02-19 2013-06-12 浪潮电子信息产业股份有限公司 一种基于ssd硬盘缓存加速与备份的raid设计方法
CN104657308A (zh) * 2015-03-04 2015-05-27 浪潮电子信息产业股份有限公司 一种用fpga实现的服务器硬件加速的方法
CN105677595A (zh) * 2016-01-21 2016-06-15 方一信息科技(上海)有限公司 一种同时实现计算加速和pciessd存储的fpga方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANDREW PUTNAM等: "加快大型数据中心服务的可重构结构", 《中国集成电路》 *
ANDREW PUTNAM等: "加快大型数据中心服务的可重构结构", 《中国集成电路》, 5 February 2015 (2015-02-05) *
李永忠;成勇;孟北方;: "湖南有线郴州公司EPON+基带EOC双向改造试点经验", 中国有线电视, no. 01 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021143135A1 (zh) * 2020-01-13 2021-07-22 苏州浪潮智能科技有限公司 一种基于fpga云平台的远端数据搬移装置和方法
US11868297B2 (en) 2020-01-13 2024-01-09 Inspur Suzhou Intelligent Technology Co., Ltd. Far-end data migration device and method based on FPGA cloud platform
CN113805809A (zh) * 2021-09-17 2021-12-17 北京计算机技术及应用研究所 一种基于qsfp接口的存储微阵列设备

Also Published As

Publication number Publication date
US20200065285A1 (en) 2020-02-27
JP2021185497A (ja) 2021-12-09
TW201907315A (zh) 2019-02-16
JP2020518935A (ja) 2020-06-25
JP6929446B2 (ja) 2021-09-01
US11907152B2 (en) 2024-02-20
US20230079644A1 (en) 2023-03-16
US20220358076A1 (en) 2022-11-10
CN110622145B (zh) 2023-06-13
US11513990B1 (en) 2022-11-29
US11100026B2 (en) 2021-08-24
WO2018213232A1 (en) 2018-11-22
JP7155362B2 (ja) 2022-10-18
TWI685753B (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110622145B (zh) 可重新配置的服务器以及服务器机架
US20210279198A1 (en) SYSTEM AND METHOD FOR SUPPORTING MULTI-MODE AND/OR MULTI-SPEED NON-VOLATILE MEMORY (NVM) EXPRESS (NVMe) OVER FABRICS (NVMe-oF) DEVICES
KR102542562B1 (ko) 모듈화된 불휘발성 플래시 메모리 블레이드
US10491488B2 (en) High-availability computer system, working method and the use thereof
CN105335327B (zh) 基于Soc的可重构/双冗余VPX3U信号处理载板
CN110321313B (zh) 可配置接口卡
CN106339343B (zh) 快速外设组件互联卡
US20180024957A1 (en) Techniques to enable disaggregation of physical memory resources in a compute system
US8270830B2 (en) Optical network for cluster computing
KR101245096B1 (ko) 상호연결 시스템에서의 스큐 관리
US20170300445A1 (en) Storage array with multi-configuration infrastructure
US20130156425A1 (en) Optical Network for Cluster Computing
US20090245135A1 (en) Flexible network switch fabric for clustering system
CN107408095A (zh) 通道资源的重定向
CN101093717A (zh) 具有多个次级端口的输入/输出代理
US20170374139A1 (en) Cloud server system
JP6042914B2 (ja) モジュラサーバーシステム、i/oモジュール及びスイッチング方法
CN204347812U (zh) 一种基于fpga的服务器存储电路
CN209248436U (zh) 一种扩展板卡及服务器
CN111104358B (zh) 解聚计算机系统
CN206470736U (zh) 一种万兆接口集中式闪存阵列控制节点
CN209248518U (zh) 一种固态硬盘扩展板卡及服务器
CN109033002A (zh) 一种多路服务器系统
CN205302098U (zh) 一种同时支持qpi与磁盘扩展的扣卡式扩展模块
CN113918498B (zh) 一种服务器和数据中心

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant