CN105743819B - 计算装置 - Google Patents

计算装置 Download PDF

Info

Publication number
CN105743819B
CN105743819B CN201610113343.8A CN201610113343A CN105743819B CN 105743819 B CN105743819 B CN 105743819B CN 201610113343 A CN201610113343 A CN 201610113343A CN 105743819 B CN105743819 B CN 105743819B
Authority
CN
China
Prior art keywords
fabric
server
ethernet
node
switch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610113343.8A
Other languages
English (en)
Other versions
CN105743819A (zh
Inventor
M·B·戴维斯
D·J·博尔兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
III Holdings 2 LLC
Original Assignee
III Holdings 2 LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US13/234,054 external-priority patent/US9876735B2/en
Application filed by III Holdings 2 LLC filed Critical III Holdings 2 LLC
Priority claimed from CN2011800553292A external-priority patent/CN103444133A/zh
Publication of CN105743819A publication Critical patent/CN105743819A/zh
Application granted granted Critical
Publication of CN105743819B publication Critical patent/CN105743819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/40Constructional details, e.g. power supply, mechanical construction or backplane
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/10Packet switching elements characterised by the switching fabric construction
    • H04L49/101Packet switching elements characterised by the switching fabric construction using crossbar or matrix

Abstract

公开了性能和功率优化计算机系统架构以及运用功率优化树结构互连的方法。一个实施例构建运用具有平铺构建块的结构的低功率服务器集群,而另一个实施例实现存储解决方案或者冷却解决方案。又一个实施例使用结构来交换非以太网分组、交换网络处理器和其它装置的多个协议。

Description

计算装置
本发明是申请日为2011年9月16日、申请号为201180055329.2、名称为“性能和功率优化计算机系统架构和运用功率优化树结构互连的方法”的发明专利申请的分案申请。
优先权声明/相关应用
本申请根据35 USC 120要求2010年6月7日提交的标题为“System and Methodfor High-Performance,Low-Power DataCenter Interconnect Fabric(用于高性能、低功率数据中心互连结构的系统和方法)”的美国专利申请序号12/794,996的优选权益,通过引用其全文结合于本文。另外,本专利申请根据35 USC 119(e)和120来要求2010年9月16日提交的标题为“Performance and Power Optimized Computer System Architectures andMethods Leveraging Power Optimized Tree Fabric Interconnect(性能和功率优化计算机系统架构和运用功率优化数结构互连的方法)”的美国临时专利申请序号61/383,585的权益,通过引用其全文结合于本文。
背景技术
图1和图2示出当前众所周知的传统数据中心网络聚合(aggregation)。图1示出典型网络数据中心架构100的简图,其中,顶级交换机101a-n处于机架(rack)102a-n顶部,其中机架102a-n装有穿插了本地路由器103a-f、105a-b的刀片服务器107a-n,以及附加机架单元108a-n包含附加服务器104e-k和路由器106a-g。图2示出具有围绕边缘路由器系统112a-h设置的外围服务器111a-bn的系统的示范物理视图110,其中边缘路由器系统112a-h围绕位于中心的核心交换系统113放置。通常,这样的聚合110具有从机架服务器至它们的机架顶部交换机的1Gb以太网,并且常常具有到边缘和核心路由器的10Gb以太网端口。
附图说明
图1和图2示出典型数据中心网络聚合;
图3示出按照一个实施例的使用服务器的网络聚合;
图4示出按照一个实施例的机架中的数据中心;
图5示出具有交换结构的网络系统的高级拓扑;
图6示出组成与描述的点对点互连来互连的多个服务器节点的服务器板;
图6A-6C示出结构拓扑的另一个示例;
图7示出连接到一个或多个节点板和两个聚合板的无源底板的示例;
图8示出跨机框(shelves)扩展结构以及跨服务器机架链接机框的示例;
图9a示出具有磁盘外形尺寸(form factor)的示范服务器700;
图9b和图9c示出按照一个实施例的使用存储服务器1节点SATA板的磁盘-服务器组合的示范阵列;
图9d示出标准3.5英寸驱动器;
图9e示出标准3.5英寸磁盘驱动器外形尺寸的多个服务器节点的实现;
图10示出与存储器的深度集成的服务器的实现;
图11示出运用(leverage)现有3.5英寸JBOD存储器盒来密集封装存储器和服务器的实现;
图12示出以在2.5英寸驱动器的相同外形尺寸中作为示例的服务器节点的实现;
图13示出机架烟囱冷却的实现;
图13a示出图13所示的烟囱机架冷却中使用的热对流的示范图示;
图14示出相对彼此斜向地(diagonally)放置以使跨服务器节点的自发热减到最小的服务器节点;
图15示出按照一个实施例的示范16节点系统,其中热波从印刷电路板升起;
图16示出16节点系统的更高密度变体,其中具有被相似地设置以使跨节点的自发热减到最小的节点;
图17示出服务器节点结构交换机的内部架构;
图18示出包括连接到内部CPU总线结构的PCIe控制器的服务器节点;
图18a示出具有使用结构交换机的多个协议桥接器的系统;
图19示出服务器结构与网络处理器的集成;
图20示出提供诸如IP虚拟服务器(IPVS)的服务的结构交换机和FPGA;
图21示出将OpenFlow流处理构建到Calxeda结构中的方式;
图22示出经由PCIe将功率优化结构交换机集成到现有处理器的一个示例;以及
图23示出经由以太网将功率优化结构交换机集成到现有处理器的一个示例。
具体实施方式
图1是公开了性能和功率优化计算机系统架构和运用功率优化树结构互连的方法。一个实施例构建运用具有平铺构建块的结构的低功率服务器集群,而另一个实施例实现存储解决方案或者冷却解决方案。又一个实施例使用结构来交换其它东西。
共同待决的专利申请12/794,996描述支持使用树状或图形拓扑来路由的功率优化服务器通信结构的架构,树状或图形拓扑支持每节点多个链路,其中在拓扑内每个链路被指定为上、下或横向链路。该系统使用分段MAC架构,该架构可具有再利用(re-purpose)MAC IP地址以用于内部MAC和外部MAC,并且运用通常是用于MAC馈入交换机的物理信令的方法。Calxeda XAUI系统互连降低机架的功率、减少机架的导线并缩小机架的尺寸。没有对于高功率、昂贵的以太网交换机和单独服务器上的高功率以太网Phys的需要。它急剧减少电缆(电缆复杂度、成本、重大的故障源)。它还实现机架内部的异构服务器混合,以支持使用以太网或SATA或PCIe的任何设备。在该架构中,功率节省主要来自两个架构上的方面:1)最小化跨结构的以太网Phys,用节点之间的点对点XAUI互连来替代它们,以及2)基于负载来动态调整链路的XAUI宽度和速度。
图3示出网络聚合200。该网络支持聚合路由器202与三个机架203a-c之间的10Gb/sec以太网通信201(粗线)。在机架203a中,Calxeda互连结构提供机架内的机框上的服务器206a-d之间的多个高速10Gb通路,多个高速10Gb通路用粗线表示。服务器206a-d中的嵌入式交换机能够替代机架顶部交换机,因而节省大量功率和成本,同时仍然向聚合路由器提供10Gb以太网端口。Calxeda交换结构能够将传统以太网(1Gb或10Gb)集成到Calxeda XAUI结构中,以及Calxeda服务器能够为第三方以太网连接的服务器充当机架顶部交换机。
中间机架203b示出另一种情形,其中Calxeda服务器206e、f能够集成到包含机架顶部交换机208a的现有数据中心机架中。在这种情况下,IT小组能够继续使他们的其它服务器经由1Gb以太网向上连接到现有机架顶部交换机。Calxeda内部服务器能够经由Calxeda 10Gb XAUI结构来被连接,并且它们能够用1Gb或10Gb以太网互连向上集成到现有机架顶部交换机。右侧的机架203c是将数据中心机架传统地部署的当前方式。细红线表示1Gb以太网。因此,数据中心机架的当前部署是传统的向上到机架顶部交换机308b的1Gb以太网,然后是从机架顶部交换机出来至聚合路由器的10Gb(粗红线201)。注意,所有服务器以未知量存在,尽管为了清楚和简洁起见,它们在这里以有限量示出。此外,使用增强Calxeda服务器,不需要附加的路由器,因为它们操作以下论述的它们自己的XAUI交换结构。
图4示出按照一个实施例的示范“机架中的数据中心”400的概图。它具有10Gb以太网PHY 401a-n和1Gb私用以太网PHY 402。大型计算机(功率(power)服务器)403a-n支持搜索、数据挖掘、索引、Hadoop、Java软件框架、MapReduce、由Google引入以支持对计算机的集群上的大型数据集的分布式计算的软件框架、云应用等。具有本地闪存和/或固态磁盘(SSD)的计算机(服务器)404a-n支持搜索、MySQL、CDN、软件即服务(SaaS)、云应用等。单个、大型、慢速风扇405增大在其上垂直安装的服务器的对流冷却。数据中心400具有例如采用简单磁盘捆绑(JBOD)配置的硬盘的阵列406,以及可选地磁盘外形尺寸中的Calxeda服务器(阵列406和407中的绿盒),可选地充当磁盘控制器。硬盘服务器或Calxeda磁盘服务器可用于万维网服务器、用户应用和云应用等。还示出的是存储服务器的阵列407和具有用于遗留应用的标准以太网接口的历史服务器408a、b(任何大小、任何供应商)。
图5示出共同待决专利申请12/794,996中描述的网络系统的高级拓扑500,其示出通过交换结构来连接的XAUI连接SoC节点。10Gb以太网端口Eth0 501a和Eth1 501b来自树的顶部。椭圆502a-n是包括计算处理器以及嵌入式交换机的Calxeda节点。节点具有连接到内部交换机的5个XAUI链路。交换层将全部5个XAUI链路用于交换。第0级叶节点502d、e(即,N0n节点或Nxy,其中x=级以及y=项目号)仅使用1个XAUI链路来附连到互连,以留下能够用作XAUI、10Gb以太网、PCIe、SATA等供附连到I/O的4个高速端口。树和胖树的大多数具有仅作为叶节点的活动节点,而其它节点是纯交换节点。这种方式使路由更为直接得多。拓扑500具有准许每一个节点作为组合计算和交换节点或者只作为交换节点的灵活性。大部分树型实现在叶节点上具有I/O,但是拓扑500令I/O在任一个节点上。一般来说,将以太网放置在树的顶部使至以太网的平均跳数减到最少。
使用平铺构建块来构建功率优化服务器结构板
图6示出组成与描述的点对点互连来互连的多个服务器节点的服务器板。服务器板具有:
-该简图中的椭圆的每个是包括处理器、存储器、I/O和结构交换机的单机服务器节点。
-结构交换机具有独立地为每个链路动态地修改每个通道的宽度(通道数量)和速度的能力。
-14节点板示例示出来自结构的两个以太网退口(escapes)。通常将这些以太网退口路由到标准以太网交换机或路由器。这些以太网退口能够是标准1Gb或10Gb以太网。
-14节点示例拓扑是蝶形胖树,其提供冗余通路以允许自适应路由以绕过故障路由和绕过局部热点路由。
-3节点聚合器板允许仅用两个板瓦片(tile)组成大型服务器结构。
-对于冗余度,添加第二聚合器
-输入/输出:
-用于smooth-stone结构的PCIe连接器
-可选的以太网支持(断开、1、2、5、10或20Gbs)
-基于应用所需的带宽的以太网判定
-聚合器板上的节点能够就是交换节点或者包括交换的全计算节点。
-板输入/输出可以是支持2个x4 XAUI(2个smooth-stone结构链路)和/或可选的以太网支持(断开、1、2、10或20Gbs)的PCIe连接器。
-如14节点示例的示例结构拓扑使跨越板向外的链路数量减到最少以使连接器(大小和数量)及关联成本减到最小,同时仍然保留以太网退口和多路冗余度。
-两个聚合器板能够被用于在扩展结构时实现通路冗余度。
-功率节省能够用静态链路配置来实现
-图中的低层节点(标注为叶节点)能够以1Gb/sec运行。
-图中的第一层交换节点(标注为第1层交换机)则具有来自叶节点的3Gb/sec的入局带宽。这允许第1层与第2层交换机之间的2.5或5Gb/sec的静态链路配置。
-第2层交换机层向外扩展的链路则能够以10Gb/sec运行。
-在该拓扑中,由于大多数节点是叶节点,大多数链路正运行在最慢速率(在该示例中为1Gb/sec),因而使联网功率消耗减到最小。
-允许以太网退口在结构中的任何节点被拉取(pull)以允许结构设计人员折衷以太网退口的所需带宽、机架顶部交换机使用的端口数量以及与以太网端口关联的成本和功率。
-功率节省能够经由链路使用驱动的动态链路配置被进一步优化。在该示例中,结构交换机的每个链路和关联端口包含带宽计数器,其中具有允许基于动态链路使用对链路宽度和速度向上和向下重新配置的可配置阈值事件。
-因为在许多常见的服务器使用情况中,以太网业务主要是节点至外部以太网而不是节点至节点,所以提出的树结构构造,并且尤其是蝶形胖树示例使跨过结构至以太网的跳数减到最少,因而使等待时间减到最少。这允许创建至以太网的大型低等待时间结构,同时使用具有相对少(在该示例中为5)的数量的交换端口的交换机。
-图2中的服务器209a的集成示出使用限定的服务器结构的另一种新系统。在这种情况下,为了利用服务器结构的性能和电源管理,并且使机架顶部交换机上的端口的使用减到最少,该图示出将现有服务器异构集成到限定的服务器结构上,以使得来自现有服务器的以太网业务能够被网关传递到结构中(can be gateway’ed into the fabric),以允许与结构内的节点通信,以及使209a以太网业务通过结构被携带至上行链路以太网端口201。
图6A-6C示出作为由12个卡组成的48节点结构拓扑的结构拓扑的另一个示例,其中每个卡包含4个连接到系统板中的节点。该拓扑提供一些冗余链路,但是没有庞大的冗余。拓扑具有4个以太网网关退口,并且这些以太网网关退口的每个可以是1Gb或10Gb,但是并非所有这些以太网网关均需要被使用或被连接。在所示示例中,8个结构链路被带出(arebrought off)四节点卡,以及在一个示例中,PCIe x16连接器用于将4个结构链路带出卡。
使用平铺构建块来构建功率优化服务器结构板的概括/概述
1.允许跨服务器互连结构的任意数量的以太网退口的服务器树结构,以使以太网Phys的数量减到最少,使用来节省与以太网Phys、关联电流以及机架顶部以太网交换机/路由器上消耗的端口关联的功率和成本。
2.交换节点能够是通过关断计算子系统来节省功率的纯交换节点,或者能够用作包括结构交换的全计算子系统。参照图17,在一个实现中,使用多个功率域来从与管理处理器(框906)和结构交换机(框的其余部分)分离计算子系统(框905)。这允许利用计算子系统(框905)来配置SOC,通过由结构交换机完成被断电,保持框906中的管理处理,以及硬件分组交换和路由。
3.蝶形胖树拓扑服务器结构提供板内的最少数量的链路(节省功率和成本)、跨越板的最少数量的链路(节省功率和成本),同时允许板内和跨板的冗余链路通路。
4.所提出的基板和聚合器板允许仅用两个板构建块来组成可缩放故障恢复服务器结构。
5.面向树的服务器结构以及如示例蝶形胖树的变体允许能够通过该节点的子节点的聚合带宽来限定的静态链路宽度和速度指定,从而允许便利的链路配置同时使互连功率减到最小。
6.功率节省能够经由链路使用所驱动的动态链路配置来进一步优化。在该示例中,结构交换机的每个链路和关联端口包含带宽计数器,其中具有允许基于动态链路使用对链路宽度和速度向上和向下重新配置的可配置阈值事件。
7.由于在许多常见的服务器使用情况中,以太网业务主要是节点至外部以太网而不是节点至节点的,所以提出的树结构构造,尤其是蝶形胖树示例使跨过结构至以太网的跳数减到最少,因而使等待时间减到最少。这允许创建至以太网的大型低等待时间结构,同时使用具有相对少(在该示例中为5)数量的交换端口的交换机。
8.允许把携带来自现有服务器的以太网业务的结构异构服务器集成到限定的服务器通信结构中并通过它。
使用平铺构建块来构建功率优化服务器机框和机架
这时能够组合这些板“瓦片”以构造结构连接的服务器节点的机框和机柜。图7示出无源底板如何能够连接8个14节点板和2个聚合板以组合由236个服务器节点所组成的机框的示例。例如,每个板可以是对于6U例如8.7”高+机械部件<10.75”(8.7”tall+mechanical<10.75”for 6U),对于密度交织散热片,以及16个板装配在19英寸宽机架中。底板可以是简单/便宜的,具有PCIe转换器和路由,其中路由可以是XAUI信号(蓝色和绿色)+很简单而无需导线的功率(+Power which is very simple without wires)。在8个板聚合点处示出以太网连接。
图8示出跨机框扩展的结构和跨服务器机架链接机框的示例。以太网退口能够在结构中的任何节点处被拉取,在该示例中,从连接多节点刀片的无源互连底板拉取它们。
使用平铺构建块来构建功率优化服务器机框和机架的概括/概述
1.使用PCIe连接器来引出以太网退口以及板向外的XAUI链路,以将板与点对点服务器结构连接在一起,不使用PCIe信令,而是使用物理连接器以用于板的功率和XAUI信号,同时保持用于故障处理(fail-over)和热点减少的冗余通信通路。
2.用完全无源底板所形成的XAUI点对点服务器互连结构。
3.跨横跨机架的结构的以太网退口在树的每一级处,而不只是在树的顶部。
4.能够动态启用和禁用跨结构的以太网退口,以使带宽与优化功率使用匹配。
5.包括系统管理业务的节点至节点业务留在横跨机架的结构上,而完全不会穿过机架顶部以太网交换机。
存储
图9a示出按照一个实施例的具有磁盘外形尺寸的示范服务器700,典型地诸如具有SCSI或SATA驱动器的标准2.3英寸或3.5英寸硬盘驱动器(HDD)。服务器板701装配在与当前磁盘机架中的磁盘驱动器702相同的基础设施中。服务器701是全服务器,其中具有DDR、芯片上服务器SoC、可选闪存、本地电源管理、至磁盘的SATA连接(1-16…受连接器大小的限制)。其输出可以是以太网或Calxeda的结构(XAUI),其中具有用于故障处理的两个XAUI输出。可选地,它可使用PCIe代替SATA(SSD或者需要PCIe的其它东西),其中具有1至4个节点以平衡计算相对存储需求。这样的服务器可进行RAID实现以及LAMP栈服务器应用。在每个磁盘上使用Calxeda ServerNodeTM将提供具有4GB的DDR3的全LAMP栈服务器和多个SATA接口。可选地,如果需要,则可添加8GB的DDR的第二节点。
图9b和图9c分别示出按照一个实施例的使用如上所述的存储服务器1-节点SATA板的磁盘-服务器组合700a-n的示范阵列710和720。通过标准或专有的某个高速网络或互连的连接消除了对大型以太网交换机的需要,从而节省功率、降低成本、减少热量和减小面积。每个板701比磁盘的高度和深度要小。阵列可用交替的磁盘和板来设置,如图9b中所示,或者一个板能够为多个磁盘工作,例如采用磁盘、磁盘、板、磁盘、磁盘的布置,如图9c所示。因此,计算功率以灵活地方式与磁盘比率匹配。板701a-n的连通性可基于每个节点,其中SATA用于连到磁盘以及多个SATA连到多个磁盘。它也可基于节点至节点,其中如前面所述的在结构配置中以及在申请61/256723中,在每个节点中具有两个XAUI以备冗余。节点通过XAUI结构来连接。这样的连接可是树或胖树拓扑,即节点至节点至节点至节点,其中确定性、无关(oblivious)或自适应路由朝正确方向来移动数据。备选地,可使用全专有互连,以转到其它处理单元。一些端口可转到以太网输出或者任何其它I/O导管。每个节点可直接转到“盒”内部的以太网或者XAUI到XAUI聚合器(交换机)然后到PHY或者XAUI到PHY。或者可使用以上的任何组合。在又一些情况中,SATA连接可用PCIe来替代,以使用具有PCIe连接的SSD。一些SSD与PCIe或SATA一起进入磁盘外形尺寸。或者可混合PCIe和SATA。可以使用盒外的以太网来代替AXUI以供系统互连。在一些情况下,例如,可使用标准SATA连接器,但是在其它情况下,可制作具有通过专有底板的专有布线的较高密度连接器。
在又一种情况下,服务器功能可处于磁盘驱动器内,以提供单个磁盘驱动器外形尺寸的全服务器加磁盘。例如,可将ServerNodeTM放在在磁盘内部的板上。这种方式可用XAUI或以太网连通性来实现。在这样的情况下,本发明人已知的芯片上服务器(server-on-chip)方式可用作磁盘控制器加服务器。图9d示出这个概念。图9d中示出标准3.5英寸驱动器,项目9d0。它具有控制磁盘驱动器的集成电路卡9d1。标注为9d2大量空间在驱动器内未被使用,其中能够形成Calxeda低功率小服务器节点PCB来装配在磁盘驱动器内的该未使用的空间内。
图9e示出将多个服务器节点放入标准3.5英寸磁盘驱动器外形尺寸中的实现。在这种情况下,从服务器PCB至底板的连接器转出基于XAUI的服务器结构互连,以提供网络和服务器间通信结构,以及用于至相邻SATA驱动器的连接的4个SATA端口。
图10示出用于将服务器与存储器深度集成的实现。服务器节点(101)示出集成计算核心、DRAM、集成I/O和结构交换机的完全低功率服务器。在该示例中,示出在与标准2 1/2英寸磁盘驱动器(102)相同的外形尺寸中的服务器节点101。(103)示出采用组对的一对一方式来组合这些服务器节点和磁盘驱动器,其中每个服务器节点具有其自己的本地存储器。(104)示出控制4个磁盘驱动器的服务器节点。系统(105)示出经由统一服务器结构来组合这些存储服务器,然后在该示例中从结构拉取4个10Gb/sec以太网退口以连接到以太网交换机或路由器。
图11通过示出运用现有3.5英寸JBOD(简单磁盘捆绑)存储器盒的使用,来示出存储器和服务器的这种密集封装的具体实现。在这种情况下,未改变包括磁盘壳体的JBOD机械部件,但是示出在未修改的JBOD盒内与磁盘驱动器的组对的一对一的存储节点。这示出一个概念,其中服务器节点是插入包含结构链路的基础主板的可插入模块。在该图示中,将23个3.5英寸磁盘(在逻辑视图中示为矩形)置于该标准JBOD盒内,并且该图示出JBOD盒内包含31个服务器节点(在逻辑视图中示为椭圆/圆形)以控制23个磁盘的并显露出两个10Gb/sec以太网链路(在逻辑视图中示为深色宽线)。该紧密集成的服务器/存储概念仅取用现成存储器JBOD盒,然后添加通过功率优化结构通信的相同外形尺寸中的31个服务器节点。这很好地反映了优选具有本地存储的应用。
图12示出运用如下事实的相关概念:能够以服务器节点与2.5英寸驱动器相同外形尺寸为例。在这种情况下,它们被集成到具有46个磁盘的2.5英寸JBOD中。这个概念示出在JBOD存储器相同的外形尺寸中集成的64个服务器节点。在该示例中,从结构拉取2个10Gb以太网链路,以及1Gb/sec管理以太网链路。
存储器的概括/概述
1.使用PCIe连接器来引出以太网退口以及板向外的XAUI链路,以将板与点对点服务器结构连接在一起,不使用PCIe信令,而是使用物理连接器以用于板的功率和XAUI信号,同时保持用于故障恢复和负载平衡的冗余通信通路。
2.通过启用小外形尺寸低功率结构的服务器节点与磁盘组对来使用限定的服务器结构以变换现有JBOD存储系统,提供与本地存储紧密地组对的、经由功率和性能优化服务器结构集成的极高密度计算机服务器,从而创建新的高性能计算服务器和存储服务器解决方案,而不影响JBOD存储系统的物理和机械设计。
3.用于在高密度计算系统中使用,为了用附加服务器来替换一些驱动器而在硬盘驱动器的外形尺寸中封装完整服务器的方法。
4.如权利要求3中一样,其中服务器经由和附加交换结构连接到网络。
5.如权利要求3中一样,其中装有驱动器的外壳中的底板用适合创建至少一个内部交换通道的底板来替换。
6.用于在高密度存储系统中使用,将低功率服务器PCB集成到标准3.5英寸磁盘驱动器内的空白空间中的方法,以提供磁盘驱动器内的集成计算能力。
集成低功率服务器的机架的冷却
驱动到低功率计算机服务器解决方案的一个方面是管理通过机架和跨板的热度、冷却和空气移动。风扇的小型化是降低低功率服务器的总拥有成本(TCO)的一个方面。风扇因运动部件而增加成本、复杂度、降低可靠性,消耗大量功率并且产生大量噪声。减少和移除风扇能够在可靠性、TCO和功率消耗上提供显著效益。
图13示出支持通过整个机架或者只在机架的一段的烟囱冷却的机架烟囱冷却的新实现。在烟囱机架概念中一个重要方面是单个风扇,在一个风扇的帮助下使用上升自然对流。冷却整个机架的大型风扇能够是慢速的。它可被放置在底部或者在机架的垂直安装的对流冷却子集之下的机架内。当冷却空气到达底部时,风扇推送它经过烟囱并且推出顶部。因为所有板均是垂直的,所以不存在水平阻塞。虽然在该示例中,示出风扇在机架底部,但是它能够在系统的任何位置。也就是说,如果是在通风孔和风扇下面的“传统”冷却,留下顶部作为垂直烟囱,该系统可能具有水平阻塞。该垂直的、底部冷却方式能够对小系统起作用。风扇能够是变速并且温度相关的。
图13a示出烟囱机架概念中使用的热对流500的新原理的示范图示。以成角度对齐来放置组件使热流501a-n从印刷电路板502上的热发散双倍数据速率(DDR)存储器芯片503a-n上升,因此那些热发散芯片不形成热备份或者相互加热。在该示例中,DDR芯片相互之间斜向地放置而不是垂直堆叠,因为它们倾向于相互加热。另外,DDR芯片被放置在诸如ASIC、SOC或处理器的大型计算芯片504a之上而不是之下,因为它们会倾向于加热SOC。以及闪存芯片506(最凉芯片)被放置在SOC之下。同样,如下面论述的,节点不是垂直堆叠。图14将该概念扩展到示出服务器节点如何相互斜向地放置以使跨服务器节点的自发热减到最小。
图15示出按照一个实施例的示范16节点系统,其中热波从印刷电路板升起。对于典型16节点系统,单个节点被设置以使得从每个单元升起的热量不加热之上的单元。整体外壳通常是更长、不高并且不密集。另外,不是如所示斜向地安装PCB,PCB而是可成直角地(squarely aligned)对齐并且是矩形的,但是组件可斜向地对齐来放置,以使相互加热减到最小。不同行中的PCB可具有互补布局或者可相应地错列以降低相互加热。类似地,图16示出16节点系统的更高密度变体,其中具有类似地设置的节点使跨节点的自发热减到最小。
用于低功率服务器的机架的附加冷却概念是使用气动空气压差来创建上升气流而无需风扇。用于这样做的技术是创建具有空气的延长垂直通风管的密封机架。该通风管必须足够高(大约20-30英尺以上(20-30feet+)),以创建足够的空气压差从而创建上升气流。这为低功率服务器的机架提供的完全无源空气移动和冷却系统。
机架安装的低功率服务器的冷却的概括/概述
1.用于在高密度计算系统中使用,将热发散组件放置在垂直放置安装板上的方法。
其中没有热发散组件被直接放置在另一个热发散组件之上或之下。
2.如权利要求1所述,其中组件跨安装板基本斜向设置。
3.如权利要求1所述,其中组件跨安装板以若干基本上交叉斜向设置。
4.如权利要求1、2和3所述,其中安装板是印刷线路板。
非以太网分组的服务器结构交换
如共同待决专利申请12/794996中所述,图17示出服务器节点结构交换机的内部架构。图17示出按照本文所公开系统和方法的一个方面的示范交换机900的框图。它具有四个感兴趣区域910a-d。区域910a对应于CPU与内部MAC之间的以太网分组。区域910b对应于在内部MAC的以太网物理接口的以太网帧,其包含前同步码、帧的开始和帧间间隙字段。区域910c对应于在外部MAC的以太网物理接口的以太网帧,其包含前同步码、帧的开始和帧间间隙字段。区域910d对应于路由报头901的处理器与外部MAC 904之间的以太网分组。该分段MAC架构是不对称的。内部MAC具有到路由报头处理器中的以太网物理信令接口,以及外部MAC具有到路由报头处理器中的以太网分组接口。因此,MAC IP被再利用以用于对内部MAC 和外部MAC,并且运用通常是用于MAC馈入交换机的物理信令。MAC配置使得A9核心905的操作系统装置驱动程序管理和控制内部Eth0 MAC 902和内部ETH1 MAC 903。管理处理器906的装置驱动程序管理和控制内部Eth2 MAC 907。外部Eth MAC 904不由装置驱动程序来控制。MAC 904以混杂模式被配置以传递所有帧而对于网络监视不进行任何滤波。该MAC的初始化在MAC的硬件例示与任何其它必要的管理处理器初始化之间来协调。外部Eth MAC904寄存器是A9 905和管理处理器906地址映射均可见的。外部Eth MAC 904的中断可路由到A9或管理处理器。
对节点的关键在于,路由报头处理器910d在接收从MAC发往交换机的分组时,将结构路由报头添加到分组,以及接收从交换机发往MAC的分组时去除结构路由报头。结构交换机本身仅对包含在结构路由报头中包含的节点ID和其它信息路由,而不对原始分组进行分组检查。
分布式PCIe结构
图18示出包括连接到内部CPU总线结构的PCIe控制器的服务器节点。这允许创建运用高性能、功率优化服务器结构的新PCIe交换机结构,以便创建可缩放的、高性能、功率优化PCIe结构。
该技术如下:
-PCIe控制器902连接到Mux 902a,以允许PCIe控制器直接连接到外部PCIe Phy或者连接到PCIe路由报头处理器910c。当Mux 902a被配置成将PCIe业务导向本地PCIe Phy时,这相当于标准本地PCIe连接。当Mux 902a被配置成将PCIe业务导向PCIe路由报头处理器910c时,这实现新PCIe分布式结构交换机机制。
-PCIe路由报头处理器910c使用分组内的嵌入式路由信息(地址、ID或隐式)来创建将该PCIe分组路由映射到目的地结构节点PCIe控制器的结构路由报头。
-这提供与分布式PCIe结构相似的优点:服务器结构提供联网。
-源自处理器核心(905)的PCIe事务能够(经由Mux旁路或者经由交换机)被路由到本地PCIe Phy,能够被路由到结构上的任何其它节点,直接路由到内部PCIe控制器(902)或者外部PCIe控制器/Phy(904)。
-同样,入局PCIe事务进入外部PCIe控制器(904),被PCIe路由报头处理器(910)用结构路由报头来标记,然后结构将PCIe分组传输给它的最终目标。
分布式总线协议结构
图18a示出附加扩展,其示出多个协议桥接器能够利用如下事实:结构交换机对路由报头而不是直接对基本分组有效载荷(例如第2层以太网帧)进行路由。在该图示中,示出3个协议桥接器:以太网、PCIe和总线协议桥接器。
总线协议桥接器的作用是取得处理器或内部SOC结构协议,对其分组,添加Calxeda结构路由报头,然后将其通过Calxeda结构来路由。
作为一个可行的示例,考虑SOC内的诸如AMBA AXI、HyperTransport或QPI(快速通路互连)的总线协议。
考虑下列数据流:
-内部SOC总线结构上的处理器发出存储器加载(或存储)请求。
-存储器操作的物理地址目标已经被映射到结构上的远程节点。
-总线事务穿过总线协议桥接器:
-将总线事务分组
-将存储器事务的物理地址映射到远程节点,在构建路由报头时使用该节点ID。
-路由帧由总线协议桥接器来构建,路由帧包含具有远程节点ID的路由报头,并且有效载荷是分组的总线事务。
-总线事务路由帧经过结构交换机,穿过结构,并且由目标节点的帧交换机来接收。
-目标节点总线协议桥接器对分组的总线事务进行拆包,发出总线事务到目标SOC结构中,完成存储器加载,并且通过相同步骤返回结果,其中结果回流到始发节点。
网络处理器与服务器结构集成
图19示出将服务器结构与网络处理器(911)集成的图示。对于将服务器结构与网络处理器集成存在若干使用情况,包括:
-网络处理器能够用作本地处理器(905)以及结构上的任何其它处理器的网络分组处理加速器。
-能够是网络处理器中心设计,其中来自外部以太网的入局分组针对网络处理器,以及网络处理器和控制平面处理能够被卸载到更大的处理核心(905)。
-服务器结构能够用作网络处理器之间的通信结构。
为了实现这些新使用情况,向网络处理器指配MAC地址。在图19所示的交换机架构中,没有附连到端口1-4的路由报头处理器。因此,直接连接到端口1-4的代理需要注入具有对有效载荷分组预设的结构交换机报头的分组。网络处理器通过下列步骤对其设计添加结构交换机集成:
-用结构交换机报头来标记来自网络处理器的出局分组,其对来自目的地MAC的目的地节点ID进行编码。
-在以太网分组处理之前来自结构交换机的对网络处理器的入局分组使结构交换机报头被去除。
外部装置与服务器结构的集成
图19示出将服务器结构与任意外部装置(912)集成的图示。外部装置意味着任何处理器、DSP、GPU、I/O或者需要装置间通信结构的通信或处理装置。典型使用情况将是需要DSP或GPU处理器之间的互连结构的DSP或GPU处理器所组成的大型处理系统。
结构交换机基于结构路由报头来路由分组,并且不对分组有效载荷进行分组检查。分组有效载荷没有被格式化为以太网帧的假设,并且完全作为不透明有效载荷来对待。
这允许外部装置(例如DSP或GPU处理器)附连到结构交换机,并且通过下列步骤来运用可缩放的、高性能、功率优化通信结构:
-将包含分组的目的地节点ID的路由帧报头添加到发送给帧交换机的任意分组有效载荷。
-当接收来自帧交换机的分组时剥离路由帧报头。
负载平衡
当考虑诸如图5所示的结构拓扑时,结构中的节点的每个转出至少一个MAC地址和IP地址,以通过501a和501b所示的网关节点来提供外部以太网连通性。
暴露这些细粒度的MAC和IP地址对于使用硬件负载平衡器的大规模万维网操作是有利的,因为它为负载平衡器提供MAC/IP地址的简单列表,以基于简单列表来进行操作,其中结构的内部构造对于负载平衡器不可见的。
但是,较小的数据中心能够潜在地被高密度低功率服务器能够提供的潜在的大量新MAC/IP地址压倒。有利的是能够提供用于负载平衡的选项,以隔离外部数据中心基础设施以免必须单独处理诸如万维网服务的层的大量IP地址。
考虑图20,其中我们已经取用结构交换机上的一个端口,并且已经添加提供诸如IP虚拟服务器(IPVS)的服务的FPGA。该IP虚拟化能够在包括第4层(传输)和第7层(应用)的网络级的范围完成。在许多情况下,有利的是,在用于诸如万维网服务的数据中心层的第7层处完成负载平衡,以使得http会话状态能够由特定万维网服务器节点本地地保持。IPVSFPGA仅附连到网关节点(图5中的节点501a和501b)。
在该示例中,图5所示的结构在用网关节点上的IPVS FPGA来扩大时,能够转出每网关节点单个IP地址。IPVS FPGA则对于对结构内的节点的入局请求(例如HTTP请求)进行负载平衡。对于第4层负载平衡,IPVS FPGA能够无状态地完成,并且使用包括跨节点轮询的算法,或者在使用下一个节点之前例示每节点的最大数量的请求。对于第7层负载平衡,IPVS FPGA将需要保持状态,以使得应用会话能够针对特定节点。
所产生流程变成:
-入局请求(例如HTTP请求)进入图20中的网关节点(端口0)。
-结构交换机路由表已经被配置以将来自端口0的入局业务导向结构交换机上的IPVS FPGA端口。
-IPVS FPGA改写路由报头,以针对结构内的特定节点,并且将所产生的分组转发到目标节点。
-目标节点处理请求,并且通常从网关节点发送出结果。
OpenFlow/软件定义的启用联网的结构
OpenFlow是提供通过网络对交换机或路由器的转发平面的接入的通信协议。OpenFlow允许通过交换机的网络的网络分组的通路由在单独的服务器上运行的软件来确定。把控制与转发的分离允许比当今使用ACL和路由协议可行的业务管理更复杂的业务管理。OpenFlow被认为是软件限定的联网的一般方式的实现。
图21示出将OpenFlow(或者更一般的软件限定的联网(SDF))流处理构建到Calxeda结构中的方式。网关节点的每个将例示在网关节点的结构交换机的端口上的启用OpenFlow的FPGA。OpenFlow FPGA需要至控制平面处理器的带外通路,这能够通过OpenFlowFPGA上的单独的联网端口完成,或者能够通过简单地要求结构交换机外的另一个端口向控制平面处理器通话来完成。
所产生流程变成:
-入局请求进入图20中的网关节点(端口0)。
-结构交换机路由表已经被配置,以将来自端口0的入局业务导向到结构交换机上的OpenFlow/SDF FPGA端口。
-OpenFlow/SDF FPGA实现标准OpenFlow处理,包括在必要时可选地联络控制平面处理器。OpenFlow/SDF FPGA改写路由报头,以针对结构内的特定节点(通过MAC地址),并且将所产生的分组转发到目标节点。
-目标节点处理请求,并且向OpenFlow FPGA发送回结果,其中它实现任何出局流处理。
经由PCIe将功率优化结构集成到标准处理器
图5所示并且先前描述的功率优化服务器结构对于现有标准处理器提供引人注目的优势,并且能够按集成芯片解决方案来与现有处理器集成。标准台式和服务器处理器常常直接地或者经由集成芯片组来支持PCIe接口。图22示出经由PCIe将功率优化结构交换机集成到现有处理器的一个示例。项目22a示出直接地或者经由集成芯片组来支持一个或多个PCIe接口的标准处理器。项目22b示出具有对其已经集成了PCIe接口的集成以太网MAC控制器的公开的结构交换机。项目22b通常可使用PCIe集成结构交换机的FPGA或ASIC实现来被集成在一起。
在本公开中,图5中所示的节点能够是功率优化服务器SOC与集成结构交换机的异构组合,以及本公开的PCIe连接的标准处理器与包含以太网MAC和结构交换机的PCIe接口模块的集成。
经由以太网的功率优化结构与标准处理器的集成
图5中所示并且先前描述的功率优化服务器结构对现有标准处理器提供引人注目的优势,并且能够作为集成芯片解决方案与现有处理器来集成。标准台式和服务器处理器常常经由集成芯片或者潜在地在SOC内提供支持以太网接口。图23示出经由以太网将功率优化结构交换机集成到现有处理器的一个示例。项目23a示出通过SOC或者经由集成芯片来支持以太网接口的标准处理器。项目23b示出公开的结构交换机没有集成内部以太网MAC控制器。项目23b通常可使用集成结构交换机的FPGA或ASIC实现来被集成在一起。
在本公开中,图5中所示的节点能够是功率优化服务器SOC与集成结构交换机的异构组合,以及本公开的以FPGA或ASIC的方式实现以太网连接的标准处理器与集成结构交换机的集成。
虽然前述已经参照了本发明的特定实施例,但是本领域的技术人员将理解的是,在不背离本公开的原理和精神的情况下,可进行对本实施例进行变更,本公开的范围由所附权利要求书来限定。

Claims (7)

1.一种计算装置,包括:
电路板;
安装在所述电路板上的一个或多个动态存储器芯片;
安装到所述电路板的一个或多个计算芯片;
安装到所述电路板的一个或多个闪速存储器芯片;
其中,将所述电路板垂直地安装,以使得所述一个或多个闪速存储器芯片在所述一个或多个计算芯片之下,以及所述一个或多个动态存储器芯片在所述一个或多个计算芯片之上;
垂直地安装的电路板的烟囱冷却器。
2.如权利要求1所述的计算装置,还包括通过烟囱冷却来冷却的多个垂直定向的电路板。
3.如权利要求1所述的计算装置,其中,所述烟囱冷却器是在所述电路板底部处的冷却所述电路板的风扇。
4.如权利要求1所述的计算装置,其中,所述烟囱冷却器是气动空气源和通风管。
5.如权利要求1所述的计算装置,其中,所述垂直地安装的电路板中的所述一个或多个动态存储器芯片不是直接在所述一个或多个计算芯片之上。
6.如权利要求1所述的计算装置,其中,所述电路板是印刷电路板。
7.如权利要求1所述的计算装置,其中,将所述一个或多个动态存储器芯片、一个或多个计算芯片和一个或多个闪速存储器芯片斜向地安装在所述电路板上。
CN201610113343.8A 2010-09-16 2011-09-16 计算装置 Active CN105743819B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US38358510P 2010-09-16 2010-09-16
US61/383,585 2010-09-16
US13/234,054 US9876735B2 (en) 2009-10-30 2011-09-15 Performance and power optimized computer system architectures and methods leveraging power optimized tree fabric interconnect
US13/234,054 2011-09-15
CN2011800553292A CN103444133A (zh) 2010-09-16 2011-09-16 性能和功率优化计算机系统架构和运用功率优化树结构互连的方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2011800553292A Division CN103444133A (zh) 2010-09-16 2011-09-16 性能和功率优化计算机系统架构和运用功率优化树结构互连的方法

Publications (2)

Publication Number Publication Date
CN105743819A CN105743819A (zh) 2016-07-06
CN105743819B true CN105743819B (zh) 2020-06-26

Family

ID=46934225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610113343.8A Active CN105743819B (zh) 2010-09-16 2011-09-16 计算装置

Country Status (2)

Country Link
CN (1) CN105743819B (zh)
TW (1) TWI540862B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6116056B2 (ja) * 2013-08-07 2017-04-19 日本航空電子工業株式会社 コネクタ
CN110727631B (zh) * 2019-09-12 2023-08-08 无锡江南计算技术研究所 一种基于双中板正交与非正交异构互连的h型组装方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140499A (zh) * 2006-09-07 2008-03-12 国际商业机器公司 高密度数据存储机箱及其管理方法
CN101140500A (zh) * 2006-09-07 2008-03-12 国际商业机器公司 数据存储封装及其配置方法
US7796399B2 (en) * 2008-01-02 2010-09-14 Microelectronics Assembly Technologies, Inc. Thin multi-chip flex module

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100008038A1 (en) * 2008-05-15 2010-01-14 Giovanni Coglitore Apparatus and Method for Reliable and Efficient Computing Based on Separating Computing Modules From Components With Moving Parts

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101140499A (zh) * 2006-09-07 2008-03-12 国际商业机器公司 高密度数据存储机箱及其管理方法
CN101140500A (zh) * 2006-09-07 2008-03-12 国际商业机器公司 数据存储封装及其配置方法
US7796399B2 (en) * 2008-01-02 2010-09-14 Microelectronics Assembly Technologies, Inc. Thin multi-chip flex module

Also Published As

Publication number Publication date
CN105743819A (zh) 2016-07-06
TWI540862B (zh) 2016-07-01
TW201230724A (en) 2012-07-16

Similar Documents

Publication Publication Date Title
US9876735B2 (en) Performance and power optimized computer system architectures and methods leveraging power optimized tree fabric interconnect
WO2012037494A1 (en) Performance and power optimized computer system architectures and methods leveraging power optimized tree fabric interconnect
US11588624B2 (en) Technologies for load balancing a network
US8335884B2 (en) Multi-processor architecture implementing a serial switch and method of operating same
US9300574B2 (en) Link aggregation emulation for virtual NICs in a cluster server
TWI534629B (zh) 資料傳輸方法及資料傳輸系統
US9292460B2 (en) Versatile lane configuration using a PCIe PIE-8 interface
US9264346B2 (en) Resilient duplicate link aggregation emulation
CN104025063B (zh) 用于共享网络接口控制器的方法和装置
KR101516216B1 (ko) 고성능, 저전력 데이터 센터 상호접속 패브릭에 대한 시스템 및 방법
US9680770B2 (en) System and method for using a multi-protocol fabric module across a distributed server interconnect fabric
US8599863B2 (en) System and method for using a multi-protocol fabric module across a distributed server interconnect fabric
US20140195634A1 (en) System and Method for Multiservice Input/Output
US20130343229A1 (en) Methods, apparatus, and systems for routing information flows in networks using spanning trees and network switching element resources
US20150036681A1 (en) Pass-through routing at input/output nodes of a cluster server
US20190243796A1 (en) Data storage module and modular storage system including one or more data storage modules
EP3531633B1 (en) Technologies for load balancing a network
CN105743819B (zh) 计算装置
US20200021539A1 (en) Lite network switch architecture
CN203241890U (zh) 一种基于atca板卡接口的多单元服务器
US11362904B2 (en) Technologies for network discovery
Baidu et al. A Novel Networking Box System Architecture and Design for Data Center Energy Efficiency
CN114157618A (zh) 一种支持FCoE业务的数据交换模块及交换机
TWI344766B (en) Integrated network device
CN103248585A (zh) 一种高效能的服务器中继交换芯片

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant