CN112565110A - 用于针对可变的超额预订比率的交换链路和层管理的技术 - Google Patents

用于针对可变的超额预订比率的交换链路和层管理的技术 Download PDF

Info

Publication number
CN112565110A
CN112565110A CN202010592586.0A CN202010592586A CN112565110A CN 112565110 A CN112565110 A CN 112565110A CN 202010592586 A CN202010592586 A CN 202010592586A CN 112565110 A CN112565110 A CN 112565110A
Authority
CN
China
Prior art keywords
links
power state
computing device
power
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010592586.0A
Other languages
English (en)
Inventor
M·甘古利
J·卡瓦略
G·芒茨
M·J·阿迪莱塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN112565110A publication Critical patent/CN112565110A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/10Packet switching elements characterised by the switching fabric construction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/10Current supply arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/40Constructional details, e.g. power supply, mechanical construction or backplane
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/02Details
    • H04L12/12Arrangements for remote connection or disconnection of substations or of equipment thereof
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/062Generation of reports related to network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/15Interconnection of switching modules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q1/00Details of selecting apparatus or arrangements
    • H04Q1/02Constructional details
    • H04Q1/035Cooling of active equipments, e.g. air ducts
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q1/00Details of selecting apparatus or arrangements
    • H04Q1/02Constructional details
    • H04Q1/04Frames or mounting racks for selector switches; Accessories therefor, e.g. frame cover
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04QSELECTING
    • H04Q1/00Details of selecting apparatus or arrangements
    • H04Q1/02Constructional details
    • H04Q1/10Exchange station construction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/20Support for services
    • H04L49/205Quality of Service based
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Cooling Or The Like Of Electrical Apparatus (AREA)

Abstract

一种用于针对可变的超额预订比率的交换链路和层管理的技术,包括根据带宽需求、期望的超额预订比率和/或其他参数来对一个或多个网络层的链路供电和断电。监视表示一个或多个交换层的一个或多个网络业务度量的遥测数据,以根据基于遥测数据计算出的期望的超额预订比率来确定与一个或多个交换层相关联的多个链路的相应的功率状态。相应地设置多个链路的相应的功率状态。

Description

用于针对可变的超额预订比率的交换链路和层管理的技术
背景技术
在一些数据中心中,可以将计算设备与通过高速网络互连在一起的功能单元(例如,计算、存储器、数据存储装置、加速器等)分解。数据中心运营商可以基于工作负载需要来填充机架和托架(sled)。尽管数据中心的需要可以基于用户和工作负载的改变而改变,但是网络设备典型地在链路和带宽方面是固定的。在原始配置或集成时未被分配的任何附加带宽通常要求手动干预,然后进行手动配置。
附图说明
在附图中通过示例而非限制的方式示出了本文描述的概念。为了图示的简单和清楚起见,附图中示出的元素不一定按比例绘制。在认为适当的地方,已经在附图中重复了附图标记以指示对应或类似的元素。
图1是用于以分解式资源执行工作负载的数据中心的至少一个实施例的简化图;
图2是可以包括在图1的数据中心中的直槽(pod)的至少一个实施例的简化图;
图3是可以包括在图2的直槽中的机架的至少一个实施例的透视视图;
图4是图3的机架的侧面正视图;
图5是图3的其中安装有托架的机架的透视视图;
图6是图5的托架的顶部一侧的至少一个实施例的简化框图;
图7是图6的托架的底部一侧的至少一个实施例的简化框图;
图8是可在图1的数据中心中使用的计算托架的至少一个实施例的简化框图;
图9是图8的计算托架的至少一个实施例的顶部透视视图;
图10是可在图1的数据中心中使用的加速器托架的至少一个实施例的简化框图;
图11是图10的加速器托架的至少一个实施例的顶部透视视图;
图12是可在图1的数据中心中使用的存储托架的至少一个实施例的简化框图;
图13是图12的存储托架的至少一个实施例的顶部透视视图;
图14是可在图1的数据中心中使用的存储器托架的至少一个实施例的简化框图;
图15是可以在图1的数据中心内建立的系统的简化框图,该系统用于以由分解式资源组成的受管节点(managed node)执行工作负载;
图16是用于交换链路和层管理(ply management)的系统的至少一个实施例的简化框图;
图17是图16的系统的各种环境的至少一个实施例的简化框图;
图18是图17的结构控制器的各种环境的至少一个实施例的简化框图;
图19是图17-18的结构控制器的功率管理器的各种环境的至少一个实施例的简化框图;
图20是可以由图18-19的功率管理器执行的用于确定链路的功率状态的方法的至少一个实施例的简化流程图;以及
图21是可以由图18的机架执行的用于使网络流负载平衡的方法的至少一个实施例的简化流程图。
具体实施方式
虽然本公开的概念易于进行各种修改和替代形式,但是其具体实施例已经在附图中通过示例的方式示出并且将在本文中进行详细描述。然而,应当理解的是,不旨在将本公开的概念限制为所公开的特定形式,而是相反,意图是覆盖与本公开和所附权利要求书一致的所有修改、等效物和替代方案。
在说明书中对“一个实施例”、“实施例”、“说明性实施例”等的引用指示所描述的实施例可以包括特定的特征、结构或特性,但是每个实施例可以或可以不一定包括该特定的特征、结构或特性。此外,这样的短语不一定指代相同的实施例。此外,当结合实施例描述特定的特征、结构或特性时,认为结合其他实施例(无论其是否明确描述)来实现这种特征、结构或特性在本领域技术人员的知识范围内。另外地,应当认识到的是,包括在以“至少一个A,B和C”形式的列表中的项目可以表示(A);(B);(C);(A和B);(A和C);(B和C);或(A,B和C)。类似地,以“A,B或C中的至少一个”形式列出的项目可以表示(A);(B);(C);(A和B);(A和C);(B和C);或(A,B和C)。
在一些情况下,可以以硬件、固件、软件或其任何组合来实现所公开的实施例。所公开的实施例还可以被实现为由暂时性或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,该指令可以由一个或多个处理器读取并执行。机器可读存储介质可以体现为用于以机器可读形式存储或传输信息的任何存储设备、机制或其他物理结构(例如,易失性或非易失性存储器、介质盘或其他介质设备)。
在附图中,一些结构或方法特征可以以特定的布置和/或次序示出。然而,应当认识到的是,可能不要求这种特定的布置和/或次序。而是,在一些实施例中,可以以与说明性附图中示出的方式和/或次序不同的方式和/或次序来布置这些特征。另外地,在特定附图中包括结构或方法特征并不意味着暗示在所有实施例中都要求这样的特征,在一些实施例中,可以不包括这样的特征或这样的特征可以与其他特征组合。
现在参考图1,其中分解式资源可以协作地执行一个或多个工作负载(例如,代表客户的应用)的数据中心100包括多个直槽110、120、130、140,这些直槽中的每一个包括一排或多排机架。当然,尽管数据中心100被示出为具有多个直槽,但是在一些实施例中,数据中心100可以被体现为单个直槽。如本文更详细描述的,每个机架容纳多个托架,托架中的每一个可以主要配备有特定类型的资源(例如,存储器设备、数据存储设备、加速器设备、通用处理器),即,可以在逻辑上联接以形成组合节点的资源,该节点可以用作例如服务器。在说明性实施例中,每个直槽110、120、130、140中的托架连接到多个直槽交换机(例如,将数据通信路由到直槽内的托架或从该托架路由数据通信的交换机)。直槽交换机进而与骨干交换机(spine switch)150连接,该骨干交换机150在数据中心100中的直槽(例如,直槽110、120、130、140)之间交换通信。在一些实施例中,可以使用Intel Omni-Path技术将托架与结构连接。在其他实施例中,托架可以与其他结构(例如,InfiniBand或以太网)连接。如本文中更详细描述的,可以将数据中心100中的托架内的资源分配给包含来自一个或多个托架的资源的组(在本文中称为“受管节点”),以在工作负载的执行中共同地对其进行利用。可以像属于受管节点的资源位于相同托架上那样来执行工作负载。受管节点中的资源可以属于归属于不同机架的托架,并且甚至属于不同的直槽110、120、130、140。因此,可以将单个托架的一些资源分配给一个受管节点,而将相同托架的其他资源分配给不同的受管节点(例如,将一个处理器指派给一个受管节点,并且将相同托架的另一处理器指派给不同的受管节点)。
包括分解式资源的数据中心(例如,数据中心100)可以在多种上下文(例如,企业、政府、云服务提供商和通信服务提供商(例如,Telco’s),)中使用以及以多种尺寸使用,从消耗超过100,000平方英尺的云服务提供商大型数据中心到在基站中使用的单机架或多机架安装。
将资源分解到主要包括单一类型资源的托架(例如,主要包括计算资源的计算托架,主要包含存储器资源的存储器托架),以及分解式资源的选择性分配和释放以形成被指派用于执行工作负载的受管节点,相对于由在单个机箱中包含计算、存储器、存储以及可能的附加资源的超融合服务器组成的典型数据中心而言,改进了数据中心100的操作和资源使用。例如,由于托架主要包含特定类型的资源,因此可以独立于其他资源来对给定类型的资源进行升级。另外地,由于不同的资源类型(处理器、存储、加速器等)典型地具有不同的刷新速率,因此可以实现更高的资源利用和降低的总体拥有成本。例如,数据中心运营商可以通过仅交换出计算托架来升级处理器在其整个设施内的性能。在这种情况下,可以不同时升级加速器和存储资源,而是可以允许其继续操作,直到针对这些资源自己的刷新安排了这些资源。资源利用也可以增加。例如,如果受管节点是基于将在其上运行的工作负载的要求组成的,则节点内的资源更有可能被充分利用。这样的利用可以允许更多的受管节点在具有给定的资源的集合的数据中心中运行,或者允许使用较少的资源来构建预期运行给定工作负载的集合的数据中心。
现在参考图2,在说明性实施例中,直槽110包括成排200、210、220、230的机架240的集合。每个机架240可以容纳多个托架(例如,十六个托架),并且提供到所容纳的托架的电源和数据连接,如本文中更详细描述的。在说明性实施例中,每排200、210、220、230中的机架连接到多个直槽交换机250、260。直槽交换机250包括端口的集合252,直槽110的机架的托架连接到该端口的集合252;以及端口的另一集合254,其将直槽110连接到骨干交换机150,以提供到数据中心100中的其他直槽的连通性。类似地,直槽交换机260包括端口的集合262,直槽110的机架的托架连接到该端口的集合262;以及端口的集合264,其将直槽110连接到骨干交换机150。因此,使用交换机250、260的对为直槽110提供了一定量的冗余。例如,如果交换机250、260中的任何一个发生故障,则直槽110中的托架仍可以通过另一交换机250、260与数据中心100的其余部分(例如,其他直槽的托架)维持数据通信。此外,在说明性实施例中,交换机150、250、260可以体现为双模光交换机,其能够路由承载互联网协议(IP)分组的以太网协议通信以及经由光纤的光信号传输介质根据第二高性能链路层协议(例如,Intel的Omni-Path架构、InfiniBand、PCI快速)的通信两者。
应当认识到的是,其他直槽120、130、140(以及数据中心100的任何附加直槽)中的每个直槽可以与在图2中示出并关于图2描述的直槽110类似地构造并且具有与直槽110类似的组件(例如,每个直槽可以具有容纳上面描述的多个托架的成排的机架)。另外地,尽管示出了两个直槽交换机250、260,但应当理解,在其他实施例中,每个直槽110、120、130、140可以连接到不同数量的直槽交换机,从而提供甚至更多的故障转移能力。当然,在其他实施例中,直槽可以与图1-2中示出的成排机架的配置不同地布置。例如,直槽可以体现为机架的多个集合,其中机架的每个集合径向布置,即,机架与中心交换机等距。
现在参考图3-5,数据中心100的每个说明性机架240包括两个垂直布置的细长支撑柱302、304。例如,细长支撑柱302、304可以在部署时从数据中心100的基层向上延伸。机架240还包括细长支撑臂312的一个或多个水平对310(在图3中经由虚线椭圆标识),其被配置为支撑数据中心100的托架,如下面所讨论的。细长支撑臂312的对中的一个细长支撑臂312从细长支撑柱302向外延伸,并且另一细长支撑臂312从细长支撑柱304向外延伸。
在说明性实施例中,数据中心100的每个托架被体现为无机箱托架。即,每个托架具有无机箱的电路板基板,在其上安装了物理资源(例如,处理器、存储器、加速器、存储装置等),如下面更详细地讨论的。因此,机架240被配置为接纳这些无机箱托架。例如,细长支撑臂312的每个对310限定机架240的托架槽320,该托架槽320被配置为接纳对应的无机箱托架。为此,每个说明性细长支撑臂312包括电路板引导件330,该电路板引导件330被配置为接纳托架的无机箱电路板基板。每个电路板引导件330被固定至或以其他方式被安装到对应的细长支撑臂312的顶部一侧332。例如,在说明性实施例中,每个电路板引导件330被安装到对应的细长支撑臂312相对于对应的细长支撑柱302、304的远端。为了附图的清楚起见,并非在每个附图中都可以引用每个电路板引导件330。
每个电路板引导件330包括内壁,该内壁限定电路板槽380,该电路板槽380被配置为在托架400被接纳在机架240的对应的托架槽320中时接纳托架400的无机箱电路板基板。为此,如图4中示出的,用户(或机器人)将说明性无机箱托架400的无机箱电路板基板与托架槽320对齐。然后,用户或机器人可以将无机箱电路板基板向前滑动到托架槽320中,使得无机箱电路板基板的每个侧边414被接纳在限定了对应的托架槽320的细长支撑臂312的对310的电路板引导件330的对应的电路板槽380中,如图4中示出的。通过使机器人可访问且机器人可操纵的托架包括分解式资源,每种类型的资源都可以彼此独立地且以其自身的优化的刷新速率进行升级。此外,托架被配置为与每个机架240中的电源和数据通信电缆盲配合,从而增强了它们被快速移除、升级、重新安装和/或更换的能力。因此,在一些实施例中,数据中心100可以在没有人类参与的情况下在数据中心基层上进行操作(例如,执行工作负载、进行维护和/或升级等)。在其他实施例中,人类可以促进数据中心100中的一个或多个维护或升级操作。
应当认识到的是,每个电路板引导件330是双面的。即,每个电路板引导件330包括内壁,该内壁在电路板引导件330的每一侧上限定电路板槽380。以这种方式,每个电路板引导件330可以在任一侧上支撑无机箱电路板基板。因此,可以将单个附加的细长支撑柱添加到机架240,以将机架240变为双机架解决方案,该解决方案可以容纳两倍于如图3中示出的托架槽320。说明性机架240包括细长支撑臂312的七个对310g,其限定了对应的七个托架槽320,每个被配置为接纳并支撑对应的托架400,如上面所讨论的。当然,在其他实施例中,机架240可以包括细长支撑臂312的附加的或更少的对310(即,附加的或更少的托架槽320)。应当认识到的是,因为托架400是无机箱的,所以托架400可以具有与典型服务器不同的总体高度。因此,在一些实施例中,每个托架槽320的高度可以短于典型服务器的高度(例如,短于单个机架单元“1U”)。即,细长支撑臂312的每个对310之间的垂直距离可以小于标准机架单元“1U”。另外地,由于托架槽320的高度相对减小,因此在一些实施例中,机架240的总体高度可以短于传统机架外壳的高度。例如,在一些实施例中,细长支撑柱302、304中的每一个可以具有六英尺或更短的长度。同样,在其他实施例中,机架240可以具有不同的尺寸。例如,在一些实施例中,细长支撑臂312的每个对310之间的垂直距离可以大于标准机架单元“1U”。在这样的实施例中,托架之间的增加的垂直距离允许将更大的散热器附接到物理资源,并且允许使用更大的风扇(例如,在下面描述的风扇阵列370中)来冷却每个托架,这进而可以允许物理资源以增加的功率水平操作。此外,应当认识到的是,机架240不包括任何壁、外壳等。而是,机架240是向局部环境开放的无外壳机架。当然,在某些情况下,在其中机架240在数据中心100中形成排尾机架的那些情况下,可以将端板附接到细长支撑柱302、304中的一个。
在一些实施例中,各种互连可以向上或向下通过细长支撑柱302、304进行路由。为了便于这种路由,每个细长支撑柱302、304包括内壁,该内壁限定了内部腔室,互连可以位于该内部腔室中。通过细长支撑柱302、304进行路由的互连可以体现为任何类型的互连,包括但不限于用于向每个托架槽320提供通信连接的数据互连或通信互连、用于向每个托架槽320提供功率的功率互连和/或其他类型的互连。
在说明性实施例中,机架240包括支撑平台,其上安装有对应的光学数据连接器(未示出)。每个光学数据连接器与对应的托架槽320相关联,并且被配置为当托架400被接纳在对应的托架槽320中时与对应的托架400的光学数据连接器配合。在一些实施例中,数据中心100中的组件(例如,托架、机架和交换机)之间的光学连接是通过盲配合光学连接进行的。例如,每条电缆上的门可以防止灰尘污染电缆内部的光纤。在连接至盲配合光连接器机构的过程中,当电缆的末端接近或进入连接器机构时,门被推开。随后,电缆内部的光纤可以进入连接器机构内的凝胶,并且一根电缆的光纤与连接器机构内部的凝胶内的另一根电缆的光纤接触。
说明性机架240还包括联接到机架240的交叉支撑臂的风扇阵列370。风扇阵列370包括一排或多排冷却风扇372,这些冷却风扇372在细长支撑柱302、304之间的水平线上对齐。在说明性实施例中,风扇阵列370包括用于机架240的每个托架槽320的一排冷却风扇372。如上面所讨论的,在说明性实施例中,每个托架400不包括任何板载冷却系统,并且因此,风扇阵列370为被接纳在机架240中的每个托架400提供冷却。在说明性实施例中,每个机架240还包括与每个托架槽320相关联的电源。每个电源被固定到限定对应的托架槽320的细长支撑臂312的对310中的细长支撑臂312中的一个。例如,机架240可以包括联接或固定至从细长支撑柱302延伸的每个细长支撑臂312的电源。每个电源包括电源连接器,该电源连接器被配置为在托架400被接纳在对应的托架槽320中时与托架400的电源连接器配合。在说明性实施例中,托架400不包括任何板载电源,并且因此,当电源被安装到机架240时,机架240中提供的电源向对应的托架400供电。每个电源被配置为满足其相关联的托架的功率要求,该功率要求可能因托架而异。另外地,机架240中提供的电源可以彼此独立地操作。即,在单个机架内,向计算托架供电的第一电源可以提供与由向加速器托架供电的第二电源所提供的功率水平不同的功率水平。电源在托架级别或机架级别上可以是可控的,并且可以由相关联的托架上的组件本地控制,或者可以例如由另一托架或协调器远程控制。
现在参考图6,在说明性实施例中,托架400被配置为被安装到数据中心100的对应的机架240中,如上面所讨论的。在一些实施例中,每个托架400可以被优化或以其他方式配置用于执行特定任务,例如,计算任务、加速任务、数据存储任务等。例如,托架400可以体现为如下面关于图8-9所讨论的计算托架800、如下面关于图10-11所讨论的加速器托架1000、如下面关于图12-13所讨论的存储托架1200或者体现为被优化或以其他方式配置为执行其他专门的任务的托架,例如,下面关于图14所讨论的存储器托架1400。
如上面所讨论的,说明性托架400包括无机箱电路板基板602,该无机箱电路板基板602支撑被安装在其上的各种物理资源(例如,电组件)。应当认识到的是,电路板基板602是“无机箱的”,因为托架400不包括壳体或外壳。而是,无机箱电路板基板602向局部环境开放。无机箱电路板基板602可以由能够支撑被安装在其上的各种电组件的任何材料形成。例如,在说明性实施例中,无机箱电路板基板602由FR-4玻璃增强环氧层压材料形成。当然,在其他实施例中,可以使用其他材料来形成无机箱电路板基板602。
如下面更详细讨论的,无机箱电路板基板602包括多个特征,这些特征改进了被安装到无机箱电路板基板602上的各种电组件的热冷却特性。如所讨论的,无机箱电路板基板602不包括壳体或外壳,这可以通过减少可以抑制空气流动的那些结构来改进在托架400的电组件上的空气流动。例如,由于无机箱电路板基板602不位于单独的壳体或外壳中,所以不存在附接到无机箱电路板基板602的垂直布置的背板(例如,机架的背面板),该背板可以抑制跨电组件的空气流动。另外地,无机箱电路板基板602具有被配置为减少跨安装到无机箱电路板基板602的电组件的气流路径的长度的几何形状。例如,说明性无机箱电路板基板602的宽度604大于无机箱电路板基板602的深度606。例如,在一个特定实施例中,与具有约17英寸的宽度和约39英寸的深度的典型服务器相比,无机箱电路板基板602具有约21英寸的宽度和约9英寸的深度。因此,相对于典型服务器而言,从无机箱电路板基板602的前边缘610朝向后边缘612延伸的气流路径608具有较短的距离,这可以改进托架400的热冷却特性。此外,尽管未在图6中示出,但是被安装到无机箱电路板基板602上的各种物理资源被安装被对应的位置,使得没有两个实质性发热的电组件相互遮蔽,如下面更详细讨论的。即,没有将在操作期间产生可观热量(即,大于足以不利地影响另一电组件的冷却的标称热量)的两个电组件沿着气流路径608的方向彼此线性地成一直线(即,沿着从无机箱电路板基板602的前边缘610朝向后边缘612延伸的方向)安装到无机箱电路板基板602上。
如上面所讨论的,说明性托架400包括被安装到无机箱电路板基板602的顶部一侧650的一个或多个物理资源620。尽管在图6中示出了两个物理资源620,但是应当认识到的是,在其他实施例中,托架400可以包括一个、两个或更多个物理资源620。物理资源620可以体现为能够执行各种任务(例如,计算功能和/或取决于例如托架400的类型或预期功能来控制托架400的功能)的任何类型的处理器、控制器或其他计算电路。例如,如下面更详细讨论的,物理资源620可以体现为:实施例中的高性能处理器,其中托架400体现为计算托架;实施例中的加速器协处理器或电路,其中托架400体现为加速器托架;实施例中的存储控制器,其中托架400体现为存储托架;或者实施例中的存储器设备的集合,签证托架400体现为存储器托架。
托架400还包括被安装到无机箱电路板基板602的顶部一侧650的一个或多个附加物理资源630。在说明性实施例中,附加物理资源包括网络接口控制器(NIC),如下面更详细讨论的。当然,在其他实施例中,取决于托架400的类型和功能,物理资源630可以包括附加或其他的电组件、电路和/或设备。
物理资源620经由输入/输出(I/O)子系统622通信地耦合到物理资源630。I/O子系统622可以体现为电路和/或组件,以促进与托架400的物理资源620、物理资源630和/或其他组件的输入/输出操作。例如,I/O子系统622可以体现为或以其他方式包括存储器控制器中心、输入/输出控制中心、集成传感器中心、固件设备、通信链路(例如,点对点链路、总线链路、电线、电缆、波导、光导、印刷电路板迹线等)和/或其他组件和子系统,以促进输入/输出操作。在说明性实施例中,I/O子系统622被体现为或以其他方式包括双倍数据速率4(DDR4)数据总线或DDR5数据总线。
在一些实施例中,托架400还可以包括资源到资源互连624。资源到资源互连624可以被体现为能够促进资源到资源通信的任何类型的通信互连。在说明性实施例中,资源到资源互连624被体现为高速点对点互连(例如,比I/O子系统622更快)。例如,资源到资源互连624可以被体现为快速路径互连(QPI)、超路径(UltraPath)互连(UPI)或专用于资源到资源通信的其他高速点对点互连。
托架400还包括电源连接器640,该电源连接器640被配置为当托架400被安装到对应的机架240中时与机架240的对应的电源连接器配合。托架400经由电源连接器640从机架240的电源接收电力,以向托架400的各种电组件供电。即,托架400不包括用于向托架400的电组件提供电力的任何本地电源(即,板载电源)。排除本地或板载电源有助于减少无机箱电路板基板602的总体封装面积,这可以增加被安装到无机箱电路板基板602上的各种电组件的热冷却特性,如上面所讨论的。在一些实施例中,将电压调节器放置在与处理器820(参见图8)直接相对的无机箱电路板基板602的底部一侧750(参见图7)上,并且电力通过延伸通过电路板基板602的过孔从电压调节器路由到处理器820。相对于典型的印刷电路板,这样的配置提供了增加的热预算、附加的电流和/或电压以及更好的电压控制,在典型的印刷电路板中,处理器电力部分地通过印刷电路迹线从电压调节器递送。
在一些实施例中,托架400还可以包括安装特征642,该安装特征642被配置为与机器人的安装臂或其他结构配合,以促进机器人将托架600放置在机架240中。安装特征642可以被体现为允许机器人抓握托架400而不会损坏无机箱电路板基板602或被安装在其上的电组件的任何类型的物理结构。例如,在一些实施例中,安装特征642可以被体现为附接到无机箱电路板基板602的非导电焊盘。在其他实施例中,安装特征可以被体现为附接到无机箱电路板基板602的托架、支架或其他类似结构。安装特征642的特定数量、形状、尺寸和/或构造可以取决于被配置为管理托架400的机器人的设计。
现在参考图7,除了被安装到无机箱电路板基板602的顶部一侧650上的物理资源630之外,托架400还包括被安装到无机箱电路板基板602的底部一侧750的一个或多个存储器设备720。即,无机箱电路板基板602被体现为双面电路板。物理资源620经由I/O子系统622通信地耦合至存储器设备720。例如,物理资源620和存储器设备720可以通过延伸通过无机箱电路板基板602的一个或多个过孔通信地耦合。在一些实施例中,每个物理资源620可以通信地耦合至一个或多个存储器设备720的不同集合。可替代地,在其他实施例中,每个物理资源620可以通信地耦合至每个存储器设备720。
存储器设备720可以被体现为能够在托架400的操作期间存储用于物理资源620的数据的任何类型的存储器设备,例如,任何类型的易失性存储器(例如,动态随机存取存储器(DRAM)等)或非易失性存储器。易失性存储器可以是要求电力以维持由介质存储的数据的状态的存储介质。易失性存储器的非限制性示例可以包括各种类型的随机存取存储器(RAM),例如,动态随机存取存储器(DRAM)或静态随机存取存储器(SRAM)。可以在存储器模块中使用的一种特定类型的DRAM是同步动态随机存取存储器(SDRAM)。在特定实施例中,存储器组件的DRAM可以符合由JEDEC颁布的标准,例如,用于DDR SDRAM的JESD79F、用于DDR2SDRAM的JESD79-2F、用于DDR3SDRAM的JESD79-3F、用于DDR4SDRAM的JESD79-4A、用于低功率DDR(LPDDR)的JESD209、用于LPDDR2的JESD209-2、用于LPDDR3的JESD209-3以及用于LPDDR4的JESD209-4。这样的标准(和类似标准)可以被称为基于DDR的标准,并且实现这种标准的存储设备的通信接口可以被称为基于DDR的接口。
在一个实施例中,存储器设备是块可寻址存储器设备,例如,基于NAND或NOR技术的那些存储器设备。存储器设备还可以包括下一代非易失性设备,例如,Intel 3D XPointTM存储器或其他字节可寻址就地写入非易失性存储器设备。在一个实施例中,存储器设备可以是或可以包括使用硫族化物玻璃的存储器设备、多阈值级别NAND闪速存储器、NOR闪速存储器、单级或多级相变存储器(PCM)、电阻式存储器、纳米线存储器、铁电晶体管随机存取存储器(FeTRAM)、反铁电存储器、结合了忆阻器技术的磁阻随机存取存储器(MRAM)、包括金属氧化物基底的电阻式存储器、氧空位基和导电桥随机存取存储器(CB-RAM)或自旋转移矩(STT)-MRAM、基于自旋电子磁性结存储器的设备、基于磁性隧穿结(MTJ)的设备、基于DW(域壁)和SOT(自旋轨道转移)的设备、基于晶闸管的存储器设备,或以上存储器中任一个的组合,或者其他存储器。存储器设备可以指代管芯本身和/或指代封装的存储器产品。在一些实施例中,存储器设备可以包括无晶体管的可堆叠交叉点架构,其中存储器单元位于字线和位线的交点处并且可单独寻址,并且其中位存储基于体电阻的改变。
现在参考图8,在一些实施例中,托架400可以被体现为计算托架800。计算托架800被优化或以其他方式被配置为执行计算任务。当然,如上面所讨论的,计算托架800可以依赖于其他托架(例如,加速托架和/或存储托架)来执行这样的计算任务。计算托架800包括与托架400的物理资源类似的各种物理资源(例如,电组件),这些物理资源已经在图8中使用相同的附图标记标识。上面关于图6和图7提供的对这种组件的描述适用于计算托架800的对应的组件,并且为了清楚地描述计算托架800在本文不再重复。
在说明性计算托架800中,物理资源620被体现为处理器820。尽管在图8中仅示出了两个处理器820,但是应当认识到的是,在其他实施例中,计算托架800可以包括附加处理器820。说明性地,处理器820被体现为高性能处理器820,并且可以被配置为以相对较高的额定功率进行操作。尽管与典型处理器(其以约155-230W进行操作)相比,以较高的额定功率进行操作的处理器820生成附加的热量,但上面讨论的无机箱电路板基板602的增强的热冷却特性促进了较高功率的操作。例如,在说明性实施例中,处理器820被配置为以至少250W的额定功率进行操作。在一些实施例中,处理器820可以被配置为以至少350W的额定功率进行操作。
在一些实施例中,计算托架800还可以包括处理器到处理器互连842。类似于上面讨论的托架400的资源到资源互连624,处理器到处理器互连842可以被体现为能够促进处理器到处理器互连842通信的任何类型的通信互连。在说明性实施例中,处理器到处理器互连842被体现为高速点对点互连(例如,比I/O子系统622更快)。例如,处理器到处理器互连842可以被体现为快速路径互连(QPI)、超路径(UltraPath)互连(UPI)或专用于处理器到处理器通信的其他高速点对点互连。
计算托架800还包括通信电路830。说明性通信电路830包括网络接口控制器(NIC)832,该NIC 832也可以被称为主机结构接口(HFI)。NIC 832可以被体现为或以其他方式包括可以由计算托架800用于与另一计算设备(例如,与其他托架400)进行连接的任何类型的集成电路、分立电路、控制器芯片、芯片组、外接板、子卡、网络接口卡或其他设备。在一些实施例中,NIC 832可以被体现为包括一个或多个处理器的片上系统(SoC)的一部分,或者被包括在也包含一个或多个处理器的多芯片封装中。在一些实施例中,NIC 832可以包括两者均位于NIC 832本地的本地处理器(未示出)和/或本地存储器(未示出)。在这样的实施例中,NIC 832的本地处理器可以能够执行处理器820的功能中的一个或多个。另外地或可替代地,在这样的实施例中,NIC 832的本地存储器可以在板级、插座级、芯片级和/或其他级别被集成到计算托架的一个或多个组件中。
通信电路830通信地耦合至光学数据连接器834。光学数据连接器834被配置为当计算托架800被安装到机架240中时,与机架240的对应的光学数据连接器配合。说明性地,光学数据连接器834包括从光学数据连接器834的配合表面引向光学收发器836的多条光纤。光学收发器836被配置为将来自机架侧光学数据连接器的传入光信号转换为电信号,并且将电信号转换为去往机架侧光学数据连接器的传出光信号。尽管光学收发器836在说明性实施例中被示为形成光学数据连接器834的一部分,但在其他实施例中,光学收发器836可以形成通信电路830的一部分。
在一些实施例中,计算托架800还可以包括扩展连接器840。在这样的实施例中,扩展连接器840被配置为与扩展无机箱电路板基板的对应的连接器配合,以向计算托架800提供附加的物理资源。在计算托架800的操作期间,附加的物理资源可以例如由处理器820使用。扩展无机箱电路板基板可以与上面讨论的无机箱电路板基板602基本相似,并且可以包括被安装在其上的各种电组件。被安装到扩展无机箱电路板基板上的特定电组件可以取决于扩展无机箱电路板基板的预期功能。例如,扩展无机箱电路板基板可以提供附加的计算资源、存储器资源和/或存储资源。因此,扩展无机箱电路板基板的附加的物理资源可以包括但不限于处理器、存储器设备、存储设备和/或加速器电路,包括例如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、安全协处理器、图形处理单元(GPU)、机器学习电路或其他专门的处理器、控制器、设备和/或电路。
现在参考图9,示出了计算托架800的说明性实施例。如所示的,处理器820、通信电路830以及光学数据连接器834被安装到无机箱电路板基板602的顶部一侧650。可以使用任何合适的附接或安装技术将计算托架800的物理资源安装到无机箱电路板基板602。例如,各种物理资源可以被安装到对应的插座(例如,处理器插座)、支持物或托架中。在一些情况下,电组件中的一些可以经由焊接或类似技术直接安装到无机箱电路板基板602。
如上面所讨论的,各个处理器820和通信电路830被安装到无机箱电路板基板602的顶部一侧650,使得不会有两个发热的电组件相互遮蔽。在说明性实施例中,处理器820和通信电路830被安装到无机箱电路板基板602的顶部一侧650上的对应的位置,使得这些物理资源中没有两个物理资源沿着气流路径608的方向与其他物理资源线性地成一直线。应当认识到的是,尽管光学数据连接器834与通信电路830成一直线,但光学数据连接器834在操作期间不产生热量或产生标称热量。
计算托架800的存储器设备720被安装到无机箱电路板基板602的底部一侧750,如上面关于托架400所讨论的。尽管存储器设备720被安装到底部一侧750,但存储器设备720经由I/O子系统622通信地耦合至位于顶部一侧650的处理器820。因为无机箱电路板基板602被体现为双面电路板,所以存储器设备720和处理器820可以通过延伸通过无机箱电路板基板602的一个或多个过孔、连接器或其他机构通信地耦合。当然,在一些实施例中,每个处理器820可以通信地耦合至一个或多个存储器设备720的不同集合。可替代地,在其他实施例中,每个处理器820可以通信地耦合至每个存储器设备720。在一些实施例中,存储器设备720可以被安装到无机箱电路板基板602的底部一侧上的一个或多个存储器夹层,并且可以通过球栅阵列与对应的处理器820互连。
处理器820中的每一个包括固定在其上的散热器850。由于将存储器设备720安装到无机箱电路板基板602的底部一侧750(以及对应的机架240中的托架400的垂直间隔),因此无机箱电路板基板602的顶部一侧650包括附加的“自由”区域或空间,其促进了使用相对于典型服务器中使用的传统散热器而言具有更大尺寸的散热器850。另外地,由于无机箱电路板基板602的改进的热冷却特性,因此处理器散热器850均不包括附接到其上的冷却风扇。即,散热器850中的每一个被体现为无风扇散热器。在一些实施例中,由于散热器850的增加的尺寸,被安装到处理器820顶上的散热器850可以在气流路径608的方向上与附接到通信电路830的散热器重叠,如图9说明性表示的。
现在参考图10,在一些实施例中,托架400可以体现为加速器托架1000。加速器托架1000被配置为执行专门的计算任务,例如,机器学习、加密、哈希或其他计算密集的任务。例如,在一些实施例中,计算托架800可以在操作期间将任务卸载到加速器托架1000。加速器托架1000包括与托架400和/或计算托架800的组件类似的各种组件,这些组件已经在图10中使用相同的附图标记标识。上面关于图6、图7和图8提供的对这种组件的描述适用于加速器托架1000的对应的组件,并且为了清楚地描述加速器托架1000在本文不再重复。
在说明性加速器托架1000中,物理资源620被体现为加速器电路1020。尽管在图10中仅示出了两个加速器电路1020,但是应当认识到的是,在其他实施例中,加速器托架1000可以包括附加的加速器电路1020。例如,如图11中示出的,在一些实施例中,加速器托架1000可以包括四个加速器电路1020。加速器电路1020可以体现为能够执行计算或处理操作的任何类型的处理器、协处理器、计算电路或其他设备。例如,加速器电路1020可以体现为例如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、安全协处理器、图形处理单元(GPU)、神经形态处理器单元、量子计算机、机器学习电路或其他专门的处理器、控制器、设备和/或电路。
在一些实施例中,加速器托架1000还可以包括加速器到加速器互连1042。类似于上面讨论的托架600的资源到资源互连624,加速器到加速器互连1042可以被体现为能够促进加速器到加速器通信的任何类型的通信互连。在说明性实施例中,加速器到加速器互连1042被体现为高速点对点互连(例如,比I/O子系统622更快)。例如,加速器到加速器互连1042可以被体现为快速路径互连(QPI)、超路径(UltraPath)互连(UPI)或专用于处理器到处理器通信的其他高速点对点互连。在一些实施例中,加速器电路1020可以与通过I/O子系统622连接到NIC 832和存储器720的主要加速器电路1020以及通过主要加速器电路1020连接到NIC 832和存储器720的次要加速器电路1020进行菊花链连接。
现在参考图11,示出了加速器托架1000的说明性实施例。如上面所讨论的,加速器电路1020、通信电路830以及光学数据连接器834被安装到无机箱电路板基板602的顶部一侧650。同样,如上面所讨论的,各个加速器电路1020和通信电路830被安装到无机箱电路板基板602的顶部一侧650,使得不会有两个发热的电组件相互遮蔽。加速器托架1000的存储器设备720被安装到无机箱电路板基板602的底部一侧750,如上面关于托架600所讨论的。尽管存储器设备720被安装到底部一侧750,但存储器设备720经由I/O子系统622(例如,通过过孔)通信地耦合至位于顶部一侧650的加速器电路1020。此外,加速器电路1020中的每一个可以包括散热器1070,该散热器1070比服务器中使用的传统散热器更大。如上面参考散热器870所讨论的,由于由存储器资源720提供的“自由”区域位于无机箱电路板基板602的底部一侧750而不是顶部一侧650上,因此散热器1070可以比传统散热器更大。
现在参考图12,在一些实施例中,托架400可以被体现为存储托架1200。存储托架1200被配置为将数据存储在存储托架1200本地的数据存储装置1250中。例如,在操作期间,计算托架800或加速器托架1000可以存储数据并从存储托架1200的数据存储装置1250中取回数据。存储托架1200包括与托架400和/或计算托架800的组件类似的各种组件,这些组件已经在图12中使用相同的附图标记标识。上面关于图6、图7和图8提供的对这种组件的描述适用于存储托架1200的对应的组件,并且为了清楚地描述存储托架1200在本文不再重复。
在说明性存储托架1200中,物理资源620被体现为存储控制器1220。尽管在图12中仅示出了两个存储控制器1220,但是应当认识到的是,在其他实施例中,存储托架1200可以包括附加的存储控制器1220。存储控制器1220可以被体现为能够基于经由通信电路830接收的请求来控制数据向数据存储装置1250中的存储和取回的任何类型的处理器、控制器或控制电路。在说明性实施例中,存储控制器1220被体现为相对低功率的处理器或控制器。例如,在一些实施例中,存储控制器1220可以被配置为以约75瓦特的额定功率进行操作。
在一些实施例中,存储托架1200还可以包括控制器到控制器互连1242。类似于上面讨论的托架400的资源到资源互连624,控制器到控制器互连1242可以被体现为能够促进控制器到控制器通信的任何类型的通信互连。在说明性实施例中,控制器到控制器互连1242被体现为高速点对点互连(例如,比I/O子系统622更快)。例如,控制器到控制器互连1242可以被体现为快速路径互连(QPI)、超路径(UltraPath)互连(UPI)或专用于处理器到处理器通信的其他高速点对点互连。
现在参考图13,示出了存储托架1200的说明性实施例。在说明性实施例中,数据存储装置1250被体现为或以其他方式包括被配置为容纳一个或多个固态驱动器(SSD)1254的存储笼(storage cage)1252。为此,存储笼1252包括多个安装槽1256,安装槽1256中的每一个被配置为接纳对应的固态驱动器1254。安装槽1256中的每一个包括多个驱动器引导件1258,这些驱动器引导件协作以限定对应的安装槽1256的进入开口1260。存储笼1252被固定到无机箱电路板基板602,使得进入开口背向无机箱电路板基板602(即,朝向无机箱电路板基板602的前部)。因此,在存储托架1200被安装到对应的机架204中的同时,可以访问固态驱动器1254。例如,在存储托架1200保持安装在对应的机架240中的同时,固态驱动器1254可以(例如,经由机器人)交换出机架240。
存储笼1252说明性地包括十六个安装槽1256,并且能够安装并且存储十六个固态驱动器1254。当然,在其他实施例中,存储笼1252可以被配置为存储附加的或更少的固态驱动器1254。另外地,在说明性实施例中,固态驱动器被垂直地安装在存储笼1252中,但在其他实施例中,固态驱动器可以以不同的定向被安装在存储笼1252中。每个固态驱动器1254可以被体现为能够存储长期数据的任何类型的数据存储设备。为此,固态驱动器1254可以包括上面讨论的易失性和非易失性存储器设备。
如图13中示出的,存储控制器1220、通信电路830以及光学数据连接器834被说明性地安装到无机箱电路板基板602的顶部一侧650。同样,如上面所讨论的,可以使用任何合适的附接或安装技术(包括例如插座(例如,处理器插座)、支持物、托架、焊接连接和/或其他安装或固定技术)将存储托架1200的电组件安装到无机箱电路板基板602。
如上面所讨论的,各个存储控制器1220和通信电路830被安装到无机箱电路板基板602的顶部一侧650,使得不会有两个发热的电组件相互遮蔽。例如,存储控制器1220和通信电路830被安装到无机箱电路板基板602的顶部一侧650上的对应的位置,使得这些电组件中没有两个电组件沿着气流路径608的方向彼此线性地成一直线。
存储托架1200的存储器设备720被安装到无机箱电路板基板602的底部一侧750,如上面关于托架400所讨论的。尽管存储器设备720被安装到底部一侧750,但存储器设备720经由I/O子系统622通信地耦合至位于顶部一侧650的存储控制器1220。同样,因为无机箱电路板基板602被体现为双面电路板,所以存储器设备720和存储控制器1220可以通过延伸通过无机箱电路板基板602的一个或多个过孔、连接器或其他机构通信地耦合。存储控制器1220中的每一个包括固定在其上的散热器1270。如上面所讨论的,由于存储托架1200的无机箱电路板基板602的改进的热冷却特性,因此散热器1270均不包括附接到其上的冷却风扇。即,散热器1270中的每一个被体现为无风扇散热器。
现在参考图14,在一些实施例中,托架400可以被体现为存储器托架1400。存储器托架1400被优化或以其他方式被配置为向其他托架400(例如,计算托架800、加速器托架1000等)提供对存储托架1200本地的(例如,在存储器设备720的两个或更多个集合1430、1432中的)存储器池的访问。例如,在操作期间,计算托架800或加速器托架1000可以使用映射到存储器集合1430、1432中的物理地址的逻辑地址空间来远程地写入存储器托架1200的存储器集合1430、1432中的一个或多个和/或从其中读取。存储器托架1400包括与托架400和/或计算托架800的组件类似的各种组件,这些组件已经在图14中使用相同的附图标记标识。上面关于图6、图7和图8提供的对这些组件的描述适用于存储器托架1400的对应的组件,并且为了清楚地描述存储器托架1400在本文不再重复。
在说明性存储器托架1400中,物理资源620被体现为存储器控制器1420。尽管在图14中仅示出了两个存储器控制器1420,但是应当认识到的是,在其他实施例中,存储器托架1400可以包括附加的存储器控制器1420。存储器控制器1420可以被体现为能够基于经由通信电路830接收的请求来控制数据向存储器集合1430、1432的写入和读取的任何类型的处理器、控制器或控制电路。在说明性实施例中,每个存储器控制器1420连接到对应的存储器集合1430、1432,以写入对应的存储器集合1430、1432内的存储器设备720以及从其中读取,并且强制执行与已经向存储托架1400发送请求以执行存储器访问操作(例如,读取或写入)的托架400相关联的任何许可(例如,读取、写入等)。
在一些实施例中,存储器托架1400还可以包括控制器到控制器互连1442。类似于上面讨论的托架400的资源到资源互连624,控制器到控制器互连1442可以被体现为能够促进控制器到控制器通信的任何类型的通信互连。在说明性实施例中,控制器到控制器互连1442被体现为高速点对点互连(例如,比I/O子系统622更快)。例如,控制器到控制器互连1442可以被体现为快速路径互连(QPI)、超路径(UltraPath)互连(UPI)或专用于处理器到处理器通信的其他高速点对点互连。因此,在一些实施例中,存储器控制器1420可以通过控制器到控制器互连1442访问与另一存储器控制器1420相关联的存储器集合1432内的存储器。在一些实施例中,可扩展存储器控制器由在存储器托架(例如,存储器托架1400)上的多个较小的存储器控制器(在本文中被称为“小芯片”)制成。小芯片可以是互连的(例如,使用EMIB(嵌入式多管芯互连桥))。组合的小芯片存储器控制器可以扩展到相对大量的存储控制器和I/O端口(例如,多达16个存储器通道)。在一些实施例中,存储器控制器1420可以实现存储器交织(例如,一个存储器地址被映射到存储器集合1430,下一个存储器地址被映射到存储器集合1432,并且第三个地址被映射到存储器集合1430等)。可以在存储器控制器1420内管理交织,或者从跨网络链接到存储器集合1430、1432的CPU插座(例如,计算托架800的CPU插座)管理交织,并且与从相同的存储器设备访问连续的存储器地址相比,可以改进与执行存储器访问操作相关联的延迟。
此外,在一些实施例中,可以使用波导连接器1480通过波导将存储器托架1400连接到(例如,在相同机架240或相邻机架240中的)一个或多个其他托架400。在说明性实施例中,波导是64毫米波导,其提供16个Rx(即,接收)通道和16个Tx(即,发送)通道。在说明性实施例中,每个通道是16GHz或32GHz。在其他实施例中,频率可以是不同的。使用波导可以在不向光学数据连接器834增加负载的情况下,向另一托架(例如,与存储器托架1400处于相同机架240或相邻机架240中的托架400)提供对存储器池(例如,存储器集合1430、1432)的高吞吐量访问。
现在参考图15,可以根据数据中心100来实现用于执行一个或多个工作负载(例如,应用)的系统。在说明性实施例中,系统1510包括协调器服务器1520,该协调器服务器1520可以被体现为包括执行管理软件(例如,诸如OpenStack之类的云操作环境)的计算设备(例如,计算托架800上的处理器820)的受管节点,该受管节点通信地耦合至多个托架400,这些托架包括大量的计算托架1530(例如,每个与计算托架800类似)、存储器托架1540(例如,每个与存储器托架1400类似)、加速器托架1550(例如,每个与加速器托架1000类似)以及存储托架1560(例如,每个与存储托架1200类似)。托架1530、1540、1550、1560中的一个或多个可以例如由协调器服务器1520分组为受管节点1570,以共同执行工作负载(例如,在虚拟机或容器中执行的应用1532)。受管节点1570可以被体现为来自相同或不同托架400的物理资源620的组合,例如,处理器820、存储器资源720、加速器电路1020或数据存储装置1250。此外,受管节点可以在将工作负载指派给受管节点时或在任何其他时间由协调器服务器1520建立、定义或“拆分”,并且无论当前是否有指派给受管节点的任何工作负载,受管节点都可以存在。在说明性实施例中,协调器服务器1520可以根据与工作负载(例如,应用1532)的服务级别协议相关联的服务质量(QoS)目标(例如,与吞吐量、延迟、每秒指令等相关联的性能目标),从托架400选择性地分配和/或取消分配物理资源620,和/或从受管节点1570添加或删除一个或多个托架400。在这样做时,协调器服务器1520可以接收指示受管节点1570的每个托架400中的性能状况(例如,吞吐量、延迟、每秒指令等)的遥测数据,并且将遥测数据与服务质量目标进行比较以确定服务质量目标是否得到满足。协调器服务器1520可以另外地确定是否可以从受管节点1570取消分配一个或多个物理资源同时仍然满足QoS目标,由此释放那些物理资源以供在另一个受管节点中使用(例如,以执行不同的工作负载)。可替代地,如果QoS目标当前没有得到满足,则协调器服务器1520可以确定动态地分配附加的物理资源,以在工作负载(例如,应用1532)正在执行时协助工作负载的执行。类似地,如果协调器服务器1520确定对物理资源的取消分配将导致QoS目标仍然得到满足,则协调器服务器1520可以确定从受管节点动态地取消分配物理资源。
另外地,在一些实施例中,协调器服务器1520可以例如通过标识工作负载(例如,应用1532)的执行阶段(例如,在其中执行不同操作的时间段,每个操作具有不同的资源利用特性)以及抢先地标识数据中心100中的可用资源并将其分配给受管节点1570(例如,在相关联阶段开始的预定义时间段内)来标识工作负载(例如,应用1532)的资源利用的趋势。在一些实施例中,协调器服务器1520可以基于各种延迟和分配方案来对性能进行建模,以将工作负载放置在数据中心100中的计算托架和其他资源(例如,加速器托架、存储器托架、存储托架)之中。例如,协调器服务器1520可以利用考虑托架400上的资源的性能(例如,FPGA性能,存储器访问延迟等)以及通过网络到资源(例如,FPGA)的路径的性能(例如,拥塞、延迟、带宽)的模型。因此,协调器服务器1520可以基于与数据中心100中可用的每个潜在资源相关联的总延迟(例如,除了通过与执行工作负载的计算托架与资源所位于的托架400之间的网络的路径相关联的延迟之外,与资源本身的性能相关联的延迟)来确定哪个(那些)资源应该用于哪些工作负载。
在一些实施例中,协调器服务器1520可以使用从托架400报告的遥测数据(例如,温度、风扇速度等)生成在数据中心100中的热量生成图,并且根据热量生成图以及与不同工作负载相关联的预测的热量生成来向受管节点分配资源,以维持数据中心100中的目标温度和热量分布。另外地或可替代地,在一些实施例中,协调器服务器1520可以将所接收的遥测数据组织成指示受管节点之间的关系(例如,空间关系(例如,数据中心100内的受管节点的资源的物理位置)和/或功能关系(例如,按受管节点提供服务所针对的客户、典型地由受管节点执行的功能类型、典型地彼此之间共享或交换工作负载的受管节点等对受管节点进行的分组))的分层模型。基于受管节点中物理位置和资源的差异,给定工作负载可以在不同的受管节点的资源之间展现出不同的资源利用(例如,导致不同的内部温度、使用处理器或存储器容量的不同百分比)。协调器服务器1520可以基于存储在分层模型中的遥测数据来确定差异,并且如果工作负载从一个受管节点重新指派给另一受管节点,则可以将该差异作为因素计入对工作负载的未来资源利用的预测中,以准确地平衡数据中心100中的资源利用。
为了减少协调器服务器1520上的计算负载和网络上的数据传输负载,在一些实施例中,协调器服务器1520可以向托架400发送自检信息,以使每个托架400能够在本地(例如,在托架400上)确定由托架400生成的遥测数据是否满足一个或多个条件(例如,满足预定义阈值的可用容量、满足预定义阈值的温度等)。然后,每个托架400可以返回向协调器服务器1520报告简化的结果(例如,是或否),协调器服务器1520可以利用该简化的结果来确定对受管节点的资源分配。
现在参考图16,用于针对可变的超额预订(oversubscription)比率的网络交换链路和层管理的系统1600包括通过网络1604进行通信的多个计算设备1602。在使用中,如下面进一步描述的,响应于带宽需求、遥测数据、客户策略和/或其他参数,结构控制器1800在一个或多个交换层中调整链路的功率状态。如果某些链路经历了空闲活动的间隔,则可以将这些链路设置为睡眠状态以减少功耗。如果带宽需求增加,则可以将链路中的一个或多个的功率状态调整为准备使用的功率状态。当对链路供电或断电时,可以动态地增加或减少带宽以允许灵活性。当基于带宽需求调整链路的功率状态时,网络拓扑会动态地改变,以确定可替代的网络路径。因此,可以对交换层进行功率管理,以针对带宽需求动态地进行调整。
每个计算设备1602可以被体现为能够执行本文描述的功能的任何类型的计算设备或计算机设备,包括但不限于计算机、服务器、工作站、台式计算机、膝上型计算机、笔记本计算机、平板计算机、移动计算设备、可穿戴计算设备、网络装置、web装置、分布式计算系统、基于处理器的系统和/或消费者电子设备。另外地或可替代地,计算设备1602可以被体现为一个或多个计算托架、存储器托架,或者物理分解式计算设备的其他机架、托架、计算机箱或其他组件。如图16中示出的,计算设备1602说明性地包括具有一个或多个核心1622的处理器1620、输入/输出子系统1624、存储器1626、数据存储设备1628、通信子系统1630和/或在服务器或类似计算设备中常见的其他组件和设备。当然,在其他实施例中,计算设备1602可以包括其他或附加组件,例如,在服务器计算机中常见的那些组件(例如,各种输入/输出设备)。另外地,在一些实施例中,说明性组件中的一个或多个可以并入另一组件中或以其他方式形成另一组件的一部分。例如,在一些实施例中,存储器1626或其部分可以并入处理器1620中。
处理器1620可以被体现为能够执行本文描述的功能的任何类型的处理器。处理器1620示例性地是多核心处理器,然而,在其他实施例中,处理器1620可以被体现为(多个)单核心或多核心处理器、数字信号处理器、微控制器或其他处理器或处理/控制电路。说明性处理器1620可以包括多个处理器核心1622,处理器核心1622中的每一个是能够执行经编程的指令的独立的通用处理单元。例如,每个处理器核心1622可以执行来自通用指令集架构(ISA)(例如,IA-32或
Figure BDA0002556239920000241
64)的指令。尽管以一个处理器核心1622进行了图示,但是在一些实施例中,处理器1620可以包括更大数量的处理器核心1622,例如,四个处理器核心1622、十四个处理器核心1622、二十八个处理器核心1622或不同数量。另外地,尽管被示为包括单个处理器1620,但是在一些实施例中,计算设备1602可以被体现为具有多个处理器1620的多插座服务器。
存储器1626可以被体现为能够执行本文描述的功能的任何类型的易失性或非易失性存储器或数据存储装置。在操作中,存储器1626可以存储在计算设备1602的操作期间使用的各种数据和软件,例如,操作系统、应用、程序、库和驱动程序。存储器1626经由I/O子系统1624通信地耦合到处理器1620,该I/O子系统1624可以被体现为用于促进与处理器1620、存储器1626以及计算设备1602的其他组件的输入/输出操作的电路和/或组件。例如,I/O子系统1624可以被体现为或以其他方式包括用于促进输入/输出操作的存储器控制器中心、输入/输出控制中心、传感器中心、固件设备、通信链路(即,点对点链路、总线链路、电线、电缆、光导、印刷电路板迹线等)和/或其他组件和子系统。在一些实施例中,I/O子系统1624可以形成片上系统(SoC)的一部分,并且连同处理器1620、存储器1626和计算设备1602的其他组件一起并入单个集成电路芯片上。类似地,数据存储设备1628可以被体现为被配置用于短期或长期数据存储的任何类型的一种或多种设备,例如,存储器设备和电路、存储卡、硬盘驱动器、固态驱动器、非易失性闪速存储器或其他数据存储设备。
计算设备1602还包括通信子系统1630,该通信子系统1630可以被体现为能够实现在计算设备1602与计算机网络1604上的其他远程设备之间的通信的任何通信电路、设备或其集合。例如,通信子系统1630可以被体现为或以其他方式包括网络接口控制器(NIC)1632或用于与远程设备发送和/或接收网络数据的其他网络控制器。NIC 1632可以被体现为将计算设备1602连接到网络1604的任何网络接口卡、网络适配器、主机结构接口、网络协处理器或其他组件。通信子系统1630可以被配置为使用任何一种或多种通信技术(例如,有线或无线通信)和相关联的协议(例如,以太网、
Figure BDA0002556239920000251
WiMAX、3G、4G LTE等)来实现这种通信。在一些实施例中,通信子系统1630和/或NIC 1632可以形成SoC的一部分,并且连同处理器1620和计算设备1602的其他组件一起并入单个集成电路芯片上。
计算设备1602还可以包括一个或多个外围设备1634。外围设备1634可以包括任何数量的附加输入/输出设备、接口设备和/或其他外围设备。例如,在一些实施例中,外围设备1634可以包括触摸屏、图形电路、图形处理单元(GPU)和/或处理器图形、音频设备、麦克风、相机、键盘、鼠标、网络接口和/或其他输入/输出设备、接口设备和/或外围设备。
计算设备1602可以被配置为通过网络1604彼此发送和接收数据和/或与系统1600的其他设备发送和接收数据。网络1604可以被体现为任何数量的各种有线和/或无线网络。例如,网络1604可以被体现为或以其他方式包括有线或无线局域网(LAN)和/或有线或无线广域网(WAN)。因此,网络1604可以包括任何数量的附加设备,例如,用于促进系统1600的设备之间的通信的附加计算机、路由器和交换机。在说明性实施例中,网络1604被体现为本地以太网。
现在参考图17,在说明性实施例中,系统1600包括与多个机架1702连网的多个交换层1700。在一些实施例中,交换层1700包括用于与机架1702的端口1704连接的多个链路。如下面所讨论的,可以基于带宽需求和/或其他参数将链路设置为不同的功率状态。例如,交换层1700可以利用光纤结构或其他网络连接与机架1702连接。当基于带宽需求(和/或其他参数)关闭链路电源时,可以关闭NIC中的与该链路相对应的光纤的电源,以使功耗最小化。在一些情况下,每个交换层1700可以包括256个端口。取决于环境,交换层1700可以具有更多或更少的端口。
现在参考图18,在说明性实施例中,结构控制器1800在操作期间建立环境1802以控制交换层1700的链路。说明性环境1802包括拓扑管理器1804、交换管理器1806、路径计算引擎1808、流管理器1810和结构管理器1812。如所示的,环境1802的各种组件可以被体现为硬件、固件、软件或其组合。因此,在一些实施例中,环境1802的组件中的一个或多个可以被体现为电路或电气设备(例如,拓扑管理器电路1804、交换管理器电路1806、路径计算电路1808、流管理器电路1810和结构管理器电路1812)的集合。应当认识到的是,在这样的实施例中,拓扑管理器电路1804、交换管理器电路1806、路径计算电路1808、流管理器电路1810和结构管理器电路1812中的一个或多个可以形成处理器1620、NIC 1632、I/O子系统1624和/或结构控制器1800的其他组件的一部分。在说明性实施例中,拓扑管理器电路1804、交换管理器电路1806、路径计算电路1808、流管理器电路1810和结构管理器电路1812被体现为交换层1700的硬件、固件或其他资源。另外地或可替代地,在一些实施例中,这些组件可以被体现为处理器1620的硬件、固件或其他资源或机架1702的其他组件。另外地,在一些实施例中,说明性组件中的一个或多个可以形成另一组件的一部分和/或说明性组件中的一个或多个可以彼此独立。
拓扑管理器1804被配置为定义软件定义网络(SDN)的拓扑。例如,取决于环境,拓扑管理器1804可以使用链路层发现协议(LLDP)并打开vSwitch来配置SDN的拓扑。
交换管理器1806被配置为针对每个链路流来感测并监视网络业务度量。例如,交换管理器1806可以包括遥测1807以基于每个链路来监视实时网络状况,例如,带宽和延迟。网络业务度量可以用于基于带宽需求(和/或其他参数)来确定链路的功率状态。
路径计算引擎1808被配置为从交换管理器1806的遥测接收网络业务度量,并且确定交换层1700中的链路的功率状态;另外地,路径计算引擎1808基于链路的功率状态来确定网络中的路径选择。路径计算引擎1808响应于基于遥测数据的带宽需求来对链路供电/断电。在一些情况下,诸如针对带宽的最小/最大阈值之类的客户策略可以作为因素计入交换层1700中的链路的功率状态中。
图19示出了说明性实施例,其中路径计算引擎1808在操作期间建立环境以确定链路的功率状态和网络中的路径选择。在所示的实施例中,环境包括功率管理器模块1900、路径选择模块1902、机器学习分类器1904、链路成本计算器模块1906和带宽估计模块1908。带宽估计模块1908被配置为基于遥测数据来计算每个链路的延迟和带宽。带宽估计可以用于确定超额预订比率。例如,在一些实施例中,超额预订比率可以计算为(被分配给给定交换机端口的内部交换机结构带宽的量)-(该端口处的设备连接速度)。在一些实施例中,超额预订比率可以被计算为下载带宽/上行链路带宽。功率管理器模块1900被配置为确定功率链路状态以递送最大的功率节省。例如,为了使功率节省最大化,机架1702中的NIC侧嵌入式光学件可以使对应于睡眠状态(或者已经故障被抢正在等待维修)的通道断电。链路成本计算器模块1906连同来自机器学习模块1904的学习一起被配置为接收功率节省计算和带宽估计,并且确定每个链路的功率状态。在一些实施例中,链路成本计算器模块1906可以基于每个端口的超额预订比率和每个链路的端口数量来确定链路功率状态。
考虑这样的示例:其中存在四个链路功率状态:L0、L1、L2和L3。在该示例中,功率状态L0表示非常低的退出延迟链路状态,旨在在链路活动之间的逻辑空闲的短间隔期间减少功率浪费。如果未使用链路,则附接到该链路的NIC端口可以转换为L0。该状态可以用于负载均衡到另一链路。如果在链路已经处于功率状态L1达预定时间段之后满足超额预订比率,则可以选择链路功率状态L0。换言之,如果已经满足超额预订比率达预定时间段,则L1中的链路将下移到L0。功率状态L1表示旨在降低功率的低退出延迟链路状态,但它是比L0高的功率状态。当端点意识到缺乏未完成的请求或未决的事务时,选择该L1功率状态以降低功率。在该示例中,功率状态L2表示唤醒状态,然后该功率状态L2转换为准备使用的功率状态L3。如果超额预订比率显著下降并且功率状态L3跟随并保持为链路功率状态,则可以选择功率状态L2。一个接一个地针对所有链路进行这些链路功率状态确定,直到实现期望的超额预订比率为止。因此,可以为链路中的每一个指派功率状态,以使功率使用最小化,同时针对带宽需求和可变的超额预订比率动态地进行调整。路径计算引擎1808被配置为基于所选择的链路功率状态来确定可替代的网络路径。在一些实施例中,结构控制器1800被配置为感测带宽需求并且通过调整链路功率状态来动态地增加带宽。例如,可以对应于基于层2(用于MLAG、STP的静态以太通道/LACP等)和基于层3(BGP/OSPF/ISIS)使用模板驱动器配置,以识别对附加带宽的需要并且相应地调整链路功率状态。
在主机或机架1702处,存在SDN覆盖配置以基于链路功率状态来重新平衡流。再次参考图18,示出了在机架1702处建立的用于重新平衡网络流的环境1817。如所示的,环境1817包括网络代理1818和vSwitch分类器1820,它们能够基于针对负载平衡或QoS的策略来处理分组流。来自SDN的策略被消息传递到网络代理1818。vSwitch分类器1820被配置为查找针对负载平衡和/或QoS的策略。
现在参考图20,在使用中,计算设备1602可以执行用于管理交换链路的方法2000。应当认识到的是,在一些实施例中,方法2000的操作可以由如图18中示出的结构控制器1800的环境1802的一个或多个组件来执行。方法1800开始于框2002中,其中结构控制器1800创建网络拓扑。例如,可以使用LLDP和OVS创建网络拓扑。在框2004中,结构控制器1800基于每个链路从遥测数据接收业务度量。方法2000前进到框2006,其中计算超额预订比率。例如,取决于环境,可以使用以下公式来确定超额预订比率(OR):OR=(被分配给给定交换机端口的内部交换结构带宽的量)-(该端口处的设备连接速度)。可替代地,可以将OR确定为下行链路带宽/上行链路带宽。接下来,确定针对每个链路的链路功率状态。出于示例的目的,关于功率状态确定,使用了功率状态L0、L1、L2和L3。
在该实施例中,方法2000前进到框2008,其中对超额预订比率是否指示需要附加带宽(例如,OR正在下降)进行确定。如果超额预订比率指示需要附加带宽,则方法2000前进到框2010,其中结构控制器1800检查链路是否已经处于功率状态L3(即,准备使用)。如果链路已经处于功率状态L3,则结构控制器1800继续使用功率状态L3(框2012),并且在框2014中对这是否是针对交换层的最后一个链路进行确定。如果这不是最后一个链路,则方法2000前进到框2004。如果该链路尚未处于功率状态L3,则该方法前进到框2016,并且该链路被设置为功率状态L2,其之后是功率状态L3并且准备使用。
返回框2008,如果超额预订比率不指示需要附加带宽(例如,OR未下降),则方法2000前进到框2018以确定链路是否已经被设置为功率状态L1达大于预定时间段。如果是,则这指示链路已经空闲,并且可以减少功率使用;方法2000前进到框2020以将功率状态设置为L0。如果功率状态已经被设置为L1达小于预定时间段,则方法2000前进到框2022,其继续将链路设置为L1功率状态。针对每个链路完成这些步骤,并且在最后一个链路之后(框2014),方法2000前进到框2024,其中基于链路功率状态来更新网络配置。
现在参考图21,在使用中,计算设备1602可以执行用于SDN负载平衡的方法2100。应当认识到的是,在一些实施例中,方法2100的操作可以由如图17和图18中示出的结构控制器1800和/或机架1702的环境1802和/或1817的一个或多个组件执行。在一些实施例中,基于SDN的层故障转移和重新平衡支持基于OVSBD调用来处理在机架1702上的NIC处的流。例如,该方法可以用于利用新的流路径来更新主机或机架1702。方法2100开始于框2102中,其中覆盖配置(例如,基于链路功率状态)被读取或传递到SDN上。当完成分组查找时,基于策略分组将分组转发到主机,如框2104中示出的。方法2100前进到框2106,其中来自SDN的策略被消息传递到主机处的网络代理。在框2108中,分组流被转发到主机的vSwitch层。在框2110中,主机执行针对负载平衡的策略查找。然后,方法2100前进到框2112,其中基于策略进行驱动器调用。
应当认识到的是,在一些实施例中,方法2000和/或方法2100可以被体现为存储在计算机可读介质上的各种指令,这些指令可以由处理器1620、NIC 1632和/或计算设备1602的其他组件执行,以使得计算设备1602执行相应的方法2000和/或方法2100。计算机可读介质可以被体现为能够由计算设备1602读取的任何类型的介质,包括但不限于存储器1626、数据存储设备1628、固件设备、微码、计算设备1602的其他存储器或数据存储设备、由计算设备1602的外围设备1634可读的便携式介质和/或其他介质。
示例
下面提供了本文公开的技术的说明性示例。这些技术的实施例可以包括下面描述的示例中的任何一个或多个以及这些示例的任何组合。
示例1包括用于管理可变的超额预订比率的计算设备,该计算设备包括:交换管理器,其用于监视表示一个或多个交换层的一个或多个网络业务度量的遥测数据;功率管理器,其用于根据基于遥测数据计算出的期望的超额预订比率来确定与一个或多个交换层相关联的多个链路的相应的功率状态;并且其中,交换管理器用于根据功率管理器来设置多个链路的相应的功率状态。
示例2包括示例1的主题,并且其中:其中,功率管理器用于基于遥测数据,响应于减少的带宽需求来确定针对多个链路的减少的功率状态,并且其中,交换管理器用于响应于减少的带宽需求来将多个链路的至少一部分设置为减少的功率状态。
示例3包括示例1和示例2中任一项的主题,并且其中:功率管理器用于基于遥测数据,响应于增加的带宽需求来针对多个链路的至少一部分将减少的功率状态改变为增加的功率状态,并且其中,交换管理器用于响应于增加的带宽需求来将多个链路的至少一部分设置为增加的功率状态。
示例4包括示例1-3中任一项的主题,并且其中,功率管理器用于基于遥测数据,响应于减少的带宽需求来确定减少的功率状态。
示例5包括示例1-4中任一项的主题,并且其中,功率管理器用于根据基于遥测数据的期望的超额预订比率来将相应的功率状态确定为以下各项中的一个:(i)第一功率状态;(ii)第二功率状态;或者(iii)第三功率状态。
示例6包括示例1-5中任一项的主题,并且其中,第一功率状态表示睡眠状态。
示例7包括示例1-6中任一项的主题,并且其中,第二功率状态表示具有比第一功率状态的睡眠状态更低的延迟退出的睡眠状态。
示例8包括示例1-7中任一项的主题,并且其中,第三功率状态表示准备使用状态。
示例9包括示例1-8中任一项的主题,并且其中,确定多个链路的相应的功率状态包括选择相应的功率状态以满足超额预订比率。
示例10包括示例1-9中任一项的主题,并且其中,功率管理器基于被分配给一个或多个交换层的多个端口的带宽以及网络业务度量来计算超额预订比率。
示例11包括示例1-10中任一项的主题,并且其中,功率管理器包括机器学习模块,该机器学习模块用于对多个链路的相应的功率状态进行分类。
示例12包括示例1-11中任一项的主题,并且其中,对多个链路的相应的功率状态进行分类包括基于确定相应的功率状态的历史反馈数据来预测相应的功率状态。
示例13包括示例1-12中任一项的主题,并且还包括网络拓扑管理器,该网络拓扑管理器用于根据一个或多个交换层的多个链路的相应的功率状态来动态地更新网络路径。
示例14包括示例1-13中任一项的主题,并且其中,网络拓扑管理器用于根据多个链路的相应的功率状态来动态地确定一个或多个可替代的网络路径。
示例15包括示例1-14中任一项的主题,并且其中,确定多个链路的相应的功率状态包括根据客户策略来确定多个链路的相应的功率状态。
示例16包括一种或多种非暂时性计算机可读存储介质,包括存储在其上的多个指令,这些指令响应于被执行而使得计算设备用于进行以下操作:监视表示一个或多个交换层的一个或多个网络业务度量的遥测数据;根据基于遥测数据计算出的期望的超额预订比率来确定与一个或多个交换层相关联的多个链路的相应的功率状态;以及设置多个链路的相应的功率状态。
示例17包括示例16的主题,并且还包括用于基于遥测数据,响应于减少的带宽需求来确定针对多个链路的减少的功率状态,并且响应于减少的带宽需求来将多个链路的至少一部分设置为减少的功率状态。
示例18包括示例16和示例17中任一项的主题,并且还包括用于基于遥测数据,响应于增加的带宽需求来针对多个链路的至少一部分将减少的功率状态改变为增加的功率状态,并且响应于减少的带宽需求来将多个链路的至少一部分设置为减少的功率状态。
示例19包括示例16-18中任一项的主题,并且还包括用于基于遥测数据,响应于减少的带宽需求来确定减少的功率状态。
示例20包括示例16-19中任一项的主题,并且其中,确定相应的功率状态包括:根据基于遥测数据的期望的超额预订比率来选择以下各项中的一个:(i)第一功率状态;(ii)第二功率状态;或者(iii)第三功率状态。
示例21包括示例16-20中任一项的主题,并且其中,第一功率状态表示睡眠状态。
示例22包括示例16-21中任一项的主题,并且其中,第二功率状态表示具有比第一功率状态的睡眠状态更低的延迟退出的睡眠状态。
示例23包括示例16-22中任一项的主题,并且其中,第三功率状态表示准备使用状态。
示例24包括示例16-23中任一项的主题,并且其中,确定多个链路的相应的功率状态包括选择相应的功率状态以满足超额预订比率。
示例25包括示例16-24中任一项的主题,并且还包括用于基于被分配给一个或多个交换层的多个端口的带宽以及网络业务度量来计算超额预订比率。
示例26包括示例16-25中任一项的主题,并且还包括用于基于机器学习算法来对多个链路的相应的功率状态进行分类。
示例27包括示例16-26中任一项的主题,并且其中,基于确定相应的功率状态的历史反馈数据来预测相应的功率状态。
示例28包括示例16-27中任一项的主题,并且还包括用于根据一个或多个交换层的多个链路的相应的功率状态来动态地更新网络路径。
示例29包括示例16-28中任一项的主题,并且其中,动态地更新网络路径包括根据多个链路的相应的功率状态来动态地确定一个或多个可替代的网络路径。
示例30包括示例16-29中任一项的主题,并且其中,确定多个链路的相应的功率状态包括根据客户策略来确定多个链路的相应的功率状态。
示例31包括管理可变的超额预订比率的方法,该方法包括:监视表示一个或多个交换层的一个或多个网络业务度量的遥测数据;根据基于遥测数据计算出的期望的超额预订比率来确定与一个或多个交换层相关联的多个链路的相应的功率状态;以及设置多个链路的相应的功率状态。
示例32包括示例31的主题,并且还包括基于遥测数据,响应于减少的带宽需求来确定针对多个链路的减少的功率状态,并且响应于减少的带宽需求来将多个链路的至少一部分设置为减少的功率状态。
示例33包括示例31和示例32中任一项的主题,并且还包括基于遥测数据,响应于增加的带宽需求来针对多个链路的至少一部分将减少的功率状态改变为增加的功率状态,并且响应于减少的带宽需求来将多个链路的至少一部分设置为减少的功率状态。
示例34包括示例31-33中任一项的主题,并且还包括基于遥测数据,响应于减少的带宽需求来确定减少的功率状态。
示例35包括示例31-34中任一项的主题,并且其中,确定相应的功率状态包括:根据基于遥测数据的期望的超额预订比率来选择以下各项中的一个:(i)第一功率状态;(ii)第二功率状态;或者(iii)第三功率状态。
示例36包括示例31-35中任一项的主题,并且其中,第一功率状态表示睡眠状态。
示例37包括示例31-36中任一项的主题,并且其中,第二功率状态表示具有比第一功率状态的睡眠状态更低的延迟退出的睡眠状态。
示例38包括示例31-37中任一项的主题,并且其中,第三功率状态表示准备使用状态。
示例39包括示例31-38中任一项的主题,并且其中,确定多个链路的相应的功率状态包括选择相应的功率状态以满足超额预订比率。
示例40包括示例31-39中任一项的主题,并且还包括基于被分配给一个或多个交换层的多个端口的带宽以及网络业务度量来计算超额预订比率。
示例41包括示例31-40中任一项的主题,并且还包括基于机器学习算法来对多个链路的相应的功率状态进行分类。
示例42包括示例31-41中任一项的主题,并且还包括基于确定相应的功率状态的历史反馈数据来预测相应的功率状态。
示例43包括示例31-42中任一项的主题,并且还包括根据一个或多个交换层的多个链路的相应的功率状态来动态地更新网络路径。
示例44包括示例31-43中任一项的主题,并且其中,动态地更新网络路径包括根据多个链路的相应的功率状态来动态地确定一个或多个可替代的网络路径。
示例45包括示例31-35中任一项的主题,并且其中,确定多个链路的相应的功率状态包括根据客户策略来确定多个链路的相应的功率状态。

Claims (25)

1.一种用于针对可变的超额预订比率的交换链路和层管理的计算设备,所述计算设备包括:
交换管理器,其用于监视表示一个或多个交换层的一个或多个网络业务度量的遥测数据;
功率管理器,其用于根据基于所述遥测数据计算出的期望的超额预订比率来确定与所述一个或多个交换层相关联的多个链路的相应的功率状态;以及
其中,所述交换管理器用于根据所述功率管理器来设置所述多个链路的所述相应的功率状态。
2.根据权利要求1所述的计算设备,其中,所述功率管理器用于基于所述遥测数据,响应于减少的带宽需求来确定针对多个链路的减少的功率状态,并且其中,所述交换管理器用于响应于减少的带宽需求来将所述多个链路的至少一部分设置为所述减少的功率状态。
3.根据权利要求2所述的计算设备,其中,所述功率管理器用于基于所述遥测数据,响应于增加的带宽需求来针对所述多个链路的至少一部分将所述减少的功率状态调整为增加的功率状态,并且其中,所述交换管理器用于响应于增加的带宽需求来将所述多个链路的至少一部分设置为所述增加的功率状态。
4.根据权利要求3所述的计算设备,其中,所述功率管理器用于响应于以下各项中的一个或多个来确定所述多个链路中的哪些链路要调整为所述减少的功率状态:(i)基于所述遥测数据的减少的带宽需求;或者(ii)服务质量(QoS)。
5.根据权利要求1所述的计算设备,其中,所述功率管理器用于根据基于遥测数据的所述期望的超额预订比率来将所述相应的功率状态确定为以下各项中的一个:(i)第一功率状态;(ii)第二功率状态;或者(iii)第三功率状态。
6.根据权利要求5所述的计算设备,其中,所述第一功率状态表示睡眠状态。
7.根据权利要求6所述的计算设备,其中,所述第二功率状态表示具有比所述第一功率状态的所述睡眠状态更低的延迟退出的睡眠状态。
8.根据权利要求7所述的计算设备,其中,所述第三功率状态表示准备使用状态。
9.根据权利要求1所述的计算设备,其中,所述功率管理器基于被分配给一个或多个远程计算设备的带宽以及所述遥测数据的所述网络业务度量来计算所述超额预订比率,所述一个或多个远程计算设备与所述一个或多个交换层的多个端口通信。
10.根据权利要求1所述的计算设备,其中,确定所述多个链路的所述相应的功率状态包括基于历史数据来预测所述相应的功率状态。
11.根据权利要求1所述的计算设备,还包括网络拓扑管理器,所述网络拓扑管理器用于根据所述一个或多个交换层的所述多个链路的所述相应的功率状态来动态地更新网络路径,其中,所述网络拓扑管理器用于根据所述多个链路的所述相应的功率状态来动态地确定一个或多个可替代的网络路径。
12.根据权利要求1所述的计算设备,其中,确定多个链路的所述相应的功率状态包括根据客户策略来确定多个链路的所述相应的功率状态。
13.一种或多种非暂时性计算机可读存储介质,包括存储在其上的多个指令,所述多个指令响应于被执行而使得计算设备进行以下操作:
监视表示一个或多个交换层的一个或多个网络业务度量的遥测数据;
根据基于所述遥测数据计算出的期望的超额预订比率来确定与所述一个或多个交换层相关联的多个链路的相应的功率状态;以及
设置所述多个链路的所述相应的功率状态。
14.根据权利要求13所述的一种或多种非暂时性计算机可读存储介质,还包括存储在其上的多个指令,所述多个指令响应于被执行而使得所述计算设备用于基于所述遥测数据,响应于减少的带宽需求来确定减少的功率状态。
15.根据权利要求13所述的一种或多种非暂时性计算机可读存储介质,其中,确定所述相应的功率状态包括:根据基于遥测数据的所述期望的超额预订比率来选择以下各项中的一个:(i)第一功率状态;(ii)第二功率状态;或者(iii)第三功率状态。
16.根据权利要求15所述的一种或多种非暂时性计算机可读存储介质,其中,所述第一功率状态表示睡眠状态。
17.根据权利要求16所述的一种或多种非暂时性计算机可读存储介质,其中,所述第二功率状态表示具有比所述第一功率状态的所述睡眠状态更低的延迟退出的睡眠状态。
18.根据权利要求17所述的一种或多种非暂时性计算机可读存储介质,其中,所述第三功率状态表示准备使用状态。
19.根据权利要求13所述的一种或多种非暂时性计算机可读存储介质,其中,确定所述多个链路的所述相应的功率状态包括选择所述相应的功率状态以满足所述超额预订比率。
20.根据权利要求13所述的一种或多种非暂时性计算机可读存储介质,还包括存储在其上的多个指令,所述多个指令响应于被执行而使得所述计算设备用于基于机器学习算法来对所述多个链路的所述相应的功率状态进行分类。
21.根据权利要求13所述的一种或多种非暂时性计算机可读存储介质,还包括存储在其上的多个指令,所述多个指令响应于被执行而使得所述计算设备用于根据所述一个或多个交换层的所述多个链路的所述相应的功率状态来动态地更新网络路径,其中,动态地更新网络路径包括根据所述多个链路的所述相应的功率状态来动态地确定一个或多个可替代的网络路径。
22.根据权利要求13所述的一种或多种非暂时性计算机可读存储介质,其中,确定多个链路的所述相应的功率状态包括根据客户策略来确定多个链路的所述相应的功率状态。
23.一种用于针对可变的超额预订比率的交换链路和层管理的方法,所述方法包括:
由计算设备监视表示一个或多个交换层的一个或多个网络业务度量的遥测数据;
由所述计算设备根据基于所述遥测数据计算出的期望的超额预订比率来确定与所述一个或多个交换层相关联的多个链路的相应的功率状态;以及
由所述计算设备设置所述多个链路的所述相应的功率状态。
24.根据权利要求23所述的方法,还包括由所述计算设备基于所述遥测数据,响应于减少的带宽需求来确定针对多个链路的减少的功率状态,并且响应于减少的带宽需求来将所述多个链路的至少一部分设置为所述减少的功率状态。
25.根据权利要求24所述的方法,还包括由所述计算设备基于所述遥测数据,响应于增加的带宽需求来针对所述多个链路的至少一部分将所述减少的功率状态改变为增加的功率状态,并且响应于减少的带宽需求来将所述多个链路的至少一部分设置为所述减少的功率状态。
CN202010592586.0A 2019-09-26 2020-06-24 用于针对可变的超额预订比率的交换链路和层管理的技术 Pending CN112565110A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/583,516 2019-09-26
US16/583,516 US11108574B2 (en) 2019-09-26 2019-09-26 Technologies for switch link and ply management for variable oversubscription ratios

Publications (1)

Publication Number Publication Date
CN112565110A true CN112565110A (zh) 2021-03-26

Family

ID=69138552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010592586.0A Pending CN112565110A (zh) 2019-09-26 2020-06-24 用于针对可变的超额预订比率的交换链路和层管理的技术

Country Status (3)

Country Link
US (1) US11108574B2 (zh)
CN (1) CN112565110A (zh)
DE (1) DE102020119631A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240040734A1 (en) * 2022-07-29 2024-02-01 Dell Products, L.P. High-Density Chassis Supporting Replaceable Hardware Accelerators

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5396635A (en) * 1990-06-01 1995-03-07 Vadem Corporation Power conservation apparatus having multiple power reduction levels dependent upon the activity of the computer system
US7032119B2 (en) * 2000-09-27 2006-04-18 Amphus, Inc. Dynamic power and workload management for multi-server system
US8966304B1 (en) * 2011-04-04 2015-02-24 Google Inc. Periodic system wakeup to update state
CN104253471B (zh) * 2013-06-28 2017-02-22 比亚迪股份有限公司 电动汽车的充电系统及电动汽车的充电控制方法
US10034407B2 (en) * 2016-07-22 2018-07-24 Intel Corporation Storage sled for a data center

Also Published As

Publication number Publication date
DE102020119631A1 (de) 2021-04-01
US20200021449A1 (en) 2020-01-16
US11108574B2 (en) 2021-08-31

Similar Documents

Publication Publication Date Title
US11888967B2 (en) Technologies for dynamic accelerator selection
US11416309B2 (en) Technologies for dynamic accelerator selection
US11467873B2 (en) Technologies for RDMA queue pair QOS management
US11451455B2 (en) Technologies for latency based service level agreement management in remote direct memory access networks
US11228539B2 (en) Technologies for managing disaggregated accelerator networks based on remote direct memory access
US11115497B2 (en) Technologies for providing advanced resource management in a disaggregated environment
US11038815B2 (en) Technologies for managing burst bandwidth requirements
EP3731091A1 (en) Technologies for providing an accelerator device discovery service
US12073255B2 (en) Technologies for providing latency-aware consensus management in a disaggregated architecture
US20200021492A1 (en) Technologies for storage cluster rebuild service traffic management
US10970246B2 (en) Technologies for remote networked accelerators
US20190138464A1 (en) Technologies for providing i/o channel abstraction for accelerator device kernels
EP3757784A1 (en) Technologies for managing accelerator resources
US11531635B2 (en) Technologies for establishing communication channel between accelerator device kernels
US10877817B1 (en) Technologies for providing inter-kernel application programming interfaces for an accelerated architecture
US11108574B2 (en) Technologies for switch link and ply management for variable oversubscription ratios
US20190324802A1 (en) Technologies for providing efficient message polling
CN117234297A (zh) 用于提供针对超融合基础结构的高效池化的技术

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination