CN115136565A - 用于在分解环境中提供先进资源管理的技术 - Google Patents
用于在分解环境中提供先进资源管理的技术 Download PDFInfo
- Publication number
- CN115136565A CN115136565A CN202080097549.0A CN202080097549A CN115136565A CN 115136565 A CN115136565 A CN 115136565A CN 202080097549 A CN202080097549 A CN 202080097549A CN 115136565 A CN115136565 A CN 115136565A
- Authority
- CN
- China
- Prior art keywords
- carriage
- resources
- workload
- computing device
- circuitry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/60—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources
- H04L67/61—Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources taking into account QoS or priority requirements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/70—Admission control; Resource allocation
- H04L47/82—Miscellaneous aspects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L47/00—Traffic control in data switching networks
- H04L47/70—Admission control; Resource allocation
- H04L47/83—Admission control; Resource allocation based on usage prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
- H04L67/1004—Server selection for load balancing
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Cooling Or The Like Of Electrical Apparatus (AREA)
Abstract
用于在分解环境中提供高级资源管理的技术包括计算设备。该计算设备包括用于以下各项的电路:获得要由分解系统中的资源集执行的工作负载;查询所述分解系统中的滑架,以标识完成要使用内核加速的工作负载的一部分的执行的估计时间;以及响应于对完成工作负载的所述部分的执行的估计时间满足与工作负载相关联的目标服务质量的确定,将工作负载的所述部分分配给滑架用于加速。
Description
优先权声明
本申请在下要求于2020年3月25日提交的题为“TECHNOLOGIES FORPROVIDING ADVANCED RESOURCE MANAGEMENT IN A DISAGGREGATED ENVIRONMENT”的美国申请No. 16/829,814的优先权,该申请以其整体并于此。
背景技术
在代表客户(例如,租户)执行操作的一些数据中心中,资源以分解的架构组织,其中,资源集(例如,计算设备、加速器设备、数据存储设备等)在物理上彼此分离(例如,计算设备可以在与加速器设备分离的电路板中)。在操作中,中央计算设备可以发现系统中的可用资源,并将它们分配(例如,“组成”)到一个组中,以协作地执行工作负载(例如,操作集,诸如代表租户执行的应用)。在一些系统中,向中央计算设备赋予从每个资源接收数据、指示数据中心中每个资源的当前操作条件的任务。作为响应,中央计算设备持续调整资源的操作,以确保在工作负载的执行中满足服务质量(QoS)目标集(例如,等待时间、吞吐量等)。被发送到中央计算设备的数据量可能给中央计算设备以及在资源和中央计算设备之间延伸的网络路径造成显著的负担。然而,减少传送到中央计算设备的数据量同时减轻中央计算设备上的一部分负载可能引起一个或多个资源上的条件(例如,热条件)落在期望的范围之外,并且负面地影响由分解的资源提供的QoS。
附图说明
本文所述的概念在附图中以示例方式而非限制方式进行说明。为了说明的简单和清楚,各图中图示的元件不一定按比例绘制。在认为适当的地方,在各图之中重复了参考标签来指示对应或类似的元件。
图1是用于执行具有分解资源的工作负载的数据中心的至少一个实施例的简化图解;
图2是可以包括在图1的数据中心中的舱(pod)的至少一个实施例的简化图解;
图3是可以包括在图2的舱中的机架的至少一个实施例的透视图;
图4是图3的机架的侧视图;
图5是图3的机架的透视图,其中安装有滑架(sled);
图6是图5的滑架顶侧的至少一个实施例的简化框图;
图7是图6的滑架底侧的至少一个实施例的简化框图;
图8是可用于图1的数据中心中的计算滑架的至少一个实施例的简化框图;
图9是图8的计算滑架的至少一个实施例的顶部透视图;
图10是可用于图1的数据中心中的加速器滑架的至少一个实施例的简化框图;
图11是图10的加速器滑架的至少一个实施例的顶部透视图;
图12是可用于图1的数据中心中的存储滑架的至少一个实施例的简化框图;
图13是图12的存储滑架的至少一个实施例的顶部透视图;
图14是可用于图1的数据中心中的存储器滑架的至少一个实施例的简化框图;
图15是可以在图1的数据中心内建立的系统的简化框图,该系统利用由分解资源组成的受管理节点执行工作负载;
图16是用于在图1的数据中心中提供高级资源管理的系统的至少一个实施例的简化框图;
图17是可以使用图16系统中的一个或多个滑架实现的热管理系统的至少一个实施例的简化框图;
图18是可以在图16的系统中实现的数据存储资源选择系统的至少一个实施例的简化框图;
图19-22是可以由图16系统的计算设备执行的用于提供高级资源管理的方法的至少一个实施例的简化框图。
具体实施方式
虽然本公开的概念容许各种修改和替代形式,但其特定实施例已在附图中以示例方式示出,并将在本文中详细描述。然而,应当理解的是,没有意图将本公开的概念限制于所公开的特定形式,而是相反,意图是覆盖与本公开和所附权利要求一致的所有修改、等同物和替代物。
说明书中提及的“一个实施例”、“实施例”、“说明性实施例”等指示所描述的实施例可以包括特定的特征、结构或特性,但是每个实施例可以包括或可以不一定包括该特定的特征、结构或特性。此外,这样的短语不一定指代同一实施例。此外,当结合实施例描述特定的特征、结构或特性时,认为结合其他实施例实现这样的特征、结构或特性在本领域技术人员的知识范围内,无论是否明确描述。附加地,应当领会,以“至少一个A、B和C”的形式包括在列表中的项目可以意指(A);(B);(C);(A和B);(A和C);(B和C);或(A、B和C)。类似地,以“A、B或C中的至少一个”的形式列出的项目可以意指(A);(B);(C);(A和B);(A和C);(B和C);或(A、B和C)。
在一些情况下,可以以硬件、固件、软件或其任何组合实现所公开的实施例。所公开的实施例还可以被实现为由暂时性或非暂时性机器可读(例如,计算机可读)存储介质携带或存储在其上的指令,所述指令可以由一个或多个处理器读取和执行。机器可读存储介质可以被体现为用于以机器可读的形式存储或传输信息的任何存储设备、机制或其他物理结构(例如,易失性或非易失性存储器、介质盘或其他介质设备)。
在附图中,一些结构或方法特征可能以特定的布置和/或次序示出。然而,应当领会,这样特定的布置和/或次序可能不是必需的。而是,在一些实施例中,这样的特征可以以不同于说明性附图中所示的方式和/或次序布置。附加地,在特定附图中包括结构或方法特征并不意味着暗示这样的特征在所有实施例中都是必需的,并且在一些实施例中,可以不被包括或者可以与其他特征组合。
现在参考图1,其中分解资源可以协作地执行一个或多个工作负载(例如,代表租户的应用)的数据中心100包括多个舱110、120、130、140,每个舱包括一排或多排机架。当然,尽管数据中心100被示出为具有多个舱,但是在一些实施例中,数据中心100可以被体现为单个舱。如本文更详细描述的,每个机架容纳多个滑架,每个滑架可以主要被配备有特定类型的资源(例如,存储器设备、数据存储设备、加速器设备、通用处理器),即,可以逻辑耦合以形成组成节点的资源,该组成节点可以充当例如服务器。在说明性实施例中,每个舱110、120、130、140中的滑架连接到多个舱交换机(例如,路由去往和来自舱内滑架的数据通信的交换机)。舱交换机进而与主干交换机150连接,该主干交换机150在数据中心100中的舱(例如,舱 110、120、130、140)之间切换通信。在一些实施例中,滑架可以使用英特尔全路径技术与构造(fabric)连接。在其他实施例中,滑架可以与诸如InfiniBand或以太网的其他构造连接。如本文更详细描述的,数据中心100中的滑架内的资源可以被分配给一个组(本文称为“受管理节点”),该组包含要在工作负载的执行中被共同利用的来自一个或多个滑架的资源。工作负载可以就像属于受管理节点的资源位于同一滑架上一样执行。受管理节点中的资源可以属于归属于不同机架并且甚至归属于不同舱 110、120、130、140的滑架。照此,单个滑架的一些资源可以被分配给一个受管理节点,而同一滑架的其他资源被分配给不同的受管理节点(例如,一个处理器被分配给一个受管理节点,并且同一滑架的另一个处理器被分配给不同的受管理节点)。
诸如数据中心100之类的包括分解资源的数据中心可以用于各种各样的情境(诸如企业、政府、云服务提供商和通信服务提供商(例如,电信公司))中以及用于各种各样规模的来自云服务提供商的超大型数据中心中,所述超大型数据中心占据超过100000平方英尺用于供在基站中使用的单机架或多机架安装。
将资源分解为主导由单个类型资源组成的滑架(例如,主要包括计算资源的计算滑架、主要包含存储器资源的存储器滑架)以及选择性分配和解除分配分解的资源以形成分配用于执行工作负载的受管理节点,相对于由超融合服务器组成的典型数据中心,改进了数据中心100的操作和资源使用,所述超融合服务器在单个机箱中包含计算、存储器、存储装置和可能的附加资源。例如,因为滑架主导地包含特定类型的资源,所以给定类型的资源可以独立于其他资源进行升级。附加地,因为不同的资源类型(处理器、存储装置、加速器等)通常具有不同的刷新率,因此可以实现更大的资源利用和减小的总拥有成本。例如,数据中心运营商可以通过仅换掉计算滑架来升级遍及其设施的处理器。在这样的情况下,加速器和存储资源可能不被同时升级,而是可以被允许继续操作,直到那些资源被调度用于它们自己的刷新。资源利用也可能增加。例如,如果受管理节点是基于将在它们上运行的工作负载的要求组成的,则节点内的资源更有可能被完全利用。这样的利用可以允许在具有给定资源集的数据中心中运行更多的受管理节点,或者允许使用更少的资源来构建预期运行给定工作负载集的数据中心。
现在参考图2,在说明性实施例中,舱110包括机架240的排200、210、220、230的集合。每个机架240可以容纳多个滑架(例如,十六个滑架)并且向所容纳的滑架提供电力和数据连接,如本文更详细描述的。在说明性实施例中,每排200、210、220、230中的机架连接到多个舱交换机250、260。舱交换机250包括端口集252和另一端口集254,舱 110的机架的滑架连接到端口集252,端口集254将舱 110连接到主干交换机150以提供到数据中心100中的其他舱的连接性。类似地,舱交换机260包括端口集262和端口集264,舱 110的机架的滑架连接到端口集262,端口集264将舱 110连接到主干交换机150。照此,交换机对250、260的使用为舱 110提供了一定量的冗余。例如,如果交换机250、260中的任何一个发生故障,则舱110中的滑架仍然可以通过另一交换机250、260维持与数据中心100的其余部分(例如,其他舱的滑架)的数据通信。此外,在说明性实施例中,交换机150、250、260可以被体现为双模式光学交换机,其能够经由光学构造的光学信令介质路由携带互联网协议(IP)分组的以太网协议通信和根据第二高性能链路层协议(例如,PCI Express)的通信二者。
应当领会,其他舱120、130、140(以及数据中心100的任何附加舱)中的每一个都可以与图2中所示和关于图2所述的舱110相似地结构化并且具有与其相似的部件(例如,每个舱可以具有容纳如上所述的多个滑架的机架排)。附加地,虽然示出了两个舱交换机250、260,但是应当理解,在其他实施例中,每个舱 110、120、130、140可以连接到不同数量的舱交换机,从而提供甚至更多的故障转移能力。当然,在其他实施例中,可以不同于图1-2中所示的机架排配置来布置舱。例如,舱可以被体现为多个机架集,其中每个机架集径向布置,即机架与中心交换机等距。
现在参考图3-5,数据中心100的每个说明性机架240包括垂直布置的两个细长支撑柱302、304。例如,细长支撑柱302、304当被展开时可以从数据中心100的地面向上延伸。机架240还包括细长支撑臂312的一个或多个水平对310(在图3中经由虚线椭圆标识),其如下面讨论的那样被配置为支撑数据中心100的滑架。该对细长支撑臂312中的一个细长支撑臂312从细长支撑柱302向外延伸,并且另一个细长支撑臂312从细长支撑柱304向外延伸。
在说明性实施例中,数据中心100的每个滑架都体现为无机箱滑架。也就是说,每个滑架具有无机箱电路板基板,在该基板上物理资源(例如,处理器、存储器、加速器、存储装置等)如下面更详细讨论的那样安装。照此,机架240被配置为容纳无机箱滑架。例如,每对310细长支撑臂312限定机架240的滑架槽320,该滑架槽320被配置为容纳对应的无机箱滑架。为了这样做,每个说明性的细长支撑臂312包括电路板引导件330,该电路板引导件330被配置为容纳滑架的无机箱电路板基板。每个电路板引导件330被固定或以其他方式安装到对应的细长支撑臂312的顶侧332。例如,在说明性实施例中,每个电路板引导件330相对于对应的细长支撑柱302、304安装在对应的细长支撑臂312的远端。为了各图的清楚,可能没有在每个图中提到每个电路板引导件330。
每个电路板引导件330包括内壁,该内壁限定电路板槽380,该电路板槽380被配置为当滑架400被容纳在机架240的对应滑架槽320中时,容纳滑架400的无机箱电路板基板。为了这样做,如图4中所示,用户(或机器人)将说明性无机箱滑架400的无机箱电路板基板与滑架槽320对齐。用户或机器人然后可以将无机箱电路板基板向前滑动到滑架槽320中,使得无机箱电路板基板的每个侧边414被容纳在该对310细长支撑臂312的电路板引导件330的对应电路板槽380中,该对310细长支撑臂312限定对应的滑架槽320,如图4中所示。通过具有包括分解资源的机器人可访问和机器人可操控的滑架,每种类型的资源可以彼此独立地升级,并且以它们自己的优化刷新率升级。此外,滑架被配置为与每个机架240中的电力和数据通信线缆盲配,从而增强了它们被快速移除、升级、重新安装和/或替换的能力。照此,在一些实施例中,数据中心100可以操作(例如,执行工作负载、进行维护和/或升级等)而无需数据中心地面上的人类参与。在其他实施例中,人类可以促进数据中心100中的一个或多个维护或升级操作。
应当领会,每个电路板引导件330都是双侧的。也就是说,每个电路板引导件330包括内壁,该内壁在电路板引导件330的每一侧上限定电路板槽380。这样,每个电路板引导件330可以在任一侧支撑无机箱电路板基板。照此,单个附加的细长支撑柱可以被添加到机架240,以将机架240变成双机架解决方案,其可以保持如图3中所示的滑架槽320的两倍。说明性机架240包括七对310细长支撑臂312,其限定了对应的七个滑架槽320,每个滑架槽如上面讨论的那样被配置为容纳和支撑对应的滑架400。当然,在其他实施例中,机架240可以包括附加或更少对310细长支撑臂312(即,附加或更少的滑架槽320)。应当领会,因为滑架400是无机箱的,所以滑架400可以具有不同于典型服务器的总体高度。照此,在一些实施例中,每个滑架槽320的高度可以比典型服务器的高度短(例如,比单个列单元“1U”短)。也就是说,每对310细长支撑臂312之间的垂直距离可以小于标准机架单元“1U”。附加地,由于滑架槽320的高度相对减小,因此在一些实施例中,机架240的总体高度可能比传统机架外壳的高度短。例如,在一些实施例中,细长支撑柱302、304中的每个可以具有六英尺或更短的长度。再次,在其他实施例中,机架240可以具有不同的尺寸。例如,在一些实施例中,每对310细长支撑臂312之间的垂直距离可以大于标准机架,直到“1U”。在这样的实施例中,滑架之间增加的垂直距离允许更大的散热器附接到物理资源,并且允许使用更大的风扇(例如,在下面描述的风扇阵列370中)来用于冷却每个滑架,这进而可以允许物理资源以增加的功率水平操作。此外,应当领会,机架240不包括任何壁、外壳等。而是,机架240是对本地环境开放的无外壳机架。当然,在一些情况下,在其中机架240形成数据中心100中的一排端部机架的那些情形下,端板可以附接到细长支撑柱302、304之一。
在一些实施例中,各种互连可以向上或向下路由穿过细长支撑柱302、304。为了促进这样的路由,每个细长支撑柱302、304包括内壁,该内壁限定了互连可以位于其中的内部腔室。路由穿过细长支撑柱302、304的互连可以被体现为任何类型的互连,包括但不限于向每个滑架槽320提供通信连接的数据或通信互连、向每个滑架槽320提供电力的电力互连和/或其他类型的互连。
在说明性实施例中,机架240包括支撑平台,其上安装有对应的光学数据连接器(未示出)。每个光学数据连接器与对应的滑架槽320相关联,并且被配置为当滑架400被容纳在对应的滑架槽320中时,与对应的滑架400的光学数据连接器配合。在一些实施例中,数据中心100中的部件(例如,滑架、机架和交换机)之间的光学连接由盲配光学连接构成。例如,每个线缆上的门可以防止灰尘污染线缆内部的光纤。在连接到盲配光学连接器机构的过程中,当线缆末端接近或进入连接器机构时,门被推开。随后,线缆内部的光纤可以进入连接器机构内的凝胶,并且一个线缆的光纤与连接器机构内部凝胶内的另一线缆的光纤接触。
说明性机架240还包括与机架240的交叉支撑臂耦合的风扇阵列370。风扇阵列370包括一排或多排冷却风扇372,它们在细长支撑柱302、304之间的水平线上对齐。在说明性实施例中,风扇阵列370包括用于机架240的每个滑架槽320的一排冷却风扇372。如上面讨论的,在说明性实施例中,每个滑架400不包括任何板载冷却系统,并且照此,风扇阵列370为容纳在机架240中的每个滑架400提供冷却。在说明性实施例中,每个机架240还包括与每个滑架槽320相关联的电源。每个电源被固定到该对310细长支撑臂312中的一个细长支撑臂312,该对310细长支撑臂312限定对应的滑架槽320。例如,机架240可以包括耦合或固定到从细长支撑柱302延伸的每个细长支撑臂312的电源。每个电源包括电源连接器,该电源连接器被配置为当滑架400被容纳在对应的滑架槽320中时与滑架400的电源连接器配合。在说明性实施例中,滑架400不包括任何板载电源,并且照此,当对应滑架400安装到机架240时,机架240中提供的电源向对应滑架400供应电力。每个电源被配置为满足其相关联滑架的电力要求,所述电力要求可能因滑架而异。附加地,机架240中提供的电源可以彼此独立地操作。也就是说,在单个机架内,向计算滑架提供电力的第一电源可以提供与向加速器滑架提供电力的第二电源所供应的功率水平不同的功率水平。电源可以在滑架级或机架级可控制,并且可以由相关联滑架上的部件本地控制或者诸如由另一个滑架或协调器远程控制。
现在参考图6,在说明性实施例中,滑架400被配置为安装在如上面讨论的数据中心100的对应机架240中。在一些实施例中,每个滑架400可以被优化或以其他方式被配置用于执行特定任务,诸如计算任务、加速任务、数据存储任务等。例如,滑架 400可以被体现为如下面关于图8-9所讨论的计算滑架 800、如下面关于图10-11所讨论的加速器滑架 1000、如下面关于图12-13所讨论的存储滑架 1200,或者被体现为被优化或以其他方式配置为执行其他专门任务的滑架,诸如下面关于图14所讨论的存储器滑架 1400。
如上面讨论的,说明性滑架400包括无机箱电路板基板602,其支撑安装在其上的各种物理资源(例如,电气部件)。应当领会,电路板基板602是“无机箱的”,因为滑架400不包括壳体或外壳。而是,无机箱电路板基板602对本地环境开放。无机箱电路板基板602可以由能够支撑安装在其上的各种电气部件的任何材料形成。例如,在说明性实施例中,无机箱电路板基板602由FR-4玻璃增强环氧层压材料形成。当然,在其他实施例中,可以使用其他材料来形成无机箱电路板基板602。
如下面更详细讨论的,无机箱电路板基板602包括改进安装在无机箱电路板基板602上的各种电气部件的热冷却特性的多个特征。如所讨论的,无机箱电路板基板602不包括壳体或外壳,这可以通过减少可能抑制空气流动的那些结构来改进滑架400的电气部件之上的气流。例如,因为无机箱电路板基板602不定位在个体的壳体或外壳中,所以不存在垂直布置的背板(例如,机箱的背板)附接到无机箱电路板基板602,这可能抑制空气流动穿过电气部件。附加地,无机箱电路板基板602具有被配置为减少穿过安装到无机箱电路板基板602的电气部件的气流路径的长度的几何形状。例如,说明性的无机箱电路板基板602具有大于无机箱电路板基板602的深度606的宽度604。例如,在一个特定实施例中,与具有大约17英寸的宽度以及大约39英寸的深度的典型服务器相比,无机箱电路板基板602具有大约21英寸的宽度以及大约9英寸的深度。照此,从无机箱电路板基板602的前边缘610朝向后边缘612延伸的气流路径608相对于典型的服务器具有较短的距离,这可以改进滑架400的热冷却特性。此外,尽管未在图6中图示,但是安装到无机箱电路板基板602的各种物理资源被安装在对应的位置中,使得没有两个实质上产生热量的电气部件彼此遮蔽,如下面更详细讨论的。也就是说,没有在操作期间产生可感知的热量(即,大于足以不利地影响另一个电气部件的冷却的标称热量)的两个电气部件沿着气流路径608的方向(即,沿着从无机箱电路板基板602的前边缘610朝向后边缘612延伸的方向)彼此并排成直线被安装到无机箱电路板基板602。
如上面讨论的,说明性滑架400包括安装到无机箱电路板基板602的顶侧650的一个或多个物理资源620。尽管在图6中示出了两个物理资源620,但是应当领会,在其他实施例中,滑架 400可以包括一个、两个或更多个物理资源620。物理资源620可以被体现为任何类型的处理器、控制器或其他计算电路,其能够取决于例如滑架 400的类型或预期功能性来执行各种任务,诸如计算功能和/或控制滑架 400的功能。例如,如下面更详细讨论的,物理资源620可以在其中滑架400被体现为计算滑架的实施例中被体现为高性能处理器,在其中滑架 400被体现为加速器滑架的实施例中被体现为加速器协处理器或电路,在其中滑架400被体现为存储滑架的实施例中被体现为存储控制器,或者在其中滑架 400被实现为存储器滑架的实施例中被体现为存储器设备集。
滑架400还包括安装到无机箱电路板基板602顶侧650的一个或多个附加物理资源630。在说明性实施例中,附加物理资源包括网络接口控制器(NIC),如下面更详细讨论的。当然,取决于滑架400的类型和功能性,在其他实施例中,物理资源630可以包括附加的或其他的电气部件、电路和/或设备。
物理资源620经由输入/输出(I/O)子系统622通信地耦合到物理资源630。I/O子系统622可以被体现为电路和/或部件,以促进利用物理资源620、物理资源630和/或滑架 400的其他部件的输入/输出操作。例如,I/O子系统622可以被体现为或以其他方式包括存储器控制器集线器、输入/输出控制集线器、集成传感器集线器、固件设备、通信链路(例如,点对点链路、总线链路、电线、线缆、波导、光导、印刷电路板迹线等)和/或用以促进输入/输出操作的其他部件和子系统。在说明性实施例中,I/O子系统622被体现为或以其他方式包括双倍数据速率4(DDR4)数据总线或DDR5数据总线,如下面进一步描述的。
在一些实施例中,滑架400还可以包括资源到资源互连624。资源到资源互连624可以被体现为能够促进资源到资源通信的任何类型的通信互连。在说明性实施例中,资源到资源互连624被体现为高速点对点互连(例如,比I/O子系统622更快)。例如,资源到资源互连624可以被体现为快速路径互连(QPI)、超路径互连(UPI)或专用于资源到资源通信的其他高速点对点互连。
滑架400还包括电源连接器640,该电源连接器640被配置为当滑架400安装在对应的机架240中时,与机架240的对应电源连接器配合。滑架400经由电源连接器640从机架240的电源接收电力,以向滑架400的各种电气部件供应电力。也就是说,滑架400不包括任何本地电源(即,板载电源)来向滑架400的电气部件提供电力。排除本地或板载电源促进减少无机箱电路板基板602的总体占据面积(footprint),这如上面讨论的那样可以增加安装在无机箱电路板基板602上的各种电气部件的热冷却特性。在一些实施例中,电压调节器放置在无机箱电路板基板602的底侧750(见图7)上、与处理器820(见图8)正相对,并且电力通过延伸穿过电路板基板602的通孔从电压调节器路由到处理器820。相对于典型的印刷电路板,这样的配置提供了增加的热预算、附加的电流和/或电压以及更好的电压控制,在典型的印刷电路板中,处理器电力部分地通过印刷电路迹线从电压调节器进行递送。
在一些实施例中,滑架400还可以包括安装特征642,该安装特征642被配置为与机器人的安装臂或其他结构配合,以促进机器人将滑架600放置在机架240中。安装特征642可以被体现为允许机器人抓住滑架400而不损坏无机箱电路板基板602或安装在其上的电气部件的任何类型的物理结构。例如,在一些实施例中,安装特征642可以被体现为附接到无机箱电路板基板602的非导电垫。在其他实施例中,安装特征可以被体现为附接到无机箱电路板基板602的支架、支柱或其他类似结构。安装特征642的具体数量、形状、大小和/或组成可以取决于被配置为管理滑架400的机器人的设计。
现在参考图7,除了安装在无机箱电路板基板602的顶侧650上的物理资源630外,滑架400还包括安装到无机箱电路板基板602的底侧750的一个或多个存储器设备720。也就是说,无机箱电路板基板602被体现为双侧电路板。物理资源620经由I/O子系统622通信地耦合到存储器设备720。例如,物理资源620和存储器设备720可以通过延伸穿过无机箱电路板基板602的一个或多个通孔通信地耦合。在一些实施例中,每个物理资源620可以通信地耦合到一个或多个存储器设备720的不同集合。替代地,在其他实施例中,每个物理资源620可以通信地耦合到每个存储器设备720。
存储器设备720可以被体现为能够在滑架400操作期间存储物理资源620的数据的任何类型的存储器设备,诸如任何类型的易失性存储器(例如,动态随机存取存储器(DRAM)等)或非易失性存储器。易失性存储器可以是需要电力来维持由介质存储的数据状态的存储器。易失性存储器的非限制性示例可以包括各种类型的随机存取存储器(RAM),诸如动态随机存取存储器(DRAM)或静态随机存取存储器(SRAM)。可以用在存储器模块中的一种特定类型的DRAM是同步动态随机存取存储器(SDRAM)。在特定实施例中,存储器部件的DRAM可以符合联合电子设备工程委员会(JEDEC)颁布的标准,诸如用于DDR SDRAM的JESD79F、用于DDR2 SDRAM的JESD79-2F、用于DDR3 SDRAM的JESD79-3F、用于DDR4 SDRAM的JESD79-4A、用于低功率DDR (LPDDR)的JESD209、用于LPDDR2的JESD209-2、用于LPDDR3的JESD209-3以及用于LPDDR4的JESD209-4。这样的标准(以及类似的标准)可以被称为基于DDR的标准,并且实现这样的标准的存储器设备的通信接口可以被称为基于DDR的接口。
在一个实施例中,存储器设备是块可寻址存储器设备,诸如基于NAND或NOR技术的存储器设备,诸如多阈值级NAND闪速存储器或NOR闪速存储器。存储器设备还可以包括字节可寻址原地写入非易失性存储器设备,诸如Intel 3D XPoint™存储器、Micron QuantX™存储器、并入忆阻器技术的磁阻随机存取存储器(MRAM)存储器,或者其他字节可寻址原地写入非易失性存储器设备。在一些实施例中,存储器设备可以包括无晶体管可堆叠交叉点架构,其中存储器单元位于字线和位线的交点处,并且是可个体寻址的,并且其中位存储装置基于体电阻的改变。在一个实施例中,存储器设备可以是或可以包括使用硫族玻璃的存储器设备、单级或多级相变存储器(PCM)、电阻存储器、纳米线存储器、铁电晶体管随机存取存储器(FeTRAM)、反铁电存储器、并入忆阻器技术的磁阻随机存取存储器(MRAM)存储器、包括金属氧化物基极、氧空位基极的电阻存储器、和导电桥随机存取存储器(CB-RAM)、或自旋转移矩(STT)-MRAM、基于自旋电子磁性结存储器的设备、基于磁隧道结(MTJ)的设备、基于DW(畴壁)和SOT(自旋轨道转移)的设备、基于晶闸管的存储器设备或上述任何设备的组合或其他存储器。存储器设备可以指代管芯本身和/或封装的存储器产品。
现在参考图8,在一些实施例中,滑架400可以被体现为计算滑架800。计算滑架800被优化或以其他方式配置,以执行计算任务。当然,如上面讨论的,计算滑架800可以依赖于诸如加速滑架和/或存储滑架之类的其他滑架,来执行这样的计算任务。计算滑架800包括类似于滑架400的物理资源的各种物理资源(例如,电气部件),所述物理资源在图8中使用相同的附图标记来标识。以上关于图6和图7提供的对这样的部件的描述适用于计算滑架800的对应部件,并且为了计算滑架800的描述清楚起见,本文不再重复。
在说明性计算滑架800中,物理资源620被体现为处理器820。尽管在图8中仅示出了两个处理器820,但是应当领会,在其他实施例中,计算滑架800可以包括附加的处理器820。说明性地,处理器820被体现为高性能处理器820,并且可以被配置为在相对高的额定功率下操作。尽管处理器820在大于典型处理器(在大约155-230 W下操作)的额定功率下操作而生成附加的热量,但是上面讨论的无机箱电路板基板602的增强的热冷却特性促进了更高功率的操作。例如,在说明性实施例中,处理器820被配置为在至少250 W的额定功率下操作。在一些实施例中,处理器820可以被配置为在至少350 W的额定功率下操作。
在一些实施例中,计算滑架800还可以包括处理器到处理器互连842。类似于上面讨论的滑架 400的资源到资源互连624,处理器到处理器互连842可以被体现为能够促进处理器到处理器互连842通信的任何类型的通信互连。在说明性实施例中,处理器到处理器互连842被体现为高速点对点互连(例如,比I/O子系统622更快)。例如,处理器到处理器互连842可以被体现为快速路径互连(QPI)、超路径互连(UPI)或专用于处理器到处理器通信的其他高速点对点互连。
计算滑架800还包括通信电路830。说明性的通信电路830包括网络接口控制器(NIC)832,其也可以被称为主机构造接口(HFI)。NIC 832可以被体现为或以其他方式包括任何类型的集成电路、分立电路、控制器芯片、芯片集、内插式板、子卡、网络接口卡或可以被计算滑架800用来与另一个计算设备(例如,与其他滑架400)连接的其他设备。在一些实施例中,NIC 832可以被体现为包括一个或多个处理器的片上系统(SoC)的一部分,或者被包括在也包含一个或多个处理器的多芯片封装上。在一些实施例中,NIC 832可以包括对于NIC 832都是本地的本地处理器(未示出)和/或本地存储器(未示出)。在这样的实施例中,NIC 832的本地处理器可以能够执行处理器820的一个或多个功能。附加地或替代地,在这样的实施例中,NIC 832的本地存储器可以在板级、插座级、芯片级和/或其他级被集成到计算滑架的一个或多个部件中。
通信电路830通信地耦合到光学数据连接器834。光学数据连接器834被配置为当计算滑架800安装在机架240中时与机架240的对应光学数据连接器配合。说明性地,光学数据连接器834包括从光学数据连接器834的配合表面通向光学收发器836的多个光纤。光学收发器836被配置为将来自机架侧光学数据连接器的传入光学信号转换成电气信号,并将电气信号转换成去往机架侧光学数据连接器的传出光学信号。尽管在说明性实施例中被示出为形成光学数据连接器834的一部分,但是在其他实施例中,光学收发器836可以形成通信电路830的一部分。
在一些实施例中,计算滑架800还可以包括扩展连接器840。在这样的实施例中,扩展连接器840被配置为与扩展无机箱电路板基板的对应连接器相配合,以向计算滑架800提供附加的物理资源。附加的物理资源可以例如由处理器820在计算滑架800的操作期间使用。扩展无机箱电路板基板可以基本上类似于上面讨论的无机箱电路板基板602,并且可以包括安装到其上的各种电气部件。安装到扩展无机箱电路板基板的特定电气部件可以取决于扩展无机箱电路板基板的预期功能性。例如,扩展无机箱电路板基板可以提供附加的计算资源、存储器资源和/或存储资源。照此,扩展无机箱电路板基板的附加物理资源可以包括但不限于处理器、存储器设备、存储设备和/或加速器电路,包括例如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、安全协处理器、图形处理单元(GPU)、机器学习电路或其他专用处理器、控制器、设备和/或电路。
现在参考图9,示出了计算滑架800的说明性实施例。如所示出的,处理器820、通信电路830和光学数据连接器834安装到无机箱电路板基板602的顶侧650。任何合适的附接或安装技术可以用于将计算滑架800的物理资源安装到无机箱电路板基板602。例如,各种物理资源可以安装在对应的插座(例如,处理器插座)、托架或支架中。在一些情况下,一些电气部件可以经由焊接或类似技术直接安装到无机箱电路板基板602。
如上面讨论的,个体处理器820和通信电路830安装到无机箱电路板基板602的顶侧650,使得没有两个产生热量的电气部件彼此遮蔽。在说明性实施例中,处理器820和通信电路830安装在无机箱电路板基板602的顶侧650上的对应位置中,使得那些物理资源中没有两个物理资源沿着气流路径608的方向与其他物理资源并排成直线。应当领会的是,尽管光学数据连接器834与通信电路830并排,但是光学数据连接器834在操作期间不产生热量或者产生标称热量。
如上面关于滑架400所讨论的,计算滑架800的存储器设备720安装到无机箱电路板基板602的底侧750。尽管安装到底侧750,但是存储器设备720经由I/O子系统622通信地耦合到位于顶侧650上的处理器820。因为无机箱电路板基板602被体现为双侧电路板,所以存储器设备720和处理器820可以通过延伸穿过无机箱电路板基板602的一个或多个通孔、连接器或其他机构通信地耦合。当然,在一些实施例中,每个处理器820可以通信地耦合到一个或多个存储器设备720的不同集合。替代地,在其他实施例中,每个处理器820可以通信地耦合到每个存储器设备720。在一些实施例中,存储器设备720可以安装到无机箱电路板基板602的底侧上的一个或多个存储器夹层,并且可以通过球栅阵列与对应的处理器820互连。
每个处理器820都包括固定到其上的散热器850。由于将存储器设备720安装到无机箱电路板基板602的底侧750(以及对应机架240中的滑架400的垂直间隔),因此无机箱电路板基板602的顶侧650包括附加的“空闲”区域或空间,这促进使用相对于典型服务器中使用的传统散热器具有更大尺寸的散热器850。附加地,由于无机箱电路板基板602的改进的热冷却特性,因此没有一个处理器散热器850包括附接到其的冷却风扇。也就是说,每个散热器850都被体现为无风扇散热器。在一些实施例中,安装在处理器820顶上的散热器850由于其增加的尺寸而可能在气流路径608的方向上与附接到通信电路830的散热器重叠,如通过图9说明性地表明的那样。
现在参考图10,在一些实施例中,滑架400可以被体现为加速器滑架1000。加速器滑架1000被配置为执行专门的计算任务,诸如机器学习、加密、散列或其他计算密集型任务。例如,在一些实施例中,计算滑架800可以在操作期间将任务卸载给加速器滑架1000。加速器滑架1000包括类似于滑架400和/或计算滑架800的部件的各种部件,所述各种部件在图10中使用相同的附图标记来标识。以上关于图6、7和8提供的这样的部件的描述适用于加速器滑架1000的对应部件,并且为了加速器滑架1000的描述清楚起见,本文不再重复。
在说明性加速器滑架1000中,物理资源620被体现为加速器电路1020。尽管在图10中仅示出了两个加速器电路1020,但是应当领会,在其他实施例中,加速器滑架1000可以包括附加的加速器电路1020。例如,如图11中所示,在一些实施例中,加速器滑架1000可以包括四个加速器电路1020。加速器电路1020可以被体现为任何类型的处理器、协处理器、计算电路或能够执行计算或处理操作的其他设备。例如,加速器电路1020可以被体现为例如现场可编程门阵列(FPGA)、专用集成电路(ASIC)、安全协处理器、图形处理单元(GPU)、神经形态处理器单元、量子计算机、机器学习电路或其他专用处理器、控制器、设备和/或电路。
在一些实施例中,加速器滑架1000还可以包括加速器到加速器互连1042。类似于上面讨论的滑架 600的资源到资源互连624,加速器到加速器互连1042可以被体现为能够促进加速器到加速器通信的任何类型的通信互连。在说明性实施例中,加速器到加速器互连1042被体现为高速点对点互连(例如,比I/O子系统622更快)。例如,加速器到加速器互连1042可以被体现为快速路径互连(QPI)、超路径互连(UPI)、快速计算链路(CXL)或专用于处理器到处理器通信的其他高速点对点互连。在一些实施例中,加速器电路1020可以与通过I/O子系统622连接到NIC 832和存储器720的主加速器电路1020以及通过主加速器电路1020连接到NIC 832和存储器720的次加速器电路1020菊花链式连接。
现在参考图11,示出了加速器滑架1000的说明性实施例。如上面讨论的,加速器电路1020、通信电路830和光学数据连接器834安装到无机箱电路板基板602的顶侧650。再次,个体的加速器电路1020和通信电路830被安装到无机箱电路板基板602的顶侧650,使得如上面讨论的那样没有两个产生热量的电气部件彼此遮蔽。加速器滑架1000的存储器设备720安装到无机箱电路板基板602的底侧750,如上面关于滑架600所讨论的。尽管安装到底侧750,但是存储器设备720经由I/O子系统622(例如,通过通孔)通信地耦合到位于顶侧650上的加速器电路1020。此外,每个加速器电路1020可以包括比服务器中使用的传统散热器更大的散热器1070。如上面参考散热器870所讨论的,因为由位于无机箱电路板基板602的底侧750上而不是顶侧650上的存储器资源720提供的“空闲”区域,散热器1070可以比传统散热器大。
现在参考图12,在一些实施例中,滑架400可以被体现为存储滑架1200。存储滑架1200被配置为将数据存储在存储滑架1200本地的数据存储装置1250中。例如,在操作期间,计算滑架800或加速器滑架1000可以从存储滑架1200的数据存储装置1250存储和检索数据。存储滑架1200包括类似于滑架400和/或计算滑架800的部件的各种部件,所述各种部件在图12中使用相同的附图标记来标识。以上关于图6、图7和图8提供的这样的部件的描述适用于存储滑架1200的对应部件,并且为了存储滑架1200的描述清楚起见,本文不再重复。
在说明性存储滑架1200中,物理资源620被体现为存储控制器1220。尽管在图12中仅示出了两个存储控制器1220,但是应当领会,在其他实施例中,存储滑架1200可以包括附加的存储控制器1220。存储控制器1220可以被体现为能够基于经由通信电路830接收的请求来控制数据到数据存储装置1250中的存储和检索的任何类型的处理器、控制器或控制电路。在说明性实施例中,存储控制器1220被体现为相对低功率的处理器或控制器。例如,在一些实施例中,存储控制器1220可以被配置为在大约75瓦的额定功率下操作。
在一些实施例中,存储滑架1200还可以包括控制器到控制器互连1242。类似于上面讨论的滑架 400的资源到资源互连624,控制器到控制器互连1242可以被体现为能够促进控制器到控制器通信的任何类型的通信互连。在说明性实施例中,控制器到控制器互连1242被体现为高速点对点互连(例如,比I/O子系统622更快)。例如,控制器到控制器互连1242可以被体现为快速路径互连(QPI)、超路径互连(UPI)或专用于处理器到处理器通信的其他高速点对点互连。
现在参考图13,示出了存储滑架1200的说明性实施例。在说明性实施例中,数据存储装置1250被体现为或以其他方式包括被配置为容纳一个或多个固态驱动器(SSD)1254的存储笼1252。为了这样做,存储笼1252包括多个安装槽1256,每个安装槽被配置为容纳对应的固态驱动器1254。每个安装槽1256包括多个驱动引导件1258,所述多个驱动引导件1258协作以限定对应安装槽1256的接入开口1260。存储笼1252固定到无机箱电路板基板602,使得接入开口背离无机箱电路板基板602(即,朝向其前方)。照此,当存储滑架1200安装在对应的机架204中时,固态驱动器1254是可访问的。例如,固态驱动器1254可以被换出机架240(例如,经由机器人),同时存储滑架1200保持安装在对应的机架240中。
存储笼1252说明性地包括十六个安装槽1256,并且能够安装和存储十六个固态驱动器1254。当然,在其他实施例中,存储笼1252可以被配置为存储附加或更少的固态驱动器1254。附加地,在说明性实施例中,固态驱动器垂直安装在存储笼1252中,但是在其他实施例中可以以不同的取向安装在存储笼1252中。每个固态驱动器1254可以被体现为能够存储长期数据的任何类型的数据存储设备。为了这样做,固态驱动器1254可以包括上面讨论的易失性和非易失性存储器设备。
如图13中所示,存储控制器1220、通信电路830和光学数据连接器834说明性地安装到无机箱电路板基板602的顶侧650。再次,如上面讨论的,任何合适的附接或安装技术可以用于将存储滑架1200的电气部件安装到无机箱电路板基板602,包括例如插座(例如,处理器插座)、托架、支架、焊接连接和/或其他安装或固定技术。
如上面讨论的,个体的存储控制器1220和通信电路830安装到无机箱电路板基板602的顶侧650,使得没有两个产生热量的电气部件彼此遮蔽。例如,存储控制器1220和通信电路830安装在无机箱电路板基板602的顶侧650上的对应位置中,使得那些电气部件中没有两个电气部件沿着气流路径608的方向彼此并排成直线。
存储滑架1200的存储器设备720安装到无机箱电路板基板602的底侧750,如上面关于滑架400所讨论的。尽管安装到底侧750,存储器设备720也经由I/O子系统622通信地耦合到位于顶侧650上的存储控制器1220。再次,因为无机箱电路板基板602被体现为双侧电路板,所以存储器设备720和存储控制器1220可以通过延伸穿过无机箱电路板基板602的一个或多个通孔、连接器或其他机构通信地耦合。每个存储控制器1220包括固定到其的散热器1270。如上面讨论的,由于存储滑架1200的无机箱电路板基板602的改进的热冷却特性,因此没有一个散热器1270包括附接到其的冷却风扇。也就是说,每个散热器1270被体现为无风扇散热器。
现在参考图14,在一些实施例中,滑架400可以被体现为存储器滑架1400。存储器滑架1400被优化或以其他方式配置以提供具有对存储器滑架1400本地的存储器池(例如,在存储器设备720的两个或更多集1430、1432中)的访问权的其他滑架400(例如,计算滑架800、加速器滑架1000等)。例如,在操作期间,计算滑架800或加速器滑架1000可以使用映射到存储器集1430、1432中的物理地址的逻辑地址空间来远程写入存储器滑架1400的一个或多个存储器集1430、1432和/或从其读取。存储器滑架1400包括类似于滑架400和/或计算滑架800的部件的各种部件,所述各种部件在图14中使用相同的附图标记来标识。以上关于图6、图7和图8提供的这样的部件的描述适用于存储器滑架1400的对应部件,并且为了存储器滑架1400的描述清楚起见,本文不再重复。
在说明性存储器滑架1400中,物理资源620被体现为存储器控制器1420。尽管在图14中仅示出了两个存储器控制器1420,但是应当领会,在其他实施例中,存储器滑架1400可以包括附加的存储器控制器1420。存储器控制器1420可以被体现为能够基于经由通信电路830接收的请求来控制向存储器集1430、1432中写入和读取数据的任何类型的处理器、控制器或控制电路。在说明性实施例中,每个存储器控制器1420连接到对应的存储器集1430、1432,以写入对应的存储器集1430、1432内的存储器设备720和从其读取,并实施与已经向存储器滑架1400发送请求以执行存储器访问操作(例如,读取或写入)的滑架400相关联的任何许可(例如,读取、写入等)。
在一些实施例中,存储器滑架1400还可以包括控制器到控制器互连1442。类似于上面讨论的滑架 400的资源到资源互连624,控制器到控制器互连1442可以被体现为能够促进控制器到控制器通信的任何类型的通信互连。在说明性实施例中,控制器到控制器互连1442被体现为高速点对点互连(例如,比I/O子系统622更快)。例如,控制器到控制器互连1442可以被体现为快速路径互连(QPI)、超路径互连(UPI)或专用于处理器到处理器通信的其他高速点对点互连。照此,在一些实施例中,存储器控制器1420可以通过控制器到控制器互连1442访问与另一个存储器控制器1420相关联的存储器集1432内的存储器。在一些实施例中,可扩展存储器控制器由存储器滑架(例如,存储器滑架1400)上的多个更小的存储器控制器(本文称为“小芯片”)构成。小芯片可以互连(例如,使用EMIB(嵌入式多管芯互连桥))。组合的小芯片存储器控制器可以向上扩展到相对大量的存储器控制器和I/O端口(例如,多达16个存储器通道)。在一些实施例中,存储器控制器1420可以实现存储器交织(例如,一个存储器地址被映射到存储器集1430,下一个存储器地址被映射到存储器集1432,并且第三个地址被映射到存储器集1430,等等)。交织可以在存储器控制器1420内管理,或者从(例如,计算滑架800的)CPU插座跨网络链路管理到存储器集1430、1432,并且与从同一存储器设备访问连续的存储器地址相比,可以改进与执行存储器访问操作相关联的等待时间。
此外,在一些实施例中,可以使用波导连接器1480,通过波导将存储器滑架1400连接至一个或多个其他滑架400(例如,在同一机架240或相邻机架240中)。在说明性实施例中,波导是提供16个Rx(即,接收)航道和16个Tx(即,发射)航道的64毫米波导。在说明性实施例中,每个航道是16 GHz或32 GHz。在其他实施例中,频率可以不同。使用波导可以向另一个滑架(例如,与存储器滑架1400在同一机架240或相邻机架240中的滑架 400)提供对存储器池(例如,存储器集1430、1432)的高吞吐量访问,而不添加光学数据连接器834上的负载。
现在参考图15,可以根据数据中心100实现用于执行一个或多个工作负载(例如,应用)的系统。在说明性实施例中,系统1510包括协调器服务器1520,该协调器服务器1520可以被体现为包括执行管理软件(例如,诸如OpenStack之类的云操作环境)的计算设备(例如,计算滑架800上的处理器820)的受管理节点,该受管理节点通信地耦合到多个滑架400,所述多个滑架400包括大量计算滑架1530(例如,每个类似于计算滑架800)、存储器滑架1540(例如,每个类似于存储器滑架)、加速器滑架1550(例如,每个类似于加速器滑架1000)以及存储滑架1560(例如,每个类似于存储滑架1200)。滑架 1530、1540、1550、1560中的一个或多个可以诸如通过协调器服务器1520被分组到受管理节点1570中,以共同执行工作负载(例如,在虚拟机中或容器中执行的应用1532)。受管理节点1570可以被体现为来自同一或不同滑架 400的物理资源620的组装件,诸如处理器820、存储器资源720、加速器电路1020或数据存储装置1250。此外,受管理节点可以由协调器服务器1520在工作负载将被分配给受管理节点的时间或在任何其他时间建立、定义或“起转”,并且可以存在而不管当前是否有任何工作负载被分配给受管理节点。在说明性实施例中,作为与工作负载(例如,应用1532)的服务水平协定相关联的服务质量(QoS)目标(例如,目标吞吐量、目标等待时间、目标每秒指令数等)的函数,协调器服务器1520可以选择性地从滑架 400分配和/或解除分配物理资源620,和/或从受管理节点1570添加或移除一个或多个滑架 400。在这样做时,协调器服务器1520可以接收指示受管理节点1570的每个滑架400中性能条件(例如,吞吐量、等待时间、每秒指令等)的遥测数据,并将遥测数据与服务质量目标进行比较,以确定是否满足服务质量目标。协调器服务器1520附加地可以确定是否可以从受管理节点1570解除分配一个或多个物理资源,同时仍然满足QoS目标,从而释放那些物理资源以供在另一个受管理节点中使用(例如,执行不同的工作负载)。替代地,如果QoS目标当前没有得到满足,则协调器服务器1520可以确定在工作负载(例如,应用1532)正在执行时动态地分配附加的物理资源来协助工作负载的执行。类似地,如果协调器服务器1520确定解除分配物理资源将导致仍然满足QoS目标,则协调器服务器1520可以确定从受管理节点动态地解除分配物理资源。
附加地,在一些实施例中,协调器服务器1520可以标识工作负载(例如,应用1532)的资源利用中的趋势,诸如通过标识工作负载(例如,应用1532)的执行阶段(例如,执行不同操作的时间段,每个操作具有不同的资源利用特性),并且抢先标识数据中心100中的可用资源并将它们分配给受管理节点1570(例如,在相关联阶段开始的预定义时间段内)。在一些实施例中,协调器服务器1520可以基于各种等待时间和分布方案来对性能建模,以在数据中心100中的计算滑架和其他资源(例如,加速器滑架、存储器滑架、存储滑架)之间放置工作负载。例如,协调器服务器1520可以利用计及滑架400上的资源性能(例如,FPGA性能、存储器访问等待时间等)和通过网络到资源(例如,FPGA)的路径的性能(例如,拥塞、等待时间、带宽)的模型。照此,协调器服务器1520可以基于与数据中心100中可用的每个潜在资源相关联的总等待时间(例如,除了与通过在执行工作负载的计算滑架和资源位于其上的滑架400之间的网络的路径相关联的等待时间之外,与资源本身的性能相关联的等待时间)来确定哪个(哪些)资源应当与哪些工作负载一起使用。
在一些实施例中,协调器服务器1520可以使用从滑架400报告的遥测数据(例如,温度、风扇速度等)生成数据中心100中的热量生成图,并作为与不同工作负载相关联的热量生成和预测热量生成图的函数向受管理节点分配资源,以维持数据中心100中的目标温度和热量分布。附加地或替代地,在一些实施例中,协调器服务器1520可以将接收到的遥测数据组织成分级模型,该分级模型指示受管理节点之间的关系(例如,空间关系,诸如数据中心100内受管理节点的资源的物理位置和/或功能关系,诸如受管理节点向其提供服务的客户(例如,租户)对受管理节点的分组、受管理节点通常执行的功能类型、通常在彼此之间共享或交换工作负载的受管理节点等)。基于受管理节点中的物理位置和资源方面的差异,给定的工作负载可能跨不同受管理节点的资源之上展现不同的资源利用(例如,引起不同的内部温度,使用不同百分比的处理器或存储器容量)。协调器服务器1520可以基于存储在分级模型中的遥测数据来确定差异,并且如果工作负载从一个受管理节点被重新分配到另一个受管理节点,则将该差异作为因素计入工作负载的未来资源利用的预测中,以准确地平衡数据中心100中的资源利用。在一些实施例中,协调器服务器1520可以标识工作负载的资源利用阶段中的模式,并使用该模式来预测工作负载的未来资源利用。
为减少协调器服务器1520上的计算负载和网络上的数据传输负载,在一些实施例中,协调器服务器1520可以向滑架400发送自测信息,以使得每个滑架400在本地(例如,在滑架400上)确定滑架400生成的遥测数据是否满足一个或多个条件(例如,满足预定义阈值的可用容量、满足预定义阈值的温度等)。然后,每个滑架 400可以向协调器服务器1520报告回简化结果(例如,是或否),该协调器服务器1520可以在确定向受管理节点的资源分配中利用该简化结果。
现在参考图16,用于提供高级资源管理(例如,资源选择、协调和管理方案)的分解系统1600包括舱管理器1608,其可以被体现为能够管理跨系统1600(例如,跨多个机架)之上多个滑架的操作并且配置资源(例如,处理器、加速器设备、数据存储设备等)向组成节点(例如,受管理节点)的分配(例如,选择)以执行工作负载(例如,操作、过程、应用等的集合)以满足所定义服务质量(QoS)目标集的任何计算设备(例如,计算滑架)。QoS目标可以由系统1600的所有者/运营商(例如,数据中心所有者)和系统1600的客户(例如,租户)之间的服务水平协定(SLA)来定义。可以响应于通过网络1606来自对应客户端计算设备1602、1604的请求来执行工作负载,网络1606可以被体现为任何类型的有线或无线通信网络,包括全球网络(例如,互联网)、局域网(LAN)或广域网(WAN)、蜂窝网络(例如,5G、4G、3G、全球移动通信系统(GSM)、长期演进(LTE)、全球微波接入互操作性(WiMAX)等)、无线电局域网(RAN)、数字订户线路(DSL)网络、线缆网络(例如,同轴网络、光纤网络等)或者其任何组合。在一些实施例中,系统1600的至少一些部件可以位于网络的一个或多个边缘位置(例如,小小区、基站等)处。
在说明性实施例中,舱管理器1608通过构造(例如,一个或多个交换机或其他联网部件)1612连接到多个滑架1620、1630、1640、1652、1660、1670。在说明性实施例中,滑架1620、1630是类似于计算滑架800的计算滑架,并且除了其他部件之外尤其包括处理器1624(例如,类似于处理器820),以执行一个或多个应用1626(例如,定义工作负载的指令集、过程等)。在说明性实施例中,滑架 1640、1652是类似于加速器滑架 1000的加速器滑架,并且包括类似于加速器电路1020的加速器设备1644、1646。在说明性实施例中,滑架1660、1670是类似于存储滑架1200的数据存储滑架,并且包括类似于与数据存储装置1250类似的数据存储设备的数据存储设备1664、1666。虽然在图16中未示出,但是系统1600还可以包括连接到舱管理器1608的其他类型的滑架(例如,存储器滑架)。
如图16中所示,舱管理器1608和滑架 1620、1630、1640、1652、1660、1670包括高级管理逻辑单元1610、1622、1642、1662。每个高级管理逻辑单元1610、1622、1642、1662可以被体现为任何设备或电路(例如,处理器、协处理器、专用集成电路(ASIC)、可重配置电路(例如,现场可编程门阵列(FPGA))等)或如下软件:该软件被配置为使得计算滑架(例如,计算滑架1620)能够定义包括分解资源集(例如,可用于执行工作负载的设备,诸如(一个或多个)处理器1624、加速器设备1644、1646、数据存储设备1664、1666和/或其他设备)的租户分区1680,并且从舱管理器1608卸载对资源的选择和操作的管理(例如,向租户给予对被分配以执行工作负载的资源的细粒度控制)。关于至少一些滑架(例如,加速器滑架 1640、1652),高级管理逻辑单元实现一种系统,其中滑架可以被查询其完成所请求的任务(例如,在一个或多个加速器设备上执行内核)并以完成所请求的任务的估计时间来响应的能力。在这样做时,加速器滑架1640、1652可以利用内核队列(例如,内核队列1648),该内核队列对于每个加速器设备1644、1646可以是本地的或者是共享的(例如,跨多个加速器设备之上是全局的),并且可以被划分成与不同优先级水平相关联的队列,以管理加速任务(例如,工作负载)的执行并且估计对于任何给定任务的完成时间。
此外,高级管理逻辑单元1610、1622、1642、1662使能使用关于工作负载对滑架上对应资源的性能的敏感度、滑架上资源在不同功率水平和温度下操作的能力、每个资源在不同功率水平和温度下提供的性能、滑架上散热资源(如风扇、泵等)1628、1650、1668的冷却能力以及在不同功率水平下操作的货币成本的信息,在每个滑架1620、1630、1640、1652、1660、1668上在本地执行热管理操作。高级管理逻辑单元还被配置为当在可用于对应滑架1620、1630、1640、1652、1660、1670上的热管理系统的当前条件和参数下不能满足特定工作负载的(一个或多个)QoS目标或服务水平协定(SLA)时,请求来自外部计算设备的协助。此外,高级管理逻辑单元1610、1622、1642、1662可以使得系统1600能够检测与客户端(例如,客户端计算设备1602、1604)相关联的数据访问请求中的模式,确定模式是指示随机数据访问还是顺序数据访问,并且将请求重定向到被配置为处理与对应数据访问模式相关联的请求的对应数据存储设备1664、1666(例如,被配置为处理顺序数据访问的数据存储设备集、被配置为处理随机数据存储访问的另一数据存储设备集)等。此外,并且如在本文更详细描述的,高级管理逻辑单元1610、1622、1642、1662可以实现一种方案,其中数据访问请求(例如,顺序数据访问请求)在被发送到对应的数据存储设备之前被分组为批次,以增加数据存储设备被使用的效率(例如,减少对于给定数据访问请求集的网络流量的总体量,减少对于访问顺序数据集的总体等待时间等)。在一些实施例中,基于服务优先级(例如,其与租户在服务水平协定下支付的金钱量相关),系统1600可以调整流的优先级,以选择性地增加或减少正被服务的请求模式的串行化(例如,增加或减少随机性)。与具有相对高优先级的工作负载相关联的请求可以被执行,而不管它们可能干扰其他串行流的事实,从而使得数据存储设备接收的请求的总体模式是随机的。
现在参考图17,每个滑架1700(代表滑架1620、1630、1640、1652、1660、1668)可以包括热管理逻辑单元1702,该热管理逻辑单元1702可以被体现为如下任何设备或电路(例如,处理器、ASIC、FPGA等):其被配置为监视滑架1700上的一个或多个冷却域1710、1730中的每一个中的热条件,并且调整由一个或多个资源1712、1714、1716、1718、1732、1734、1736、1738(例如,处理器、加速器设备、数据存储设备和可用于执行工作负载的其他设备)消耗的电力和产生的热量,和/或调整一个或多个散热源1720、1740、1750(例如,风扇、液体冷却剂泵等)的性能水平(例如,风扇速度、液体泵送速度等)来平衡资源的热能力、资源在不同温度下提供的性能(例如,吞吐量、等待时间、每秒操作等)以及具有(一个或多个)所分配的工作负载的QoS目标(例如,货币成本、等待时间、吞吐量、每秒操作等)的散热资源1720、1740、1750的散热能力。如本领域技术人员将领会的,对于分解系统1600中的资源,较高的操作温度对应于较高的每单位工作的电力使用和能量消耗。在说明性实施例中,热管理逻辑单元1702包括温度控制逻辑单元1704、管理模型逻辑单元1706和遥测管理逻辑单元1708。温度控制逻辑单元1704可以是如下任何设备或电路(例如,处理器、ASIC、FPGA等):其被配置为向资源1712、1714、1716、1718、1732、1734、1736、1738中的一个或多个发出指令以调整(例如,增加或减少)它们的功耗(例如,增加工作负载的执行速度并相应地调整它们的热量产生)和/或调整散热资源1720、1740、1750中的一个或多个的性能水平(例如,风扇速度、泵送速度等),以满足目标温度。
温度控制逻辑单元1704可以通过与管理模型逻辑单元1706通信,来确定要发送至资源1712、1714、1716、1718、1732、1734、1736、1738和散热资源1720、1740、1750的指令,该管理模型逻辑单元1706可以被体现为如下任何设备或电路(例如,处理器、ASIC、FPGA等):其被配置为将资源1712、1714、1716、1718、1732、1734、1736、1738的功耗设置点与其性能(例如吞吐量、每秒操作、等待时间等)和散热资源1720、1740、1750的性能水平(例如,耗散不同量热量的性能水平)以及QoS目标(例如,确定资源1712、1714、1716、1718、1732、1734、1736、1738中的一个或多个的所需设置点以及散热资源1720、1740、1750的对应性能水平,以满足一个或多个QoS目标)相关联。遥测管理逻辑单元1708可以被体现为如下任何设备或电路(例如,处理器、ASIC、FPGA等):其被配置为从资源接收遥测数据(例如,热遥测1722、1742)并将遥测数据提供给管理模型逻辑单元1706。遥测数据可以被体现为指示资源的当前热条件(例如,温度)、每个资源的功耗设置点以及每个散热资源1720、1740、1750的当前性能水平的任何数据。遥测管理逻辑单元1708还可以将遥测数据的全部或一部分发送到诸如机架功率管理器1770的外部设备,该外部设备可以被体现为如下任何设备或电路(例如,微控制器、处理器、ASIC、FPGA等):其与舱管理器1608通信或集成到舱管理器1608中,并且通过一个或多个接口1760(例如,被配置为使能通信的任何设备或电路)与舱管理器1608通信,并且被配置为在机架级(例如,对于机架中的多个滑架)而不是在个体的滑架级上以类似于热管理逻辑单元1702的方式操作。照此,在说明性实施例中,机架功率管理器1770包括类似于温度控制逻辑单元1704的温度控制逻辑单元1772,以及类似于管理模型逻辑单元1774的管理模型逻辑单元1774。
给定机架功率管理器1770在机架级操作,机架功率管理器1770可以调整一个滑架的操作,以改进另一个滑架上的热条件(例如,减少一个滑架上的热量产生,以降低附近滑架上的环境温度),并且如果一个滑架无法满足资源1712、1714、1716、1718、1732、1734、1736、1738和该滑架的散热资源1720、1740、1750的给定QoS目标,则可以协调从一个滑架到另一个滑架的操作卸载。在一些实施例中,舱管理器1608的操作可以由计算滑架1620(例如,计算滑架1620)来执行,诸如当租户分区(例如,租户分区1680)已经被建立以使得计算滑架1620能够控制租户分区内的资源的操作时。
现在参考图18,滑架1800(诸如滑架1620或滑架1660)可以包括数据访问控制器1810,该数据访问控制器1810可以被体现为如下任何设备或电路(例如,处理器、ASIC、FPGA等):其被配置为接收来自客户端计算设备1602、1604的数据访问请求(例如,经由通过构造交换机1808通信的网络接口控制器1802、1804、1806)。数据访问请求可以落入一种模式,诸如顺序数据访问(例如,在内容递送网络(CDN)工作负载中,其中从一个或多个数据存储设备1820、1822、1824顺序读取电影、音乐或其他内容的连续部分)或随机数据访问(例如,在电子商务工作负载中,其中访问数据库的不同区段)。一些数据存储设备1820可能比其他数据存储设备具有更长的寻道时间,同时为连续(例如顺序)数据访问提供更高的持续吞吐量,而其他数据存储设备1822、1824可能具有为连续数据访问提供更快寻道时间但更低的持续吞吐量的架构。照此,在说明性实施例中,数据访问控制器1810分析与客户端计算设备1602、1604相关联的数据访问请求的流,确定来自每个客户端计算设备1602、1604的请求所展现的数据访问模式的类型(例如,随机或顺序),并将流映射到适合于那些模式的对应数据存储设备1820、1822、1824。为了这样做,在说明性实施例中,数据访问控制器1810包括流类型检测器逻辑单元1812、流管理逻辑单元1814和流映射表逻辑单元1816。
流类型检测器逻辑单元1812可以被体现为如下任何设备或电路(例如,处理器、ASIC、FPGA等):其被配置为分析来自客户端计算设备1602、1604的数据访问流,并确定该流展现哪种类型的模式(例如,顺序或随机)(例如,诸如通过比较数据访问请求中的地址来确定它们是否表示随时间推移为连续/顺序的地址)。流管理逻辑单元1814可以被体现为如下任何设备或电路(例如,处理器、ASIC、FPGA等):其被配置为基于所确定的与请求相关联的模式类型和最适合所确定的模式的(一个或多个)数据存储设备1820、1822、1824,将传入的数据访问请求路由到对应的数据存储设备1820、1822、1824。流映射表逻辑单元1816可以被体现为如下任何设备或电路(例如,处理器、ASIC、FPGA等):其被配置为维护(例如,创建和更新)访问流(例如,请求源自的客户端计算设备1602、1604的标识符、会话标识符等)到适合于那些数据访问流的模式的对应数据存储设备1820、1822、1824的映射图。在一些实施例中,数据访问控制器1810还可以协调跨数据存储设备之上复制数据(例如,从适合于顺序数据访问的数据存储设备1820到适合于随机数据访问的数据存储设备1822)。滑架 1800可以与舱管理器1608和功能管理服务(例如,协调器服务器)1840通信,并且提供指示数据访问流到数据存储设备1820、1822、1824的映射的提示数据(例如,以保持舱管理器1608知晓映射)。照此,舱管理器1608可以包括流映射表逻辑单元1830,其可以类似于流映射表逻辑单元1816,并且可以维护使由流映射表1816维护的映射镜像的数据集或者可以维护映射的超集(例如,包括由其他滑架的流映射表逻辑单元确定的映射)或者映射的子集。
现在参考图19,在操作中,计算设备(例如,计算滑架,诸如计算滑架1620或舱管理器1608等)可以执行用于提供高级资源管理的方法1900。在说明性实施例中,方法1900开始于框1902,其中计算滑架(例如,计算滑架1620)确定是否启用高级资源管理。响应于计算滑架162配备有高级管理逻辑单元1622的确定,响应于配置设置(例如,配置文件)指示启用高级资源管理的确定,和/或基于其他因素,计算滑架1620可以确定启用高级资源管理。无论如何,响应于启用高级资源管理的确定,方法1900前进到框1904,在框1904中,计算滑架1620获得工作负载分配(例如,要代表客户执行的应用或其他操作集)。如框1906中所指示的,在说明性实施例中,计算滑架1620获得目标QoS数据,该目标QoS数据可以被体现为指示在工作负载的性能中要满足的一个或多个目的的任何数据,并且可以在系统1600的所有者/运营商与客户(例如,租户)之间的服务水平协定中定义。例如,如框1908中所指示的,计算滑架1620可以获得指示在工作负载的执行中要提供的目标等待时间(例如,最大等待时间)的数据。附加地或替代地,计算滑架1620可以获得如框1910中所指示的指示目标吞吐量的数据、如框1912中所指示的每秒操作的目标数量和/或如框1914中所指示的在执行工作负载中将发生的目标货币成本。在其他实施例中,可以在目标QoS数据中指示附加或替代目标。
随后,并且如框1916中所指示的,计算滑架1620标识工作负载执行中要使用的(一个或多个)资源。在这样做时,并且如框1918中所指示的,计算滑架1620可以标识由舱管理器1608分配的资源。如框1920中所指示的,计算滑架1620可以基于QoS目标数据、资源的热特性(例如,最大操作温度)和资源的性能能力(例如,等待时间、每秒操作或不同功耗水平下的其他性能度量)来标识由舱管理器1608分配的资源。在一些实施例中,并且如框1922中所指示的,计算滑架1620可以建立租户分区(例如,租户分区1680)。在这样做时,计算滑架1620可以从舱管理器1608获得许可,以修改租户分区内的资源的选择和操作,如框1924中所指示的。相关地,并且如框1926中所指示的,计算滑架1620可以从舱管理器1608获得许可,以修改与租户分区中的资源相关联的热操作(例如,调整一个或多个资源的功耗,调整风扇速度等)。随后,方法1900前进到图20的框1928,在框1928中,计算滑架1620利用所标识的资源执行所分配的工作负载。
现在参考图20,计算滑架1620可以执行与工作负载相关联的操作(例如,使用(一个或多个)处理器1624),如框1930中所指示的。如框1932中所指示的,计算滑架1620可以使用可由加速器设备(例如,加速器设备1644、1646)使用的内核(例如,定义FPGA的门的配置的指令集、比特流等)来使工作负载的一部分加速。在这样做时,并且如框1934中所指示的,计算滑架1620可以将工作负载的一部分的执行分配给对应的加速器设备(例如,加速器设备1644、1646中的一个或多个)。在一些实施例中,计算滑架1620可以查询每个加速器滑架(例如,加速器滑架1640和/或诸如加速器滑架1652的其他加速器滑架),以标识完成工作负载的该部分的执行的估计时间(例如,如果工作负载的该部分将在对应的加速器滑架上的一个或多个加速器设备上执行),如框1936中所指示的。被查询的加速器滑架可以确定(一个或多个)队列1648中内核的当前数量,并且在一些实施例中,可以确定指示完成已经存在于(一个或多个)内核队列1648中的每个内核的执行所需的时间量的数据,以估计与来自计算滑架1620的请求相关联的内核的完成时间。在框1938中,计算滑架1620可以确定热操作(例如,增加一个或多个加速器设备1644、1646的功耗)是否可用于调整完成时间(例如,从框1936开始的完成时间)。在这样做时,计算滑架1620可以确定该调整是否满足资源能力(例如,通过查询加速器滑架1640上的热管理逻辑单元1702)和目标QoS数据,如框1940中所指示的。例如,并且如框1942中所指示的,计算滑架1620可以确定对应冷却域(例如,加速器滑架1640上的冷却域1710、1730)中的(一个或多个)资源是否可以在更高的温度下操作,如框1942中所指示的。相关地,如框1944中所指示的,计算滑架1620可以确定散热资源(例如,散热资源1720、1740、1750)是否可以以更高的性能操作(例如,抵消以更高的功耗操作加速器设备1644、1646所产生的任何附加的热量)。此外,如框1946中所指示的,计算滑架1620可以确定该调整是否将满足目标货币成本(例如,增加(一个或多个)加速器设备和散热资源的功耗是否将超过QoS数据中(例如,SLA中)定义的货币预算)。在框1948中,计算滑架1620可以将工作负载的该部分的执行分配给能够在满足目标QoS数据的预定义时间段内完成该部分的一个或多个加速器设备(例如,加速器设备1644、1646中的一个或多个)。
现在参考图21,如框1950中所指示的,计算滑架1620可以在工作负载的执行中执行数据访问操作。计算滑架1620可以通过向(一个或多个)数据存储滑架(例如,数据存储滑架1660)、(一个或多个)构造交换机1612和/或其他设备)发出对应的请求来执行下面描述的数据访问操作。在执行数据访问操作中,计算滑架1620可以执行如框1952中所指示的(一个或多个)数据读取操作和/或如框1954中所指示的(一个或多个)数据写入操作。在一些实施例中,如框1956中所指示的,计算滑架1620可以分析与客户端计算设备(例如,客户端计算设备1602、1604)相关联的请求(例如,数据访问请求),以确定与每个客户端计算设备相关联的数据访问模式。在这样做时,计算滑架1620如框1958中所指示的可以标识随机数据访问模式(例如,请求非顺序的数据集,诸如在数据库查询中),和/或如框1960中所指示的可以标识顺序数据访问模式(例如,请求内容递送网络中的视频、音频或其他介质的顺序区段)。在框1962中,计算滑架1620可以将与随机数据访问模式相关联的数据访问请求路由到被配置为用于随机数据访问模式的数据存储设备集。类似地,如框1964中所指示的,计算滑架1620可以将与顺序数据访问模式相关联的数据访问请求路由到被配置为用于顺序数据访问模式的数据存储设备集。这样做时,并且如框1966中所指示的,计算滑架1620可以将请求分组为将满足对应目标QoS数据的批次。例如,计算滑架1620可以将对顺序数据集的请求累积成一批次,然后将该批次请求以突发方式发送到一个或多个数据存储设备(例如,以最小化总寻道时间),但是不将请求保持太久以至于超过目标等待时间。在一些实施例中,如框1968中所指示的,计算滑架1620可以跨数据存储设备复制数据。在这样做时,如框1970中所指示的,计算滑架1620可以跨被配置用于随机数据访问的数据存储设备和被配置用于顺序数据访问的另一个数据存储设备来复制数据。
现在参考图22,如框1972中所指示的,计算滑架1620可以调整当前滑架上(例如,计算滑架1620上)的一个或多个热操作,以满足目标QoS数据和资源热能力。例如,如框1974中所指示的,计算滑架1620可以调整计算滑架1620上的热操作,以满足目标等待时间、目标吞吐量、目标每秒操作数和/或目标货币成本(例如,降低功耗以降低执行工作负载的货币成本)。如框1976中所指示的,计算滑架1620可以调整当前滑架1620上的热操作,以满足资源的温度限制(例如,在最大操作温度以下操作)和/或散热资源的性能限制(例如,峰值风扇速度)。类似地,如框1978中所指示的,计算滑架1620可以调整其他滑架上的(一个或多个)资源的热操作(例如,具有正在执行所分配的工作负载的(一个或多个)部分的资源的滑架)。在一些实施例中,如框1980中所指示的,计算滑架1620可以调整当前租户分区(例如,在图19的框1922中建立的租户分区1680)中资源的热操作。例如,计算滑架1620可以使得在图20的框1938中确定的热操作被执行(例如,通过发出对要执行的操作的(一个或多个)对应请求)。在一些实施例中,如框1982中所指示的,如果在当前资源(例如,包括增加资源的吞吐量、每秒操作等的任何热调整)的情况下不能满足目标QoS数据,则计算滑架1620可以调整可用于所分配的工作负载的执行的资源集。在这样做时,如框1984中所指示的,计算滑架1620可以请求舱管理器1608调整可用资源集(例如,为工作负载的执行分配更多的资源)。替代地,计算滑架1620可以调整当前租户分区中的资源选择(例如,增加资源的数量)(例如,使用由舱管理器1608在框1924中授予的许可)以使得工作负载能够在满足目标QoS数据的情况下被执行。随后,方法1900循环回到图20的框1928,其中计算滑架1620使用可用资源继续所分配的工作负载的执行。虽然方法1900的操作在上面以特定的次序描述,但是应当理解,一些操作可以以不同的次序和/或同时执行(例如,调整热操作,同时还标识数据访问请求中的模式)。此外,虽然方法1900被描述为由计算滑架1620执行,但是应当理解,方法1900可以附加地或替代地全部或部分地由系统1600中的其他计算设备(例如,滑架)执行。
示例
下面提供了本文公开的技术的说明性示例。技术的实施例可以包括下述示例中的任何一个或多个以及其任何组合。
示例1包括一种计算设备,所述计算设备包括用于以下各项的电路:获得要由分解系统中的资源集执行的工作负载;查询所述分解系统中的滑架,以标识完成要使用内核加速的工作负载的一部分的执行的估计时间;以及响应于对完成工作负载的所述部分的执行的估计时间满足与工作负载相关联的目标服务质量的确定,将工作负载的所述部分分配给滑架用于加速。
示例2包括示例1的主题,并且其中,所述电路进一步确定热操作是否可用于调整完成工作负载的所述部分的执行的估计时间;以及响应于对热操作可用于调整估计时间的确定,使得热操作在滑架上执行。
示例3包括示例1和2中任一个的主题,并且其中,确定热操作是否可用于调整估计时间包括确定热操作是否将满足滑架上的一个或多个资源的能力和目标服务质量。
示例4包括示例1-3中任一个的主题,并且其中,确定热操作是否将满足滑架上的一个或多个资源的能力包括确定滑架上对应冷却域中的资源是否能够在增加的温度下操作。
示例5包括示例1-4中任一个的主题,并且其中,确定热操作是否将满足滑架上的一个或多个资源的能力包括确定滑架上的一个或多个散热资源是否能够以增加的性能操作。
示例6包括示例1-5中任一个的主题,并且其中,确定热操作是否将满足目标服务质量包括确定热操作是否将满足目标货币成本。
示例7包括示例1-6中任一个的主题,并且其中,所述电路进一步建立租户分区,所述租户分区包括所述分解系统中的资源子集。
示例8包括示例1-7中任一个的主题,并且其中,所述电路进一步从舱管理器获得修改租户分区中资源子集的许可。
示例9包括示例1-8中任一个的主题,并且其中,所述电路进一步从舱管理器获得修改租户分区中资源子集的热操作的许可。
示例10包括示例1-9中任一个的主题,并且其中,所述电路进一步利用所述分解系统中的资源来执行数据访问操作。
示例11包括示例1-10中任一个的主题,并且其中,所述电路进一步分析与客户端计算设备相关联的请求,以确定每个客户端计算设备的数据访问模式。
示例12包括示例1-11中任一个的主题,并且其中,所述电路进一步标识随机数据访问模式或顺序数据访问模式中的至少一个。
示例13包括示例1-12中任一个的主题,并且其中,所述电路进一步将与随机数据访问模式相关联的数据访问请求路由到数据存储设备集,所述数据存储设备集被配置为用于随机数据访问模式。
示例14包括示例1-13中任一个的主题,并且其中,所述电路进一步将与顺序数据访问模式相关联的数据访问请求路由到数据存储设备集,所述数据存储设备集被配置为用于顺序数据访问模式。
示例15包括示例1-14中任一个的主题,并且其中,所述电路进一步将与顺序数据访问模式相关联的请求分组为一个或多个批次。
示例16包括示例1-15中任一个的主题,并且其中,所述电路进一步作为分配给与请求相关联的一个或多个工作负载的优先级的函数对所述请求进行分组。
示例17包括示例1-16中任一个的主题,并且其中,所述电路进一步跨为随机数据访问模式配置的数据存储设备和为顺序数据存储访问模式配置的数据存储设备复制数据。
示例18包括一个或多个机器可读存储介质,所述机器可读存储介质包括存储在其上的多个指令,所述多个指令响应于被执行,使得计算设备获得要由分解系统中的资源集执行的工作负载;查询所述分解系统中的滑架,以标识完成要使用内核加速的工作负载的一部分的执行的估计时间;以及响应于对完成工作负载的所述部分的执行的估计时间满足与工作负载相关联的目标服务质量的确定,将工作负载的所述部分分配给滑架用于加速。
示例19包括示例18的主题,并且其中,所述指令进一步使得所述计算设备确定热操作是否可用于调整完成工作负载的所述部分的执行的估计时间;以及响应于对热操作可用于调整估计时间的确定,使得热操作在滑架上执行。
示例20包括一种方法,所述方法包括:由计算设备获得要由分解系统中的资源集执行的工作负载;由计算设备查询所述分解系统中的滑架,以标识完成要使用内核加速的工作负载的一部分的执行的估计时间;以及由计算设备并且响应于对完成工作负载的所述部分的执行的估计时间满足与工作负载相关联的目标服务质量的确定,将工作负载的所述部分分配给滑架用于加速。
Claims (25)
1.一种计算设备,包括:
用于以下各项的电路:
获得要由分解系统中的资源集执行的工作负载;
查询所述分解系统中的滑架,以标识完成要使用内核加速的工作负载的一部分的执行的估计时间;以及
响应于对完成工作负载的所述部分的执行的估计时间满足与工作负载相关联的目标服务质量的确定,将工作负载的所述部分分配给滑架用于加速。
2.根据权利要求1所述的计算设备,其中,所述电路进一步用于:
确定热操作是否可用于调整完成工作负载的所述部分的执行的估计时间;以及
响应于对热操作可用于调整估计时间的确定,使得热操作在滑架上执行。
3.根据权利要求2所述的计算设备,其中,确定热操作是否可用于调整估计时间包括确定热操作是否将满足滑架上的一个或多个资源的能力和目标服务质量。
4.根据权利要求3所述的计算设备,其中,确定热操作是否将满足滑架上的一个或多个资源的能力包括确定滑架上对应冷却域中的资源是否能够在增加的温度下操作。
5.根据权利要求3所述的计算设备,其中,确定热操作是否将满足滑架上的一个或多个资源的能力包括确定滑架上的一个或多个散热资源是否能够以增加的性能操作。
6.根据权利要求3所述的计算设备,其中,确定热操作是否将满足目标服务质量包括确定热操作是否将满足目标货币成本。
7.根据权利要求1所述的计算设备,其中,所述电路进一步建立租户分区,所述租户分区包括所述分解系统中的资源子集。
8.根据权利要求7所述的计算设备,其中,所述电路进一步从舱管理器获得修改租户分区中资源子集的许可。
9.根据权利要求7所述的计算设备,其中,所述电路进一步从舱管理器获得修改租户分区中资源子集的热操作的许可。
10.根据权利要求1所述的计算设备,其中,所述电路进一步利用所述分解系统中的资源来执行数据访问操作。
11.根据权利要求10所述的计算设备,其中,所述电路进一步分析与客户端计算设备相关联的请求,以确定每个客户端计算设备的数据访问模式。
12.根据权利要求11所述的计算设备,其中,所述电路进一步标识随机数据访问模式或顺序数据访问模式中的至少一个。
13.根据权利要求11所述的计算设备,其中,所述电路进一步将与随机数据访问模式相关联的数据访问请求路由到数据存储设备集,所述数据存储设备集被配置为用于随机数据访问模式。
14.根据权利要求11所述的计算设备,其中,所述电路进一步将与顺序数据访问模式相关联的数据访问请求路由到数据存储设备集,所述数据存储设备集被配置为用于顺序数据访问模式。
15.根据权利要求14所述的计算设备,其中,所述电路进一步将与顺序数据访问模式相关联的请求分组为一个或多个批次。
16.根据权利要求14所述的计算设备,其中,所述电路进一步作为分配给与请求相关联的一个或多个工作负载的优先级的函数对所述请求进行分组。
17.根据权利要求11所述的计算设备,其中,所述电路进一步跨为随机数据访问模式配置的数据存储设备和为顺序数据存储访问模式配置的数据存储设备复制数据。
18.一个或多个机器可读存储介质,所述机器可读存储介质包括存储在其上的多个指令,所述多个指令响应于被执行,使得计算设备:
获得要由分解系统中的资源集执行的工作负载;
查询所述分解系统中的滑架,以标识完成要使用内核加速的工作负载的一部分的执行的估计时间;以及
响应于对完成工作负载的所述部分的执行的估计时间满足与工作负载相关联的目标服务质量的确定,将工作负载的所述部分分配给滑架用于加速。
19.根据权利要求18所述的一个或多个机器可读存储介质,其中,所述指令进一步使得所述计算设备:
确定热操作是否可用于调整完成工作负载的所述部分的执行的估计时间;以及
响应于对热操作可用于调整估计时间的确定,使得热操作在滑架上执行。
20.一种方法,包括:
由计算设备获得要由分解系统中的资源集执行的工作负载;
由计算设备查询所述分解系统中的滑架,以标识完成要使用内核加速的工作负载的一部分的执行的估计时间;以及
由计算设备并且响应于对完成工作负载的所述部分的执行的估计时间满足与工作负载相关联的目标服务质量的确定,将工作负载的所述部分分配给滑架用于加速。
21.根据权利要求20所述的方法,进一步包括:
确定热操作是否可用于调整完成工作负载的所述部分的执行的估计时间;以及
响应于对热操作可用于调整估计时间的确定,使得热操作在滑架上执行。
22.根据权利要求21所述的方法,其中,确定热操作是否可用于调整估计时间包括确定热操作是否将满足滑架上的一个或多个资源的能力和目标服务质量。
23.根据权利要求22所述的方法,其中,确定热操作是否将满足滑架上的一个或多个资源的能力包括确定滑架上对应冷却域中的资源是否能够在增加的温度下操作。
24.根据权利要求22所述的方法,其中,确定热操作是否将满足滑架上的一个或多个资源的能力包括确定滑架上的一个或多个散热资源是否能够以增加的性能操作。
25.根据权利要求22所述的方法,其中,确定热操作是否将满足目标服务质量包括确定热操作是否将满足目标货币成本。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/829814 | 2020-03-25 | ||
US16/829,814 US11115497B2 (en) | 2020-03-25 | 2020-03-25 | Technologies for providing advanced resource management in a disaggregated environment |
PCT/US2020/064605 WO2021194579A1 (en) | 2020-03-25 | 2020-12-11 | Technologies for providing advanced resource management in a disaggregated environment |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115136565A true CN115136565A (zh) | 2022-09-30 |
Family
ID=71515876
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080097549.0A Pending CN115136565A (zh) | 2020-03-25 | 2020-12-11 | 用于在分解环境中提供先进资源管理的技术 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11115497B2 (zh) |
EP (1) | EP4128710A4 (zh) |
CN (1) | CN115136565A (zh) |
WO (1) | WO2021194579A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200136921A1 (en) * | 2019-09-28 | 2020-04-30 | Intel Corporation | Methods, system, articles of manufacture, and apparatus to manage telemetry data in an edge environment |
US20210117247A1 (en) * | 2020-12-24 | 2021-04-22 | Intel Corporation | Dynamic resource management mechanism |
US20220317888A1 (en) * | 2021-03-31 | 2022-10-06 | Netapp, Inc. | Quality of service management mechanism |
US20220321403A1 (en) * | 2021-04-02 | 2022-10-06 | Nokia Solutions And Networks Oy | Programmable network segmentation for multi-tenant fpgas in cloud infrastructures |
US20240031306A1 (en) * | 2022-07-25 | 2024-01-25 | Rovi Guides, Inc. | Method and system for allocating computation resources for latency sensitive services over a communication network |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050060659A1 (en) * | 2003-09-11 | 2005-03-17 | Dell Products L.P. | System, method and software for communicating the effects of user preference settings in an information handling system |
US7606944B2 (en) * | 2007-05-10 | 2009-10-20 | Dot Hill Systems Corporation | Dynamic input/output optimization within a storage controller |
US9098320B2 (en) * | 2009-12-23 | 2015-08-04 | Savvis Inc. | Systems and methods for automatic provisioning of a user designed virtual private data center in a multi-tenant system |
US8849688B2 (en) * | 2012-07-02 | 2014-09-30 | International Business Machines Corporation | System for assignment routing, delegation and reassignment |
CN105900540B (zh) * | 2013-03-07 | 2018-12-07 | 贝斯莱尔科技有限公司 | 数据中心控制方法和系统 |
US20180024964A1 (en) * | 2016-07-19 | 2018-01-25 | Pure Storage, Inc. | Disaggregated compute resources and storage resources in a storage system |
US10034407B2 (en) * | 2016-07-22 | 2018-07-24 | Intel Corporation | Storage sled for a data center |
US20180150256A1 (en) * | 2016-11-29 | 2018-05-31 | Intel Corporation | Technologies for data deduplication in disaggregated architectures |
EP3547606B1 (en) * | 2016-12-12 | 2021-02-17 | Huawei Technologies Co., Ltd. | Permission management method, related device, and system |
US10547673B2 (en) * | 2017-02-09 | 2020-01-28 | International Business Machines Corporation | Data and task reallocation in distributed computing platforms |
US10379898B2 (en) * | 2017-03-24 | 2019-08-13 | International Business Machines Corporation | Virtual machine consolidation |
US11243807B2 (en) * | 2017-05-04 | 2022-02-08 | Salesforce.Com, Inc. | Systems, methods, and apparatuses for implementing a scheduler and workload manager with workload re-execution functionality for bad execution runs |
US20190044809A1 (en) * | 2017-08-30 | 2019-02-07 | Intel Corporation | Technologies for managing a flexible host interface of a network interface controller |
US20190068466A1 (en) * | 2017-08-30 | 2019-02-28 | Intel Corporation | Technologies for auto-discovery of fault domains |
US11573900B2 (en) * | 2019-09-11 | 2023-02-07 | Intel Corporation | Proactive data prefetch with applied quality of service |
-
2020
- 2020-03-25 US US16/829,814 patent/US11115497B2/en active Active
- 2020-12-11 WO PCT/US2020/064605 patent/WO2021194579A1/en unknown
- 2020-12-11 EP EP20927615.3A patent/EP4128710A4/en active Pending
- 2020-12-11 CN CN202080097549.0A patent/CN115136565A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US11115497B2 (en) | 2021-09-07 |
EP4128710A1 (en) | 2023-02-08 |
WO2021194579A1 (en) | 2021-09-30 |
US20200228626A1 (en) | 2020-07-16 |
EP4128710A4 (en) | 2024-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11055149B2 (en) | Technologies for providing workload-based sled position adjustment | |
CN115136565A (zh) | 用于在分解环境中提供先进资源管理的技术 | |
EP3731063B1 (en) | Technologies for providing adaptive power management in an accelerator sled | |
EP3731091A1 (en) | Technologies for providing an accelerator device discovery service | |
EP3731090A1 (en) | Technologies for providing resource health based node composition and management | |
US12073255B2 (en) | Technologies for providing latency-aware consensus management in a disaggregated architecture | |
US10579547B2 (en) | Technologies for providing I/O channel abstraction for accelerator device kernels | |
US20200073849A1 (en) | Technologies for remote networked accelerators | |
US10678737B2 (en) | Technologies for providing dynamic communication path modification for accelerator device kernels | |
US11531635B2 (en) | Technologies for establishing communication channel between accelerator device kernels | |
EP3757786A1 (en) | Technologies for providing inter-kernel application programming interfaces for an accelerated architecture | |
EP3757785B1 (en) | Technologies for facilitating remote memory requests in accelerator devices | |
EP3731094A1 (en) | Technologies for providing inter-kernel flow control for accelerator device kernels | |
EP3739448B1 (en) | Technologies for compressing communication for accelerator devices | |
CN112565110A (zh) | 用于针对可变的超额预订比率的交换链路和层管理的技术 | |
US12131183B2 (en) | Technologies for providing efficient message polling | |
EP3731095A1 (en) | Technologies for providing inter-kernel communication abstraction to support scale-up and scale-out | |
US20190324802A1 (en) | Technologies for providing efficient message polling | |
CN117234297A (zh) | 用于提供针对超融合基础结构的高效池化的技术 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |