CN110178118B - 硬件实现的负载平衡 - Google Patents
硬件实现的负载平衡 Download PDFInfo
- Publication number
- CN110178118B CN110178118B CN201780083496.5A CN201780083496A CN110178118B CN 110178118 B CN110178118 B CN 110178118B CN 201780083496 A CN201780083496 A CN 201780083496A CN 110178118 B CN110178118 B CN 110178118B
- Authority
- CN
- China
- Prior art keywords
- hardware acceleration
- acceleration device
- request
- load
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001133 acceleration Effects 0.000 claims abstract description 835
- 238000000034 method Methods 0.000 claims description 50
- 230000008878 coupling Effects 0.000 claims description 9
- 238000010168 coupling process Methods 0.000 claims description 9
- 238000005859 coupling reaction Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 description 18
- 230000004044 response Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 239000000872 buffer Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006855 networking Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007177 brain activity Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000009423 ventilation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
- G06F15/161—Computing infrastructure, e.g. computer clusters, blade chassis or hardware partitioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
提供一种服务器系统,其包括多个服务器,每个服务器包括至少一个硬件加速设备和至少一个处理器,该至少一个处理器由内部数据总线通信地耦合到硬件加速设备并执行主机服务器实例,多个服务器的主机服务器实例共同提供软件平面,多个服务器的硬件加速设备共同提供实现多个硬件加速服务的硬件加速平面,其中每个硬件加速设备在存储器中维护包含负载数据的数据结构,该负载数据指示多个目标硬件加速设备中的每个目标硬件加速设备的负载,并且其中请求硬件加速设备将该请求路由到目标硬件加速设备,该目标硬件加速设备由数据结构中的负载数据指示为具有比其他目标硬件加速设备更低的负载。
Description
背景技术
服务器系统使用负载平衡过程来将请求定向到服务器系统中负载较少的服务器,以在处置大量请求时提高效率。许多当前的负载平衡解决方案是软件驱动的,并且用相对陈旧的负载数据来执行负载平衡过程。因此,当根据这些负载平衡过程将请求路由到服务器时,到请求到达该服务器时,该服务器上的负载可能已经增加超过了由软件驱动的负载平衡器基于陈旧负载数据所计算出的负载,导致该服务器无法及时服务该请求。
发明内容
为了解决上述问题,提供了一种用于硬件实现的负载平衡的服务器系统。服务器系统可以包括多个服务器,每个服务器包括至少一个硬件加速设备和至少一个处理器,该至少一个处理器由内部数据总线通信地耦合到硬件加速设备并执行主机服务器实例,多个服务器的主机服务器实例共同提供软件平面,并且多个服务器的硬件加速设备共同提供实现多个硬件加速服务的硬件加速平面,其中每个硬件加速设备在存储器中维护包含负载数据的数据结构,该负载数据指示实现多个硬件加速服务中的指定硬件加速服务的多个目标硬件加速设备中的每个目标硬件加速设备的负载,并且其中当请求硬件加速设备路由对指定硬件加速服务的请求时,请求硬件加速设备将请求路由到目标硬件加速设备,目标硬件加速设备由数据结构中的负载数据指示为具有比其他目标硬件加速设备更低的负载。
提供本发明内容是为了以简化的形式介绍一些概念,这些概念将在下面的具体实施方式中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开的任何部分中提到的任何或所有缺点的实现。
附图说明
图1是示出本说明书的示例服务器系统的示意图。
图2是示出图1的示例服务器系统的服务器集群的示意图。
图3是图1的示例服务器系统的示例硬件加速设备的示意图。
图4是示出对图1的示例服务器系统的硬件加速服务的示例请求的示意图。
图5继续对图4的硬件加速服务的示例请求。
图6是图示多步骤请求的图1的服务器系统的示意图。
图7是用于基于硬件的负载平衡的示例方法的流程图,该示例方法可以使用图1的此服务器系统或其他合适的服务器系统硬件来实现。
图8是示出图7的方法的附加步骤的另一流程图。
图9是可以在图1的服务器系统中使用的示例性计算机硬件的示意图。
具体实施方式
图1图示了包括多个服务器102的服务器系统100,多个服务器102共同提供软件平面104和硬件加速平面106。软件平面104包括软件驱动的组件的集合(每个软件驱动的组件由图1中的符号“S”来标注),并且硬件加速平面106包括硬件加速的组件的集合(每个硬件加速的组件由图1中的符号“H”来标注)。在一个示例中,每个主机组件可以对应于由多个服务器102之一的一个或多个处理器所执行的主机服务器实例。在该示例中,每个硬件加速组件可以对应于包括用于实现功能的硬件逻辑的硬件加速设备,诸如现场可编程门阵列(FPGA)设备、大规模并行处理器阵列(MPPA)设备、图形处理单元(GPU)、专用集成电路(ASIC)、多处理器片上系统(MPSoC)等。
术语“硬件”加速组件还可以涵盖利用硬件加速设备来执行功能的其他方式,诸如例如,a)在硬ASIC逻辑等中实现至少一些任务的情况;b)在软(可配置)FPGA逻辑等中实现至少一些任务的情况;c)至少一些任务作为在FPGA软件处理器覆盖等上的软件运行的情况;d)至少一些任务作为在硬件ASIC处理器等上的软件运行的情况,或其任何组合。应当理解,硬件加速平面106可以表示诸如例如FPGA设备之类的硬件加速设备的同构集合。另一方面,硬件加速平面106可以表示不同类型的硬件加速设备的异构集合,不同类型的硬件加速设备包括具有不同的相应处理能力和架构的不同类型的FPGA设备、FPGA设备和其他类型的硬件加速设备的混合等等。
处理器通常使用时间执行范例来执行操作,例如通过使用其处理器硬件线程中的每个来顺序地执行机器可读指令。相反,硬件加速设备可以使用空间范例来执行操作,例如通过使用大量并行逻辑元件来执行计算任务。因此,与处理器和软件驱动的组件相比,硬件加速组件可以在更少的计算时间内执行可以被分解成许多并行任务的一些操作。因此,与本文所使用的术语“硬件加速设备”相关联的“加速”限定器(qualifier)可以反映其用于加速由服务器的处理器所执行的功能的潜力。
在一个示例中,服务器系统100对应于经由标准网络基础设施通信地耦合多个服务器102的数据中心环境。转到图2,多个服务器102被组织成多个服务器集群200,每个服务器集群包括机架顶部(TOR)网络交换机202、多个服务器102中的两个或更多个服务器(诸如服务器206、208、...和210)、以及通信地耦合机架顶部网络交换机202和两个或更多个服务器的背板204。例如,每个服务器集群200可以对应于服务器机架,该服务器机架为TOR交换机202和在相同服务器机架中物理上彼此靠近定位的多个服务器206、208、...和210提供物理结构、通风等。通信地耦合服务器机架中的每个服务器的背板204可以促进在相同服务器机架中的服务器之间的网络分组的低延迟和高带宽交换。
如图2中所图示,服务器集群200中的每个服务器206、208、...、210包括至少一个硬件加速设备212和至少一个处理器214,至少一个处理器214由内部数据总线216通信地耦合到硬件加速设备212并执行主机服务器实例218。如所示,每个服务器可以包括多于一个处理器,诸如附加处理器220等等。多于一个处理器可以各自执行分开的主机服务器实例218,或者可以共同执行单个主机服务器实例。在一个示例中,内部数据总线216可以采取例如外围组件互连快速(PCIe)链路的形式。备选地,可以使用其他格式的数据总线。应当理解,术语“内部数据总线”中使用的“内部”指的是以下事实:数据总线的至少一部分通常被容纳在与服务器的处理器相同的壳体(其用作法拉第笼)中,并且应该被理解为涵盖连接壳体中的服务器的处理器与被插入到服务器的电路板上的PCIe插槽中的内部安装的硬件加速组件(作为一个示例)的数据总线,或者连接到被插入到例如服务器的壳体的外部表面上的PCIe端口的外部耦合的硬件加速组件的数据总线。如所图示,硬件加速设备212还经由网络接口控制器(NIC)218间接耦合到处理器214,网络接口控制器(NIC)218也由内部数据总线216耦合到处理器214,内部数据总线216例如可以包括一个或多个内部数据总线作为子组件。
最后,如图2中所图示,服务器集群200中的每个服务器208的硬件加速设备212耦合到TOR网络交换机202。因此,在所图示的示例中,硬件加速设备212提供处理器214通过其来与服务器集群200中的其他服务器208,...,210以及与服务器系统100的多个服务器102中的其他服务器交互的唯一路径。除了其他效果之外,图2的架构还允许耦合到处理器214的硬件加速设备212对从TOR网络交换机202接收和/或发送到TOR网络交换机202的分组执行处理(例如,通过执行加密、压缩等)而不增加一个或多个处理器214、220等上的计算负担。
在该示例中,每个主机服务器实例218由内部数据总线216耦合到至少一个硬件加速设备212,使得这些组件在物理上耦合在一起作为服务器。硬件加速设备和由相同服务器中的处理器执行的主机服务器组件在本文中可以被称为“本地”硬件加速设备和“本地”主机服务器实例,以将其与对应于其他服务器的其他硬件加速设备和主机服务器实例区分开。另一方面,其他服务器的硬件加速设备和主机服务器实例在本文中可以被称为“远程”硬件加速设备和“远程”主机服务器实例,以将它们与特定服务器的本地硬件加速设备和本地主机服务器实例区分开。在此上下文中对“远程”的使用并不需要将远程设备定位在来自请求设备的广域网(WAN)上,因为它们通常在相同数据中心内被提供。另外,相同服务器集群内的服务器可以被称为“对等”服务器,以将它们与服务器系统100中不在该特定服务器集群中的其他服务器区分开。
转回到图1,由多个服务器102的处理器执行的主机服务器实例共同提供软件平面104,并且多个服务器102的硬件加速设备共同提供硬件加速平面106。图1示出了软件平面104的示例本地主机服务器实例108,示例本地主机服务器实例108由处理器执行,该处理器由内部数据总线112耦合到硬件加速平面106的本地硬件加速组件110。该配对形成多个服务器102中的单个服务器。更一般地,图1示出了软件平面104通过多个单独的内部数据总线耦合到硬件加速平面106,图1将其统称为本地(H)到本地(S)耦合114。
本地主机服务器实例108还可以与硬件加速平面106中的其他远程硬件加速设备间接通信。例如,本地主机服务器实例108经由本地硬件加速设备110来访问远程硬件加速设备116,本地硬件加速设备110可以经由网络基础设施118来与远程硬件加速设备116通信。在一个示例中,网络基础设施118包括公共网络基础设施,以经由TOR网络交换机将服务器集群内的服务器耦合在服务器机架内。如图1中所图示,服务器系统100包括多个服务器集群,每个服务器集群具有相关联的TOR网络交换机,并且可以具有图2中描述的架构。网络基础设施118还可以包括将TOR网络交换机连接在一起的更高级别交换基础设施120(L1)和(L2)。更高级别交换基础设施120可以采取任何合适的联网架构的形式,并且可以由任何合适的(多个)路由协议来驱动。在所图示的示例中,更高级别基础设施120包括汇聚交换机L1和核心交换机L2的集合。然而,应当理解,更高级别交换基础设施可以包括任何合适数目的交换机级别。
因此,如图1中所图示,软件平面104的每个主机服务器实例可以通过相应的硬件加速设备和网络基础设施118来与其他主机服务器实例通信。因此,应当理解,用来将每个主机服务器实例通信地耦合到软件层104中的其他主机服务器实例的相同网络基础设施118还将每个硬件加速设备通信地耦合到硬件加速层106中的其他硬件加速设备。在服务器系统100的示例中,软件平面104中的主机服务器实例之间的交互独立于硬件加速平面106中的硬件加速设备之间的交互。特别地,例如,两个或更多个硬件加速设备可以在来自软件平面104的主机服务器实例的任何定向或干预之外在彼此之间发送和消耗网络分组,并且主机服务器实例不会“知道”硬件加速平面106中正在发生的任何特定交互或以其他方式使其成为计算负担。另一方面,主机服务器实例可以通过发出请求来发起在硬件加速平面106中发生的交互,该请求可以由针对该特定主机服务器实例的本地硬件加速设备读取和路由。
在一个示例中,服务器系统100使用以太网协议在网络基础设施118上传输IP分组。在该示例中,服务器系统100中的多个服务器102的每个主机服务器实例可以与针对包含执行该主机服务器实例的处理器的特定服务器的单个物理IP地址相关联。相同服务器中的本地硬件加速设备可以采用相同的IP地址。服务器可以通过若干方法确定传入分组是否以本地主机服务器实例而不是本地硬件加速组件为目的地。例如,以本地硬件加速设备为目的地的分组可以被制定为用户数据报协议(UDP)分组,其选定被指派给本地硬件加速设备的特定端口。在主机方面,以本地主机服务器实例为目的地的分组不被制定为UDP分组。在另一示例中,可以基于每个分组中的状态标志的值来区分属于硬件加速平面106的分组与属于软件平面104的分组。
硬件加速平面106实现多个硬件加速服务。例如,多个硬件加速服务可以包括例如加密服务、昂贵的压缩服务、深度神经网络服务、生物信息学服务、web搜索排名服务、决策树计算服务等。应当理解,上面提及的硬件加速服务仅仅是示例性的,并且上面未具体提及的任何其他硬件加速服务也可以被包括在多个硬件加速服务中。
图3图示了硬件加速层106的示例硬件加速设备300,其例如可以被实现为FPGA设备。应当理解,硬件加速设备的形式不限于所图示的示例,并且可以使用其他硬件加速设备架构。
如所图示,示例硬件加速设备300包括桥接器302,其用于将硬件加速设备300经由NIC接口304耦合到网络接口控制器并且经由TOR接口306耦合到本地机架顶部交换机。在一个示例中,桥接器302支持两种模式。在第一模式中,桥接器302提供允许来自NIC或TOR的流量流入硬件加速设备300、并且允许来自硬件加速设备300的流量流出到NIC和TOR的数据路径。硬件加速设备300可以对通过桥接器302流动的流量执行处理,包括多个硬件加速服务中的硬件加速服务,诸如例如压缩、加密、web搜索排名等。在第二模式中,桥接器302支持允许流量在NIC和TOR之间流动而不由硬件加速设备300进一步处理的数据路径。在内部,桥接器可以由缓冲接收分组的各种先进先出缓冲器(FIFO)(308、310)以及将分组路由到其期望目的地的各种选择器和仲裁逻辑组成。旁路控制312控制桥接器302以第一模式还是第二模式操作。
如图3中进一步所图示,存储器控制器314管控硬件加速设备300和本地存储器316之间的交互,本地存储器316诸如包含硬件加速设备300的服务器的DRAM存储器。例如,硬件加速设备300可以更新本地存储器316的存储器页面,该存储器页面可以由该服务器的本地处理器执行的本地主机服务器实例可访问。
主机接口318提供使硬件加速设备300能够与执行本地主机服务器实例的本地处理器交互的功能性。在一个示例中,主机接口318可以经由诸如PCIe链路之类的内部数据总线来与本地主机服务器实例交互。备选地,硬件加速设备300可以通过更新本地主机服务器实例可访问的本地存储器316的存储器页面,以低延迟来与本地主机服务器实例交互。
在一个示例中,硬件加速设备300可以包括路由器320,以用于经由传送组件322来在硬件加速设备300的各种内部组件之间以及在硬件加速设备300和外部组件之间路由消息。每个这样的端点与相应的端口相关联。在所图示的示例中,路由器320耦合到存储器控制器314、主机接口318、传送组件322和应用逻辑324。
在硬件加速设备300的FPGA实现中,应用逻辑324可以包括可编程逻辑,其用于实现多个硬件加速服务的特定硬件加速服务。在FPGA实现中,应用逻辑324可以是可重新编程的,以将硬件加速设备300从实现第一硬件加速服务改变为第二硬件加速服务。
传送组件322制定用于传输到诸如远程硬件加速设备之类的远程实体的分组,并且从硬件加速平面106中的远程加速设备接收分组。
在所图示的示例中,传送组件322耦合到3端口交换机326,其在被激活时可以通过在NIC和TOR之间以及在NIC或TOR与和硬件加速设备本身相关联的本地端口之间路由分组来接管桥接器302的功能。3端口交换机326可以操作以在服务器系统100网络上安全地插入和移除硬件加速设备生成的网络分组,而不会损害经由桥接器302行进的本地主机服务器实例到TOR网络流量。
图4图示了针对示例服务器系统400的示例场景,该示例服务器系统400从由示例服务器系统400提供的服务的终端用户的客户端设备404接收客户端请求402。客户端请求402由示例服务器系统400的服务器负载平衡器(SLB)406接收。在该示例中,SLB例如可以是软件驱动的负载平衡器,其将客户端请求402路由到能够服务客户端请求402的软件平面的主机服务器实例。在所图示的示例中,SLB406将客户端请求402路由到示例主机服务器实例408的IP地址。在步骤(1)处,客户端请求402由示例本地硬件加速设备410接收,该示例本地硬件加速设备410经由内部数据总线耦合到执行本地示例主机服务器实例408的处理器。示例本地硬件加速设备410读取客户端请求402,并且确定客户端请求402是以示例本地主机服务器实例408为目的地的。因此,在步骤(2)处,示例本地硬件加速设备410经由内部数据总线(诸如例如,PCIe链路)将客户端请求402传递到示例本地主机服务器实例408。示例本地主机服务器实例408接收客户端请求402,并根据示例本地主机服务器实例408的服务器应用逻辑来处理客户端请求402。
在所图示的示例中,示例本地主机服务器实例408指定完全服务客户端请求402所需的、由硬件加速平面实现的多个硬件加速服务中的两个硬件加速服务。应当理解,在该特定示例中,示例本地主机服务器实例408确定哪些硬件加速服务是所需的,但在其他示例中,诸如本地硬件加速设备410或SLB 406之类的不同实体可以确定哪些硬件加速服务对于完全服务客户端请求402是所需的。
因此,在步骤(3)处,示例本地服务器实例408发送对一个或多个指定硬件加速服务的请求。如所图示,示例本地硬件加速设备410读取请求,并且如果示例本地硬件加速设备410没有实现一个或多个指定硬件加速服务,则将请求路由到合适的远程硬件加速设备。在该具体示例中,对指定硬件加速服务的请求是多部分请求,其包括对由第一服务器集群A实现的类型A的第一指定硬件加速服务以及然后由第二服务器集群B实现的第二指定硬件加速服务B的顺序请求。在一个示例中,顺序地实现多部分请求中的每个指定硬件加速服务。在另一示例中,多部分请求中的每个指定硬件加速服务由若干远程硬件加速设备同时实现,每个远程硬件加速设备实现多部分请求中的指定硬件加速服务之一。在另一示例中,多路径请求包括用于多个指定硬件加速服务的顺序和并行步骤。
暂时转向图5,当示例本地硬件加速设备410读取源自示例本地主机服务器实例408的请求时,示例本地硬件加速设备410确定该请求针对一个或多个指定硬件加速服务。特别地,示例本地硬件加速设备410确定该请求需要由实现类型A的第一指定硬件加速服务的远程硬件加速设备来服务。为了将请求路由到实现类型A的第一指定硬件加速服务的合适的远程硬件加速设备,示例本地硬加速设备410访问数据结构,该数据结构包含来自包含示例本地硬件加速设备的服务器的本地存储器的负载数据。
在一个示例中,每个硬件加速设备在存储器中维护数据结构412,该数据结构412包含负载数据414,负载数据414指示实现多个硬件加速服务的指定硬件加速服务418的多个目标硬件加速设备416中的每个的负载。即,每个硬件加速设备针对实现在硬件加速平面中实现的每个硬件加速服务的每个目标硬件加速设备的负载数据414维护其自己的数据结构。在一个示例中,由每个硬件加速设备维护的数据结构包括针对实现硬件加速平面中的每个硬件加速服务的特定硬件加速服务的每个目标硬件加速设备的负载数据414。
在另一示例中,由每个硬件加速设备维护的数据结构包括针对实现多个硬件加速服务的子集中的每个的目标硬件加速设备的负载数据414。特别地,每个硬件加速设备可以维护包含针对目标硬件加速设备的数据的数据结构,该目标硬件加速设备实现对于该硬件加速设备经常被请求的特定硬件加速服务。应当理解,这些示例子集是示例性的,并且负载数据414的其他组合可以被存储在数据结构中。
在图5中所图示的示例中,针对每个目标硬件加速设备416的负载数据包括在0到255之间的离散值。应当理解,可以利用任何范围的值来表示负载数据。另外,在其他示例中,负载数据不被存储为单个离散值。例如,负载数据414可以包括多个数据类型和值。诸如例如,针对目标硬件加速设备的排队请求的数目、先前请求的最近处理时间、基于队列中的请求的数目和类型的估计、排队请求的总大小、用于接收对请求的响应的往返时间、以及可以指示目标硬件加速设备的负载的任何其他合适类型的数据。
在一个示例中,当请求硬件加速设备路由对指定硬件加速服务的请求时,请求硬件加速设备将请求路由到目标硬件加速设备,该目标硬件加速设备由数据结构中的负载数据指示为具有比其他目标硬件加速设备更低的负载。在图5中所图示的示例中,在步骤(4)处,示例本地硬件加速设备410是请求硬件加速设备,其在步骤(3)处确定将从示例本地主机服务器实例接收的请求路由到何处。因此,请求硬件加速设备(在该示例中为410)读取请求,确定该请求需要由实现类型A的指定硬件加速服务的远程硬件加速设备来服务,并确定多个目标硬件加速设备416中的哪个被数据结构中的负载数据指示为具有比其他目标硬件加速设备更低的负载。即,在所图示的示例中,请求硬件加速设备确定存在实现类型A的指定硬件加速服务的四个可能的目标硬件加速设备。如所示,存在服务器集群A,其包括实现类型A的相同指定硬件加速服务的四个目标硬件加速设备。接下来,请求硬件加速设备(在该示例中为410)确定服务器集群A中的目标硬件加速设备A1当前在数据结构中具有比服务器集群A中的其他目标硬件加速设备的负载数据更低的负载数据。应当理解,在一些示例中,并非服务器集群中的所有硬件加速设备都可以实现相同的硬件加速服务。另外,虽然仅一个服务器集群(服务器集群A)被描绘为实现类型A的指定硬件加速服务,但是服务器系统100中的任何数目的服务器集群可以潜在地实现所设计的硬件加速服务。因此,数据结构412可以包括多个服务器集群中的每个服务器集群的多个目标硬件加速设备,多个目标硬件加速设备都实现指定硬件加速服务。
因此,在确定负载数据指示目标硬件加速设备A1在实现类型A的指定硬件加速服务的服务器集群A中具有最低负载之后,请求硬件加速设备(在该示例中,其是示例本地硬件加速设备410)在步骤(4)处经由网络基础设施将对类型A的指定硬件加速服务的请求路由到目标硬件加速设备A1。
在一个示例中,当请求硬件加速设备将对指定硬件加速服务的请求路由到目标硬件加速设备时,请求硬件加速设备基于请求的一个或多个属性来更新其数据结构412中针对目标硬件加速设备的负载数据414。因此,在图5所图示的示例中,在步骤(4)处,当请求硬件加速设备(当前为410)将请求路由到目标硬件加速设备A1时,请求硬件加速设备更新其数据结构412中的负载数据414。例如,请求硬件加速设备(当前为410)可以推测性地增加针对目标硬件加速设备A1的负载数据414的值,因为请求将潜在地增加其负载,或者可以如下所述地接收包含来自硬件加速设备A1的实际负载数据的消息(诸如确认消息)。
在所图示的示例中,针对目标硬件加速设备A1的负载数据从值“100”被更新为值“200”。应当理解,取决于负载数据的值,可以以不同的方式更新负载数据。在一些示例中,负载数据包括存储针对不同负载属性的原始值的多个数据字段,诸如队列中的请求的数目、请求的大小、处理请求的历史时间等。在一个示例中,请求的一个或多个属性选自由以下组成的组中:请求的大小、指定硬件加速服务的类型、实现指定硬件加速服务的历史时间、针对目标硬件加速设备的历史数据以及请求的分组数据。请求的大小可以包括正在被发送的请求的总分组大小,或者将由指定硬件加速服务处理的数据的总大小。指定硬件加速服务的类型可以包括对特定指定硬件加速服务需要多少处理资源来实现的估计。实现指定硬件加速服务的历史时间可以包括关于硬件加速设备根据先前请求实现指定硬件加速服务的处理时间的过去信息。针对目标硬件加速设备的历史数据可以包括关于特定目标硬件加速设备服务请求的处理时间的过去信息。请求的分组数据可以包括各种分组数据,诸如由请求硬件加速设备可读的、报头中的数据。应当理解,请求的一个或多个属性的上述示例仅仅是示例性的,并且请求硬件加速设备还可以利用上面未具体提及的、请求的任何其他属性,以通过对请求将在接收硬件加速设备上放置的处理负载或负担的估计来推测性地更新其负载数据。
之后,如果请求硬件加速设备随后路由对类型A的指定硬件加速服务的新请求,则目标硬件加速设备A1可能不再是在实现类型A的指定硬件加速服务的其他目标硬件加速设备之中具有最低负载的特定目标硬件加速设备416。在所图示的示例中,针对目标硬件加速设备A1的负载数据从值“100”被更新为值“200”,并且如所示,其不再具有低于其他目标硬件加速设备的负载值。
因此,请求硬件加速设备(在该示例中为410)会将新请求路由到另一目标硬件加速设备A4,并且然后在其自己的数据结构412中更新针对该目标硬件加速设备的负载数据。应当理解,虽然在这些示例中,“低于”其他负载数据的负载数据已经由小于另外的离散值的离散值来表示,但是可以使用任何合适的方法来比较负载数据以确定哪个负载数据“较低”。例如,针对负载数据的较大值可以反而指示较低负载,并且针对负载数据的较小值可以反而指示较高负载。备选地,确定哪个负载数据“较低”可以包括比较若干数据字段,诸如请求的数目、请求的大小、处理请求的历史时间等。
基于请求的一个或多个属性,请求硬件加速设备(在该示例中为410)可以准确地估计请求将在目标硬件加速设备上放置多少附加的负载或处理负担。然而,虽然请求硬件加速设备可以确定其自己的请求将添加多少附加负载,但是每个单独的请求硬件加速设备可能不具有关于硬件加速平面中也可能正在向该目标硬件加速设备发送请求的其他请求硬件加速设备的近实时信息。
在所图示的示例中,第二请求硬件加速设备420在与第一请求硬件加速设备(在该示例中为410)相似的时间也正在路由对类型A的相同指定硬件加速服务的请求。第一和第二请求硬件加速设备都维护它们自己的数据结构412,这可以指示目标硬件加速设备A1当前具有实现类型A的指定硬件加速服务的所有目标硬件加速设备中的最低负载。另外,第一和第二请求硬件加速设备在发送请求时都不“知道”对方正将请求路由到相同目标硬件加速设备。在路由它们自己的请求之后,第一和第二请求硬件加速设备都基于它们自己的请求的一个或多个属性更新其数据结构中的负载数据,并且不“知道”来自对方的请求的附加负载已被放置到目标硬件加速上设备A1上。因此,由第一和第二请求硬件加速设备二者分别维护的、针对目标硬件加速设备A1的负载数据可能无法准确地反映多少负载实际被放置在目标硬件加速设备A1上。因此,为了校正可能由于多个请求硬件加速设备向相同接收硬件加速设备发送请求而发生的估计误差,每个接收硬件加速设备被配置为将指示其实际当前负载的负载数据发送到其他硬件加速设备。
在一个示例中,当接收硬件加速设备从请求硬件加速设备接收请求时,接收硬件加速设备用包括负载数据的消息来响应,该负载数据指示接收硬件加速设备的当前负载。如图5中所图示,当接收硬件加速设备(在该示例中为目标硬件加速设备A1)在步骤(4)从请求硬件加速设备(在该示例中为硬件加速设备410)接收到对类型A的指定硬件加速服务的请求时,接收硬件加速设备A1将包括负载数据的消息发送回请求硬件加速设备410,该负载数据指示接收硬件加速设备A1的负载。应当理解,接收硬件加速设备A1“知道”它接收的所有请求,并且具有关于其自己的负载的准确实时知识。
因此,当请求硬件加速设备410接收到消息M1时,请求硬件加速设备410可以在其自己的数据结构412中更新针对目标硬件加速设备A1的负载数据,目标硬件加速设备A1是接收硬件加速设备A1。在基于消息M1更新其负载数据之后,请求硬件加速设备410将具有针对目标硬件加速设备A1的准确、当前和非推测性的负载数据,该负载数据既反映了由它自己的请求放置在目标硬件加速设备A1上的实际负载,也反映了由诸如第二请求硬件加速设备420之类的其他请求硬件加速设备放置在目标硬件加速设备A1上的负载。
在一个示例中,由接收硬件加速设备发送的消息是在网络协议中通常发送的确认(ACK)或否定确认(NACK)消息。接收硬件加速设备可以将多个ACK和NACK消息发送回到请求硬件加速设备,作为正常联网协议的一部分以协调请求在网络上的发送和接收,或者请求硬件加速设备和接收硬件加速设备之间的任何其他类型的网络流量。因此,在发送ACK或NACK消息之后,接收硬件加速设备可以适时地将负载数据添加到指示其当前负载的ACK或NACK消息。以这种方式,每个硬件加速设备可以背负在彼此之间的公共网络流量上,以便关于其当前负载适时地更新彼此。应当理解,上述ACK或NACK消息的消息示例仅仅是示例性的,并且可以利用在硬件加速平面中的硬件加速设备之间交换的任何网络消息来在硬件加速设备之间发送负载数据更新。
在另一示例中,每个硬件加速设备将指示其当前负载的负载数据周期性地发送到先前已向该硬件加速设备发送请求的一个或多个其他硬件加速设备。即,每个硬件加速设备可以被配置为在存储器中维护先前已向该硬件加速设备发送请求的所有请求硬件加速设备的列表,并且将针对其自己的当前负载的负载数据更新周期性地发送到其列表中的每个硬件加速设备。备选地,在通过网络交换分组时,每个硬件加速设备可以向其当前与之具有开放网络连接的每个其他硬件加速设备周期性地发送负载数据更新。可以选择任何合适的周期以供硬件加速设备发送负载数据更新。在一个示例中,每个硬件加速设备可以被配置为发送其数据结构中的所有负载数据,该所有负载数据包含针对多个其他硬件加速设备的负载数据。
在上述分散式方法中,随着时间的推移,随着每个硬件加速设备向硬件加速平面中的其他硬件加速设备的子集周期性地发送负载更新,硬件加速平面中的每个硬件加速设备最终可能会接收到针对硬件加速平面中的每个其他硬件加速设备的一些负载数据。因此,通过这些负载数据更新,可以使每个硬件加速设备“知道”服务器系统100中的所有其他硬件加速设备以及那些硬件加速设备中的每个硬件加速设备实现哪种类型的硬件加速服务。因此,虽然图5中所图示的示例仅将由请求硬件加速设备410维护的数据结构412描绘为包含针对四个目标硬件加速设备的负载数据,但是应当理解,数据结构412可以被维护为包含针对硬件加速平面106中的硬件加速设备中的所有或任何合适的子集的负载数据。
在一个示例中,每个硬件加速设备被配置为用数据结构的负载数据来更新由相关联的主机服务器实例可访问的存储器页面。例如,图3中图示的示例硬件加速设备300可以被配置为更新本地存储器316中的存储页面,该存储页面由执行本地主机服务器实例的本地处理器可访问。通过读取存储器页面,可以使本地主机服务器实例“知道”其本地硬件加速设备的负载以及硬件加速平面106中的其他远程硬件加速设备的负载。因此,软件平面104中的每个主机服务器实例可以以低延迟访问针对硬件加速平面106中的硬件加速设备的负载数据。因此,针对硬件加速平面106的集体负载数据可以被分配到软件平面104,软件平面104可以被配置为利用硬件加速平面106的当前负载平衡状态来改变更高级别服务行为,诸如产生不同的请求、请求针对服务器系统100的附加服务器实例等。
转回到图5,对指定硬件加速服务的请求可以由软件平面104的主机服务器实例生成,或者由硬件加速平面106的硬件加速设备生成。在图5中所图示的具体示例中,对指定硬件加速服务的请求源自多个主机服务器实例的请求主机服务器实例,并且请求硬件加速设备由内部数据总线耦合到执行请求主机服务器实例的处理器,并且请求硬件加速设备读取请求并将其路由到目标硬件加速设备。如所示,对类型A的指定硬件加速服务的请求源自示例本地主机服务器实例408,示例本地主机服务器实例408经由服务器的内部数据总线耦合到示例本地硬件加速设备410,该服务器容纳示例本地硬件加速设备410和执行示例本地主机服务器实例408的处理器二者。例如,在服务客户端请求402时,示例本地主机服务器实例408可能已经确定客户端请求402需要由硬件加速平面106实现的硬件加速服务,诸如例如,可以是硬件加速的web搜索排名服务。因此,示例本地主机服务器实例408选择web搜索排名服务作为指定硬件加速服务,并将对指定硬件加速服务的请求发送到示例本地硬件加速设备410,示例本地硬件加速设备410随后读取请求并将请求路由到目标硬件加速设备。
转到图6,在另一示例中,请求是对多个指定硬件加速服务的多步骤请求,并且指定硬件加速服务是多个指定硬件加速服务的下一指定硬件加速服务。在所图示的示例中,请求是对由硬件加速平面实现的多个硬件加速服务中的三个不同硬件加速服务A、B和C的多步骤请求。在该具体示例中,顺序地完成三个硬件加速服务A、B和C,其中沿着多步骤服务的路径的每个硬件加速设备实现三个不同硬件加速服务中的一个硬件加速服务,并且然后将多步骤请求路由到实现下一硬件加速服务的另一远程硬件加速设备。
如所图示,请求硬件加速设备(其在该示例中为硬件加速设备410)从另一硬件加速设备602接收多步骤请求,实现多个指定硬件加速服务中的一个,并将多步骤请求路由到实现下一指定硬件加速服务的目标硬件加速设备。如所示,请求硬件加速设备410从硬件加速平面中的另一硬件加速设备602接收多步骤请求。硬件加速设备602本身可能已经从硬件加速平面中的另一硬件加速设备接收到多步骤请求。在另一示例中,硬件加速设备602本身可能已经生成多步骤请求。在又一示例中,多步骤请求可能已经由软件平面的主机服务器实例生成,该主机服务器实例诸如可以是硬件加速设备602本地的主机服务器实例604。
在这些示例中,硬件加速设备602将多步骤请求路由到硬件加速设备410,硬件加速设备410实现类型C的硬件加速服务,类型C的硬件加速服务是多步骤请求的多个指定硬件加速服务中的一个。因此,在步骤(S1)处从另一硬件加速设备602接收到多步骤请求之后,硬件加速设备410根据请求实现类型C的硬件加速服务。硬件加速设备410还读取多步骤请求以确定下一指定硬件加速服务是类型A的指定硬件加速服务。类似于图5的示例,硬件加速设备410维护包含负载数据的数据结构,该负载数据针对实现类型A的下一指定硬件加速服务的多个目标硬件加速设备。基于数据结构的负载数据,硬件加速设备410在步骤(S2)处将多步骤请求路由到目标硬件加速设备A1。类似于硬件加速设备410,目标硬件加速设备A1从硬件加速设备410接收多步骤请求,实现类型A的指定硬件加速服务,并且然后在步骤(S3)处将多步骤请求路由到另一目标硬件加速设备B1,目标硬件加速设备B1基于其维护的包含负载数据的数据结构来实现针对多个设计硬件加速服务的多步骤请求的、类型B的最后指定硬件加速服务,该负载数据针对实现类型B的最后指定硬件加速服务的第二多个目标硬件加速设备。
转回到图4,由示例本地主机服务器实例408生成的请求也是对类型A和B的两个指定硬件加速服务的多步骤请求。示例本地主机服务器实例408在步骤(3)处将多步骤请求发送到其本地示例硬件加速设备410,本地示例硬件加速设备410在步骤(4)处读取多步骤请求并将多步骤请求路由到目标硬件加速设备A1。多步骤请求由服务器集群A中所有实现类型A的相同硬件加速服务的多个硬件加速设备之一、用类型A的硬件加速服务来服务。在步骤(6)处,多步骤请求由服务器集群A中的硬件加速设备路由到服务器集群B中实现多步骤请求的类型B的最后指定硬件加速服务的第二目标硬件加速设备B2。在实现类型B的最后指定硬件加速服务之后,多步骤请求已经被服务器系统100完全服务,响应422可以被路由回到终端用户的客户端设备404。在一个示例中,用于服务请求的最后硬件加速设备(在该示例中为第二目标硬件加速设备B2)可以将对经完全服务的请求的响应路由到SLB 406,SLB406然后可以将对客户端402请求的响应422路由回到客户端设备404。
在另一示例中,对多步骤请求的响应可以被路由回来、通过服务了多步骤请求的每个硬件加速设备、直到响应到达示例本地硬件加速设备410,然后示例本地硬件加速设备410可以将从经完全服务的请求得到的响应发送回到最初生成请求的示例本地主机服务器实例408。然后,示例本地主机服务器实例408可以根据其应用逻辑处理响应,诸如例如,通过经由示例本地硬件加速设备410向SLB 406发送响应,SLB 406继而将响应422路由到终端用户的客户端设备404。
在图4中所图示的示例中,示例本地硬件加速设备410最初将对类型A的指定硬件加速服务的请求发送到目标硬件加速设备A1。如先前所讨论的,基于由请求硬件加速设备维护的数据结构的数据来选择目标硬件加速设备A1,该请求硬件加速设备是示例本地硬件加速设备410,该数据结构包括负载数据,该负载数据指示目标硬件加速设备A1被估计为具有都实现类型A的相同硬件加速服务的多个目标硬件加速设备A1、A2、A3和A4中的最低负载。然而,如图5的示例中所讨论的,可能存在向请求硬件加速设备同时发送请求的附加的其他硬件加速设备。因此,到请求到达目标硬件加速设备A1时,服务器集群A中包含的多个目标硬件加速设备的该特定目标硬件加速设备可能不再是最少负载的硬件加速设备。
在另一示例操作中,服务器集群中的两个或更多个服务器的每个硬件加速设备实现多个硬件加速服务中的相同硬件加速服务,并且服务器集群中的每个硬件加速设备维护分开的数据结构的实例,该数据结构还包含近实时负载数据,该近实时负载数据指示服务器集群中的每个其他硬件加速设备的近实时负载。以这种方式,服务器系统可以以及时的方式在服务器集群内进行负载平衡,该服务器集群由经由其服务器的硬件加速设备提供相同硬件加速服务的服务器组成,从而可以基于请求到达集群内的服务器的硬件加速设备之后的当前负载数据来调整针对请求的目的地。
在另一示例操作中,当多个服务器集群中的服务器集群中的接收硬件加速设备从请求硬件加速设备接收到请求时,接收硬件加速设备基于数据结构的近实时负载数据来确定其当前负载是否高于阈值负载值和/或高于服务器集群中实现相同硬件加速服务的另一硬件加速设备,并且至少基于该确定,接收硬件加速设备将请求重定向到服务器集群中的另一硬件加速设备,数据结构的近实时负载数据指示该另一硬件加速设备具有比服务器集群中的其他硬件加速设备更低的负载。以这种方式,硬件加速设备可以首先通过检查其自己的负载是否低于阈值负载值来核查其是否具有服务请求的可用容量,并且如果是,则它可以处理该请求。如果负载高于阈值,那么硬件加速设备继续将请求路由到具有更低负载的硬件加速设备。在另一配置中,硬件加速设备可以总是将传入请求路由到具有所指示的更低负载的另一硬件加速设备,而无需查询当前负载是否高于负载阈值。对于近实时数据,其意味着硬件加速设备已经针对相同集群中的其对等硬件加速设备接收到的最新负载数据。应当理解,由于经由机架的背板以及经由TOR网络交换机的、集群内的高速通信,因此针对相同集群中的设备的负载数据可以极其快速地被更新,并且将尽可能接近实时。
现在转向图7,将描述由服务器系统实现的用于硬件实现的负载平衡的方法700。可以使用上述服务器系统100的硬件或其他合适的硬件来实现方法700。在702处,该方法可以包括:提供多个服务器,每个服务器包括至少一个硬件加速设备和至少一个处理器,该处理器由内部数据总线通信地耦合到硬件加速设备并执行主机服务器实例。多个服务器的主机服务器实例共同提供软件平面,并且多个服务器的硬件加速设备共同提供实现多个硬件加速服务的硬件加速平面。
如704处所示,可以在多个服务器集群中提供多个服务器,每个服务器集群包括机架顶部网络交换机、多个服务器中的两个或更多个服务器、以及通信地耦合机架顶部网络交换机和两个或更多个服务器的背板。
在706处,该方法可以包括:在每个硬件加速设备处,在存储器中维护包含负载数据的数据结构,该负载数据指示实现多个硬件加速服务中的指定硬件加速服务的多个目标硬件加速设备中的每个目标硬件加速设备的负载。
在708处,该方法可以包括:在硬件加速设备中的一个硬件加速设备处,接收对指定硬件加速服务的请求。
如在710处所示,对指定硬件加速服务的请求可以源自多个主机服务器实例中的请求主机服务器实例。在这种情况下,请求硬件加速设备可以由内部数据总线耦合到执行请求主机服务器实例的处理器。
在712处,该方法可以包括:将请求路由到目标硬件加速设备,该目标硬件加速设备由数据结构中的负载数据指示为具有比其他目标硬件加速设备更低的负载。在诸如在710处请求源自服务器实例的情况下,请求硬件加速设备可以读取该请求并将其路由到目标硬件加速设备以执行步骤712。
如图8中所示,方法700的步骤708的请求可以被制定为对多个指定硬件加速服务的多步骤请求,并且指定硬件加速服务可以是多个指定硬件加速服务中的下一指定硬件加速服务。在这种情况下,如在728处所示,该方法可以包括:在硬件加速设备中的一个硬件加速设备处,从另一硬件加速设备接收多步骤请求,如在730处所示,该方法可以包括实现多个指定硬件加速服务中的一个指定硬件加速服务,并且如在732处所示,该方法可以包括将多步骤请求路由到实现下一指定硬件加速服务的目标硬件加速设备。
回到图7,在示例配置中,该方法还可以包括:在如在704处所示的服务器被组织成集群的情况下,服务器集群中的两个或更多个服务器的每个硬件加速设备实现多个硬件加速服务中的相同硬件加速服务,并维护数据结构的相应实例,该数据结构还包含近实时负载数据,近实时负载数据指示服务器集群中每个其他硬件加速设备的近实时负载。
方法700还可以包括:在714处,在多个服务器集群中的服务器集群中的接收硬件加速设备处,接收来自请求硬件加速设备的请求。在716处,该方法可以包括:基于接收硬件加速设备处的数据结构的近实时负载数据,确定接收硬件加速设备的当前负载是否高于阈值负载值和/或高于服务器集群中实现相同硬件加速服务的另一硬件加速设备。在718处,该方法可以包括:至少基于该确定,将请求重定向到服务器集群中的另一硬件加速设备,数据结构的近实时负载数据指示该另一硬件加速设备具有比服务器集群中的其他硬件加速设备更低的负载。
在720处,该方法可以包括:当请求硬件加速设备将对指定硬件加速服务的请求路由到目标硬件加速设备时,请求硬件加速设备更新其数据结构中的针对目标硬件加速设备的负载数据。如在722处所示,该更新可以基于请求的一个或多个属性。这些属性可以包括:请求的大小、指定硬件加速服务的类型、实现指定硬件加速服务的历史时间、针对目标硬件加速设备的历史数据、以及请求的分组数据。
如在724处所指示的,更新可以基于经由消息被发送的、硬件加速设备的当前负载。例如,当接收硬件加速设备从请求硬件加速设备接收到请求时,接收硬件加速设备可以用包括负载数据的消息来响应,该负载数据指示接收硬件加速设备的当前负载,并且请求硬件加速设备可以基于来自接收硬件加速设备的消息中指示的当前负载,更新被存储在接收硬件加速设备处的存储器中的数据结构中的负载数据。
如在726处所指示的,更新可以基于从硬件加速设备发送到彼此的周期性负载更新。例如,每个硬件加速设备可以将指示其当前负载的负载数据周期性地发送到先前已向该硬件加速设备发送请求的一个或多个其他硬件加速设备。
基于被存储在与每个硬件加速设备相关联的存储器中的数据结构中的负载数据,上述系统和方法可以被用来实现从一个硬件加速设备到另一硬件加速设备的请求的及时路由。由于负载数据不断被更新,因此可以在发送请求时、并且甚至在最初预期的目标设备处接收到请求之后进行智能路由决策,这使得请求最终能够被路由到具有比其他候选硬件加速设备更低的负载的硬件加速设备。这反过来又具有更快且更高效地服务请求的潜力,从而提高服务器系统可以响应请求的速度。
在一些实施例中,本文描述的方法和过程可以绑定到一个或多个计算设备的计算系统。特别地,可以将这些方法和过程实现为计算机应用程序或服务、应用编程接口(API)、库和/或其他计算机程序产品。
图9示意性地示出了可以实施上述方法和过程中的一个或多个的计算系统900的非限制性实施例。计算系统900以简化的形式被示出。计算系统900可以体现上述的单独的服务器102、206、208、210等和客户端设备404。计算系统900可以采取一个或多个个人计算机、服务器计算机、平板计算机、家庭娱乐计算机、网络计算设备、游戏设备、移动计算设备、移动通信设备(例如智能电话)和/或其他计算设备和诸如智能手表和头戴式增强现实设备之类的可穿戴计算设备的形式。
计算系统900包括逻辑处理器902、易失性存储器904和非易失性存储设备906。计算系统900可以可选地包括显示子系统908、输入子系统910、通信子系统912和/或在图9中未示出的其他组件。
逻辑处理器902包括被配置为执行指令的一个或多个物理设备。例如,逻辑处理器可以被配置为执行作为一个或多个应用、程序、例程、库、对象、组件、数据结构或其他逻辑构造的一部分的指令。可以实施这样的指令以执行任务、实现数据类型、变换一个或多个组件的状态、实现技术效果、或以其他方式达到期望的结果。
逻辑处理器可以包括被配置为执行软件指令的一个或多个物理处理器(硬件)。附加地或备选地,逻辑处理器可以包括一个或多个硬件逻辑电路或固件设备,其被配置为执行硬件实现的逻辑或固件指令。逻辑处理器902的处理器可以是单核的或多核的,并且在其上执行的指令可以被配置用于顺序的、并行的和/或分布式的处理。逻辑处理器的各个组件可选地可以被分布在两个或更多个分开的设备之中,这些设备可以被远程定位和/或被配置用于协同处理。逻辑处理器的各方面可以由被配置在云计算配置中的远程可访问的联网计算设备来虚拟化和执行。在这种情况下,应当理解,这些虚拟化方面在各种不同机器的不同物理逻辑处理器上运行。
非易失性存储设备906包括一个或多个物理设备,其被配置为保持由逻辑处理器可执行的指令以实现本文描述的方法和过程。当实现这样的方法和过程时,非易失性存储设备904的状态可以被变换——例如以保持不同的数据。
非易失性存储设备906可以包括可移动的和/或内置的物理设备。非易失性存储设备94可以包括光学存储器(例如CD、DVD、HD-DVD、蓝光盘等)、半导体存储器(例如ROM、EPROM、EEPROM、FLASH存储器等)、和/或磁存储器(例如硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)、或其他大容量存储设备技术。非易失性存储设备906可以包括非易失性、动态、静态、读/写、只读、顺序访问、位置可寻址、文件可寻址和/或内容可寻址设备。应当理解,非易失性存储设备906被配置为即使在切断非易失性存储设备906的电源时也保持指令。
易失性存储器904可以包括物理设备,该物理设备包括随机存取存储器。逻辑处理器902通常利用易失性存储器904来在软件指令的处理期间临时存储信息。应当理解,当切断易失性存储器904的电源时,易失性存储器904通常不继续存储指令。
可以将逻辑处理器902、易失性存储器904和非易失性存储设备906的各方面一起集成到一个或多个硬件逻辑组件中。例如,这样的硬件逻辑组件可以包括现场可编程门阵列(FPGA)、程序特定和专用集成电路(PASIC/ASIC)、程序特定和专用标准产品(PSSP/ASSP)、片上系统(SOC)和复杂可编程逻辑器件(CPLD)。
术语“模块”、“程序”和“引擎”可以被用来描述计算系统900的一个方面,该方面通常由处理器以软件实现,以使用易失性存储器的各部分来执行特定功能,该功能涉及专门配置处理器以执行功能的变换性处理。因此,模块、程序或引擎可以使用易失性存储器904的各部分、经由执行由非易失性存储设备906保持的指令的逻辑处理器902来实例化。应当理解,不同的模块、程序和/或引擎可以从相同的应用、服务、代码块、对象、库、例程、API、功能等实例化。同样,相同的模块、程序和/或引擎可以由不同的应用、服务、代码块、对象、例程、API、功能等实例化。术语“模块”、“程序”和“引擎”可以涵盖单独的或一组可执行文件、数据文件、库、驱动程序、脚本、数据库记录等。
当被包括时,显示子系统908可以被用来呈现由非易失性存储设备906保持的数据的视觉表示。视觉表示可以采取图形用户界面(GUI)的形式。由于本文描述的方法和过程改变由非易失性存储设备保持的数据,并因此变换非易失性存储设备的状态,所以可以同样地将显示子系统908的状态变换为可视地表示基础数据中的变化。显示子系统908可以包括可视地利用任何类型的技术的一个或多个显示设备。这样的显示设备可以与共享封装中的逻辑处理器902、易失性存储器904和/或非易失性存储设备906组合,或者这样的显示设备可以是外围显示设备。
当被包括时,输入子系统910可以包括一个或多个用户输入设备或与其进行接口,诸如键盘、鼠标、触摸屏或游戏控制器。在一些实施例中,输入子系统可以包括所选择的自然用户输入(NUI)组件部分或与其进行接口。这样的组件部分可以是集成的或外围的,并且输入动作的转变和/或处理可以在板上或板外被处置。示例NUI组件部分可以包括:用于语音和/或声音识别的麦克风;用于机器视觉和/或手势识别的红外、彩色、立体和/或深度相机;用于运动检测和/或意图识别的头部跟踪器、眼睛跟踪器、加速度计和/或陀螺仪;以及用于评估大脑活动的电场感应组件部分;和/或任何其他合适的传感器。
当被包括时,通信子系统912可以被配置为将本文描述的各种计算设备彼此通信地耦合,并与其他设备通信地耦合。通信子系统912可以包括与一个或多个不同通信协议兼容的有线和/或无线通信设备。作为非限制性示例,通信子系统可以被配置用于经由无线电话网络、或有线或无线局域网或广域网(诸如Wi-Fi连接上的HDMI)进行通信。在一些实施例中,通信子系统可以允许计算系统900经由诸如因特网之类的网络向其他设备发送消息和/或从其他设备接收消息。
以下段落为本主题申请的权利要求提供了附加的支持。一个方面提供了一种服务器系统,包括多个服务器,每个服务器包括至少一个硬件加速设备和至少一个处理器,该至少一个处理器由内部数据总线通信地耦合到硬件加速设备并执行主机服务器实例,多个服务器的主机服务器实例共同提供软件平面,并且多个服务器的硬件加速设备共同提供实现多个硬件加速服务的硬件加速平面,其中每个硬件加速设备在存储器中维护包含负载数据的数据结构,负载数据指示实现多个硬件加速服务中的指定硬件加速服务的多个目标硬件加速设备中的每个目标硬件加速设备的负载,并且其中当请求硬件加速设备路由对指定硬件加速服务的请求时,请求硬件加速设备将请求路由到目标硬件加速设备,目标硬件加速设备由数据结构中的负载数据指示为具有比其他目标硬件加速设备更低的负载。在这方面,附加地或备选地,对指定硬件加速服务的请求可以源自多个主机服务器实例的请求主机服务器实例,其中请求硬件加速设备可以由内部数据总线耦合到执行请求主机服务器实例的处理器,并且请求硬件加速设备可以读取请求并且可以将其路由到目标硬件加速设备。在这方面,附加地或备选地,请求可以是对多个指定硬件加速服务的多步骤请求,并且指定硬件加速服务可以是多个指定硬件加速服务中的下一指定硬件加速服务,并且其中请求硬件加速设备可以从另一硬件加速设备接收多步骤请求,可以实现多个指定硬件加速服务中的一个指定硬件加速服务,并且可以将多步骤请求路由到实现下一指定硬件加速服务的目标硬件加速设备。在这方面,附加地或备选地,服务器系统还可以包括多个服务器集群,其中每个服务器集群可以包括机架顶部网络交换机、多个服务器中的两个或更多个服务器、以及通信地耦合顶部机架网络交换机和两个或更多个服务器的背板,其中服务器集群中的两个或更多个服务器的每个硬件加速设备可以实现多个硬件加速服务中的相同硬件加速服务,并且每个硬件加速设备可以维护数据结构的相应实例,数据结构还包含近实时负载数据,该近实时负载数据指示服务器集群中的每个其他硬件加速设备的近实时负载。在这方面,附加地或备选地,当多个服务器集群中的服务器集群中的接收硬件加速设备从请求硬件加速设备接收到请求时,接收硬件加速设备基于数据结构的近实时负载数据可以确定其当前负载是否高于阈值负载值和/或高于服务器集群中实现相同硬件加速服务的另一硬件加速设备,并且至少基于该确定,接收硬件加速设备可以将请求重定向到服务器集群中的另一硬件加速设备,其中数据结构的近实时负载数据指示另一硬件加速设备具有比服务器集群中的其他硬件加速设备更低的负载。在这方面,附加地或备选地,当请求硬件加速设备将对指定硬件加速服务的请求路由到目标硬件加速设备时,请求硬件加速设备可以基于请求的一个或多个属性来更新其数据结构中的针对目标硬件加速设备的负载数据。在这方面,附加地或备选地,请求的一个或多个属性可以选自由以下各项组成的组:请求的大小、指定硬件加速服务的类型、实现指定硬件加速服务的历史时间、针对目标硬件加速设备的历史数据、以及请求的分组数据。在这方面,附加地或备选地,当接收硬件加速设备从请求硬件加速设备接收请求时,接收硬件加速设备可以用包括负载数据的消息来响应,该负载数据指示接收硬件加速设备的当前负载。在这方面,附加地或备选地,每个硬件加速设备可以将指示其当前负载的负载数据周期性地发送到先前已向该硬件加速设备发送请求的一个或多个其他硬件加速设备。在这方面,附加地或备选地,每个硬件加速设备可以被配置为:用数据结构的负载数据来更新由相关联的主机服务器实例可访问的存储器页面。
另一方面提供了一种由服务器系统实现的方法,该方法包括:提供多个服务器,每个服务器包括至少一个硬件加速设备和至少一个处理器,该至少一个处理器由内部数据总线通信地耦合到硬件加速设备并执行主机服务器实例,多个服务器的主机服务器实例共同提供软件平面,并且多个服务器的硬件加速设备共同提供实现多个硬件加速服务的硬件加速平面,在每个硬件加速设备处,在存储器中维护包含负载数据的数据结构,该负载数据指示实现多个硬件加速服务中的指定硬件加速服务的多个目标硬件加速设备中的每个目标硬件加速设备的负载,并且在硬件加速设备中的一个硬件加速设备处,接收对指定硬件加速服务的请求;以及将请求路由到目标硬件加速设备,该目标硬件加速设备由数据结构中的负载数据指示为具有比其他目标硬件加速设备更低的负载。在这方面,附加地或备选地,对指定硬件加速服务的请求可以源自多个主机服务器实例的请求主机服务器实例,并且其中请求硬件加速设备可以由内部数据总线耦合到执行请求主机服务器实例的处理器,并且请求硬件加速设备可以读取请求并且可以将其路由到目标硬件加速设备。在这方面,附加地或备选地,请求可以是对多个指定硬件加速服务的多步骤请求,并且指定硬件加速服务可以是多个指定硬件加速服务中的下一指定硬件加速服务,该方法还可以包括:在硬件加速设备中的一个硬件加速设备处,从另一硬件加速设备接收多步骤请求,实现多个指定硬件加速服务中的一个指定硬件加速服务,以及将多步骤请求路由到实现下一指定硬件加速服务的目标硬件加速设备。在这方面,附加地或备选地,提供多个服务器可以包括:提供多个服务器集群,每个服务器集群可以包括机架顶部网络交换机、多个服务器中的两个或更多个服务器、以及通信地耦合机架顶部网络交换机和两个或更多个服务器的背板,其中服务器集群中的两个或更多个服务器的每个硬件加速设备可以实现多个硬件加速服务中的相同硬件加速服务,并且可以维护数据结构,该数据结构还包含近实时负载数据,该近实时负载数据指示服务器群集中每个其他硬件加速设备的近实时负载。在这方面,附加地或备选地,该方法可以包括:在多个服务器集群中的服务器集群中的接收硬件加速设备处,接收来自请求硬件加速设备的请求;基于接收硬件加速设备处的数据结构的近实时负载数据,确定接收硬件加速设备的当前负载是否高于阈值负载值和/或高于服务器集群中实现相同硬件加速服务的另一硬件加速设备;以及至少基于所述确定,将请求重定向到服务器集群中的另一硬件加速设备,该数据结构的近实时负载数据指示另一硬件加速设备具有比服务器集群中的其他硬件加速设备更低的负载。在这方面,附加地或备选地,当请求硬件加速设备将对指定硬件加速服务的请求路由到目标硬件加速设备时,请求硬件加速设备可以基于请求的一个或多个属性来更新其数据结构中的针对目标硬件加速设备的负载数据。在这方面,附加地或备选地,请求的一个或多个属性可以选自由以下各项组成的组:请求的大小、指定硬件加速服务的类型、实现指定硬件加速服务的历史时间、针对目标硬件加速设备的历史数据、以及请求的分组数据。在这方面,附加地或备选地,当接收硬件加速设备从请求硬件加速设备接收请求时,接收硬件加速设备可以用包括负载数据的消息来响应,该负载数据指示接收硬件加速设备的当前负载,并且请求硬件加速设备可以基于来自接收硬件加速设备的消息中指示的当前负载,更新在接收硬件加速设备处被存储在存储器中的数据结构中的负载数据。在这方面,附加地或备选地,每个硬件加速设备可以将指示其当前负载的负载数据周期性地发送到先前已向该硬件加速设备发送请求的一个或多个其他硬件加速设备。
另一方面提供了一种服务器系统,包括多个服务器的多个服务器集群,每个服务器集群包括机架顶部网络交换机和多个服务器中的两个或更多个服务器,每个服务器包括至少一个硬件加速设备和至少一个处理器,该至少一个处理器由内部数据总线通信地耦合到硬件加速设备并执行主机服务器实例,多个服务器的主机服务器实例共同提供软件平面,并且多个服务器的硬件加速设备共同提供实现多个硬件加速服务的硬件加速平面,其中多个服务器集群中的服务器集群中的每个硬件加速设备实现多个硬件加速服务中的相同硬件加速服务,其中每个硬件加速设备在存储器中维护包含近实时负载数据的数据结构,该近实时负载数据指示在与该硬件加速设备的相同服务器集群中的每个其他硬件加速设备的近实时负载,并且其中当多个服务器集群中的服务器集群中的接收硬件加速设备接收到来自请求硬件加速设备的请求时,接收硬件加速设备基于数据结构的近实时负载数据来确定其当前负载是否高于阈值负载值和/或高于服务器集群中实现相同硬件加速服务的另一硬件加速设备,并且至少基于该确定,接收硬件加速设备将请求重定向到服务器集群中的另一硬件加速设备,其中数据结构的近实时负载数据指示另一硬件加速设备具有比服务器群集中的其他硬件加速设备更低的负载。
应当理解,本文描述的配置和/或方法本质上是示例性的,并且这些具体实施例或示例不应被视为具有限制意义,因为许多变型是可能的。本文描述的特定例程或方法可以表示任何数目的处理策略中的一个或多个处理策略。因此,所图示和/或所描述的各种动作可以以所图示和/或所描述的顺序、以其他顺序、并行地来执行或被省略。同样,可以改变上述过程的次序。
本公开的主题包括各种过程、系统和配置的所有新颖和非显而易见的组合和子组合、以及本文公开的其他特征、功能、动作和/或性质、以及任何及其所有等同物。
Claims (20)
1.一种服务器系统,包括:
多个服务器,每个服务器包括至少一个硬件加速设备和至少一个处理器,所述至少一个处理器由内部数据总线通信地耦合到所述硬件加速设备并执行主机服务器实例,所述多个服务器的所述主机服务器实例共同提供软件平面,并且所述多个服务器的所述硬件加速设备共同提供实现多个硬件加速服务的硬件加速平面;
其中每个硬件加速设备收集来自其他服务器的其他硬件加速设备的负载数据,并且在所述硬件加速设备的相应服务器的存储器中维护包含所述负载数据的数据结构,所述负载数据指示实现所述多个硬件加速服务中的指定硬件加速服务的多个目标硬件加速设备中的每个目标硬件加速设备的负载;
其中当请求硬件加速设备路由对所述指定硬件加速服务的请求时,所述请求硬件加速设备将所述请求路由到目标硬件加速设备,所述目标硬件加速设备由所述请求硬件加速设备的相应服务器的所述数据结构中的所述负载数据指示为具有比所述目标硬件加速设备中的其他目标硬件加速设备更低的负载;
其中当所述目标硬件加速设备接收到来自所述请求硬件加速设备的所述请求时,所述目标硬件加速设备确定所述目标硬件加速设备的当前负载是否高于以下中的至少一项:阈值负载值或实现所述指定硬件加速服务的另一硬件加速设备的当前负载;并且
至少基于所述确定,所述目标硬件加速设备将所述请求重定向到实现所述指定硬件加速服务的另一硬件加速设备。
2.根据权利要求1所述的服务器系统,其中对所述指定硬件加速服务的所述请求源自所述多个主机服务器实例的请求主机服务器实例;并且
其中所述请求硬件加速设备由所述内部数据总线耦合到执行所述请求主机服务器实例的所述处理器,并且所述请求硬件加速设备读取所述请求并且将所述请求路由到所述目标硬件加速设备。
3.根据权利要求1所述的服务器系统,其中所述请求是对多个指定硬件加速服务的多步骤请求,并且所述指定硬件加速服务是所述多个指定硬件加速服务中的下一指定硬件加速服务;并且
其中所述请求硬件加速设备从另一硬件加速设备接收所述多步骤请求,实现所述多个指定硬件加速服务中的一个指定硬件加速服务,并且将所述多步骤请求路由到实现所述下一指定硬件加速服务的所述目标硬件加速设备。
4.根据权利要求1所述的服务器系统,还包括多个服务器集群,每个服务器集群包括机架顶部网络交换机、所述多个服务器中的两个或更多个服务器、以及通信地耦合所述机架顶部网络交换机和所述两个或更多个服务器的背板;
其中服务器集群中的所述两个或更多个服务器的每个硬件加速设备实现所述多个硬件加速服务中的相同硬件加速服务,并且每个硬件加速设备维护所述数据结构的相应实例,所述数据结构还包含近实时负载数据,所述近实时负载数据指示所述服务器集群中的每个其他硬件加速设备的近实时负载。
5.根据权利要求4所述的服务器系统,其中当所述多个服务器集群中的服务器集群中的接收硬件加速设备从所述请求硬件加速设备接收到所述请求时,所述接收硬件加速设备基于所述数据结构的近实时负载数据来确定所述接收硬件加速设备的当前负载是否高于以下中的至少一项:阈值负载值或所述服务器集群中实现所述相同硬件加速服务的另一硬件加速设备的当前负载,并且
至少基于所述确定,所述接收硬件加速设备将所述请求重定向到所述服务器集群中的另一硬件加速设备,所述数据结构的近实时负载数据指示所述另一硬件加速设备具有比所述服务器集群中的其他硬件加速设备更低的负载。
6.根据权利要求1所述的服务器系统,其中当所述请求硬件加速设备将对所述指定硬件加速服务的所述请求路由到所述目标硬件加速设备时,所述请求硬件加速设备基于所述请求的一个或多个属性来更新所述请求硬件加速设备的数据结构中的针对所述目标硬件加速设备的负载数据。
7.根据权利要求6所述的服务器系统,其中所述请求的所述一个或多个属性选自由以下各项组成的组:所述请求的大小、指定硬件加速服务的类型、实现所述指定硬件加速服务的历史时间、针对所述目标硬件加速设备的历史数据、以及所述请求的分组数据。
8.根据权利要求1所述的服务器系统,其中当接收硬件加速设备从所述请求硬件加速设备接收请求时,所述接收硬件加速设备用包括负载数据的消息来响应,所述负载数据指示所述接收硬件加速设备的当前负载。
9.根据权利要求1所述的服务器系统,其中每个硬件加速设备将指示所述硬件加速设备的当前负载的负载数据周期性地发送到先前已向所述硬件加速设备发送请求的一个或多个其他硬件加速设备。
10.根据权利要求1所述的服务器系统,其中每个硬件加速设备被配置为:用所述数据结构的负载数据来更新由相关联的主机服务器实例可访问的存储器页面。
11.一种由服务器系统实现的方法,所述方法包括:
提供多个服务器,每个服务器包括至少一个硬件加速设备和至少一个处理器,所述至少一个处理器由内部数据总线通信地耦合到所述硬件加速设备并执行主机服务器实例,所述多个服务器的所述主机服务器实例共同提供软件平面,并且所述多个服务器的所述硬件加速设备共同提供实现多个硬件加速服务的硬件加速平面;
在每个硬件加速设备处:
收集来自其他服务器的其他硬件加速设备的负载数据;
在所述硬件加速设备的相应服务器的存储器中维护包含所述负载数据的数据结构,所述负载数据指示实现所述多个硬件加速服务中的指定硬件加速服务的多个目标硬件加速设备中的每个目标硬件加速设备的负载;
在所述硬件加速设备中的一个硬件加速设备处:
接收对指定硬件加速服务的请求;
将所述请求路由到目标硬件加速设备,所述目标硬件加速设备由所述硬件加速设备的相应服务器的所述数据结构中的所述负载数据指示为具有比所述目标硬件加速设备中的其他目标硬件加速设备更低的负载;并且
在所述目标硬件加速设备处:
接收来自所述请求硬件加速设备的所述请求;
确定所述目标硬件加速设备的当前负载是否高于以下中的至少一项:阈值负载值或实现所述指定硬件加速服务的另一硬件加速设备的当前负载;以及
至少基于所述确定,将所述请求重定向到实现所述指定硬件加速服务的另一硬件加速设备。
12.根据权利要求11所述的方法,其中对所述指定硬件加速服务的所述请求源自所述多个主机服务器实例中的请求主机服务器实例;并且
其中所述请求硬件加速设备由所述内部数据总线耦合到执行所述请求主机服务器实例的所述处理器,并且所述请求硬件加速设备读取所述请求并且将所述请求路由到所述目标硬件加速设备。
13.根据权利要求11所述的方法,其中所述请求是对多个指定硬件加速服务的多步骤请求,并且所述指定硬件加速服务是所述多个指定硬件加速服务中的下一指定硬件加速服务,所述方法还包括:在所述硬件加速设备中的所述一个硬件加速设备处:
从另一硬件加速设备接收所述多步骤请求;
实现所述多个指定硬件加速服务中的一个指定硬件加速服务;以及
将所述多步骤请求路由到实现所述下一指定硬件加速服务的所述目标硬件加速设备。
14.根据权利要求11所述的方法,
其中提供多个服务器包括:提供多个服务器集群,每个服务器集群包括机架顶部网络交换机、所述多个服务器中的两个或更多个服务器、以及通信地耦合所述机架顶部网络交换机和所述两个或更多个服务器的背板;
其中服务器集群中的所述两个或更多个服务器的每个硬件加速设备实现所述多个硬件加速服务中的相同硬件加速服务,并且维护所述数据结构,所述数据结构还包含近实时负载数据,所述近实时负载数据指示所述服务器集群中的每个其他硬件加速设备的近实时负载。
15.根据权利要求14所述的方法,
在所述多个服务器集群中的服务器集群中的接收硬件加速设备处,接收来自所述请求硬件加速设备的所述请求;
基于所述接收硬件加速设备处的所述数据结构的近实时负载数据,确定所述接收硬件加速设备的当前负载是否高于以下中的至少一项:阈值负载值或所述服务器集群中实现所述相同硬件加速服务的另一硬件加速设备的当前负载;以及
至少基于所述确定,将所述请求重定向到所述服务器集群中的另一硬件加速设备,所述数据结构的近实时负载数据指示所述另一硬件加速设备具有比所述服务器集群中的其他硬件加速设备更低的负载。
16.根据权利要求11所述的方法,其中当所述请求硬件加速设备将对所述指定硬件加速服务的所述请求路由到所述目标硬件加速设备时,所述请求硬件加速设备基于所述请求的一个或多个属性来更新所述请求硬件加速设备的数据结构中的针对所述目标硬件加速设备的负载数据。
17.根据权利要求16所述的方法,其中所述请求的所述一个或多个属性选自由以下各项组成的组:所述请求的大小、指定硬件加速服务的类型、实现所述指定硬件加速服务的历史时间、针对所述目标硬件加速设备的历史数据、以及所述请求的分组数据。
18.根据权利要求11所述的方法,其中当接收硬件加速设备从所述请求硬件加速设备接收请求时,所述接收硬件加速设备用包括负载数据的消息来响应,所述负载数据指示所述接收硬件加速设备的当前负载,并且所述请求硬件加速设备基于来自所述接收硬件加速设备的所述消息中指示的所述当前负载来更新在所述接收硬件加速设备处的存储器中存储的所述数据结构中的负载数据。
19.根据权利要求11所述的方法,其中每个硬件加速设备将指示所述硬件加速设备的当前负载的负载数据周期性地发送到先前已向所述硬件加速设备发送请求的一个或多个其他硬件加速设备。
20.一种服务器系统,包括:
多个服务器的多个服务器集群,每个服务器集群包括机架顶部网络交换机和所述多个服务器中的两个或更多个服务器,每个服务器包括至少一个硬件加速设备和至少一个处理器,所述至少一个处理器由内部数据总线通信地耦合到所述硬件加速设备并执行主机服务器实例,所述多个服务器的所述主机服务器实例共同提供软件平面,并且所述多个服务器的所述硬件加速设备共同提供实现多个硬件加速服务的硬件加速平面;
其中所述多个服务器集群中的一个服务器集群中的每个硬件加速设备实现所述多个硬件加速服务中的相同硬件加速服务;
其中每个硬件加速设备收集来自其他服务器的其他硬件加速设备近实时负载数据,并且在所述硬件加速设备的相应服务器的存储器中维护包含所述近实时负载数据的数据结构,所述近实时负载数据指示与所述硬件加速设备处于相同服务器集群中的每个其他硬件加速设备的近实时负载;并且
其中当所述多个服务器集群中的一个服务器集群中的接收硬件加速设备接收到来自请求硬件加速设备的请求时,所述接收硬件加速设备基于所述接收硬件加速设备的相应服务器的所述数据结构的所述近实时负载数据,确定所述接收硬件加速设备的当前负载是否高于以下中的至少一项:阈值负载值或实现所述相同硬件加速服务的所述服务器集群中的另一硬件加速设备的当前负载;并且
至少基于所述确定,所述接收硬件加速设备将所述请求重定向到所述服务器集群中的另一硬件加速设备,所述接收硬件加速设备的相应服务器的所述数据结构的所述近实时负载数据指示所述另一硬件加速设备具有比所述服务器集群中的其他硬件加速设备更低的负载。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310720759.6A CN116594781A (zh) | 2017-01-17 | 2017-12-20 | 硬件实现的负载平衡 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/408,365 | 2017-01-17 | ||
US15/408,365 US10425472B2 (en) | 2017-01-17 | 2017-01-17 | Hardware implemented load balancing |
PCT/US2017/067449 WO2018136190A1 (en) | 2017-01-17 | 2017-12-20 | Hardware implemented load balancing |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310720759.6A Division CN116594781A (zh) | 2017-01-17 | 2017-12-20 | 硬件实现的负载平衡 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110178118A CN110178118A (zh) | 2019-08-27 |
CN110178118B true CN110178118B (zh) | 2023-06-23 |
Family
ID=60991582
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310720759.6A Pending CN116594781A (zh) | 2017-01-17 | 2017-12-20 | 硬件实现的负载平衡 |
CN201780083496.5A Active CN110178118B (zh) | 2017-01-17 | 2017-12-20 | 硬件实现的负载平衡 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310720759.6A Pending CN116594781A (zh) | 2017-01-17 | 2017-12-20 | 硬件实现的负载平衡 |
Country Status (4)
Country | Link |
---|---|
US (2) | US10425472B2 (zh) |
EP (1) | EP3571589B1 (zh) |
CN (2) | CN116594781A (zh) |
WO (1) | WO2018136190A1 (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105979007B (zh) * | 2016-07-04 | 2020-06-02 | 华为技术有限公司 | 加速资源处理方法、装置及网络功能虚拟化系统 |
US10326696B2 (en) | 2017-01-02 | 2019-06-18 | Microsoft Technology Licensing, Llc | Transmission of messages by acceleration components configured to accelerate a service |
US11375300B2 (en) | 2017-06-10 | 2022-06-28 | International Business Machines Corporation | Networking hardware and software and data center topologies leveraging same |
US20190319933A1 (en) * | 2018-04-12 | 2019-10-17 | Alibaba Group Holding Limited | Cooperative tls acceleration |
US11442642B2 (en) | 2019-01-29 | 2022-09-13 | Dell Products L.P. | Method and system for inline deduplication using erasure coding to minimize read and write operations |
US10922250B2 (en) * | 2019-04-30 | 2021-02-16 | Microsoft Technology Licensing, Llc | Monitoring and steering service requests to acceleration components |
US10812576B1 (en) * | 2019-05-31 | 2020-10-20 | Microsoft Technology Licensing, Llc | Hardware load balancer gateway on commodity switch hardware |
US11372730B2 (en) | 2019-07-31 | 2022-06-28 | Dell Products L.P. | Method and system for offloading a continuous health-check and reconstruction of data in a non-accelerator pool |
US11609820B2 (en) | 2019-07-31 | 2023-03-21 | Dell Products L.P. | Method and system for redundant distribution and reconstruction of storage metadata |
US11775193B2 (en) | 2019-08-01 | 2023-10-03 | Dell Products L.P. | System and method for indirect data classification in a storage system operations |
CN110955528A (zh) * | 2019-12-31 | 2020-04-03 | 智业软件股份有限公司 | 一种外联业务处理高并发请求的系统和方法 |
US11416357B2 (en) | 2020-03-06 | 2022-08-16 | Dell Products L.P. | Method and system for managing a spare fault domain in a multi-fault domain data cluster |
US11418326B2 (en) | 2020-05-21 | 2022-08-16 | Dell Products L.P. | Method and system for performing secure data transactions in a data cluster |
CN116185643A (zh) * | 2023-04-23 | 2023-05-30 | 南京芯驰半导体科技有限公司 | 一种硬件资源的负载均衡方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1607781A (zh) * | 2003-06-30 | 2005-04-20 | 微软公司 | 利用连接操作进行网络负载平衡 |
CN101443750A (zh) * | 2006-01-17 | 2009-05-27 | 思科技术公司 | 用于订户知晓应用服务器集群上的负载平衡的技术 |
US7739398B1 (en) * | 2000-11-21 | 2010-06-15 | Avaya Inc. | Dynamic load balancer |
EP2273367A2 (en) * | 2009-06-22 | 2011-01-12 | Citrix Systems, Inc. | Systems and methods for identifying a processor from a plurality of processors to provide symmetrical request and response processing |
CN102104544A (zh) * | 2011-01-25 | 2011-06-22 | 无锡网芯科技有限公司 | 硬件加速的多核处理器ip隧道分片报文流保序方法 |
JP2013168139A (ja) * | 2012-02-15 | 2013-08-29 | Hitachi Ltd | 負荷均衡装置、負荷均衡方法及び階層化データセンターシステム |
US8812727B1 (en) * | 2011-06-23 | 2014-08-19 | Amazon Technologies, Inc. | System and method for distributed load balancing with distributed direct server return |
CN104539642A (zh) * | 2014-10-29 | 2015-04-22 | 杭州银江智慧医疗集团有限公司 | 一种基于感控协议包的物联模组设备硬件加速装置及方法 |
CN104767682A (zh) * | 2014-01-08 | 2015-07-08 | 腾讯科技(深圳)有限公司 | 路由方法和系统以及分发路由信息的方法和装置 |
Family Cites Families (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6622127B1 (en) | 1999-05-11 | 2003-09-16 | Kaiser Foundation Hospitals | Order allocation to select from inventory locations stocking few units of inventory |
US7003118B1 (en) * | 2000-11-27 | 2006-02-21 | 3Com Corporation | High performance IPSEC hardware accelerator for packet classification |
WO2005048501A2 (en) | 2003-10-30 | 2005-05-26 | Teak Technologies, Inc. | Nonblocking and deterministic multirate multicast packet scheduling |
CN1674576B (zh) | 2004-06-03 | 2010-04-28 | 华为技术有限公司 | 一种网络设备间传送策略信息的方法 |
US7570639B2 (en) | 2004-11-30 | 2009-08-04 | Broadcom Corporation | Multicast trunking in a network device |
US7640023B2 (en) | 2006-05-03 | 2009-12-29 | Cisco Technology, Inc. | System and method for server farm resource allocation |
US8027284B2 (en) | 2006-11-27 | 2011-09-27 | Ntt Docomo, Inc. | Method and apparatus for reliable multicasting in wireless relay networks |
US20100036903A1 (en) | 2008-08-11 | 2010-02-11 | Microsoft Corporation | Distributed load balancer |
US8910153B2 (en) * | 2009-07-13 | 2014-12-09 | Hewlett-Packard Development Company, L. P. | Managing virtualized accelerators using admission control, load balancing and scheduling |
US8514876B2 (en) | 2009-08-11 | 2013-08-20 | Cisco Technology, Inc. | Method and apparatus for sequencing operations for an incoming interface check in data center ethernet |
US8830245B2 (en) * | 2010-12-14 | 2014-09-09 | Amazon Technologies, Inc. | Load balancing between general purpose processors and graphics processors |
US8798077B2 (en) | 2010-12-29 | 2014-08-05 | Juniper Networks, Inc. | Methods and apparatus for standard protocol validation mechanisms deployed over a switch fabric system |
EP2472784B1 (en) | 2010-12-29 | 2019-09-18 | Juniper Networks, Inc. | Methods and Apparatus for Standard Protocol Validation Mechanisms Deployed Over a Switch Fabric System |
US9130764B2 (en) | 2012-05-31 | 2015-09-08 | Dell Products L.P. | Scaling up/out the number of broadcast domains in network virtualization environments |
US8953441B2 (en) | 2012-06-06 | 2015-02-10 | Juniper Networks, Inc. | Re-routing network traffic after link failure |
US10270709B2 (en) | 2015-06-26 | 2019-04-23 | Microsoft Technology Licensing, Llc | Allocating acceleration component functionality for supporting services |
US8953618B2 (en) | 2012-10-10 | 2015-02-10 | Telefonaktiebolaget L M Ericsson (Publ) | IP multicast service leave process for MPLS-based virtual private cloud networking |
US9253140B2 (en) | 2012-11-20 | 2016-02-02 | Cisco Technology, Inc. | System and method for optimizing within subnet communication in a network environment |
US9294557B2 (en) * | 2013-04-19 | 2016-03-22 | International Business Machines Corporation | Hardware level generated interrupts indicating load balancing status for a node in a virtualized computing environment |
US9344493B1 (en) | 2013-07-11 | 2016-05-17 | Juniper Networks, Inc. | Server health monitoring for traffic load balancer |
US9231863B2 (en) | 2013-07-23 | 2016-01-05 | Dell Products L.P. | Systems and methods for a data center architecture facilitating layer 2 over layer 3 communication |
US9313134B2 (en) * | 2013-10-15 | 2016-04-12 | Cisco Technology, Inc. | Leveraging hardware accelerators for scalable distributed stream processing in a network environment |
US9667711B2 (en) * | 2014-03-26 | 2017-05-30 | International Business Machines Corporation | Load balancing of distributed services |
US9794079B2 (en) | 2014-03-31 | 2017-10-17 | Nicira, Inc. | Replicating broadcast, unknown-unicast, and multicast traffic in overlay logical networks bridged with physical networks |
US9742690B2 (en) * | 2014-08-20 | 2017-08-22 | At&T Intellectual Property I, L.P. | Load adaptation architecture framework for orchestrating and managing services in a cloud computing system |
US9866427B2 (en) | 2015-02-16 | 2018-01-09 | Juniper Networks, Inc. | Multi-stage switch fabric fault detection and handling |
US9760159B2 (en) | 2015-04-08 | 2017-09-12 | Microsoft Technology Licensing, Llc | Dynamic power routing to hardware accelerators |
US20160308649A1 (en) | 2015-04-17 | 2016-10-20 | Microsoft Technology Licensing, Llc | Providing Services in a System having a Hardware Acceleration Plane and a Software Plane |
US9983938B2 (en) | 2015-04-17 | 2018-05-29 | Microsoft Technology Licensing, Llc | Locally restoring functionality at acceleration components |
US9792154B2 (en) * | 2015-04-17 | 2017-10-17 | Microsoft Technology Licensing, Llc | Data processing system having a hardware acceleration plane and a software plane |
US10296392B2 (en) | 2015-04-17 | 2019-05-21 | Microsoft Technology Licensing, Llc | Implementing a multi-component service using plural hardware acceleration components |
US10027543B2 (en) | 2015-04-17 | 2018-07-17 | Microsoft Technology Licensing, Llc | Reconfiguring an acceleration component among interconnected acceleration components |
US20160335209A1 (en) | 2015-05-11 | 2016-11-17 | Quanta Computer Inc. | High-speed data transmission using pcie protocol |
US9606836B2 (en) * | 2015-06-09 | 2017-03-28 | Microsoft Technology Licensing, Llc | Independently networkable hardware accelerators for increased workflow optimization |
US9847936B2 (en) * | 2015-06-25 | 2017-12-19 | Intel Corporation | Apparatus and method for hardware-accelerated packet processing |
US20160379686A1 (en) | 2015-06-29 | 2016-12-29 | Microsoft Technology Licensing, Llc | Server systems with hardware accelerators including stacked memory |
CN105162721B (zh) | 2015-07-31 | 2018-02-27 | 重庆大学 | 基于软件定义网络的全光互连数据中心网络系统及数据通信方法 |
US10552205B2 (en) * | 2016-04-02 | 2020-02-04 | Intel Corporation | Work conserving, load balancing, and scheduling |
CN106230952A (zh) | 2016-08-05 | 2016-12-14 | 王楚 | 监控大数据存储平台网络架构 |
-
2017
- 2017-01-17 US US15/408,365 patent/US10425472B2/en active Active
- 2017-12-20 EP EP17829830.3A patent/EP3571589B1/en active Active
- 2017-12-20 CN CN202310720759.6A patent/CN116594781A/zh active Pending
- 2017-12-20 WO PCT/US2017/067449 patent/WO2018136190A1/en unknown
- 2017-12-20 CN CN201780083496.5A patent/CN110178118B/zh active Active
-
2019
- 2019-08-30 US US16/556,832 patent/US10958717B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7739398B1 (en) * | 2000-11-21 | 2010-06-15 | Avaya Inc. | Dynamic load balancer |
CN1607781A (zh) * | 2003-06-30 | 2005-04-20 | 微软公司 | 利用连接操作进行网络负载平衡 |
CN101443750A (zh) * | 2006-01-17 | 2009-05-27 | 思科技术公司 | 用于订户知晓应用服务器集群上的负载平衡的技术 |
EP2273367A2 (en) * | 2009-06-22 | 2011-01-12 | Citrix Systems, Inc. | Systems and methods for identifying a processor from a plurality of processors to provide symmetrical request and response processing |
CN102104544A (zh) * | 2011-01-25 | 2011-06-22 | 无锡网芯科技有限公司 | 硬件加速的多核处理器ip隧道分片报文流保序方法 |
US8812727B1 (en) * | 2011-06-23 | 2014-08-19 | Amazon Technologies, Inc. | System and method for distributed load balancing with distributed direct server return |
JP2013168139A (ja) * | 2012-02-15 | 2013-08-29 | Hitachi Ltd | 負荷均衡装置、負荷均衡方法及び階層化データセンターシステム |
CN104767682A (zh) * | 2014-01-08 | 2015-07-08 | 腾讯科技(深圳)有限公司 | 路由方法和系统以及分发路由信息的方法和装置 |
CN104539642A (zh) * | 2014-10-29 | 2015-04-22 | 杭州银江智慧医疗集团有限公司 | 一种基于感控协议包的物联模组设备硬件加速装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
US20180205785A1 (en) | 2018-07-19 |
US10425472B2 (en) | 2019-09-24 |
CN116594781A (zh) | 2023-08-15 |
US20190394260A1 (en) | 2019-12-26 |
EP3571589A1 (en) | 2019-11-27 |
CN110178118A (zh) | 2019-08-27 |
EP3571589B1 (en) | 2023-12-06 |
WO2018136190A1 (en) | 2018-07-26 |
US10958717B2 (en) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110178118B (zh) | 硬件实现的负载平衡 | |
US11343198B2 (en) | Reliable, out-of-order transmission of packets | |
US12001681B2 (en) | Distributed storage system and data processing method | |
JP6564960B2 (ja) | ネットワーキング技術 | |
US10044797B2 (en) | Load balancing of distributed services | |
US10606651B2 (en) | Free form expression accelerator with thread length-based thread assignment to clustered soft processor cores that share a functional circuit | |
US10785163B2 (en) | Maintaining a queuing policy with multipath traffic | |
CN102119512A (zh) | 分布式负载平衡器 | |
US9331935B2 (en) | Network device selection | |
US10394679B2 (en) | Locality-aware scheduling for NIC teaming | |
US20150012663A1 (en) | Increasing a data transfer rate | |
US10616317B2 (en) | Method and system for affinity load balancing | |
CN106302259B (zh) | 片上网络中处理报文的方法和路由器 | |
US20180020064A1 (en) | Optimizing client distance to network nodes | |
JP2012155602A (ja) | コネクション選択装置、コネクション選択方法及びコネクション選択プログラム | |
JP2017521796A (ja) | 動的に構成可能な先回りコプロセッシングセルを用いる並列処理のためのシステムおよび方法 | |
JP2015039097A (ja) | スイッチ及び通信システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |