CN103329100A

CN103329100A - 异质的计算环境中的负载平衡

Info

Publication number: CN103329100A
Application number: CN2011800655402A
Authority: CN
Inventors: J·N·拉奥; E·C·萨姆森
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2011-01-21
Filing date: 2011-12-29
Publication date: 2013-09-25
Also published as: US20120192200A1; EP2666085A4; WO2012099693A2; WO2012099693A3; EP2666085A2

Abstract

通过首先评估操作环境和该环境内的工作负载来在异质的计算环境中实现负载平衡。然后，如果能量使用是约束，则对于标识的工作负载和操作环境，可以评估每一个设备的每任务的能量使用。将工作调度到最大化异质的计算环境的性能度量的设备上。

Description

异质的计算环境中的负载平衡

背景技术

这一般涉及图形处理，具体而言，涉及用于在中央处理单元和图形处理单元之间进行负载平衡的技术。

许多计算设备包括用于一般目的的中央处理单元和图形处理单元。图形处理单元主要用于图形目的。中央处理单元执行诸如运行应用之类的一般任务。

负载平衡可以通过在系统或网络内的不同的可用设备之间切换任务来提高效率。负载平衡也可用于降低能量使用。

异质的计算环境包括在同一个系统或网络内的不同类型的处理或计算设备。如此，带有中央处理单元和图形处理单元两者的典型平台是异质的计算环境的一个示例。

附图说明

图1是一个实施例的流程图；

图2描绘了用于确定每任务平均能量的图；以及

图3是一个实施例的硬件描绘。

具体实施方式

在诸如开放计算语言（″OpenCL″）之类的异质的计算环境中，给定工作负载可以在计算环境中的任何计算设备上执行。在某些平台中，有两个这样的设备，中央处理单元（CPU）和图形处理单元（GPU）。异质感知的负载平衡器将工作负载调度到可用的处理器上，以便最大化能在机电和设计约束内实现的性能。

然而，尽管给定工作负载可以在环境中的任何计算设备上执行，但是，每一个计算设备都具有唯一特性，如此，它可以最适合于执行某一类型的工作负载。理想地，存在工作负载特性和行为的完美预测器，以便可以将给定工作负载调度到最大化性能的处理器上。但是，一般而言，性能预测器的近似是可以实时地实现的最佳。性能预测器可以使用有关工作负载（静态和动态）以及其操作环境（静态和动态）的确定性的和统计信息。

操作环境评估考虑与特定操作情况匹配的处理器能力。例如，可以有CPU比GPU能力更强的平台，或反之亦然。然而，在给定客户机平台中，对于某些工作负载，GPU可以比CPU能力更强。

操作环境可以具有静态特性。静态特性的示例包括设备类型或类别，操作频率范围，核的数量和位置，采样器等等，算术比特精确度，以及机电限制。确定动态操作环境特性的动态设备能力的示例包括实际频率和温度余量，实际能量余量，空闲核的实际数量，机电特性和余量的实际状态，以及电源策略选择，诸如电池模式与自适应模式。

在GPU中仿真某些浮点数学/超越函数。然而，为达到最高性能，CPU可以天然地支持这些函数。这还可以在编译时确定。

某些OpenCL算法使用“共享的本地存储器”。GPU可以具有支持可以偏移负载平衡的有用性的此存储器模型的专门硬件。

工作负载的任何先验知识，包括诸如其大小如何影响实际性能之类的特性，可以被用来决定负载平衡会如何地有用。作为另一个示例，对于给定GPU的较旧的版本，可能不存在64比特支持。

也可以存在清楚地支持或消除负载平衡的有用性的应用的特性。在图像处理中，带有采样器硬件的GPU比CPU性能更好。在与图形应用程序接口（API）共享的表面中，OpenCL允许开放图形语言（OpenGL）和DirectX之间的表面共享。对于这样的使用情况，优选地，使用GPU来避免表面从视频存储器复制到系统存储器。

工作负载的抢先要求可能会影响负载平衡的有用性。为使OpenCL以True-Vision Targa格式位图图形（IVB）工作，IVB OpenCL实现必须允许OpenCL工作负载在IVB GPU上的抢先和继续前进。

尝试微管理特定硬件目标平衡的应用如果使用不慎则可能会消除CPU/GPU负载平衡的任何机会。

动态工作负载特性涉及实时地收集的有关工作负载的信息。这包括长期历史、短期历史、过去的历史以及当前历史。例如，执行前一任务的时间是当前历史的示例，而新任务得到处理的平均时间可以是长期历史或短期历史，这取决于平均时间间隔或时间常数。以前执行特定内核所花的时间是过去的历史的示例。所有这些方法可以是适用于调度下一个任务的将来的性能的有效的预测器。

参考图1，可以以软件、硬件或固件来实现根据一些实施例的用于负载平衡的序列。它可以通过使用非瞬时的计算机可读介质来存储指令的软件实施例来实现。这样的非瞬时的计算机可读介质的示例包括光学、磁性或半导体存储器设备。

在某些实施例中，序列可以通过评估操作环境来开始，如在框10所示出的。操作环境对确定静态或动态设备能力来说可以是重要的。然后，系统可以评估特定工作负载（框12）。类似地，工作负载特性可以广泛地被分类为静态特性或动态特性。接下来，系统可以确定是否有任何能量使用约束，如由框14所指示的。必须降低能量使用的实施例与那些能量使用不是问题的实施例相比，负载平衡可以不同。

然后，序列可以对于标识的工作负载和操作环境，查看确定每任务处理器能量使用（框16），如果能量使用事实上是约束的话。最后，在任何情况下，都可以将工作调度到最大化性能度量的处理器上，如在框18中所指示的。如果没有能量使用约束，那么，框16可以简单地回避。

目标调度策略/算法可以最大化任何给定度量，时常概括为一组基准分数。调度策略/算法可以基于静态特性和动态特性来设计。基于静态特性和动态特性，为每一个设备生成度量，估计其对工作负载调度的适合度。具有对于特定处理器类型的最佳分数的设备可能被调度到该处理器类型上。

平台可以是最大频率限制的，而并非是能量限制的。不是能量限制的平台可以实现在能量限制的约束下最佳性能所需的调度算法的比较简单的形式。只要有能量余量，最短的调度估计器的版本可以驱动调度/负载平衡决定。

工作负载将在短的，但是稀疏地间隔的脉冲串内执行的知识可以驱动调度决定。对于猝发性工作负载，将看起来像对于维持的工作负载有能量限制的平台相反将看起来像在频率上限制的。如果我们不提前知道工作负载将是猝发性的，但是，我们具有工作负载将是猝发性的可能性的估计，则该估计可用于驱动调度决定。

当功率或能量效率是约束时，基于运行任务的处理器能量的度量可用于驱动调度决定。运行任务的处理器能量是：

运行下一个任务的处理器A能量

=

由处理器A消耗的功率*处理器A上的持续时间

运行下一个任务的处理器B能量

=

由处理器B消耗的功率*处理器B上的持续时间

当工作负载行为不提前被知道时，需要这些数量的估计。如果实际能量消耗不直接可用（例如，来自管芯上（on-die）能量计数器），那么相反可以使用单独组件的能量消耗的估计。例如（以及归纳处理器X的公式），

运行下一个任务的处理器X能量

～

处理器X的功率估计*处理器X上的估计的持续时间

Power_estimate_for_processor X（处理器X的功率估计）

～

static_power_estimate(v,f,T)（静态_功率_估计（v,f,T））+dynamic_power_estimate(v,f,T,t)（动态_功率_估计（v,f,T,t））,

其中，static_power_estimate(v,f,T)是考虑了电压v、归一化频率f以及温度T依赖关系但不以工作负载依赖的实时更新的方式的值。Dynamic_power_estimate(v,f,T,t)却考虑了工作负载依赖的实时信息。

例如，

Dynamic_power_estimate(v,f,T,n)

=

(1-b)*Dynamic_power_estimate(v,f,T,n-1)

+

b*instantaneous_power_estimate(v,f,T,n)（瞬时_功率_估计（v,f,T,n））,

其中，“b”是用于控制对于dynamic_power_estimate（动态_功率_估计）对于过去的信息要考虑多远的常数。那么，

instantaneous_power_estimate(v,f,T,n)

=

C_estimate*v^2*f+I(v,T)*v,

其中，C_estimate（C_估计）是跟踪工作负载功率的电容性部分的变量，I(v,T)跟踪工作负载功率的泄漏依赖的部分。类似地，可以基于用于过去和现在的工作负载和处理器频率的时钟计数的测量值来进行工作负载的估计。可以基于剖析（profiling）数据，向在上面的公式中所定义的参数赋值。

作为能量高效自偏的示例，可以基于哪一种处理器类型最后完成了任务，来调度新任务。平均起来，快速地处理任务的处理器更经常地变得可用。如果没有当前信息，则可以使用默认初始处理器。可另选地，为处理器A和处理器B生成的度量可以被用来将工作分配到最后完成的处理器，只要最后完成的处理器运行任务所需要的能量小于：

G*Processor_that_did not finish_last_energy_to_run_task（非最后完成的处理器运行任务所需要的能量）,

其中，“G”是被确定为最大化总体性能的值。

在图2中，水平轴在图的左侧示出了最近的事件，而较旧的事件靠右侧。C、D、E、F、G和Y是OpenCL任务。处理器B运行某些非OpenCL任务“Other（其它）”，而两个处理器都会遇到某些时间长度的空闲。下一个要被调度的OpenCL任务是任务Z。以相等的功率电平示出了所有处理器A任务，也等于处理器B OpenCL任务Y，以降低示例的复杂性。

相对于在处理器A上运行的其他OpenCL任务，OpenCL任务Y费很长时间[图2，顶部]，因此，消耗更多能量[图2，下部]。

新任务被调度到优选处理器上，直到新任务在该处理器上获得处理需要花费的时间超出阈值，然后，将任务分配给其他处理器。如果没有当前信息，则可以使用默认初始处理器。可另选地，如果优选处理器需要花费的时间超出阈值，并且切换处理器的估计的能量成本是合理的，则将能量感知的上下文工作分配到其他处理器。

可以将新任务调度到对于新批缓冲器获得处理具有最短的平均时间的处理器。如果没有当前信息，则可以使用默认初始处理器。

这些概念的额外的置换是可能的。有许多可以替代使用的不同类型的估计器/预测器（比例积分微分（PID）控制器、卡尔曼滤波器等等）。取决于在特定实现上什么是方便的细节，还有许多不同的计算能量余量的近似值的方式。

还可以通过诸如最短处理时间、存储器占用空间等等之类的性能特性和/或度量，来考虑额外的实现置换。

可以被用来调整/调节策略决策或判断阈值以考虑能量效率或功率预算的度量，包括GPU和CPU使用率、频率、能量消耗、效率和预算、GPU和CPU输入/输出（I/O）使用率、存储器利用率、诸如操作温度和其最佳范围的机电状态、每秒浮点运算次数（flops）、以及OpenCL或其他异质的计算环境类型专用的CPU和GPU使用率。

例如，如果我们已经知道，处理器A当前是I/O限制的，但处理器B不是，则该事实可用于降低运行新任务的处理器A投射能量效率，因此，降低处理器A将获得选择的可能性。

好的负载平衡实现不仅利用所有有关工作负载和操作环境的相关的信息，以最大化其性能，而且也可以改变操作环境的特性。

在涡轮实现中，不保证CPU和GPU的涡轮点将是能量高效的。涡轮设计目标是对于非异质的非并发CPU/GPU工作负载的最高性能。在并发CPU/GPU工作负载的情况下，可用能量预算的分配不通过对能量效率或最终用户感觉到的优点的任何考虑来确定。

然而，OpenCL是可以同时使用CPU和GPU两者的工作负载类型，对该工作负载类型，最终用户感觉到的可用功率预算分配的优点比其他工作负载类型更加明确。

例如，对于OpenCL任务，处理器A一般可以是优选的处理器。然而，处理器A正在以其最大工作频率运行，可是仍有功率预算。如此，处理器B还可以同时运行OpenCL工作负载。同时使用处理器B以便增大吞吐量是有意义的（假定处理器B能够足够快地完成任务），只要这不会降低处理器A的功率预算以致于阻止它以其最大频率运行。将以不会损害处理器A的性能可是仍消耗可用的预算的最低处理器B频率（和/或核数），并非对于非OpenCL工作负载的默认操作系统或PCU.exe选择，而获得最大性能。

可以进一步扩大算法的范围。可以在编译时间以及在执行时间评估任务的某些特性，以导出执行任务所需的时间和资源的比较准确的估计。CPU和GPU上的OpenCL的设置时间是另一个示例。

如果给定任务必须在某一时间限制内完成，那么，可以利用各种优先级来实现多个队列。然后，调度表将相对于较低优先级队列优选较高优先级队列中的任务。

在OpenCL中，在由OpenCL事件实体执行时，相互之间的依赖关系是已知的。此信息可以被用来确保相互之间的依赖关系延迟被最小化。

通常通过创建命令缓冲器，来调度GPU任务以供执行。命令缓冲器可以包含基于例如依赖关系的多个任务。可以基于算法，向设备提交若干个任务或子任务。

GPU通常用于渲染图形API任务。调度器可以负责有影响交互性或图形可视体验的风险（即，花长于预定时间的时间才能完成）的任何OpenCL或GPU任务。当非OpenCL或渲染器工作负载也运行时，这样的任务可被抢先。

如图3所示的计算机系统130，可以包括通过总线104耦合到芯片组核心逻辑110的硬盘驱动器134和可移动介质136。计算机系统可以是任何计算机系统，包括诸如智能电话、平板计算机或移动因特网设备之类的智能移动设备。键盘和鼠标120，或其他常规组件，可以通过总线108耦合到芯片组核心逻辑。在一个实施例中，核心逻辑可以通过总线105耦合到图形处理器112，以及耦合到主处理器或主机处理器100。图形处理器112也可以通过总线106耦合到帧缓冲器114。帧缓冲器114可以通过总线107耦合到显示屏幕118。在一个实施例中，图形处理器112可以是使用单指令多数据（SIMD）体系结构的多线程、多核并行处理器。

在一个实施例中，处理器选择算法可以通过正在被评估的至少两个处理器中的一个来实现。在选择是在图形处理器和中央处理器之间进行的情况下，在一个实施例中，中央处理单元可以执行选择。在其他情况下，专门或专用处理器可以实现选择算法。

在软件实现的情况下，相关的代码可以存储在任何合适的半导体、磁性或光存储器中，包括主存储器132或图形处理器内的任何可用存储器。如此，在一个实施例中，执行图1的序列的代码可以存储在诸如存储器132之类的非瞬时机器或计算机可读介质中，并可以在一个实施例中由处理器100或图形处理器112执行。

图1是流程图。在某些实施例中，此流程图中所描绘的序列可以以硬件、软件或固件来实现。在软件实施例中，诸如半导体存储器、磁存储器或光存储器之类的非瞬时计算机可读介质可以被用来存储指令，并可以由处理器执行以实现如图1所示的序列。

此处所描述的图形处理技术可以以各种硬件体系结构来实现。例如，图形功能可以集成在芯片组内。可另选地，可以使用分立的图形处理器。作为再一个实施例，图形功能可以通过通用处理器（包括多核处理器）来实现。

说明书中对“一个实施例”、“实施例”的引用意味着结合该实施例所描述的特定特征、结构或特性被包括在本发明内涵盖的至少一个实现中。如此，短语“一个实施例”或“在一个实施例中”的出现不一定是指同一个实施例。此外，还可以以除所示出的特定实施例以外的其他合适的形式构成特定特征、结构或特性，所有这样的形式都可以涵盖在本申请的权利要求书内。

尽管是参考数量有限的实施例来描述本发明的，但是，本领域技术人员将从其中理解很多修改和变体。所附权利要求书涵盖落在本发明的真正的精神和范围内的所有这样的修改和变体。

Claims

1.一种方法，包括：

在至少两个处理器之间，基于所述两个处理器的工作负载特性和能力，以电子方式选择一个处理器以执行工作负载。

2.如权利要求1所述的方法，其特征在于，包括评估哪一个处理器对于所述工作负载具有较低的能量使用。

3.如权利要求1所述的方法，其特征在于，包括在图形和中央处理单元之间选择。

4.如权利要求1所述的方法，其特征在于，包括标识能量使用约束，并基于所述能量使用约束，选择用于执行所述工作负载的处理器。

5.如权利要求1所述的方法，其特征在于，包括将工作调度到对于给定工作负载具有更好的性能度量的处理器上。

6.如权利要求5所述的方法，其特征在于，包括在静态和动态工作负载下评估所述性能度量。

7.如权利要求5所述的方法，其特征在于，，包括选择可以在最短的时间内执行所述工作负载的处理器。

8.一种存储用于由处理器执行以执行下列操作的指令的非瞬时的计算机可读介质：

在至少两个处理器之间，基于所述两个或更多个处理器的工作负载特性和能力，将工作负载分配到一个处理器以执行工作负载。

9.如权利要求8所述的介质，其特征在于，进一步存储评估哪一个处理器对于所述工作负载具有较低的能量使用的指令。

10.如权利要求8所述的介质，其特征在于，进一步存储在图形和中央处理单元之间选择的指令。

11.如权利要求8所述的介质，其特征在于，进一步存储标识能量使用约束并基于所述能量使用约束来选择用于执行所述工作负载的处理器的指令。

12.如权利要求8所述的介质，其特征在于，进一步存储将工作调度到对于给定工作负载具有更好的性能度量的处理器上的指令。

13.如权利要求12所述的介质，其特征在于，进一步存储在静态和动态工作负载下评估所述性能度量的指令。

14.如权利要求12所述的介质，其特征在于，进一步存储选择可以在最短的时间内执行所述工作负载的处理器的指令。

15.一种设备，包括：

图形处理单元；以及

耦合到所述图形处理单元的中央处理单元，所述中央处理单元基于这两个处理器的工作负载特性和能力来选择处理器以执行工作负载。

16.如权利要求15所述的设备，其特征在于，所述中央处理单元评估哪一个处理器对于所述工作负载具有较低的能量使用。

17.如权利要求15所述的设备，其特征在于，所述中央处理单元标识能量使用约束并基于所述能量使用约束来选择用于执行所述工作负载的处理器。

18.如权利要求15所述的设备，其特征在于，所述中央处理单元将工作调度到对于给定工作负载具有更好的性能度量的处理器上。

19.如权利要求18所述的设备，其特征在于，所述中央处理单元在静态和动态工作负载下评估所述性能度量。

20.如权利要求18所述的设备，其特征在于，所述中央处理单元选择可以在最短的时间内执行所述工作负载的处理器。