CN101126992A

CN101126992A - 在网络中的多个节点中分配多个任务的方法和系统

Info

Publication number: CN101126992A
Application number: CN200710129135.8A
Authority: CN
Inventors: 苏工; 伯纳德·R.·皮尔斯; 唐纳德·W.·施密特; 斯蒂芬·J.·海斯格; 唐娜·N.·第兰博格; 格雷格·A.·狄克
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2006-08-15
Filing date: 2007-07-13
Publication date: 2008-02-20
Anticipated expiration: 2027-07-13
Also published as: US20080046895A1; US20080216087A1; JP2008047126A; US7941805B2; CN100517241C; JP5466354B2; US8108875B2; US8108877B2; US20080178192A1

Abstract

一种在处理器网络中多个处理节点中分配多个任务的计算机实现方法，包括如下步骤：计算多个任务的任务处理消耗值；计算多个节点的测量的节点处理器消耗值；计算多个节点的目标节点处理器消耗值，所述目标节点处理器消耗值表明最佳节点处理器消耗；根据节点i的计算的节点处理器消耗值与节点i的目标节点处理器消耗值之间的差值来计算负载指数值；并且依照计算的负载指数值在节点当中分配任务以便在节点当中平衡处理器的工作负载，使得每个节点的计算的负载指数值基本上是零。所述方法还具体实现了一种多维平衡矩阵，矩阵的每一维表示对应于不同处理器类型的节点，并且每个单元表示分配给多个节点的任务。

Description

在网络中的多个节点中分配多个任务的方法和系统

技术领域

本发明总体上涉及处理器负载平衡领域，具体而言，涉及处理器亲缘关系(affinity)负载平衡领域。

背景技术

在多处理器体系结构中，希望尽可能地在同一处理器上执行任务以便发挥高速缓存的效用。在非统一存储器访问(Non-UniformMemory Access，NUMA)体系结构中这是尤其重要的，在该体系结构中高速缓存间的访问等待时间明显高于高速缓存内部的访问等待时间。在这种NUMA体系结构中，如果频繁地把任务分派给没有共享硬件高速缓存的多个处理器，那么会出现相当大的性能退化。

为了尽可能地使任务在同一处理器(或者一组处理器)上执行，定义了被称为亲缘关系节点的逻辑概念。亲缘关系节点是共享硬件高速缓存的一组处理器。利用一个值(称为其亲缘关系)来标记任务，所述值用于将该任务与亲缘关系节点相关联。任务调度器(TaskDispatcher)通过始终把任务分派给属于由任务的亲缘关系值指定的亲缘关系节点的处理器来试图兑现(honor)任务的亲缘关系。

因为总是把任务分派给它们各自的亲缘关系节点，所以随着时间的经过，任务的改变特性和处理需求将在亲缘关系节点之间产生处理器负载不平衡。因此，需要处理器负载平衡机制来重新分配任务的亲缘关系，以便平衡跨越所有亲缘关系节点的总体系统处理器消耗。另外，亲缘关系节点可能包含不同数量的处理器，因此，每个亲缘关系节点可能具有不同的能力。术语“平衡”，不是经常使用的使所有亲缘关系节点上的处理器消耗相等的含义，而一般是指使所有亲缘关系节点上的处理器消耗满足特定标准。平衡系统的常用标准是这样一种标准，其中总体系统处理器消耗跨越所有亲缘关系节点、与其能力成比例地分布。

例如UNIX(以及UNIX变型)的成品操作系统中的现有处理器负载平衡方案具有一个共同的特性：它们都使用平均任务运行队列长度(average task run queue length)作为对处理器负载的估计。这是因为任务运行队列长度(亦称运行队列长度)容易测量，并且现今大部分的成品操作系统不具有嵌入式机制来以每一任务为基础进行精确的处理器消耗测量。虽然足以满足大多数情况的需要，但是平均任务运行队列长度并不总是准确地反映实际处理器负载。

参考图1，该图示出了具有两个节点的处理器网络100的简单示例，将用此示例来说明此概念。所述系统利用两个节点140和160以及逻辑任务管理器120和130来操作，其中每个节点包含一个CPU。任务管理器120把任务180分派给节点A 140，并且任务管理器130把任务分派给节点B 160。因为任务管理器120和130独立地操作，所以随着时间的经过，网络100内的处理器负载可能会因任务数目和到达节点140和160上的任务的CPU需求特性有很大不同而变得失衡。因此，需要平衡器150在任务管理器120和130之间移动任务，以便平衡节点140和160上的处理器负载。在已知的处理器网络中，平衡器150通过使用节点的平均运行队列长度来判断该节点上的处理器负载；队列长度越长，节点的负载越大。然而，正如我们下面举例说明的那样，此方法具有缺陷。

假定n+1个任务180进入亲缘关系节点A 140；所述节点在较短的一段时间t内使用其全部的处理能力；然后所有任务180结束。然后，在另外的n+1个任务180进入节点A以前，亲缘关系节点A 140中的处理器在较短的一段时间t内空闲，并且重复此循环，直到亲缘关系节点A的队列中不再有任务为止。对于节点A 140来说，处理器负载的平均值大约为50％(即，一半时间处理器繁忙而一半时间处理器空闲)，并且运行队列长度大约为n/2(一半时间存在n个任务等待而一半时间没有任务在等待)。

现在考虑另一亲缘关系节点，即节点B 160，其中单个长期运行的处理器绑定任务使用节点B的全部处理能力并且没有别的任务在等待。对于此节点来说，处理器负载的平均值是100％(处理器总是繁忙)，然而运行队列长度是零(没有任务在等待)。使用平均运行队列长度方法，所述平衡器150将把任务从半负载的节点A 140移动到全负载节点B 160，这往往使工作负载进一步失衡。

采用平均任务运行队列长度方法的另一个问题在于，当移动任务以便平衡处理器负载时，没有对被移动任务的实际处理器消耗给予任何考虑，这会导致系统进一步失衡。另一示例将说明这种情况。再次参照图1，假设除周期性地进入亲缘关系节点A的n+1个任务180以外，该亲缘关系节点A 140现在还具有占据CPU的长期运行的CPU绑定任务。对于此节点来说，处理负载平均为100％并且运行队列长度大约为(n+1)/2。现在考虑具有相同的单个长期运行的CPU绑定任务的亲缘关系节点B 160。对于节点B 160来说，处理负载平均为100％并且运行队列长度是0。此系统明显失衡并且需要把任务从节点A 140移动到节点B 160。平衡器150通常通过首先移动任务运行队列结束处的任务180来选择待移动的一个或多个任务，这是因为处于队列结束处的任务具有最长的等待时间。使用此方法而不考虑待移动的任务180的处理器消耗可能会使系统进一步失衡，这是因为在节点A 140上的长期运行的CPU绑定任务可能正巧是队列上的最后一个任务并且可能会被移动到节点B 160。结果，节点A 140将再次空闲一半时间(正如节点A 140不具有长期运行的CPU绑定任务的先前示例所示那样)，同时节点B 160将因两个长期运行的CPU绑定任务而负担过重，而每个长期运行的CPU绑定任务只获得50％的处理器能力。

图2示出了具有多个处理器的处理器体系结构200中负载平衡的另一代表。该图示出了典型的NUMA处理器体系结构，其具有图1的两个亲缘关系节点，再加上两个另外的亲缘关系节点，每个节点现在具有四个CPU而不是一个。在实际中，亲缘关系节点的数目和每个节点中CPU的数目可以不同。每个节点中的四个CPU共享L2高速缓存(2级高速缓存，或者位于微处理器外部的高速缓冲存储器)。L2高速缓冲存储器驻留在独立于微处理器芯片的芯片上，这与驻留在微处理器芯片上的1级高速缓存相反。为了使多个CPU共享高速缓冲存储器，L2高速缓存是必需的。在此处理器体系结构200中，图1的任务管理器120和130现在实际是四个调度器，每个调度器负责一个节点。每个调度器为其特定节点接收任务的作业队列。调度器225把任务从作业队列A 220分派给节点A 140；调度器235把任务从作业队列B 230分派给节点B 160；调度器245把任务从作业队列C 240分派给节点C 250；并且调度器255把任务从作业队列D 250分派给节点D 260。

为了负载平衡的目的，每个节点经由网络200连接至网络中的每一其它节点。如图2所示的体系结构200是相当简单的多处理器体系结构，然而它可扩展到相当大的程度。实际上，随着现今不断增加的处理需求，成千的甚至数以万计的处理器的网络被使用，由此使得CPU负载平衡势在必行，然而现在的负载平衡算法达不到最佳平衡，这是因为平均运行队列长度不总是准确地反映实际处理器负载。

因此，需要一种处理器负载平衡方法来克服现有技术的缺陷。

发明内容

简单地讲，依照本发明，一种经由网络中的多个处理节点分配多个任务的用计算机实现的方法包括如下步骤：计算多个任务的任务处理消耗值；计算多个节点的测量的节点处理器消耗值；计算多个节点的目标节点处理器消耗值，所述目标节点处理器消耗值表明最佳节点处理器消耗；根据节点i的测量的节点处理器消耗值与节点i的目标节点处理器消耗值之间的差值来计算负载指数(index)值；在节点当中分配任务以便在节点当中平衡处理器工作负载，使得每个节点的计算的负载指数值基本上为零。

所述方法还具体实现了一种多维平衡矩阵，矩阵的每一维表示对应于不同处理器类型的节点，并且每个单元表示分配给多个节点的任务，所述方法实现了如下步骤：按照从最高负载指数值到最低负载指数值的顺序来排序计算的负载指数值；依照已排序的负载指数值来利用任务填充所述矩阵；在单元中重新布置任务以便表示节点当中处理器工作负载的平衡；以及依照所述矩阵表示来把任务分配至处理器。

所述方法还具体实现了一种多维平衡矩阵的扩展，其中每一维可以表示不同处理器类型的多个节点，所述方法包括如下步骤：根据预定的使用规则，重新布置单元中的任务，使得处理器工作负载可以从一种类型的节点自由地移动到另一类型的节点，但反向则不行。

附图说明

图1是依照现有技术的负载平衡系统的举例说明。

图2是依照现有技术的另一负载平衡系统的举例说明。

图3是举例说明依照本发明实施例的用于贪心(greedy)亲缘关系负载平衡的方法的流程图。

图4a、4b、4c是依照本发明实施例的在负载平衡系统中进行任务分配的说明。

具体实施方式

依照本发明的实施例的一种方法跨越位于处理器网络内的一组处理器组(称为亲缘关系节点)来执行总体系统处理器消耗的负载平衡。所述方法采用了这样一种算法，所述算法使用精确测量的亲缘关系节点CPU消耗和每一任务的CPU消耗数据。这种算法比使用平均任务运行队列长度(亦称为平均运行队列长度)的已知负载平衡算法有所改进，这是因为它使用实际的每一任务以及每一节点CPU消耗数据来避免与平均运行队列长度相关联的缺陷。

贪心负载平衡算法。

为了实现负载平衡目标，依照本发明实施例的算法使用了“贪心”方案，这种方案用于重复地把任务从负载最重的(最忙的)亲缘关系节点移动至负载最轻的(最空闲的)亲缘关系节点，直到没有任务可以被移动为止，由此使系统更接近目标。贪心算法存在于科学以及数学领域，并且当需要逐步问题解决方案时经常被使用。贪心算法的命名十分恰当，这是因为它基于此刻看起来的最佳移动来对是否移动任务做出判定，当同时考虑到所有可能的移动时，其最终也许是、也许不是最佳方案。尽管存在这种缺陷，贪心算法还是经常被使用，这是因为同时列举所有可能的移动并且试图找到绝对的最佳移动集合来实现平衡目标在计算上是不可行的。应用于处理器负载平衡的贪心算法(贪心亲缘关系负载平衡算法)采用如下输入：1)亲缘关系节点、它们的能力以及它们的测量的节点处理器消耗的列表；以及2)任务、它们的亲缘关系以及它们的测量的每一任务处理器消耗的列表。这种算法不同于参照图1讨论的算法之处在于，它考虑了每个节点以及每个任务的实际CPU消耗而不是平均运行队列长度。贪心亲缘关系算法的输出是任务亲缘关系值的重新分配，使得总体系统处理器消耗跨越所有亲缘关系节点与其能力成比例地被分配。

所述贪心亲缘关系负载平衡算法具有如下特征：

a)效率：用于平衡所需的计算非常简单并且每一任务最多被移动一次；

b)避免颠簸：在连续的平衡运行中，在把任务不断地从一个亲缘关系节点移动到另一个的情况下，避免了CPU颠簸；

c)异构：亲缘关系节点可以具有不同的类型(即，具有不同类型的CPU)，并且每一任务具有一种以上类型的亲缘关系节点的CPU消耗；

d)不对称平衡：不同类型的亲缘关系节点之间的平衡可以是不对称的，即，可以把负载自由地从一种类型的亲缘关系节点移动到另一种类型的亲缘关系节点，但是反向不行；以及

e)反馈：提供向CPU消耗监视机制的反馈以便协调负载平衡和消耗测量精力。

为了量化系统接近其负载平衡目标的程度，可以进行某些简单的计算，并且将这些计算的结果报告给负载平衡器150或在分布式处理器网络中的处理器当中协调负载平衡的任何机制。第一个计算将为每个亲缘关系节点i计算负载指数(l_i)。l_i是节点i的测量的亲缘关系节点CPU消耗(c_i)与节点i的目标亲缘关系节点CPU消耗(t_i)之间的差值。此计算可以表示为：

l_i＝c_i-t_i

其中t_i是在总体系统CPU消耗跨越所有亲缘关系节点与其能力成比例地被分配的情况下亲缘关系节点的消耗。对于给定节点i的t_i被如下计算：

1)对所有节点的测量的亲缘关系节点CPU消耗c_i求和，并且对所有节点的亲缘关系节点能力p_i求和；

2)用p_i的和除c_i的和；

3)把该商乘以给定节点i的亲缘关系节点能力p_i。

其算术表达式为：

t_i＝p_i＊∑c_i/∑p_i

其中p_i是亲缘关系节点能力。应注意的是，如果所有亲缘关系节点具有相同的能力，那么目标亲缘关系节点CPU消耗将仅仅是对所有亲缘关系节点求整个系统CPU消耗的均值。所述l_i用来度量亲缘关系节点的“负载”如何。l_i越高，亲缘关系节点的负载越大。应注意的是，l_i可以是负的，这意味着亲缘关系节点利用不足。贪心亲缘关系负载平衡算法的目标因此是使所有亲缘关系节点的l_i尽可能接近零。零代表完全平衡。为了度量亲缘关系节点CPU消耗的“跨度(spread)”，即，整个系统与其目标状态的距离(所述目标状态是所有亲缘关系节点的l_i是零)，我们如下来计算负载指数偏差d：

d = \sqrt{Σ {(c_{i} - t_{i})}^{2} / n} = \sqrt{Σ {l_{i}}^{2} / n}

其中n是亲缘关系节点的数目。应注意的是，当所有亲缘关系节点具有相同的能力时，d是常见的标准偏差。贪心亲缘关系平衡算法的进一步目的在于降低d，从而使其尽可能接近零。当把任务从一个亲缘关系节点移动到另一个时，为了看出d如何改变，我们如下来计算：

d₂-d₁=(d₂ ²-d₁ ²)/(d₂+d₁)=(v₂-v₁)/(d₂+d₁)

其中v＝d²是负载指数方差，而下标1和2分别表示任务被移动前后的值。由于d₁＞0并且d₂＞0，如果v₂-v_l＜0，那么d₂-d₁＜0。也就是说，如果移动任务减小了负载指数方差，那么它也减小负载指数偏差。此外，当具有CPU消耗w的任务从亲缘关系节点i被移动到j时：

v₁＝(...+l_i ²+...+l_j ²+...)/n

v₂＝(...+(l_i-w)²+...+(l_j+w)²+...)/n

采用简单的数学，我们可以推导出：

v₂-v₁＝2＊w＊(w+l_j-l_i)/n

由于w＞0并且n＞0，如果w+l_i-l_i＜0，那么v₂-v₁＜0，这又意味着d₂-d₁＜0。因此，为了确定把任务从亲缘关系节点i移动到j是否使系统更接近其平衡目标，我们仅仅需要检查不等式：w+l_j-l_i＜0。

当不等式成立时，所述移动将使系统更接近其平衡目标；否则将不会。

参考图3的流程图，贪心亲缘关系平衡算法的逻辑如下进行。在步骤310，平衡器150准备系统中所有亲缘关系节点的列表N。在步骤320，必须进行判定以便确定是否存在一个以上的亲缘关系节点。如果只存在一个亲缘关系节点，那么不需要在节点当中进行负载平衡。然而，如果系统包含一个以上的亲缘关系节点，那么处理移到步骤330以便找到每个节点i的l_i。一旦每个节点的l_i被计算，则必须识别具有最高负载指数值l_s的节点S。另外，具有最低负载指数值l_T的节点T也必须被识别。在此之后，准备亲缘关系节点S的所有任务的列表M。

移到步骤340，查询列表M。如果M等于零(即，没有具有亲缘关系节点S的任务)，那么在步骤390把节点S从所有节点的列表N处移走，并且处理返回到步骤320。否则，从亲缘关系节点S的所有任务的列表M中找到最大CPU消耗任务W(其CPU消耗是w)，然后将其从M中去除(从而使它只被移动一次)。在下一步骤360，计算w+l_T-l_S的值。如果此值小于零，那么任务从S移动到T将改进系统的平衡。因此，处理在步骤370继续以便把W的亲缘关系(从S)重新分配给T。否则，将任务从S移动到T将不会改进并且甚至恶化系统的平衡。因此，我们忽略此任务并且回到步骤340，以便从列表M中选择下一个最大CPU消耗任务。

接下来在步骤380，再次查询M以便确定它是否已经减小为零(不再有亲缘关系节点S的任务)。倘若如此，在步骤390，从亲缘关系节点的列表N中去除S，并且进行到步骤320，以便确定是否还剩下任何节点待处理。否则，如果M大于零(即，剩下亲缘关系S的至少一个任务)，那么返回到步骤320，而不从列表N中去除S。所述过程将依照此方式继续，直到亲缘关系节点的列表减小为一为止。

用于处理图3的伪码如下：

Let N＝the list of affinity nodes；

While(N has more than one affinity node)

{

Find the affinity node S with the highest load index value lS；

Find the affinity node T with the lowest load index value lT；

Let M＝the list oftasks with affinity S；

While(M is not empty)

{

Find the largest CPU con suming task W in M；

Remove W from M；

if(w+l_T-l_S＜0)

{

Reassign W′s affinity to be T；

break；

}

if(M is empty)Remove S from N；

}

实质上，图3流程图中描述的算法只有当移动造成负载指数偏差减小时，才重复地把最大CPU消耗任务W从负载最重的亲缘关系节点S移动到负载最轻的亲缘关系节点T。用于确定移动是否将造成负载指数偏差减小的条件，即：w+l_T-L_S＜0，是非常简单的并且可以很快地计算。另外，每一任务只被移动一次，以便减少平衡器150本身引起的计算开销。应注意的是，每次移动任务时，负载最重的亲缘关系节点S和负载最轻的亲缘关系节点T可能改变；因此所述算法必须不断地更新其参数。当已经考虑了亲缘关系节点上的所有任务时，把亲缘关系节点从参与负载平衡的亲缘关系节点的列表N处移走。当列表N中只剩下一个亲缘关系节点时，所述算法结束。应该理解的是，如图1所示，平衡器150仅仅是用于执行上述步骤的逻辑的一种表示。本领域技术人员将理解的是，在本发明的精神和范围内，其它表示也是可以的。

负载平衡算法的一个重要特征在于避免CPU颠簸。当在连续的平衡运行中把任务重复地从一个亲缘关系节点移动到另一个时，会出现CPU颠簸。采用基于运行队列长度的平衡算法，当所述算法试图严格地平衡运行队列长度(即，使所有单独的运行队列长度相等)时，会发生CPU颠簸。避免CPU颠簸的一种方式是允许单独的运行队列长度与平均系统运行队列长度存在错误容许偏差。在贪心亲缘关系负载平衡算法中，如图4a、4b和4c的示例所示那样，也会出现CPU颠簸。

假定存在2个亲缘关系节点S 440和T 460(为简单起见，每个节点具有相等的能力)，并且存在3个任务i 410、j 420和k 430，分别消耗几乎相同的CPU处理量，例如10％。在分配其中2个任务之后，例如把i分配给S并且把j分配给T，那么可以把第三个任务k分配给S或者T。假定把k分配给S，如图4a中所示那样。现在假定下次运行平衡算法时，j的CPU消耗稍微改变，从10％改变为9％，并且k的CPU消耗也稍微改变，从10％改变为11％。现在，在节点S上：任务k＝11％并且i＝10％，而在节点T上：任务j＝9％，如图4b所示。节点S和T的平均CPU消耗是((11％+10％)+9％)/2＝15％。节点S的负载指数是(11％+10％)-15％＝6％，而节点T的负载指数是9％-15％＝-6％。

如果平衡器150把任务k从节点S移动到节点T，那么11％-6％-6％＝-1％＜0。因此，移动减少了负载指数偏差，并且被允许(由图4b中的虚线箭头表示)。因此，目前在节点S上：任务i＝10％，而在节点T上：任务k＝11％并且j＝9％。假定下次运行平衡算法时，i的CPU消耗稍微改变，从10％改变为9％，并且j的CPU消耗也稍微改变，从9％改变为10％。显而易见的是，现在的情况与上次运行平衡算法(如图4b所示那样)时的正相反。现在把任务k从节点T移回S(由图4c中的虚线箭头表示)。这种“乒乓”效应(CPU颠簸)会发生在每一已知的负载平衡场景中，并且它会不确定地继续发生。

很清楚，在贪心亲缘关系负载平衡算法中，CPU颠簸的原因是因为允许任务被移动的条件、即w+l_T-l_S＜0，对于任务的CPU消耗方面的小波动极为敏感，即，每当负载指数偏差方面存在任何减小量，就会出现任务重新分配，无论减小量有多么小。为了避免CPU颠簸，需要修改允许任务被移动的条件。贪心亲缘关系负载平衡算法通过在计算中添加阈值来修改允许任务被移动的条件。新的阈值条件是：

w+l_T-l_S＜-T(T＞0)

换言之，只有当移动使负载指数偏差减少了超过某一数量T(阈值量)时，我们才允许任务被移动。T可以是平衡算法的参数并且可以根据工作负载特性进行调整。采用修改后的条件，只有当任务CPU消耗中的波动足够大以便在亲缘关系节点当中引起较大量的负载不平衡时，贪心亲缘关系负载平衡算法才移动任务，从而使移动减少较大量的负载指数偏差。

除标准的通用CPU以外，系统可以具有专用CPU，其是专用于某些类型的处理的CPU。例如，IBM的z系列应用辅助处理器(zAAP)只运行Java应用程序。像zAAP那样的专用CPU的益处在于其计算成本比通用CPU低得多。例如，具有诸如IBM的WebSphere的较大Java工作负载的客户通过在zAAP上运行其Java应用程序可以节省相当数额的成本。专用CPU给负载平衡算法提出了新的挑战，这是因为目前存在不同类型的亲缘关系节点，即，包含不同类型CPU的亲缘关系节点，并且要么每一类型的亲缘关系节点必须独立地加以平衡，要么多种类型的亲缘关系节点必须共同地加以平衡。任务现在可能具有多个亲缘关系，即，它们可能在不同类型的亲缘关系节点上执行，并且消耗不同类型的CPU资源。移动一个任务可能改变多个亲缘关系节点上的负载。

在一个实施例中，所述贪心亲缘关系负载平衡算法被增强来支持不同类型的亲缘关系节点。基本思想在于使用平衡矩阵来表示不同类型的亲缘关系节点和具有多个亲缘关系的任务。所述平衡矩阵可以具有任意维数，每一维表示一种类型的亲缘关系节点。平衡矩阵中的每一单元表示具有所述单元的相应维的亲缘关系的任务。为简单起见并且不失一般性，我们使用二维平衡矩阵(即，2种不同类型的亲缘关系节点)为例来说明所述思想。

表1-二维平衡矩阵。

	Z1	Z2	Z3	Z4
	Z1	Z2	Z3	Z4	S1		9	11
S2	8		5		S1		9	11
S2	8		5		S3	7	14	10

表1的平衡矩阵示出了两个不同类型的亲缘关系节点，标准CPU类型(S)节点和zAAP CPU类型(Z)节点。存在3个标准亲缘关系节点S1、S2和S3以及4个zAAP亲缘关系节点Z1、Z2、Z3和Z4。每一单元中的数字，例如单元[S1，Z2]中的9指的是存在9个在亲缘关系节点S1和Z2这二者上都消耗CPU资源因此具有亲缘关系[S1，Z2]的任务。没有数字的单元意味着没有在表示该单元的两个亲缘关系节点上都消耗CPU资源的任务。例如，不存在在两个亲缘关系节点S1和Z1上都消耗CPU资源的任务。为了使贪心亲缘关系平衡算法适应于平衡矩阵，应该执行如下过程：

把平衡矩阵的行和列从最高负载指数值向最低负载指数值排序。

例如，假定上述平衡矩阵已经被排序；因此我们知道S1是具有最高负载指数的标准亲缘关系节点，而S3是具有最低负载指数的节点。同样，Z1是具有最高负载指数值的zAAP亲缘关系节点，而Z4是具有最低负载指数值的亲缘关系节点。

为了平衡两个类型的亲缘关系节点，首先平衡一个类型，然后平衡另一个类型。例如，当平衡标准亲缘关系节点时，我们在负载最重的S1上找到最大的标准CPU消耗任务，所述任务可能是具有亲缘关系[S1，Z2]的9个任务之一，或者可能是具有亲缘关系[S1，Z4]的11个任务之一。如果假定是前者，那么也许此任务可以被移动到S3，即，被重新分配为[S3，Z2]。然而，在这样做之前，由于此任务还需要zAAP消耗，那么所述算法必须确定任务是否可以被重新分配为[S3，Z4]。这是更好的重新分配，因为这样做将同时从S1向S3以及从Z2向Z4平衡负载。在平衡标准节点之后，执行相同的过程来平衡zAAP亲缘关系节点。例如，假定在负载最重的Z1上，最大zAAP CPU消耗任务是具有亲缘关系[S2，Z1]的8个任务之一。所述算法确定它是否可以从[S2，Z1]被移动到[S3，Z4]。如果不是，那么把任务从[S2，Z1]移动到[S3，Z4]。参见表2，其示出了已经移动了两个任务之后、平衡矩阵中的中间步骤。

表2-移动了两个任务之后的二维平衡矩阵

当亲缘关系节点上没有剩余任何任务时，把表示该亲缘关系节点的平衡矩阵的行或者列从矩阵移去。例如，如果不再剩下具有亲缘关系[S1，＊]的任务，那么移去平衡矩阵中的S1行并且把平衡矩阵减小至2行乘4列。同样，如果不再剩下具有亲缘关系[＊，Z1]的任务，那么移去平衡矩阵中的Z1列，并且把平衡矩阵减小至2行乘3列。当平衡矩阵减小至1个单元时，算法结束。

如已经示出的那样，可以进行不同类型的亲缘关系节点之间的平衡，但是会存在平衡不对称的情况，即，工作负载可以自由地从一个类型的亲缘关系节点Z移动到另一个节点S，但从相反方向不行。这是因为标准处理器S可以运行任何类型的代码，而处理器Z是专门的处理器并且只能运行某些类型的代码，例如Java。因此，专用处理器上的工作负载可以被移到标准处理器，但是标准处理器上的工作负载并不总是可以被移到专用处理器。

在一个实施例中，所述贪心亲缘关系负载平衡算法被进一步增强以便支持这种不对称的平衡。这是通过扩展平衡矩阵使其每一维可以表示一个以上类型的亲缘关系节点来执行的。表3中示出了新的平衡矩阵的示例。

表3-具有不对称平衡支持的二维平衡矩阵

在上面新的平衡矩阵中，我们看到，表示zAAP亲缘关系节点Z1-Z4的列已经被扩展，附加列表示标准亲缘关系节点S1-S3。这意味着当我们平衡zAAP亲缘关系节点时，我们对待标准亲缘关系节点就好像它们是zAAP亲缘关系节点一样。因此，我们可以把负载从zAAP亲缘关系节点移动到标准亲缘关系节点。例如，如果我们在具有亲缘关系[S2，Z1]的8个任务之一中发现最大zAAP CPU消耗任务，那么除早先看到的可能的移动以外，我们目前具有两个另外的可能的移动：从[S2，Z1]到[S2，S2](虚线)，其有效地把任务的zAAP CPU消耗从Z1移动至S2；或者如果这是不可能的(即，S2上没有足够的空间)，那么我们可以尝试从[S2，Z1]移动到[S3，S3](虚线)，其有效地把任务的标准CPU和zAAP CPU消耗这两者都移动到标准亲缘关系节点S3。应注意的是，我们选择S3作为接收zAAP CPU消耗的目标，这是由于其是负载最轻的标准亲缘关系节点。当我们平衡标准亲缘关系节点时，我们仍只使用来自于表1的原始未扩展平衡矩阵行S1-S3，这是由于标准CPU消耗无法自由地移动到zAAP亲缘关系节点。

如上面的示例那样使用精确测量的CPU消耗数据的负载平衡算法的有效性显然取决于CPU消耗数据的质量。对负载平衡算法具有重要影响的CPU消耗数据的质量的一个方面是数据粒度，这是可以获得CPU消耗数据的详细程度。例如，在由所谓的地址空间表示的z/OS应用程序中，其是包含应用程序代码和数据的连续虚拟存储器区域。在地址空间内，可以存在一个或多个被称为任务控制块(TCB)的执行单元。对于例如UNIX的其它操作系统来说，地址空间和TCB分别处于类似于UNIX进程和线程的较高水平。当z/OS具有用于测量单个TCB的CPU消耗的嵌入式机制时，默认地，因监控单个TCB的较高开销，它将只测量地址空间的总计CPU消耗。只使用地址空间的更加粗糙的合计的CPU消耗，所述负载平衡算法不那么有效。因此，平衡器150和CPU消耗测量机制需要彼此协调来实现良好的负载平衡和低测量开销之间的最佳折衷。

使用负载指数偏差，所述贪心亲缘关系负载平衡算法可以容易地测定系统被平衡得有“多么好”。平衡器150把阈值用于负载指数偏差，低于该阈值，其认为系统将令人满意地被平衡。同时，所述平衡器150还跟踪在平衡运行期间未被移动的几个消耗CPU最多的地址空间。此信息对后续运行十分有用。假设所述贪心亲缘关系负载平衡算法未能使负载指数偏差低于阈值，那么它将通知测量机构开始监视其跟踪的“有问题的”地址空间(这些通常是更高CPU消耗的地址空间)内的单独TCB的CPU消耗。因此，只有当必要时，所述贪心亲缘关系负载平衡算法才引起额外的CPU消耗测量开销。当所述算法已经成功地平衡了系统时，它将通知CPU消耗测量机构停止监视TCB并且把TCB聚集回到它们各自的地址空间。

因此，虽然已经描述了目前被认为是优选实施例的内容，但是本领域技术人员将理解的是，在本发明的精神范围内可以做出其他的修改。

Claims

1.一种用计算机实现的方法，用于在处理器网络中的多个处理节点中分配多个任务，所述方法包括如下步骤：

计算多个任务的任务处理器消耗值；

计算多个节点的测量的节点处理器消耗值；

计算多个节点的目标节点处理器消耗值，所述目标节点处理器消耗值表明最佳节点处理器消耗；

根据节点i的测量的节点处理器消耗值与节点i的目标节点处理器消耗值之间的差来计算负载指数值；以及

根据每个节点的计算的负载指数值在节点中分配任务以便在节点中平衡处理器工作负载，使得每个节点的计算的负载指数值基本上为零。

2.如权利要求1所述的方法，还包括如下步骤：根据实际处理器工作负载分配与目标处理器工作负载分配的差来计算负载指数标准偏差值，使得负载指数标准偏差被减小到基本上为零，在所述目标处理器工作负载分配的情况下，所有亲缘关系节点的负载指数值基本上为零。

3.如权利要求1所述的方法，其中多个任务中的每一个只被分配一次。

4.如权利要求1所述的方法，还包括如下步骤：如果存在多于一种处理器类型，那么为每个节点确定处理器类型，其中所述处理器类型确定如何分配任务，使得为一种类型的处理器指定的任务被专门分配给该类型的处理器。

5.如权利要求4所述的方法，还包括如下步骤：

创建多维平衡矩阵，所述矩阵的每一维表示对应于特定处理器类型的节点，并且每个单元表示任务；

按照从最高负载指数值到最低负载指数值的顺序来排序计算的负载指数值；以及

根据已排序的负载指数值来用任务填充所述矩阵；

在单元中重新布置任务以便表示处理器工作负载在节点中的平衡；

如果其对应节点的任务列表为空，则去除矩阵的每一维；以及

根据所述矩阵表示来把任务分配给处理器。

6.如权利要求5所述的方法，还包括如下步骤：

扩展多维平衡，使得每一维可以表示对应于多个处理器类型的节点；以及

根据预定的使用规则来重新布置单元中的任务，使得任务的重新布置是非对称的。

7.如权利要求1所述的方法，还包括如下步骤：计算一个阈值，低于所述阈值，认为系统令人满意地被平衡，从而所述阈值表示负载指数偏差减少一个较大的量。

8.如权利要求7所述的方法，其中只有当重新分配使得负载指数偏差减少了超过阈值的值时才重新分配任务。

9.如权利要求8所述的方法，其中所述阈值根据处理器工作负载而改变。

10.如权利要求1所述的方法，还包括如下步骤：

在每一平衡器运行期间，跟踪具有高处理器消耗的多个任务。

11.如权利要求10所述的方法，其中当负载指数偏差未能达到阈值以下时，多个最大处理器消耗任务被更加密切地监视以便更好地获得处理器消耗的细节。

12.一种用于在网络中的多个节点中分配多个任务的系统，所述系统包括：

用于执行任务的多个处理器；

包括处理器的多个节点；

任务调度器，用于：

接收多个任务；

计算多个任务的任务处理器消耗值；

计算多个节点的节点处理器消耗值；

计算多个节点的目标节点处理器消耗值，所述目标节点处

理器消耗值表明最佳节点处理器消耗；以及

根据节点i的计算的节点处理器消耗值与节点i的目标节点处理器消耗值之间的差来计算负载指数值；以及

平衡器，用于根据每个节点的计算的负载指数值在节点中分配任务，以便在节点中平衡处理器工作负载，使得每个节点的计算的负载指数值基本上为零。

13.如权利要求12所述的系统，其中所述任务调度器和平衡器是驻留在计算机系统中的软件。

14.如权利要求13所述的系统，其中所述任务调度器还包括逻辑，用于：

如果存在多于一种处理器类型，那么为每个节点确定处理器类型，其中所述处理器类型确定如何分配任务。

15.如权利要求14所述的系统，其中所述任务调度器还包括逻辑，用于：

根据已排序的负载指数值来用任务填充所述矩阵；

在单元中重新分配任务以便在节点中平衡处理器工作负载；

如果其对应节点任务列表为空，那么去除矩阵的每一维；以及

根据平衡矩阵表示把任务分配给处理器。

16.如权利要求12所述的系统，其中所述任务调度器还计算一个阈值，使得所述阈值表示负载指数偏差减少一个较大的量；并且只有当重新分配使负载指数偏差减少了超过所述阈值的值时才重新分配任务。

17.如权利要求16所述的系统，其中所述阈值根据处理器工作负载而改变。

18.如权利要求12所述的系统，其中所述平衡器按照实际处理器工作负载值与目标处理器工作负载值的差来计算负载指数标准偏差值，使得负载指数标准偏差被减小到基本上为零，在所述目标处理器工作负载值的情况下，所有亲缘关系节点的负载指数值基本上为零。

19.如权利要求18所述的系统，其中如果平衡器未能使负载指数偏差低于阈值，那么所述平衡器将通知测量机构开始监视几个最大处理器消耗的任务，以便更好地获得每一任务内的处理器消耗细节。