CN102495758A

CN102495758A - 分布式高性能计算环境中实时任务的调度方法

Info

Publication number: CN102495758A
Application number: CN2011103967997A
Authority: CN
Inventors: 胡志刚; 肖鹏; 阎朝坤; 李玺
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2011-12-05
Filing date: 2011-12-05
Publication date: 2012-06-13

Abstract

本发明公开一种针对分布式高性能计算系统的实时任务调度方法。该调度方法采用随机服务理论来计算资源动态服务能力与任务实时性需求两者之间的匹配关系，然后通过一个可扩展的多策略混合调度体系来评估各种调度策略所对应的实时保证度，并选择实时保证能力最优策略为任务提供调度服务，从而提高分布式实时任务的QoS满意度。该实时调度方法的主要优点是：在负载随机性极强的分布式系统中，可动态、高效地定量分析“负载波动-实时保证”两者之间的关系；采用可扩展的设计模式，可以高效地集成已有各种调度算法和策略，并在系统运行时刻进行自适应地调整调度策略。

Description

分布式高性能计算环境中实时任务的调度方法

技术领域

本发明涉及一种分布式高性能计算领域，特指一种针对实时任务的调度方法及其实现技术。

背景技术

随着高性能分布式系统在工业和商业领域得到日益广泛的应用，大量上层应用对系统所能提供的实时性保证能力提出了更高的要求。电子商务中分布式数据库的实时查询、远程虚拟医疗中的实时视频传输、复杂金融模型的实时计算、大型气候预测模型的实时监测、军事作战系统的实时指挥与部署等。因此，实时性约束下的任务协同调度正成为当前一个亟待解决的问题。

分布式高性能计算环境的特点是：开放性、异构性、动态性。在分布式高性能计算环境中，实时任务的主要特征是：(1)任务的起始时间和截止时间约束具有最高的优先级，若任务的实时性需求无法得到有效保证，则可能导致重大的经济损失或人员伤亡；(2)任务的实时性需求描述通常以QoS指标的形式由用户在提交任务时明确指出，系统只有在运行时刻才能获知任务的实时性需求，由于分布式系统中存在大量异构任务，传统的严格基于优先级的任务调度机制无法完全实现实时性保证；(3)相对于较封闭系统(如嵌入式系统)中的实时任务而言，分布式环境中实时任务的实时性需求相对较为宽松，其时间误差单位一般为秒或分钟，而非嵌入式系统中的毫秒；(4)由于冗余调度策略的存在，系统通常允许少量的截止时间违约情况的发生。此类任务通常称为“软实时型任务”(Soft Real-Time Task)，或称系统为用户提供“软实时保证”。

结合以上关于分布式计算环境和实时任务的特点，为分布式系统中提供实时性保证的难点与挑战主要体现在下列五个方面：(1)资源异构性使得分布式系统缺少一致的尺度来评估资源的服务能力，任务调度器很难将任务的实时性需求映射到最优的资源集合，从而无法向用户提供实时性保证的承诺。(2)资源负载压力和服务能力在系统运行过程中处于不断动态变化之中，常规的基于资源静态性能指标的调度策略无法有效保证任务的实时性需求。(3)负载的剧烈变化使得系统很难在较长时间范围内给出一个较为稳定的实时性保证承诺。(4)分布式系统通常由多个“自治”的虚拟资源子站点组成，因此资源在系统中的可用性和可获得性具有很大的不确定性，且各个虚拟资源站点内部在资源管理时通常采用不同的管理策略，使得任务在进行跨组织的多资源协同访问时难以获得一致的实时性保证。(5)任务的QoS需求指标中存在与实时性需求对立的指标，如费用约束、可靠性约束、安全性约束等，这些指标都可能对任务的实时性需求产生不利影响。任务调度器需要在多个QoS指标之间进行权衡，从而显著增加了调度器的设计难度和执行效率。

以下是关于已有的若干分布式实时任务调度技术的简要概括和缺陷分析：

(1)提前预留技术：该技术被广泛应用于各类分布式系统，目的在于提高资源分配时刻的“可获得性”，从而为实时任务的起始时间约束提供保证。但是，提前预留技术不能提供任何关于“截止时间”的保证。此外大量研究报告显示，过度使用提前预留技术会显著降低系统的整体性能。

(2)基于最优规划理论的实时调度技术：这类技术的要点是以“平均截止时间违约率”为目标函数，将资源可用性、任务需求等指标作为约束条件，从而将实时任务的调度问题归结为“约束条件下的最优规划问题”。这类技术的优点是能够获得一个理论上的最优实时调度方案，但其主要不足之处是：首先，其调度算法的时间复杂度很高，这导致调度算法的时间开销随系统规模增大而显著增加；其次，调度算法所依据的是资源的静态服务能力，而分布式系统的动态性导致资源的实际服务能力是随时间而显著波动的，因此即使通过该技术得到了理论上的最优调度方案，当系统负载剧烈波动时，调度方案的实际执行效果往往很差。

(3)基于闭环反馈控制理论的实时任务调度技术：这类技术借鉴了控制理论的“闭环负反馈”模型，将调度方案的执行结果作为输入，用于修正随后调度方案的准确性。该类技术的主要不足之处在于：首先，分布式系统的动态性导致其工作负载很难用简单的“线性模型”描述，因此“闭环负反馈”模型的输入参数必须做很多不适合于分布式系统的假设；其此，闭环反馈模型的控制参数只能依据经验值进行拟合，其准确性随不同系统的差异而显著变化，这导致该类技术的通用性不高；最后，闭环反馈模型需要依据从前的执行结果来修正未来的调度方案，由于分布式系统的异构性使得调度方案的最终执行结果具有很大的波动性，这导致闭环反馈输出很可能不能起到校准修正的作用，反而在某些场合会降低实际的调度效果。

发明内容

本发明的目的是提供一种(1)为异构的分布式资源的动态服务能力建立一个标准的度量尺度，从而为实时任务调度提供一套统一的资源性能参数；(2)为分布式资源的实际服务性能建立相应动态的模型，从而保证任务调度算法能够适应开放性和动态性都极强的分布式计算环境；(3)提供一个通用量化的评估方法，用于分析调度方案最终能在多大程度保证实时任务的截止时间要求，从而为用户提前预测调度效果提供支持。

本发明的技术方案是，一种分布式高性能计算环境中实时任务的调度方法，其特征在于：

步骤一.采用随机服务理论，建立分布式资源的动态服务能力模型；具体流程如下：

(1)选择典型的工作任务负载注入目标系统，其执行过程和执行结果相关的日志统计信息存入“日志统计数据库”和“随机模型参数库”；

(2)“随机模型参数库”依据步骤1所得日志统计信息进行提炼和筛选，对各种统计参数所适用的概率分布模型进行回归逼近；

(3)依据步骤2所得的参数概率分布模型，建立相应的随机服务模型，并以七元组<ID：Pro1/Pro2/Con/S1/S2/S3>的形式存入“资源随机模型库”；其中，ID为随机模型名称，Pro1为任务到达间隔的概率分布模型，Pro2为服务时间的概率分布模型，S1为时间窗口内的平均并发服务数，S2和S3为特殊服务模型的特定参数；

(4)当前任务的统计信息通过“参数拟合与校准”与以前建立的随机服务模型进行误差校准与拟合；具体方法是：以时间窗口尺寸S为周期，对在该时间窗口内的统计信息进行滑动平均；

步骤二.量化计算调度方案对任务的实时性保证度，具体步骤如下：

(1)输入特定任务的需求描述，以及步骤一所建立的资源服务能力模型及其特征参数；

(2)若任务可切分为完全独立的子任务，则分别计算出各个子任务的实时性保证度；若任务为工作流任务，则将其前驱任务的关联程度作为影响因子SC_i，j并入实时性保证度中，SC_i，j计算公式如下所示：

{SC}_{i, j} = \{\begin{matrix} 1, if t_{j} &Element; {Set}_{i}^{-} (t_{i}) or t_{j} &Element; {Set}_{i}^{+} (t_{i}) \\ \frac{Σ ({TC}_{i} \cdot {TC}_{j}) - {\overset{&OverBar;}{TC}}_{i} \cdot {\overset{&OverBar;}{TC}}_{j}}{\sqrt{(Σ {TC}_{i}^{2} - \frac{{(Σ {TC}_{i})}^{2}}{N}) (Σ {TC}_{j}^{2} - \frac{{(Σ {TC}_{j})}^{2}}{N})}} \end{matrix} - - - (1)

其中，TC_i和TC_j为随机变量，分别表示任务t_i和t_j的实际完成时间；

(3)若资源的服务模型为M/M/C型，则任务实时保证度计算公式为：

\Pr {ω \leq d} = δ [Σ_{n = 0}^{c_{i}} \frac{{(ρ_{i} \cdot c_{i})}^{n}}{n!} + Σ_{k = 1}^{c_{i} μ_{i} d - 1} \frac{{ρ_{i}}^{k + c_{i}} \cdot c_{i}^{c_{i}}}{c_{i}!}] - - - (2)

其中

c_i，λ_i，μ_i，ρ_i均为资源服务能力模型的特征参数，d为任务的截止时间约束；

(3)若资源的服务模型为M/M/1型，则任务实时保证度计算公式为：

\Pr {ω \leq d} = Σ_{k = 0}^{μ_{k} d_{j} - 1} (1 - ρ_{i}) ρ_{i}^{k} - - - (3)

步骤三.利用多策略混合调度体系选择实时保证度最优的调度方案为任务服务，具体流程如下：

(1)元调度器负责接收用户任务，并将用户对任务的描述转换为系统可识别的“任务需求描述”；

(2)标准化的“任务需求描述”作为底层各种协同调度策略的输入参数，用于生成其各自策略所对应的协同调度方案(S₁，S₂，...，S_n)，并将其作为决策器的输入参数；

(3)决策器采用步骤二中的方法计算调度方案对特定任务的实时保证度，并选择实时保证度最好的调度方案S^*作为最终的任务协同调度方案，然后提交给元调度器执行；

(4)元调度器依据S^*给出的协同调度方案将所有任务派发到对应的计算资源站点，并由各个资源站点的本地调度器进行具体的资源分配与执行。

本发明具有如下的技术效果，(1)采用随机服务模型描述分布式资源的动态服务能力，从而解决了分布式异构资源的一致性度量问题，为调度算法的设计和调度策略的性能评估提供了标准的参考指标。(2)从理论上明确给出了软实时任务的“实时性保证度”计算方法，为研究新型的分布式实时调度算法提供了可靠的理论分析基础。(3)以“实时性保证度”计算方法为基础，进一步实现了一个“多策略混合协同调度模型”DEHCS。通过综合集成现有各类协同调度算法，DEHCS能够依据任务的执行需求和资源动态服务能力，进行在线的细粒度调度策略动态切换，从而显著优化了实时任务的实时性保证度。(4)采用PMCC技术解决了工作流的子任务关联调度分析的难题，为实时工作流的高效调度提供了具有理论价值的参考方法。

附图说明

图1是本发明分布式资源随机服务模型的建模流程图。

图2是本发明任务实时性保证度的计算流程图。

图3是本发明DEHCS的系统结构图。

图4是本发明分布式高性能计算平台的网络拓扑结构图。

图5是本发明DEHCS的具体实现结构图。

具体实施方式

本发明详细步骤和相关说明。

步骤一：建立资源服务能力模型

建立资源服务能力模型的基本流程如图1所示。

图1所示建模流程的关键步骤及其详细说明如下：

(1)选择若干典型的工作任务负载注入目标系统，其执行过程和执行结果相关的日志统计信息存入“日志统计数据库”和“随机模型参数库”、主要统计指标包括：平均响应时间、平均服务时间、任务到达时间间隔、等待队列长度，任务执行时间、资源实时有效利用率、资源平均利用率等。

(2)“随机模型参数库”依据步骤1所得日志统计信息进行提炼和筛选，主要对各种统计参数所适用的概率分布模型进行回归逼近。

(3)依据步骤2所得的参数概率分布模型，建立相应的随机服务模型，并以七元组<ID：Pro1/Pro2/Con/S1/S2/S3>的形式存入“资源随机模型库”。其中，ID为随机模型名称，Pro1为任务到达间隔的概率分布模型，Pro2为服务时间的概率分布模型，S1为一定时间窗口内的平均并发服务数，S2和S3为特殊服务模型的特定参数。

(4)当前任务的统计信息将通过“参数拟合与校准”与以前建立的随机服务模型进行误差校准与拟合。具体方法是：以一定时间窗口尺寸S为周期，对在该时间窗口内的统计信息进行滑动平均。

步骤二：计算调度方案的实时保证度

为便于下文描述，首先给出若干相关符号的定义和说明。设分布式系统由N个资源站点组成，所有的资源站点表示为集合(CE_i，K，CE_N)。资源站点CE_i的服务模型表示为三元组<λ_i，μ_i，c_i>，其中λ_i为任务到达CE_i的平均时间间隔，μ_i为CE_i的完成一个服务请求的平均服务时间，c_i为CE_i中所有服务资源数量。用户任务表示为二元组<R，d>，其中R＝<r_l，K，r_m>为各个子任务的资源请求量，d为任务的截止时间要求。对任务<R，d>而言，由元调度器生成的资源协同调度方案是任务的资源请求到所有资源站点集合的一个映射，表示为S：R×{1，K，N}→{0，1}。若分配矩阵中的元素S_i，j＝1，则表示在CE_j上分配资源给第i个子任务。一个合法的分配方案必须满足：如果S_i，j＝1则c_j≥r_i。协同分配方案S为一个m×N型矩阵，如下所示。

给定一个调度方案和当前实时任务的相关资源需求，该调度方案对当前任务的“实时性保证度”的基本计算流程图2所示。

图2所示计算流程的详细说明如下：

(1)计算之前首先需要判断任务是否为工作流任务。若任务只是简单的一组独立子任务的集合，则只需要分别计算出各个子任务的实时性保证度并取其连乘结果既可；若任务为工作流任务，则需要将其前驱任务的关联程度作为影响因子并入实时性保证度中，图中的SC_i，j就是两个前后任务的关联程度，其计算公式如下所示。

{SC}_{i, j} = \{\begin{matrix} 1, if t_{j} &Element; {Set}_{i}^{-} (t_{i}) or t_{j} &Element; {Set}_{i}^{+} (t_{i}) \\ \frac{Σ ({TC}_{i} \cdot {TC}_{j}) - {\overset{&OverBar;}{TC}}_{i} \cdot {\overset{&OverBar;}{TC}}_{j}}{\sqrt{(Σ {TC}_{i}^{2} - \frac{{(Σ {TC}_{i})}^{2}}{N}) (Σ {TC}_{j}^{2} - \frac{{(Σ {TC}_{j})}^{2}}{N})}} \end{matrix} - - - (4)

其中，TC_i和TC_j为随机变量，分别表示任务t_i和t_j的实际完成时间。

(1)针对每个子任务而言，其实时性保证度的计算需要依据资源的服务模型类型而定。若资源的服务模型为M/M/C型，则其实时性保证度计算公式为

\Pr {ω \leq d} = \Pr {ψ \leq c_{i} μ_{i} d - 1}

= Σ_{k = 1}^{c_{i} μ_{i} d - 1} \Pr {ψ = k} - - - (5)

= δ [Σ_{n = 0}^{c_{i}} \frac{{(ρ_{i} \cdot c_{i})}^{n}}{n!} + Σ_{k = 1}^{c_{i} μ_{i} d - 1} \frac{{ρ_{i}}^{k + c_{i}} \cdot c_{i}^{c_{i}}}{c_{i}!}]

其中

其余变量含义如前文所述。若资源的服务模型为M/M/1型，则其实时性保证度计算公式为

\Pr {ω \leq d} = \Pr {ψ \leq μ_{i} d - 1}

= Σ_{m = 1}^{μ_{k} d_{j} - 1} \Pr {ψ = m} - - - (6)

= Σ_{k = 0}^{μ_{k} d_{j} - 1} (1 - ρ_{i}) ρ_{i}^{k}

步骤三：多策略混合调度系统的设计与实现

本发明设计的截止时间保证增强的多策略协同调度模型(Deadline-guaranteeEnhanced Hybrid Co-scheduling System，简称DEHCS)。DEHCS的核心设计思想是：元调度内部实现多个协同分配策略，当任务有明确的截止时间需求时，各个策略给出其对应的分配方案，决策器利用下文将给出的实时性保证度计算方法来评估各种调度方案的实时性保证度，并选择最优者作为任务的最终协同调度方案。

DEHCS的系统结构如图3所示。

图3所示的DEHCS在负责任务调度时的关键步骤和相关说明如下：

(1)元调度器负责接收用户任务，并将用户对任务的描述转换为系统可识别的“任务需求描述”。本发明采用了由国际标准化组织OGF所定义的JSDL语言来进行“任务需求描述”。

(2)标准化的“任务需求描述”作为底层各种种协同调度策略的输入参数，用于生成其各自策略所对应的协同调度方案(S₁，S₂，...，S_n)，并将其作为决策器的输入参数。

(3)决策器负责执行后文所示的算法1、算法2或算法3，对三种具体调度方案的实时保证进行计算和分析，并选择实时保证度最好的调度方案(S^*)作为最终的任务协同调度方案，并提交给元调度器执行。

本地调度器在任务执行完毕后需要将与执行任务相关的日志统计信息并入图XX中所示的“日志统计数据库”。

实施例：

下文以具体实例阐述本发明中的相关技术和具体实施方式。

本发明的实施平台与实验测试平台为一个典型的分布式高性能网格计算平台。基本的底层计算服务器为曙光5000，其体系结构为混合式的集群架构，平台由四路、四核刀片计算节点和八路、四核SMP胖节点组成。计算网络采用Infinband高速交换机，双精度浮点运算次数理论峰值达到10TFlops、存储能力为20TB的校园高性能网格计算平台，图4为计算平台的整体网络拓扑结构示意。该平台的规模和异构性都代表了典型分布式高性能计算系统的特点，因此具有较好的代表性。

实施步骤一：建立资源服务能力模型

为建立计算资源站点的随机服务模型，需要通过一定数量的基准工作负载来统计资源的动态服务能力参数。本发明采用了Lublin-Feitelson模型来生成任务负载，该负载中每个任务由到达时间、资源请求量、截止时间三个参数表示。由于Lublin-Feitelson模型生成的工作负载源自大型机的日志信息，单个任务的资源请求量较小，为了模拟大规模计算网格下的协同资源分配，所有任务的资源请求量随机放大了f倍，f均匀分布于[10，30]区间。此外，本发明还采用了Linpack基准测试包来统计在高强度负载情况下，计算资源站点的服务能力波动情况，从而校准随机服务模型在极端负载情况下的参数设置。

对采用Lublin-Feitelson工作负载和Linpack基准测试包进行测试时，系统中8个高性能计算站点的服务能力模型及其相关参数如下表所示。测试结束条件为：当利用误差校准各个参数时，误差范围小于0.001。

计算站点ID	λ参数	μ参数	能力模型类型	误差范围
					CE₁	0.33	1.55	M/M/13	±0.0021
CE₂	0.49	1.79	M/M/11	±0.0052
					CE₃	1.23	3.07	M/M/7	±0.0023
CE₄	0.67	2.24	M/M/11	±0.0034
					CE₅	0.76	2.39	M/M/10	±0.0027

CE₆	2.35	4.13	M/M/6	±0.0011
					CE₇	1.22	1.23	M/M/12	±0.0046
CE₈	3.01	4.98	M/M/5	±0.0037

上表中所示的各个计算站点的服务能力模型和相关参数将作为下一步骤的基本输入参数之一。

实施步骤二：计算调度方案的实时保证度

针对分布式系统的独立型任务和工作流任务，本发明分别设计了相应的“实时性保证度计算”算法。由于许多分布式系统都采用了“冗余策略”来提高系统的可靠性，而是否采用“冗余策略”对“任务实时性保证度”的计算结果具有较大的影响。因此，本发明分别通过算法1和算法2分别实现了针对独立任务的“实时性保证度”计算步骤。算法1和算法2都以特定的协同调度方案

为基本输入，通过遍历所有子任务集合和协同调度方案来计算任务整体的实时性保证度。由于资源站点总是存在一定长度的等待队列，而且该等待队列的动态变化将影响随机服务模型的参数值。因此算法1和算法2采用WaitLength[]数组用于动态记录各个资源站点的等待队列情况，并在计算过程中迭代调整WaitLength[]数组的情况，从而解决模型参数的实时校准问题。算法1和算法2的详细步骤如下所示。

算法1：针对独立任务且不采用冗余策略的“实时性保证度”计算方法

算法2：针对独立任务且不采用冗余策略的“实时性保证度”计算方法

对工作流任务而言，由于子任务之间存在相互依赖关系，因此必须首先计算出子任务之间的关联强度。本发明采用PMCC公式来计算工作流子任务之间的关联强度。针对工作流任务的协同调度算法实现如算法3所示。

算法3：针对工作流任务的“实时性保证度”计算方法

与算法1和算法2相比，算法3采用了“进化策略”对“协同调度方案进行了进一步优化，其原因在于：工作流调度问题属于经典的NP难问题，现有各种调度策略都是只针对“调度长度”(Makespan)进行优化，当需要考虑实时任务的截止时间约束时，各种已有调度策略均无法在多项式时间内获得最优调度方案。在具体实施过程中，算法3中的“进化迭代”次数(W参数)一般的取值范围为[50，500]，系统可以从“性能/效率”之间做相应的取舍。一般迭代次数越大，所生成的调度方案的效率越高，但算法3的执行时间将线性增加。

实施步骤三：多策略混合调度系统的设计与实现

本发明的多策略混合调度系统(DEHCS)在当前的实施方案中集成了三种典型的协同调度算法(CR_P，CM_P，RR_P)，因此DEHCS的系统结构如图5所示。

图5中三种协同调度算法的相关说明如下：

1.Round Robin Policy(RR_P)：采用轮转方式将任务或子任务调度到各个计算站点，关键特点是：当各个计算站点为同构型系统时，RR_P能高效地实现负载均衡。

2.Capability-based Random Policy(CR_P)：计算站点被选中的概率与其静态计算能力(主要是处理器速度和数量)成正比，CR_P的思想是将更多的任务调度到性能较优的资源上，以期提高任务响应时间和资源利用率。

3.Cluster Minimized Policy(CM_P)：在跨站点协同分配资源时，优先选择计算站点数目最少的分配方案，目的是减少跨站点数据通讯开销。

在DEHCS系统中，以上三种内置的协同调度算法的抽象接口均为ICoallocation，其接口具体描述如下。

三种调度算法都直接通过实例化该接口来实现，由于DHCM采用了可扩展的面向对象设计方法，其它各种协同调度策略可以很方便地集成到现有的系统实现之中。

Claims

1.一种分布式高性能计算环境中实时任务的调度方法，其特征在于：

{SC}_{i, j} = \{\begin{matrix} 1, if t_{j} &Element; {Set}_{i}^{-} (t_{i}) or t_{j} &Element; {Set}_{i}^{+} (t_{i}) \\ \frac{Σ ({TC}_{i} \cdot {TC}_{j}) - {\overset{&OverBar;}{TC}}_{i} \cdot {\overset{&OverBar;}{TC}}_{j}}{\sqrt{(Σ {TC}_{i}^{2} - \frac{{(Σ {TC}_{i})}^{2}}{N}) (Σ {TC}_{j}^{2} - \frac{{(Σ {TC}_{j})}^{2}}{N})}} \end{matrix} - - - (1)

\Pr {ω \leq d} = δ [Σ_{n = 0}^{c_{i}} \frac{{(ρ_{i} \cdot c_{i})}^{n}}{n!} + Σ_{k = 1}^{c_{i} μ_{i} d - 1} \frac{{ρ_{i}}^{k + c_{i}} \cdot c_{i}^{c_{i}}}{c_{i}!}] - - - (2)

其中

\Pr {ω \leq d} = Σ_{k = 0}^{μ_{k} d_{j} - 1} (1 - ρ_{i}) ρ_{i}^{k} - - - (3)

(2)标准化的“任务需求描述”作为底层各种种协同调度策略的输入参数，用于生成其各自策略所对应的协同调度方案(S₁，S₂，...，S_n)，并将其作为决策器的输入参数；