CN111782627B

CN111782627B - 面向广域高性能计算环境的任务与数据协同调度方法

Info

Publication number: CN111782627B
Application number: CN202010456910.6A
Authority: CN
Inventors: 肖利民; 宋尧; 秦广军; 霍志胜; 张晨浩; 周汉杰
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2022-07-01
Anticipated expiration: 2040-05-26
Also published as: CN111782627A

Abstract

本发明提出一种面向广域高性能计算环境的任务与数据协同调度方法，首先根据全局资源状态、计算任务需求、数据布局情况等条件构建任务完成时间模型。其次，根据最优方案选择机制，基于任务完成时间预估值和全局资源使用状态选择出最优的中心级协同调度方案。然后，在调度过程中基于数据访问频度实现数据冗余布局。最后，基于任务窃取机制生成队列级调度方案以修正任务完成时间的估计值偏差。该方法可以在跨域的多个中心和任务队列间协同调度计算任务及其对应的数据，高效合理地进行任务分配和数据布局，兼顾系统时间性能和全局资源利用率，从而实现高效计算。

Description

面向广域高性能计算环境的任务与数据协同调度方法

技术领域

本发明公开了一种面向广域高性能计算环境的任务与数据协同调度方法，涉及广域高性能计算面临的挑战，属于计算机技术领域。

背景技术

在高性能计算环境中,对于天气预报和地质观察等诸多并行应用,其计算数据来自分布在世界各地的遥感卫星或观测点,导致了数据存储在地理分布的计算中心(包括超算中心、数据中心等)并广域共享的情况。与此同时，随着科学和工程问题的日益复杂，并行应用对存储和计算资源的需求量逐渐增大。为了解决上述挑战，当前的趋势是在由多个计算中心组成的广域计算环境中执行应用程序，即国家高性能计算环境。然而存储和计算资源的地理分散往往导致较低的系统性能，广域调度是提升系统性能的一种有效手段。当前在面向广域计算的调度方法的研究领域中，许多学者进行了大量的研究，总结有如下三类：任务调度方法、数据调度方法和任务与数据协同调度方法。

跨域调度技术因其能高效合理地进行任务分配和数据管理，被广泛应用于广域计算中，包括高性能计算、云计算、边缘计算等多个领域。在早期阶段，任务调度方法是提高系统性能的经典方法。而随着计算应用对存储资源的需求不断提高，数据调度逐渐成为提高系统性能的重要途径。此外，近年来计算任务和数据的协同调度技术引起了极大兴趣。

任务调度方法的目的在于优化系统资源利用率、任务的平均等待时间、系统总体完成时间等性能。Wang等人提出了一种面向多种资源的任务间公平共享策略，在任务调度过程中迭代地动态调整任务资源分配，从而达到最大的公平共享性。Kremer-Herman等人提出了一种面向“主从”模式应用的轻量级模型，用以估算计算任务达到最佳执行时间的有效资源数量，防止由用户错误估计导致的计算任务间资源争用或计算中心资源空闲等情况。Gaussier等人提出了一种用于高性能计算平台的在线启发式自动调优调度方法，根据不同的反馈模式为作业队列选择重排序策略，从而减小计算任务的平均等待时间。Carastan-Santos等人通过机器学习方法，基于现有的任务日志构建了非线性调度函数，并配合回填算法执行任务调度，极大地改善了综合工作负载中的平均任务放缓。Niu等人设计了一个可预估系统性能提升和公平性损失的调度模型，以实现系统在计算效率和公平性之间的权衡。Chen研究了异构分布式系统中的故障恢复问题，提出了一个两阶段调度算法，该算法以最小化最大完工时间为目标，生成基于期望执行时间和通信时间的调度策略，从而优化调度过程。Xu等人针对并行处理框架中的“掉队者”问题，设计了一种基于负载条件的调度策略选择机制，根据调度需求和负载情况在智能克隆算法与投机性执行算法之间进行权衡。

数据调度指的是对通过数据布局、数据副本、高效数据迁移等方式，对广域分布的数据进行管理，从而提升广域计算效率。Kosar等人面对在广域分布式计算环境中高效可靠地访问大规模数据源和调度目的地带来的挑战,设计了Stork存储系统以配合Condor-G作业调度系统，在网格计算中实现数据放置、数据传输管理和数据副本，从而提升任务执行效率。Yuan等人基于矩阵的k-means聚类方法和运行时动态数据分配算法为科学工作流提出了一种数据放置策略，以提升数据处理性能。David等人在网格计算中设计了一种数据副本策略，以提升热点数据的访问性能以及数据的可靠性。Chowdhury等人针对计算系统中数据传输成本带来的影响，提出了一种全局数据传输管理架构，并在其中应用了一套数据传输调度策略，以实现计算中心间的高效数据传输。

随着资源管理技术的发展，计算任务和数据的协同调度技术近年来在广域计算中被广泛应用。在面向数据密集型科学工作流的调度方法中，协同调度技术引起了充分的重视。Szabo等人提出了一种基于成本模型和自定义进化算子的多目标优化算法，以减少科学工作流的总体完成时间和全局数据传输量。Bryk等人利用数据缓存和文件局部性等特征最小化了系统中的全局数据传输量，并实现了成本约束和期限约束下的工作流集成，以提升工作流执行效率。Mon等人基于任务与数据之间的关联性提出了一种任务聚类方法，提升了计算任务的粒度并降低了任务的执行成本。与此同时，由于在广域计算环境中，数据传输成本往往在任务完成时间中占有很大比重，越来越多的广域调度方法将网络资源和数据布局信息纳入考虑范围，以提升调度方案的准确性和任务执行效率。Wang等人提出了一种分布式任务调度体系结构，并在其中应用了基于数据感知的工作窃取技术，以优化系统负载均衡和数据局部性。Edinger等人在分布式计算系统中应用了一种基于Tasklet系统的内容感知调度的故障避免策略，依据各计算节点的资源状态、使用成本、可靠性以及节点间网络资源情况等多种因素生成任务调度策略。Li等人提出了一种边缘计算中对数据布局和任务调度的混合优化方法，首先根据各服务节点对数据的访问频度、数据在各节点的放置和迁移成本进行数据的布局，然后依据任务优先级、任务与服务节点的关联性进行任务调度，从而优化系统性能。Kang等人提出了一种由多个互相连接的云环境构成的多云体系结构，并在其中应用了一种基于可分负载理论和节点可用性预测技术的动态调度算法，该算法将任务切分成多个不同大小的子任务，基于预测技术预估计算节点完成现有任务的时间，并结合数据传输成本、任务的资源需求等多种因素进行任务调度，提升系统中的全局资源利用率并降低系统任务的总体完成时间。

传统的广域调度方法存在的问题主要为：大多数任务调度方法不考虑数据迁移的情况，然而数据迁移成本在任务完成时间中占有很大比重，这导致了全局数据迁移量大、任务完成时间和等待时间长等结果。此外，现有的数据调度方法大多关注于数据的高效访问和迁移，在数据和计算任务的关联性方面考虑的很少，导致了数据布局和计算任务分布的不完全匹配性，这导致了较低的全局资源利用率和较长的任务完成时间。而现有的协同调度方法只偏重于通过数据布局或任务调度中的一个方面优化调度过程，对调度因素相对单一的考虑导致了不均衡的全局资源利用，使系统仍有相对较高的任务完成时间和等待时间。

发明内容

本发明的主要目的是提供一种面向广域高性能计算环境的任务与数据协同调度方法，针对广域计算环境中应用的高效计算需求，建立一种任务与数据协同调度方法，基于全局资源状态、计算任务需求、数据布局情况等条件构建任务完成时间模型，在此基础上，结合最优方案选择机制、数据冗余布局机制和任务窃取机制，实现高效合理的任务分配与数据布局，以支撑应用的高效计算。

与传统方法相比，本发明提出的数据与任务协同调度方法的创新在于：在调度过程中综合考虑了全局存储与计算资源的使用状态、任务的资源需求、要访问的数据的布局情况、计算中心队列负载信息等多方面因素，兼顾系统时间性能和全局资源利用率，能更精确、有效地选择出更优的任务与数据协同调度决策。此外，本发明提出的方法采用了一种两级调度策略，第一级基于最优方案选择机制和数据冗余布局机制生成轻量化的中心级调度方案以更快速高效地协同调度计算任务和数据，第二级基于任务窃取机制生成队列级调度方案以修正第一级调度过程中的估计值偏差。基于上述特征，本发明提出的方法能在广域高性能计算环境中实现精确高效的任务与数据协同调度，从而满足大规模计算应用的高效计算需求。

首先根据全局资源状态、计算任务需求、数据布局情况等条件构建任务完成时间模型。其次，根据最优方案选择机制，基于任务完成时间预估值和全局资源使用状态选择出最优的中心级协同调度方案。然后，在调度过程中基于数据访问频度实现数据冗余布局。最后，基于任务窃取机制生成队列级调度方案以修正任务完成时间的估计值偏差。该方法可以在跨域的多个中心和任务队列间协同调度计算任务及其对应的数据，高效合理地进行任务分配和数据布局，兼顾系统时间性能和全局资源利用率，从而实现高效计算。

本发明面向广域高性能计算环境的任务与数据协同调度方法包括以下步骤：

步骤1，根据全局资源状态、计算任务需求、数据布局情况等条件构建任务完成时间模型；

步骤2，基于任务完成时间模型和全局资源使用状态，根据最优方案选择机制决策出中心级的计算任务和数据协同调度方案；

步骤3，基于各计算中心对数据的访问频度实现数据冗余布局；

步骤4，基于任务窃取机制生成队列级调度方案以修正任务完成时间的估计值偏差。

其中，步骤1包括以下步骤：

步骤1.1，根据计算任务k需求数据的布局情况选择可用的源计算中心集合I^k，然后根据任务k的资源需求，结合各计算中心的资源使用情况及应用分布情况选择可用的调度目标计算中心集合J^k；

步骤1.2，基于全局资源状态及任务资源需求，预估可行的调度情况下，任务执行过程中的主要开销，包括：从源计算中心i(i∈i^k)到目标计算中心J(J∈J^k)的数据迁移时间

任务k在计算中心j的计算时间

以及任务k在计算中心j的队列等待时间

其中，数据迁移时间估计值由数据量和迁移任务理论占用带宽求得，任务计算时间估计值通过节点计算能力和基于应用日志和数据量预估的计算量求得，队列等待时间由计算中心维护的队列最大完成时间和任务提交时间求得，通过队列中各项任务的预估计算时间和计算开始时间可得出所有任务的完成时间，取其中最大值为队列最大完成时间，此值随着系统运行动态变化；

步骤1.3，基于上述任务执行过程开销，构建任务完成时间模型：

由于在协同调度过程中，调度方案生成后，数据调度和任务调度的过程是分开执行的并且任务调度的开销较数据迁移开销可以忽略不计，因此在任务完成时间模型中，数据迁移过程和队列等待过程可以有所重叠。

其中，步骤2包括以下步骤：

步骤2.1，根据计算任务需求和计算中心资源状况计算出任务k与计算中心j的关联性系数

用以表达任务k的资源需求与计算中心资源状态间的关联性：

其中，

是任务k的资源需求向量，

是计算中心j的资源状态向量；

步骤2.2，基于关联性系数

以及任务完成时间T^i，j，k，求出各种调度方案下的综合评分，选取评分最高的源及目标计算中心组合(i*,j*)作为最优中心级协同调度方案，将任务k调度到目标计算中心j等待执行，将任务k需求的数据从源计算中心i调度到目标计算中心j。

其中，步骤3包括以下步骤：

步骤3.1，在数据调度完成后，根据目标计算中心j统计的数据访问次数、平均访问时间间隔以及本次访问时间间隔，计算数据在该计算中心的访问频度；

步骤3.2，基于数据访问频度，结合目标计算中心的存储资源使用情况综合评估生成数据副本的成本与可行性，实现数据冗余布局机制。

其中，步骤4包括以下步骤：

步骤4.1，在计算中心内检测本计算中心的任务执行情况，当中心内有空闲资源却没有等待执行的计算任务时，实施任务窃取机制；

步骤4.2，访问任务信息数据库，获取适合窃取的任务集合，Kcomp集合中的任务资源需求都可以被空闲计算中心满足，Kdata集合中的任务需求的数据在空闲计算中心都有副本，集合K＝Kcomp∩Kdata是最适合窃取的任务集合，当集合K为空集时，以Kcomp作为窃取任务集合；

步骤4.3，基于爬山算法在任务集合中选择局部最优的窃取任务，保证任务窃取机制的时效性。优先保证选定任务需求的数据在本计算中心有副本，以避免计算数据的二次迁移开销，降低网络负载的同时保障任务调度的时效性，其次优先选择负载较高的计算中心内优先度高的任务；

步骤4.4，生成队列级调度方案，将选择的窃取任务及数据从相应计算中心调度到本计算中心执行，若数据在本计算中心存在副本，则无需再次调度。

本发明的优点包括：本发明提供的一种面向广域高性能计算环境的任务与数据协同调度方法，与现有的广域调度方法相比，其主要优点是：通过基于任务完成时间模型的最优方案选择机制，来选取权衡系统时间性能和全局资源状态的调度方案，有效降低了系统完成时间的同时兼顾了全局资源利用率和负载均衡；通过数据冗余布局机制降低全局数据迁移开销并增加热点数据可靠性；通过任务窃取机制修正任务完成时间模型中的估计值偏差并保证计算执行效率。结合上述机制协同调度计算任务和数据，高效合理地进行任务分配和数据布局，以实现高效计算。

附图说明

图1为本发明面向广域高性能计算环境的任务与数据协同调度方法的流程图。

图2为任务与数据协同调度时序图。

图3为最优方案选择机制流程图。

图4为数据冗余布局机制流程图。

图5为任务窃取机制流程图。

具体实施方式

以下结合附图(图1-图5)对本发明作进一步详细的说明。

图1为本发明面向广域高性能计算环境的任务与数据协同调度方法的流程图。如图1所示，首先根据全局资源状态、计算任务需求、数据布局情况等条件构建任务完成时间模型。其次，根据最优方案选择机制，基于任务完成时间预估值和全局资源使用状态选择出最优的中心级协同调度方案。然后，在调度过程中基于数据访问频度实现数据冗余布局。最后，基于任务窃取机制生成队列级调度方案以修正任务完成时间的估计值偏差。该方法可以在跨域的多个中心和任务队列间协同调度计算任务及其对应的数据，高效合理地进行任务分配和数据布局，兼顾系统时间性能和全局资源利用率，从而实现高效计算。

如图2所示，是本发明的任务与数据协同调度时序图，任务与数据协同调度发生在广域高性能计算环境中，任务先提交到全局协同调度器产生调度方案，再通过分布在各计算中心的任务管理器和数据管理器实施任务和数据的调度，具体包括以下步骤：

1)用户从客户端提交计算任务，调度系统产生调度请求；

2)全局协同调度器通过最优方案选择机制，基于任务完成时间模型和全局资源状态，决策出计算中心级的计算任务和数据协同调度方案，并向客户端反馈任务状态；

3)将数据调度方案和任务调度方案分别分发给数据管理器和任务管理器实际执行；

4)任务和数据的调度操作完成后，向全局协同调度器反馈信息，并反馈给客户端；

5)数据调度完成后，由计算中心内的数据管理器根据数据冗余布局机制判断数据是在该计算中心内成为副本，或是作为临时存储；

6)任务调度完成后，在执行过程中，由计算中心内的任务管理器监测计算中心资源状态，当有空闲资源时，通过任务窃取机制获取任务执行；

最优方案选择机制的流程如图3所示，包括以下步骤：

1)根据输入的任务可用的源计算中心集及目标计算中心集，选择一组可行的调度方案组合(i₀,j₀)；

2)基于任务完成时间模型和全局资源状态计算该调度方案的综合评分；

3)选择下一组可行的调度方案组合，并执行步骤2)；

4)计算完成所有调度方案组合的综合评分后，选取评分最高的源及目标计算中心组合(i*,j*)作为最优中心级协同调度方案；

5)将调度方案输出给对应计算中心的任务管理器和数据管理器执行实际调度。

数据调度完成后，计算中心的数据管理器统计数据访问信息并执行数据冗余布局机制，该机制流程如图4所示，包括以下步骤：

1)统计数据访问信息，包括该份数据的累计访问次数、平均访问时间间隔、本次访问时间间隔等；

2)根据数据访问信息计算数据访问频度；

3)根据数据访问频度和计算中心的存储资源状态判断该数据的布局方案，即是作为副本存储还是作为临时存储；

4)由数据管理器执行数据布局方案。

由于任务完成时间模型中的估计值与实际值存在一定偏差，将导致系统中的部分计算中心在运行过程中存在空闲时间，降低系统效率。因此在系统运行过程中，计算中心内的任务管理器会监测计算中心资源状态，当计算中心存在空闲资源并且计算中心的等待任务队列为空时，表示在下一个任务被调度到该计算中心前，其将空闲一段时间。此时任务管理器基于任务窃取技术从其他计算中心获取合适的任务到本计算中心执行，以提升全局负载均衡及系统时间性能，并修正任务完成时间的估计值偏差。任务窃取机制流程如图5所示，包括以下步骤：

1)生成符合条件的任务集合。Kcomp集合中的任务资源需求都可以被空闲计算中心满足，Kdata集合中的任务需求的数据在空闲计算中心都有副本。

2)集合K＝Kcomp∩Kdata是最适合窃取的任务集合，当集合K为空集时，以Kcomp作为窃取任务集合；

3)在任务集合中基于爬山算法选择局部最优的窃取任务，筛选条件为优先保证选定任务需求的数据在本计算中心有副本，其次选择负载较高的计算中心内优先度高的任务。

4)将筛选出的任务输出到任务管理器，进行队列级的二次调度。

本发明说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。最后所应说明的是：本发明还可有其它多种应用场景，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明做出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.面向广域高性能计算环境的任务与数据协同调度方法，其特征在于，基于全局资源状态、计算任务需求和数据布局情况构建任务完成时间模型，在此基础上，结合最优方案选择机制、数据冗余布局机制和任务窃取机制，实现高效合理的任务分配与数据布局，以支撑应用的高效计算；在调度过程中综合全局存储与计算资源的使用状态、任务的资源需求、要访问的数据的布局情况和计算中心队列负载信息，兼顾系统时间性能和全局资源利用率，形成任务与数据协同调度策略，所述任务与数据协同调度策略为两级调度策略，第一级基于最优方案选择机制和数据冗余布局机制生成轻量化的中心级调度方案以更快速高效地协同调度计算任务和数据，第二级基于任务窃取机制生成队列级调度方案以修正第一级调度过程中的估计值偏差；

包括以下步骤：

步骤1，根据全局资源状态、计算任务需求、数据布局情况构建任务完成时间模型；

步骤4，基于任务窃取机制生成队列级调度方案以修正任务完成时间的估计值偏差；

步骤1包括以下步骤：

步骤1.2，基于全局资源状态及任务资源需求，预估可行的调度情况下，任务执行过程中的主要开销，包括：从源计算中心i到目标计算中心j的数据迁移时间