CN114610474A

CN114610474A - 一种异构超算环境下多策略的作业调度方法及系统

Info

Publication number: CN114610474A
Application number: CN202210511947.3A
Authority: CN
Inventors: 唐雪飞; 方启明; 秦亦; 王晓江; 朱春节
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-05-12
Filing date: 2022-05-12
Publication date: 2022-06-10
Anticipated expiration: 2042-05-12
Also published as: CN114610474B

Abstract

本发明公开一种异构超算环境下多策略的作业调度方法及系统，该方法包括：步骤一，客户端响应于用户的作业请求，将用户作业请求发送给作业调度中心；步骤二，作业调度中心接收到客户端的请求后，解析请求并将所请求的作业添加到作业队列中，同时启用信息采集模块，收集各超算中心的超算资源状态信息；步骤三，作业调度中心根据各超算中心超算资源的状态信息筛选出可用的超算资源，然后将可用的超算资源状态信息和作业请求的信息一起交给强化学习调度器，强化学习调度器生成调度结果，即所述强化学习调度器从可用的超算资源中选择出最适合的超算资源，将作业调度到该超算资源上执行。本发明启用多线程同时调度作业，加速并提升了调度的效率。

Description

一种异构超算环境下多策略的作业调度方法及系统

技术领域

本发明涉及超级计算机的资源管理技术领域，尤其涉及一种异构超算环境下多策略的作业调度方法及系统。

背景技术

近年来我国的高性能计算技术飞速发展，截至2021年1月，我国共建成或正在建设8座部署有千万亿次高效能计算机的超级计算中心。不同的超算中心的超级计算机具有异构性，如无锡中心拥有世界上首台峰值运算性能超过每秒十亿亿次浮点运算能力的 “神威·太湖之光”，它安装了40960个中国自主研发的神威26010众核处理器；长沙中心采用国防科技大学“天河一号”，它采用6144个英特尔通用多核处理器。异构计算系统上进行的并行计算通常称为异构计算，它能经济有效地获取高性能计算能力，可扩展性好，计算资源利用率高，发展潜力巨大，已成为并行/分布计算领域中的研究热点之一。随着高性能计算技术逐渐发展成熟，在科研、生产、教育等领域高性能计算需求快速增长，适配不同超算中心的资源类型，构建一个针对异构超算环境的资源调度系统支撑异构计算，成为了亟待解决的问题。

目前较为常见的作业调度策略是面向单个超级计算中心单策略的启发式调度策略，如先来先服务策略，按照作业提交的先后顺序调度；回填策略，优先选择可以填充资源空缺的作业运行；优先级策略，按照作业的优先级调度。这些策略存在两个问题，一是无法满足多超算中心的异构集群场景；二是调度策略单一，如最短等待时间、最高资源利用率等，无法同时满足不同用户的需求。而基于深度强化学习的调度方法虽然能够满足多策略调度，但通常基于同构的超算环境，即面向一个超算中心、同类型的超算资源，不能满足跨超算中心资源调度的需求。同时，随着异构集群环境向量更加复杂，现有的深度强化学习算法具有很大的改进空间。

因此，需要一种调度方法和系统来解决上述技术方案中存在的问题。

发明内容

为了解决现有技术中存在的上述技术问题，本发明提出了一种异构超算环境下多策略的作业调度方法及系统，其具体技术方案如下：

一种异构超算环境下多策略的作业调度方法，包括以下步骤：

步骤一，客户端响应于用户的作业请求，将用户提交的作业请求发送给作业调度中心；

步骤二，作业调度中心接收到客户端的作业请求后，解析作业请求并将所请求的作业添加到作业队列中，同时启用信息采集模块，收集各超算中心超算资源的状态信息；

步骤三，作业调度中心根据各超算资源的状态信息筛选出可用的超算资源，然后将可用的超算资源状态信息和作业请求的信息一起交给强化学习调度器，强化学习调度器生成调度结果，即所述强化学习调度器从可用的超算资源中选择出最适合的超算资源，将作业调度到该超算资源上执行。

进一步的，所述作业请求以RESTFUL的方式发送，在作业请求中包含了用户指定执行策略和作业属性信息，作业属性信息包括作业的大小、所需资源类型、所需资源数量、所需软件版本、优先级、预计运行时间的信息。

进一步的，所述状态信息包括超算中心各超算资源状态、各可用资源类型、数量、负载、价格、存储信息。

进一步的，所述强化学习调度器包括：等待时间优先、执行时间优先、价格优先、资源利用率优先、负载均衡优先、作业吞吐量优先的强化学习调度器。

进一步的，所述强化学习调度器根据作业请求中的用户指定执行策略进行选择，具体为：如果用户指定了执行策略则选择其对应的强化学习调度器，如果用户没有指定执行策略，则默认使用资源利用率优先的强化学习调度器。

进一步的，所述强化学习调度器有三个重要的部分：状态空间S、动作空间A、奖励函数R；状态空间S由作业请求的信息和各超算中心的状态信息构成；动作空间A是强化学习调度器可以选择调度的超算资源；奖励函数R根据用户提交的执行策略信息来选择设置不同优化目标作为奖励函数R；所述强化学习调度器的架构相同，均基于异步优势的Actor-Critic模型，所述异步优势的Actor-Critic模型包括一个全局网络和多个调度作业的工作线程，全局网络和工作线程具有相同的结构，包括Actor和Critic两部分网络，其中Actor网络负责生成动作a并与环境交互，Critic网络负责评估Actor网络的表现，并指导Actor网络下一阶段的动作。

进一步的，所述强化学习调度器的训练过程，包括以下步骤：

步骤1，初始化或同步强化学习调度器的参数；

步骤2，将作业随机分配到一个工作线程上执行；

步骤3， Actor网络生成动作a，表示将作业调度到某个超算中心的某个超算资源上执行；

步骤4，将作业调度到动作a选择的超算资源上执行，执行完成后采集集群状态信息S′，并根据奖励函数R计算此次调度获得的奖励r；同时更新作业队列；

步骤5，将环境状态S、作业执行后的环境状态S′、奖励r输入到Critic网络，Critic网络为动作a打分，并计算生成TD误差信号同时指导Actor网络参数θ和Critic网络的参数

进行更新；

步骤6，工作线程采用异步的方式向全局网络共享网络参数θ和Critic网络的参数

；

步骤7，作业执行完成后，采集集群状态信息S′，与执行前状态S、动作a、奖励r组成四元组(S,a,r, S′)作为作业记录，将作业记录即作业执行信息，根据调度器的种类分别进行存储。

进一步的，所述Actor网络生成动作a，采用深度学习网络实现,包括如下子步骤：

步骤3.1，Actor网络以环境状态S作为输入；

步骤3.2，输入的环境状态S经过三层全连接矩阵，Actor网络为每个超算资源打分，并将所有超算资源的值构成一个向量SC；

步骤3.3，然后在向量SC上运行 softmax函数，以生成每个资源的概率分布；

步骤3.4，选择概率最高的超算资源作为动作a。

进一步的，所述步骤5，采用深度学习网络实现,包括如下子步骤：

步骤5.1，Critic网络利用环境状态S、作业执行后的环境状态S′、执行动作a得到的奖励r作为输入；

步骤5.2，输入的向量即奖励r经过三层多层感知机网络进行训练，得到预期奖励值Q值输出，包括：环境S的预期奖励值V(S)，环境S′的预期奖励值V(S′)；

步骤5.3，计算误差TD误差δ ，δ=r+γV(S′)−V(S)，其中r是奖励，γ是衰减因子；

步骤5.4，使用均方差损失函数做Critic网络参数

的梯度更新；

步骤5.5，利用TD误差δ更新Actor网络参数θ:

，其中

是步长。

一种异构超算环境下多策略的作业调度系统，包括：一个或多个客户端，一个超算资源的作业调度中心和多个超算中心，所述作业调度中心分别与客户端和超算中心通信连接；所述客户端，适用于接收用户提交作业的请求，发送请求信息到作业调度中心；所述作业调度中心包括：作业队列模块，负责接收客户端发来的请求、解析作业信息、存储待调度的作业；信息采集模块，该模块采集超算中心超算资源状态信息并筛选出符合作业运行要求的超算资源；强化学习调度器，负责根据信息采集模块反馈的作业信息和超算环境信息选择出一个最符合用户需求的执行策略，即将作业调度到某个超算中心的某个超算资源上执行；作业存储模块，负责存储作业运行的记录，为强化学习调度器的训练提供数据。

有益效果：

本发明利用并行计算的思想，启用多个线程同时调度作业，加速了深度强化学习调度器模型的收敛，并提升了调度的效率。

附图说明

图1为本发明实施例的异构超算环境下多策略的作业调度系统的示意图；

图2为本发明的一种异构超算环境下多策略的作业调度方法流程图；

图3为本发明实施例的超算资源调度方法的详细流程图；

图4为本发明实施例的超算资源调度系统作业中心的强化学习调度器架构图；

图5为本发明实施例的超算资源调度系统作业中心的强化学习调度器的模型训练流程图。

图6为本发明的一种异构超算环境下多策略的作业调度装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和技术效果更加清楚明白，以下结合说明书附图和实施例，对本发明作进一步详细说明。

如图1所示，本发明的一种异构超算环境下多策略的作业调度系统，包括：一个或多个客户端，一个超算资源的作业调度中心和多个超算中心。其中作业调度中心分别与客户端和超算中心通信连接。所述客户端，适用于接收用户提交作业的请求，发送请求信息到作业调度中心；所述作业调度中心包括：作业队列模块，负责接收客户端发来的请求、解析作业信息、存储待调度的作业；信息采集模块，该模块采集超算中心超算资源状态信息并筛选出符合作业运行要求的超算资源；强化学习调度器，负责根据信息采集模块反馈的作业信息和超算环境信息选择出一个最符合用户需求的执行策略，即将作业调度到某个超算中心的某个超算资源上执行；作业存储模块，负责存储作业运行的记录，为强化学习调度器的训练提供数据。应当理解，图1所示的系统仅是示例性的，在具体实现中可以有不同数量的超级计算中心和客户端，本发明对超级计算中心、客户端的数量和部署不做限制。

每个超级计算中心即超算中心包含至少一个超算资源，每个超算资源包含至少一个作业提交队列，每个作业提交队列又包括多个计算节点，超级计算中心通过这些计算节点运行各种作业。作业调度中心可以实现为单个计算设备也可以实现为集群。

客户端响应于用户提交作业的请求，发送作业提交指令给作业调度中心。客户端将作业提交请求发送到作业调度中心上，作业提交请求中包含所提交作业的属性信息和用户指定策略信息。作业调度中心在接收到该作业提交请求后，选择适配超级计算中心对作业进行分配。其中，作业的属性信息包括作业的大小、所需资源类型、所需资源数量、所需软件版本、优先级、预计运行时间。

如图2和图3所示，本发明的一种异构超算环境下多策略的作业调度方法，该方法适用于在如上所述的超算资源作业调度系统中执行，具体包括以下步骤：

步骤一，客户端响应于用户的请求，将用户提交的作业请求发送给作业调度中心。

所述作业请求以RESTFUL的方式发送，在作业请求中包含了用户指定执行策略和作业属性信息，作业属性信息包括作业的大小、所需资源类型、所需资源数量、所需软件版本、优先级、预计运行时间等信息。

其中，所述RESTFUL是一种网络应用程序的设计风格和开发方式，基于HTTP，使用XML格式定义或JSON格式定义，适用于移动互联网厂商作为业务接口的场景，实现第三方OTT（Over The Top，通过互联网向用户提供各种应用服务）调用移动网络资源的功能，动作类型为新增、变更、删除所调用资源。

步骤二，作业调度中心接收到客户端的作业请求后，解析作业请求并将所请求的作业添加到作业队列中，同时启用信息采集模块，收集各超算中心超算资源的状态信息。

所述状态信息包括超算中心各超算资源状态、各可用资源类型、数量、负载、价格、存储信息。

所述强化学习调度器包括：等待时间优先、执行时间优先、价格优先、资源利用率优先、负载均衡优先、作业吞吐量优先的强化学习调度器。

其中，根据用户请求的信息中是否指定执行策略选择强化学习调度器，如果用户指定了执行策略则选择其对应的强化学习调度器，如果用户没有指定执行策略，则默认使用资源利用率优先的强化学习调度器。

所述等待时间优先、执行时间优先、价格优先、资源利用率优先、负载均衡优先、作业吞吐量优先的强化学习调度器，具有相同的架构，如图4所示，是基于异步优势的Actor-Critic（Asynchronous Advantage Actor-Critic）模型实现的。所述异步优势的Actor-Critic模型有一个全局网络Global Network和多个调度作业的Worker工作线程，全局网络Global Network和工作线程Worker具有相同的结构，包括Actor和Critic两部分网络，其中Actor网络负责生成动作a并与环境交互，Critic网络负责评估Actor网络的表现，并指导Actor网络下一阶段的动作。

强化学习调度器有三个重要的部分：状态空间S、动作空间A、奖励函数R；状态空间S由作业请求的信息和各超算中心的状态信息构成；动作空间A是强化学习调度器可以选择调度的超算资源；奖励函数R根据用户提交的执行策略信息来选择设置不同优化目标作为奖励函数R。

本发明采用的异步优势Actor-Critic模型，开启多个工作线程并行独立采样数据，发挥多核同时学习的优势。具体的，当作业来到作业调度中心，强化学习调度器同时开启多个工作线程Worker，为每个工作线程Worker分配一个作业，并让工作线程Worker从全局网络同步最新的网络参数；等到作业执行结束后，每个工作线程Worker独立地进行采样、训练学习。每个工作线程Worker周期性地独立更新全局网络Global Network的参数，重复这个过程直至收敛。

如图5所示，训练本发明的强化学习调度器，包括以下步骤：

步骤1，初始化或同步强化学习调度器的参数，具体的：如果是第一次训练，采用随机值初始化基于异步优势的Actor-Critic模型，即同时初始化全局网络Global Network和工作线程Worker的参数、超参数；如果不是第一次训练，则将全局网络Global Network参数同步到每个工作线程Worker。

步骤2，将作业随机分配到一个工作线程Worker上执行。

具体的，所述Actor网络生成动作a，采用深度学习网络实现,包括如下子步骤：

步骤3.1，Actor网络以环境状态S作为输入；

步骤3.4，选择概率最高的超算资源作为动作a。

步骤4，将作业调度到动作a选择的超算资源上执行，执行完成后采集集群状态信息S′，并根据奖励函数R计算此次调度获得的奖励r；同时更新作业队列。

进行更新；

具体的，采用深度学习网络实现，包括如下子步骤:

步骤5.4，使用均方差损失函数做Critic网络参数

的梯度更新；

步骤5.5，利用TD误差δ更新Actor网络参数θ：

，其中

是步长。

步骤6，工作线程Worker采用异步的方式向全局网络Global Network共享网络参数θ和Critic网络的参数

。

步骤7，作业执行完成后，采集集群状态信息S′，与执行前状态S、动作a、奖励r组成四元组(S,a,r, S′)作为作业记录，将作业记录即作业执行信息，根据调度器的种类分别存入作业记录存储模块。

与前述一种异构超算环境下多策略的作业调度方法的实施例相对应，本发明还提供了一种异构超算环境下多策略的作业调度装置的实施例。

参见图6，本发明实施例提供的一种异构超算环境下多策略的作业调度装置，包括一个或多个处理器，用于实现上述实施例中的一种异构超算环境下多策略的作业调度方法。

本发明一种异构超算环境下多策略的作业调度装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图6所示，为本发明一种异构超算环境下多策略的作业调度装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种异构超算环境下多策略的作业调度方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本发明的优选实施案例，并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明，对于熟悉本领域的人员来说，其依然可以对前述各实例记载的技术方案进行修改，或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等，均应包含在本发明的保护范围之内。

Claims

1.一种异构超算环境下多策略的作业调度方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种异构超算环境下多策略的作业调度方法，其特征在于，所述作业请求以RESTFUL的方式发送，在作业请求中包含了用户指定执行策略和作业属性信息，作业属性信息包括作业的大小、所需资源类型、所需资源数量、所需软件版本、优先级、预计运行时间的信息。

3.如权利要求1所述的一种异构超算环境下多策略的作业调度方法，其特征在于，所述状态信息包括超算中心各超算资源状态、各可用资源类型、数量、负载、价格、存储信息。

4.如权利要求1所述的一种异构超算环境下多策略的作业调度方法，其特征在于，所述强化学习调度器包括：等待时间优先、执行时间优先、价格优先、资源利用率优先、负载均衡优先、作业吞吐量优先的强化学习调度器。

5.如权利要求4所述的一种异构超算环境下多策略的作业调度方法，其特征在于，所述强化学习调度器根据作业请求中的用户指定执行策略进行选择，具体为：如果用户指定了执行策略则选择其对应的强化学习调度器，如果用户没有指定执行策略，则默认使用资源利用率优先的强化学习调度器。

6.如权利要求4所述的一种异构超算环境下多策略的作业调度方法，其特征在于，所述强化学习调度器有三个重要的部分：状态空间S、动作空间A、奖励函数R；状态空间S由作业请求的信息和各超算中心的状态信息构成；动作空间A是强化学习调度器选择调度的超算资源；奖励函数R根据用户提交的执行策略信息来选择设置不同优化目标作为奖励函数R；所述强化学习调度器的架构相同，均基于异步优势的Actor-Critic模型，所述异步优势的Actor-Critic模型包括一个全局网络和多个调度作业的工作线程，全局网络和工作线程具有相同的结构，包括Actor和Critic两部分网络，其中Actor网络负责生成动作a并与环境交互，Critic网络负责评估Actor网络的表现，并指导Actor网络下一阶段的动作。

7.如权利要求6所述的一种异构超算环境下多策略的作业调度方法，其特征在于，所述强化学习调度器的训练过程，包括以下步骤：

步骤1，初始化或同步强化学习调度器的参数；

步骤2，将作业随机分配到一个工作线程上执行；

进行更新；

；

8.如权利要求7所述的一种异构超算环境下多策略的作业调度方法，其特征在于，所述Actor网络生成动作a，采用深度学习网络实现,包括如下子步骤：

步骤3.1，Actor网络以环境状态S作为输入；

步骤3.4，选择概率最高的超算资源作为动作a。

9.如权利要求7所述的一种异构超算环境下多策略的作业调度方法，其特征在于，所述步骤5，采用深度学习网络实现,包括如下子步骤：

步骤5.4，使用均方差损失函数做Critic网络参数

的梯度更新；

步骤5.5，利用TD误差δ更新Actor网络参数θ：

，

其中α是步长。

10.一种异构超算环境下多策略的作业调度系统，其特征在于，包括：一个或多个客户端，一个超算资源的作业调度中心和多个超算中心，所述作业调度中心分别与客户端和超算中心通信连接；所述客户端，适用于接收用户提交作业的请求，发送请求信息到作业调度中心；所述作业调度中心包括：作业队列模块，负责接收客户端发来的请求、解析作业信息、存储待调度的作业；信息采集模块，该模块采集超算中心状态信息并筛选出符合作业运行要求的超算资源；强化学习调度器，负责根据信息采集模块反馈的作业信息和超算环境信息选择出一个最符合用户需求的执行策略，即将作业调度到某个超算中心的某个超算资源上执行；作业存储模块，负责存储作业运行的记录，为强化学习调度器的训练提供数据。