CN111866187B

CN111866187B - 分布式深度学习推理云平台任务调度方法

Info

Publication number: CN111866187B
Application number: CN202010865843.3A
Authority: CN
Inventors: 谭光明; 马立贤; 邵恩; 张春明; 段勃
Original assignee: Western Institute Of Advanced Technology Institute Of Computing Chinese Academy Of Sciences
Current assignee: Hyperai Cloud Technology Beijing Co ltd
Priority date: 2020-06-30
Filing date: 2020-08-25
Publication date: 2022-10-04
Anticipated expiration: 2040-08-25
Also published as: CN111866187A

Abstract

本发明提供的一种分布式深度学习推理云平台任务调度方法，包括以下步骤：S1.将用户在云平台上创建的任务输入任务队列中；S2.任务控制器从任务队列中提取目标任务，并将目标任务对应的服务分割成若干子服务进行分布式处理；S3.并行模式选择器根据子服务生成相应的模型；S4.任务执行器根据并行模式选择器所产生的模型执行对应的子服务；通过本发明，能够将用户所提交的任务在云环境下进行分布式处理，对于分布式操作下的每一个节点选择加速卡资源状态下的最优并行参数，从而提高任务的运行效率，并能够确保云环境下的加速卡设备的利用率。

Description

分布式深度学习推理云平台任务调度方法

技术领域

本发明涉及一种服务调度方法，尤其涉及一种分布式深度学习推理云平台任务调度方法。

背景技术

深度学习的训练与推理任务是一种计算密集型任务，但推理任务与训练所不同的是推理任务的计算周期不是长时间与固定某一时间段，而是随着时间的变化而变化，通常在白天到夜晚计算密集流量高，而在夜晚至凌晨流量低计算量相对较少。现有技术中，对于云平台的推理任务的运行效率较低，而且云环境下的加速卡设备的利用率也较低。

因此，为了解决上述技术问题，亟需提出一种新的技术手段。

发明内容

有鉴于此，本发明的目的是提供一种分布式深度学习推理云平台任务调度方法，能够将用户所提交的任务在云环境下进行分布式处理，对于分布式操作下的每一个节点选择加速卡资源状态下的最优并行参数，从而提高任务的运行效率，并能够确保云环境下的加速卡设备的利用率。

本发明提供的一种分布式深度学习推理云平台任务调度方法，包括以下步骤：

S1.将用户在云平台上创建的任务输入任务队列中；

S2.任务控制器从任务队列中提取目标任务，并将目标任务对应的服务分割成若干子服务进行分布式处理；

S3.并行模式选择器根据子服务生成相应的模型；

S4.任务执行器根据并行模式选择器所产生的模型执行对应的子服务。

进一步，步骤S2中，在任务控制器从任务队列中提取目标任务前，由资源监控器判断当前是否可执行任务：

若当前集群资源无空闲或者空闲资源较低，那么任务队列中的任务将处于等待状态；

若当前集群资源具有空余并满足任务执行需求时，则判断当前可执行任务。

进一步，任务控制器提取目标任务具体如下：

当前可执行任务时，任务控制器从任务队列中选择最先进入到任务队列的任务作为目标任务。

进一步，步骤S2中，任务控制器判断目标任务是否具有对应的服务，若不存在，则创建目标任务的服务。

进一步，并行模式选择器基于Q-learning算法选择并行参数并生成相应的模型，具体如下：

基于任务完成时间T、加速卡利用率U以及加速卡现存使用量M构建奖励函数Reward：

Reward＝μ₁N(T_m-T)+μ₂N(U_m-U)+μ₃N(M_m-M)；

其中，μ₁、μ₂和μ₃均为调整系数,N(·)为归一化函数；

构建状态集S，其中，状态集S由推理平均准确率A、推理任务完成时间T、加速卡利用率U和加速卡现存使用量M构成；

构建动作集A，该动作集表示并行参数的选择，包括数据并行度(1，2，4，8，16，32)，模型并行度(1，2，4，8，16，32)，batch size(1，4，8，16，32，64，128)；

构建奖励矩阵R：奖励矩阵R中相同行不同列设置为动作集，不同行相同列设置为状态集；由于相同的并行参数在一次任务中只能选择一次，对状态转移进行限制，当状态不可转移时设置为0，可转移时设置为1；

Q值表训练：采用多个典型的并行模型对Q值表进行训练，其中，Q值表的更新公式为：

Q_t+1＝r_t+γmaxQ_t(s',a')；γ为折扣因子，r_t为当前所获得的实际奖励，s'表示下一个状态，a'表示下一个动作；

在Q值表训练完成后，并行模式选择器根据子服务在训练好的Q指标中寻找满足奖励函数的最优路径，并通过此路径的动作集参数确定当前资源状态下的并行模型。

本发明的有益效果：通过本发明，能够将用户所提交的任务在云环境下进行分布式处理，对于分布式操作下的每一个节点选择加速卡资源状态下的最优并行参数，从而提高任务的运行效率，并能够确保云环境下的加速卡设备的利用率。

附图说明

下面结合附图和实施例对本发明作进一步描述：

图1为分布式深度学习推理云平台任务调度与加速系统原理图。

图2为本发明的流程图。

具体实施方式

以下结合说明书附图对本发明做出进一步详细说明：

S1.将用户在云平台上创建的任务输入任务队列中；任务队列用于起到缓冲作用，能够提高系统的并发量；任务队列可以采用kafka、rabbitmq等实现，并通过k8s的deployment API实现扩缩，采用service API的方式对外暴露服务与负载均衡。

S3.并行模式选择器根据子服务生成相应的模型；

S4.任务执行器根据并行模式选择器所产生的模型执行对应的子服务；通过本发明，能够将用户所提交的任务在云环境下进行分布式处理，对于分布式操作下的每一个节点选择加速卡资源状态下的最优并行参数，从而提高任务的运行效率，并能够确保云环境下的加速卡设备的利用率。

对于任务执行器，一是负责将并行模式选择器生成的并行模型与分配的作业进行推理运算；二是通过检测本节点的加速器的利用率动态地通过并行模型选择器调整模型并行度，当资源充足的时候会加大并行度提高节点吞吐量并保证资源利用率。任务执行器通过service的方式对外暴露服务，针对于不同的模型会对应不同的服务。任务执行器与并行模式选择器通过sidecar的模式封装为k8s的pod对象。

由于任务执行器与并行模型选择器处于同一个pod当中因此并行模型选择器生成的模型文件可以与任务执行器进行共享。

任务执行器通过service的方式对外暴露API接口，当任务控制器生成的子服务会通过接口调用的形式将子服务发送给任务执行器。

任务执行器会异步的定时循环监听本节点的资源使用率，如加速卡的使用率、显存等。并根据本节点资源使用情况再次调用并行模型生成器，生成新的模型，并替代旧的模型。

本实施例中，步骤S2中，在任务控制器从任务队列中提取目标任务前，由资源监控器判断当前是否可执行任务：

若当前集群资源无空闲或者空闲资源较低，那么任务队列中的任务将处于等待状态；此处空闲资源较低是指当前的空闲资源不能满足当前任务的执行需求；

任务控制器将目标任务所对应的服务分割成子服务后，根据响应服务的对应节点的加速器资源余量对子服务按比例分配，也就是说，某一个响应服务的节点的加速器的资源余量充足，那么该节点所分配的自服务较多，如果加速器的资源余量不足，则分配的子服务较少。

本实施例中，任务控制器提取目标任务具体如下：

当前可执行任务时，任务控制器从任务队列中选择最先进入到任务队列的任务作为目标任务，也就是说，当用户提交任务至任务列表时，需记录所提交任务的时刻，便于能够确定目标任务。

本实施例中，步骤S2中，任务控制器判断目标任务是否具有对应的服务，若不存在，则创建目标任务的服务，也就是说，如果目标任务具有相对应的服务，则直接执行服务的划分，如果目标任务不具有相对应的服务，则需要进行本步骤。

任务控制器会定时轮询集群节点的状态，当节点任务执行容器空闲时会进行对应服务的缩容，当节点任务执行容器繁忙时会进行对应服务的扩容。任务控制器通过容器的方式进行封装，通过k8s自定义资源CRD的方式对此平台的推理任务进行封装与控制，自定义资源的属性包括推理使用的对应模型服务、推理数据量。通过HPA控制器对生成的任务执行pod对象进行动态扩缩。

本实施例中，并行模式选择器基于Q-learning算法选择并行参数并生成相应的模型，具体如下：

Reward＝μ₁N(T_m-T)+μ₂N(U_m-U)+μ₃N(M_m-M)；

其中，μ₁、μ₂和μ₃均为调整系数,N(·)为归一化函数；

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种分布式深度学习推理云平台任务调度方法，其特征在于：包括以下步骤：

S1.将用户在云平台上创建的任务输入任务队列中；

S3.并行模式选择器根据子服务生成相应的模型；

S4.任务执行器根据并行模式选择器所产生的模型执行对应的子服务；

并行模式选择器基于Q-learning算法选择并行参数并生成相应的模型，具体如下：

Reward＝μ₁N(T_m-T)+μ₂N(U_m-U)+μ₃N(M_m-M)；

其中，μ₁、μ₂和μ₃均为调整系数,N(·)为归一化函数；

2.根据权利要求1所述分布式深度学习推理云平台任务调度方法，其特征在于：步骤S2中，在任务控制器从任务队列中提取目标任务前，由资源监控器判断当前是否可执行任务：

3.根据权利要求2所述分布式深度学习推理云平台任务调度方法，其特征在于：任务控制器提取目标任务具体如下：

4.根据权利要求1所述分布式深度学习推理云平台任务调度方法，其特征在于：步骤S2中，任务控制器判断目标任务是否具有对应的服务，若不存在，则创建目标任务的服务。