CN114691314A

CN114691314A - 基于确定性算子共存的服务调度方法及其应用的gpu

Info

Publication number: CN114691314A
Application number: CN202111199598.8A
Authority: CN
Inventors: 陈�全; 过敏意; 崔炜皞; 赵涵
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2022-07-01

Abstract

本发明提供一种基于确定性算子共存的服务调度方法及其应用的GPU，所述基于确定性算子共存的服务调度方法包括：包括：利用一共存感知的延迟预测器预测每一个算子调度组的处理时间；利用一基于余量的请求控制器以轮循的方式调度多个深度学习服务的请求，在每一个轮次中，确定接收到的所有请求的处理顺序，并基于预测的所述每一个算子调度组的处理时间确定最佳的算子调度组；利用一分段模型执行引擎处理接收到的所述算子调度组中各请求的相应算子的计算。本发明保证了多个深度学习服务混合运行的服务质量保证，同时还提高了吞吐，提升了GPU利用率。

Description

基于确定性算子共存的服务调度方法及其应用的GPU

技术领域

本发明涉及GPU技术领域，特别是涉及一种基于确定性算子共存的服务调度方法及其应用的GPU。

背景技术

图形处理器，即GPU(Graphics Processing Unit)，是一种用于加速图像处理的特殊处理器。由于GPU具有高并行度及强大的矩阵运算和浮点数计算能力，它又被广泛地应用到图像处理以外的计算密集型应用中，例如云计算、深度学习等，被称为通用图形处理器(General-purpose computing on graphics processing units，GPGPU)。

随着云计算平台以及深度学习的快速发展，新的硬件如GPU等加速器也被云计算服务商采用并广泛部署在计算机集群中，以支持新兴深度学习任务的高算力需求。新的GPU集群更强调异构特性，传统的集群调度系统较为简单，无法感知底层的多种异构资源。深度神经网络被用来支持各种在线服务，相比传统的在线服务，基于深度学习的在线服务不仅有严格的服务质量要求而且在计算上要求很高。通常的做法是在GPU上部署单个服务并使用集群级调度器分别将负载路由到每个GPU上。但是，当深度学习服务的负载较低时，GPU的利用率较低。此时，在GPU上同时运行多个深度学习服务的应用程序能够有效提高利用率。但是在单个GPU上同时运行多个深度学习服务会增加用户请求的端到端延迟，简单地同时运行多个深度学习服务会导致不稳定的长延迟，出现违反服务质量的风险。

现有技术中解决上述问题的一种技术方案是：先来先服务(FCFS)，最短作业优先(SJF)，最早截止时间优先(EDF)等时分复用的多任务调度算法，FCFS按照任务到来的时间进行多任务调度，SJF在所有接收任务中选择作业时间最短的任务进行多任务调度，EDF在所有接受任务中选择最早截止时间的任务进行多任务调度。

但是现有的时分复用的多任务调度算法，无法感知GPU等加速器可空分复用的特性，无法有效利用GPU的高并行度，充分发挥硬件资源。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于确定性算子共存的服务调度方法及其应用的GPU，用于对GPU的服务质量进行优化。

为实现上述目的及其他相关目的，本发明提供一种基于确定性算子共存的服务调度方法，包括：利用一共存感知的延迟预测器预测每一个算子调度组的处理时间；利用一基于余量的请求控制器以轮循的方式调度多个深度学习服务的请求，在每一个轮次中，确定接收到的所有请求的处理顺序，并基于预测的所述每一个算子调度组的处理时间确定最佳的算子调度组；利用一分段模型执行引擎处理接收到的所述算子调度组中各请求的相应算子的计算。

于本发明的一实施例中，所述共存感知的延迟预测器的训练过程包括：将算子按其在延迟预测模型中的拓扑顺序编号，构建算子组；设置一输入特征向量，用于表征延迟预测模型训练时的算子组特征；采用多个延迟预测模型训练样本；基于所述延迟预测模型的训练结果，采用多层感知机模型提供共存感知的延迟预测。

于本发明的一实施例中，所述输入特征向量还用于指示算子组中的开始算子，结束算子，批量大小和序列长度。

于本发明的一实施例中，所述构建算子组时，在一个算子组中，至少完成一个请求的完整处理，在收到新的请求时，将该请求的算子添加到当前的运算符组中。

于本发明的一实施例中，所述构建算子组的生成方式包括：在算子组中随机选择要完成的请求对应的模型数量；随机选择新到达请求对应模型的数量；确定相同模型的算子。

于本发明的一实施例中，所述基于余量的请求控制器获取服务质量延迟余量，基于按所述服务质量延迟余量升序的方式对所有请求进行排序，并在最小服务质量余量的约束下搜索算子组。

于本发明的一实施例中，采用一次性为持续时间模型提供批量输入特征进行多路搜索的方式搜索算子组。

于本发明的一实施例中，所述基于余量的请求控制器更新用于搜索算子组的余量，从服务质量余量中减去前一算子组的预测延迟进行调度。

于本发明的一实施例中，所述分段模型执行引擎以独占方式工作。

本发明的实施例还提供一种GPU，所述GPU应用如上所述的基于确定性算子共存的服务调度方法。

如上所述，本发明的一种基于确定性算子共存的服务调度方法及其应用的GPU，具有以下有益效果：

本发明保证了多个深度学习服务混合运行的服务质量保证，同时还提高了吞吐，提升了GPU利用率，本发明在无需增加硬件设备包括图形处理器等的前提下，既保证多服务的服务质量，又极大化整个推理系统多服务的吞吐量。

附图说明

图1显示为本发明的一实施例中基于细粒度抢占的共享GPU系统进行扩展的架构示意图。

图2显示为本发明的一实施例中实现基于确定性算子共存的服务调度方法的软件系统架构图。

图3显示为本发明的一实施例中基于确定性算子共存的服务调度方法中延迟预测建模的特征向量图。

图4显示为本发明的一实施例中基于确定性算子共存的服务调度方法中基于实际调度的算子组的采样过程示意图。

图5显示为本发明的一实施例中基于确定性算子共存的服务调度方法中多路搜索确定算子调度组的过程示意图。

图6显示为本发明的一实施例中基于确定性算子共存的服务调度方法中流水线化的算子组调度与算子组执行的过程示意图。

图7显示为本发明的一实施例中基于确定性算子共存的服务调度方法中灵活的分段模型执行引擎的示意图。

图8显示为本发明的一实施例中基于确定性算子共存的服务调度方法的实施过程示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

本发明实施例的目的在于提供一种基于确定性算子共存的服务调度方法及其应用的GPU，用于对GPU的服务质量进行优化。

本实施例旨在设计一个基于确定性算子共存的多深度神经网络服务调度方法，该方法通过共存感知的延迟预测器、基于余量的请求控制器和分段模型执行引擎实现。本实施例保证了多个深度学习服务混合运行的服务质量保证，同时还提高了吞吐，提升了GPU利用率。。

以下将详细阐述本实施例的一种基于确定性算子共存的服务调度方法及服务器的原理及实施方式，使本领域技术人员不需要创造性劳动即可理解本实施例的一种基于确定性算子共存的服务调度方法及服务器。

如图1所示，本实施例提供一种基于确定性算子共存的服务调度方法，所述基于确定性算子共存的服务调度方法包括：

步骤S100，利用一共存感知的延迟预测器预测每一个算子调度组的处理时间；

步骤S200，利用一基于余量的请求控制器以轮循的方式调度多个深度学习服务的请求，在每一个轮次中，确定接收到的所有请求的处理顺序，并基于预测的所述每一个算子调度组的处理时间确定最佳的算子调度组；

步骤S300，利用一分段模型执行引擎处理接收到的所述算子调度组中各请求的相应算子的计算。

图2是本发明实施例整个算子共存感知的多深度神经网络服务调度软件系统架构图。该多深度神经网络服务调度软件系统的软件架构分为三个模块：共存感知的延迟预测器、基于余量的请求控制器以及分段模型执行引擎，本实施例的基于确定性算子共存的服务调度方法的最小调度单元为一个算子调度组，算子调度组中的来自不同请求的算子在GPU上共存，利用MPS提供的机制被并行处理。延迟预测器精确地预测每一个算子调度组的处理时间。请求控制器按照轮循的方式调度多个深度学习服务的请求，每一个轮次其首先确定接收到的所有请求的处理顺序，再确定最佳的算子调度组。分段模型执行引擎负责处理接收到的算子调度组中各请求的相应算子的计算。

以下对本实施例的上述步骤S100至步骤S300进行详细说明。

步骤S100，利用一共存感知的延迟预测器预测每一个算子调度组的处理时间。

于本实施例中，所述共存感知的延迟预测器的训练过程包括：将算子按其在延迟预测模型中的拓扑顺序编号，构建算子组；设置一输入特征向量，用于表征延迟预测模型训练时的算子组特征；采用多个延迟预测模型训练样本；基于所述延迟预测模型的训练结果，采用多层感知机模型提供共存感知的延迟预测。

具体地，于本实施例中，首先收集算子组的计算时间和相应的特征信息来训练延迟预测模型。假设有N可能的模型可以在GPU上共同运行。对于每个模型，其算子按其在模型中的拓扑顺序编号。下图3显示了一个示例输入特征向量，用于在两个N模型共同运行时训练算子组的持续时间模型。在输入特征向量中，一个N-位图用于指示哪两个模型共同运行。此外，对于每个共同运行的模型，特征向量还指示了算子组中的开始算子op_s，结束算子op_e，批量大小bs和序列长度seqlen。这里的位图的设计统一了一个算子组内共存算子的信息，而seqlen仅用于如Bert这样有输入变化的深度学习模型。

本实施例使用多个模型来收集训练样本。请求的批量大小是随机选择的，以模拟所有模型的输入不确定性。随着所涉及模型的增加，样本空间呈指数增长。朴素采样会导致巨大的样本空间，从而导致离线时间过长。本实施例采用基于真实情况的采样来提高采样效率，其构建算子组有两个原则。首先，在一个算子组中，至少完成一个请求的完整处理。其次，可能会收到一个新的请求，并且可以将其算子添加到当前的运算符组中。

其中，于本实施例中，所述输入特征向量还用于指示算子组中的开始算子，结束算子，批量大小和序列长度。

于本实施例中，所述构建算子组时，在一个算子组中，至少完成一个请求的完整处理，在收到新的请求时，将该请求的算子添加到当前的运算符组中。

其中，于本实施例中，所述构建算子组的生成方式包括：在算子组中随机选择要完成的请求对应的模型数量；随机选择新到达请求对应模型的数量；确定相同模型的算子。

具体地，如图4所示，图4显示了本实施例生成算子组样本的方式。首先在算子组中随机选择要完成的请求对应的模型数量。在图中，选择了2个模型(模型A、模型B)。然后，本实施例随机选择新到达请求对应模型的数量。在图4中，选择了2个模型(模型B、模型C)。经过上述步骤，算子组中的模型B的算子就确定下来了。模型A的开始算子和模型C的结束算子是随机的取得。这样，本实施例就得到了在实际调度中存在的样本。提高了采样效率和预测器的准确性。最终本实施例利用采集得到的数据，使用多层感知机模型(MLP)来提供共存感知的延迟预测。本实施例将MLP模型的隐藏层限制为3层，其维度为32。

步骤S200，利用一基于余量的请求控制器以轮循的方式调度多个深度学习服务的请求，在每一个轮次中，确定接收到的所有请求的处理顺序，并基于预测的所述每一个算子调度组的处理时间确定最佳的算子调度组。

具体地，于本实施例中，所述基于余量的请求控制器获取服务质量延迟余量，基于按所述服务质量延迟余量升序的方式对所有请求进行排序，并在最小服务质量余量的约束下搜索算子组。

具体地，本实施例中的基于确定性算子共存的服务调度方法必须保证同时部署在GPU上的深度学习服务的服务质量，在请求控制器的调度下实现了服务质量保证的目标。请求控制器不是直接考虑所有深度学习服务的服务质量，而是每轮调度只保证一个请求的服务质量。与最早截止时间优先调度(EDF)一样，请求控制器优先考虑具有最早截止时间的请求。然而，请求控制器基于截止时间优先级形成一个算子组，而不是调度具有最高优先级的请求。

T_h＝T_QoS-T_queue-T_comms-T_completed

T_h＝T_Qos-(T_cur-T_start)

请求控制器首先计算以上方程中的服务质量余量(由T_h表示)。余量是通过减去排队时间(T_queue)、通过PCI-E或NVLink的数据传输时间(T_comms)得到的从服务质量目标(T_QoS)完成的算子(T_completed)。在等式中，本实施例已经知道每个请求的开始时间戳(T_start)和当前时间戳(T_cur)。因此，公式中第二行中，T_cur-T_start已经包含T_queue，T_comms和T_completed。然后控制器根据延迟余量升序对所有请求进行排序，然后在最小服务质量余量的约束下搜索算子组。在本轮调度中，请求控制器通过将其所有算子加入候选算子组，确保以最小的服务质量余量执行请求。只要共存感知延迟预测器给出的预测延迟不超过服务质量余量，请求控制器就会尝试将尽可能多的算子添加到算子组中。其余请求中添加的算子按其服务质量余量排序的顺序选择。同时本发明采用多路搜索来加快搜索速度，并将算子调度和算子执行流水线化，以隐藏调度开销。

于本实施例中，采用一次性为持续时间模型提供批量输入特征进行多路搜索的方式搜索算子组。

本实施例采用多路搜索，一个基于余量的调度过程需要多次预测。图5显示了将6个深度学习算子添加到q2和q1的算子组中的示例。在此示例中，延迟预测按顺序执行6次，导致搜索速度缓慢。本实施例注意到每个延迟预测都是独立的。基于这一观察，本实施例进行了一种多路搜索，通过一次性为持续时间模型提供批量输入特征进行计算来加速对最优算子组的探索。对于图5中的三个请求q1、q2和q3，本实施例首先以三种方式在请求之间进行搜索，而不是尝试直接添加算子。第一次预测后，本实施例知道可以将q2和q3的算子加入算子组。请求控制器继续以三路搜索在q1的算子中进行搜索。经过两次预测，请求控制器完成对最优算子组的探索。

于本实施例中，所述基于余量的请求控制器更新用于搜索算子组的余量，从服务质量余量中减去前一算子组的预测延迟进行调度。

本实施例采用流水线化的算子组调度与算子组执行。GPU上的执行与主机端的操作是异步的。本实施例利用这个属性在执行前一个算子组的同时生成一个算子组。上图6显示了详细的调度过程。发出算子组后，请求控制器立即开始下一轮基于余量的调度。由于调度的算子组的延迟往往大于搜索过程的延迟，因此隐藏了开销。请注意，本实施例需要更新用于搜索算子组的余量。用于形成新算子组的余量(T_{schedule_h})由以下公式计算。

T_{schedule_h}＝T_h-T_{predict_lat}

因为搜索出的算子组直到GPU完成前一个才发出，所以需要从服务质量余量(T_h)中减去前一算子组的预测延迟(T_{predict_lat})进行调度。否则，请求将不会在所需的服务质量目标之前返回。

出于隐私和避免程序崩溃的连锁反应的原因，每个深度学习服务都部署在模型执行引擎内部的单独进程中。分段模型执行引擎通过与每个深度学习服务通信来控制算子组的执行。模型执行引擎收到算子调度组后，通知相应的进程执行算子组中包含的算子。然后模型执行引擎等待所有进程完成并回复请求控制器。模型执行引擎以独占方式工作，以保证执行的算子组的确定性。在算子组的处理过程中，有一些事情需要处理。

具体地，于本实施例中，所述分段模型执行引擎以独占方式工作。

如图7所示，对于服务C等请求，在本轮调度中仅执行前三个算子。模型执行引擎保存这些请求的中间结果。对于像服务A这样的请求，第一个算子已经在前一轮调度中处理了。然后，模型执行引擎从早期保存的中间结果中恢复输入。在回应请求控制器以确定性之前，需要在GPU上进行同步操作，并返回这些完全处理的请求的最终结果。

为使本领域技术人员进一步理解本实施例的基于确定性算子共存的服务调度方法的原理，以下集合图8对本实施例的基于确定性算子共存的服务调度方法的实施过程进行说明。如图8所示，本实施例的基于确定性算子共存的服务调度方法的实施过程如下:

1)用户构建推理模型：属于共存感知的延迟预测器模块功能。用户根据自己的推理请求构建推理模型

2)用户采集训练数据集：属于共存感知的延迟预测器模块功能。用户采集多个深度神经网络模型混跑的训练数据

3)训练共存感知的延迟预测器：属于共存感知的延迟预测器模块功能。用户利用采集的训练数据训练延迟预测器

4)用户指定服务质量要求：属于基于余量的请求控制器模块功能。用户根据自己的要求自定义可接受的最长深度神经网络推理请求的处理延迟作为服务质量要求。

5)生成调度器：属于基于余量的请求控制器模块功能。

6)接收多个神经网络服务的推理请求：属于基于余量的请求控制器模块功能。

7)检查各请求队列状态：属于基于余量的请求控制器模块功能。检查各个请求队列的状态，查看其中是否有待处理的请求，有则跳转至8)，无则跳转至6)。

8)搜索最优算子调度组：属于基于余量的请求控制器模块功能。搜素本轮调度的最优调度算子组。

9)分段模型执行引擎执行：属于分段模型执行引擎模块功能。该模块负责接收最优算子调度组并执行。

10)返回完全处理的请求：属于分段模型执行引擎模块功能。返回完全处理的请求后，调度器将会跳转至6)，进行新一轮的调度过程。

由上可见，本实施例的基于确定性算子共存的服务调度方法在无需增加硬件设备包括图形处理器等的前提下，既保证多服务的服务质量，又极大化整个推理系统多服务的吞吐量。本发明的成果可以为新兴的深度神经网络技术落地提供支持。本发明的成果可以使构建具有商业意义的、基于确定性算子共存的多深度神经网络服务调度系统，面向用户简化神经网络推理调度服务的优化。

本发明的实施例还提供一种GPU，所述GPU应用如上所述的基于确定性算子共存的服务调度方法。上述已经对所述基于确定性算子共存的服务调度方法进行了详细说明，在此不再赘述。

综上所述，本发明保证了多个深度学习服务混合运行的服务质量保证，同时还提高了吞吐，提升了GPU利用率。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于确定性算子共存的服务调度方法，其特征在于：包括：

利用一共存感知的延迟预测器预测每一个算子调度组的处理时间；

利用一基于余量的请求控制器以轮循的方式调度多个深度学习服务的请求，在每一个轮次中，确定接收到的所有请求的处理顺序，并基于预测的所述每一个算子调度组的处理时间确定最佳的算子调度组；

利用一分段模型执行引擎处理接收到的所述算子调度组中各请求的相应算子的计算。

2.根据权利要求1所述的基于确定性算子共存的服务调度方法，其特征在于：所述共存感知的延迟预测器的训练过程包括：

将算子按其在延迟预测模型中的拓扑顺序编号，构建算子组；

设置一输入特征向量，用于表征延迟预测模型训练时的算子组特征；

采用多个延迟预测模型训练样本；

基于所述延迟预测模型的训练结果，采用多层感知机模型提供共存感知的延迟预测。

3.根据权利要求2所述的基于确定性算子共存的服务调度方法，其特征在于：所述输入特征向量还用于指示算子组中的开始算子，结束算子，批量大小和序列长度。

4.根据权利要求2所述的基于确定性算子共存的服务调度方法，其特征在于：所述构建算子组时，在一个算子组中，至少完成一个请求的完整处理，在收到新的请求时，将该请求的算子添加到当前的运算符组中。

5.根据权利要求4所述的基于确定性算子共存的服务调度方法，其特征在于：所述构建算子组的生成方式包括：

在算子组中随机选择要完成的请求对应的模型数量；

随机选择新到达请求对应模型的数量；

确定相同模型的算子。

6.根据权利要求1所述的基于确定性算子共存的服务调度方法，其特征在于：所述基于余量的请求控制器获取服务质量延迟余量，基于按所述服务质量延迟余量升序的方式对所有请求进行排序，并在最小服务质量余量的约束下搜索算子组。

7.根据权利要求6所述的基于确定性算子共存的服务调度方法，其特征在于：采用一次性为持续时间模型提供批量输入特征进行多路搜索的方式搜索算子组。

8.根据权利要求6或7所述的基于确定性算子共存的服务调度方法，其特征在于：所述基于余量的请求控制器更新用于搜索算子组的余量，从服务质量余量中减去前一算子组的预测延迟进行调度。

9.根据权利要求1所述的基于确定性算子共存的服务调度方法，其特征在于：所述分段模型执行引擎以独占方式工作。

10.一种GPU，其特征在于：所述GPU应用如权利要求1至权利要求9任一权利要求所述的基于确定性算子共存的服务调度方法。