CN112559147B

CN112559147B - 基于gpu占用资源特点的动态匹配方法、系统和设备

Info

Publication number: CN112559147B
Application number: CN202011443445.9A
Authority: CN
Inventors: 胡广泽
Original assignee: Workway Shenzhen Information Technology Co ltd
Current assignee: Workway Shenzhen Information Technology Co ltd
Priority date: 2020-12-08
Filing date: 2020-12-08
Publication date: 2024-04-19
Anticipated expiration: 2040-12-08
Also published as: CN112559147A

Abstract

本发明公开了一种基于GPU占用资源特点的动态匹配算法、系统和设备，通过获取训练模型任务，对接收到的训练模型任务进行任务分析，并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额，并基于每个时间周期内任务的资源占有份额，从GPU集群中分配GPU资源；从而根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务，并将训练后得到的模型进行存储。在深度学习建模任务中，平台用户将训练模型的任务提交给平台去调度任务以及分配资源，综合考虑资源量以及资源占用时间，增加了资源分配的维度，利用时间和空间这两个维度更加合理地规划资源调度，达到整体任务的平均执行效率的显著幅提升。

Description

基于GPU占用资源特点的动态匹配方法、系统和设备

技术领域

本发明涉及信息技术领域，尤其涉及一种基于GPU占用资源特点的动态匹配方法、系统和设备。

背景技术

在现有技术中，在深度学习建模任务中，平台用户将训练模型的任务提交给平台去调度任务以及分配资源，此时，传统调度只考虑资源量的多少，基于资源量的数量进行调度和分配，导致资源分配合理度较低，整体任务的平均执行效率较低。

发明内容

有鉴于此，本发明提供一种基于GPU占用资源特点的动态匹配方法、系统和设备，至少部分解决现有技术中存在的问题。

为了解决上述问题，本发明提供了以下技术方案：

一种基于GPU占用资源特点的动态匹配方法，所述方法包括：

获取训练模型任务；

对接收到的训练模型任务进行任务分析，并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额；

基于每个时间周期内任务的资源占有份额，从GPU集群中分配GPU资源；

根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务，并将训练后得到的模型进行存储。

进一步地，所述对接收到的训练模型任务进行任务分析，并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额，具体包括：

判定获取到的训练模型任务被执行过，则在预警环境中前期迭代训练；

收集网络占用情况和模型张量特征；

查询历史执行过程中，该训练模型任务对资源占用数量、资源占用时长的整体分布规律；

基于网络占用情况、模型张量特征以及整体分布规律，制定资源分配策略；

根据该资源分配策略，得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。

判定获取到的训练模型任务未被执行过，则在预警环境中前期迭代训练；

收集网络占用情况和模型张量特征；

综合GPU资源占用数量、资源占用时间制定资源分配策略；

进一步地，所述在预警环境中前期迭代训练，具体包括：

获取该任务对网络瓶颈的容忍度；

判定该容忍度超过阈值，则等待GPU集群中空闲GPU集中在某几台服务器中，并基于每个时间周期内任务的资源占有份额，从GPU集群中分配GPU资源；

判定该容忍度未超过阈值，则忽略空闲GPU的分布情况，并基于每个时间周期内任务的资源占有份额，从GPU集群中分配GPU资源。

本发明还提供一种基于GPU占用资源特点的动态匹配系统，用于执行如上所述的方法，所述系统包括：

任务获取单元，用于获取训练模型任务；

任务分析单元，用于对接收到的训练模型任务进行任务分析，并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额；

资源分配单元，用于基于每个时间周期内任务的资源占有份额，从GPU集群中分配GPU资源；

任务执行单元，用于根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务，并将训练后得到的模型进行存储。

进一步地，所述任务分析单元具体用于：

收集网络占用情况和模型张量特征；

进一步地，所述任务分析单元具体用于：

收集网络占用情况和模型张量特征；

综合GPU资源占用数量、资源占用时间制定资源分配策略；

进一步地，所述在预警环境中前期迭代训练，具体包括：

获取该任务对网络瓶颈的容忍度；

本发明还提供一种终端设备，所述终端设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行如上所述的方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行如上所述的方法。

本发明所提供的基于GPU占用资源特点的动态匹配方法，通过获取训练模型任务，对接收到的训练模型任务进行任务分析，并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额，并基于每个时间周期内任务的资源占有份额，从GPU集群中分配GPU资源；从而根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务，并将训练后得到的模型进行存储。在深度学习建模任务中，平台用户将训练模型的任务提交给平台去调度任务以及分配资源，综合考虑资源量以及资源占用时间，增加了资源分配的维度，利用时间和空间这两个维度更加合理地规划资源调度，达到整体任务的平均执行效率的显著幅提升。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明所提供的基于GPU占用资源特点的动态匹配方法一种具体实施方式的流程图；

图2为图1所示方法的具体实现流程图；

图3为本发明所提供的基于GPU占用资源特点的动态匹配系统种具体实施方式的结构框图。

具体实施方式

下面结合附图对本发明实施例进行详细描述。

需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合；并且，基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

请参考图1，图1为本发明所提供的基于GPU占用资源特点的动态匹配方法一种具体实施方式的流程图。

在一种具体实施方式中，该基于GPU占用资源特点的动态匹配方法包括以下步骤：

S1：获取训练模型任务；

S2：对接收到的训练模型任务进行任务分析，并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。在实际使用场景中，如图2所示，系统接收到提交的任务后，对任务特性一无所知，则需要提供预置训练环境，将任务在预置训练环境下执行迭代几次，收集任务在执行过程中对网络、GPU、内存的占用情况，从而将收集到的任务特征交给任务分析器进行分析。判断该模型训练任务在执行过程中参数张量的分布情况，最终决定是否需要等待空闲GPU卡全部集中在一台机器设备上来执行任务。每个任务都会有自己的执行优先级，这个优先级不是连续的数字，而是离散化的一级一级的自然数来代表优先级高低。这样长期处在排队得不到执行的任务，可以提升任务优先级优先被执行。

S3：基于每个时间周期内任务的资源占有份额，从GPU集群中分配GPU资源。仍以图2所示使用场景为例，用户将未知任务提交给平台，平台将任务放到队列中，队列中的任务等待获取资源然后被执行。这个过程中需计算任务的优先等级。应当理解的是，任务的优先级是动态调整的，为了避免过于频繁的优先级更新，设定任务的优先级更新时间间隔为30分钟。

S4：根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务，并将训练后得到的模型进行存储。也就是说，根据具体优先级最高的任务的资源分配策略，系统分配资源运行模型训练任务，同时将运行过程中相关网络、内存、GPU的利用率进行记录。最终任务完成以后，将经验更新到系统知识库中。

如图2所示，当任务分析器对任务进行分析，分为两类任务去按照两种不同方法进行资源分配，第一种情况是该类任务从来没有在平台系统中被执行过，知识库中找不到该类任务的过往历史执行数据，系统会根据在预置环境中试运行测量预估出资源分配策略，第二种情况是可以在知识库中找到过往历史执行数据，系统会根据历史执行情况的统计分布，得到一个最佳资源分配策略。

具体地，在第一种情况下，步骤S2具体包括：

S201：判定获取到的训练模型任务被执行过，则在预警环境中前期迭代训练；

S202：收集网络占用情况和模型张量特征；

S203：查询历史执行过程中，该训练模型任务对资源占用数量、资源占用时长的整体分布规律；

S204：基于网络占用情况、模型张量特征以及整体分布规律，制定资源分配策略；

S205：根据该资源分配策略，得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。

在第二种情况下，步骤S2具体包括：

S211：判定获取到的训练模型任务未被执行过，则在预警环境中前期迭代训练；

S212：收集网络占用情况和模型张量特征；

综合GPU资源占用数量、资源占用时间制定资源分配策略；

S213：根据该资源分配策略，得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。

其中，所述在预警环境中前期迭代训练，具体包括：

获取该任务对网络瓶颈的容忍度；

在实际使用过程中，该方法可以应用到60个GPU(15台GPU服务器，每台服务器有4块GPU卡)规模的集群中，任务平均执行时间比之前基于YARN资源调度框架提升了5.5倍，缩短了任务的等待时长。

在上述具体实施方式中，本发明所提供的基于GPU占用资源特点的动态匹配方法，通过获取训练模型任务，对接收到的训练模型任务进行任务分析，并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额，并基于每个时间周期内任务的资源占有份额，从GPU集群中分配GPU资源；从而根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务，并将训练后得到的模型进行存储。在深度学习建模任务中，平台用户将训练模型的任务提交给平台去调度任务以及分配资源，综合考虑资源量以及资源占用时间，增加了资源分配的维度，利用时间和空间这两个维度更加合理地规划资源调度，达到整体任务的平均执行效率的显著幅提升。

除了上述方法，本发明还提供一种基于GPU占用资源特点的动态匹配系统，用于执行如上所述的方法，在一种具体实施方式中，如图3所示，所述系统包括：

任务获取单元100，用于获取训练模型任务；

任务分析单元200，用于对接收到的训练模型任务进行任务分析，并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额；

资源分配单元300，用于基于每个时间周期内任务的资源占有份额，从GPU集群中分配GPU资源；

任务执行单元400，用于根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务，并将训练后得到的模型进行存储。

当任务分析器对任务进行分析，分为两类任务去按照两种不同方法进行资源分配，第一种情况是该类任务从来没有在平台系统中被执行过，知识库中找不到该类任务的过往历史执行数据，系统会根据在预置环境中试运行测量预估出资源分配策略，第二种情况是可以在知识库中找到过往历史执行数据，系统会根据历史执行情况的统计分布，得到一个最佳资源分配策略。

则在第一种情况下，所述任务分析单元具体用于：

收集网络占用情况和模型张量特征；

在第二种情况下，所述任务分析单元具体用于：

收集网络占用情况和模型张量特征；

综合GPU资源占用数量、资源占用时间制定资源分配策略；

其中，所述在预警环境中前期迭代训练，具体包括：

获取该任务对网络瓶颈的容忍度；

在上述具体实施方式中，本发明所提供的基于GPU占用资源特点的动态匹配系统，通过获取训练模型任务，对接收到的训练模型任务进行任务分析，并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额，并基于每个时间周期内任务的资源占有份额，从GPU集群中分配GPU资源；从而根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务，并将训练后得到的模型进行存储。在深度学习建模任务中，平台用户将训练模型的任务提交给平台去调度任务以及分配资源，综合考虑资源量以及资源占用时间，增加了资源分配的维度，利用时间和空间这两个维度更加合理地规划资源调度，达到整体任务的平均执行效率的显著幅提升。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于GPU占用资源特点的动态匹配方法，其特征在于，所述方法包括：

获取训练模型任务；

对接收到的训练模型任务进行任务分析，并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额；具体包括：判定获取到的训练模型任务被执行过，则在预警环境中前期迭代训练；收集网络占用情况和模型张量特征；查询历史执行过程中，该训练模型任务对资源占用数量、资源占用时长的整体分布规律；基于网络占用情况、模型张量特征以及整体分布规律，制定资源分配策略；根据该资源分配策略，得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额；

2.根据权利要求1所述的动态匹配方法，其特征在于，所述对接收到的训练模型任务进行任务分析，并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额，具体包括：

收集网络占用情况和模型张量特征；

综合GPU资源占用数量、资源占用时间制定资源分配策略；

3.根据权利要求1或2所述的动态匹配方法，其特征在于，所述在预警环境中前期迭代训练，具体包括：

获取该任务对网络瓶颈的容忍度；

4.一种基于GPU占用资源特点的动态匹配系统，用于执行如权利要求1-3任一项所述的方法，其特征在于，所述系统包括：

任务获取单元，用于获取训练模型任务；

任务分析单元，用于对接收到的训练模型任务进行任务分析，并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额；所述任务分析单元具体用于：判定获取到的训练模型任务被执行过，则在预警环境中前期迭代训练；收集网络占用情况和模型张量特征；查询历史执行过程中，该训练模型任务对资源占用数量、资源占用时长的整体分布规律；基于网络占用情况、模型张量特征以及整体分布规律，制定资源分配策略；根据该资源分配策略，得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额；

5.根据权利要求4所述的动态匹配系统，其特征在于，所述任务分析单元具体用于：

收集网络占用情况和模型张量特征；

综合GPU资源占用数量、资源占用时间制定资源分配策略；

6.根据权利要求4或5所述的动态匹配系统，其特征在于，所述在预警环境中前期迭代训练，具体包括：

获取该任务对网络瓶颈的容忍度；

7.一种终端设备，其特征在于，所述终端设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-3任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-3任一项所述的方法。