CN112559147B - 基于gpu占用资源特点的动态匹配方法、系统和设备 - Google Patents
基于gpu占用资源特点的动态匹配方法、系统和设备 Download PDFInfo
- Publication number
- CN112559147B CN112559147B CN202011443445.9A CN202011443445A CN112559147B CN 112559147 B CN112559147 B CN 112559147B CN 202011443445 A CN202011443445 A CN 202011443445A CN 112559147 B CN112559147 B CN 112559147B
- Authority
- CN
- China
- Prior art keywords
- task
- gpu
- resources
- training
- resource
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 43
- 238000012545 processing Methods 0.000 title description 3
- 238000012549 training Methods 0.000 claims abstract description 87
- 238000013468 resource allocation Methods 0.000 claims abstract description 39
- 238000013135 deep learning Methods 0.000 abstract description 5
- 238000005259 measurement Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5038—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种基于GPU占用资源特点的动态匹配算法、系统和设备,通过获取训练模型任务,对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;从而根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。在深度学习建模任务中,平台用户将训练模型的任务提交给平台去调度任务以及分配资源,综合考虑资源量以及资源占用时间,增加了资源分配的维度,利用时间和空间这两个维度更加合理地规划资源调度,达到整体任务的平均执行效率的显著幅提升。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种基于GPU占用资源特点的动态匹配方法、系统和设备。
背景技术
在现有技术中,在深度学习建模任务中,平台用户将训练模型的任务提交给平台去调度任务以及分配资源,此时,传统调度只考虑资源量的多少,基于资源量的数量进行调度和分配,导致资源分配合理度较低,整体任务的平均执行效率较低。
发明内容
有鉴于此,本发明提供一种基于GPU占用资源特点的动态匹配方法、系统和设备,至少部分解决现有技术中存在的问题。
为了解决上述问题,本发明提供了以下技术方案:
一种基于GPU占用资源特点的动态匹配方法,所述方法包括:
获取训练模型任务;
对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额;
基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。
进一步地,所述对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额,具体包括:
判定获取到的训练模型任务被执行过,则在预警环境中前期迭代训练;
收集网络占用情况和模型张量特征;
查询历史执行过程中,该训练模型任务对资源占用数量、资源占用时长的整体分布规律;
基于网络占用情况、模型张量特征以及整体分布规律,制定资源分配策略;
根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
进一步地,所述对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额,具体包括:
判定获取到的训练模型任务未被执行过,则在预警环境中前期迭代训练;
收集网络占用情况和模型张量特征;
综合GPU资源占用数量、资源占用时间制定资源分配策略;
根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
进一步地,所述在预警环境中前期迭代训练,具体包括:
获取该任务对网络瓶颈的容忍度;
判定该容忍度超过阈值,则等待GPU集群中空闲GPU集中在某几台服务器中,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
判定该容忍度未超过阈值,则忽略空闲GPU的分布情况,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源。
本发明还提供一种基于GPU占用资源特点的动态匹配系统,用于执行如上所述的方法,所述系统包括:
任务获取单元,用于获取训练模型任务;
任务分析单元,用于对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额;
资源分配单元,用于基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
任务执行单元,用于根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。
进一步地,所述任务分析单元具体用于:
判定获取到的训练模型任务被执行过,则在预警环境中前期迭代训练;
收集网络占用情况和模型张量特征;
查询历史执行过程中,该训练模型任务对资源占用数量、资源占用时长的整体分布规律;
基于网络占用情况、模型张量特征以及整体分布规律,制定资源分配策略;
根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
进一步地,所述任务分析单元具体用于:
判定获取到的训练模型任务未被执行过,则在预警环境中前期迭代训练;
收集网络占用情况和模型张量特征;
综合GPU资源占用数量、资源占用时间制定资源分配策略;
根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
进一步地,所述在预警环境中前期迭代训练,具体包括:
获取该任务对网络瓶颈的容忍度;
判定该容忍度超过阈值,则等待GPU集群中空闲GPU集中在某几台服务器中,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
判定该容忍度未超过阈值,则忽略空闲GPU的分布情况,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源。
本发明还提供一种终端设备,所述终端设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行如上所述的方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上所述的方法。
本发明所提供的基于GPU占用资源特点的动态匹配方法,通过获取训练模型任务,对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;从而根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。在深度学习建模任务中,平台用户将训练模型的任务提交给平台去调度任务以及分配资源,综合考虑资源量以及资源占用时间,增加了资源分配的维度,利用时间和空间这两个维度更加合理地规划资源调度,达到整体任务的平均执行效率的显著幅提升。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明所提供的基于GPU占用资源特点的动态匹配方法一种具体实施方式的流程图;
图2为图1所示方法的具体实现流程图;
图3为本发明所提供的基于GPU占用资源特点的动态匹配系统种具体实施方式的结构框图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
请参考图1,图1为本发明所提供的基于GPU占用资源特点的动态匹配方法一种具体实施方式的流程图。
在一种具体实施方式中,该基于GPU占用资源特点的动态匹配方法包括以下步骤:
S1:获取训练模型任务;
S2:对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。在实际使用场景中,如图2所示,系统接收到提交的任务后,对任务特性一无所知,则需要提供预置训练环境,将任务在预置训练环境下执行迭代几次,收集任务在执行过程中对网络、GPU、内存的占用情况,从而将收集到的任务特征交给任务分析器进行分析。判断该模型训练任务在执行过程中参数张量的分布情况,最终决定是否需要等待空闲GPU卡全部集中在一台机器设备上来执行任务。每个任务都会有自己的执行优先级,这个优先级不是连续的数字,而是离散化的一级一级的自然数来代表优先级高低。这样长期处在排队得不到执行的任务,可以提升任务优先级优先被执行。
S3:基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源。仍以图2所示使用场景为例,用户将未知任务提交给平台,平台将任务放到队列中,队列中的任务等待获取资源然后被执行。这个过程中需计算任务的优先等级。应当理解的是,任务的优先级是动态调整的,为了避免过于频繁的优先级更新,设定任务的优先级更新时间间隔为30分钟。
S4:根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。也就是说,根据具体优先级最高的任务的资源分配策略,系统分配资源运行模型训练任务,同时将运行过程中相关网络、内存、GPU的利用率进行记录。最终任务完成以后,将经验更新到系统知识库中。
如图2所示,当任务分析器对任务进行分析,分为两类任务去按照两种不同方法进行资源分配,第一种情况是该类任务从来没有在平台系统中被执行过,知识库中找不到该类任务的过往历史执行数据,系统会根据在预置环境中试运行测量预估出资源分配策略,第二种情况是可以在知识库中找到过往历史执行数据,系统会根据历史执行情况的统计分布,得到一个最佳资源分配策略。
具体地,在第一种情况下,步骤S2具体包括:
S201:判定获取到的训练模型任务被执行过,则在预警环境中前期迭代训练;
S202:收集网络占用情况和模型张量特征;
S203:查询历史执行过程中,该训练模型任务对资源占用数量、资源占用时长的整体分布规律;
S204:基于网络占用情况、模型张量特征以及整体分布规律,制定资源分配策略;
S205:根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
在第二种情况下,步骤S2具体包括:
S211:判定获取到的训练模型任务未被执行过,则在预警环境中前期迭代训练;
S212:收集网络占用情况和模型张量特征;
综合GPU资源占用数量、资源占用时间制定资源分配策略;
S213:根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
其中,所述在预警环境中前期迭代训练,具体包括:
获取该任务对网络瓶颈的容忍度;
判定该容忍度超过阈值,则等待GPU集群中空闲GPU集中在某几台服务器中,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
判定该容忍度未超过阈值,则忽略空闲GPU的分布情况,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源。
在实际使用过程中,该方法可以应用到60个GPU(15台GPU服务器,每台服务器有4块GPU卡)规模的集群中,任务平均执行时间比之前基于YARN资源调度框架提升了5.5倍,缩短了任务的等待时长。
在上述具体实施方式中,本发明所提供的基于GPU占用资源特点的动态匹配方法,通过获取训练模型任务,对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;从而根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。在深度学习建模任务中,平台用户将训练模型的任务提交给平台去调度任务以及分配资源,综合考虑资源量以及资源占用时间,增加了资源分配的维度,利用时间和空间这两个维度更加合理地规划资源调度,达到整体任务的平均执行效率的显著幅提升。
除了上述方法,本发明还提供一种基于GPU占用资源特点的动态匹配系统,用于执行如上所述的方法,在一种具体实施方式中,如图3所示,所述系统包括:
任务获取单元100,用于获取训练模型任务;
任务分析单元200,用于对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额;
资源分配单元300,用于基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
任务执行单元400,用于根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。
当任务分析器对任务进行分析,分为两类任务去按照两种不同方法进行资源分配,第一种情况是该类任务从来没有在平台系统中被执行过,知识库中找不到该类任务的过往历史执行数据,系统会根据在预置环境中试运行测量预估出资源分配策略,第二种情况是可以在知识库中找到过往历史执行数据,系统会根据历史执行情况的统计分布,得到一个最佳资源分配策略。
则在第一种情况下,所述任务分析单元具体用于:
判定获取到的训练模型任务被执行过,则在预警环境中前期迭代训练;
收集网络占用情况和模型张量特征;
查询历史执行过程中,该训练模型任务对资源占用数量、资源占用时长的整体分布规律;
基于网络占用情况、模型张量特征以及整体分布规律,制定资源分配策略;
根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
在第二种情况下,所述任务分析单元具体用于:
判定获取到的训练模型任务未被执行过,则在预警环境中前期迭代训练;
收集网络占用情况和模型张量特征;
综合GPU资源占用数量、资源占用时间制定资源分配策略;
根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
其中,所述在预警环境中前期迭代训练,具体包括:
获取该任务对网络瓶颈的容忍度;
判定该容忍度超过阈值,则等待GPU集群中空闲GPU集中在某几台服务器中,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
判定该容忍度未超过阈值,则忽略空闲GPU的分布情况,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源。
在上述具体实施方式中,本发明所提供的基于GPU占用资源特点的动态匹配系统,通过获取训练模型任务,对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;从而根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。在深度学习建模任务中,平台用户将训练模型的任务提交给平台去调度任务以及分配资源,综合考虑资源量以及资源占用时间,增加了资源分配的维度,利用时间和空间这两个维度更加合理地规划资源调度,达到整体任务的平均执行效率的显著幅提升。
本发明还提供一种终端设备,所述终端设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行如上所述的方法。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行如上所述的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (8)
1.一种基于GPU占用资源特点的动态匹配方法,其特征在于,所述方法包括:
获取训练模型任务;
对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额;具体包括:判定获取到的训练模型任务被执行过,则在预警环境中前期迭代训练;收集网络占用情况和模型张量特征;查询历史执行过程中,该训练模型任务对资源占用数量、资源占用时长的整体分布规律;基于网络占用情况、模型张量特征以及整体分布规律,制定资源分配策略;根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额;
基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。
2.根据权利要求1所述的动态匹配方法,其特征在于,所述对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额,具体包括:
判定获取到的训练模型任务未被执行过,则在预警环境中前期迭代训练;
收集网络占用情况和模型张量特征;
综合GPU资源占用数量、资源占用时间制定资源分配策略;
根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
3.根据权利要求1或2所述的动态匹配方法,其特征在于,所述在预警环境中前期迭代训练,具体包括:
获取该任务对网络瓶颈的容忍度;
判定该容忍度超过阈值,则等待GPU集群中空闲GPU集中在某几台服务器中,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
判定该容忍度未超过阈值,则忽略空闲GPU的分布情况,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源。
4.一种基于GPU占用资源特点的动态匹配系统,用于执行如权利要求1-3任一项所述的方法,其特征在于,所述系统包括:
任务获取单元,用于获取训练模型任务;
任务分析单元,用于对接收到的训练模型任务进行任务分析,并得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额;所述任务分析单元具体用于:判定获取到的训练模型任务被执行过,则在预警环境中前期迭代训练;收集网络占用情况和模型张量特征;查询历史执行过程中,该训练模型任务对资源占用数量、资源占用时长的整体分布规律;基于网络占用情况、模型张量特征以及整体分布规律,制定资源分配策略;根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额;
资源分配单元,用于基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
任务执行单元,用于根据得到的任务优先级排序的任务队列以及分配的GPU资源执行训练任务,并将训练后得到的模型进行存储。
5.根据权利要求4所述的动态匹配系统,其特征在于,所述任务分析单元具体用于:
判定获取到的训练模型任务未被执行过,则在预警环境中前期迭代训练;
收集网络占用情况和模型张量特征;
综合GPU资源占用数量、资源占用时间制定资源分配策略;
根据该资源分配策略,得到任务优先级排序的任务队列以及每个时间周期内任务的资源占有份额。
6.根据权利要求4或5所述的动态匹配系统,其特征在于,所述在预警环境中前期迭代训练,具体包括:
获取该任务对网络瓶颈的容忍度;
判定该容忍度超过阈值,则等待GPU集群中空闲GPU集中在某几台服务器中,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源;
判定该容忍度未超过阈值,则忽略空闲GPU的分布情况,并基于每个时间周期内任务的资源占有份额,从GPU集群中分配GPU资源。
7.一种终端设备,其特征在于,所述终端设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-3任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-3任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011443445.9A CN112559147B (zh) | 2020-12-08 | 2020-12-08 | 基于gpu占用资源特点的动态匹配方法、系统和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011443445.9A CN112559147B (zh) | 2020-12-08 | 2020-12-08 | 基于gpu占用资源特点的动态匹配方法、系统和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112559147A CN112559147A (zh) | 2021-03-26 |
CN112559147B true CN112559147B (zh) | 2024-04-19 |
Family
ID=75062757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011443445.9A Active CN112559147B (zh) | 2020-12-08 | 2020-12-08 | 基于gpu占用资源特点的动态匹配方法、系统和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112559147B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114610501A (zh) * | 2022-03-24 | 2022-06-10 | 北京航天晨信科技有限责任公司 | 一种对任务规划模型并行训练的资源分配方法 |
CN114490094B (zh) * | 2022-04-18 | 2022-07-12 | 北京麟卓信息科技有限公司 | 一种基于机器学习的gpu显存分配方法及系统 |
CN115248728B (zh) * | 2022-09-21 | 2023-02-03 | 之江实验室 | 面向智能计算的分布式训练任务调度方法、系统和装置 |
CN115392143B (zh) * | 2022-10-31 | 2023-03-24 | 北京大学 | 一种基于深度强化学习的移动储能充放电时空规划方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699440A (zh) * | 2012-09-27 | 2014-04-02 | 北京搜狐新媒体信息技术有限公司 | 一种云计算平台系统为任务分配资源的方法和装置 |
WO2017127976A1 (zh) * | 2016-01-25 | 2017-08-03 | 华为技术有限公司 | 一种用于增量式学习云系统的训练、调度方法及相关设备 |
CN109284871A (zh) * | 2018-09-30 | 2019-01-29 | 北京金山云网络技术有限公司 | 资源调整方法、装置和云平台 |
CN109542603A (zh) * | 2018-11-22 | 2019-03-29 | 北京航空航天大学 | 一种提高不同优先级任务间隔离性的多维资源隔离系统 |
CN110389820A (zh) * | 2019-06-28 | 2019-10-29 | 浙江大学 | 一种基于v-TGRU模型进行资源预测的私有云任务调度方法 |
CN111176852A (zh) * | 2020-01-15 | 2020-05-19 | 上海依图网络科技有限公司 | 资源分配方法、装置、芯片及计算机可读存储介质 |
-
2020
- 2020-12-08 CN CN202011443445.9A patent/CN112559147B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699440A (zh) * | 2012-09-27 | 2014-04-02 | 北京搜狐新媒体信息技术有限公司 | 一种云计算平台系统为任务分配资源的方法和装置 |
WO2017127976A1 (zh) * | 2016-01-25 | 2017-08-03 | 华为技术有限公司 | 一种用于增量式学习云系统的训练、调度方法及相关设备 |
CN109284871A (zh) * | 2018-09-30 | 2019-01-29 | 北京金山云网络技术有限公司 | 资源调整方法、装置和云平台 |
CN109542603A (zh) * | 2018-11-22 | 2019-03-29 | 北京航空航天大学 | 一种提高不同优先级任务间隔离性的多维资源隔离系统 |
CN110389820A (zh) * | 2019-06-28 | 2019-10-29 | 浙江大学 | 一种基于v-TGRU模型进行资源预测的私有云任务调度方法 |
CN111176852A (zh) * | 2020-01-15 | 2020-05-19 | 上海依图网络科技有限公司 | 资源分配方法、装置、芯片及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112559147A (zh) | 2021-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112559147B (zh) | 基于gpu占用资源特点的动态匹配方法、系统和设备 | |
CN111176852B (zh) | 资源分配方法、装置、芯片及计算机可读存储介质 | |
CN110474852B (zh) | 一种带宽调度方法及装置 | |
CN110389816B (zh) | 用于资源调度的方法、装置以及计算机可读介质 | |
CN110413412B (zh) | 一种基于gpu集群资源分配的方法和装置 | |
CN113946431B (zh) | 一种资源调度方法、系统、介质及计算设备 | |
CN111176840B (zh) | 分布式任务的分配优化方法和装置、存储介质及电子装置 | |
CN114518945A (zh) | 一种资源调度方法、装置、设备及存储介质 | |
CN116467082A (zh) | 一种基于大数据的资源分配方法及系统 | |
CN114661482B (zh) | 一种gpu算力管理方法、介质、设备及系统 | |
CN114896068A (zh) | 资源分配方法、资源分配装置、电子设备及存储介质 | |
CN112181613A (zh) | 异构资源分布式计算平台批量任务调度方法及存储介质 | |
CN111796933A (zh) | 资源调度方法、装置、存储介质和电子设备 | |
CN109783236B (zh) | 用于输出信息的方法和装置 | |
CN110796591B (zh) | 一种gpu卡的使用方法及相关设备 | |
CN107203256B (zh) | 一种网络功能虚拟化场景下的节能分配方法与装置 | |
CN113301087B (zh) | 资源调度方法、装置、计算设备和介质 | |
CN113886086A (zh) | 云平台计算资源分配方法、系统、终端及存储介质 | |
CN112650449A (zh) | 缓存空间的释放方法、释放系统、电子设备及存储介质 | |
CN110955524A (zh) | 服务器优化调度方法 | |
CN116010051A (zh) | 一种联邦学习多任务调度方法及装置 | |
CN113129098B (zh) | 一种订单分配方法及装置 | |
CN111459651B (zh) | 一种负载均衡方法、装置、存储介质及调度系统 | |
CN114896070A (zh) | 一种用于深度学习任务的gpu资源分配方法 | |
CN111796934B (zh) | 任务下发方法、装置、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |