CN111191794B - 一种训练任务处理方法、装置、设备及可读存储介质 - Google Patents

一种训练任务处理方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN111191794B
CN111191794B CN201911386501.7A CN201911386501A CN111191794B CN 111191794 B CN111191794 B CN 111191794B CN 201911386501 A CN201911386501 A CN 201911386501A CN 111191794 B CN111191794 B CN 111191794B
Authority
CN
China
Prior art keywords
task
current available
amount
sub
available resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911386501.7A
Other languages
English (en)
Other versions
CN111191794A (zh
Inventor
王文潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Inspur Smart Computing Technology Co Ltd
Original Assignee
Guangdong Inspur Big Data Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Inspur Big Data Research Co Ltd filed Critical Guangdong Inspur Big Data Research Co Ltd
Priority to CN201911386501.7A priority Critical patent/CN111191794B/zh
Publication of CN111191794A publication Critical patent/CN111191794A/zh
Application granted granted Critical
Publication of CN111191794B publication Critical patent/CN111191794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种训练任务处理方法、装置、设备及计算机可读存储介质,方法应用在深度学习平台中,包括:判断任务属性中的资源占用量是否小于或等于深度学习平台的当前可用资源量,若否,判断资源占用量与当前可用资源量的比值是否小于预设值;若小于,利用当前可用资源量依次对拆分成的子启动脚本进行处理;若不小于,将训练任务的任务属性存放在队列中;获取深度学习平台的当前可用资源量,并对队列进行轮询,以在队列中存在资源占用量小于或等于当前可用资源量的目标任务属性时对目标任务属性进行处理。本申请公开的上述技术方案,可以提高深度学习平台的资源利用率,并可以降低深度学习平台的闲置率,减少深度学习平台资源和时间的浪费。

Description

一种训练任务处理方法、装置、设备及可读存储介质
技术领域
本申请涉及深度学习技术领域,更具体地说,涉及一种训练任务处理方法、装置、设备及计算机可读存储介质。
背景技术
深度学习需依赖深度学习平台进行训练任务的训练和学习,其中,该平台可以为众多用户提供训练任务提交服务和处理服务。
目前,深度学习平台在接收到用户提交的训练任务时,若训练任务在训练时所需占用的资源大于深度学习平台的当前可用资源,则该平台会直接拒绝用户提交训练任务,而这种情况后续会出现深度学习平台当前可用资源能够进行训练任务的处理但因其没有及时接收到训练任务而导致其自身处于闲置状态,从而会造成深度学习平台资源的浪费,并会造成时间的浪费。
综上所述,如何降低深度学习平台的闲置率,以减少深度学习平台资源和时间的浪费,是目前本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本申请的目的是提供一种训练任务处理方法、装置、设备及计算机可读存储介质,用于降低深度学习平台的闲置率,以减少深度学习平台资源和时间的浪费。
为了实现上述目的,本申请提供如下技术方案:
一种训练任务处理方法,应用在深度学习平台中,包括:
接收训练任务并获取所述训练任务的任务属性;其中,所述任务属性包括所述训练任务在训练时的资源占用量、启动脚本;
判断所述资源占用量是否小于或等于所述深度学习平台的当前可用资源量,若大于所述当前可用资源量,则判断所述资源占用量与所述当前可用资源量的比值是否小于预设值;
若小于所述预设值,则将所述任务属性中的启动脚本拆分成多个子启动脚本,并利用所述当前可用资源量依次对所述子启动脚本进行处理;其中,每个所述子启动脚本对应的子资源占用量均小于所述当前可用资源量;
若不小于所述预设值,则将所述训练任务的任务属性存放在预先创建的队列中;获取所述深度学习平台的当前可用资源量,并对所述队列进行轮询,以确定所述队列中是否存在资源占用量小于或等于所述当前可用资源量的目标任务属性;若存在所述目标任务属性,则将所述目标任务属性中所述队列中移除,并对所述目标任务属性进行处理。
优选的,利用所述当前可用资源量依次对所述子启动脚本进行处理,包括:
按照所述子启动脚本构成所述启动脚本的顺序利用所述当前可用资源量依次对所述子启动脚本进行处理。
优选的,按照所述子启动脚本构成所述启动脚本的顺序利用所述当前可用资源量依次对所述子启动脚本进行处理,包括:
从未处理的所述子启动脚本中选取多个目标子启动脚本,并利用所述当前可用资源量对所述目标子启动脚本进行处理;其中,所述选取出的所述目标子启动脚本的子资源占用量之和小于或等于所述当前可用资源量;
待完成对所述目标子启动脚本的处理,以空闲出所述当前可用资源量之后,则返回所述从未处理的所述子启动脚本中选取多个目标子启动脚本的步骤,直至处理完所有的所述子启动脚本为止。
优选的,在对所述队列进行轮询之前,还包括:
根据所述队列中各所述任务属性中的资源占用量计算各所述任务属性的分值,并按照分值由小到大的顺序对所述任务属性进行排列。
优选的,当所述资源占用量包括CPU占用量、GPU占用量和内存占用量时,根据所述队列中各所述任务属性中的资源占用量计算各所述任务属性的分值,包括:
获取所述队列中各所述任务属性的CPU占用量之和、GPU占用量之和及内存占用量之和;
利用所述任务属性的CPU占用量及CPU占用量之和得到第一分值;
利用所述任务属性的GPU占用量及GPU占用量之和得到第二分值;
利用所述任务属性的内存占用量及内存占用量之和得到第三分值;
将所述第一分值、所述第二分值和所述第三分值的平均值作为所述任务属性的分值。
优选的,在对所述队列进行轮询之前,还包括:
获取所述队列中各所述任务属性的接收时间,按照接收时间由早到晚的顺序对所述任务属性进行排列;其中,所述任务属性的接收时间为接收所述训练任务的时间。
优选的,在对所述任务属性进行排列之后,还包括:
接收用户指令,根据所述用户指令对所述队列中的任务属性的排列顺序进行调整。
一种训练任务处理装置,应用在深度学习平台中,包括:
接收模块,用于接收训练任务并获取所述训练任务的任务属性;其中,所述任务属性包括所述训练任务在训练时的资源占用量、启动脚本;
判断模块,用于判断所述资源占用量是否小于或等于所述深度学习平台的当前可用资源量,若大于所述当前可用资源量,则判断所述资源占用量与所述当前可用资源量的比值是否小于预设值;
拆分模块,用于在所述资源占用量与所述当前可用资源量的比值小于所述预设值时,则将所述任务属性中的启动脚本拆分成多个子启动脚本,并利用所述当前可用资源量依次对所述子启动脚本进行处理;其中,每个所述子启动脚本对应的子资源占用量均小于所述当前可用资源量;
处理模块,用于在所述资源占用量与所述当前可用资源量的比值不小于所述预设值时,则将所述训练任务的任务属性存放在预先创建的队列中;获取所述深度学习平台的当前可用资源量,并对所述队列进行轮询,以确定所述队列中是否存在资源占用量小于或等于所述当前可用资源量的目标任务属性;若存在所述目标任务属性,则将所述目标任务属性中所述队列中移除,并对所述目标任务属性进行处理。
一种训练任务处理设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上述任一项所述的训练任务处理方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的训练任务处理方法的步骤。
本申请提供了一种训练任务处理方法、装置、设备及计算机可读存储介质,其中,该方法应用在深度学习平台中,包括:接收训练任务并获取训练任务的任务属性;其中,任务属性包括训练任务在训练时的资源占用量、启动脚本;判断资源占用量是否小于或等于深度学习平台的当前可用资源量,若大于当前可用资源量,则判断资源占用量与当前可用资源量的比值是否小于预设值;若小于预设值,则将任务属性中的启动脚本拆分成多个子启动脚本,并利用当前可用资源量依次对子启动脚本进行处理;其中,每个子启动脚本对应的子资源占用量均小于当前可用资源量;若不小于预设值,则将训练任务的任务属性存放在预先创建的队列中;获取深度学习平台的当前可用资源量,并对队列进行轮询,以确定队列中是否存在资源占用量小于或等于当前可用资源量的目标任务属性;若存在目标任务属性,则将目标任务属性中队列中移除,并对目标任务属性进行处理。
本申请公开的上述技术方案,接收训练任务并获取包含有训练任务在训练时的资源占用量和启动脚本的任务属性,当资源占用量大于深度学习平台的当前可用资源量且在资源占用量与当前可用资源量的比值小于预设值时,将任务属性中的启动脚本拆分成多个子启动脚本,并利用当前可用资源量对依次对子启动脚本进行处理,即利用当前可用资源量对任务属性进行分步处理,以提高对深度学习平台的资源利用率,从而减少深度学习平台资源的浪费,当资源占用量大于深度学习平台的当前可用资源量且在资源占用量与当前可用资源量的比值不小于预设值时,将任务属性存放在预先创建的队列中,并对队列进行轮询,当队列中存在资源占用量小于或等于深度学习平台的当前可用资源量的目标任务属性时,则将目标任务属性中队列中移除,并对目标任务属性进行处理,以使得深度学习平台的当前可用资源量可以进行训练任务的处理时其能够及时从队列中获取满足条件的目标任务属性并对目标任务属性进行处理,从而便于充分发挥深度学习平台的性能,以降低深度学习平台的闲置率,进而减少深度学习平台资源的浪费和时间的浪费。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种训练任务处理方法的流程图;
图2为本申请实施例提供的一种训练任务处理装置的结构示意图;
图3为本申请实施例提供的一种训练任务处理设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,其示出了本申请实施例提供的一种训练任务处理方法的流程图,本申请实施例提供的一种训练任务处理方法,应用在深度学习平台中,可以包括:
S11:接收训练任务并获取训练任务的任务属性;其中,任务属性可以包括训练任务在训练时的资源占用量、启动脚本。
接收用户提交的训练任务并获取训练任务的任务属性,其中,该任务属性可以包括训练任务在训练时所占用的深度学习平台的资源量(即资源占用量)、训练任务在训练时所对应的启动脚本。
另外,在接收训练任务的同时可以记录接收训练任务的时间,以便于可以根据训练任务接收时间对训练任务进行查询等操作。
S12:判断资源占用量是否小于或等于深度学习平台的当前可用资源量;若是,则直接对任务属性进行处理,若否,则将执行步骤S13。
S13:判断资源占用量与当前可用资源量的比值是否小于预设值;若是,则执行步骤S14,若否,则执行步骤S15。
获取深度学习平台的当前可用资源量,并判断所获取到的任务属性中所包含的资源占用量是否小于或等于深度学习平台的当前可用资源量:若资源占用量小于或等于深度学习平台的当前可用资源量,则表明深度学习平台此时有能力直接对任务属性进行处理,此时,深度学习平台则可以直接对任务属性进行处理;若资源占用量不小于或等于深度学习平台的当前可用资源量,则表明深度学习平台此时暂时没有能力对整个任务属性进行处理,因此,则可以判断任务属性中所包含的资源占用量与当前可用资源量的比值是否小于预设值,其中,该预设值可以为预先根据深度学习平台的性能及深度学习平台的当前可用资源量进行设置的数值。
S14:将任务属性中的启动脚本拆分成多个子启动脚本,并利用当前可用资源量依次对子启动脚本进行处理;其中,每个子启动脚本对应的子资源占用量均小于当前可用资源量。
若资源占用量与当前可用资源量的比值小于预设值,则可以将任务属性中的启动脚本拆分成多个子启动脚本,其中,每个子启动脚本对应的子资源占用量均小于当前可用资源量。然后,可以利用当前可用资源量依次对子启动脚本进行处理,即先利用深度学习平台的当前可用资源量对某些或某个子启动脚本进行处理(其对应的子资源占用量之和小于或等于当前可用资源量),然后,待对这些子启动脚本完成处理之后,深度学习平台的当前可用资源量即空闲出来,然后,则可以利用空闲出来的当前可用资源量对剩余未处理的子启动脚本按照上述方式进行处理。
也就是说,可以使深度学习平台利用当前可用资源量对任务属性进行分步处理,以尽量避免使深度学习平台处于空闲状态,从而充分发挥深度学习平台的处理作用,减少深度学习平台资源的浪费,并提高对任务属性的处理效率。
S15:将训练任务的任务属性存放在预先创建的队列中;
S16:获取深度学习平台的当前可用资源量,并对队列进行轮询,以确定队列中是否存在资源占用量小于或等于当前可用资源量的目标任务属性;
S17:若队列中存在资源占用量小于或等于当前可用资源量的目标任务属性,则将目标任务属性中所述队列中移除,并对目标任务属性进行处理。
若资源占用量与当前可用资源量的比值不小于预设值,则可以将训练任务的任务属性存放在预先创建的队列中,之后,则可以获取深度学习平台的当前可用资源量,并对队列中的任务属性进行轮询,以通过对队列的轮询来确定队列中是否存在资源占用量小于或等于深度学习平台的当前可用资源量的目标任务属性:若确定队列中存在资源占用量小于或等于所获取到的深度学习平台的当前可用资源量,则将目标任务属性从队列中移除,并根据目标任务属性中的启动脚本对目标任务属性进行处理,其中,将目标属性从队列中移除可以有效地防止深度学习平台对该目标任务属性进行重复处理,从而降低对深度学习平台资源和时间的浪费;若确定队列中不存在满足条件的目标任务属性,则可以返回步骤S16。其中,在获取深度学习平台的当前可用资源量时,可以在当前正在进行处理的任务完成处理之后,再获取深度学习平台的当前可用资源量,以便于可以及时获取深度学习平台当前可用资源量的变化情况,从而便于能够及时对队列中所存放的且满足处理条件的任务属性进行处理。当然,也可以定时或实时获取深度学习平台的当前可用资源量,以便于能够及时获取深度学习平台当前可用资源量的变化情况。
通过将资源占用量大于深度学习平台的当前可用资源量且资源占用量与深度学习平台的当前可用资源量的比值大于等于预设值的任务属性存放在队列中,并获取深度学习平台的当前可用资源量,且对队列进行轮询,以便于在队列中存在资源占用量小于或等于当前可用资源量的目标任务属性时使深度学习平台能够及时对目标任务属性进行处理,从而可以尽量避免因深度学习平台当前可用资源量能够进行训练和处理但因训练任务没能及时提交而造成没有待处理的训练任务的情况出现,即通过上述过程可以尽量使深度学习平台一直处于任务属性处理的状态中,因此,可以降低深度学习平台的闲置率,减少深度学习平台资源的浪费和时间的浪费,从而可以充分发挥深度学习平台的性能。
本申请公开的上述技术方案,接收训练任务并获取包含有训练任务在训练时的资源占用量和启动脚本的任务属性,当资源占用量大于深度学习平台的当前可用资源量且在资源占用量与当前可用资源量的比值小于预设值时,将任务属性中的启动脚本拆分成多个子启动脚本,并利用当前可用资源量对依次对子启动脚本进行处理,即利用当前可用资源量对任务属性进行分步处理,以提高对深度学习平台的资源利用率,从而减少深度学习平台资源的浪费,当资源占用量大于深度学习平台的当前可用资源量且在资源占用量与当前可用资源量的比值不小于预设值时,将任务属性存放在预先创建的队列中,并对队列进行轮询,当队列中存在资源占用量小于或等于深度学习平台的当前可用资源量的目标任务属性时,则将目标任务属性中队列中移除,并对目标任务属性进行处理,以使得深度学习平台的当前可用资源量可以进行训练任务的处理时其能够及时从队列中获取满足条件的目标任务属性并对目标任务属性进行处理,从而便于充分发挥深度学习平台的性能,以降低深度学习平台的闲置率,进而减少深度学习平台资源的浪费和时间的浪费。
本申请实施例提供的一种训练任务处理方法,利用当前可用资源量依次对子启动脚本进行处理,包括:
按照子启动脚本构成启动脚本的顺序利用当前可用资源量依次对子启动脚本进行处理。
在利用当前可用资源量依次对子启动脚本进行处理时,可以按照子启动脚本构成启动脚本的顺序(具体为构成启动脚本的前后顺序)来利用当前可用资源量依次对子启动脚本进行处理,以提高任务属性的处理效果。
本申请实施例提供的一种训练任务处理方法,按照子启动脚本构成启动脚本的顺序利用当前可用资源量依次对子启动脚本进行处理,包括:
从未处理的子启动脚本中选取多个目标子启动脚本,并利用当前可用资源量对目标子启动脚本进行处理;其中,选取出的目标子启动脚本的子资源占用量之和小于或等于当前可用资源量;
待完成对目标子启动脚本的处理,以空闲出当前可用资源量之后,则返回从未处理的子启动脚本中选取多个目标子启动脚本的步骤,直至处理完所有的子启动脚本为止。
在按照子启动脚本构成启动脚本的顺序利用当前可用资源量依次对子启动脚本进行处理时,可以先从未处理的子启动脚本中选取多个目标子启动脚本(其中,选取出的目标子启动脚本的子资源占用量之和小于或等于当前可用资源量),并利用利用当前可用资源量对目标子启动脚本进行处理;待深度学习平台完成对目标子启动脚本的处理,以空闲出当前可用资源量之后,可以返回上述从未处理的子启动脚本中选取多个目标子启动脚本的步骤,直至处理完所有子启动脚本为止。
通过每次对多个子启动脚本进行处理来对任务属性进行处理的方式可以缩短任务属性的处理时间,提高任务属性的处理效率。
本申请实施例提供的一种训练任务处理方法,在对队列进行轮询之前,还可以包括:
根据队列中各任务属性中的资源占用量计算各任务属性的分值,并按照分值由小到大的顺序对任务属性进行排列。
在对队列进行轮询之前,可以根据队列中各任务属性中的资源占用量计算各任务属性的分值,并使任务属性在队列中按照分值由小到大的顺序进行排列,即可以按照资源占用优先级来对任务属性进行排队(分值越小,资源占用优先级越高),以使得深度学习平台在对队列进行轮询时可以按照分值由小到大的顺序进行轮询,从而使得深度学习平台可以按照分值由小到大的顺序对任务属性进行处理。
本申请实施例提供的一种训练任务处理方法,当资源占用量包括CPU占用量、GPU占用量和内存占用量时,根据队列中各任务属性中的资源占用量计算各任务属性的分值,可以包括:
获取队列中各任务属性的CPU占用量之和、GPU占用量之和及内存占用量之和;
利用任务属性的CPU占用量及CPU占用量之和得到第一分值;
利用任务属性的GPU占用量及GPU占用量之和得到第二分值;
利用任务属性的内存占用量及内存占用量之和得到第三分值;
将第一分值、第二分值和第三分值的平均值作为任务属性的分值。
当资源占用量包括CPU(中央处理器)占用量、GPU(图形处理器)占用量和内存占用量时,根据队列中各任务属性中的资源占用量计算各任务属性的分值的具体过程可以为:
将队列中各任务属性的CPU占用量、GPU占用量和内存占用量分别进行叠加,以获取到队列中各任务属性的CPU占用量之和、GPU占用量之和及内存占用量之和,然后,利用各任务属性的CPU占用量及所得到的CPU占用量之和得到各任务属性对应的第一分值,并利用各任务属性的GPU占用量及所得到的GPU占用量之和得到各任务属性对应的第二分值,且利用各任务属性的内存占用量及所得到的内存占用量之和得到各任务属性对应的第三分值,将各任务属性对应的第一分值、第二分值及第三分值的平均值作为各任务属性的分值。
例如:队列中有一个任务属性的资源占用量情况为2CPU、1GPU、4G内存,队列中所有任务属性的CPU占用量之和为10CPU、GPU占用量之和为2GPU、内存占用量之和为8G内存,则该任务属性的分值即为(2CPU/10CPU+1GPU/2GPU+4G/8G)/3=0.4。
当然,若资源占用量中包括CPU占用量、GPU占用量、内存占用量中的任意一个或任意两个时,或者包括其他类型的资源占用量时也可以采用与上述类似的方法计算队列中各任务属性的分值,本申请在此不再赘述。
本申请实施例提供的一种训练任务处理方法,在对队列进行轮询之前,还可以包括:
获取队列中各任务属性的接收时间,按照接收时间由早到晚的顺序对任务属性进行排列;其中,任务属性的接收时间为接收训练任务的时间。
在对队列进行轮询之前,可以获取队列中各任务属性的接收时间(任务属性的接收时间具体指的是接收训练任务的时间),然后,可以按照接收时间由早到晚的顺序对任务属性进行排列,以使得深度学习平台在对队列进行轮询时可以按照接收时间由早到晚的顺序对任务属性进行轮询,从而使得深度学习平台可以按照接收时间由早到晚的顺序对任务属性进行处理。
本申请实施例提供的一种训练任务处理方法,在对任务属性进行排列之后,还包括:
接收用户指令,根据用户指令对队列中的任务属性的排列顺序进行调整。
在对任务属性进行排列之后,可以接收用户指令,并按照用户指令对队列中的任务属性的排列顺序进行调整,以使得某个或某些任务属性可以优先被处理,从而满足用户的需求,以提高任务属性处理的灵活性。
本申请实施例提供的一种训练任务处理装置,应用在深度学习平台中,参见图2,其示出了本申请实施例提供的一种训练任务处理装置的结构示意图,可以包括:
接收模块21,用于接收训练任务并获取训练任务的任务属性;其中,任务属性可以包括训练任务在训练时的资源占用量、启动脚本;
判断模块22,用于判断资源占用量是否小于或等于深度学习平台的当前可用资源量,若大于当前可用资源量,则判断资源占用量与当前可用资源量的比值是否小于预设值;
拆分模块23,用于在资源占用量与当前可用资源量的比值小于预设值时,则将任务属性中的启动脚本拆分成多个子启动脚本,并利用当前可用资源量依次对子启动脚本进行处理;其中,每个子启动脚本对应的子资源占用量均小于当前可用资源量;
处理模块24,用于在资源占用量与当前可用资源量的比值不小于预设值时,则将训练任务的任务属性存放在预先创建的队列中;获取深度学习平台的当前可用资源量,并对队列进行轮询,以确定队列中是否存在资源占用量小于或等于当前可用资源量的目标任务属性;若存在目标任务属性,则将目标任务属性中队列中移除,并对目标任务属性进行处理。
本申请实施例提供的一种训练任务处理装置,拆分模块23可以包括:
处理单元,用于按照所述子启动脚本构成所述启动脚本的顺序利用所述当前可用资源量依次对所述子启动脚本进行处理。
本申请实施例提供的一种训练任务处理装置,处理单元可以包括:
第一处理子单元,用于从未处理的子启动脚本中选取多个目标子启动脚本,并利用当前可用资源量对目标子启动脚本进行处理;其中,选取出的目标子启动脚本的子资源占用量之和小于或等于当前可用资源量;
第一处理子单元,用于待完成对目标子启动脚本的处理,以空闲出当前可用资源量之后,则返回从未处理的子启动脚本中选取多个目标子启动脚本的步骤,直至处理完所有的子启动脚本为止。
本申请实施例提供的一种训练任务处理装置,还可以包括:
第一排列模块,用于在对队列进行轮询之前,根据队列中各任务属性中的资源占用量计算各任务属性的分值,并按照分值由小到大的顺序对任务属性进行排列。
本申请实施例提供的一种训练任务处理装置,当资源占用量可以包括CPU占用量、GPU占用量和内存占用量时,第一排列模块可以包括:
第一获取单元,用于获取队列中各任务属性的CPU占用量之和、GPU占用量之和及内存占用量之和;
第一计算单元,用于利用任务属性的CPU占用量及CPU占用量之和得到第一分值;
第二计算单元,用于利用任务属性的GPU占用量及GPU占用量之和得到第二分值;
第三计算单元,用于利用任务属性的内存占用量及内存占用量之和得到第三分值;
第四计算单元,用于将第一分值、第二分值和第三分值的平均值作为任务属性的分值。
本申请实施例提供的一种训练任务处理装置,还可以包括:
第二排列模块,用于在对队列进行轮询之前,获取队列中各任务属性的接收时间,按照接收时间由早到晚的顺序对任务属性进行排列;其中,任务属性的接收时间为接收训练任务的时间。
本申请实施例提供的一种训练任务处理装置,还可以包括:
调整模块,用于在对任务属性进行排列之后,接收用户指令,根据用户指令对队列中的任务属性的排列顺序进行调整。
本申请实施例提供的一种训练任务处理设备,参见图3,其示出了本申请实施例提供的一种训练任务处理设备的结构示意图,可以包括:
存储器31,用于存储计算机程序;
处理器32,用于执行存储器31存储的计算机程序时可实现如下步骤:
接收训练任务并获取训练任务的任务属性;其中,任务属性包括训练任务在训练时的资源占用量、启动脚本;判断资源占用量是否小于或等于深度学习平台的当前可用资源量,若大于当前可用资源量,则判断资源占用量与当前可用资源量的比值是否小于预设值;若小于预设值,则将任务属性中的启动脚本拆分成多个子启动脚本,并利用当前可用资源量依次对子启动脚本进行处理;其中,每个子启动脚本对应的子资源占用量均小于当前可用资源量;若不小于预设值,则将训练任务的任务属性存放在预先创建的队列中;获取深度学习平台的当前可用资源量,并对队列进行轮询,以确定队列中是否存在资源占用量小于或等于当前可用资源量的目标任务属性;若存在目标任务属性,则将目标任务属性中队列中移除,并对目标任务属性进行处理。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下步骤:
接收训练任务并获取训练任务的任务属性;其中,任务属性包括训练任务在训练时的资源占用量、启动脚本;判断资源占用量是否小于或等于深度学习平台的当前可用资源量,若大于当前可用资源量,则判断资源占用量与当前可用资源量的比值是否小于预设值;若小于预设值,则将任务属性中的启动脚本拆分成多个子启动脚本,并利用当前可用资源量依次对子启动脚本进行处理;其中,每个子启动脚本对应的子资源占用量均小于当前可用资源量;若不小于预设值,则将训练任务的任务属性存放在预先创建的队列中;获取深度学习平台的当前可用资源量,并对队列进行轮询,以确定队列中是否存在资源占用量小于或等于当前可用资源量的目标任务属性;若存在目标任务属性,则将目标任务属性中队列中移除,并对目标任务属性进行处理。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例提供的一种训练任务处理装置、设备及计算机可读存储介质中相关部分的说明可以参见本申请实施例提供的一种训练任务处理方法中对应部分的详细描述,在此不再赘述。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种训练任务处理方法,其特征在于,应用在深度学习平台中,包括:
接收训练任务并获取所述训练任务的任务属性;其中,所述任务属性包括所述训练任务在训练时的资源占用量、启动脚本;
判断所述资源占用量是否小于或等于所述深度学习平台的当前可用资源量,若大于所述当前可用资源量,则判断所述资源占用量与所述当前可用资源量的比值是否小于预设值;
若小于所述预设值,则将所述任务属性中的启动脚本拆分成多个子启动脚本,并利用所述当前可用资源量依次对所述子启动脚本进行处理;其中,每个所述子启动脚本对应的子资源占用量均小于所述当前可用资源量;
若不小于所述预设值,则将所述训练任务的任务属性存放在预先创建的队列中;获取所述深度学习平台的当前可用资源量,并对所述队列进行轮询,以确定所述队列中是否存在资源占用量小于或等于所述当前可用资源量的目标任务属性;若存在所述目标任务属性,则将所述目标任务属性中所述队列中移除,并对所述目标任务属性进行处理。
2.根据权利要求1所述的训练任务处理方法,其特征在于,利用所述当前可用资源量依次对所述子启动脚本进行处理,包括:
按照所述子启动脚本构成所述启动脚本的顺序利用所述当前可用资源量依次对所述子启动脚本进行处理。
3.根据权利要求2所述的训练任务处理方法,其特征在于,按照所述子启动脚本构成所述启动脚本的顺序利用所述当前可用资源量依次对所述子启动脚本进行处理,包括:
从未处理的所述子启动脚本中选取多个目标子启动脚本,并利用所述当前可用资源量对所述目标子启动脚本进行处理;其中,所述选取出的所述目标子启动脚本的子资源占用量之和小于或等于所述当前可用资源量;
待完成对所述目标子启动脚本的处理,以空闲出所述当前可用资源量之后,则返回所述从未处理的所述子启动脚本中选取多个目标子启动脚本的步骤,直至处理完所有的所述子启动脚本为止。
4.根据权利要求1所述的训练任务处理方法,其特征在于,在对所述队列进行轮询之前,还包括:
根据所述队列中各所述任务属性中的资源占用量计算各所述任务属性的分值,并按照分值由小到大的顺序对所述任务属性进行排列。
5.根据权利要求4所述的训练任务处理方法,其特征在于,当所述资源占用量包括CPU占用量、GPU占用量和内存占用量时,根据所述队列中各所述任务属性中的资源占用量计算各所述任务属性的分值,包括:
获取所述队列中各所述任务属性的CPU占用量之和、GPU占用量之和及内存占用量之和;
利用所述任务属性的CPU占用量及CPU占用量之和得到第一分值;
利用所述任务属性的GPU占用量及GPU占用量之和得到第二分值;
利用所述任务属性的内存占用量及内存占用量之和得到第三分值;
将所述第一分值、所述第二分值和所述第三分值的平均值作为所述任务属性的分值。
6.根据权利要求1所述的训练任务处理方法,其特征在于,在对所述队列进行轮询之前,还包括:
获取所述队列中各所述任务属性的接收时间,按照接收时间由早到晚的顺序对所述任务属性进行排列;其中,所述任务属性的接收时间为接收所述训练任务的时间。
7.根据权利要求4至6所述的训练任务处理方法,其特征在于,在对所述任务属性进行排列之后,还包括:
接收用户指令,根据所述用户指令对所述队列中的任务属性的排列顺序进行调整。
8.一种训练任务处理装置,其特征在于,应用在深度学习平台中,包括:
接收模块,用于接收训练任务并获取所述训练任务的任务属性;其中,所述任务属性包括所述训练任务在训练时的资源占用量、启动脚本;
判断模块,用于判断所述资源占用量是否小于或等于所述深度学习平台的当前可用资源量,若大于所述当前可用资源量,则判断所述资源占用量与所述当前可用资源量的比值是否小于预设值;
拆分模块,用于在所述资源占用量与所述当前可用资源量的比值小于所述预设值时,则将所述任务属性中的启动脚本拆分成多个子启动脚本,并利用所述当前可用资源量依次对所述子启动脚本进行处理;其中,每个所述子启动脚本对应的子资源占用量均小于所述当前可用资源量;
处理模块,用于在所述资源占用量与所述当前可用资源量的比值不小于所述预设值时,则将所述训练任务的任务属性存放在预先创建的队列中;获取所述深度学习平台的当前可用资源量,并对所述队列进行轮询,以确定所述队列中是否存在资源占用量小于或等于所述当前可用资源量的目标任务属性;若存在所述目标任务属性,则将所述目标任务属性中所述队列中移除,并对所述目标任务属性进行处理。
9.一种训练任务处理设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的训练任务处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的训练任务处理方法的步骤。
CN201911386501.7A 2019-12-29 2019-12-29 一种训练任务处理方法、装置、设备及可读存储介质 Active CN111191794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911386501.7A CN111191794B (zh) 2019-12-29 2019-12-29 一种训练任务处理方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911386501.7A CN111191794B (zh) 2019-12-29 2019-12-29 一种训练任务处理方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111191794A CN111191794A (zh) 2020-05-22
CN111191794B true CN111191794B (zh) 2023-03-14

Family

ID=70709546

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911386501.7A Active CN111191794B (zh) 2019-12-29 2019-12-29 一种训练任务处理方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111191794B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463334B (zh) * 2020-12-04 2023-08-18 苏州浪潮智能科技有限公司 一种训练任务排队原因分析方法、系统、设备以及介质
TWI756974B (zh) * 2020-12-09 2022-03-01 財團法人工業技術研究院 機器學習系統及其資源配置方法
CN116501506B (zh) * 2023-06-27 2023-09-12 苏州仰思坪半导体有限公司 一种资源轮询仲裁方法、装置、介质及计算设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093454A (zh) * 2007-08-14 2007-12-26 金蝶软件(中国)有限公司 一种在分布式系统中执行sql脚本文件的方法和装置
CN107480717A (zh) * 2017-08-16 2017-12-15 北京奇虎科技有限公司 训练作业处理方法及系统、计算设备、计算机存储介质
CN107766147A (zh) * 2016-08-23 2018-03-06 上海宝信软件股份有限公司 分布式的数据分析任务调度系统
CN109117275A (zh) * 2018-08-31 2019-01-01 平安科技(深圳)有限公司 基于数据分片的对账方法、装置、计算机设备及存储介质
CN110018817A (zh) * 2018-01-05 2019-07-16 中兴通讯股份有限公司 数据的分布式运行方法及装置、存储介质及处理器
CN110209496A (zh) * 2019-05-20 2019-09-06 中国平安财产保险股份有限公司 基于数据处理的任务分片方法、装置及分片服务器
CN110389834A (zh) * 2019-06-28 2019-10-29 苏州浪潮智能科技有限公司 一种用于提交深度学习训练任务的方法和装置
CN110618870A (zh) * 2019-09-20 2019-12-27 广东浪潮大数据研究有限公司 一种深度学习训练任务的工作方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101093454A (zh) * 2007-08-14 2007-12-26 金蝶软件(中国)有限公司 一种在分布式系统中执行sql脚本文件的方法和装置
CN107766147A (zh) * 2016-08-23 2018-03-06 上海宝信软件股份有限公司 分布式的数据分析任务调度系统
CN107480717A (zh) * 2017-08-16 2017-12-15 北京奇虎科技有限公司 训练作业处理方法及系统、计算设备、计算机存储介质
CN110018817A (zh) * 2018-01-05 2019-07-16 中兴通讯股份有限公司 数据的分布式运行方法及装置、存储介质及处理器
CN109117275A (zh) * 2018-08-31 2019-01-01 平安科技(深圳)有限公司 基于数据分片的对账方法、装置、计算机设备及存储介质
CN110209496A (zh) * 2019-05-20 2019-09-06 中国平安财产保险股份有限公司 基于数据处理的任务分片方法、装置及分片服务器
CN110389834A (zh) * 2019-06-28 2019-10-29 苏州浪潮智能科技有限公司 一种用于提交深度学习训练任务的方法和装置
CN110618870A (zh) * 2019-09-20 2019-12-27 广东浪潮大数据研究有限公司 一种深度学习训练任务的工作方法及装置

Also Published As

Publication number Publication date
CN111191794A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN111191794B (zh) 一种训练任务处理方法、装置、设备及可读存储介质
US9990229B2 (en) Scheduling method and apparatus for applying laxity correction based on task completion proportion and preset time
CN111176852A (zh) 资源分配方法、装置、芯片及计算机可读存储介质
CN106919449B (zh) 一种计算任务的调度控制方法及电子设备
CN112363821A (zh) 一种计算资源调度方法、装置及计算机设备
CN110795222B (zh) 一种多线程任务调度方法、装置、设备及可读介质
CN107341041B (zh) 基于优先队列的云任务多维约束回填调度方法
CN109917705B (zh) 一种多任务调度方法
CN109583586B (zh) 一种语音识别或图像识别中的卷积核处理方法及装置
CN110933136A (zh) 一种服务节点选择方法、装置、设备及可读存储介质
CN115562877A (zh) 分布式算力资源的编排方法、装置、设备及存储介质
CN115454602A (zh) 一种任务调度方法、装置及设备
CN108647347B (zh) 分页显示方法、用户设备、存储介质及装置
CN109800078B (zh) 一种任务处理方法、任务分发终端及任务执行终端
US9378061B2 (en) Method for prioritizing tasks queued at a server system
CN110780991A (zh) 一种基于优先级的深度学习任务调度方法及装置
CN110096352B (zh) 进程管理方法、装置及计算机可读存储介质
CN112596880A (zh) 一种数据处理方法、装置、设备及存储介质
CN109189581B (zh) 一种作业调度方法和装置
CN115033393B (zh) 批量请求下发的优先排队处理方法、装置、服务器及介质
CN111143210A (zh) 一种测试任务调度方法和系统
CN115269118A (zh) 一种虚拟机的调度方法、装置及设备
CN107885589A (zh) 一种作业调度方法及装置
CN108803969B (zh) 一种信息列表的显示方法、应用终端及存储设备
CN108268310B (zh) 一种确定最小调度粒度的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant