CN115098257A - 一种资源调度方法、装置、设备以及存储介质 - Google Patents

一种资源调度方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN115098257A
CN115098257A CN202210716412.XA CN202210716412A CN115098257A CN 115098257 A CN115098257 A CN 115098257A CN 202210716412 A CN202210716412 A CN 202210716412A CN 115098257 A CN115098257 A CN 115098257A
Authority
CN
China
Prior art keywords
node
task
resource
sample
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210716412.XA
Other languages
English (en)
Inventor
康亚京
程帅
赵继壮
王峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN202210716412.XA priority Critical patent/CN115098257A/zh
Publication of CN115098257A publication Critical patent/CN115098257A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5011Pool
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种资源调度方法、装置、设备以及存储介质,涉及计算机技术领域。具体实现方案为:响应于接收到待处理的目标任务,预测所述GPU集群的各个节点分别对应的指定任务的参考资源数据;其中,每一节点对应的指定任务为该节点当前正在处理的任务;针对所述各个节点中的每一节点,基于该节点对应的指定任务的参考资源数据,确定该节点在所述目标时间段所对应的可分配资源,作为该节点对应的待利用资源;基于各个节点分别对应的待利用资源,从所述各个节点中选取符合所述目标任务的资源需求的目标节点;调用所述目标节点的待利用资源处理所述目标任务。可见,通过本方案,可以提升资源池的利用率。

Description

一种资源调度方法、装置、设备以及存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种资源调度方法、装置、设备以及存储介质。
背景技术
GPU(graphics processing unit,图形处理器)集群是一个计算机集群,GPU集群中每个节点配备有GPU芯片,GPU集群中的所有GPU芯片所提供的GPU资源构成资源池,为上层应用所产生的任务提供算力。
相关技术中,在不同的上层应用之间,采取GPU资源静态分区的方法,即为不同的上层应用所对应的处理任务静态分配节点,来实现不同上层应用所对应的处理任务间的资源分配及隔离。
随着上层应用的复杂化,GPU集群中的节点逐渐表现出异构化特性,即节点配备的GPU芯片具有多种类型。那么,相关技术中不同的上层应用所对应的处理任务,只能通过固定的节点的GPU资源进行处理,可能使得某些节点对于所分配的处理任务GPU资源过剩,而某些节点被分配到的各个任务需要长时间在队列中处于等待状态,从而导致资源池的利用率较低。
因此,亟需一种提升资源池的利用率的资源调度方法。
发明内容
本发明实施例的目的在于提供一种资源调度方法、装置、设备以及存储介质,以提升资源池的利用率。具体技术方案如下:
第一方面,本发明实施例提供了一种资源调度方法,应用于图形处理器GPU集群下的主控节点,所述方法包括:
响应于接收到待处理的目标任务,预测所述GPU集群的各个节点分别对应的指定任务的参考资源数据;其中,每一节点对应的指定任务为该节点当前正在处理的任务;任一指定任务的参考资源数据为用于表征该指定任务通过所对应的节点执行时,在目标时间段的资源使用情况;
针对所述各个节点中的每一节点,基于该节点对应的指定任务的参考资源数据,确定该节点在所述目标时间段所对应的可分配资源,作为该节点对应的待利用资源;
基于各个节点分别对应的待利用资源,从所述各个节点中选取符合所述目标任务的资源需求的目标节点;
调用所述目标节点的待利用资源处理所述目标任务。
可选地,所述预测所述GPU集群中的各个节点分别对应的指定任务的参考资源数据,包括:
针对所述GPU集群的各个节点中的每一节点,获取该节点对应的指定任务的历史资源数据;其中,任一指定任务对应的历史资源数据表征在该指定任务通过所对应的节点执行时,在所述目标时间段之前的历史时间段的资源使用情况;
利用该节点对应的指定任务的历史资源数据,预测该节点对应的指定任务的参考资源数据。
可选地,所述利用该节点对应的指定任务的历史资源数据,预测该节点对应的指定任务的参考资源数据,包括:
确定目标芯片类型对应的资源预测模型,作为待利用资源预测模型;其中,所述目标芯片类型为该节点所配置的用于处理所对应的指定任务的GPU芯片的芯片类型;每一芯片类型对应有一资源预测模型;其中,任一芯片类型对应的资源预测模型为利用指定样本任务的样本历史资源数据,以及所述指定样本任务对应真值训练得到的,所述指定样本任务为利用该芯片类型的GPU芯片所处理的样本任务,所述样本历史资源数据为表征在样本历史时段的资源使用情况的数据,所述指定样本任务对应的真值为表征在样本目标时间段的资源使用情况的数据,所述样本目标时间段为所述历史样本时段之后的时间段;
将该节点对应的指定任务的历史资源数据,输入所述待利用资源预测模型,得到该节点对应的指定任务的参考资源数据。
可选地,每一芯片类型对应的资源预测模型的训练方式,包括:
确定训练样本;其中,每一训练样本为利用该芯片类型的GPU芯片所处理的样本任务的历史资源数据,所述每一训练样本具有指定标签,所述指定标签为表征该样本任务在样本目标时间段的资源使用情况的数据;
将所述训练样本,输入待训练的资源预测模型,得到所述训练样本对应的预测结果;
基于所述预测结果,判断模型是否收敛;
若收敛,训练结束,否则调整所述资源预测模型的参数,并返回确定训练样本的步骤。
可选地,每一节点对应的待利用资源,包括该节点所配置的各个GPU芯片对应的待利用资源;
所述调用所述目标节点的待利用资源处理所述目标任务,包括:
调用所述目标节点所配置的一GPU芯片对应的待利用资源,处理所述目标任务。
第二方面,本发明实施例提供了一种资源调度装置,应用于图形处理器GPU集群下的主控节点,所述装置包括:
预测模块,用于响应于接收到待处理的目标任务,预测所述GPU集群的各个节点分别对应的指定任务的参考资源数据;其中,每一节点对应的指定任务为该节点当前正在处理的任务;任一指定任务的参考资源数据为用于表征该指定任务通过所对应的节点执行时,在目标时间段的资源使用情况;
确定模块,用于针对所述各个节点中的每一节点,基于该节点对应的指定任务的参考资源数据,确定该节点在所述目标时间段所对应的可分配资源,作为该节点对应的待利用资源;
选取模块,用于基于各个节点分别对应的待利用资源,从所述各个节点中选取符合所述目标任务的资源需求的目标节点;
调用模块,用于调用所述目标节点的待利用资源处理所述目标任务。
可选地,所述预测模块,包括:
获取子模块,用于针对所述GPU集群的各个节点中的每一节点,获取该节点对应的指定任务的历史资源数据;其中,任一指定任务对应的历史资源数据表征在该指定任务通过所对应的节点执行时,在所述目标时间段之前的历史时间段的资源使用情况;
预测子模块,用于利用该节点对应的指定任务的历史资源数据,预测该节点对应的指定任务的参考资源数据。
可选地,所述预测子模块,具体用于:
确定目标芯片类型对应的资源预测模型,作为待利用资源预测模型;其中,所述目标芯片类型为该节点所配置的用于处理所对应的指定任务的GPU芯片的芯片类型;每一芯片类型对应有一资源预测模型;其中,任一芯片类型对应的资源预测模型为利用指定样本任务的样本历史资源数据,以及所述指定样本任务对应真值训练得到的,所述指定样本任务为利用该芯片类型的GPU芯片所处理的样本任务,所述样本历史资源数据为表征在样本历史时段的资源使用情况的数据,所述指定样本任务对应的真值为表征在样本目标时间段的资源使用情况的数据,所述样本目标时间段为所述历史样本时段之后的时间段;
将该节点对应的指定任务的历史资源数据,输入所述待利用资源预测模型,得到该节点对应的指定任务的参考资源数据。
可选地,每一芯片类型对应的资源预测模型的训练方式,包括:
确定训练样本;其中,每一训练样本为利用该芯片类型的GPU芯片所处理的样本任务的历史资源数据,所述每一训练样本具有指定标签,所述指定标签为表征该样本任务在样本目标时间段的资源使用情况的数据;
将所述训练样本,输入待训练的资源预测模型,得到所述训练样本对应的预测结果;
基于所述预测结果,判断模型是否收敛;
若收敛,训练结束,否则调整所述资源预测模型的参数,并返回确定训练样本的步骤。
可选地,每一节点对应的待利用资源,包括该节点所配置的各个GPU芯片对应的待利用资源;
所述调用模块,具体用于:
调用所述目标节点所配置的一GPU芯片对应的待利用资源,处理所述目标任务。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述任一所述的资源调度方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的资源调度方法的步骤。
本发明实施例有益效果:
本发明实施例提供的方案,响应于待处理的目标任务,预测该GPU集群的各个节点分别对应的指定任务的参考资源数据,该每一节点对应的参考资源数据为该节点当前处理的任务在目标时间段的资源使用情况,根据每一节点对应的指定任务的参考资源数据,即可确定该节点在目标时间段对应的待利用资源,从而可以从各个节点中,选取符合目标任务的资源需求的目标节点,然后调用该目标节点的待利用资源处理该目标任务,从而实现了GPU资源的动态调度。相较于现有技术中,任务通过静态分区的固定节点进行处理而言,本方案可以跨节点调度GPU资源,从而充分利用了GPU资源池中的GPU资源。可见,通过本方案,可以提升资源池的利用率。
当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的实施例。
图1为本发明实施例所提供的一种资源调度方法的流程图;
图2为本发明实施例所提供的资源调度方法的另一流程图;
图3为本发明实施例所提供的资源预测模型的训练方式的流程图;
图4为相关技术中实现资源调度的流程图;
图5为本发明实施例所提供的资源调度方法的一个具体示例的流程图;
图6为本发明实施例所提供的资源调度装置的一种结构示意图;
图7为实现本发明实施例的一种电子设备的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员基于本申请所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,在不同的上层应用之间,采取GPU资源静态分区的方法,即为不同的上层应用所对应的任务静态分配节点,来实现不同上层应用所对应的任务间的资源分配及隔离。但是,静态分区方法忽视了节点异构特性,静态分区后GPU资源不能跨节点调度,导致资源池利用率较低,新应用部署时无法根据性能优势部署芯片,异构环境下性能表现较差。
随着上层应用的复杂化,GPU集群中的节点逐渐表现出异构化特性,即节点配备的GPU芯片具有多种类型。并且,人工智能芯片的使用场景越来越多,且专门为人工智能使用场景定制的人工智能芯片适用性明显高于通用芯片。那么,相关技术中不同的上层应用所对应的处理任务,只能通过固定的节点的GPU资源进行处理,可能使得某些节点对于所分配的处理任务GPU资源过剩,从而导致资源池的利用率较低。因此,如何根据不同应用独特性的算力需求,将应用产生的任务部署到合适芯片并提高资源池整体利用率成为关键。
基于上述内容,为了提升资源池的利用率,本发明实施例提供了一种资源调度方法、装置、设备以及存储介质。
下面,首先对本发明实施例所提供的一种资源调度方法进行介绍。
本发明实施例所提供的一种资源调度方法,应用于图形处理器GPU集群下的主控节点。具体而言,该资源调度方法的执行主体可以为资源调度装置,该资源调度装置为运行于图形处理器GPU集群下的主控节点中的计算机程序,该计算机程序在执行时用于对GPU资源进行调度。
其中,本发明实施例所提供的一种资源调度方法,可以包括如下步骤:
响应于接收到待处理的目标任务,预测所述GPU集群的各个节点分别对应的指定任务的参考资源数据;其中,每一节点对应的指定任务为该节点当前正在处理的任务;任一指定任务的参考资源数据为用于表征该指定任务通过所对应的节点执行时,在目标时间段的资源使用情况;
针对所述各个节点中的每一节点,基于该节点对应的指定任务的参考资源数据,确定该节点在所述目标时间段所对应的可分配资源,作为该节点对应的待利用资源;
基于各个节点分别对应的待利用资源,从所述各个节点中选取符合所述目标任务的资源需求的目标节点;
调用所述目标节点的待利用资源处理所述目标任务。
本发明实施例所提供的方案,响应于待处理的目标任务,预测该GPU集群的各个节点分别对应的指定任务的参考资源数据,该每一节点对应的参考资源数据为该节点当前处理的任务在目标时间段的资源使用情况,根据每一节点对应的指定任务的参考资源数据,即可确定该节点在目标时间段对应的待利用资源,从而可以从各个节点中,选取符合目标任务的资源需求的目标节点,然后调用该目标节点的待利用资源处理该目标任务,从而实现了GPU资源的动态调度。相较于现有技术中,任务通过静态分区的固定节点进行处理而言,本方案可以跨节点调度GPU资源,从而充分利用了GPU资源池中的GPU资源。可见,通过本方案,可以提升资源池的利用率。
下面结合附图,对本发明实施例所提供的资源调度方法进行介绍。
如图1所示,本发明实施例所提供的资源调度方法,应用于图形处理器GPU集群下的主控节点,所述方法可以包括步骤S101-S104:
S101,响应于接收到待处理的目标任务,预测该GPU集群的各个节点分别对应的指定任务的参考资源数据;其中,每一节点对应的指定任务为该节点当前正在处理的任务;任一指定任务的参考资源数据为用于表征该指定任务通过所对应的节点执行时,在目标时间段的资源使用情况;
本实施例中,当接收到待处理的目标任务后,可以预测该GPU集群的各个节点分别对应的指定任务的参考资源数据,从而利用所预测的参考资源数据,为对于目标任务的资源调度提供参考,最终实现调度资源池中的GPU资源对该待处理的目标任务进行处理。
可以理解的是,考虑到接收到目标任务时,资源池中可能存在空闲的GPU芯片,该空闲的GPU芯片可以用于处理任务,此时,为了提升资源调度速率,在一种可选的实现方式中,预测该GPU集群的各个节点分别对应的指定任务的参考资源数据之前,所述方法还可以包括:检测资源池中是否存在空闲的GPU芯片,若不存在,执行所述预测该GPU集群的各个节点分别对应的指定任务的参考资源数据的步骤;若存在,可以直接将该目标任务部署到该GPU芯片上,以利用该GPU芯片所提供的GPU资源处理该目标任务。
其中,GPU集群所处理的任务可以多种多样,例如:人工智能训练任务、推理任务或者计算任务等等。并且,目标任务和指定任务可以是相同或不同的任务。例如该目标任务可以是依赖VAE(Variational Autoencoder,变分自编码器)模型框架的训练任务,或者依赖DCGAN(Deep Convolution Generative Adversarial Networks,深度卷积生成对抗网络)模型框架的训练任务,而指定任务可以是计算任务或其他模型框架的训练任务,等等。
示例性的,该目标时间段可以是该GPU集群中的各个节点当前正在处理的任务,处理完成之前的时间段。示例性的,可以周期性的预测该GPU集群的各个节点分别对应的指定任务的参考资源数据,此时该目标时间段可以是接收到待处理的目标任务的当前时间的下一周期的时间段。示例性的,该周期可以是五分钟、十分钟,等等。需要说明的是,该目标时间段可以由相关工作人员根据经验自行设定,本发明实施例对此并不限定。
示例性的,该参考资源数据可以是GPU资源的资源利用率,或者,资源使用量,等等。另外,预测该各个节点分别对应的指定任务的参考资源数据的方式可以存在多种,示例性的,可以利用该各个节点分别对应的指定任务,在该目标时间段之前的历史时间段的资源使用情况,预测该节点对应的指定任务的参考资源数据。需要说明的是,为了布局的清晰将在下文针对预测该各个节点分别对应的指定任务的参考资源数据的方式进行介绍,这里不再赘述。
S102,针对该各个节点中的每一节点,基于该节点对应的指定任务的参考资源数据,确定该节点在该目标时间段所对应的可分配资源,作为该节点对应的待利用资源;
可以理解的是,由于每一节点对应的指定任务的参考资源数据,为该节点上所配置的各个GPU芯片在目标时间段处理指定任务的资源利用情况,因此,为了合理调度GPU资源处理目标任务,可以先基于每一节点对应的指定任务的参考资源数据,确定各个节点在目标时间段所对应的可分配资源,该可分配资源即为目标时间段该节点的空闲GPU资源,并将该节点在该目标时间段所对应的可分配资源作为该节点对应的待利用资源,从而后续可以调用指定节点的该待利用资源对目标任务进行处理。
S103,基于各个节点分别对应的待利用资源,从该各个节点中选取符合该目标任务的资源需求的目标节点;
本实施例中,目标任务的资源需求为处理目标任务所需的GPU资源。可以理解的是,为了对目标任务进行处理,可以从各个节点中选取符合该目标任务处理所需的GPU资源的节点,作为目标节点,即目标节点的待利用资源不小于处理该目标任务所需的GPU资源,从而后续可以调用该目标节点的待利用资源完成对该目标任务的处理。
示例性的,从该各个节点中选取符合该目标任务的资源需求的目标节点的方式,可以是将任一满足该资源需求的节点确定为目标节点,或者,将该各个节点中满足该资源需求且所对应的待利用资源最多的节点,确定为目标节点,等等。
S104,调用该目标节点的待利用资源处理该目标任务。
本实施例中,在通过步骤S103选取出符合该目标任务的资源需求的目标节点后,即可调用该目标节点中的待利用资源处理该目标任务。可以理解的是,由于目标节点所配置的GPU芯片提供GPU资源,因此,当调用该目标节点的待利用资源处理该目标任务时,目标节点通过其上部署的一GPU芯片处理该目标任务。需要说明的是,由于GPU芯片往往设定有最大任务处理量,当利用该目标节点所配置的一GPU芯片处理目标任务时,还可以调整该芯片的最大任务处理量,以使得该芯片可以在处理当前所处理的任务的基础上,同时对该目标任务进行处理。
本发明实施例所提供的方案,响应于待处理的目标任务,预测该GPU集群的各个节点分别对应的指定任务的参考资源数据,该每一节点对应的参考资源数据为该节点当前处理的任务在目标时间段的资源使用情况,根据每一节点对应的指定任务的参考资源数据,即可确定该节点在目标时间段对应的待利用资源,从而可以从各个节点中,选取符合目标任务的资源需求的目标节点,然后调用该目标节点的待利用资源处理该目标任务,从而实现了GPU资源的动态调度。相较于现有技术中,任务通过静态分区的固定节点进行处理而言,本方案可以跨节点调度GPU资源,从而充分利用了GPU资源池中的GPU资源。可见,通过本方案,可以提升资源池的利用率。
可选的,在本发明的另一实施例中,在图1所示实施例的基础上,如图2所示,上述步骤S101中预测该GPU集群的各个节点分别对应的指定任务的参考资源数据,可以包括步骤S1011-S1012:
S1011,针对该GPU集群的各个节点中的每一节点,获取该节点对应的指定任务的历史资源数据;其中,任一指定任务对应的历史资源数据表征在该指定任务通过所对应的节点执行时,在该目标时间段之前的历史时间段的资源使用情况;
本实施例中,为了预测各个节点分别对应的指定任务的参考资源数据,针对每一节点,可以首先获取该节点对应的指定任务的历史资源数据,以通过对指定任务的历史资源数据分析,预测出该指定任务在目标时间段的资源使用情况。示例性的,可以对该节点所配置的各个芯片处理指定任务时所利用的GPU资源进行监测,从而获取该节点对应的指定任务的历史资源数据。示例性的,该历史资源数据可以是该指定任务在历史时间段被处理时,所对应的GPU资源的利用率,或者,GPU资源的使用量,等等。该历史时间段可以是该目标时间段之前的任一时间段,例如,该历史时间段可以是接收到待处理的目标任务的当前时间的前一周、前一月,或者,之前的周期等等。
S1012,利用该节点对应的指定任务的历史资源数据,预测该节点对应的指定任务的参考资源数据。
可以理解的是,由于针对每一节点而言,该节点利用其所配置的GPU芯片处理任务的过程具有规律性,因此,当通过步骤S1011获取到该节点对应的指定任务的历史资源数据后,可以利用该历史资源数据,预测该节点对应的指定任务的参考资源数据。
可选地,在一种实现方式中,该利用该节点对应的指定任务的历史资源数据,预测该节点对应的指定任务的参考资源数据,可以包括步骤A1-A2:
A1,确定目标芯片类型对应的资源预测模型,作为待利用资源预测模型;其中,该目标芯片类型为该节点所配置的用于处理所对应的指定任务的GPU芯片的芯片类型;每一芯片类型对应有一资源预测模型;其中,任一芯片类型对应的资源预测模型为利用指定样本任务的样本历史资源数据,以及该指定样本任务对应真值训练得到的,该指定样本任务为利用该芯片类型的GPU芯片所处理的样本任务,该样本历史资源数据为表征在样本历史时段的资源使用情况的数据,该指定样本任务对应的真值为表征在样本目标时间段的资源使用情况的数据,该样本目标时间段为该历史样本时段之后的时间段;
本实现方式中,由于每一芯片类型用于处理任务时所对应的资源使用情况不同,因此,可以针对不同的芯片类型,确定该芯片类型对应的资源预测模型,作为待利用的资源预测模型。每一芯片类型对应的资源预测模型,可以通过指定样本任务的样本历史资源数据和指定样本任务对应真值,对初始的资源预测模型训练得到。示例性的,该资源预测模型的训练过程可以是:将指定样本任务的样本历史资源数据输入该初始的资源预测模型,得到对应于该指定样本任务的预测结果;通过预设的损失函数,计算该指定样本任务对应的真值与预测结果之间的损失值,通过最小化损失值调整该初始的资源预测模型的参数,直到得到损失值达到预设要求资源预测模型。
另外,该初始的资源预测模型可以是神经网络模型,例如:卷积神经网络模型;或者,回归模型,例如SVR(Support Vector Regression,支持向量回归)模型,等等。需要说明的是,本发明实施例对该资源预测模型的具体类型并不限定。
A2,将该节点对应的指定任务的历史资源数据,输入该待利用资源预测模型,得到该节点对应的指定任务的参考资源数据。
可以理解的是,在通过步骤A1确定目标芯片类型对应的资源预测模型后,将该节点对应的指定任务的历史资源数据,输入该待利用资源预测模型,即可预测出该节点对应的指定任务的参考资源数据。需要说明的是,由于异构节点所配置的GPU芯片类型不止一个,指定任务通过节点中的一GPU芯片进行处理,因此,可以将指定任务中每一芯片所对应的处理任务的历史资源数据,输入该芯片类型对应的待利用资源预测模型,得到该芯片对应的处理任务的参考资源数据。该各个芯片所对应的处理任务的参考资源数据,即为该节点对应的指定任务的参考资源数据。
可见,通过本方案,通过利用GPU集群的各个节点分别对应的指定任务对应的历史资源数据,预测该各个节点分别对应的指定任务的参考资源数据,可以充分挖掘资源使用情况与时间的相关性,从而准确预测出该各个节点分别对应的指定任务的参考资源数据。
可选地,在本发明的另一实施例中,如图3所示,每一芯片类型对应的资源预测模型的训练方式,可以包括步骤S301-S304:
S301,确定训练样本;其中,每一训练样本为利用该芯片类型的GPU芯片所处理的样本任务的历史资源数据,每一训练样本具有指定标签,该指定标签为表征该样本任务在样本目标时间段的资源使用情况的数据;
本实施例中,针对每一芯片类型,训练样本为利用该芯片类型的GPU芯片所处理的样本任务的历史资源数据,每一训练样本具有指定标签,该指定标签表征该样本任务在样本目标时间段的资源使用情况的数据,即该样本任务在样本目标时间段的资源使用情况的真值。可以理解的是,由于每一芯片类型的芯片具有不同的处理能力,因此,任务在不同类型的芯片上处理时,所对应的资源使用情况不同。因此,为了合理的对各个GPU芯片所提供的GPU资源进行调度,可以为每一芯片类型训练对应的资源预测模型,从而训练出对应于不同芯片类型的资源预测模型。
S302,将该训练样本,输入待训练的资源预测模型,得到该训练样本对应的预测结果;
本实施例中,待训练的资源预测模型可以是回归模型、神经网络模型,等等。通过将该训练样本,输入待训练的资源预测模型,可以得到表征该训练样本在样本目标时间段的资源使用情况的数据的预测结果,从而后续可以根据该预测结果与相应真值之间的差异,对该资源预测模型进行训练。另外,需要说明的是,不同芯片类型对应的待训练的资源预测模型可以是相同的模型,但是由于不同芯片类型对应的训练样本不同,在模型训练结束后,会训练出针对不同芯片类型的各个资源预测模型。
S303,基于该预测结果,判断模型是否收敛;
可以理解的是,由于每一训练样本具有指定标签,且该指定标签表征该样本任务在样本目标时间段的资源使用情况的数据,因此,将各个训练样本输入待训练的活体检测模型,得到各个训练样本对应的预测结果,基于各个训练样本对应的预测结果与指定标签之间的差值,即可确定该模型的总损失值。从而,后续可以通过模型的总损失值判断该模型是否收敛。示例性的,可以通过判断该模型总损失值是否小于预设的损失阈值,判断该模型是否收敛,该预设的损失阈值可以是相关技术人员依据经验所设定的。示例性的,可以通过交叉熵损失函数,或者,欧式距离来计算每一训练样本对应的预测结果与指定标签之间的差值。需要说明的是,本发明实施例对该差值的计算方式并不限定。
S304,若收敛,训练结束,否则调整该资源预测模型的参数,并返回确定训练样本的步骤。
可以理解的是,若基于步骤S303判断出模型收敛,则可以结束训练,得到该芯片类型对应的资源预测模型。若模型未收敛,则调整该资源预测模型的参数,并返回确定训练样本的步骤,直到模型收敛结束训练。
可见,通过本方案,通过为每一芯片类型训练对应的资源预测模型,可以根据该芯片类型的芯片特性,训练出对应于该芯片类型的资源预测模型,从而后续可利用该各个芯片类型对应的资源预测模型,准确地预测出芯片上所处理的任务的参考资源数据。
可选地,在本发明的另一实施例中,每一节点对应的待利用资源,包括该节点所配置的各个GPU芯片对应的待利用资源;
相应地,在本实施例中,上述步骤S104中调用该目标节点的待利用资源处理该目标任务,可以包括:
调用该目标节点所配置的一GPU芯片对应的待利用资源,处理该目标任务。
可以理解的是,由于在节点异构的情况下,节点所配置的GPU芯片可以有多种类型,因此,在本实施例中,每一节点对应的待利用资源,包括该节点所配置的各个GPU芯片对应的待利用资源。示例性的,调用该目标节点所配置的一GPU芯片对应的待利用资源的方式可以是:随机调用该目标节点所配置的一GPU芯片对应的待利用资源,或者,调用该目标节点所配置的GPU芯片中,待利用资源最多的芯片对应的待利用资源,等等。需要说明的是,任一满足目标任务处理时所需的GPU资源需求的芯片的待利用资源,均可以用于处理该目标任务,本发明实施例对处理该目标任务的GPU芯片的确定方式并不限定。
可见,通过本方案,可以节点异构的情况下,根据各个GPU芯片对应的待利用资源将目标任务进行合理部署,从而可以在节点异构时充分利用资源池中的GPU资源、提高任务的处理效率。
为了更好的理解本发明实施例的内容,下面结合图4和图5对本发明实施例的一个具体的示例进行介绍。
图4展示了现有技术中针对节点异构特性的资源调度方法,包括如下步骤:
S401,对GPU集群中的异构GPU节点静态添加节点类型标签;
S402,对GPU集群的上层应用所产生的任务进行分类;
S403,测试新加入的任务在独占GPU集群中多个类型的异构GPU节点时运行所需的时间;
S404,确定异构GPU节点的性能差异;
S405,采用第二价格交易法交易异构GPU节点的性能差异,进行新加入的任务的部署。
由于现有技术中的资源调度方案,在节点被占用的情况下,新加入的应用会排队等待,使得任务的处理时间被延长,因此,为了提高无空闲节点的资源池的利用率,本方案通过构建高维非线性模型来对任务的资源使用情况进行预测,使得新的任务(对应于上文中的目标任务)在资源池中部署时,可以根据现有任务(对应于上文中的指定任务)在未来一段时间内(对应于上文中的目标时间段)的资源使用情况的预测值(对应于上文中的参考资源数据),部署到合适节点。
图5展示了本发明实施例的一个具体示例的流程图,包括如下步骤:
S501,对任务的资源使用情况进行监测;
对任务独占芯片情况下的任务完成过程的资源使用情况,按照时序切片进行监测,并对任务部署在不同的异构芯片上所对应的监测数据,根据时间进行统计。
S502,确定待训练的资源预测模型以及训练样本;
获取通过步骤S501所获取到的资源使用情况的监测数据,对各个样本任务进行统计,整理成多维度的数据矩阵。具体的,可结合应用访问日志,对各个应用请求序列进行时域变换,转换成处理该应用所产生的任务所需的GPU使用率和时间构成的数据矩阵:
{(x1,E1),(x2,E2),...(xm,Em)}
其中,m表示某一个时间节段内的监测数据的收集次数。E表示GPU芯片的当前使用率(对应于上文中的资源使用情况),x代表时间。基于拟合回归思想,生成SVR模型(对应于上文中的资源预测模型),总结归纳不同任务所对应的资源请求的变化特征。其中,SVR模型所对应的模型函数F(X)的公式如下:
F(X)=<ω,Φ(X)>+b
其中,ω和b是待训练的分离超平面的参数。X为上述数据矩阵所构成的输入数据,Φ(X)表征将输入数据X映射到高维空间的非线性映射,<ω,Φ(X)>表征ω和Φ(X)在高维空间中的点积运算。模型回归借助最小正则化风险函数(对应于上文中的损失函数):
Figure BDA0003709638510000141
其中,C为正则化常数,lε为不敏感的损失函数,i为1到m之间的正整数。模型的训练目标是找到最优的ω和b使得该风险函数的值最小。
S503,求解资源预测模型的模型参数;
为了降低到上述数据矩阵中的异常数据对模型函数F(X)影响,可以对上述的风险函数进行优化,根据上述步骤中的数据矩阵的偏差调节偏差区间,使所有输入数据可进行回归,在合理偏差区间内的函数表示如下:
Figure BDA0003709638510000142
其中,ε代表大于0的任意小的数,引入松弛变量ξi
Figure BDA0003709638510000143
修改正则化风险函数,得到优化后的风险函数的公式如下所示:
Figure BDA0003709638510000144
Figure BDA0003709638510000145
其中,C为正则化常数,s.t.为的数学符号“约束于”。引入松弛变量即可使得模型函数F(X)的损失值能够在∈+ξi
Figure BDA0003709638510000146
之间,由于上述优化过程具有很强的对偶性,通过引入拉格朗日乘子,可以将其求解为以下约束对偶优化问题:
Figure BDA0003709638510000147
其中,αi和ηi为非负的拉格朗日乘子,
Figure BDA0003709638510000148
Figure BDA0003709638510000149
为其对偶乘子,
Figure BDA00037096385100001410
为拉格朗日函数,用于求解对偶优化问题。
分别对参数ω、b、ξi
Figure BDA00037096385100001411
求偏导数,并令偏导数为0,并借助KKT(Karush KuhnTucker,最优化)条件,得到最终模型:
Figure BDA0003709638510000151
S504,引入高斯核函数对资源预测模型进行模型改善:
Figure BDA0003709638510000152
其中,δ是高斯核函数的内核宽度参数,需要进一步优化步骤S503中的预设参数C和δ,获取资源池利用率最高时的预设参数值。通过使用核技巧来减少计算量获取最佳模型,改善了模型精确度。
S505,借助训练完成的资源预测模型,预测指定样本任务在未来时间段内的资源使用情况,并根据预测结果对新的任务进行部署;
根据预测结果,将新的任务部署到合适的节点中,利用该节点上的GPU芯片所提供的GPU资源,处理该任务。部署原则为根据各个节点的GPU资源占用互补情况来进行相关节点的交叉部署。每次有新的任务用进入任务部署队列时,通过调整.theanorc文件中的cnmem模块来调整一块GPU芯片上可满足的程序运行数,实现对资源部署的动态调整,任务优先部署在GPU资源满足的情况下所剩GPU资源最匹配的节点上。
可见,通过本方案,针对节点的异构特性,提出了对任务进行特性分类混合部署使运行时间最短的方法。通过对任务的资源使用情况进行预测,多任务搭配部署,一张GPU芯片上同时运行多个程序的方案,缩短了任务等待时间,与资源池中任务整体运行时间。当新的任务在资源池部署时,本方案可以在一段时间内对GPU资源的使用情况进行预测,并将该新的任务部署到合适节点。此外,本方案还提升了资源池对任务的扩展性,可以将各GPU资源解耦分离、并行调度。在集群环境复杂、异构化严重时,更能充分利用集群的GPU资源、提高任务的执行效率。并且,借助拟合回归思想,生成资源预测模型,借助预测结果进行任务的部署,发挥了异构资源池的并发性能,使得多个任务可以高效共享异构资源池资源。
相应上述方法的实施例,本发明实施例还提供了一种资源调度装置,如图6所示,应用于图形处理器GPU集群下的主控节点,所述装置包括:
预测模块610,用于响应于接收到待处理的目标任务,预测所述GPU集群的各个节点分别对应的指定任务的参考资源数据;其中,每一节点对应的指定任务为该节点当前正在处理的任务;任一指定任务的参考资源数据为用于表征该指定任务通过所对应的节点执行时,在目标时间段的资源使用情况;
确定模块620,用于针对所述各个节点中的每一节点,基于该节点对应的指定任务的参考资源数据,确定该节点在所述目标时间段所对应的可分配资源,作为该节点对应的待利用资源;
选取模块630,用于基于各个节点分别对应的待利用资源,从所述各个节点中选取符合所述目标任务的资源需求的目标节点;
调用模块640,用于调用所述目标节点的待利用资源处理所述目标任务。
可选地,所述预测模块,包括:
获取子模块,用于针对所述GPU集群的各个节点中的每一节点,获取该节点对应的指定任务的历史资源数据;其中,任一指定任务对应的历史资源数据表征在该指定任务通过所对应的节点执行时,在所述目标时间段之前的历史时间段的资源使用情况;
预测子模块,用于利用该节点对应的指定任务的历史资源数据,预测该节点对应的指定任务的参考资源数据。
可选地,所述预测子模块,具体用于:
确定目标芯片类型对应的资源预测模型,作为待利用资源预测模型;其中,所述目标芯片类型为该节点所配置的用于处理所对应的指定任务的GPU芯片的芯片类型;每一芯片类型对应有一资源预测模型;其中,任一芯片类型对应的资源预测模型为利用指定样本任务的样本历史资源数据,以及所述指定样本任务对应真值训练得到的,所述指定样本任务为利用该芯片类型的GPU芯片所处理的样本任务,所述样本历史资源数据为表征在样本历史时段的资源使用情况的数据,所述指定样本任务对应的真值为表征在样本目标时间段的资源使用情况的数据,所述样本目标时间段为所述历史样本时段之后的时间段;
将该节点对应的指定任务的历史资源数据,输入所述待利用资源预测模型,得到该节点对应的指定任务的参考资源数据。
可选地,每一芯片类型对应的资源预测模型的训练方式,包括:
确定训练样本;其中,每一训练样本为利用该芯片类型的GPU芯片所处理的样本任务的历史资源数据,所述每一训练样本具有指定标签,所述指定标签为表征该样本任务在样本目标时间段的资源使用情况的数据;
将所述训练样本,输入待训练的资源预测模型,得到所述训练样本对应的预测结果;
基于所述预测结果,判断模型是否收敛;
若收敛,训练结束,否则调整所述资源预测模型的参数,并返回确定训练样本的步骤。
可选地,每一节点对应的待利用资源,包括该节点所配置的各个GPU芯片对应的待利用资源;
所述调用模块,具体用于:
调用所述目标节点所配置的一GPU芯片对应的待利用资源,处理所述目标任务。
本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
存储器703,用于存放计算机程序;
处理器701,用于执行存储器703上所存放的程序时,实现上述实施例中任一资源调度方法的步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一资源调度方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一资源调度方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (12)

1.一种资源调度方法,其特征在于,应用于图形处理器GPU集群下的主控节点,所述方法包括:
响应于接收到待处理的目标任务,预测所述GPU集群的各个节点分别对应的指定任务的参考资源数据;其中,每一节点对应的指定任务为该节点当前正在处理的任务;任一指定任务的参考资源数据为用于表征该指定任务通过所对应的节点执行时,在目标时间段的资源使用情况;
针对所述各个节点中的每一节点,基于该节点对应的指定任务的参考资源数据,确定该节点在所述目标时间段所对应的可分配资源,作为该节点对应的待利用资源;
基于各个节点分别对应的待利用资源,从所述各个节点中选取符合所述目标任务的资源需求的目标节点;
调用所述目标节点的待利用资源处理所述目标任务。
2.根据权利要求1所述的方法,其特征在于,所述预测所述GPU集群中的各个节点分别对应的指定任务的参考资源数据,包括:
针对所述GPU集群的各个节点中的每一节点,获取该节点对应的指定任务的历史资源数据;其中,任一指定任务对应的历史资源数据表征在该指定任务通过所对应的节点执行时,在所述目标时间段之前的历史时间段的资源使用情况;
利用该节点对应的指定任务的历史资源数据,预测该节点对应的指定任务的参考资源数据。
3.根据权利要求2所述的方法,其特征在于,所述利用该节点对应的指定任务的历史资源数据,预测该节点对应的指定任务的参考资源数据,包括:
确定目标芯片类型对应的资源预测模型,作为待利用资源预测模型;其中,所述目标芯片类型为该节点所配置的用于处理所对应的指定任务的GPU芯片的芯片类型;每一芯片类型对应有一资源预测模型;其中,任一芯片类型对应的资源预测模型为利用指定样本任务的样本历史资源数据,以及所述指定样本任务对应真值训练得到的,所述指定样本任务为利用该芯片类型的GPU芯片所处理的样本任务,所述样本历史资源数据为表征在样本历史时段的资源使用情况的数据,所述指定样本任务对应的真值为表征在样本目标时间段的资源使用情况的数据,所述样本目标时间段为所述历史样本时段之后的时间段;
将该节点对应的指定任务的历史资源数据,输入所述待利用资源预测模型,得到该节点对应的指定任务的参考资源数据。
4.根据权利要求3所述的方法,其特征在于,每一芯片类型对应的资源预测模型的训练方式,包括:
确定训练样本;其中,每一训练样本为利用该芯片类型的GPU芯片所处理的样本任务的历史资源数据,所述每一训练样本具有指定标签,所述指定标签为表征该样本任务在样本目标时间段的资源使用情况的数据;
将所述训练样本,输入待训练的资源预测模型,得到所述训练样本对应的预测结果;
基于所述预测结果,判断模型是否收敛;
若收敛,训练结束,否则调整所述资源预测模型的参数,并返回确定训练样本的步骤。
5.根据权利要求1所述的方法,其特征在于,每一节点对应的待利用资源,包括该节点所配置的各个GPU芯片对应的待利用资源;
所述调用所述目标节点的待利用资源处理所述目标任务,包括:
调用所述目标节点所配置的一GPU芯片对应的待利用资源,处理所述目标任务。
6.一种资源调度装置,其特征在于,应用于图形处理器GPU集群下的主控节点,所述装置包括:
预测模块,用于响应于接收到待处理的目标任务,预测所述GPU集群的各个节点分别对应的指定任务的参考资源数据;其中,每一节点对应的指定任务为该节点当前正在处理的任务;任一指定任务的参考资源数据为用于表征该指定任务通过所对应的节点执行时,在目标时间段的资源使用情况;
确定模块,用于针对所述各个节点中的每一节点,基于该节点对应的指定任务的参考资源数据,确定该节点在所述目标时间段所对应的可分配资源,作为该节点对应的待利用资源;
选取模块,用于基于各个节点分别对应的待利用资源,从所述各个节点中选取符合所述目标任务的资源需求的目标节点;
调用模块,用于调用所述目标节点的待利用资源处理所述目标任务。
7.根据权利要求6所述的装置,其特征在于,所述预测模块,包括:
获取子模块,用于针对所述GPU集群的各个节点中的每一节点,获取该节点对应的指定任务的历史资源数据;其中,任一指定任务对应的历史资源数据表征在该指定任务通过所对应的节点执行时,在所述目标时间段之前的历史时间段的资源使用情况;
预测子模块,用于利用该节点对应的指定任务的历史资源数据,预测该节点对应的指定任务的参考资源数据。
8.根据权利要求7所述的装置,其特征在于,所述预测子模块,具体用于:
确定目标芯片类型对应的资源预测模型,作为待利用资源预测模型;其中,所述目标芯片类型为该节点所配置的用于处理所对应的指定任务的GPU芯片的芯片类型;每一芯片类型对应有一资源预测模型;其中,任一芯片类型对应的资源预测模型为利用指定样本任务的样本历史资源数据,以及所述指定样本任务对应真值训练得到的,所述指定样本任务为利用该芯片类型的GPU芯片所处理的样本任务,所述样本历史资源数据为表征在样本历史时段的资源使用情况的数据,所述指定样本任务对应的真值为表征在样本目标时间段的资源使用情况的数据,所述样本目标时间段为所述历史样本时段之后的时间段;
将该节点对应的指定任务的历史资源数据,输入所述待利用资源预测模型,得到该节点对应的指定任务的参考资源数据。
9.根据权利要求8所述的装置,其特征在于,每一芯片类型对应的资源预测模型的训练方式,包括:
确定训练样本;其中,每一训练样本为利用该芯片类型的GPU芯片所处理的样本任务的历史资源数据,所述每一训练样本具有指定标签,所述指定标签为表征该样本任务在样本目标时间段的资源使用情况的数据;
将所述训练样本,输入待训练的资源预测模型,得到所述训练样本对应的预测结果;
基于所述预测结果,判断模型是否收敛;
若收敛,训练结束,否则调整所述资源预测模型的参数,并返回确定训练样本的步骤。
10.根据权利要求6所述的装置,其特征在于,每一节点对应的待利用资源,包括该节点所配置的各个GPU芯片对应的待利用资源;
所述调用模块,具体用于:
调用所述目标节点所配置的一GPU芯片对应的待利用资源,处理所述目标任务。
11.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-5任一所述的方法步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-5任一所述的方法步骤。
CN202210716412.XA 2022-06-23 2022-06-23 一种资源调度方法、装置、设备以及存储介质 Pending CN115098257A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210716412.XA CN115098257A (zh) 2022-06-23 2022-06-23 一种资源调度方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210716412.XA CN115098257A (zh) 2022-06-23 2022-06-23 一种资源调度方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN115098257A true CN115098257A (zh) 2022-09-23

Family

ID=83292924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210716412.XA Pending CN115098257A (zh) 2022-06-23 2022-06-23 一种资源调度方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN115098257A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357401A (zh) * 2022-10-18 2022-11-18 苏州市中地行信息技术有限公司 一种基于多数据中心的任务调度与可视化方法和系统
CN116244159A (zh) * 2023-05-08 2023-06-09 浪潮电子信息产业股份有限公司 一种训练时长预测方法、装置、多元异构计算设备及介质
WO2024125251A1 (zh) * 2022-12-16 2024-06-20 华为技术有限公司 资源分配的方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115357401A (zh) * 2022-10-18 2022-11-18 苏州市中地行信息技术有限公司 一种基于多数据中心的任务调度与可视化方法和系统
CN115357401B (zh) * 2022-10-18 2023-03-24 苏州市中地行信息技术有限公司 一种基于多数据中心的任务调度与可视化方法和系统
WO2024125251A1 (zh) * 2022-12-16 2024-06-20 华为技术有限公司 资源分配的方法及装置
CN116244159A (zh) * 2023-05-08 2023-06-09 浪潮电子信息产业股份有限公司 一种训练时长预测方法、装置、多元异构计算设备及介质
CN116244159B (zh) * 2023-05-08 2023-08-11 浪潮电子信息产业股份有限公司 一种训练时长预测方法、装置、多元异构计算设备及介质

Similar Documents

Publication Publication Date Title
CN111104222B (zh) 任务处理方法、装置、计算机设备和存储介质
US10789544B2 (en) Batching inputs to a machine learning model
US11526799B2 (en) Identification and application of hyperparameters for machine learning
CN115098257A (zh) 一种资源调度方法、装置、设备以及存储介质
CN108173905B (zh) 一种资源配置方法、装置及电子设备
US10067746B1 (en) Approximate random number generator by empirical cumulative distribution function
US11228489B2 (en) System and methods for auto-tuning big data workloads on cloud platforms
US20140189702A1 (en) System and method for automatic model identification and creation with high scalability
CN108205469B (zh) 一种基于MapReduce的资源分配方法及服务器
CN115543577B (zh) 基于协变量的Kubernetes资源调度优化方法、存储介质及设备
CN111752706B (zh) 资源配置方法、装置及存储介质
Liu et al. CORP: Cooperative opportunistic resource provisioning for short-lived jobs in cloud systems
Georgiou et al. Topology-aware job mapping
CN111209111B (zh) 基于区块链系统的资源分配方法、装置、设备和存储介质
CN1783121A (zh) 用于执行设计自动化的方法和系统
CN112328395A (zh) 一种云资源容量规划方法和系统
Su et al. Towards optimal decomposition of Boolean networks
CN113378498A (zh) 一种任务分配方法及装置
CN112540844A (zh) 集群内容器调度方法、装置、存储介质和电子设备
Ayyalasomayajula et al. Proactive Scaling Strategies for Cost-Efficient Hyperparameter Optimization in Cloud-Based Machine Learning Models: A Comprehensive Review
US20230177425A1 (en) System and method for resource allocation optimization for task execution
CN113704687B (zh) 一种张量计算运行方法、装置及运算系统
CN112217585B (zh) 信号路径的确定方法、装置、计算机设备和存储介质
Allaqband et al. An efficient machine learning based CPU scheduler for heterogeneous multicore processors
US20110307475A1 (en) Techniques to find percentiles in a distributed computing environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination