CN109634748A - 集群资源调度方法、装置、设备及计算机可读存储介质 - Google Patents

集群资源调度方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109634748A
CN109634748A CN201811523749.9A CN201811523749A CN109634748A CN 109634748 A CN109634748 A CN 109634748A CN 201811523749 A CN201811523749 A CN 201811523749A CN 109634748 A CN109634748 A CN 109634748A
Authority
CN
China
Prior art keywords
cluster resource
task
task execution
gpu
video card
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811523749.9A
Other languages
English (en)
Inventor
周可
邸帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201811523749.9A priority Critical patent/CN109634748A/zh
Publication of CN109634748A publication Critical patent/CN109634748A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种集群资源调度方法,包括:获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务;获取所述待执行的模型训练任务所属任务执行队列的图形处理器GPU显卡类型标签,并获取所述待执行的模型训练任务的集群资源需求信息;依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源。本发明还公开了一种集群资源调度装置、设备及计算机可读存储介质。本发明能够提高GPU集群资源的利用率。

Description

集群资源调度方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及资源调度的技术领域,尤其涉及一种集群资源调度方法、装置、设备及计算机可读存储介质。
背景技术
随着机器学习的快速发展,机器学习被广泛应用于各个领域,机器学习需要训练模型,而模型的训练需要使用计算资源,目前,各大主流的机器学习或深度学习平台主要通过混合搭建集群的方式,为模型的训练的提供计算资源,该计算资源包括内存、CPU(Central Processing Unit,中央处理器)和GPU(Graphics Processing Unit,图形处理器)。
然而,搭建的混合集群包含不同GPU显卡类型的机器,不同GPU显卡类型的计算能力存在差异,Tesla P40显卡和Tesla M40显卡的计算资源相差1.7倍左右,同时不同的模型训练任务需要的计算资源不同,而现有的资源平均分配方式,在分配计算资源时,存在模型训练任务需要的计算资源较少,而分配一块超出计算资源需求的GPU显卡的问题,造成资源浪费,资源的利用率不高,而其他GPU显卡资源不足导致阻塞。
因此,如何提高GPU集群资源的利用率是目前亟待解决的问题。
发明内容
本发明的主要目的在于提供一种集群资源调度方法、装置、设备及计算机可读存储介质,旨在提高GPU集群资源的利用率。
为实现上述目的,本发明提供一种集群资源调度方法,所述集群资源调度方法包括以下步骤:
获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务;
获取所述待执行的模型训练任务所属任务执行队列的图形处理器GPU显卡类型标签,并获取所述待执行的模型训练任务的集群资源需求信息;
依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源。
进一步地,所述获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务的步骤之前,还包括:
当监测到任务提交请求时,从所述任务提交请求中获取集群资源需求信息和第一GPU显卡类型标签,并存储所述集群资源需求信息;
依据所述第一GPU显卡类型标签,将所述任务提交请求中的模型训练任务插入至所述任务执行队列组中的对应任务执行队列,以更新所述任务执行队列组。
进一步地,依据所述第一GPU显卡类型标签,将所述任务提交请求中的模型训练任务插入至所述任务执行队列组中的对应任务执行队列,以更新所述任务执行队列组的步骤包括:
获取所述任务执行队列组中各任务执行队列的第二GPU显卡类型标签;
将各任务执行队列的第二GPU显卡类型标签与所述第一GPU显卡类型标签进行匹配;
获取与所述第一GPU显卡类型标签匹配的第二GPU显卡类型标签,并将匹配到的所述第二GPU显卡类型标签所属的任务执行队列,确定为目标任务执行队列;
将所述任务提交请求中的模型训练任务插入至所述目标任务执行队列。
进一步地,依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源的步骤包括:
生成携带有所述GPU显卡类型标签和所述集群资源需求信息的集群资源申请请求,并将所述集群资源申请请求发送至GPU集群资源管理中心;
接收所述GPU集群资源管理中心基于所述集群资源申请请求中的GPU显卡类型标签和集群资源需求信息返回的集群资源申请结果。
进一步地,依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源的步骤之后,还包括:
当接收到所述GPU集群资源管理中心返回的集群资源申请结果时,判断所述集群资源申请结果是否为预设申请结果;
若所述集群资源申请结果为预设申请结果,则向作业控制中心发送对应的任务执行请求,以供所述作业控制中心基于所述任务执行请求,执行对应的模型训练任务。
进一步地,所述向作业控制中心发送对应的任务执行请求,以供所述作业控制中心基于所述任务执行请求,执行对应的模型训练任务的步骤包括:
向作业控制中心发送对应的任务执行请求,以供所述作业控制中心从所述任务执行请求中获取GPU显卡类型标签、集群资源需求信息和模型训练任务,并依据所述GPU显卡类型标签和所述集群资源需求信息创建容器组;通过所述容器组执行所述模型训练任务,以训练对应的模型。
此外,为实现上述目的,本发明还提供一种集群资源调度装置,所述集群资源调度装置包括:
任务确定模块,用于获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务;
获取模块,用于获取所述待执行的模型训练任务所属任务执行队列的图形处理器GPU显卡类型标签,并获取所述待执行的模型训练任务的集群资源需求信息;
资源请求模块,用于依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源。
此外,为实现上述目的,本发明还提供一种集群资源调度设备,所述集群资源调度设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的集群资源调度程序,所述集群资源调度程序被所述处理器执行时实现如上所述的集群资源调度方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有集群资源调度程序,所述集群资源调度程序被处理器执行时实现如上所述的集群资源调度方法的步骤。
本发明提供一种集群资源调度方法、装置、设备及计算机可读存储介质,本发明获取任务执行队列组和预设的任务执行策略,并依据该任务执行策略,从该任务执行队列组中获取待执行的模型训练任务,然后获取该待执行的模型训练任务所属任务执行队列的GPU显卡类型标签,并获取该待执行的模型训练任务的集群资源需求信息,最后依据该GPU显卡类型标签和该集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源,通过预设的任务执行策略可以获取待执行的模型训练任务,并基于待执行的模型训练任务的集群资源需求信息和其所属任务执行队列的GPU显卡类型标签,可以向GPU集群资源管理中心请求与GPU显卡类型标签和集群资源需求信息对应的集群资源,实现了不同的GPU显卡类型标签和集群资源需求信息,可以请求不同的集群资源,而不是所有GPU显卡均分资源,导致资源分配不合理,造成利用率不高。本发明有效的提高GPU集群资源的利用率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明集群资源调度方法第一实施例的流程示意图;
图3为本发明集群资源调度装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例集群资源调度设备可以是PC,也可以是智能手机、平板电脑、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该集群资源调度设备可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的集群资源调度设备结构并不构成对集群资源调度设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及集群资源调度程序。
在图1所示的集群资源调度设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的集群资源调度程序,并执行以下步骤:
获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务;
获取所述待执行的模型训练任务所属任务执行队列的图形处理器GPU显卡类型标签,并获取所述待执行的模型训练任务的集群资源需求信息;
依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源。
进一步地,处理器1001可以用于调用存储器1005中存储的集群资源调度程序,还执行以下步骤:
当监测到任务提交请求时,从所述任务提交请求中获取集群资源需求信息和第一GPU显卡类型标签,并存储所述集群资源需求信息;
依据所述第一GPU显卡类型标签,将所述任务提交请求中的模型训练任务插入至所述任务执行队列组中的对应任务执行队列,以更新所述任务执行队列组。
进一步地,处理器1001可以用于调用存储器1005中存储的集群资源调度程序,还执行以下步骤:
获取所述任务执行队列组中各任务执行队列的第二GPU显卡类型标签;
将各任务执行队列的第二GPU显卡类型标签与所述第一GPU显卡类型标签进行匹配;
获取与所述第一GPU显卡类型标签匹配的第二GPU显卡类型标签,并将匹配到的所述第二GPU显卡类型标签所属的任务执行队列,确定为目标任务执行队列;
将所述任务提交请求中的模型训练任务插入至所述目标任务执行队列。
进一步地,处理器1001可以用于调用存储器1005中存储的集群资源调度程序,还执行以下步骤:
生成携带有所述GPU显卡类型标签和所述集群资源需求信息的集群资源申请请求,并将所述集群资源申请请求发送至GPU集群资源管理中心;
接收所述GPU集群资源管理中心基于所述集群资源申请请求中的GPU显卡类型标签和集群资源需求信息返回的集群资源申请结果。
进一步地,处理器1001可以用于调用存储器1005中存储的集群资源调度程序,还执行以下步骤:
当接收到所述GPU集群资源管理中心返回的集群资源申请结果时,判断所述集群资源申请结果是否为预设申请结果;
若所述集群资源申请结果为预设申请结果,则向作业控制中心发送对应的任务执行请求,以供所述作业控制中心基于所述任务执行请求,执行对应的模型训练任务。
进一步地,处理器1001可以用于调用存储器1005中存储的集群资源调度程序,还执行以下步骤:
向作业控制中心发送对应的任务执行请求,以供所述作业控制中心从所述任务执行请求中获取GPU显卡类型标签、集群资源需求信息和模型训练任务,并依据所述GPU显卡类型标签和所述集群资源需求信息创建容器组;通过所述容器组执行所述模型训练任务,以训练对应的模型。
其中,本发明集群资源调度设备的具体实施例与下述集群资源调度方法的各具体实施例基本相同,在此不作赘述。
本发明提供一种集群资源调度方法。
参照图2,图2为本发明集群资源调度方法第一实施例的流程示意图。
本实施例中,该集群资源调度方法包括:
步骤S101,获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务;
本实施例中,该集群资源调度方法应用于集群资源调度设备,该集群资源调度设备可以分别与任务提交设备、GPU(Central Processing Unit,图形处理器)集群资源管理中心和作业控制中心进行数据交互,其中,该任务提交设备用于将用户基于前端设备发送的任务提交请求转发给集群资源调度设备,该GPU集群资源管理中心用于管理GPU集群资源,GPU集群中包含不同GPU显卡类型的服务器,该集群资源调度设备为每种GPU显卡类型建立任务执行队列,从而得到任务执行队列组,该作业控制中心用于执行模型训练任务。
该集群资源调度设备获取预设的任务执行策略和任务执行队列组(每种GPU显卡类型的任务执行队列,每个任务执行队列标记有GPU显卡类型标签),并依据该任务执行策略,从该任务执行队列组中获取待执行的模型训练任务。其中,预设的任务执行策略包括但不限于FIFO(First In-First Out,先入先出)、LRU(Least Recently Used,最近最少使用)和任务优先级,可由本领域技术人员基于实际情况进行设置,本实施例对此不作具体限定。
具体地,当预设的任务执行策略仅为FIFO时,该集群资源调度设备获取任务执行队列组中的每个任务执行队列,并获取每个任务执行队列中各模型训练任务的当前状态,然后获取每个任务执行队列中当前状态为等待状态的各模型训练任务,并获取当前状态为等待状态的各模型训练任务的队列顺序,最后按照先入先出的任务执行策略和当前状态为等待状态的各模型训练任务的队列顺序,确定每个任务执行队列中的待执行的模型训练任务,具体的,将先进入任务执行队列的模型训练任务作为待执行的模型训练任务。
例如,任务执行队列组包括三个任务执行队列,且对应的GPU显卡类型标签分别为GPU-TYPE1、GPU-TYPE2和GPU-TYPE3,任务执行队列GPU-TYPE1包含四个模型训练任务,即TJ-1、TJ-2、TJ-3和TJ-4,且队列顺序为[TJ-4TJ-1TJ-2TJ-3];任务执行队列GPU-TYPE2包含三个模型训练任务,即TJ-5、TJ-6和TJ-7,且队列顺序为[TJ-5TJ-6TJ-7];任务执行队列GPU-TYPE3包含两个模型训练任务,即TJ-8和TJ-9,且队列顺序为[TJ-8TJ-9];其中,TJ-1、TJ-2、TJ-3、TJ-4、TJ-5、TJ-6、TJ-7、TJ-8和TJ-9的当前状态均为等待状态,则通过先入先出的队列执行策略,可以得到任务执行队列GPU-TYPE1的待执行的模型训练任务为TJ-4,任务执行队列GPU-TYPE2的待执行的模型训练任务为TJ-5,任务执行队列GPU-TYPE3的待执行的模型训练任务为TJ-8。
具体地,当预设的任务执行策略为FIFO和任务优先级时,该集群资源调度设备获取任务执行队列组中的每个任务执行队列,并获取每个任务执行队列中各模型训练任务的当前状态,然后获取每个任务执行队列中当前状态为等待状态的各模型训练任务,并获取当前状态为等待状态的各模型训练任务的队列顺序,最后按照先入先出和任务优先级的任务执行策略和当前状态为等待状态的各模型训练任务的队列顺序,确定每个任务执行队列中的待执行的模型训练任务,具体地:判断每个任务执行队列中是否存在预设优先级(可选为最高优先级或用户设定的优先级)的模型训练任务,如果存在,则将预设优先级的模型训练任务确定为对应任务执行队列的待执行模型训练任务,如果不存在,则按照先入先出的任务执行策略,确定任务执行队列的待执行模型训练任务。
步骤S102,获取所述待执行的模型训练任务所属任务执行队列的图形处理器GPU显卡类型标签,并获取所述待执行的模型训练任务的集群资源需求信息;
本实施例中,在获取到待执行的模型训练任务之后,该集群资源调度设备获取待执行的模型训练任务所属任务执行队列的图形处理器GPU显卡类型标签,并获取待执行的模型训练任务的集群资源需求信息,即获取待执行的模型训练任务的编号,并查询存储的集群资源需求信息表,获取与该编号对应的集群资源需求信息。其中,该集群资源需求信息中记录了待执行的模型训练任务所需的集群资源,包括GPU显卡类型、GPU大小、CPU核数、内存大小和磁盘大小等。
步骤S103,依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源。
本实施例中,在获取到GPU显卡类型标签和集群资源需求信息之后,该集群资源调度设备依据该GPU显卡类型标签和该集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源。具体地,该集群资源调度设备生成携带有该GPU显卡类型标签和该集群资源需求信息的集群资源申请请求,并将该集群资源申请请求发送至GPU集群资源管理中心,该GPU集群资源管理中心接收集群资源调度设备发送的集群资源申请请求,并从该集群资源申请请求中获取GPU显卡类型标签和集群资源需求信息,然后依据该GPU显卡类型标签,查询GPU集群中对应的GPU服务器的可用集群资源,并基于该集群资源需求信息确定待执行的模型训练任务所需的集群资源,且判断可用集群资源是否大于或等于所需的集群资源,如果可用集群资源大于或等于所需的集群资源,则集群资源申请结果为集群资源申请成功,如果可用集群资源小于所需的集群资源,则集群资源申请结果为集群资源申请失败,最后将集群资源申请结果返回给集群资源调度设备,该集群资源调度设备接收该GPU集群资源管理中心基于集群资源申请请求中的GPU显卡类型标签和集群资源需求信息返回的集群资源申请结果。
本实施例中,本发明获取任务执行队列组和预设的任务执行策略,并依据该任务执行策略,从该任务执行队列组中获取待执行的模型训练任务,然后获取该待执行的模型训练任务所属任务执行队列的GPU显卡类型标签,并获取该待执行的模型训练任务的集群资源需求信息,最后依据该GPU显卡类型标签和该集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源,通过预设的任务执行策略可以获取待执行的模型训练任务,并基于待执行的模型训练任务的集群资源需求信息和其所属任务执行队列的GPU显卡类型标签,可以向GPU集群资源管理中心请求与GPU显卡类型标签和集群资源需求信息对应的集群资源,实现了不同的GPU显卡类型标签和集群资源需求信息,可以请求不同的集群资源,而不是所有GPU显卡均分资源,导致资源分配不合理,造成利用率不高。本发明有效的提高GPU集群资源的利用率。
进一步地,基于上述第一实施例,提出了本发明集群资源调度方法的第二实施例,与前述实施例的区别在于,用户可提交模型训练任务至集群资源调度设备中,具体为:用户通过前端设备配置模型训练任务的GPU显卡类型标签、所需的集群资源、数据读写路径和任务执行命令,从而生成模型训练任务的任务配置文件,并基于所述任务配置文件发起任务提交请求,且通过前端设备向任务提交设备发送任务提交请求;该任务提交设备在接收到前端设备发送的任务提交请求时,对该任务提交请求进行鉴权校验(包括BasicAuthentication和OAuth 2等API校验方式),并在任务提交请求通过鉴权校验时,将该任务提交请求发送至集群资源调度设备。
该集群资源调度设备监测到任务提交请求时,从该任务提交请求中获取集群资源需求信息和第一GPU显卡类型标签,并存储该集群资源需求信息,然后依据该第一GPU显卡类型标签,将该任务提交请求中的模型训练任务插入至该任务执行队列组中的对应任务执行队列,并将状态设置为等待状态,再通过更新对应的任务执行队列以更新任务执行队列组。具体地,获取该任务执行队列组中各任务执行队列的第二GPU显卡类型标签,并将各任务执行队列的第二GPU显卡类型标签与第一GPU显卡类型标签进行匹配,然后获取与第一GPU显卡类型标签匹配的第二GPU显卡类型标签,并将匹配到的第二GPU显卡类型标签所属的任务执行队列,确定为目标任务执行队列,且将该任务提交请求中的模型训练任务插入至目标任务执行队列。
具体实施中,该GPU集群资源管理中心给每个申请集群资源的GPU显卡服务器设置一个集群资源空间,该集群资源空间用于隔离各GPU显卡服务器之间的集群资源,且不能抢占,该集群资源空间设置有可以使用的内存(单位:MB)、CPU(单位:vcore)以及每种类型GPU(单位:块)的最小资源数和最大资源数;当集群资源空间内的集群资源全部被占用,该集群资源空间的所属模型训练任务阻塞,当集群资源空间中有空闲的集群资源,且空闲的集群资源满足所属模型训练任务的集群资源需求时,执行所属模型训练任务。当GPU集群中新加入机器时,首先在该机器上部署Agent用来与GPU集群资源管理中心进行通信,然后按照用户的资源预算需求,将新的资源分配给GPU集群资源管理中心管理的各个集群资源空间,以动态的调整该GPU显卡服务器的集群资源空间。
本实施例中,本发明当监测到任务提交请求时,将任务提交请求中的模型训练任务,插入对应的任务执行队列中,便于后续向GPU集群资源管理中心请求对应的集群资源。
进一步地,基于上述第一或第二实施例,提出了本发明集群资源调度方法的第三实施例,与前述实施例的区别在于,当接收到GPU集群资源管理中心返回的集群资源申请结果时,该集群资源调度设备判断该集群资源申请结果是否为预设申请结果,如果该集群资源申请结果为预设申请结果,则向作业控制中心发送对应的任务执行请求,以供该作业控制中心基于该任务执行请求,执行对应的模型训练任务。该预设申请结果为集群资源申请成功。
具体地,该作业控制中心接收到该集群资源调度设备发送的任务执行请求时,从该任务执行请求中获取GPU显卡类型标签和模型训练任务,并依据该GPU显卡类型标签和该集群资源需求信息创建容器组,且通过该容器组执行该模型训练任务,以训练对应的模型。其中,该容器组不仅包含计算容器、还包括参数服务容器和日志收集容器,该计算容器负责模型训练的计算部分(该计算容器获取配置的样本数据和模型训练脚本的存储路径,并基于该存储路径获取对应的样本数据和模型训练脚本,然后运行该模型训练脚本,基于该样本数据,迭代模型参数,并将迭代后的模型参数更新到参数服务容器),占用主要的计算资源,该参数服务容器负责模型参数共享,计算容器每次迭代之后将模型参数更新到参数服务容器,该日志收集容器负责容器组的日志收集,将日志数据上报到日志收集容器,由日志收集容器上报到日志平台。当模型训练完成或者计算失败之后,该作业控制中心清理对应的容器组,并释放容器组占用的集群资源。
本实施例中,本发明能够在待执行的模型训练任务所需的集群资源申请成功后,将待执行的模型训练任务发送至作业控制中心,由作业控制中心自动的基于所需的集群资源创建容器组,并通过该容器组执行模型训练任务,可以实现模型训练任务的自动执行,极大的提高模型训练效率。
本发明还提供一种集群资源调度装置。
参照图3,图3为本发明集群资源调度装置第一实施例的功能模块示意图。
本实施例中,该集群资源调度装置包括:
任务确定模块101,用于获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务;
获取模块102,用于获取所述待执行的模型训练任务所属任务执行队列的图形处理器GPU显卡类型标签,并获取所述待执行的模型训练任务的集群资源需求信息;
资源请求模块103,用于依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源。
进一步地,所述集群资源调度装置还包括:
所述获取模块,还用于当监测到任务提交请求时,从所述任务提交请求中获取集群资源需求信息和第一GPU显卡类型标签;
存储模块,用于存储所述集群资源需求信息;
队列管理模块,用于依据所述第一GPU显卡类型标签,将所述任务提交请求中的模型训练任务插入至所述任务执行队列组中的对应任务执行队列,以更新所述任务执行队列组。
进一步地,所述队列管理模块还用于:
获取所述任务执行队列组中各任务执行队列的第二GPU显卡类型标签;
将各任务执行队列的第二GPU显卡类型标签与所述第一GPU显卡类型标签进行匹配;
获取与所述第一GPU显卡类型标签匹配的第二GPU显卡类型标签,并将匹配到的所述第二GPU显卡类型标签所属的任务执行队列,确定为目标任务执行队列;
将所述任务提交请求中的模型训练任务插入至所述目标任务执行队列。
进一步地,所述资源请求模块103还用于:
生成携带有所述GPU显卡类型标签和所述集群资源需求信息的集群资源申请请求,并将所述集群资源申请请求发送至GPU集群资源管理中心;
接收所述GPU集群资源管理中心基于所述集群资源申请请求中的GPU显卡类型标签和集群资源需求信息返回的集群资源申请结果。
进一步地,所述集群资源调度装置还包括:
判断模块,用于当接收到所述GPU集群资源管理中心返回的集群资源申请结果时,判断所述集群资源申请结果是否为预设申请结果;
发送模块,用于若所述集群资源申请结果为预设申请结果,则向作业控制中心发送对应的任务执行请求,以供所述作业控制中心基于所述任务执行请求,执行对应的模型训练任务。
进一步地,所述发送模块还用于:
向作业控制中心发送对应的任务执行请求,以供所述作业控制中心从所述任务执行请求中获取GPU显卡类型标签、集群资源需求信息和模型训练任务,并依据所述GPU显卡类型标签和所述集群资源需求信息创建容器组;通过所述容器组执行所述模型训练任务,以训练对应的模型。
其中,本发明集群资源调度装置的具体实施例与上述集群资源调度方法各实施例基本相同,在此不作赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有集群资源调度程序,所述集群资源调度程序被处理器执行时,执行以下步骤:
获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务;
获取所述待执行的模型训练任务所属任务执行队列的图形处理器GPU显卡类型标签,并获取所述待执行的模型训练任务的集群资源需求信息;
依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源。
进一步地,所述集群资源调度程序被处理器执行时,还执行以下步骤:
获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务的步骤之前,还包括:
当监测到任务提交请求时,从所述任务提交请求中获取集群资源需求信息和第一GPU显卡类型标签,并存储所述集群资源需求信息;
依据所述第一GPU显卡类型标签,将所述任务提交请求中的模型训练任务插入至所述任务执行队列组中的对应任务执行队列,以更新所述任务执行队列组。
进一步地,所述集群资源调度程序被处理器执行时,还执行以下步骤:
获取所述任务执行队列组中各任务执行队列的第二GPU显卡类型标签;
将各任务执行队列的第二GPU显卡类型标签与所述第一GPU显卡类型标签进行匹配;
获取与所述第一GPU显卡类型标签匹配的第二GPU显卡类型标签,并将匹配到的所述第二GPU显卡类型标签所属的任务执行队列,确定为目标任务执行队列;
将所述任务提交请求中的模型训练任务插入至所述目标任务执行队列。
进一步地,所述集群资源调度程序被处理器执行时,还执行以下步骤:
生成携带有所述GPU显卡类型标签和所述集群资源需求信息的集群资源申请请求,并将所述集群资源申请请求发送至GPU集群资源管理中心;
接收所述GPU集群资源管理中心基于所述集群资源申请请求中的GPU显卡类型标签和集群资源需求信息返回的集群资源申请结果。
进一步地,所述集群资源调度程序被处理器执行时,还执行以下步骤:
当接收到所述GPU集群资源管理中心返回的集群资源申请结果时,判断所述集群资源申请结果是否为预设申请结果;
若所述集群资源申请结果为预设申请结果,则向作业控制中心发送对应的任务执行请求,以供所述作业控制中心基于所述任务执行请求,执行对应的模型训练任务。
进一步地,所述集群资源调度程序被处理器执行时,还执行以下步骤:
向作业控制中心发送对应的任务执行请求,以供所述作业控制中心从所述任务执行请求中获取GPU显卡类型标签、集群资源需求信息和模型训练任务,并依据所述GPU显卡类型标签和所述集群资源需求信息创建容器组;通过所述容器组执行所述模型训练任务,以训练对应的模型。
其中,本发明计算机可读存储介质的具体实施例与上述集群资源调度方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种集群资源调度方法,其特征在于,所述集群资源调度方法包括以下步骤:
获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务;
获取所述待执行的模型训练任务所属任务执行队列的图形处理器GPU显卡类型标签,并获取所述待执行的模型训练任务的集群资源需求信息;
依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源。
2.如权利要求1所述的集群资源调度方法,其特征在于,所述获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务的步骤之前,还包括:
当监测到任务提交请求时,从所述任务提交请求中获取集群资源需求信息和第一GPU显卡类型标签,并存储所述集群资源需求信息;
依据所述第一GPU显卡类型标签,将所述任务提交请求中的模型训练任务插入至所述任务执行队列组中的对应任务执行队列,以更新所述任务执行队列组。
3.如权利要求2所述的集群资源调度方法,其特征在于,依据所述第一GPU显卡类型标签,将所述任务提交请求中的模型训练任务插入至所述任务执行队列组中的对应任务执行队列,以更新所述任务执行队列组的步骤包括:
获取所述任务执行队列组中各任务执行队列的第二GPU显卡类型标签;
将各任务执行队列的第二GPU显卡类型标签与所述第一GPU显卡类型标签进行匹配;
获取与所述第一GPU显卡类型标签匹配的第二GPU显卡类型标签,并将匹配到的所述第二GPU显卡类型标签所属的任务执行队列,确定为目标任务执行队列;
将所述任务提交请求中的模型训练任务插入至所述目标任务执行队列。
4.如权利要求1-3中任一项所述的集群资源调度方法,其特征在于,依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源的步骤包括:
生成携带有所述GPU显卡类型标签和所述集群资源需求信息的集群资源申请请求,并将所述集群资源申请请求发送至GPU集群资源管理中心;
接收所述GPU集群资源管理中心基于所述集群资源申请请求中的GPU显卡类型标签和集群资源需求信息返回的集群资源申请结果。
5.如权利要求4所述的集群资源调度方法,其特征在于,依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源的步骤之后,还包括:
当接收到所述GPU集群资源管理中心返回的集群资源申请结果时,判断所述集群资源申请结果是否为预设申请结果;
若所述集群资源申请结果为预设申请结果,则向作业控制中心发送对应的任务执行请求,以供所述作业控制中心基于所述任务执行请求,执行对应的模型训练任务。
6.如权利要求5所述的集群资源调度方法,其特征在于,所述向作业控制中心发送对应的任务执行请求,以供所述作业控制中心基于所述任务执行请求,执行对应的模型训练任务的步骤包括:
向作业控制中心发送对应的任务执行请求,以供所述作业控制中心从所述任务执行请求中获取GPU显卡类型标签、集群资源需求信息和模型训练任务,并依据所述GPU显卡类型标签和所述集群资源需求信息创建容器组;通过所述容器组执行所述模型训练任务,以训练对应的模型。
7.一种集群资源调度装置,其特征在于,所述集群资源调度装置包括:
任务确定模块,用于获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务;
获取模块,用于获取所述待执行的模型训练任务所属任务执行队列的图形处理器GPU显卡类型标签,并获取所述待执行的模型训练任务的集群资源需求信息;
资源请求模块,用于依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源。
8.如权利要求7所述的集群资源调度装置,其特征在于,所述集群资源调度装置还包括:
所述获取模块,还用于当监测到任务提交请求时,从所述任务提交请求中获取集群资源需求信息和第一GPU显卡类型标签;
存储模块,用于存储所述集群资源需求信息;
队列管理模块,用于依据所述第一GPU显卡类型标签,将所述任务提交请求中的模型训练任务插入至所述任务执行队列组中的对应任务执行队列,以更新所述任务执行队列组。
9.一种集群资源调度设备,其特征在于,所述集群资源调度设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的集群资源调度程序,所述集群资源调度程序被所述处理器执行时实现如权利要求1至6中任一项所述的集群资源调度方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有集群资源调度程序,所述集群资源调度程序被处理器执行时实现如权利要求1至6中任一项所述的集群资源调度方法的步骤。
CN201811523749.9A 2018-12-12 2018-12-12 集群资源调度方法、装置、设备及计算机可读存储介质 Pending CN109634748A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811523749.9A CN109634748A (zh) 2018-12-12 2018-12-12 集群资源调度方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811523749.9A CN109634748A (zh) 2018-12-12 2018-12-12 集群资源调度方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109634748A true CN109634748A (zh) 2019-04-16

Family

ID=66073422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811523749.9A Pending CN109634748A (zh) 2018-12-12 2018-12-12 集群资源调度方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109634748A (zh)

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110012062A (zh) * 2019-02-22 2019-07-12 北京奇艺世纪科技有限公司 一种多机房任务调度方法、装置及存储介质
CN110399252A (zh) * 2019-07-19 2019-11-01 广东浪潮大数据研究有限公司 一种数据备份方法、装置、设备及计算机可读存储介质
CN110413391A (zh) * 2019-07-24 2019-11-05 上海交通大学 基于容器集群的深度学习任务服务质量保证方法和系统
CN110442451A (zh) * 2019-07-12 2019-11-12 中电海康集团有限公司 一种面向深度学习的多类型gpu集群资源管理调度方法和系统
CN110688230A (zh) * 2019-10-17 2020-01-14 广州文远知行科技有限公司 一种同步训练方法、装置、计算机设备和存储介质
CN110704178A (zh) * 2019-09-04 2020-01-17 北京三快在线科技有限公司 机器学习模型训练方法、平台、电子设备及可读存储介质
CN110780991A (zh) * 2019-09-12 2020-02-11 苏州浪潮智能科技有限公司 一种基于优先级的深度学习任务调度方法及装置
CN111078356A (zh) * 2019-11-22 2020-04-28 北京达佳互联信息技术有限公司 Gpu集群资源控制系统、方法、装置、设备及存储介质
CN111104222A (zh) * 2019-12-16 2020-05-05 上海众源网络有限公司 任务处理方法、装置、计算机设备和存储介质
CN111104217A (zh) * 2019-11-27 2020-05-05 江苏艾佳家居用品有限公司 基于语义分析的渲染农场智能流量调度方法和系统
CN111176846A (zh) * 2019-12-30 2020-05-19 云知声智能科技股份有限公司 任务分配方法及装置
CN111198767A (zh) * 2020-01-07 2020-05-26 平安科技(深圳)有限公司 大数据资源处理方法、装置、终端及存储介质
CN111309503A (zh) * 2020-02-03 2020-06-19 苏州浪潮智能科技有限公司 一种针对训练任务扩容资源不兼容的回滚方法及装置
CN111381970A (zh) * 2020-03-16 2020-07-07 第四范式(北京)技术有限公司 集群任务的资源分配方法及装置、计算机装置及存储介质
CN111562922A (zh) * 2020-04-29 2020-08-21 北京中大唯信科技有限公司 命令行程序模块化及云端化的方法、系统、电子设备
CN111683296A (zh) * 2020-06-18 2020-09-18 苏州科达科技股份有限公司 视频切分方法、装置、电子设备及存储介质
CN111738404A (zh) * 2020-05-08 2020-10-02 深圳市万普拉斯科技有限公司 模型训练任务处理方法、装置、电子设备和存储介质
CN111768006A (zh) * 2020-06-24 2020-10-13 北京金山云网络技术有限公司 一种人工智能模型的训练方法、装置、设备及存储介质
CN111783968A (zh) * 2020-06-30 2020-10-16 山东信通电子股份有限公司 一种基于云边协同的输电线路监测方法及系统
CN111813545A (zh) * 2020-06-29 2020-10-23 北京字节跳动网络技术有限公司 一种资源配置方法、装置、介质和设备
CN111858025A (zh) * 2020-06-10 2020-10-30 苏州浪潮智能科技有限公司 一种基于gpu卡显存的混合调度方法、装置、设备和介质
CN112035221A (zh) * 2020-11-03 2020-12-04 江苏苏宁银行股份有限公司 一种基于定时调度的PaaS平台无效容器清理方法和系统
CN112068954A (zh) * 2020-08-18 2020-12-11 弥伦工业产品设计(上海)有限公司 一种网络计算资源调度的方法及系统
CN112114959A (zh) * 2019-06-21 2020-12-22 上海哔哩哔哩科技有限公司 资源调度方法、分布式平台、计算机设备和存储介质
CN112148469A (zh) * 2019-06-28 2020-12-29 杭州海康威视数字技术股份有限公司 管理资源的方法、装置及计算机存储介质
CN112148468A (zh) * 2019-06-28 2020-12-29 杭州海康威视数字技术股份有限公司 一种资源调度方法、装置、电子设备及存储介质
CN112241321A (zh) * 2020-09-24 2021-01-19 北京影谱科技股份有限公司 基于Kubernetes的算力调度方法和装置
CN112463334A (zh) * 2020-12-04 2021-03-09 苏州浪潮智能科技有限公司 一种训练任务排队原因分析方法、系统、设备以及介质
CN112527503A (zh) * 2020-12-16 2021-03-19 北京地平线信息技术有限公司 深度学习训练任务的管理方法及管理装置
CN112540880A (zh) * 2020-12-22 2021-03-23 作业帮教育科技(北京)有限公司 一种快速屏蔽集群中故障显卡的方法、装置及电子设备
CN112596863A (zh) * 2020-12-28 2021-04-02 南方电网深圳数字电网研究院有限公司 监控训练任务的方法、系统及计算机存储介质
CN112631780A (zh) * 2020-12-28 2021-04-09 浙江大华技术股份有限公司 资源调度方法和装置、存储介质及电子设备
CN112698922A (zh) * 2021-01-15 2021-04-23 南方电网深圳数字电网研究院有限公司 资源调度方法、系统、电子设备及计算机存储介质
CN112817706A (zh) * 2019-11-15 2021-05-18 杭州海康威视数字技术股份有限公司 一种分布式任务调度系统和方法
CN112835721A (zh) * 2021-03-12 2021-05-25 云知声智能科技股份有限公司 分配gpu卡的数量的方法、装置、电子设备和存储介质
CN112925611A (zh) * 2021-03-11 2021-06-08 南京邮电大学 一种基于共享式gpu的分布式容器调度方法及其系统
CN113111078A (zh) * 2021-06-15 2021-07-13 深圳华锐金融技术股份有限公司 资源数据处理方法、装置、计算机设备和存储介质
CN113377515A (zh) * 2021-06-22 2021-09-10 浪潮云信息技术股份公司 一种Kubernetes资源的任务预调度方法
CN113377540A (zh) * 2021-06-15 2021-09-10 上海商汤科技开发有限公司 集群资源调度方法及装置、电子设备和存储介质
CN114089889A (zh) * 2021-02-09 2022-02-25 京东科技控股股份有限公司 模型训练方法、装置以及存储介质
WO2022088659A1 (zh) * 2020-10-26 2022-05-05 北京市商汤科技开发有限公司 资源调度方法及装置、电子设备、存储介质和程序产品
CN114461384A (zh) * 2021-12-28 2022-05-10 浙江大华技术股份有限公司 任务执行方法、装置、计算机设备和存储介质
CN114924851A (zh) * 2022-05-14 2022-08-19 云知声智能科技股份有限公司 训练任务的调度方法、装置、电子设备和存储介质
CN115495249A (zh) * 2022-10-31 2022-12-20 上海楷领科技有限公司 一种云端集群的任务执行方法
CN116302457A (zh) * 2023-05-25 2023-06-23 之江实验室 一种云原生工作流引擎实现方法、系统、介质及电子设备
CN116483584A (zh) * 2023-05-26 2023-07-25 摩尔线程智能科技(北京)有限责任公司 Gpu的任务处理方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840329A (zh) * 2010-04-19 2010-09-22 浙江大学 一种基于图拓扑结构的数据并行处理方法
US20140176583A1 (en) * 2012-12-20 2014-06-26 Vmware, Inc. Dynamic allocation of physical graphics processing units to virtual machines
CN106933664A (zh) * 2017-03-09 2017-07-07 北京搜狐新媒体信息技术有限公司 一种Hadoop集群的资源调度方法及装置
CN107135257A (zh) * 2017-04-28 2017-09-05 东方网力科技股份有限公司 一种节点集群中任务分配的方法、节点和系统
CN107203424A (zh) * 2017-04-17 2017-09-26 北京奇虎科技有限公司 一种在分布式集群中调度深度学习作业的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101840329A (zh) * 2010-04-19 2010-09-22 浙江大学 一种基于图拓扑结构的数据并行处理方法
US20140176583A1 (en) * 2012-12-20 2014-06-26 Vmware, Inc. Dynamic allocation of physical graphics processing units to virtual machines
CN106933664A (zh) * 2017-03-09 2017-07-07 北京搜狐新媒体信息技术有限公司 一种Hadoop集群的资源调度方法及装置
CN107203424A (zh) * 2017-04-17 2017-09-26 北京奇虎科技有限公司 一种在分布式集群中调度深度学习作业的方法和装置
CN107135257A (zh) * 2017-04-28 2017-09-05 东方网力科技股份有限公司 一种节点集群中任务分配的方法、节点和系统

Cited By (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110012062A (zh) * 2019-02-22 2019-07-12 北京奇艺世纪科技有限公司 一种多机房任务调度方法、装置及存储介质
CN112114959A (zh) * 2019-06-21 2020-12-22 上海哔哩哔哩科技有限公司 资源调度方法、分布式平台、计算机设备和存储介质
CN112148469B (zh) * 2019-06-28 2024-02-20 杭州海康威视数字技术股份有限公司 管理资源的方法、装置及计算机存储介质
CN112148469A (zh) * 2019-06-28 2020-12-29 杭州海康威视数字技术股份有限公司 管理资源的方法、装置及计算机存储介质
CN112148468A (zh) * 2019-06-28 2020-12-29 杭州海康威视数字技术股份有限公司 一种资源调度方法、装置、电子设备及存储介质
CN112148468B (zh) * 2019-06-28 2023-10-10 杭州海康威视数字技术股份有限公司 一种资源调度方法、装置、电子设备及存储介质
CN110442451A (zh) * 2019-07-12 2019-11-12 中电海康集团有限公司 一种面向深度学习的多类型gpu集群资源管理调度方法和系统
CN110442451B (zh) * 2019-07-12 2023-05-05 中国电子科技集团公司第五十二研究所 一种面向深度学习的多类型gpu集群资源管理调度方法和系统
CN110399252A (zh) * 2019-07-19 2019-11-01 广东浪潮大数据研究有限公司 一种数据备份方法、装置、设备及计算机可读存储介质
CN110413391A (zh) * 2019-07-24 2019-11-05 上海交通大学 基于容器集群的深度学习任务服务质量保证方法和系统
CN110704178A (zh) * 2019-09-04 2020-01-17 北京三快在线科技有限公司 机器学习模型训练方法、平台、电子设备及可读存储介质
CN110704178B (zh) * 2019-09-04 2023-05-23 北京三快在线科技有限公司 机器学习模型训练方法、平台、电子设备及可读存储介质
CN110780991A (zh) * 2019-09-12 2020-02-11 苏州浪潮智能科技有限公司 一种基于优先级的深度学习任务调度方法及装置
CN110780991B (zh) * 2019-09-12 2023-01-06 苏州浪潮智能科技有限公司 一种基于优先级的深度学习任务调度方法及装置
CN110688230A (zh) * 2019-10-17 2020-01-14 广州文远知行科技有限公司 一种同步训练方法、装置、计算机设备和存储介质
CN112817706B (zh) * 2019-11-15 2023-06-02 杭州海康威视数字技术股份有限公司 一种分布式任务调度系统和方法
CN112817706A (zh) * 2019-11-15 2021-05-18 杭州海康威视数字技术股份有限公司 一种分布式任务调度系统和方法
CN111078356A (zh) * 2019-11-22 2020-04-28 北京达佳互联信息技术有限公司 Gpu集群资源控制系统、方法、装置、设备及存储介质
CN111104217A (zh) * 2019-11-27 2020-05-05 江苏艾佳家居用品有限公司 基于语义分析的渲染农场智能流量调度方法和系统
CN111104222A (zh) * 2019-12-16 2020-05-05 上海众源网络有限公司 任务处理方法、装置、计算机设备和存储介质
CN111104222B (zh) * 2019-12-16 2023-06-30 上海众源网络有限公司 任务处理方法、装置、计算机设备和存储介质
CN111176846B (zh) * 2019-12-30 2023-06-13 云知声智能科技股份有限公司 任务分配方法及装置
CN111176846A (zh) * 2019-12-30 2020-05-19 云知声智能科技股份有限公司 任务分配方法及装置
CN111198767B (zh) * 2020-01-07 2024-10-18 平安科技(深圳)有限公司 大数据资源处理方法、装置、终端及存储介质
CN111198767A (zh) * 2020-01-07 2020-05-26 平安科技(深圳)有限公司 大数据资源处理方法、装置、终端及存储介质
CN111309503A (zh) * 2020-02-03 2020-06-19 苏州浪潮智能科技有限公司 一种针对训练任务扩容资源不兼容的回滚方法及装置
CN111309503B (zh) * 2020-02-03 2022-10-25 苏州浪潮智能科技有限公司 一种针对训练任务扩容资源不兼容的回滚方法及装置
CN111381970A (zh) * 2020-03-16 2020-07-07 第四范式(北京)技术有限公司 集群任务的资源分配方法及装置、计算机装置及存储介质
CN111562922A (zh) * 2020-04-29 2020-08-21 北京中大唯信科技有限公司 命令行程序模块化及云端化的方法、系统、电子设备
CN111738404B (zh) * 2020-05-08 2024-01-12 深圳市万普拉斯科技有限公司 模型训练任务处理方法、装置、电子设备和存储介质
CN111738404A (zh) * 2020-05-08 2020-10-02 深圳市万普拉斯科技有限公司 模型训练任务处理方法、装置、电子设备和存储介质
CN111858025A (zh) * 2020-06-10 2020-10-30 苏州浪潮智能科技有限公司 一种基于gpu卡显存的混合调度方法、装置、设备和介质
CN111683296A (zh) * 2020-06-18 2020-09-18 苏州科达科技股份有限公司 视频切分方法、装置、电子设备及存储介质
CN111768006A (zh) * 2020-06-24 2020-10-13 北京金山云网络技术有限公司 一种人工智能模型的训练方法、装置、设备及存储介质
CN111768006B (zh) * 2020-06-24 2024-09-06 北京金山云网络技术有限公司 一种人工智能模型的训练方法、装置、设备及存储介质
CN111813545A (zh) * 2020-06-29 2020-10-23 北京字节跳动网络技术有限公司 一种资源配置方法、装置、介质和设备
CN111783968B (zh) * 2020-06-30 2024-05-31 山东信通电子股份有限公司 一种基于云边协同的输电线路监测方法及系统
CN111783968A (zh) * 2020-06-30 2020-10-16 山东信通电子股份有限公司 一种基于云边协同的输电线路监测方法及系统
CN112068954A (zh) * 2020-08-18 2020-12-11 弥伦工业产品设计(上海)有限公司 一种网络计算资源调度的方法及系统
CN112241321A (zh) * 2020-09-24 2021-01-19 北京影谱科技股份有限公司 基于Kubernetes的算力调度方法和装置
CN112241321B (zh) * 2020-09-24 2024-08-09 北京影谱科技股份有限公司 基于Kubernetes的算力调度方法和装置
WO2022088659A1 (zh) * 2020-10-26 2022-05-05 北京市商汤科技开发有限公司 资源调度方法及装置、电子设备、存储介质和程序产品
CN112035221A (zh) * 2020-11-03 2020-12-04 江苏苏宁银行股份有限公司 一种基于定时调度的PaaS平台无效容器清理方法和系统
CN112035221B (zh) * 2020-11-03 2021-01-26 江苏苏宁银行股份有限公司 一种基于定时调度的PaaS平台无效容器清理方法和系统
CN112463334B (zh) * 2020-12-04 2023-08-18 苏州浪潮智能科技有限公司 一种训练任务排队原因分析方法、系统、设备以及介质
US11775344B1 (en) 2020-12-04 2023-10-03 Inspur Suzhou Intelligent Technology Co., Ltd. Training task queuing cause analysis method and system, device and medium
CN112463334A (zh) * 2020-12-04 2021-03-09 苏州浪潮智能科技有限公司 一种训练任务排队原因分析方法、系统、设备以及介质
CN112527503A (zh) * 2020-12-16 2021-03-19 北京地平线信息技术有限公司 深度学习训练任务的管理方法及管理装置
CN112540880A (zh) * 2020-12-22 2021-03-23 作业帮教育科技(北京)有限公司 一种快速屏蔽集群中故障显卡的方法、装置及电子设备
CN112596863B (zh) * 2020-12-28 2024-06-07 南方电网数字平台科技(广东)有限公司 监控训练任务的方法、系统及计算机存储介质
CN112596863A (zh) * 2020-12-28 2021-04-02 南方电网深圳数字电网研究院有限公司 监控训练任务的方法、系统及计算机存储介质
CN112631780A (zh) * 2020-12-28 2021-04-09 浙江大华技术股份有限公司 资源调度方法和装置、存储介质及电子设备
CN112698922A (zh) * 2021-01-15 2021-04-23 南方电网深圳数字电网研究院有限公司 资源调度方法、系统、电子设备及计算机存储介质
CN114089889B (zh) * 2021-02-09 2024-04-09 京东科技控股股份有限公司 模型训练方法、装置以及存储介质
CN114089889A (zh) * 2021-02-09 2022-02-25 京东科技控股股份有限公司 模型训练方法、装置以及存储介质
CN112925611A (zh) * 2021-03-11 2021-06-08 南京邮电大学 一种基于共享式gpu的分布式容器调度方法及其系统
WO2022188498A1 (zh) * 2021-03-11 2022-09-15 南京邮电大学 一种基于共享式gpu的分布式容器调度方法及其系统
CN112835721A (zh) * 2021-03-12 2021-05-25 云知声智能科技股份有限公司 分配gpu卡的数量的方法、装置、电子设备和存储介质
CN113111078A (zh) * 2021-06-15 2021-07-13 深圳华锐金融技术股份有限公司 资源数据处理方法、装置、计算机设备和存储介质
CN113377540A (zh) * 2021-06-15 2021-09-10 上海商汤科技开发有限公司 集群资源调度方法及装置、电子设备和存储介质
CN113377515A (zh) * 2021-06-22 2021-09-10 浪潮云信息技术股份公司 一种Kubernetes资源的任务预调度方法
CN114461384A (zh) * 2021-12-28 2022-05-10 浙江大华技术股份有限公司 任务执行方法、装置、计算机设备和存储介质
CN114924851A (zh) * 2022-05-14 2022-08-19 云知声智能科技股份有限公司 训练任务的调度方法、装置、电子设备和存储介质
CN115495249A (zh) * 2022-10-31 2022-12-20 上海楷领科技有限公司 一种云端集群的任务执行方法
CN116302457A (zh) * 2023-05-25 2023-06-23 之江实验室 一种云原生工作流引擎实现方法、系统、介质及电子设备
CN116483584B (zh) * 2023-05-26 2024-05-03 摩尔线程智能科技(北京)有限责任公司 Gpu的任务处理方法、装置、电子设备和存储介质
CN116483584A (zh) * 2023-05-26 2023-07-25 摩尔线程智能科技(北京)有限责任公司 Gpu的任务处理方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN109634748A (zh) 集群资源调度方法、装置、设备及计算机可读存储介质
CN103246546B (zh) 基于云技术的开放式电力系统数值仿真系统及其仿真方法
CN110443695A (zh) 数据处理方法及其装置、电子设备和介质
CN106506670B (zh) 一种云平台虚拟资源高速调度方法与系统
CN110389816B (zh) 用于资源调度的方法、装置以及计算机可读介质
CN108984264A (zh) 虚拟gpu的实现方法、装置及系统
CN109298936A (zh) 一种资源调度方法及装置
CN103067468B (zh) 云调度方法及其系统
CN109635986A (zh) 门店推送方法、装置、设备及存储介质
CN109067890A (zh) 一种基于docker容器的CDN节点边缘计算系统
US10037225B2 (en) Method and system for scheduling computing
CN109033001A (zh) 用于分配gpu的方法和装置
CN110427256A (zh) 基于优先级的作业调度优化方法、设备、存储介质及装置
CN109906437A (zh) 基于线程重要性的处理器核停止和频率选择
CN107247629A (zh) 云计算系统及用于控制服务器的云计算方法和装置
CN107832143A (zh) 一种物理机资源的处理方法和装置
CN108415772A (zh) 一种基于容器的资源调整方法、装置和介质
CN115292014A (zh) 图像渲染方法、装置和服务器
CN106897115A (zh) 一种云环境下SaaS软件部署方法及装置
CN105848117A (zh) 充值方法和充值装置
CN118069379B (zh) 一种基于gpu资源的调度实现方法
CN109271236A (zh) 一种业务调度的方法、装置、计算机存储介质及终端
CN103713852A (zh) 一种信息处理方法、服务平台及电子设备
CN115439250A (zh) 一种交易请求的处理方法及装置、存储介质、电子装置
CN115700481A (zh) 公有云数据中心的资源管理方法和相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190416