CN111176846A - 任务分配方法及装置 - Google Patents

任务分配方法及装置 Download PDF

Info

Publication number
CN111176846A
CN111176846A CN201911403682.XA CN201911403682A CN111176846A CN 111176846 A CN111176846 A CN 111176846A CN 201911403682 A CN201911403682 A CN 201911403682A CN 111176846 A CN111176846 A CN 111176846A
Authority
CN
China
Prior art keywords
gpu
current
nodes
node
target candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911403682.XA
Other languages
English (en)
Other versions
CN111176846B (zh
Inventor
谢远东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN201911403682.XA priority Critical patent/CN111176846B/zh
Publication of CN111176846A publication Critical patent/CN111176846A/zh
Application granted granted Critical
Publication of CN111176846B publication Critical patent/CN111176846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5044Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering hardware capabilities
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明是关于任务分配方法及装置。该方法包括:确定当前任务的特征信息;根据所述特征信息,从多个节点中筛选出目标候选节点;确定所述目标候选节点的可用资源;根据所述目标候选节点的可用资源,将所述当前任务分配至所述目标候选节点。通过本发明的技术方案,可将当前任务合理地分配至上述目标候选节点,进而提高目标候选节点上资源利用率,如此,也能实现资源最优分解,极大地提升超算集群节点资源的利用效率。

Description

任务分配方法及装置
技术领域
本发明涉及终端技术领域,尤其涉及任务分配方法及装置。
背景技术
目前,在将任务进行分布式分配处理时,通常仅仅基于节点的GPU(GraphicsProcessing Unit,图形处理器)资源进行分配,并不会结合任务自身的特征信息(如网络类型等)将任务进行分配,因而,存在任务分配不合理、节点资源利用率较低的问题。
发明内容
本发明实施例提供了任务分配方法及装置。所述技术方案如下:
根据本发明实施例的第一方面,提供一种任务分配方法,包括:
确定当前任务的特征信息;
根据所述特征信息,从多个节点中筛选出目标候选节点;
确定所述目标候选节点的可用资源;
根据所述目标候选节点的可用资源,将所述当前任务分配至所述目标候选节点。
在一个实施例中,所述特征信息包括指定的网络类型;
确定所述多个节点中各节点的当前网络类型;
所述根据所述特征信息,从多个节点中筛选出目标候选节点,包括:
根据所述各节点的当前网络类型,从所述多个节点中筛选出当前网络类型符合所述指定的网络类型的第一候选节点,其中,所述目标候选节点包括所述第一候选节点。
在一个实施例中,所述特征信息包括指定显卡类型;
确定所述多个节点中各节点的当前显卡类型;
所述根据所述特征信息,从多个节点中筛选出目标候选节点,包括:
根据所述各节点的当前显卡类型,从所述多个节点中筛选出当前显卡类型符合所述指定显卡类型的第二候选节点,其中,所述目标候选节点包括所述第二候选节点。
在一个实施例中,所述可用资源包括GPU剩余量;
所述根据所述目标候选节点的可用资源,将所述当前任务分配至所述目标候选节点,包括:
确定所述目标候选节点中各候选节点的GPU剩余量;
根据所述各候选节点的GPU剩余量,确定所述目标候选节点中前i个候选节点的当前GPU剩余量之和;
确定所述当前任务需要的GPU用量;
根据所述当前任务需要的GPU用量以及所述当前GPU剩余量之和,将所述当前任务分配至所述目标候选节点。
在一个实施例中,所述目标候选节点的节点数目为N,i小于或等于N;
所述根据所述当前任务需要的GPU用量以及所述当前GPU剩余量之和,将所述当前任务分配至所述目标候选节点,包括:
当i=N且所述当前GPU剩余量之和小于所述当前任务需要的GPU用量时,发出错误提示;
当所述当前GPU剩余量之和等于所述当前任务需要的GPU用量时,分别将所述前i个候选节点中各节点的GPU剩余量分配至所述当前任务;
当所述当前GPU剩余量之和大于所述当前任务需要的GPU用量时,分别将所述前i-1个候选节点中各节点的GPU剩余量分配至所述当前任务,并将第i个候选节点的预设GPU剩余量分配至所述当前任务,其中,所述预设GPU剩余量=当前任务需要的GPU用量与前i-1个候选节点的GPU剩余量之和的差值。
根据本发明实施例的第二方面,提供一种任务分配装置,包括:
第一确定模块,用于确定当前任务的特征信息;
筛选模块,用于根据所述特征信息,从多个节点中筛选出目标候选节点;
第二确定模块,用于确定所述目标候选节点的可用资源;
分配模块,用于根据所述目标候选节点的可用资源,将所述当前任务分配至所述目标候选节点。
在一个实施例中,所述特征信息包括指定的网络类型;
第三确定模块,用于确定所述多个节点中各节点的当前网络类型;
所述筛选模块包括:
第一筛选子模块,用于根据所述各节点的当前网络类型,从所述多个节点中筛选出当前网络类型符合所述指定的网络类型的第一候选节点,其中,所述目标候选节点包括所述第一候选节点。
在一个实施例中,所述特征信息包括指定显卡类型;
第四确定模块,用于确定所述多个节点中各节点的当前显卡类型;
所述筛选模块包括:
第二筛选子模块,用于根据所述各节点的当前显卡类型,从所述多个节点中筛选出当前显卡类型符合所述指定显卡类型的第二候选节点,其中,所述目标候选节点包括所述第二候选节点。
在一个实施例中,所述可用资源包括GPU剩余量;
所述分配模块包括:
第一确定子模块,用于确定所述目标候选节点中各候选节点的GPU剩余量;
第二确定子模块,用于根据所述各候选节点的GPU剩余量,确定所述目标候选节点中前i个候选节点的当前GPU剩余量之和;
第三确定子模块,用于确定所述当前任务需要的GPU用量;
分配子模块,用于根据所述当前任务需要的GPU用量以及所述当前GPU剩余量之和,将所述当前任务分配至所述目标候选节点。
在一个实施例中,所述目标候选节点的节点数目为N,i小于或等于N;
所述分配子模块具体用于:
当i=N且所述当前GPU剩余量之和小于所述当前任务需要的GPU用量时,发出错误提示;
当所述当前GPU剩余量之和等于所述当前任务需要的GPU用量时,分别将所述前i个候选节点中各节点的GPU剩余量分配至所述当前任务;
当所述当前GPU剩余量之和大于所述当前任务需要的GPU用量时,分别将所述前i-1个候选节点中各节点的GPU剩余量分配至所述当前任务,并将第i个候选节点的预设GPU剩余量分配至所述当前任务,其中,所述预设GPU剩余量=当前任务需要的GPU用量与前i-1个候选节点的GPU剩余量之和的差值。
本发明的实施例提供的技术方案可以包括以下有益效果:
在确定当前任务的特征信息时,可利用该特征信息从多个节点中筛选出与该特征信息匹配的目标候选节点,然后利用目标候选节点当前的可用资源,将需要处理的当前任务自动分配至目标候选节点的各候选节点上,从而将当前任务合理地分配至上述目标候选节点,进而提高目标候选节点上资源利用率,如此,也能实现资源最优分解(理论上利用率达到100%),极大地提升超算集群节点资源的利用效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种任务分配方法的流程图。
图2是根据一示例性实施例示出的一种任务分配装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
为了解决上述技术问题,本发明实施例提供了一种任务分配方法,该方法可用于任务分配程序、系统或装置中,且该方法对应的执行主体可以是终端或服务器,如图1所示,该方法包括步骤S101至步骤S104:
在步骤S101中,确定当前任务的特征信息;
在步骤S102中,根据所述特征信息,从多个节点中筛选出目标候选节点;
多个节点为网络拓扑结构中的节点,且各节点为一个设备或服务器。
在步骤S103中,确定所述目标候选节点的可用资源;
在步骤S104中,根据所述目标候选节点的可用资源,将所述当前任务分配至所述目标候选节点。
在确定当前任务的特征信息时,可利用该特征信息从多个节点中筛选出与该特征信息匹配的目标候选节点,然后利用目标候选节点当前的可用资源,将需要处理的当前任务自动分配至目标候选节点的各候选节点上,从而将当前任务合理地分配至上述目标候选节点,进而提高目标候选节点上资源利用率,如此,也能实现资源最优分解(理论上利用率达到100%),极大地提升超算集群节点资源的利用效率。
在一个实施例中,所述特征信息包括指定的网络类型;网络类型可以是以太网、IB(InfiniBand,无限带宽技术)网络。
确定所述多个节点中各节点的当前网络类型;
所述根据所述特征信息,从多个节点中筛选出目标候选节点,包括:
根据所述各节点的当前网络类型,从所述多个节点中筛选出当前网络类型符合所述指定的网络类型的第一候选节点,其中,所述目标候选节点包括所述第一候选节点。
由于不同任务类型所需的网络类型不同(如任务占用带宽较低时适合使用以太网,任务占用带宽较高时适合使用IB网络),因而,根据各节点的当前网络类型,可从多个节点中筛选出当前网络类型符合所述指定的网络类型的第一候选节点,即直接从多个节点中筛选出当前网络类型为指定的网络类型的节点作为第一候选节点,如此,可根据任务的网络类型从多个节点中筛选出适配的节点。
在一个实施例中,所述特征信息包括指定显卡类型;
确定所述多个节点中各节点的当前显卡类型;
所述根据所述特征信息,从多个节点中筛选出目标候选节点,包括:
根据所述各节点的当前显卡类型,从所述多个节点中筛选出当前显卡类型符合所述指定显卡类型的第二候选节点,其中,所述目标候选节点包括所述第二候选节点。
由于不同任务类型所需的显存、计算能力不同,因而,根据各节点的当前显卡类型,可从多个节点中筛选出当前显卡类型符合指定显卡类型的第二候选节点,即直接从多个节点中筛选出当前显卡类型为指定显卡类型的节点作为第二候选节点,如此,可根据任务所需的显卡类型从多个节点中筛选出适配的节点。
另外,筛选候选节点时可同时基于显卡类型以及网络类型进行筛选。
在一个实施例中,所述可用资源包括GPU剩余量;
所述根据所述目标候选节点的可用资源,将所述当前任务分配至所述目标候选节点,包括:
确定所述目标候选节点中各候选节点的GPU剩余量;
根据所述各候选节点的GPU剩余量,确定所述目标候选节点中前i个候选节点的当前GPU剩余量之和;
目标候选节点中各候选节点按照GPU剩余量从大到小的顺序进行排列,即排名第一的候选节点的GPU剩余量最大,而目标候选节点中排名最后的候选节点的GPU剩余量最小。
确定所述当前任务需要的GPU用量;
根据所述当前任务需要的GPU用量以及所述当前GPU剩余量之和,将所述当前任务分配至所述目标候选节点。
在筛选出目标候选节点之后,可根据当前任务需要的GPU用量以及前i个候选节点的当前GPU剩余量之和,将当前任务合理地分配至目标候选节点中各候选节点,从而使得任务可被更加合理地分配至多节点,确保更好地运行分布式任务,同时提高节点资源的利用率。
在一个实施例中,所述目标候选节点的节点数目为N,i小于或等于N;
所述根据所述当前任务需要的GPU用量以及所述当前GPU剩余量之和,将所述当前任务分配至所述目标候选节点,包括:
当i=N且所述当前GPU剩余量之和小于所述当前任务需要的GPU用量时,发出错误提示;
若目标候选节点中所有的节点的GPU剩余量还小于当前任务需要的GPU用量,则说明上述所有的节点的GPU剩余量都不足以够该当前任务运行时使用,因而,可发出错误提示,以提醒用户选择的目标候选节点不太合适,不适合分布式运行该当前节点。
当所述当前GPU剩余量之和等于所述当前任务需要的GPU用量时,分别将所述前i个候选节点中各节点的GPU剩余量分配至所述当前任务;
当所述当前GPU剩余量之和大于所述当前任务需要的GPU用量时,分别将所述前i-1个候选节点中各节点的GPU剩余量分配至所述当前任务,并将第i个候选节点的预设GPU剩余量分配至所述当前任务,其中,所述预设GPU剩余量=当前任务需要的GPU用量与前i-1个候选节点的GPU剩余量之和的差值。
若上述当前GPU剩余量之和刚好等于所述当前任务需要的GPU用量,则说明这前i个候选节点的GPU剩余量刚好够该当前任务运行时使用,因而,可分别将所述前i个候选节点中各节点的GPU剩余量分配至所述当前任务。
而若当前GPU剩余量之和大于所述当前任务需要的GPU用量,则说明前i个候选节点的GPU剩余量较多,有足够的冗余,而前i-1个候选节点的GPU剩余量之和小于当前任务需要的GPU用量,因而,可分别将所述前i-1个候选节点中各节点的GPU剩余量分配至所述当前任务,并将第i个候选节点的预设GPU剩余量分配至所述当前任务,从而通过i个候选节点分布式运行上述当前任务。
下面将结合其他实施例,进一步详细说明本发明的技术方案:
第1步:用户通过平台任务提交工具提交任务类型、网络类型、GPU类型(例如V100、P40、TitanV等)和GPU总使用量。
第2步:超算平台根据任务类型请求调用不同的后端任务操作器。
第3步:后端任务操作器根据指定的GPU类型和网络拓扑进行任务节点的GPU资源最优调度和全生命周期的管理。
而后端任务操作器实现资源最佳分解调度的具体流程如下:
GPU类型选择:通过对于超算集群节点进行显卡类型的标定,在用户提交任务时指定显卡类型,任务会调度到和其指定的显卡类型一致的节点上。
拓扑网络类型的选择:通过对于超算集群节点进行标定网络类型,在用户提交任务时会指定网络类型,任务只会调度到和其指定的网络拓扑类型一致的节点上运行。
GPU资源最优调度:确定符合网络拓扑类型的超算集群节点上GPU使用量和剩余量,根据同资源任务分割最小策略以减少网络通信性能损耗,同资源任务分割最小策略如下:
将符合用户指定网络拓扑节点GPU剩余量进行由大到小排序;
通过用户指定的显卡类型进一步过滤;
得到经过网络拓扑类型(如以太网、IB网络)和显卡类型过滤后,寻找分布式任务最小分割策略,即:
假设当前任务计算资源申请量为N,寻找第i个节点:
如果前i个节点剩余资源总量小于N,i增加1,确保前i个节点资源剩余量大于等于N,如果全部节点资源相加小于N,则返回错误信息。
如果前i个节点剩余资源总量等于N,则分布式任务分解成i个工作节点,分解出的每部分任务对每个节点所占用的资源和前i个节点中各节点的资源剩余量一致;
如果前i个节点剩余资源总量大于N,计算前i-1个节点资源剩余总量R:分布式任务分解成i个工作节点,分解出的前i-1个部分任务对前i-1个节点所占用的资源和前i-1个节点资源剩余量一致,第i部分任务所占用的资源为N-R。
根据分解任务节点运行分布式任务,理论会100%利用集群GPU资源。
最后,根据探针识别任务是否完成,完成删除任务,结束任务节点的生命周期。
下面将进一步举例说明本发明的技术方案(假定当前任务需求的GPU申请量为20,而节点1至节点13的网络类型、显卡类型和剩余资源分别如下表1所示):
Figure BDA0002348056900000101
进而将IB网络剩余资源进行排列,排列如下:[node5:10,node8:7,node3:6,node7:6,node2:5,node3:4,node6:4,node1:3]
将符合显卡类型过滤后,得到如下结果:
[node5:10,node3:6,node 2:5,node3:4,node1:3]
将任务分解如下:
node5+node3+node2=21>20;node5+node3=16<20
结果:[node5:10,node3:6,node2:1]即node5 10卡,node3 6卡,node2 1卡分布式任务。
现有技术不能在基于网络异构和显卡类型混部情况下进行集群资源调度,而本发明的后端任务操作器可以在不同的网络拓扑和不同的显卡类型间进行异构资源的调度,解决了在超算集群多网络拓扑和多计算资源类型下资源隔离调度问题,改善了超算集群网络选型的灵活性,大大增加了超算集群可运行任务的种类(训练、推理等)。
现有技术只能进行资源隔离调度,而本发明的后端任务操作器在混部资源隔离的基础上实现资源最优分解(理论上利用率达到100%),极大的提升了超算集群资源的利用效率,大大节省了超算集群的成本。
最后,需要明确的是:本领域技术人员可根据实际需求,将上述多个实施例进行自由组合。
对应本发明实施例提供的上述任务分配方法,本发明实施例还提供一种任务分配装置,如图2所示,该装置包括:
第一确定模块201,用于确定当前任务的特征信息;
筛选模块202,用于根据所述特征信息,从多个节点中筛选出目标候选节点;
第二确定模块203,用于确定所述目标候选节点的可用资源;
分配模块204,用于根据所述目标候选节点的可用资源,将所述当前任务分配至所述目标候选节点。
在一个实施例中,所述特征信息包括指定的网络类型;
第三确定模块,用于确定所述多个节点中各节点的当前网络类型;
所述筛选模块包括:
第一筛选子模块,用于根据所述各节点的当前网络类型,从所述多个节点中筛选出当前网络类型符合所述指定的网络类型的第一候选节点,其中,所述目标候选节点包括所述第一候选节点。
在一个实施例中,所述特征信息包括指定显卡类型;
第四确定模块,用于确定所述多个节点中各节点的当前显卡类型;
所述筛选模块包括:
第二筛选子模块,用于根据所述各节点的当前显卡类型,从所述多个节点中筛选出当前显卡类型符合所述指定显卡类型的第二候选节点,其中,所述目标候选节点包括所述第二候选节点。
在一个实施例中,所述可用资源包括GPU剩余量;
所述分配模块包括:
第一确定子模块,用于确定所述目标候选节点中各候选节点的GPU剩余量;
第二确定子模块,用于根据所述各候选节点的GPU剩余量,确定所述目标候选节点中前i个候选节点的当前GPU剩余量之和;
第三确定子模块,用于确定所述当前任务需要的GPU用量;
分配子模块,用于根据所述当前任务需要的GPU用量以及所述当前GPU剩余量之和,将所述当前任务分配至所述目标候选节点。
在一个实施例中,所述目标候选节点的节点数目为N,i小于或等于N;
所述分配子模块具体用于:
当i=N且所述当前GPU剩余量之和小于所述当前任务需要的GPU用量时,发出错误提示;
当所述当前GPU剩余量之和等于所述当前任务需要的GPU用量时,分别将所述前i个候选节点中各节点的GPU剩余量分配至所述当前任务;
当所述当前GPU剩余量之和大于所述当前任务需要的GPU用量时,分别将所述前i-1个候选节点中各节点的GPU剩余量分配至所述当前任务,并将第i个候选节点的预设GPU剩余量分配至所述当前任务,其中,所述预设GPU剩余量=当前任务需要的GPU用量与前i-1个候选节点的GPU剩余量之和的差值。
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种任务分配方法,其特征在于,包括:
确定当前任务的特征信息;
根据所述特征信息,从多个节点中筛选出目标候选节点;
确定所述目标候选节点的可用资源;
根据所述目标候选节点的可用资源,将所述当前任务分配至所述目标候选节点。
2.根据权利要求1所述的方法,其特征在于,
所述特征信息包括指定的网络类型;
确定所述多个节点中各节点的当前网络类型;
所述根据所述特征信息,从多个节点中筛选出目标候选节点,包括:
根据所述各节点的当前网络类型,从所述多个节点中筛选出当前网络类型符合所述指定的网络类型的第一候选节点,其中,所述目标候选节点包括所述第一候选节点。
3.根据权利要求1所述的方法,其特征在于,
所述特征信息包括指定显卡类型;
确定所述多个节点中各节点的当前显卡类型;
所述根据所述特征信息,从多个节点中筛选出目标候选节点,包括:
根据所述各节点的当前显卡类型,从所述多个节点中筛选出当前显卡类型符合所述指定显卡类型的第二候选节点,其中,所述目标候选节点包括所述第二候选节点。
4.根据权利要求1至3中任一项所述的方法,其特征在于,
所述可用资源包括GPU剩余量;
所述根据所述目标候选节点的可用资源,将所述当前任务分配至所述目标候选节点,包括:
确定所述目标候选节点中各候选节点的GPU剩余量;
根据所述各候选节点的GPU剩余量,确定所述目标候选节点中前i个候选节点的当前GPU剩余量之和;
确定所述当前任务需要的GPU用量;
根据所述当前任务需要的GPU用量以及所述当前GPU剩余量之和,将所述当前任务分配至所述目标候选节点。
5.根据权利要求4所述的方法,其特征在于,
所述目标候选节点的节点数目为N,i小于或等于N;
所述根据所述当前任务需要的GPU用量以及所述当前GPU剩余量之和,将所述当前任务分配至所述目标候选节点,包括:
当i=N且所述当前GPU剩余量之和小于所述当前任务需要的GPU用量时,发出错误提示;
当所述当前GPU剩余量之和等于所述当前任务需要的GPU用量时,分别将所述前i个候选节点中各节点的GPU剩余量分配至所述当前任务;
当所述当前GPU剩余量之和大于所述当前任务需要的GPU用量时,分别将所述前i-1个候选节点中各节点的GPU剩余量分配至所述当前任务,并将第i个候选节点的预设GPU剩余量分配至所述当前任务,其中,所述预设GPU剩余量=当前任务需要的GPU用量与前i-1个候选节点的GPU剩余量之和的差值。
6.一种任务分配装置,其特征在于,包括:
第一确定模块,用于确定当前任务的特征信息;
筛选模块,用于根据所述特征信息,从多个节点中筛选出目标候选节点;
第二确定模块,用于确定所述目标候选节点的可用资源;
分配模块,用于根据所述目标候选节点的可用资源,将所述当前任务分配至所述目标候选节点。
7.根据权利要求6所述的装置,其特征在于,
所述特征信息包括指定的网络类型;
第三确定模块,用于确定所述多个节点中各节点的当前网络类型;
所述筛选模块包括:
第一筛选子模块,用于根据所述各节点的当前网络类型,从所述多个节点中筛选出当前网络类型符合所述指定的网络类型的第一候选节点,其中,所述目标候选节点包括所述第一候选节点。
8.根据权利要求6所述的装置,其特征在于,
所述特征信息包括指定显卡类型;
第四确定模块,用于确定所述多个节点中各节点的当前显卡类型;
所述筛选模块包括:
第二筛选子模块,用于根据所述各节点的当前显卡类型,从所述多个节点中筛选出当前显卡类型符合所述指定显卡类型的第二候选节点,其中,所述目标候选节点包括所述第二候选节点。
9.根据权利要求6至8中任一项所述的装置,其特征在于,
所述可用资源包括GPU剩余量;
所述分配模块包括:
第一确定子模块,用于确定所述目标候选节点中各候选节点的GPU剩余量;
第二确定子模块,用于根据所述各候选节点的GPU剩余量,确定所述目标候选节点中前i个候选节点的当前GPU剩余量之和;
第三确定子模块,用于确定所述当前任务需要的GPU用量;
分配子模块,用于根据所述当前任务需要的GPU用量以及所述当前GPU剩余量之和,将所述当前任务分配至所述目标候选节点。
10.根据权利要求9所述的装置,其特征在于,
所述目标候选节点的节点数目为N,i小于或等于N;
所述分配子模块具体用于:
当i=N且所述当前GPU剩余量之和小于所述当前任务需要的GPU用量时,发出错误提示;
当所述当前GPU剩余量之和等于所述当前任务需要的GPU用量时,分别将所述前i个候选节点中各节点的GPU剩余量分配至所述当前任务;
当所述当前GPU剩余量之和大于所述当前任务需要的GPU用量时,分别将所述前i-1个候选节点中各节点的GPU剩余量分配至所述当前任务,并将第i个候选节点的预设GPU剩余量分配至所述当前任务,其中,所述预设GPU剩余量=当前任务需要的GPU用量与前i-1个候选节点的GPU剩余量之和的差值。
CN201911403682.XA 2019-12-30 2019-12-30 任务分配方法及装置 Active CN111176846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911403682.XA CN111176846B (zh) 2019-12-30 2019-12-30 任务分配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911403682.XA CN111176846B (zh) 2019-12-30 2019-12-30 任务分配方法及装置

Publications (2)

Publication Number Publication Date
CN111176846A true CN111176846A (zh) 2020-05-19
CN111176846B CN111176846B (zh) 2023-06-13

Family

ID=70646540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911403682.XA Active CN111176846B (zh) 2019-12-30 2019-12-30 任务分配方法及装置

Country Status (1)

Country Link
CN (1) CN111176846B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112068954A (zh) * 2020-08-18 2020-12-11 弥伦工业产品设计(上海)有限公司 一种网络计算资源调度的方法及系统
CN112256420A (zh) * 2020-10-30 2021-01-22 重庆紫光华山智安科技有限公司 任务分配方法、装置及电子设备
CN112835721A (zh) * 2021-03-12 2021-05-25 云知声智能科技股份有限公司 分配gpu卡的数量的方法、装置、电子设备和存储介质
CN117170873A (zh) * 2023-09-12 2023-12-05 广州云硕科技发展有限公司 基于人工智能的资源池管理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819540A (zh) * 2009-02-27 2010-09-01 国际商业机器公司 在集群中调度任务的方法和系统
CN109634748A (zh) * 2018-12-12 2019-04-16 深圳前海微众银行股份有限公司 集群资源调度方法、装置、设备及计算机可读存储介质
CN109992407A (zh) * 2018-01-02 2019-07-09 中国移动通信有限公司研究院 一种yarn集群gpu资源调度方法、装置和介质
CN110362407A (zh) * 2019-07-19 2019-10-22 中国工商银行股份有限公司 计算资源调度方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819540A (zh) * 2009-02-27 2010-09-01 国际商业机器公司 在集群中调度任务的方法和系统
CN109992407A (zh) * 2018-01-02 2019-07-09 中国移动通信有限公司研究院 一种yarn集群gpu资源调度方法、装置和介质
CN109634748A (zh) * 2018-12-12 2019-04-16 深圳前海微众银行股份有限公司 集群资源调度方法、装置、设备及计算机可读存储介质
CN110362407A (zh) * 2019-07-19 2019-10-22 中国工商银行股份有限公司 计算资源调度方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112068954A (zh) * 2020-08-18 2020-12-11 弥伦工业产品设计(上海)有限公司 一种网络计算资源调度的方法及系统
CN112256420A (zh) * 2020-10-30 2021-01-22 重庆紫光华山智安科技有限公司 任务分配方法、装置及电子设备
CN112835721A (zh) * 2021-03-12 2021-05-25 云知声智能科技股份有限公司 分配gpu卡的数量的方法、装置、电子设备和存储介质
CN117170873A (zh) * 2023-09-12 2023-12-05 广州云硕科技发展有限公司 基于人工智能的资源池管理方法及系统
CN117170873B (zh) * 2023-09-12 2024-06-07 广州云硕科技发展有限公司 基于人工智能的资源池管理方法及系统

Also Published As

Publication number Publication date
CN111176846B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN111176846B (zh) 任务分配方法及装置
CN104412729B (zh) 印制电路板向装配线的分配
US20190014059A1 (en) Systems and methods for allocating computing resources in distributed computing
CN110838939B (zh) 一种基于轻量级容器的调度方法及边缘物联管理平台
CN111309440B (zh) 一种多类型gpu的管理调度的方法和设备
CN110502321A (zh) 一种资源调度方法及系统
CN112698952A (zh) 计算资源统一管理方法、装置、计算机设备及存储介质
CN106648900A (zh) 基于智能电视的超算方法及系统
CN112631758A (zh) 一种边缘计算资源调度方法、装置、设备及可读存储介质
US8972579B2 (en) Resource sharing in computer clusters according to objectives
CN112015549A (zh) 一种基于服务器集群的调度节点的选择抢占方法及系统
CN113094179B (zh) 作业分配方法、装置、电子设备及可读存储介质
CN111240824A (zh) 一种cpu资源调度方法及电子设备
CN1625109A (zh) 虚拟化网络资源的方法和装置
CN115168017B (zh) 一种任务调度云平台及其任务调度方法
CN111628943B (zh) 一种基于通信和感知技术的智能物联方法
CN111209098A (zh) 一种智能渲染调度方法、服务器、管理节点及存储介质
CN116684349A (zh) 算力网络资源分配方法、系统、电子设备及存储介质
CN111988388A (zh) 流量分配的方法、装置、电子设备及存储介质
CN116723225B (zh) 游戏任务的自动分配方法及系统
CN115243378B (zh) 一种资源分配方法、装置、电子设备及存储介质
CN117971498B (zh) 计算集群中gpu资源的调度方法、电子设备和存储介质
CN110858849A (zh) 一种云分发网络调度系统及方法
CN117931459B (zh) 一种算力资源的弹性评价方法及系统
CN117519953B (zh) 一种面向服务器无感知计算的分离式内存管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant