CN107135257A - 一种节点集群中任务分配的方法、节点和系统 - Google Patents

一种节点集群中任务分配的方法、节点和系统 Download PDF

Info

Publication number
CN107135257A
CN107135257A CN201710290826.XA CN201710290826A CN107135257A CN 107135257 A CN107135257 A CN 107135257A CN 201710290826 A CN201710290826 A CN 201710290826A CN 107135257 A CN107135257 A CN 107135257A
Authority
CN
China
Prior art keywords
node
gpu
resource
subtask
cpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710290826.XA
Other languages
English (en)
Inventor
周光明
李岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netposa Technologies Ltd
Original Assignee
Netposa Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netposa Technologies Ltd filed Critical Netposa Technologies Ltd
Priority to CN201710290826.XA priority Critical patent/CN107135257A/zh
Publication of CN107135257A publication Critical patent/CN107135257A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1012Server selection for load balancing based on compliance of requirements or conditions with available server resources
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1029Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers using data related to the state of servers by a load balancer

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)

Abstract

本发明提供了一种节点集群中任务分配的方法、节点和系统,节点集群包括多个计算节点,多个计算节点包括GPU节点和CPU节点,多个GPU节点组成GPU节点集群,多个CPU节点组成CPU节点集群,其中,方法包括:中心节点接收用户请求,用户请求携带有待执行的任务和用户自定义参数;中心节点控制任一计算节点确定执行所述任务所需要的服务器资源类型和资源大小;中心节点根据所述任务所需要的服务器资源类型和资源大小以及当前计算节点的状态信息将所述任务分配到相应的计算节点;本发明实施例所提供的方法能够实现CPU节点集群和GPU节点集群的统一管理和混合使用。

Description

一种节点集群中任务分配的方法、节点和系统
技术领域
本发明涉及深度学习技术领域,具体而言,涉及一种节点集群中任务分配的方法、节点和系统。
背景技术
近年来,深度学习在语音识别、图像识别、自然语言处理等应用中取得了显著的成效;在安防行业,深度学习已经开始大规模实施,已经有很多安防企业开始投入资源开发基于深度学习技术的任务、产品;可见,深度学习正影响着安防企业,影响着智能视频分析技术;尤其是体现在人脸识别应用和车辆特征识别应用等方面。
深度学习带来了更高的识别率以及更多的视频信息的同时,也引入了任务计算量超大的问题,传统做法是采用CPU来完成计算量,但是在计算量过大时,采用单核或者多核CPU的计算速度依然达不到使用要求;而且即便采用多核计算能够满足要求,但是却带来了多核CPU的成本更高和计算密度更低的缺陷;现有技术中,采用专用的GPU计算卡完成深度学习任务,虽然使运算速度得以提高,但是在使用过程中都是分别设有CPU节点集群或者GPU节点集群,在进行任务执行时则分别使用CPU节点集群或者GPU节点集群,进而CPU节点集群和GPU节点集群是被分别进行管理管理和使用的,二者相互独立,无法进行GPU节点集群加CPU节点集群混合计算,在进行任务分配时集群中的CPU资源和GPU资源无法混合使用。
发明内容
有鉴于此,本发明实施例的目的在于提供一种节点集群中任务分配的方法、节点和系统,以达到CPU节点集群和GPU节点集群的统一管理和混合使用的目的。
第一方面,本发明实施例提供了一种节点集群中任务分配的方法,所述节点集群包括多个计算节点,所述多个计算节点包括图形处理器GPU节点和中央处理器CPU节点,多个所述GPU节点组成GPU节点集群,多个所述CPU节点组成CPU节点集群,所述CPU节点集群和所述GPU节点集群统一被中心节点管理,所述方法包括:
中心节点接收用户请求,所述用户请求携带有待执行的任务和用户自定义参数;
所述中心节点控制任一计算节点确定执行所述任务所需要的服务器资源类型和资源大小;
所述中心节点根据所述任务所需要的服务器资源类型和资源大小以及当前计算节点的状态信息将所述任务分配到相应的计算节点。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中:
所述中心节点控制任一计算节点确定执行所述任务所需要的服务器资源类型和资源大小,包括:
根据所述用户自定义参数对所述任务进行分解成多个子任务;
判断所述子任务是否必须使用GPU资源,生成标记信息;
计算执行每个所述子任务所需的CPU资源和/或GPU资源所要满足的资源条件,生成资源条件信息;
所述中心节点根据所述标记信息、资源条件信息和当前每个计算节点的状态信息,将所述子任务分配至相应的计算节点。
结合第一方面或者第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中:
所述状态信息包括:CPU使用率和/或GPU使用率。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中:
所述中心节点根据所述标记信息、资源条件信息和当前每个计算节点的状态信息,将所述子任务分配至相应的计算节点,包括:
如果所述子任务需要GPU资源,所述中心节点则优先将所述子任务分配在满足资源条件的GPU节点集群中GPU负载最低的计算节点;
如果所述子任务不需要GPU资源,所述中心节点优先将所述子任务分配至在满足资源条件的CPU节点集群中CPU负载最低的计算节点。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中:
所述中心节点根据所述标记信息、资源条件信息和当前每个计算节点的状态信息,将所述子任务分配至相应的计算节点,还包括:
如果所述子任务需要GPU资源,但不是必须使用GPU资源,在GPU节点集群中没有满足GPU资源条件的计算节点时,所述中心节点将所述子任务分配至GPU节点集群中满足CPU资源条件的计算节点;如果所述GPU节点集群没有满足所述CPU资源条件的计算节点,所述中心节点将所述子任务分配至CPU节点集群中满足CPU资源条件的计算节点;
如果所述子任务不需要GPU资源,且CPU节点集群中没有满足CPU资源条件的计算节点,所述中心节点将所述子任务分配至GPU节点集群中满足CPU资源要求的计算节点。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中:
所述中心节点根据所述标记信息、资源条件信息和当前每个计算节点的状态信息,将所述子任务分配至相应的计算节点,还包括:
如果所述子任务当前没有满足资源条件的计算节点,则使所述子任务处于等待状态,直到有满足资源条件的计算节点出现时再为所述子任务分配节点。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中:
所述中心节点控制任一计算节点确定执行所述任务所需要的服务器资源类型和资源大小,还包括:
将所述用户自定义参数拆分成每个子任务所对应的具体参数;
根据每个所述子任务所对应的具体参数计算所述述子任务所需的CPU资源和/或GPU资源所要满足的资源条件。
第二方面,本发明实施例提供了一种节点,包括:
接收模块,用于接收用户请求,所述用户请求携带有待执行的任务和用户自定义参数;
确定模块,用于控制任一计算节点确定执行所述任务所需要的服务器资源类型和资源大小;
分配模块,用于根据所述任务所需要的服务器资源类型和资源大小以及当前计算节点的状态信息将所述任务分配到相应的计算节点。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中:
所述确定模块,还包括:
分解单元,用于根据所述用户自定义参数对所述任务进行分解成多个子任务;
判断单元,用于判断所述子任务是否必须使用GPU资源,生成标记信息;
计算单元计算执行每个所述子任务所需的CPU资源和/或GPU资源所要满足的资源条件,生成资源条件信息;
所述中心节点根据所述标记信息、资源条件信息和当前每个计算节点的状态信息,将所述子任务分配至相应的计算节点。
结合第二方面的第一种可能的实施方式,本发明实施例提供了第二方面的第二种可能的实施方式,其中:
所述分配模块,用于:
如果所述子任务需要GPU资源,所述中心节点则优先将所述子任务分配在满足资源条件的GPU节点集群中GPU负载最低的计算节点;
如果所述子任务不需要GPU资源,所述中心节点优先将所述子任务分配至在满足资源条件的CPU节点集群中CPU负载最低的计算节点。
结合第二方面的第一种可能的实施方式,本发明实施例提供了第二方面的第三种可能的实施方式,其中:
所述分配模块,还用于:
如果所述子任务需要GPU资源,但不是必须使用GPU资源,在GPU节点集群中没有满足GPU资源条件的计算节点时,将所述子任务分配至GPU节点集群中满足CPU资源条件的计算节点;如果所述GPU节点集群没有满足所述CPU资源条件的计算节点,将所述子任务分配至CPU节点集群中满足CPU资源条件的计算节点;
如果所述子任务不需要GPU资源,且CPU节点集群中没有满足CPU资源条件的计算节点,将所述子任务分配至GPU节点集群中满足CPU资源要求的计算节点。
结合第二方面的第一种可能的实施方式,本发明实施例提供了第二方面的第四种可能的实施方式,其中:
所述确定模块,还包括:
自定义参数拆分模块,用于将所述用户自定义参数拆分成每个子任务所对应的具体参数;
所述计算单元根据每个所述子任务所对应的具体参数计算所述述子任务所需的CPU资源和/或GPU资源所要满足的资源条件。
第三方面,本发明实施例还提供了一种节点集群中任务分配的系统,包括:
中心节点,所述中心节点为上述任一实施例中所述的节点;
多个计算节点,所述多个计算节点包括图形处理器GPU节点和中央处理器CPU节点,多个所述GPU节点组成GPU节点集群,多个所述CPU节点组成CPU节点集群,其中,所述GPU节点集群中的GPU节点是配有GPU计算卡的节点,含有CPU资源;
所述计算节点和所述中心节点通过网络连接。
本发明实施例提供的一种节点集群中任务分配的方法、节点和系统,节点集群中包括多个计算节点,该多个计算节点包括GPU节点和CPU节点,多个GPU节点组成GPU节点集群,多个CPU节点组成CPU节点集群,在工作过程中,中心节点接收用户请求,该用户请求携带有用户待执行的任务和用户自定义参数,中心节点控制节点集群中的任一个节点确定执行上述任务所需要的服务器资源类型和大小,并根据执行该任务所需要的服务器资源类型和大小对该任务进行分配相应的计算节点;本发明实施例所提供的方法能够实现CPU节点集群和GPU节点集群的统一管理和资源的混合使用。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明的一个实施例所提供的一种节点集群中任务分配的方法的流程示意图;
图2示出了本发明的一个实施例所提供的一种节点的结构示意图;
图3示出了本发明实施例一所提供的一种节点集群中任务分配的系统的结构示意图;
图4示出了本本发明实施例二所提供的一种节点集群中任务分配的系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,在深度学习技术领域,在计算过程中采用CPU或者专门的GPU来完成超大计算量,在现有技术中,一个计算系统中的CPU节点集群和GPU节点集群是分别进行管理的,在进行任务处理时,无法做到资源的整合和混合使用,既无法实现CPU加GPU的混合计算;基于此,本发明实施例提供了一种节点集群中任务分配的方法、节点和系统。
GPU节点是带有图形处理器GPU的节点,是配有GPU计算卡的节点,同时含有CPU资源;CPU节点是未带有图形处理器GPU的通用服务器节点。
如图1所示的实施例,本发明实施例提供了一种节点集群中任务分配的方法,该节点集群包括多个计算节点,所述的多个计算节点包括图形处理器GPU节点和中央处理器CPU节点,多个GPU节点组成GPU节点集群,多个CPU节点组成CPU节点集群,CPU节点集群和GPU节点集群统一被中心节点管理,该方法包括以下步骤:
S102、中心节点接收用户请求,该用户请求携带有待执行的任务和用户自定义参数;
S104、中心节点控制任一计算节点确定执行上述任务所需要的服务器资源类型和资源大小;
上述服务器资源类型包括:GPU资源和CPU资源;
S106、中心节点根据上述任务所需要的服务器资源类型和资源大小以及当前每个计算节点的状态信息将该任务分配到相应的计算节点。
其中,上述中心节点接收到用户请求后,在节点集群中随机挑选一个计算节点,启动主进程对该用户请求进行分析决策,将用户请求中的任务根据用户自定义参数分解成多个子任务,并根据子任务的计算类型、计算复杂度等因素确定执行每个子任务所需要的服务器资源类型,例如有的子任务在计算处理时不支持使用CPU资源,或者CPU资源无法满足该子任务的计算复杂度要求,则确定该子任务使用GPU资源来执行,并进一步判断每个子任务是否必须使用GPU资源,并进行标记,生成标记信息,以供在后续为其分配节点时进行参考;以及计算执行该子任务所需要的CPU资源、GPU资源分别所要满足的资源条件,生成资源条件信息,该资源条件信息主要是指资源所要满足的大小条件,其中CPU资源以线程为单位,GPU资源以GPU使用百分比为单位;中心节点还实时获取每个计算节点的状态信息,该状态信息包括但不限于:CPU使用率和/或GPU使用率,如果计算节点为GPU节点集群中的节点,所述的状态信息包括GPU使用率和CPU使用率,如果计算节点为CPU节点集群中的节点,则状态信息包括CPU使用率;进一步的,上述的状态信息还包括配套组件的使用率,该配套组件包括:内存、网卡和硬盘等,进而上述的状态信息还可以包括:内存使用率、显存使用率、网络使用率等。
中心节点还用于接收每个计算节点上报的标签信息,例如节点名称、节点的IP等,接收计算节点的属性信息,如CPU型号与数量、内存容量、GPU型号与数量,网络属性(百兆、千兆、万兆)等;本发明实施例中的节点可以是指服务器。
中心节点获取上述的每个子任务执行时所需要的服务器资源类型、标记信息和资源条件信息以后进行为该子任务分配相应的计算节点,如果子任务需要GPU资源,中心节点则优先将该子任务分配在满足GPU资源条件的GPU节点集群中GPU负载最低的计算节点;
如果子任务不是必须使用GPU资源,在GPU节点集群中没有满足GPU资源条件的计算节点时,中心节点将该子任务分配至GPU节点集群中满足CPU资源条件的计算节点;如果GPU节点集群没有满足CPU资源条件的计算节点,中心节点将该子任务分配至CPU节点集群中满足CPU资源条件的计算节点;
如果子任务不需要GPU资源,中心节点优先将该子任务分配在满足资源条件的CPU节点集群中CPU负载最低的计算节点;如果CPU节点集群中没有满足资源条件的计算节点,中心节点将该子任务分配至GPU节点集群中满足CPU资源要求的负载最低的计算节点,与现有技术不同,此时GPU节点中附带的CPU资源也被利用到;
本实施例中,如果子任务需要GPU资源,但不是必须使用GPU资源,当GPU资源不足时,则进行降级处理,采用CPU资源进行执行该子任务,并且优先分配在GPU节点集群中满足CPU资源条件的计算节点;如果子任务不需要GPU资源,在CPU节点集群中没有满足CPU资源条件的计算节点时,中心节点将该任务分配至GPU节点集群中满足CPU资源要求的计算节点,本实施例中提供的任务分配方法,在由GPU节点集群和CPU节点集群组成的节点集群中,同一个集群内同时管理CPU和GPU资源,降低了用户使用复杂度;自动根据系统运行情况决策请求采用CPU、GPU还是混合(CPU资源加GPU资源协同)计算,在执行过程中子任务优先被调度到指定的资源节点(如GPU节点或CPU节点),在资源不足的情况下可以利用其它类型的计算节点上的同类资源或是降级使用其他资源(从GPU处理降级为CPU处理),在宏观上看一个任务由GPU加CPU混合执行,实现了CPU节点集群加GPU节点集群的混合计算,并且满足任务在执行时能够根据当前状态调整资源使用,达到有效资源利用率最大化和负载均衡的效果;并且将子任务分配至满足资源条件的计算节点中负载最低的节点,即分配到资源利用率最低的节点,提高了任务计算处理的速度。
上述实施例中,中心节点在进行子任务分配时,如果当前没有满足资源条件的计算节点,则使所述子任务处于等待状态,直到有满足资源条件的计算节点出现时,中心节点再为所述子任务分配计算节点。
子任务被分配到相应节点后进行执行,执行过程中,计算节点定期向中心节点汇报其任务进度等任务状态信息。
子任务被分配到计算节点以后,子任务执行时如果子任务申请资源失败,则该计算节点反馈信息至中心节点,由中心节点重新进行对该子任务分配计算节点;以此避免了由于某些异常,比如网络延迟、丢包、系统down机等原因引起的中心节点获取的计算节点的状态信息和计算节点实际的状态不一致所造成的子任务无法正常被执行的现象发生。
子任务在执行过程中,实际使用资源少于分配资源时,计算节点会上报信息给中心节点,这部分资源就可以再次被利用,以达到资源利用率最大化的目的。
如图2所示的实施例,本实施例中提供了一种节点,该节点包括:
接收模块202,用于接收用户请求,所述用户请求携带有待执行的任务和用户自定义参数;
确定模块204,用于控制任一计算节点确定执行所述任务所需要的服务器资源类型和资源大小;
分配模块206,用于根据所述任务所需要的服务器资源类型和资源大小以及当前计算节点的状态信息将所述任务分配到相应的计算节点。
上述接收模块接收到用户请求以后,上述确定模块控制任一计算节点确定执行该任务所需要的服务器资源类型和资源大小,然后分配模块根据该任务所需要的服务器资源类型和资源大小以及当前计算节点的状态信息将任务分配到相应的计算节点。
本实施例中,上述确定模块,包括:分解单元,用于根据用户自定义参数对所述任务进行分解成多个子任务;
判断单元,用于判断子任务是否必须使用GPU资源,并做标记,生成标记信息;
计算单元,用于计算执行每个子任务所需的CPU资源和/或GPU资源所要满足的资源条件,生成资源条件信息;
上述确定模块,还包括自定义参数拆分模块,用于将用户自定义参数拆分成每个子任务所对应的具体参数;上述计算单元根据每个子任务所对应的具体参数计算该子任务所需的CPU资源和/或GPU资源所要满足的资源条件;分配模块根据上述标记信息、资源条件信息和当前每个计算节点的状态信息,将子任务分配至相应的计算节点;如果子任务需要GPU资源,则优先将该子任务分配在满足资源条件的GPU节点集群中GPU负载最低的计算节点;如果该子任务不需要GPU资源,则优先将该子任务分配在满足资源条件的CPU节点集群中CPU负载最低的计算节点。如果子任务需要GPU资源,但不是必须使用GPU资源,在GPU节点集群中没有满足GPU资源条件的计算节点时,将该子任务分配至GPU节点集群中满足CPU资源条件的计算节点,此时将将子任务的执行进行了降级处理,从GPU资源处理降到了CPU资源处理;如果GPU节点集群没有满足CPU资源条件的计算节点,则将该子任务分配至CPU节点集群中满足CPU资源条件的计算节点,进而实现了由GPU节点降级为CPU节点使用;如果所述子任务不需要GPU资源,且CPU节点集群中没有满足CPU资源条件的计算节点,将所述子任务分配至GPU节点集群中满足CPU资源要求的计算节点。
上述实施例中所提供的节点,在使用时能够实现GPU节点集群和CPU节点集群统一管理、GPU资源和CPU资源综合利用,达到了系统负载均衡和有效资源的利用率最大化的目的。
如3所示的实施例,本发明实施例中提供了一种节点集群中任务分配的系统,该系统包括:
中心节点302,该中心节点302为上述实施例中任一所述的节点;
多个计算节点,多个计算节点包括GPU节点306和CPU节点304,多个GPU节点组成GPU节点集群,多个CPU节点组成CPU节点集群,其中,所述GPU节点集群中的GPU节点是配有GPU计算卡的节点,含有CPU资源;所述计算节点和所述中心节点通过网络连接。
本实施例中所提供的一种节点集群中任务分配的系统,在进行任务分配时,支持GPU节点降级为CPU节点使用,能够满足GPU节点集群和CPU节点集群的统一管理、调度和资源的混合使用,实现CPU节点集群加GPU节点集群的混合计算。
需要说明的是,附图3为本实施例的示意图,图中示出了GPU节点和CPU节点个数为3个的情况,但实际中节点的数目并不局限于此。
如4所示的一个实施例,本实施例中,系统包括客户端、中心节点和计算节点集群,其中计算节点集群包括CPU节点集群和GPU节点集群,中心节点负责整个系统的集群管理和任务分配,计算节点接收被分配的任务并执行该任务,中心节点和计算节点通过网络连接,运行在整个系统上的算法程序包括GPU版本和CPU版本;用户通过客户端发送用户请求,中心节点接收客户端发送的用户请求,该用户请求中携带有待执行的任务,该任务被分成多个子任务,每个子任务均为运动目标检测,其中有被标记的必须使用GPU资源进行运算处理的运动目标检测子任务,中心节点将子任务任务分配到计算节点集群中的相应的计算节点,中心节点在进行子任务分配时,如果子任务需要GPU资源,在GPU资源不足时,则进行降级处理为该子任务分配CPU资源,如果为必须使用GPU资源的子任务,在没有合适的节点分配时,则使该子任务处于等待状态。本实施例所提供的系统,在同一个集群内同时管理CPU资源和GPU资源,自动根据系统运行情况决策请求采用CPU资源、GPU资源还是CPU与GPU协同进行计算;并在任务处理过程中实时分配节点,调整资源使用,在进行任务分配时,优先将任务分配到指定的资源节点,在资源不足的情况下可以为其分配其它类型的节点上的同类资源,或者低一级的计算节点,使任务从GPU资源分析降级为CPU资源分析;以达到集群系统内资源统一管理、负载均衡和资源利用率最大化的效果。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的节点、系统的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例所提供的一种节点集群中任务分配的方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、节点和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述模块、单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (13)

1.一种节点集群中任务分配的方法,其特征在于,所述节点集群包括多个计算节点,所述多个计算节点包括图形处理器GPU节点和中央处理器CPU节点,多个所述GPU节点组成GPU节点集群,多个所述CPU节点组成CPU节点集群,所述CPU节点集群和所述GPU节点集群统一被中心节点管理,所述方法包括:
中心节点接收用户请求,所述用户请求携带有待执行的任务和用户自定义参数;
所述中心节点控制任一计算节点确定执行所述任务所需要的服务器资源类型和资源大小;
所述中心节点根据所述任务所需要的服务器资源类型和资源大小以及当前计算节点的状态信息将所述任务分配到相应的计算节点。
2.根据权利要求1所述的方法,其特征在于,所述中心节点控制任一计算节点确定执行所述任务所需要的服务器资源类型和资源大小,包括:
根据所述用户自定义参数对所述任务进行分解成多个子任务;
判断所述子任务是否必须使用GPU资源,生成标记信息;
计算执行每个所述子任务所需的CPU资源和/或GPU资源所要满足的资源条件,生成资源条件信息;
所述中心节点根据所述标记信息、资源条件信息和当前每个计算节点的状态信息,将所述子任务分配至相应的计算节点。
3.根据权利要求1或2所述的方法,其特征在于,所述状态信息包括:CPU使用率和/或GPU使用率。
4.根据权利要求2所述的方法,其特征在于,所述中心节点根据所述标记信息、资源条件信息和当前每个计算节点的状态信息,将所述子任务分配至相应的计算节点,包括:
如果所述子任务需要GPU资源,所述中心节点则优先将所述子任务分配在满足资源条件的GPU节点集群中GPU负载最低的计算节点;
如果所述子任务不需要GPU资源,所述中心节点优先将所述子任务分配至在满足资源条件的CPU节点集群中CPU负载最低的计算节点。
5.根据权利要求2所述的方法,其特征在于,所述中心节点根据所述标记信息、资源条件信息和当前每个计算节点的状态信息,将所述子任务分配至相应的计算节点,还包括:
如果所述子任务需要GPU资源,但不是必须使用GPU资源,在GPU节点集群中没有满足GPU资源条件的计算节点时,所述中心节点将所述子任务分配至GPU节点集群中满足CPU资源条件的计算节点;如果所述GPU节点集群没有满足所述CPU资源条件的计算节点,所述中心节点将所述子任务分配至CPU节点集群中满足CPU资源条件的计算节点;
如果所述子任务不需要GPU资源,且CPU节点集群中没有满足CPU资源条件的计算节点,所述中心节点将所述子任务分配至GPU节点集群中满足CPU资源要求的计算节点。
6.根据权利要求2所述的方法,其特征在于,所述中心节点根据所述标记信息、资源条件信息和当前每个计算节点的状态信息,将所述子任务分配至相应的计算节点,还包括:
如果所述子任务当前没有满足资源条件的计算节点,则使所述子任务处于等待状态,直到有满足资源条件的计算节点出现时,中心节点再为所述子任务分配计算节点。
7.根据权利要求2所述的方法,其特征在于,所述中心节点控制任一计算节点确定执行所述任务所需要的服务器资源类型和资源大小,还包括:
将所述用户自定义参数拆分成每个子任务所对应的具体参数;
根据每个所述子任务所对应的具体参数计算所述述子任务所需的CPU资源和/或GPU资源所要满足的资源条件。
8.一种节点,其特征在于,包括:
接收模块,用于接收用户请求,所述用户请求携带有待执行的任务和用户自定义参数;
确定模块,用于控制任一计算节点确定执行所述任务所需要的服务器资源类型和资源大小;
分配模块,用于根据所述任务所需要的服务器资源类型和资源大小以及当前计算节点的状态信息将所述任务分配到相应的计算节点。
9.根据权利要求8所述的节点,其特征在于,所述确定模块,还包括:
分解单元,用于根据所述用户自定义参数对所述任务进行分解成多个子任务;
判断单元,用于判断所述子任务是否必须使用GPU资源,生成标记信息;
计算单元计算执行每个所述子任务所需的CPU资源和/或GPU资源所要满足的资源条件,生成资源条件信息;
所述分配模块根据所述标记信息、资源条件信息和当前每个计算节点的状态信息,将所述子任务分配至相应的计算节点。
10.根据权利要求9所述的节点,其特征在于,所述分配模块,用于:
如果所述子任务需要GPU资源,则优先将所述子任务分配在满足资源条件的GPU节点集群中GPU负载最低的计算节点;
如果所述子任务不需要GPU资源,优先将所述子任务分配至在满足资源条件的CPU节点集群中CPU负载最低的计算节点。
11.根据权利要求9所述的节点,其特征在于,所述分配模块,还用于:
如果所述子任务需要GPU资源,但不是必须使用GPU资源,在GPU节点集群中没有满足GPU资源条件的计算节点时,将所述子任务分配至GPU节点集群中满足CPU资源条件的计算节点;如果所述GPU节点集群没有满足所述CPU资源条件的计算节点,将所述子任务分配至CPU节点集群中满足CPU资源条件的计算节点;
如果所述子任务不需要GPU资源,且CPU节点集群中没有满足CPU资源条件的计算节点,将所述子任务分配至GPU节点集群中满足CPU资源要求的计算节点。
12.根据权利要求9所述的节点,其特征在于,所述确定模块,还包括:
自定义参数拆分模块,用于将所述用户自定义参数拆分成每个子任务所对应的具体参数;
所述计算单元根据每个所述子任务所对应的具体参数计算所述子任务所需的CPU资源和/或GPU资源所要满足的资源条件。
13.一种节点集群中任务分配的系统,其特征在于,包括:
中心节点,所述中心节点为权利要求8~12任一所述的节点;
多个计算节点,所述多个计算节点包括图形处理器GPU节点和中央处理器CPU节点,多个所述GPU节点组成GPU节点集群,多个所述CPU节点组成CPU节点集群,其中,所述GPU节点集群中的GPU节点是配有GPU计算卡的节点,含有CPU资源;
所述计算节点和所述中心节点通过网络连接。
CN201710290826.XA 2017-04-28 2017-04-28 一种节点集群中任务分配的方法、节点和系统 Pending CN107135257A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710290826.XA CN107135257A (zh) 2017-04-28 2017-04-28 一种节点集群中任务分配的方法、节点和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710290826.XA CN107135257A (zh) 2017-04-28 2017-04-28 一种节点集群中任务分配的方法、节点和系统

Publications (1)

Publication Number Publication Date
CN107135257A true CN107135257A (zh) 2017-09-05

Family

ID=59715418

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710290826.XA Pending CN107135257A (zh) 2017-04-28 2017-04-28 一种节点集群中任务分配的方法、节点和系统

Country Status (1)

Country Link
CN (1) CN107135257A (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108153593A (zh) * 2017-12-22 2018-06-12 合肥寰景信息技术有限公司 一种高并发的gpu集群架构及其负载均衡方法
CN108279982A (zh) * 2018-02-27 2018-07-13 郑州云海信息技术有限公司 pbs资源与hadoop资源管理方法、系统及设备
CN108762907A (zh) * 2018-05-31 2018-11-06 口口相传(北京)网络技术有限公司 基于多个客户端的任务处理方法及系统
CN108920274A (zh) * 2018-06-21 2018-11-30 北京陌上花科技有限公司 用于图像处理服务器端的性能优化及装置
CN108958892A (zh) * 2018-08-14 2018-12-07 郑州云海信息技术有限公司 一种创建用于深度学习作业的容器的方法和装置
CN109064382A (zh) * 2018-06-21 2018-12-21 北京陌上花科技有限公司 图像信息处理方法及服务器
CN109086134A (zh) * 2018-07-19 2018-12-25 郑州云海信息技术有限公司 一种深度学习作业的运行方法和装置
CN109218424A (zh) * 2018-09-14 2019-01-15 四川海纳仁东科技有限公司 基于区块链节点算力的任务分配方法
CN109254851A (zh) * 2018-09-30 2019-01-22 武汉斗鱼网络科技有限公司 一种调度gpu的方法及相关装置
CN109272116A (zh) * 2018-09-05 2019-01-25 郑州云海信息技术有限公司 一种深度学习的方法及装置
CN109375992A (zh) * 2018-08-17 2019-02-22 华为技术有限公司 一种资源调度方法及装置
CN109471733A (zh) * 2018-11-22 2019-03-15 郑州云海信息技术有限公司 一种资源控制方法和装置
CN109634731A (zh) * 2018-11-29 2019-04-16 郑州云海信息技术有限公司 一种基于ai云的gpu资源分组调度实现方法和装置
CN109634748A (zh) * 2018-12-12 2019-04-16 深圳前海微众银行股份有限公司 集群资源调度方法、装置、设备及计算机可读存储介质
CN109726008A (zh) * 2017-10-31 2019-05-07 阿里巴巴集团控股有限公司 资源分配方法及设备
CN109788325A (zh) * 2018-12-28 2019-05-21 网宿科技股份有限公司 视频任务分配方法及服务器
CN109828940A (zh) * 2019-01-31 2019-05-31 郑州云海信息技术有限公司 一种智能网卡及数据处理系统和方法
CN110166507A (zh) * 2018-02-12 2019-08-23 北京京东尚科信息技术有限公司 多资源调度方法和装置
CN110187960A (zh) * 2019-04-23 2019-08-30 广东省智能制造研究所 一种分布式资源调度方法及装置
CN110213327A (zh) * 2019-04-23 2019-09-06 广东省智能制造研究所 一种基于边缘计算的资源调度方法、装置及系统
CN110389816A (zh) * 2018-04-20 2019-10-29 伊姆西Ip控股有限责任公司 用于资源调度的方法、装置以及计算机程序产品
CN110399222A (zh) * 2019-07-25 2019-11-01 北京邮电大学 Gpu集群深度学习任务并行化方法、装置及电子设备
CN110428453A (zh) * 2019-07-30 2019-11-08 深圳云天励飞技术有限公司 数据处理方法、装置、数据处理设备及存储介质
CN110597639A (zh) * 2019-09-23 2019-12-20 腾讯科技(深圳)有限公司 Cpu分配控制方法、装置、服务器及存储介质
WO2020001161A1 (zh) * 2018-06-29 2020-01-02 华为技术有限公司 任务处理方法和装置
CN110795217A (zh) * 2019-09-27 2020-02-14 广东浪潮大数据研究有限公司 一种基于资源管理平台的任务分配方法及系统
CN111897639A (zh) * 2020-07-29 2020-11-06 平安科技(深圳)有限公司 图像增广方法、装置、计算机设备及存储介质
CN111917579A (zh) * 2020-07-30 2020-11-10 云知声智能科技股份有限公司 分布式训练方法、装置、设备和存储介质
WO2021063026A1 (zh) * 2019-09-30 2021-04-08 华为技术有限公司 一种推理服务网络化的方法及装置
CN113127160A (zh) * 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 任务调度方法、系统及设备
WO2021180092A1 (zh) * 2020-03-11 2021-09-16 上海商汤智能科技有限公司 任务调度方法和装置
CN113407313A (zh) * 2020-11-27 2021-09-17 上海交通大学 资源需求感知的多队列调度方法、系统及服务器
WO2022028061A1 (zh) * 2020-08-03 2022-02-10 苏州浪潮智能科技有限公司 一种基于侦测调节模块的gpu管理装置、方法及gpu服务器
CN114741207A (zh) * 2022-06-10 2022-07-12 之江实验室 一种基于多维度组合并行的gpu资源调度方法和系统
CN114968594A (zh) * 2022-06-13 2022-08-30 清华大学 任务处理方法、装置、电子设备和存储介质
US11609793B2 (en) 2019-08-16 2023-03-21 Samsung Electronics Co., Ltd. Electronic apparatus determining GPUs in a network for effective data learning and method for controlling thereof
CN116737397A (zh) * 2023-08-15 2023-09-12 北京麟卓信息科技有限公司 一种基于嵌入式平台的算力柔性组合方法及系统
WO2023221857A1 (zh) * 2022-05-17 2023-11-23 大唐移动通信设备有限公司 业务处理方法、装置及其相关设备
CN117541198A (zh) * 2024-01-09 2024-02-09 贵州道坦坦科技股份有限公司 一种综合办公协作管理平台

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8217951B2 (en) * 2007-07-26 2012-07-10 Lg Electronics Inc. Graphic data processing apparatus and method
CN102708088A (zh) * 2012-05-08 2012-10-03 北京理工大学 面向海量数据高性能计算的cpu/gpu协同处理方法
CN103713949A (zh) * 2012-10-09 2014-04-09 鸿富锦精密工业(深圳)有限公司 动态任务分配系统及方法
WO2016078008A1 (zh) * 2014-11-19 2016-05-26 华为技术有限公司 调度数据流任务的方法和装置
CN106155804A (zh) * 2015-04-12 2016-11-23 北京典赞科技有限公司 对gpu云计算资源统一管理服务的方法和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8217951B2 (en) * 2007-07-26 2012-07-10 Lg Electronics Inc. Graphic data processing apparatus and method
CN102708088A (zh) * 2012-05-08 2012-10-03 北京理工大学 面向海量数据高性能计算的cpu/gpu协同处理方法
CN103713949A (zh) * 2012-10-09 2014-04-09 鸿富锦精密工业(深圳)有限公司 动态任务分配系统及方法
WO2016078008A1 (zh) * 2014-11-19 2016-05-26 华为技术有限公司 调度数据流任务的方法和装置
CN106155804A (zh) * 2015-04-12 2016-11-23 北京典赞科技有限公司 对gpu云计算资源统一管理服务的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
霍洪鹏: "面向通用计算的GPU集群设计", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109726008B (zh) * 2017-10-31 2022-12-09 阿里巴巴集团控股有限公司 资源分配方法及设备
CN109726008A (zh) * 2017-10-31 2019-05-07 阿里巴巴集团控股有限公司 资源分配方法及设备
CN108153593A (zh) * 2017-12-22 2018-06-12 合肥寰景信息技术有限公司 一种高并发的gpu集群架构及其负载均衡方法
CN110166507B (zh) * 2018-02-12 2023-06-23 北京京东尚科信息技术有限公司 多资源调度方法和装置
CN110166507A (zh) * 2018-02-12 2019-08-23 北京京东尚科信息技术有限公司 多资源调度方法和装置
CN108279982A (zh) * 2018-02-27 2018-07-13 郑州云海信息技术有限公司 pbs资源与hadoop资源管理方法、系统及设备
CN108279982B (zh) * 2018-02-27 2021-11-09 郑州云海信息技术有限公司 pbs资源与hadoop资源管理方法、系统及设备
CN110389816A (zh) * 2018-04-20 2019-10-29 伊姆西Ip控股有限责任公司 用于资源调度的方法、装置以及计算机程序产品
CN108762907B (zh) * 2018-05-31 2021-11-02 口口相传(北京)网络技术有限公司 基于多个客户端的任务处理方法及系统
CN108762907A (zh) * 2018-05-31 2018-11-06 口口相传(北京)网络技术有限公司 基于多个客户端的任务处理方法及系统
CN109064382B (zh) * 2018-06-21 2023-06-23 北京陌上花科技有限公司 图像信息处理方法及服务器
CN108920274B (zh) * 2018-06-21 2021-05-28 北京陌上花科技有限公司 用于图像处理服务器端的性能优化及装置
CN108920274A (zh) * 2018-06-21 2018-11-30 北京陌上花科技有限公司 用于图像处理服务器端的性能优化及装置
CN109064382A (zh) * 2018-06-21 2018-12-21 北京陌上花科技有限公司 图像信息处理方法及服务器
WO2020001161A1 (zh) * 2018-06-29 2020-01-02 华为技术有限公司 任务处理方法和装置
CN109086134A (zh) * 2018-07-19 2018-12-25 郑州云海信息技术有限公司 一种深度学习作业的运行方法和装置
CN108958892A (zh) * 2018-08-14 2018-12-07 郑州云海信息技术有限公司 一种创建用于深度学习作业的容器的方法和装置
CN109375992A (zh) * 2018-08-17 2019-02-22 华为技术有限公司 一种资源调度方法及装置
CN109272116A (zh) * 2018-09-05 2019-01-25 郑州云海信息技术有限公司 一种深度学习的方法及装置
CN109218424B (zh) * 2018-09-14 2020-11-03 四川海纳仁东科技有限公司 基于区块链节点算力的任务分配方法
CN109218424A (zh) * 2018-09-14 2019-01-15 四川海纳仁东科技有限公司 基于区块链节点算力的任务分配方法
CN109254851A (zh) * 2018-09-30 2019-01-22 武汉斗鱼网络科技有限公司 一种调度gpu的方法及相关装置
CN109471733A (zh) * 2018-11-22 2019-03-15 郑州云海信息技术有限公司 一种资源控制方法和装置
CN109634731A (zh) * 2018-11-29 2019-04-16 郑州云海信息技术有限公司 一种基于ai云的gpu资源分组调度实现方法和装置
CN109634748A (zh) * 2018-12-12 2019-04-16 深圳前海微众银行股份有限公司 集群资源调度方法、装置、设备及计算机可读存储介质
CN109788325A (zh) * 2018-12-28 2019-05-21 网宿科技股份有限公司 视频任务分配方法及服务器
CN109788325B (zh) * 2018-12-28 2021-11-19 网宿科技股份有限公司 视频任务分配方法及服务器
CN109828940A (zh) * 2019-01-31 2019-05-31 郑州云海信息技术有限公司 一种智能网卡及数据处理系统和方法
CN110213327A (zh) * 2019-04-23 2019-09-06 广东省智能制造研究所 一种基于边缘计算的资源调度方法、装置及系统
CN110187960A (zh) * 2019-04-23 2019-08-30 广东省智能制造研究所 一种分布式资源调度方法及装置
CN110399222A (zh) * 2019-07-25 2019-11-01 北京邮电大学 Gpu集群深度学习任务并行化方法、装置及电子设备
CN110399222B (zh) * 2019-07-25 2022-01-21 北京邮电大学 Gpu集群深度学习任务并行化方法、装置及电子设备
CN110428453B (zh) * 2019-07-30 2020-12-15 深圳云天励飞技术有限公司 数据处理方法、装置、数据处理设备及存储介质
CN110428453A (zh) * 2019-07-30 2019-11-08 深圳云天励飞技术有限公司 数据处理方法、装置、数据处理设备及存储介质
US11609793B2 (en) 2019-08-16 2023-03-21 Samsung Electronics Co., Ltd. Electronic apparatus determining GPUs in a network for effective data learning and method for controlling thereof
CN110597639A (zh) * 2019-09-23 2019-12-20 腾讯科技(深圳)有限公司 Cpu分配控制方法、装置、服务器及存储介质
CN110795217A (zh) * 2019-09-27 2020-02-14 广东浪潮大数据研究有限公司 一种基于资源管理平台的任务分配方法及系统
US11822969B2 (en) 2019-09-27 2023-11-21 Guangdong Inspur Smart Computing Technology Co., Ltd. Resource management platform-based task allocation method and system
WO2021063026A1 (zh) * 2019-09-30 2021-04-08 华为技术有限公司 一种推理服务网络化的方法及装置
CN113127160A (zh) * 2019-12-30 2021-07-16 阿里巴巴集团控股有限公司 任务调度方法、系统及设备
CN113127160B (zh) * 2019-12-30 2024-05-28 阿里巴巴集团控股有限公司 任务调度方法、系统及设备
WO2021180092A1 (zh) * 2020-03-11 2021-09-16 上海商汤智能科技有限公司 任务调度方法和装置
CN111897639A (zh) * 2020-07-29 2020-11-06 平安科技(深圳)有限公司 图像增广方法、装置、计算机设备及存储介质
CN111897639B (zh) * 2020-07-29 2022-12-27 平安科技(深圳)有限公司 图像增广方法、装置、计算机设备及存储介质
CN111917579A (zh) * 2020-07-30 2020-11-10 云知声智能科技股份有限公司 分布式训练方法、装置、设备和存储介质
WO2022028061A1 (zh) * 2020-08-03 2022-02-10 苏州浪潮智能科技有限公司 一种基于侦测调节模块的gpu管理装置、方法及gpu服务器
CN113407313B (zh) * 2020-11-27 2022-05-17 上海交通大学 资源需求感知的多队列调度方法、系统及服务器
CN113407313A (zh) * 2020-11-27 2021-09-17 上海交通大学 资源需求感知的多队列调度方法、系统及服务器
WO2023221857A1 (zh) * 2022-05-17 2023-11-23 大唐移动通信设备有限公司 业务处理方法、装置及其相关设备
CN114741207A (zh) * 2022-06-10 2022-07-12 之江实验室 一种基于多维度组合并行的gpu资源调度方法和系统
CN114968594A (zh) * 2022-06-13 2022-08-30 清华大学 任务处理方法、装置、电子设备和存储介质
CN114968594B (zh) * 2022-06-13 2024-04-23 清华大学 任务处理方法、装置、电子设备和存储介质
CN116737397A (zh) * 2023-08-15 2023-09-12 北京麟卓信息科技有限公司 一种基于嵌入式平台的算力柔性组合方法及系统
CN117541198A (zh) * 2024-01-09 2024-02-09 贵州道坦坦科技股份有限公司 一种综合办公协作管理平台
CN117541198B (zh) * 2024-01-09 2024-04-30 贵州道坦坦科技股份有限公司 一种综合办公协作管理系统

Similar Documents

Publication Publication Date Title
CN107135257A (zh) 一种节点集群中任务分配的方法、节点和系统
CN106598735B (zh) 一种分布式计算方法、主控节点和计算系统
Hoenisch et al. Workflow scheduling and resource allocation for cloud-based execution of elastic processes
CN111488205B (zh) 面向异构硬件架构的调度方法和调度系统
CN112181613B (zh) 异构资源分布式计算平台批量任务调度方法及存储介质
CN107346264A (zh) 一种虚拟机负载均衡调度的方法、装置和服务器设备
CN107291546A (zh) 一种资源调度方法及装置
CN105892996A (zh) 一种批量数据处理的流水线作业方法及装置
CN112416585A (zh) 面向深度学习的gpu资源管理与智能化调度方法
CN106528288A (zh) 一种资源管理方法、装置和系统
CN107239337A (zh) 虚拟化资源的分配和调度方法及系统
CN105824686A (zh) 一种虚拟机宿主机的选择方法和选择系统
CN110866687A (zh) 任务分配方法及装置
CN106897136A (zh) 一种任务调度方法及装置
Hoseinyfarahabady et al. Handling uncertainty: Pareto-efficient bot scheduling on hybrid clouds
CN105488134A (zh) 大数据处理方法及大数据处理装置
CN111381957B (zh) 面向分布式平台的服务实例精细化调度方法及系统
CN110196775A (zh) 一种计算任务处理方法、装置、设备以及可读存储介质
CN111724037A (zh) 运营资源分配方法、装置、计算机设备及可读存储介质
CN105791166B (zh) 一种负载均衡分配的方法及系统
Liang et al. QoS-aware web service selection with internal complementarity
CN106250202A (zh) 一种云平台自动化开通虚拟机的装置及方法
CN104184685B (zh) 数据中心资源分配方法、装置及系统
CN112015533A (zh) 适用于分布式渲染的任务调度方法和装置
Zhang et al. Self-configuration of the number of concurrently running MapReduce jobs in a hadoop cluster

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170905

RJ01 Rejection of invention patent application after publication