CN104778080A - 基于协处理器的作业调度处理方法及装置 - Google Patents

基于协处理器的作业调度处理方法及装置 Download PDF

Info

Publication number
CN104778080A
CN104778080A CN201410015495.5A CN201410015495A CN104778080A CN 104778080 A CN104778080 A CN 104778080A CN 201410015495 A CN201410015495 A CN 201410015495A CN 104778080 A CN104778080 A CN 104778080A
Authority
CN
China
Prior art keywords
resource
node
coprocessor
schedule job
job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410015495.5A
Other languages
English (en)
Inventor
张绍满
秦春华
刘忱
郭树波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201410015495.5A priority Critical patent/CN104778080A/zh
Priority to PCT/CN2014/079889 priority patent/WO2015106533A1/zh
Publication of CN104778080A publication Critical patent/CN104778080A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)

Abstract

本发明提供了一种基于协处理器的作业调度处理方法及装置,其中,该方法包括:获取待调度作业所请求的资源类型以及各个节点的负载信息,其中所述资源类型包括协处理器资源和CPU资源;根据所述资源类型和所述负载信息选择执行所述待调度作业的节点。采用本发明提供的上述技术方案,解决了相关技术中,尚无有效的技术方案实现集群和协处理器相结合的调度方法。通过支持协处理器的基于预约策略和负载均衡的集群调度,来达到最大的任务并行效率。

Description

基于协处理器的作业调度处理方法及装置
技术领域
本发明通信领域,更具体地说,涉及一种基于协处理器的作业调度处理方法及装置。
背景技术
集群作业管理系统(Job Management System,简称为JMS)是根据用户的需求,统一管理和调度集群的软硬件资源,保证用户作业公平合理地共享集群资源,提高系统资源利用率和吞吐率。集群JMS包括系统资源管理和作业调度管理,作业调度技术是集群作业管理系统中关键的技术之一,作业调度的功能在于提供作业提交、调度、执行及控制的新机制,更加有效地利用系统资源、平衡网络负载、提高系统整体性能。
作业调度策略是根据一定的算法,从输入的一批作业中选出作业,分配必要的资源,将其投入运行。该技术是提高集群系统执行并行作业的效率及系统资源利用率的关键因素,对集群系统提高并行处理能力具有重大的意义。目前,作业调度策略可以划分为两种类型:一类是面向提高资源利用率的调度策略:根据某种算法选取合适的作业,达到尽量使资源的使用最大化,提高资源的利用率的目的,这类中常见的有FirstFit。另一类是面向公平性的调度策略:确保每个作业在较短的时间内能够获得资源,资源的获取使用具有公平性,这类调度策略常见的是FCFS。
图形处理器(Graphic Process Unit,简称为GPU),是专用于图形输出流水线的处理和加速,因此当GPU的功能越来越强时,与图形有关的处理便自然而然地从CPU向GPU转移。最先发生的转移是最靠近应用程序的几何变换部分,包括造型变换和观察变换;其次是局部或特殊光照效果的计算和生成。当顶点级和像素级的可编程功能越来越灵活时,图形本身的处理速度和灵活性都得到了前所未有的提高。而当GPU内部像素级的纹元达到可以参与编程的运算时,则向着可作通用计算的方向发展。这时,基于GPU的通用计算便应运而生了。
基于GPU的通用计算(General Purpose GPU,简称为GPGPU)指的是利用图形卡来实现一般意义上的计算。采用GPU来做通用计算的主要目的是为了加速,加速的动力来自这些新硬件所具有的以下主要优势:一定的并行性;高密集的运算;减少了GPU与CPU的数据通信。
GPU的每个流多处理器被看作类似于CPU的单个核心,每个流多处理器以单指令流多线程方式工作,只能执行相同的程序。尽管GPU运行频率低于CPU,但由于其流处理器数目远远多于CPU的核心数,我们称之为“众核”,其单精度浮点处理能力达到了同期CPU的十倍之多。上面两种技术都旨在提高并行作业的执行效率,不同的是前者考虑的层面是节点数,而后者则是单个节点上的计算核心数。
目前针对相关技术中的上述问题,目前尚未提出有效的解决方案。
发明内容
本发明提供了一种基于协处理器的作业调度处理方法及装置,以至少解决相关技术中,尚无有效的技术方案实现集群和协处理器相结合的调度方法的问题。
为了达到上述目的,根据本发明的一个方面,提供了一种基于协处理器的作业调度处理方法,包括:获取待调度作业所请求的资源类型以及各个节点的负载信息,其中所述资源类型包括协处理器资源和CPU资源;根据所述资源类型和所述负载信息选择执行所述待调度作业的节点。
优选地,获取待调度作业所请求的资源类型以及各个节点的负载信息之前,包括:根据各个作业的优先级确定所述待调度作业。
优选地,根据各个作业的优先级确定所述待调度作业,包括:利用所述作业的初始优先级和等待时间进行加权计算得到所述作业的当前优先级;在所述当前优先级大于第一预设阈值时,为所述当前优先级对应的作业预约执行所述当前优先级对应的作业所需要的资源;将所述当前优先级对应的作业设置为所述待调度作业。
优选地,根据所述资源类型和所述负载信息选择执行所述待调度作业的节点,包括:当获取的所述资源类型为CPU资源时,比较所述资源类型所对应的请求资源和根据所述负载信息确定的剩余CPU资源,在所述剩余节点资源满足所述待调度作业所请求的资源时,从所述剩余CPU资源所对应的节点中选择执行所述待调度作业的节点。
优选地,上述方法还包括:在所述剩余CPU资源不满足所述待调度作业所请求的资源时,比较所述待调度作业所请求的资源和协处理器资源,在所述剩余协处理器资源满足所述待调度作业所请求的资源时,从所述剩余协处理器资源所对应的节点中选择执行所述待调度作业的节点。
优选地,根据所述资源类型和所述负载信息选择执行所述待调度作业的节点,包括:当获取的所述资源类型为协处理器资源时,比较所述资源类型所对应的请求资源和根据所述负载信息确定的剩余协处理器资源,在所述剩余协处理器资源满足所述待调度作业所请求的资源时,从所述剩余协处理器资源所对应的节点中选择执行所述待调度作业的节点。
优选地,上述方法还包括:在所述剩余协处理器资源不满足所述待调度作业所请求的资源时,比较所述待调度作业所请求的资源和剩余CPU资源,在所述剩余CPU资源满足所述待调度作业所请求的资源时,从所述剩余CPU资源所对应的节点中选择执行所述待调度作业的节点。
优选地,根据所述资源类型和所述负载信息选择执行所述待调度作业的节点之前,还包括:获取所述协处理器资源和CPU资源的指定性能指标,其中,在所述指定性能指标未超过第二预设阈值时,从所述协处理器资源所对应的节点或CPU资源所对应的节点中选择执行所述待调度作业的节点。
优选地,根据所述资源类型和所述负载信息选择执行所述待调度作业的节点之前,还包括:获取所述协处理器资源和CPU资源的指定性能指标,对各个所述指定性能指标进行加权运算得到综合性能指标;在所述综合性能指标未超过第三预设阈值时,从所述协处理器资源所对应的节点或CPU资源所对应的节点中选择所述执行所述待调度作业的节点。
优选地,根据所述资源类型和所述负载信息选择执行所述待调度作业的节点之后,还包括:将选择的所述待调度作业节点通知给集群服务器。
为了达到上述目的,根据本发明的另一个方面,还提供了一种基于协处理器的作业调度处理装置,包括:获取模块,用于获取待调度作业所请求的资源类型以及各个节点的负载信息,其中所述资源类型包括协处理器资源和CPU资源;选择模块,用于根据所述资源类型和所述负载信息选择执行所述待调度作业的节点。
优选地,所述装置还包括:确定模块,用于根据各个作业的优先级确定所述待调度作业。
通过本发明,采用根据获取到的待调度作业所请求的资源类型以及各个节点的负载信息来选择执行所述待调度作业的节点的技术手段。解决了相关技术中,尚无有效的技术方案实现集群和协处理器相结合的调度方法。本发明提出一种集群中有效调度协处理器的方法,支持协处理器的基于预约策略和负载均衡的集群调度,来达到最大的任务并行效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为根据本发明实施例的基于协处理器的作业调度处理方法的流程图;
图2是根据本发明实施例的基于协处理器的作业调度处理装置的结构框图;
图3是根据本发明实施例的基于协处理器的作业调度处理装置的再一结构框图;
图4为根据本发明优选实施例的基于协处理器的作业调度处理系统的结构框图;
图5为根据本发明优选实施例的基于协处理器的作业调度处理系统示意图;
图6为根据本发明优选实施例的基于协处理器的作业调度处理方法的流程图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1为根据本发明实施例的基于协处理器的作业调度处理方法的流程图,如图1所示,该方法包括:步骤S102至步骤S104,
S102:获取待调度作业所请求的资源类型以及各个节点的负载信息,其中上述资源类型包括协处理器资源和CPU资源;
在该步骤之前,即在获取集群作业管理系统中待调度作业所请求的资源类型以及各个节点的负载信息之前,还需执行以下过程:根据上述集群作业管理系统中各个作业的优先级确定上述待调度作业。其中,根据上述集群作业管理系统中各个作业的优先级确定上述待调度作业具体可以包括但不限于以下步骤:利用上述作业的初始优先级和等待时间进行加权计算得到上述作业的当前优先级;在当前优先级大于第一预设阈值时,为上述当前优先级对应的作业预约执行该当前优先级对应的作业所需要的资源;将该当前优先级对应的作业设置为上述待调度作业。
S104:根据上述资源类型和上述负载信息选择执行上述待调度作业的节点。
该步骤主要包括以下两种情况:
第一种情况
当获取的上述资源类型为CPU资源时,比较上述资源类型所对应的请求资源和根据上述负载信息确定的剩余CPU资源,在上述剩余节点资源满足上述待调度作业所请求的资源时,从上述剩余CPU资源所对应的节点中选择执行上述待调度作业的节点。
其中,在上述剩余CPU资源不满足上述待调度作业所请求的资源时,比较上述待调度作业所请求的资源和剩余协处理器资源,在上述剩余协处理器资源满足上述待调度作业所请求的资源时,从上述剩余协处理器资源所对应的节点中选择执行上述待调度作业的节点。
第二种情况
当获取的上述资源类型为协处理器资源时,比较上述资源类型所对应的请求资源和根据上述负载信息确定的剩余协处理器资源,在剩余节点资源满足待调度作业所请求的资源时,从上述剩余协处理器资源所对应的节点中选择执行上述待调度作业的节点。
在上述剩余协处理器资源不满足上述待调度作业所请求的资源时,比较上述待调度作业所请求的资源和剩余CPU资源,在剩余CPU资源满足待调度作业所请求的资源时,从上述剩余CPU资源所对应的节点中选择执行上述待调度作业的节点。
在上述步骤之前,即根据上述资源类型和上述负载信息选择执行上述待调度作业的节点之前,还需执行以下过程:获取上述协处理器资源和CPU资源的指定性能指标,其中,在上述指定性能指标未超过第二预设阈值时,从上协处理器资源所对应的节点或CPU资源所对应的节点中选择上述执行上述待调度作业的节点。
在本实施例中,根据上述资源类型和上述负载信息选择执行上述待调度作业的节点之前,还包括:获取上述协处理器资源和CPU资源的指定性能指标,对各个上述指定性能指标进行加权运算得到综合性能指标;在上述综合性能指标未超过第三预设阈值时,从上述协处理器资源所对应的节点或CPU资源所对应的节点中选择上述执行上述待调度作业的节点。
需要说明的是,在上述根据上述资源类型和上述负载信息选择执行上述待调度作业的节点之后,还需执行:将选择的上述待调度作业节点通知给集群服务器,在本实施例中,上述协处理器至少包括:GPU、数字信号处理器(Digital Signal Processor,简称为DSP)、现场可编程门阵列(Field Programmable Gate Array,简称为FPGA)。
通过上述各个步骤,采用根据获取到的集群作业管理系统中待调度作业所请求的资源类型以及各个节点的负载信息来选择执行上述待调度作业的节点的技术手段。解决了相关技术中,尚无有效的技术方案实现集群和GPU相结合的调度方法。本发明提出一种集群中有效调度GPU的方法,支持GPU的基于预约策略和负载均衡的集群调度,来达到最大的任务并行效率。
在本实施例中还提供了一种基于协处理器的作业调度处理装置,用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述,下面对该装置中涉及到的模块进行说明。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图2是根据本发明实施例的基于协处理器的作业调度处理装置的结构框图。如图2所示,该装置包括:
获取模块22,用于获取待调度作业所请求的资源类型以及各个节点的负载信息,其中上述资源类型包括协处理器资源和CPU资源;
选择模块24,与获取模块22连接,用于根据上述资源类型和上述负载信息选择执行上述待调度作业的节点。
本发明实施例对上述技术方案的进一步改进在于,如图3所示,上述装置还包括:
确定模块26,与获取模块22连接,用于根据各个作业的优先级确定上述待调度作业。
通过上述模块,采用选择模块24根据获取模块22获取到的集群作业管理系统中待调度作业所请求的资源类型以及各个节点的负载信息来选择执行上述待调度作业的节点的技术手段。解决了相关技术中,尚无有效的技术方案实现集群和GPU相结合的调度方法。本发明提出一种集群中有效调度GPU的方法,支持GPU的基于预约策略和负载均衡的集群调度,来达到最大的任务并行效率。
为了更好地理解上述实施例中的协处理器的作业调度处理过程,以下结合优选实施例详细说明。需要说明的是,该优选实施例的方案并不构成对本发明的限定。
图4为根据本发明优选实施例的基于协处理器的作业调度处理系统的结构框图,如图4所示:
本发明优选实施例的主要功能是基于预约策略和负载均衡的调度策略将集群管理系统获取到的所有可利用的资源信息(包括GPU信息),合理的分配给用户使用。该方案主要包括四个模块(如图4所示):信息收集模块42,作业选取模块44,资源预约模块46,负载均衡的节点选取模块48、集群服务器50。
其中信息收集模块42可以在特定的时间或者特定的信号从集群服务器50获取关于整个集群中的队列、作业,节点信息,而节点信息中就包括了各个节点可以使用的CPU、内存、GPU等资源信息,用于作业的调度。作业选取模块44则从信息收集模块42中获得到的作业里根据一定的算法选取下一个考虑投入执行的作业。而在考虑为一个作业筛选合适的执行资源之前,首先会考虑整个系统中那些请求资源多,并且长时间没有获得资源的作业,给这些饥饿作业进行所需资源的预约,这些就是资源预约模块46所要做的事情,这样保证了整个系统中不会出现因资源无法满足而一直不能投入运行的作业。最后一个负载均衡的节点选取模块48根据选取出来将要投入运行作业请求的资源,其中可能包括GPU资源的请求,结合考虑整个系统的负载均衡,选出为作业服务的最优节点,最后这个模块将调度结果发送给集群服务器50,投入运行。
本发明优选实施例一个重要的信息,即每个节点的负载信息,以便能够更好的利用系统资源,提高系统性能。传统的集群作业管理系统中各个节点都是同构的,只需要考虑CPU,内存等信息。而在本发明优选实施例中,集群中加入了GPU高性能计算节点,整个系统是一个异构环境,如图5所示。因此在考虑节点的负载信息时,会将节点分成两类情况考虑:一种是普通节点,选取影响节点性能的2个关键指标:CPU利用率和内存剩余;而对于GPU节点,则要额外考虑GPU的利用率以及GPU的内存剩余。集群运行过程中,节点会定时上报其对应的负载指标,方案中会根据用户配置的各个指标的权重值算出各个节点的综合负载值。在给作业分配运行节点的时候,则会选择负载低且满足作业要求的节点为其服务。
需要说明的是,本发明优选实施例中的信息收集模块42相当于上述实施例中的获取模块22,本发明优选实施例中的作业选取模块44和负载均衡的节点选取模块48完成的功能包括但不限于上述实施例中的选择模块24完成的功能。
图6为根据本发明优选实施例的基于协处理器的作业调度处理方法的流程图。如图6所示,该方法包括:
步骤S602、进行调度器初始化,从配置文件中读取各项资源的权重(如GPU核数、GPU内存,CPU信息等),以及各个节点资源以及整体的负载阈值。
在给作业选取节点的时候,如果节点的某个资源利用率或者整体负载超过配置文件中对应的阈值,就不会考虑这个节点。
步骤S604、当收到server发送过来调度的信号,首先与服务器进行通信,获取所有队列、作业、节点的信息。
步骤S606、根据节点的资源信息以及配置文件中资源权重计算每个节点的负载信息。
步骤S608、对队列中的饥饿作业进行处理,如果饥饿作业请求的资源能够满足,执行步骤S618,如果不能得到满足,转到步骤S610。
步骤S610、对饥饿作业请求的资源进行预约。
步骤S612、对非饥饿作业进行调度,首先判断作业是否请求GPU资源,若不请求,则作业是普通作业,执行步骤S614,若请求,则作业是GPU作业,执行步骤S616。
步骤S614、将作业的资源请求和所有普通节点的剩余资源进行比较,筛选出作业的执行节点,这个步骤里面有可能是为请求CPU资源的任务进行节点的选择,也可能会为非CPU请求的作业进行节点筛选,因其在步骤S616中在GPU节点里面没有满足自身所有的节点请求,剩下的节点请求就会在普通节点中筛选。若作业请求的所有资源都满足,则执行步骤S618。
步骤S616、将作业的资源请求和所有GPU节点的剩余资源进行比较,筛选出作业的执行节点。这个步骤里面有可能是为请求GPU资源的任务进行节点的选择,也可能会为非GPU请求的作业进行节点筛选,因其在步骤S614中在普通节点里面没有满足自身所有的节点请求,剩下的节点请求就会在GPU节点中筛选。若作业请求的所有资源都满足,则执行步骤S618。
步骤S618、将需要投入运行的作业以及其运行的节点信息发送给server端。
步骤S620、更新调度器这边作业、节点、队列等信息。当前是否有作业供调度,有则执行步骤S612,否则这轮调度结束。检查当前作业优先级,如果存在饥饿作业则加入饥饿队列,并执行步骤S604。
综上所述,本发明实施例提供的上述技术方案达到了以下效果:
(1)本发明实施例充分利用了高性能计算的GPU,使之与集群调度相结合,在GPU自己本身并行处理之上提供了集群级的二次并行,从而减少任务运行时间,提高整个集群作业吞吐率。会根据作业请求资源的不同考虑在普通节点还是在GPU节点选取合适的节点运行,这样就很好的构建一个异构环境的集群调度。实际应用中,GPU节点也可以是其它类型的协处理器,例如DSP、FPGA等。
(2)本发明实施例将节点分成了两种类别:普通节点和GPU节点,差别就在于该节点是否使用GPU。对于普通作业,即没有请求GPU的作业,都会优先在普通节点中筛选符合要求的节点,这样做的好处是不会因为普通作业占用GPU节点从而使得真正请求GPU资源的作业不能投入运行。如果作业没有请求GPU资源,但是在普通节点中没有筛选出符合要求的节点,则会考虑从GPU节点中筛选;反之,如果作业请求GPU资源,但是在GPU节点中没有筛选出符合要求的节点,也会考虑从普通节点中筛选。从而实现CPU节点和GPU节点的负载均衡。
(3)本发明实施例将作业分成了两种类别:非饥饿作业和饥饿作业,使用不同的作业队列。对于非饥饿作业,按照作业队列顺序分配计算资源(CPU或者GPU)。而对于饥饿作业,一般已经等待了较长时间无法调度,需要在每次调度之前优先为其预约需要的计算资源,保证其能够得到调度。作业最初都是非饥饿作业,通过初始优先级和等待时间加权计算得到当前优先级,当超过某个阈值时,则加入饥饿作业。加权算法可以根据需要设置,例如:Pn=Po+lgT,其中Pn表示作业加权后的优先级,Po表示初始优先级,T表示等待时间。
(4)本发明实施例对普通节点和GPU节点的各项性能指标都有阈值的设定。这个是由系统管理员进行设定,管理员可以根据节点的不同性能指标的强弱设定与其相符合的阈值,当节点的某个或某些性能参数超过了设定的阈值,那么这个节点就不再参与调度,直到节点上面有作业执行完毕,利用率低于阈值时才会重新参与调度。同时,每个节点还考虑综合指标,并且设定了一个综合阈值。在计算每个节点的综合指标时,管理员需要设定节点上不同性能指标所占的权重,那么综合指标就为各个性能利用率与其权重的乘积和。如果节点的CPU性能比较强,那么管理员可以设定CPU性能的权重大,亦反之。通过这种方式,可以更加合理的发挥各个节点的优势,使得集群系统中资源的利用率提高。
显然,本领域的技术人员应该明白,上述的本发明的各装置或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种基于协处理器的作业调度处理方法,其特征在于,包括:
获取待调度作业所请求的资源类型以及各个节点的负载信息,其中所述资源类型包括协处理器资源和CPU资源;
根据所述资源类型和所述负载信息选择执行所述待调度作业的节点。
2.根据权利要求1所述的方法,其特征在于,获取待调度作业所请求的资源类型以及各个节点的负载信息之前,包括:
根据各个作业的优先级确定所述待调度作业。
3.根据权利要求2所述的方法,其特征在于,根据各个作业的优先级确定所述待调度作业,包括:
利用所述作业的初始优先级和等待时间进行加权计算得到所述作业的当前优先级;
在所述当前优先级大于第一预设阈值时,为所述当前优先级对应的作业预约执行所述当前优先级对应的作业所需要的资源;
将所述当前优先级对应的作业设置为所述待调度作业。
4.根据权利要求1所述的方法,其特征在于,根据所述资源类型和所述负载信息选择执行所述待调度作业的节点,包括:
当获取的所述资源类型为CPU资源时,比较所述资源类型所对应的请求资源和根据所述负载信息确定的剩余CPU资源,在所述剩余节点资源满足所述待调度作业所请求的资源时,从所述剩余CPU资源所对应的节点中选择执行所述待调度作业的节点。
5.根据权利要求4所述的方法,其特征在于,还包括:
在所述剩余CPU资源不满足所述待调度作业所请求的资源时,比较所述待调度作业所请求的资源和协处理器资源,在所述剩余协处理器资源满足所述待调度作业所请求的资源时,从所述剩余协处理器资源所对应的节点中选择执行所述待调度作业的节点。
6.根据权利要求1所述的方法,其特征在于,根据所述资源类型和所述负载信息选择执行所述待调度作业的节点,包括:
当获取的所述资源类型为协处理器资源时,比较所述资源类型所对应的请求资源和根据所述负载信息确定的剩余协处理器资源,在所述剩余协处理器资源满足所述待调度作业所请求的资源时,从所述剩余协处理器资源所对应的节点中选择执行所述待调度作业的节点。
7.根据权利要求6所述的方法,其特征在于,还包括:
在所述剩余协处理器资源不满足所述待调度作业所请求的资源时,比较所述待调度作业所请求的资源和剩余CPU资源,在所述剩余CPU资源满足所述待调度作业所请求的资源时,从所述剩余CPU资源所对应的节点中选择执行所述待调度作业的节点。
8.根据权利要求1所述的方法,其特征在于,根据所述资源类型和所述负载信息选择执行所述待调度作业的节点之前,还包括:
获取所述协处理器资源和CPU资源的指定性能指标,其中,在所述指定性能指标未超过第二预设阈值时,从所述协处理器资源所对应的节点或CPU资源所对应的节点中选择执行所述待调度作业的节点。
9.根据权利要求1所述的方法,其特征在于,根据所述资源类型和所述负载信息选择执行所述待调度作业的节点之前,还包括:
获取所述协处理器资源和CPU资源的指定性能指标,
对各个所述指定性能指标进行加权运算得到综合性能指标;
在所述综合性能指标未超过第三预设阈值时,从所述协处理器资源所对应的节点或CPU资源所对应的节点中选择所述执行所述待调度作业的节点。
10.根据权利要求1至9任一项所述的方法,其特征在于,根据所述资源类型和所述负载信息选择执行所述待调度作业的节点之后,还包括:
将选择的所述待调度作业节点通知给集群服务器。
11.一种基于协处理器的作业调度处理装置,其特征在于,包括:
获取模块,用于获取待调度作业所请求的资源类型以及各个节点的负载信息,其中所述资源类型包括协处理器资源和CPU资源;
选择模块,用于根据所述资源类型和所述负载信息选择执行所述待调度作业的节点。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
确定模块,用于根据各个作业的优先级确定所述待调度作业。
CN201410015495.5A 2014-01-14 2014-01-14 基于协处理器的作业调度处理方法及装置 Pending CN104778080A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410015495.5A CN104778080A (zh) 2014-01-14 2014-01-14 基于协处理器的作业调度处理方法及装置
PCT/CN2014/079889 WO2015106533A1 (zh) 2014-01-14 2014-06-13 基于协处理器的作业调度处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410015495.5A CN104778080A (zh) 2014-01-14 2014-01-14 基于协处理器的作业调度处理方法及装置

Publications (1)

Publication Number Publication Date
CN104778080A true CN104778080A (zh) 2015-07-15

Family

ID=53542353

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410015495.5A Pending CN104778080A (zh) 2014-01-14 2014-01-14 基于协处理器的作业调度处理方法及装置

Country Status (2)

Country Link
CN (1) CN104778080A (zh)
WO (1) WO2015106533A1 (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183582A (zh) * 2015-07-30 2015-12-23 北京奇虎科技有限公司 数据备份方法及装置
CN106095572A (zh) * 2016-06-08 2016-11-09 东方网力科技股份有限公司 一种大数据处理的分布式调度系统及方法
CN106201723A (zh) * 2016-07-13 2016-12-07 浪潮(北京)电子信息产业有限公司 一种数据中心的资源调度方法及装置
CN106648877A (zh) * 2015-10-28 2017-05-10 阿里巴巴集团控股有限公司 资源申请、释放方法及装置
CN106959891A (zh) * 2017-03-30 2017-07-18 山东超越数控电子有限公司 一种实现gpu调度的集群管理方法和系统
WO2017167070A1 (zh) * 2016-03-30 2017-10-05 阿里巴巴集团控股有限公司 集群数据复制方法、优先级确定方法及装置
CN107680029A (zh) * 2017-08-31 2018-02-09 深圳天珑无线科技有限公司 图像处理方法、电子设备及具有存储功能的装置
CN107688495A (zh) * 2017-06-22 2018-02-13 平安科技(深圳)有限公司 调度处理器的方法及设备
CN107924309A (zh) * 2015-07-30 2018-04-17 华为技术有限公司 用于可变通道架构的系统和方法
WO2018076238A1 (zh) * 2016-10-27 2018-05-03 华为技术有限公司 异构系统、计算任务分配方法及装置
CN108289086A (zh) * 2017-01-10 2018-07-17 阿里巴巴集团控股有限公司 请求处理方法及装置、服务器
CN109034396A (zh) * 2018-07-11 2018-12-18 北京百度网讯科技有限公司 用于处理分布式集群中的深度学习作业的方法和装置
CN109101339A (zh) * 2018-08-15 2018-12-28 北京邮电大学 异构集群中视频任务并行化方法、装置及异构集群系统
CN109254846A (zh) * 2018-08-01 2019-01-22 国电南瑞科技股份有限公司 基于两级调度的cpu与gpu协同计算的动态调度方法及系统
CN109408238A (zh) * 2018-10-31 2019-03-01 西安万像电子科技有限公司 信息处理方法及装置
CN110389824A (zh) * 2018-04-20 2019-10-29 伊姆西Ip控股有限责任公司 处理计算任务的方法、设备和计算机程序产品
CN111045795A (zh) * 2018-10-11 2020-04-21 浙江宇视科技有限公司 资源调度方法及装置
CN111045804A (zh) * 2019-11-26 2020-04-21 泰康保险集团股份有限公司 一种任务分配方法、装置、介质及电子设备
CN112035247A (zh) * 2020-08-12 2020-12-04 博泰车联网(南京)有限公司 一种资源调度方法、车机及计算机存储介质
CN112162864A (zh) * 2020-10-26 2021-01-01 新华三大数据技术有限公司 一种云资源分配方法、装置及存储介质
CN112764904A (zh) * 2021-01-22 2021-05-07 珠海亿智电子科技有限公司 基于多任务系统中防止低优先级任务饿死的方法
CN114039921A (zh) * 2021-11-22 2022-02-11 北京计算机技术及应用研究所 一种适用于异构计算平台的ice负载均衡系统
CN114327841A (zh) * 2022-03-16 2022-04-12 上海闪马智能科技有限公司 一种资源调度方法、装置、存储介质及电子装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477674A (zh) * 2008-01-04 2009-07-08 华硕电脑股份有限公司 利用显卡协助运算资料的方法
CN102521050A (zh) * 2011-12-02 2012-06-27 曙光信息产业(北京)有限公司 一种面向cpu和gpu的混合调度方法
CN102929720A (zh) * 2012-09-24 2013-02-13 曙光信息产业(北京)有限公司 一种节能作业调度系统
CN103336714A (zh) * 2013-06-20 2013-10-02 北京奇虎科技有限公司 一种作业调度方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8205205B2 (en) * 2007-03-16 2012-06-19 Sap Ag Multi-objective allocation of computational jobs in client-server or hosting environments
CN101819540B (zh) * 2009-02-27 2013-03-20 国际商业机器公司 在集群中调度任务的方法和系统
US8984519B2 (en) * 2010-11-17 2015-03-17 Nec Laboratories America, Inc. Scheduler and resource manager for coprocessor-based heterogeneous clusters
CN103268253A (zh) * 2012-02-24 2013-08-28 苏州蓝海彤翔系统科技有限公司 一种智能化的多尺度并行渲染作业调度管理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477674A (zh) * 2008-01-04 2009-07-08 华硕电脑股份有限公司 利用显卡协助运算资料的方法
CN102521050A (zh) * 2011-12-02 2012-06-27 曙光信息产业(北京)有限公司 一种面向cpu和gpu的混合调度方法
CN102929720A (zh) * 2012-09-24 2013-02-13 曙光信息产业(北京)有限公司 一种节能作业调度系统
CN103336714A (zh) * 2013-06-20 2013-10-02 北京奇虎科技有限公司 一种作业调度方法和装置

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183582A (zh) * 2015-07-30 2015-12-23 北京奇虎科技有限公司 数据备份方法及装置
US10691463B2 (en) 2015-07-30 2020-06-23 Futurewei Technologies, Inc. System and method for variable lane architecture
CN107924309A (zh) * 2015-07-30 2018-04-17 华为技术有限公司 用于可变通道架构的系统和方法
CN105183582B (zh) * 2015-07-30 2019-03-08 北京奇虎科技有限公司 数据备份方法及装置
US10884756B2 (en) 2015-07-30 2021-01-05 Futurewei Technologies, Inc. System and method for variable lane architecture
CN106648877A (zh) * 2015-10-28 2017-05-10 阿里巴巴集团控股有限公司 资源申请、释放方法及装置
CN106648877B (zh) * 2015-10-28 2020-08-25 阿里巴巴集团控股有限公司 资源申请、释放方法及装置
CN107291724A (zh) * 2016-03-30 2017-10-24 阿里巴巴集团控股有限公司 集群数据复制方法、优先级确定方法及装置
WO2017167070A1 (zh) * 2016-03-30 2017-10-05 阿里巴巴集团控股有限公司 集群数据复制方法、优先级确定方法及装置
CN106095572A (zh) * 2016-06-08 2016-11-09 东方网力科技股份有限公司 一种大数据处理的分布式调度系统及方法
CN106095572B (zh) * 2016-06-08 2019-12-06 东方网力科技股份有限公司 一种大数据处理的分布式调度系统及方法
CN106201723A (zh) * 2016-07-13 2016-12-07 浪潮(北京)电子信息产业有限公司 一种数据中心的资源调度方法及装置
WO2018076238A1 (zh) * 2016-10-27 2018-05-03 华为技术有限公司 异构系统、计算任务分配方法及装置
CN108289086B (zh) * 2017-01-10 2020-11-24 阿里巴巴集团控股有限公司 请求处理方法及装置、服务器
CN108289086A (zh) * 2017-01-10 2018-07-17 阿里巴巴集团控股有限公司 请求处理方法及装置、服务器
CN106959891A (zh) * 2017-03-30 2017-07-18 山东超越数控电子有限公司 一种实现gpu调度的集群管理方法和系统
CN107688495A (zh) * 2017-06-22 2018-02-13 平安科技(深圳)有限公司 调度处理器的方法及设备
CN107680029A (zh) * 2017-08-31 2018-02-09 深圳天珑无线科技有限公司 图像处理方法、电子设备及具有存储功能的装置
CN110389824A (zh) * 2018-04-20 2019-10-29 伊姆西Ip控股有限责任公司 处理计算任务的方法、设备和计算机程序产品
CN109034396A (zh) * 2018-07-11 2018-12-18 北京百度网讯科技有限公司 用于处理分布式集群中的深度学习作业的方法和装置
CN109254846B (zh) * 2018-08-01 2022-06-03 国电南瑞科技股份有限公司 基于两级调度的cpu与gpu协同计算的动态调度方法及系统
CN109254846A (zh) * 2018-08-01 2019-01-22 国电南瑞科技股份有限公司 基于两级调度的cpu与gpu协同计算的动态调度方法及系统
CN109101339B (zh) * 2018-08-15 2019-05-31 北京邮电大学 异构集群中视频任务并行化方法、装置及异构集群系统
CN109101339A (zh) * 2018-08-15 2018-12-28 北京邮电大学 异构集群中视频任务并行化方法、装置及异构集群系统
CN111045795A (zh) * 2018-10-11 2020-04-21 浙江宇视科技有限公司 资源调度方法及装置
CN109408238A (zh) * 2018-10-31 2019-03-01 西安万像电子科技有限公司 信息处理方法及装置
CN111045804A (zh) * 2019-11-26 2020-04-21 泰康保险集团股份有限公司 一种任务分配方法、装置、介质及电子设备
CN111045804B (zh) * 2019-11-26 2024-03-19 泰康保险集团股份有限公司 一种任务分配方法、装置、介质及电子设备
CN112035247A (zh) * 2020-08-12 2020-12-04 博泰车联网(南京)有限公司 一种资源调度方法、车机及计算机存储介质
CN112162864A (zh) * 2020-10-26 2021-01-01 新华三大数据技术有限公司 一种云资源分配方法、装置及存储介质
CN112764904A (zh) * 2021-01-22 2021-05-07 珠海亿智电子科技有限公司 基于多任务系统中防止低优先级任务饿死的方法
CN114039921A (zh) * 2021-11-22 2022-02-11 北京计算机技术及应用研究所 一种适用于异构计算平台的ice负载均衡系统
CN114039921B (zh) * 2021-11-22 2024-04-19 北京计算机技术及应用研究所 一种适用于异构计算平台的ice负载均衡系统
CN114327841A (zh) * 2022-03-16 2022-04-12 上海闪马智能科技有限公司 一种资源调度方法、装置、存储介质及电子装置

Also Published As

Publication number Publication date
WO2015106533A1 (zh) 2015-07-23

Similar Documents

Publication Publication Date Title
CN104778080A (zh) 基于协处理器的作业调度处理方法及装置
Liu et al. Job scheduling model for cloud computing based on multi-objective genetic algorithm
Zhu et al. Scheduling stochastic multi-stage jobs to elastic hybrid cloud resources
Karthick et al. An efficient multi queue job scheduling for cloud computing
CN103731372B (zh) 一种混合云环境下服务提供者的资源供应方法
CN110389816B (zh) 用于资源调度的方法、装置以及计算机可读介质
CN103999051A (zh) 用于着色器核心中着色器资源分配的策略
CN103150213A (zh) 负载平衡方法和装置
CN110231986A (zh) 基于多fpga的动态可重配置的多任务调度和放置方法
Min-Allah et al. Cost efficient resource allocation for real-time tasks in embedded systems
CN111343288B (zh) 作业调度方法、系统及计算设备
CN110308982A (zh) 一种共享内存复用方法及装置
CN113946431B (zh) 一种资源调度方法、系统、介质及计算设备
CN113886034A (zh) 任务调度方法、系统、电子设备及存储介质
Avasalcai et al. Latency-aware distributed resource provisioning for deploying IoT applications at the edge of the network
CN113765949A (zh) 资源分配的方法以及装置
CN114371933A (zh) 一种动态调度多核融合计算处理器的方法及其系统
Soni et al. Grouping-based job scheduling model in grid computing
Peri et al. Orchestrating the execution of serverless functions in hybrid clouds
Kousalya et al. Hybrid algorithm based on genetic algorithm and PSO for task scheduling in cloud computing environment
CN116010051A (zh) 一种联邦学习多任务调度方法及装置
CN112506640B (zh) 一种用于加密运算芯片的多处理器架构及调配方法
CN106293670A (zh) 一种事件处理方法、设备及一种服务器
Sibai Simulation and performance analysis of multi-core thread scheduling and migration algorithms
CN114489978A (zh) 资源调度方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150715