CN110187960A - 一种分布式资源调度方法及装置 - Google Patents

一种分布式资源调度方法及装置 Download PDF

Info

Publication number
CN110187960A
CN110187960A CN201910330310.2A CN201910330310A CN110187960A CN 110187960 A CN110187960 A CN 110187960A CN 201910330310 A CN201910330310 A CN 201910330310A CN 110187960 A CN110187960 A CN 110187960A
Authority
CN
China
Prior art keywords
hardware resource
resource
subtask
distributed
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910330310.2A
Other languages
English (en)
Inventor
魏千洲
张东波
秦昊
杨瑞
凌翔
刘智
林利彬
张昱
王晓旭
郭旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Institute of Intelligent Manufacturing
Original Assignee
Guangdong Institute of Intelligent Manufacturing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Institute of Intelligent Manufacturing filed Critical Guangdong Institute of Intelligent Manufacturing
Priority to CN201910330310.2A priority Critical patent/CN110187960A/zh
Publication of CN110187960A publication Critical patent/CN110187960A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multi Processors (AREA)

Abstract

本发明涉及一种分布式资源调度方法及装置。所述方法包括步骤:将分布式计算系统待完成的总任务划分为多个可并行处理的子任务;估算完成各所述子任务所需要的第一硬件资源;获取分布式计算系统的节点列表,并获取各个节点当前剩余可使用的第二硬件资源,将所述第一硬件资源与所述第二硬件资源进行比较,为各所述子任务分配最适合处理的节点及硬件资源;更新分布式计算系统的节点列表中各节点当前剩余可使用的第二硬件资源列表。本发明能够有效地根据任务将分布式系统的资源进行分配,避免大规模资源浪费,提高任务执行效率,缩短任务完成时间。

Description

一种分布式资源调度方法及装置
技术领域
本发明涉及分布式计算技术领域,尤其是涉及一种分布式资源调度方法及装置。
背景技术
作为信息领域研究热点的分布式计算,主要是通过计算机网络或互联网连接大量的资源,为不同的用户提供存储和计算等各种服务。分布式计算面对的计算任务庞大,任务调度和资源分配问题成为分布式计算效率的关键,针对用户对分布式计算平台的不同的任务需求,要求分布式计算服务提供商能够制定合适的服务策略。
发明人在研究中发现,传统技术中的分布式系统中集群节点数量庞大,资源利用率低,定制的任务对资源的需求不同,任务之间往往也出现抢资源的问题,不适当的资源分配会造成任务完成时间过长,也会造成大规模的资源浪费。
发明内容
有鉴于此,有必要针对上述的问题,提供一种分布式资源调度方法及装置,能够有效地根据任务将分布式系统的资源进行分配,避免大规模资源浪费,提高任务执行效率,缩短任务完成时间。
一种分布式资源调度方法,包括:
将分布式计算系统待完成的总任务划分为多个可并行处理的子任务;
估算完成各所述子任务所需要的第一硬件资源;
获取分布式计算系统的节点列表,并获取各个节点当前剩余可使用的第二硬件资源,将所述第一硬件资源与所述第二硬件资源进行比较,为各所述子任务分配最适合处理的节点及硬件资源;
更新分布式计算系统的节点列表中各节点当前剩余可使用的第二硬件资源列表。
所述将分布式计算系统待完成的总任务划分为多个可并行处理的子任务的步骤,包括:
将分布式计算系统待完成的总任务划分为多个可并行处理的子任务,并确定各所述子任务的优先级。
所述将所述第一硬件资源与所述第二硬件资源进行比较,为各所述子任务分配最适合处理的节点及硬件资源的步骤,包括:
根据各所述子任务的优先级的先后顺序,将所述第一硬件资源与所述第二硬件资源进行比较,为各所述子任务分配最适合处理的节点及硬件资源。
所述第一硬件资源和所述第二硬件资源至少包括CPU资源、内存资源和GPU资源。
所述方法包括:
将所述第一硬件资源与所述第二硬件资源进行比较时,为所述CPU资源、所述内存资源和所述GPU资源设置不同的比较权重。
一种分布式资源调度装置,包括:
任务划分模块,用以将分布式计算系统待完成的总任务划分为多个可并行处理的子任务;
硬件资源估算模块,用以估算完成各所述子任务所需要的第一硬件资源;
硬件资源比较模块,用以获取分布式计算系统的节点列表,并获取各个节点当前剩余可使用的第二硬件资源,将所述第一硬件资源与所述第二硬件资源进行比较,为各所述子任务分配最适合处理的节点及硬件资源;
硬件资源列表更新模块,用以更新分布式计算系统的节点列表中各节点当前剩余可使用的第二硬件资源列表。
所述任务划分模块用以将分布式计算系统待完成的总任务划分为多个可并行处理的子任务,并确定各所述子任务的优先级。
所述硬件资源比较模块,用以根据各所述子任务的优先级的先后顺序,将所述第一硬件资源与所述第二硬件资源进行比较,为各所述子任务分配最适合处理的节点及硬件资源。
所述第一硬件资源和所述第二硬件资源至少包括CPU资源、内存资源和GPU资源。
所述硬件资源比较模块将所述第一硬件资源与所述第二硬件资源进行比较时,为所述CPU资源、所述内存资源和所述GPU资源设置不同的比较权重。
本发明的分布式资源调度方法和装置,将待完成的总任务划分为多个并行处理的子任务,估算各个子任务完成所需要的硬件资源,获取节点列表,并未各个子任务分配最适合的节点及硬件资源,相比于传统技术,能够有效地根据任务将分布式系统的资源进行分配,避免大规模资源浪费,提高任务执行效率,缩短任务完成时间。
附图说明
图1是本发明的一种分布式资源调度方法的流程示意图;
图2是本发明的一种分布式资源调度方法的应用场景示意图;
图3是本发明的一种分布式资源调度装置的结构示意图。
具体实施方式
参见图1,在本发明的一个实施例中提供了一种分布式资源调度方法,包括:
步骤101,将分布式计算系统待完成的总任务划分为多个可并行处理的子任务。
具体的,本步骤中,将分布式计算系统待完成的总任务划分为多个可并行处理的子任务,并确定各所述子任务的优先级。
步骤102,估算完成各子任务所需要的第一硬件资源。
具体的,第一硬件资源可以包括CPU资源、内存资源和GPU资源等。例如CPU资源包括线程数目、主频等。
步骤103,获取分布式计算系统的节点列表,并获取各个节点当前剩余可使用的第二硬件资源,将第一硬件资源与第二硬件资源进行比较,为各子任务分配最适合处理的节点及硬件资源。
具体的,本步骤根据各子任务的优先级的先后顺序,将第一硬件资源与第二硬件资源进行比较,为各子任务分配最适合处理的节点及硬件资源。
本步骤中,将所述第一硬件资源与所述第二硬件资源进行比较时,为所述CPU资源、所述内存资源和所述GPU资源设置不同的比较权重,例如可以但不限于将内存资源的参数设置最大的比较权重,即分配节点时优先选取可用内存最大的节点来处理子任务。
步骤104,更新分布式计算系统的节点列表中各节点当前剩余可使用的第二硬件资源列表。
参见图2,在一个应用场景中具体说明本发明的分布式资源调度方法。
如图2所示,包括一个主节点Master和四个子节点Slave。主节点与子节点的硬件配置如下:
Master:16核32线程,主频4.0,64G内存,P5000显卡,512G SSD;
Slave1:8核16线程,主频4.0,32G内存,P6000显卡,512G SSD;
Slave2:8核16线程,主频4.0,32G内存,P6000显卡,512G SSD;
Slave3:8核16线程,主频4.0,32G内存,P6000显卡,512G SSD;
Slave4:8核16线程,主频4.0,32G内存,P6000显卡,512G SSD;
本实施例中,主节点Master把总任务T划分为5个可并行处理的子任务t1、t2、t3、t4、t5,5个子任务皆为同一个优先级。
Master估算5个子任务所需要的硬件资源:假设5个子任务所需要的第一硬件资源为:
t1:14线程,10G内存,50%GPU使用率;
t2:3线程,3G内存,10%GPU使用率;
t3:1线程,500M内存,0GPU使用率;
t4:5线程,5G内存,20%GPU使用率;
t5:2线程,2G内存,15%GPU使用率;
Master获取分布式系统中的所有子节点,组成节点列表node=[Slave1,Slave2,Slave3,Slave4]。
Master获取node中剩余可使用的硬件资源,假设4个Slave剩余硬件资源为:
Slave1:16线程,25G内存,GPU使用率80%;
Slave2:13线程,25G内存,GPU使用率80%;
Slave3:8线程,20G内存,GPU使用率60%;
Slave4:8线程,16G内存,GPU使用率40%;
则第二硬件资源列表src={Slave1:[16,25,80%],Slave2:[13,25,80%],Slave3:[8,20,60%],Slave4:[8,16,40%]}
由于5个子任务优先级相同,则从t1开始,从src中获取资源。
由于t1所需要的硬件资源为[14,10,50],因此,Slave1的剩余可使用资源可执行任务t1;
t2所需要的硬件资源为[3,3,10%],由于Slave1资源不够,因此t2在Slave2上执行;
t3所需要的硬件资源为[1,0.5,0],Slave1执行t1任务后剩余的硬件资源足够执行t3,因此t3在Slave1上执行;
t4、t5所需要的硬件总和低于Slave执行t2任务后剩余的硬件资源,因此t4、t5任务可以由Slave2执行。
分配完5个子任务后,更新硬件资源列表,4个节点剩余的硬件资源
src={Slave1:[1,14.5,30%],Slave2:[3,15,35%],Slave3:[8,20,60%],Slave4:[8,16,40%]}。
参见图3,一种分布式资源调度装置,包括:
任务划分模块,用以将分布式计算系统待完成的总任务划分为多个可并行处理的子任务;
硬件资源估算模块,用以估算完成各所述子任务所需要的第一硬件资源;
硬件资源比较模块,用以获取分布式计算系统的节点列表,并获取各个节点当前剩余可使用的第二硬件资源,将所述第一硬件资源与所述第二硬件资源进行比较,为各所述子任务分配最适合处理的节点及硬件资源;
硬件资源列表更新模块,用以更新分布式计算系统的节点列表中各节点当前剩余可使用的第二硬件资源列表。
所述任务划分模块用以将分布式计算系统待完成的总任务划分为多个可并行处理的子任务,并确定各所述子任务的优先级。
所述硬件资源比较模块,用以根据各所述子任务的优先级的先后顺序,将所述第一硬件资源与所述第二硬件资源进行比较,为各所述子任务分配最适合处理的节点及硬件资源。
所述第一硬件资源和所述第二硬件资源至少包括CPU资源、内存资源和GPU资源。
所述硬件资源比较模块将所述第一硬件资源与所述第二硬件资源进行比较时,为所述CPU资源、所述内存资源和所述GPU资源设置不同的比较权重。
本发明的分布式资源调度方法和装置,将待完成的总任务划分为多个并行处理的子任务,估算各个子任务完成所需要的硬件资源,获取节点列表,并未各个子任务分配最适合的节点及硬件资源,相比于传统技术,能够有效地根据任务将分布式系统的资源进行分配,避免大规模资源浪费,提高任务执行效率,缩短任务完成时间。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种分布式资源调度方法,其特征在于,所述方法包括步骤:
将分布式计算系统待完成的总任务划分为多个可并行处理的子任务;
估算完成各所述子任务所需要的第一硬件资源;
获取分布式计算系统的节点列表,并获取各个节点当前剩余可使用的第二硬件资源,将所述第一硬件资源与所述第二硬件资源进行比较,为各所述子任务分配最适合处理的节点及硬件资源;
更新分布式计算系统的节点列表中各节点当前剩余可使用的第二硬件资源列表。
2.根据权利要求1所述的分布式资源调度方法,其特征在于,所述将分布式计算系统待完成的总任务划分为多个可并行处理的子任务的步骤,包括:
将分布式计算系统待完成的总任务划分为多个可并行处理的子任务,并确定各所述子任务的优先级。
3.根据权利要求2所述的分布式资源调度方法,其特征在于,所述将所述第一硬件资源与所述第二硬件资源进行比较,为各所述子任务分配最适合处理的节点及硬件资源的步骤,包括:
根据各所述子任务的优先级的先后顺序,将所述第一硬件资源与所述第二硬件资源进行比较,为各所述子任务分配最适合处理的节点及硬件资源。
4.根据权利要求1至3任一项所述的分布式资源调度方法,其特征在于,所述第一硬件资源和所述第二硬件资源至少包括CPU资源、内存资源和GPU资源。
5.根据权利要求4所述的分布式资源调度方法,其特征在于,所述方法包括:
将所述第一硬件资源与所述第二硬件资源进行比较时,为所述CPU资源、所述内存资源和所述GPU资源设置不同的比较权重。
6.一种分布式资源调度装置,其特征在于,所述装置包括:
任务划分模块,用以将分布式计算系统待完成的总任务划分为多个可并行处理的子任务;
硬件资源估算模块,用以估算完成各所述子任务所需要的第一硬件资源;
硬件资源比较模块,用以获取分布式计算系统的节点列表,并获取各个节点当前剩余可使用的第二硬件资源,将所述第一硬件资源与所述第二硬件资源进行比较,为各所述子任务分配最适合处理的节点及硬件资源;
硬件资源列表更新模块,用以更新分布式计算系统的节点列表中各节点当前剩余可使用的第二硬件资源列表。
7.根据权利要求6所述的分布式资源调度装置,其特征在于,所述任务划分模块用以将分布式计算系统待完成的总任务划分为多个可并行处理的子任务,并确定各所述子任务的优先级。
8.根据权利要求7所述的分布式资源调度装置,其特征在于,所述硬件资源比较模块,用以根据各所述子任务的优先级的先后顺序,将所述第一硬件资源与所述第二硬件资源进行比较,为各所述子任务分配最适合处理的节点及硬件资源。
9.根据权利要求6至8任一项所述的分布式资源调度装置,其特征在于,所述第一硬件资源和所述第二硬件资源至少包括CPU资源、内存资源和GPU资源。
10.根据权利要求9所述的分布式资源调度装置,其特征在于,所述硬件资源比较模块将所述第一硬件资源与所述第二硬件资源进行比较时,为所述CPU资源、所述内存资源和所述GPU资源设置不同的比较权重。
CN201910330310.2A 2019-04-23 2019-04-23 一种分布式资源调度方法及装置 Pending CN110187960A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910330310.2A CN110187960A (zh) 2019-04-23 2019-04-23 一种分布式资源调度方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910330310.2A CN110187960A (zh) 2019-04-23 2019-04-23 一种分布式资源调度方法及装置

Publications (1)

Publication Number Publication Date
CN110187960A true CN110187960A (zh) 2019-08-30

Family

ID=67714893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910330310.2A Pending CN110187960A (zh) 2019-04-23 2019-04-23 一种分布式资源调度方法及装置

Country Status (1)

Country Link
CN (1) CN110187960A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750362A (zh) * 2019-12-19 2020-02-04 深圳华大基因科技服务有限公司 生物信息的分析方法、装置和存储介质
CN111209102A (zh) * 2020-01-08 2020-05-29 湖南映客互娱网络信息有限公司 一种分布式任务分发方法与系统
CN111225050A (zh) * 2020-01-02 2020-06-02 中国神华能源股份有限公司神朔铁路分公司 云计算资源分配方法及装置
CN111552547A (zh) * 2020-04-21 2020-08-18 北京金山云网络技术有限公司 作业处理方法、装置以及计算机设备
CN111679860A (zh) * 2020-08-12 2020-09-18 上海冰鉴信息科技有限公司 分布式信息处理方法及装置
CN112540841A (zh) * 2020-12-28 2021-03-23 智慧神州(北京)科技有限公司 任务调度的方法、装置、处理器与电子设备
CN113391886A (zh) * 2020-03-11 2021-09-14 上海商汤智能科技有限公司 任务调度方法和装置
CN113391914A (zh) * 2020-03-11 2021-09-14 上海商汤智能科技有限公司 任务调度方法和装置
WO2021180092A1 (zh) * 2020-03-11 2021-09-16 上海商汤智能科技有限公司 任务调度方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598318A (zh) * 2014-12-30 2015-05-06 北京奇艺世纪科技有限公司 节点计算能力的汇报方法和计算节点
CN107135257A (zh) * 2017-04-28 2017-09-05 东方网力科技股份有限公司 一种节点集群中任务分配的方法、节点和系统
US20180109428A1 (en) * 2016-10-19 2018-04-19 Tata Consultancy Services Limited Optimal deployment of fog computations in iot environments
CN109471705A (zh) * 2017-09-08 2019-03-15 杭州海康威视数字技术股份有限公司 任务调度的方法、设备及系统、计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598318A (zh) * 2014-12-30 2015-05-06 北京奇艺世纪科技有限公司 节点计算能力的汇报方法和计算节点
US20180109428A1 (en) * 2016-10-19 2018-04-19 Tata Consultancy Services Limited Optimal deployment of fog computations in iot environments
CN107135257A (zh) * 2017-04-28 2017-09-05 东方网力科技股份有限公司 一种节点集群中任务分配的方法、节点和系统
CN109471705A (zh) * 2017-09-08 2019-03-15 杭州海康威视数字技术股份有限公司 任务调度的方法、设备及系统、计算机设备

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750362A (zh) * 2019-12-19 2020-02-04 深圳华大基因科技服务有限公司 生物信息的分析方法、装置和存储介质
CN111225050A (zh) * 2020-01-02 2020-06-02 中国神华能源股份有限公司神朔铁路分公司 云计算资源分配方法及装置
CN111209102A (zh) * 2020-01-08 2020-05-29 湖南映客互娱网络信息有限公司 一种分布式任务分发方法与系统
CN113391886A (zh) * 2020-03-11 2021-09-14 上海商汤智能科技有限公司 任务调度方法和装置
CN113391914A (zh) * 2020-03-11 2021-09-14 上海商汤智能科技有限公司 任务调度方法和装置
WO2021180092A1 (zh) * 2020-03-11 2021-09-16 上海商汤智能科技有限公司 任务调度方法和装置
TWI786564B (zh) * 2020-03-11 2022-12-11 大陸商上海商湯智能科技有限公司 任務調度方法和裝置、儲存媒體及計算機設備
CN111552547A (zh) * 2020-04-21 2020-08-18 北京金山云网络技术有限公司 作业处理方法、装置以及计算机设备
CN111679860A (zh) * 2020-08-12 2020-09-18 上海冰鉴信息科技有限公司 分布式信息处理方法及装置
CN112540841A (zh) * 2020-12-28 2021-03-23 智慧神州(北京)科技有限公司 任务调度的方法、装置、处理器与电子设备

Similar Documents

Publication Publication Date Title
CN110187960A (zh) 一种分布式资源调度方法及装置
CN106293950B (zh) 一种面向集群系统的资源优化管理方法
Wang et al. Dominant resource fairness in cloud computing systems with heterogeneous servers
CN112153700B (zh) 一种网络切片资源管理方法及设备
Wang et al. Multi-resource fair allocation in heterogeneous cloud computing systems
US20190319895A1 (en) Resource Scheduling Method And Apparatus
WO2019001092A1 (zh) 负载均衡引擎,客户端,分布式计算系统以及负载均衡方法
CN104391918B (zh) 基于对等部署的分布式数据库查询优先级管理的实现方法
US9563474B2 (en) Methods for managing threads within an application and devices thereof
CN106445675B (zh) 一种b2b平台分布式应用调度与资源分配方法
US20120117242A1 (en) Service linkage system and information processing system
CN103530185B (zh) 资源优化方法及装置
WO2016025924A1 (en) Systems and methods for auto-scaling a big data system
Ashouraei et al. A new SLA-aware load balancing method in the cloud using an improved parallel task scheduling algorithm
CN103023980A (zh) 一种云平台处理用户服务请求的方法和系统
CN109257399A (zh) 云平台应用程序管理方法及管理平台、存储介质
WO2018157768A1 (zh) 调度运行设备的方法、设备和运行设备
CN110221920A (zh) 部署方法、装置、存储介质及系统
CN105867998A (zh) 一种虚拟机集群部署算法
CN108111337B (zh) 分布式系统仲裁主节点的方法及设备
CN114116173A (zh) 动态调整任务分配的方法、装置和系统
Tseng et al. An mec-based vnf placement and scheduling scheme for ar application topology
CN107360031B (zh) 一种基于优化开销收益比的虚拟网络映射方法
WO2020108337A1 (zh) 一种cpu资源调度方法及电子设备
CN108984286A (zh) 一种云计算平台的资源调度方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190830

RJ01 Rejection of invention patent application after publication