CN109976911B - 一种自适应资源调度方法 - Google Patents

一种自适应资源调度方法 Download PDF

Info

Publication number
CN109976911B
CN109976911B CN201910230528.0A CN201910230528A CN109976911B CN 109976911 B CN109976911 B CN 109976911B CN 201910230528 A CN201910230528 A CN 201910230528A CN 109976911 B CN109976911 B CN 109976911B
Authority
CN
China
Prior art keywords
gpu
gpus
resource allocation
data
allocation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910230528.0A
Other languages
English (en)
Other versions
CN109976911A (zh
Inventor
邓牌
李晋
程建华
史长亭
白玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN201910230528.0A priority Critical patent/CN109976911B/zh
Publication of CN109976911A publication Critical patent/CN109976911A/zh
Application granted granted Critical
Publication of CN109976911B publication Critical patent/CN109976911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/508Monitor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提供的是一种自适应资源调度方法。步骤一,模块化处理;步骤二,确定主次级GPU;步骤三,监测各GPU运行状态;步骤四;实时动态分配;步骤五,分散处理数据;步骤六,汇总组合;步骤七,完成学习。该发明,资源分配方式分为两级,第一级分配通过将平台模块化,然后划分主次级GPU使用权力,第二级分配以一种服务器自我学习方式,根据以往的任务经验估计动态资源分配量来分配资源,使得整个平台合理分配平台硬件资源,提高系统吞吐量、提高硬件资源的利用率,加快神经网络任务的训练速度,避免出现部分GPU闲置状况,解决资源调度,使得整个系统的负载均衡,没有闲置资源的情况。

Description

一种自适应资源调度方法
技术领域
本发明涉及的是一种深度学习方法,具体涉及一种基于分布式TensorFlow平台的自适应资源调度方法。
背景技术
近年来,随着各种图像识别大赛的盛行和谷歌人工智能AlphaGo屡次战胜人类围棋顶级大师,人工智能开始火爆,其底层技术深度学习也受到许多研究学者的关注,国内外各大公司纷纷推出各自的深度学习框架,其中以谷歌推出的TensorFlow最为热门。
神经网络的构建非常复杂,TensorFlow只需使用API的调用便能实现复杂神经网络的构建,极大加快了开发速度,而用于深度学习的数据量又极其庞大,庞大的数据量意味着庞大的计算量,神经网络的训练离不开庞大的数据量来训练学习获得更高的准确率,海量的数据和巨大的计算量的双重压力下,无疑给硬件资源带来了巨大的挑战。
因此,深度学习任务通常在分布式部署下完成,以解决个人PC在硬件资源方面的瓶颈,但是,现有的分布式部署虽然容易,但是资源利用率通常不高,在单任务的情况下很难配置好合适的资源利用阈值,多数都在满负荷运行单任务,导致多任务的时候没有硬件资源执行其他任务。多任务下更是难以合理分配硬件资源,有时候一些相对简单任务占用资源甚至高于相对复杂任务,导致多任务效率不高,甚至有资源空闲的情况,整个分布式系统执行效率和资源利用率都难以得到有效保证。
发明内容
本发明的目的在于提供一种能够避免出现部分GPU闲置状况,使得负载均衡,提高资源利用率的自适应资源调度方法。
本发明的目的是这样实现的:
步骤一,模块化处理;
步骤二,确定主次级GPU;
步骤三,监测各GPU运行状态;
步骤四;实时动态分配;
步骤五,分散处理数据;
步骤六,汇总组合;
步骤七,完成学习。
本发明还可以包括:
1.所述的模块化处理是指:将服务器按照视频、语音、文字和图片划分为四个模块,在四个模块均等配制GPU。
2.所述确定主次级GPU是指:对GPU进行评估,判定各个GPU的计算处理能力,本模块直属的GPU为主级GPU,其他模块的GPU为本模块的次级GPU。
3.所述的监测各GPU运行状态是指:定时监控各个模块的计算强度,同时对各个GPU的运行状态进行监控。
4.所述的实时动态分配是指:当本模块的计算和需处理的数据多时,本模块的直属GPU进行本模块的数据处理,当检测到其他模块的GPU同时工作时,并且资源分配不均时,采用类BP算法的方法,通过T时间点的资源分配量和以往执行历史中类似任务的资源分配量预测T+1或者T+n时间点的资源分配,并动态实时更新资源分配方式。
5.所述的汇总组合是指:在其他模块的GPU工作完毕后,将已完成训练GPU处理的数据输送到未完成的计算服务器内部,空闲出已完成任务的服务器资源,通过等待最后完成计算进行汇合处理。
6.所述的完成学习是指:当数据处理完毕后,被储存到TensorFlow平台内部,完成学习。
本发明是一种基于TensorFlow分布式平台自适应资源调度方法,其主要技术手段是:
1)将服务器按照视频、语音、文字和图片划分为四个模块,在四个模块均等配制有GPU,对GPU进行评估,判定各个GPU的计算处理能力;
2)在TensorFlow使用时,对视频、语音、文字和图片四个模块进行监测,同时对各个GPU的运行状态监测,在资源分配不均时,采用类BP算法的方法,通过T时间点的资源分配量和以往执行历史中类似任务的资源分配量预测T+1或者T+n时间点的资源分配,并动态实时更新资源分配方式,时间点动态可调节,时间间隔大,则估计越准,但更新调度方式频率低,时间间隔小,则更新频率快,系统本身资源分配的容错率也高。分散主模块的计算数据,在计算处理完毕后,所有处理数据汇总到主模块的GPU,进行汇总组合输出。
本发明所达到的有益效果是:该发明,资源分配方式分为两级,第一级分配通过将平台模块化,然后划分主次级GPU使用权力,第二级分配以一种服务器自我学习方式,根据以往的任务经验估计动态资源分配量来分配资源,使得整个平台合理分配平台硬件资源,提高系统吞吐量、提高硬件资源的利用率,加快神经网络任务的训练速度,避免出现部分GPU闲置状况,解决资源调度,使得整个系统的负载均衡,没有闲置资源的情况。
附图说明
图1是本发明的流程示意图;
图2是本发明步骤四中详细资源调度过程示意图;
图3是本发明步骤五、六中任务数据分散处理与汇总的流程示意图。
具体实施方式
下面举例对本发明做更详细的描述。
结合图1,本发明的基于TensorFlow分布式平台自适应资源调度方法的步骤具体为:步骤一,模块化处理;步骤二,确定主次级GPU;步骤三,监测各GPU运行状态;步骤四;实时动态分配;步骤五,分散处理数据;步骤六,汇总组合;步骤七,完成学习。
其中在上述的步骤一中,TensorFlow分布式平台按照视频、语音、文字和图片的四个模块进行区别和处理;
其中在上述的步骤二中,在按照视频、语音、文字和图片划分为四个模块后,且配备GPU,本模块直属的GPU为主级GPU,其他模块的GPU为本模块的次级GPU;
其中在上述的步骤三中,定时监控各个模块的计算强度,同时对各个GPU的运行状态进行监控;
结合图2,其中在上述的步骤四中,当本模块的计算和需处理的数据较多时,本模块的直属的GPU进行本模块的数据处理,当检测到其他模块的GPU同时工作时,并且资源分配不均时,采用类BP算法的方法,通过T时间点的资源分配量和以往执行历史中类似任务的资源分配量预测T+1或者T+n时间点的资源分配,并动态实时更新资源分配方式,时间点动态可调节,时间间隔大,则估计越准,但更新调度方式频率低,时间间隔小,则更新频率快,系统本身资源分配的容错率也高;
其中在上述步骤五中,通过分散处理数据,分工处理来提升任务计算速度;
其中在上述的步骤六中,在其他模块的GPU工作完毕后,将已完成训练GPU处理的数据输送到未完成的计算服务器内部,以空闲出已完成任务的服务器资源,通过等待最后完成计算进行汇合处理;
其中在上述的步骤七中,当数据处理完毕后,被储存到TensorFlow平台内部,完成学习。
根据上述技术方案,所述步骤一中,按照视频、语音、文字和图片所需的GPU运行程度进行评估,按照配比判定四个模块的占有量。
根据上述技术方案,所述步骤四中,按照先主后次的顺序进行处理,在次级GPU占用分配时,按照视频、语音、图片、文字的序列进行优先级处理。
根据上述技术方案,所述步骤四中,按照主次优先级顺序分配之后,在检测到资源分配不均时,采用类BP算法的方法,通过T时间点的资源分配量和以往执行历史中类似任务的资源分配量预测T+1或者T+n时间点的资源分配,并动态实时更新资源分配方式。
根据上述技术方案,所述步骤五中,分散模块的计算数据,一旦检测到有空闲的服务器资源,以动态的方式不断调整分散的资源。
根据上述技术方案,所述步骤六中,在分散的各个模块对数据各自处理完毕后,数据逐渐集中汇总到相对完成时间较长的模块内,空出其他已完成的模块GPU资源以供其他任务,等待最后一个模块的数据处理完毕,一起完成汇总组合,在各个模块同时分散又混合组合完成训练、学习。
基于上述,本发明的优点在于,将服务器按照视频、语音、文字和图片划分为四个模块,在四个模块均等配制有GPU,对GPU进行评估,判定各个GPU的计算处理能力;在资源分配不均时,采用类BP算法的方法,通过T时间点的资源分配量和以往执行历史中类似任务的资源分配量预测T+1或者T+n时间点的资源分配,并动态实时更新资源分配方式。本发明所达到的有益效果是:该发明,资源分配方式分为两级,第一级分配通过将平台模块化,然后划分主次级GPU使用权力,第二级分配以一种服务器自我学习方式,根据以往的任务经验估计动态资源分配量来分配资源,使得整个平台合理分配平台硬件资源,提高系统吞吐量、提高硬件资源的利用率,加快神经网络任务的训练速度,避免出现部分GPU闲置状况,解决资源调度,使得整个系统的负载均衡,没有闲置资源的情况,提高资源利用率,加快任务训练速度。
需要说明的是,在本发明中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种自适应资源调度方法,其特征是包括如下步骤:
步骤一,模块化处理;
将服务器按照视频、语音、文字和图片划分为四个模块,并在四个模块均等配制GPU;
步骤二,确定主次级GPU;
对GPU进行评估,判定各个GPU的计算处理能力,本模块直属的GPU为主级GPU,其他模块的GPU为本模块的次级GPU;
步骤三,监测各GPU运行状态;
步骤四;实时动态分配;
所述的实时动态分配是指:当本模块的计算和需处理的数据多时,本模块的直属GPU进行本模块的数据处理,当检测到其他模块的GPU同时工作时,并且资源分配不均时,采用类BP算法的方法,通过T时间点的资源分配量和以往执行历史中类似任务的资源分配量预测T+1或者T+n时间点的资源分配,并动态实时更新资源分配方式;
在次级GPU占用分配时,在次级GPU内部是按照视频、语音、图片、文字的序列进行依次处理的;
步骤五,分散处理数据;
步骤六,汇总组合;
在其他模块的GPU工作完毕后,将已完成训练GPU处理的数据输送到未完成的计算服务器内部,空闲出已完成任务的服务器资源,通过等待最后完成计算进行汇合处理;
步骤七,完成学习
当数据处理完毕后,被储存到TensorFlow平台内部,完成学习。
2.根据权利要求1所述的自适应资源调度方法,其特征是所述的监测各GPU运行状态是指:定时监控各个模块的计算强度,同时对各个GPU的运行状态进行监控。
CN201910230528.0A 2019-03-25 2019-03-25 一种自适应资源调度方法 Active CN109976911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910230528.0A CN109976911B (zh) 2019-03-25 2019-03-25 一种自适应资源调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910230528.0A CN109976911B (zh) 2019-03-25 2019-03-25 一种自适应资源调度方法

Publications (2)

Publication Number Publication Date
CN109976911A CN109976911A (zh) 2019-07-05
CN109976911B true CN109976911B (zh) 2021-04-20

Family

ID=67080511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910230528.0A Active CN109976911B (zh) 2019-03-25 2019-03-25 一种自适应资源调度方法

Country Status (1)

Country Link
CN (1) CN109976911B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750351B (zh) * 2019-12-20 2020-12-22 安徽寒武纪信息科技有限公司 多核任务调度器、多核任务调度方法、装置及相关产品
CN113412493A (zh) * 2019-12-30 2021-09-17 深圳元戎启行科技有限公司 基于推理引擎的计算资源分配方法、装置和计算机设备
CN113360273A (zh) * 2020-03-04 2021-09-07 北京百度网讯科技有限公司 处理器资源动态分配方法、装置、设备及存储介质
CN112668912A (zh) * 2020-12-31 2021-04-16 广东中科能睿信息科技有限公司 人工神经网络的训练方法、动态计算切分调度方法、存储介质及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213600A (zh) * 2018-09-11 2019-01-15 郑州云海信息技术有限公司 一种基于ai云的gpu资源调度方法和装置
CN109447277A (zh) * 2018-10-19 2019-03-08 厦门渊亭信息科技有限公司 一种通用的机器学习超参黑盒优化方法及系统
CN109460785A (zh) * 2018-10-24 2019-03-12 广东工业大学 一种基于gpu加速的锋电位实时分类的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107122241B (zh) * 2016-02-25 2019-11-19 深圳市知穹科技有限公司 基于cpu和gpu的数据库防火墙系统和其的控制方法
US10311626B2 (en) * 2016-10-19 2019-06-04 Advanced Micro Devices, Inc. System and method for identifying graphics workloads for dynamic allocation of resources among GPU shaders
CN107067365A (zh) * 2017-04-25 2017-08-18 中国石油大学(华东) 基于深度学习的分布嵌入式实时视频流处理系统及方法
CN107766148B (zh) * 2017-08-31 2021-02-19 北京百度网讯科技有限公司 一种异构集群及任务处理方法和装置
CN108519919A (zh) * 2018-03-19 2018-09-11 山东超越数控电子股份有限公司 一种在虚拟化集群环境下实现服务器资源动态调度的方法
CN109034386A (zh) * 2018-06-26 2018-12-18 中国科学院计算机网络信息中心 一种基于资源调度器的深度学习系统及其方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213600A (zh) * 2018-09-11 2019-01-15 郑州云海信息技术有限公司 一种基于ai云的gpu资源调度方法和装置
CN109447277A (zh) * 2018-10-19 2019-03-08 厦门渊亭信息科技有限公司 一种通用的机器学习超参黑盒优化方法及系统
CN109460785A (zh) * 2018-10-24 2019-03-12 广东工业大学 一种基于gpu加速的锋电位实时分类的方法

Also Published As

Publication number Publication date
CN109976911A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109976911B (zh) 一种自适应资源调度方法
CN108829494B (zh) 基于负载预测的容器云平台智能资源优化方法
CN106959894B (zh) 资源分配方法和装置
CN109597965B (zh) 基于深度神经网络的数据处理方法、系统、终端及介质
CN112181613B (zh) 异构资源分布式计算平台批量任务调度方法及存储介质
CN103401939A (zh) 一种采用混合调度策略的负载均衡方法
CN105700956A (zh) 用于处理分布式作业的方法和系统
CN115237580B (zh) 面向智能计算的流水并行训练自适应调整系统、方法
CN108270805A (zh) 用于数据处理的资源分配方法及装置
CN114327811A (zh) 一种任务调度方法、装置、设备及可读存储介质
CN104346220B (zh) 一种任务调度方法与系统
CN111199276B (zh) 数据处理方法及相关产品
CN112862083A (zh) 一种边缘环境下的深度神经网络推断方法及装置
CN112860396A (zh) 一种基于分布式深度学习的gpu调度方法及系统
CN104754181B (zh) 一种视频噪声估计方法及装置
CN116010051A (zh) 一种联邦学习多任务调度方法及装置
CN113419842B (zh) 一种基于JavaScript构建边缘计算微服务的方法、装置
CN112598112B (zh) 一种基于图神经网络的资源调度方法
CN115034365A (zh) 一种面向神经网络处理器的多核并行计算方法
CN114706678A (zh) 一种边缘智能服务器神经网络推断任务调度方法
CN115437781A (zh) 一种gpu资源管理方法及系统
CN111915102A (zh) 一种基于负载预测的工作平台工作量预测方法及系统
CN102438325B (zh) 基于认知无线终端重构系统的资源调度方法
CN113326134B (zh) 基于深度学习的虚拟资源调度系统与方法
CN117579626B (zh) 基于分布式实现边缘计算下的优化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant