CN109976911B

CN109976911B - 一种自适应资源调度方法

Info

Publication number: CN109976911B
Application number: CN201910230528.0A
Authority: CN
Inventors: 邓牌; 李晋; 程建华; 史长亭; 白玉
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-03-25
Filing date: 2019-03-25
Publication date: 2021-04-20
Anticipated expiration: 2039-03-25
Also published as: CN109976911A

Abstract

本发明提供的是一种自适应资源调度方法。步骤一，模块化处理；步骤二，确定主次级GPU；步骤三，监测各GPU运行状态；步骤四；实时动态分配；步骤五，分散处理数据；步骤六，汇总组合；步骤七，完成学习。该发明，资源分配方式分为两级，第一级分配通过将平台模块化，然后划分主次级GPU使用权力，第二级分配以一种服务器自我学习方式，根据以往的任务经验估计动态资源分配量来分配资源，使得整个平台合理分配平台硬件资源，提高系统吞吐量、提高硬件资源的利用率，加快神经网络任务的训练速度，避免出现部分GPU闲置状况，解决资源调度，使得整个系统的负载均衡，没有闲置资源的情况。

Description

一种自适应资源调度方法

技术领域

本发明涉及的是一种深度学习方法，具体涉及一种基于分布式TensorFlow平台的自适应资源调度方法。

背景技术

近年来，随着各种图像识别大赛的盛行和谷歌人工智能AlphaGo屡次战胜人类围棋顶级大师，人工智能开始火爆，其底层技术深度学习也受到许多研究学者的关注，国内外各大公司纷纷推出各自的深度学习框架，其中以谷歌推出的TensorFlow最为热门。

神经网络的构建非常复杂，TensorFlow只需使用API的调用便能实现复杂神经网络的构建，极大加快了开发速度，而用于深度学习的数据量又极其庞大，庞大的数据量意味着庞大的计算量，神经网络的训练离不开庞大的数据量来训练学习获得更高的准确率，海量的数据和巨大的计算量的双重压力下，无疑给硬件资源带来了巨大的挑战。

因此，深度学习任务通常在分布式部署下完成，以解决个人PC在硬件资源方面的瓶颈，但是，现有的分布式部署虽然容易，但是资源利用率通常不高，在单任务的情况下很难配置好合适的资源利用阈值，多数都在满负荷运行单任务，导致多任务的时候没有硬件资源执行其他任务。多任务下更是难以合理分配硬件资源，有时候一些相对简单任务占用资源甚至高于相对复杂任务，导致多任务效率不高，甚至有资源空闲的情况，整个分布式系统执行效率和资源利用率都难以得到有效保证。

发明内容

本发明的目的在于提供一种能够避免出现部分GPU闲置状况，使得负载均衡，提高资源利用率的自适应资源调度方法。

本发明的目的是这样实现的：

步骤一，模块化处理；

步骤二，确定主次级GPU；

步骤三，监测各GPU运行状态；

步骤四；实时动态分配；

步骤五，分散处理数据；

步骤六，汇总组合；

步骤七，完成学习。

本发明还可以包括：

1.所述的模块化处理是指：将服务器按照视频、语音、文字和图片划分为四个模块，在四个模块均等配制GPU。

2.所述确定主次级GPU是指：对GPU进行评估，判定各个GPU的计算处理能力，本模块直属的GPU为主级GPU，其他模块的GPU为本模块的次级GPU。

3.所述的监测各GPU运行状态是指：定时监控各个模块的计算强度，同时对各个GPU的运行状态进行监控。

4.所述的实时动态分配是指：当本模块的计算和需处理的数据多时，本模块的直属GPU进行本模块的数据处理，当检测到其他模块的GPU同时工作时，并且资源分配不均时，采用类BP算法的方法，通过T时间点的资源分配量和以往执行历史中类似任务的资源分配量预测T+1或者T+n时间点的资源分配，并动态实时更新资源分配方式。

5.所述的汇总组合是指：在其他模块的GPU工作完毕后，将已完成训练GPU处理的数据输送到未完成的计算服务器内部，空闲出已完成任务的服务器资源，通过等待最后完成计算进行汇合处理。

6.所述的完成学习是指：当数据处理完毕后，被储存到TensorFlow平台内部，完成学习。

本发明是一种基于TensorFlow分布式平台自适应资源调度方法，其主要技术手段是：

1)将服务器按照视频、语音、文字和图片划分为四个模块，在四个模块均等配制有GPU,对GPU进行评估，判定各个GPU的计算处理能力；

2)在TensorFlow使用时，对视频、语音、文字和图片四个模块进行监测，同时对各个GPU的运行状态监测，在资源分配不均时，采用类BP算法的方法，通过T时间点的资源分配量和以往执行历史中类似任务的资源分配量预测T+1或者T+n时间点的资源分配，并动态实时更新资源分配方式，时间点动态可调节，时间间隔大，则估计越准，但更新调度方式频率低，时间间隔小，则更新频率快，系统本身资源分配的容错率也高。分散主模块的计算数据，在计算处理完毕后，所有处理数据汇总到主模块的GPU，进行汇总组合输出。

本发明所达到的有益效果是：该发明，资源分配方式分为两级，第一级分配通过将平台模块化，然后划分主次级GPU使用权力，第二级分配以一种服务器自我学习方式，根据以往的任务经验估计动态资源分配量来分配资源，使得整个平台合理分配平台硬件资源，提高系统吞吐量、提高硬件资源的利用率，加快神经网络任务的训练速度，避免出现部分GPU闲置状况，解决资源调度，使得整个系统的负载均衡，没有闲置资源的情况。

附图说明

图1是本发明的流程示意图；

图2是本发明步骤四中详细资源调度过程示意图；

图3是本发明步骤五、六中任务数据分散处理与汇总的流程示意图。

具体实施方式

下面举例对本发明做更详细的描述。

结合图1，本发明的基于TensorFlow分布式平台自适应资源调度方法的步骤具体为：步骤一，模块化处理；步骤二，确定主次级GPU；步骤三，监测各GPU运行状态；步骤四；实时动态分配；步骤五，分散处理数据；步骤六，汇总组合；步骤七，完成学习。

其中在上述的步骤一中，TensorFlow分布式平台按照视频、语音、文字和图片的四个模块进行区别和处理；

其中在上述的步骤二中，在按照视频、语音、文字和图片划分为四个模块后，且配备GPU，本模块直属的GPU为主级GPU，其他模块的GPU为本模块的次级GPU；

其中在上述的步骤三中，定时监控各个模块的计算强度，同时对各个GPU的运行状态进行监控；

结合图2，其中在上述的步骤四中，当本模块的计算和需处理的数据较多时，本模块的直属的GPU进行本模块的数据处理，当检测到其他模块的GPU同时工作时，并且资源分配不均时，采用类BP算法的方法，通过T时间点的资源分配量和以往执行历史中类似任务的资源分配量预测T+1或者T+n时间点的资源分配，并动态实时更新资源分配方式，时间点动态可调节，时间间隔大，则估计越准，但更新调度方式频率低，时间间隔小，则更新频率快，系统本身资源分配的容错率也高；

其中在上述步骤五中，通过分散处理数据，分工处理来提升任务计算速度；

其中在上述的步骤六中，在其他模块的GPU工作完毕后，将已完成训练GPU处理的数据输送到未完成的计算服务器内部，以空闲出已完成任务的服务器资源，通过等待最后完成计算进行汇合处理；

其中在上述的步骤七中，当数据处理完毕后，被储存到TensorFlow平台内部，完成学习。

根据上述技术方案，所述步骤一中，按照视频、语音、文字和图片所需的GPU运行程度进行评估，按照配比判定四个模块的占有量。

根据上述技术方案，所述步骤四中，按照先主后次的顺序进行处理，在次级GPU占用分配时，按照视频、语音、图片、文字的序列进行优先级处理。

根据上述技术方案，所述步骤四中，按照主次优先级顺序分配之后，在检测到资源分配不均时，采用类BP算法的方法，通过T时间点的资源分配量和以往执行历史中类似任务的资源分配量预测T+1或者T+n时间点的资源分配，并动态实时更新资源分配方式。

根据上述技术方案，所述步骤五中，分散模块的计算数据，一旦检测到有空闲的服务器资源，以动态的方式不断调整分散的资源。

根据上述技术方案，所述步骤六中，在分散的各个模块对数据各自处理完毕后，数据逐渐集中汇总到相对完成时间较长的模块内，空出其他已完成的模块GPU资源以供其他任务，等待最后一个模块的数据处理完毕，一起完成汇总组合，在各个模块同时分散又混合组合完成训练、学习。

基于上述，本发明的优点在于，将服务器按照视频、语音、文字和图片划分为四个模块，在四个模块均等配制有GPU,对GPU进行评估，判定各个GPU的计算处理能力；在资源分配不均时，采用类BP算法的方法，通过T时间点的资源分配量和以往执行历史中类似任务的资源分配量预测T+1或者T+n时间点的资源分配，并动态实时更新资源分配方式。本发明所达到的有益效果是：该发明，资源分配方式分为两级，第一级分配通过将平台模块化，然后划分主次级GPU使用权力，第二级分配以一种服务器自我学习方式，根据以往的任务经验估计动态资源分配量来分配资源，使得整个平台合理分配平台硬件资源，提高系统吞吐量、提高硬件资源的利用率，加快神经网络任务的训练速度，避免出现部分GPU闲置状况，解决资源调度，使得整个系统的负载均衡，没有闲置资源的情况，提高资源利用率，加快任务训练速度。

需要说明的是，在本发明中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自适应资源调度方法，其特征是包括如下步骤：

步骤一，模块化处理；

将服务器按照视频、语音、文字和图片划分为四个模块，并在四个模块均等配制GPU；

步骤二，确定主次级GPU；

对GPU进行评估，判定各个GPU的计算处理能力，本模块直属的GPU为主级GPU，其他模块的GPU为本模块的次级GPU；

步骤三，监测各GPU运行状态；

步骤四；实时动态分配；

所述的实时动态分配是指：当本模块的计算和需处理的数据多时，本模块的直属GPU进行本模块的数据处理，当检测到其他模块的GPU同时工作时，并且资源分配不均时，采用类BP算法的方法，通过T时间点的资源分配量和以往执行历史中类似任务的资源分配量预测T+1或者T+n时间点的资源分配，并动态实时更新资源分配方式；

在次级GPU占用分配时，在次级GPU内部是按照视频、语音、图片、文字的序列进行依次处理的；

步骤五，分散处理数据；

步骤六，汇总组合；

在其他模块的GPU工作完毕后，将已完成训练GPU处理的数据输送到未完成的计算服务器内部，空闲出已完成任务的服务器资源，通过等待最后完成计算进行汇合处理；

步骤七，完成学习

当数据处理完毕后，被储存到TensorFlow平台内部，完成学习。

2.根据权利要求1所述的自适应资源调度方法，其特征是所述的监测各GPU运行状态是指：定时监控各个模块的计算强度，同时对各个GPU的运行状态进行监控。