CN111290855B

CN111290855B - 分布式环境中多gpu服务器的gpu卡管理方法、系统及存储介质

Info

Publication number: CN111290855B
Application number: CN202010081235.3A
Authority: CN
Inventors: 孙亚楠; 吕建成
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2020-02-06
Filing date: 2020-02-06
Publication date: 2021-02-09
Anticipated expiration: 2040-02-06
Also published as: CN111290855A

Abstract

本发明公开了一种分布式环境中多GPU服务器的GPU卡管理方法、系统及存储介质，其中方法包括S1获取并存储所有GPU服务器的基本信息，初始化配置表；S2获取每台GPU服务器中的空闲GPU卡，并将空闲GPU卡的编号及其所在GPU服务器编号作为一条记录存储至配置表中；S3当所有GPU服务器中的空闲GPU卡信息均已查询，且存在未遍历的模型时，于设定时间后返回步骤S1；S4当配置表中存在至少一条记录时，随机选取并删除配置表中的一条记录；S5选取一个未遍历的模型，并将其发送至选取的记录中的空闲GPU卡上运行；S6判断是否存在未遍历的模型，若是，返回步骤S4，否则搜索并汇总消息队列中记录的来自于需要训练的深度神经网络架构模型的所有记录。

Description

分布式环境中多GPU服务器的GPU卡管理方法、系统及存储介质

技术领域

本发明涉及神经网络架构搜索领域，具体涉及一种分布式环境中多GPU服务器的GPU卡管理方法、系统及存储介质。

背景技术

目前进行神经网络架构搜索时，普遍会事先产生多个深度神经网络架构，然后逐一在训练集上训练每一个神经网络，然后从中挑选出在验证集上性能最好的深度神经网络架构。在训练集上训练每一个深度神经网络是一个较为耗时的过程，例如在常用的中等规模图像分类数据集CIFAR10和CIFAR100上，评估一个常见的卷积神经网络模型，即使借助于高性能的图形处理单元(Graphic Processing Unit,GPU)也需要5-10个小时左右，深度神经网络模型选择往往需要评估的网络数量级在10的四次方左右；如果在一块GPU上训练完这些网络，则一共需要2000-4000天。

为了缩短训练时间，企业界常采用的方法就是购买大量的GPU，每一个GPU上训练一个神经网络模型，多个GPU同时进行训练，以此来降低神经网络架构搜索的整个耗费时间。目前常见的GPU服务器，通常情况下每台服务器会装配有4-8个GPU卡，如采用10台GPU服务器，每台均装配8个显卡，则以上训练过程则可缩短至50天，这种情况下往往用户可以接受。

利用装配有多个GPU的多个GPU服务器的分布式环境，进行神经网络架构的搜索，可以快速的搜索到最优的神经网络架构模型。这为用户快速使用以神经网络为主要方法的人工智能技术提供了极大便利。但却存在如何去有效管理分布式环境中的多个GPU服务器内的多个GPU卡的问题。

目前业界主要采用两种方式来管理分布式环境中的多GPU服务器上的多GPU卡，第一类是采用数据流系统(Dataflow system)的分布式机器学习平台，第二类是采用参数服务器架构(Parameter-server architecture)的分布式机器学习平台。

为了方便描述分布式平台的工作机理，借用分布式平台常用的术语，把在分布式环境中负责任务调度以及逻辑管理的机器为命名为master，接受mater服务器的管理，并进行一些具体任务执行的机器为worker。一个分布式环境中一般由一个master和多个worker机器组成，同时一个master可以和一个worker位于同一台物理主机中，一个worker可以管理其装备的多个GPU。

采用数据流系统的分布式机器学习平台主要包括MapReduce，Naiad以及Spark等。这些平台采用有向图来表示数据流动方向，有向图上相互连接的两个顶点代表了模型的流转方向，指明了master到worker或者worker到另外一个worker的执行顺序。一个master可以连接到多个worker，一个worker也可以连接到多个worker。该平台对多个神经网络模型进行训练时，会有master把神经网络模型传输到对应的worker上，worker执行完任务返回给master。

采用参数服务器架构的分布式机器学习平台，主要包括Google DistBelief，Parameter Server以及PMLS。这些平台工作原理类似于基于数据流系统的分布式机器学习平台，但是主要解决的是多个worker之间协同执行同一个模型的时候，来如何有效的更新该模型的全部参数，并且更新后的模型参数还需要重新回到master上，master接着再次分配该任务进行下一次的分布式协同处理。

以上两种分布式机器学习平台均不能满足神经网络架构的搜索，这是由于以上系统具有以下缺点：

第一种系统适合于模型系统内没有参数，或者参数不需要往master回传再由master进一步构建有向图进行调配的机器学习算法。然而在深度神经网络架构搜索中，每一个神经网络架构的训练都是一个反复迭代的过程，也就是说每往worker下发一次训练任务，当worker训练完成之后，这些训练好的参数都要回传到master，然后master根据此次的参数训练后的值，进行损失函数的计算，然后才能再次把计算任务下发至worker进行训练。此外，此类系统大多是基于CPU的，而神经网络架构的训练主要是基于GPU进行的。

第二种系统适合于对一个非常大的模型，通过master把该模型进行分解，然后每一个worker具体负责一个小的部分，当训练好之后，这些参数回传到master机器，然后master进行下次损失函数的计算，并且通过计算结果把该次的训练任务下发。在深度神经网络架构搜索中，我们需要考虑的是多个神经网络可以同时下发至每一个worker进行单独的训练，而不是把每一个神经网络分解为若干个小的部分进行训练，大量实验表明，如果训练模型不是非常大的情况下，通过分解来训练反而会增加训练时间，这是由于频繁的分解和合并带来的额外训练时间的增加。

以上两种系统的共同缺点是，这些系统在使用之前，除了在master服务器进行系统的安装，还需要在每一个worker上面进行相关系统的安装，并且打开worker上的相应程序，接受来自master服务器的调度，这种方式在使用过程中有着诸多不便。尤其是在科研环境中，每一个科研人员可能就工作在一个worker上，上述系统就需要在这些worker安装单独的程序并且需要保持开启状态，非常不便于科研人员同时从事其它相关的工作。

发明内容

针对现有技术中的上述不足，本发明提供的分布式环境中多GPU服务器的GPU卡管理方法、系统及存储介质解决了采用参数服务器架构的分布式机器学习平台不能同时对多个深度神经网络架构进行训练的问题。

为了达到上述发明目的，本发明采用的技术方案为：

第一方面，提供一种分布式环境中多GPU服务器的GPU卡管理方法，其包括：

S1、获取所有GPU服务器的基本信息，并将其存储至配置文件中，清除配置表中的全部内容；所述基本信息至少包括登录名、登录密码和IP地址；

S2、获取每台GPU服务器中的空闲GPU卡，并将空闲GPU卡的编号及其所在GPU服务器编号作为一条记录存储至配置表中；

S3、当所有GPU服务器中的空闲GPU卡信息均已查询，且存在未遍历的需要训练的深度神经网络架构模型时，于设定时间后返回步骤S1；

S4、当配置表中存在至少一条记录时，随机选取配置表中的一条记录，并将其从配置表中删除；

S5、选取一个未遍历的需要训练的深度神经网络架构模型，并将其发送至选取的记录中的空闲GPU卡上运行；

S6、判断是否存在未遍历的需要训练的深度神经网络架构模型，若是，返回步骤S4，否则进入步骤S7；

S7、搜索并汇总消息队列中记录的来自于需要训练的深度神经网络架构模型的所有记录。

第二方面，提供一种应用分布式环境中多GPU服务器的GPU卡管理方法的管理系统，其包括mater服务器和若干GPU服务器，每台GPU服务器均包括若干GPU卡；

所述mater服务器包括空闲GPU探测模块、模型分发模块和消息队列管理模块；

所述空闲GPU探测模块包括：

第一选取模块，用于获取所有GPU服务器的基本信息，并将其存储至配置文件中，清除配置表中的全部内容；所述基本信息至少包括登录名、登录密码和IP地址；

空闲GPU卡查询模块，用于获取每台GPU服务器中的空闲GPU卡，并将空闲GPU卡的编号及其所在GPU服务器编号作为一条记录存储至配置表中；以及

第一执行模块，用于当所有GPU服务器中的空闲GPU卡信息均已查询，且存在未遍历的需要训练的深度神经网络架构模型时，于设定时间后返回第一选取模块执行下一个循环；

所述模型分发模块包括：

第二选取模块，用于当配置表中存在至少一条记录时，随机选取配置表中的一条记录，并将其从配置表中删除；

空闲GPU卡配置模块，用于选取一个未遍历的需要训练的深度神经网络架构模型，并将其发送至选取的记录中的空闲GPU卡上运行；

第一判断模块，用于判断是否存在未遍历的需要训练的深度神经网络架构模型，若是，返回第二选取模块，否则进入查询模块；以及

查询模块，用于搜索并汇总消息队列中记录的来自于需要训练的深度神经网络架构模型的所有记录；

消息队列管理模块用于接收来自于所有需要训练的深度神经网络架构模型的所有记录信息，并对接收的信息进行存储。

第三方面，提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行分布式环境中多GPU服务器的GPU卡管理方法中的步骤。

本发明的有益效果为：本方案的管理方法能够让系统快速地知道当前哪些GPU服务器上的哪些GPU卡可以利用，这为同时训练多个神经网络架构提供了遍历的条件，可以加速多个神经网络架构的训练。本方案可以在分布式环境中同时训练多个深度神经网络架构；本方案不需要事先在每一个worker上安装额外的应用程序，全部都由master服务器进行管理；本方案可以在运行过程中，通过更改需要查询的GPU服务器的信息，而动态的决定哪些GPU服务器可以加入worker或者哪些worker上的GPU卡可用于此次的计算，具有较高灵活性。

附图说明

图1为分布式环境中多GPU服务器的GPU卡管理方法的流程图。

图2为分布式环境中多GPU服务器的GPU卡管理系统的架构图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

参考图1，图1示出了分布式环境中多GPU服务器的GPU卡管理方法的流程图；如图1所示，该方法S包括步骤S1至步骤S7。

在步骤S1中，获取所有GPU服务器的基本信息，并将其存储至配置文件中，清除配置表中的全部内容；所述基本信息至少包括登录名、登录密码和IP地址；

在步骤S2中，获取每台GPU服务器中的空闲GPU卡，并将空闲GPU卡的编号及其所在GPU服务器编号作为一条记录存储至配置表中；

在本发明的一个实施例中，所述步骤S2进一步包括：

S21、判断计数器i是否大于GPU服务器总数量，若是进入步骤S3，否则进入步骤S22，i的初始值为1；

S22、读取配置文件中序号为i的GPU服务器的基本信息，并通过ssh方式登录到序号为i的GPU服务器；

S23、于序号为i的GPU服务器上执行nvidia-smi命令，并根据返回信息解析得到序号为i的GPU服务器上的空闲GPU卡的编号；

在步骤S23中master服务器可以通过调用显卡驱动接口，动态判断每一个worker(GPU服务器)上的可用GPU信息。

S24、将空闲GPU卡的编号及其所在GPU服务器的基本信息作为一条记录存储至配置表中，并更新计数器i＝i+1后，返回步骤S21。

在步骤S3中，当所有GPU服务器中的空闲GPU卡信息均已查询，且存在未遍历的需要训练的深度神经网络架构模型时，于设定时间后返回步骤S1；

在步骤S3中，首先判断是否还存在GPU服务器未查找空闲GPU卡，若是则继续执行未查找的GPU服务器，否则判断是否存在未遍历的需要训练的深度神经网络架构模型，若是于设定时间后返回步骤S1，否则停止步骤S1至步骤S3的循环。

在步骤S3中考虑在设定时间后返回步骤S1，主要目的是系统有足够的时间去循环执行步骤S4至步骤S6，这样以保证在返回步骤S1时已查找到的空闲GPU卡被全部调用，以避免重复搜索部分空闲GPU卡，浪费资源。

实施时，本方案优选所述设定时间为5min。

在步骤S4中，当配置表中存在至少一条记录时，随机选取配置表中的一条记录，并将其从配置表中删除；在步骤S2中只要生成一条记录，就循环执行步骤S4至步骤S6。

在步骤S5中，选取一个未遍历的需要训练的深度神经网络架构模型，并将其发送至选取的记录中的空闲GPU卡上运行。

在本发明的一个实施例中，所述步骤S5进一步包括：

S51、根据选取的记录，从配置文件中读取对应GPU服务器的基本信息；

S52、利用sfpt命令将选取的需要训练的深度神经网络架构模型及模型独立运行所需的文件传输至记录中的GPU服务器；

S53、采用异步方法远程调用命令将选取的需要训练的深度神经网络架构模型发送至GPU服务器对应的空闲CPU卡上运行。

实施时，本方案优选异步方法远程调用命令为python语言中的popen方法。

在步骤S6中，判断是否存在未遍历的需要训练的深度神经网络架构模型，若是，返回步骤S4，否则进入步骤S7；

在步骤S7中，搜索并汇总消息队列中记录的来自于需要训练的深度神经网络架构模型的所有记录。

如图2所示，应用于分布式环境中多GPU服务器的GPU卡管理方法的管理系统包括mater服务器和若干GPU服务器，每台GPU服务器均包括若干GPU卡；本方案的mater服务器为在分布式环境中负责任务调度以及逻辑管理的机器，GPU服务器为接受mater服务器的管理，并进行一些具体任务执行的机器。

mater服务器包括空闲GPU探测模块、模型分发模块和消息队列管理模块；

所述空闲GPU探测模块包括：

所述模型分发模块包括：

其中，所述空闲GPU卡查询模块包括：

第二判断模块，用于判断计数器i是否大于GPU服务器总数量，若是进入第一执行模块，否则进入第二执行模块，i的初始值为1；

第二执行模块，用于读取配置文件中序号为i的GPU服务器的基本信息，并通过ssh方式登录到序号为i的GPU服务器；

第三执行模块，用于在序号为i的GPU服务器上执行nvidia-smi命令，并根据返回信息解析得到序号为i的GPU服务器上的空闲GPU卡的编号；

存储模块，用于将空闲GPU卡的编号及其所在GPU服务器的基本信息作为一条记录存储至配置表中，并更新计数器i＝i+1后，返回第二判断模块。

所述空闲GPU卡配置模块包括：

第三选取模块，用于根据选取的记录，从配置文件中读取对应GPU服务器的基本信息；

传输模块，用于利用sfpt命令将选取的需要训练的深度神经网络架构模型及模型独立运行所需的文件传输至记录中的GPU服务器；

第四执行模块，用于采用异步方法远程调用命令将选取的需要训练的深度神经网络架构模型发送至GPU服务器对应的空闲CPU卡上运行。

本方案还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行分布式环境中多GPU服务器的GPU卡管理方法中的步骤。

综上所述，本方案提供的管理方法及系统和存储介质可以解决第一种系统无法进行关于神经网络架构训练的问题和第二种系统中无法同时对多个深度神经网络架构的训练问题。

另外，本方案的系统不需要事先在每一个worker(GPU服务器)上安装相应程序，只需要指定master服务器可以管理的worker信息，例如登陆每一个worker的用户名和密码，以及程序全部放在master上，master即可以模拟人工操作，完成全部的训练任务。

Claims

1.分布式环境中多GPU服务器的GPU卡管理方法，其特征在于，包括：

S3、判断是否还存在GPU服务器未查找空闲GPU卡，若是则继续执行未查找的GPU服务器，否则判断是否存在未遍历的需要训练的深度神经网络架构模型，若是于设定时间后返回步骤S1，否则停止步骤S1至步骤S3的循环；

S7、搜索并汇总消息队列中记录的来自于需要训练的深度神经网络架构模型的所有记录；

所述步骤S2进一步包括：

2.根据权利要求1所述的分布式环境中多GPU服务器的GPU卡管理方法，其特征在于，所述步骤S5进一步包括：

3.根据权利要求2所述的分布式环境中多GPU服务器的GPU卡管理方法，其特征在于，所述异步方法远程调用命令为python语言中的popen方法。

4.根据权利要求1-3任一所述的分布式环境中多GPU服务器的GPU卡管理方法，其特征在于，所述设定时间为5min。

5.一种应用于权利要求1-4任一所述的分布式环境中多GPU服务器的GPU卡管理方法的管理系统，其特征在于，包括mater服务器和若干GPU服务器，每台GPU服务器均包括若干GPU卡；

所述空闲GPU探测模块包括：

第一执行模块，用于判断是否还存在GPU服务器未查找空闲GPU卡，若是则继续执行未查找的GPU服务器，否则判断是否存在未遍历的需要训练的深度神经网络架构模型，若是于设定时间后返回第一选取模块，否则结束空闲GPU卡查询；

所述模型分发模块包括：

6.根据权利要求5所述的管理系统，其特征在于，所述空闲GPU卡查询模块包括：

7.根据权利要求5所述的管理系统，其特征在于，所述空闲GPU卡配置模块包括：

8.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至4任一项所述的分布式环境中多GPU服务器的GPU卡管理方法中的步骤。