CN110991614A

CN110991614A - 一种Linux下GPU神经网络深度学习测试方法和系统

Info

Publication number: CN110991614A
Application number: CN201911203467.5A
Authority: CN
Inventors: 刘鑫
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-10

Abstract

本发明涉及一种Linux下GPU神经网络深度学习测试方法，包括以下步骤：S1：搭建测试平台和测试环境的步骤；终止测试平台系统下的所有防火墙服务进程，永久性关闭系统的防火墙服务；S2：通过GoogLeNet训练模型的步骤；获取模型的具体组成结构，采用CAFFE框架中的GooleNet深度学习模型，caffe编译过程使用NCCL库；将数据进行分类；显示处理GoogleNet问题及打印测试结果；S3：编辑GPU卡配置信息的步骤，针对配置中GPU卡数量，编辑相关配置文件；S4：测试GPU卡性能的步骤，根据配置中GPU卡数量、计算运行caffeGooglenet测试时间，进行性能、压力、功耗测试。

Description

一种Linux下GPU神经网络深度学习测试方法和系统

技术领域

本发明属于数据处理技术领域，具体涉及一种Linux下GPU神经网络深度学习测试方法和系统。

背景技术

目前服务器领域使用GPU越来越普遍，关于GPU高度的数据处理、浮点运算能力，衍生出神经网络深度学习方案。但是现有技术中的神经网络学习方案在图像识别、数据处理和浮点运算处理领域存在处理效率偏低，处理数据的准确率偏低。

此为现有技术中存在的缺陷和不足；有鉴于此，本申请提供一种Linux下GPU神经网络深度学习测试方法和系统；以解决现有技术中的上述缺陷，是非常有必要的。

发明内容

针对现有技术的上述不足，本发明提供一种Linux下GPU神经网络深度学习测试方法和系统，以解决上述技术问题。

为实现上述目的，本发明给出以下技术方案：

第一方面，本发明提供一种Linux下GPU神经网络深度学习测试方法，包括以下步骤：

S1：搭建测试平台和测试环境的步骤；具体步骤如下：

终止测试平台系统下的所有防火墙服务进程，永久性关闭系统的防火墙服务；

添加ulimit-s unlimited命令和nvidia-smi-pm 1命令至/root/.bashrc中；安装配置中GPU最新版驱动程序和CUDA环境；将docker环境copy到系统下，并安装rpm包，指令如下：

#rpm-ivh docker-engine-selinux-1.10.0-1.el7.centos.noarch.rpm；

启动docker环境，指令如下：

#systemctl start docker

#systemctl enable docker

#systemctl start nvidia-docker；

利用docker加载caffe镜像，指令如下：

#docker load-i caffe-mpi-1.tar

#查看镜像加载是否成功docker image；

运行docker caffe-mpi

#nvidia-docker run-it--rm-v/mnt/:/mnt caffe-mpi

注：上步是把物理机系统路径/mnt/共享到docker容器中的路径/mnt/下，目录根据实际环境配置；

进入docker后配置docker环境，指令如下：

#ulimit-s unlimited；

S2：通过GoogLeNet训练模型的步骤；具体包括以下步骤：

访问训练模型(Access the trained model),获取模型的具体组成结构，采用CAFFE框架中的GooleNet深度学习模型，caffe编译过程使用NCCL库；将数据进行分类；显示处理GoogleNet问题及打印测试结果；

S3：编辑GPU卡配置信息的步骤，具体包括以下步骤：

针对配置中GPU卡数量，编辑相关配置文件；

S4：测试GPU卡性能的步骤，具体包括以下步骤：

根据配置中GPU卡数量、计算运行caffe Googlenet测试时间，进行性能、压力、功耗测试。

第二方面，本发明提供一种Linux下GPU神经网络深度学习测试系统，包括：

搭建测试平台和测试环境模块；该模块中：终止测试平台系统下的所有防火墙服务进程，永久性关闭系统的防火墙服务；

#rpm-ivh docker-engine-selinux-1.10.0-1.el7.centos.noarch.rpm；

启动docker环境，指令如下：

#systemctl start docker

#systemctl enable docker

#systemctl start nvidia-docker；

利用docker加载caffe镜像，指令如下：

#docker load-i caffe-mpi-1.tar

#查看镜像加载是否成功docker image；

运行docker caffe-mpi

#nvidia-docker run-it--rm-v/mnt/:/mnt caffe-mpi

进入docker后配置docker环境，指令如下：

#ulimit-s unlimited；

GoogLeNet模型训练模块，该模块中：

GPU卡配置信息编辑模块，该模块中：针对配置中GPU卡数量，编辑相关配置文件；

GPU卡性能测试模块，该模块中：根据配置中GPU卡数量、计算运行caffeGooglenet测试时间，进行性能、压力、功耗测试。

本发明的有益效果在于，发明针对GPU强大的数据处理、浮点运算能力；采用CAFFE框架中的独特GooleNet深度学习模型，caffe编译过程使用NCCL库，测试在1/2/4/8…卡配置下的深度学习性能、压力和功耗测试。在进行识别任务时，本发明能够降低错误率实现了更高的准确度，同时不需要大量的培训模型数据。新增了GPU卡在服务器领域独特的测试手法；同时增加多样化的方式来测试GPU卡在服务器领域中部件兼容性与应用能力；更能符合GPU在图形方面以及大型矩阵运算使用情景。此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种Linux下GPU神经网络深度学习测试方法的流程图。

图2是本发明提供的一种Linux下GPU神经网络深度学习测试系统的原理框图。

其中，1-搭建测试平台和测试环境模块，2-GoogLeNet模型训练模块，3-c，4-GPU卡性能测试模块。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

实施例1：

如图1所示，本实施例提供的一种Linux下GPU神经网络深度学习测试方法，包括以下步骤：

S1：搭建测试平台和测试环境的步骤；具体步骤如下：

#rpm-ivh docker-engine-selinux-1.10.0-1.el7.centos.noarch.rpm；

启动docker环境，指令如下：

#systemctl start docker

#systemctl enable docker

#systemctl start nvidia-docker；

利用docker加载caffe镜像，指令如下：

#docker load-i caffe-mpi-1.tar

#查看镜像加载是否成功docker image；

运行docker caffe-mpi

#nvidia-docker run-it--rm-v/mnt/:/mnt caffe-mpi

进入docker后配置docker环境，指令如下：

#ulimit-s unlimited；

S2：通过GoogLeNet训练模型的步骤；具体包括以下步骤：

S3：编辑GPU卡配置信息的步骤，具体包括以下步骤：

针对配置中GPU卡数量，编辑相关配置文件；

S4：测试GPU卡性能的步骤，具体包括以下步骤：

实施例2：

如图2所示，本实施例提供一种Linux下GPU神经网络深度学习测试系统，包括：

搭建测试平台和测试环境模块1；该模块中：终止测试平台系统下的所有防火墙服务进程，永久性关闭系统的防火墙服务；

#rpm-ivh docker-engine-selinux-1.10.0-1.el7.centos.noarch.rpm；

启动docker环境，指令如下：

#systemctl start docker

#systemctl enable docker

#systemctl start nvidia-docker；

利用docker加载caffe镜像，指令如下：

#docker load-i caffe-mpi-1.tar

#查看镜像加载是否成功docker image；

运行docker caffe-mpi

#nvidia-docker run-it--rm-v/mnt/:/mnt caffe-mpi

进入docker后配置docker环境，指令如下：

#ulimit-s unlimited；

GoogLeNet模型训练模块2，该模块中：

GPU卡配置信息编辑模块3，该模块中：针对配置中GPU卡数量，编辑相关配置文件；

GPU卡性能测试模块4，该模块中：根据配置中GPU卡数量、计算运行caffeGooglenet测试时间，进行性能、压力、功耗测试。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种Linux下GPU神经网络深度学习测试方法，其特征在于，包括以下步骤：

S1：搭建测试平台和测试环境的步骤；

S2：通过GoogLeNet训练模型的步骤；

S3：编辑GPU卡配置信息的步骤，针对配置中GPU卡数量，编辑相关配置文件；

S4：测试GPU卡性能的步骤。

2.根据权利要求1所述的一种Linux下GPU神经网络深度学习测试方法，其特征在于，所述步骤S1具体包括以下步骤：

添加ulimit-s unlimited命令和nvidia-smi-pm 1命令至/root/.bashrc中；安装配置中GPU最新版驱动程序和CUDA环境；将docker环境copy到系统下，并安装rpm包。

3.根据权利要求2所述的一种Linux下GPU神经网络深度学习测试方法，其特征在于，所述步骤S2具体包括以下步骤：访问训练模型,获取模型的具体组成结构，采用CAFFE框架中的GooleNet深度学习模型，caffe编译过程使用NCCL库；将数据进行分类；显示处理GoogleNet问题及打印测试结果。

4.根据权利要求3所述的一种Linux下GPU神经网络深度学习测试方法，其特征在于，所述步骤S4具体包括以下步骤：根据配置中GPU卡数量、计算运行caffe Googlenet测试时间，进行性能、压力、功耗测试。

5.一种Linux下GPU神经网络深度学习测试系统，其特征在于，包括：

GoogLeNet模型训练模块，该模块中：

访问训练模型,获取模型的具体组成结构，采用CAFFE框架中的GooleNet深度学习模型，caffe编译过程使用NCCL库；将数据进行分类；显示处理GoogleNet问题及打印测试结果；

GPU卡性能测试模块，该模块中：根据配置中GPU卡数量、计算运行caffe Googlenet测试时间，进行性能、压力、功耗测试。

6.根据权利要求5所述的一种Linux下GPU神经网络深度学习测试系统，其特征在于，所述搭建测试平台和测试环境模块中，添加ulimit-s unlimited命令和nvidia-smi-pm 1命令至/root/.bashrc中；安装配置中GPU最新版驱动程序和CUDA环境；将docker环境copy到系统下，并安装rpm包。