CN109213649A

CN109213649A - Gtx显卡深度学习优化测试方法、装置、终端及存储介质

Info

Publication number: CN109213649A
Application number: CN201811088405.XA
Authority: CN
Inventors: 段春焕
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2019-01-15

Abstract

本申请实施例提供一种GTX显卡深度学习优化测试方法、装置、终端及存储介质，包括：搭建测试环境；安装测试工具并配置所述测试工具；修改测试配置文件中的训练参数；运行测试程序并保存测试结果。本发明通过修改测试配置文件参数获取最接近GTX显卡客观深度学习性能的测试结果，提高了测试准确度。

Description

GTX显卡深度学习优化测试方法、装置、终端及存储介质

技术领域

本发明大数据服务平台技术领域，具体涉及一种GTX显卡深度学习优化测试方法、装置、终端及存储介质。

背景技术

当前深度学习作为复杂的机器学习算法，在语言和图像识别方面取得卓有成效的成果。GPU服务器广泛应用于人工智能与深度学习领域，深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。

GTX显卡相较Tesla系列GPU性价比高，比如GTX1080TI显卡CUDA核心数为3584，Base clock为1480MHz，显存为11GB GDDR5X，其单精度浮点运算能力接近1TFLOPS，完全满足深度学习计算需求，但价格易于高校科研人员或者AI爱好者接受；非常多的客户愿意在GPU服务器配置GTX显卡，因此需要掌握其深度学习性能。

GTX显卡的深度学习性能测试主要采用搭建测试环境后利用专用测试工具进行测试的方法，但是测试环境和测试工具的选择和配置对测试准确性的影响较大，同一GTX显卡在不同选择和配置下测试得到的测试结果也是不同的。现有的测试方法的测试效果参差不齐，无法测试GTX显卡的最优深度学习性能。

发明内容

针对现有技术的不足，本发明提供一种GTX显卡深度学习优化测试方法、装置、终端及存储介质，以解决上述技术问题。

第一方面，本申请实施例提供一种GTX显卡深度学习优化测试方法，所述方法包括：

搭建测试环境；

安装测试工具并配置所述测试工具；

修改测试配置文件中的训练参数；

运行测试程序并保存测试结果。

结合第一方面，在第一方面的第一种实施方式中，所述搭建测试环境包括：

安装CUDA环境并配置环境变量；

卸载nouveau并安装GPU驱动；

关闭防火墙和saline。

结合第一方面，在第一方面的第二种实施方式中，所述安装测试工具并配置所述测试工具包括：

安装并启动docker；

加载caffe镜像并查看镜像加载；

运行docker caffe-mpi把物理机系统路径共享到docker容器中的路径下并根据实际环境配置目录；

进入docker并配置docker环境。

结合第一方面，在第一方面的第三种实施方式中，所述修改测试配置文件中的训练参数包括：

运行caffe Googlenet 1卡测试修改ilsvrc12_train_lmdb所在目录并修改每次训练样本数和训练次数；

运行caffe Googlenet 2卡程序并修改每次训练样本数和训练次数；

运行caffe Googlenet 4卡程序并修改每次训练样本数和训练次数；

运行caffe Googlenet 8卡程序并修改每次训练样本数和训练次数。

第二方面，本申请实施例提供一种GTX显卡深度学习优化测试装置，所述装置包括：

搭建单元，配置用于搭建测试环境；

安装单元，配置用于安装测试工具并配置所述测试工具；

修改单元，配置用于修改测试配置文件中的训练参数；

运行单元，配置用于运行测试程序并保存测试结果。

结合第二方面，在第二方面的第一种实施方式中，所述搭建单元包括：

环境安装模块，配置用于安装CUDA环境并配置环境变量；

驱动安装模块，配置用于卸载nouveau并安装GPU驱动；

功能关闭模块，配置用于关闭防火墙和saline。

结合第二方面，在第二方面的第二种实施方式中，所述安装单元包括：

安装启动模块，配置用于安装并启动docker；

镜像加载模块，配置用于加载caffe镜像并查看镜像加载；

目录修改模块，配置用于运行docker caffe-mpi把物理机系统路径共享到docker容器中的路径下并根据实际环境配置目录；

环境配置模块，配置用于进入docker并配置docker环境。

结合第二方面，在第二方面的第三种实施方式中，所述修改单元包括：

第一修改模块，配置用于运行caffe Googlenet 1卡测试修改ilsvrc12_train_lmdb所在目录并修改每次训练样本数和训练次数；

第二修改模块，配置用于运行caffe Googlenet 2卡程序并修改每次训练样本数和训练次数；

第三修改模块，配置用于运行caffe Googlenet 4卡程序并修改每次训练样本数和训练次数；

第四修改模块，配置用于运行caffe Googlenet 8卡程序并修改每次训练样本数和训练次数。

第三方面，提供一种终端，包括：

处理器、存储器，其中，

该存储器用于存储计算机程序，

该处理器用于从存储器中调用并运行该计算机程序，使得终端终端执行上述的终端终端的方法。

第四方面，提供了一种计算机存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

本发明的有益效果在于，

本发明提供的GTX显卡深度学习优化测试方法、装置、终端及存储介质，在搭建好测试环境并安装好测试工具后，通过修改测试配置文件中的深度学习的训练参数，使GTX显卡在测试时发挥最优的深度学习性能，执行测试后得到最接近GTX显卡客观深度学习性能的测试结果。本发明通过修改测试配置文件参数获取最接近GTX显卡客观深度学习性能的测试结果，提高了测试准确度。

此外，本发明设计原理可靠，结构简单，具有非常广泛的应用前景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例的方法的示意性流程图。

图2是本申请一个实施例的装置的示意性框图。

图3为本发明实施例提供的一种终端的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

下面对本申请中出现的关键术语进行解释。

图1是本申请一个实施例的方法的示意性流程图。其中，图1执行主体可以为一种GTX显卡深度学习优化测试装置。

如图1所示，该方法100包括：

步骤110，搭建测试环境；

步骤120，安装测试工具并配置所述测试工具；

步骤130，修改测试配置文件中的训练参数；

步骤140，运行测试程序并保存测试结果。

为了便于对本发明的理解，下面以本发明优化测试GTX显卡深度学习性能的原理，结合实施例中对GTX显卡深度学习性能进行优化测试的过程，对本发明提供的GTX显卡深度学习优化测试方法做进一步的描述。

可选地，作为本申请一个实施例，所述搭建测试环境包括：

安装CUDA环境并配置环境变量；

卸载nouveau并安装GPU驱动；

关闭防火墙和sal ine。

可选地，作为本申请一个实施例，所述安装测试工具并配置所述测试工具包括：

安装并启动docker；

加载caffe镜像并查看镜像加载；

进入docker并配置docker环境。

可选地，作为本申请一个实施例，所述修改测试配置文件中的训练参数包括：

具体的，所述GTX显卡深度学习优化测试方法包括：

S1、搭建测试环境。

(1)安装CUDA

#sudo sh cuda_8.0…run

按照提示安装输入(y、n、回车、路径等选项)，注意不需要安装cuda自带的NVDIAGPU驱动，因为使用NVIDIA官网最新驱动

配置环境变量

添加一下内容至～/.bashrc中

export

LD_LIBRARY_PATH＝/usr/local/cuda-8.0/lib64:$LD_LIBRARY_PATH

export PATH＝/usr/local/cuda-8.0/bin:$PATH

保存退出后执行#source～/.bashrc；

验证安装正确性：#nvcc–V

应输出cuda版本为正确：

nvcc:NVIDIA(R)Cuda compiler driver

Built on Sun_Sep__4_22:14:01_CDT_2016

Cuda compilation tools,release 8.0,V8.0.44

(2)安装GPU驱动

卸载nouveau

a、sed-i'/root＝/s|$|rdblacklist＝nouveau vga＝791|'/boot/grub/grub.conf

b、echo"blacklist nouveau">>/etc/modprobe.d/blacklist.conf

c、mv/boot/initramfs-$(uname-r).img/boot/initramfs-$(uname-r)-nouveau.img

d、dracut/boot/initramfs-$(uname-r).img$(uname-r)

e、yum remove xorg-x11-drv-nouveau

f、提示是否卸载时，直接回车，不要输入Y

g、reboot

安装驱动

#sudo sh XXX.run(XXX.run是GPU驱动文件)进行驱动安装；

#nvidia-smi验证驱动安装是否正常。

(3)关闭系统部分功能

关闭防火墙

#systemctl stop firewalld

#systemctl disable firewalld

关闭saline

#setenforce 0

#ulimit-s unlimited

#nvidia-smi-pm 1

S2、安装测试工具并配置所述测试工具

#rpm-vih nvidia-docker-1.0.0-1.x86_64.rpm-----安装docker

#systemctl start docker

#systemctl enable docker

#systemctl start nvidia-docke------启动doctor

#docker load-i caffe-mpi-1.tar------加载caffe镜像

Docker images------查看镜像加载

#nvidia-docker run-it--rm-v/mnt/:/mnt caffe-mpi------运行dockercaffe-mpi

把物理机系统路径/mnt/imaganet/共享到docker容器中的路径/mnt/下，目录根据实际环境配置

#ulimit-s unlimited------进入docker后配置docker环境

S3、修改测试配置文件中的训练参数。

(1)运行caffe Googlenet 1卡测试

#cd～/caffe-caffe-0.15/-------修改配置文件

#vi models/bvlc_googlenet/train_val.prototxt

source:"/mnt/caffe/ilsvrc12_train_lmdb"------修改第18行和39行为

(修改ilsvrc12_train_lmdb所在目录)

batch_size:64------修改第19行为(batch_size是每批数据量的大小，这里设定每次的训练样本为64)

保存退出

#vi models/bvlc_googlenet/solver.prototxt

max_iter:20000--------修改第11行为(训练每批数据量为64，这里定义要训练20000次；)

保存退出

#nohup./build/tools/caffe train--solver＝models/bvlc_googlenet/solver.prototxt--gpu＝0>/mnt/logs/caffe-googlenet-64-1gpu.log------运行程序并且保存结果

(2)运行caffe Googlenet 2卡程序

依照(1)中的步骤，其他内容不变只修改以下内容

#vi models/bvlc_googlenet/train_val.prototxt

batch_size:128------修改第19行为(每批训练数据量为128)

#vi models/bvlc_googlenet/solver.prototxt

max_iter:10000-------修改第11行为(训练次数为10000)

保存退出

#nohup./build/tools/caffe train--solver＝models/bvlc_googlenet/solver.prototxt--gpu＝0,1>/mnt/logs/caffe-googlenet-64x2-2gpu.log-------运行程序并且保存结果

(3)运行caffe Googlenet 4卡程序

依照(1)中的步骤，其他内容不变只修改以下内容

#vi models/bvlc_googlenet/train_val.prototxt

batch_size:256------修改第19行为(每批训练数据量为256)

#vi models/bvlc_googlenet/solver.prototxt

max_iter:5000-------修改第11行为(设置训练次数为5000)

保存退出

#nohup./build/tools/caffe train--solver＝models/bvlc_googlenet/solver.prototxt--gpu＝0,1,2,3>/mnt/logs/caffe-googlenet-64x4-4gpu.log-------运行程序并且保存结果

(4)运行caffe Googlenet8卡程序

依照(1)中的步骤，其他内容不变只修改以下内容

#vi models/bvlc_googlenet/train_val.prototxt

batch_size:512------修改第19行为(每批训练数据量为512)

#vi models/bvlc_googlenet/solver.prototxt

max_iter:2500-------修改第11行为(设置训练次数为2500)

保存退出

#nohup./build/tools/caffe train--solver＝models/bvlc_googlenet/solver.prototxt--gpu＝0,1,2,3,4,5,6,7>/mnt/logs/caffe-googlenet-64x4-8gpu.log-------运行程序并且保存结果

S4、运行测试程序并保存测试结果。

步骤S3中对各个caffe Googl enet卡的测试配置文件修改后，立即运行测试成绩并保存测试结果。

本实施例中得到的测试GTX显卡的处理图像性能为(2400-2280)/2＝60images/s。

如图2示，该装置200包括：

搭建单元210，所述搭建单元210用于搭建测试环境；

安装单元220，所述安装单元220用于安装测试工具并配置所述测试工具；

修改单元230，所述修改单元230用于修改测试配置文件中的训练参数；

运行单元240，所述运行单元240用于运行测试程序并保存测试结果。

可选地，作为本申请一个实施例，所述搭建单元包括：

环境安装模块，配置用于安装CUDA环境并配置环境变量；

驱动安装模块，配置用于卸载nouveau并安装GPU驱动；

功能关闭模块，配置用于关闭防火墙和saline。

可选地，作为本申请一个实施例，所述安装单元包括：

安装启动模块，配置用于安装并启动docker；

镜像加载模块，配置用于加载caffe镜像并查看镜像加载；

环境配置模块，配置用于进入docker并配置docker环境。

可选地，作为本申请一个实施例，所述修改单元包括：

图3为本发明实施例提供的一种终端装置300的结构示意图，该终端装置300可以用于执行本申请实施例提供的更新散热策略参数的方法。

其中，该终端装置300可以包括：处理器310、存储器320及通信单元330。这些组件通过一条或多条总线进行通信，本领域技术人员可以理解，图中示出的服务器的结构并不构成对本申请的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

其中，该存储器320可以用于存储处理器310的执行指令，存储器320可以由任何类型的易失性或非易失性存储终端或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。当存储器320中的执行指令由处理器310执行时，使得终端300能够执行以下上述方法实施例中的部分或全部步骤。

处理器310为存储终端的控制中心，利用各种接口和线路连接整个电子终端的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器内的数据，以执行电子终端的各种功能和/或处理数据。所述处理器可以由集成电路(Integrated Circuit，简称IC)组成，例如可以由单颗封装的IC所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。举例来说，处理器310可以仅包括中央处理器(Central Processing Unit，简称CPU)。在本申请实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

通信单元330，用于建立通信信道，从而使所述存储终端可以与其它终端进行通信。接收其他终端发送的用户数据或者向其他终端发送用户数据。

本申请还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本申请提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

因此，本申请在搭建好测试环境并安装好测试工具后，通过修改测试配置文件中的深度学习的训练参数，使GTX显卡在测试时发挥最优的深度学习性能，执行测试后得到最接近GTX显卡客观深度学习性能的测试结果。本发明通过修改测试配置文件参数获取最接近GTX显卡客观深度学习性能的测试结果，提高了测试准确度，本实施例所能达到的技术效果可以参见上文中的描述，此处不再赘述。

本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，包括若干指令用以使得一台计算机终端(可以是个人计算机，服务器，或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于终端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述，但本发明并不限于此。在不脱离本发明的精神和实质的前提下，本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换，而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种GTX显卡深度学习优化测试方法，其特征在于，所述方法包括：

搭建测试环境；

安装测试工具并配置所述测试工具；

修改测试配置文件中的训练参数；

运行测试程序并保存测试结果。

2.根据权利要求1所述的方法，其特征在于，所述搭建测试环境包括：

安装CUDA环境并配置环境变量；

卸载nouveau并安装GPU驱动；

关闭防火墙和saline。

3.根据权利要求1所述的方法，其特征在于，所述安装测试工具并配置所述测试工具包括：

安装并启动docker；

加载caffe镜像并查看镜像加载；

进入docker并配置docker环境。

4.根据权利要求1所述的方法，其特征在于，所述修改测试配置文件中的训练参数包括：

5.一种GTX显卡深度学习优化测试装置，其特征在于，所述装置包括：

搭建单元，配置用于搭建测试环境；

安装单元，配置用于安装测试工具并配置所述测试工具；

修改单元，配置用于修改测试配置文件中的训练参数；

运行单元，配置用于运行测试程序并保存测试结果。

6.根据权利要求5所述的装置，其特征在于，所述搭建单元包括：

环境安装模块，配置用于安装CUDA环境并配置环境变量；

驱动安装模块，配置用于卸载nouveau并安装GPU驱动；

功能关闭模块，配置用于关闭防火墙和saline。

7.根据权利要求5所述的装置，其特征在于，所述安装单元包括：

安装启动模块，配置用于安装并启动docker；

镜像加载模块，配置用于加载caffe镜像并查看镜像加载；

环境配置模块，配置用于进入docker并配置docker环境。

8.根据权利要求5所述的装置，其特征在于，所述修改单元包括：

9.一种终端，其特征在于，包括：

处理器；

用于存储处理器的执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-4任一项所述的方法。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，该程序被处理器执行时实现如权利要求1-4中任一项所述的方法。