CN110096401A

CN110096401A - 一种服务器数据处理性能测试方法与装置

Info

Publication number: CN110096401A
Application number: CN201910393171.8A
Authority: CN
Inventors: 林建伟
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2019-05-13
Filing date: 2019-05-13
Publication date: 2019-08-06

Abstract

本发明公开了一种基于深度学习模型的服务器数据处理性能测试方法与装置，包括：根据服务器的硬件配置搭建软件环境；基于软件环境安装深度学习框架；设置测试数据处理性能所使用的测试参数；使用深度学习框架基于测试参数测试服务器的数据处理性能；生成并返回测试结果。本发明的技术方案能够使用深度学习框架针对不同服务器或不同类型的服务器进行自动化的数据处理性能测试，提高工作效率并解放人工。

Description

一种服务器数据处理性能测试方法与装置

技术领域

本发明涉及测试领域，并且更具体地，特别是涉及一种基于深度学习模型的服务器数据处理性能测试方法与装置。

背景技术

AI服务器的自动化测试可以检测服务器本身硬件搭配是否正常和数据处理性能是否达标。目前，AI已近逐渐渗透到各行各业，AI算法的实现和落地依赖于大数据、大模型和强大的计算力，而强大的算力支持至关重要。AI计算平台深度学习模型训练和推理的基准性能测试，是衡量AI服务器计算能力的主要参考指标。

由于传统的服务器测试方法与目前AI服务器性能测试的关注点不同，AI计算平台的性能测试需要新的测试工具和方法。目前，AI计算平台深度学习模型的基准性能测试的一般做法是根据服务器硬件配置特别是GPU型号的不同，手工配置深度学习基础环境以及深度学习框架。在配置几十台甚至上百台服务器的过程中，存在深度学习基础环境和框架重复安装、容易出错、耗时费力等缺点，消耗人力资源。AI计算平台的TensorFlow等深度学习框架基准性能测试、测试结果的分析整理也需要手工进行，不仅工作量大，而且同样存在费时费力的问题。

针对现有技术中数据处理性能测试依赖人工、效率低下的问题，目前尚未有有效的解决方案。

发明内容

有鉴于此，本发明实施例的目的在于提出一种基于深度学习模型的服务器数据处理性能测试方法与装置，能够使用深度学习框架针对不同服务器或不同类型的服务器进行自动化的数据处理性能测试，提高工作效率并解放人工。

基于上述目的，本发明实施例的一方面提供了一种基于深度学习模型的服务器数据处理性能测试方法，包括以下步骤：

根据服务器的硬件配置搭建软件环境；

基于软件环境安装深度学习框架；

设置测试数据处理性能所使用的测试参数；

使用深度学习框架基于测试参数测试服务器的数据处理性能；

生成并返回测试结果。

在一些实施方式中，根据服务器的硬件配置搭建软件环境包括：

根据服务器的图形处理单元安装对应的图形处理单元驱动；

根据服务器的图形处理设备安装对应的计算设备构架；

根据服务器的图形处理设备为计算设备构架安装对应的计算设备构架神经网络库；

根据计算设备构架神经网络库安装对应的依赖库。

在一些实施方式中，搭建软件环境时，图形处理器驱动、计算设备构架、计算设备构架神经网络库、依赖库按照前述顺序而依次被安装；使用自动化脚本搭建软件环境，其中每一个在安装完成时由自动化脚本检测版本匹配情况，在自动化脚本确认版本匹配后依次安装下一个。

在一些实施方式中，测试服务器的数据处理性能包括：图形处理单元与硬盘、CPU、内存、主板之间的协作数据处理性能和处理速度，和图形处理单元驱动与深度学习框架、计算设备构架、计算设备构架神经网络库、依赖库之间的协作数据处理性能和处理速度。

在一些实施方式中，设置测试数据处理性能所使用的测试参数，包括以下至少之一：训练次数、数据输入地址、训练强度、数据输出地址、训练模型、调用硬件、优化器、梯度规约、参数更新。

在一些实施方式中，深度学习框架为Tensorflow；训练模型包括以下至少之一：alexnet模型、googlenet模型、vgg16模型、resnet50模型、resnet152模型。

在一些实施方式中，优化器在训练过程中通过执行随机梯度下降算法来优化测试参数。

在一些实施方式中，梯度规约通过图形处理单元执行，参数更新通过中央处理单元执行。

在一些实施方式中，测试结果包括以下至少之一：训练任务吞吐量、训练任务加速比、推理任务延迟、推理任务加速比。

基于上述目的，本发明实施例的另一方面提供了一种基于深度学习模型的服务器数据处理性能测试装置，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，所述程序代码在被运行时执行上述的方法。

本发明具有以下有益技术效果：本发明实施例提供的基于深度学习模型的服务器数据处理性能测试方法与装置，通过根据服务器的硬件配置搭建软件环境，基于软件环境安装深度学习框架，设置测试数据处理性能所使用的测试参数，使用深度学习框架基于测试参数测试服务器的数据处理性能，生成并返回测试结果的技术方案，能够使用深度学习框架针对不同服务器或不同类型的服务器进行自动化的数据处理性能测试，提高工作效率并解放人工。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本发明提供的基于深度学习模型的服务器数据处理性能测试方法的流程示意图；

图2为本发明提供的基于深度学习模型的服务器数据处理性能测试方法的详细流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明实施例进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”、“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

基于上述目的，本发明实施例的第一个方面，提出了一种能够使用深度学习框架针对不同服务器或不同类型的服务器进行自动化的数据处理性能测试的方法的实施例。图1示出的是本发明提供的基于深度学习模型的服务器数据处理性能测试方法的实施例的流程示意图。

所述基于深度学习模型的服务器数据处理性能测试方法，包括以下步骤：

步骤S101，根据服务器的硬件配置搭建软件环境；

步骤S103，基于软件环境安装深度学习框架；

步骤S105，设置测试数据处理性能所使用的测试参数；

步骤S107，使用深度学习框架基于测试参数测试服务器的数据处理性能；

步骤S109，生成并返回测试结果。

根据服务器的图形处理单元安装对应的图形处理单元驱动；

根据服务器的图形处理设备安装对应的计算设备构架；

根据计算设备构架神经网络库安装对应的依赖库。

图2示出的是本发明的一个具体实施方式的流程图。如图2所示，首先配置AI计算平台，包括使用Tesla V100作为CPU，安装Ubuntu以及CentOS系统；利用脚本自动安装GPU驱动，检测已经安装的驱动版本号，如果不能检测到则重新安装；利用脚本自动安装CUDA软件包，检测已经安装的CUDA版本号，如果不能检测到则重新安装；利用脚本自动安装cuDNN加速库，检测已经安装的cuDNN版本号，如果不能检测到则重新安装；自动安装其它依赖库(如Bazel、Python等)；自动下载TensorFlow源码、编译何安装，下载TensorFlow基准测试包所使用的配置，检测已经安装的深度学习框架TensorFlow版本，如果不能检测到则重新安装。

安装完TensorFlow后执行基准性能测试。首先设置测试参数，包括：设置参数NUM_BATCHES＝100，即读取数据批处理总共执行100次；设置参数DATA_DIR＝/home/tensor_ILSVR2012_light/，即测试过程中从该文件夹读取数据；设置参数batchsize＝32/64/128/256，即测试过程中执行每次分别读取32张/64张/128张/256张图像训练深度神经网络；设置参数mkdir-p logs/real/${BATCH_SIZE}-1card/，即测试过程中测试日志被写入的测试日志存储文件夹；设置参数MODEL in alexnet googlenet vgg16 resnet50 resnet152，即程序运行过程中分别加载alexnet模型、googlenet模型、vgg16模型、resnet50模型、和resnet152网络模型执行测试；设置参数num_gpus＝1/4/8，分别在1块GPU卡、4块GPU卡以及8块GPU卡执行深度神经网络模型的训练；设置参数optimizer＝sgd，即训练过程中执行随机梯度下降算法优化模型参数；设置参数variable_update＝parameter_server和local_parameter_device＝cpu，即执行深度学习网络模型的训练采用参数服务器模式，GPU负责参数的更新，CPU负责每个GPU参数的规约。

最后获取输出的测试日志文件，利用脚本工具提取日志中的信息，包括单机单卡、单机多卡、或多机多卡下深度学习模型执行训练任务的吞吐量和加速比、深度学习模型执行推理任务的延迟和加速比，以生成测试结果，完成测试。

从上述实施例可以看出，本发明实施例提供的基于深度学习模型的服务器数据处理性能测试方法，通过根据服务器的硬件配置搭建软件环境，基于软件环境安装深度学习框架，设置测试数据处理性能所使用的测试参数，使用基于测试参数的深度学习框架测试服务器的数据处理性能，生成并返回测试结果的技术方案，能够使用深度学习框架针对不同服务器或不同类型的服务器进行自动化的数据处理性能测试，提高工作效率并解放人工。

需要特别指出的是，上述基于深度学习模型的服务器数据处理性能测试方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于基于深度学习模型的服务器数据处理性能测试方法也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

基于上述目的，本发明实施例的第二个方面，提出了一种能够使用深度学习框架针对不同服务器或不同类型的服务器进行自动化的数据处理性能测试的装置的实施例。所述装置包括：

处理器；和

存储器，存储有处理器可运行的程序代码，所述程序代码在被运行时执行如上述的方法。

从上述实施例可以看出，本发明实施例提供的基于深度学习模型的服务器数据处理性能测试装置，通过根据服务器的硬件配置搭建软件环境，基于软件环境安装深度学习框架，设置测试数据处理性能所使用的测试参数，使用基于测试参数的深度学习框架测试服务器的数据处理性能，生成并返回测试结果的技术方案，能够使用深度学习框架针对不同服务器或不同类型的服务器进行自动化的数据处理性能测试，提高工作效率并解放人工。

需要特别指出的是，上述基于深度学习模型的服务器数据处理性能测试装置的实施例采用了所述基于深度学习模型的服务器数据处理性能测试方法的实施例来具体说明各模块的工作过程，本领域技术人员能够很容易想到，将这些模块应用到所述基于深度学习模型的服务器数据处理性能测试方法的其他实施例中。当然，由于所述基于深度学习模型的服务器数据处理性能测试方法实施例中的各个步骤均可以相互交叉、替换、增加、删减，因此，这些合理的排列组合变换之于所述基于深度学习模型的服务器数据处理性能测试装置也应当属于本发明的保护范围，并且不应将本发明的保护范围局限在所述实施例之上。

以上是本发明公开的示例性实施例，但是应当注意，在不背离权利要求限定的本发明实施例公开的范围的前提下，可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外，尽管本发明实施例公开的元素可以以个体形式描述或要求，但除非明确限制为单数，也可以理解为多个。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子；在本发明实施例的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，并存在如上所述的本发明实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。因此，凡在本发明实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明实施例的保护范围之内。

Claims

1.一种基于深度学习模型的服务器数据处理性能测试方法，其特征在于，包括以下步骤：

根据服务器的硬件配置搭建软件环境；

基于所述软件环境安装深度学习框架；

设置测试数据处理性能所使用的测试参数；

使用所述深度学习框架基于所述测试参数测试所述服务器的数据处理性能；

生成并返回测试结果。

2.根据权利要求1所述的方法，其特征在于，根据所述服务器的所述硬件配置搭建所述软件环境包括：

根据所述服务器的图形处理单元安装对应的图形处理单元驱动；

根据所述服务器的图形处理设备安装对应的计算设备构架；

根据所述服务器的所述图形处理设备为所述计算设备构架安装对应的计算设备构架神经网络库；

根据所述计算设备构架神经网络库安装对应的依赖库。

3.根据权利要求2所述的方法，其特征在于，搭建所述软件环境时，所述图形处理器驱动、所述计算设备构架、所述计算设备构架神经网络库、所述依赖库按照前述顺序而依次被安装；使用自动化脚本搭建所述软件环境，其中每一个在安装完成时由所述自动化脚本检测版本匹配情况，在所述自动化脚本确认版本匹配后依次安装下一个。

4.根据权利要求2所述的方法，其特征在于，测试所述服务器的数据处理性能包括：所述图形处理单元与硬盘、CPU、内存、主板之间的协作数据处理性能和处理速度，和所述图形处理单元驱动与所述深度学习框架、所述计算设备构架、所述计算设备构架神经网络库、所述依赖库之间的协作数据处理性能和处理速度。

5.根据权利要求1所述的方法，其特征在于，设置测试所述数据处理性能所使用的所述测试参数，包括以下至少之一：训练次数、数据输入地址、训练强度、数据输出地址、训练模型、调用硬件、优化器、梯度规约、参数更新。

6.根据权利要求5所述的方法，其特征在于，所述深度学习框架为Tensorflow；所述训练模型包括以下至少之一：alexnet模型、googlenet模型、vgg16模型、resnet50模型、resnet152模型。

7.根据权利要求5所述的方法，其特征在于，所述优化器在训练过程中通过执行随机梯度下降算法来优化所述测试参数。

8.根据权利要求5所述的方法，其特征在于，所述梯度规约通过图形处理单元执行，所述参数更新通过中央处理单元执行。

9.根据权利要求1所述的方法，其特征在于，所述测试结果包括以下至少之一：训练任务吞吐量、训练任务加速比、推理任务延迟、推理任务加速比。

10.一种基于深度学习模型的服务器数据处理性能测试装置，其特征在于，包括：

处理器；和

存储器，存储有处理器可运行的程序代码，所述程序代码在被运行时执行如权利要求1-9中任意一项所述的方法。