CN110096401A - 一种服务器数据处理性能测试方法与装置 - Google Patents

一种服务器数据处理性能测试方法与装置 Download PDF

Info

Publication number
CN110096401A
CN110096401A CN201910393171.8A CN201910393171A CN110096401A CN 110096401 A CN110096401 A CN 110096401A CN 201910393171 A CN201910393171 A CN 201910393171A CN 110096401 A CN110096401 A CN 110096401A
Authority
CN
China
Prior art keywords
server
test
deep learning
model
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201910393171.8A
Other languages
English (en)
Inventor
林建伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN201910393171.8A priority Critical patent/CN110096401A/zh
Publication of CN110096401A publication Critical patent/CN110096401A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于深度学习模型的服务器数据处理性能测试方法与装置,包括:根据服务器的硬件配置搭建软件环境;基于软件环境安装深度学习框架;设置测试数据处理性能所使用的测试参数;使用深度学习框架基于测试参数测试服务器的数据处理性能;生成并返回测试结果。本发明的技术方案能够使用深度学习框架针对不同服务器或不同类型的服务器进行自动化的数据处理性能测试,提高工作效率并解放人工。

Description

一种服务器数据处理性能测试方法与装置
技术领域
本发明涉及测试领域,并且更具体地,特别是涉及一种基于深度学习模型的服务器数据处理性能测试方法与装置。
背景技术
AI服务器的自动化测试可以检测服务器本身硬件搭配是否正常和数据处理性能是否达标。目前,AI已近逐渐渗透到各行各业,AI算法的实现和落地依赖于大数据、大模型和强大的计算力,而强大的算力支持至关重要。AI计算平台深度学习模型训练和推理的基准性能测试,是衡量AI服务器计算能力的主要参考指标。
由于传统的服务器测试方法与目前AI服务器性能测试的关注点不同,AI计算平台的性能测试需要新的测试工具和方法。目前,AI计算平台深度学习模型的基准性能测试的一般做法是根据服务器硬件配置特别是GPU型号的不同,手工配置深度学习基础环境以及深度学习框架。在配置几十台甚至上百台服务器的过程中,存在深度学习基础环境和框架重复安装、容易出错、耗时费力等缺点,消耗人力资源。AI计算平台的TensorFlow等深度学习框架基准性能测试、测试结果的分析整理也需要手工进行,不仅工作量大,而且同样存在费时费力的问题。
针对现有技术中数据处理性能测试依赖人工、效率低下的问题,目前尚未有有效的解决方案。
发明内容
有鉴于此,本发明实施例的目的在于提出一种基于深度学习模型的服务器数据处理性能测试方法与装置,能够使用深度学习框架针对不同服务器或不同类型的服务器进行自动化的数据处理性能测试,提高工作效率并解放人工。
基于上述目的,本发明实施例的一方面提供了一种基于深度学习模型的服务器数据处理性能测试方法,包括以下步骤:
根据服务器的硬件配置搭建软件环境;
基于软件环境安装深度学习框架;
设置测试数据处理性能所使用的测试参数;
使用深度学习框架基于测试参数测试服务器的数据处理性能;
生成并返回测试结果。
在一些实施方式中,根据服务器的硬件配置搭建软件环境包括:
根据服务器的图形处理单元安装对应的图形处理单元驱动;
根据服务器的图形处理设备安装对应的计算设备构架;
根据服务器的图形处理设备为计算设备构架安装对应的计算设备构架神经网络库;
根据计算设备构架神经网络库安装对应的依赖库。
在一些实施方式中,搭建软件环境时,图形处理器驱动、计算设备构架、计算设备构架神经网络库、依赖库按照前述顺序而依次被安装;使用自动化脚本搭建软件环境,其中每一个在安装完成时由自动化脚本检测版本匹配情况,在自动化脚本确认版本匹配后依次安装下一个。
在一些实施方式中,测试服务器的数据处理性能包括:图形处理单元与硬盘、CPU、内存、主板之间的协作数据处理性能和处理速度,和图形处理单元驱动与深度学习框架、计算设备构架、计算设备构架神经网络库、依赖库之间的协作数据处理性能和处理速度。
在一些实施方式中,设置测试数据处理性能所使用的测试参数,包括以下至少之一:训练次数、数据输入地址、训练强度、数据输出地址、训练模型、调用硬件、优化器、梯度规约、参数更新。
在一些实施方式中,深度学习框架为Tensorflow;训练模型包括以下至少之一:alexnet模型、googlenet模型、vgg16模型、resnet50模型、resnet152模型。
在一些实施方式中,优化器在训练过程中通过执行随机梯度下降算法来优化测试参数。
在一些实施方式中,梯度规约通过图形处理单元执行,参数更新通过中央处理单元执行。
在一些实施方式中,测试结果包括以下至少之一:训练任务吞吐量、训练任务加速比、推理任务延迟、推理任务加速比。
基于上述目的,本发明实施例的另一方面提供了一种基于深度学习模型的服务器数据处理性能测试装置,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,所述程序代码在被运行时执行上述的方法。
本发明具有以下有益技术效果:本发明实施例提供的基于深度学习模型的服务器数据处理性能测试方法与装置,通过根据服务器的硬件配置搭建软件环境,基于软件环境安装深度学习框架,设置测试数据处理性能所使用的测试参数,使用深度学习框架基于测试参数测试服务器的数据处理性能,生成并返回测试结果的技术方案,能够使用深度学习框架针对不同服务器或不同类型的服务器进行自动化的数据处理性能测试,提高工作效率并解放人工。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明提供的基于深度学习模型的服务器数据处理性能测试方法的流程示意图;
图2为本发明提供的基于深度学习模型的服务器数据处理性能测试方法的详细流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”、“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
基于上述目的,本发明实施例的第一个方面,提出了一种能够使用深度学习框架针对不同服务器或不同类型的服务器进行自动化的数据处理性能测试的方法的实施例。图1示出的是本发明提供的基于深度学习模型的服务器数据处理性能测试方法的实施例的流程示意图。
所述基于深度学习模型的服务器数据处理性能测试方法,包括以下步骤:
步骤S101,根据服务器的硬件配置搭建软件环境;
步骤S103,基于软件环境安装深度学习框架;
步骤S105,设置测试数据处理性能所使用的测试参数;
步骤S107,使用深度学习框架基于测试参数测试服务器的数据处理性能;
步骤S109,生成并返回测试结果。
在一些实施方式中,根据服务器的硬件配置搭建软件环境包括:
根据服务器的图形处理单元安装对应的图形处理单元驱动;
根据服务器的图形处理设备安装对应的计算设备构架;
根据服务器的图形处理设备为计算设备构架安装对应的计算设备构架神经网络库;
根据计算设备构架神经网络库安装对应的依赖库。
在一些实施方式中,搭建软件环境时,图形处理器驱动、计算设备构架、计算设备构架神经网络库、依赖库按照前述顺序而依次被安装;使用自动化脚本搭建软件环境,其中每一个在安装完成时由自动化脚本检测版本匹配情况,在自动化脚本确认版本匹配后依次安装下一个。
在一些实施方式中,测试服务器的数据处理性能包括:图形处理单元与硬盘、CPU、内存、主板之间的协作数据处理性能和处理速度,和图形处理单元驱动与深度学习框架、计算设备构架、计算设备构架神经网络库、依赖库之间的协作数据处理性能和处理速度。
在一些实施方式中,设置测试数据处理性能所使用的测试参数,包括以下至少之一:训练次数、数据输入地址、训练强度、数据输出地址、训练模型、调用硬件、优化器、梯度规约、参数更新。
在一些实施方式中,深度学习框架为Tensorflow;训练模型包括以下至少之一:alexnet模型、googlenet模型、vgg16模型、resnet50模型、resnet152模型。
在一些实施方式中,优化器在训练过程中通过执行随机梯度下降算法来优化测试参数。
在一些实施方式中,梯度规约通过图形处理单元执行,参数更新通过中央处理单元执行。
在一些实施方式中,测试结果包括以下至少之一:训练任务吞吐量、训练任务加速比、推理任务延迟、推理任务加速比。
图2示出的是本发明的一个具体实施方式的流程图。如图2所示,首先配置AI计算平台,包括使用Tesla V100作为CPU,安装Ubuntu以及CentOS系统;利用脚本自动安装GPU驱动,检测已经安装的驱动版本号,如果不能检测到则重新安装;利用脚本自动安装CUDA软件包,检测已经安装的CUDA版本号,如果不能检测到则重新安装;利用脚本自动安装cuDNN加速库,检测已经安装的cuDNN版本号,如果不能检测到则重新安装;自动安装其它依赖库(如Bazel、Python等);自动下载TensorFlow源码、编译何安装,下载TensorFlow基准测试包所使用的配置,检测已经安装的深度学习框架TensorFlow版本,如果不能检测到则重新安装。
安装完TensorFlow后执行基准性能测试。首先设置测试参数,包括:设置参数NUM_BATCHES=100,即读取数据批处理总共执行100次;设置参数DATA_DIR=/home/tensor_ILSVR2012_light/,即测试过程中从该文件夹读取数据;设置参数batchsize=32/64/128/256,即测试过程中执行每次分别读取32张/64张/128张/256张图像训练深度神经网络;设置参数mkdir-p logs/real/${BATCH_SIZE}-1card/,即测试过程中测试日志被写入的测试日志存储文件夹;设置参数MODEL in alexnet googlenet vgg16 resnet50 resnet152,即程序运行过程中分别加载alexnet模型、googlenet模型、vgg16模型、resnet50模型、和resnet152网络模型执行测试;设置参数num_gpus=1/4/8,分别在1块GPU卡、4块GPU卡以及8块GPU卡执行深度神经网络模型的训练;设置参数optimizer=sgd,即训练过程中执行随机梯度下降算法优化模型参数;设置参数variable_update=parameter_server和local_parameter_device=cpu,即执行深度学习网络模型的训练采用参数服务器模式,GPU负责参数的更新,CPU负责每个GPU参数的规约。
最后获取输出的测试日志文件,利用脚本工具提取日志中的信息,包括单机单卡、单机多卡、或多机多卡下深度学习模型执行训练任务的吞吐量和加速比、深度学习模型执行推理任务的延迟和加速比,以生成测试结果,完成测试。
从上述实施例可以看出,本发明实施例提供的基于深度学习模型的服务器数据处理性能测试方法,通过根据服务器的硬件配置搭建软件环境,基于软件环境安装深度学习框架,设置测试数据处理性能所使用的测试参数,使用基于测试参数的深度学习框架测试服务器的数据处理性能,生成并返回测试结果的技术方案,能够使用深度学习框架针对不同服务器或不同类型的服务器进行自动化的数据处理性能测试,提高工作效率并解放人工。
需要特别指出的是,上述基于深度学习模型的服务器数据处理性能测试方法的各个实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于基于深度学习模型的服务器数据处理性能测试方法也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
基于上述目的,本发明实施例的第二个方面,提出了一种能够使用深度学习框架针对不同服务器或不同类型的服务器进行自动化的数据处理性能测试的装置的实施例。所述装置包括:
处理器;和
存储器,存储有处理器可运行的程序代码,所述程序代码在被运行时执行如上述的方法。
从上述实施例可以看出,本发明实施例提供的基于深度学习模型的服务器数据处理性能测试装置,通过根据服务器的硬件配置搭建软件环境,基于软件环境安装深度学习框架,设置测试数据处理性能所使用的测试参数,使用基于测试参数的深度学习框架测试服务器的数据处理性能,生成并返回测试结果的技术方案,能够使用深度学习框架针对不同服务器或不同类型的服务器进行自动化的数据处理性能测试,提高工作效率并解放人工。
需要特别指出的是,上述基于深度学习模型的服务器数据处理性能测试装置的实施例采用了所述基于深度学习模型的服务器数据处理性能测试方法的实施例来具体说明各模块的工作过程,本领域技术人员能够很容易想到,将这些模块应用到所述基于深度学习模型的服务器数据处理性能测试方法的其他实施例中。当然,由于所述基于深度学习模型的服务器数据处理性能测试方法实施例中的各个步骤均可以相互交叉、替换、增加、删减,因此,这些合理的排列组合变换之于所述基于深度学习模型的服务器数据处理性能测试装置也应当属于本发明的保护范围,并且不应将本发明的保护范围局限在所述实施例之上。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (10)

1.一种基于深度学习模型的服务器数据处理性能测试方法,其特征在于,包括以下步骤:
根据服务器的硬件配置搭建软件环境;
基于所述软件环境安装深度学习框架;
设置测试数据处理性能所使用的测试参数;
使用所述深度学习框架基于所述测试参数测试所述服务器的数据处理性能;
生成并返回测试结果。
2.根据权利要求1所述的方法,其特征在于,根据所述服务器的所述硬件配置搭建所述软件环境包括:
根据所述服务器的图形处理单元安装对应的图形处理单元驱动;
根据所述服务器的图形处理设备安装对应的计算设备构架;
根据所述服务器的所述图形处理设备为所述计算设备构架安装对应的计算设备构架神经网络库;
根据所述计算设备构架神经网络库安装对应的依赖库。
3.根据权利要求2所述的方法,其特征在于,搭建所述软件环境时,所述图形处理器驱动、所述计算设备构架、所述计算设备构架神经网络库、所述依赖库按照前述顺序而依次被安装;使用自动化脚本搭建所述软件环境,其中每一个在安装完成时由所述自动化脚本检测版本匹配情况,在所述自动化脚本确认版本匹配后依次安装下一个。
4.根据权利要求2所述的方法,其特征在于,测试所述服务器的数据处理性能包括:所述图形处理单元与硬盘、CPU、内存、主板之间的协作数据处理性能和处理速度,和所述图形处理单元驱动与所述深度学习框架、所述计算设备构架、所述计算设备构架神经网络库、所述依赖库之间的协作数据处理性能和处理速度。
5.根据权利要求1所述的方法,其特征在于,设置测试所述数据处理性能所使用的所述测试参数,包括以下至少之一:训练次数、数据输入地址、训练强度、数据输出地址、训练模型、调用硬件、优化器、梯度规约、参数更新。
6.根据权利要求5所述的方法,其特征在于,所述深度学习框架为Tensorflow;所述训练模型包括以下至少之一:alexnet模型、googlenet模型、vgg16模型、resnet50模型、resnet152模型。
7.根据权利要求5所述的方法,其特征在于,所述优化器在训练过程中通过执行随机梯度下降算法来优化所述测试参数。
8.根据权利要求5所述的方法,其特征在于,所述梯度规约通过图形处理单元执行,所述参数更新通过中央处理单元执行。
9.根据权利要求1所述的方法,其特征在于,所述测试结果包括以下至少之一:训练任务吞吐量、训练任务加速比、推理任务延迟、推理任务加速比。
10.一种基于深度学习模型的服务器数据处理性能测试装置,其特征在于,包括:
处理器;和
存储器,存储有处理器可运行的程序代码,所述程序代码在被运行时执行如权利要求1-9中任意一项所述的方法。
CN201910393171.8A 2019-05-13 2019-05-13 一种服务器数据处理性能测试方法与装置 Withdrawn CN110096401A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910393171.8A CN110096401A (zh) 2019-05-13 2019-05-13 一种服务器数据处理性能测试方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910393171.8A CN110096401A (zh) 2019-05-13 2019-05-13 一种服务器数据处理性能测试方法与装置

Publications (1)

Publication Number Publication Date
CN110096401A true CN110096401A (zh) 2019-08-06

Family

ID=67447783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910393171.8A Withdrawn CN110096401A (zh) 2019-05-13 2019-05-13 一种服务器数据处理性能测试方法与装置

Country Status (1)

Country Link
CN (1) CN110096401A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515811A (zh) * 2019-08-09 2019-11-29 中国信息通信研究院 终端人工智能性能基准测试方法及装置
CN111242314A (zh) * 2020-01-08 2020-06-05 中国信息通信研究院 深度学习加速器基准测试方法和装置
WO2021077284A1 (zh) * 2019-10-22 2021-04-29 深圳鲲云信息科技有限公司 神经网络运行系统和方法
WO2021109593A1 (zh) * 2019-12-05 2021-06-10 五邑大学 嵌入式平台的部署方法、设备及存储介质
CN114077449A (zh) * 2020-08-20 2022-02-22 网联清算有限公司 数据库服务器的测试方法、装置、电子设备和存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110515811A (zh) * 2019-08-09 2019-11-29 中国信息通信研究院 终端人工智能性能基准测试方法及装置
WO2021077284A1 (zh) * 2019-10-22 2021-04-29 深圳鲲云信息科技有限公司 神经网络运行系统和方法
WO2021109593A1 (zh) * 2019-12-05 2021-06-10 五邑大学 嵌入式平台的部署方法、设备及存储介质
CN111242314A (zh) * 2020-01-08 2020-06-05 中国信息通信研究院 深度学习加速器基准测试方法和装置
CN114077449A (zh) * 2020-08-20 2022-02-22 网联清算有限公司 数据库服务器的测试方法、装置、电子设备和存储介质
CN114077449B (zh) * 2020-08-20 2023-08-01 网联清算有限公司 数据库服务器的测试方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN110096401A (zh) 一种服务器数据处理性能测试方法与装置
US10761810B2 (en) Automating testing and deployment of software code changes
Battina Artificial intelligence in software test automation: A systematic literature review
EP3816806A1 (en) Utilizing neural network and artificial intelligence models to select and execute test cases in a software development platform
US9342298B2 (en) Application compatibility checking in a distributed computing environment
US10120783B2 (en) Determining test case efficiency
US10678573B2 (en) System and method for simulating virtual machine (VM) placement in virtual datacenters
CN110096422A (zh) 一种基于容器的服务器计算性能测试方法与装置
Fursin et al. Collective knowledge: Towards R&D sustainability
CN105359090A (zh) 用于移动应用的系统和方法
US20090217246A1 (en) Evaluating Software Programming Skills
US8276122B2 (en) Method to speed up creation of JUnit test cases
US20130152042A1 (en) Automated and heuristically managed solution to quantify cpu and path length cost of instructions added, changed or removed by a service team
Kim et al. KGEN: A Python tool for automated Fortran kernel generation and verification
GB2524737A (en) A system and method for testing a workflow
CN112306857A (zh) 用于测试应用的方法和装置
Andrade et al. Software challenges in heterogeneous computing: A multiple case study in industry
CN109977953A (zh) 基于yolov3的目标检测算法在嵌入式设备上的实现方法
CN104850638A (zh) Etl过程并行决策方法及装置
CN107577946A (zh) iOS应用程序的分析方法、装置、系统及PC设备
CN113849484A (zh) 一种大数据组件升级方法、装置、电子设备及存储介质
Bree et al. Removing decorator to improve energy efficiency
Li et al. Streaming applications on heterogeneous platforms
Barr et al. Continuously Accelerating Research
US20240103834A1 (en) Automatic canary deployments with analyzing third party libraries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190806