CN103294579A - 一种高性能计算集群应用性能测试方法 - Google Patents

一种高性能计算集群应用性能测试方法 Download PDF

Info

Publication number
CN103294579A
CN103294579A CN2013102314352A CN201310231435A CN103294579A CN 103294579 A CN103294579 A CN 103294579A CN 2013102314352 A CN2013102314352 A CN 2013102314352A CN 201310231435 A CN201310231435 A CN 201310231435A CN 103294579 A CN103294579 A CN 103294579A
Authority
CN
China
Prior art keywords
test
application
performance
carry out
testing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013102314352A
Other languages
English (en)
Inventor
金莲
吕文静
刘羽
于涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN2013102314352A priority Critical patent/CN103294579A/zh
Publication of CN103294579A publication Critical patent/CN103294579A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供一种高性能计算集群应用性能测试方法,将对应用程序测试包括:一系统环境搭建,二系统测试,三应用程序准备,四应用测试,其中:系统环境搭建是选择适合硬件平台,文件系统,作业调度,选择适用的CPU内存,磁盘,网络,测试的节点数,在该硬件基础上部署操作系统,编译器;系统测试是进行系统LINPACK,STREAM,磁盘读写,网络带宽测试;应用程序准备主要是确定运行程序版本,算例规模;应用测试首先进行基本测试,确定运行时间,抓取基本性能数据,获取基本数据后,进行应用分析,特征剖析,程序优化,提炼软件特征,本发明简单、实用、可靠、高效,可以非常快速测试一套HPC系统性能状态,并快速获取应用软件特征。

Description

一种高性能计算集群应用性能测试方法
技术领域
本发明涉及计算机应用技术领域,具体地说是一种高性能计算集群应用性能测试方法。
背景技术
在高性能计算集群系统开放的技术架构下,高性能计算集群系统很容易达到百万亿次、千万亿次甚至万万亿次的计算能力,实际应用是否也能达到如此强的计算能力?其实并不然,在不同科学计算中,由于算法,原理不同,应用对硬件,系统的需求各异,如何快速判断系统性能,应用性能,成为高性能集群配置时必须考虑的问题。了解掌握应用性能便可有效避免HPC系统出现配置失衡或利用率不高等问题。在本发明专利中我们使用科学的方法测试系统,应用性能。该方法针对不同领域的HPC系统具有适用性,通过这一测试方法,掌握应用性能特征,为系统选配提供合理依据。
发明内容
本发明的目的是提供一种高性能计算集群应用性能测试方法。
本发明的目的是按以下方式实现的,将对应用程序测试包括:一系统环境搭建,二系统测试,三应用程序准备,四应用测试,其中:系统环境搭建是选择适合硬件平台,文件系统,作业调度,选择适用的CPU内存,磁盘,网络,测试的节点数,在该硬件基础上部署操作系统,编译器;系统测试是进行系统LINPACK,STREAM,磁盘读写,网络带宽测试;应用程序准备主要是确定运行程序版本,算例规模;应用测试首先进行基本测试,确定运行时间,抓取基本性能数据,获取基本数据后,进行应用分析,特征剖析,程序优化,提炼软件特征,具体步骤如下: 
1)确定测试平台,包括:制定测试计划,平台依据当前主流机器配置进行选择,CPU选型时需要考虑主频,Cache大小,功耗;内存需要考虑内存容量大小,内存频率,通道数;存储介质需要考虑接口,存储速率,转速;网络主要考虑网络带宽;
2)系统部署,包括:确定操作系统版本,编译器版本,并行环境,并行文件系统;关闭超线程,打开Turbo boost;确定server端,client端;
3)系统性能测试,包括:部署好的系统上进行整机Linapack测试,监测机器浮点运算性能,效率;使用STREAM程序进行内存带宽测试,使用DD或是IOZONE测试磁盘性能,使用PINGPONG或IMB测试网络带宽延迟;获取系统性能参数后,与理论值进行对比,主要目标是确定系统环境是否正常,各项参数是否达标,如若不达标,排查原因,修改相关配置或设置;
4)应用部署,包括:系统达标后,进行软件部署,编译安装,算例设计,算例设置不易规模过大或过小,要考虑算例运行时间,输出文件大小;
5)应用测试,包括:测试时也要分步骤进行,先进行最简单测试,将所有应用或是算例‘裸’运行一遍,不加优化参数,不对其进行监控;当运行一遍后,进行第二轮测试,测试时使用监控工具全称跟踪;获取监测数据后,进行数据分析,主要分析CPU利用率,GFLOPS,内存容量,内存带宽,磁盘读写速率,网络流量;如在某一方面压力过大,如内存带宽压力较大,要在下次测试时,降低每节点运行核数,再次测试;
6)数据分析,性能总结,包括:获取应用性能后,对每项指标进行分析,列出需求值,提出该应用适宜运行的平台。
所述的方法,依据高性能计算硬件平台体系架构特点,依次进行硬件级,系统级,应用级测试。
所述的方法,对硬件层的测试包含高温测试,压力测试,噪音测试。
所述的方法进行浮点性能,内存带宽,网络流量,磁盘IO等测试监控,主要目的是确保系统稳定,且各项指标正常良好。
所述的方法,测试应用对CPU,内存,网络,磁盘等方面需求,并测试加速比。
本发明的有益效果是:本发明充分利用了高性能计算的特点,综合进行硬件,系统,软件层面测试,以应用为导向,让应用体现系统状态,监测应用在该套HPC上是否存在瓶颈,从而指导集群方案配置,为应用调优提供支持。
附图说明
图1是测试方法的流程图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
为了使本发明的目的、技术方案和优势更加清晰,我们分子动力学方面的一个应用为例说明其测试过程,并结合附图,对本发明中的关键步骤进行详细说明,其他应用程序测试方法与此法相同。
如附图1所示,给出了本发明所涉及的流程示意图。其基本的测试流程如下:
1.  确定测试平台,制定测试计划:一般平台依据当前主流机器配置进行选择,CPU选型时需要考虑主频,Cache大小,功耗等,内存需要考虑内存容量大小,内存频率,通道数,存储介质需要考虑接口,存储速率,转速等,网络主要考虑网络带宽;
2.  系统部署:确定操作系统版本,编译器版本,并行环境,并行文件系统;关闭超线程,打开Turbo boost;确定server端,client端;
3.  系统性能测试:部署好的系统上进行整机Linapack测试,监测机器浮点运算性能,效率;使用STREAM程序进行内存带宽测试,使用DD或是IOZONE测试磁盘性能,使用PINGPONG或IMB测试网络带宽延迟等;获取系统性能参数后,与理论值进行对比,主要目标是确定系统环境是否正常,各项参数是否达标,如若不达标,排查原因,修改相关配置或设置;
4.  应用部署:系统达标后,进行软件部署,编译安装,算例设计,算例设置不易规模过大或过小,主要考虑算例运行时间,输出文件大小等
5.  应用测试:测试时也要分步骤进行,先进行最简单测试,将所有应用或是算例‘裸’运行一遍,不加优化参数,不对其进行监控;当运行一遍后,进行第二轮测试,测试时使用监控工具全称跟踪;获取监测数据后,进行数据分析,主要分析CPU利用率,GFLOPS,内存容量,内存带宽,磁盘读写速率,网络流量;如在某一方面压力过大,如内存带宽压力较大,可以在下次测试时,降低每节点运行核数,再次测试;
6.  数据分析,性能总结:获取应用性能后,对每项指标进行分析,列出需求值,提出该应用适宜运行的平台。
 除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (5)

1.一种高性能计算集群应用性能测试方法, 其特征在于将对应用程序测试包括:一系统环境搭建,二系统测试,三应用程序准备,四应用测试,其中:系统环境搭建是选择适合硬件平台,文件系统,作业调度,选择适用的CPU内存,磁盘,网络,测试的节点数,在该硬件基础上部署操作系统,编译器;系统测试是进行系统LINPACK,STREAM,磁盘读写,网络带宽测试;应用程序准备主要是确定运行程序版本,算例规模;应用测试首先进行基本测试,确定运行时间,抓取基本性能数据,获取基本数据后,进行应用分析,特征剖析,程序优化,提炼软件特征,具体步骤如下: 
1)确定测试平台,包括:制定测试计划,平台依据当前主流机器配置进行选择,CPU选型时需要考虑主频,Cache大小,功耗;内存需要考虑内存容量大小,内存频率,通道数;存储介质需要考虑接口,存储速率,转速;网络主要考虑网络带宽;
2)系统部署,包括:确定操作系统版本,编译器版本,并行环境,并行文件系统;关闭超线程,打开Turbo boost;确定server端,client端;
3)系统性能测试,包括:部署好的系统上进行整机Linapack测试,监测机器浮点运算性能,效率;使用STREAM程序进行内存带宽测试,使用DD或是IOZONE测试磁盘性能,使用PINGPONG或IMB测试网络带宽延迟;获取系统性能参数后,与理论值进行对比,主要目标是确定系统环境是否正常,各项参数是否达标,如若不达标,排查原因,修改相关配置或设置;
4)应用部署,包括:系统达标后,进行软件部署,编译安装,算例设计,算例设置不易规模过大或过小,要考虑算例运行时间,输出文件大小;
5)应用测试,包括:测试时也要分步骤进行,先进行最简单测试,将所有应用或是算例‘裸’运行一遍,不加优化参数,不对其进行监控;当运行一遍后,进行第二轮测试,测试时使用监控工具全称跟踪;获取监测数据后,进行数据分析,主要分析CPU利用率,GFLOPS,内存容量,内存带宽,磁盘读写速率,网络流量;如在某一方面压力过大,如内存带宽压力较大,要在下次测试时,降低每节点运行核数,再次测试;
6)数据分析,性能总结,包括:获取应用性能后,对每项指标进行分析,列出需求值,提出该应用适宜运行的平台。
2.根据权利要求1所述的方法,其特征在于:依据高性能计算硬件平台体系架构特点,依次进行硬件级,系统级,应用级测试。
3.根据权利要求1所述的方法,其特征在于:对硬件层的测试包含高温测试,压力测试,噪音测试。
4.根据权利要求1所述的方法,其特征在于:进行浮点性能,内存带宽,网络流量,磁盘IO等测试监控,主要目的是确保系统稳定,且各项指标正常良好。
5.根据权利要求1所述的方法,其特征在于:测试应用对CPU,内存,网络,磁盘等方面需求,并测试加速比。
CN2013102314352A 2013-06-09 2013-06-09 一种高性能计算集群应用性能测试方法 Pending CN103294579A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013102314352A CN103294579A (zh) 2013-06-09 2013-06-09 一种高性能计算集群应用性能测试方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013102314352A CN103294579A (zh) 2013-06-09 2013-06-09 一种高性能计算集群应用性能测试方法

Publications (1)

Publication Number Publication Date
CN103294579A true CN103294579A (zh) 2013-09-11

Family

ID=49095500

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013102314352A Pending CN103294579A (zh) 2013-06-09 2013-06-09 一种高性能计算集群应用性能测试方法

Country Status (1)

Country Link
CN (1) CN103294579A (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103793305A (zh) * 2014-02-24 2014-05-14 浪潮电子信息产业股份有限公司 一种服务器子系统并行压力测试方法
CN103902387A (zh) * 2014-04-29 2014-07-02 浪潮电子信息产业股份有限公司 一种cpu+gpu协同并行计算动态负载均衡方法
CN103984882A (zh) * 2014-05-12 2014-08-13 浪潮电子信息产业股份有限公司 一种生物信息学高性能计算平台的测试方法
CN104142874A (zh) * 2013-12-25 2014-11-12 中软信息系统工程有限公司 一种测试评估国产cpu事务处理能力的方法
CN104156274A (zh) * 2014-08-19 2014-11-19 浪潮(北京)电子信息产业有限公司 一种测试生物信息学计算平台性能的方法
CN104579853A (zh) * 2015-02-10 2015-04-29 浪潮电子信息产业股份有限公司 一种用于服务器集群系统网络测试的方法
CN104618190A (zh) * 2015-02-04 2015-05-13 浪潮电子信息产业股份有限公司 一种基于shell的集群环境下测试网络带宽的方法
CN104639402A (zh) * 2015-03-05 2015-05-20 浪潮电子信息产业股份有限公司 一种用于服务器集群系统网络测试的方法
WO2015184801A1 (zh) * 2014-11-06 2015-12-10 中兴通讯股份有限公司 虚拟机性能确定方法及装置
CN105183605A (zh) * 2015-10-29 2015-12-23 浪潮(北京)电子信息产业有限公司 一种服务器性能测试方法及装置
CN105718365A (zh) * 2016-01-19 2016-06-29 浪潮电子信息产业股份有限公司 一种基于Linpack测试的服务器性能自动评估方法
CN105786669A (zh) * 2016-04-25 2016-07-20 浪潮电子信息产业股份有限公司 一种测试Rack服务器稳定性的方法
CN105786682A (zh) * 2016-02-29 2016-07-20 上海新炬网络信息技术有限公司 一种规避软件性能故障的实施系统及方法
CN105868117A (zh) * 2016-04-27 2016-08-17 浪潮电子信息产业股份有限公司 一种rack机柜整柜同时运行yesdd压力测试的方法
CN106293981A (zh) * 2016-07-29 2017-01-04 浪潮电子信息产业股份有限公司 一种服务器cpu超线程技术的检测方法
CN106326067A (zh) * 2016-08-05 2017-01-11 浪潮电子信息产业股份有限公司 一种在压力测试下对cpu性能进行监控的方法及装置
CN106445754A (zh) * 2016-09-13 2017-02-22 郑州云海信息技术有限公司 一种检查集群健康状态的方法、系统及集群服务器
CN106713420A (zh) * 2016-11-30 2017-05-24 国网北京市电力公司 监控的部署方法及装置
CN107122288A (zh) * 2017-05-08 2017-09-01 郑州云海信息技术有限公司 一种基于IOzone模拟气象平台应用的数据读写测试方法
CN107729193A (zh) * 2017-09-14 2018-02-23 郑州云海信息技术有限公司 一种基于Purley平台的Linpack测试自动优化配置方法及系统
CN108776634A (zh) * 2018-06-07 2018-11-09 北京云测信息技术有限公司 机柜环境异常处理方法及装置
CN109062692A (zh) * 2018-07-24 2018-12-21 郑州云海信息技术有限公司 一种人脸识别深度学习训练平台的优化方法及系统
CN109101397A (zh) * 2018-08-01 2018-12-28 武汉索雅信息技术有限公司 高性能集群监控方法、设备、装置及存储介质
CN109117354A (zh) * 2018-08-29 2019-01-01 郑州云海信息技术有限公司 一种主机端影响存储性能的因素点自动分析方法及装置
CN109344043A (zh) * 2018-09-26 2019-02-15 郑州云海信息技术有限公司 一种性能分析方法及相关装置
CN109408351A (zh) * 2018-11-01 2019-03-01 郑州云海信息技术有限公司 一种ai环境检测和深度学习环境自动部署的方法和装置
CN114265832A (zh) * 2021-12-24 2022-04-01 深圳市盘古数据有限公司 一种多功能数据库维护管理系统
CN115333948A (zh) * 2022-08-23 2022-11-11 四川通信科研规划设计有限责任公司 一种基于云计算与传输网络提升网络利用率的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091979A1 (en) * 2000-06-28 2002-07-11 Cadence Design Systems, Inc. System and method for testing integrated circuits
CN101136804A (zh) * 2007-04-20 2008-03-05 中兴通讯股份有限公司 嵌入式应用系统的性能测试装置及其方法
CN102708056A (zh) * 2012-05-15 2012-10-03 浪潮电子信息产业股份有限公司 一种评测服务器性能的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020091979A1 (en) * 2000-06-28 2002-07-11 Cadence Design Systems, Inc. System and method for testing integrated circuits
CN101136804A (zh) * 2007-04-20 2008-03-05 中兴通讯股份有限公司 嵌入式应用系统的性能测试装置及其方法
CN102708056A (zh) * 2012-05-15 2012-10-03 浪潮电子信息产业股份有限公司 一种评测服务器性能的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王小伟等: "高性能并行集群计算环境的构建与性能测试", 《小型微型计算机系统》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104142874A (zh) * 2013-12-25 2014-11-12 中软信息系统工程有限公司 一种测试评估国产cpu事务处理能力的方法
CN103793305A (zh) * 2014-02-24 2014-05-14 浪潮电子信息产业股份有限公司 一种服务器子系统并行压力测试方法
CN103902387A (zh) * 2014-04-29 2014-07-02 浪潮电子信息产业股份有限公司 一种cpu+gpu协同并行计算动态负载均衡方法
CN103984882A (zh) * 2014-05-12 2014-08-13 浪潮电子信息产业股份有限公司 一种生物信息学高性能计算平台的测试方法
CN104156274A (zh) * 2014-08-19 2014-11-19 浪潮(北京)电子信息产业有限公司 一种测试生物信息学计算平台性能的方法
WO2015184801A1 (zh) * 2014-11-06 2015-12-10 中兴通讯股份有限公司 虚拟机性能确定方法及装置
CN104618190A (zh) * 2015-02-04 2015-05-13 浪潮电子信息产业股份有限公司 一种基于shell的集群环境下测试网络带宽的方法
CN104579853A (zh) * 2015-02-10 2015-04-29 浪潮电子信息产业股份有限公司 一种用于服务器集群系统网络测试的方法
CN104639402A (zh) * 2015-03-05 2015-05-20 浪潮电子信息产业股份有限公司 一种用于服务器集群系统网络测试的方法
CN105183605A (zh) * 2015-10-29 2015-12-23 浪潮(北京)电子信息产业有限公司 一种服务器性能测试方法及装置
CN105718365A (zh) * 2016-01-19 2016-06-29 浪潮电子信息产业股份有限公司 一种基于Linpack测试的服务器性能自动评估方法
CN105786682A (zh) * 2016-02-29 2016-07-20 上海新炬网络信息技术有限公司 一种规避软件性能故障的实施系统及方法
CN105786669A (zh) * 2016-04-25 2016-07-20 浪潮电子信息产业股份有限公司 一种测试Rack服务器稳定性的方法
CN105868117A (zh) * 2016-04-27 2016-08-17 浪潮电子信息产业股份有限公司 一种rack机柜整柜同时运行yesdd压力测试的方法
CN106293981A (zh) * 2016-07-29 2017-01-04 浪潮电子信息产业股份有限公司 一种服务器cpu超线程技术的检测方法
CN106326067B (zh) * 2016-08-05 2019-03-05 浪潮电子信息产业股份有限公司 一种在压力测试下对cpu性能进行监控的方法及装置
CN106326067A (zh) * 2016-08-05 2017-01-11 浪潮电子信息产业股份有限公司 一种在压力测试下对cpu性能进行监控的方法及装置
CN106445754A (zh) * 2016-09-13 2017-02-22 郑州云海信息技术有限公司 一种检查集群健康状态的方法、系统及集群服务器
CN106713420A (zh) * 2016-11-30 2017-05-24 国网北京市电力公司 监控的部署方法及装置
CN106713420B (zh) * 2016-11-30 2019-11-22 国网北京市电力公司 监控的部署方法及装置
CN107122288A (zh) * 2017-05-08 2017-09-01 郑州云海信息技术有限公司 一种基于IOzone模拟气象平台应用的数据读写测试方法
CN107729193A (zh) * 2017-09-14 2018-02-23 郑州云海信息技术有限公司 一种基于Purley平台的Linpack测试自动优化配置方法及系统
CN108776634A (zh) * 2018-06-07 2018-11-09 北京云测信息技术有限公司 机柜环境异常处理方法及装置
CN108776634B (zh) * 2018-06-07 2021-10-12 北京云测信息技术有限公司 机柜环境异常处理方法及装置
CN109062692A (zh) * 2018-07-24 2018-12-21 郑州云海信息技术有限公司 一种人脸识别深度学习训练平台的优化方法及系统
CN109101397A (zh) * 2018-08-01 2018-12-28 武汉索雅信息技术有限公司 高性能集群监控方法、设备、装置及存储介质
CN109117354A (zh) * 2018-08-29 2019-01-01 郑州云海信息技术有限公司 一种主机端影响存储性能的因素点自动分析方法及装置
CN109344043A (zh) * 2018-09-26 2019-02-15 郑州云海信息技术有限公司 一种性能分析方法及相关装置
CN109408351A (zh) * 2018-11-01 2019-03-01 郑州云海信息技术有限公司 一种ai环境检测和深度学习环境自动部署的方法和装置
CN114265832A (zh) * 2021-12-24 2022-04-01 深圳市盘古数据有限公司 一种多功能数据库维护管理系统
CN115333948A (zh) * 2022-08-23 2022-11-11 四川通信科研规划设计有限责任公司 一种基于云计算与传输网络提升网络利用率的方法

Similar Documents

Publication Publication Date Title
CN103294579A (zh) 一种高性能计算集群应用性能测试方法
Sambasivan et al. Diagnosing performance changes by comparing request flows
US9323651B2 (en) Bottleneck detector for executing applications
Huang et al. Moby: A mobile benchmark suite for architectural simulators
US11726899B2 (en) Waveform based reconstruction for emulation
Samosir et al. An evaluation of data stream processing systems for data driven applications
CN102710465A (zh) 一种监控集群存储接口节点负载的方法
Shahid et al. Additivity: A selection criterion for performance events for reliable energy predictive modeling
CN105260286A (zh) 一种实时监控cpu工作状态的方法
Ardito et al. Creating and evaluating a software power model for linux single board computers
US11042209B2 (en) Control of the energy consumption of a server cluster
US8245084B2 (en) Two-level representative workload phase detection
CN101520748A (zh) 一种测试Intel多核CPU加速比的方法
Han et al. Benchmarking big data systems: State-of-the-art and future directions
CN103984634A (zh) 一种linux服务器的内存非稳态压力测试方法
US20190215227A1 (en) Modifying computer configuration to improve performance
CN108363660B (zh) 一种测试程序生成方法和装置
US9348566B1 (en) Continuous profiling for automatic feedback directed optimization
CN104461832A (zh) 一种监控应用服务器资源的方法及装置
Qi et al. Data mining based root-cause analysis of performance bottleneck for big data workload
CN106371956A (zh) 一种自动化进行内存性能测试的方法
Cui et al. Modeling the performance of MapReduce under resource contentions and task failures
Wei et al. Using sample-based time series data for automated diagnosis of scalability losses in parallel programs
Liu et al. Agent-based online quality measurement approach in cloud computing environment
Vögler et al. Non-intrusive monitoring of stream processing applications

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130911