CN107729193A

CN107729193A - 一种基于Purley平台的Linpack测试自动优化配置方法及系统

Info

Publication number: CN107729193A
Application number: CN201710829103.2A
Authority: CN
Inventors: 贾岛; 范鹏飞
Original assignee: Zhengzhou Yunhai Information Technology Co Ltd
Current assignee: Zhengzhou Yunhai Information Technology Co Ltd
Priority date: 2017-09-14
Filing date: 2017-09-14
Publication date: 2018-02-23

Abstract

本发明提供了一种基于Purley平台的Linpack测试自动优化配置方法及系统，通过针对Purley平台对服务器系统设置以及Linpack测试的HPL优化配置文件参数进行优化配置，提高Linpack测试的浮点性能数据结果，同时通过Shell脚本语言编写自动配置文件实现系统设置及HPL优化配置文件的自动化设置，提高测试配置准确度及测试效率。本发明使Linpack测试的系统浮点性能GFLOPS结果提高了30％，能达到理论浮点性能值的85％～90％，性能数据佳，同时采用自动脚本进行优化配置，减少了人为可能造成的错误配置。

Description

一种基于Purley平台的Linpack测试自动优化配置方法及系统

技术领域

本发明涉及测试的技术领域，具体涉及到一种基于Purley平台的Linpack测试自动优化配置方法及系统。

背景技术

Linpack是国际上最流行的用于测试高性能计算机系统浮点性能的benchmark。通过利用高性能计算机，用高斯消元法求解一元N次稠密线性代数方程组的测试，评价高性能计算机的浮点性能。浮点计算峰值，它是指计算机每秒钟能完成的浮点计算最大次数。包括理论浮点峰值和实测浮点峰值。理论浮点峰值是该计算机理论上能达到的每秒钟能完成浮点计算最大次数，它主要是由CPU的主频决定的，理论浮点峰值＝CPU主频×CPU每个时钟周期执行浮点运算的次数×系统中CPU核心数目。实测浮点峰值是指Linpack测试值，也就是说在这台机器上运行Linpack测试程序，通过各种调优方法得到的最优的测试结果。

Purley平台目前是Intel最新一代的服务器平台，使用之前基于Grantley平台的Linpack测试的优化配置方法，实测浮点性能仅能达到理论浮点性能的60％左右，性能偏低，因此，亟需针对Purley平台的Linpack测试进行对应的优化配置，以得到最优的浮点性能数据结果。

除此之外，以往的平台系统设置及HPL.dat文件配置都是通过手动设置完成，往往会由于测试人员疏忽造成设置项遗漏或者配置参数填写错误等问题。

发明内容

基于上述问题，本发明提出了一种基于Purley平台的Linpack测试自动优化配置方法及系统。基于Purley平台，修改系统设置，优化HPL配置参数，提高Linpack测试的浮点性能数据结果；同时采用Shell脚本语言编写了自动配置脚本文件对Purley平台系统设置及HPL配置文件进行自动优化设置，提高测试配置准确度及测试效率。

本发明提供如下技术方案：

一方面，本发明提供了一种基于Purley平台的Linpack测试自动优化配置方法，包括：

步骤101，针对基于Purley平台的服务器系统设置进行优化；

步骤102，针对基于Purley平台的Linpack测试工具的HPL优化配置文件进行优化；

步骤103，利用Shell脚本实现自动化配置。

其中，所述步骤101包括进行以下系统设置优化：关闭超线程，打开EIST，打开Turbo Mode，Boot performance mode设置为max performance，Energy Performance BIAS设置为Performance，打开Moitor/Mwait，Package C stat limit设置为C0/C1state，关闭CPU C3report，关闭CPU C6report，关闭Enhanced Halt State，关闭Intel VT forDirected I/O，Linux OS下CPU Power Management设置为max performance，QPI及MemoryFrequency保持为MAX Frequency，关闭NUMA功能。

其中，所述HPL优化配置文件优化参数包括矩阵大小、矩阵分块大小以及处理器网格。

其中，所述矩阵大小为占用系统空闲内存的95％，所述矩阵分块大小设置为384，所述处理器阵列是按照行的排列方式。

其中，处理器网格为二维P×Q，其中，P为列向处理器个数，Q为横向处理器个数，P×Q＝系统CPU数＝进程数。

另外，本发明还提供了一种基于Purley平台的Linpack测试自动优化配置系统，所述系统包括：

系统优化模块，针对基于Purley平台的服务器系统设置进行优化；

配置优化模块，针对基于Purley平台的Linpack测试工具的HPL优化配置文件进行优化；

自动配置模块，利用Shell脚本实现自动化配置。

其中，所述系统优化模块包括进行以下系统设置优化：关闭超线程，打开EIST，打开Turbo Mode，Boot performance mode设置为max performance，Energy PerformanceBIAS设置为Performance，打开Moitor/Mwait，Package C stat limit设置为C0/C1state，关闭CPU C3report，关闭CPU C6report，关闭Enhanced Halt State，关闭Intel VT forDirected I/O，Linux OS下CPU Power Management设置为max performance，QPI及MemoryFrequency保持为MAX Frequency，关闭NUMA功能。

其中，所述矩阵大小为占用系统空闲内存的95％，所述矩阵分块大小设置为384，处理器阵列是按照行的排列方式。

其中，所述处理器网格为二维P×Q，其中，P为列向处理器个数，Q为横向处理器个数，P×Q＝系统CPU数＝进程数。

附图说明

图1是本发明的方法流程图。

图2是本发明的系统结构框图。

具体实施方式

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

以往的Grantley平台Linpack测试方法已无法适用于Intel最新一代的Purley平台服务器产品测试，测试性能结果较差，因此，本发明针对Purley平台进行优化配置，同时采用自动脚本形式实现自动配置，提高测试效率。

一方面，本发明的实施方式提供了一种基于Purley平台的Linpack测试自动优化配置方法，附图1为本发明的方法流程图，包括：

步骤101，针对基于Purley平台的服务器系统设置进行优化；

针对Purley平台，在执行Linpack测试之前需要进行以下系统设置，关闭有节能功能、影响延迟等设置，这样有利于提高系统整体性能：

1.关闭超线程(Hyper Threading:disabled),对于Intel Xeon来说，关闭超线程可以提高HPL性能。

2.EIST打开(EIST:enabled)

3.Turbo Mode打开(Turbo mode:enabled)

4.Boot performance mode设置为max performance。

5.Energy Performance BIAS设置为Performance

6.Moitor/Mwait打开：enabled

7.Package C stat limit设置为C0/C1state

8.CPU C3report关闭：disabled

9.CPU C6report关闭：disabled

10.Enhanced Halt State(C1E)关闭：disabled

11.Intel VT for Directed I/O(VT-d)关闭：disabled。

12.Linux OS下CPU Power Management设置为max performance

13.QPI及Memory Frequency保持为MAX Frequency.

14.NUMA功能关闭：disabled

Linpack测试工具包中有很多测试文件，其中HPL.dat文件是Linpack测试的优化配置文件，正确的配置HPL.dat文件对Linpack测试结果至关重要。

HPL测试可优化的参数如下：

1.N：求解矩阵的大小；

2.NB：求解矩阵分块的大小；

3.PMAP：进程映射到计算节点的方式；

4.P,Q：处理器网格的行、列大小；

5.PFACT,RFACT：矩阵的消元方法；

6.NBMIN：矩阵分块的递归最小值；

7.NOIV：每次递归划分子矩阵的个数；

8.BCAST：矩阵向外广播方式；

9.DEPTH：HPL算法分几次将L广播出去；

以上参数中对测试结果影响较大的是矩阵大小N、矩阵分块大小NB以及处理器网格PXQ，其余参数影响较小。接下来我们就对影响较大的参数进行自动优化配置。

求解矩阵大小(N)：

矩阵大小即矩阵维数，矩阵的规模N越大，有效计算所占的比例也越大，系统浮点处理性能也就越高；但与此同时，矩阵规模N的增加会导致内存消耗量的增加，一旦系统实际内存空间不足，使用缓存，性能会大幅度降低。因此要尽量增大矩阵规模N的同时，又要保证不使用系统缓存。同时由于操作系统本身和其他设备也会占用一定的内存，因此矩阵占用系统空闲(Free)内存的95％左右时性能最佳且安全，即N×N×8＝系统空闲内存×95％。

求解矩阵分块的大小NB：

对于矩阵乘法，我们一般会用三重循环来实现，但当矩阵维数相当大时，将矩阵分分块分割成为近似CPU缓存大小，会大大提高计算效率。原因就是直接三重循环会导致单个矩阵元素来来回回的从缓存进出，而分块后，进出的数据是以分块矩阵的大小为单位的，另外，平时我们估算算法的效率主要矛盾不在于CPU浮点运算有多快，而是看缓存到内存的搬运速度有多快。因此为提高数据的局部性，从而提高整体性能，HPL采用分块矩阵的算法。分块的大小对性能有很大的影响，NB值的选择主要是通过实际测试得到最优值。基于IntelPurley平台的矩阵分块大小NB建议设置为384。基于Intel Grantley平台的矩阵分块大小NB建议设置为192。

选择处理器阵列是按照列的排列方式还是按行的排列方式：

按列的排列方式适用于节点数较多、每个节点内CPU数较少的系统；而按行的排列方式适用于节点数较少、每个节点内CPU数较多的大规模系统。单台服务器测试linpack是，选择按行的排列方式，性能最佳。

二维处理器网格(P×Q)。

P为列向处理器个数，Q为横向处理器个数。P×Q＝系统CPU数＝进程数。一般来说一个进程对于一个CPU可以得到最佳性能。举例：一个安装2个CPU的系统节点，MPI进程数为2＝P×Q，则P＝1，Q＝2。

步骤103，利用Shell脚本实现自动化配置。

通过Shell脚本编写自动配置文件，测试使用的Linpack版本为Intel最新发布的免编译版本：l_mklb_p_2017.2.015。将编写好的RunLinpack.sh文件放入mp_linpack文件夹内，后执行./RunLinpack.sh即可开始Linpack测试，无需手动配置任何参数。整个测试过程及数据结果会被输出到xhpl_intel64_statis_outputs.txt文本内。

本发明的技术方案基于Purley平台对Linpack测试进行自动优化配置shell脚本，基于Purley平台Linpack测试的BIOS选项配置，基于Purley平台Linpack测试中HPL.dat文件参数配置。亦可兼容上一代Grantley平台服务器Linpack测试。

本发明提供了一种基于Purley平台的Linpack测试自动优化配置方法，通过针对Purley平台对服务器系统设置以及Linpack测试的HPL优化配置文件参数进行优化配置，提高Linpack测试的浮点性能数据结果，同时通过Shell脚本语言编写自动配置文件实现系统设置及HPL优化配置文件的自动化设置，提高测试配置准确度及测试效率。本发明使Linpack测试的系统浮点性能GFLOPS结果提高了30％，能达到理论浮点性能值的85％～90％，性能数据佳，同时采用自动脚本进行优化配置，减少了人为可能造成的错误配置。

另一方面，本发明的实施方式提供了一种基于Purley平台的Linpack测试自动优化配置系统，附图2为本发明的系统结构框图，所述系统包括：

系统优化模块201，针对基于Purley平台的服务器系统设置进行优化；

2.EIST打开(EIST:enabled)

3.Turbo Mode打开(Turbo mode:enabled)

4.Boot performance mode设置为max performance。

5.Energy Performance BIAS设置为Performance

6.Moitor/Mwait打开：enabled

7.Package C stat limit设置为C0/C1state

8.CPU C3report关闭：disabled

9.CPU C6report关闭：disabled

10.Enhanced Halt State(C1E)关闭：disabled

11.Intel VT for Directed I/O(VT-d)关闭：disabled。

12.Linux OS下CPU Power Management设置为max performance

13.QPI及Memory Frequency保持为MAX Frequency.

14.NUMA功能关闭：disabled

配置优化模块202，针对基于Purley平台的Linpack测试工具的HPL优化配置文件进行优化；

HPL测试可优化的参数如下：

1.N：求解矩阵的大小；

2.NB：求解矩阵分块的大小；

3.PMAP：进程映射到计算节点的方式；

4.P,Q：处理器网格的行、列大小；

5.PFACT,RFACT：矩阵的消元方法；

6.NBMIN：矩阵分块的递归最小值；

7.NOIV：每次递归划分子矩阵的个数；

8.BCAST：矩阵向外广播方式；

9.DEPTH：HPL算法分几次将L广播出去；

求解矩阵大小(N)：

求解矩阵分块的大小NB：

选择处理器阵列是按照列的排列方式还是按行的排列方式：

二维处理器网格(P×Q)。

自动配置模块203，利用Shell脚本实现自动化配置。

本发明提供了一种基于Purley平台的Linpack测试自动优化配置系统，通过针对Purley平台对服务器系统设置以及Linpack测试的HPL优化配置文件参数进行优化配置，提高Linpack测试的浮点性能数据结果，同时通过Shell脚本语言编写自动配置文件实现系统设置及HPL优化配置文件的自动化设置，提高测试配置准确度及测试效率。本发明使Linpack测试的系统浮点性能GFLOPS结果提高了30％，能达到理论浮点性能值的85％～90％，性能数据佳，同时采用自动脚本进行优化配置，减少了人为可能造成的错误配置。

对所公开的实施例的上述说明，使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于Purley平台的Linpack测试自动优化配置方法，其特征在于：

步骤101，针对基于Purley平台的服务器系统设置进行优化；

步骤103，利用Shell脚本实现自动化配置。

2.根据权利要求1所述的方法，其特征在于：所述步骤101包括以下系统设置优化：关闭超线程，打开EIST，打开Turbo Mode，Boot performance mode设置为max performance，Energy Performance BIAS设置为Performance，打开Moitor/Mwait，Package C statlimit设置为C0/C1 state，关闭CPU C3 report，关闭CPU C6 report，关闭Enhanced HaltState，关闭Intel VT for Directed I/O，Linux OS下CPU Power Management设置为maxperformance，QPI及Memory Frequency保持为MAX Frequency，关闭NUMA功能。

3.根据权利要求1所述的方法，其特征在于：所述HPL优化配置文件优化参数包括矩阵大小、矩阵分块大小以及处理器网格。

4.根据权利要求3所述的方法，其特征在于：所述矩阵大小为占用系统空闲内存的95％，所述矩阵分块大小设置为384，处理器阵列是按照行的排列方式。

5.根据权利要求3所述的方法，其特征在于：所述处理器网格为二维P×Q，其中，P为列向处理器个数，Q为横向处理器个数，P×Q＝系统CPU数＝进程数。

6.一种基于Purley平台的Linpack测试自动优化配置系统，其特征在于：所述系统包括：

自动配置模块，利用Shell脚本实现自动化配置。

7.根据权利要求6所述的系统，其特征在于：所述系统优化模块包括以下系统设置优化：关闭超线程，打开EIST，打开Turbo Mode，Boot performance mode设置为maxperformance，Energy Performance BIAS设置为Performance，打开Moitor/Mwait，PackageC stat limit设置为C0/C1state，关闭CPU C3 report，关闭CPU C6 report，关闭EnhancedHalt State，关闭Intel VT for Directed I/O，Linux OS下CPU Power Management设置为max performance，QPI及Memory Frequency保持为MAX Frequency，关闭NUMA功能。

8.根据权利要求6所述的系统，其特征在于：所述HPL优化配置文件优化参数包括矩阵大小、矩阵分块大小以及处理器网格。

9.根据权利要求8所述的系统，其特征在于：所述矩阵大小为占用系统空闲内存的95％，所述矩阵分块大小设置为384，处理器阵列是按照行的排列方式。

10.根据权利要求8所述的系统，其特征在于：所述处理器网格为二维P×Q，其中，P为列向处理器个数，Q为横向处理器个数，P×Q＝系统CPU数＝进程数。