CN111444025B

CN111444025B - 一种提升计算子系统能效的资源分配方法、系统及介质

Info

Publication number: CN111444025B
Application number: CN202010290699.5A
Authority: CN
Inventors: 陈娟; 齐新新; 董勇; 袁远; 吴菲豪; 孙晓乐; 欧祉辛; 张云放
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2020-04-14
Filing date: 2020-04-14
Publication date: 2022-11-25
Anticipated expiration: 2040-04-14
Also published as: CN111444025A

Abstract

本发明公开了一种提升计算子系统能效的资源分配方法、系统及介质，本发明方法包括在给定的功耗限制值P_target下确定最优增加节点数目ΔN^*、处理器频率f^*；设置需要满足的功耗限制值为P_target，并调度并行程序运行在N+ΔN^*个计算节点上(ΔN^*>＝0)，且每一个计算节点的处理器频率的初始值为处理器频率f^*，其中N为并行程序运行需要的最少计算节点数(为每一个处理器核分配一个进程)。本发明能够针对系统上运行的访存受限型并行程序实现在满足功耗约束条件下程序执行时间的降低、能耗的减小，从而提高系统的能量有效性。

Description

一种提升计算子系统能效的资源分配方法、系统及介质

技术领域

本发明涉及高性能计算集群的资源分配技术，具体涉及一种提升计算子系统能效的资源分配方法、系统及介质。

背景技术

高性能计算系统的计算能力越来越受到功耗的影响。尽管高性能计算中心的能耗增长迅速，高性能计算用户仍然需要更高的性能来运行更大数据规模下的更加复杂的模型。因此，迫切需要找到满足功耗约束条件下提高高性能计算程序性能的方法。目前在这一研究领域，有多种方法提高高性能计算系统的能量有效性，例如设计新的计算机体系结构、基于软件对高性能计算程序进行合理的资源调度。基于软件的资源调度方法，通过仔细确定计算资源设置，如计算节点数和处理器频率等，在满足功耗约束的条件下提高程序的性能。基于软件的资源调度方法的一个优势是，由于不需要进行硬件修改，因此它可以很容易地部署在现有硬件上。目前，大多数高性能计算中心的资源分配策略目标是最大限度地提高系统利用率，即分配尽可能少的计算节点。这种策略并没有考虑访存受限型并行程序的最佳性能和分配计算节点数之间的关系，因为处理器利用率最大化可能会导致访存受限型并行程序严重的内存争用，从而影响并行性能。

发明内容

本发明要解决的技术问题：针对现有技术的上述问题，提供一种提升计算子系统能效的资源分配方法、系统及介质，本发明能够针对系统上运行的访存受限型并行程序实现在满足功耗约束条件下程序执行时间降低、总功耗保持不变，能耗减小，从而提高系统的能量有效性。

为了解决上述技术问题，本发明采用的技术方案为：

一种提升计算子系统能效的资源分配方法，实施步骤包括：

1)确定最优增加节点数目ΔN*、处理器频率f*以及功耗限制值P_target；

2)利用动态处理器频率调节工具，设置功耗限制值为P_target，并调度并行程序运行在N+ΔN*个计算节点上，且每一个计算节点的处理器频率的初始值为处理器频率f*，其中N为并行程序运行需要的最少计算节点数，缺省资源分配下每一个处理器核运行一个进程。

可选地，步骤1)之前还包括计算最优增加节点数目ΔN*的步骤，详细步骤包括：利用总内存带宽计算第一增加节点数据区间[0,ΔN^pref]；利用功耗约束条件计算第二增加节点数据区间[0,ΔN^power]；求第一增加节点数据区间[0,ΔN^pref]、第二增加节点数据区间[0,ΔN^power]之间的交集，并选择所求交集区间中的最大值作为最优增加节点数目ΔN*。

可选地，所述利用总内存带宽计算第一增加节点数据区间[0,ΔN^pref]的详细步骤包括：

存带宽计算第一增加节点数据区间[0,ΔN^pref]的详细步骤包括：

S1)获取记录的各个时刻t各个计算节点上的实际访存带宽b₁(t),b₂(t),...,b_N(t)，计算并行程序运行期间的单节点平均实际访存带宽b(t)，且取b(t)的最大值作为该并行程序的实际访存带宽B_N；

S2)计算实际访存带宽B_N相对单个节点的物理内存带宽B的比值bound，并根据比值bound是否达到阈值α判断该并行程序是否访存受限，如果非访存受限，则跳转执行步骤S3)；如果访存受限，则跳转执行步骤S4)；

S3)判定不需要增加节点，设置ΔN^pref的数量为0，使得得到的第一增加节点数据区间[0,ΔN^pref]为[0,0]，结束并返回；

S4)根据总内存带宽不变原则N·((bound/α)·B_N)＝(N+ΔN^pref)·α·B求解得到所需增加的节点数目ΔN^pref，得到第一增加节点数据区间[0,ΔN^pref]，结束并返回。

可选地，所述利用功耗约束条件计算第二增加节点数据区间[0,ΔN^power]具体是指求解满足下述功耗约束函数的最大节点数目ΔN，并将得到的节点数目ΔN作为所需增加的节点数目ΔN^power，得到第二增加节点数据区间[0,ΔN^power]；

上式中，n为并行程序的进程数，缺省资源分配下每一个处理器核运行一个进程，P^cpu(f_max)为单个处理器核的最大频率f_max下对应的最大功耗，P^cpu(f_mid)为单个处理器核运行在f_mid下对应的处理器功耗，c为每个计算节点上所拥有的处理器核数目，

为单个处理器核处于空闲状态下的处理器功耗，P^mem为内存功耗，P^other为单个计算节点上除处理器和内存以外的其他功耗，增加ΔN个计算节点会相应地增加总功耗，其中包括ΔN个计算节点的内存功耗和增加节点所产生的空闲处理器核的功耗，为了保证多节点总功耗不增加，所有处理器核的频率必须从最大频率f_max降至频率中间值f_mid，取频率中间值f_mid为最大频率f_max和最小频率f_min两者之间的平均值。

可选地，步骤1)之前还包括计算处理器频率f*的步骤，详细步骤包括：将最优增加节点数目ΔN*代入下式所示的功耗约束函数，令ΔN＝ΔN*，令P^cpu(f_mid)＝P^cpu(f_i)，得到功耗值P^cpu(f_i)的范围，根据不同处理器频率级别及处理器核功耗值之间的关系，取满足条件的处理器频率f_i的最大值，将其作为步骤1)中确定的处理器频率f*；

上式中，n为并行程序的进程数，缺省资源分配下每一个处理器核运行一个进程，P^cpu(f_max)为单个处理器核运行在最大频率f_max下对应的处理器功耗，P^cpu(f_i)为单个处理器核运行在f_i下对应的处理器功耗，c为每个计算节点上所拥有的处理器核数目，

为单个处理器核处于空闲状态下的处理器功耗，P^mem为内存功耗，P^other为单个计算节点上除处理器和内存以外的其他功耗。

可选地，步骤1)之前还包括计算功耗限制值P_target的步骤，且计算函数表达式如下：

上式中，P^cpu(f_max)为单个处理器核运行在最大频率f_max下对应的处理器功耗。

此外，本发明还提供一种提升计算子系统能效的资源分配系统，包括：

参数初始程序单元，用于确定最优增加节点数目ΔN*、处理器频率f*以及功耗限制值P_target；

资源分配程序单元，用于设置处理器动态频率调节工具的功耗限制值为P_target，并调度并行程序运行在N+ΔN*个计算节点上，且每一个计算节点的处理器频率的初始值为处理器频率f*，其中N为并行程序运行需要的最少计算节点数(缺省资源分配下每一个处理器核运行一个进程)，ΔN*为最优增加节点数目。

此外，本发明还提供一种提升计算子系统能效的资源分配系统，包括计算机设备，该计算机设备被编程或配置以执行前述提升计算子系统能效的资源分配方法的步骤，或该计算机设备的存储器上存储有被编程或配置以执行前述提升计算子系统能效的资源分配方法的计算机程序。

此外，本发明还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行前述提升计算子系统能效的资源分配方法的计算机程序。

和现有技术相比，本发明具有下述优点：本发明能够针对系统上运行的访存受限型并行程序实现在满足功耗约束条件下程序执行时间降低、总功耗保持不变、能耗减小，从而提高系统的能量有效性。

附图说明

图1为本发明实施例方法的基本流程示意图。

图2为本发明实施例方法的详细流程示意图。

具体实施方式

如图1所示，本实施例提升计算子系统能效的资源分配方法的实施步骤包括：

2)设置处理器动态频率调节工具的功耗限制值P_target，并调度并行程序运行在N+ΔN*个计算节点上，且每一个计算节点的处理器频率的初始值为处理器频率f*，其中N为并行程序运行需要的最少计算节点数(缺省资源分配下每一个处理器核运行一个进程)。本实施例中，处理器动态频率调节工具采用Intel RAPL，利用Intel RAPL进行动态处理器频率调节，保证实时总功耗不超过功耗限制值P_target。

如图2所示，本实施例需要预先测量并建立不同处理器频率级别及处理器核功耗值之间的关系，前文记载的P^cpu()即用于获取不同处理器频率级别及处理器核功耗值之间的关系。本实施例中，以0.1GHZ划分频率级别，处理器可调频区间[f_min,f_max]可被划分为M级。利用测量得到的不同频率级别下的处理器功耗，构造处理器频率级别与处理器核功耗值之间的关系对应表，该表包括M组值。每组值包括两部分：处理器频率f_i，对应的单个处理器核功耗P^cpu(f_i)。本实施例中，在缺省的资源分配策略下运行程序，使用

VTune^TMAmplifier采集性能分析数据，使用Intel RAPL测量功耗相关数据。性能相关分析数据包括不同时刻t程序的实际访存带宽，以及反映内存访问受限程度的bound值(实际访存带宽B_N相对单个节点的物理内存带宽B的比值)。功耗相关的分析数据包括：单个处理器核处于空闲状态下的处理器功耗

内存功耗P^men，单个计算节点上除处理器和内存以外的其他功耗P^other。

如图2所示，本实施例步骤1)之前还包括计算最优增加节点数目ΔN*的步骤，详细步骤包括：利用总内存带宽计算第一增加节点数据区间[0,ΔN^pref]；利用功耗约束条件计算第二增加节点数据区间[0,ΔN^power]；求第一增加节点数据区间[0,ΔN^pref]、第二增加节点数据区间[0,ΔN^power]之间的交集，并选择所求交集区间中的最大值作为最优增加节点数目ΔN*。

本实施例中，利用总内存带宽计算第一增加节点数据区间[0,ΔN^pref]的详细步骤包括：

S2)计算实际访存带宽B_N相对单个节点的物理内存带宽B的比值bound，并根据比值bound是否超过阈值α判断该并行程序是否访存受限，如果非访存受限，则跳转执行步骤S3)；如果访存受限，则跳转执行步骤S4)；

计算单节点平均实际访存带宽b(t)的函数表达式为：

上式中，N为并行程序运行需要的最少计算节点数(缺省资源分配下每一个处理器核运行一个进程)，其中b_i(t)为第i个计算节点上的实际访存带宽值。

受物理内存带宽的限制，在程序执行期间，实际访存带宽B_N不会超过单个节点的物理内存带宽B，当两者比值bound超过阈值α时，我们认为程序是访存受限的。对于非访存受限的程序来说，当使用不同的计算节点数目时，所有节点的实际访存带宽总量可以认为是恒定的。而当程序受限于访存时，增加计算节点可以减少并行程序在单个计算节点上的计算量，降低单节点上访存次数，从而缓解单节点的访存受限情况，多节点的实际访存带宽总量随着节点数增多相应增加。(bound/α)·B_N表示内存受限程序需要使用的访存带宽(单个节点平均值)，访存受限程度越高，该值越大于B_N，其中bound值反映访存受限程度。

按照总内存带宽不变，则有下述函数表达式：

上式中，

因此，根据总内存带宽不变原则N·((bound/α)·B_N)＝(N+ΔN^pref)·α·B求解得到所需增加的节点数目ΔN^pref，得到第一增加节点数据区间[0,ΔN^pref]。

本实施例中，利用功耗约束条件计算第二增加节点数据区间[0,ΔN^power]具体是指，求解满足下述功耗约束函数的最大节点数目ΔN，并将得到的节点数目ΔN作为所需增加的节点数目ΔN^power，得到第二增加节点数据区间[0,ΔN^power]；

上式中，n为进程数目，P^cpu(f_max)为单个处理器核的最大频率f_max下对应的最大功耗，P^cpu(f_mid)为单个处理器核的中间频率f_mid下对应的最大功耗，c为单个计算节点的处理器核数目，

为单个处理器核处于空闲状态下的处理器功耗，P^men为内存功耗，P^other为单个计算节点上除处理器和内存以外的其他功耗，增加ΔN个计算节点会相应地增加总功耗，其中包括ΔN个计算节点的内存功耗和增加节点所产生的空闲处理器核的功耗，为了保证多节点总功耗不增加，所有处理器核的频率必须从最大频率f_max降至频率中间值f_mid，取频率中间值f_mid为最大频率f_max和最小频率f_min两者之间的平均值。

本实施例中，步骤1)之前还包括计算处理器频率f*的步骤，详细步骤包括将最优增加节点数目ΔN*代入式(1)，令ΔN＝ΔN*，令P^cpu(f_mid)＝P^cpu(f_i)，得到功耗值P^cpu(f_i)的范围，根据不同处理器频率级别及处理器核功耗值之间的关系，取满足条件的处理器频率f_i的最大值，将其作为步骤1)中确定的处理器频率f*。

本实施例中，步骤1)之前还包括计算功耗限制值P_target的步骤，且计算函数表达式如下：

综上所述，本实施例提升计算子系统能效的资源分配方法针对集群系统上运行的访存受限型的程序，目的是实现在满足功耗约束条件下程序执行时间降低、总功耗保持不变，能耗减小，从而提高系统的能量有效性。技术方案是首先测量系统在不同频率级别下对应的处理器功耗；运行程序得到与性能和功耗相关的分析数据，建立资源分配(使用的计算节点数)、单节点内存带宽受限程度与并行程序的执行时间三者之间的关系，在不增加总功耗(指所有计算节点的总峰值功耗不超过缺省资源分配策略时的总功耗)的条件下，获得最优节点增加数目和处理器初始频率值；在程序运行之前，本资源调度方法确定新的分配节点数、每个节点处理器的初始频率和受限的目标总峰值功耗(由Intel RAPL的目标功耗值设定)，在程序运行过程中，利用Intel RAPL工具进行总峰值功耗的实时控制。采用本实施例提升计算子系统能效的资源分配方法同时实现了功耗约束和显著的性能提升，提高了并行程序运行时系统的能量有效性。

此外，本实施例还提供一种提升计算子系统能效的资源分配系统，包括：

资源分配程序单元，用于设置处理器动态频率调节工具的功耗限制值为P_target，并调度并行程序运行在N+ΔN*个计算节点上，且每一个计算节点的处理器频率的初始值为处理器频率f*，其中N为并行程序运行需要的最少计算节点数，缺省资源分配下每一个处理器核运行一个进程，ΔN*为最优增加节点数目。

此外，本实施例还提供一种提升计算子系统能效的资源分配系统，包括计算机设备，该计算机设备被编程或配置以执行前述提升计算子系统能效的资源分配方法的步骤，或该计算机设备的存储器上存储有被编程或配置以执行前述提升计算子系统能效的资源分配方法的计算机程序。

此外，本实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有被编程或配置以执行前述提升计算子系统能效的资源分配方法的计算机程序。

以上所述仅是本实施例的优选实施方式，本实施例的保护范围并不仅局限于上述实施例，凡属于本实施例思路下的技术方案均属于本实施例的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本实施例原理前提下的若干改进和润饰，这些改进和润饰也应视为本实施例的保护范围。

Claims

1.一种提升计算子系统能效的资源分配方法，其特征在于实施步骤包括：

2)利用动态处理器频率调节工具，设置功耗限制值为P_target，并调度并行程序运行在N+ΔN*个计算节点上，且每一个计算节点的处理器频率的初始值为处理器频率f*，其中N为并行程序运行需要的最少计算节点数，缺省资源分配下每一个处理器核运行一个进程；

步骤1)中确定最优增加节点数目ΔN*的步骤包括：利用总内存带宽计算第一增加节点数据区间[0,ΔN^pref]；利用功耗约束条件计算第二增加节点数据区间[0,ΔN^power]；求第一增加节点数据区间[0,ΔN^pref]、第二增加节点数据区间[0,ΔN^power]之间的交集，并选择所求交集区间中的最大值作为最优增加节点数目ΔN*；

步骤1)中确定处理器频率f*的步骤包括：将最优增加节点数目ΔN*代入下式所示的功耗约束函数，令ΔN＝ΔN*，令P^cpu(f_mid)＝P^cpu(f_i)，得到功耗值P^cpu(f_i)的范围，根据不同处理器频率级别及处理器核功耗值之间的关系，取满足条件的处理器频率f_i的最大值，将其作为步骤1)中确定的处理器频率f*；

为单个处理器核处于空闲状态下的处理器功耗，P^mem为内存功耗，P^other为单个计算节点上除处理器和内存以外的其他功耗；

步骤1)中确定功耗限制值P_target的计算函数表达式如下：

2.根据权利要求1所述的提升计算子系统能效的资源分配方法，其特征在于，所述利用总内存带宽计算第一增加节点数据区间[0,ΔN^pref]的详细步骤包括：

S1)获取记录的各个时刻t各个计算节点上的实际访存带宽b₁(t),b₂(t),...,b_N(t)，计算并行程序运行期间的单节点平均实际访存带宽b(t)，且取b(t)的最大值作为该并行程序的实际访存带宽B_N，其中b_i(t)为第i个计算节点上的实际访存带宽值；

3.根据权利要求1所述的提升计算子系统能效的资源分配方法，其特征在于，所述利用功耗约束条件计算第二增加节点数据区间[0,ΔN^power]具体是指，求解满足下述功耗约束函数的最大节点数目ΔN，并将得到的节点数目ΔN作为所需增加的节点数目ΔN^power，得到第二增加节点数据区间[0,ΔN^power]；

4.一种提升计算子系统能效的资源分配系统，其特征在于包括：

资源分配程序单元，用于利用动态处理器频率调节工具，设置功耗限制值为P_target，并调度并行程序运行在N+ΔN*个计算节点上，且每一个计算节点的处理器频率的初始值为处理器频率f*，其中N为并行程序运行需要的最少计算节点数，缺省资源分配下每一个处理器核运行一个进程；

所述参数初始程序单元确定最优增加节点数目ΔN*的步骤包括：利用总内存带宽计算第一增加节点数据区间[0,ΔN^pref]；利用功耗约束条件计算第二增加节点数据区间[0,ΔN^power]；求第一增加节点数据区间[0,ΔN^pref]、第二增加节点数据区间[0,ΔN^power]之间的交集，并选择所求交集区间中的最大值作为最优增加节点数目ΔN*；

所述参数初始程序单元确定处理器频率f*的步骤包括：将最优增加节点数目ΔN*代入下式所示的功耗约束函数，令ΔN＝ΔN*，令P^cpu(f_mid)＝P^cpu(f_i)，得到功耗值P^cpu(f_i)的范围，根据不同处理器频率级别及处理器核功耗值之间的关系，取满足条件的处理器频率f_i的最大值，将其作为步骤1)中确定的处理器频率f*；

所述参数初始程序单元确定功耗限制值P_target的函数表达式如下：

5.一种提升计算子系统能效的资源分配系统，包括计算机设备，其特征在于，该计算机设备被编程或配置以执行权利要求1～3中任意一项所述提升计算子系统能效的资源分配方法的步骤，或该计算机设备的存储器上存储有被编程或配置以执行权利要求1～3中任意一项所述提升计算子系统能效的资源分配方法的计算机程序。

6.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有被编程或配置以执行权利要求1～3中任意一项所述提升计算子系统能效的资源分配方法的计算机程序。