CN113434034B

CN113434034B - 利用深度学习调整计算任务cpu频率的大型集群节能方法

Info

Publication number: CN113434034B
Application number: CN202110774208.9A
Authority: CN
Inventors: 苏斌
Original assignee: Beijing Huaheng Shengshi Technology Co ltd
Current assignee: Beijing Huaheng Shengshi Technology Co ltd
Priority date: 2021-07-08
Filing date: 2021-07-08
Publication date: 2023-04-18
Anticipated expiration: 2041-07-08
Also published as: CN113434034A

Abstract

本发明公开了一种利用深度学习调整计算任务CPU频率的大型集群节能方法，通过获取不同频率下机器运行计算任务的能耗，形成训练集，使用深度学习算法分析运行计算任务时机器的CPU频率和能耗关系的临界值。获取到临界值后，调整该运行计算任务的计算节点的CPU频率，使得计算任务的运行效率和机器的能耗达到平衡状态。

Description

利用深度学习调整计算任务CPU频率的大型集群节能方法

技术领域

本发明涉及深度学习技术领域，具体涉及一种利用深度学习调整计算任务CPU频率的大型集群节能方法。

背景技术

目前在大型集群中，计算节点的CPU频率是固定的，不同的计算任务都用相同的CPU频率来运行，因此超算中心功耗始终保持在很高的水平。部分计算任务根据经验设置CPU频率，不能有效地提高计算任务性能，浪费资源。

不同计算任务在相同CPU频率下运行不利于提高计算任务性能，也不利于大型集群节电。相同的CPU频率可能会导致作业运行效率偏低，或者机器的能耗量增多。现有技术很难达到频率和能耗的平衡，即使可以通过运行大量计算作业计算出机器的运行计算任务的CPU频率临界值，手动调整机器的频率操作起来也非常的繁琐。

发明内容

针对现有技术的不足，本发明旨在提供一种利用深度学习调整计算任务CPU频率的大型集群节能方法。

为了实现上述目的，本发明采用如下技术方案：

利用深度学习调整计算任务CPU频率的大型集群节能方法，具体过程为：

收到用户提交的作业信息后，根据收集到的各个计算节点负载情况，将该作业派发到最合适运行该作业的计算任务的计算节点上；

在该计算节点初次运行该计算任务时调整计算节点的CPU频率为该计算节点的当前CPU频率；在计算任务运行过程中，每隔设定时间收集一次作业运行数据和计算节点运行数据，作业运行数据包括作业运行时间，计算节点运行数据包括计算节点能耗和CPU频率，利用作业运行数据和计算节点运行数据通过深度学习算法分析得出CPU频率临界值，据此调整计算节点CPU频率至所述CPU频率临界值，降低计算节点CPU频率，实现计算节点节能；

所述使用深度学习算法分析CPU频率临界值的具体过程为：

构建神经网络模型，神经网络的输入变量有作业运行时间、计算节点能耗和计算节点CPU频率，统计三个输入变量各自的权重值，然后利用获取的作业运行时间、计算节点能耗和CPU频率作为数据训练集，输出该计算节点的CPU频率临界值H，并将计算节点的CPU频率调整至临界值，反复验证该临界值是否正确，临界值发生变化则再次调整计算节点的CPU频率。

进一步地，每个计算节点均具有属于自身的神经网络，各个计算节点的神经网络的作业运行时间、计算节点能耗和计算节点CPU频率的权重值需要根据实际运行情况确定。

本发明的有益效果在于：本发明通过获取不同频率下机器运行计算任务的能耗，形成训练集，使用深度学习算法分析运行计算任务时机器的CPU频率和能耗关系的临界值。获取到临界值后，调整该运行计算任务的计算节点的CPU频率，使得计算任务的运行效率和机器的能耗达到平衡状态。

附图说明

图1为本发明实施例1的方法流程示意图；

图2为本发明实施例1中绘制的CPU频率和能耗的函数图像；

图3为本发明实施例1中的神经网络模型示意图。

具体实施方式

以下将结合附图对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

实施例1

本实施例提供一种利用深度学习调整计算任务CPU频率的大型集群节能方法，如图1所示，具体过程为：

收到用户提交的作业信息后，根据收集到的各个计算节点(服务器)负载情况，将该作业派发到最合适运行该作业的计算任务的计算节点上；

在计算节点初次运行该计算任务时调整计算节点的CPU频率为该计算节点的当前频率值；在计算任务运行过程中，每隔设定时间收集一次作业运行数据和计算节点运行数据，作业运行数据包括作业运行时间，计算节点运行数据包括计算节点能耗和CPU频率，利用作业运行数据和计算节点运行数据，使用深度学习算法分析得出CPU频率临界值，据此调整计算节点CPU频率至所述CPU频率临界值，降低计算节点CPU频率，实现计算节点节能。

以下进一步描述使用深度学习算法分析得出CPU频率临界值的原理和过程。

计算节点的能耗和CPU频率的公式如下：

P＝CV²f；

P代表能耗量；C为常数，由计算节点的制程和设计等因素决定；V代表电压；f代表CPU频率。

同一计算任务在运行过程中在不同的计算节点CPU频率下所消耗的能耗有所不同，通过深度学习训练数据，可以实现计算任务在某个CPU频率下所消耗的能耗最小。如图2所示，通过获取不同核数的CPU在处理同一计算任务时的频率和其能耗的数值，形成数据训练集，将数据训练集中的数据提炼不同CPU频率下的能耗中位数绘制CPU频率和能耗的函数图像，结果如图2所示。

图2中，纵坐标为CPU的能耗量P，单位为W；横坐标为CPU频率f，单位是MHz。由图2可知，当CPU频率f达到临界值(红线)时，P与f达到临界点。

(1)f≤临界值时，P与f呈线性关系，此时能耗P越大，CPU频率f越大，计算任务执行效率越高；

(2)f>临界值时，P与f失去了原来的线性关系，呈现指数关系，此时每增加Δf的CPU频率，CPU能耗大幅增加，因为此时公式P＝CV²f中，随着f值的升高，需要的能耗越来越多，CPU电压越来越大，V²的占比逐渐增大，此时：

CPU频率f想增加相同的Δf时需要增加更大的ΔP，因此函数图像呈现指数函数的特点，此时CPU频率每增加一部分Δf，CPU功率的消耗量迅速增多。

因此，本实施例中，所述使用深度学习算法分析得出CPU频率临界值的具体过程为：

CPU频率增加能够提高计算任务的执行速度，但是一味增加CPU频率会导致计算节点处于超频状态，系统不稳定，且能耗也会随之迅速增加。为了满足绿色计算的节能的要求，需要寻找到最合适的CPU频率，使计算节点能耗相对较少且计算任务的执行速度较快。

在计算节点上大量重复运行同一计算任务后，可以获取到计算任务运行过程中的CPU频率和计算机节点消耗的电量数据，组成训练集，使用该训练集计算P与f的临界点，超出所述临界点的部分计算节点能耗量会大幅度增加。

同时，服务器集群节能不能与计算任务执行冲突，一味考虑节能会影响计算任务执行效率，因而得出CPU频率临界值还需要考虑计算任务执行时间。因此本实施例方法构建神经网络模型如图3所示。

神经网络的输入变量有作业运行时间X1、计算节点能耗X2和计算节点CPU频率X3，对于不同的计算节点和计算任务，三个输入变量的权重也不同，根据实际运行情况统计出不同的计算节点的权重值，输出该计算节点的CPU频率临界值H，并将计算节点的CPU频率调整至临界值，反复验证该临界值是否正确，临界值发生变化则再次调整计算节点的CPU频率。

考虑多种因素，寻找到该计算节点临界值的CPU频率，因而在计算任务运行时保持CPU频率为临界值，可使得计算任务平衡运行效率和能量消耗。

需要说明的是，本实施例的二维卷积神经网络公式为

x_i，j为输入变量，w_u-i，v-j为权重值，H(u,v)为第H层输出量；输入矩阵

权重值矩阵

根据卷积神经网络前向传播公式进行仿射变换，可得

其中，每一层激活前的特征向量为z，激活后的特征向量为y，即y＝f(z)；每一层的输入x可以看成是前一层激活后的特征向量y；损失函数用j来表示：

卷积核大小为n*n，所以有效卷积定义为

其中，w_rot为矩阵w旋转180°得到的矩阵。

由此可得，卷积神经网络第h层输出公式为:

b^h为误差损失，计算时可忽略不计。

本实施例将某次计算任务运行时获取的输入矩阵和输出矩阵值代入公式，可得

系数结果因每次运行作业的类型、时长和机器负载的不同而发生改变，收集同种类作业运行时计算系数，形成数据集，取得中位数调整系统CPU频率。

需要说明的是，每个计算节点都拥有自己的一套深度学习算法框架，不同的机器型号和计算任务使用情况会计算出不同的CPU频率临界值，调整计算节点CPU频率至临界值可以最大可能的节约计算节点能耗并保证计算任务运行效率。

实施例2

实施例1方法可以与计算任务管理系统结合，通过计算任务管理系统获取相关计算节点能耗数据信息，可通过命令获取实时数据信息，如表1所示。

表1

host	cpuf	P	job_name	ave_job_time
					quickpool-1	1300	0.45	test1	105

表1中，显示信息包括节点名称、节点CPU频率、节点能耗P、此时在对应计算节点上批量运行的作业名称和作业执行平均时间。一开始该作业的计算任务以当时的CPU频率运行，然后通过间隔固定秒数逐步提高CPU频率，提高节点能耗和作业执行效率，缩短作业平均执行间隔。该过程的信息变化如表2、3、4所示。

表2

host	cpuf	P	job_name	ave_job_time
					quickpool-1	1500	0.51	test1	99

表3

host	cpuf	P	job_name	ave_job_time
					quickpool-1	1650	0.59	test1	89

表4

host	cpuf	P	job_name	ave_job_time
					quickpool-1	1750	0.85	test1	84

此时当CPU频率达到1750时，能耗从每提高100Hz的CPU频率缓慢上升0.8W，突然变化到提高100Hz的CPU频率上升0.26W的能耗，能耗量符合之前的耗能曲线转折点，此时CPU频率会逐渐下降，如表6、7所示。

表6

表7

host	cpuf	P	job_name	ave_job_time
					quickpool-1	1640	0.59	test1	89

当CPU频率稳定在1600-1650Hz左右时，机器耗能和作业执行效率达到动态平衡。实施例1方法与计算任务管理系统能够完美融合，形成集群管理和节能的一体化控制。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种基于深度学习算法的大型集群节能方法，其特征在于，包括：

收到用户提交的作业信息后，根据收集到的各个计算节点负载情况，将作业派发到最合适运行该作业的计算任务的计算节点上；

在该计算节点初次运行该计算任务时，调整计算节点的CPU频率为该计算节点的当前CPU频率；

在计算任务运行过程中，每隔设定时间收集一次作业运行数据和计算节点运行数据，作业运行数据包括作业运行时间，计算节点运行数据包括计算节点能耗和计算节点CPU频率；

构建基于深度学习算法的神经网络模型，将作业运行时间、计算节点能耗和计算节点CPU频率作为所述神经网络模型的输入变量，三个输入变量具有相应的输入权重值，将不同节点在处理同一计算任务时的作业运行时间、计算节点能耗和计算节点CPU频率作为数据训练集，训练所述神经网络模型，得到训练好的神经网络；

将实际计算任务中获取的作业运行时间、计算节点能耗、计算节点CPU频率和三者相应的权重值输入至训练好的神经网络，所述训练好的神经网络输出该计算节点的CPU频率临界值；其中，当计算节点CPU频率小于或等于所述CPU频率临界值时，计算节点能耗和计算节点CPU频率呈线性关系；当计算节点CPU频率大于所述CPU频率临界值时，计算节点能耗和计算节点CPU频率呈指数关系；

将计算节点的CPU频率调整为所述CPU频率临界值，反复验证该CPU频率临界值是否正确，若该CPU频率临界值发生变化，则再次调整计算节点的CPU频率；

其中，每个所述计算节点均具有属于自身的神经网络。