CN113434034B - 利用深度学习调整计算任务cpu频率的大型集群节能方法 - Google Patents

利用深度学习调整计算任务cpu频率的大型集群节能方法 Download PDF

Info

Publication number
CN113434034B
CN113434034B CN202110774208.9A CN202110774208A CN113434034B CN 113434034 B CN113434034 B CN 113434034B CN 202110774208 A CN202110774208 A CN 202110774208A CN 113434034 B CN113434034 B CN 113434034B
Authority
CN
China
Prior art keywords
cpu frequency
computing node
computing
energy consumption
critical value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110774208.9A
Other languages
English (en)
Other versions
CN113434034A (zh
Inventor
苏斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huaheng Shengshi Technology Co ltd
Original Assignee
Beijing Huaheng Shengshi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huaheng Shengshi Technology Co ltd filed Critical Beijing Huaheng Shengshi Technology Co ltd
Priority to CN202110774208.9A priority Critical patent/CN113434034B/zh
Publication of CN113434034A publication Critical patent/CN113434034A/zh
Application granted granted Critical
Publication of CN113434034B publication Critical patent/CN113434034B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3243Power saving in microcontroller unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/324Power saving characterised by the action undertaken by lowering clock frequency
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Power Sources (AREA)

Abstract

本发明公开了一种利用深度学习调整计算任务CPU频率的大型集群节能方法,通过获取不同频率下机器运行计算任务的能耗,形成训练集,使用深度学习算法分析运行计算任务时机器的CPU频率和能耗关系的临界值。获取到临界值后,调整该运行计算任务的计算节点的CPU频率,使得计算任务的运行效率和机器的能耗达到平衡状态。

Description

利用深度学习调整计算任务CPU频率的大型集群节能方法
技术领域
本发明涉及深度学习技术领域,具体涉及一种利用深度学习调整计算任务CPU频率的大型集群节能方法。
背景技术
目前在大型集群中,计算节点的CPU频率是固定的,不同的计算任务都用相同的CPU频率来运行,因此超算中心功耗始终保持在很高的水平。部分计算任务根据经验设置CPU频率,不能有效地提高计算任务性能,浪费资源。
不同计算任务在相同CPU频率下运行不利于提高计算任务性能,也不利于大型集群节电。相同的CPU频率可能会导致作业运行效率偏低,或者机器的能耗量增多。现有技术很难达到频率和能耗的平衡,即使可以通过运行大量计算作业计算出机器的运行计算任务的CPU频率临界值,手动调整机器的频率操作起来也非常的繁琐。
发明内容
针对现有技术的不足,本发明旨在提供一种利用深度学习调整计算任务CPU频率的大型集群节能方法。
为了实现上述目的,本发明采用如下技术方案:
利用深度学习调整计算任务CPU频率的大型集群节能方法,具体过程为:
收到用户提交的作业信息后,根据收集到的各个计算节点负载情况,将该作业派发到最合适运行该作业的计算任务的计算节点上;
在该计算节点初次运行该计算任务时调整计算节点的CPU频率为该计算节点的当前CPU频率;在计算任务运行过程中,每隔设定时间收集一次作业运行数据和计算节点运行数据,作业运行数据包括作业运行时间,计算节点运行数据包括计算节点能耗和CPU频率,利用作业运行数据和计算节点运行数据通过深度学习算法分析得出CPU频率临界值,据此调整计算节点CPU频率至所述CPU频率临界值,降低计算节点CPU频率,实现计算节点节能;
所述使用深度学习算法分析CPU频率临界值的具体过程为:
构建神经网络模型,神经网络的输入变量有作业运行时间、计算节点能耗和计算节点CPU频率,统计三个输入变量各自的权重值,然后利用获取的作业运行时间、计算节点能耗和CPU频率作为数据训练集,输出该计算节点的CPU频率临界值H,并将计算节点的CPU频率调整至临界值,反复验证该临界值是否正确,临界值发生变化则再次调整计算节点的CPU频率。
进一步地,每个计算节点均具有属于自身的神经网络,各个计算节点的神经网络的作业运行时间、计算节点能耗和计算节点CPU频率的权重值需要根据实际运行情况确定。
本发明的有益效果在于:本发明通过获取不同频率下机器运行计算任务的能耗,形成训练集,使用深度学习算法分析运行计算任务时机器的CPU频率和能耗关系的临界值。获取到临界值后,调整该运行计算任务的计算节点的CPU频率,使得计算任务的运行效率和机器的能耗达到平衡状态。
附图说明
图1为本发明实施例1的方法流程示意图;
图2为本发明实施例1中绘制的CPU频率和能耗的函数图像;
图3为本发明实施例1中的神经网络模型示意图。
具体实施方式
以下将结合附图对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
实施例1
本实施例提供一种利用深度学习调整计算任务CPU频率的大型集群节能方法,如图1所示,具体过程为:
收到用户提交的作业信息后,根据收集到的各个计算节点(服务器)负载情况,将该作业派发到最合适运行该作业的计算任务的计算节点上;
在计算节点初次运行该计算任务时调整计算节点的CPU频率为该计算节点的当前频率值;在计算任务运行过程中,每隔设定时间收集一次作业运行数据和计算节点运行数据,作业运行数据包括作业运行时间,计算节点运行数据包括计算节点能耗和CPU频率,利用作业运行数据和计算节点运行数据,使用深度学习算法分析得出CPU频率临界值,据此调整计算节点CPU频率至所述CPU频率临界值,降低计算节点CPU频率,实现计算节点节能。
以下进一步描述使用深度学习算法分析得出CPU频率临界值的原理和过程。
计算节点的能耗和CPU频率的公式如下:
P=CV2f;
P代表能耗量;C为常数,由计算节点的制程和设计等因素决定;V代表电压;f代表CPU频率。
同一计算任务在运行过程中在不同的计算节点CPU频率下所消耗的能耗有所不同,通过深度学习训练数据,可以实现计算任务在某个CPU频率下所消耗的能耗最小。如图2所示,通过获取不同核数的CPU在处理同一计算任务时的频率和其能耗的数值,形成数据训练集,将数据训练集中的数据提炼不同CPU频率下的能耗中位数绘制CPU频率和能耗的函数图像,结果如图2所示。
图2中,纵坐标为CPU的能耗量P,单位为W;横坐标为CPU频率f,单位是MHz。由图2可知,当CPU频率f达到临界值(红线)时,P与f达到临界点。
(1)f≤临界值时,P与f呈线性关系,此时能耗P越大,CPU频率f越大,计算任务执行效率越高;
(2)f>临界值时,P与f失去了原来的线性关系,呈现指数关系,此时每增加Δf的CPU频率,CPU能耗大幅增加,因为此时公式P=CV2f中,随着f值的升高,需要的能耗越来越多,CPU电压越来越大,V2的占比逐渐增大,此时:
Figure BDA0003153836140000051
CPU频率f想增加相同的Δf时需要增加更大的ΔP,因此函数图像呈现指数函数的特点,此时CPU频率每增加一部分Δf,CPU功率的消耗量迅速增多。
因此,本实施例中,所述使用深度学习算法分析得出CPU频率临界值的具体过程为:
CPU频率增加能够提高计算任务的执行速度,但是一味增加CPU频率会导致计算节点处于超频状态,系统不稳定,且能耗也会随之迅速增加。为了满足绿色计算的节能的要求,需要寻找到最合适的CPU频率,使计算节点能耗相对较少且计算任务的执行速度较快。
在计算节点上大量重复运行同一计算任务后,可以获取到计算任务运行过程中的CPU频率和计算机节点消耗的电量数据,组成训练集,使用该训练集计算P与f的临界点,超出所述临界点的部分计算节点能耗量会大幅度增加。
同时,服务器集群节能不能与计算任务执行冲突,一味考虑节能会影响计算任务执行效率,因而得出CPU频率临界值还需要考虑计算任务执行时间。因此本实施例方法构建神经网络模型如图3所示。
神经网络的输入变量有作业运行时间X1、计算节点能耗X2和计算节点CPU频率X3,对于不同的计算节点和计算任务,三个输入变量的权重也不同,根据实际运行情况统计出不同的计算节点的权重值,输出该计算节点的CPU频率临界值H,并将计算节点的CPU频率调整至临界值,反复验证该临界值是否正确,临界值发生变化则再次调整计算节点的CPU频率。
考虑多种因素,寻找到该计算节点临界值的CPU频率,因而在计算任务运行时保持CPU频率为临界值,可使得计算任务平衡运行效率和能量消耗。
需要说明的是,本实施例的二维卷积神经网络公式为
Figure BDA0003153836140000061
xi,j为输入变量,wu-i,v-j为权重值,H(u,v)为第H层输出量;输入矩阵
Figure BDA0003153836140000062
权重值矩阵
Figure BDA0003153836140000063
根据卷积神经网络前向传播公式进行仿射变换,可得
Figure BDA0003153836140000064
其中,每一层激活前的特征向量为z,激活后的特征向量为y,即y=f(z);每一层的输入x可以看成是前一层激活后的特征向量y;损失函数用j来表示:
卷积核大小为n*n,所以有效卷积定义为
Figure BDA0003153836140000065
Figure BDA0003153836140000071
其中,wrot为矩阵w旋转180°得到的矩阵。
由此可得,卷积神经网络第h层输出公式为:
Figure BDA0003153836140000072
Figure BDA0003153836140000073
bh为误差损失,计算时可忽略不计。
本实施例将某次计算任务运行时获取的输入矩阵和输出矩阵值代入公式,可得
Figure BDA0003153836140000074
系数结果因每次运行作业的类型、时长和机器负载的不同而发生改变,收集同种类作业运行时计算系数,形成数据集,取得中位数调整系统CPU频率。
需要说明的是,每个计算节点都拥有自己的一套深度学习算法框架,不同的机器型号和计算任务使用情况会计算出不同的CPU频率临界值,调整计算节点CPU频率至临界值可以最大可能的节约计算节点能耗并保证计算任务运行效率。
实施例2
实施例1方法可以与计算任务管理系统结合,通过计算任务管理系统获取相关计算节点能耗数据信息,可通过命令获取实时数据信息,如表1所示。
表1
host cpuf P job_name ave_job_time
quickpool-1 1300 0.45 test1 105
表1中,显示信息包括节点名称、节点CPU频率、节点能耗P、此时在对应计算节点上批量运行的作业名称和作业执行平均时间。一开始该作业的计算任务以当时的CPU频率运行,然后通过间隔固定秒数逐步提高CPU频率,提高节点能耗和作业执行效率,缩短作业平均执行间隔。该过程的信息变化如表2、3、4所示。
表2
host cpuf P job_name ave_job_time
quickpool-1 1500 0.51 test1 99
表3
host cpuf P job_name ave_job_time
quickpool-1 1650 0.59 test1 89
表4
host cpuf P job_name ave_job_time
quickpool-1 1750 0.85 test1 84
此时当CPU频率达到1750时,能耗从每提高100Hz的CPU频率缓慢上升0.8W,突然变化到提高100Hz的CPU频率上升0.26W的能耗,能耗量符合之前的耗能曲线转折点,此时CPU频率会逐渐下降,如表6、7所示。
表6
Figure BDA0003153836140000081
Figure BDA0003153836140000091
表7
host cpuf P job_name ave_job_time
quickpool-1 1640 0.59 test1 89
当CPU频率稳定在1600-1650Hz左右时,机器耗能和作业执行效率达到动态平衡。实施例1方法与计算任务管理系统能够完美融合,形成集群管理和节能的一体化控制。
对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。

Claims (1)

1.一种基于深度学习算法的大型集群节能方法,其特征在于,包括:
收到用户提交的作业信息后,根据收集到的各个计算节点负载情况,将作业派发到最合适运行该作业的计算任务的计算节点上;
在该计算节点初次运行该计算任务时,调整计算节点的CPU频率为该计算节点的当前CPU频率;
在计算任务运行过程中,每隔设定时间收集一次作业运行数据和计算节点运行数据,作业运行数据包括作业运行时间,计算节点运行数据包括计算节点能耗和计算节点CPU频率;
构建基于深度学习算法的神经网络模型,将作业运行时间、计算节点能耗和计算节点CPU频率作为所述神经网络模型的输入变量,三个输入变量具有相应的输入权重值,将不同节点在处理同一计算任务时的作业运行时间、计算节点能耗和计算节点CPU频率作为数据训练集,训练所述神经网络模型,得到训练好的神经网络;
将实际计算任务中获取的作业运行时间、计算节点能耗、计算节点CPU频率和三者相应的权重值输入至训练好的神经网络,所述训练好的神经网络输出该计算节点的CPU频率临界值;其中,当计算节点CPU频率小于或等于所述CPU频率临界值时,计算节点能耗和计算节点CPU频率呈线性关系;当计算节点CPU频率大于所述CPU频率临界值时,计算节点能耗和计算节点CPU频率呈指数关系;
将计算节点的CPU频率调整为所述CPU频率临界值,反复验证该CPU频率临界值是否正确,若该CPU频率临界值发生变化,则再次调整计算节点的CPU频率;
其中,每个所述计算节点均具有属于自身的神经网络。
CN202110774208.9A 2021-07-08 2021-07-08 利用深度学习调整计算任务cpu频率的大型集群节能方法 Active CN113434034B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110774208.9A CN113434034B (zh) 2021-07-08 2021-07-08 利用深度学习调整计算任务cpu频率的大型集群节能方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110774208.9A CN113434034B (zh) 2021-07-08 2021-07-08 利用深度学习调整计算任务cpu频率的大型集群节能方法

Publications (2)

Publication Number Publication Date
CN113434034A CN113434034A (zh) 2021-09-24
CN113434034B true CN113434034B (zh) 2023-04-18

Family

ID=77759692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110774208.9A Active CN113434034B (zh) 2021-07-08 2021-07-08 利用深度学习调整计算任务cpu频率的大型集群节能方法

Country Status (1)

Country Link
CN (1) CN113434034B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11778045B2 (en) 2021-07-12 2023-10-03 Red Hat, Inc. Communication system for micro-frontends of a web application

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111158974A (zh) * 2019-12-06 2020-05-15 华南理工大学 一种面向云服务器的硬件感知cpu能耗测算方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7343505B2 (en) * 2004-10-28 2008-03-11 International Business Machines Corporation Method and apparatus for thermal control of electronic components
US10289183B2 (en) * 2014-08-22 2019-05-14 Intel Corporation Methods and apparatus to manage jobs that can and cannot be suspended when there is a change in power allocation to a distributed computer system
CN107943555B (zh) * 2017-10-17 2021-11-23 华南理工大学 一种云计算环境下的大数据存储和处理平台及处理方法
CN107861606A (zh) * 2017-11-21 2018-03-30 北京工业大学 一种通过协调dvfs和任务映射的异构多核功率封顶方法
CN111245950B (zh) * 2020-01-20 2023-03-10 南京邮电大学 基于深度学习的工业物联网边缘资源智能调度系统及方法
CN112631415B (zh) * 2020-12-31 2022-09-02 Oppo(重庆)智能科技有限公司 Cpu频率调整方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111158974A (zh) * 2019-12-06 2020-05-15 华南理工大学 一种面向云服务器的硬件感知cpu能耗测算方法

Also Published As

Publication number Publication date
CN113434034A (zh) 2021-09-24

Similar Documents

Publication Publication Date Title
TWI794157B (zh) 自動多閾值特徵過濾方法及裝置
CN111026548B (zh) 一种逆向深度强化学习的电力通信设备测试资源调度方法
CN113434034B (zh) 利用深度学习调整计算任务cpu频率的大型集群节能方法
US20220243347A1 (en) Determination method and determination apparatus for conversion efficiency of hydrogen production by wind-solar hybrid electrolysis of water
CN111461507A (zh) 基于客户感知价值和风险意识的多服务器配置利润最大化方法
CN117555683A (zh) 基于深度强化学习的云集群资源调度方法
CN113762591A (zh) 一种基于gru和多核svm对抗学习的短期电量预测方法及系统
CN113034343B (zh) 参数自适应的高光谱图像分类gpu并行方法
CN115828769A (zh) 一种基于智能计算的冷却塔工况的预测和降耗方法
CN110826909B (zh) 一种基于规则集的工作流执行方法
CN111310644A (zh) 一种针对电器类型及其工作状态的智能识别方法及装置
CN111523657A (zh) 神经网络加速器创建方法及装置、电子设备和存储介质
CN116542504B (zh) 参数自适应的半导体工件生产调度方法、设备及存储介质
CN114841366B (zh) 一种基于无线联邦学习的学习模型训练方法
CN117556273B (zh) 一种通过多图形处理器计算对比损失的方法和装置
CN110851230B (zh) 一种云计算中的基于强化学习的虚拟机放置方法
CN115511047B (zh) Softmax模型的量化方法、装置、设备及介质
CN117910908B (zh) 一种基于最优化算法的油脂栈台与储罐高效分发方法
CN117648163A (zh) 一种应用迁移cpu估算方法
CN116503221A (zh) 一种全生命周期全要素的智慧建造碳排放监测方法
CN117875603A (zh) 基于功率损耗的飞轮阵列功率匹配协同优化方法及装置
CN117913859A (zh) 电网规划方法、装置、电子设备及存储介质
CN113158309A (zh) 一种暖通设备运行策略辨识方法
CN115983486A (zh) 一种风电出力预测方法、装置、电子设备及存储介质
CN117972924A (zh) 基于双模型策略构造高精度电机性能数据库的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant