CN117707742A - 基于负载预测的能耗均衡作业调度方法及系统 - Google Patents
基于负载预测的能耗均衡作业调度方法及系统 Download PDFInfo
- Publication number
- CN117707742A CN117707742A CN202410159991.1A CN202410159991A CN117707742A CN 117707742 A CN117707742 A CN 117707742A CN 202410159991 A CN202410159991 A CN 202410159991A CN 117707742 A CN117707742 A CN 117707742A
- Authority
- CN
- China
- Prior art keywords
- load
- node
- nodes
- class
- job
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000005265 energy consumption Methods 0.000 title claims abstract description 24
- 238000013508 migration Methods 0.000 claims abstract description 15
- 230000005012 migration Effects 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims abstract description 4
- 238000003064 k means clustering Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims description 2
- 230000009467 reduction Effects 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 6
- 230000003068 static effect Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
- G06F1/329—Power saving characterised by the action undertaken by task scheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/5038—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
- G06F9/5088—Techniques for rebalancing the load in a distributed system involving task migration
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及高性能计算的作业调度技术领域,公开了基于负载预测的能耗均衡作业调度方法及系统,方法包括:获取历史时间段内,集群中节点的负载指标数据和功耗数据;对负载指标数据进行预处理并提取每个节点的历史负载特征变量;将每个节点的历史负载特征变量,输入到训练后的负载预测模型中,输出每个节点在未来时间点的负载预测值;根据每个节点在未来时间点的负载预测值,将集群中的每个节点划分为不同的负载类别;在每个负载类别中,按照功耗值由低到高的顺序对节点进行排序,优先选取低负载类别节点中的低功耗节点进行作业调度;调度后对高负载类别节点上运行的作业,实施作业迁移。本发明能够避免负载不均衡导致的热点问题和系统性能下降。
Description
技术领域
本发明涉及高性能计算的作业调度技术领域,特别是涉及基于负载预测的能耗均衡作业调度方法及系统。
背景技术
本部分的陈述仅仅是提到了与本发明相关的背景技术,并不必然构成现有技术。
在当今的高性能计算(High Performance Computing,HPC)领域,集群系统已成为处理大规模计算任务的核心架构。HPC集群系统由众多节点组成,其规模日益扩大。与此同时,集群系统产生诸多问题,如集群负载不均衡,机柜间的能耗水平差异较大,存在不稳定的热量环境,导致集群整体稳定性下降。
为了提高集群系统的效率和性能,作业调度是至关重要的环节。作业调度负责将任务分配给不同的节点,以实现负载均衡、提高系统利用率和能耗优化等目的。传统的作业调度方法通常基于静态信息或简单的负载均衡策略,如轮询或随机分配。然而,这些方法无法适应节点负载的动态变化和时间相关性,导致负载不均衡和热点问题的产生。为了克服传统方法的局限性,近年来,基于机器学习和时间序列分析的方法受到广泛关注。现有的方法大多集中在利用历史负载数据,预测节点某一指标的数据,如CPU利用率等,并根据预测结果进行作业调度。然而,这些研究并未考虑影响负载的多个变量以及作业调度完成后是否做出调整。
发明内容
为了解决现有技术的不足,本发明提供了基于负载预测的能耗均衡作业调度方法及系统;其通过对集群中所有计算节点的负载进行预测,根据负载预测结果,将节点划分为不同的负载类别。作业调度过程中,优先选择低负载类别节点进行作业分配,并在首次调度完成后采取作业迁移的方式进行二次调整。使用本调度方式以实现集群系统的负载均衡,避免负载不均衡导致的热点问题和系统性能下降,同时对集群能耗进行优化,使集群整体能耗分布均衡。
一方面,提供了基于负载预测的能耗均衡作业调度方法,包括:获取历史时间段内,集群中节点的负载指标数据和功耗数据;对负载指标数据进行预处理并提取每个节点的历史负载特征变量;将每个节点的历史负载特征变量,输入到训练后的负载预测模型中,输出每个节点在未来时间点的负载预测值;根据每个节点在未来时间点的负载预测值,将集群中的每个节点划分为不同的负载类别;在每个负载类别中,按照功耗值由低到高的顺序对节点进行排序,优先选取低负载类别节点中的低功耗节点进行作业调度;完成调度后,对高负载类别节点上运行的作业,实施作业迁移。
另一方面,提供了基于负载预测的能耗均衡作业调度系统,包括:获取模块,其被配置为:获取历史时间段内,集群中节点的负载指标数据和功耗数据;对负载指标数据进行预处理并提取每个节点的历史负载特征变量;预测模块,其被配置为:将每个节点的历史负载特征变量,输入到训练后的负载预测模型中,输出每个节点在未来时间点的负载预测值;分类模块,其被配置为:根据每个节点在未来时间点的负载预测值,将集群中的每个节点划分为不同的负载类别;调度模块,其被配置为:在每个负载类别中,按照功耗值由低到高的顺序对节点进行排序,优先选取低负载类别节点中的低功耗节点进行作业调度;迁移模块,其被配置为:完成调度后,对高负载类别节点上运行的作业,实施作业迁移。
上述技术方案具有如下优点或有益效果:本发明基于所有节点多个特征的数据,实现大规模集群节点负载预测和作业调度的整合。本发明能够捕捉节点负载的时序特征和节点之间的关联性,提高负载预测的准确性。根据预测结果对集群节点进行分类,实施调度策略,并根据节点和作业的功耗特征进行作业迁移,实现集群系统整体的负载均衡和能耗均衡分布,可以有效的防止机房中热点的产生。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为实施例一的方法流程图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
实施例一
如图1所示,本实施例提供了基于负载预测的能耗均衡作业调度方法,包括:S101:获取历史时间段内,集群中节点的负载指标数据和功耗数据;对负载指标数据进行预处理并提取每个节点的历史负载特征变量;S102:将每个节点的历史负载特征变量,输入到训练后的负载预测模型中,输出每个节点在未来时间点的负载预测值;S103:根据每个节点在未来时间点的负载预测值,将集群中的每个节点划分为不同的负载类别;S104:在每个负载类别中,按照功耗值由低到高的顺序对节点进行排序,优先选取低负载类别节点中的低功耗节点进行作业调度;S105:完成调度后,对高负载类别节点上运行的作业,实施作业迁移。
进一步地,所述S101:获取历史时间段内,集群中节点的负载指标数据和功耗数据;其中,负载指标数据,包括:CPU利用率、GPU利用率/>、内存利用率和磁盘利用率/>数据。
需要另外说明的是,影响集群服务器性能和功耗的硬件不仅仅包括CPU、GPU、内存和磁盘,还包括网卡、电源等,由于网卡、电源等其它影响因素占比非常低,因此可以忽略不计。所采的负载指标数据为时间序列数据,采集时间长度为连续的多个月份,以分钟为粒度,存储至InfluxDB数据库。
聚合所有节点的负载值,由于各项指标数据在InfluxDB数据库中是单独存储的,为方便后续操作步骤使用,将各项指标数据合并为一个数据集;使用前向填充方法处理缺失值。
;其中节点/>的负载值/>由CPU利用率、GPU利用率、内存利用率和磁盘利用率加权求和计算而得;其中,/>、/>、/>、/>分别是各个指标项的权重,相加和为1。对于不同的集群架构,各项权重灵活设置,若集群中不存在GPU硬件,则/>可以相应的设置为0。
进一步地,所述对负载指标数据进行预处理并提取每个节点的历史负载特征变量,预处理包括:以分钟为粒度聚合所有节点的负载值,处理缺失值,扩充时间序列变量,增加起始分钟数、分钟、小时、天、星期、月份多列数据项;经过处理后的数据为多列的格式;其中每列的数据为:负载值、起始分钟数、时间、节点名、分钟、小时、天、星期和月份。
进一步地,所述S102:将每个节点的历史负载特征变量,输入到训练后的负载预测模型中,输出每个节点在未来时间点的负载预测值,其中,训练后的负载预测模型采用时间序列预测模型TFT(Temporal Fusion Transformers)来实现。
应理解地,将多变量数据划分为三类作为预测模型的输入:静态协变量、已知实值变量和未知实值变量,其中静态协变量为节点名,已知实值变量包括起始分钟数、分钟、小时、天、星期、月份,未知实值变量为负载值。
进一步地,所述训练后的负载预测模型,训练过程包括:构建训练集和测试集,所述训练集和测试集,均为已知下一时刻负载值的指定时间段负载特征变量;将训练集,输入到负载预测模型中,对模型进行训练,得到训落后的负载预测模型;将测试集,输入到训练后的负载预测模型中,对模型进行测试,选择测试结果最优的模型,作为最终训练后的负载预测模型。
具体地,TFT(Temporal Fusion Transformers)模型是一种可解释的时序预测算法,可以利用多种类型的输入特征。为了训练和评估这个模型,将已预先处理的负载数据划分为训练集数据和测试集数据。使用训练集数据对TFT模型进行多轮训练,每轮训练后,在测试集上计算模型的准确率并对当前轮次的模型进行评估,进而通过调整参数优化当前模型。保存准确率最高的一个模型作为最优模型。本实施例中,epoch参数为30,预测时间步长为60,即预测未来60分钟的数据。
应理解地,使用TFT模型实现大规模集群节点负载预测和作业调度的整合。TFT模型能够捕捉节点负载的时序特征和节点之间的关联性,提高负载预测的准确性。
进一步地,输出每个节点在未来时间点的负载预测值,此处使用的方法为多步预测。本实施例设置为预测未来60个时间点的数据。节点名作为模型的静态协变量,此模型适用于所有节点的负载值预测,兼容节点间的差异性,无需为每个节点单独创建模型。
进一步地,所述S103:根据每个节点在未来时间点的负载预测值,将集群中的每个节点划分为不同的负载类别,具体包括:根据每个节点在未来若干个时间点的负载预测值,计算每个节点在若干个时间点的负载预测值均值;根据每个节点的负载预测值均值,将集群中的节点划分为五个类:高负载类别节点、较高负载类别节点、中负载类别节点、较低负载类别节点和低负载类别节点。
进一步地,所述根据每个节点在未来若干个时间点的负载预测值,计算每个节点在若干个时间点的负载预测值均值,具体包括:/>;其中,/>为每一分钟的节点负载值,/>为预测模型的时间步长,本实施例中/>设置为60,即平均负载值为节点未来60分钟/>的均值。
进一步地,所述根据每个节点的负载预测值均值,将集群中的节点划分为五个类:高负载类别节点、较高负载类别节点、中负载类别节点、较低负载类别节点和低负载类别节点,具体包括:根据值,将集群的节点划分为/>类,由于/>为百分比的形式,因此划分后的/>类代表不同的负载值比率。
本实施例中,所述节点类别数可以选取5,节点分类结果为:低负载类别节点,负载值比率为0%-20%;较低负载类别节点,负载值比率为21%-40%;中负载类别节点,负载值比率为41%-60%;高负载类别节点,负载值比率为61%-80%;高负载类别节点,负载值比率为81%-100%。
应理解地,将集群中的节点划分为N个类,可以衡量不同节点的负载水平,数值越小负载水平越低。
进一步地,所述S104:在每个负载类别中,按照功耗值由低到高的顺序对节点进行排序,优先选取低负载类别节点中的低功耗节点进行作业调度,具体包括:分别在类节点中,根据节点的功耗/>对节点进行升序排序,分别在/>值的范围为0%-20%、21%-40%、41%-60%、61%-80%、81%-100%的各类节点中,对节点排序;优先在/>类中的第一类节点,按照节点排列顺序为作业分配计算节点,第一类节点为/>值的范围是0%-20%的节点;对于作业队列中每个作业,首先寻找排名靠前的一个或多个节点,并检查节点是否满足作业的资源需求和约束条件。
如果满足,则将作业调度至所选节点;如果不满足,则在当前类别中按照排名继续寻找节点;如果当前类别中的节点不足以满足作业资源需求和约束条件,则进入下一个节点类别;如果所有类别中都没有节点满足作业的资源需求和约束条件,则将作业放入等待队列,并等待下一次调度。
进一步地,所述S105:完成调度后,对高负载类别节点上运行的作业,实施作业迁移,具体包括:选取高负载类别节点上已运行时长超过设定阈值的作业,并对作业的功耗数据进行处理,将选取的作业从开始运行到当前时间的功耗数据,进行傅里叶变换得到频域数据;提取作业功耗频域数据的频域特征,通过聚类算法对频域特征进行分类,实现将作业划分为不同类别;选取功耗水平波动幅度小于设定阈值的一类作业,将其迁移至低负载类别节点上运行。
进一步地,所述选取高负载类别节点上已运行时长超过设定阈值的作业,具体包括:在已划分的类节点中,统计高负载类别节点上运行的作业,进行作业筛选;高负载类别节点为/>值的范围是81%-100%的节点;首先筛选出当前作业状态为正在运行的作业,其次,过滤掉运行时长小于30分钟的作业;最后,过滤掉功耗数据残缺的作业。
应理解地,作业的功耗数据,指作业所在节点的功耗数据,一个作业可能在多节点上运行,相应地就有多个功耗数值。
进一步地,所述对作业的功耗数据进行处理,具体包括:去除作业前两分钟的数据,消除开始运行时的功耗波动对后续频域变换带来的影响;若作业在多个计算节点上运行,则取该作业每一分钟所有节点功耗的均值。
进一步地,所述将选取的作业从开始运行到当前时间的功耗数据,进行傅里叶变换得到频域数据,具体包括:作业的功耗数据是以分钟为粒度的时间序列数据,对其进行傅里叶变换,得到作业功耗的频域数据。傅里叶变换将作业功耗数据分解为一系列的正弦波,每个正弦波都有一个频率和振幅。
进一步地,所述提取作业功耗频域数据的频域特征,通过聚类算法对频域特征进行分类,实现将作业划分为不同类别,所述频域特征,指作业功耗频域数据的多个功率谱密度(PSD)特征变量;其中功率谱密度特征变量,包括:功率谱密度PSD值的平均值,功率谱密度PSD值的最大值/>,/>对应的频率值/>。
进一步地,所述提取作业功耗频域数据的频域特征,通过聚类算法对频域特征进行分类,实现将作业划分为不同类别,使用K-Means聚类算法。所述K-Means聚类,包括:输入每个作业的、/>和/>数据,算法输出每个类别的作业ID,实现作业的分类。使用轮廓系数指标评价聚类结果,该值的取值范围为[-1,1],越接近1则聚类结果越好。进行多次K-Means聚类,选取结果最优的作业分类。
进一步地,所述选取功耗水平波动小于设定阈值的一类作业,将其迁移至低负载类别节点上运行,具体包括:根据K-Means聚类结果,选取功耗水平波动幅度小于设定阈值的一类作业,将其迁移至低负载类别节点上运行。
应理解地,选取功耗波动幅度小于设定阈值的作业进行迁移,目的是降低对接受迁移作业的机柜的影响,提高迁移效率,避免频繁调度使集群性能下降。
实施例二
本实施例提供了基于负载预测的能耗均衡作业调度系统,包括:获取模块,其被配置为:获取历史时间段内,集群中节点的负载指标数据和功耗数据;对负载指标数据进行预处理并提取每个节点的历史负载特征变量;预测模块,其被配置为:将每个节点的历史负载特征变量,输入到训练后的负载预测模型中,输出每个节点在未来时间点的负载预测值;分类模块,其被配置为:根据每个节点在未来时间点的负载预测值,将集群中的每个节点划分为不同的负载类别;调度模块,其被配置为:在每个负载类别中,按照功耗值由低到高的顺序对节点进行排序,优先选取低负载类别节点中的低功耗节点进行作业调度;迁移模块,其被配置为:完成调度后,对高负载类别节点上运行的作业,实施作业迁移。
此处需要说明的是,上述获取模块、预测模块、分类模块、调度模块和迁移模块对应于实施例一中的步骤S101至S105,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。上述实施例中对各个实施例的描述各有侧重,某个实施例中没有详述的部分可以参见其他实施例的相关描述。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.基于负载预测的能耗均衡作业调度方法,其特征是,包括:
获取历史时间段内,集群中节点的负载指标数据和功耗数据;对负载指标数据进行预处理并提取每个节点的历史负载特征变量;
将每个节点的历史负载特征变量,输入到训练后的负载预测模型中,输出每个节点在未来时间点的负载预测值;
根据每个节点在未来时间点的负载预测值,将集群中的每个节点划分为不同的负载类别;
在每个负载类别中,按照功耗值由低到高的顺序对节点进行排序,优先选取低负载类别节点中的低功耗节点进行作业调度;
完成调度后,对高负载类别节点上运行的作业,实施作业迁移。
2.如权利要求1所述的基于负载预测的能耗均衡作业调度方法,其特征是,所述对负载指标数据进行预处理并提取每个节点的历史负载特征变量,预处理包括:
以分钟为粒度聚合所有节点的负载值,处理缺失值,扩充时间序列变量,增加起始分钟数、分钟、小时、天、星期、月份多列数据项;经过处理后的数据为多列的格式;其中每列的数据为:负载值、起始分钟数、时间、节点名、分钟、小时、天、星期和月份。
3.如权利要求1所述的基于负载预测的能耗均衡作业调度方法,其特征是,将每个节点的历史负载特征变量,输入到训练后的负载预测模型中,输出每个节点在未来时间点的负载预测值,其中,训练后的负载预测模型采用时间序列预测模型来实现。
4.如权利要求1所述的基于负载预测的能耗均衡作业调度方法,其特征是,根据每个节点在未来时间点的负载预测值,将集群中的每个节点划分为不同的负载类别,具体包括:
根据每个节点在未来若干个时间点的负载预测值,计算每个节点在若干个时间点的负载预测值均值;
根据每个节点的负载预测值均值,将集群中的节点划分为五个类:高负载类别节点、较高负载类别节点、中负载类别节点、较低负载类别节点和低负载类别节点。
5.如权利要求4所述的基于负载预测的能耗均衡作业调度方法,其特征是,所述根据每个节点在未来若干个时间点的负载预测值,计算每个节点在若干个时间点的负载预测值均值,具体包括:
;
其中,为每一分钟的节点负载值,/>为预测模型的时间步长。
6.如权利要求4所述的基于负载预测的能耗均衡作业调度方法,其特征是,所述根据每个节点的负载预测值均值,将集群中的节点划分为五个类:高负载类别节点、较高负载类别节点、中负载类别节点、较低负载类别节点和低负载类别节点,具体包括:
根据值,将集群的节点划分为/>类,由于/>为百分比的形式,因此划分后的/>类代表不同的负载值比率;节点分类结果为:低负载类别节点,负载值比率为0%-20%;较低负载类别节点,负载值比率为21%-40%;中负载类别节点,负载值比率为41%-60%;高负载类别节点,负载值比率为61%-80%;高负载类别节点,负载值比率为81%-100%。
7.如权利要求1所述的基于负载预测的能耗均衡作业调度方法,其特征是,在每个负载类别中,按照功耗值由低到高的顺序对节点进行排序,优先选取低负载类别节点中的低功耗节点进行作业调度,具体包括:
分别在类节点中,根据节点的功耗/>对节点进行升序排序,分别在值的范围为0%-20%、21%-40%、41%-60%、61%-80%、81%-100%的各类节点中,对节点排序;
优先在类中的第一类节点,按照节点排列顺序为作业分配计算节点,第一类节点为值的范围是0%-20%的节点;
对于作业队列中每个作业,首先寻找排名靠前的一个或多个节点,并检查节点是否满足作业的资源需求和约束条件;
如果满足,则将作业调度至所选节点;如果不满足,则在当前类别中按照排名继续寻找节点;
如果当前类别中的节点不足以满足作业资源需求和约束条件,则进入下一个节点类别;
如果所有类别中都没有节点满足作业的资源需求和约束条件,则将作业放入等待队列,并等待下一次调度。
8.如权利要求1所述的基于负载预测的能耗均衡作业调度方法,其特征是,完成调度后,对高负载类别节点上运行的作业,实施作业迁移,具体包括:
选取高负载类别节点上已运行时长超过设定阈值的作业,并对作业的功耗数据进行处理,将选取的作业从开始运行到当前时间的功耗数据,进行傅里叶变换得到频域数据;
提取作业功耗频域数据的频域特征,通过聚类算法对频域特征进行分类,实现将作业划分为不同类别;
选取功耗水平波动幅度小于设定阈值的一类作业,将其迁移至低负载类别节点上运行。
9.如权利要求8所述的基于负载预测的能耗均衡作业调度方法,其特征是,所述选取功耗水平波动幅度小于设定阈值的一类作业,将其迁移至低负载类别节点上运行,具体包括:根据K-Means聚类结果,选取功耗水平波动幅度小于设定阈值的一类作业,将其迁移至低负载类别节点上运行。
10.基于负载预测的能耗均衡作业调度系统,其特征是,包括:
获取模块,其被配置为:获取历史时间段内,集群中节点的负载指标数据和功耗数据;对负载指标数据进行预处理并提取每个节点的历史负载特征变量;
预测模块,其被配置为:将每个节点的历史负载特征变量,输入到训练后的负载预测模型中,输出每个节点在未来时间点的负载预测值;
分类模块,其被配置为:根据每个节点在未来时间点的负载预测值,将集群中的每个节点划分为不同的负载类别;
调度模块,其被配置为:在每个负载类别中,按照功耗值由低到高的顺序对节点进行排序,优先选取低负载类别节点中的低功耗节点进行作业调度;
迁移模块,其被配置为:完成调度后,对高负载类别节点上运行的作业,实施作业迁移。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410159991.1A CN117707742B (zh) | 2024-02-05 | 2024-02-05 | 基于负载预测的能耗均衡作业调度方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410159991.1A CN117707742B (zh) | 2024-02-05 | 2024-02-05 | 基于负载预测的能耗均衡作业调度方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117707742A true CN117707742A (zh) | 2024-03-15 |
CN117707742B CN117707742B (zh) | 2024-05-24 |
Family
ID=90144611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410159991.1A Active CN117707742B (zh) | 2024-02-05 | 2024-02-05 | 基于负载预测的能耗均衡作业调度方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117707742B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190253490A1 (en) * | 2016-10-31 | 2019-08-15 | Huawei Technologies Co., Ltd. | Resource load balancing control method and cluster scheduler |
CA3228625A1 (en) * | 2021-08-10 | 2023-02-16 | William J. SHERWOOD Jr. | Machine-learning-based load balancing for cloud-based disaster recovery apparatuses, processes and systems |
CN116095007A (zh) * | 2023-02-10 | 2023-05-09 | 平安科技(深圳)有限公司 | 负载调度方法、装置、计算机设备及存储介质 |
CN116366453A (zh) * | 2023-04-18 | 2023-06-30 | 中国电子科技集团公司第三十八研究所 | 异构网元业务需求表征与虚拟网元的自适应动态部署方法 |
-
2024
- 2024-02-05 CN CN202410159991.1A patent/CN117707742B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190253490A1 (en) * | 2016-10-31 | 2019-08-15 | Huawei Technologies Co., Ltd. | Resource load balancing control method and cluster scheduler |
CA3228625A1 (en) * | 2021-08-10 | 2023-02-16 | William J. SHERWOOD Jr. | Machine-learning-based load balancing for cloud-based disaster recovery apparatuses, processes and systems |
CN116095007A (zh) * | 2023-02-10 | 2023-05-09 | 平安科技(深圳)有限公司 | 负载调度方法、装置、计算机设备及存储介质 |
CN116366453A (zh) * | 2023-04-18 | 2023-06-30 | 中国电子科技集团公司第三十八研究所 | 异构网元业务需求表征与虚拟网元的自适应动态部署方法 |
Non-Patent Citations (2)
Title |
---|
XU HENGBO: "Energy Consumption Optimization Method for Wireless Communication Data Transmission in Cloud Environment", IEEE, 5 August 2022 (2022-08-05) * |
任神河;郑寇全;关冬冬;惠军华;: "基于IFTS的云计算网络动态负载均衡方法", 系统工程理论与实践, no. 05, 25 May 2019 (2019-05-25) * |
Also Published As
Publication number | Publication date |
---|---|
CN117707742B (zh) | 2024-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Improving data locality of mapreduce by scheduling in homogeneous computing environments | |
CN109492774B (zh) | 一种基于深度学习的云资源调度方法 | |
CN103186566B (zh) | 一种数据分级存储方法、装置及系统 | |
CN103294550B (zh) | 一种异构多核线程调度方法、系统及异构多核处理器 | |
CN108596242B (zh) | 基于小波神经网络和支持向量机的电网气象负荷预测方法 | |
WO2023103349A1 (zh) | 负载调节方法、管理节点以及存储介质 | |
CN107086929B (zh) | 一种基于排队建模的批量流式计算系统性能保障方法 | |
CN107357652A (zh) | 一种基于分段排序及标准差调整因子的云计算任务调度方法 | |
Li et al. | Intermediate data placement and cache replacement strategy under Spark platform | |
CN114240019A (zh) | 适用新能源电力系统的灵活资源价值评估方法及装置 | |
CN110347602A (zh) | 多任务脚本执行方法及装置、电子设备及可读存储介质 | |
CN113032367A (zh) | 面向动态负载场景的大数据系统跨层配置参数协同调优方法和系统 | |
CN112633762A (zh) | 楼宇能效获取方法及设备 | |
CN115941696A (zh) | 异构大数据分布式集群存储优化方法 | |
CN110825526B (zh) | 基于er关系的分布式调度方法及装置、设备以及存储介质 | |
Ruan et al. | A comparative study of large-scale cluster workload traces via multiview analysis | |
CN110048886A (zh) | 一种大数据分析任务的高效云配置选择算法 | |
Haghshenas et al. | CO 2 Emission Aware Scheduling for Deep Neural Network Training Workloads | |
CN117827434A (zh) | 基于多维资源预测的混合弹性伸缩方法 | |
CN117707742B (zh) | 基于负载预测的能耗均衡作业调度方法及系统 | |
Liang et al. | Prediction method of energy consumption based on multiple energy-related features in data center | |
CN116360921A (zh) | 一种面向电力物联网的云平台资源优化调度方法及系统 | |
Zeng et al. | Local epochs inefficiency caused by device heterogeneity in federated learning | |
CN114217688A (zh) | 一种基于神经网络结构的npu功耗优化系统和方法 | |
Escobar et al. | Speedup and energy analysis of eeg classification for bci tasks on cpu-gpu clusters |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |