CN116028193A - 一种混部集群的大数据任务动态高能效调度方法和系统 - Google Patents

一种混部集群的大数据任务动态高能效调度方法和系统 Download PDF

Info

Publication number
CN116028193A
CN116028193A CN202310319132.XA CN202310319132A CN116028193A CN 116028193 A CN116028193 A CN 116028193A CN 202310319132 A CN202310319132 A CN 202310319132A CN 116028193 A CN116028193 A CN 116028193A
Authority
CN
China
Prior art keywords
task
tasks
cluster
slot
online
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310319132.XA
Other languages
English (en)
Other versions
CN116028193B (zh
Inventor
牧军
宋文
吴科烽
杨华飞
俞俊
杨文清
丰佳
曲延盛
李明
李宁
吴禹
钱柱中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Nari Technology Co Ltd
Original Assignee
Nanjing University
Nari Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University, Nari Technology Co Ltd filed Critical Nanjing University
Priority to CN202310319132.XA priority Critical patent/CN116028193B/zh
Publication of CN116028193A publication Critical patent/CN116028193A/zh
Application granted granted Critical
Publication of CN116028193B publication Critical patent/CN116028193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种混部集群的大数据任务动态高能效调度方法和系统。所述方法通过对大数据任务的混合云平台内的任务和工作节点进行资源监控,获取实时资源利用率情况,并结合任务的执行情况,采用多维度的调度策略进行任务的调度,以实现节能的目的。该方法可以自适应地调整任务的分配策略,实现在离线任务的高效执行,同时降低数据中心的能源消耗。此外,该方法还能够动态地优化任务的分配,从而实现在不影响任务执行的前提下最大化降低能源消耗。

Description

一种混部集群的大数据任务动态高能效调度方法和系统
技术领域
本发明涉及大数据和云计算领域,具体涉及一种混部集群的大数据任务动态高能效调度方法和系统。
背景技术
随着互联网和物联网技术的不断发展,数据量呈爆炸式增长。这些数据涵盖了各个方面,包括文本、图像、音频等多种类型。大数据技术应运而生,成为管理、处理和分析这些海量数据的重要工具。大数据技术主要分为在线和离线两种,其中离线技术主要用于对历史数据的分析和处理。离线任务处理的数据量较大,可以通过分布式存储和计算来实现高效处理,可以用于许多不同领域,如金融、医疗、电商等。在线任务指的是对数据进行实时处理和分析,以便能够快速响应数据的变化和动态。这种处理方式需要高效的实时数据处理系统和高可靠性的数据存储系统,以支持数据的即时处理和分析。在线任务主要应用于实时监控、实时预测、实时推荐等场景。通过在线离线混部方式提高集群资源利用率,是当下大规模集群探索的方向。
在云计算环境下,云服务提供商将资源(如计算资源、存储空间、网络带宽等)虚拟化来提供给用户,用户可以根据自己的需求租用和释放这些资源,以满足各种应用的需求。但是,目前的云服务提供商下的集群都面临着底层集群能耗高、资源利用率低下的问题。此外,多个不同类型的任务运行在同一工作节点上往往会影响性能,因为虚拟化技术的隔离性问题,导致它们会争夺共享资源,比如内存缓存、内存带宽、网络带宽等,从而导致性能干扰的程度难以预测和估计。这些性能干扰对于离线任务的影响几乎可以忽略不计,然而对于在线实时任务具有毁灭性的影响。因此,如何在性能干扰的前提下,保障所有任务的运行质量同时,尽可能的减少集群能耗是一个较难的挑战。
除此之外,大数据任务请求会随着时间推移不断变化,且工作节点上的共享资源使用情况也在不断变化,因此很难得到长期时间内高效能的任务调度方法。现有的算法主要有禁止性能干扰算法和解决性能干扰算法两种算法。其中禁止性能干扰算法仅简单地禁止了在线任务与其他任务共享资源,但是这种方法大幅地降低了集群整体资源效率。解决性能干扰算法通过性能干扰预测可以减少任务间的性能干扰,然而一旦长期时隙内集群变化导致对于在线任务的性能干扰事件出现,将可能造成严重损失。上述问题,亟需解决。
发明内容
本发明的目的是提出一种混部集群的大数据任务动态高能效调度方法和系统,至少部分地解决现有技术中的问题。
为了达到上述发明目的,本发明采用以下技术方案:
第一方面,一种混部集群的大数据任务动态高能效调度方法,包括以下步骤:
获取集群历史记录中的在线任务种类,在各种共享资源限制因素下分析记录性能的下降情况,并拟合训练出在线任务与工作节点中的共享资源性能干扰模型;
在集群运行时,试运行到达的大数据任务,识别任务的种类为在线任务还是离线任务并打上标签,并获取任务的特征;
收集集群信息,包括收集集群中所有工作节点和任务的资源利用情况,收集任务的工作情况;
基于任务特征、集群信息、以及集群运行时由共享资源性能干扰模型输出的性能干扰结果,构建以集群能耗最小化为目标的优化问题并求解问题,根据求解结果确定调度策略,所述调度策略包括在离线任务和在线任务之间动态调整节点的使用、利用可用的低功耗节点;
根据制定的调度策略,动态地调整离线任务和在线任务的节点使用情况,使得离线任务和在线任务的性能得到保障,同时实现能耗的最小化。
进一步地,所述优化问题如下:
优化目标:                                      (1)
约束条件:
1.1)每个任务任意时隙内分配结果约束:
1.2)每台工作节点任意时隙内计算资源约束:
1.3)每台工作节点任意时隙内存资源约束:
1.4)集群运行时间内对离线任务的任务完成质量保障限制:,其中
1.5)每个在线任务运行时隙内内时延限制:
式中,为时隙总数,为t时隙混部集群的能耗,为混部集群工作节点的数量,为t时隙任务的数量,为t时隙离线任务的数量,为t时隙在线任务的数量,为指示变量,指示t时隙任务i是否运行在工作节点j上,其中表示t时隙任务i运行在工作节点j上,表示t时隙任务i不运行在工作节点j上为任务i开始运行时隙,为任务i完成时隙,为任务i所需的计算资源,为工作节点j的计算资源总量,为任务i所需的内存资源,为工作节点j的内存资源总量,为t时隙集群中离线任务完成质量违反惩罚,即动态分配导致的离线任务运行时间增加所带来的服务质量下降,Q为集群所允许的违反预算,为离线任务i剩余周期,为完成质量违反因子,为t时隙在线任务i性能干扰模型结果,为在线任务i指令执行效率,为在线任务i的最大时延允许值,表示x到y的整数域,[*]+表示和0比较取较大值。
进一步地,时隙t混部集群能耗为:
其中:
式中,为t时隙工作节点j的能耗,为t时隙工作节点j的计算资源使用率,为工作节点j的峰值能耗,为工作节点j的谷值能耗。
进一步地,对问题的求解包括:
先将问题(1)简化成仅关于t时隙相关决策变量的约束求解问题,如下所示:
优化目标:                                 (2)
约束条件:
2.1),其中
2.2),其中
2.3),其中
2.4),其中
其中为分配结果约束的转换,为资源约束的转换,为离线任务约束的转换,为在线任务约束的转换,为相比较上一时隙,t时隙任务i在工作节点j上的分配状态是否改变,表示分配状态未改变,表示分配状态改变;
再将问题(2)简化成以下一般问题:
优化目标:                                  (3)
约束条件:
式中,表示转化后的决策变量,即优化问题(2)中的聚合,为优化问题(2)中的一般化形式,为优化问题(2)中的一般化形式,表示问题(2)中的约束条件一般化表达式,是优化目标的一般化表达式。
进一步地,对问题(3)的求解包括:
采用拉格朗日因子下的修正梯度下降对优化问题(3)进行转化:,得到结果,用于在t时隙的任务放置结果。
第二方面,一种混部集群的大数据任务动态高能效调度系统,包括:
任务特性分析单元,被配置为在集群运行时,获取到达的大数据任务,识别任务的种类为在线任务还是离线任务并打上标签,并获取任务的特征;
任务性能干扰单元,被配置为基于性能干扰模型获取各种在线任务在工作节点各种共享资源干扰下的性能下降情况,所述性能干扰模型通过集群历史记录中的任务种类在各种共享资源限制因素下的性能的下降情况,经过拟合训练得出;
集群信息收集单元,被配置为获取集群中所有工作节点和任务的资源利用情况,收集任务的工作情况;
调度结果计算生成单元,被配置为基于任务特性和集群信息以及共享资源性能干扰模型输出的性能干扰结果,构建以集群能耗最小化为目标的优化问题并求解问题,根据求解结果确定调度策略,所述调度策略包括在离线任务和在线任务之间动态调整节点的使用、利用可用的低功耗节点;
调度结果实施单元,被配置为动态地调整离线任务和在线任务的节点使用情况,使得离线任务和在线任务的性能得到保障,同时实现能耗的最小化。
第三方面,本发明还提供一种计算机设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如上所述的混部集群的大数据任务动态高能效调度方法的步骤。
第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的混部集群的大数据任务动态高能效调度方法的步骤。
相比于现有技术,本发明具有以下有益效果:本发明通过对大数据任务的混合云平台内的任务和工作节点进行资源监控,获取实时资源利用率情况,并结合任务的执行情况和相关特征,采用多维度的调度策略进行任务的调度,以实现节能的目的。该方法可以自适应地调整任务的分配策略,实现在离线任务的高效执行,同时降低数据中心的能源消耗。此外,该方法还能够动态地优化任务的分配,从而实现在不影响任务执行的前提下最大化降低能源消耗。此外,此方法采用了基于在线学习的算法思想,可以仅依靠上一时隙的效果反馈来动态调整调度结果,能够在较快的时间内得到近似最优的结果。
附图说明
图1为根据本发明实施例的混部集群的大数据任务动态高能效调度系统的结构示意图;
图2为根据本发明实施例的混部集群的大数据任务动态高能效调度系统的处理流程示意图;
图3为根据本发明实施例的调度结果反馈单元的示意图;
图4为根据本发明实施例的调度结果计算生成单元的示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明,本实施列对本发明不构成限定。
如图1所示,在一个实施例中,在数据中心网络中应用混部集群的大数据任务动态高能效调度系统,该高能效动态调度部署系统包括:任务特性分析单元、任务性能干扰单元、调度结果计算生成单元、调度结果反馈单元、调度结果实施单元、集群信息收集单元、工作节点以及连接各工作节点的网络,其中网络由工作节点和工作节点信息监控模块之间的骨干线路组成,骨干网络允许各工作节点将自身的情况发送给工作节点信息监控模块。任务特性分析单元通过试运行到达的任务识别任务种类并贴上标签,并根据任务种类来提供相应的相关特征。任务性能干扰单元通过离线地对各类共享资源对在线任务性能干扰的影响进行模型训练,保存性能干扰模型并提供相应的性能下降结果。集群信息收集单元可以获取当前时隙所关注的工作节点和其上任务的资源利用情况,包括CPU、内存、内存带宽等信息;收集当前时隙任务的工作情况,包括运行周期和工作负载等。调度结果反馈单元收集上一时隙任务运行质量和集群能耗的情况,提供集群反馈信息。调度结果计算生成单元根据集群信息收集单元提供的集群信息、任务特性分析单元提供的任务信息、任务性能干扰单元提供的性能干扰结果和调度结果反馈单元的集群反馈情况,计算生成新的调度方案将任务调度到合适的工作节点上。离线任务重新调度会延长任务的完成时间,影响任务完成服务质量;在线任务上的工作节点运行多个任务时会因为性能干扰影响在线任务的服务质量,因此在本发明中针对离线任务和在线任务采用了不同的服务质量限制。
本实施例提供的混部集群的大数据任务动态高能效调度系统的流程,如图2所示,其包括以下步骤:
(S1)当前时隙开始时,任务特性分析单元试运行到达的大数据任务,识别任务的种类(在线任务或者离线任务)并打上标签,根据任务的种类,确定它们的运行周期、数据量规模、对资源的要求、时延要求、任务完成时间要求等相关特性。
(S2)当前时隙开始时,集群信息收集单元收集混部集群中所有工作节点和任务的资源利用情况,包括CPU、内存、内存带宽等信息;收集任务的工作情况,包括运行周期和工作负载等。
(S3)在集群运行前,任务性能干扰单元收集集群历史记录中的在线任务种类,通过对工作节点上各种共享资源使用率的控制,记录在各种情况下在线任务的性能下降情况,即在线任务的时延增大情况,并拟合训练出在线任务的时延增大率与工作节点中的各类共享资源的利用率的函数关系,即在线任务和工作节点共享资源的性能干扰模型。
(S4)调度结果计算生成单元根据任务特性和集群信息,通过循环随机算法制定调度策略,包括在离线任务和在线任务之间动态调整节点的使用、利用可用的低功耗节点等。
(S5)调度结果实施单元根据调度结果下发给相应的工作节点任务调度指令,动态地调整离线任务和在线任务的节点使用情况,使得离线任务和在线任务的性能得到保障,同时实现能耗的最小化。
(S6)实施调度策略后,调度结果反馈单元持续监控和纪录集群的能耗情况和任务的运行质量情况。
(S7)更新优化目标中的修正参数,关闭空闲的工作节点,等待下一时隙到来。
具体而言,整个动态高能效调度系统的总体目标是为了在一段时间内(个时隙),在受限于任务运行质量和工作节点资源下,达到最大化集群能耗减少的效果(即集群能耗最小化),调度结果计算生成单元基于任务特性和集群信息以及共享资源性能干扰模型输出的性能干扰结果,构建以集群能耗最小化为目标的优化问题并求解问题,根据求解结果确定调度策略,所述调度策略包括在离线任务和在线任务之间动态调整节点的使用、利用可用的低功耗节点。
其中,建立的优化问题如下:
优化目标:                                      (1)
约束条件:
1)每个任务任意时隙内分配结果约束:
2)每台工作节点任意时隙内计算资源约束:
3)每台工作节点任意时隙内存资源约束:
4)集群运行时间内对离线任务的任务完成质量保障限制:,其中
5)每个在线任务运行时隙内时延限制:
式中,为时隙总数,为t时隙混部集群的能耗,为混部集群工作节点的数量,为t时隙任务的数量,为t时隙离线任务的数量,为t时隙在线任务的数量,为指示变量,指示t时隙任务i是否运行在工作节点j上,其中表示t时隙任务i运行在工作节点j上,表示t时隙任务i不运行在工作节点j上为任务i开始运行时隙,为任务i完成时隙,为任务i所需的计算资源,为工作节点j的计算资源总量,为任务i所需的内存资源,为工作节点j的内存资源总量,为t时隙集群中离线任务完成质量违反惩罚,即动态分配导致的离线任务运行时间增加所带来的服务质量下降,Q为集群所允许的违反预算,为离线任务i剩余周期,为完成质量违反因子,为t时隙在线任务i性能干扰模型结果,为在线任务i指令执行效率,为在线任务i的最大时延允许值,表示x到y的整数域,[*]+表示和0比较取较大值。
其中时隙t混部集群能耗为:
其中:
式中,为t时隙工作节点j的能耗,为t时隙工作节点j的计算资源使用率,为工作节点j的峰值能耗,为工作节点j的谷值能耗。
因此,上述优化问题主要是通过对这一决策变量的取值来达到集群的节能效果,即如何在每个时隙内将所有任务(包括在线任务和离线任务)分配到合适的工作节点上。
对长期优化问题的求解可以简化成仅关于t时隙相关决策变量的约束求解问题,如下所示:
优化目标:                                 (2)
约束条件:
1),其中
2),其中
3),其中
4),其中
为上述分配结果约束的转换,为上述资源约束(包括计算资源和内存资源)的转换,为上述离线任务约束的转换,为上述在线任务约束的转换,为相比较上一时隙,t时隙任务i在工作节点j上的分配状态是否改变,表示分配状态未改变,表示分配状态改变。
对于约束条件(1)的转化,因为,所以,又因为,所以,所以分配结果可转化成上述条件(1)。上述条件(2)-(4)的转换都可通过移项和同乘解决。
优化问题(2)可以简化成以下一般问题,实际求解如下优化问题:
优化目标:                             (3)
约束条件:
其中
式中,表示转化后的决策变量,即优化问题(2)中的聚合,为优化问题(2)中的一般化形式,为优化问题(2)中的一般化形式,表示问题(2)中的约束条件一般化表达式,是优化目标的一般化表达式。
优化问题(3)通过将约束条件和决策变量向量化的形式,将优化问题(2)的决策变量矩阵化,将有关任务和工作节点的变量i和j变成矩阵和向量空间上的维度,因此对优化目标的求解也就变成了对向量的求解。
调度结果计算生成单元通过循环随机算法求解上述问题:采用拉格朗日因子下的修正梯度下降对优化问题(3)进行转化:。根据优化目标和约束条件的反馈,更新本时隙放置结果和拉格朗日系数,其中,其中为调整参数,具体反馈流程如图3所示。通过求解该目标得到:,其中D由决策向量对应的实数域的值构成,决策向量对应的实数值构成了它的定义域所在实数域是预设算法参数,并将通过概率随机圆整的生成新的任务调度结果,具体计算生成结果如图4所示。
下面以三个节点A、B、C,一个在线任务e和一个离线任务f为例进行进一步地说明,在该例中,A、B、C的CPU和内存资源依次递减,但B的能效比(计算资源使用率与能耗的比值)最高,C次之,A最低,且A上运行有a,b两个离线任务,B上运行有c一个在线任务,C上运行d一个离线任务。
(1)在调度时隙时,任务特性分析单元试运行任务e和f并识别任务的种类,对任务e和f打上在线任务具体种类和离线任务种类的标签;
(2)集群信息收集单元获取A,B,C上的资源情况和其上任务的资源和任务情况,并将该情况转发给调度结果计算生成单元;
(3)通过任务敏感模型将当前时隙的集群所有任务敏感模型转发给调度结果计算生成单元;所述任务敏感模型是指根据任务的种类,确定它们的运行周期、数据量规模、对资源的要求、时延要求、任务完成时间要求等相关特性;
(4)调度结果计算生成单元根据集群信息收集单元生成上一时隙调度结果,再加上任务敏感模型生成。通过上一时隙的反馈更新生成,再通过计算函数得到并概率随机圆整成本时隙的调度结果,将调度结果发送给调度结果实施单元。
(5)调度结果实施单元根据调度结果,将A上的a,b任务重新分配到了B上,e任务和f任务被分配到了C上,因为在线任务e分配到B上虽然更加节能但是因为性能干扰影响严重无法保证它的服务质量,所以e只能分配到C上。
(6)根据新的分配结果,A作为空闲工作节点自动切换到休眠模式。
(7)在该时隙结束的时候,任务性能干扰单元监控收集任务运行质量和集群能耗的变化。
本发明通过对大数据任务的混合云平台内的任务和工作节点进行资源监控,获取实时资源利用率情况,并结合任务的执行情况和相关特征,采用多维度的调度策略进行任务的调度,可以自适应地调整任务的分配策略,实现在线离线任务的高效执行,同时降低数据中心的能源消耗。此方法采用了基于在线学习的算法思想,可以仅依靠上一时隙的效果反馈来动态调整调度结果,能够在较快的时间内得到近似最优的结果,通过动态地优化任务的分配,实现在不影响任务执行的前提下最大化降低能源消耗。
本发明涉及一种计算机设备,其包括一个或多个处理器和一个或多个存储器。所述计算机设备还包括一个或多个程序,这些程序被存储在所述存储器中,并被配置为由所述一个或多个处理器执行。当处理器执行这些程序时,实现如上所述的混部集群的大数据任务动态高能效调度方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的混部集群的大数据任务动态高能效调度方法的步骤。
应理解,本发明实施例中的系统可以实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,本发明中的流式数据分析任务处理方法在各系统中均适用,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种混部集群的大数据任务动态高能效调度方法,其特征在于,包括以下步骤:
获取集群历史记录中的在线任务种类,在各种共享资源限制因素下分析记录性能的下降情况,并拟合训练出在线任务与工作节点中的共享资源性能干扰模型;
在集群运行时,试运行到达的大数据任务,识别任务的种类为在线任务还是离线任务并打上标签,并获取任务的特征;
收集集群信息,包括收集集群中所有工作节点和任务的资源利用情况,收集任务的工作情况;
基于任务特征、集群信息、以及集群运行时由共享资源性能干扰模型输出的性能干扰结果,构建以集群能耗最小化为目标的优化问题并求解问题,根据求解结果确定调度策略,所述调度策略包括在离线任务和在线任务之间动态调整节点的使用、利用可用的低功耗节点;
根据制定的调度策略,动态地调整离线任务和在线任务的节点使用情况,使得离线任务和在线任务的性能得到保障,同时实现能耗的最小化。
2.根据权利要求1所述的方法,其特征在于,所述优化问题如下:
优化目标:                                      (1)
约束条件:
1.1)每个任务任意时隙内分配结果约束:
1.2)每台工作节点任意时隙内计算资源约束:
1.3)每台工作节点任意时隙内存资源约束:
1.4)集群运行时间内对离线任务的任务完成质量保障限制:,其中
1.5)每个在线任务运行时隙内内时延限制:
式中,为时隙总数,为t时隙混部集群的能耗,为混部集群工作节点的数量,为t时隙任务的数量,为t时隙离线任务的数量,为t时隙在线任务的数量,为指示变量,指示t时隙任务i是否运行在工作节点j上,其中表示t时隙任务i运行在工作节点j上,表示t时隙任务i不运行在工作节点j上为任务i开始运行时隙,为任务i完成时隙,为任务i所需的计算资源,为工作节点j的计算资源总量,为任务i所需的内存资源,为工作节点j的内存资源总量,为t时隙集群中离线任务完成质量违反惩罚,即动态分配导致的离线任务运行时间增加所带来的服务质量下降,Q为集群所允许的违反预算,为离线任务i剩余周期,为完成质量违反因子,为t时隙在线任务i性能干扰模型结果,为在线任务i指令执行效率,为在线任务i的最大时延允许值,表示x到y的整数域,[*]+表示和0比较取较大值。
3.根据权利要求2所述的方法,其特征在于,时隙t混部集群能耗为:
其中:
式中,为t时隙工作节点j的能耗,为t时隙工作节点j的计算资源使用率,为工作节点j的峰值能耗,为工作节点j的谷值能耗。
4.根据权利要求2所述的方法,其特征在于,对问题的求解包括:
先将问题(1)简化成仅关于t时隙相关决策变量的约束求解问题,如下所示:
优化目标:                                 (2)
约束条件:
2.1),其中
2.2),其中
2.3),其中
2.4),其中 ;
其中为分配结果约束的转换,为资源约束的转换,为离线任务约束的转换,为在线任务约束的转换,为相比较上一时隙,t时隙任务i在工作节点j上的分配状态是否改变,表示分配状态未改变,表示分配状态改变;
再将问题(2)简化成以下一般问题:
优化目标:                                  (3)
约束条件: ;
式中,表示转化后的决策变量,即优化问题(2)中的聚合,为优化问题(2)中的一般化形式,为优化问题(2)中的一般化形式,表示问题(2)中的约束条件一般化表达式,是优化目标的一般化表达式。
5.根据权利要求4所述的方法,其特征在于,对问题(3)的求解包括:
采用拉格朗日因子下的修正梯度下降对优化问题(3)进行转化:,得到结果,用于在t时隙的任务放置结果。
6.根据权利要求5所述的方法,其特征在于,得到结果包括:
每次根据初始结果,通过概率随机圆整的生成新的任务放置结果,根据优化目标和约束条件的反馈,并更新本时隙放置结果和拉格朗日系数,其中,其中为调整参数,通过求解该目标得到:,其中D由决策向量对应的实数域的值构成,决策向量对应的实数值构成了它的定义域所在实数域是预设算法参数。
7.根据权利要求1所述的方法,其特征在于,还包括:在实施调度策略后,获取上一时隙调度结果部署下的任务质量和能耗效果,用于下一时隙的调度策略的调整。
8.一种混部集群的大数据任务动态高能效调度系统,其特征在于,包括:
任务特性分析单元,被配置为在集群运行时,获取到达的大数据任务,识别任务的种类为在线任务还是离线任务并打上标签,并获取任务的特征;
任务性能干扰单元,被配置为基于性能干扰模型获取各种在线任务在工作节点各种共享资源干扰下的性能下降情况,所述性能干扰模型通过集群历史记录中的任务种类在各种共享资源限制因素下的性能的下降情况,经过拟合训练得出;
集群信息收集单元,被配置为获取集群中所有工作节点和任务的资源利用情况,收集任务的工作情况;
调度结果计算生成单元,被配置为基于任务特性和集群信息以及共享资源性能干扰模型输出的性能干扰结果,构建以集群能耗最小化为目标的优化问题并求解问题,根据求解结果确定调度策略,所述调度策略包括在离线任务和在线任务之间动态调整节点的使用、利用可用的低功耗节点;
调度结果实施单元,被配置为动态地调整离线任务和在线任务的节点使用情况,使得离线任务和在线任务的性能得到保障,同时实现能耗的最小化。
9.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如权利要求1-7中任一项所述的混部集群的大数据任务动态高能效调度方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的混部集群的大数据任务动态高能效调度方法的步骤。
CN202310319132.XA 2023-03-29 2023-03-29 一种混部集群的大数据任务动态高能效调度方法和系统 Active CN116028193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310319132.XA CN116028193B (zh) 2023-03-29 2023-03-29 一种混部集群的大数据任务动态高能效调度方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310319132.XA CN116028193B (zh) 2023-03-29 2023-03-29 一种混部集群的大数据任务动态高能效调度方法和系统

Publications (2)

Publication Number Publication Date
CN116028193A true CN116028193A (zh) 2023-04-28
CN116028193B CN116028193B (zh) 2023-06-23

Family

ID=86072670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310319132.XA Active CN116028193B (zh) 2023-03-29 2023-03-29 一种混部集群的大数据任务动态高能效调度方法和系统

Country Status (1)

Country Link
CN (1) CN116028193B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117112180A (zh) * 2023-09-27 2023-11-24 广州有机云计算有限责任公司 一种基于任务的集群自动化控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107404523A (zh) * 2017-07-21 2017-11-28 中国石油大学(华东) 云平台自适应资源调度系统和方法
US10601908B1 (en) * 2018-10-04 2020-03-24 Cisco Technology, Inc. Partitioning of container workload based on a temporal relationship
CN115658230A (zh) * 2022-10-27 2023-01-31 南京大学 一种云数据中心高效能容器编排方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107404523A (zh) * 2017-07-21 2017-11-28 中国石油大学(华东) 云平台自适应资源调度系统和方法
US10601908B1 (en) * 2018-10-04 2020-03-24 Cisco Technology, Inc. Partitioning of container workload based on a temporal relationship
CN115658230A (zh) * 2022-10-27 2023-01-31 南京大学 一种云数据中心高效能容器编排方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
葛浙奉 等: "混部集群资源利用分析", 《计算机学报》, vol. 43, no. 6, pages 1103 - 1122 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117112180A (zh) * 2023-09-27 2023-11-24 广州有机云计算有限责任公司 一种基于任务的集群自动化控制方法
CN117112180B (zh) * 2023-09-27 2024-03-29 广州有机云计算有限责任公司 一种基于任务的集群自动化控制方法

Also Published As

Publication number Publication date
CN116028193B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
Askarizade Haghighi et al. An energy-efficient dynamic resource management approach based on clustering and meta-heuristic algorithms in cloud computing IaaS platforms: Energy efficient dynamic cloud resource management
EP2399183B1 (en) Energy-aware server management
CN109324875B (zh) 一种基于强化学习的数据中心服务器功耗管理与优化方法
CN104991830A (zh) 基于服务等级协议的yarn资源分配和节能调度方法及系统
Sun et al. PACO: A period ACO based scheduling algorithm in cloud computing
CN104317658A (zh) 一种基于MapReduce的负载自适应任务调度方法
CN102759984A (zh) 虚拟化服务器集群的电源和性能管理系统
CN113535409B (zh) 一种面向能耗优化的无服务器计算资源分配系统
CN107861796B (zh) 一种支持云数据中心能耗优化的虚拟机调度方法
CN110086855A (zh) 基于蚁群算法的Spark任务智能感知调度方法
CN116028193B (zh) 一种混部集群的大数据任务动态高能效调度方法和系统
CN103500123A (zh) 异构环境中并行计算调度方法
CN114579270A (zh) 一种基于资源需求预测的任务调度方法及系统
CN106293947B (zh) 虚拟化云环境下gpu-cpu混合资源分配系统和方法
CN116467076A (zh) 一种基于集群可用资源的多集群调度方法及系统
CN102043676B (zh) 虚拟化数据中心调度方法及系统
Hussin et al. Efficient energy management using adaptive reinforcement learning-based scheduling in large-scale distributed systems
Song et al. A deep reinforcement learning-based task scheduling algorithm for energy efficiency in data centers
CN108574600B (zh) 云计算服务器的功耗和资源竞争协同控制的服务质量保障方法
CN117251044A (zh) 一种基于arima技术的云服务器动态能耗管理方法和系统
CN117076882A (zh) 一种云服务资源动态预测管理方法
Bagheri et al. Enhancing energy efficiency in resource allocation for real-time cloud services
CN115378789B (zh) 一种多层次协作的流资源管理方法及系统
Fang et al. Using model predictive control in data centers for dynamic server provisioning
CN116340393A (zh) 数据库饱和度的预测方法、存储介质及数据库系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant