CN116028193B - 一种混部集群的大数据任务动态高能效调度方法和系统 - Google Patents

一种混部集群的大数据任务动态高能效调度方法和系统 Download PDF

Info

Publication number
CN116028193B
CN116028193B CN202310319132.XA CN202310319132A CN116028193B CN 116028193 B CN116028193 B CN 116028193B CN 202310319132 A CN202310319132 A CN 202310319132A CN 116028193 B CN116028193 B CN 116028193B
Authority
CN
China
Prior art keywords
task
tasks
cluster
slot
offline
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310319132.XA
Other languages
English (en)
Other versions
CN116028193A (zh
Inventor
牧军
宋文
吴科烽
杨华飞
俞俊
杨文清
丰佳
曲延盛
李明
李宁
吴禹
钱柱中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Nari Technology Co Ltd
Original Assignee
Nanjing University
Nari Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University, Nari Technology Co Ltd filed Critical Nanjing University
Priority to CN202310319132.XA priority Critical patent/CN116028193B/zh
Publication of CN116028193A publication Critical patent/CN116028193A/zh
Application granted granted Critical
Publication of CN116028193B publication Critical patent/CN116028193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种混部集群的大数据任务动态高能效调度方法和系统。所述方法通过对大数据任务的混合云平台内的任务和工作节点进行资源监控,获取实时资源利用率情况,并结合任务的执行情况,采用多维度的调度策略进行任务的调度,以实现节能的目的。该方法可以自适应地调整任务的分配策略,实现在离线任务的高效执行,同时降低数据中心的能源消耗。此外,该方法还能够动态地优化任务的分配,从而实现在不影响任务执行的前提下最大化降低能源消耗。

Description

一种混部集群的大数据任务动态高能效调度方法和系统
技术领域
本发明涉及大数据和云计算领域,具体涉及一种混部集群的大数据任务动态高能效调度方法和系统。
背景技术
随着互联网和物联网技术的不断发展,数据量呈爆炸式增长。这些数据涵盖了各个方面,包括文本、图像、音频等多种类型。大数据技术应运而生,成为管理、处理和分析这些海量数据的重要工具。大数据技术主要分为在线和离线两种,其中离线技术主要用于对历史数据的分析和处理。离线任务处理的数据量较大,可以通过分布式存储和计算来实现高效处理,可以用于许多不同领域,如金融、医疗、电商等。在线任务指的是对数据进行实时处理和分析,以便能够快速响应数据的变化和动态。这种处理方式需要高效的实时数据处理系统和高可靠性的数据存储系统,以支持数据的即时处理和分析。在线任务主要应用于实时监控、实时预测、实时推荐等场景。通过在线离线混部方式提高集群资源利用率,是当下大规模集群探索的方向。
在云计算环境下,云服务提供商将资源(如计算资源、存储空间、网络带宽等)虚拟化来提供给用户,用户可以根据自己的需求租用和释放这些资源,以满足各种应用的需求。但是,目前的云服务提供商下的集群都面临着底层集群能耗高、资源利用率低下的问题。此外,多个不同类型的任务运行在同一工作节点上往往会影响性能,因为虚拟化技术的隔离性问题,导致它们会争夺共享资源,比如内存缓存、内存带宽、网络带宽等,从而导致性能干扰的程度难以预测和估计。这些性能干扰对于离线任务的影响几乎可以忽略不计,然而对于在线实时任务具有毁灭性的影响。因此,如何在性能干扰的前提下,保障所有任务的运行质量同时,尽可能的减少集群能耗是一个较难的挑战。
除此之外,大数据任务请求会随着时间推移不断变化,且工作节点上的共享资源使用情况也在不断变化,因此很难得到长期时间内高效能的任务调度方法。现有的算法主要有禁止性能干扰算法和解决性能干扰算法两种算法。其中禁止性能干扰算法仅简单地禁止了在线任务与其他任务共享资源,但是这种方法大幅地降低了集群整体资源效率。解决性能干扰算法通过性能干扰预测可以减少任务间的性能干扰,然而一旦长期时隙内集群变化导致对于在线任务的性能干扰事件出现,将可能造成严重损失。上述问题,亟需解决。
发明内容
本发明的目的是提出一种混部集群的大数据任务动态高能效调度方法和系统,至少部分地解决现有技术中的问题。
为了达到上述发明目的,本发明采用以下技术方案:
第一方面,一种混部集群的大数据任务动态高能效调度方法,包括以下步骤:
获取集群历史记录中的在线任务种类,在各种共享资源限制因素下分析记录性能的下降情况,并拟合训练出在线任务与工作节点中的共享资源性能干扰模型;
在集群运行时,试运行到达的大数据任务,识别任务的种类为在线任务还是离线任务并打上标签,并获取任务的特征;
收集集群信息,包括收集集群中所有工作节点和任务的资源利用情况,收集任务的工作情况;
基于任务特征、集群信息、以及集群运行时由共享资源性能干扰模型输出的性能干扰结果,构建以集群能耗最小化为目标的优化问题并求解问题,根据求解结果确定调度策略,所述调度策略包括在离线任务和在线任务之间动态调整节点的使用、利用可用的低功耗节点;
根据制定的调度策略,动态地调整离线任务和在线任务的节点使用情况,使得离线任务和在线任务的性能得到保障,同时实现能耗的最小化。
进一步地,所述优化问题如下:
优化目标:
Figure SMS_1
(1)
约束条件:
1.1)每个任务任意时隙内分配结果约束:
Figure SMS_2
1.2)每台工作节点任意时隙内计算资源约束:
Figure SMS_3
1.3)每台工作节点任意时隙内存资源约束:
Figure SMS_4
1.4)集群运行时间内对离线任务的任务完成质量保障限制:
Figure SMS_5
,其中/>
Figure SMS_6
1.5)每个在线任务运行时隙内内时延限制:
Figure SMS_7
式中,
Figure SMS_12
为时隙总数,/>
Figure SMS_14
为t时隙混部集群的能耗,/>
Figure SMS_16
为混部集群工作节点的数量,/>
Figure SMS_13
为t时隙任务的数量,/>
Figure SMS_22
为t时隙离线任务的数量,/>
Figure SMS_11
为t时隙在线任务的数量,/>
Figure SMS_18
为指示变量,指示t时隙任务i是否运行在工作节点j上,其中/>
Figure SMS_25
表示t时隙任务i运行在工作节点j上,/>
Figure SMS_28
表示t时隙任务i不运行在工作节点j上/>
Figure SMS_9
为任务i开始运行时隙,/>
Figure SMS_20
为任务i完成时隙,/>
Figure SMS_26
为任务i所需的计算资源,/>
Figure SMS_29
为工作节点j的计算资源总量,/>
Figure SMS_24
为任务i所需的内存资源,/>
Figure SMS_27
为工作节点j的内存资源总量,/>
Figure SMS_8
为t时隙集群中离线任务完成质量违反惩罚,即动态分配导致的离线任务运行时间增加所带来的服务质量下降,Q为集群所允许的违反预算,/>
Figure SMS_17
为离线任务i剩余周期,/>
Figure SMS_15
为完成质量违反因子,/>
Figure SMS_23
为t时隙在线任务i性能干扰模型结果,/>
Figure SMS_10
为在线任务i指令执行效率,/>
Figure SMS_19
为在线任务i的最大时延允许值,/>
Figure SMS_21
表示x到y的整数域,[*]+表示和0比较取较大值。
进一步地,时隙t混部集群能耗
Figure SMS_30
为:
Figure SMS_31
其中:
Figure SMS_32
式中,
Figure SMS_33
为t时隙工作节点j的能耗,/>
Figure SMS_34
为t时隙工作节点j的计算资源使用率,
Figure SMS_35
为工作节点j的峰值能耗,/>
Figure SMS_36
为工作节点j的谷值能耗。
进一步地,对问题的求解包括:
先将问题(1)简化成仅关于t时隙相关决策变量的约束求解问题,如下所示:
优化目标:
Figure SMS_37
(2)
约束条件:
2.1)
Figure SMS_38
,其中/>
Figure SMS_39
2.2)
Figure SMS_40
,其中/>
Figure SMS_41
,/>
Figure SMS_42
Figure SMS_43
2.3)
Figure SMS_44
,其中/>
Figure SMS_45
2.4)
Figure SMS_46
,其中/>
Figure SMS_47
其中
Figure SMS_48
为分配结果约束的转换,/>
Figure SMS_49
为资源约束的转换,/>
Figure SMS_50
为离线任务约束的转换,/>
Figure SMS_51
为在线任务约束的转换,/>
Figure SMS_52
为相比较上一时隙,t时隙任务i在工作节点j上的分配状态是否改变,/>
Figure SMS_53
表示分配状态未改变,/>
Figure SMS_54
表示分配状态改变;
再将问题(2)简化成以下一般问题:
优化目标:
Figure SMS_55
(3)
约束条件:
Figure SMS_56
式中,
Figure SMS_59
表示转化后的决策变量,即优化问题(2)中/>
Figure SMS_60
和/>
Figure SMS_65
的聚合,/>
Figure SMS_58
为优化问题(2)中/>
Figure SMS_62
的一般化形式,/>
Figure SMS_63
为优化问题(2)中/>
Figure SMS_66
的一般化形式,/>
Figure SMS_57
和/>
Figure SMS_61
表示问题(2)中的约束条件一般化表达式,/>
Figure SMS_64
是优化目标的一般化表达式。
进一步地,对问题(3)的求解包括:
采用拉格朗日因子下的修正梯度下降对优化问题(3)进行转化:
Figure SMS_67
,得到结果/>
Figure SMS_68
,用于在t时隙的任务放置结果。
第二方面,一种混部集群的大数据任务动态高能效调度系统,包括:
任务特性分析单元,被配置为在集群运行时,获取到达的大数据任务,识别任务的种类为在线任务还是离线任务并打上标签,并获取任务的特征;
任务性能干扰单元,被配置为基于性能干扰模型获取各种在线任务在工作节点各种共享资源干扰下的性能下降情况,所述性能干扰模型通过集群历史记录中的任务种类在各种共享资源限制因素下的性能的下降情况,经过拟合训练得出;
集群信息收集单元,被配置为获取集群中所有工作节点和任务的资源利用情况,收集任务的工作情况;
调度结果计算生成单元,被配置为基于任务特性和集群信息以及共享资源性能干扰模型输出的性能干扰结果,构建以集群能耗最小化为目标的优化问题并求解问题,根据求解结果确定调度策略,所述调度策略包括在离线任务和在线任务之间动态调整节点的使用、利用可用的低功耗节点;
调度结果实施单元,被配置为动态地调整离线任务和在线任务的节点使用情况,使得离线任务和在线任务的性能得到保障,同时实现能耗的最小化。
第三方面,本发明还提供一种计算机设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如上所述的混部集群的大数据任务动态高能效调度方法的步骤。
第四方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的混部集群的大数据任务动态高能效调度方法的步骤。
相比于现有技术,本发明具有以下有益效果:本发明通过对大数据任务的混合云平台内的任务和工作节点进行资源监控,获取实时资源利用率情况,并结合任务的执行情况和相关特征,采用多维度的调度策略进行任务的调度,以实现节能的目的。该方法可以自适应地调整任务的分配策略,实现在离线任务的高效执行,同时降低数据中心的能源消耗。此外,该方法还能够动态地优化任务的分配,从而实现在不影响任务执行的前提下最大化降低能源消耗。此外,此方法采用了基于在线学习的算法思想,可以仅依靠上一时隙的效果反馈来动态调整调度结果,能够在较快的时间内得到近似最优的结果。
附图说明
图1为根据本发明实施例的混部集群的大数据任务动态高能效调度系统的结构示意图;
图2为根据本发明实施例的混部集群的大数据任务动态高能效调度系统的处理流程示意图;
图3为根据本发明实施例的调度结果反馈单元的示意图;
图4为根据本发明实施例的调度结果计算生成单元的示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步说明,本实施列对本发明不构成限定。
如图1所示,在一个实施例中,在数据中心网络中应用混部集群的大数据任务动态高能效调度系统,该高能效动态调度部署系统包括:任务特性分析单元、任务性能干扰单元、调度结果计算生成单元、调度结果反馈单元、调度结果实施单元、集群信息收集单元、工作节点以及连接各工作节点的网络,其中网络由工作节点和工作节点信息监控模块之间的骨干线路组成,骨干网络允许各工作节点将自身的情况发送给工作节点信息监控模块。任务特性分析单元通过试运行到达的任务识别任务种类并贴上标签,并根据任务种类来提供相应的相关特征。任务性能干扰单元通过离线地对各类共享资源对在线任务性能干扰的影响进行模型训练,保存性能干扰模型并提供相应的性能下降结果。集群信息收集单元可以获取当前时隙所关注的工作节点和其上任务的资源利用情况,包括CPU、内存、内存带宽等信息;收集当前时隙任务的工作情况,包括运行周期和工作负载等。调度结果反馈单元收集上一时隙任务运行质量和集群能耗的情况,提供集群反馈信息。调度结果计算生成单元根据集群信息收集单元提供的集群信息、任务特性分析单元提供的任务信息、任务性能干扰单元提供的性能干扰结果和调度结果反馈单元的集群反馈情况,计算生成新的调度方案将任务调度到合适的工作节点上。离线任务重新调度会延长任务的完成时间,影响任务完成服务质量;在线任务上的工作节点运行多个任务时会因为性能干扰影响在线任务的服务质量,因此在本发明中针对离线任务和在线任务采用了不同的服务质量限制。
本实施例提供的混部集群的大数据任务动态高能效调度系统的流程,如图2所示,其包括以下步骤:
(S1)当前时隙开始时,任务特性分析单元试运行到达的大数据任务,识别任务的种类(在线任务或者离线任务)并打上标签,根据任务的种类,确定它们的运行周期、数据量规模、对资源的要求、时延要求、任务完成时间要求等相关特性。
(S2)当前时隙开始时,集群信息收集单元收集混部集群中所有工作节点和任务的资源利用情况,包括CPU、内存、内存带宽等信息;收集任务的工作情况,包括运行周期和工作负载等。
(S3)在集群运行前,任务性能干扰单元收集集群历史记录中的在线任务种类,通过对工作节点上各种共享资源使用率的控制,记录在各种情况下在线任务的性能下降情况,即在线任务的时延增大情况,并拟合训练出在线任务的时延增大率与工作节点中的各类共享资源的利用率的函数关系,即在线任务和工作节点共享资源的性能干扰模型。
(S4)调度结果计算生成单元根据任务特性和集群信息,通过循环随机算法制定调度策略,包括在离线任务和在线任务之间动态调整节点的使用、利用可用的低功耗节点等。
(S5)调度结果实施单元根据调度结果下发给相应的工作节点任务调度指令,动态地调整离线任务和在线任务的节点使用情况,使得离线任务和在线任务的性能得到保障,同时实现能耗的最小化。
(S6)实施调度策略后,调度结果反馈单元持续监控和纪录集群的能耗情况和任务的运行质量情况。
(S7)更新优化目标中的修正参数,关闭空闲的工作节点,等待下一时隙到来。
具体而言,整个动态高能效调度系统的总体目标是为了在一段时间内(
Figure SMS_69
个时隙),在受限于任务运行质量和工作节点资源下,达到最大化集群能耗减少的效果(即集群能耗最小化),调度结果计算生成单元基于任务特性和集群信息以及共享资源性能干扰模型输出的性能干扰结果,构建以集群能耗最小化为目标的优化问题并求解问题,根据求解结果确定调度策略,所述调度策略包括在离线任务和在线任务之间动态调整节点的使用、利用可用的低功耗节点。
其中,建立的优化问题如下:
优化目标:
Figure SMS_70
(1)
约束条件:
1)每个任务任意时隙内分配结果约束:
Figure SMS_71
2)每台工作节点任意时隙内计算资源约束:
Figure SMS_72
3)每台工作节点任意时隙内存资源约束:
Figure SMS_73
4)集群运行时间内对离线任务的任务完成质量保障限制:
Figure SMS_74
,其中/>
Figure SMS_75
5)每个在线任务运行时隙内时延限制:
Figure SMS_76
式中,
Figure SMS_93
为时隙总数,/>
Figure SMS_82
为t时隙混部集群的能耗,/>
Figure SMS_90
为混部集群工作节点的数量,/>
Figure SMS_92
为t时隙任务的数量,/>
Figure SMS_96
为t时隙离线任务的数量,/>
Figure SMS_94
为t时隙在线任务的数量,/>
Figure SMS_98
为指示变量,指示t时隙任务i是否运行在工作节点j上,其中/>
Figure SMS_83
表示t时隙任务i运行在工作节点j上,/>
Figure SMS_88
表示t时隙任务i不运行在工作节点j上/>
Figure SMS_77
为任务i开始运行时隙,/>
Figure SMS_91
为任务i完成时隙,/>
Figure SMS_81
为任务i所需的计算资源,/>
Figure SMS_89
为工作节点j的计算资源总量,/>
Figure SMS_86
为任务i所需的内存资源,/>
Figure SMS_97
为工作节点j的内存资源总量,/>
Figure SMS_79
为t时隙集群中离线任务完成质量违反惩罚,即动态分配导致的离线任务运行时间增加所带来的服务质量下降,Q为集群所允许的违反预算,/>
Figure SMS_85
为离线任务i剩余周期,/>
Figure SMS_84
为完成质量违反因子,/>
Figure SMS_95
为t时隙在线任务i性能干扰模型结果,/>
Figure SMS_78
为在线任务i指令执行效率,/>
Figure SMS_87
为在线任务i的最大时延允许值,/>
Figure SMS_80
表示x到y的整数域,[*]+表示和0比较取较大值。
其中时隙t混部集群能耗
Figure SMS_99
为:
Figure SMS_100
其中:
Figure SMS_101
式中,
Figure SMS_102
为t时隙工作节点j的能耗,/>
Figure SMS_103
为t时隙工作节点j的计算资源使用率,
Figure SMS_104
为工作节点j的峰值能耗,/>
Figure SMS_105
为工作节点j的谷值能耗。
因此,上述优化问题主要是通过对
Figure SMS_106
这一决策变量的取值来达到集群的节能效果,即如何在每个时隙内将所有任务(包括在线任务和离线任务)分配到合适的工作节点上。
对长期优化问题的求解可以简化成仅关于t时隙相关决策变量的约束求解问题,如下所示:
优化目标:
Figure SMS_107
(2)
约束条件:
2.1)
Figure SMS_108
,其中/>
Figure SMS_109
2.2)
Figure SMS_110
,其中/>
Figure SMS_111
,/>
Figure SMS_112
Figure SMS_113
2.3)
Figure SMS_114
,其中/>
Figure SMS_115
2.4)
Figure SMS_116
,其中/>
Figure SMS_117
Figure SMS_118
为上述分配结果约束的转换,/>
Figure SMS_119
为上述资源约束(包括计算资源和内存资源)的转换,/>
Figure SMS_120
为上述离线任务约束的转换,/>
Figure SMS_121
为上述在线任务约束的转换,/>
Figure SMS_122
为相比较上一时隙,t时隙任务i在工作节点j上的分配状态是否改变,/>
Figure SMS_123
表示分配状态未改变,/>
Figure SMS_124
表示分配状态改变。
对于约束条件(1)的转化,因为
Figure SMS_125
,所以
Figure SMS_126
,又因为/>
Figure SMS_127
,所以/>
Figure SMS_128
,所以分配结果/>
Figure SMS_129
可转化成上述条件(1)。上述条件(2)-(4)的转换都可通过移项和同乘解决。
优化问题(2)可以简化成以下一般问题,实际求解如下优化问题:
优化目标:
Figure SMS_130
(3)
约束条件:
Figure SMS_131
其中
Figure SMS_132
式中,
Figure SMS_135
表示转化后的决策变量,即优化问题(2)中/>
Figure SMS_138
和/>
Figure SMS_141
的聚合,/>
Figure SMS_134
为优化问题(2)中/>
Figure SMS_136
的一般化形式,/>
Figure SMS_140
为优化问题(2)中/>
Figure SMS_142
的一般化形式,/>
Figure SMS_133
和/>
Figure SMS_137
表示问题(2)中的约束条件一般化表达式,/>
Figure SMS_139
是优化目标的一般化表达式。
优化问题(3)通过将约束条件和决策变量向量化的形式,将优化问题(2)的决策变量矩阵化,将有关任务和工作节点的变量i和j变成矩阵和向量空间上的维度,因此对优化目标的求解也就变成了对向量的求解。
调度结果计算生成单元通过循环随机算法求解上述问题:采用拉格朗日因子下的修正梯度下降对优化问题(3)进行转化:
Figure SMS_144
。根据优化目标和约束条件的反馈,更新本时隙放置结果/>
Figure SMS_148
和拉格朗日系数/>
Figure SMS_151
,其中
Figure SMS_143
,其中/>
Figure SMS_146
为调整参数,具体反馈流程如图3所示。/>
Figure SMS_149
通过求解该目标得到:/>
Figure SMS_152
,其中D由决策向量对应的实数域的值构成,决策向量对应的实数值构成了它的定义域所在实数域/>
Figure SMS_145
,/>
Figure SMS_147
是预设算法参数,并将/>
Figure SMS_150
通过概率随机圆整的生成新的任务调度结果,具体计算生成结果如图4所示。
下面以三个节点A、B、C,一个在线任务e和一个离线任务f为例进行进一步地说明,在该例中,A、B、C的CPU和内存资源依次递减,但B的能效比(计算资源使用率与能耗的比值)最高,C次之,A最低,且A上运行有a,b两个离线任务,B上运行有c一个在线任务,C上运行d一个离线任务。
(1)在调度时隙时,任务特性分析单元试运行任务e和f并识别任务的种类,对任务e和f打上在线任务具体种类和离线任务种类的标签;
(2)集群信息收集单元获取A,B,C上的资源情况和其上任务的资源和任务情况,并将该情况转发给调度结果计算生成单元;
(3)通过任务敏感模型将当前时隙的集群所有任务敏感模型转发给调度结果计算生成单元;所述任务敏感模型是指根据任务的种类,确定它们的运行周期、数据量规模、对资源的要求、时延要求、任务完成时间要求等相关特性;
(4)调度结果计算生成单元根据集群信息收集单元生成上一时隙调度结果
Figure SMS_154
Figure SMS_157
,再加上任务敏感模型生成/>
Figure SMS_158
。通过上一时隙的反馈/>
Figure SMS_155
和/>
Figure SMS_156
更新生成
Figure SMS_159
,再通过计算/>
Figure SMS_160
函数得到/>
Figure SMS_153
并概率随机圆整成本时隙的调度结果,将调度结果发送给调度结果实施单元。
(5)调度结果实施单元根据调度结果,将A上的a,b任务重新分配到了B上,e任务和f任务被分配到了C上,因为在线任务e分配到B上虽然更加节能但是因为性能干扰影响严重无法保证它的服务质量,所以e只能分配到C上。
(6)根据新的分配结果,A作为空闲工作节点自动切换到休眠模式。
(7)在该时隙结束的时候,任务性能干扰单元监控收集任务运行质量和集群能耗的变化。
本发明通过对大数据任务的混合云平台内的任务和工作节点进行资源监控,获取实时资源利用率情况,并结合任务的执行情况和相关特征,采用多维度的调度策略进行任务的调度,可以自适应地调整任务的分配策略,实现在线离线任务的高效执行,同时降低数据中心的能源消耗。此方法采用了基于在线学习的算法思想,可以仅依靠上一时隙的效果反馈来动态调整调度结果,能够在较快的时间内得到近似最优的结果,通过动态地优化任务的分配,实现在不影响任务执行的前提下最大化降低能源消耗。
本发明涉及一种计算机设备,其包括一个或多个处理器和一个或多个存储器。所述计算机设备还包括一个或多个程序,这些程序被存储在所述存储器中,并被配置为由所述一个或多个处理器执行。当处理器执行这些程序时,实现如上所述的混部集群的大数据任务动态高能效调度方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的混部集群的大数据任务动态高能效调度方法的步骤。
应理解,本发明实施例中的系统可以实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,本发明中的流式数据分析任务处理方法在各系统中均适用,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (7)

1.一种混部集群的大数据任务动态高能效调度方法,其特征在于,包括以下步骤:
获取集群历史记录中的在线任务种类,在各种共享资源限制因素下分析记录性能的下降情况,并拟合训练出在线任务与工作节点中的共享资源性能干扰模型;
在集群运行时,试运行到达的大数据任务,识别任务的种类为在线任务还是离线任务并打上标签,并获取任务的特征;
收集集群信息,包括收集集群中所有工作节点和任务的资源利用情况,收集任务的工作情况;
基于任务特征、集群信息、以及集群运行时由共享资源性能干扰模型输出的性能干扰结果,构建以集群能耗最小化为目标的优化问题并求解问题,根据求解结果确定调度策略,所述调度策略包括在离线任务和在线任务之间动态调整节点的使用、利用可用的低功耗节点;
根据制定的调度策略,动态地调整离线任务和在线任务的节点使用情况,使得离线任务和在线任务的性能得到保障,同时实现能耗的最小化;
其中,所述优化问题如下:
优化目标:
Figure QLYQS_1
(1)
约束条件:
1.1)每个任务任意时隙内分配结果约束:
Figure QLYQS_2
1.2)每台工作节点任意时隙内计算资源约束:
Figure QLYQS_3
1.3)每台工作节点任意时隙内存资源约束:
Figure QLYQS_4
1.4)集群运行时间内对离线任务的任务完成质量保障限制:
Figure QLYQS_5
,其中
Figure QLYQS_6
1.5)每个在线任务运行时隙内内时延限制:
Figure QLYQS_7
式中,
Figure QLYQS_14
为时隙总数,/>
Figure QLYQS_12
为t时隙混部集群的能耗,/>
Figure QLYQS_20
为混部集群工作节点的数量,/>
Figure QLYQS_9
为t时隙任务的数量,/>
Figure QLYQS_23
为t时隙离线任务的数量,/>
Figure QLYQS_10
为t时隙在线任务的数量,/>
Figure QLYQS_18
为指示变量,指示t时隙任务i是否运行在工作节点j上,其中/>
Figure QLYQS_25
表示t时隙任务i运行在工作节点j上,/>
Figure QLYQS_28
表示t时隙任务i不运行在工作节点j上/>
Figure QLYQS_8
为任务i开始运行时隙,/>
Figure QLYQS_17
为任务i完成时隙,/>
Figure QLYQS_24
为任务i所需的计算资源,/>
Figure QLYQS_27
为工作节点j的计算资源总量,/>
Figure QLYQS_26
为任务i所需的内存资源,/>
Figure QLYQS_29
为工作节点j的内存资源总量,/>
Figure QLYQS_11
为t时隙集群中离线任务完成质量违反惩罚,即动态分配导致的离线任务运行时间增加所带来的服务质量下降,Q为集群所允许的违反预算,/>
Figure QLYQS_16
为离线任务i剩余周期,/>
Figure QLYQS_15
为完成质量违反因子,/>
Figure QLYQS_21
为t时隙在线任务i性能干扰模型结果,/>
Figure QLYQS_13
为在线任务i指令执行效率,/>
Figure QLYQS_19
为在线任务i的最大时延允许值,/>
Figure QLYQS_22
表示x到y的整数域,[*]+表示和0比较取较大值;
对问题的求解包括:
先将问题(1)简化成仅关于t时隙相关决策变量的约束求解问题,如下所示:
优化目标:
Figure QLYQS_30
(2)
约束条件:
2.1)
Figure QLYQS_31
,其中/>
Figure QLYQS_32
2.2)
Figure QLYQS_33
,其中/>
Figure QLYQS_34
,/>
Figure QLYQS_35
,/>
Figure QLYQS_36
2.3)
Figure QLYQS_37
,其中/>
Figure QLYQS_38
2.4)
Figure QLYQS_39
,其中/>
Figure QLYQS_40
其中
Figure QLYQS_41
为分配结果约束的转换,/>
Figure QLYQS_42
为资源约束的转换,/>
Figure QLYQS_43
为离线任务约束的转换,
Figure QLYQS_44
为在线任务约束的转换,/>
Figure QLYQS_45
为相比较上一时隙,t时隙任务i在工作节点j上的分配状态是否改变,/>
Figure QLYQS_46
表示分配状态未改变,/>
Figure QLYQS_47
表示分配状态改变;
再将问题(2)简化成以下一般问题:
优化目标:
Figure QLYQS_48
(3)
约束条件:
Figure QLYQS_49
式中,
Figure QLYQS_51
表示转化后的决策变量,即优化问题(2)中/>
Figure QLYQS_55
和/>
Figure QLYQS_58
的聚合,/>
Figure QLYQS_52
为优化问题(2)中/>
Figure QLYQS_53
的一般化形式,/>
Figure QLYQS_56
为优化问题(2)中/>
Figure QLYQS_59
的一般化形式,/>
Figure QLYQS_50
和/>
Figure QLYQS_54
表示问题(2)中的约束条件一般化表达式,/>
Figure QLYQS_57
是优化目标的一般化表达式;
采用拉格朗日因子下的修正梯度下降对优化问题(3)进行转化:
Figure QLYQS_60
,得到结果/>
Figure QLYQS_61
,用于在t时隙的任务放置结果。
2.根据权利要求1所述的方法,其特征在于,时隙t混部集群能耗
Figure QLYQS_62
为:
Figure QLYQS_63
其中:
Figure QLYQS_64
式中,
Figure QLYQS_65
为t时隙工作节点j的能耗,/>
Figure QLYQS_66
为t时隙工作节点j的计算资源使用率,/>
Figure QLYQS_67
为工作节点j的峰值能耗,/>
Figure QLYQS_68
为工作节点j的谷值能耗。
3.根据权利要求1所述的方法,其特征在于,得到结果
Figure QLYQS_69
包括:
每次根据初始结果,通过概率随机圆整的生成新的任务放置结果,根据优化目标和约束条件的反馈,并更新本时隙放置结果
Figure QLYQS_71
和拉格朗日系数/>
Figure QLYQS_74
,其中
Figure QLYQS_75
,其中/>
Figure QLYQS_72
为调整参数,/>
Figure QLYQS_73
通过求解该目标得到:
Figure QLYQS_76
,其中D由决策向量对应的实数域的值构成,决策向量对应的实数值构成了它的定义域所在实数域/>
Figure QLYQS_77
,/>
Figure QLYQS_70
是预设算法参数。
4.根据权利要求1所述的方法,其特征在于,还包括:在实施调度策略后,获取上一时隙调度结果部署下的任务质量和能耗效果,用于下一时隙的调度策略的调整。
5.一种混部集群的大数据任务动态高能效调度系统,其特征在于,包括:
任务特性分析单元,被配置为在集群运行时,获取到达的大数据任务,识别任务的种类为在线任务还是离线任务并打上标签,并获取任务的特征;
任务性能干扰单元,被配置为基于性能干扰模型获取各种在线任务在工作节点各种共享资源干扰下的性能下降情况,所述性能干扰模型通过集群历史记录中的任务种类在各种共享资源限制因素下的性能的下降情况,经过拟合训练得出;
集群信息收集单元,被配置为获取集群中所有工作节点和任务的资源利用情况,收集任务的工作情况;
调度结果计算生成单元,被配置为基于任务特性和集群信息以及共享资源性能干扰模型输出的性能干扰结果,构建以集群能耗最小化为目标的优化问题并求解问题,根据求解结果确定调度策略,所述调度策略包括在离线任务和在线任务之间动态调整节点的使用、利用可用的低功耗节点;
调度结果实施单元,被配置为动态地调整离线任务和在线任务的节点使用情况,使得离线任务和在线任务的性能得到保障,同时实现能耗的最小化;
其中,所述优化问题如下:
优化目标:
Figure QLYQS_78
(1)
约束条件:
1.1)每个任务任意时隙内分配结果约束:
Figure QLYQS_79
1.2)每台工作节点任意时隙内计算资源约束:
Figure QLYQS_80
1.3)每台工作节点任意时隙内存资源约束:
Figure QLYQS_81
1.4)集群运行时间内对离线任务的任务完成质量保障限制:
Figure QLYQS_82
,其中
Figure QLYQS_83
1.5)每个在线任务运行时隙内内时延限制:
Figure QLYQS_84
式中,
Figure QLYQS_88
为时隙总数,/>
Figure QLYQS_91
为t时隙混部集群的能耗,/>
Figure QLYQS_97
为混部集群工作节点的数量,/>
Figure QLYQS_89
为t时隙任务的数量,/>
Figure QLYQS_100
为t时隙离线任务的数量,/>
Figure QLYQS_85
为t时隙在线任务的数量,/>
Figure QLYQS_94
为指示变量,指示t时隙任务i是否运行在工作节点j上,其中/>
Figure QLYQS_102
表示t时隙任务i运行在工作节点j上,/>
Figure QLYQS_106
表示t时隙任务i不运行在工作节点j上/>
Figure QLYQS_86
为任务i开始运行时隙,/>
Figure QLYQS_95
为任务i完成时隙,/>
Figure QLYQS_99
为任务i所需的计算资源,/>
Figure QLYQS_104
为工作节点j的计算资源总量,/>
Figure QLYQS_101
为任务i所需的内存资源,/>
Figure QLYQS_105
为工作节点j的内存资源总量,/>
Figure QLYQS_90
为t时隙集群中离线任务完成质量违反惩罚,即动态分配导致的离线任务运行时间增加所带来的服务质量下降,Q为集群所允许的违反预算,/>
Figure QLYQS_98
为离线任务i剩余周期,/>
Figure QLYQS_92
为完成质量违反因子,/>
Figure QLYQS_96
为t时隙在线任务i性能干扰模型结果,/>
Figure QLYQS_87
为在线任务i指令执行效率,/>
Figure QLYQS_93
为在线任务i的最大时延允许值,/>
Figure QLYQS_103
表示x到y的整数域,[*]+表示和0比较取较大值;
对问题的求解包括:
先将问题(1)简化成仅关于t时隙相关决策变量的约束求解问题,如下所示:
优化目标:
Figure QLYQS_107
(2)
约束条件:
2.1)
Figure QLYQS_108
,其中/>
Figure QLYQS_109
2.2)
Figure QLYQS_110
,其中/>
Figure QLYQS_111
,/>
Figure QLYQS_112
,/>
Figure QLYQS_113
2.3)
Figure QLYQS_114
,其中/>
Figure QLYQS_115
2.4)
Figure QLYQS_116
,其中/>
Figure QLYQS_117
其中
Figure QLYQS_118
为分配结果约束的转换,/>
Figure QLYQS_119
为资源约束的转换,/>
Figure QLYQS_120
为离线任务约束的转换,
Figure QLYQS_121
为在线任务约束的转换,/>
Figure QLYQS_122
为相比较上一时隙,t时隙任务i在工作节点j上的分配状态是否改变,/>
Figure QLYQS_123
表示分配状态未改变,/>
Figure QLYQS_124
表示分配状态改变;
再将问题(2)简化成以下一般问题:
优化目标:
Figure QLYQS_125
(3)
约束条件:
Figure QLYQS_126
式中,
Figure QLYQS_129
表示转化后的决策变量,即优化问题(2)中/>
Figure QLYQS_130
和/>
Figure QLYQS_135
的聚合,/>
Figure QLYQS_128
为优化问题(2)中/>
Figure QLYQS_131
的一般化形式,/>
Figure QLYQS_133
为优化问题(2)中/>
Figure QLYQS_136
的一般化形式,/>
Figure QLYQS_127
和/>
Figure QLYQS_132
表示问题(2)中的约束条件一般化表达式,/>
Figure QLYQS_134
是优化目标的一般化表达式;
采用拉格朗日因子下的修正梯度下降对优化问题(3)进行转化:
Figure QLYQS_137
,得到结果/>
Figure QLYQS_138
,用于在t时隙的任务放置结果。
6.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置为由所述一个或多个处理器执行,所述程序被处理器执行时实现如权利要求1-4中任一项所述的混部集群的大数据任务动态高能效调度方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的混部集群的大数据任务动态高能效调度方法的步骤。
CN202310319132.XA 2023-03-29 2023-03-29 一种混部集群的大数据任务动态高能效调度方法和系统 Active CN116028193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310319132.XA CN116028193B (zh) 2023-03-29 2023-03-29 一种混部集群的大数据任务动态高能效调度方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310319132.XA CN116028193B (zh) 2023-03-29 2023-03-29 一种混部集群的大数据任务动态高能效调度方法和系统

Publications (2)

Publication Number Publication Date
CN116028193A CN116028193A (zh) 2023-04-28
CN116028193B true CN116028193B (zh) 2023-06-23

Family

ID=86072670

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310319132.XA Active CN116028193B (zh) 2023-03-29 2023-03-29 一种混部集群的大数据任务动态高能效调度方法和系统

Country Status (1)

Country Link
CN (1) CN116028193B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117112180B (zh) * 2023-09-27 2024-03-29 广州有机云计算有限责任公司 一种基于任务的集群自动化控制方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107404523A (zh) * 2017-07-21 2017-11-28 中国石油大学(华东) 云平台自适应资源调度系统和方法
US10601908B1 (en) * 2018-10-04 2020-03-24 Cisco Technology, Inc. Partitioning of container workload based on a temporal relationship
CN115658230A (zh) * 2022-10-27 2023-01-31 南京大学 一种云数据中心高效能容器编排方法及系统

Also Published As

Publication number Publication date
CN116028193A (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
Askarizade Haghighi et al. An energy-efficient dynamic resource management approach based on clustering and meta-heuristic algorithms in cloud computing IaaS platforms: Energy efficient dynamic cloud resource management
EP2399183B1 (en) Energy-aware server management
CN109324875B (zh) 一种基于强化学习的数据中心服务器功耗管理与优化方法
CN104991830A (zh) 基于服务等级协议的yarn资源分配和节能调度方法及系统
Sun et al. PACO: A period ACO based scheduling algorithm in cloud computing
CN104317658A (zh) 一种基于MapReduce的负载自适应任务调度方法
CN107861796B (zh) 一种支持云数据中心能耗优化的虚拟机调度方法
CN113535409B (zh) 一种面向能耗优化的无服务器计算资源分配系统
CN110086855A (zh) 基于蚁群算法的Spark任务智能感知调度方法
CN116028193B (zh) 一种混部集群的大数据任务动态高能效调度方法和系统
CN114579270A (zh) 一种基于资源需求预测的任务调度方法及系统
CN106293947B (zh) 虚拟化云环境下gpu-cpu混合资源分配系统和方法
CN116467076A (zh) 一种基于集群可用资源的多集群调度方法及系统
CN102043676B (zh) 虚拟化数据中心调度方法及系统
Hussin et al. Efficient energy management using adaptive reinforcement learning-based scheduling in large-scale distributed systems
Song et al. A deep reinforcement learning-based task scheduling algorithm for energy efficiency in data centers
CN108574600B (zh) 云计算服务器的功耗和资源竞争协同控制的服务质量保障方法
Kumar et al. A Hybrid Eagle’s Web Swarm Optimization (EWSO) technique for effective cloud resource management
CN117251044A (zh) 一种基于arima技术的云服务器动态能耗管理方法和系统
Sakamoto et al. Analyzing resource trade-offs in hardware overprovisioned supercomputers
Bagheri et al. Enhancing energy efficiency in resource allocation for real-time cloud services
CN117076882A (zh) 一种云服务资源动态预测管理方法
CN115378789B (zh) 一种多层次协作的流资源管理方法及系统
CN116340393A (zh) 数据库饱和度的预测方法、存储介质及数据库系统
Fang et al. Using model predictive control in data centers for dynamic server provisioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant