CN115220900B - 一种基于作业功耗预测的节能调度方法及系统 - Google Patents

一种基于作业功耗预测的节能调度方法及系统 Download PDF

Info

Publication number
CN115220900B
CN115220900B CN202211138391.4A CN202211138391A CN115220900B CN 115220900 B CN115220900 B CN 115220900B CN 202211138391 A CN202211138391 A CN 202211138391A CN 115220900 B CN115220900 B CN 115220900B
Authority
CN
China
Prior art keywords
power consumption
scheduling
job
data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211138391.4A
Other languages
English (en)
Other versions
CN115220900A (zh
Inventor
王继彬
陈泳杰
郭莹
杨美红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Shandong Computer Science Center National Super Computing Center in Jinan
Priority to CN202211138391.4A priority Critical patent/CN115220900B/zh
Publication of CN115220900A publication Critical patent/CN115220900A/zh
Application granted granted Critical
Publication of CN115220900B publication Critical patent/CN115220900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3013Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is an embedded system, i.e. a combination of hardware and software dedicated to perform a certain function in mobile devices, printers, automotive or aircraft systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5094Allocation of resources, e.g. of the central processing unit [CPU] where the allocation takes into account power or heat criteria
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Power Sources (AREA)

Abstract

本发明公开了一种基于作业功耗预测的节能调度方法及系统,涉及高性能计算数据中心节能领域。通过资源监控模块,功耗预测模块和作业调度模块三个模块实现了数据的监控和功耗的预测,进而根据预测结果实现了作业调度。在节能调度方法中基于机器学习对作业队列中的作业功耗进行预测,使得预测结果比传统的理论模型更加准确,根据预测结果对负载作业和负载机柜进行分类,将高负载作业和低负载作业以轮询的方式分别分配给高负载机柜和低负载机柜,可以保证HPC数据中心的整体负载均衡。在机柜内将服务器划分为高温服务器和低温服务器,将作业优先分配给低温服务器可以防止机柜内出现局部温度过高的情况,有效避免了热点的出现。

Description

一种基于作业功耗预测的节能调度方法及系统
技术领域
本发明涉及高性能计算数据中心节能领域,特别涉及一种基于作业功耗预测的节能调度方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
高性能计算(High Performance Computing,HPC)数据中心包含数千个计算节点,以快速高效的方式计算具有高计算要求的科学应用,这些应用主要包含分子动力学,气象预测,核模拟等方面的计算。这些应用在执行的过程中会消耗大量的能耗。同时,由于现在的HPC应用调度主要为混合负载调度,在作业调度的过程中会出现作业集中分配到某一机柜或服务器的情形,造成HPC数据中心局部温度过高,而整体温度低的情况,从而形成热点。HPC数据中心出现热点情况后,不仅会导致冷却系统过度降低温度,增加冷却系统能耗,还会导致服务器发生故障,影响服务器的寿命和作业的运行。因此,减少HPC数据中心热点的出现,降低HPC数据中心的能耗是可行且必要的。
数据中心能耗的一部分为计算能耗,它代表硬件运行时所需要的能耗。很多研究都致力于减少计算能耗,如动态电压频率调整技术(Dynamic oltage and frequencyscaling,DVFS)、低电压集成电路技术等。此外还有一些研究致力于对空闲服务器进行关机或休眠,从而达到减少能耗的目标。这些技术在节能方面都有较好的效果,但是缺少对数据中心热点问题的考虑。
除计算能耗外,冷却能耗也是数据中心能耗的另一大组成部分。冷却能耗主要代表空调等冷却设备为了降低数据中心热量所产生的能耗。现有研究主要通过使用流体热力学对数据中心温度进行建模,该方法精确度高,但计算周期长且计算量大。此外,很多研究致力于通过机器学习算法,对服务器的温度进行预测。根据预测的温度结合调度算法,从而实现降低服务器温度,减少冷却能耗的目标。这类方法具有计算周期短且准确度高的优点,但是大部分研究只着重于解决服务器级别的热点问题,并没有考虑机柜级别的热点问题,所以会出现局部热点的现象,无法从根本解决负载不均衡的问题。
发明内容
针对现有技术存在的不足,本发明的目的是提供一种基于功耗预测的节能调度方法及系统,能够预测用户提交作业的运行功耗,根据预测的功耗将作业分发到不同机柜中的服务器进行运行,可以有效实现负载均衡以及防止HPC数据中心中热点的出现。
为了实现上述目的,本发明是通过如下的技术方案来实现:
本发明第一方面提供了一种基于功耗预测的节能调度方法,包括以下步骤:
监控用户提交作业的相关参数,监控数据中心内空调及计算设备的相关参数,监控调度器的相关参数,将监控到的数据保存到数据库中;
采集监控到的调度器相关参数并进行数据清洗,对清洗后的数据进行特征值筛选;采用不同的机器学习模型训练筛选后的特征值,预测出未来作业运行时的功耗,选择不同机器学习模型中精确度最高的模型;
根据预测结果设计作业调度方案,通过机柜级调度以及服务器级调度,将HPC作业下发到相对应的资源平台,完成HPC应用的调度。
进一步的,根据预测结果设计作业调度方案具体步骤为:
根据预测的结果对作业进行分类,基于分类结果对机柜进行分类;
将分类好的作业按照轮询的方式分配到每个机柜中;
采集机柜中每个服务器的温度,对服务器进行分类;
基于服务器的分类结果,计算服务器可用资源与需求资源的加权平均值作为每个服务器的分数,选择得分最高的服务器进行调度。
更进一步的,根据预测的结果对作业进行分类具体步骤为:预测出作业队列中每一个作业的功耗,并根据功耗分界值进行划分,若功耗大于功耗分界值则划分到高负载作业列表中,若功耗小于等于功耗分界值则划分到低负载作业列表中。
更进一步的,机柜分为高负载机柜和低负载机柜,高负载机柜中的服务器只能运行高负载作业列表中的作业,低负载机柜中的服务器只能运行低负载作业列表中的作业。
进一步的,对服务器进行分类具体为,在满足温度阈值的情况下,跟据设定的服务器温度分界线将服务器进行划分为高温服务器和低温服务器。
本发明第二方面提供了一种基于功耗预测的节能调度系统,包括:资源监控模块,功耗预测模块和作业调度模块;
资源监控模块,被配置为监控用户提交作业的相关参数,监控数据中心内空调及计算设备的相关参数,监控调度器的相关参数,将监控到的数据保存到数据库中;
功耗预测模块,被配置为采集监控到的调度器相关参数并进行数据清洗,对清洗后的数据进行特征值筛选;采用不同的机器学习模型训练筛选后的特征值,预测出未来作业运行时的功耗,选择不同机器学习模型中精确度最高的模型;
作业调度模块,被配置为根据上述预测模块的结果设计作业调度方案,通过机柜级调度以及服务器级调度,将HPC作业下发到相对应的资源平台,完成HPC应用的调度。
进一步的,资源监控模块包括作业监控模块、调度器监控模块和数据中心监控模块。
更进一步的,作业监控模块用于监控用户提交的作业信息,调度器监控模块用于监控调度器的历史调度信息;数据中心监控模块用于监控冷却设备和计算设备的相关参数。
进一步的,功耗预测模块包括数据采集模块、数据清洗模块和模型训练模块。
更进一步的,数据采集模块用于采集上述作业监控模块和调度监控模块监控到的数据;数据清洗模块用于将采集到的数据进行清洗以及合并,对合并后的数据进行特征值筛选;模型训练模块用于采用不同的机器学习模型对筛选后的特征值进行预测,预测出未来作业运行时的功耗。
上述本发明的实施例的有益效果如下:
本发明公开了一种基于功耗预测的节能调度方法,基于机器学习对作业队列中的作业功耗进行预测,使得预测结果比传统的理论模型更加准确,根据预测结果将其分为高负载作业和低负载作业进行调度。将HPC数据中心的机柜在空间上间隔划分为高负载机柜和低负载机柜,将高负载作业和低负载作业以轮询的方式分别分配给高负载机柜和低负载机柜,可以保证HPC数据中心的整体负载均衡,同时可以使机房温度在整体上趋于平衡,避免出现局部热点的现象,降低了HPC数据中心的冷却能耗。在机柜内将服务器划分为高温服务器和低温服务器,将作业优先分配给低温服务器可以防止机柜内出现局部温度过高的情况,有效避免了热点的出现。
本发明公开了一种基于功耗预测的节能调度系统,通过资源监控模块,功耗预测模块和作业调度模块三个模块实现了数据的监控和功耗的预测,进而根据预测结果实现了作业调度,由于在节能调度方法中分别基于机柜级别和服务器级别进行作业功耗的预测及调度,从局部和整体两方面解决了负载不均衡的问题。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一中功耗预测流程示意图;
图2为本发明实施例一中一种机柜级的作业调度方法的流程图;
图3为本发明实施例一中HPC数据中心机柜分布示意图;
图4为本发明实施例一中一种服务器级的作业调度方法的流程图;
图5为本发明实施例二中基于作业功耗预测的节能调度系统的整体架构图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合;
实施例一:
本发明实施例一提供了一种基于功耗预测的节能调度方法,包括以下步骤:
监控用户提交作业的相关参数,监控数据中心内空调及计算设备的相关参数,监控调度器的相关参数,将监控到的数据保存到数据库中;
采集监控到的调度器相关参数并进行数据清洗,对清洗后的数据进行特征值筛选;采用不同的机器学习模型训练筛选后的特征值,预测出未来作业运行时的功耗,选择不同机器学习模型中精确度最高的模型;
根据预测结果设计作业调度方案,通过机柜级调度以及服务器级调度,将HPC作业下发到相对应的资源平台,完成HPC应用的调度。
优选的,监控HPC数据中心相关资源信息主要为实时监控当前HPC数据中心内的数据,并将监控到的数据存储到数据库中,供其他模块调用。主要监控三个方面:作业监控、数据中心监控和调度器监控。
其中,作业监控主要负责监控用户提交的作业信息,为后续作业的功耗预测做准备,作业监控的具体信息如下表1所示:
表1.作业监控具体信息
Figure DEST_PATH_IMAGE001
其中,数据中心监控主要负责监控HPC数据中心内计算设备和冷却设备的相关信息,后续作业调度算法可以根据监控到的数据决定调度方案。数据中心监控的具体信息如下表2所示:
表2.数据中心监控的具体信息
Figure 556435DEST_PATH_IMAGE002
其中,调度器监控主要负责监控HPC调度器的历史调度日志,通过监控历史数据,可以为作业功耗预测中的模型训练做数据支持。调度器监控的具体信息如下表3所示:
表3.调度器监控的具体信息
Figure DEST_PATH_IMAGE003
优选的,构建功耗预测模型主要负责用不同的机器学习模型对数据中心的调度器的历史信息进行训练。并根据训练结果对作业队列中的作业进行功耗预测。作业功耗预测主要分为三个步骤:数据采集,数据清洗以及模型训练。基于机器学习功耗预测的流程如图1所示,从资源监控模块获取数据后经过数据采集和数据清洗步骤,生成n个特征值,将特征值输入不同的训练模型训练从而预测功耗,根据功耗预测结果结合调度算法生成调度方案发送给HPC调度器进行调度,HPC调度器根据调度方案对作业队列进行调度,对调度完成后的作业队列重新进行功耗预测。
具体步骤为:
步骤1:采集调度器监控到的历史数据。
步骤2:针对步骤1采集到的数据,使用Hadoop数据计算框架对采集到的离线数据进行过滤和清洗,删除其中值为0或Null的数据,并将与作业功耗无关的字段进行删除,确定最终的特征值。
步骤3:采用不同的机器学习模型对上述清洗后的数据进行训练并进行行为预测。通过比较不同预测模型的精确度,选择其中精确度最高的模型。行为预测公式如下:
Figure 608967DEST_PATH_IMAGE004
其中,
Figure DEST_PATH_IMAGE005
分别代表作业的id,作业的名称,作业所需的CPU资源,作业所需的内存资源,作业最大的执行时间以及作业运行的基线功耗。
步骤4:采集作业队列中的作业信息,对其作业功耗进行预测,将预测的作业功耗值提交给调度算法,生成调度方案。
设计作业调度方案主要负责根据预测模块预测后得到的预测值,调度算法根据预测值及数据中心相关参数生成作业与服务器之间的映射方案,交由Slurm调度器进行调度。具体调度算法为机柜级调度和服务器级调度。
优选的,基于预测模型的预测结果设计作业调度方案具体步骤为:
根据预测的结果对作业进行分类,基于分类结果对机柜进行分类;
将分类好的作业按照轮询的方式分配到每个机柜中;
采集机柜中每个服务器的温度,对服务器进行分类;
基于服务器的分类结果,计算服务器可用资源与需求资源的加权平均值作为每个服务器的分数,选择得分最高的服务器进行调度。
具体过程为:
假设目前作业队列中有n个作业,
Figure 408295DEST_PATH_IMAGE006
,将队列中作业的功耗进行预测,根据上述功耗预测模块的结果,预测出作业队列J中每一个作业的功耗
Figure DEST_PATH_IMAGE007
,其中i代表作业的编号, i=(1,…,n)。将预测的功耗值
Figure 993998DEST_PATH_IMAGE007
按分界值
Figure 955000DEST_PATH_IMAGE008
进行划分,若
Figure DEST_PATH_IMAGE009
则划分到高负载作业列表
Figure 557145DEST_PATH_IMAGE010
中,若
Figure DEST_PATH_IMAGE011
则划分到低负载作业列表
Figure 629006DEST_PATH_IMAGE012
中。
HPC数据中心中的服务器分布于各个机柜中,假设数据中心存在m个机柜且m为偶数,每个机柜中存在k台服务器。本发明将HPC数据中心中的机柜
Figure DEST_PATH_IMAGE013
进行分类,根据机柜所属编号,划分为高负载机柜
Figure 334794DEST_PATH_IMAGE014
和低负载机柜
Figure DEST_PATH_IMAGE015
在数据中内心交叉分布。在高负载机柜
Figure 529015DEST_PATH_IMAGE016
的服务器
Figure DEST_PATH_IMAGE017
,只能运行
Figure 556139DEST_PATH_IMAGE018
中的作业,
Figure DEST_PATH_IMAGE019
中的服务器
Figure 494008DEST_PATH_IMAGE020
只能运行
Figure DEST_PATH_IMAGE021
中的作业。其中
Figure 54303DEST_PATH_IMAGE022
代表机柜的编号a=(1,…,m)
将分类好的作业按照轮询的方式分配到每个机柜中,即
Figure 357108DEST_PATH_IMAGE018
中的作业按照轮询的方式分配到
Figure DEST_PATH_IMAGE023
中,
Figure 871528DEST_PATH_IMAGE021
中的作业也同样按照轮询的方式分配到
Figure 19613DEST_PATH_IMAGE024
中。
Figure 903255DEST_PATH_IMAGE023
Figure 376962DEST_PATH_IMAGE024
中,采集
Figure DEST_PATH_IMAGE025
Figure 877213DEST_PATH_IMAGE026
中每个服务器的温度,在满足温度阈值
Figure DEST_PATH_IMAGE027
的情况下,跟据设定的服务器温度分界线
Figure 861612DEST_PATH_IMAGE028
将服务器进行划分为高温服务器和低温服务器,具体划分如下式(1)所示
Figure DEST_PATH_IMAGE029
(1)
其中
Figure 193236DEST_PATH_IMAGE030
代表
Figure 837844DEST_PATH_IMAGE025
Figure 294233DEST_PATH_IMAGE026
中高温的服务器温度列表,
Figure DEST_PATH_IMAGE031
代表
Figure 580858DEST_PATH_IMAGE025
Figure 686697DEST_PATH_IMAGE026
低温的服务器温度列表。b代表服务器的编号,
Figure 502206DEST_PATH_IMAGE032
代表服务器b的温度。
为了防止热点的出现,本发明将作业优先选择低温列表
Figure DEST_PATH_IMAGE033
中的服务器进行分配。在低温列表中,计算服务器可用资源与需求资源的加权平均值作为每个服务器的分数,选择得分最高的服务器进行调度。具体得分计算公式如下式(2)所示
Figure 711471DEST_PATH_IMAGE034
(2)
Figure DEST_PATH_IMAGE035
其中,
Figure 801787DEST_PATH_IMAGE036
代表低温列表中所有服务器可用的CPU资源,
Figure DEST_PATH_IMAGE037
代表低温列表中所有服务器可用的内存资源。
Figure 45686DEST_PATH_IMAGE038
Figure DEST_PATH_IMAGE039
分别代表服务器b的可用CPU资源和可用内存资源。
优选的,机柜级调度流程如图2所示,将机柜划分为高负载机柜和低负载机柜,采集作业队列功耗预测信息并与功耗分界线进行比较。根据判断结果执行轮询调度策略,将大于功耗分界线的作业分配到高负载机柜执行高负载服务器级调度,反之分配到低负载机柜执行低负载服务器级调度,直至作业队列为空,完成调度。
具体步骤如下:
步骤1:按照图3所示将HPC数据中心中的机柜将除端部列头柜之外的机柜划分为高负载机柜和低负载机柜,高负载机柜内只运行高负载作业,低负载机柜内只运行低负载作业。然后转到步骤2。高负载机柜与低负载机柜交叉分布,负载机柜之间设置冷却设备,如空调。负载机柜从后面将热风排出,形成封闭热通道,空调从前面将冷风排出,形成封闭冷通道。
步骤2:遍历作业队列,采集上述功耗预测模型预测后的作业功耗大小,然后转到步骤3。
步骤3:将预测的功耗值
Figure 595878DEST_PATH_IMAGE040
与设定的功耗分界线
Figure DEST_PATH_IMAGE041
进行比较,若
Figure 558018DEST_PATH_IMAGE042
,则转到步骤4。若
Figure DEST_PATH_IMAGE043
,则转到步骤5。
步骤4:采用轮询调度策略将低负载作业列表
Figure 186446DEST_PATH_IMAGE044
中的作业分配到低负载机柜
Figure DEST_PATH_IMAGE045
中,转到步骤6。
步骤5:采用轮询调度策略将高负载作业列表
Figure 786317DEST_PATH_IMAGE046
中的作业分配到高负载机柜
Figure DEST_PATH_IMAGE047
中,转到步骤7。
步骤6:执行低负载服务器级调度,确定低负载作业最终的调度方案,然后转到步骤8。
步骤7:执行高负载服务器级调度,确定高负载作业最终的调度方案,然后转到步骤8。
步骤8:判断作业队列是否为空,若是,则转到步骤9,否则转到步骤2。
步骤9:调度结束。
优选的,服务器级调度流程如图4所示,遍历机柜中的服务器列表,采集服务器的平均温度,并与温度分界值进行比较,若大于温度分界值且小于温度阈值则将服务器归类为高温服务器,若小于温度分界值则将服务器归类为低温服务器。采集低温服务器的剩余资源大小,计算其得分,判断是否遍历结束,直至遍历结束后选择得分最高的服务器完成调度。
低负载服务器级调度方式与高负载服务器级调度相同,此处以高负载机柜中的服务器级调度为例,具体步骤如下:
步骤1: 遍历高负载机柜中的服务器列表
Figure 5945DEST_PATH_IMAGE048
,转到步骤2。
步骤2:根据资源监控模块周期性采集高负载服务器列表
Figure DEST_PATH_IMAGE049
中每个服务器
Figure 455381DEST_PATH_IMAGE050
的温度
Figure DEST_PATH_IMAGE051
,转到步骤3。
步骤3:判断
Figure 887500DEST_PATH_IMAGE052
的温度
Figure DEST_PATH_IMAGE053
是否小于等于温度分界值
Figure 76298DEST_PATH_IMAGE054
若是则转到步骤4。若否,则转到步骤5。
步骤4:则将服务器添加到低温服务器列表
Figure DEST_PATH_IMAGE055
中,转到步骤7。
步骤5:判断
Figure 935669DEST_PATH_IMAGE056
的温度
Figure DEST_PATH_IMAGE057
是否大于温度分界值
Figure 606822DEST_PATH_IMAGE058
且大于设定的温度阈值
Figure DEST_PATH_IMAGE059
。若是执行步骤6,否则执行步骤1。
步骤6:将服务器
Figure 140834DEST_PATH_IMAGE060
添加到高温服务器列表
Figure DEST_PATH_IMAGE061
,并不执行作业的调度。
步骤7:根据上述资源监控模块采集服务器的剩余资源,服务器资源主要包括CPU和内存,转到步骤8。
步骤8:通过上述公式(2)计算服务器
Figure 213832DEST_PATH_IMAGE062
的可用资源与需求资源的加权平均值作为每个服务器的分数,转到步骤9。
步骤9:判断服务器是否遍历结束,若是则执行步骤10,若否则执行步骤1。
步骤10:将每个服务器的得分进行排序,选择的分最高的服务器进行作业调度,若作业需要n个服务器运行,则选择排名前n的服务器执行,执行步骤11。
步骤11:作业调度结束。
经过上述两个调度步骤后,可以保证HPC数据中心实现负载均衡,从而减少数据中心内作业分配不均而导致的热点问题,有效降低了数据中心的冷却能耗,本发明所提供的调度方法可部署在不同的同构HPC数据中心,仅需要有相关的接口和调度器,具有良好的应用前景。
实施例二:
本发明实施例二提供了一种基于功耗预测的节能调度系统,如图5所示,包括HPC数据中心集群,HPC集群内包含多个服务器和冷却系统,冷却系统中含多个冷却设备,本实施例中冷却设备为空调。还包括三个主要的核心模块:资源监控模块、功耗预测模块、作业调度模块,资源监控模块用于作业监控、调度器监控和数据中心监控,通过监控数据与其他设备进行信息交互。功率预测模块依次经过数据采集、数据清洗和模型训练等步骤预测出未来作业运行时的功耗,并将预测结果发送给作业调度模块,作业调度模块获取用户提交作业后形成作业队列,根据上述预测模块的结果,结合调度算法,将HPC作业下发到HPC集群,完成HPC应用的调度。
具体每个模块的功能如下:
S100资源监控模块,被配置为监控用户提交作业的相关参数,监控数据中心内冷却设备及计算设备的相关参数,监控调度器的相关参数,将监控到的数据保存到数据库中。资源监控模块包括作业监控模块、调度器监控模块和数据中心监控模块。
优选的,调度器主要负责按照调度策略将作业分配到不同的计算节点上进行计算。一方面,可以从调度器上采集到作业运行所需的资源例如CPU、内存、磁盘、节点数量等,此外还有作业在数据中心中运行的位置,以及作业开始的时间和作业结束的时间。在本实施例中,调度器采集这些数据后与其余几个监控模块的数据进行合并,作为功耗预测模块的训练数据。另一方面,当新作业准备运行时,可以根据功耗预测模块,对该作业的功耗进行预测,调度器会根据提出的调度策略将作业提交到指定的节点运行。
其中,作业监控模块负责获取用户提交作业的相关资源需求信息,如作业所需CPU核数,所需内存大小,所需节点个数等;调度器监控模块负责获取调度器历史调度作业的资源需求数据及作业运行时功耗;数据中心监控模块负责获取数据中心冷却系统的相关参数,如冷却设备设定的温度、冷却设备的能耗、计算设备的温度、计算设备的功耗等。
S200功耗预测模块,被配置为采集监控到的调度器相关参数并进行数据清洗,对清洗后的数据进行特征值筛选;采用不同的机器学习模型训练筛选后的特征值,预测出未来作业运行时的功耗,选择不同机器学习模型中精确度最高的模型。功耗预测模块包括数据采集模块、数据清洗模块和模型训练模块。
其中,数据采集模块用于采集上述作业监控模块和调度监控模块监控到的数据;数据清洗模块用于将采集到的数据进行清洗以及合并,删除其中值为0或者为空的数据,并将清洗后的数据按照作业的ID进行合并,对合并后的数据进行特征值筛选;模型训练模块用于采用不同的机器学习模型对筛选后的特征值进行预测,预测出未来作业运行时的功耗。
S300作业调度模块被配置为根据上述预测模块的结果,通过机柜级调度以及服务器级调度,将HPC作业下发到相对应的资源平台,完成HPC应用的调度。
具体的,机柜级作业调度负责将数据中心按照设定划分为高负载机柜和低负载机柜,高负载机柜只能运行高负载作业,低负载机柜只能运行低负载作业。将分类好的作业按照轮询的方式分配到不同的机柜;服务器级作业调度负责在机柜中将服务器按照温度划分为低温区和高温区。计算低温区内每个服务器的得分,按照分数的高低进行排序,选择其中分数最高的服务器,调度器根据上述结果将作业发往指定的服务器运行。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种基于功耗预测的节能调度方法,其特征在于,包括以下步骤:
监控用户提交作业的相关参数,监控数据中心内空调及计算设备的相关参数,监控调度器的相关参数,将监控到的数据保存到数据库中;
采集监控到的调度器相关参数并进行数据清洗,对清洗后的数据进行特征值筛选;采用不同的机器学习模型训练筛选后的特征值,预测出未来作业运行时的功耗,选择不同机器学习模型中精确度最高的模型;作业功耗预测主要分为三个步骤:数据采集,数据清洗以及模型训练;从资源监控模块获取数据后经过数据采集和数据清洗步骤,生成n个特征值,将特征值输入不同的训练模型训练从而预测功耗,根据功耗预测结果结合调度算法生成调度方案发送给HPC调度器进行调度,HPC调度器根据调度方案对作业队列进行调度,对调度完成后的作业队列重新进行功耗预测;
根据预测结果设计作业调度方案,通过机柜级调度以及服务器级调度,将HPC作业下发到相对应的资源平台,完成HPC应用的调度;
根据预测结果设计作业调度方案具体步骤为:
根据预测的结果对作业进行分类,基于分类结果对机柜进行分类;
将分类好的作业按照轮询的方式分配到每个机柜中;
采集机柜中每个服务器的温度,对服务器进行分类;
基于服务器的分类结果,计算服务器可用资源与需求资源的加权平均值作为每个服务器的分数,选择得分最高的服务器进行调度。
2.如权利要求1所述的一种基于功耗预测的节能调度方法,其特征在于,根据预测的结果对作业进行分类具体步骤为:预测出作业队列中每一个作业的功耗,并根据功耗分界值进行划分,若功耗大于功耗分界值则划分到高负载作业列表中,若功耗小于等于功耗分界值则划分到低负载作业列表中。
3.如权利要求2所述的一种基于功耗预测的节能调度方法,其特征在于,机柜分为高负载机柜和低负载机柜,高负载机柜中的服务器只能运行高负载作业列表中的作业,低负载机柜中的服务器只能运行低负载作业列表中的作业。
4.如权利要求1所述的一种基于功耗预测的节能调度方法,其特征在于,对服务器进行分类具体为,在满足温度阈值的情况下,跟据设定的服务器温度分界线将服务器进行划分为高温服务器和低温服务器。
5.一种基于功耗预测的节能调度系统,其特征在于,包括:资源监控模块,功耗预测模块和作业调度模块;
资源监控模块,被配置为监控用户提交作业的相关参数,监控数据中心内空调及计算设备的相关参数,监控调度器的相关参数,将监控到的数据保存到数据库中;
功耗预测模块,被配置为采集监控到的调度器相关参数并进行数据清洗,对清洗后的数据进行特征值筛选;采用不同的机器学习模型训练筛选后的特征值,预测出未来作业运行时的功耗,选择不同机器学习模型中精确度最高的模型;作业功耗预测主要分为三个步骤:数据采集,数据清洗以及模型训练;从资源监控模块获取数据后经过数据采集和数据清洗步骤,生成n个特征值,将特征值输入不同的训练模型训练从而预测功耗,根据功耗预测结果结合调度算法生成调度方案发送给HPC调度器进行调度,HPC调度器根据调度方案对作业队列进行调度,对调度完成后的作业队列重新进行功耗预测;
作业调度模块,被配置为根据上述预测模块的结果设计作业调度方案,通过机柜级调度以及服务器级调度,将HPC作业下发到相对应的资源平台,完成HPC应用的调度;
根据预测结果设计作业调度方案具体步骤为:
根据预测的结果对作业进行分类,基于分类结果对机柜进行分类;
将分类好的作业按照轮询的方式分配到每个机柜中;
采集机柜中每个服务器的温度,对服务器进行分类;
基于服务器的分类结果,计算服务器可用资源与需求资源的加权平均值作为每个服务器的分数,选择得分最高的服务器进行调度。
6.如权利要求5所述的一种基于功耗预测的节能调度系统,其特征在于,资源监控模块包括作业监控模块、调度器监控模块和数据中心监控模块。
7.如权利要求6所述的一种基于功耗预测的节能调度系统,其特征在于,作业监控模块用于监控用户提交的作业信息,调度器监控模块用于监控调度器的历史调度信息;数据中心监控模块用于监控冷却设备和计算设备的相关参数。
8.如权利要求5所述的一种基于功耗预测的节能调度系统,其特征在于,功耗预测模块包括数据采集模块、数据清洗模块和模型训练模块。
9.如权利要求8所述的一种基于功耗预测的节能调度系统,其特征在于,数据采集模块用于采集作业监控模块和调度监控模块监控到的数据;数据清洗模块用于将采集到的数据进行清洗以及合并,对合并后的数据进行特征值筛选;模型训练模块用于采用不同的机器学习模型对筛选后的特征值进行预测,预测出未来作业运行时的功耗。
CN202211138391.4A 2022-09-19 2022-09-19 一种基于作业功耗预测的节能调度方法及系统 Active CN115220900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211138391.4A CN115220900B (zh) 2022-09-19 2022-09-19 一种基于作业功耗预测的节能调度方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211138391.4A CN115220900B (zh) 2022-09-19 2022-09-19 一种基于作业功耗预测的节能调度方法及系统

Publications (2)

Publication Number Publication Date
CN115220900A CN115220900A (zh) 2022-10-21
CN115220900B true CN115220900B (zh) 2022-12-13

Family

ID=83617678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211138391.4A Active CN115220900B (zh) 2022-09-19 2022-09-19 一种基于作业功耗预测的节能调度方法及系统

Country Status (1)

Country Link
CN (1) CN115220900B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116069143B (zh) * 2023-04-06 2023-07-18 山东省计算中心(国家超级计算济南中心) 一种基于作业相似性判断功耗预测的节能方法及系统
CN116600553B (zh) * 2023-07-18 2023-09-19 科瑞特空调集团有限公司 一种室内服务器动态降温控制方法及系统
CN117667606B (zh) * 2024-02-02 2024-05-24 山东省计算中心(国家超级计算济南中心) 基于用户行为的高性能计算集群能耗预测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595301A (zh) * 2018-03-26 2018-09-28 中国科学院计算技术研究所 一种基于机器学习的服务器能耗预测方法和系统
CN111174375A (zh) * 2019-12-11 2020-05-19 西安交通大学 面向数据中心能耗最小化的作业调度和机房空调调控方法
CN114816699A (zh) * 2022-04-11 2022-07-29 山东省计算中心(国家超级计算济南中心) 基于温度预测的数据中心作业调度方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9081501B2 (en) * 2010-01-08 2015-07-14 International Business Machines Corporation Multi-petascale highly efficient parallel supercomputer
US9218035B2 (en) * 2012-02-10 2015-12-22 University Of Florida Research Foundation, Inc. Renewable energy control systems and methods
CN104660528A (zh) * 2013-11-25 2015-05-27 上海益尚信息科技有限公司 新型基于pn序列的ofdm系统导频信道估计方法及装置
WO2020035852A2 (en) * 2018-08-14 2020-02-20 Neurotrigger Ltd. Method and apparatus for transcutaneous facial nerve stimulation and applications thereof
US11910576B2 (en) * 2020-09-25 2024-02-20 Nvidia Corporation Heat recovery for datacenter cooling systems
US20220198562A1 (en) * 2020-12-18 2022-06-23 Strong Force TX Portfolio 2018, LLC Market orchestration system for facilitating electronic marketplace transactions
US20220207337A1 (en) * 2020-12-31 2022-06-30 Deepx Co., Ltd. Method for artificial neural network and neural processing unit

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108595301A (zh) * 2018-03-26 2018-09-28 中国科学院计算技术研究所 一种基于机器学习的服务器能耗预测方法和系统
CN111174375A (zh) * 2019-12-11 2020-05-19 西安交通大学 面向数据中心能耗最小化的作业调度和机房空调调控方法
CN114816699A (zh) * 2022-04-11 2022-07-29 山东省计算中心(国家超级计算济南中心) 基于温度预测的数据中心作业调度方法及系统

Also Published As

Publication number Publication date
CN115220900A (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
CN115220900B (zh) 一种基于作业功耗预测的节能调度方法及系统
Zhu et al. A three-dimensional virtual resource scheduling method for energy saving in cloud computing
Pakbaznia et al. Temperature-aware dynamic resource provisioning in a power-optimized datacenter
CN109800066B (zh) 一种数据中心节能调度方法及系统
CN105302630B (zh) 一种虚拟机的动态调整方法及其系统
CN107861796B (zh) 一种支持云数据中心能耗优化的虚拟机调度方法
CN105446816B (zh) 一种面向异构平台的能耗优化调度方法
CN109684074A (zh) 物理机资源分配方法及终端设备
CN105744006A (zh) 一种面向多类型服务的粒子群优化用户请求调度方法
Chaabouni et al. Energy management strategy in cloud computing: a perspective study
CN113010576A (zh) 云计算系统容量评估的方法、装置、设备和存储介质
CN114356543A (zh) 一种基于Kubernetes的多租户机器学习任务资源调度方法
CN114816699A (zh) 基于温度预测的数据中心作业调度方法及系统
Kaur et al. A preemptive priority based job scheduling algorithm in green cloud computing
Rajabzadeh et al. New comprehensive model based on virtual clusters and absorbing Markov chains for energy-efficient virtual machine management in cloud computing
CN112559122A (zh) 一种基于电力专用安防设备的虚拟化实例管控方法及系统
CN116467076A (zh) 一种基于集群可用资源的多集群调度方法及系统
Zhang et al. An energy-aware host resource management framework for two-tier virtualized cloud data centers
Jonardi et al. Energy cost optimization for geographically distributed heterogeneous data centers
Ma et al. Virtual machine migration techniques for optimizing energy consumption in cloud data centers
Yang et al. Design of kubernetes scheduling strategy based on LSTM and grey model
Iglesias et al. A methodology for online consolidation of tasks through more accurate resource estimations
CN111083201A (zh) 一种工业物联网中针对数据驱动制造服务的节能资源分配方法
Li et al. Energy-performance optimisation for the dynamic consolidation of virtual machines in cloud computing
CN110618861A (zh) 一种Hadoop集群节能系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant