CN115220900B - 一种基于作业功耗预测的节能调度方法及系统 - Google Patents
一种基于作业功耗预测的节能调度方法及系统 Download PDFInfo
- Publication number
- CN115220900B CN115220900B CN202211138391.4A CN202211138391A CN115220900B CN 115220900 B CN115220900 B CN 115220900B CN 202211138391 A CN202211138391 A CN 202211138391A CN 115220900 B CN115220900 B CN 115220900B
- Authority
- CN
- China
- Prior art keywords
- power consumption
- scheduling
- job
- data
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3013—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is an embedded system, i.e. a combination of hardware and software dedicated to perform a certain function in mobile devices, printers, automotive or aircraft systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5094—Allocation of resources, e.g. of the central processing unit [CPU] where the allocation takes into account power or heat criteria
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Power Sources (AREA)
Abstract
本发明公开了一种基于作业功耗预测的节能调度方法及系统,涉及高性能计算数据中心节能领域。通过资源监控模块,功耗预测模块和作业调度模块三个模块实现了数据的监控和功耗的预测,进而根据预测结果实现了作业调度。在节能调度方法中基于机器学习对作业队列中的作业功耗进行预测,使得预测结果比传统的理论模型更加准确,根据预测结果对负载作业和负载机柜进行分类,将高负载作业和低负载作业以轮询的方式分别分配给高负载机柜和低负载机柜,可以保证HPC数据中心的整体负载均衡。在机柜内将服务器划分为高温服务器和低温服务器,将作业优先分配给低温服务器可以防止机柜内出现局部温度过高的情况,有效避免了热点的出现。
Description
技术领域
本发明涉及高性能计算数据中心节能领域,特别涉及一种基于作业功耗预测的节能调度方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
高性能计算(High Performance Computing,HPC)数据中心包含数千个计算节点,以快速高效的方式计算具有高计算要求的科学应用,这些应用主要包含分子动力学,气象预测,核模拟等方面的计算。这些应用在执行的过程中会消耗大量的能耗。同时,由于现在的HPC应用调度主要为混合负载调度,在作业调度的过程中会出现作业集中分配到某一机柜或服务器的情形,造成HPC数据中心局部温度过高,而整体温度低的情况,从而形成热点。HPC数据中心出现热点情况后,不仅会导致冷却系统过度降低温度,增加冷却系统能耗,还会导致服务器发生故障,影响服务器的寿命和作业的运行。因此,减少HPC数据中心热点的出现,降低HPC数据中心的能耗是可行且必要的。
数据中心能耗的一部分为计算能耗,它代表硬件运行时所需要的能耗。很多研究都致力于减少计算能耗,如动态电压频率调整技术(Dynamic oltage and frequencyscaling,DVFS)、低电压集成电路技术等。此外还有一些研究致力于对空闲服务器进行关机或休眠,从而达到减少能耗的目标。这些技术在节能方面都有较好的效果,但是缺少对数据中心热点问题的考虑。
除计算能耗外,冷却能耗也是数据中心能耗的另一大组成部分。冷却能耗主要代表空调等冷却设备为了降低数据中心热量所产生的能耗。现有研究主要通过使用流体热力学对数据中心温度进行建模,该方法精确度高,但计算周期长且计算量大。此外,很多研究致力于通过机器学习算法,对服务器的温度进行预测。根据预测的温度结合调度算法,从而实现降低服务器温度,减少冷却能耗的目标。这类方法具有计算周期短且准确度高的优点,但是大部分研究只着重于解决服务器级别的热点问题,并没有考虑机柜级别的热点问题,所以会出现局部热点的现象,无法从根本解决负载不均衡的问题。
发明内容
针对现有技术存在的不足,本发明的目的是提供一种基于功耗预测的节能调度方法及系统,能够预测用户提交作业的运行功耗,根据预测的功耗将作业分发到不同机柜中的服务器进行运行,可以有效实现负载均衡以及防止HPC数据中心中热点的出现。
为了实现上述目的,本发明是通过如下的技术方案来实现:
本发明第一方面提供了一种基于功耗预测的节能调度方法,包括以下步骤:
监控用户提交作业的相关参数,监控数据中心内空调及计算设备的相关参数,监控调度器的相关参数,将监控到的数据保存到数据库中;
采集监控到的调度器相关参数并进行数据清洗,对清洗后的数据进行特征值筛选;采用不同的机器学习模型训练筛选后的特征值,预测出未来作业运行时的功耗,选择不同机器学习模型中精确度最高的模型;
根据预测结果设计作业调度方案,通过机柜级调度以及服务器级调度,将HPC作业下发到相对应的资源平台,完成HPC应用的调度。
进一步的,根据预测结果设计作业调度方案具体步骤为:
根据预测的结果对作业进行分类,基于分类结果对机柜进行分类;
将分类好的作业按照轮询的方式分配到每个机柜中;
采集机柜中每个服务器的温度,对服务器进行分类;
基于服务器的分类结果,计算服务器可用资源与需求资源的加权平均值作为每个服务器的分数,选择得分最高的服务器进行调度。
更进一步的,根据预测的结果对作业进行分类具体步骤为:预测出作业队列中每一个作业的功耗,并根据功耗分界值进行划分,若功耗大于功耗分界值则划分到高负载作业列表中,若功耗小于等于功耗分界值则划分到低负载作业列表中。
更进一步的,机柜分为高负载机柜和低负载机柜,高负载机柜中的服务器只能运行高负载作业列表中的作业,低负载机柜中的服务器只能运行低负载作业列表中的作业。
进一步的,对服务器进行分类具体为,在满足温度阈值的情况下,跟据设定的服务器温度分界线将服务器进行划分为高温服务器和低温服务器。
本发明第二方面提供了一种基于功耗预测的节能调度系统,包括:资源监控模块,功耗预测模块和作业调度模块;
资源监控模块,被配置为监控用户提交作业的相关参数,监控数据中心内空调及计算设备的相关参数,监控调度器的相关参数,将监控到的数据保存到数据库中;
功耗预测模块,被配置为采集监控到的调度器相关参数并进行数据清洗,对清洗后的数据进行特征值筛选;采用不同的机器学习模型训练筛选后的特征值,预测出未来作业运行时的功耗,选择不同机器学习模型中精确度最高的模型;
作业调度模块,被配置为根据上述预测模块的结果设计作业调度方案,通过机柜级调度以及服务器级调度,将HPC作业下发到相对应的资源平台,完成HPC应用的调度。
进一步的,资源监控模块包括作业监控模块、调度器监控模块和数据中心监控模块。
更进一步的,作业监控模块用于监控用户提交的作业信息,调度器监控模块用于监控调度器的历史调度信息;数据中心监控模块用于监控冷却设备和计算设备的相关参数。
进一步的,功耗预测模块包括数据采集模块、数据清洗模块和模型训练模块。
更进一步的,数据采集模块用于采集上述作业监控模块和调度监控模块监控到的数据;数据清洗模块用于将采集到的数据进行清洗以及合并,对合并后的数据进行特征值筛选;模型训练模块用于采用不同的机器学习模型对筛选后的特征值进行预测,预测出未来作业运行时的功耗。
上述本发明的实施例的有益效果如下:
本发明公开了一种基于功耗预测的节能调度方法,基于机器学习对作业队列中的作业功耗进行预测,使得预测结果比传统的理论模型更加准确,根据预测结果将其分为高负载作业和低负载作业进行调度。将HPC数据中心的机柜在空间上间隔划分为高负载机柜和低负载机柜,将高负载作业和低负载作业以轮询的方式分别分配给高负载机柜和低负载机柜,可以保证HPC数据中心的整体负载均衡,同时可以使机房温度在整体上趋于平衡,避免出现局部热点的现象,降低了HPC数据中心的冷却能耗。在机柜内将服务器划分为高温服务器和低温服务器,将作业优先分配给低温服务器可以防止机柜内出现局部温度过高的情况,有效避免了热点的出现。
本发明公开了一种基于功耗预测的节能调度系统,通过资源监控模块,功耗预测模块和作业调度模块三个模块实现了数据的监控和功耗的预测,进而根据预测结果实现了作业调度,由于在节能调度方法中分别基于机柜级别和服务器级别进行作业功耗的预测及调度,从局部和整体两方面解决了负载不均衡的问题。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一中功耗预测流程示意图;
图2为本发明实施例一中一种机柜级的作业调度方法的流程图;
图3为本发明实施例一中HPC数据中心机柜分布示意图;
图4为本发明实施例一中一种服务器级的作业调度方法的流程图;
图5为本发明实施例二中基于作业功耗预测的节能调度系统的整体架构图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合;
实施例一:
本发明实施例一提供了一种基于功耗预测的节能调度方法,包括以下步骤:
监控用户提交作业的相关参数,监控数据中心内空调及计算设备的相关参数,监控调度器的相关参数,将监控到的数据保存到数据库中;
采集监控到的调度器相关参数并进行数据清洗,对清洗后的数据进行特征值筛选;采用不同的机器学习模型训练筛选后的特征值,预测出未来作业运行时的功耗,选择不同机器学习模型中精确度最高的模型;
根据预测结果设计作业调度方案,通过机柜级调度以及服务器级调度,将HPC作业下发到相对应的资源平台,完成HPC应用的调度。
优选的,监控HPC数据中心相关资源信息主要为实时监控当前HPC数据中心内的数据,并将监控到的数据存储到数据库中,供其他模块调用。主要监控三个方面:作业监控、数据中心监控和调度器监控。
其中,作业监控主要负责监控用户提交的作业信息,为后续作业的功耗预测做准备,作业监控的具体信息如下表1所示:
表1.作业监控具体信息
其中,数据中心监控主要负责监控HPC数据中心内计算设备和冷却设备的相关信息,后续作业调度算法可以根据监控到的数据决定调度方案。数据中心监控的具体信息如下表2所示:
表2.数据中心监控的具体信息
其中,调度器监控主要负责监控HPC调度器的历史调度日志,通过监控历史数据,可以为作业功耗预测中的模型训练做数据支持。调度器监控的具体信息如下表3所示:
表3.调度器监控的具体信息
优选的,构建功耗预测模型主要负责用不同的机器学习模型对数据中心的调度器的历史信息进行训练。并根据训练结果对作业队列中的作业进行功耗预测。作业功耗预测主要分为三个步骤:数据采集,数据清洗以及模型训练。基于机器学习功耗预测的流程如图1所示,从资源监控模块获取数据后经过数据采集和数据清洗步骤,生成n个特征值,将特征值输入不同的训练模型训练从而预测功耗,根据功耗预测结果结合调度算法生成调度方案发送给HPC调度器进行调度,HPC调度器根据调度方案对作业队列进行调度,对调度完成后的作业队列重新进行功耗预测。
具体步骤为:
步骤1:采集调度器监控到的历史数据。
步骤2:针对步骤1采集到的数据,使用Hadoop数据计算框架对采集到的离线数据进行过滤和清洗,删除其中值为0或Null的数据,并将与作业功耗无关的字段进行删除,确定最终的特征值。
步骤3:采用不同的机器学习模型对上述清洗后的数据进行训练并进行行为预测。通过比较不同预测模型的精确度,选择其中精确度最高的模型。行为预测公式如下:
步骤4:采集作业队列中的作业信息,对其作业功耗进行预测,将预测的作业功耗值提交给调度算法,生成调度方案。
设计作业调度方案主要负责根据预测模块预测后得到的预测值,调度算法根据预测值及数据中心相关参数生成作业与服务器之间的映射方案,交由Slurm调度器进行调度。具体调度算法为机柜级调度和服务器级调度。
优选的,基于预测模型的预测结果设计作业调度方案具体步骤为:
根据预测的结果对作业进行分类,基于分类结果对机柜进行分类;
将分类好的作业按照轮询的方式分配到每个机柜中;
采集机柜中每个服务器的温度,对服务器进行分类;
基于服务器的分类结果,计算服务器可用资源与需求资源的加权平均值作为每个服务器的分数,选择得分最高的服务器进行调度。
具体过程为:
假设目前作业队列中有n个作业,,将队列中作业的功耗进行预测,根据上述功耗预测模块的结果,预测出作业队列J中每一个作业的功耗,其中i代表作业的编号, i=(1,…,n)。将预测的功耗值按分界值进行划分,若则划分到高负载作业列表中,若则划分到低负载作业列表中。
为了防止热点的出现,本发明将作业优先选择低温列表中的服务器进行分配。在低温列表中,计算服务器可用资源与需求资源的加权平均值作为每个服务器的分数,选择得分最高的服务器进行调度。具体得分计算公式如下式(2)所示
优选的,机柜级调度流程如图2所示,将机柜划分为高负载机柜和低负载机柜,采集作业队列功耗预测信息并与功耗分界线进行比较。根据判断结果执行轮询调度策略,将大于功耗分界线的作业分配到高负载机柜执行高负载服务器级调度,反之分配到低负载机柜执行低负载服务器级调度,直至作业队列为空,完成调度。
具体步骤如下:
步骤1:按照图3所示将HPC数据中心中的机柜将除端部列头柜之外的机柜划分为高负载机柜和低负载机柜,高负载机柜内只运行高负载作业,低负载机柜内只运行低负载作业。然后转到步骤2。高负载机柜与低负载机柜交叉分布,负载机柜之间设置冷却设备,如空调。负载机柜从后面将热风排出,形成封闭热通道,空调从前面将冷风排出,形成封闭冷通道。
步骤2:遍历作业队列,采集上述功耗预测模型预测后的作业功耗大小,然后转到步骤3。
步骤6:执行低负载服务器级调度,确定低负载作业最终的调度方案,然后转到步骤8。
步骤7:执行高负载服务器级调度,确定高负载作业最终的调度方案,然后转到步骤8。
步骤8:判断作业队列是否为空,若是,则转到步骤9,否则转到步骤2。
步骤9:调度结束。
优选的,服务器级调度流程如图4所示,遍历机柜中的服务器列表,采集服务器的平均温度,并与温度分界值进行比较,若大于温度分界值且小于温度阈值则将服务器归类为高温服务器,若小于温度分界值则将服务器归类为低温服务器。采集低温服务器的剩余资源大小,计算其得分,判断是否遍历结束,直至遍历结束后选择得分最高的服务器完成调度。
低负载服务器级调度方式与高负载服务器级调度相同,此处以高负载机柜中的服务器级调度为例,具体步骤如下:
步骤7:根据上述资源监控模块采集服务器的剩余资源,服务器资源主要包括CPU和内存,转到步骤8。
步骤9:判断服务器是否遍历结束,若是则执行步骤10,若否则执行步骤1。
步骤10:将每个服务器的得分进行排序,选择的分最高的服务器进行作业调度,若作业需要n个服务器运行,则选择排名前n的服务器执行,执行步骤11。
步骤11:作业调度结束。
经过上述两个调度步骤后,可以保证HPC数据中心实现负载均衡,从而减少数据中心内作业分配不均而导致的热点问题,有效降低了数据中心的冷却能耗,本发明所提供的调度方法可部署在不同的同构HPC数据中心,仅需要有相关的接口和调度器,具有良好的应用前景。
实施例二:
本发明实施例二提供了一种基于功耗预测的节能调度系统,如图5所示,包括HPC数据中心集群,HPC集群内包含多个服务器和冷却系统,冷却系统中含多个冷却设备,本实施例中冷却设备为空调。还包括三个主要的核心模块:资源监控模块、功耗预测模块、作业调度模块,资源监控模块用于作业监控、调度器监控和数据中心监控,通过监控数据与其他设备进行信息交互。功率预测模块依次经过数据采集、数据清洗和模型训练等步骤预测出未来作业运行时的功耗,并将预测结果发送给作业调度模块,作业调度模块获取用户提交作业后形成作业队列,根据上述预测模块的结果,结合调度算法,将HPC作业下发到HPC集群,完成HPC应用的调度。
具体每个模块的功能如下:
S100资源监控模块,被配置为监控用户提交作业的相关参数,监控数据中心内冷却设备及计算设备的相关参数,监控调度器的相关参数,将监控到的数据保存到数据库中。资源监控模块包括作业监控模块、调度器监控模块和数据中心监控模块。
优选的,调度器主要负责按照调度策略将作业分配到不同的计算节点上进行计算。一方面,可以从调度器上采集到作业运行所需的资源例如CPU、内存、磁盘、节点数量等,此外还有作业在数据中心中运行的位置,以及作业开始的时间和作业结束的时间。在本实施例中,调度器采集这些数据后与其余几个监控模块的数据进行合并,作为功耗预测模块的训练数据。另一方面,当新作业准备运行时,可以根据功耗预测模块,对该作业的功耗进行预测,调度器会根据提出的调度策略将作业提交到指定的节点运行。
其中,作业监控模块负责获取用户提交作业的相关资源需求信息,如作业所需CPU核数,所需内存大小,所需节点个数等;调度器监控模块负责获取调度器历史调度作业的资源需求数据及作业运行时功耗;数据中心监控模块负责获取数据中心冷却系统的相关参数,如冷却设备设定的温度、冷却设备的能耗、计算设备的温度、计算设备的功耗等。
S200功耗预测模块,被配置为采集监控到的调度器相关参数并进行数据清洗,对清洗后的数据进行特征值筛选;采用不同的机器学习模型训练筛选后的特征值,预测出未来作业运行时的功耗,选择不同机器学习模型中精确度最高的模型。功耗预测模块包括数据采集模块、数据清洗模块和模型训练模块。
其中,数据采集模块用于采集上述作业监控模块和调度监控模块监控到的数据;数据清洗模块用于将采集到的数据进行清洗以及合并,删除其中值为0或者为空的数据,并将清洗后的数据按照作业的ID进行合并,对合并后的数据进行特征值筛选;模型训练模块用于采用不同的机器学习模型对筛选后的特征值进行预测,预测出未来作业运行时的功耗。
S300作业调度模块被配置为根据上述预测模块的结果,通过机柜级调度以及服务器级调度,将HPC作业下发到相对应的资源平台,完成HPC应用的调度。
具体的,机柜级作业调度负责将数据中心按照设定划分为高负载机柜和低负载机柜,高负载机柜只能运行高负载作业,低负载机柜只能运行低负载作业。将分类好的作业按照轮询的方式分配到不同的机柜;服务器级作业调度负责在机柜中将服务器按照温度划分为低温区和高温区。计算低温区内每个服务器的得分,按照分数的高低进行排序,选择其中分数最高的服务器,调度器根据上述结果将作业发往指定的服务器运行。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种基于功耗预测的节能调度方法,其特征在于,包括以下步骤:
监控用户提交作业的相关参数,监控数据中心内空调及计算设备的相关参数,监控调度器的相关参数,将监控到的数据保存到数据库中;
采集监控到的调度器相关参数并进行数据清洗,对清洗后的数据进行特征值筛选;采用不同的机器学习模型训练筛选后的特征值,预测出未来作业运行时的功耗,选择不同机器学习模型中精确度最高的模型;作业功耗预测主要分为三个步骤:数据采集,数据清洗以及模型训练;从资源监控模块获取数据后经过数据采集和数据清洗步骤,生成n个特征值,将特征值输入不同的训练模型训练从而预测功耗,根据功耗预测结果结合调度算法生成调度方案发送给HPC调度器进行调度,HPC调度器根据调度方案对作业队列进行调度,对调度完成后的作业队列重新进行功耗预测;
根据预测结果设计作业调度方案,通过机柜级调度以及服务器级调度,将HPC作业下发到相对应的资源平台,完成HPC应用的调度;
根据预测结果设计作业调度方案具体步骤为:
根据预测的结果对作业进行分类,基于分类结果对机柜进行分类;
将分类好的作业按照轮询的方式分配到每个机柜中;
采集机柜中每个服务器的温度,对服务器进行分类;
基于服务器的分类结果,计算服务器可用资源与需求资源的加权平均值作为每个服务器的分数,选择得分最高的服务器进行调度。
2.如权利要求1所述的一种基于功耗预测的节能调度方法,其特征在于,根据预测的结果对作业进行分类具体步骤为:预测出作业队列中每一个作业的功耗,并根据功耗分界值进行划分,若功耗大于功耗分界值则划分到高负载作业列表中,若功耗小于等于功耗分界值则划分到低负载作业列表中。
3.如权利要求2所述的一种基于功耗预测的节能调度方法,其特征在于,机柜分为高负载机柜和低负载机柜,高负载机柜中的服务器只能运行高负载作业列表中的作业,低负载机柜中的服务器只能运行低负载作业列表中的作业。
4.如权利要求1所述的一种基于功耗预测的节能调度方法,其特征在于,对服务器进行分类具体为,在满足温度阈值的情况下,跟据设定的服务器温度分界线将服务器进行划分为高温服务器和低温服务器。
5.一种基于功耗预测的节能调度系统,其特征在于,包括:资源监控模块,功耗预测模块和作业调度模块;
资源监控模块,被配置为监控用户提交作业的相关参数,监控数据中心内空调及计算设备的相关参数,监控调度器的相关参数,将监控到的数据保存到数据库中;
功耗预测模块,被配置为采集监控到的调度器相关参数并进行数据清洗,对清洗后的数据进行特征值筛选;采用不同的机器学习模型训练筛选后的特征值,预测出未来作业运行时的功耗,选择不同机器学习模型中精确度最高的模型;作业功耗预测主要分为三个步骤:数据采集,数据清洗以及模型训练;从资源监控模块获取数据后经过数据采集和数据清洗步骤,生成n个特征值,将特征值输入不同的训练模型训练从而预测功耗,根据功耗预测结果结合调度算法生成调度方案发送给HPC调度器进行调度,HPC调度器根据调度方案对作业队列进行调度,对调度完成后的作业队列重新进行功耗预测;
作业调度模块,被配置为根据上述预测模块的结果设计作业调度方案,通过机柜级调度以及服务器级调度,将HPC作业下发到相对应的资源平台,完成HPC应用的调度;
根据预测结果设计作业调度方案具体步骤为:
根据预测的结果对作业进行分类,基于分类结果对机柜进行分类;
将分类好的作业按照轮询的方式分配到每个机柜中;
采集机柜中每个服务器的温度,对服务器进行分类;
基于服务器的分类结果,计算服务器可用资源与需求资源的加权平均值作为每个服务器的分数,选择得分最高的服务器进行调度。
6.如权利要求5所述的一种基于功耗预测的节能调度系统,其特征在于,资源监控模块包括作业监控模块、调度器监控模块和数据中心监控模块。
7.如权利要求6所述的一种基于功耗预测的节能调度系统,其特征在于,作业监控模块用于监控用户提交的作业信息,调度器监控模块用于监控调度器的历史调度信息;数据中心监控模块用于监控冷却设备和计算设备的相关参数。
8.如权利要求5所述的一种基于功耗预测的节能调度系统,其特征在于,功耗预测模块包括数据采集模块、数据清洗模块和模型训练模块。
9.如权利要求8所述的一种基于功耗预测的节能调度系统,其特征在于,数据采集模块用于采集作业监控模块和调度监控模块监控到的数据;数据清洗模块用于将采集到的数据进行清洗以及合并,对合并后的数据进行特征值筛选;模型训练模块用于采用不同的机器学习模型对筛选后的特征值进行预测,预测出未来作业运行时的功耗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211138391.4A CN115220900B (zh) | 2022-09-19 | 2022-09-19 | 一种基于作业功耗预测的节能调度方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211138391.4A CN115220900B (zh) | 2022-09-19 | 2022-09-19 | 一种基于作业功耗预测的节能调度方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115220900A CN115220900A (zh) | 2022-10-21 |
CN115220900B true CN115220900B (zh) | 2022-12-13 |
Family
ID=83617678
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211138391.4A Active CN115220900B (zh) | 2022-09-19 | 2022-09-19 | 一种基于作业功耗预测的节能调度方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115220900B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116069143B (zh) * | 2023-04-06 | 2023-07-18 | 山东省计算中心(国家超级计算济南中心) | 一种基于作业相似性判断功耗预测的节能方法及系统 |
CN116600553B (zh) * | 2023-07-18 | 2023-09-19 | 科瑞特空调集团有限公司 | 一种室内服务器动态降温控制方法及系统 |
CN117667606B (zh) * | 2024-02-02 | 2024-05-24 | 山东省计算中心(国家超级计算济南中心) | 基于用户行为的高性能计算集群能耗预测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595301A (zh) * | 2018-03-26 | 2018-09-28 | 中国科学院计算技术研究所 | 一种基于机器学习的服务器能耗预测方法和系统 |
CN111174375A (zh) * | 2019-12-11 | 2020-05-19 | 西安交通大学 | 面向数据中心能耗最小化的作业调度和机房空调调控方法 |
CN114816699A (zh) * | 2022-04-11 | 2022-07-29 | 山东省计算中心(国家超级计算济南中心) | 基于温度预测的数据中心作业调度方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9081501B2 (en) * | 2010-01-08 | 2015-07-14 | International Business Machines Corporation | Multi-petascale highly efficient parallel supercomputer |
US9218035B2 (en) * | 2012-02-10 | 2015-12-22 | University Of Florida Research Foundation, Inc. | Renewable energy control systems and methods |
CN104660528A (zh) * | 2013-11-25 | 2015-05-27 | 上海益尚信息科技有限公司 | 新型基于pn序列的ofdm系统导频信道估计方法及装置 |
WO2020035852A2 (en) * | 2018-08-14 | 2020-02-20 | Neurotrigger Ltd. | Method and apparatus for transcutaneous facial nerve stimulation and applications thereof |
US11910576B2 (en) * | 2020-09-25 | 2024-02-20 | Nvidia Corporation | Heat recovery for datacenter cooling systems |
US20220198562A1 (en) * | 2020-12-18 | 2022-06-23 | Strong Force TX Portfolio 2018, LLC | Market orchestration system for facilitating electronic marketplace transactions |
US20220207337A1 (en) * | 2020-12-31 | 2022-06-30 | Deepx Co., Ltd. | Method for artificial neural network and neural processing unit |
-
2022
- 2022-09-19 CN CN202211138391.4A patent/CN115220900B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595301A (zh) * | 2018-03-26 | 2018-09-28 | 中国科学院计算技术研究所 | 一种基于机器学习的服务器能耗预测方法和系统 |
CN111174375A (zh) * | 2019-12-11 | 2020-05-19 | 西安交通大学 | 面向数据中心能耗最小化的作业调度和机房空调调控方法 |
CN114816699A (zh) * | 2022-04-11 | 2022-07-29 | 山东省计算中心(国家超级计算济南中心) | 基于温度预测的数据中心作业调度方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115220900A (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115220900B (zh) | 一种基于作业功耗预测的节能调度方法及系统 | |
Zhu et al. | A three-dimensional virtual resource scheduling method for energy saving in cloud computing | |
Pakbaznia et al. | Temperature-aware dynamic resource provisioning in a power-optimized datacenter | |
CN109800066B (zh) | 一种数据中心节能调度方法及系统 | |
CN105302630B (zh) | 一种虚拟机的动态调整方法及其系统 | |
CN107861796B (zh) | 一种支持云数据中心能耗优化的虚拟机调度方法 | |
CN105446816B (zh) | 一种面向异构平台的能耗优化调度方法 | |
CN109684074A (zh) | 物理机资源分配方法及终端设备 | |
CN105744006A (zh) | 一种面向多类型服务的粒子群优化用户请求调度方法 | |
Chaabouni et al. | Energy management strategy in cloud computing: a perspective study | |
CN113010576A (zh) | 云计算系统容量评估的方法、装置、设备和存储介质 | |
CN114356543A (zh) | 一种基于Kubernetes的多租户机器学习任务资源调度方法 | |
CN114816699A (zh) | 基于温度预测的数据中心作业调度方法及系统 | |
Kaur et al. | A preemptive priority based job scheduling algorithm in green cloud computing | |
Rajabzadeh et al. | New comprehensive model based on virtual clusters and absorbing Markov chains for energy-efficient virtual machine management in cloud computing | |
CN112559122A (zh) | 一种基于电力专用安防设备的虚拟化实例管控方法及系统 | |
CN116467076A (zh) | 一种基于集群可用资源的多集群调度方法及系统 | |
Zhang et al. | An energy-aware host resource management framework for two-tier virtualized cloud data centers | |
Jonardi et al. | Energy cost optimization for geographically distributed heterogeneous data centers | |
Ma et al. | Virtual machine migration techniques for optimizing energy consumption in cloud data centers | |
Yang et al. | Design of kubernetes scheduling strategy based on LSTM and grey model | |
Iglesias et al. | A methodology for online consolidation of tasks through more accurate resource estimations | |
CN111083201A (zh) | 一种工业物联网中针对数据驱动制造服务的节能资源分配方法 | |
Li et al. | Energy-performance optimisation for the dynamic consolidation of virtual machines in cloud computing | |
CN110618861A (zh) | 一种Hadoop集群节能系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |