CN116069143B - 一种基于作业相似性判断功耗预测的节能方法及系统 - Google Patents
一种基于作业相似性判断功耗预测的节能方法及系统 Download PDFInfo
- Publication number
- CN116069143B CN116069143B CN202310354094.1A CN202310354094A CN116069143B CN 116069143 B CN116069143 B CN 116069143B CN 202310354094 A CN202310354094 A CN 202310354094A CN 116069143 B CN116069143 B CN 116069143B
- Authority
- CN
- China
- Prior art keywords
- job
- power consumption
- similarity
- node
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 26
- 238000001816 cooling Methods 0.000 claims abstract description 13
- 238000004134 energy conservation Methods 0.000 claims abstract description 7
- 238000010438 heat treatment Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 21
- 238000012544 monitoring process Methods 0.000 claims description 18
- 238000007781 pre-processing Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 5
- 238000005265 energy consumption Methods 0.000 abstract description 10
- 238000003062 neural network model Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004634 pharmacological analysis method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H05—ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
- H05K—PRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
- H05K7/00—Constructional details common to different types of electric apparatus
- H05K7/20—Modifications to facilitate cooling, ventilating, or heating
- H05K7/20709—Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
- H05K7/20836—Thermal management, e.g. server temperature control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/20—Cooling means
- G06F1/206—Cooling means comprising thermal management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
- G06F11/3062—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H05—ELECTRIC TECHNIQUES NOT OTHERWISE PROVIDED FOR
- H05K—PRINTED CIRCUITS; CASINGS OR CONSTRUCTIONAL DETAILS OF ELECTRIC APPARATUS; MANUFACTURE OF ASSEMBLAGES OF ELECTRICAL COMPONENTS
- H05K7/00—Constructional details common to different types of electric apparatus
- H05K7/20—Modifications to facilitate cooling, ventilating, or heating
- H05K7/20709—Modifications to facilitate cooling, ventilating, or heating for server racks or cabinets; for data centers, e.g. 19-inch computer racks
- H05K7/208—Liquid cooling with phase change
- H05K7/20827—Liquid cooling with phase change within rooms for removing heat from cabinets, e.g. air conditioning devices
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Thermal Sciences (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于高性能计算数据中心节能领域,提供了一种基于作业相似性判断功耗预测的节能方法及系统,针对数据中心高昂的运营成本,采用了基于各指标信息和作业日志信息与目标作业计算节点对应的各指标信息和日志信息进行相似度判断,计算出每个作业与目标作业的相似度得分,将大于相似度得分阈值的作业作为功耗预测的训练数据;基于功耗预测的训练数据对功耗预测模型进行训练,采用训练后的功耗预测模型预测目标作业所在节点未来的功耗情况;根据目标作业所在节点的功耗情况,对目标作业所在节点进行升温或降温操作。可以减少HPC集群中热点的出现,同时降低HPC集群中的冷却能耗,实现了HPC集群中节能的目标。
Description
技术领域
本发明属于高性能计算数据中心节能领域,尤其涉及一种基于作业相似性判断的功耗预测节能方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
近年来,随着高性能计算的迅猛发展,高性能计算(High performancecomputing,HPC)集群的算力也在不断增强,与传统的并行计算机相比,HPC集群拥有更高的性价比以及更好的扩展性。HPC集群已经成为气象、药理分析、石油勘探、基因工程等多个科学计算领域不可或缺的基础设施。但与之而来的是HPC集群能耗不断增加。HPC集群作为数据中心的重要组成部分,数据中心的巨大能源消耗除了给其带来高昂的运营成本,还会对环境造成严重的污染与破坏。因此,建设绿色高效的数据中心已迫在眉睫。
目前,大多数的功耗预测是对数据中心内整体的作业进行预测,缺少从用户的角度进行预测。由于高性能计算集群内多种不同类型的作业,不同类型作业在功耗的波动上存在差异性,因此,如果仅仅对HPC集群内整体的作业进行预测会降低预测的精确度。
发明内容
为了解决上述背景技术中存在的至少一项技术问题,本发明提供一种基于作业相似性判断的功耗预测节能方法及系统,其通过对用户提交的作业进行相似性判断,选择历史数据中的相似作业进行训练,然后将训练好的模型用提交作业的功耗预测,可以根据预测的功耗对空调等冷却设备进行提前升温或者降温,有效实现HPC集群的节能以及机房内热点的出现。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于作业相似性判断功耗预测的节能方法,包括:
获取HPC集群中每个作业计算节点的各指标信息和作业日志信息;
基于各指标信息和作业日志信息与目标作业计算节点对应的各指标信息和日志信息进行相似度判断,计算出每个作业与目标作业的相似度得分,将大于相似度得分阈值的作业作为功耗预测的训练数据;
基于功耗预测的训练数据对功耗预测模型进行训练,采用训练后的功耗预测模型预测目标作业所在节点未来的功耗情况;
根据目标作业所在节点的功耗情况,对目标作业所在节点进行升温或降温操作。
进一步地,获取HPC集群中每个作业计算节点的各指标信息和作业日志信息后,对信息进行预处理,包括:删除其中不完整或值为0的指标信息,并且删除作业运行时间过短或作业运行状态为非完成的作业。
进一步地,所述基于各指标信息和作业日志信息与目标作业计算节点对应的各指标信息和日志信息进行相似度判断的过程具体包括:
选取每一个作业运行时计算节点的功耗以及每一个作业的多个特征值;
将多个特征值与目标作业的对应特征进行相似度计算得到多项得分,为每一项赋予权重后加权求和后得到相似度得分。
进一步地,所述得分包括四项,第一项为目标作业与初始队列中作业使用的核心数和节点数的相似度,第二项为目标作业与初始队列中作业所在的工作路径的相似度,第三项为目标作业与初始队列中作业的作业名相似度,第四项为目标作业与初始队列中作业计算节点的功耗。
进一步地,所述目标作业与初始队列中作业使用的核心数和节点数的相似度计算时,将计算核心数和节点数的相似度问题转化为待分类点与已知类别点的距离问题求解。
进一步地,所述目标作业与初始队列中作业所在的工作路径的相似度计算时,采用编辑距离算法,计算目标作业的作业名称与作业路径转化为初始队列中作业的作业名称与作业路径的最少编辑操作次数。
进一步地,所述目标作业与初始队列中作业计算节点的功耗计算时,将其转为时序数据的距离,采用动态时间规整算法进行计算。
本发明的第二个方面提供一种基于作业相似性判断功耗预测的节能系统,包括:
资源监控模块,其被配置为:用于获取HPC集群中计算节点的各指标信息和用户提交作业的日志信息;
作业相似性判断模块,其被配置为:基于HPC集群中每个作业计算节点的各指标信息和日志信息与目标作业计算节点对应的各指标信息和日志信息进行相似度判断,计算出每个作业与目标作业的相似度,将大于相似度阈值的作业作为功耗预测的训练数据;
功耗预测模块,其被配置为:基于功耗预测的训练数据对功耗预测模型进行训练,采用训练后的功耗预测模型预测目标作业所在节点未来的功耗情况;
节能模块,其被配置为:根据目标作业所在节点的功耗情况,对目标作业所在节点进行升温或降温操作。
进一步地,所述系统还包括数据预处理模块,其被配置为:删除各指标信息和作业日志信息中不完整或值为0的指标信息,并且删除作业运行时间过短或作业运行状态为非完成的作业。
进一步地,所述作业相似性判断模块中, 所述基于各指标信息和作业日志信息与目标作业计算节点对应的各指标信息和日志信息进行相似度判断的过程具体包括:
选取每一个作业运行时计算节点的功耗以及每一个作业的多个特征值;
将多个特征值与目标作业的对应特征进行相似度计算得到多项得分,为每一项赋予权重后加权求和后得到相似度得分。
与现有技术相比,本发明的有益效果是:
本发明通过对用户提交的作业进行相似性判断,选择历史数据中的相似作业进行训练,然后将训练好的模型用提交作业的功耗预测,训练模型的数据集与目标作业更具有相关性提高了预测的精确度。
本发明可以根据预测的功耗对空调等冷却设备进行提前升温或者降温,可以有效实现HPC集群的节能以及机房内热点的出现,同时降低HPC集群中的冷却能耗,实现了HPC集群中节能的目标。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一提供的一种基于作业相似性判断的作业功耗预测的节能方法的流程图;
图2为本发明实施例一提供的数据监控模块的示意图;
图3为本发明实施例一提供的作业功耗预测模块和相似性判断模块的示意图;
图4为本发明实施例二提供的基于作业相似性判断的作业功耗预测的节能系统的整体架构图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
能耗预测是提高HPC集群能效水平,实现节能调度的基础,是数据中心优化设计、优化控制、能源审计等任务的“压舱石”。当前,HPC集群内服务器的高耗能低效能的问题已经引起了学术界的广泛关注,提高HPC集群内服务器的资源利用率,降低服务器能耗亟待解决。因此对HPC集群内的服务器进行特征分析并构建能耗预测模型将产生巨大的经济价值以及科研意义。具体意义主要包含:(1)数据中心内的工作人员可以根据数据中心的功耗变化,制定相关的节能策略,在能耗高峰期减少用户提交作业的排队时间,减少HPC集群内热点的出现,在能耗低峰期减少空闲资源的能耗,提高HPC集群的整体利用率。
(2)目前HPC集群的出租方式通常为按时计费,构建准确的功耗预测模型可以帮助数据中心制定新的计费方式(按能耗计费),从而为用户提供多元消费方式,满足不同用户的差异性需求,提升用户的满意度,为数据中心增加收入。
实施例一
如图1所示,本实施例提供了一种基于作业相似性判断的作业功耗预测的节能方法,包括如下步骤:
步骤1:获取HPC集群中每个作业计算节点相关指标和作业日志信息数据,然后转到步骤2;
步骤1中,所述指标具体包括:服务器相关指标、文件系统相关指标、网络相关指标和微指令相关指标等;
所述各指标信息包括功耗和CPU利用率等。
所述作业日志信息数据主要包括用户名、作业名、作业使用的CPU核心数以及节点数等。
步骤2:对计算节点相关指标和作业日志信息数据进行预处理;
步骤2中,所述对计算节点相关指标和作业日志信息数据进行预处理包括:对采集到的数据进行数据清洗,删除其中不完整或值为0的指标信息,并且删除作业运行时间过短或作业运行状态为非完成的作业,最终得到清洗后的历史数据。
步骤3:遍历用户新提交的作业集合。
步骤4:对过滤后的作业进行初步筛选,选择清洗后作业的用户名和队列名/>与目标作业/>相同的作业信息作为相似度判断的输入,最终得到第一作业集合/>,若第一作业集合/>的数量小于指定的作业数R,则转到步骤5,否则转到步骤6。
步骤5:选择目标作业相邻的1000个作业作为第二作业集合,然后转到步骤6。
步骤6:根据公式(1)计算出目标作业与第一作业集合/>中每一个作业的相似度得分,并对得分降序排序。
步骤6中,从时序数据库中采集第一作业集合中每一个作业运行时计算节点的功耗/>,从/>集合中选取每一个作业的多个特征值包括:作业使用的核心数/>,作业使用的节点数/>,作业所在的工作路径/>,作业名以及作业运行时计算节点的/>,将第一作业集合/>中每一个作业的这五个指标与目标作业/>的这五个指标进行相似度计算,得到相似度得分。
(1)
其中,,/>,/>,/>代表每个特征相似度的权重比例,相加和为1;代表目标作业/>与初始队列中作业使用的核心数/>和节点数/>的相似度,/>代表目标作业/>与初始队列中作业所在的工作路径/>的相似度,/>代表目标作业/>与初始队列中作业名/>的相似度,/>代表目标作业/>与初始队列中计算节点的功耗/>的相似度。通过计算得出最后的相似度/>,/>越大代表相似度越高。
在的计算方面,由于目标作业/>的CPU核心数和节点数是一个具体的数值而且不会发生变化;
因此本实施例中,将计算核心数和节点数的相似度问题转化为待分类点与已知类别点的距离问题,采用KNN模型计算出与/>中所有作业的节点数和CPU核心数的距离,计算公式如式(2)所示。
(2)
在和/>的计算方面,由于目标作业/>的作业名称与作业路径都是字符串类型,因此不能采用KNN模型计算其距离,而是需要将转化为字符串的匹配问题;
本实施例中,采用编辑距离算法计算目标作业的作业名称与作业路径转化为/>集合中作业的作业名称与作业路径的最少编辑操作次数,计算公式如(3)和(4)所示。
(3)
(4)
在的计算方面,由于后续需要根据目标作业的前十分钟的功耗预测未来T分钟的功耗,需要计算/>的前十分钟功耗与/>集合中作业的前十分钟功耗的相似度。
的功耗是时序数据,因此可以将功耗的相似度计算转为时序数据的距离计算,因此采用动态时间规整算法进行计算,计算公式如(5)所示。
(5)
最终,根据计算得到目标作业与/>集合中每一个作业的/>,并降序排序。
步骤7:设定的相似度得分阈值,若目标作业与/>作业i的则跳转到步骤8,否则删除作业。
步骤8:将作业加入到中构成功耗预测的训练集,然后跳转到步骤9。
根据制定的相似度得分阈值选取大于等于/>的作业作为后续功耗预测的训练集/>。其中,/>∈/>。
步骤9:对中的作业进行数据预处理,转换成模型训练所需的维度和格式,采用神经网络模型对模型进行训练,最终根据训练的模型对目标作业/>进行功耗预测,预测出该作业所在节点未来T时间的功耗波动,然后转到步骤10。
将相似度判断得到的作业集合作为模型的输入,对/>中每一个作业运行时计算节点的相关指标进行合并,采用多种神经网络模型对/>进行训练并对进行功耗预测,最终从多种神经网络模型中选择精确度最高的模型,预测出运行的所在计算节点未来T分钟的功耗波动,/>每一分钟的功耗表示为。
步骤10:根据公式(7)计算出目标作业所在节点预测前后的平均功耗增量,然后转到步骤11。
根据预测得到的,计算每一个节点/>未来T时刻内的平均功耗增量/>,每当上升或降低25瓦特,并且功耗发生改变的节点数量超过三个,则对空调上升或下降1℃,具体用公式(6)表示。
(6)
(7)
其中,表示/>所用的计算节点数量/>表示预测前计算节点的功耗大小,/>表示空调的温度。
步骤11:若平均功耗增量除以25瓦特的值大于1或小于-1且目标作业/>使用的节点数大于3则执行步骤12,否则执行步骤13。
步骤12:若除以25瓦特的值大于1则执行步骤14,否则执行步骤15。
步骤13:保持当前空调温度不变,然后执行步骤16。
步骤14:对当前空调执行升温操作,升高的温度大小取决于除以25的大小,计算的结果为多少则调高多少度,然后执行步骤16。
步骤15:对当前空调执行降温操作,降温的温度大小取决于除以25的大小,计算的结果为多少则调低多少度,然后执行步骤16。
步骤16:判断当前目标作业集合是否遍历结束,若没有遍历完则执行步骤3,否则结束执行。
实施例二
如图2所示,本实施例提供一种基于作业相似性判断的作业功耗预测的节能系统,包括即资源监控模块,数据预处理模块,作业相似性判断模块,功耗预测模块以及节能模块。上述模块均设置在HPC集群中,所述HPC集群内还包含多台计算设备和冷却设备。
如图3所示为资源监控模块的具体架构,所述资源监控模块包括HPC集群监控模块和作业日志监控模块,所述HPC集群监控模块用于监控HPC集群中计算节点的各指标信息;
本实施例中,所述HPC集群中计算节点的各指标信息通过在计算节点上安装的传感器进行采集;所述各指标信息包括功耗和CPU利用率等。
其中,HPC集群监控模块为后续的功耗预测提供数据驱动,HPC集群监控模块监控的具体信息表1所示。
表1 HPC集群监控信息
所述作业日志监控模块用于监控用户提交作业的日志信息,即用户提交作业的相关参数以及作业的相关运行参数;
本实施例中,所述日志信息是通过Slurm调度系统中采集的,所述日志信息主要包括用户名、作业名、作业使用的CPU核心数以及节点数等。
其中,作业日志监控模块主要负责监控用户提交的作业信息以及作业的运行情况,为后续相似性判断提供基础,作业日志监控的具体信息如表2所示。
表2作业日志监控信息
最终将采集到的计算节点的各指标信息存储到influxDB时序数据库中,将采集到的作业日志信息数据存储到MySQL数据库中,最终通过自定义接口从上述两个数据库中采集数据。
所述数据预处理模块,其被配置为:删除各指标信息和作业日志信息中不完整或值为0的指标信息,并且删除作业运行时间过短或作业运行状态为非完成的作业。
相似度判断模块和功耗预测模块的整体架构如图4所示。所述相似度判断模块包括作业初筛模块和相似性判断模块。
所述作业初筛模块,其被配置为:从influxDB数据库和MySQL数据库中采集监控到的数据,并进行数据清洗,针对清洗后的作业日志信息进行初筛,筛选出与目标作业用户名和所在队列相同的作业信息。
所述相似度判断模块,其被配置为:将筛选后作业的日志信息以及对应的指标信息与目标作业的日志信息和对应指标信息进行相似度判断,计算出每个作业与目标作业的相似度,并根据相似度阈值进行判断,选择大于等于相似度阈值的作业作为功耗预测的训练数据。
所述作业相似性判断模块中, 所述基于各指标信息和作业日志信息与目标作业计算节点对应的各指标信息和日志信息进行相似度判断的过程具体包括:
选取每一个作业运行时计算节点的功耗以及每一个作业的多个特征值;
其中,所述特征包括作业使用的核心数,作业使用的节点数,作业所在的工作路径,作业名以及每一个作业运行时计算节点的功耗;
将多个特征值与目标作业的对应特征进行相似度计算得到多项得分,为每一项赋予权重后加权求和后得到相似度得分。
功耗预测模块,包括数据预处理模块、模型训练模块以及功耗预测模块;其中,所述数据预处理模块,其被配置为:将得到的功耗预测的训练数据进行数据预处理,合并成固定格式的文件;
所述模型训练模块,其被配置为:基于该文件,采用多种神经网络模型对处理后的数据集进行模型训练;
可以理解的,所述神经网络模型可以根据本领域技术人员根据实际应用进行选取,本实施例中不做详述。
功耗预测模块,其被配置为:将训练后的模型作为功耗预测模型预测目标作业所在节点未来一段时间的功耗波动。
本实施例中,所述固定格式可以采用.npy文件。
冷却设备调温模块,被配置为:根据目标作业所在节点的预测功耗情况,对目标作业所在节点进行升温或降温操作。
本实施例中,根据预测的得到的目标作业所在节点的功耗情况,计算出设定时间的平均功耗增量,每当节点的平均功耗增量的绝对值大于功耗阈值并且目标作业使用节点的数量大于数量阈值,则降低或提高空调温度。
本实施中,所述功耗阈值可以选取25w,数量阈值可以选取3。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于作业相似性判断功耗预测的节能方法,其特征在于,包括:
获取HPC集群中每个作业计算节点的各指标信息和作业日志信息;
基于各指标信息和作业日志信息与目标作业计算节点对应的各指标信息和日志信息进行相似度判断,计算出每个作业与目标作业的相似度得分,将大于相似度得分阈值的作业作为功耗预测的训练数据;
所述基于各指标信息和作业日志信息与目标作业计算节点对应的各指标信息和日志信息进行相似度判断的过程具体包括:
选取每一个作业运行时计算节点的功耗以及每一个作业的多个特征值;
将多个特征值与目标作业的对应特征进行相似度计算得到多项得分,为每一项赋予权重后加权求和后得到相似度得分;所述多个特征值包括:作业使用的核心数、作业使用的节点数、作业所在的工作路径、作业名以及作业运行时计算节点的功耗;
基于功耗预测的训练数据对功耗预测模型进行训练,采用训练后的功耗预测模型预测目标作业所在节点未来的功耗情况;
根据目标作业所在节点的功耗情况,对目标作业所在节点进行升温或降温操作。
2.根据权利要求1所述的一种基于作业相似性判断功耗预测的节能方法,其特征在于,获取HPC集群中每个作业计算节点的各指标信息和作业日志信息后,对信息进行预处理,包括:删除其中不完整或值为0的指标信息,并且删除作业运行时间过短或作业运行状态为非完成的作业。
3.根据权利要求1所述的一种基于作业相似性判断功耗预测的节能方法,其特征在于,所述得分包括四项,第一项为目标作业与初始队列中作业使用的核心数和节点数的相似度,第二项为目标作业与初始队列中作业所在的工作路径的相似度,第三项为目标作业与初始队列中作业的作业名相似度,第四项为目标作业与初始队列中作业计算节点的功耗。
4.根据权利要求3所述的一种基于作业相似性判断功耗预测的节能方法,其特征在于,目标作业与初始队列中作业使用的核心数和节点数的相似度计算时,将计算核心数和节点数的相似度问题转化为待分类点与已知类别点的距离问题求解。
5.根据权利要求3所述的一种基于作业相似性判断功耗预测的节能方法,其特征在于,目标作业与初始队列中作业所在的工作路径的相似度计算时,采用编辑距离算法,计算目标作业的作业名称与作业路径转化为初始队列中作业的作业名称与作业路径的最少编辑操作次数。
6.根据权利要求3所述的一种基于作业相似性判断功耗预测的节能方法,其特征在于,目标作业与初始队列中作业计算节点的功耗计算时,将其转为时序数据的距离,采用动态时间规整算法进行计算。
7.一种基于作业相似性判断功耗预测的节能系统,其特征在于,包括:
资源监控模块,其被配置为:用于获取HPC集群中计算节点的各指标信息和用户提交作业的日志信息;
作业相似性判断模块,其被配置为:基于HPC集群中每个作业计算节点的各指标信息和日志信息与目标作业计算节点对应的各指标信息和日志信息进行相似度判断,计算出每个作业与目标作业的相似度,将大于相似度阈值的作业作为功耗预测的训练数据;
所述基于各指标信息和作业日志信息与目标作业计算节点对应的各指标信息和日志信息进行相似度判断的过程具体包括:
选取每一个作业运行时计算节点的功耗以及每一个作业的多个特征值;
将多个特征值与目标作业的对应特征进行相似度计算得到多项得分,为每一项赋予权重后加权求和后得到相似度得分;所述多个特征值包括:作业使用的核心数、作业使用的节点数、作业所在的工作路径、作业名以及作业运行时计算节点的功耗;
功耗预测模块,其被配置为:基于功耗预测的训练数据对功耗预测模型进行训练,采用训练后的功耗预测模型预测目标作业所在节点未来的功耗情况;
节能模块,其被配置为:根据目标作业所在节点的功耗情况,对目标作业所在节点进行升温或降温操作。
8.根据权利要求7所述的一种基于作业相似性判断功耗预测的节能系统,其特征在于,所述系统还包括数据预处理模块,其被配置为:删除各指标信息和作业日志信息中不完整或值为0的指标信息,并且删除作业运行时间过短或作业运行状态为非完成的作业。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310354094.1A CN116069143B (zh) | 2023-04-06 | 2023-04-06 | 一种基于作业相似性判断功耗预测的节能方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310354094.1A CN116069143B (zh) | 2023-04-06 | 2023-04-06 | 一种基于作业相似性判断功耗预测的节能方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116069143A CN116069143A (zh) | 2023-05-05 |
CN116069143B true CN116069143B (zh) | 2023-07-18 |
Family
ID=86175349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310354094.1A Active CN116069143B (zh) | 2023-04-06 | 2023-04-06 | 一种基于作业相似性判断功耗预测的节能方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116069143B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117667606B (zh) * | 2024-02-02 | 2024-05-24 | 山东省计算中心(国家超级计算济南中心) | 基于用户行为的高性能计算集群能耗预测方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020129180A (ja) * | 2019-02-07 | 2020-08-27 | 富士通株式会社 | ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7177350B2 (ja) * | 2019-02-12 | 2022-11-24 | 富士通株式会社 | ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置 |
JP7243361B2 (ja) * | 2019-03-25 | 2023-03-22 | 富士通株式会社 | ジョブスケジューラ及びジョブスケジュール制御方法 |
JP2021182224A (ja) * | 2020-05-18 | 2021-11-25 | 富士通株式会社 | ジョブスケジューリングプログラム、情報処理装置およびジョブスケジューリング方法 |
WO2021232266A1 (zh) * | 2020-05-20 | 2021-11-25 | 华为技术有限公司 | 芯片的控制方法和控制装置 |
CN114442794B (zh) * | 2022-01-20 | 2023-07-18 | 苏州浪潮智能科技有限公司 | 服务器功耗控制方法、系统、终端及存储介质 |
CN114169651B (zh) * | 2022-02-14 | 2022-04-19 | 中国空气动力研究与发展中心计算空气动力研究所 | 一种基于应用相似性的超级计算机作业失败主动预测方法 |
CN115220900B (zh) * | 2022-09-19 | 2022-12-13 | 山东省计算中心(国家超级计算济南中心) | 一种基于作业功耗预测的节能调度方法及系统 |
-
2023
- 2023-04-06 CN CN202310354094.1A patent/CN116069143B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020129180A (ja) * | 2019-02-07 | 2020-08-27 | 富士通株式会社 | ジョブ電力予測プログラム、ジョブ電力予測方法、およびジョブ電力予測装置 |
Non-Patent Citations (1)
Title |
---|
基于自适应功耗管理的高性能计算机作业调度策略的研究;王洁;曾宇;;计算机科学(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116069143A (zh) | 2023-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | How does the workload look like in production cloud? analysis and clustering of workloads on alibaba cluster trace | |
WO2018137402A1 (zh) | 基于滚动灰色预测模型的云数据中心节能调度实现方法 | |
CN116069143B (zh) | 一种基于作业相似性判断功耗预测的节能方法及系统 | |
CN111614491A (zh) | 一种面向电力监控系统安全态势评估指标选取方法及系统 | |
Zhou et al. | IECL: an intelligent energy consumption model for cloud manufacturing | |
CN110297715B (zh) | 一种基于周期性特征分析的在线负载资源预测方法 | |
CN113780684A (zh) | 一种基于lstm神经网络的智慧楼宇用户用能行为预测方法 | |
CN117234301A (zh) | 一种基于人工智能的服务器热管理方法 | |
CN114970358A (zh) | 一种基于强化学习的数据中心能效优化方法和系统 | |
CN117172530A (zh) | 基于数据挖掘算法的企业运营风险评估系统及方法 | |
Dembele et al. | Towards green query processing-auditing power before deploying | |
Hou et al. | Research on optimization of GWO-BP Model for cloud server load prediction | |
CN113962477A (zh) | 一种产业电量关联聚集预测方法、装置、设备及存储介质 | |
CN117455724A (zh) | 基于多级网络节点的建筑能耗分析方法及系统 | |
Ismaeel et al. | Real-time energy-conserving vm-provisioning framework for cloud-data centers | |
Jaber et al. | Reducing the data transmission in sensor networks through Kruskal-Wallis model | |
CN115828769A (zh) | 一种基于智能计算的冷却塔工况的预测和降耗方法 | |
CN110309037A (zh) | 一种数据中心能效相关特征的选择方法 | |
Khanna et al. | Phase-aware predictive thermal modeling for proactive load-balancing of compute clusters | |
Zhu et al. | Application of machine learning and its improvement technology in modeling of total energy consumption of air conditioning water system | |
CN116562111A (zh) | 数据中心节能方法、装置、系统和存储介质 | |
CN118411003B (zh) | 多类别电力设备的负荷控制方法、系统、设备和存储介质 | |
Ji et al. | An Active Learning based Latency Prediction Approach for Neural Network Architecture | |
CN117828798B (zh) | 基于大数据的综合智能布线方法及系统 | |
Li et al. | Application of Energy Consumption Model and Energy Conservation Technology in New Infrastructure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |