CN117234301A - 一种基于人工智能的服务器热管理方法 - Google Patents
一种基于人工智能的服务器热管理方法 Download PDFInfo
- Publication number
- CN117234301A CN117234301A CN202310949099.9A CN202310949099A CN117234301A CN 117234301 A CN117234301 A CN 117234301A CN 202310949099 A CN202310949099 A CN 202310949099A CN 117234301 A CN117234301 A CN 117234301A
- Authority
- CN
- China
- Prior art keywords
- data
- neural network
- server
- thermal management
- load
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 60
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 18
- 230000017525 heat dissipation Effects 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000013135 deep learning Methods 0.000 claims abstract description 12
- 238000007405 data analysis Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims description 42
- 238000012549 training Methods 0.000 claims description 41
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 238000012360 testing method Methods 0.000 claims description 18
- 239000000284 extract Substances 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 16
- 238000005457 optimization Methods 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 13
- 230000007613 environmental effect Effects 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 6
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000002360 preparation method Methods 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 238000011282 treatment Methods 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000737 periodic effect Effects 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000009423 ventilation Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005265 energy consumption Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000020169 heat generation Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于人工智能的服务器热管理方法,属于电数字数据处理技术领域,采用多维度数据采集、动态决策和智能控制的方法,采用新型的、基于集群特征的动态热管理策略,将服务器数据分析、深度学习和高效决策算法相结合,全面解决服务器面临的复杂多变、大规模、高要求的散热问题。性能损耗很低:采用物理分割方式,并且使用CPLD模块进行调度。安全性更高:由于没有服务器虚拟化的软件层,安全性相对更高。网络极限更高:由于实际的数据流通通过PCIE的高速总线进行流通,可以同时多路进行传输,网络极限更高。可管理性更强:管理者只需要关注服务器的极限性能即可。
Description
技术领域
本发明属于电数字数据处理技术领域,具体涉及一种基于人工智能的服务器热管理方法。
背景技术
随着服务器的数量和功率的增加,服务器的热量也在迅速增加,导致服务器运行时散热问题成为一项非常严重的技术难题。如果服务器温度过高,可能会导致服务器死机、数据丢失或者硬件故障,从而严重影响到系统的稳定运行。为了解决这一问题,研究人员开发了多种服务器热管理技术,例如运用冷却系统、改进散热结构、优化软硬件设计等。其中,自适应散热技术成为热管理技术的主流方向,它能够依据服务器负载和温度等因素,动态调整散热风扇的转速和功率,保证服务器在低噪音和高效散热之间达到平衡。
但是,现有技术的缺点如下:
1.难以应对复杂多变的应用场景。传统的热管理技术大多基于预设的硬件参数,无法针对多样化的应用场景做出智能化的热管理决策。
2.处理效率低,性能有限。传统方法无法考虑大量关键因素的组合,导致热管理决策效率低下。
3.无法进行全局优化。传统方法多是针对单个服务器进行优化,无法做到全局、统一管理,从而影响了整个机房的散热效果。
因此,现阶段需设计一种基于人工智能的服务器热管理方法,来解决以上问题。
发明内容
本发明目的在于提供一种基于人工智能的服务器热管理方法,用于解决上述现有技术中存在的技术问题,通过深度学习等人工智能技术,实现智能化的热管理,并通过集群化的方法,对整个服务器集群的散热效果进行全局优化。
为实现上述目的,本发明的技术方案是:
一种基于人工智能的服务器热管理方法,包括以下步骤:
S1、数据采集:
采用多维度数据采集的方式,包括温度、负载、功耗、环境因素的数据,采用传感器将数据实时采集到系统中,并进行数据预处理和特征提取;
S2、建模训练:
模型建立的第一步是数据准备;首先从服务器中采集多维度数据,包括温度、负载、功耗、环境因素;对数据进行清洗、去噪、归一化操作,保证后续训练和处理的准确性;在数据准备完成之后,对数据进行特征提取,并准备训练、验证与测试数据集;其中,使用两级特征提取;第一级特征提取识别出相应服务器的关键参数;第二级特征提取则关键参数中提取高层次信息;然后,将数据集按照一定的比例划分为训练集、验证集和测试集;选择神经网络的结构和训练算法;通过深度学习使用神经网络对大量的数据进行建模和预测;采用深度卷积神经网络,以识别数据中的各类特征信息;选择训练算法,优化神经网络的各类参数,针对数据中的各种特征进行识别和提取;评估神经网络的性能,对神经网络的优化;优化后将神经网络模型集成到热管理系统中,对服务器进行精准的热管理并提升服务质量;
S3、实时收集服务器状态数据,通过神经网络模型完成对服务器个要素的分析和决策,提出最优的散热调整方案,并将方案动态应用到服务器硬件中,动态维持服务器的稳定状态;
S4、采用集群特征的动态热管理策略,对多个服务器进行协同管理,进行全局优化。
进一步的,步骤S1中,多维度数据具体如下:
温度数据:收集系统中各个设备的温度数据,包括CPU、GPU、主板、硬盘设备;
湿度数据:收集系统中各个设备的湿度数据,以反映环境变化对设备温度的影响;
电力数据:收集系统中各个设备的实时电力数据,包括交流电、直流电,以反映设备的负荷和工作状态;
系统负荷数据:收集系统负荷数据,包括CPU负荷、内存使用情况、磁盘IO情况;
设备故障数据:收集设备故障数据,以了解设备的运行状况及产生故障的原因;
外部环境因素数据:收集外部环境因素数据,以反映外部环境对系统温度的影响;
操作记录数据:收集系统运行时的操作记录数据,包括操作人员、时间、操作内容,以便于追踪排查问题。
进一步的,步骤S2中,提取高层次信息具体如下:
通过对特征信息进行筛选、转换、降维处理,得到更具有代表性的特征,用于改善模型准确度、降低模型复杂度;
将不同来源的数据进行融合,在原有特征基础上增加新的特征。
进一步的,步骤S2中,将数据集按照一定的比例划分为训练集、验证集和测试集具体如下:
数据集的划分比例为70%训练集,20%验证集,10%测试集。
进一步的,步骤S2中,数据中的各类特征信息具体如下:
CPU和GPU温度数据:卷积神经网络通过卷积层提取局部特征,包括CPU和GPU温度的波动、变化趋势;
硬盘和内存数据:卷积神经网络从硬盘和内存数据中提取特征,包括读取速度、写入速度和内存使用率;
CPU和GPU使用率和负载:卷积神经网络从CPU和GPU使用率、负载数据中提取特征,通过卷积层提取周期性的CPU和GPU使用率、负载、占用率特征;
网络数据传输速度:卷积神经网络从网络传输速率数据中提取特征。
进一步的,步骤S2中,选择神经网络的结构和训练算法具体如下:
针对历史数据进行预测选择监督学习算法,监督学习算法包括神经网络模型或支持向量机模型,利用历史数据对未来的数据进行预测;
针对流式数据进行处理:选择增量式学习算法,增量式学习算法包括在线学习算法、逐批学习算法;
针对非结构性数据进行处理:非结构性数据包括文本和图像,选择深度学习算法,深度学习算法包括基于卷积神经网络和循环神经网络的模型;
进行数据降维:选择降维算法,降维算法包括主成分分析算法、线性判别分析算法等来减少特征维度。
进一步的,步骤S2中,优化神经网络的各类参数包括:
权重:权重是神经网络中最核心的参数之一,用来连接不同的神经元之间,并通过对权重进行调整,对输入数据的加权组合和特征提取;
偏置:在神经元计算过程中引入固定的偏移量,用于调整输出值。
进一步的,步骤S2中,评估神经网络的性能具体如下:
评估神经网络性能的关键指标包括准确度、精确度、召回率和F1值;使用测试数据集来评估关键指标,并根据结果进行优化和调整;
优化神经网络性能,调整网络的架构、学习率、正则化方法超参数,进行多次训练和调整;
调整神经网络的过程中,使用自适应优化算法,快速调整网络的超参数。。
进一步的,步骤S4还包括以下子步骤:
S41、分析集群内温度分布情况和各个节点的热负荷;采用温度传感器和数据分析工具对集群节点进行监测,收集节点的温度、功耗数据,并通过数据分析和处理,得到节点的温度分布和热负荷分布图;
S42、通过对机柜内部结构和散热系统进行优化来优化空气流动;
S43、根据节点的负载情况和热量发生情况自动调整节点的运行模式和功耗。
与现有技术相比,本发明所具有的有益效果为:
采用多维度数据采集、动态决策和智能控制的方法,采用新型的、基于集群特征的动态热管理策略,将服务器数据分析、深度学习和高效决策算法相结合,全面解决服务器面临的复杂多变、大规模、高要求的散热问题。性能损耗很低:采用物理分割方式,并且使用CPLD模块进行调度。安全性更高:由于没有服务器虚拟化的软件层,安全性相对更高。网络极限更高:由于实际的数据流通通过PCIE的高速总线进行流通,可以同时多路进行传输,网络极限更高。可管理性更强:整个服务器作为集群中的一个节点,在管理方面可理解为单个高性能服务器,任务分配后此方案的服务器可以自行分配任务,进行相应的性能调度、能耗调度等,管理者只需要关注服务器的极限性能即可。
附图说明
图1为本方案实施方式的步骤流程示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
而且,术语“包括”,“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程,方法,物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程,方法,物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程,方法,物品或者设备中还存在另外的相同要素。
如图1所示,提出一种基于人工智能的服务器热管理方法,包括以下步骤:
1数据采集部分:
系统采用多维度数据采集的方式,包括温度、负载、功耗、环境等多个因素的数据,采用各种传感器将数据实时采集到系统中,并进行数据预处理和特征提取。
温度数据:收集系统中各个设备的温度数据,包括CPU、GPU、主板、硬盘等设备。
湿度数据:收集系统中各个设备的湿度数据,以反映环境变化对设备温度的影响。
电力数据:收集系统中各个设备的实时电力数据,包括交流电、直流电等,以反映设备的负荷和工作状态。
系统负荷数据:收集系统负荷数据,包括CPU负荷、内存使用情况、磁盘IO情况等。
设备故障数据:收集设备故障数据,以了解设备的运行状况及产生故障的原因。
外部环境因素数据:收集外部环境因素数据,如气温、湿度、降雨量等,以反映外部环境对系统温度的影响。
操作记录数据:收集系统运行时的操作记录数据,包括操作人员、时间、操作内容等,以便于追踪排查问题。
通过以上数据的收集,可以全面反映系统的运行状态,为建立基于深度学习的智能化热管理系统提供充分的数据支撑。
2建模训练部分:
建模训练是本发明技术方案的一个非常关键的环节,在热管理系统的实现中起到了至关重要的作用。
模型建立的第一步是数据准备。本发明技术方案需要首先从服务器中采集多尺度数据,这些数据包括温度、负载、功耗、环境因素等。通过传感器和视觉技术收集的数据量非常庞大,因此在数据预处理阶段,需要对数据进行清洗、去噪、归一化等操作,以保证后续训练和处理的准确性。
在数据准备完成之后,下一步是对数据进行特征提取,并准备训练、验证与测试数据集。对于散热管理而言,通常使用两级特征提取。第一级特征提取可以识别出相应服务器的关键参数,例如温度、负载等;第二级特征提取则可以从这些关键参数中提取高层次、有意义的信息。然后,将数据集按照一定的比例划分为训练集、验证集和测试集,以避免数据过拟合或欠拟合的问题。
特征提取:通过对特征信息进行筛选、转换、降维等处理,得到更具有代表性的特征,在改善模型准确度、降低模型复杂度等方面有很大作用。
多模态信息融合:将不同来源的数据进行融合,在原有特征基础上增加更多信息,例如将温度和负荷数据进行融合,可以得到更准确的热管理决策。
深度网络建模:使用深度神经网络对特征数据进行建模,可以深度挖掘特征数据中的非线性关系,进一步提高模型预测精度。
时间序列分析:对时间序列数据进行分析,例如热力图分析等,可以更加直观地了解设备运行的状态,提高预测的精度。
成功案例分析:对类似的成功案例进行分析,提取成功经验和规律,并应用到智能化热管理系统的发展中。
训练集比例:
训练集的划分比例取决于具体的应用场景和数据量大小。一般来说,大规模数据集的划分比例可以采用70%训练集,20%验证集,10%测试集的方法,这样可以最大程度地利用数据进行模型的训练,验证和测试。如果数据集比较小,可以考虑将数据集的训练集和验证集合并,占用80%的数据集,测试集占用20%左右。需要注意的是,训练集和测试集应该满足相同的分布,以避免模型在训练和测试时出现偏差,影响模型的准确性。
接下来,建模训练的核心是选择神经网络的结构和训练算法。通过深度学习技术使用神经网络可以对大量的数据进行多维度、多角度的建模和预测,以提高散热管理的精度和效率。对于神经网络的结构选择,本技术方案建议采用深度卷积神经网络(DCNNs),以识别数据中的各类特征信息。同时,还需要针对不同的应用场景和需求来选择不同的训练算法,例如反向传播算法、随机梯度下降法等等。随着训练过程的进行,神经网络的各类参数逐渐得到了优化,同时还能够针对数据中的各种特征进行识别和提取。
数据中的各类特征信息:
CPU和GPU温度数据:卷积神经网络可以通过卷积层提取局部特征,包括CPU和GPU温度的波动和变化趋势等。
硬盘和内存数据:卷积神经网络可以从硬盘和内存数据中提取特征,例如读取速度、写入速度和内存使用率等,以帮助预测系统的热管理情况。
CPU和GPU使用率和负载:卷积神经网络可以从CPU和GPU使用率和负载数据中提取特征,例如可以通过卷积层提取周期性的CPU和GPU使用率、负载、占用率等特征。
网络数据传输速度:卷积神经网络可以从网络传输速率数据中提取特征,例如网络流量波动、网络带宽、数据包丢失率等。
通过在卷积神经网络中进行特征提取和分析,服务器热管理系统可以根据不同的特征信息,调整系统资源和优化系统性能,以达到更好的热管理效果。
训练算法选择:
针对历史数据进行预测:这种情况下需要选择一些监督学习算法,例如神经网络模型、支持向量机模型等,这些模型能够利用历史数据对未来的数据进行预测。
针对流式数据进行处理:如果需要针对流式数据进行处理,则需要选择一些增量式学习算法,例如在线学习算法,逐批学习算法等。这些方法能够保证训练过程更加高效,同时可以处理实时产生的数据。
针对非结构性数据进行处理:如果需要处理非结构化数据,例如文本和图像等,则需要选择一些深度学习算法,例如基于卷积神经网络(CNN)和循环神经网络(RNN)的模型等。这些模型能够自动提取特征,并且可以适应更加复杂的数据类型。
需要进行数据降维:在实际应用中可能存在数据维度过高的问题,这时需要选择一些降维算法,例如主成分分析(PCA)算法、线性判别分析(LDA)算法等来减少特征维度。
参数:
权重(Weight):权重是神经网络中最核心的参数之一,它的作用是用来连接不同的神经元之间,并通过对权重进行调整,达到对输入数据的加权组合和特征提取的目的。通常情况下,权重的数量直接影响到网络的大小和深度。
偏置(Bias):偏置是神经网络中的另一个重要参数,它的作用是在神经元计算过程中引入一个固定的偏移量,用于调整输出值,帮助网络更好地适应数据集的特征,提高预测准确性。
除了权重和偏置参数,神经网络中还有其他一些参数,例如学习率、正则化参数、迭代次数、批次大小等。这些参数都是为了帮助神经网络更好地适应数据集的特征,优化模型的性能。在神经网络的训练过程中,需要对这些参数进行微调和优化,以使模型能够收敛并达到最优性能。
最后,建模训练环节应该评估神经网络的性能。这通常涉及模型的精度和泛化性能的评估,例如误差率、F1分数等,以及对神经网络的优化和调整。在完成模型优化后,可以将模型集成到热管理系统中,对服务器进行更加精准的热管理并提升服务质量。
评估方法:
评估神经网络性能的关键指标包括准确度、精确度、召回率和F1值等。我们可以使用测试数据集来评估这些指标,并根据结果进行优化和调整。
为了优化神经网络性能,我们可以调整网络的架构、学习率、正则化方法等超参数,并通过多次训练和调整来逐步提高性能。
调整神经网络的过程中,我们可以使用自适应优化算法,如自适应梯度算法(Adagrad)、自适应矩估计算法(Adam)等,以快速而有效地调整网络的超参数,提高性能表现。
3动态热管理部分:
系统实时地收集服务器状态数据,通过深度学习模型完成对服务器负载、环境等要素的分析和决策,提出最优的散热调整方案,并将方案动态地应用到服务器的散热风扇、温控系统等硬件中,调整散热风扇转速和功率,动态维持服务器的稳定状态。
4集群优化部分:
本发明技术方案采用集群特征的动态热管理策略,对多个服务器进行协同管理,进行全局优化,进一步提高整个服务器集群的散热效果和稳定性。
(1)分析集群热问题
首先需要分析集群热问题,了解集群内温度分布情况和各个节点的热负荷。可以采用温度传感器和数据分析工具对集群节点进行监测,收集节点的温度、功耗等数据,并通过数据分析和处理,得到节点的温度分布和热负荷分布图。
动态调整负载:通过监测节点的温度和负荷信息,AI可以实时了解节点的负载情况,及时对节点的负载进行调整,以确保负载均衡,避免出现节点过载的情况。
节点故障预警:通过监测节点的温度、负荷等信息,AI可以发现节点的异常情况,包括过热、故障等,及时进行处理,避免故障扩散。
节能降耗:通过监测节点的温度、负荷等信息,AI可以合理安排节点的负载分布,降低节点的能耗,提高集群的能效比。
基于得到的节点的温度分布和热负荷分布,集群动态热管理可以实现集中式和分布式两种管理方式。在集中式管理方式下,AI可以通过中央控制器对节点的热管理进行统一调度和控制。在分布式管理方式下,AI可以通过将温度和负荷信息传输给节点,由节点自行调整负载和降低能耗,提高集群的智能化运维能力。综上,温度分布和热负荷分布是集群动态热管理的基础,通过实时监控、调整和优化,可以提高集群的性能和稳定性,降低故障率,提高集群的可靠性和可用性。
(2)优化空气流动
空气流动是影响集群散热效率的关键因素。可以通过对机柜内部结构和散热系统进行优化来优化空气流动,提高散热效率。例如,可以从风扇、散热器、散热管等散热设备的设计及位置等方面进行优化。
优化方法:
设计合理的散热设备:散热设备应该具有较大的散热面积、较高的散热效率,以确保服务器集群的稳定运行。同时,散热设备的材料应该具有较好的导热性能,以提高散热效率。
保持良好的通风环境:合理的通风管理可以有效地降低服务器的运行温度。在服务器机柜的设计中,应考虑通风的方向和位置,并合理安排散热设备的位置和数量,以保证通风的畅通。在空间不足的情况下,可以考虑采用排热通风系统,同时加装隔断板、风道等降低内部温度,提高散热效率。
提高空气流动速度:空气流动是散热的重要因素,提高空气流动速度可有效降低温度。可以通过增加风扇数量或提高风扇的转速等方式来提高空气流动速度。同时,可以采用智能控制系统,根据服务器的温度情况自动调节风扇的转速,以达到更好的散热效果。
优化散热管路:散热管路应该避免弯曲过多和拐角过多,以便热量能够快速地从散热设备中排出,进而提高散热效率。
(3)动态功耗管理
动态功耗管理(DPM)是一种基于功率信息的软件技术,它能够根据节点的负载情况和热量发生情况自动调整节点的运行模式和功耗,以减少热量产生,从而优化集群热管理。在不影响集群整体性能和稳定性的前提下,DPM可以降低节点的功耗和温度,以达到节能和降温的目的。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (9)
1.一种基于人工智能的服务器热管理方法,其特征在于,包括以下步骤:
S1、数据采集:采用多维度数据采集的方式,包括温度、负载、功耗、环境因素的数据,采用传感器将数据实时采集到系统中,并进行数据预处理和特征提取;
S2、建模训练:模型建立的第一步是数据准备;首先从服务器中采集多维度数据,包括温度、负载、功耗、环境因素;对数据进行清洗、去噪、归一化操作,保证后续训练和处理的准确性;在数据准备完成之后,对数据进行特征提取,并准备训练、验证与测试数据集;其中,使用两级特征提取;第一级特征提取识别出相应服务器的关键参数;第二级特征提取则关键参数中提取高层次信息;然后,将数据集按照一定的比例划分为训练集、验证集和测试集;选择神经网络的结构和训练算法;通过深度学习使用神经网络对大量的数据进行建模和预测;采用深度卷积神经网络,以识别数据中的各类特征信息;选择训练算法,优化神经网络的各类参数,针对数据中的各种特征进行识别和提取;评估神经网络的性能,对神经网络的优化;优化后将神经网络模型集成到热管理系统中,对服务器进行精准的热管理并提升服务质量;
S3、实时收集服务器状态数据,通过神经网络模型完成对服务器个要素的分析和决策,提出最优的散热调整方案,并将方案动态应用到服务器硬件中,动态维持服务器的稳定状态;
S4、采用集群特征的动态热管理策略,对多个服务器进行协同管理,进行全局优化。
2.根据权利要求1所述的一种基于人工智能的服务器热管理方法,其特征在于,步骤S1中,多维度数据具体如下:
温度数据:收集系统中各个设备的温度数据,包括CPU、GPU、主板、硬盘设备;
湿度数据:收集系统中各个设备的湿度数据,以反映环境变化对设备温度的影响;
电力数据:收集系统中各个设备的实时电力数据,包括交流电、直流电,以反映设备的负荷和工作状态;
系统负荷数据:收集系统负荷数据,包括CPU负荷、内存使用情况、磁盘IO情况;
设备故障数据:收集设备故障数据,以了解设备的运行状况及产生故障的原因;
外部环境因素数据:收集外部环境因素数据,以反映外部环境对系统温度的影响;
操作记录数据:收集系统运行时的操作记录数据,包括操作人员、时间、操作内容,以便于追踪排查问题。
3.根据权利要求2所述的一种基于人工智能的服务器热管理方法,其特征在于,步骤S2中,提取高层次信息具体如下:
通过对特征信息进行筛选、转换、降维处理,得到更具有代表性的特征,用于改善模型准确度、降低模型复杂度;
将不同来源的数据进行融合,在原有特征基础上增加新的特征。
4.根据权利要求3所述的一种基于人工智能的服务器热管理方法,其特征在于,步骤S2中,将数据集按照一定的比例划分为训练集、验证集和测试集具体如下:
数据集的划分比例为70%训练集,20%验证集,10%测试集。
5.根据权利要求4所述的一种基于人工智能的服务器热管理方法,其特征在于,步骤S2中,数据中的各类特征信息具体如下:
CPU和GPU温度数据:卷积神经网络通过卷积层提取局部特征,包括CPU和GPU温度的波动、变化趋势;
硬盘和内存数据:卷积神经网络从硬盘和内存数据中提取特征,包括读取速度、写入速度和内存使用率;
CPU和GPU使用率和负载:卷积神经网络从CPU和GPU使用率、负载数据中提取特征,通过卷积层提取周期性的CPU和GPU使用率、负载、占用率特征;
网络数据传输速度:卷积神经网络从网络传输速率数据中提取特征。
6.根据权利要求5所述的一种基于人工智能的服务器热管理方法,其特征在于,步骤S2中,选择神经网络的结构和训练算法具体如下:
针对历史数据进行预测选择监督学习算法,监督学习算法包括神经网络模型或支持向量机模型,利用历史数据对未来的数据进行预测;
针对流式数据进行处理:选择增量式学习算法,增量式学习算法包括在线学习算法、逐批学习算法;
针对非结构性数据进行处理:非结构性数据包括文本和图像,选择深度学习算法,深度学习算法包括基于卷积神经网络和循环神经网络的模型;
进行数据降维:选择降维算法,降维算法包括主成分分析算法、线性判别分析算法等来减少特征维度。
7.根据权利要求6所述的一种基于人工智能的服务器热管理方法,其特征在于,步骤S2中,优化神经网络的各类参数包括:
权重:权重是神经网络中最核心的参数之一,用来连接不同的神经元之间,并通过对权重进行调整,对输入数据的加权组合和特征提取;
偏置:在神经元计算过程中引入固定的偏移量,用于调整输出值。
8.根据权利要求7所述的一种基于人工智能的服务器热管理方法,其特征在于,步骤S2中,评估神经网络的性能具体如下:
评估神经网络性能的关键指标包括准确度、精确度、召回率和F1值;使用测试数据集来评估关键指标,并根据结果进行优化和调整;
优化神经网络性能,调整网络的架构、学习率、正则化方法超参数,进行多次训练和调整;
调整神经网络的过程中,使用自适应优化算法,快速调整网络的超参数。。
9.根据权利要求8所述的一种基于人工智能的服务器热管理方法,其特征在于,步骤S4还包括以下子步骤:
S41、分析集群内温度分布情况和各个节点的热负荷;采用温度传感器和数据分析工具对集群节点进行监测,收集节点的温度、功耗数据,并通过数据分析和处理,得到节点的温度分布和热负荷分布图;
S42、通过对机柜内部结构和散热系统进行优化来优化空气流动;
S43、根据节点的负载情况和热量发生情况自动调整节点的运行模式和功耗。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310949099.9A CN117234301A (zh) | 2023-07-30 | 2023-07-30 | 一种基于人工智能的服务器热管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310949099.9A CN117234301A (zh) | 2023-07-30 | 2023-07-30 | 一种基于人工智能的服务器热管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117234301A true CN117234301A (zh) | 2023-12-15 |
Family
ID=89091880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310949099.9A Pending CN117234301A (zh) | 2023-07-30 | 2023-07-30 | 一种基于人工智能的服务器热管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117234301A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117435890A (zh) * | 2023-12-20 | 2024-01-23 | 深圳市武迪电子科技有限公司 | 一种电动摩托车多模态融合热管理方法及系统 |
CN117806912A (zh) * | 2024-02-28 | 2024-04-02 | 济南聚格信息技术有限公司 | 一种服务器异常监测方法及系统 |
CN118035061A (zh) * | 2024-04-12 | 2024-05-14 | 四川华鲲振宇智能科技有限责任公司 | 基于深度学习的服务器故障预测及自动处理方法及系统 |
CN118133145A (zh) * | 2024-05-07 | 2024-06-04 | 南京理工大学 | 一种基于支持向量机的数据中心机架出风温度预测方法 |
CN118297006A (zh) * | 2024-05-31 | 2024-07-05 | 应急管理部天津消防研究所 | 基于光纤传感器的ups集群式测温分级预警方法及其装置 |
-
2023
- 2023-07-30 CN CN202310949099.9A patent/CN117234301A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117435890A (zh) * | 2023-12-20 | 2024-01-23 | 深圳市武迪电子科技有限公司 | 一种电动摩托车多模态融合热管理方法及系统 |
CN117435890B (zh) * | 2023-12-20 | 2024-04-02 | 深圳市武迪电子科技有限公司 | 一种电动摩托车多模态融合热管理方法及系统 |
CN117806912A (zh) * | 2024-02-28 | 2024-04-02 | 济南聚格信息技术有限公司 | 一种服务器异常监测方法及系统 |
CN117806912B (zh) * | 2024-02-28 | 2024-05-14 | 济南聚格信息技术有限公司 | 一种服务器异常监测方法及系统 |
CN118035061A (zh) * | 2024-04-12 | 2024-05-14 | 四川华鲲振宇智能科技有限责任公司 | 基于深度学习的服务器故障预测及自动处理方法及系统 |
CN118133145A (zh) * | 2024-05-07 | 2024-06-04 | 南京理工大学 | 一种基于支持向量机的数据中心机架出风温度预测方法 |
CN118297006A (zh) * | 2024-05-31 | 2024-07-05 | 应急管理部天津消防研究所 | 基于光纤传感器的ups集群式测温分级预警方法及其装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117234301A (zh) | 一种基于人工智能的服务器热管理方法 | |
CN106446540B (zh) | 一种风电机组健康状态实时评估方法 | |
Yi et al. | Efficient compute-intensive job allocation in data centers via deep reinforcement learning | |
CN107133632A (zh) | 一种风电设备故障诊断方法及系统 | |
Zhang et al. | Short-term power load forecasting using integrated methods based on long short-term memory | |
Liang et al. | Power consumption model based on feature selection and deep learning in cloud computing scenarios | |
CN111027591B (zh) | 一种面向大规模集群系统的节点故障预测方法 | |
CN117078048A (zh) | 基于数字孪生的智慧城市资源管理方法及系统 | |
Zhu et al. | Research on PSO‐ARMA‐SVR Short‐Term Electricity Consumption Forecast Based on the Particle Swarm Algorithm | |
Bi et al. | Accurate prediction of workloads and resources with multi-head attention and hybrid LSTM for cloud data centers | |
Zhang et al. | Ensemble learning-based approach for residential building heating energy prediction and optimization | |
Fan et al. | Research and applications of data mining techniques for improving building operational performance | |
CN110415136B (zh) | 一种电力调度自动化系统服务能力评估系统与方法 | |
Sun et al. | Aledar: An attentions-based encoder-decoder and autoregressive model for workload forecasting of cloud data center | |
Liang et al. | Disk Failure Prediction Based on SW-Disk Feature Engineering | |
AlQerm et al. | BEHAVE: Behavior-aware, intelligent and fair resource management for heterogeneous edge-IoT systems | |
CN112860531A (zh) | 基于深度异构图神经网络的区块链广泛共识性能评测方法 | |
Bi et al. | Adaptive prediction of resources and workloads for cloud computing systems with attention-based and hybrid LSTM | |
Gao et al. | Daily power load curves analysis based on grey wolf optimization clustering algorithm | |
Li et al. | Multi-source heterogeneous log fusion technology of power information system based on big data and imprecise reasoning theory | |
CN117808272B (zh) | 一种基于机器学习的工业系统产能优化与调度方法和系统 | |
CN118211538B (zh) | 一种knn算法的芯片功能评估方法 | |
Sun et al. | A hierarchical classifying and two-step training strategy for detection and diagnosis of anormal temperature in district heating system | |
Liu et al. | A multidimensional time-series association rules algorithm based on spark | |
Qu et al. | Resource optimisation and fault detection algorithms for cloud computing platforms based on SVM and resource reserve strategy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |