CN117234301A

CN117234301A - 一种基于人工智能的服务器热管理方法

Info

Publication number: CN117234301A
Application number: CN202310949099.9A
Authority: CN
Inventors: 马开心
Original assignee: Sichuan Huakun Zhenyu Intelligent Technology Co ltd
Current assignee: Sichuan Huakun Zhenyu Intelligent Technology Co ltd
Priority date: 2023-07-30
Filing date: 2023-07-30
Publication date: 2023-12-15

Abstract

本发明涉及一种基于人工智能的服务器热管理方法，属于电数字数据处理技术领域，采用多维度数据采集、动态决策和智能控制的方法，采用新型的、基于集群特征的动态热管理策略，将服务器数据分析、深度学习和高效决策算法相结合，全面解决服务器面临的复杂多变、大规模、高要求的散热问题。性能损耗很低：采用物理分割方式，并且使用CPLD模块进行调度。安全性更高：由于没有服务器虚拟化的软件层，安全性相对更高。网络极限更高：由于实际的数据流通通过PCIE的高速总线进行流通，可以同时多路进行传输，网络极限更高。可管理性更强：管理者只需要关注服务器的极限性能即可。

Description

一种基于人工智能的服务器热管理方法

技术领域

本发明属于电数字数据处理技术领域，具体涉及一种基于人工智能的服务器热管理方法。

背景技术

随着服务器的数量和功率的增加，服务器的热量也在迅速增加，导致服务器运行时散热问题成为一项非常严重的技术难题。如果服务器温度过高，可能会导致服务器死机、数据丢失或者硬件故障，从而严重影响到系统的稳定运行。为了解决这一问题，研究人员开发了多种服务器热管理技术，例如运用冷却系统、改进散热结构、优化软硬件设计等。其中，自适应散热技术成为热管理技术的主流方向，它能够依据服务器负载和温度等因素，动态调整散热风扇的转速和功率，保证服务器在低噪音和高效散热之间达到平衡。

但是，现有技术的缺点如下：

1.难以应对复杂多变的应用场景。传统的热管理技术大多基于预设的硬件参数，无法针对多样化的应用场景做出智能化的热管理决策。

2.处理效率低，性能有限。传统方法无法考虑大量关键因素的组合，导致热管理决策效率低下。

3.无法进行全局优化。传统方法多是针对单个服务器进行优化，无法做到全局、统一管理，从而影响了整个机房的散热效果。

因此，现阶段需设计一种基于人工智能的服务器热管理方法，来解决以上问题。

发明内容

本发明目的在于提供一种基于人工智能的服务器热管理方法，用于解决上述现有技术中存在的技术问题，通过深度学习等人工智能技术，实现智能化的热管理，并通过集群化的方法，对整个服务器集群的散热效果进行全局优化。

为实现上述目的，本发明的技术方案是：

一种基于人工智能的服务器热管理方法，包括以下步骤：

S1、数据采集：

采用多维度数据采集的方式，包括温度、负载、功耗、环境因素的数据，采用传感器将数据实时采集到系统中，并进行数据预处理和特征提取；

S2、建模训练：

模型建立的第一步是数据准备；首先从服务器中采集多维度数据，包括温度、负载、功耗、环境因素；对数据进行清洗、去噪、归一化操作，保证后续训练和处理的准确性；在数据准备完成之后，对数据进行特征提取，并准备训练、验证与测试数据集；其中，使用两级特征提取；第一级特征提取识别出相应服务器的关键参数；第二级特征提取则关键参数中提取高层次信息；然后，将数据集按照一定的比例划分为训练集、验证集和测试集；选择神经网络的结构和训练算法；通过深度学习使用神经网络对大量的数据进行建模和预测；采用深度卷积神经网络，以识别数据中的各类特征信息；选择训练算法，优化神经网络的各类参数，针对数据中的各种特征进行识别和提取；评估神经网络的性能，对神经网络的优化；优化后将神经网络模型集成到热管理系统中，对服务器进行精准的热管理并提升服务质量；

S3、实时收集服务器状态数据，通过神经网络模型完成对服务器个要素的分析和决策，提出最优的散热调整方案，并将方案动态应用到服务器硬件中，动态维持服务器的稳定状态；

S4、采用集群特征的动态热管理策略，对多个服务器进行协同管理，进行全局优化。

进一步的，步骤S1中，多维度数据具体如下：

温度数据：收集系统中各个设备的温度数据，包括CPU、GPU、主板、硬盘设备；

湿度数据：收集系统中各个设备的湿度数据，以反映环境变化对设备温度的影响；

电力数据：收集系统中各个设备的实时电力数据，包括交流电、直流电，以反映设备的负荷和工作状态；

系统负荷数据：收集系统负荷数据，包括CPU负荷、内存使用情况、磁盘IO情况；

设备故障数据：收集设备故障数据，以了解设备的运行状况及产生故障的原因；

外部环境因素数据：收集外部环境因素数据，以反映外部环境对系统温度的影响；

操作记录数据：收集系统运行时的操作记录数据，包括操作人员、时间、操作内容，以便于追踪排查问题。

进一步的，步骤S2中，提取高层次信息具体如下：

通过对特征信息进行筛选、转换、降维处理，得到更具有代表性的特征，用于改善模型准确度、降低模型复杂度；

将不同来源的数据进行融合，在原有特征基础上增加新的特征。

进一步的，步骤S2中，将数据集按照一定的比例划分为训练集、验证集和测试集具体如下：

数据集的划分比例为70％训练集，20％验证集，10％测试集。

进一步的，步骤S2中，数据中的各类特征信息具体如下：

CPU和GPU温度数据：卷积神经网络通过卷积层提取局部特征，包括CPU和GPU温度的波动、变化趋势；

硬盘和内存数据：卷积神经网络从硬盘和内存数据中提取特征，包括读取速度、写入速度和内存使用率；

CPU和GPU使用率和负载：卷积神经网络从CPU和GPU使用率、负载数据中提取特征，通过卷积层提取周期性的CPU和GPU使用率、负载、占用率特征；

网络数据传输速度：卷积神经网络从网络传输速率数据中提取特征。

进一步的，步骤S2中，选择神经网络的结构和训练算法具体如下：

针对历史数据进行预测选择监督学习算法，监督学习算法包括神经网络模型或支持向量机模型，利用历史数据对未来的数据进行预测；

针对流式数据进行处理：选择增量式学习算法，增量式学习算法包括在线学习算法、逐批学习算法；

针对非结构性数据进行处理：非结构性数据包括文本和图像，选择深度学习算法，深度学习算法包括基于卷积神经网络和循环神经网络的模型；

进行数据降维：选择降维算法，降维算法包括主成分分析算法、线性判别分析算法等来减少特征维度。

进一步的，步骤S2中，优化神经网络的各类参数包括：

权重：权重是神经网络中最核心的参数之一，用来连接不同的神经元之间，并通过对权重进行调整，对输入数据的加权组合和特征提取；

偏置：在神经元计算过程中引入固定的偏移量，用于调整输出值。

进一步的，步骤S2中，评估神经网络的性能具体如下：

评估神经网络性能的关键指标包括准确度、精确度、召回率和F1值；使用测试数据集来评估关键指标，并根据结果进行优化和调整；

优化神经网络性能，调整网络的架构、学习率、正则化方法超参数，进行多次训练和调整；

调整神经网络的过程中，使用自适应优化算法，快速调整网络的超参数。。

进一步的，步骤S4还包括以下子步骤：

S41、分析集群内温度分布情况和各个节点的热负荷；采用温度传感器和数据分析工具对集群节点进行监测，收集节点的温度、功耗数据，并通过数据分析和处理，得到节点的温度分布和热负荷分布图；

S42、通过对机柜内部结构和散热系统进行优化来优化空气流动；

S43、根据节点的负载情况和热量发生情况自动调整节点的运行模式和功耗。

与现有技术相比，本发明所具有的有益效果为：

采用多维度数据采集、动态决策和智能控制的方法，采用新型的、基于集群特征的动态热管理策略，将服务器数据分析、深度学习和高效决策算法相结合，全面解决服务器面临的复杂多变、大规模、高要求的散热问题。性能损耗很低：采用物理分割方式，并且使用CPLD模块进行调度。安全性更高：由于没有服务器虚拟化的软件层，安全性相对更高。网络极限更高：由于实际的数据流通通过PCIE的高速总线进行流通，可以同时多路进行传输，网络极限更高。可管理性更强：整个服务器作为集群中的一个节点，在管理方面可理解为单个高性能服务器，任务分配后此方案的服务器可以自行分配任务，进行相应的性能调度、能耗调度等，管理者只需要关注服务器的极限性能即可。

附图说明

图1为本方案实施方式的步骤流程示意图。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。需要说明的是，术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

而且，术语“包括”，“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程，方法，物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程，方法，物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程，方法，物品或者设备中还存在另外的相同要素。

如图1所示，提出一种基于人工智能的服务器热管理方法，包括以下步骤：

1数据采集部分：

系统采用多维度数据采集的方式，包括温度、负载、功耗、环境等多个因素的数据，采用各种传感器将数据实时采集到系统中，并进行数据预处理和特征提取。

温度数据：收集系统中各个设备的温度数据，包括CPU、GPU、主板、硬盘等设备。

湿度数据：收集系统中各个设备的湿度数据，以反映环境变化对设备温度的影响。

电力数据：收集系统中各个设备的实时电力数据，包括交流电、直流电等，以反映设备的负荷和工作状态。

系统负荷数据：收集系统负荷数据，包括CPU负荷、内存使用情况、磁盘IO情况等。

设备故障数据：收集设备故障数据，以了解设备的运行状况及产生故障的原因。

外部环境因素数据：收集外部环境因素数据，如气温、湿度、降雨量等，以反映外部环境对系统温度的影响。

操作记录数据：收集系统运行时的操作记录数据，包括操作人员、时间、操作内容等，以便于追踪排查问题。

通过以上数据的收集，可以全面反映系统的运行状态，为建立基于深度学习的智能化热管理系统提供充分的数据支撑。

2建模训练部分：

建模训练是本发明技术方案的一个非常关键的环节，在热管理系统的实现中起到了至关重要的作用。

模型建立的第一步是数据准备。本发明技术方案需要首先从服务器中采集多尺度数据，这些数据包括温度、负载、功耗、环境因素等。通过传感器和视觉技术收集的数据量非常庞大，因此在数据预处理阶段，需要对数据进行清洗、去噪、归一化等操作，以保证后续训练和处理的准确性。

在数据准备完成之后，下一步是对数据进行特征提取，并准备训练、验证与测试数据集。对于散热管理而言，通常使用两级特征提取。第一级特征提取可以识别出相应服务器的关键参数，例如温度、负载等；第二级特征提取则可以从这些关键参数中提取高层次、有意义的信息。然后，将数据集按照一定的比例划分为训练集、验证集和测试集，以避免数据过拟合或欠拟合的问题。

特征提取：通过对特征信息进行筛选、转换、降维等处理，得到更具有代表性的特征，在改善模型准确度、降低模型复杂度等方面有很大作用。

多模态信息融合：将不同来源的数据进行融合，在原有特征基础上增加更多信息，例如将温度和负荷数据进行融合，可以得到更准确的热管理决策。

深度网络建模：使用深度神经网络对特征数据进行建模，可以深度挖掘特征数据中的非线性关系，进一步提高模型预测精度。

时间序列分析：对时间序列数据进行分析，例如热力图分析等，可以更加直观地了解设备运行的状态，提高预测的精度。

成功案例分析：对类似的成功案例进行分析，提取成功经验和规律，并应用到智能化热管理系统的发展中。

训练集比例：

训练集的划分比例取决于具体的应用场景和数据量大小。一般来说，大规模数据集的划分比例可以采用70％训练集，20％验证集，10％测试集的方法，这样可以最大程度地利用数据进行模型的训练，验证和测试。如果数据集比较小，可以考虑将数据集的训练集和验证集合并，占用80％的数据集，测试集占用20％左右。需要注意的是，训练集和测试集应该满足相同的分布，以避免模型在训练和测试时出现偏差，影响模型的准确性。

接下来，建模训练的核心是选择神经网络的结构和训练算法。通过深度学习技术使用神经网络可以对大量的数据进行多维度、多角度的建模和预测，以提高散热管理的精度和效率。对于神经网络的结构选择，本技术方案建议采用深度卷积神经网络(DCNNs)，以识别数据中的各类特征信息。同时，还需要针对不同的应用场景和需求来选择不同的训练算法，例如反向传播算法、随机梯度下降法等等。随着训练过程的进行，神经网络的各类参数逐渐得到了优化，同时还能够针对数据中的各种特征进行识别和提取。

数据中的各类特征信息：

CPU和GPU温度数据：卷积神经网络可以通过卷积层提取局部特征，包括CPU和GPU温度的波动和变化趋势等。

硬盘和内存数据：卷积神经网络可以从硬盘和内存数据中提取特征，例如读取速度、写入速度和内存使用率等，以帮助预测系统的热管理情况。

CPU和GPU使用率和负载：卷积神经网络可以从CPU和GPU使用率和负载数据中提取特征，例如可以通过卷积层提取周期性的CPU和GPU使用率、负载、占用率等特征。

网络数据传输速度：卷积神经网络可以从网络传输速率数据中提取特征，例如网络流量波动、网络带宽、数据包丢失率等。

通过在卷积神经网络中进行特征提取和分析，服务器热管理系统可以根据不同的特征信息，调整系统资源和优化系统性能，以达到更好的热管理效果。

训练算法选择：

针对历史数据进行预测：这种情况下需要选择一些监督学习算法，例如神经网络模型、支持向量机模型等，这些模型能够利用历史数据对未来的数据进行预测。

针对流式数据进行处理：如果需要针对流式数据进行处理，则需要选择一些增量式学习算法，例如在线学习算法，逐批学习算法等。这些方法能够保证训练过程更加高效，同时可以处理实时产生的数据。

针对非结构性数据进行处理：如果需要处理非结构化数据，例如文本和图像等，则需要选择一些深度学习算法，例如基于卷积神经网络(CNN)和循环神经网络(RNN)的模型等。这些模型能够自动提取特征，并且可以适应更加复杂的数据类型。

需要进行数据降维：在实际应用中可能存在数据维度过高的问题，这时需要选择一些降维算法，例如主成分分析(PCA)算法、线性判别分析(LDA)算法等来减少特征维度。

参数：

权重(Weight)：权重是神经网络中最核心的参数之一，它的作用是用来连接不同的神经元之间，并通过对权重进行调整，达到对输入数据的加权组合和特征提取的目的。通常情况下，权重的数量直接影响到网络的大小和深度。

偏置(Bias)：偏置是神经网络中的另一个重要参数，它的作用是在神经元计算过程中引入一个固定的偏移量，用于调整输出值，帮助网络更好地适应数据集的特征，提高预测准确性。

除了权重和偏置参数，神经网络中还有其他一些参数，例如学习率、正则化参数、迭代次数、批次大小等。这些参数都是为了帮助神经网络更好地适应数据集的特征，优化模型的性能。在神经网络的训练过程中，需要对这些参数进行微调和优化，以使模型能够收敛并达到最优性能。

最后，建模训练环节应该评估神经网络的性能。这通常涉及模型的精度和泛化性能的评估，例如误差率、F1分数等，以及对神经网络的优化和调整。在完成模型优化后，可以将模型集成到热管理系统中，对服务器进行更加精准的热管理并提升服务质量。

评估方法：

评估神经网络性能的关键指标包括准确度、精确度、召回率和F1值等。我们可以使用测试数据集来评估这些指标，并根据结果进行优化和调整。

为了优化神经网络性能，我们可以调整网络的架构、学习率、正则化方法等超参数，并通过多次训练和调整来逐步提高性能。

调整神经网络的过程中，我们可以使用自适应优化算法，如自适应梯度算法(Adagrad)、自适应矩估计算法(Adam)等，以快速而有效地调整网络的超参数，提高性能表现。

3动态热管理部分：

系统实时地收集服务器状态数据，通过深度学习模型完成对服务器负载、环境等要素的分析和决策，提出最优的散热调整方案，并将方案动态地应用到服务器的散热风扇、温控系统等硬件中，调整散热风扇转速和功率，动态维持服务器的稳定状态。

4集群优化部分：

本发明技术方案采用集群特征的动态热管理策略，对多个服务器进行协同管理，进行全局优化，进一步提高整个服务器集群的散热效果和稳定性。

(1)分析集群热问题

首先需要分析集群热问题，了解集群内温度分布情况和各个节点的热负荷。可以采用温度传感器和数据分析工具对集群节点进行监测，收集节点的温度、功耗等数据，并通过数据分析和处理，得到节点的温度分布和热负荷分布图。

动态调整负载：通过监测节点的温度和负荷信息，AI可以实时了解节点的负载情况，及时对节点的负载进行调整，以确保负载均衡，避免出现节点过载的情况。

节点故障预警：通过监测节点的温度、负荷等信息，AI可以发现节点的异常情况，包括过热、故障等，及时进行处理，避免故障扩散。

节能降耗：通过监测节点的温度、负荷等信息，AI可以合理安排节点的负载分布，降低节点的能耗，提高集群的能效比。

基于得到的节点的温度分布和热负荷分布，集群动态热管理可以实现集中式和分布式两种管理方式。在集中式管理方式下，AI可以通过中央控制器对节点的热管理进行统一调度和控制。在分布式管理方式下，AI可以通过将温度和负荷信息传输给节点，由节点自行调整负载和降低能耗，提高集群的智能化运维能力。综上，温度分布和热负荷分布是集群动态热管理的基础，通过实时监控、调整和优化，可以提高集群的性能和稳定性，降低故障率，提高集群的可靠性和可用性。

(2)优化空气流动

空气流动是影响集群散热效率的关键因素。可以通过对机柜内部结构和散热系统进行优化来优化空气流动，提高散热效率。例如，可以从风扇、散热器、散热管等散热设备的设计及位置等方面进行优化。

优化方法：

设计合理的散热设备：散热设备应该具有较大的散热面积、较高的散热效率，以确保服务器集群的稳定运行。同时，散热设备的材料应该具有较好的导热性能，以提高散热效率。

保持良好的通风环境：合理的通风管理可以有效地降低服务器的运行温度。在服务器机柜的设计中，应考虑通风的方向和位置，并合理安排散热设备的位置和数量，以保证通风的畅通。在空间不足的情况下，可以考虑采用排热通风系统，同时加装隔断板、风道等降低内部温度，提高散热效率。

提高空气流动速度：空气流动是散热的重要因素，提高空气流动速度可有效降低温度。可以通过增加风扇数量或提高风扇的转速等方式来提高空气流动速度。同时，可以采用智能控制系统，根据服务器的温度情况自动调节风扇的转速，以达到更好的散热效果。

优化散热管路：散热管路应该避免弯曲过多和拐角过多，以便热量能够快速地从散热设备中排出，进而提高散热效率。

(3)动态功耗管理

动态功耗管理(DPM)是一种基于功率信息的软件技术，它能够根据节点的负载情况和热量发生情况自动调整节点的运行模式和功耗，以减少热量产生，从而优化集群热管理。在不影响集群整体性能和稳定性的前提下，DPM可以降低节点的功耗和温度，以达到节能和降温的目的。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于人工智能的服务器热管理方法，其特征在于，包括以下步骤：

S1、数据采集：采用多维度数据采集的方式，包括温度、负载、功耗、环境因素的数据，采用传感器将数据实时采集到系统中，并进行数据预处理和特征提取；

S2、建模训练：模型建立的第一步是数据准备；首先从服务器中采集多维度数据，包括温度、负载、功耗、环境因素；对数据进行清洗、去噪、归一化操作，保证后续训练和处理的准确性；在数据准备完成之后，对数据进行特征提取，并准备训练、验证与测试数据集；其中，使用两级特征提取；第一级特征提取识别出相应服务器的关键参数；第二级特征提取则关键参数中提取高层次信息；然后，将数据集按照一定的比例划分为训练集、验证集和测试集；选择神经网络的结构和训练算法；通过深度学习使用神经网络对大量的数据进行建模和预测；采用深度卷积神经网络，以识别数据中的各类特征信息；选择训练算法，优化神经网络的各类参数，针对数据中的各种特征进行识别和提取；评估神经网络的性能，对神经网络的优化；优化后将神经网络模型集成到热管理系统中，对服务器进行精准的热管理并提升服务质量；

2.根据权利要求1所述的一种基于人工智能的服务器热管理方法，其特征在于，步骤S1中，多维度数据具体如下：

3.根据权利要求2所述的一种基于人工智能的服务器热管理方法，其特征在于，步骤S2中，提取高层次信息具体如下：

4.根据权利要求3所述的一种基于人工智能的服务器热管理方法，其特征在于，步骤S2中，将数据集按照一定的比例划分为训练集、验证集和测试集具体如下：

数据集的划分比例为70％训练集，20％验证集，10％测试集。

5.根据权利要求4所述的一种基于人工智能的服务器热管理方法，其特征在于，步骤S2中，数据中的各类特征信息具体如下：

6.根据权利要求5所述的一种基于人工智能的服务器热管理方法，其特征在于，步骤S2中，选择神经网络的结构和训练算法具体如下：

7.根据权利要求6所述的一种基于人工智能的服务器热管理方法，其特征在于，步骤S2中，优化神经网络的各类参数包括：

8.根据权利要求7所述的一种基于人工智能的服务器热管理方法，其特征在于，步骤S2中，评估神经网络的性能具体如下：

9.根据权利要求8所述的一种基于人工智能的服务器热管理方法，其特征在于，步骤S4还包括以下子步骤：