CN117724933A - 一种数据中心通信热管理检测方法及系统 - Google Patents

一种数据中心通信热管理检测方法及系统 Download PDF

Info

Publication number
CN117724933A
CN117724933A CN202311761655.6A CN202311761655A CN117724933A CN 117724933 A CN117724933 A CN 117724933A CN 202311761655 A CN202311761655 A CN 202311761655A CN 117724933 A CN117724933 A CN 117724933A
Authority
CN
China
Prior art keywords
server
data
temperature
temperature control
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311761655.6A
Other languages
English (en)
Inventor
应浩军
潘建锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Haiyun Automation Technology Co ltd
Original Assignee
Jiangsu Haiyun Automation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Haiyun Automation Technology Co ltd filed Critical Jiangsu Haiyun Automation Technology Co ltd
Priority to CN202311761655.6A priority Critical patent/CN117724933A/zh
Publication of CN117724933A publication Critical patent/CN117724933A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Radiation Pyrometers (AREA)

Abstract

本发明涉及数据中心管理的技术领域,特别是涉及一种数据中心通信热管理检测方法及系统,其提高了服务器温控的准确性、实时性和综合性,能够确保数据中心的稳定运行;方法包括:获取数据中心服务器的热分布数据信息;利用预先构建的热分布图像提取模型对服务器的热分布数据信息进行图像处理,获得服务器热分布图像;根据预先设定的数据中心服务器温度提取点位对服务器热分布图像进行识别提取,并根据各温度提取点位的实际位置进行数据分布调整,获得服务器温度分布特征矩阵;将服务器温度分布特征矩阵输入至预先构建的服务器发热分析模型中,获得服务器发热指数。

Description

一种数据中心通信热管理检测方法及系统
技术领域
本发明涉及数据中心管理的技术领域,特别是涉及一种数据中心通信热管理检测方法及系统。
背景技术
随着云计算、大数据、人工智能等技术的发展与应用,数据中心已经成为现代社会最重要的基础设施之一,覆盖着电商、金融、电信、医疗、工业等各个领域,在促进社会经济发展、提高生产效率、创新科技应用等方面发挥着重要的作用。
然而,数据中心的服务器在运行过程中会产生大量的热量,如果不能有效地控制和管理这些热量,将可能导致服务器性能下降甚至损坏,给数据中心的稳定运行带来极大的隐患。因此,对数据中心服务器的热管理进行实时监测和评估,对于保障数据中心的稳定运行具有重要意义。现有的热管理检测方法主要是通过在服务器内部署实时监控的温度传感器,通过温度传感器监测到温度数据对服务器是否运行过热进行简单判断,此方法缺乏对服务器内部热分布以及设备运行状态的综合评估。因此,无法全面地了解服务器的热状态和潜在问题,给数据中心的稳定运行带来风险。
发明内容
为解决上述技术问题,本发明提供一种提高了服务器温控的准确性、实时性和综合性,能够确保数据中心的稳定运行的数据中心通信热管理检测方法。
第一方面,本发明提供了一种数据中心通信热管理检测方法,所述方法包括:
获取数据中心服务器的热分布数据信息;
利用预先构建的热分布图像提取模型对服务器的热分布数据信息进行图像处理,获得服务器热分布图像;
根据预先设定的数据中心服务器温度提取点位对服务器热分布图像进行识别提取,并根据各温度提取点位的实际位置进行数据分布调整,获得服务器温度分布特征矩阵;
将服务器温度分布特征矩阵输入至预先构建的服务器发热分析模型中,获得服务器发热指数;
采集服务器主机运行功率、服务器散热设备运行功率、服务器散热进风口风速以及服务器散热出风口风速;
将相同时间采集的服务器主机运行功率、服务器散热设备运行功率、服务器散热进风口风速、服务器散热出风口风速以及服务器发热指数,按照设定排列顺序转换为服务器温控特征向量;
将服务器温控特征向量输入至预先构建的服务器温控评价模型中,获得服务器温控评价参数;
根据服务器主机运行功率,调取对应的服务器温控评价阈值;当实时计算得到的服务器温控评价参数大于对应的服务器温控评价阈值时,则向运维人员发出“服务器温控异常”信息。
进一步地,所述服务器温控特征向量为:(Pzi,Psi,Vini,Vouti,Ki);
其中,Pzi表示在采集时间为i时的服务器主机运行功率,Psi表示在采集时间为i时的服务器散热设备运行功率,Vini表示在采集时间为i时的服务器散热进风口风速,Vouti表示在采集时间为i时的服务器散热出风口风速,Ki表示在采集时间为i时的服务器发热指数。
进一步地,所述热分布图像提取模型构建方法包括:
收集历史数据,构建一个标注数据集,包含数据中心内不同服务器的热分布图像以及相应的温度数据;
选择深度学习架构卷积神经网络;
构建卷积神经网络模型,包括卷积层、池化层和全连接层;
在训练过程中使用数据增强技术,包括旋转、翻转、缩放;
选择损失函数,使模型学习热分布图像的特征,所述损失函数包括均方误差和分类交叉熵损失;
使用准备好的数据集对模型进行训练,调整参数以最小化选择的损失函数;
使用独立的验证集评估模型的性能;
将训练好的模型部署到实际数据中心环境中,进行实时的热分布图像提取。
进一步地,所述服务器温度分布特征矩阵的获取方法包括:
将温度提取点位在图像上的位置映射到实际服务器内的位置,使每个点位对应于服务器上的具体区域;
对于识别到的温度提取点位,通过插值技术填充图像中未被识别到的点位的温度值,获取均匀完整的温度分布;
将调整后的温度提取点位及其对应的温度值映射到服务器上的位置,构建服务器温度分布特征矩阵。
进一步地,所述服务器发热分析模型构建方法包括:
对输入数据进行预处理,包括处理缺失值、异常值和数据标准化;
对原始数据进行特征工程;
选择深度学习模型,捕捉空间相关性和时间相关性;
将数据集划分为训练集和验证集;
使用训练集对选择的模型进行训练;
训练完成后,使用验证集评估其性能,评估指标包括均方误差、决定系数;
当模型训练和评估完成后,将其部署到实际的数据中心环境中,实时地接收和分析服务器温度分布数据,并生成发热指数。
进一步地,所述服务器温控评价模型构建方法包括:
收集历史数据,包括服务器的温度、运行功率、散热设备运行功率、进出风口风速;
处理数据中的异常值、缺失值,并进行转换和预处理;
从收集到的数据中选择最相关的特征,并进行特征提取,所述特征包括时间序列特征、功率特征、风速特征;
选择机器学习模型,包括线性回归、支持向量机、决策树、随机森林、神经网络;
使用历史数据对选择的模型进行训练;
使用交叉验证评估模型的性能;
将训练好的模型部署到实际的数据中心环境中,实时监测服务器的温控状态。
进一步地,所述服务器温控异常信息包括服务器标识、异常类型、异常参数值、时间戳、建议措施、联系方式和历史数据。
另一方面,本申请还提供了一种数据中心通信热管理检测系统,所述系统包括:
数据采集模块,用于获取数据中心服务器的热分布数据信息,并发送;
图像处理模块,用于接收热分布数据信息,利用预先构建的热分布图像提取模型对服务器的热分布数据信息进行图像处理,获得服务器热分布图像,并发送;
特征提取模块,用于接收服务器热分布图像,根据预先设定的数据中心服务器温度提取点位对服务器热分布图像进行识别提取,并根据各温度提取点位的实际位置进行数据分布调整,获得服务器温度分布特征矩阵,并发送;
发热分析模块,用于接收服务器温度分布特征矩阵,将服务器温度分布特征矩阵输入至预先构建的服务器发热分析模型中,获得服务器发热指数,并发送;
服务器运行数据采集模块,用于获取服务器主机运行功率、服务器散热设备运行功率、服务器散热进风口风速以及服务器散热出风口风速,并发送;
特征向量生成模块,用于接收服务器主机运行功率、服务器散热设备运行功率、服务器散热进风口风速、服务器散热出风口风速以及服务器发热指数,将相同时间采集的服务器主机运行功率、服务器散热设备运行功率、服务器散热进风口风速、服务器散热出风口风速以及服务器发热指数,按照设定排列顺序转换为服务器温控特征向量,并发送;
温控评价模块,用于接收服务器温控特征向量,将服务器温控特征向量输入至预先构建的服务器温控评价模型中,获得服务器温控评价参数,并发送;
温控异常报警模块,用于接收服务器温控评价参数,根据服务器主机运行功率,调取对应的服务器温控评价阈值;当实时计算得到的服务器温控评价参数大于对应的服务器温控评价阈值时,则向运维人员发出“服务器温控异常”信息。
第三方面,本申请提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,所述计算机程序被所述处理器执行时实现上述任意一项所述方法中的步骤。
第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述方法中的步骤。
与现有技术相比本发明的有益效果为:通过获取服务器的热分布数据信息,采用图像处理和特征提取模型,能够全面监测服务器内部的热分布情况,相较于传统的温度传感器方法,提供更为细致和全面的数据;通过预先构建的发热分析模型,该方法不仅仅检测温度,还通过服务器温度分布特征矩阵和发热指数进行综合评估,更全面地了解服务器的运行状态;
该方法实现了实时监测和评估,通过采集实时数据,及时发现服务器的温控异常,有助于及时采取措施,防范潜在问题,提高数据中心的稳定性;通过采集服务器主机运行功率、散热设备运行功率、进风口和出风口风速等多个因素,生成服务器温控特征向量,综合考虑了不同因素对服务器温度的影响,提高了方法的准确性和可靠性;通过及时发出温控异常信息,有助于运维人员在服务器性能受损之前采取措施,实现对服务器的预防性维护,降低了维护成本;
综上所述,本方法通过综合考虑多个因素,采用先进的技术手段,提高了服务器温控的准确性、实时性和综合性,能够确保数据中心的稳定运行。
附图说明
图1是本发明的流程图;
图2是热分布图像提取模型构建方法的流程图;
图3是数据中心通信热管理检测系统的结构图。
具体实施方式
在本申请的描述中,所属技术领域的技术人员应当知道,本申请可以实现为方法、装置、电子设备及计算机可读存储介质。因此,本申请可以具体实现为以下形式:完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、硬件和软件结合的形式。此外,在一些实施例中,本申请还可以实现为在一个或多个计算机可读存储介质中的计算机程序产品的形式,该计算机可读存储介质中包含计算机程序代码。
上述计算机可读存储介质可以采用一个或多个计算机可读存储介质的任意组合。计算机可读存储介质包括:电、磁、光、电磁、红外或半导体的系统、装置或器件,或者以上任意的组合。计算机可读存储介质更具体的例子包括:便携式计算机磁盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器、闪存、光纤、光盘只读存储器、光存储器件、磁存储器件或以上任意组合。在本申请中,计算机可读存储介质可以是任意包含或存储程序的有形介质,该程序可以被指令执行系统、装置、器件使用或与其结合使用。
本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律的相关规定。
本申请通过流程图和/或方框图描述所提供的方法、装置、电子设备。
应当理解,流程图和/或方框图的每个方框以及流程图和/或方框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而生产出一种机器,这些计算机可读程序指令通过计算机或其他可编程数据处理装置执行,产生了实现流程图和/或方框图中的方框规定的功能/操作的装置。
也可以将这些计算机可读程序指令存储在能使得计算机或其他可编程数据处理装置以特定方式工作的计算机可读存储介质中。这样,存储在计算机可读存储介质中的指令就产生出一个包括实现流程图和/或方框图中的方框规定的功能/操作的指令装置产品。
也可以将计算机可读程序指令加载到计算机、其他可编程数据处理装置或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其他可编程数据处理装置上执行的指令能够提供实现流程图和/或方框图中的方框规定的功能/操作的过程。
下面结合本申请中的附图对本申请进行描述。
实施例一
如图1至图2所示,本发明的数据中心通信热管理检测方法,具体包括以下步骤:
S1、获取数据中心服务器的热分布数据信息;
在步骤S1中,目标是获取数据中心服务器的热分布数据信息,是整个热管理检测方法的基础,通过获取准确、实时的热分布数据,后续的图像处理、分析和评估才能得以展开,以下是S1步骤的详细介绍:
S11、在数据中心服务器的关键位置部署温度传感器,测量不同区域的温度,形成温度分布数据,所述传感器的种类包括热敏电阻、红外线传感器;
S12、使用热成像设备对数据中心内的服务器进行扫描,了解服务器的热状态,热成像技术能够定期扫描数据中心,形成动态的热图;
S13、将获取的实时温度数据存储在数据库中,有助于建立历史数据,进行长期趋势分析和问题预测。
在本步骤中,部署温度传感器和使用热成像设备能够提供实时的热分布数据,能够及时捕捉服务器的温度变化,从而更迅速地响应潜在的温度问题;结合热敏电阻、红外线传感器和热成像设备,能够实现对服务器不同区域的全面监测,传感器种类的多样性便于捕捉不同类型的温度信息,提供更全面的热分布数据;热成像技术能够定期扫描数据中心,形成动态的热图,有助于观察服务器温度的变化趋势,识别潜在的周期性或季节性的温度问题;
将获取的实时温度数据存储在数据库中,有助于建立历史数据,历史数据不仅可以用于长期趋势分析,还能够帮助系统预测未来可能出现的问题,从而采取预防性的措施;
综上所述,结合传感器和热成像设备的数据,能够进行综合分析,不仅了解温度分布情况,还能检测到可能的异常状况,提高对数据中心热状态的全面评估。
S2、利用预先构建的热分布图像提取模型对服务器的热分布数据信息进行图像处理,获得服务器热分布图像;
所述热分布图像提取模型构建方法包括:
S21、收集历史数据,构建一个大规模的标注数据集,包含数据中心内不同服务器的热分布图像以及相应的温度数据;确保数据集具有多样性,包括不同工作负载、服务器型号和布局;
S22、选择深度学习架构卷积神经网络,适应图像处理任务;
S23、构建卷积神经网络模型,包括卷积层、池化层和全连接层;
S24、在训练过程中使用数据增强技术,包括旋转、翻转、缩放,增加模型的泛化能力;
S25、选择损失函数,使模型能够准确地学习热分布图像的特征,所述损失函数包括均方误差和分类交叉熵损失;
S26、使用准备好的数据集对模型进行训练,调整参数以最小化选择的损失函数;
S27、使用独立的验证集评估模型的性能,确保其在未见过的数据上表现良好;
S28、将训练好的模型部署到实际数据中心环境中,以进行实时的热分布图像提取。
在本步骤中,通过收集历史数据并构建大规模的标注数据集,确保了模型在训练过程中能够涵盖多种场景和条件,有助于提高模型的泛化能力,使其能够适应不同类型的服务器、工作负载和布局;选择卷积神经网络能够有效地捕捉图像中的空间特征,适用于处理热分布图像中的复杂关联;
采用数据增强技术,有助于增加模型对输入数据的鲁棒性和泛化能力;选择均方误差和分类交叉熵等损失函数,使得模型能够准确地学习热分布图像的特征;使用独立的验证集评估模型的性能,确保模型在未见过的数据上表现良好,有助于验证模型的泛化能力,从而提高其在实际应用中的可靠性;
将训练好的模型部署到实际数据中心环境中,实现实时的热分布图像提取,使得系统能够在数据中心运行时即时监测和评估服务器的热状态,有助于及时采取措施以确保数据中心的稳定运行;
综上所述,本步骤考虑到了数据多样性、模型架构的适应性、训练过程的优化以及实时部署的需求,使得该方法在应对数据中心热管理挑战方面具有较好的综合性能。
S3、根据预先设定的数据中心服务器温度提取点位对服务器热分布图像进行识别提取,并根据各温度提取点位的实际位置进行数据分布调整,获得服务器温度分布特征矩阵;
在S3步骤中,预先设定的数据中心服务器温度提取点位在热分布图像中需要被准确地识别;对从热分布图像中获得的原始数据进行预处理,包括去噪、调整图像对比度和亮度,以提高后续的温度提取点位识别精度;采用基于深度学习的目标检测算法,识别图像中的温度提取点位;
一旦温度提取点位被识别,就需要进行数据分布调整,以获取准确的服务器温度分布特征矩阵,所述服务器温度分布特征矩阵的获取方法包括:
S31、通过将温度提取点位在图像上的位置映射到实际服务器内的位置,使每个点位对应于服务器上的具体区域;
S32、对于识别到的温度提取点位,通过插值技术,包括双线性插值和三次样条插值,填充图像中未被识别到的点位的温度值,以获取更加均匀和完整的温度分布;
S33、通过将调整后的温度提取点位及其对应的温度值映射到服务器上的位置,构建服务器温度分布特征矩阵;将服务器的区域划分为网格,每个格子代表一个小区域,然后将每个温度提取点位的温度值赋给对应格子,形成一个矩阵。
在本步骤中,采用基于深度学习的目标检测算法,能够在图像中准确地识别预先设定的数据中心服务器温度提取点位,提高温度提取点位的检测精度;针对从热分布图像中获得的原始数据进行的预处理操作,能够提高后续温度提取点位的识别精度,有助于消除图像中的噪声,使得目标点位更加清晰可辨;
通过将温度提取点位在图像上的位置映射到实际服务器内的位置,结合插值技术,能够精确地调整数据分布,填充图像中未被识别到的点位的温度值,有助于获取更均匀和完整的温度分布,提高评估的准确性;通过将服务器的区域划分为网格,并将温度提取点位的温度值赋给对应的格子,形成一个矩阵,综合考虑了服务器内部的空间关系,能够全面地了解服务器的温度状态;
综上所述,S3步骤通过综合运用深度学习、图像处理和空间插值技术,有效地提高了服务器温度分布特征矩阵的准确性和全面性,为后续的服务器热管理提供了可靠的数据支持。
S4、将服务器温度分布特征矩阵输入至预先构建的服务器发热分析模型中,获得服务器发热指数;
构建S4步骤的服务器发热分析模型是整个数据中心通信热管理检测方法的核心,它能够准确预测服务器的发热指数,以便及时采取措施进行温度控制,所述服务器发热分析模型构建方法包括:
S41、对输入数据进行预处理,包括处理缺失值、异常值和数据标准化,使得数据适合模型的训练;
S42、对原始数据进行特征工程,从原始数据中提取相关性高、对模型有意义的特征;
S43、根据问题的性质和数据的特点,选择深度学习模型,以捕捉空间相关性和时间相关性;
S44、将数据集划分为训练集和验证集;
S45、使用训练集对选择的模型进行训练;
S46、训练完成后,使用验证集评估其性能,评估指标包括均方误差、决定系数,以确定模型是否能够准确地预测服务器的发热指数;
S47、当模型训练和评估完成后,将其部署到实际的数据中心环境中,实时地接收和分析服务器温度分布数据,并生成发热指数。
在本步骤中,采用深度学习模型,能够捕捉服务器温度分布的空间相关性和时间相关性,有助于更精准地预测服务器的发热指数;经过对数据的预处理和特征工程,模型能够使用更准确、更具代表性的特征,提高了模型训练的有效性和准确性;将数据集划分为训练集和验证集,并使用验证集评估模型性能,这有助于避免过拟合,并且通过评估指标来确定模型的准确性和预测能力;将训练好的模型部署到实际数据中心环境中,能够实时接收和分析服务器温度分布数据,并生成发热指数,从而及时采取措施进行温度控制,提高了数据中心运行的稳定性和效率;
综上所述,本步骤能够准确、全面地评估服务器的热状态,帮助数据中心管理者及时了解服务器的工作状态并采取必要的措施,确保数据中心的稳定运行。
S5、采集服务器主机运行功率、服务器散热设备运行功率、服务器散热进风口风速以及服务器散热出风口风速;
步骤S5目的是采集与服务器温控相关的关键参数,以下是S5步骤中各项参数采集方法:
S51、使用功率传感器和电流传感器来监测服务器主机的功率,将传感器直接连接到服务器的电源系统上,测量实时的电流和电压,并通过这些数据计算得到功率;
S52、使用功率传感器和电流传感器来监测散热设备的功率,将传感器直接安装在散热设备的电源线路上,实时监测功耗;
S53、使用风速传感器来监测散热进风口和出风口的风速,将传感器安装在风口位置,实时测量空气流速。
在本步骤中,通过使用功率传感器、电流传感器和风速传感器,对服务器主机功率、散热设备功率以及散热进出风口风速等关键参数的实时监测,能够捕捉数据中心环境的动态变化,提供及时的信息,使数据中心管理人员能够迅速做出反应;
服务器主机功率和散热设备功率的监测提供了关于服务器运行状态和热产生水平的信息,通过风速传感器监测进出风口的风速,能够了解散热系统的工作效率和环境通风情况;
实时监测服务器主机和散热设备的功率有助于识别潜在的问题,通过风速数据,还能够检测空气流通不良的情况,减少了因服务器性能问题而引发的风险;
综上所述,S5步骤通过实时监测关键参数,提供了全面的数据基础,为后续的热管理和温控评估提供了准确、可靠的信息,有助于确保数据中心的稳定运行。
S6、将相同时间采集的服务器主机运行功率、服务器散热设备运行功率、服务器散热进风口风速、服务器散热出风口风速以及服务器发热指数,按照设定排列顺序转换为服务器温控特征向量;
步骤S6是对采集的不同参数进行整合,形成服务器温控特征向量,这个向量包含了在相同时间点测得的多个关键参数,以帮助更全面地评估服务器的温度状况;
将相同时间采集的数据按照设定的排列顺序整合成一个服务器温控特征向量,这个向量将包含多个维度,每个维度对应一个采集的参数;所述服务器温控特征向量为:(Pzi,Psi,Vini,Vouti,Ki);
其中,Pzi表示在采集时间为i时的服务器主机运行功率,Psi表示在采集时间为i时的服务器散热设备运行功率,Vini表示在采集时间为i时的服务器散热进风口风速,Vouti表示在采集时间为i时的服务器散热出风口风速,Ki表示在采集时间为i时的服务器发热指数。
在本步骤中,服务器温控特征向量综合了多个关键参数,通过综合这些参数,能够更全面地了解服务器的运行状态和温度分布情况;将相同时间点采集的数据整合到一个向量中,确保了数据在时间上的一致性,能够更准确地反映服务器在特定时刻的综合性能,为实时温控提供了可靠的基础;采用设定的排列顺序,有助于确保数据的一致性和易读性;每个维度都有清晰的物理含义,明确的维度有助于在后续的模型中进行有效的分析和评估;
综上所述,步骤S6通过整合多个关键参数,建立了一个具有丰富信息的特征向量,为后续服务器温控评价提供了更全面、可靠的数据基础。
S7、将服务器温控特征向量输入至预先构建的服务器温控评价模型中,获得服务器温控评价参数;
所述服务器温控评价模型构建方法包括:
S71、收集历史数据,包括服务器的温度、运行功率、散热设备运行功率、进出风口风速;
S72、处理数据中的异常值、缺失值,并进行转换和预处理,确保数据质量符合模型训练的要求;
S73、从收集到的数据中选择最相关的特征,并进行特征提取,包括时间序列特征、功率特征、风速特征;
S74、选择机器学习模型,包括线性回归、支持向量机、决策树、随机森林、神经网络;
S75、使用历史数据对选择的模型进行训练,使其能够从数据中学习温控状态的模式和关联;
S76、使用交叉验证评估模型的性能,确保模型对新数据的泛化能力;
S77、将训练好的模型部署到实际的数据中心环境中,用于实时监测服务器的温控状态。
在本步骤中,通过收集多方面的历史数据,能够构建一个全面而具体的温控评价模型;通过处理数据中的异常值和缺失值,确保了输入模型的数据质量符合模型训练的要求,提高模型的鲁棒性和可靠性;通过对数据进行特征提取,能够捕捉与服务器温控状态相关的重要信息,提高了模型的表达能力;
通过选择多种机器学习模型,能够在模型选择上提供更多的选择,增加了找到最适合问题的模型的可能性;使用历史数据对选择的模型进行训练,并使用交叉验证评估模型的性能,确保了模型能够从数据中学到温控状态的模式和关联,并且具有对新数据的泛化能力;
综上所述,本步骤构建了一个综合而可靠的服务器温控评价模型,使其能够在实际环境中进行实时监测和预测,提高了服务器的运行效率和可靠性。
S8、根据服务器主机运行功率,调取对应的服务器温控评价阈值;当实时计算得到的服务器温控评价参数大于对应的服务器温控评价阈值时,则向运维人员发出“服务器温控异常”信息。
步骤S8涉及服务器温控评价阈值的调取和异常信息的通知,在数据中心管理领域,确保对服务器温度的实时监测,并在需要时及时通知运维人员采取相应的措施,以下是S8的详细介绍:
S81、根据数据中心服务器的不同配置和用途,确定合适的服务器温控评价阈值,包括考虑服务器型号、硬件规格、环境条件等因素,这个过程需要先行的试验和实测,以确保设定的阈值能够有效地识别潜在的温控问题;
S82、定期获取服务器的运行数据,在收集到数据后,进行实时计算,将计算结果与设定的服务器温控评价阈值进行比较;
S83、根据实时计算得到的服务器温控评价参数和阈值判断,自动触发通知机制;
S84、通过电子邮件、短信、手机应用程序等方式进行通知,以便运维人员能够快速了解问题的性质和严重程度;
所述服务器温控异常信息包括:
A、服务器标识,用于指示发生温控异常的具体服务器,包括IP地址、主机名和其他标识符,以便运维人员能够迅速定位问题;
B、异常类型,指明服务器温度异常的性质,不同类型的异常需要不同的处理方式,因此清晰的异常类型有助于运维人员更有效地采取适当的措施;
C、异常参数值,包括导致异常的具体参数数值,提供一个量化的指标,使运维人员能够了解问题的严重程度;
D、时间戳,记录发生异常的时间,帮助运维人员追溯问题发生的时刻,进而确定异常是否是瞬时的、周期性的,或是持续存在的;
E、建议措施,提供一些建议的措施,以缓解或解决服务器温控异常,所述建议措施包括建议降低服务器负载、增加散热设备的效率、检查风扇运行状态;
F、联系方式,提供联系方式,使运维人员能够进一步咨询或报告问题,包括电子邮件地址、电话号码和其他实时通信渠道;
G、历史数据,附加历史数据,包括过去一段时间内的温度趋势图、功率消耗情况,有助于运维人员更全面地了解服务器的性能变化和可能的原因。
在本步骤中,通过定期获取服务器运行数据和实时计算,系统能够实时监测服务器的温度状况,一旦实时计算得到的温控评价参数超过设定的阈值,系统会立即自动触发通知机制,实现对服务器温度异常的及时预警;考虑了数据中心服务器的不同配置和用途,通过试验和实测确定了合适的服务器温控评价阈值,个性化的阈值设定使系统更具适应性,能够考虑到不同服务器在不同环境条件下的工作特性,提高了监测的准确性;
异常信息提供了丰富的详细信息,这样的信息不仅帮助运维人员快速定位问题,还提供了解决问题的线索和建议,有助于迅速采取适当的措施;通过电子邮件、短信、手机应用程序等多种方式进行通知,确保运维人员可以在不同场景下及时收到异常信息,提高了通知的可靠性和覆盖范围;时间戳和历史数据允许运维人员追溯问题发生的时刻,并分析过去一段时间内的温度趋势和功率消耗情况,这有助于判断异常是否是瞬时的、周期性的,或是持续存在的,从而更好地制定解决方案;建议措施提供了针对性的建议,使运维人员能够在收到异常通知后快速采取措施,从而迅速缓解或解决服务器温控异常;
综上所述,S8步骤通过合理设定阈值、实时监测、及时通知和提供详细信息,有效地提高了对服务器温度异常的感知和处理能力,有助于维护数据中心的稳定运行。
实施例二
如图3所示,本发明的数据中心通信热管理检测系统,具体包括以下模块;
数据采集模块,用于获取数据中心服务器的热分布数据信息,并发送;
图像处理模块,用于接收热分布数据信息,利用预先构建的热分布图像提取模型对服务器的热分布数据信息进行图像处理,获得服务器热分布图像,并发送;
特征提取模块,用于接收服务器热分布图像,根据预先设定的数据中心服务器温度提取点位对服务器热分布图像进行识别提取,并根据各温度提取点位的实际位置进行数据分布调整,获得服务器温度分布特征矩阵,并发送;
发热分析模块,用于接收服务器温度分布特征矩阵,将服务器温度分布特征矩阵输入至预先构建的服务器发热分析模型中,获得服务器发热指数,并发送;
服务器运行数据采集模块,用于获取服务器主机运行功率、服务器散热设备运行功率、服务器散热进风口风速以及服务器散热出风口风速,并发送;
特征向量生成模块,用于接收服务器主机运行功率、服务器散热设备运行功率、服务器散热进风口风速、服务器散热出风口风速以及服务器发热指数,将相同时间采集的服务器主机运行功率、服务器散热设备运行功率、服务器散热进风口风速、服务器散热出风口风速以及服务器发热指数,按照设定排列顺序转换为服务器温控特征向量,并发送;
温控评价模块,用于接收服务器温控特征向量,将服务器温控特征向量输入至预先构建的服务器温控评价模型中,获得服务器温控评价参数,并发送;
温控异常报警模块,用于接收服务器温控评价参数,根据服务器主机运行功率,调取对应的服务器温控评价阈值;当实时计算得到的服务器温控评价参数大于对应的服务器温控评价阈值时,则向运维人员发出“服务器温控异常”信息。
该系统通过数据采集、图像处理和特征提取模块,能够全面监测数据中心服务器的热分布,相较于传统温度传感器简单判断方法,更全面地了解服务器内部热状态;通过特征提取和发热分析模块,系统不仅能够获取热分布图像,还能对服务器内部的热分布进行综合评估,考虑了各温度提取点位的实际位置,提高了对设备运行状态的综合评估能力;
通过实时数据采集和传输,系统能够实时监测服务器的运行状态,使得对温控异常的检测和响应更为及时,有助于防范潜在问题,提高了系统的稳定性;温控异常报警模块能够根据实际服务器运行功率动态调整评价阈值,提高了系统的灵活性和适应性,防范了虚警或漏警的问题;通过图像处理和发热分析模块的应用,系统采用了先进的技术手段,提高了对数据的分析和理解能力,更好地适应了现代数据中心的复杂环境和需求;
综上所述,该系统在实现数据中心热管理方面更为全面、精准,有助于提高服务器性能、延长设备寿命,确保数据中心的稳定运行。
前述实施例一中的数据中心通信热管理检测方法的各种变化方式和具体实施例同样适用于本实施例的数据中心通信热管理检测系统,通过前述对数据中心通信热管理检测方法的详细描述,本领域技术人员可以清楚的知道本实施例中数据中心通信热管理检测系统的实施方法,所以为了说明书的简洁,在此不再详述。
此外,本申请还提供了一种电子设备,包括总线、收发器、存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该收发器、该存储器和处理器分别通过总线相连,计算机程序被处理器执行时实现上述控制输出数据的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (10)

1.一种数据中心通信热管理检测方法,其特征在于,所述方法包括:
获取数据中心服务器的热分布数据信息;
利用预先构建的热分布图像提取模型对服务器的热分布数据信息进行图像处理,获得服务器热分布图像;
根据预先设定的数据中心服务器温度提取点位对服务器热分布图像进行识别提取,并根据各温度提取点位的实际位置进行数据分布调整,获得服务器温度分布特征矩阵;
将服务器温度分布特征矩阵输入至预先构建的服务器发热分析模型中,获得服务器发热指数;
采集服务器主机运行功率、服务器散热设备运行功率、服务器散热进风口风速以及服务器散热出风口风速;
将相同时间采集的服务器主机运行功率、服务器散热设备运行功率、服务器散热进风口风速、服务器散热出风口风速以及服务器发热指数,按照设定排列顺序转换为服务器温控特征向量;
将服务器温控特征向量输入至预先构建的服务器温控评价模型中,获得服务器温控评价参数;
根据服务器主机运行功率,调取对应的服务器温控评价阈值;当实时计算得到的服务器温控评价参数大于对应的服务器温控评价阈值时,则向运维人员发出“服务器温控异常”信息。
2.如权利要求1所述的一种数据中心通信热管理检测方法,其特征在于,所述服务器温控特征向量为:(Pzi,Psi,Vini,Vouti,Ki);
其中,Pzi表示在采集时间为i时的服务器主机运行功率,Psi表示在采集时间为i时的服务器散热设备运行功率,Vini表示在采集时间为i时的服务器散热进风口风速,Vouti表示在采集时间为i时的服务器散热出风口风速,Ki表示在采集时间为i时的服务器发热指数。
3.如权利要求1所述的一种数据中心通信热管理检测方法,其特征在于,所述热分布图像提取模型构建方法包括:
收集历史数据,构建一个标注数据集,包含数据中心内不同服务器的热分布图像以及相应的温度数据;
选择深度学习架构卷积神经网络;
构建卷积神经网络模型,包括卷积层、池化层和全连接层;
在训练过程中使用数据增强技术,包括旋转、翻转、缩放;
选择损失函数,使模型学习热分布图像的特征,所述损失函数包括均方误差和分类交叉熵损失;
使用准备好的数据集对模型进行训练,调整参数以最小化选择的损失函数;
使用独立的验证集评估模型的性能;
将训练好的模型部署到实际数据中心环境中,进行实时的热分布图像提取。
4.如权利要求1所述的一种数据中心通信热管理检测方法,其特征在于,所述服务器温度分布特征矩阵的获取方法包括:
将温度提取点位在图像上的位置映射到实际服务器内的位置,使每个点位对应于服务器上的具体区域;
对于识别到的温度提取点位,通过插值技术填充图像中未被识别到的点位的温度值,获取均匀完整的温度分布;
将调整后的温度提取点位及其对应的温度值映射到服务器上的位置,构建服务器温度分布特征矩阵。
5.如权利要求1所述的一种数据中心通信热管理检测方法,其特征在于,所述服务器发热分析模型构建方法包括:
对输入数据进行预处理,包括处理缺失值、异常值和数据标准化;
对原始数据进行特征工程;
选择深度学习模型,捕捉空间相关性和时间相关性;
将数据集划分为训练集和验证集;
使用训练集对选择的模型进行训练;
训练完成后,使用验证集评估其性能,评估指标包括均方误差、决定系数;
当模型训练和评估完成后,将其部署到实际的数据中心环境中,实时地接收和分析服务器温度分布数据,并生成发热指数。
6.如权利要求1所述的一种数据中心通信热管理检测方法,其特征在于,所述服务器温控评价模型构建方法包括:
收集历史数据,包括服务器的温度、运行功率、散热设备运行功率、进出风口风速;
处理数据中的异常值、缺失值,并进行转换和预处理;
从收集到的数据中选择最相关的特征,并进行特征提取,所述特征包括时间序列特征、功率特征、风速特征;
选择机器学习模型,包括线性回归、支持向量机、决策树、随机森林、神经网络;
使用历史数据对选择的模型进行训练;
使用交叉验证评估模型的性能;
将训练好的模型部署到实际的数据中心环境中,实时监测服务器的温控状态。
7.如权利要求1所述的一种数据中心通信热管理检测方法,其特征在于,所述服务器温控异常信息包括服务器标识、异常类型、异常参数值、时间戳、建议措施、联系方式和历史数据。
8.一种数据中心通信热管理检测系统,其特征在于,所述系统包括:
数据采集模块,用于获取数据中心服务器的热分布数据信息,并发送;
图像处理模块,用于接收热分布数据信息,利用预先构建的热分布图像提取模型对服务器的热分布数据信息进行图像处理,获得服务器热分布图像,并发送;
特征提取模块,用于接收服务器热分布图像,根据预先设定的数据中心服务器温度提取点位对服务器热分布图像进行识别提取,并根据各温度提取点位的实际位置进行数据分布调整,获得服务器温度分布特征矩阵,并发送;
发热分析模块,用于接收服务器温度分布特征矩阵,将服务器温度分布特征矩阵输入至预先构建的服务器发热分析模型中,获得服务器发热指数,并发送;
服务器运行数据采集模块,用于获取服务器主机运行功率、服务器散热设备运行功率、服务器散热进风口风速以及服务器散热出风口风速,并发送;
特征向量生成模块,用于接收服务器主机运行功率、服务器散热设备运行功率、服务器散热进风口风速、服务器散热出风口风速以及服务器发热指数,将相同时间采集的服务器主机运行功率、服务器散热设备运行功率、服务器散热进风口风速、服务器散热出风口风速以及服务器发热指数,按照设定排列顺序转换为服务器温控特征向量,并发送;
温控评价模块,用于接收服务器温控特征向量,将服务器温控特征向量输入至预先构建的服务器温控评价模型中,获得服务器温控评价参数,并发送;
温控异常报警模块,用于接收服务器温控评价参数,根据服务器主机运行功率,调取对应的服务器温控评价阈值;当实时计算得到的服务器温控评价参数大于对应的服务器温控评价阈值时,则向运维人员发出“服务器温控异常”信息。
9.一种数据中心通信热管理检测电子设备,包括总线、收发器、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述收发器、所述存储器和所述处理器通过所述总线相连,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述方法中的步骤。
CN202311761655.6A 2023-12-20 2023-12-20 一种数据中心通信热管理检测方法及系统 Pending CN117724933A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311761655.6A CN117724933A (zh) 2023-12-20 2023-12-20 一种数据中心通信热管理检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311761655.6A CN117724933A (zh) 2023-12-20 2023-12-20 一种数据中心通信热管理检测方法及系统

Publications (1)

Publication Number Publication Date
CN117724933A true CN117724933A (zh) 2024-03-19

Family

ID=90208599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311761655.6A Pending CN117724933A (zh) 2023-12-20 2023-12-20 一种数据中心通信热管理检测方法及系统

Country Status (1)

Country Link
CN (1) CN117724933A (zh)

Similar Documents

Publication Publication Date Title
Mourtzis et al. Intelligent predictive maintenance and remote monitoring framework for industrial equipment based on mixed reality
AU2018201487B2 (en) Method and system for health monitoring and fault signature identification
LU502731B1 (en) Method for monitoring abnormality of power production, apparatus, computer device, and storage medium therefor
CN117113729B (zh) 一种基于数字孪生的电力设备在线状态监测系统
CN112884199A (zh) 水电站设备故障预测方法、装置、计算机设备和存储介质
CN114255784A (zh) 一种基于声纹识别的变电站设备故障诊断方法及相关装置
CN117289085A (zh) 一种多线路故障分析诊断方法及系统
CN117388893B (zh) 一种基于gps的多设备定位系统
CN114138601A (zh) 一种业务告警方法、装置、设备及存储介质
CN113222531A (zh) 数据存储及监控方法、系统、计算机设备和存储介质
CN117724933A (zh) 一种数据中心通信热管理检测方法及系统
CN117235664A (zh) 配电通信设备的故障诊断方法、系统和计算机设备
CN117036732A (zh) 一种基于融合模型的机电设备检测系统、方法及设备
CN110318953B (zh) 风电机组电控系统的温度监控方法和设备
US20240054341A1 (en) Training models for target computing devices
CN117783769B (zh) 基于可视平台的配电网络故障定位方法、系统、设备及存储介质
CN113529845A (zh) 挖掘机故障诊断方法、挖掘机、电子设备及可读存储介质
CN117391459B (zh) 基于深度学习的电力运行风险预警方法及系统
US20200074828A1 (en) Technologies for managing safety at industrial sites
CN117613430B (zh) 一种新能源电池综合测试能源管理方法及系统
CN117272844B (zh) 配电盘工作寿命的预测方法及系统
KR102497586B1 (ko) 순차학습 기법에 기초하여 복수의 진단대상 장치의 이상 여부를 진단하는 방법 및 시스템
Verbeke et al. Fleet-Based Remaining Useful Life Prediction of Safety-critical Electronic Devices
CN117390501B (zh) 基于人工智能的工业燃气发电机组系统状态监测方法
Siddiqui et al. Anomaly detection framework for IoT-enabled appliances using machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination