CN115437486A - 基于模型的服务器散热方法、装置、服务器和存储介质 - Google Patents

基于模型的服务器散热方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN115437486A
CN115437486A CN202211400391.7A CN202211400391A CN115437486A CN 115437486 A CN115437486 A CN 115437486A CN 202211400391 A CN202211400391 A CN 202211400391A CN 115437486 A CN115437486 A CN 115437486A
Authority
CN
China
Prior art keywords
processor
temperature
heat dissipation
information
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211400391.7A
Other languages
English (en)
Other versions
CN115437486B (zh
Inventor
张加书
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202211400391.7A priority Critical patent/CN115437486B/zh
Publication of CN115437486A publication Critical patent/CN115437486A/zh
Application granted granted Critical
Publication of CN115437486B publication Critical patent/CN115437486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D23/00Control of temperature
    • G05D23/19Control of temperature characterised by the use of electric means
    • G05D23/20Control of temperature characterised by the use of electric means with sensing elements having variation of electric or magnetic properties with change of temperature
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Control Of Temperature (AREA)

Abstract

本发明实施例提供了一种基于模型的服务器散热方法、装置、服务器和存储介质,方法包括:获取服务器中多个处理器的温度信息;若获取的处理器的温度信息位于预设温度范围,则获取基于当前数据集进行训练的训练时长和训练时长范围,若训练时长不位于训练时长范围,则根据处理器的温度信息进行PID温度控制,以控制处理器的温度,直至获取另一组数据集的训练时长满足训练时长范围,在本发明实施例中,通过部署的机器学习模型的数据集的训练时长,进行调控处理器的温度,直至获取另一组数据集的训练时长满足数据集对应训练时长范围,解决了高性能运算的服务器的散热问题,实现让实时服务器中处理器的运算性能处于最佳状态。

Description

基于模型的服务器散热方法、装置、服务器和存储介质
技术领域
本发明涉及设备维护技术领域,特别是涉及一种基于模型的服务器散热方法、一种基于模型的服务器散热装置、一种服务器和一种计算机可读存储介质。
背景技术
对于高性能运算和存储的服务器的使用,需要在长期开机的状态下,24小时不停歇的运转、运算以及处理数据,从而会产生大量的功耗,导致服务器的机体产生大量的热量,服务器机体过温,会导致服务器运行的性能下降,有时甚至会产生宕机、CPU占用率过高现象。
在现有技术中,对于高性能运算和存储的服务器的散热是通过直接修改PID散热参数,以对风扇的转速进行控制,但是这种方式不能保证服务器运行的性能是实时处于最佳状态。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于模型的服务器散热方法、相应的一种基于模型的服务器散热装置、一种服务器和一种计算机可读存储介质。
为了解决上述问题,本发明实施例公开了一种基于模型的服务器散热方法,应用于服务器,所述服务器上部署有机器学习模型,所述机器学习模型基于多组数据集进行训练,所述方法包括:
获取所述服务器中多个处理器的温度信息;
若所述处理器的温度信息位于所述预设温度范围,则获取机器学习模型基于当前数据集进行训练的训练时长和当前数据集对应的训练时长范围;
若所述训练时长不位于所述训练时长范围,则根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度,直至获取另一组数据集的训练时长位于所述数据集对应的训练时长范围。
可选地,还包括:
若所述处理器的温度信息不位于所述预设温度范围,则根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度,直至所述处理器的温度信息位于所述预设温度范围。
可选地,还包括:
若所述训练时长位于所述训练时长范围,则在保持数据集的训练时长位于所述训练时长范围的条件下,根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度。
可选地,所述处理器对应有散热设备,所述若所述处理器的温度信息不位于所述预设温度范围,则根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度,直至所述处理器的温度信息位于所述预设温度范围,包括:
若所述处理器的温度信息不位于所述预设温度范围,则根据处理器的温度信息,确定所述处理器的运行性能状态;
根据所述处理器的运行性能状态,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息;
根据所述目标功率信息,调控所述处理器对应区域的散热设备的功率,直至所述处理器的温度信息位于所述预设温度范围。
可选地,所述若所述训练时长位于所述训练时长范围,则在保持数据集的训练时长位于所述训练时长范围的条件下,根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度,包括:
若所述训练时长位于所述训练时长范围,则判断所述处理器对应的散热设备是否为工作状态;
若所述处理器对应的散热设备为工作状态,则根据处理器的温度信息进行PID温度控制,在保持数据集的训练时长位于所述训练时长范围的条件下,控制对应区域的散热设备的功率逐渐减小,以控制所述处理器的温度升高。
可选地,所述若所述处理器的温度信息不位于所述预设温度范围,则根据处理器的温度信息,确定所述处理器的运行性能状态,包括:
若所述处理器的温度信息大于预设温度范围的上边界值,则确定所述处理器的运行性能状态处于第一运行状态,所述第一运行状态用于表征处理器的运行性能受损的状态;
可选地,所述若所述处理器的温度信息不位于所述预设温度范围,则根据处理器的温度信息,确定所述处理器的运行性能状态,还包括:
若所述处理器的温度信息小于预设温度范围的下边界值,则确定所述处理器的运行性能状态处于第二运行状态,所述第二运行状态用于表征服务器的运行性能不稳定的状态。
可选地,所述根据所述处理器的运行性能状态,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息,包括:
当所述处理器的运行性能状态处于第一运行状态,则触发高温报警信息;
根据所述高温报警信息,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息。
可选地,所述根据所述处理器的运行性能状态,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息,还包括:
当所述处理器的运行性能状态处于第二运行状态,则触发低温报警信息;
根据所述低温报警信息,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息。
可选地,所述根据所述目标功率信息,调控所述处理器对应区域的散热设备的功率,直至所述处理器的温度信息位于所述预设温度范围,包括:
根据所述目标功率信息,控制对应区域的散热设备的功率逐渐变大,使得实时监控所述处理器的温度信息变小,直至所述处理器的温度信息位于所述预设温度范围。
可选地,还包括:
若对应区域的散热设备的功率不能逐渐增大,则判断所述散热设备是否为工作状态;
若所述散热设备不为工作状态,则触发散热设备损坏警报;
若所述散热设备为工作状态,则判断所述散热设备的功率是否为最大值;
若所述散热设备的功率为最大值,则触发温度过高警报;
若所述散热设备的功率不为最大值,则触发散热设备损坏警报。
可选地,所述根据所述目标功率信息,调控所述处理器对应区域的散热设备的功率,直至所述处理器的温度信息位于所述预设温度范围,还包括:
根据所述目标功率信息,控制对应区域的散热设备的功率逐渐变小,使得实时监控所述处理器的温度信息变大,直至所述处理器的温度信息位于所述预设温度范围。
可选地,还包括:
若对应区域的散热设备的功率不能逐渐变小,则判断所述散热设备是否为工作状态;
若所述散热设备不为工作状态,则触发温度过低警报;
若所述散热设备为工作状态,则触发散热设备损坏警报。
可选地,所述若所述训练时长不位于训练时长范围,则根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度,包括:
若所述训练时长不位于所述训练时长范围,则根据所述训练时长,确定所述处理器的运行性能状态;
根据所述处理器的运行性能状态,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息;
根据所述目标功率信息,调控所述处理器对应区域的散热设备的功率,以控制所述处理器的温度。
可选地,所述若所述训练时长不位于所述训练时长范围,则根据所述训练时长,确定所述处理器的运行性能状态,包括:
若所述训练时长大于所述训练时长范围的上边界值,则确定所述处理器的运行性能状态为第三运行状态,所述第三运行状态用于表征服务器处理性能低于处理性能阈值的状态。
可选地,所述根据所述处理器的运行性能状态,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息,包括:
当所述处理器的运行性能状态为第三运行状态时,则触发散热报警信息;
根据所述散热报警信息,对所述处理器的温度信息进行PID温度控制,得到目标功率信息。
可选地,所述根据所述目标功率信息,调控所述处理器对应区域的散热设备的功率,以控制所述处理器的温度,包括:
根据更新后的目标功率信息,控制对应区域的散热设备的功率逐渐增大,使得实时监控所述处理器的温度信息变小。
可选地,所述散热设备为风扇,所述风扇用于在不同功率下,以不同的转速运行,以控制所述处理器的温度。
可选地,所述处理器为CPU和/或GPU。
本发明实施例还公开了一种基于模型的服务器散热装置,应用于服务器,所述服务器上部署有机器学习模型,所述机器学习模型基于多组数据集进行训练,所述装置包括:
温度信息获取模块,用于获取所述服务器中多个处理器的温度信息;
训练时长获取模块,用于若所述处理器的温度信息位于所述预设温度范围,则获取机器学习模型基于当前数据集进行训练的训练时长和当前数据集对应的训练时长范围;
第一温度控制模块,用于若所述训练时长不位于所述训练时长范围,则根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度,直至获取另一组数据集的训练时长位于所述数据集对应的训练时长范围。
可选地,还包括:
预设温度控制模块,用于若所述处理器的温度信息不位于所述预设温度范围,则根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度,直至所述处理器的温度信息位于所述预设温度范围。
可选地,还包括:
第二温度控制模块,用于若所述训练时长位于所述训练时长范围,则在保持数据集的训练时长位于所述训练时长范围的条件下,根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度。
可选地,所述处理器对应有散热设备,所述预设温度控制模块包括:
第一运行性能确定子模块,用于若所述处理器的温度信息不位于所述预设温度范围,则根据处理器的温度信息,确定所述处理器的运行性能状态;
第一目标功率得到子模块,用于根据所述处理器的运行性能状态,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息;
预设温度控制子模块,用于根据所述目标功率信息,调控所述处理器对应区域的散热设备的功率,直至所述处理器的温度信息位于所述预设温度范围。
可选地,所述第二温度控制模块,包括:
散热设备判断子模块,用于若所述训练时长位于所述训练时长范围,则判断所述处理器对应的散热设备是否为工作状态;
第二温度控制子模块,用于若所述处理器对应的散热设备为工作状态,则根据处理器的温度信息进行PID温度控制,在保持数据集的训练时长位于所述训练时长范围的条件下,控制对应区域的散热设备的功率逐渐减小,以控制所述处理器的温度升高。
可选地,所述第一运行性能确定子模块,包括:
第一运行状态确定单元,用于若所述处理器的温度信息大于预设温度范围的上边界值,则确定所述处理器的运行性能状态处于第一运行状态,所述第一运行状态用于表征处理器的运行性能受损的状态。
在一种实施例中,所述第一运行性能确定子模块,还包括:
第二运行状态确定单元,用于若所述处理器的温度信息小于预设温度范围的下边界值,则确定所述处理器的运行性能状态处于第二运行状态,所述第二运行状态用于表征服务器的运行性能不稳定的状态。
可选地,所述第一目标功率得到子模块,包括:
高温报警信息触发单元,用于当所述处理器的运行性能状态处于第一运行状态,则触发高温报警信息;
第一目标功率得到单元,用于根据所述高温报警信息,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息。
可选地,所述第一目标功率得到子模块,还包括:
低温报警信息触发单元,用于当所述处理器的运行性能状态处于第二运行状态,则触发低温报警信息;
第二目标功率得到单元,用于根据所述低温报警信息,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息。
可选地,所述预设温度控制子模块,包括:
预设温度信息变小单元,用于根据所述目标功率信息,控制对应区域的散热设备的功率逐渐变大,使得实时监控所述处理器的温度信息变小,直至所述处理器的温度信息位于所述预设温度范围。
可选地,还包括:
第一散热设备判断单元,用于若对应区域的散热设备的功率不能逐渐增大,则判断所述散热设备是否为工作状态;
第一散热警报触发单元,用于若所述散热设备不为工作状态,则触发散热设备损坏警报;
功率最大值判断单元,用于若所述散热设备为工作状态,则判断所述散热设备的功率是否为最大值;
可选地,所述预设温度控制子模块,还包括:
预设温度信息变大单元,用于根据所述目标功率信息,控制对应区域的散热设备的功率逐渐变小,使得实时监控所述处理器的温度信息变大,直至所述处理器的温度信息位于所述预设温度范围。
可选地,还包括:
第二散热设备判断单元,用于若对应区域的散热设备的功率不能逐渐变小,则判断所述散热设备是否为工作状态;
温度过低警报触发单元,用于若所述散热设备不为工作状态,则触发温度过低警报;
第三散热警报触发单元,用于若所述散热设备为工作状态,则触发散热设备损坏警报。
可选地,所述第一温度控制模块,包括:
第二运行性能确定子模块,用于若所述训练时长不位于所述训练时长范围,则根据所述训练时长,确定所述处理器的运行性能状态;
第二目标功率确定子模块,用于根据所述处理器的运行性能状态,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息;
第一温度控制子模块,用于根据所述目标功率信息,调控所述处理器对应区域的散热设备的功率,以控制所述处理器的温度。
可选地,所述第二运行性能确定子模块,包括:
第三运行状态确定单元,用于若所述训练时长大于所述训练时长范围的上边界值,则确定所述处理器的运行性能状态为第三运行状态;所述第三运行状态用于表征服务器处理性能低于处理性能阈值的状态。
可选地,所述第二目标功率确定子模块,包括:
散热报警信息触发单元,用于当所述处理器的运行性能状态为第三运行状态时,则触发散热报警信息;
第三目标功率得到单元,用于根据所述散热报警信息,对所述处理器的温度信息进行PID温度控制,得到目标功率信息。
可选地,所述第一温度控制子模块,包括:
第一温度信息降低单元,用于根据更新后的目标功率信息,控制对应区域的散热设备的功率逐渐增大,使得实时监控所述处理器的温度信息变小。
本发明实施例还公开了一种服务器,所述服务器上部署有机器学习模型,所述机器学习模型基于多组数据集进行训练,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行存储器上所存放的程序时,实现如本发明实施例所述的基于模型的服务器散热方法。
本发明实施例还公开了一个或多个计算机可读介质,其上存储有指令,当由一个或多个处理器执行时,使得所述处理器执行如本发明实施例所述的基于模型的服务器散热方法。
本发明实施例包括以下优点:
在本发明实施例中,获取服务器中多个处理器的温度信息,若处理器的温度信息位于预设温度范围,则获取机器学习模型基于当前数据集进行训练的训练时长和对应的训练时长范围,若训练时长不位于训练时长范围,则根据处理器的温度信息进行PID温度控制,以控制处理器的温度,直至获取另一组数据集的训练时长满足数据集对应训练时长范围。在本发明实施例中通过部署的机器学习模型的数据集的训练时长,进行调控处理器的温度,直至获取另一组数据集的训练时长满足数据集对应训练时长范围,解决了高性能运算的服务器的散热问题,实现让实时服务器中处理器的运算性能处于最佳状态。
附图说明
图1是本发明实施例提供的一种基于模型的服务器散热方法的步骤流程图;
图2是本发明实施例提供的另一种基于模型的服务器散热方法的步骤流程图;
图3是本发明实施例提供的一种基于模型的服务器散热方法的流程图;
图4是本发明实施例提供的一种基于模型的服务器散热装置的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
现有技术中,对于高性能运算和存储的服务器的散热是通过直接修改PID参数,以对风扇的转速进行控制,但是这种方式不能保证服务器运行的性能是实时处于最佳状态。
本发明实施例的核心构思之一在于,通过部署的机器学习模型的数据集的训练时长,进行调控处理器的温度,直至获取另一组数据集的训练时长满足数据集对应训练时长范围,解决了高性能运算的服务器的散热问题,实现让实时服务器中处理器的运算性能处于最佳状态。
参照图1,示出了本发明实施例提供的一种基于模型的服务器散热方法的步骤流程图,所述服务器上部署有机器学习模型,所述机器学习模型基于多组数据集进行训练,所述方法具体可以包括如下步骤:
步骤101,获取所述服务器中多个处理器的温度信息;
示例性地,机器学习模型可以采用不同的模型进行训练数据集,机器学习模型可以实时训练数据集,使得服务器可以实时获取数据集的训练时长。具体地,机器学习模型使用的模型可以根据实际情况而定,本领域技术人员在此不做限定。
示例性地,机器学习模型可以为YOLOX模型,YOLOX模型可以通过部署数据集来进行训练,数据集的选择可以采用COCO数据集进行训练;具体地,机器学习模型训练使用的数据集可以根据实际情况而定,本领域技术人员在此不做限定。
COCO(上下文中的常见对象,Common Objects in Context)数据集是一个大型的物体检测、分割和字符的数据集,是微软团队提供的一个可以用来进行图像识别的数据集。COCO数据集中的图像分为训练、验证和测试集其具有330K张图片,是深度学习模型部署通用的数据集。
在本发明实施例中,服务器可以包括多个处理器,处理器的类别可以为CPU(中央处理器,central processing unit)和/或GPU(图像处理器,graphics processing unit),在一个服务器中,可以存在多个CPU和多个GPU,其中,每一个CPU和GPU对应的部件都可以设置有温度传感器,可以通过部件对应的传感器,实时获取每一个CPU和GPU的温度。具体地,服务器的处理器的数量以及处理器的类别可以根据实际情况而定,本领域技术人员在此不做限定。
在本发明实施例中,可以设置有预设温度范围,预设温度范围可以包括预设温度范围的上边界值和预设温度范围的下边界值,预设温度范围用于初步判断服务器中多个处理器的运行性能状态,具体地,获取服务器中多个处理器的温度信息,判断获取的温度信息是否位于预设温度范围,若处理器的温度信息位于预设温度范围,则说明该处理器的运行性能较为良好。
步骤102,若所述处理器的温度信息位于所述预设温度范围,则获取机器学习模型基于当前数据集进行训练的训练时长和当前数据集对应的训练时长范围;
示例性地,服务器中部署着机器学习模型,其中,机器学习模型可以基于多组数据集进行训练,以获取对数据集进行训练的训练时长。
在本发明实施例中,可以为不同类型的数据集设置不同的训练时长范围,训练时长范围可以包括训练时长范围的上边界值和训练时长范围的下边界值,具体地,训练时长范围可以用于判断服务器中部署的机器学习模型训练数据集的训练时长是否符合,服务器中处理器性能最佳时,机器学习模型训练数据集的训练时长。具体地,训练时长范围可以根据服务器中处理器性能最佳时,机器学习模型训练数据集的训练时长的范围来确定,可以与使用的模型和训练的数据量有关。
在本发明实施例中,若处理器的温度信息位于预设温度范围,则可以获取机器学习模型基于当前数据集进行训练的训练时长,以判断获取的训练时长是否位于训练时长范围。
步骤103,若所述训练时长不位于所述训练时长范围,则根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度,直至获取另一组数据集的训练时长位于所述数据集对应的训练时长范围。
在本发明实施例中,若处理器的温度信息位于预设温度范围,且训练时长不位于训练时长范围时,可以根据处理器的温度信息进行PID温度控制,以控制处理器的温度,进行PID温度控制后,再次获取一组数据集的训练时长,判断是否满足训练时长范围,直至获取另一组数据集的训练时长位于数据集对应的训练时长范围。
在本发明实施例中,获取服务器中多个处理器的温度信息,若处理器的温度信息位于预设温度范围,则获取机器学习模型基于当前数据集进行训练的训练时长和对应的训练时长范围,若训练时长不位于训练时长范围,则根据处理器的温度信息进行PID温度控制,以控制处理器的温度,直至获取另一组数据集的训练时长满足数据集对应的训练时长范围。在本发明实施例中,通过部署的机器学习模型的数据集的训练时长,进行调控处理器的温度,直至获取另一组数据集的训练时长满足数据集对应的训练时长范围,解决了高性能运算的服务器的散热问题,实现让实时服务器中处理器的运算性能处于最佳状态。
参照图2,示出了本发明实施例提供的另一种基于模型的服务器散热方法的步骤流程图,所述服务器上部署有机器学习模型,所述机器学习模型基于多组数据集进行训练,所述方法具体可以包括如下步骤:
步骤201,获取所述服务器中多个处理器的温度信息;
在本发明实施例中,可以设置有预设温度范围,预设温度范围可以包括预设温度范围的上边界值和预设温度范围的下边界值,预设温度范围用于初步判断服务器中多个处理器的运行性能状态。
在本发明实施例中,可以获取服务器中多个处理器的温度信息,判断获取的温度信息是否位于预设温度范围,若处理器的温度信息位于预设温度范围,则说明该处理器的运行性能较为良好。
在本发明实施例中,所述处理器可以为CPU和/或GPU。
在本发明实施例中,服务器可以包括多个处理器,可以存在多个CPU和多个GPU,其中,每一个CPU和GPU对应的部件都可以设置有温度传感器,可以通过部件对应的传感器,实时获取每一个CPU和GPU的温度。
步骤202,若所述处理器的温度信息不位于所述预设温度范围,则根据处理器的温度信息,确定所述处理器的运行性能状态;
在本发明实施例中,若处理器的温度信息不位于预设温度范围,则说明该处理器的运行性能非常不佳,此时,可能会造成处理器不能稳定的使用或者处理器有损坏的风险。
示例性地,当处理器的温度信息大于预设温度范围的上边界值,则确定处理器的运行性能非常不佳,此时,温度过高会导致处理器有损坏的风险;
当处理器的温度信息小于预设温度范围的下边界值,则确定处理器的运行性能非常不佳,此时,温度过低会导致处理器不能稳定的使用。具体地,预设温度范围的上边界值和预设温度范围的下边界值的大小可以根据实际情况而定,本领域技术人员在此不做限定。
在本发明实施例中,所述步骤202可以包括子步骤S11:
子步骤S11,若所述处理器的温度信息大于预设温度范围的上边界值,则确定所述处理器的运行性能状态处于第一运行状态;所述第一运行状态用于表征处理器的运行性能受损的状态;
在本发明实施例中,若处理器的温度信息大于预设温度范围的上边界值,可以确定处理器的运行性能状态处于第一运行状态,其中,第一运行状态可以为处理器的温度非常高,可能会导致处理器损坏的状态。
在本发明实施例中,所述步骤202还可以包括子步骤S21:
子步骤S21,若所述处理器的温度信息小于预设温度范围的下边界值,则确定所述处理器的运行性能状态处于第二运行状态,所述第二运行状态用于表征服务器的运行性能不稳定的状态。
在本发明实施例中,当处理器的温度信息小于预设温度范围的上边界值,可以确定处理器的运行性能状态处于第二运行状态,其中,第二运行状态可以为处理器的温度非常低,会导致处理器不能稳定使用的状态。
示例性地,如果处理器的运行性能状态处于第一运行状态或第二运行状态,则说明此时处理器的运行性能非常不佳,可能会出现处理器的损坏或处理器无法工作的情况。
步骤203,根据所述处理器的运行性能状态,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息;
在本发明实施例中,处理器可以对应有一个或多个散热设备,可以根据处理器的运行性能状态,以触发对处理器的温度信息进行PID温度控制,以得到对应散热设备的目标功率信息。其中,目标功率信息可以为功率减小或者功率增大。
示例性地,根据处理器的运行状态,可以将服务器中处理器的温度信息作为PID算法的输入,以得到对应区域的散热设备的目标功率信息,从而可以根据不同区域的散热设备的目标功率信息,确定对散热设备功率的调整。一个处理器对应的区域的散热设备数量可以为多个,散热设备可以包括散热器或者风扇。
在本发明实施例中,所述散热设备可以为风扇,所述风扇用于在不同功率下,以不同的转速运行,以控制所述处理器的温度。
在本发明实施例中,当散热设备为风扇时,可以调控风扇的转速,以控制处理器的温度,具体地,风扇的转速范围可以为0~255。
在本发明实施例中,所述步骤203可以包括子步骤S31~S32:
子步骤S31,当所述处理器的运行性能状态处于第一运行状态,则触发高温报警信息;
在本发明实施例中,当处理器的运行性能状态处于第一运行状态时,则可以说明此时处理器的温度非常高,可能会导致处理器损坏,因此,可以触发高温报警信息。其中,高温报警信息用于指示处理器需要进行降温处理。
子步骤S32,根据所述高温报警信息,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息。
在本发明实施例中,可以根据高温报警信息,触发对处理器的温度信息进行PID温度控制,以得到对应的目标功率信息,具体地,若为高温报警信息,则将处理器的温度信息输入至PID算法中,得到目标功率信息,以降低处理器的温度。
在本发明实施例中,所述步骤203还可以包括子步骤S41~S42:
子步骤S41,当所述处理器的运行性能状态处于第二运行状态,则触发低温报警信息;
在本发明实施例中,当处理器的运行性能状态处于第二运行状态时,则可以说明此时处理器的温度非常低,可能会导致处理器无法稳定工作,因此,可以触发低温报警信息。其中,低温报警信息用于指示处理器需要进行升温处理。
子步骤S42,根据所述低温报警信息,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息。
在本发明实施例中,可以根据低温报警信息,触发对处理器的温度信息进行PID温度控制,以得到对应的目标功率信息,具体地,若为低温报警信息,则将处理器的温度信息输入至PID算法中,得到目标功率信息,以升高处理器的温度。
步骤204,根据所述目标功率信息,调控所述处理器对应区域的散热设备的功率,直至所述处理器的温度信息位于所述预设温度范围。
在本发明实施例中,目标功率信息可以包括处理器对应的区域的散热设备和散热设备的功率;若目标功率信息为散热设备的功率变小,则调整处理器对应区域的散热设备的功率变小,直至处理器对应的温度传感器获取的温度信息位于预设温度范围;若目标功率信息为散热设备的功率变大,则调整处理器对应区域的散热设备的功率变大,直至处理器对应的温度传感器获取的温度信息位于预设温度范围。
在本发明实施例中,所述步骤204可以包括子步骤S51:
子步骤S51,根据所述目标功率信息,控制对应区域的散热设备的功率逐渐变大,使得实时监控所述处理器的温度信息变小,直至所述处理器的温度信息位于所述预设温度范围。
在本发明实施例中,若目标功率信息为散热设备的功率变大,则调整处理器对应区域的散热设备的功率变大,使得处理器对应的温度传感器实时监控的温度信息变小,直至处理器的温度信息位于预设温度范围。
在本发明实施例中,还包括:若对应区域的散热设备的功率不能逐渐增大,则判断所述散热设备是否为工作状态;
若所述散热设备不为工作状态,则触发散热设备损坏警报;
若所述散热设备为工作状态,则判断所述散热设备的功率是否为最大值;
若所述散热设备的功率为最大值,则触发温度过高警报;
若所述散热设备的功率不为最大值,则触发散热设备损坏警报。
在本发明实施例中,若对应区域的散热设备的功率不能逐渐增大,则判断散热设备是否为工作状态,若散热设备不为工作状态,则触发散热设备损坏警报;若散热设备为工作状态,则获取当前散热设备的功率,判断散热设备的功率是否为最大值;若散热设备的功率为最大值,则触发温度过高警报;若散热设备的功率不为最大值,则触发散热设备损坏警报。其中,温度过高警报可以用于提醒用户处理器当前温度过高,散热设备已经到了最大功率值,需要用户采用其他方式及时进行散热,以防止处理器损坏。散热设备损坏警报可以用于提醒用户需要及时进行维修散热设备。
在本发明实施例中,所述步骤204还可以包括子步骤S61:
子步骤S61,根据所述目标功率信息,控制对应区域的散热设备的功率逐渐变小,使得实时监控所述处理器的温度信息变大,直至所述处理器的温度信息位于所述预设温度范围。
在本发明实施例中,若目标功率信息为散热设备的功率变小,则调整处理器对应区域的散热设备的功率变小,使得处理器对应的温度传感器实时监控的温度信息变大,直至处理器的温度信息位于预设温度范围。具体地,散热设备的功率可以为0。
在本发明实施例中,还包括:
若对应区域的散热设备的功率不能逐渐变小,则判断所述散热设备是否为工作状态;
若所述散热设备不为工作状态,则触发温度过低警报;
若所述散热设备为工作状态,则触发散热设备损坏警报。
在本发明实施例中,若对应区域的散热设备的功率不能逐渐变小,则判断散热设备是否为工作状态;若散热设备不为工作状态,则触发温度过低警报;若散热设备为工作状态,则触发散热设备损坏警报。其中,温度过低警报可以用于提醒用户处理器当前温度过低,需要用户采用其他方式及时进行增温,以防止处理器损坏。
步骤205,若所述处理器的温度信息位于所述预设温度范围,则获取机器学习模型基于当前数据集进行训练的训练时长和当前数据集对应的训练时长范围;
在本发明实施例中,可以为不同类型的数据集设置不同的训练时长范围,,训练时长范围可以包括训练时长范围的上边界值和训练时长范围的下边界值,具体地,训练时长范围可以用于判断服务器中部署的机器学习模型训练数据集的训练时长是否符合,服务器中处理器性能最佳时,机器学习模型训练数据集的训练时长。具体地,训练时长范围可以根据服务器中处理器性能最佳时,机器学习模型训练数据集的训练时长的范围来确定,可以与使用的模型和训练的数据量有关。
在本发明实施例中,若处理器的温度信息位于预设温度范围,则可以获取机器学习模型基于当前数据集进行训练的训练时长,以判断获取的训练时长是否位于训练时长范围,从而能够进一步的控制调整处理器的温度信息。
步骤206,若所述训练时长不位于所述训练时长范围,则根据所述训练时长,确定所述处理器的运行性能状态;
示例性地,当训练时长大于训练时长范围的上边界值,则确定处理器的运行性能并非未最佳状态,此时,处理器的温度较高,容易降低处理器处理数据的效率;具体地,训练时长范围的上边界值的大小可以根据实际情况而定,本领域技术人员在此不做限定。
在本发明实施例中,所述步骤206可以包括子步骤S71:
子步骤S71,若所述训练时长大于所述训练时长范围的上边界值,则确定所述处理器的运行性能状态为第三运行状态;所述第三运行状态用于表征服务器处理性能低于处理性能阈值的状态。
在本发明实施例中,若训练时长大于训练时长范围的上边界值,可以确定处理器的运行性能状态处于第三运行状态,其中,所述第三运行状态用于表征服务器处理性能低于处理性能阈值的状态,处理性能阈值可以为处理器的运行性能的最佳状态。
步骤207,根据所述处理器的运行性能状态,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息;
在本发明实施例中,可以根据处理器的运行性能状态,以触发对处理器的温度信息进行PID温度控制,以得到对应的目标功率信息。其中,目标功率信息可以为功率减小或者功率增大。
在本发明实施例中,所述步骤207可以包括子步骤S81-S82:
子步骤S81,当所述处理器的运行性能状态为第三运行状态时,则触发散热报警信息;
在本发明实施例中,当处理器的运行性能状态处于第三运行状态时,则可以说明此时处理器的温度较高,服务器处理性能低于处理性能阈值,因此,可以触发散热报警信息。其中,散热报警信息用于指示处理器需要进行降温处理。
子步骤S82,根据所述散热报警信息,对所述处理器的温度信息进行PID温度控制,得到目标功率信息。
在本发明实施例中,可以根据散热报警信息,触发对处理器的温度信息进行PID温度控制,以得到对应的目标功率信息,具体地,若为散热报警信息,则将处理器的温度信息输入至PID算法中,得到目标功率信息,以降低处理器的温度。
步骤208,根据所述目标功率信息,调控所述处理器对应区域的散热设备的功率,以控制所述处理器的温度。
在本发明实施例中,在本发明实施例中,目标功率信息可以包括处理器对应的区域的散热设备和散热设备的功率;若目标功率信息为散热设备的功率变小,则调整处理器对应区域的散热设备的功率变小,直至获取另一组数据集的训练时长位于对应数据集的训练时长范围。
在本发明实施例中,所述步骤208可以包括子步骤S91:
子步骤S91,根据更新后的目标功率信息,控制对应区域的散热设备的功率逐渐增大,使得实时监控所述处理器的温度信息变小。
在本发明实施例中,若目标功率信息为散热设备的功率变大,则调整处理器对应区域的散热设备的功率变大,使得处理器对应的温度传感器实时监控的温度信息变小,直至获取另一组数据集的训练时长满足对应数据集的训练时长范围。
在本发明实施例中,若所述训练时长位于所述训练时长范围,则在保持数据集的训练时长位于所述训练时长范围的条件下,根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度。
在本发明实施例中,机器学习模型实时在训练数据集,得到对应训练集的训练时长,若训练时长位于训练时长范围,则在获取的训练时长位于训练时长范围的条件下,根据处理器的温度信息进行PID温度控制,以控制处理器的温度。
步骤209,若所述训练时长位于所述训练时长范围,则判断所述处理器对应的散热设备是否为工作状态;
在本发明实施例中,若训练时长位于训练时长范围,则可以判断处理器对应的散热设备是否为工作状态,具体地,可以获取散热设备的功率,若散热设备的功率大于0,则说明此散热设备为工作状态;若散热设备的功率等于0,则说明此散热设备为非工作状态。
步骤210,若所述处理器对应的散热设备为工作状态,则根据处理器的温度信息进行PID温度控制,在保持数据集的训练时长位于所述训练时长范围的条件下,控制对应区域的散热设备的功率逐渐减小,以控制所述处理器的温度升高。
在本发明实施例中,若处理器对应的散热设备为工作状态,即此时处理器对应的散热设备的功率大于0,则可以将处理器的温度信息进行PID温度控制,在保持数据集的训练时长位于训练时长范围的条件下,控制对应区域的散热设备的功率逐渐减小,以控制处理器的温度升高,以实现降低散热设备的功率,甚至关闭散热设备,以避免浪费散热设备资源。
在本发明实施例中,获取服务器中多个处理器的温度信息,若处理器的温度信息位于预设温度范围,则获取机器学习模型基于当前数据集进行训练的训练时长和对应的训练时长范围,若训练时长不位于训练时长范围,则根据处理器的温度信息进行PID温度控制,以控制处理器的温度,直至获取另一组数据集的训练时长满足数据集对应的训练时长范围。在本发明实施例中,通过部署的机器学习模型的数据集的训练时长,进行调控处理器的温度,直至获取另一组数据集的训练时长满足数据集对应训练时长范围,解决了高性能运算的服务器的散热问题,实现让实时服务器中处理器的运算性能处于最佳状态。
为了使本领域技术人员能够更好地理解本发明实施例实现基于模型的服务器散热的过程,以下采用一个完整的示例加以说明。参照图3,是本发明实施例提供的一种基于模型的服务器散热方法的流程图,具体可以包括如下步骤:
服务器上部署着机器学习模型,机器学习模型基于多组数据集进行训练,服务器包括多个处理器,多个处理器对应有温度传感器和散热设备,散热设备可以为风扇。
步骤301,获取多个处理器的温度信息;
步骤302,判断处理器的温度信息是否位于预设温度范围;
步骤303,若处理器的温度信息大于预设温度范围的上边界值,则触发对处理器的温度信息进行PID温度控制,控制对应的风扇的转速增大,使得实时监控处理器的温度信息变小,进入步骤302,直至处理器的温度信息位于预设温度范围;或者若处理器的温度信息小于预设温度范围的下边界值,则触发对处理器的温度信息进行PID温度控制,控制对应的风扇的转速减小,使得实时监控处理器的温度信息变大,进入步骤302,直至处理器的温度信息位于预设温度范围;
步骤304,若处理器的温度信息位于预设温度范围,则判断训练时长是否大于训练时长范围的上边界值;
步骤305,若训练时长大于训练时长范围的上边界值,则触发对处理器的温度信息进行PID温度控制,控制对应的风扇的转速增大,使得实时监控处理器的温度信息变小,直至获取另一组数据集的训练时长位于训练时长范围;
步骤306,若训练时长不大于训练时长范围的上边界值,则说明训练时长位于训练时长范围,则在保持数据集的训练时长位于训练时长范围的条件下,根据处理器的温度信息进行PID温度控制,控制对应区域的风扇的功率逐渐减小,以控制处理器的温度升高。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明实施例提供的一种基于模型的服务器散热装置的结构框图,所述服务器上部署有机器学习模型,所述机器学习模型基于多组数据集进行训练,具体可以包括如下模块:
温度信息获取模块401,用于获取所述服务器中多个处理器的温度信息;
训练时长获取模块402,用于若所述处理器的温度信息位于预设温度范围,则获取机器学习模型基于当前数据集进行训练的训练时长和当前数据集对应的训练时长范围;
第一温度控制模块403,用于若所述训练时长不位于所述训练时长范围时,则根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度,直至获取另一组数据集的训练时长满足所述数据集对应的训练时长范围。
在一种实施例中,还包括:
预设温度控制模块,用于若所述处理器的温度信息不位于所述预设温度范围,则根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度,直至所述处理器的温度信息位于所述预设温度范围。
在一种实施例中,还包括:
第二温度控制模块,用于若所述训练时长位于所述训练时长范围,则在保持数据集的训练时长位于所述训练时长范围的条件下,根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度。
在一种实施例中,所述处理器对应有散热设备,所述预设温度控制模块包括:
第一运行性能确定子模块,用于若所述处理器的温度信息不位于所述预设温度范围,则根据处理器的温度信息,确定所述处理器的运行性能状态;
第一目标功率得到子模块,用于根据所述处理器的运行性能状态,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息;
预设温度控制子模块,用于根据所述目标功率信息,调控所述处理器对应区域的散热设备的功率,直至所述处理器的温度信息位于所述预设温度范围。
在一种实施例中,所述第二温度控制模块,包括:
散热设备判断子模块,用于若所述训练时长位于所述训练时长范围,则判断所述处理器对应的散热设备是否为工作状态;
第二温度控制子模块,用于若所述处理器对应的散热设备为工作状态,则根据处理器的温度信息进行PID温度控制,在保持数据集的训练时长位于所述训练时长范围的条件下,控制对应区域的散热设备的功率逐渐减小,以控制所述处理器的温度升高。
在一种实施例中,所述第一运行性能确定子模块,包括:
第一运行状态确定单元,用于若所述处理器的温度信息大于预设温度范围的上边界值,则确定所述处理器的运行性能状态处于第一运行状态,所述第一运行状态用于表征处理器的运行性能受损的状态。
在一种实施例中,所述第一运行性能确定子模块,还包括:
第二运行状态确定单元,用于若所述处理器的温度信息小于预设温度范围的下边界值,则确定所述处理器的运行性能状态处于第二运行状态,所述第二运行状态用于表征服务器的运行性能不稳定的状态。
在一种实施例中,所述第一目标功率得到子模块,包括:
高温报警信息触发单元,用于当所述处理器的运行性能状态处于第一运行状态,则触发高温报警信息;
第一目标功率得到单元,用于根据所述高温报警信息,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息。
在一种实施例中,所述第一目标功率得到子模块,还包括:
低温报警信息触发单元,用于当所述处理器的运行性能状态处于第二运行状态,则触发低温报警信息;
第二目标功率得到单元,用于根据所述低温报警信息,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息。
在一种实施例中,所述预设温度控制子模块,包括:
预设温度信息变小单元,用于根据所述目标功率信息,控制对应区域的散热设备的功率逐渐变大,使得实时监控所述处理器的温度信息变小,直至所述处理器的温度信息位于所述预设温度范围。
在一种实施例中,还包括:
第一散热设备判断单元,用于若对应区域的散热设备的功率不能逐渐增大,则判断所述散热设备是否为工作状态;
第一散热警报触发单元,用于若所述散热设备不为工作状态,则触发散热设备损坏警报;
功率最大值判断单元,用于若所述散热设备为工作状态,则判断所述散热设备的功率是否为最大值;
温度过高警报触发单元,用于若所述散热设备的功率为最大值,则触发温度过高警报;
第二散热警报触发单元,用于若所述散热设备的功率不为最大值,则触发散热设备损坏警报。
在一种实施例中,所述预设温度控制子模块,还包括:
预设温度信息变大单元,用于根据所述目标功率信息,控制对应区域的散热设备的功率逐渐变小,使得实时监控所述处理器的温度信息变大,直至所述处理器的温度信息位于所述预设温度范围。
在一种实施例中,还包括:
第二散热设备判断单元,用于若对应区域的散热设备的功率不能逐渐变小,则判断所述散热设备是否为工作状态;
温度过低警报触发单元,用于若所述散热设备不为工作状态,则触发温度过低警报;
第三散热警报触发单元,用于若所述散热设备为工作状态,则触发散热设备损坏警报。
在一种实施例中,所述第一温度控制模块,包括:
第二运行性能确定子模块,用于若所述训练时长不位于所述训练时长范围时,则根据所述训练时长,确定所述处理器的运行性能状态;
第二目标功率确定子模块,用于根据所述处理器的运行性能状态,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息;
第一温度控制子模块,用于根据所述目标功率信息,调控所述处理器对应区域的散热设备的功率,以控制所述处理器的温度。
在一种实施例中,所述第二运行性能确定子模块,包括:
第三运行状态确定单元,用于若所述训练时长大于所述训练时长范围的上边界值时,则确定所述处理器的运行性能状态为第三运行状态;所述第三运行状态用于表征服务器处理性能低于处理性能阈值的状态。
在一种实施例中,所述第二目标功率确定子模块,包括:
散热报警信息触发单元,用于当所述处理器的运行性能状态为第三运行状态时,则触发散热报警信息;
第三目标功率得到单元,用于根据所述散热报警信息,对所述处理器的温度信息进行PID温度控制,得到目标功率信息。
在一种实施例中,所述第一温度控制子模块,包括:
第一温度信息降低单元,用于根据更新后的目标功率信息,控制对应区域的散热设备的功率逐渐增大,使得实时监控所述处理器的温度信息变小。
在本发明实施例中,获取服务器中多个处理器的温度信息,若处理器的温度信息位于预设温度范围,则获取机器学习模型基于当前数据集进行训练的训练时长和对应的训练时长范围,若训练时长不位于训练时长范围,则根据处理器的温度信息进行PID温度控制,以控制处理器的温度,直至获取另一组数据集的训练时长满足数据集对应训练时长范围。在本发明实施例中,通过部署的机器学习模型的数据集的训练时长,进行调控处理器的温度,直至获取另一组数据集的训练时长满足数据集对应训练时长范围,解决了高性能运算的服务器的散热问题,实现让实时服务器中处理器的运算性能处于最佳状态。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还公开了一种服务器,所述服务器上部署有机器学习模型,所述机器学习模型基于多组数据集进行训练,包括:
处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述基于模型的服务器散热方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
在本发明实施例中,所述服务器包括散热设备,所述散热设备用于给对应区域的处理器进行控温。
在本发明实施例中,所述散热设备包括风扇,所述风扇用于在不同功率下,以不同的转速运行,以控制所述处理器的温度。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述基于模型的服务器散热方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全处理器实施例、完全软件实施例、或结合软件和处理器方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的状态下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种基于模型的服务器散热方法、一种基于模型的服务器散热装置、一种服务器和一种计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (20)

1.一种基于模型的服务器散热方法,应用于服务器,其特征在于,所述服务器上部署有机器学习模型,所述机器学习模型基于多组数据集进行训练,所述方法包括:
获取所述服务器中多个处理器的温度信息;
若所述处理器的温度信息位于预设温度范围,则获取机器学习模型基于当前数据集进行训练的训练时长和当前数据集对应的训练时长范围;
若所述训练时长不位于所述训练时长范围,则根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度,直至获取另一组数据集的训练时长位于所述数据集对应的训练时长范围。
2.根据权利要求1所述的方法,其特征在于,还包括:
若所述处理器的温度信息不位于所述预设温度范围,则根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度,直至所述处理器的温度信息位于所述预设温度范围。
3.根据权利要求1所述的方法,其特征在于,还包括:
若所述训练时长位于所述训练时长范围,则在保持数据集的训练时长位于所述训练时长范围的条件下,根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度。
4.根据权利要求2所述的方法,其特征在于,所述处理器对应有散热设备,所述若所述处理器的温度信息不位于所述预设温度范围,则根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度,直至所述处理器的温度信息位于所述预设温度范围,包括:
若所述处理器的温度信息不位于所述预设温度范围,则根据处理器的温度信息,确定所述处理器的运行性能状态;
根据所述处理器的运行性能状态,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息;
根据所述目标功率信息,调控所述处理器对应区域的散热设备的功率,直至所述处理器的温度信息位于所述预设温度范围。
5.根据权利要求3所述的方法,其特征在于,所述若所述训练时长位于所述训练时长范围,则在保持数据集的训练时长位于所述训练时长范围的条件下,根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度,包括:
若所述训练时长位于所述训练时长范围,则判断所述处理器对应的散热设备是否为工作状态;
若所述处理器对应的散热设备为工作状态,则根据处理器的温度信息进行PID温度控制,在保持数据集的训练时长位于所述训练时长范围的条件下,控制对应区域的散热设备的功率逐渐减小,以控制所述处理器的温度升高。
6.根据权利要求4所述的方法,其特征在于,所述若所述处理器的温度信息不位于所述预设温度范围,则根据处理器的温度信息,确定所述处理器的运行性能状态,包括:
若所述处理器的温度信息大于预设温度范围的上边界值,则确定所述处理器的运行性能状态处于第一运行状态,所述第一运行状态用于表征处理器的运行性能受损的状态。
7.根据权利要求6所述的方法,其特征在于,所述若所述处理器的温度信息不位于所述预设温度范围,则根据处理器的温度信息,确定所述处理器的运行性能状态,还包括:
若所述处理器的温度信息小于预设温度范围的下边界值,则确定所述处理器的运行性能状态处于第二运行状态,所述第二运行状态用于表征服务器的运行性能不稳定的状态。
8.根据权利要求6所述的方法,其特征在于,所述根据所述处理器的运行性能状态,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息,包括:
当所述处理器的运行性能状态处于第一运行状态,则触发高温报警信息;
根据所述高温报警信息,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息。
9.根据权利要求7所述的方法,其特征在于,所述根据所述处理器的运行性能状态,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息,还包括:
当所述处理器的运行性能状态处于第二运行状态,则触发低温报警信息;
根据所述低温报警信息,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息。
10.根据权利要求8所述的方法,其特征在于,所述根据所述目标功率信息,调控所述处理器对应区域的散热设备的功率,直至所述处理器的温度信息位于所述预设温度范围,包括:
根据所述目标功率信息,控制对应区域的散热设备的功率逐渐变大,使得实时监控所述处理器的温度信息变小,直至所述处理器的温度信息位于所述预设温度范围。
11.根据权利要求10所述的方法,其特征在于,还包括:
若对应区域的散热设备的功率不能逐渐增大,则判断所述散热设备是否为工作状态;
若所述散热设备不为工作状态,则触发散热设备损坏警报;
若所述散热设备为工作状态,则判断所述散热设备的功率是否为最大值;
若所述散热设备的功率为最大值,则触发温度过高警报;
若所述散热设备的功率不为最大值,则触发散热设备损坏警报。
12.根据权利要求10所述的方法,其特征在于,所述根据所述目标功率信息,调控所述处理器对应区域的散热设备的功率,直至所述处理器的温度信息位于所述预设温度范围,还包括:
根据所述目标功率信息,控制对应区域的散热设备的功率逐渐变小,使得实时监控所述处理器的温度信息变大,直至所述处理器的温度信息位于所述预设温度范围。
13.根据权利要求12所述的方法,其特征在于,还包括:
若对应区域的散热设备的功率不能逐渐变小,则判断所述散热设备是否为工作状态;
若所述散热设备不为工作状态,则触发温度过低警报;
若所述散热设备为工作状态,则触发散热设备损坏警报。
14.根据权利要求1所述的方法,其特征在于,所述若所述训练时长不位于所述训练时长范围,则根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度,包括:
若所述训练时长不位于所述训练时长范围,则根据所述训练时长,确定所述处理器的运行性能状态;
根据所述处理器的运行性能状态,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息;
根据所述目标功率信息,调控所述处理器对应区域的散热设备的功率,以控制所述处理器的温度。
15.根据权利要求14所述的方法,其特征在于,所述若所述训练时长不位于所述训练时长范围,则根据所述训练时长,确定所述处理器的运行性能状态,包括:
若所述训练时长大于所述训练时长范围的上边界值时,则确定所述处理器的运行性能状态为第三运行状态;所述第三运行状态用于表征服务器处理性能低于处理性能阈值的状态。
16.根据权利要求15所述的方法,其特征在于,所述根据所述处理器的运行性能状态,触发对所述处理器的温度信息进行PID温度控制,得到对应的目标功率信息,包括:
当所述处理器的运行性能状态为第三运行状态时,则触发散热报警信息;
根据所述散热报警信息,对所述处理器的温度信息进行PID温度控制,得到目标功率信息。
17.根据权利要求16所述的方法,其特征在于,所述根据所述目标功率信息,调控所述处理器对应区域的散热设备的功率,以控制所述处理器的温度,包括:
根据更新后的目标功率信息,控制对应区域的散热设备的功率逐渐增大,使得实时监控所述处理器的温度信息变小。
18.一种基于模型的服务器散热装置,应用于服务器,其特征在于,所述服务器上部署有机器学习模型,所述机器学习模型基于多组数据集进行训练,所述装置包括:
温度信息获取模块,用于获取所述服务器中多个处理器的温度信息;
训练时长获取模块,用于若所述处理器的温度信息位于预设温度范围,则获取机器学习模型基于当前数据集进行训练的训练时长和当前数据集对应的训练时长范围;
第一温度控制模块,用于若所述训练时长不位于所述训练时长范围,则根据所述处理器的温度信息进行PID温度控制,以控制所述处理器的温度,直至获取另一组数据集的训练时长位于所述数据集对应的训练时长范围。
19.一种服务器,其特征在于,所述服务器上部署有机器学习模型,所述机器学习模型基于多组数据集进行训练,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-17中任一项所述的基于模型的服务器散热方法的步骤。
20.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1-17中任一项所述的基于模型的服务器散热方法的步骤。
CN202211400391.7A 2022-11-09 2022-11-09 基于模型的服务器散热方法、装置、服务器和存储介质 Active CN115437486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211400391.7A CN115437486B (zh) 2022-11-09 2022-11-09 基于模型的服务器散热方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211400391.7A CN115437486B (zh) 2022-11-09 2022-11-09 基于模型的服务器散热方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN115437486A true CN115437486A (zh) 2022-12-06
CN115437486B CN115437486B (zh) 2023-03-24

Family

ID=84252556

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211400391.7A Active CN115437486B (zh) 2022-11-09 2022-11-09 基于模型的服务器散热方法、装置、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN115437486B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116661574A (zh) * 2023-07-13 2023-08-29 之江实验室 一种计算设备散热的方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427300A (zh) * 2019-07-19 2019-11-08 广东浪潮大数据研究有限公司 服务器gpu性能调控方法、装置、设备及可读存储介质
CN110553374A (zh) * 2019-09-09 2019-12-10 广东美的暖通设备有限公司 空调控制方法、装置及计算机可读存储介质
CN111240282A (zh) * 2019-12-31 2020-06-05 联想(北京)有限公司 一种工艺优化方法、装置、设备及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427300A (zh) * 2019-07-19 2019-11-08 广东浪潮大数据研究有限公司 服务器gpu性能调控方法、装置、设备及可读存储介质
CN110553374A (zh) * 2019-09-09 2019-12-10 广东美的暖通设备有限公司 空调控制方法、装置及计算机可读存储介质
CN111240282A (zh) * 2019-12-31 2020-06-05 联想(北京)有限公司 一种工艺优化方法、装置、设备及计算机可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116661574A (zh) * 2023-07-13 2023-08-29 之江实验室 一种计算设备散热的方法、装置、存储介质及电子设备
CN116661574B (zh) * 2023-07-13 2023-12-12 之江实验室 一种计算设备散热的方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN115437486B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
CN115437486B (zh) 基于模型的服务器散热方法、装置、服务器和存储介质
CN109563844A (zh) 风扇转速调整方法、装置、设备、存储介质、程序产品
EP3462705A1 (en) Provisioning of software applications on edge devices in an internet-of-things environment
CN110345099B (zh) 服务器风扇调速的方法、装置及系统
CN104520581A (zh) 自动计算用于风力涡轮机的功率曲线监测的功率曲线界限的方法
CN115036601B (zh) 一种分布式电池模组的散热方法及系统
TWI683215B (zh) 計算裝置中使用管理控制器的散熱管理方法與系統
TWI533146B (zh) 虛擬資源調整裝置、方法及儲存其之電腦可讀取紀錄媒體
CN111258398A (zh) Ai服务器风扇速度调节方法、系统、终端设备及存储介质
CN115097920A (zh) 一种调节服务器机箱的温度的方法、装置、服务器及介质
KR20220117194A (ko) 추론 연산 장치, 모델 훈련 장치, 및 추론 연산 시스템
CN112272497A (zh) 一种服务器散热设备、服务器散热方法、系统及存储介质
CN106133728B (zh) 知晓可靠性的集成电路热设计
CN116594442A (zh) 一种温度调节模块的控制方法、装置及计算设备
CN114510134A (zh) 一种调节单板风扇方法、装置及存储介质
CN110737322A (zh) 信息处理方法及电子设备
CN109424570B (zh) 一种风扇的控制方法及装置
WO2024098774A1 (zh) 基于模型的服务器散热方法、装置、服务器和存储介质
CN108302059B (zh) 风扇转速控制方法及装置
CN112000205A (zh) Bmc及其散热策略适配方法、装置、服务器及存储介质
CN115492674A (zh) 电动水泵和散热风扇的控制方法及装置
JP2018181052A (ja) モデル同定装置、予測装置、監視システム、モデル同定方法および予測方法
EP3704562B1 (en) Advanced power based thermal control systems
TWI688328B (zh) 風扇除塵方法與使用此方法的電子裝置
CN111399608A (zh) 终端温度控制装置、方法、终端及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant