CN110427300A - 服务器gpu性能调控方法、装置、设备及可读存储介质 - Google Patents

服务器gpu性能调控方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN110427300A
CN110427300A CN201910656862.2A CN201910656862A CN110427300A CN 110427300 A CN110427300 A CN 110427300A CN 201910656862 A CN201910656862 A CN 201910656862A CN 110427300 A CN110427300 A CN 110427300A
Authority
CN
China
Prior art keywords
server
gpu
regulation
performance
server gpu
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910656862.2A
Other languages
English (en)
Other versions
CN110427300B (zh
Inventor
王继玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Inspur Smart Computing Technology Co Ltd
Original Assignee
Guangdong Inspur Big Data Research Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Inspur Big Data Research Co Ltd filed Critical Guangdong Inspur Big Data Research Co Ltd
Priority to CN201910656862.2A priority Critical patent/CN110427300B/zh
Publication of CN110427300A publication Critical patent/CN110427300A/zh
Application granted granted Critical
Publication of CN110427300B publication Critical patent/CN110427300B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • G06F1/206Cooling means comprising thermal management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种服务器GPU性能调控方法,该方法包括以下步骤:当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控;若是,则获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。应用本发明实施例所提供的技术方案,保证了服务器GPU处于高性能状态,缩短了模型训练时长,提高了模型训练速度。本发明还公开了一种服务器GPU性能调控装置、设备及存储介质,具有相应技术效果。

Description

服务器GPU性能调控方法、装置、设备及可读存储介质
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种服务器GPU性能调控方法、装置、设备及计算机可读存储介质。
背景技术
在人工智能时代,需要使用各种深度学习框架,在人工智能AI服务器上进行模型训练。由于进行模型训练时,需要对大量数据集进行长时间的训练,同时使用的是分布式集群,可以实现单机多卡,以及多机多卡的分布式训练,所以对人工智能服务器的服务器GPU具有较高的要求。
由于训练过程中,服务器GPU始终保持高强度的运算,服务器GPU显存和GPU利用率始终保持高负荷状态,会导致服务器GPU温度过高,而长时间的高温状态,会导致服务器GPU降频,影响模型的训练过程,导致模型训练时间延长,模型训练效率降低。
综上所述,如何有效地解决服务器GPU温度升高,导致模型训练时间延长,模型训练效率降低等问题,是目前本领域技术人员急需解决的问题。
发明内容
本发明的目的是提供一种服务器GPU性能调控方法,该方法保证了服务器GPU处于高性能状态,缩短了模型训练时长,提高了模型训练速度;本发明的另一目的是提供一种服务器GPU性能调控装置、设备及计算机可读存储介质。
为解决上述技术问题,本发明提供如下技术方案:
一种服务器GPU性能调控方法,包括:
当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;
若否,则利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;
若是,则获取所述服务器GPU的温度值;根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
在本发明的一种具体实施方式中,根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控,包括:
当所述温度值处于低级GPU温度阈值范围或中级GPU温度阈值范围时,通过将所述服务器风扇转速调控到对应级别对所述服务器GPU进行性能调控;
当所述温度值处于高级GPU温度阈值范围时,利用高级服务器风扇转速对所述服务器GPU进行性能调控;若利用所述高级服务器风扇转速对所述服务器GPU进行性能调控预设时长后,所述服务器GPU的温度值未低于预设温度值,则将所述服务器GPU的功耗调整到预设额定功耗。
在本发明的一种具体实施方式中,在检测到服务器启动完成之后,判断服务器GPU当前是否处于模型训练状态之前,还包括:
对服务器运行环境进行检测,得到检测结果;
当根据所述检测结果确定服务器驱动和工具版本有误时,输出安装正确服务器驱动和工具版本的提示信息。
在本发明的一种具体实施方式中,还包括:
获取调控效果信息;
对所述调控效果信息进行显示操作。
一种服务器GPU性能调控装置,包括:
判断模块,用于当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;
第一调控模块,用于在确定服务器GPU当前未处于模型训练状态时,利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;
第二调控模块,用于在确定服务器GPU当前处于模型训练状态时,获取所述服务器GPU的温度值;根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
在本发明的一种具体实施方式中,所述第二调控模块包括风扇转速调控子模块和功耗调整子模块,
所述风扇转速调控子模块,用于当所述温度值处于低级GPU温度阈值范围或中级GPU温度阈值范围时,通过将所述服务器风扇转速调控到对应级别对所述服务器GPU进行性能调控;
所述功耗调整子模块,用于当所述温度值处于高级GPU温度阈值范围时,利用高级服务器风扇转速对所述服务器GPU进行性能调控;若利用所述高级服务器风扇转速对所述服务器GPU进行性能调控预设时长后,所述服务器GPU的温度值未低于预设温度值,则将所述服务器GPU的功耗调整到预设额定功耗。
在本发明的一种具体实施方式中,还包括:
检测结果获得模块,用于在检测到服务器启动完成之后,判断服务器GPU当前是否处于模型训练状态之前,对服务器运行环境进行检测,得到检测结果;
信息输出模块,用于当根据所述检测结果确定服务器驱动和工具版本有误时,输出安装正确服务器驱动和工具版本的提示信息。
在本发明的一种具体实施方式中,还包括:
信息获取模块,用于获取调控效果信息;
显示模块,用于对所述调控效果信息进行显示操作。
一种服务器GPU性能调控设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如前所述服务器GPU性能调控方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述服务器GPU性能调控方法的步骤。
应用本发明实施例所提供的方法,当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控;若是,则获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。通过当服务器未处于模型训练状态时,利用PID调控算法对服务器风扇转速进行调节的方式对服务器GPU进行性能调控,当服务器处于模型训练状态时,根据服务器GPU的温度值启动对应级别的调控策略对服务器GPU进行性能调控,从而保证了服务器GPU处于高性能状态,缩短了模型训练时长,提高了模型训练速度。
相应的,本发明实施例还提供了与上述服务器GPU性能调控方法相对应的服务器GPU性能调控装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中服务器GPU性能调控方法的一种实施流程图;
图2为本发明实施例中服务器GPU性能调控方法的另一种实施流程图;
图3为本发明实施例中一种服务器GPU性能调控效果是示意图;
图4为本发明实施例中一种模型训练任务完成时间与服务器GPU性能的关系图;
图5为本发明实施例中一种服务器GPU性能调控装置的结构框图;
图6为本发明实施例中一种服务器GPU性能调控设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
参见图1,图1为本发明实施例中服务器GPU性能调控方法的一种实施流程图,该方法可以包括以下步骤:
S101:当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态,若否,则执行步骤S102,若是,则执行步骤S103。
当检测到服务器启动完成时,服务器GPU性能调控装置会自动启动,在服务器GPU性能调控装置启动后,可以判断服务器GPU当前是否处于模型训练状态,若服务器GPU当前未处于模型训练状态,则说明服务器GPU当前未处于高速运转状态,可以继续执行步骤S102,若服务器GPU当前处于模型训练状态,则说明服务器GPU当前处于高速运转状态,服务器GPU的频率和温度会在1~2分钟内迅速升高,可以继续执行步骤S103。
S102:利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控。
在确定服务器GPU当前未处于模型训练状态时,可以利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控。具体根据服务器GPU的温度值对服务器风扇进行脉冲宽带调制PWM的过程如下:
初始值:
占空比:PWM=20,初始温差Le=30,积分简化参数A=0,比例增益Kp=10,积分增益Ki=10,微分增益Kd=0,积分作用参数K=0,积分系数K1=50,时间差dt=3,预设的PWM值Q1=30,Q2=40。
温度差值Te=Ts-Tj,其中,Tj为GPU实时温度,Ts为设定温度;
积分简化为A=A+Te*dt;
微分简化为B=(Te-Le)/dt;(若B大于2或小于-2,则判定无效,B值变为零);
|Te|>2,则取消积分作用,K=0;
|Te|≤2,则引入积分作用,K=1;
PWM的变化量dp=(Kp*Te/dt+K*Ki*A/K1+Kd*B/dt)/10,(取整);
A重新赋值:
|A|≥26,A=0;
|A|<26,A=A;
当Te-Le<0,服务器GPU温度值>=75时,dp=dp-Q1
当Te-Le<0,服务器GPU温度值>=77时,dp=dp-Q2
PID算法PWM=PWM-dp
重新赋值Le=Te
通过利用PID调控算法对服务器风扇转速进行自动调节,使得服务器GPU处于高性能状态。
S103:获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控。
其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
可以预先设置各GPU温度阈值范围与各级别调控策略之间的对应关系,在确定服务器GPU当前处于模型训练状态时,如在使用tensorflow等框架训练深度学习模型时,可以获取服务器GPU的温度值。根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控。如对于某一型号的服务器GPU,预先设定其温度值在70℃~80℃范围对应低级调控策略,其温度值在80℃~85℃范围对应中级调控策略,其温度值在85℃~88℃范围对应高级调控策略。
应用本发明实施例所提供的方法,当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控;若是,则获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。通过当服务器未处于模型训练状态时,利用PID调控算法对服务器风扇转速进行调节的方式对服务器GPU进行性能调控,当服务器处于模型训练状态时,根据服务器GPU的温度值启动对应级别的调控策略对服务器GPU进行性能调控,从而保证了服务器GPU处于高性能状态,缩短了模型训练时长,提高了模型训练速度。
需要说明的是,基于上述实施例一,本发明实施例还提供了相应的改进方案。在后续实施例中涉及与上述实施例一中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在下文的改进实施例中不再一一赘述。
实施例二:
参见图2,图2为本发明实施例中服务器GPU性能调控方法的另一种实施流程图,该方法可以包括以下步骤:
S201:当检测到服务器启动完成时,对服务器运行环境进行检测,得到检测结果。
当检测到服务器启动完成时,可以首先对服务器运行环境进行检测,得到检测结果。如可以检测是否安装服务器GPU性能调控装置运行所需的驱动和工具等。
S202:当根据检测结果确定服务器驱动和工具版本有误时,输出安装正确服务器驱动和工具版本的提示信息。
在得到检测结果之后,可以根据检测结果判断服务器驱动和工具版本是否有误,若确定服务器驱动和工具版本有误,则输出安装正确服务器驱动和工具版本的提示信息,从而提示运维人员进行相应版本的驱动和工具的安装,避免由于版本问题,影响服务器GPU的工作效率。
S203:判断服务器GPU当前是否处于模型训练状态,若否,则执行步骤S204,若是,则执行步骤S205。
S204:利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控。
S205:获取服务器GPU的温度值。
S206:当温度值处于低级GPU温度阈值范围或中级GPU温度阈值范围时,通过将服务器风扇转速调控到对应级别对服务器GPU进行性能调控。
在确定服务器GPU当前处于模型训练状态时,若确定获取到的服务器GPU的温度值处于低级GPU温度阈值范围,则利用低级服务器风扇转速对服务器GPU进行性能调控,若确定获取到的服务器GPU的温度值处于中级GPU温度阈值范围,则利用中级服务器风扇转速对服务器GPU进行性能调控。
S207:当温度值处于高级GPU温度阈值范围时,利用高级服务器风扇转速对服务器GPU进行性能调控。
在确定服务器GPU当前处于模型训练状态时,若确定获取到的服务器GPU的温度值处于高级GPU温度阈值范围,则利用高级服务器风扇转速对服务器GPU进行性能调控。
S208:若利用高级服务器风扇转速对服务器GPU进行性能调控预设时长后,服务器GPU的温度值未低于预设温度值,则将服务器GPU的功耗调整到预设额定功耗。
当GPU的温度值处于高级GPU温度阈值范围,或者超过设定的最高温度阈值时,服务器GPU会降频,在利用高级服务器风扇转速对服务器GPU进行性能调控预设时长后,若服务器GPU的温度值未低于预设温度值,则将服务器GPU的功耗调整到预设额定功耗,从而使得服务器GPU进入低功耗运行模式,降低服务器GPU功耗和服务器的总功耗。
S209:获取调控效果信息。
在对服务器GPU进行性能调控之后,可以获取调控效果信息。
S210:对调控效果信息进行显示操作。
在获取到调控效果信息之后,可以对调控效果信息进行显示操作。从而可以实时监测服务器GPU、服务器风扇和服务器功耗等状态信息,将服务器GPU性能控制效果和调控级别,通过显示界面反映出来,并且可以每秒刷新一次显示数据。如可以根据设置的各项阈值范围,调整显示的颜色,超过设置的阈值,温度、频率和功耗等状态栏,都会显示红色,进行闪烁提示。如图3所示,显示的分别是对服务器中存在1个服务器GPU显卡、2个服务器GPU显卡及4个服务器GPU显卡的调控效果示意图,可见,当服务器存在多张服务器GPU显卡时,调控效果会更好些。如图4所示,显示了模型训练任务完成时长与服务器GPU性能的关系图,可见性能好的服务器GPU将较大地缩短训练时长。
相应于上面的方法实施例,本发明实施例还提供了一种服务器GPU性能调控装置,下文描述的服务器GPU性能调控装置与上文描述的服务器GPU性能调控方法可相互对应参照。
参见图5,图5为本发明实施例中一种服务器GPU性能调控装置的结构框图,该装置可以包括:
判断模块51,用于当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;
第一调控模块52,用于在确定服务器GPU当前未处于模型训练状态时,利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控;
第二调控模块53,用于在确定服务器GPU当前处于模型训练状态时,获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
应用本发明实施例所提供的装置,当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控;若是,则获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。通过当服务器未处于模型训练状态时,利用PID调控算法对服务器风扇转速进行调节的方式对服务器GPU进行性能调控,当服务器处于模型训练状态时,根据服务器GPU的温度值启动对应级别的调控策略对服务器GPU进行性能调控,从而保证了服务器GPU处于高性能状态,缩短了模型训练时长,提高了模型训练速度。
在本发明的一种具体实施方式中,第二调控模块53包括风扇转速调控子模块和功耗调整子模块,
风扇转速调控子模块,用于当温度值处于低级GPU温度阈值范围或中级GPU温度阈值范围时,通过将服务器风扇转速调控到对应级别对服务器GPU进行性能调控;
功耗调整子模块,用于当温度值处于高级GPU温度阈值范围时,利用高级服务器风扇转速对服务器GPU进行性能调控;若利用高级服务器风扇转速对服务器GPU进行性能调控预设时长后,服务器GPU的温度值未低于预设温度值,则将服务器GPU的功耗调整到预设额定功耗。
在本发明的一种具体实施方式中,该装置还可以包括:
检测结果获得模块,用于在检测到服务器启动完成之后,判断服务器GPU当前是否处于模型训练状态之前,对服务器运行环境进行检测,得到检测结果;
信息输出模块,用于当根据检测结果确定服务器驱动和工具版本有误时,输出安装正确服务器驱动和工具版本的提示信息。
在本发明的一种具体实施方式中,该装置还可以包括:
信息获取模块,用于获取调控效果信息;
显示模块,用于对调控效果信息进行显示操作。
相应于上面的方法实施例,参见图6,图6为本发明所提供的服务器GPU性能调控设备的示意图,该设备可以包括:
存储器61,用于存储计算机程序;
处理器62,用于执行上述存储器61存储的计算机程序时可实现如下步骤:
当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控;若是,则获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
对于本发明提供的设备的介绍请参照上述方法实施例,本发明在此不做赘述。
相应于上面的方法实施例,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下步骤:
当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控;若是,则获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本发明提供的计算机可读存储介质的介绍请参照上述方法实施例,本发明在此不做赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种服务器GPU性能调控方法,其特征在于,包括:
当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;
若否,则利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;
若是,则获取所述服务器GPU的温度值;根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
2.根据权利要求1所述的服务器GPU性能调控方法,其特征在于,根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控,包括:
当所述温度值处于低级GPU温度阈值范围或中级GPU温度阈值范围时,通过将所述服务器风扇转速调控到对应级别对所述服务器GPU进行性能调控;
当所述温度值处于高级GPU温度阈值范围时,利用高级服务器风扇转速对所述服务器GPU进行性能调控;若利用所述高级服务器风扇转速对所述服务器GPU进行性能调控预设时长后,所述服务器GPU的温度值未低于预设温度值,则将所述服务器GPU的功耗调整到预设额定功耗。
3.根据权利要求1或2所述的服务器GPU性能调控方法,其特征在于,在检测到服务器启动完成之后,判断服务器GPU当前是否处于模型训练状态之前,还包括:
对服务器运行环境进行检测,得到检测结果;
当根据所述检测结果确定服务器驱动和工具版本有误时,输出安装正确服务器驱动和工具版本的提示信息。
4.根据权利要求3所述的服务器GPU性能调控方法,其特征在于,还包括:
获取调控效果信息;
对所述调控效果信息进行显示操作。
5.一种服务器GPU性能调控装置,其特征在于,包括:
判断模块,用于当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;
第一调控模块,用于在确定服务器GPU当前未处于模型训练状态时,利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;
第二调控模块,用于在确定服务器GPU当前处于模型训练状态时,获取所述服务器GPU的温度值;根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
6.根据权利要求5所述的服务器GPU性能调控装置,其特征在于,所述第二调控模块包括风扇转速调控子模块和功耗调整子模块,
所述风扇转速调控子模块,用于当所述温度值处于低级GPU温度阈值范围或中级GPU温度阈值范围时,通过将所述服务器风扇转速调控到对应级别对所述服务器GPU进行性能调控;
所述功耗调整子模块,用于当所述温度值处于高级GPU温度阈值范围时,利用高级服务器风扇转速对所述服务器GPU进行性能调控;若利用所述高级服务器风扇转速对所述服务器GPU进行性能调控预设时长后,所述服务器GPU的温度值未低于预设温度值,则将所述服务器GPU的功耗调整到预设额定功耗。
7.根据权利要求5或6所述的服务器GPU性能调控装置,其特征在于,还包括:
检测结果获得模块,用于在检测到服务器启动完成之后,判断服务器GPU当前是否处于模型训练状态之前,对服务器运行环境进行检测,得到检测结果;
信息输出模块,用于当根据所述检测结果确定服务器驱动和工具版本有误时,输出安装正确服务器驱动和工具版本的提示信息。
8.根据权利要求7所述的服务器GPU性能调控装置,其特征在于,还包括:
信息获取模块,用于获取调控效果信息;
显示模块,用于对所述调控效果信息进行显示操作。
9.一种服务器GPU性能调控设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述服务器GPU性能调控方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述服务器GPU性能调控方法的步骤。
CN201910656862.2A 2019-07-19 2019-07-19 服务器gpu性能调控方法、装置、设备及可读存储介质 Active CN110427300B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910656862.2A CN110427300B (zh) 2019-07-19 2019-07-19 服务器gpu性能调控方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910656862.2A CN110427300B (zh) 2019-07-19 2019-07-19 服务器gpu性能调控方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110427300A true CN110427300A (zh) 2019-11-08
CN110427300B CN110427300B (zh) 2023-07-14

Family

ID=68411401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910656862.2A Active CN110427300B (zh) 2019-07-19 2019-07-19 服务器gpu性能调控方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110427300B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026256A (zh) * 2019-12-29 2020-04-17 苏州浪潮智能科技有限公司 一种基于微小温度差异的风扇转速积分调控方法和设备
CN111258398A (zh) * 2020-01-10 2020-06-09 安擎(天津)计算机有限公司 Ai服务器风扇速度调节方法、系统、终端设备及存储介质
CN111596745A (zh) * 2020-05-13 2020-08-28 歌尔科技有限公司 一种温度检测装置、方法、系统和电子设备
CN113220094A (zh) * 2020-01-20 2021-08-06 Oppo广东移动通信有限公司 调度器优化方法、装置、终端及存储介质
CN115437486A (zh) * 2022-11-09 2022-12-06 苏州浪潮智能科技有限公司 基于模型的服务器散热方法、装置、服务器和存储介质
CN116301095A (zh) * 2022-12-23 2023-06-23 摩尔线程智能科技(北京)有限责任公司 Gpu的温度控制方法、装置、设备、介质和程序产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070206314A1 (en) * 2006-03-03 2007-09-06 Derosa Jeffrey V Methods and apparatus for controlling read/write duty cycle in a data storage device based on thermal inputs
WO2010014197A1 (en) * 2008-07-29 2010-02-04 Advanced Micro Devices, Inc. Regulation of power consumption for application-specific integrated circuits
CN107643811A (zh) * 2017-09-26 2018-01-30 郑州云海信息技术有限公司 一种基于pid控制原理的风扇调控优化方法
CN108897416A (zh) * 2018-06-28 2018-11-27 郑州云海信息技术有限公司 一种控制gpu下电的方法、装置及计算机可读存储介质
CN109002155A (zh) * 2018-10-10 2018-12-14 郑州云海信息技术有限公司 一种gpu服务器散热调控方法及系统
CN109062692A (zh) * 2018-07-24 2018-12-21 郑州云海信息技术有限公司 一种人脸识别深度学习训练平台的优化方法及系统
CN109441864A (zh) * 2018-09-04 2019-03-08 深圳市宝德计算机系统有限公司 一种服务器风扇控制方法、装置、设备及计算机存储介质
CN109992078A (zh) * 2019-04-16 2019-07-09 苏州浪潮智能科技有限公司 支持高密度高功耗gpu服务器散热结构及设计方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070206314A1 (en) * 2006-03-03 2007-09-06 Derosa Jeffrey V Methods and apparatus for controlling read/write duty cycle in a data storage device based on thermal inputs
WO2010014197A1 (en) * 2008-07-29 2010-02-04 Advanced Micro Devices, Inc. Regulation of power consumption for application-specific integrated circuits
CN107643811A (zh) * 2017-09-26 2018-01-30 郑州云海信息技术有限公司 一种基于pid控制原理的风扇调控优化方法
CN108897416A (zh) * 2018-06-28 2018-11-27 郑州云海信息技术有限公司 一种控制gpu下电的方法、装置及计算机可读存储介质
CN109062692A (zh) * 2018-07-24 2018-12-21 郑州云海信息技术有限公司 一种人脸识别深度学习训练平台的优化方法及系统
CN109441864A (zh) * 2018-09-04 2019-03-08 深圳市宝德计算机系统有限公司 一种服务器风扇控制方法、装置、设备及计算机存储介质
CN109002155A (zh) * 2018-10-10 2018-12-14 郑州云海信息技术有限公司 一种gpu服务器散热调控方法及系统
CN109992078A (zh) * 2019-04-16 2019-07-09 苏州浪潮智能科技有限公司 支持高密度高功耗gpu服务器散热结构及设计方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026256A (zh) * 2019-12-29 2020-04-17 苏州浪潮智能科技有限公司 一种基于微小温度差异的风扇转速积分调控方法和设备
CN111258398A (zh) * 2020-01-10 2020-06-09 安擎(天津)计算机有限公司 Ai服务器风扇速度调节方法、系统、终端设备及存储介质
CN113220094A (zh) * 2020-01-20 2021-08-06 Oppo广东移动通信有限公司 调度器优化方法、装置、终端及存储介质
CN111596745A (zh) * 2020-05-13 2020-08-28 歌尔科技有限公司 一种温度检测装置、方法、系统和电子设备
CN111596745B (zh) * 2020-05-13 2022-03-01 歌尔科技有限公司 一种温度检测装置、方法、系统和电子设备
CN115437486A (zh) * 2022-11-09 2022-12-06 苏州浪潮智能科技有限公司 基于模型的服务器散热方法、装置、服务器和存储介质
WO2024098774A1 (zh) * 2022-11-09 2024-05-16 苏州元脑智能科技有限公司 基于模型的服务器散热方法、装置、服务器和存储介质
CN116301095A (zh) * 2022-12-23 2023-06-23 摩尔线程智能科技(北京)有限责任公司 Gpu的温度控制方法、装置、设备、介质和程序产品
CN116301095B (zh) * 2022-12-23 2024-03-19 摩尔线程智能科技(北京)有限责任公司 Gpu的温度控制方法、装置、设备、介质和程序产品

Also Published As

Publication number Publication date
CN110427300B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
CN110427300A (zh) 服务器gpu性能调控方法、装置、设备及可读存储介质
CN107292766B (zh) 面向风电消纳的电力系统调峰手段经济性评估方法与系统
CN105157087B (zh) 热泵机组的控制方法及装置
US10527304B2 (en) Demand response based air conditioning management systems and method
CN110567139B (zh) 光伏空调的限频及降频控制方法、装置及光伏空调
CN110751383A (zh) 一种基于多策略融合降维的电力现货市场出清计算方法
CN110875599A (zh) 一种电网频率振荡的控制方法及系统
CN105956680B (zh) 一个基于强化学习的自适应规则的生成和管理框架
CN104566860A (zh) 空调器及其压缩机的启动控制方法和装置
CN106779321A (zh) 一种基于供能系统的供能控制方法及装置
CN109636001B (zh) 基于大数据的脱硫供浆系统pH值调节方法、系统及计算机可读介质
CN115450894A (zh) 一种水泵运行优化方法及系统
CN113595109B (zh) 飞轮储能容量配置方法及装置
CN111952959B (zh) 压缩电网过程模拟时间的方法、装置及存储介质
CN110989040B (zh) 一种基于切片处理的人工智能雷电临近预警方法及系统
CN109980698B (zh) 长周期细粒度机组组合计算方法及系统
CN111917138A (zh) 一种基于态势感知的电网旋转备用配置方法和系统
CN108830493A (zh) 一种核电机组调峰时间计算方法、装置、设备及存储介质
CN115940152B (zh) 一种新能源装机容量优化分配方法、系统、终端及介质
CN114439683B (zh) 风力发电机转矩控制方法、装置、设备及存储介质
CN118249415A (zh) 一种基于限幅Sigmoid函数的光伏并网系统虚拟惯量构网控制方法及系统
CN109579216A (zh) 控制方法、装置、空气调节设备、遥控终端及存储介质
CN114462725B (zh) 一种基于动态资源池的非直控型需求侧响应优化调度方法
CN108412780A (zh) 一种自动耦合变转速泵机及控制方法
CN114498659A (zh) 自动电压无功控制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant