CN110427300B - 服务器gpu性能调控方法、装置、设备及可读存储介质 - Google Patents
服务器gpu性能调控方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN110427300B CN110427300B CN201910656862.2A CN201910656862A CN110427300B CN 110427300 B CN110427300 B CN 110427300B CN 201910656862 A CN201910656862 A CN 201910656862A CN 110427300 B CN110427300 B CN 110427300B
- Authority
- CN
- China
- Prior art keywords
- server
- gpu
- performance
- regulation
- temperature value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001105 regulatory effect Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000001276 controlling effect Effects 0.000 title claims abstract description 19
- 230000000694 effects Effects 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000010354 integration Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004904 shortening Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/20—Cooling means
- G06F1/206—Cooling means comprising thermal management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/32—Means for saving power
- G06F1/3203—Power management, i.e. event-based initiation of a power-saving mode
- G06F1/3234—Power saving characterised by the action undertaken
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Human Computer Interaction (AREA)
- Stored Programmes (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种服务器GPU性能调控方法,该方法包括以下步骤:当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控;若是,则获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。应用本发明实施例所提供的技术方案,保证了服务器GPU处于高性能状态,缩短了模型训练时长,提高了模型训练速度。本发明还公开了一种服务器GPU性能调控装置、设备及存储介质,具有相应技术效果。
Description
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种服务器GPU性能调控方法、装置、设备及计算机可读存储介质。
背景技术
在人工智能时代,需要使用各种深度学习框架,在人工智能AI服务器上进行模型训练。由于进行模型训练时,需要对大量数据集进行长时间的训练,同时使用的是分布式集群,可以实现单机多卡,以及多机多卡的分布式训练,所以对人工智能服务器的服务器GPU具有较高的要求。
由于训练过程中,服务器GPU始终保持高强度的运算,服务器GPU显存和GPU利用率始终保持高负荷状态,会导致服务器GPU温度过高,而长时间的高温状态,会导致服务器GPU降频,影响模型的训练过程,导致模型训练时间延长,模型训练效率降低。
综上所述,如何有效地解决服务器GPU温度升高,导致模型训练时间延长,模型训练效率降低等问题,是目前本领域技术人员急需解决的问题。
发明内容
本发明的目的是提供一种服务器GPU性能调控方法,该方法保证了服务器GPU处于高性能状态,缩短了模型训练时长,提高了模型训练速度;本发明的另一目的是提供一种服务器GPU性能调控装置、设备及计算机可读存储介质。
为解决上述技术问题,本发明提供如下技术方案:
一种服务器GPU性能调控方法,包括:
当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;
若否,则利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;
若是,则获取所述服务器GPU的温度值;根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
在本发明的一种具体实施方式中,根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控,包括:
当所述温度值处于低级GPU温度阈值范围或中级GPU温度阈值范围时,通过将所述服务器风扇转速调控到对应级别对所述服务器GPU进行性能调控;
当所述温度值处于高级GPU温度阈值范围时,利用高级服务器风扇转速对所述服务器GPU进行性能调控;若利用所述高级服务器风扇转速对所述服务器GPU进行性能调控预设时长后,所述服务器GPU的温度值未低于预设温度值,则将所述服务器GPU的功耗调整到预设额定功耗。
在本发明的一种具体实施方式中,在检测到服务器启动完成之后,判断服务器GPU当前是否处于模型训练状态之前,还包括:
对服务器运行环境进行检测,得到检测结果;
当根据所述检测结果确定服务器驱动和工具版本有误时,输出安装正确服务器驱动和工具版本的提示信息。
在本发明的一种具体实施方式中,还包括:
获取调控效果信息;
对所述调控效果信息进行显示操作。
一种服务器GPU性能调控装置,包括:
判断模块,用于当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;
第一调控模块,用于在确定服务器GPU当前未处于模型训练状态时,利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;
第二调控模块,用于在确定服务器GPU当前处于模型训练状态时,获取所述服务器GPU的温度值;根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
在本发明的一种具体实施方式中,所述第二调控模块包括风扇转速调控子模块和功耗调整子模块,
所述风扇转速调控子模块,用于当所述温度值处于低级GPU温度阈值范围或中级GPU温度阈值范围时,通过将所述服务器风扇转速调控到对应级别对所述服务器GPU进行性能调控;
所述功耗调整子模块,用于当所述温度值处于高级GPU温度阈值范围时,利用高级服务器风扇转速对所述服务器GPU进行性能调控;若利用所述高级服务器风扇转速对所述服务器GPU进行性能调控预设时长后,所述服务器GPU的温度值未低于预设温度值,则将所述服务器GPU的功耗调整到预设额定功耗。
在本发明的一种具体实施方式中,还包括:
检测结果获得模块,用于在检测到服务器启动完成之后,判断服务器GPU当前是否处于模型训练状态之前,对服务器运行环境进行检测,得到检测结果;
信息输出模块,用于当根据所述检测结果确定服务器驱动和工具版本有误时,输出安装正确服务器驱动和工具版本的提示信息。
在本发明的一种具体实施方式中,还包括:
信息获取模块,用于获取调控效果信息;
显示模块,用于对所述调控效果信息进行显示操作。
一种服务器GPU性能调控设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如前所述服务器GPU性能调控方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述服务器GPU性能调控方法的步骤。
应用本发明实施例所提供的方法,当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控;若是,则获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。通过当服务器未处于模型训练状态时,利用PID调控算法对服务器风扇转速进行调节的方式对服务器GPU进行性能调控,当服务器处于模型训练状态时,根据服务器GPU的温度值启动对应级别的调控策略对服务器GPU进行性能调控,从而保证了服务器GPU处于高性能状态,缩短了模型训练时长,提高了模型训练速度。
相应的,本发明实施例还提供了与上述服务器GPU性能调控方法相对应的服务器GPU性能调控装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中服务器GPU性能调控方法的一种实施流程图;
图2为本发明实施例中服务器GPU性能调控方法的另一种实施流程图;
图3为本发明实施例中一种服务器GPU性能调控效果是示意图;
图4为本发明实施例中一种模型训练任务完成时间与服务器GPU性能的关系图;
图5为本发明实施例中一种服务器GPU性能调控装置的结构框图;
图6为本发明实施例中一种服务器GPU性能调控设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
参见图1,图1为本发明实施例中服务器GPU性能调控方法的一种实施流程图,该方法可以包括以下步骤:
S101:当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态,若否,则执行步骤S102,若是,则执行步骤S103。
当检测到服务器启动完成时,服务器GPU性能调控装置会自动启动,在服务器GPU性能调控装置启动后,可以判断服务器GPU当前是否处于模型训练状态,若服务器GPU当前未处于模型训练状态,则说明服务器GPU当前未处于高速运转状态,可以继续执行步骤S102,若服务器GPU当前处于模型训练状态,则说明服务器GPU当前处于高速运转状态,服务器GPU的频率和温度会在1~2分钟内迅速升高,可以继续执行步骤S103。
S102:利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控。
在确定服务器GPU当前未处于模型训练状态时,可以利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控。具体根据服务器GPU的温度值对服务器风扇进行脉冲宽带调制PWM的过程如下:
初始值:
占空比:PWM=20,初始温差Le=30,积分简化参数A=0,比例增益Kp=10,积分增益Ki=10,微分增益Kd=0,积分作用参数K=0,积分系数K1=50,时间差dt=3,预设的PWM值Q1=30,Q2=40。
温度差值Te=Ts-Tj,其中,Tj为GPU实时温度,Ts为设定温度;
积分简化为A=A+Te*dt;
微分简化为B=(Te-Le)/dt;(若B大于2或小于-2,则判定无效,B值变为零);
|Te|>2,则取消积分作用,K=0;
|Te|≤2,则引入积分作用,K=1;
PWM的变化量dp=(Kp*Te/dt+K*Ki*A/K1+Kd*B/dt)/10,(取整);
A重新赋值:
|A|≥26,A=0;
|A|<26,A=A;
当Te-Le<0,服务器GPU温度值>=75时,dp=dp-Q1;
当Te-Le<0,服务器GPU温度值>=77时,dp=dp-Q2;
PID算法PWM=PWM-dp;
重新赋值Le=Te。
通过利用PID调控算法对服务器风扇转速进行自动调节,使得服务器GPU处于高性能状态。
S103:获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控。
其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
可以预先设置各GPU温度阈值范围与各级别调控策略之间的对应关系,在确定服务器GPU当前处于模型训练状态时,如在使用tensorflow等框架训练深度学习模型时,可以获取服务器GPU的温度值。根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控。如对于某一型号的服务器GPU,预先设定其温度值在70℃~80℃范围对应低级调控策略,其温度值在80℃~85℃范围对应中级调控策略,其温度值在85℃~88℃范围对应高级调控策略。
应用本发明实施例所提供的方法,当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控;若是,则获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。通过当服务器未处于模型训练状态时,利用PID调控算法对服务器风扇转速进行调节的方式对服务器GPU进行性能调控,当服务器处于模型训练状态时,根据服务器GPU的温度值启动对应级别的调控策略对服务器GPU进行性能调控,从而保证了服务器GPU处于高性能状态,缩短了模型训练时长,提高了模型训练速度。
需要说明的是,基于上述实施例一,本发明实施例还提供了相应的改进方案。在后续实施例中涉及与上述实施例一中相同步骤或相应步骤之间可相互参考,相应的有益效果也可相互参照,在下文的改进实施例中不再一一赘述。
实施例二:
参见图2,图2为本发明实施例中服务器GPU性能调控方法的另一种实施流程图,该方法可以包括以下步骤:
S201:当检测到服务器启动完成时,对服务器运行环境进行检测,得到检测结果。
当检测到服务器启动完成时,可以首先对服务器运行环境进行检测,得到检测结果。如可以检测是否安装服务器GPU性能调控装置运行所需的驱动和工具等。
S202:当根据检测结果确定服务器驱动和工具版本有误时,输出安装正确服务器驱动和工具版本的提示信息。
在得到检测结果之后,可以根据检测结果判断服务器驱动和工具版本是否有误,若确定服务器驱动和工具版本有误,则输出安装正确服务器驱动和工具版本的提示信息,从而提示运维人员进行相应版本的驱动和工具的安装,避免由于版本问题,影响服务器GPU的工作效率。
S203:判断服务器GPU当前是否处于模型训练状态,若否,则执行步骤S204,若是,则执行步骤S205。
S204:利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控。
S205:获取服务器GPU的温度值。
S206:当温度值处于低级GPU温度阈值范围或中级GPU温度阈值范围时,通过将服务器风扇转速调控到对应级别对服务器GPU进行性能调控。
在确定服务器GPU当前处于模型训练状态时,若确定获取到的服务器GPU的温度值处于低级GPU温度阈值范围,则利用低级服务器风扇转速对服务器GPU进行性能调控,若确定获取到的服务器GPU的温度值处于中级GPU温度阈值范围,则利用中级服务器风扇转速对服务器GPU进行性能调控。
S207:当温度值处于高级GPU温度阈值范围时,利用高级服务器风扇转速对服务器GPU进行性能调控。
在确定服务器GPU当前处于模型训练状态时,若确定获取到的服务器GPU的温度值处于高级GPU温度阈值范围,则利用高级服务器风扇转速对服务器GPU进行性能调控。
S208:若利用高级服务器风扇转速对服务器GPU进行性能调控预设时长后,服务器GPU的温度值未低于预设温度值,则将服务器GPU的功耗调整到预设额定功耗。
当GPU的温度值处于高级GPU温度阈值范围,或者超过设定的最高温度阈值时,服务器GPU会降频,在利用高级服务器风扇转速对服务器GPU进行性能调控预设时长后,若服务器GPU的温度值未低于预设温度值,则将服务器GPU的功耗调整到预设额定功耗,从而使得服务器GPU进入低功耗运行模式,降低服务器GPU功耗和服务器的总功耗。
S209:获取调控效果信息。
在对服务器GPU进行性能调控之后,可以获取调控效果信息。
S210:对调控效果信息进行显示操作。
在获取到调控效果信息之后,可以对调控效果信息进行显示操作。从而可以实时监测服务器GPU、服务器风扇和服务器功耗等状态信息,将服务器GPU性能控制效果和调控级别,通过显示界面反映出来,并且可以每秒刷新一次显示数据。如可以根据设置的各项阈值范围,调整显示的颜色,超过设置的阈值,温度、频率和功耗等状态栏,都会显示红色,进行闪烁提示。如图3所示,显示的分别是对服务器中存在1个服务器GPU显卡、2个服务器GPU显卡及4个服务器GPU显卡的调控效果示意图,可见,当服务器存在多张服务器GPU显卡时,调控效果会更好些。如图4所示,显示了模型训练任务完成时长与服务器GPU性能的关系图,可见性能好的服务器GPU将较大地缩短训练时长。
相应于上面的方法实施例,本发明实施例还提供了一种服务器GPU性能调控装置,下文描述的服务器GPU性能调控装置与上文描述的服务器GPU性能调控方法可相互对应参照。
参见图5,图5为本发明实施例中一种服务器GPU性能调控装置的结构框图,该装置可以包括:
判断模块51,用于当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;
第一调控模块52,用于在确定服务器GPU当前未处于模型训练状态时,利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控;
第二调控模块53,用于在确定服务器GPU当前处于模型训练状态时,获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
应用本发明实施例所提供的装置,当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控;若是,则获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。通过当服务器未处于模型训练状态时,利用PID调控算法对服务器风扇转速进行调节的方式对服务器GPU进行性能调控,当服务器处于模型训练状态时,根据服务器GPU的温度值启动对应级别的调控策略对服务器GPU进行性能调控,从而保证了服务器GPU处于高性能状态,缩短了模型训练时长,提高了模型训练速度。
在本发明的一种具体实施方式中,第二调控模块53包括风扇转速调控子模块和功耗调整子模块,
风扇转速调控子模块,用于当温度值处于低级GPU温度阈值范围或中级GPU温度阈值范围时,通过将服务器风扇转速调控到对应级别对服务器GPU进行性能调控;
功耗调整子模块,用于当温度值处于高级GPU温度阈值范围时,利用高级服务器风扇转速对服务器GPU进行性能调控;若利用高级服务器风扇转速对服务器GPU进行性能调控预设时长后,服务器GPU的温度值未低于预设温度值,则将服务器GPU的功耗调整到预设额定功耗。
在本发明的一种具体实施方式中,该装置还可以包括:
检测结果获得模块,用于在检测到服务器启动完成之后,判断服务器GPU当前是否处于模型训练状态之前,对服务器运行环境进行检测,得到检测结果;
信息输出模块,用于当根据检测结果确定服务器驱动和工具版本有误时,输出安装正确服务器驱动和工具版本的提示信息。
在本发明的一种具体实施方式中,该装置还可以包括:
信息获取模块,用于获取调控效果信息;
显示模块,用于对调控效果信息进行显示操作。
相应于上面的方法实施例,参见图6,图6为本发明所提供的服务器GPU性能调控设备的示意图,该设备可以包括:
存储器61,用于存储计算机程序;
处理器62,用于执行上述存储器61存储的计算机程序时可实现如下步骤:
当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控;若是,则获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
对于本发明提供的设备的介绍请参照上述方法实施例,本发明在此不做赘述。
相应于上面的方法实施例,本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现如下步骤:
当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控;若是,则获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本发明提供的计算机可读存储介质的介绍请参照上述方法实施例,本发明在此不做赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置、设备及计算机可读存储介质而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (8)
1.一种服务器GPU性能调控方法,其特征在于,包括:
当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;
若否,则利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;
若是,则获取所述服务器GPU的温度值;当所述温度值处于低级GPU温度阈值范围或中级GPU温度阈值范围时,通过将所述服务器风扇转速调控到对应级别对所述服务器GPU进行性能调控;
当所述温度值处于高级GPU温度阈值范围时,利用高级服务器风扇转速对所述服务器GPU进行性能调控;若利用所述高级服务器风扇转速对所述服务器GPU进行性能调控预设时长后,所述服务器GPU的温度值未低于预设温度值,则将所述服务器GPU的功耗调整到预设额定功耗,以使所述服务器GPU降频进入低功耗运行模式;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
2.根据权利要求1所述的服务器GPU性能调控方法,其特征在于,在检测到服务器启动完成之后,判断服务器GPU当前是否处于模型训练状态之前,还包括:
对服务器运行环境进行检测,得到检测结果;
当根据所述检测结果确定服务器驱动和工具版本有误时,输出安装正确服务器驱动和工具版本的提示信息。
3.根据权利要求2所述的服务器GPU性能调控方法,其特征在于,还包括:
获取调控效果信息;
对所述调控效果信息进行显示操作。
4.一种服务器GPU性能调控装置,其特征在于,包括:
判断模块,用于当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;
第一调控模块,用于在确定服务器GPU当前未处于模型训练状态时,利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;
第二调控模块,用于在确定服务器GPU当前处于模型训练状态时,获取所述服务器GPU的温度值;当所述温度值处于低级GPU温度阈值范围或中级GPU温度阈值范围时,通过将所述服务器风扇转速调控到对应级别对所述服务器GPU进行性能调控;当所述温度值处于高级GPU温度阈值范围时,利用高级服务器风扇转速对所述服务器GPU进行性能调控;若利用所述高级服务器风扇转速对所述服务器GPU进行性能调控预设时长后,所述服务器GPU的温度值未低于预设温度值,则将所述服务器GPU的功耗调整到预设额定功耗,以使所述服务器GPU降频进入低功耗运行模式;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
5.根据权利要求4所述的服务器GPU性能调控装置,其特征在于,还包括:
检测结果获得模块,用于在检测到服务器启动完成之后,判断服务器GPU当前是否处于模型训练状态之前,对服务器运行环境进行检测,得到检测结果;
信息输出模块,用于当根据所述检测结果确定服务器驱动和工具版本有误时,输出安装正确服务器驱动和工具版本的提示信息。
6.根据权利要求5所述的服务器GPU性能调控装置,其特征在于,还包括:
信息获取模块,用于获取调控效果信息;
显示模块,用于对所述调控效果信息进行显示操作。
7.一种服务器GPU性能调控设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至3任一项所述服务器GPU性能调控方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3任一项所述服务器GPU性能调控方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910656862.2A CN110427300B (zh) | 2019-07-19 | 2019-07-19 | 服务器gpu性能调控方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910656862.2A CN110427300B (zh) | 2019-07-19 | 2019-07-19 | 服务器gpu性能调控方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427300A CN110427300A (zh) | 2019-11-08 |
CN110427300B true CN110427300B (zh) | 2023-07-14 |
Family
ID=68411401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910656862.2A Active CN110427300B (zh) | 2019-07-19 | 2019-07-19 | 服务器gpu性能调控方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427300B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026256A (zh) * | 2019-12-29 | 2020-04-17 | 苏州浪潮智能科技有限公司 | 一种基于微小温度差异的风扇转速积分调控方法和设备 |
CN111258398A (zh) * | 2020-01-10 | 2020-06-09 | 安擎(天津)计算机有限公司 | Ai服务器风扇速度调节方法、系统、终端设备及存储介质 |
CN113220094A (zh) * | 2020-01-20 | 2021-08-06 | Oppo广东移动通信有限公司 | 调度器优化方法、装置、终端及存储介质 |
CN111596745B (zh) * | 2020-05-13 | 2022-03-01 | 歌尔科技有限公司 | 一种温度检测装置、方法、系统和电子设备 |
CN115437486B (zh) * | 2022-11-09 | 2023-03-24 | 苏州浪潮智能科技有限公司 | 基于模型的服务器散热方法、装置、服务器和存储介质 |
CN116301095B (zh) * | 2022-12-23 | 2024-03-19 | 摩尔线程智能科技(北京)有限责任公司 | Gpu的温度控制方法、装置、设备、介质和程序产品 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010014197A1 (en) * | 2008-07-29 | 2010-02-04 | Advanced Micro Devices, Inc. | Regulation of power consumption for application-specific integrated circuits |
CN109062692A (zh) * | 2018-07-24 | 2018-12-21 | 郑州云海信息技术有限公司 | 一种人脸识别深度学习训练平台的优化方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070206314A1 (en) * | 2006-03-03 | 2007-09-06 | Derosa Jeffrey V | Methods and apparatus for controlling read/write duty cycle in a data storage device based on thermal inputs |
CN107643811A (zh) * | 2017-09-26 | 2018-01-30 | 郑州云海信息技术有限公司 | 一种基于pid控制原理的风扇调控优化方法 |
CN108897416A (zh) * | 2018-06-28 | 2018-11-27 | 郑州云海信息技术有限公司 | 一种控制gpu下电的方法、装置及计算机可读存储介质 |
CN109441864B (zh) * | 2018-09-04 | 2020-07-17 | 深圳市宝德计算机系统有限公司 | 一种服务器风扇控制方法、装置、设备及计算机存储介质 |
CN109002155A (zh) * | 2018-10-10 | 2018-12-14 | 郑州云海信息技术有限公司 | 一种gpu服务器散热调控方法及系统 |
CN109992078A (zh) * | 2019-04-16 | 2019-07-09 | 苏州浪潮智能科技有限公司 | 支持高密度高功耗gpu服务器散热结构及设计方法 |
-
2019
- 2019-07-19 CN CN201910656862.2A patent/CN110427300B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010014197A1 (en) * | 2008-07-29 | 2010-02-04 | Advanced Micro Devices, Inc. | Regulation of power consumption for application-specific integrated circuits |
CN109062692A (zh) * | 2018-07-24 | 2018-12-21 | 郑州云海信息技术有限公司 | 一种人脸识别深度学习训练平台的优化方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110427300A (zh) | 2019-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427300B (zh) | 服务器gpu性能调控方法、装置、设备及可读存储介质 | |
CN113154638B (zh) | 用于控制空调防凝露的方法及装置、空调器 | |
CN112880156A (zh) | 用于空调的控制方法、控制装置及空调 | |
CN111258398A (zh) | Ai服务器风扇速度调节方法、系统、终端设备及存储介质 | |
CN107132904B (zh) | 一种ddr系统的控制系统及控制方法 | |
CN110567139B (zh) | 光伏空调的限频及降频控制方法、装置及光伏空调 | |
CN105308674A (zh) | 一种背光亮度的调节方法及电子设备 | |
CN115437486B (zh) | 基于模型的服务器散热方法、装置、服务器和存储介质 | |
CN114075677B (zh) | 制氢系统的参数控制方法、装置、设备和存储介质 | |
CN109973302B (zh) | 风力发电机组的限功率控制方法和装置 | |
CN105091191B (zh) | 空调机组负荷的控制方法和装置 | |
CN107894784B (zh) | 一种动态水平衡控制方法及装置 | |
CN110566492A (zh) | 一种风扇调速方法、装置、设备及介质 | |
CN113775403B (zh) | 一种风扇转速控制方法、装置、电子设备以及存储介质 | |
CN115450894A (zh) | 一种水泵运行优化方法及系统 | |
CN108448977A (zh) | 一种直流电机弱磁控制方法及装置 | |
CN109756172B (zh) | 一种有刷电机驱动方法、装置及计算机可读存储介质 | |
CN111564871B (zh) | 基于燃煤电站热惯性的自适应变负荷指令生成方法及装置 | |
CN111049359B (zh) | 一种功率控制方法及系统 | |
CN110984269B (zh) | 一种推土机智能降耗方法 | |
CN114856791B (zh) | 一种电控硅油风扇控制方法及装置、电子设备 | |
CN114423119B (zh) | 一种渐变调光方法及系统 | |
CN115940152B (zh) | 一种新能源装机容量优化分配方法、系统、终端及介质 | |
JP2018152965A (ja) | 発電機運転制御装置、及び発電機運転制御方法 | |
CN112467243B (zh) | 电池包冷却控制方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |