CN101719084A - 一种通过调节gpu频率来降低gpu故障率的方法 - Google Patents
一种通过调节gpu频率来降低gpu故障率的方法 Download PDFInfo
- Publication number
- CN101719084A CN101719084A CN200910227186A CN200910227186A CN101719084A CN 101719084 A CN101719084 A CN 101719084A CN 200910227186 A CN200910227186 A CN 200910227186A CN 200910227186 A CN200910227186 A CN 200910227186A CN 101719084 A CN101719084 A CN 101719084A
- Authority
- CN
- China
- Prior art keywords
- gpu
- frequency
- temperature
- core
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Stored Programmes (AREA)
Abstract
本发明公开了一种通过调节GPU频率来降低GPU故障率的方法,目的是降低GPU故障率。技术方案是对GPU建立GPU频率级别表,表项包括GPU核心频率、GPU显存频率、平均无故障时间、GPU温度阈值;由GPU实时温度监控器跟踪并记录用户程序运行过程中GPU温度变化情况,每隔固定时间根据当前GPU的平均温度和温度阈值之间的关系判断是否调频,当GPU的温度超过阈值时,将频率降低一级,当GPU温度处在更高级别的温度阈值范围且连续多个时间间隔未进行频率调节时,将频率提升一级。采用本发明可实现对GPU频率的自适应调节,降低GPU故障率,避免因GPU温度超过阈值导致的隐患和过多次的频率调节而导致的GPU不稳定。
Description
技术领域
本发明涉及降低GPU故障率的方法,尤指通过调节GPU频率来降低GPU故障率的方法。
背景技术
GPU(Graphics Processing Unit,图形处理单元)过去通常用于图形图像应用领域,该领域对GPU故障具有一定的容忍度,通常GPU故障发生在GPU显存上,偶发的显存存储位错误只会导致个别像素点的计算错误,不会对整体图形图像产生本质影响。但随着GPU用于科学计算程序中,GPU的故障会对科学计算程序的正确性产生很大影响,使程序产生较大误差。目前通常的做法有以下几种:
(1)通过在存储控制器中加入错误校验码ECC(Error Correction Code)来纠正存储位错误。但这种方法增加了硬件开销,提高了硬件成本。同时由于在访存时需要增加一拍的编码和解码时间,降低了GPU的访存性能。因此,在考虑硬件成本和访存性能因素时,不适宜采用该方法。
(2)通过控制GPU温度平衡从而降低故障率。通过驱使系统风扇提前运行以降低显卡芯片的散热压力,达到控制GPU核心温度以降低GPU故障率的目的。但是若温度变化过快容易导致显卡缺陷,导致多重图像、白屏、花屏、无法开机等。
(3)通过调节GPU频率来降低GPU故障率。GPU频率持续过高会导致GPU温度过高,故障率增大,因此调节GPU频率可有效控制GPU温度持续过高,达到降低GPU故障率的目的。但是该方法目前仅限于采用静态设置较低的GPU频率来实现,存在很多局限性,包括:设置单一的较低GPU频率会影响科学计算的性能;频率设置方面没有统一标准,靠用户的经验设置,不具有可操作性。
第三种方法由于硬件支持较为完善,是目前前景较大的降低GPU故障率的方法。但是该方法仍存在以下问题:一方面GPU频率调节包括两部分:GPU核心频率和GPU显存频率,为了保证GPU能够正常工作,两者频率必须按照一定比例同步调节,降频的比例也必须严格控制,否则容易导致GPU访存性能受到影响;且对不同型号的GPU,频率调节的幅度应区别对待。
目前GPU生产厂商为用户提供了大部分GPU产品的频率调节接口,为GPU降频提供了条件。
发明内容
本发明要解决的技术问题在于:针对温度过高情况下GPU故障率高的问题,提出一种通过调节GPU频率来降低GPU故障率的方法,使用户在不需要了解GPU频率实时变化细节的情况下,实现对GPU频率的自适应调节,从而有效降低GPU故障率,提高程序的正确率。
为了解决上述技术问题,本发明的技术方案为:对待测GPU建立GPU频率级别表,表项包括GPU核心频率、GPU显存频率、平均无故障时间、GPU温度阈值四项内容。表项编号代表GPU频率级别,表项的个数代表可调频的总级数。GPU频率级别表用于在进行GPU频率调节过程中选择合适的GPU核心频率、GPU显存频率。在程序执行过程中,由GPU实时温度监控器全程跟踪并记录GPU芯片温度变化情况,每隔固定时间(称为频率调节间隔时间)根据当前GPU的平均温度和温度阈值之间的关系判断是否实施调频,GPU核心频率和显存频率严格对应表项中的值进行设置,完成程序运行过程中自适应的GPU频率调节。
具体技术方案为:
第一步、构造GPU频率级别表。GPU频率级别表包括M组值,代表GPU有M级可调频的取值,M为正整数,满足5≤M≤10,过多的频率调节级别会导致频率调节过于频繁,造成GPU不稳定。每组值包括四项内容:GPU核心频率fcore(i)、GPU显存频率fmem(i)、平均无故障时间MTBF(i)(Mean Time Between Failure)、GPU温度阈值Tup(i),其中i为GPU频率级别表项的编号,i=1...M。编号数字越高代表GPU频率级别越高,往i递增的方向调节频率级别称为“GPU频率往上调节一级”,反之称为“GPU频率往下调节一级”。根据应用所需达到的平均无故障时间查找GPU频率级别表,获得该平均无故障时间对应的表项,记录下此项的GPU核心频率、GPU显存频率和GPU温度阈值。用户程序运行过程中,根据实测的GPU平均温度,对照GPU频率级别表中同一级别的GPU温度阈值,决定是否调节及如何调节GPU频率。GPU频率级别表的每项内容建立过程如下:
1.1设置GPU频率级别数为M,依据GPU规格说明书,将GPU可正常工作的最高核心频率设置为第M组GPU核心频率,将GPU可正常工作的最低核心频率设置为第1组GPU核心频率。根据第1组和第M组GPU核心频率,设置等间隔的第2,3,...,M-1级GPU核心频率值。再依据GPU规格说明书中规定的GPU核心频率和显存频率的对应关系,设置1,2,3,...,M级GPU显存频率值;
1.2针对每组GPU核心频率和显存频率值,用衡量计算机性能的国际标准测试程序HPLinpack(High Performance Linpack)测试GPU的平均无故障时间和GPU温度阈值,得到每组GPU核心频率和显存频率值对应的GPU平均无故障时间和GPU温度阈值,填入GPU频率级别表中。平均无故障时间指GPU执行用户程序从一次故障到下一次故障的平均时间,单位是秒。故障包括GPU死机或者HPLinpack测试结果错。GPU温度阈值指GPU正常工作的上限温度值,GPU温度阈值设置为用户程序持续运行至GPU出现故障时的温度值,该温度值应采取保守设置方法,取所有故障条件下的最低温度,以确保在该温度值下GPU可正常工作。
第二步、根据用户程序要求的平均无故障时间,在GPU频率级别表中选择对应的项I,I为当前选择的频率级别,1≤I≤M。将GPU核心频率设置为GPU频率级别表中第I项对应的GPU核心频率fcore(I),将GPU显存频率设置为GPU频率级别表中第I项对应的GPU显存频率fmem(I),记下GPU频率级别表中第I项对应的GPU温度阈值Tup(I)。
第三步、启动用户程序运行,同时启动GPU实时温度监控器全程监控并记录GPU温度,采样间隔时间为tinterval,取值范围为5~10秒,持续5~10秒的高温极易导致GPU出错。
第四步、判断用户程序是否执行完毕,是,则执行第十一步;否则执行第五步;
第六步、如果满足说明当前GPU的温度并没有超过当前频率级别的温度阈值,执行第八步;否则,执行第七步;
第七步、此时满足说明GPU的温度已超过当前频率级别的温度阈值,需启动频率调节方案,将GPU频率往下调低一级,同时将处理结果记录在日志文件中,具体步骤如下:
7.2如果I为最低级别,执行步骤7.5;否则,执行步骤7.3;
7.3将当前的频率级别I减1,即I=I-1;
7.5在日志文件的当前项的调频情况一项中填写“当前已为最低频率级别,无需调频”,执行第四步;
第九步、启动频率调节方案,将GPU频率往上调高一级,同时将处理结果记录在日志文件中,具体步骤如下:
9.1将当前的频率级别I增1,即I=I+1;
9.2确定当前频率级别为I,将GPU核心频率和GPU显存频率分别调节至fcore(I)、fmem(I);
9.3在日志文件中添加一项,包括当前系统时间、当前GPU核心频率、GPU显存频率、前一个tinterval时间内的GPU温度平均值和调频情况,调频情况一项中填写“频率成功增高一级”,执行第四步;
第十步、保持当前GPU核心频率和GPU显存频率不变,在日志文件中添加一项,包括当前系统时间、当前GPU核心频率、GPU显存频率、前一个tinterval时间内的GPU温度平均值和调频情况,在调频情况一项中填写“未调频”,执行第四步;
第十一步、本次调频结束,等待下一个用户程序运行实施同样的GPU调频过程。
与现有技术相比,采用本发明可达到以下技术效果:
1.可应用于连续多个用户程序执行过程中的GPU故障率降低,通过动态地GPU频率调节,将GPU平均温度控制在安全的GPU温度阈值范围内,来降低GPU故障率;
2.一方面一旦GPU温度超过阈值,立即降低GPU频率;另一方面仅在长时间未进行频率调节且满足频率调高条件时才考虑调高GPU频率,避免因GPU温度超过阈值导致的隐患,同时又避免了过多次的频率调节而导致的GPU不稳定。
附图说明
图1为本发明的总流程图。
具体实施方式
图1是本发明的总流程图。
步骤1)、构建GPU频率级别表,建立平均无故障时间、GPU温度阈值和GPU频率的对应表;
步骤2)、根据用户程序要求的平均无故障时间,在GPU频率级别表中选择对应的频率级别I,设置GPU的初始工作频率,记录GPU温度阈值Tup(I);
步骤3)、启动用户程序运行,同时启动GPU实时温度监控器,每隔tinterval时间监控并记录GPU温度;
步骤4)、判断用户程序是否执行完毕,是,则执行步骤11);否则执行步骤5);
步骤6)、若执行步骤8);否则,执行步骤7);
步骤7)、GPU频率往下调低一级,执行步骤4);
步骤9)、将GPU频率往上调高一级,执行步骤4);
步骤10)、维持当前GPU的频率,执行步骤4);
步骤11)、本次调频结束,等待下一个用户程序运行实施同样的GPU调频过程。
Claims (5)
1.一种通过调节GPU频率来降低GPU故障率的方法,其特征在于包括以下步骤:
第一步、构造GPU频率级别表,GPU频率级别表包括M组值,代表GPU有M级可调频的取值,M为正整数,每组值包括四项内容:GPU核心频率fcore(i)、GPU显存频率fmem(i)、平均无故障时间MTBF(i)、GPU温度阈值Tup(i),其中i为GPU频率级别表项的编号,i=1...M;编号数字越高代表GPU频率级别越高,往i递增的方向调节频率级别称为“GPU频率往上调节一级”,反之称为“GPU频率往下调节一级”;
第二步、根据用户程序运行要求的平均无故障时间,在GPU频率级别表中选择对应的项I,I为当前选择的频率级别,1≤I≤M,将GPU核心频率设置为GPU频率级别表中第I项对应的GPU核心频率fcore(I),将GPU显存频率设置为GPU频率级别表中第I项对应的GPU显存频率fmem(I),记下GPU频率级别表中第I项对应的GPU温度阈值Tup(I);
第三步、启动用户程序运行,同时启动GPU实时温度监控器全程监控并记录GPU温度,采样间隔时间为tinterval;
第四步、判断用户程序是否执行完毕,是,则执行第十一步;否则执行第五步;
7.1在日志文件中添加一项,包括当前系统时间、当前GPU核心频率、GPU显存频率、前一个tinterval时间内的GPU温度平均值和调频情况,前四项内容此时填写,调频情况在调频后填写;
7.2如果I为最低级别,执行步骤7.5;否则,执行步骤7.3;
7.3将当前的频率级别I减1,即I=I-1;
7.5在日志文件的当前项的调频情况一项中填写“当前已为最低频率级别,无需调频”,执行第四步;
第八步、如果I不是最高级别,满足(I+1)且已有连续L个tinterval时间内未发生频率调节,说明当前GPU频率可调节至I+1级,执行第九步;否则执行第十步;
第九步、启动频率调节方案,将GPU频率往上调高一级,同时将处理结果记录在日志文件中,具体步骤如下:
9.1将当前的频率级别I增1,即I=I+1;
9.2确定当前频率级别为I,将GPU核心频率和GPU显存频率分别调节至fcore(I)、fmem(I);
第十步、保持当前GPU核心频率和GPU显存频率不变,在日志文件中添加一项,包括当前系统时间、当前GPU核心频率、GPU显存频率、前一个tinterval时间内的GPU温度平均值和调频情况,在调频情况一项中填写“未调频”,执行第四步;
第十一步、本次调频结束,等待下一个用户程序运行,实施同样的GPU调频过程。
2.如权利要求1所述的一种通过调节GPU频率来降低GPU故障率的方法,其特征在于所述GPU频率级别表的每项内容建立方法是:
第1步,设置GPU频率级别数为M,依据GPU规格说明书,将GPU可正常工作的最高核心频率设置为第M组GPU核心频率,将GPU可正常工作的最低核心频率设置为第1组GPU核心频率,根据第1组和第M组GPU核心频率,设置等间隔的第2,3,...,M-1级GPU核心频率值,再依据GPU规格说明书中规定的GPU核心频率和显存频率的对应关系,设置1,2,3,...,M级GPU显存频率值;
第2步,针对每组GPU核心频率和显存频率值,用衡量计算机性能的国际标准测试程序HPLinpack测试GPU的平均无故障时间和GPU温度阈值,得到每组GPU核心频率和显存频率值对应的GPU平均无故障时间和GPU温度阈值,填入GPU频率级别表中;平均无故障时间指GPU执行用户程序从一次故障到下一次故障的平均时间,单位是秒;故障包括GPU死机或者HPLinpack测试结果错;GPU温度阈值指GPU正常工作的上限温度值,GPU温度阈值设置为用户程序持续运行至GPU出现故障时的温度值,该温度值取所有故障条件下的最低温度。
3.如权利要求1或2所述的一种通过调节GPU频率来降低GPU故障率的方法,其特征在于所述M满足5≤M≤10。
4.如权利要求1所述的一种通过调节GPU频率来降低GPU故障率的方法,其特征在于所述L满足10≤L≤20。
5.如权利要求1所述的一种通过调节GPU频率来降低GPU故障率的方法,其特征在于所述tinterval为5~10秒。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102271863A CN101719084B (zh) | 2009-12-11 | 2009-12-11 | 一种通过调节gpu频率来降低gpu故障率的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102271863A CN101719084B (zh) | 2009-12-11 | 2009-12-11 | 一种通过调节gpu频率来降低gpu故障率的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101719084A true CN101719084A (zh) | 2010-06-02 |
CN101719084B CN101719084B (zh) | 2011-06-15 |
Family
ID=42433662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102271863A Expired - Fee Related CN101719084B (zh) | 2009-12-11 | 2009-12-11 | 一种通过调节gpu频率来降低gpu故障率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101719084B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609062A (zh) * | 2012-02-10 | 2012-07-25 | 杭州再灵电子科技有限公司 | 平板电脑的温度控制方法 |
CN105511594A (zh) * | 2016-02-29 | 2016-04-20 | 柏伟伟 | 一种移动终端温度的控制方法及移动终端 |
CN105528045A (zh) * | 2016-02-23 | 2016-04-27 | 海安欣凯富机械科技有限公司 | 计算器组件的散热方法 |
CN105653418A (zh) * | 2014-11-11 | 2016-06-08 | 中兴通讯股份有限公司 | 终端、终端控制方法和终端控制装置 |
CN105988918A (zh) * | 2015-02-26 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 预测gpu故障的方法和装置 |
CN106325325A (zh) * | 2015-06-15 | 2017-01-11 | 联想(北京)有限公司 | 电子设备及控制方法 |
CN109240880A (zh) * | 2018-08-27 | 2019-01-18 | 北京比特大陆科技有限公司 | 一种数字货币挖矿机的控制方法、装置及相关设备 |
CN110308784A (zh) * | 2019-04-30 | 2019-10-08 | 东莞恒创智能科技有限公司 | 基于Nvidia TX2的CPU、GPU联合调频节能优化方法 |
CN111984109A (zh) * | 2020-08-05 | 2020-11-24 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于基板管理控制器的中央处理器调频方法、系统及介质 |
CN113129203A (zh) * | 2019-12-31 | 2021-07-16 | 技嘉科技股份有限公司 | 图形处理系统以及效能调整方法 |
CN113722136A (zh) * | 2021-08-11 | 2021-11-30 | 浪潮(山东)计算机科技有限公司 | 一种服务器故障处理方法、系统、电子设备及存储介质 |
CN115981448A (zh) * | 2022-12-23 | 2023-04-18 | 摩尔线程智能科技(北京)有限责任公司 | Gpu的功耗控制方法、装置、设备、介质和程序产品 |
CN116301095A (zh) * | 2022-12-23 | 2023-06-23 | 摩尔线程智能科技(北京)有限责任公司 | Gpu的温度控制方法、装置、设备、介质和程序产品 |
CN117193502A (zh) * | 2023-11-06 | 2023-12-08 | 惠州市鑫晖源科技有限公司 | 基于机器学习的电竞主机电源状态分析方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7444551B1 (en) * | 2002-12-16 | 2008-10-28 | Nvidia Corporation | Method and apparatus for system status monitoring, testing and restoration |
US7750956B2 (en) * | 2005-11-09 | 2010-07-06 | Nvidia Corporation | Using a graphics processing unit to correct video and audio data |
-
2009
- 2009-12-11 CN CN2009102271863A patent/CN101719084B/zh not_active Expired - Fee Related
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609062A (zh) * | 2012-02-10 | 2012-07-25 | 杭州再灵电子科技有限公司 | 平板电脑的温度控制方法 |
CN105653418A (zh) * | 2014-11-11 | 2016-06-08 | 中兴通讯股份有限公司 | 终端、终端控制方法和终端控制装置 |
CN105988918A (zh) * | 2015-02-26 | 2016-10-05 | 阿里巴巴集团控股有限公司 | 预测gpu故障的方法和装置 |
CN105988918B (zh) * | 2015-02-26 | 2019-03-08 | 阿里巴巴集团控股有限公司 | 预测gpu故障的方法和装置 |
CN106325325A (zh) * | 2015-06-15 | 2017-01-11 | 联想(北京)有限公司 | 电子设备及控制方法 |
CN105528045A (zh) * | 2016-02-23 | 2016-04-27 | 海安欣凯富机械科技有限公司 | 计算器组件的散热方法 |
CN105511594A (zh) * | 2016-02-29 | 2016-04-20 | 柏伟伟 | 一种移动终端温度的控制方法及移动终端 |
CN109240880A (zh) * | 2018-08-27 | 2019-01-18 | 北京比特大陆科技有限公司 | 一种数字货币挖矿机的控制方法、装置及相关设备 |
CN110308784A (zh) * | 2019-04-30 | 2019-10-08 | 东莞恒创智能科技有限公司 | 基于Nvidia TX2的CPU、GPU联合调频节能优化方法 |
CN113129203A (zh) * | 2019-12-31 | 2021-07-16 | 技嘉科技股份有限公司 | 图形处理系统以及效能调整方法 |
CN111984109A (zh) * | 2020-08-05 | 2020-11-24 | 华东计算技术研究所(中国电子科技集团公司第三十二研究所) | 基于基板管理控制器的中央处理器调频方法、系统及介质 |
CN113722136A (zh) * | 2021-08-11 | 2021-11-30 | 浪潮(山东)计算机科技有限公司 | 一种服务器故障处理方法、系统、电子设备及存储介质 |
CN115981448A (zh) * | 2022-12-23 | 2023-04-18 | 摩尔线程智能科技(北京)有限责任公司 | Gpu的功耗控制方法、装置、设备、介质和程序产品 |
CN116301095A (zh) * | 2022-12-23 | 2023-06-23 | 摩尔线程智能科技(北京)有限责任公司 | Gpu的温度控制方法、装置、设备、介质和程序产品 |
CN116301095B (zh) * | 2022-12-23 | 2024-03-19 | 摩尔线程智能科技(北京)有限责任公司 | Gpu的温度控制方法、装置、设备、介质和程序产品 |
CN117193502A (zh) * | 2023-11-06 | 2023-12-08 | 惠州市鑫晖源科技有限公司 | 基于机器学习的电竞主机电源状态分析方法 |
CN117193502B (zh) * | 2023-11-06 | 2024-03-26 | 惠州市鑫晖源科技有限公司 | 基于机器学习的电竞主机电源状态分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101719084B (zh) | 2011-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101719084B (zh) | 一种通过调节gpu频率来降低gpu故障率的方法 | |
US8504680B1 (en) | Automatically adjusting polling intervals based on remote administrative activity | |
US10313207B2 (en) | Method for testing cloud streaming server, and apparatus and system therefor | |
US20070265804A1 (en) | Power generation performance analysis system and method | |
US8670971B2 (en) | Datacenter workload evaluation | |
EP3521973A1 (en) | Methods, systems and apparatus to manage power consumption of a graphics engine | |
GB2479268A (en) | Affinitizing media application to execute on a multi-core processor | |
CN104536902A (zh) | 一种测试服务器io子系统的性能调优方法 | |
CN107959635A (zh) | 一种基于令牌桶算法的iops控制方法及装置 | |
US8880792B2 (en) | Memory watch | |
JP6024448B2 (ja) | 情報処理プログラム、情報処理方法及び装置 | |
US10565023B2 (en) | Outage detection and compute resource protection in a computer service environment | |
WO2016204876A1 (en) | Virtual machine management method and apparatus including idling and scheduling of virtual processors | |
US20130144587A1 (en) | Scalability evaluation device, scalability evaluation method, and scalability evaluation program | |
CN115712549A (zh) | 性能评估方法、设备及存储介质 | |
CN109032503B (zh) | 一种固态硬盘数据迁移带宽的流控方法及装置 | |
JP2019500682A (ja) | マルチコアプロセッサの操作方法 | |
CN114116206A (zh) | 一种云资源的管理方法、装置及计算机存储介质 | |
CN112306199A (zh) | 温度调整方法、装置、移动终端及存储介质 | |
CN114510134A (zh) | 一种调节单板风扇方法、装置及存储介质 | |
JP7038629B2 (ja) | 機器状態監視装置及びプログラム | |
JP2022011579A (ja) | 運用管理装置及び運用管理方法 | |
CN104850496A (zh) | 一种面向低延迟应用的rhel服务器调优方法 | |
CN110347546B (zh) | 监控任务动态调整方法、装置、介质及电子设备 | |
CN115512671A (zh) | 一种液晶显示屏息屏自动校正方法、系统、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110615 Termination date: 20151211 |
|
EXPY | Termination of patent right or utility model |