CN108196999A - 服务器bmc获取gpu温度的方法及装置 - Google Patents

服务器bmc获取gpu温度的方法及装置 Download PDF

Info

Publication number
CN108196999A
CN108196999A CN201810001686.4A CN201810001686A CN108196999A CN 108196999 A CN108196999 A CN 108196999A CN 201810001686 A CN201810001686 A CN 201810001686A CN 108196999 A CN108196999 A CN 108196999A
Authority
CN
China
Prior art keywords
temperature
gpu
nvidia
server
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810001686.4A
Other languages
English (en)
Inventor
钱晓峰
蔡积淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810001686.4A priority Critical patent/CN108196999A/zh
Publication of CN108196999A publication Critical patent/CN108196999A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Cooling Or The Like Of Electrical Apparatus (AREA)

Abstract

本发明实施例公开了服务器BMC获取GPU温度的方法及装置,方法包括调用NVML管理库中的NVIDIA GPU温度传感器函数,获取NVIDIA GPU的温度值;定义NVIDIA GPU的温度属性,将NVIDIA GPU的温度值传递到操作系统的NVIDIA GPU温度属性里;根据服务器BMC IP,利用GPU温度传递函数,将GPU的温度值写入BMC中。本发明解决了NVIDIA厂商不提供技术支持,无法获知GPU温度的问题,使服务器能够获取到GPU的温度,便于对GPU温度的监控,保证系统的安全。

Description

服务器BMC获取GPU温度的方法及装置
技术领域
本发明涉及计算机技术领域,具体地说是服务器BMC获取GPU温度的方法及装置。
背景技术
在云计算时代,随着AI(Artificial Intelligence,人工智能)的发展及演进,需要强大的服务器来进行深度学习、视频编解码、科学计算等多种场景的快速、稳定、弹性的计算服务,采用GPU(Graphics Processing Unit,图形处理器)的服务器应运产生。
现将NVIDIA(图形技术和数字媒体处理器厂商)面向消费级市场的图形显示显卡应用在服务器上,相对于NVIDIA面向于数据中心的计算型GPU,能极大的节省成本,并能满足目前AI场景的应用需求。
然而这种GPU由于NVIDIA产品策略问题,并不面向于服务器市场,厂商不提供相应的技术支持及GPU驱动版本,BMC(Baseboard Management Controller基板管理控制器)并不能读取到GPU的温度,导致无法监控GPU温度的问题。
发明内容
本发明实施例中提供了服务器BMC获取GPU温度的方法,以解决现有技术中BMC无法或值GPU温度的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
本发明第一方面提供了服务器BMC获取GPU温度的方法,该方法包括以下步骤:
调用NVML管理库中的NVIDIA GPU温度传感器函数,获取NVIDIA GPU的温度值;
定义NVIDIA GPU的温度属性,将NVIDIA GPU的温度值传递到操作系统的NVIDIAGPU温度属性里;
根据服务器BMC IP,利用GPU温度传递函数,将GPU的温度值写入BMC中。
结合第一方面,在第一方面第一种可能的实现方式中,所述方法还包括:
BMC将GPU温度发送给服务器管理工具,对GPU温度进行监控与预警。
结合第一方面,在第一方面第二种可能的实现方式中,在调用NVML管理库之前还包括:
检查服务器上Python的版本信息,使Python版本符合要求;
检查操作系统中的带有“NVIDIA”模块的属性值,使其属性值符合要求。
结合第一方面,在第一方面第二种可能的实现方式中,所述检查服务器上Python的版本信息,使Python版本符合要求的具体过程为:
定义环境监测函数,设定Python的环境属性;
访问操作系统中的环境变量,查找环境变量为Python的版本信息;
判定Python版本是否符合设定值,对不符合的Python版本进行升级。
结合第一方面,在第一方面第二种可能的实现方式中,所述检查操作系统中的带有“NVIDIA”模块的属性值,使其属性值符合要求的具体过程为:
定义环境参数函数,设定GPU module的环境属性;
显示系统下载入的模块,查找带有“NVIDIA”属性的模块,判断其属性值是否符合设定要求;
如果不符合设定要求,则更换带有“NVIDIA”属性的模块,直至属性值符合为止。
结合第一方面,在第一方面第三种可能的实现方式中,在调用NVML管理库之前还包括检查NVML管理库的属性值,使NVML管理库的属性值与设定值一致。
结合第一方面,在第一方面第四种可能的实现方式中,根据服务器BMC IP,利用GPU温度传递函数,将GPU的温度值写入BMC中的具体过程为:
设置服务器BMC的IP,建立温度从操作系统至BMC的传送路径;
设置GPU温度传递函数,通过BMC IP坚立通信链接访问BMC;
将GPU的温度写入到BMC中对应GPU温度的寄存器地址里。
本发明第二方面提供了服务器BMC获取GPU温度的装置,所述装置包括
温度获取模块,用于调用NVML管理库中的NVIDIA GPU温度传感器函数,获取NVIDIA GPU的温度值;
第一温度传递模块,用于定义NVIDIA GPU的温度属性,将NVIDIA GPU的温度值传递到操作系统的NVIDIA GPU温度属性里;
第二温度传递模块,用于根据服务器BMC IP,利用GPU温度传递函数,将GPU的温度值写入BMC中。
结合第二方面,在第二方面第一种可能的实现方式中,所述装置还包括温度监控模块,所述温度监控模块用于从BMC获取GPU的温度,并对温度进行监控与预警。
结合第二方面,在第二方面第二种可能的实现方式中,所述装置还包括检查模块,所述检查模块用于检查服务器上的Python版本信息、操作系统中带有“NVIDIA”模块的属性值和NVML管理库的安装是否符合要求。
本发明第二方面的所述网络服务的控制装置能够实现第一方面及第一方面的各实现方式中的方法,并取得相同的效果。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
1、通过NVML管理库中的GPU温度传感器,获取NVIDIA GPU的值,并通过温度传递函数将GPU温度写入服务器BMC中,解决了NVIDIA厂商不提供技术支持,无法获知GPU温度的问题,使服务器能够获取到GPU的温度,便于对GPU温度的监控。
2、服务器BMC将获取到的温度信息发送给服务器管理工具,管理工具对GPU温度进行监控,并在温度超过阈值时进行预警,保证系统安全。
3、在进行GPU温度获取之前,首先检查进行程序脚本编辑的Python版本、带有“NVIDIA”模块的属性值以及NVML管理库是否符合标准,保证后续对GPU温度获取的顺利进行,避免温度获取过程中出现错误,提高工作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明方法的流程示意图;
图2是本发明装置实施例1的结构示意图;
图3是本发明装置实施例2的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
如图1所示,本发明的服务器BMC获取GPU温度的方法,该包括以下步骤:
S1,调用NVML管理库中的NVIDIA GPU温度传感器函数,获取NVIDIA GPU的温度值;
S2,定义NVIDIA GPU的温度属性,将NVIDIA GPU的温度值传递到操作系统的NVIDIA GPU温度属性里;
S3,根据服务器BMC IP,利用GPU温度传递函数,将GPU的温度值写入BMC中。
在上述步骤之前还包括检查服务器上Python的版本信息,使Python版本符合要求;检查操作系统中的带有“NVIDIA”模块的属性值,使其属性值符合要求以及检查NVML管理库的属性值,使NVML(NVIDIA Management Library一个编程接口,用于监控和管理NVIDIA GPU中的各种状态)管理库的属性值与设定值一致的过程。
检查服务器上Python的版本信息,使Python版本符合要求的具体过程为:定义环境监测函数,设定Python的环境属性;访问操作系统中的环境变量,查找环境变量为Python的版本信息;判定Python版本是否符合设定值,对不符合的Python版本进行升级。
检查操作系统中的带有“NVIDIA”模块的属性值,使其属性值符合要求的具体过程为:定义环境参数函数,设定GPU module的环境属性;显示系统下载入的模块,查找带有“NVIDIA”属性的模块,判断其属性值是否符合设定要求;如果不符合设定要求,则更换带有“NVIDIA”属性的模块,直至属性值符合为止。
检查NVML管理库的属性值,使NVML管理库的属性值与设定值一致的具体过程为:定义用户环境监测函数,设定NVML监测属性,通过查找系统环境变量NVML属性值与设定值是否一致判断NVML管理库是否符合要求,在不一致时,对NVML管理库进行更改,使NVML的属性值与设定值一致。
在步骤S1中,NVML管理库的API(Application Programming Interface应用程序编程接口)函数中定义了NVIDIA GPU温度传感器函数,通过调用
nvmlTemperatureSensors_t函数获得NVIDIA GPU的实时温度信息。
步骤S2中,将当前系统上nvidia GPU Module的温度值通过
nvmlTemperatureSensors_t函数传递到在系统下定义的nvidia GPU温度属性里,此时,操作系统已经获取到nvidia GPU Module的温度。
步骤S3中,定义函数将GPU温度通过服务器BMC的IP传递并写入到BMC,至此,服务器BMC已获取到GPU的温度。具体过程为:设置服务器BMC IP,建立温度从操作系统到BMC的传送路径,GPU温度通过此路径传送;设置GPU温度传递函数,通过智能型平台管理接口工具,以管理员身份的方式,通过BMC IP建立通信链接访问BMC,将GPU的温度写入到BMC中对应GPU温度的寄存器地址里。
在步骤S1-S3之后,还包括步骤S4,BMC将GPU温度发送给服务器管理工具,对GPU温度进行监控与预警。
如图2所示,服务器BMC获取GPU温度装置的一个实施例,该装置包括依次连接的温度获取模块1、第一温度传递模块2和第二温度传递模块3。其中温度获取模块1用于调用NVML管理库中的NVIDIA GPU温度传感器函数,获取NVIDIA GPU的温度值;第一温度传递模块2用于定义NVIDIA GPU的温度属性,将NVIDIA GPU的温度值传递到操作系统的NVIDIAGPU温度属性里;第二温度传递模块3用于根据服务器BMC IP,利用GPU温度传递函数,将GPU的温度值写入BMC中。
如图3所示,本发明装置的另一实施例,在上述实施例的基础上,该装置还包括温度检测模块4和检查模块5,温度监控模块4用于从BMC获取GPU的温度,并对温度进行监控与预警,检查模块5用于检查服务器上的Python版本信息、操作系统中带有“NVIDIA”模块的属性值和NVML管理库的安装是否符合要求。
以上所述只是本发明的优选实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也被视为本发明的保护范围。

Claims (10)

1.服务器BMC获取GPU温度的方法,其特征是:包括以下步骤:
调用NVML管理库中的NVIDIA GPU温度传感器函数,获取NVIDIA GPU的温度值;
定义NVIDIA GPU的温度属性,将NVIDIA GPU的温度值传递到操作系统的NVIDIA GPU温度属性里;
根据服务器BMC IP,利用GPU温度传递函数,将GPU的温度值写入BMC中。
2.根据权利要求1所述的方法,其特征是:所述方法还包括:
BMC将GPU温度发送给服务器管理工具,对GPU温度进行监控与预警。
3.根据权利要求1或2所述的方法,其特征是:在调用NVML管理库之前还包括:
检查服务器上Python的版本信息,使Python版本符合要求;
检查操作系统中的带有“NVIDIA”模块的属性值,使其属性值符合要求。
4.根据权利要求3所述的方法,其特征是:所述检查服务器上Python的版本信息,使Python版本符合要求的具体过程为:
定义环境监测函数,设定Python的环境属性;
访问操作系统中的环境变量,查找环境变量为Python的版本信息;
判定Python版本是否符合设定值,对不符合的Python版本进行升级。
5.根据权利要求3所述的方法,其特征是:所述检查操作系统中的带有“NVIDIA”模块的属性值,使其属性值符合要求的具体过程为:
定义环境参数函数,设定GPU module的环境属性;
显示系统下载入的模块,查找带有“NVIDIA”属性的模块,判断其属性值是否符合设定要求;
如果不符合设定要求,则更换带有“NVIDIA”属性的模块,直至属性值符合为止。
6.根据权利要求1或2所述的方法,其特征是:在调用NVML管理库之前还包括检查NVML管理库的属性值,使NVML管理库的属性值与设定值一致。
7.根据权利要求1或2所述的方法,其特征是:根据服务器BMC IP,利用GPU温度传递函数,将GPU的温度值写入BMC中的具体过程为:
设置服务器BMC的IP,建立温度从操作系统至BMC的传送路径;
设置GPU温度传递函数,通过BMC IP坚立通信链接访问BMC;
将GPU的温度写入到BMC中对应GPU温度的寄存器地址里。
8.服务器BMC获取GPU温度的装置,其特征是:所述装置包括
温度获取模块,用于调用NVML管理库中的NVIDIA GPU温度传感器函数,获取NVIDIAGPU的温度值;
第一温度传递模块,用于定义NVIDIA GPU的温度属性,将NVIDIA GPU的温度值传递到操作系统的NVIDIA GPU温度属性里;
第二温度传递模块,用于根据服务器BMC IP,利用GPU温度传递函数,将GPU的温度值写入BMC中。
9.根据权利要求8所述的装置,其特征是:所述装置还包括温度监控模块,所述温度监控模块用于从BMC获取GPU的温度,并对温度进行监控与预警。
10.根据权利要求8或9所述的装置,其特征是:所述装置还包括检查模块,所述检查模块用于检查服务器上的Python版本信息、操作系统中带有“NVIDIA”模块的属性值和NVML管理库的安装是否符合要求。
CN201810001686.4A 2018-01-02 2018-01-02 服务器bmc获取gpu温度的方法及装置 Pending CN108196999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810001686.4A CN108196999A (zh) 2018-01-02 2018-01-02 服务器bmc获取gpu温度的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810001686.4A CN108196999A (zh) 2018-01-02 2018-01-02 服务器bmc获取gpu温度的方法及装置

Publications (1)

Publication Number Publication Date
CN108196999A true CN108196999A (zh) 2018-06-22

Family

ID=62588187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810001686.4A Pending CN108196999A (zh) 2018-01-02 2018-01-02 服务器bmc获取gpu温度的方法及装置

Country Status (1)

Country Link
CN (1) CN108196999A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110703828A (zh) * 2019-09-25 2020-01-17 苏州浪潮智能科技有限公司 一种基于bmc的温度侦测方法、系统及装置
EP3627283A1 (en) * 2018-09-21 2020-03-25 Quanta Computer Inc Fan speed control via pcie topology
CN114035662A (zh) * 2021-10-15 2022-02-11 苏州浪潮智能科技有限公司 Ai服务器散热调控方法、系统、终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110040A (zh) * 2011-01-27 2011-06-29 浪潮电子信息产业股份有限公司 Bmc根据不同功率cpu来调整cpu报警温度的方法
CN102521109A (zh) * 2011-12-31 2012-06-27 曙光信息产业股份有限公司 服务器状态监测方法
CN103970663A (zh) * 2014-05-22 2014-08-06 浪潮电子信息产业股份有限公司 一种模拟物理设备的方法
CN104899109A (zh) * 2015-05-06 2015-09-09 深圳市国鑫恒宇科技有限公司 一种操作系统下获取cpu温度的方法
CN107015897A (zh) * 2017-04-26 2017-08-04 贵州省广播电视信息网络股份有限公司 一种用于机顶盒cpu温度采集的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110040A (zh) * 2011-01-27 2011-06-29 浪潮电子信息产业股份有限公司 Bmc根据不同功率cpu来调整cpu报警温度的方法
CN102521109A (zh) * 2011-12-31 2012-06-27 曙光信息产业股份有限公司 服务器状态监测方法
CN103970663A (zh) * 2014-05-22 2014-08-06 浪潮电子信息产业股份有限公司 一种模拟物理设备的方法
CN104899109A (zh) * 2015-05-06 2015-09-09 深圳市国鑫恒宇科技有限公司 一种操作系统下获取cpu温度的方法
CN107015897A (zh) * 2017-04-26 2017-08-04 贵州省广播电视信息网络股份有限公司 一种用于机顶盒cpu温度采集的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
撷峰: "使用云监控实现GPU云服务器的GPU监控和报警(上)-自定义监控", 《HTTPS://YQ.ALIYUN.COM/ARTICLES/280792?SPM=A2C41.11140002.0.0》 *
斐波那契的数字: "从nvidia-smi说起", 《HTTPS://WWW.JIANSHU.COM/P/5B7926516A88》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3627283A1 (en) * 2018-09-21 2020-03-25 Quanta Computer Inc Fan speed control via pcie topology
CN110941313A (zh) * 2018-09-21 2020-03-31 广达电脑股份有限公司 控制风扇转速的方法、服务器系统及计算机可读储存介质
JP2020053032A (ja) * 2018-09-21 2020-04-02 廣達電腦股▲ふん▼有限公司Quanta Computer Inc. Pcieトポロジによるファン速度制御
US10776304B2 (en) 2018-09-21 2020-09-15 Quanta Computer Inc. Fan speed control via PCIE topology
CN110941313B (zh) * 2018-09-21 2022-03-15 广达电脑股份有限公司 控制风扇转速的方法、服务器系统及计算机可读储存介质
CN110703828A (zh) * 2019-09-25 2020-01-17 苏州浪潮智能科技有限公司 一种基于bmc的温度侦测方法、系统及装置
CN114035662A (zh) * 2021-10-15 2022-02-11 苏州浪潮智能科技有限公司 Ai服务器散热调控方法、系统、终端及存储介质
CN114035662B (zh) * 2021-10-15 2023-07-14 苏州浪潮智能科技有限公司 Ai服务器散热调控方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
CN111967236B (zh) 消息处理方法、装置、计算机设备和存储介质
CN110020323A (zh) 混合应用的页面切换方法、框架、计算机设备及存储介质
CN108196999A (zh) 服务器bmc获取gpu温度的方法及装置
CN111695827B (zh) 业务流程的管理方法、装置、电子设备及存储介质
US20210226871A1 (en) Cluster management method, apparatus and system
CN111552506A (zh) 业务规则配置方法、装置及存储介质
CN111786823A (zh) 基于分布式服务的故障模拟方法及装置
CN111010429A (zh) 一种基于物联网平台管理设备运行状态的方法及系统
CN113849356B (zh) 一种设备测试方法、装置、电子设备和存储介质
CN112085019A (zh) 字符识别模型生成系统、方法、装置和计算机设备
CN105959174A (zh) 一种智能设备平台的测试方法和装置
CN117294833A (zh) 摄像头芯片的测试方法及相关设备
CN116401109A (zh) 一种机箱管理系统控制方法、装置、介质
CN114034972B (zh) 基于图像数据的智能电缆故障确定方法和装置
CN114610446A (zh) 一种自动注入探针的方法、装置及系统
CN112306723B (zh) 一种应用于小程序的运行信息获取方法和装置
CN109144788B (zh) 一种重建osd的方法、装置及系统
CN113760307A (zh) 获取应用代码的差异化覆盖率的方法和装置
CN104657152A (zh) 数据传输管理方法以及电子设备
CN113138793B (zh) 一种应用资源打包过程监控方法、装置、设备和介质
CN114415877B (zh) 多窗口交互方法、装置、设备和存储介质
CN116483495A (zh) 显示控制方法、装置、电子设备及计算机可读存储介质
CN110019535B (zh) 数据库管理方法、装置、存储介质及计算机设备
CN115941744A (zh) 一种集中管控平台的远程控制系统
CN115373998A (zh) 应用程序优化方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180622

RJ01 Rejection of invention patent application after publication