CN112988517A - 一种基于bmc的gpu掉卡监控方法 - Google Patents

一种基于bmc的gpu掉卡监控方法 Download PDF

Info

Publication number
CN112988517A
CN112988517A CN202110322723.3A CN202110322723A CN112988517A CN 112988517 A CN112988517 A CN 112988517A CN 202110322723 A CN202110322723 A CN 202110322723A CN 112988517 A CN112988517 A CN 112988517A
Authority
CN
China
Prior art keywords
gpu
bmc
card
monitoring method
state information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110322723.3A
Other languages
English (en)
Inventor
彭继阳
王万强
王成威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Yingxin Computer Technology Co Ltd
Original Assignee
Shandong Yingxin Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Yingxin Computer Technology Co Ltd filed Critical Shandong Yingxin Computer Technology Co Ltd
Priority to CN202110322723.3A priority Critical patent/CN112988517A/zh
Publication of CN112988517A publication Critical patent/CN112988517A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3031Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a motherboard or an expansion card
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/325Display of status information by lamps or LED's
    • G06F11/326Display of status information by lamps or LED's for error or online/offline status
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种基于BMC的GPU掉卡监控方法,包括:BMC建立对GPU的轮询检测;BMC通过直接查询和BIOS上报两种方式分别获取GPU的在位状态信息;BMC对比两种方式分别获取的在位状态信息;BMC根据对比结果判断GPU是否掉卡:若是,则触发掉卡管理事件。本发明直接通过BMC完成监控,无需额外添加检测设备和串口工具,从而监控实时GPU的掉电情况,大大提高了服务器对GPU的管理能力,为服务器的稳定运行提供保障。

Description

一种基于BMC的GPU掉卡监控方法
技术领域
本发明属于GPU管理技术领域,具体涉及名称替一种基于BMC的GPU掉卡监控方法。
背景技术
随着云计算、大数据、人工智能的广泛应用,对服务器的计算能力提出了更高的挑战,尤其是在针对图像进行计算处理方面,GPU作为服务器的外围核心处理单元,掌握图像计算和处理的重要功能,在工作过程中必须与CPU进行实时交互,故关于GPU掉电的监控和上报极其重要,但是服务器空间有限,若格外添加检测设备则会造成空间拥挤和成本上升。
发明内容
针对现有技术的上述不足,本发明提供一种基于BMC的GPU掉卡监控方法,以解决上述技术问题。
第一方面,本发明提供一种基于BMC的GPU掉卡监控方法,包括:
BMC建立对GPU的轮询检测;
BMC通过直接查询和BIOS上报两种方式分别获取GPU的在位状态信息;
BMC对比两种方式分别获取的在位状态信息;
BMC根据对比结果判断GPU是否掉卡:若是,则触发掉卡管理事件。
进一步的,所述在位状态信息包括在位数量。
进一步的,所述BMC通过直接查询和BIOS上报两种方式分别获取GPU的在位状态信息,包括:
BMC向GPU的可编程器件发送命令,得到直接获取的GPU的在位数量;
BMC从PCIE的资产信息中获取到BIOS上报的GPU的在位数量。
进一步的,所述BMC根据对比结果判断GPU是否掉卡:若是,则触发掉卡管理事件,包括:
判断所述直接获取的GPU的在位数量是否大于BIOS上报的GPU的在位数量:若是,则判断GPU掉卡。
进一步的,所述掉卡管理事件包括:在BMC日志上记录GPU掉卡,并同时点亮GPU的状态指示灯。
进一步的,所述方法还包括:
当服务器系统重启或关机时,BMC停止掉卡管理事件,并启动新一轮的掉卡检测。
进一步的,所述方法还包括:
设置轮询检测的时间间隔,BMC按照设定的时间间隔执行两种方式获取GPU的在位状态信息。
进一步的,所述可编程器件为FPGA。
本发明的有益效果在于,
本发明提供的一种基于BMC的GPU掉卡监控方法,直接通过BMC完成监控,无需额外添加检测设备和串口工具,BMC将直接命令获取的GPU的在位状态信息和BIOS上报的在位状态信息进行对比,从而监控实时GPU的掉电情况,大大提高了服务器对GPU的管理能力,为服务器的稳定运行提供保障。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面对本发明中出现的关键术语进行解释。
BMC:Baseboard Management Controller,基板管理控制器。
BIOS:Basic Input Output System,基本输入输出系统。
GPU:Graphics Processing Unit,图形处理单元。
FPGA:Field Programmable Gate Array,现场可编程门阵列。
图1是本发明一个实施例的方法的示意性流程图。
如图1所示,该方法包括:
步骤110,BMC建立对GPU的轮询检测;
步骤120,BMC通过直接查询和BIOS上报两种方式分别获取GPU的在位状态信息;
步骤130,BMC对比两种方式分别获取的在位状态信息;
步骤140,BMC根据对比结果判断GPU是否掉卡:若是,则触发掉卡管理事件。
具体的,所述一种基于BMC的GPU掉卡监控方法包括:
1、建立BMC针对GPU的状态信息轮询检测,设置轮询检测的时间间隔针对每个GPU设置根据轮询任务,根据GPU的重要性设置轮询任务的优先级,实现轮询检测的合理调度,在本实施例中,每轮检测之间间隔0.5秒,有利于本方法对多个GPU内进行自动执行;
2、BMC通过直接查询和BIOS上报两种方式分别获取GPU的在位状态信息,在本实施例汇总,在本实施例汇总,在位状态信息取在位数量,即通过GPU的在位数量进行掉电的判断;
3、BMC获取GPU的在位状态信息包括通过直接查询和BIOS上报两种方式,其中,BMC向GPU的可编程器件发送命令,得到直接获取的GPU的在位数量;在本实施中,可编程器件为FPGA,BMC通过给GPU板的FPGA芯片发送读取命令,获取到当前GPU的第一在位数量N1,无需安装GPU驱动和其他设备BMC直接读取GPU的信息;BMC从PCIE的资产信息中获取到BIOS上报的GPU的在位数量,在本领域,通常BMC无法直接与BIOS进行交互,一般是BIOS的开机POST信息通过I2C总线传输至PCIE的资产信息中,BMC通过I2C总线连接读取PCIE的资产信息中的信息,所以在本实施例中,BMC从PCIE的资产信息中获取到BIOS POST完成后上报给BMC的GPU的第二在位数量N2;
4、进入对比验证阶段,预设掉电判断的条件,所述预设条件可以修改,判断所述直接获取的GPU的在位数量是否大于BIOS上报的GPU的在位数量:若是,则判断GPU掉卡;在本实施例中,BMC对比N1和N2的大小,当N1>N2时,则判断为GPU掉卡,并在BMC日志上记录GPU掉卡,并同时点亮GPU的状态指示灯;
5、当服务器系统重启或关机时,GPU掉卡问题解决,控制状态灯灭,并启动新一轮的掉卡检测,从而实现轮询检测,保证BMC对GPU监控的实时性。
此外,BMC作为服务器的监控系统,其自身的web界面也可以用来显示GPU的掉电情况,充分利用BMC的功能完成本方法,提高BMC的利用率,进而提高服务器产品的竞争力。
本实施例直接通过BMC完成监控,无需额外添加检测设备和串口工具,BMC将直接命令获取的GPU的在位状态信息和BIOS上报的在位状态信息进行对比,从而监控实时GPU的掉电情况,大大提高了服务器对GPU的管理能力,为服务器的稳定运行提供保障。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (8)

1.一种基于BMC的GPU掉卡监控方法,其特征在于,包括:
BMC建立对GPU的轮询检测;
BMC通过直接查询和BIOS上报两种方式分别获取GPU的在位状态信息;
BMC对比两种方式分别获取的在位状态信息;
BMC根据对比结果判断GPU是否掉卡:若是,则触发掉卡管理事件。
2.根据权利要求1所述的基于BMC的GPU掉卡监控方法,其特征在于,所述在位状态信息包括在位数量。
3.根据权利要求2所述的基于BMC的GPU掉卡监控方法,其特征在于,所述BMC通过直接查询和BIOS上报两种方式获取GPU的在位状态信息,包括:
BMC向GPU的可编程器件发送命令,得到直接获取的GPU的在位数量;
BMC从PCIE的资产信息中获取到BIOS上报的GPU的在位数量。
4.根据权利要求3所述的基于BMC的GPU掉卡监控方法,其特征在于,所述BMC根据对比结果判断GPU是否掉卡:若是,则触发掉卡管理事件,包括:
判断所述直接获取的GPU的在位数量是否大于BIOS上报的GPU的在位数量:若是,则判断GPU掉卡。
5.根据权利要求1所述的基于BMC的GPU掉卡监控方法,其特征在于,所述掉卡管理事件包括:在BMC日志上记录GPU掉卡,并同时点亮GPU的状态指示灯。
6.根据权利要求1所述的基于BMC的GPU掉卡监控方法,其特征在于,所述方法还包括:
当服务器系统重启或关机时,BMC停止掉卡管理事件,并启动新一轮的掉卡检测。
7.根据权利要求1所述的基于BMC的GPU掉卡监控方法,其特征在于,所述方法还包括:
设置轮询检测的时间间隔,BMC按照设定的时间间隔执行两种方式获取GPU的在位状态信息。
8.根据权利要求3所述的基于BMC的GPU掉卡监控方法,其特征在于,所述可编程器件为FPGA。
CN202110322723.3A 2021-03-26 2021-03-26 一种基于bmc的gpu掉卡监控方法 Pending CN112988517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110322723.3A CN112988517A (zh) 2021-03-26 2021-03-26 一种基于bmc的gpu掉卡监控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110322723.3A CN112988517A (zh) 2021-03-26 2021-03-26 一种基于bmc的gpu掉卡监控方法

Publications (1)

Publication Number Publication Date
CN112988517A true CN112988517A (zh) 2021-06-18

Family

ID=76333734

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110322723.3A Pending CN112988517A (zh) 2021-03-26 2021-03-26 一种基于bmc的gpu掉卡监控方法

Country Status (1)

Country Link
CN (1) CN112988517A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349127A (zh) * 2023-12-05 2024-01-05 苏州元脑智能科技有限公司 Gpu掉卡检测方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111886A (zh) * 2014-06-25 2014-10-22 曙光信息产业(北京)有限公司 一种兼容不同gpu的管理系统及其设计方法
CN105302755A (zh) * 2014-06-27 2016-02-03 曙光信息产业(北京)有限公司 一种具有监控功能的pcie板卡及其监控方法
CN108319539A (zh) * 2018-02-28 2018-07-24 郑州云海信息技术有限公司 一种生成gpu卡槽位信息的方法及系统
CN110502399A (zh) * 2019-08-23 2019-11-26 广东浪潮大数据研究有限公司 故障检测方法及装置
CN111367764A (zh) * 2020-03-06 2020-07-03 苏州浪潮智能科技有限公司 一种pcie监控方法、系统、设备及计算机存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111886A (zh) * 2014-06-25 2014-10-22 曙光信息产业(北京)有限公司 一种兼容不同gpu的管理系统及其设计方法
CN105302755A (zh) * 2014-06-27 2016-02-03 曙光信息产业(北京)有限公司 一种具有监控功能的pcie板卡及其监控方法
CN108319539A (zh) * 2018-02-28 2018-07-24 郑州云海信息技术有限公司 一种生成gpu卡槽位信息的方法及系统
CN110502399A (zh) * 2019-08-23 2019-11-26 广东浪潮大数据研究有限公司 故障检测方法及装置
CN111367764A (zh) * 2020-03-06 2020-07-03 苏州浪潮智能科技有限公司 一种pcie监控方法、系统、设备及计算机存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117349127A (zh) * 2023-12-05 2024-01-05 苏州元脑智能科技有限公司 Gpu掉卡检测方法及装置
CN117349127B (zh) * 2023-12-05 2024-02-23 苏州元脑智能科技有限公司 Gpu掉卡检测方法及装置

Similar Documents

Publication Publication Date Title
CN108874624B (zh) 服务器、监控Java进程的方法及存储介质
US20160261455A1 (en) Automatic debug information collection
CN112286709B (zh) 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
JP6602354B2 (ja) バスハング検出
WO2023115999A1 (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN106817243A (zh) 服务器资源的管理系统及其管理方法
CN111966189B (zh) 一种灵活配置的多计算节点服务器主板结构和程序
WO2021190659A1 (zh) 系统的数据获取方法、装置、介质及电子设备
CN115658420A (zh) 数据库监控方法及系统
CN117573455B (zh) 一种pcie设备检测系统、方法、装置及产品
CN104834584A (zh) 一种监测主机硬件负载的方法和系统
CN112988517A (zh) 一种基于bmc的gpu掉卡监控方法
CN115878356A (zh) 磁盘故障预测方法及装置
CN116340053A (zh) 系统崩溃的日志处理方法、装置、计算机设备和介质
CN113992602B (zh) 一种电缆监测数据上传方法、装置、设备以及存储介质
CN109582505B (zh) 一种bios选项默认值的恢复系统、方法及装置
CN110704228A (zh) 一种固态硬盘异常处理方法及系统
CN116820827A (zh) 一种节点服务器的基板管理控制器的控制方法及其系统
CN113325940A (zh) 智能设备的功耗管控方法、系统、终端及存储介质
CN116010156B (zh) 异常处理系统
CN115981956A (zh) Spdk服务进程监控方法、装置、设备、存储介质和程序产品
CN115934616A (zh) 串口信息保存方法、装置、服务器、电子设备和存储介质
CN112261010B (zh) 一种特种设备多协议转换系统、终端及可读存储介质
CN114201363A (zh) 系统保护方法、装置、设备及存储介质
CN110647435A (zh) 服务器、硬盘远程控制方法及控制组件

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination