CN111400136A

CN111400136A - 服务器专用的gpu故障保护装置、方法、设备及介质

Info

Publication number: CN111400136A
Application number: CN202010176196.5A
Authority: CN
Inventors: 李昌嵩
Original assignee: Inspur Power Commercial Systems Co Ltd
Current assignee: Inspur Power Commercial Systems Co Ltd
Priority date: 2020-03-13
Filing date: 2020-03-13
Publication date: 2020-07-10

Abstract

本申请公开了一种服务器专用的GPU故障保护装置、方法、设备及介质，包括：监控管理模块，用于接收GPU的在位信号，当检测到某个GPU发生故障时，将故障信息发送至CPLD模块的寄存器，并控制服务器关机并重启，还用于向可控开关电路发送相应的开关控制信号；CPLD模块，用于在重启时，控制各个模块相关的上电时序；可控开关电路，用于通过不同的配置电阻配置OCP的设置参数；电源模块，用于向对应的GPU供电。这样通过设置的各个模块的相互作用来保护GPU和服务器，确保GPU故障时，可以通过监控管理模块及时能够做出相应的应对，解决电源过流保护无法正常工作的问题，确保GPU及主板不会进一步损坏，具有可靠性和安全性。

Description

服务器专用的GPU故障保护装置、方法、设备及介质

技术领域

本发明涉及服务器技术领域，特别是涉及一种服务器专用的GPU故障保护装置、方法、设备及介质。

背景技术

目前，服务器中经常会配置图形处理器(Graphics Processing Unit，GPU)来进行图形化计算，企业级服务器所对应的企业级GPU价格昂贵，现有的情况下，在装有GPU设备的服务器正常工作时，监控管理芯片会监控GPU在位状态，当GPU发生故障时，监控管理芯片会告知GPU设备丢失，并不会做相关的处理，同时GPU的供电依旧会持续，这种处理方式有一定的风险，一旦GPU设备出现短路或者电子元器件损坏等问题时，电源供电电流会超过正常值，从而引起GPU故障进而导致服务器故障。

同时，在服务器主板的设计中，会对为GPU供电的电源模块设置过流保护(Overcurrent protection，OCP)保护参数。当前的主板设计，这个OCP保护的参数是固定的，并不会随着设备的增减而变化，但是设置这个保护参数时，应该考虑到GPU满配的情况。当多个GPU插入主板时，单个故障的GPU不断电的话，会影响电流OCP参数，比如4个GPU的正常工作电流约为300A，相关的OCP保护参数的设置应该为440A左右。但是当一个GPU故障时，这种情况下，即使板卡发生过流问题，也不会达到OCP参数的设置的值，电源模块的保护功能也不会被触发，从而导致板卡的损坏。

因此，如何解决当单个GPU故障时，主板仍会对其供电，从而可能引起GPU过流故障，以及服务器的OCP功能随着单个GPU故障失效的问题，是本领域技术人员亟待解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种服务器专用的GPU故障保护装置、方法、设备及介质，可以在GPU故障时，确保GPU以及主板不会进一步的损坏，具有更高的可靠性和安全性。其具体方案如下：

一种服务器专用的GPU故障保护装置，包括：监控管理模块，分别与所述监控管理模块电性连接的CPLD模块和具有多个不同的配置电阻的可控开关电路，以及与所述可控开关电路电性连接的电源模块；其中，

所述监控管理模块，用于接收GPU的在位信号，当检测到某个GPU发生故障时，将故障信息发送至所述CPLD模块的寄存器，并控制服务器关机并重启，还用于向所述可控开关电路发送相应的开关控制信号；

所述CPLD模块，用于在读取到自身寄存器中的信息后，在所述服务器重启时，控制各个模块相关的上电时序，以阻止故障GPU的上电；

所述可控开关电路，用于根据接收的所述开关控制信号，通过不同的配置电阻来配置OCP的设置参数；

所述电源模块，用于根据配置的所述OCP的设置参数，向对应的GPU供电。

优选地，在本发明实施例提供的上述服务器专用的GPU故障保护装置中，所述监控管理模块，具体用于在检测到GPU在位数量减少后，向所述可控开关电路发送相应的开关控制信号以改变OCP的设置参数，同时熄灭故障GPU的在位指示灯，以通知工程师故障GPU的位置。

优选地，在本发明实施例提供的上述服务器专用的GPU故障保护装置中，还包括：与所述监控管理模块电性连接的Flash芯片；

所述监控管理模块，具体还用于将所述故障信息记录到Flash芯片的寄存器中；

所述Flash芯片，用于存储所述故障信息。

优选地，在本发明实施例提供的上述服务器专用的GPU故障保护装置中，所述Flash芯片通过SPI信号与所述监控管理模块通信。

优选地，在本发明实施例提供的上述服务器专用的GPU故障保护装置中，所述CPLD模块通过I2C与所述监控管理模块通信。

本发明实施例还提供了一种服务器专用的GPU故障保护方法，包括：

监控管理模块接收GPU的在位信号，当检测到某个GPU发生故障时，将故障信息发送至CPLD模块的寄存器，并控制服务器关机并重启；

所述CPLD模块在读取到自身寄存器中的信息后，在所述服务器重启时，控制各个模块相关的上电时序，以阻止故障GPU的上电；

所述监控管理模块向可控开关电路发送相应的开关控制信号；

所述可控开关电路根据接收的所述开关控制信号，通过不同的配置电阻来配置OCP的设置参数；

电源模块根据配置的所述OCP的设置参数，向对应的GPU供电。

优选地，在本发明实施例提供的上述服务器专用的GPU故障保护方法中，所述监控管理模块向可控开关电路发送相应的开关控制信号，包括：

所述监控管理模块在检测到GPU在位数量减少后，向所述可控开关电路发送相应的开关控制信号以改变OCP的设置参数，同时熄灭故障GPU的在位指示灯，以通知工程师故障GPU的位置。

优选地，在本发明实施例提供的上述服务器专用的GPU故障保护方法中，在所述将故障信息发送至CPLD模块的寄存器之前，还包括：

所述监控管理模块将所述故障信息记录到Flash芯片的寄存器中；

所述Flash芯片存储所述故障信息。

本发明实施例还提供了一种服务器专用的GPU故障保护设备，包括处理器和存储器，其中，所述处理器执行所述存储器中保存的计算机程序时实现如本发明实施例提供的上述服务器专用的GPU故障保护方法。

本发明实施例还提供了一种计算机可读存储介质，用于存储计算机程序，其中，所述计算机程序被处理器执行时实现如本发明实施例提供的上述服务器专用的GPU故障保护方法。

从上述技术方案可以看出，本发明所提供的一种服务器专用的GPU故障保护装置、方法、设备及介质，包括：监控管理模块，分别与监控管理模块电性连接的CPLD模块和具有多个不同的配置电阻的可控开关电路，以及与可控开关电路电性连接的电源模块；其中，监控管理模块，用于接收GPU的在位信号，当检测到某个GPU发生故障时，将故障信息发送至CPLD模块的寄存器，并控制服务器关机并重启，还用于向可控开关电路发送相应的开关控制信号；CPLD模块，用于在读取到自身寄存器中的信息后，在服务器重启时，控制各个模块相关的上电时序，以阻止故障GPU的上电；可控开关电路，用于根据接收的开关控制信号，通过不同的配置电阻来配置OCP的设置参数；电源模块，用于根据配置的OCP的设置参数，向对应的GPU供电。

本发明针对现有的监控管理模块对故障GPU不作处理造成的风险加以处理，通过设置的监控管理模块、可控开关电路、电源模块和CPLD的相互作用来保护GPU和服务器，处理GPU故障问题，确保GPU故障时，可以通过监控管理模块及时能够做出相应的应对，同时可控开关电路可以保证主板OCP功能实现，解决出现的电源过流保护无法正常工作的问题，进而确保GPU以及主板不会进一步的损坏，具有更高的可靠性和安全性。

附图说明

为了更清楚地说明本发明实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的服务器专用的GPU故障保护装置的结构示意图；

图2为本发明实施例提供的服务器专用的GPU故障保护方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种服务器专用的GPU故障保护装置，如图1所示，包括：监控管理模块1，分别与监控管理模块1电性连接的CPLD模块2和具有多个不同的配置电阻3的可控开关电路4，以及与可控开关电路4电性连接器的电源模块5；其中，

监控管理模块1，用于接收GPU的在位信号，当检测到某个GPU发生故障时，将故障信息发送至CPLD模块2的寄存器，并控制服务器关机并重启，还用于向可控开关电路4发送相应的开关控制信号；

需要说明的是，在服务器中，经常使用多个GPU来进行图形计算，GPU连接到主板后，会点亮GPU的在位指示灯，此时GPU的在位信号会发送至监控管理模块；当服务器GPU正常工作时，监控管理模块1用于监控GPU的运行状态，当有一个GPU出现故障时，监控管理模块用于检测到GPU故障后，把故障信息发送到CPLD的寄存器中，之后控制服务器关机并重启；另外，监控管理模块还用于通过开关控制信号来控制GPU的供电；

CPLD模块2，用于在读取到自身寄存器中的信息后，在服务器重启时，控制各个模块相关的上电时序，以阻止故障GPU的上电；

可控开关电路4，用于根据接收的开关控制信号，通过不同的配置电阻3来配置OCP的设置参数；

电源模块5，用于根据配置的OCP的设置参数，向对应的GPU供电。

在本发明实施例提供的上述服务器专用的GPU故障保护装置中，通过设置的监控管理模块、可控开关电路、电源模块和CPLD的相互作用来保护GPU和服务器，处理GPU故障问题，确保GPU故障时，可以通过监控管理模块及时能够做出相应的应对，同时可控开关电路可以保证主板OCP功能实现，解决出现的电源过流保护无法正常工作的问题，进而确保GPU以及主板不会进一步的损坏，具有更高的可靠性和安全性。

进一步地，在具体实施时，在本发明实施例提供的上述服务器专用的GPU故障保护装置中，监控管理模块，具体可以用于在检测到GPU在位数量减少后，向可控开关电路发送相应的开关控制信号以改变OCP的设置参数，同时熄灭故障GPU的在位指示灯，以通知工程师故障GPU的位置。

可以理解的是，监控管理模块在检测到GPU在位数量少了之后，通过开关控制信号来控制可控开关电路改变OCP参数，确保OCP参数随着GPU使用数量的变化而改变，进一步保证主板OCP功能实现，同时，故障GPU的在位指示灯会熄灭，可以告知工程师故障GPU位置用于及时替换。

在具体实施时，在本发明实施例提供的上述服务器专用的GPU故障保护装置中，如图1所示，还可以包括：与监控管理模块1电性连接的Flash芯片6；监控管理模块1，具体还用于检测到GPU故障后，将故障信息记录到Flash芯片6的寄存器中；Flash芯片6，用于存储故障信息。具体地，监控管理模块1检测到GPU故障后，将它的故障信息记录到Flash芯片6的寄存器中，监控管理芯片1把故障信息记录之后，发送到CPLD模块2的寄存器中，然后控制服务器关机并重启，CPLD模块2在读取到寄存器中的信息之后，在重启时，阻止故障GPU的上电，可以确保GPU不会损坏。

进一步地，在具体实施时，在本发明实施例提供的上述服务器专用的GPU故障保护装置中，如图1所示，Flash芯片6可以通过SPI信号与监控管理模块通信，并存储相关的信息。

另外，在具体实施时，在本发明实施例提供的上述服务器专用的GPU故障保护装置中，如图1所示，CPLD模块可以通过I2C与监控管理模块通信，并控制各个模块相关的上电时序。

基于同一发明构思，本发明实施例还提供了一种服务器专用的GPU故障保护方法，由于该方法解决问题的原理与前述一种服务器专用的GPU故障保护装置相似，因此该方法的实施可以参见服务器专用的GPU故障保护装置的实施，重复之处不再赘述。

在具体实施时，本发明实施例提供的服务器专用的GPU故障保护方法，如图2所示，具体包括以下步骤：

S201、监控管理模块接收GPU的在位信号，当检测到某个GPU发生故障时，将故障信息发送至CPLD模块的寄存器，并控制服务器关机并重启；

S202、CPLD模块在读取到自身寄存器中的信息后，在服务器重启时，控制各个模块相关的上电时序，以阻止故障GPU的上电；

S203、监控管理模块向可控开关电路发送相应的开关控制信号；

S204、可控开关电路根据接收的开关控制信号，通过不同的配置电阻来配置OCP的设置参数；

S205、电源模块根据配置的OCP的设置参数，向对应的GPU供电。

在本发明实施例提供的上述服务器专用的GPU故障保护方法中，可以通过执行上述步骤S201至S205，确保GPU故障时，及时能够做出相应的应对，并且保证主板OCP功能实现，解决出现的电源过流保护无法正常工作的问题，进而确保GPU以及主板不会进一步的损坏，提高可靠性和安全性。

在具体实施时，在本发明实施例提供的上述服务器专用的GPU故障保护方法中，步骤S203监控管理模块向可控开关电路发送相应的开关控制信号，具体可以包括：监控管理模块在检测到GPU在位数量减少后，向可控开关电路发送相应的开关控制信号以改变OCP的设置参数，同时熄灭故障GPU的在位指示灯，以通知工程师故障GPU的位置。

在具体实施时，在本发明实施例提供的上述服务器专用的GPU故障保护方法中，在执行步骤S201中将故障信息发送至CPLD模块的寄存器之前，还可以包括：监控管理模块将故障信息记录到Flash芯片的寄存器中；Flash芯片存储故障信息。

关于上述各个步骤更加具体的工作过程可以参考前述实施例公开的相应内容，在此不再进行赘述。

相应的，本发明实施例还公开了一种服务器专用的GPU故障保护设备，包括处理器和存储器；其中，处理器执行存储器中保存的计算机程序时实现前述实施例公开的服务器专用的GPU故障保护方法。

关于上述方法更加具体的过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

进一步的，本发明还公开了一种计算机可读存储介质，用于存储计算机程序；计算机程序被处理器执行时实现前述公开的服务器专用的GPU故障保护方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的方法、设备、存储介质而言，由于其与实施例公开的装置相对应，所以描述的比较简单，相关之处参见装置部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本发明实施例提供的一种服务器专用的GPU故障保护装置、方法、设备及介质，包括：监控管理模块，分别与监控管理模块电性连接的CPLD模块和具有多个不同的配置电阻的可控开关电路，以及与可控开关电路电性连接的电源模块；其中，监控管理模块，用于接收GPU的在位信号，当检测到某个GPU发生故障时，将故障信息发送至CPLD模块的寄存器，并控制服务器关机并重启，还用于向可控开关电路发送相应的开关控制信号；CPLD模块，用于在读取到自身寄存器中的信息后，在服务器重启时，控制各个模块相关的上电时序，以阻止故障GPU的上电；可控开关电路，用于根据接收的开关控制信号，通过不同的配置电阻来配置OCP的设置参数；电源模块，用于根据配置的OCP的设置参数，向对应的GPU供电。这样通过设置的监控管理模块、可控开关电路、电源模块和CPLD的相互作用来保护GPU和服务器，处理GPU故障问题，确保GPU故障时，可以通过监控管理模块及时能够做出相应的应对，同时可控开关电路可以保证主板OCP功能实现，解决出现的电源过流保护无法正常工作的问题，进而确保GPU以及主板不会进一步的损坏，具有更高的可靠性和安全性。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的服务器专用的GPU故障保护装置、方法、设备及介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种服务器专用的GPU故障保护装置，其特征在于，包括：监控管理模块，分别与所述监控管理模块电性连接的CPLD模块和具有多个不同的配置电阻的可控开关电路，以及与所述可控开关电路电性连接的电源模块；其中，

2.根据权利要求1所述的服务器专用的GPU故障保护装置，其特征在于，所述监控管理模块，具体用于在检测到GPU在位数量减少后，向所述可控开关电路发送相应的开关控制信号以改变OCP的设置参数，同时熄灭故障GPU的在位指示灯，以通知工程师故障GPU的位置。

3.根据权利要求2所述的服务器专用的GPU故障保护装置，其特征在于，还包括：与所述监控管理模块电性连接的Flash芯片；

所述Flash芯片，用于存储所述故障信息。

4.根据权利要求4所述的服务器专用的GPU故障保护装置，其特征在于，所述Flash芯片通过SPI信号与所述监控管理模块通信。

5.根据权利要求1所述的服务器专用的GPU故障保护装置，其特征在于，所述CPLD模块通过I2C与所述监控管理模块通信。

6.一种服务器专用的GPU故障保护方法，其特征在于，包括：

电源模块根据配置的所述OCP的设置参数，向对应的GPU供电。

7.根据权利要求6所述的服务器专用的GPU故障保护方法，其特征在于，所述监控管理模块向可控开关电路发送相应的开关控制信号，包括：

8.根据权利要求7所述的服务器专用的GPU故障保护方法，其特征在于，在所述将故障信息发送至CPLD模块的寄存器之前，还包括：

所述Flash芯片存储所述故障信息。

9.一种服务器专用的GPU故障保护设备，其特征在于，包括处理器和存储器，其中，所述处理器执行所述存储器中保存的计算机程序时实现如权利要求6至8任一项所述的服务器专用的GPU故障保护方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求6至8任一项所述的服务器专用的GPU故障保护方法。