CN111858453B

CN111858453B - 一种gpu板

Info

Publication number: CN111858453B
Application number: CN202010606962.7A
Authority: CN
Inventors: 刘海亮; 程鹏
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2020-06-29
Filing date: 2020-06-29
Publication date: 2022-07-29
Anticipated expiration: 2040-06-29
Also published as: CN111858453A

Abstract

本发明提出了一种GPU板，包括VR模块、若干GPU和若干buffer芯片。VR模块的PWRGD信号通过第一buffer芯片的电压转换输出第一GPU上电使能信号；第一GPU上电使能信号作为第二buffer芯片的输入信号；第一GPU在位检测信号作为第二buffer芯片的上电使能信号；输出第二GPU上电使能信号；如果第一GPU在位，则上电，第二GPU上电使能信号有效；如果第一GPU不在位，则跳过第一GPU，第二GPU上电使能信号有效；直至所有在位的GPU上电完成。本发明在节省CPLD同时，实现了错峰上电、任意在位板卡正常上电。使用BMC管理GPU的边带信号，响应速度快，提高了BMC的资源利用率。

Description

一种GPU板

技术领域

本发明属于GPU板设计技术领域，特别涉及一种GPU板。

背景技术

随着大数据、人工智能的发展，互联网客户对GPU计算资源的需求越来越多，传统服务器搭配GPU Box的硬件系统架构得到越来越广泛的应用。因此，一种用来承载GPU并与计算节点互联的GPU板得到越来越多的应用。当前，主流的GPU板是作为单独的节点来设计的，这样可以承载更多的GPU，满足客户大数据的计算需求，因此通常都有BMC实现带外管理功能。同时由于GPU上电时序及边带信号管理等需求，又加入了CPLD单元，来控制节点上电并管理GPU。但不同于CPU的是，GPU模块上电时序简单，只需要在板卡电ready后，向GPU发送Power Enable(PWREN)信号，待GPU返回Power Good(PWRGD)信号，再等待100ms后使能其PCIe Reset(PERST_N)信号即可。额外增加CPLD来控制这个时序，造成了一定的浪费。

当前的GPU板设计，通常使用BMC+CPLD的架构，BMC用来带外管理，CPLD实现GPU的上电控制并监控关键的边带信号，可以支持GPU错峰上电，在开发阶段安装任意数量GPU也能正常开机，不会因为GPU不全而上电失败，灵活性较强。同时也有少量产品采用BMC单独控制节点上电时序，以节省CPLD成本。现有技术，使用BMC+CPLD的设计方法，灵活性较强，但BMC和CPLD本身有大量GPIO资源使用不到，成本也更高，造成了很大的资源浪费。使用BMC控制节点上电的方法，由于BMC自带系统，上电后需要等一段时间才能Active，即上电后无法立即开机，非常不方便。同时BMC作为带外管理单元，一旦出现问题，整个GPU节点都有掉电的风险，不够安全，同时失去了BMC带外管理的优势。

发明内容

为了解决上述技术问题，本发明提出了一种GPU板，不需要使用CPLD，能够实现带CPLD的GPU板同等的上电控制效果。

为实现上述目的，本发明采用以下技术方案：

一种GPU板，包括VR模块、若干GPU和若干buffer芯片；

所述VR模块的VR_PWRGD信号通过第一buffer芯片的电压转换输出第一GPU上电使能信号；

所述第一GPU上电使能信号作为第二buffer芯片的输入信号；第一GPU在位检测信号PRSNT_N作为第二buffer芯片的上电使能信号；所述第二buffer芯片输出第二GPU上电使能信号；

如果第一GPU在位，则第一GPU上电，且第二GPU上电使能信号有效；如果第一GPU不在位，则跳过第一GPU，且第二GPU上电使能信号有效；直至所有在位的GPU上电完成。

进一步的，所述GPU板的core内核上电采用逐级上电。

进一步的，如果最后一个GPU的PWRGD信号有效，则所述PWRGD信号通过第N buffer芯片的电压转换输出GPU_PWR_OK信号。

进一步的，如果所有GPU均不在位，则所述第一GPU上电使能信号通过第N-1buffer芯片的电压转换输出GPU_PWR_OK信号。

进一步的，在所述GPU_PWR_OK信号有效后，延时时间T后，使所有GPU的在位检测信号PRSNT_N置于无效，并经过1转多的buffer芯片,发送给每个GPU。

进一步的，所述延时时间T为100ms。

进一步的，所述GPU板的边带信号通过GPIO信号由BMC管理。

进一步的，所述BMC还通过I2C和Expander芯片与GPU板的边带信号通信。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

本发明提出了一种GPU板，包括VR模块、若干GPU和若干buffer芯片。VR模块的VR_PWRGD信号通过第一buffer芯片的电压转换输出第一GPU上电使能信号；第一GPU上电使能信号作为第二buffer芯片的输入信号；第一GPU在位检测信号PRSNT_N作为第二buffer芯片的上电使能信号；第二buffer芯片输出第二GPU上电使能信号；如果第一GPU在位，则第一GPU上电，且第二GPU上电使能信号有效；如果第一GPU不在位，则跳过第一GPU，且第二GPU上电使能信号有效；直至所有在位的GPU上电完成。以完成错峰上电。如果最后一个GPU的PWRGD信号有效，则PWRGD信号通过第N buffer芯片的电压转换输出GPU_PWR_OK信号。如果所有GPU均不在位，则第一GPU上电使能信号通过第N-1buffer芯片的电压转换输出GPU_PWR_OK信号。在GPU_PWR_OK信号有效后，延时时间T后，使所有GPU的在位检测信号PRSNT_N置于无效，并经过1转多的buffer芯片,发送给每个GPU。本发明在节省CPLD的同时，实现了与带CPLD的GPU板同等的上电控制功能：GPU错峰上电、任意GPU在位板卡正常上电工作。所用逻辑芯片相比CPLD非常廉价，降低了板卡的成本。使用BMC管理GPU的边带信号，不再经过CPLD汇总处理，响应速度更快，同时提高了BMC的资源利用率，避免了不必要的浪费；节省了CPLD Firmware开发带来的成本，能够避免CPLD Firmware异常导致的上电失败、监控失效等问题，提高了可靠性。本发明在保证板卡上电灵活性和基本功能的同时，降低了板卡的制作成本，提高了公司的产品竞争力。

附图说明

如图1为本发明实施例1提出的GPU板电源上电控制逻辑框图；

如图2为本发明实施例1提出的GPU板上电时序控制电路拓扑图；

如图3为本发明实施例1提出的BMC管理GPU边带信号框图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

实施例1

本发明实施例1提出了提出了一种GPU板，其中GPU(Graphics Processing UnitBoard)图形处理器板。包括VR模块、若干GPU和若干buffer芯片。VR模块的VR_PWRGD信号通过第一buffer芯片的电压转换输出第一GPU上电使能信号；第一GPU上电使能信号作为第二buffer芯片的输入信号；第一GPU在位检测信号PRSNT_N作为第二buffer芯片的上电使能信号；第二buffer芯片输出第二GPU上电使能信号；如果第一GPU在位，则第一GPU上电，且第二GPU上电使能信号有效；如果第一GPU不在位，则跳过第一GPU，且第二GPU上电使能信号有效；直至所有在位的GPU上电完成。以完成错峰上电。

如果最后一个GPU的PWRGD信号有效，则PWRGD信号通过第N buffer芯片的电压转换输出GPU_PWR_OK信号。如果所有GPU均不在位，则第一GPU上电使能信号通过第N-1buffer芯片的电压转换输出GPU_PWR_OK信号。在GPU_PWR_OK信号有效后，延时时间T后，使所有GPU的在位检测信号PRSNT_N置于无效，并经过1转多的buffer芯片,发送给每个GPU。其中延时时间T为100ms。

另外，GPU板的边带信号通过GPIO信号由BMC管理。BMC还通过I2C和Expander芯片与GPU板的边带信号通信。

GPU板承载的GPU数量一般有多个，以4个GPU为例。本发明保护的结构不局限于实施例1所列举的结构。

如图1给出了GPU板电源上电控制逻辑框图。GPU需要的电12V/54V、3.3V、1.8V为Core电。在GPU节点接通电源后，节点处于Standby状态，Standby电ready。本发明采用逐级上电的方法，完成板卡Core电上电。

如图2为本发明实施例1提出的GPU板上电时序控制电路拓扑图。按照如图1所示，VR_PWRGD有效后，经过Buff0电压转换功能转换成1.8V电平的GPU0_PWREN电压使能信号,此时若GPU0在位则GPU0上电，GPU0上电完成后发出GPU0_PWRGD信号。此时GPU0的在位检测信号GPU0_PRSNT_N为低电平，对应Buff#使能端，GPU0_PWRGD向后传递，生成GPU1的上电使能信号GPU1_PWREN。

若GPU0不在位，则GPUO的在位检测信号GPU0_PRSNT_N为高电平，对应Buff使能，GPU0_PWREN向后传递，生成GPU1的上电使能信号GPU1_PWREN。重复上面的检测过程，可知，若GPU在位则对应PWREN有效，GPU上电；若GPU不在位则向后传递生成下一个GPU的PWREN信号。最终所有在位GPU都能成功上电。在本发明实施例1中，所有GPU都在位时，GPU错峰上电顺序：GPU0->GPU1->GPU2->GPU3。如果其中GPU1不在位，则GPU错峰上电顺序：GPU0->GPU2->GPU3。中间某个GPU不在线，不会影响后面GPU的上电。

最后一个GPU的PWRGD信号有效后，经过Buff2电压转换功能转成3.3V的GPU_PWR_OK信号；若所有GPU都不在位，则G0_PWREN信号最终经过Buff1电压转换功能再转成3.3V的GPU_PWR_OK信号。

根据PCIe协议规范，延时芯片在GPU_PWR_OK信号有效后，延时100ms，然后拉高GPU_PERST_N信号，并经过1转多Buff，发送到每个GPU，至此GPU板上电完成。本发明在节省CPLD的同时，实现了与带CPLD的GPU板同等的上电控制功能：GPU错峰上电、任意GPU在位板卡正常上电工作。所用逻辑芯片相比CPLD非常廉价，降低了板卡的成本。

如图3为本发明实施例1提出的BMC管理GPU边带信号框图。GPU需要管理的边带信号均为GPIO信号，如过热信号Thermtrip、节能信号PWRBRK，以及GPU在位检测信号PRSNT_N，都可以通过BMC来进行监控和管理。若BMC的GPIO资源不够，可以通过I2C和Expander芯片方便扩展得到。本发明使用BMC管理GPU的边带信号，不再经过CPLD汇总处理，响应速度更快，同时提高了BMC的资源利用率，避免了不必要的浪费；节省了CPLD Firmware开发带来的成本，能够避免CPLD Firmware异常导致的上电失败、监控失效等问题，提高了可靠性。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制。对于所属领域的技术人员来说，在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种GPU板，其特征在于，包括VR模块、多个GPU、多个buffer芯片，其中多个buffer芯片包括第一类buffer芯片、第二类buffer#芯片和第三类buffer芯片；第一类buffer芯片至少包括第一buffer芯片；第二类buffer#芯片至少包括第一buffer#芯片；第三类buffer芯片至少包括Buff0、Buff1和Buff2；

所述VR模块的输出端通过VR_PWRGD信号连接至Buff0的输入端，所述Buff0的输出端和第一GPU的在位检测信号G0_PRSNT_N输入至所述第一buffer芯片；第一buffer芯片用于第一GPU未在位时向后传递第一GPU上电使能信号GPU0_PWREN，生成第二GPU的上电使能信号GPU1_PWREN；第一GPU的输出端通过GPU0_PWRGD信号和第一GPU的在位检测信号G0_PRSNT_N连接至第一buffer#芯片；所述第一buffer#芯片的输出端通过第二GPU的上电使能信号GPU1_PWREN和第二GPU的在位检测信号G1_PRSNT_N输入至Buff1芯片；所述Buff1芯片用于在所有GPU均不在位时输出GPU_PWR_OK信号；第一buffer#芯片用于在第一GPU在位时向后传递GPU0_PWRGD 信号，生成第二GPU的上电使能信号GPU1_PWREN；第二GPU的输出端通过GPU1_PWRGD信号和第二GPU的在位检测信号G1_PRSNT_N连接至Buff2芯片的输入端；所述Buff2芯片用于第二GPU在位时输出GPU_PWR_OK信号；

如果第一GPU在位，则第一GPU上电，且第二GPU上电使能信号有效；如果第一GPU不在位，则跳过第一GPU，且第二GPU上电使能信号有效；直至所有在位的GPU上电完成；具体为：

第一GPU上电完成后发出GPU0_PWRGD信号，此时第一GPU的在位检测信号G0_PRSNT_N为低电平，对应第一buffer#芯片使能端，GPU0_PWRGD向后传递，生成第二GPU的上电使能信号GPU1_PWREN；若第一GPU不在位，则第一GPU的在位检测信号G0_PRSNT_N为高电平，对应第一buffer芯片使能，第一GPU上电使能信号GPU0_PWREN向后传递，生成第二GPU的上电使能信号GPU1_PWREN；最终使所有在位GPU都成功上电。

2.根据权利要求1所述的一种GPU板，其特征在于，所述GPU板的core内核上电采用逐级上电。

3.根据权利要求1所述的一种GPU板，其特征在于，在所述GPU_PWR_OK信号有效后，延时时间T后，使所有GPU的在位检测信号PRSNT_N置于无效，并经过1转多的buffer芯片,发送给每个GPU。

4.根据权利要求3所述的一种GPU板，其特征在于，所述延时时间T为100ms。

5.根据权利要求1所述的一种GPU板，其特征在于，所述GPU板的边带信号通过GPIO信号由BMC管理。

6.根据权利要求5所述的一种GPU板，其特征在于，所述BMC还通过I2C和Expander芯片与GPU板的边带信号通信。