CN111858453B - 一种gpu板 - Google Patents

一种gpu板 Download PDF

Info

Publication number
CN111858453B
CN111858453B CN202010606962.7A CN202010606962A CN111858453B CN 111858453 B CN111858453 B CN 111858453B CN 202010606962 A CN202010606962 A CN 202010606962A CN 111858453 B CN111858453 B CN 111858453B
Authority
CN
China
Prior art keywords
gpu
signal
chip
buffer
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010606962.7A
Other languages
English (en)
Other versions
CN111858453A (zh
Inventor
刘海亮
程鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010606962.7A priority Critical patent/CN111858453B/zh
Publication of CN111858453A publication Critical patent/CN111858453A/zh
Application granted granted Critical
Publication of CN111858453B publication Critical patent/CN111858453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/161Computing infrastructure, e.g. computer clusters, blade chassis or hardware partitioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/18Packaging or power distribution
    • G06F1/183Internal mounting support structures, e.g. for printed circuit boards, internal connecting means

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Power Engineering (AREA)
  • Human Computer Interaction (AREA)
  • Power Sources (AREA)

Abstract

本发明提出了一种GPU板,包括VR模块、若干GPU和若干buffer芯片。VR模块的PWRGD信号通过第一buffer芯片的电压转换输出第一GPU上电使能信号;第一GPU上电使能信号作为第二buffer芯片的输入信号;第一GPU在位检测信号作为第二buffer芯片的上电使能信号;输出第二GPU上电使能信号;如果第一GPU在位,则上电,第二GPU上电使能信号有效;如果第一GPU不在位,则跳过第一GPU,第二GPU上电使能信号有效;直至所有在位的GPU上电完成。本发明在节省CPLD同时,实现了错峰上电、任意在位板卡正常上电。使用BMC管理GPU的边带信号,响应速度快,提高了BMC的资源利用率。

Description

一种GPU板
技术领域
本发明属于GPU板设计技术领域,特别涉及一种GPU板。
背景技术
随着大数据、人工智能的发展,互联网客户对GPU计算资源的需求越来越多,传统服务器搭配GPU Box的硬件系统架构得到越来越广泛的应用。因此,一种用来承载GPU并与计算节点互联的GPU板得到越来越多的应用。当前,主流的GPU板是作为单独的节点来设计的,这样可以承载更多的GPU,满足客户大数据的计算需求,因此通常都有BMC实现带外管理功能。同时由于GPU上电时序及边带信号管理等需求,又加入了CPLD单元,来控制节点上电并管理GPU。但不同于CPU的是,GPU模块上电时序简单,只需要在板卡电ready后,向GPU发送Power Enable(PWREN)信号,待GPU返回Power Good(PWRGD)信号,再等待100ms后使能其PCIe Reset(PERST_N)信号即可。额外增加CPLD来控制这个时序,造成了一定的浪费。
当前的GPU板设计,通常使用BMC+CPLD的架构,BMC用来带外管理,CPLD实现GPU的上电控制并监控关键的边带信号,可以支持GPU错峰上电,在开发阶段安装任意数量GPU也能正常开机,不会因为GPU不全而上电失败,灵活性较强。同时也有少量产品采用BMC单独控制节点上电时序,以节省CPLD成本。现有技术,使用BMC+CPLD的设计方法,灵活性较强,但BMC和CPLD本身有大量GPIO资源使用不到,成本也更高,造成了很大的资源浪费。使用BMC控制节点上电的方法,由于BMC自带系统,上电后需要等一段时间才能Active,即上电后无法立即开机,非常不方便。同时BMC作为带外管理单元,一旦出现问题,整个GPU节点都有掉电的风险,不够安全,同时失去了BMC带外管理的优势。
发明内容
为了解决上述技术问题,本发明提出了一种GPU板,不需要使用CPLD,能够实现带CPLD的GPU板同等的上电控制效果。
为实现上述目的,本发明采用以下技术方案:
一种GPU板,包括VR模块、若干GPU和若干buffer芯片;
所述VR模块的VR_PWRGD信号通过第一buffer芯片的电压转换输出第一GPU上电使能信号;
所述第一GPU上电使能信号作为第二buffer芯片的输入信号;第一GPU在位检测信号PRSNT_N作为第二buffer芯片的上电使能信号;所述第二buffer芯片输出第二GPU上电使能信号;
如果第一GPU在位,则第一GPU上电,且第二GPU上电使能信号有效;如果第一GPU不在位,则跳过第一GPU,且第二GPU上电使能信号有效;直至所有在位的GPU上电完成。
进一步的,所述GPU板的core内核上电采用逐级上电。
进一步的,如果最后一个GPU的PWRGD信号有效,则所述PWRGD信号通过第N buffer芯片的电压转换输出GPU_PWR_OK信号。
进一步的,如果所有GPU均不在位,则所述第一GPU上电使能信号通过第N-1buffer芯片的电压转换输出GPU_PWR_OK信号。
进一步的,在所述GPU_PWR_OK信号有效后,延时时间T后,使所有GPU的在位检测信号PRSNT_N置于无效,并经过1转多的buffer芯片,发送给每个GPU。
进一步的,所述延时时间T为100ms。
进一步的,所述GPU板的边带信号通过GPIO信号由BMC管理。
进一步的,所述BMC还通过I2C和Expander芯片与GPU板的边带信号通信。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明提出了一种GPU板,包括VR模块、若干GPU和若干buffer芯片。VR模块的VR_PWRGD信号通过第一buffer芯片的电压转换输出第一GPU上电使能信号;第一GPU上电使能信号作为第二buffer芯片的输入信号;第一GPU在位检测信号PRSNT_N作为第二buffer芯片的上电使能信号;第二buffer芯片输出第二GPU上电使能信号;如果第一GPU在位,则第一GPU上电,且第二GPU上电使能信号有效;如果第一GPU不在位,则跳过第一GPU,且第二GPU上电使能信号有效;直至所有在位的GPU上电完成。以完成错峰上电。如果最后一个GPU的PWRGD信号有效,则PWRGD信号通过第N buffer芯片的电压转换输出GPU_PWR_OK信号。如果所有GPU均不在位,则第一GPU上电使能信号通过第N-1buffer芯片的电压转换输出GPU_PWR_OK信号。在GPU_PWR_OK信号有效后,延时时间T后,使所有GPU的在位检测信号PRSNT_N置于无效,并经过1转多的buffer芯片,发送给每个GPU。本发明在节省CPLD的同时,实现了与带CPLD的GPU板同等的上电控制功能:GPU错峰上电、任意GPU在位板卡正常上电工作。所用逻辑芯片相比CPLD非常廉价,降低了板卡的成本。使用BMC管理GPU的边带信号,不再经过CPLD汇总处理,响应速度更快,同时提高了BMC的资源利用率,避免了不必要的浪费;节省了CPLD Firmware开发带来的成本,能够避免CPLD Firmware异常导致的上电失败、监控失效等问题,提高了可靠性。本发明在保证板卡上电灵活性和基本功能的同时,降低了板卡的制作成本,提高了公司的产品竞争力。
附图说明
如图1为本发明实施例1提出的GPU板电源上电控制逻辑框图;
如图2为本发明实施例1提出的GPU板上电时序控制电路拓扑图;
如图3为本发明实施例1提出的BMC管理GPU边带信号框图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
实施例1
本发明实施例1提出了提出了一种GPU板,其中GPU(Graphics Processing UnitBoard)图形处理器板。包括VR模块、若干GPU和若干buffer芯片。VR模块的VR_PWRGD信号通过第一buffer芯片的电压转换输出第一GPU上电使能信号;第一GPU上电使能信号作为第二buffer芯片的输入信号;第一GPU在位检测信号PRSNT_N作为第二buffer芯片的上电使能信号;第二buffer芯片输出第二GPU上电使能信号;如果第一GPU在位,则第一GPU上电,且第二GPU上电使能信号有效;如果第一GPU不在位,则跳过第一GPU,且第二GPU上电使能信号有效;直至所有在位的GPU上电完成。以完成错峰上电。
如果最后一个GPU的PWRGD信号有效,则PWRGD信号通过第N buffer芯片的电压转换输出GPU_PWR_OK信号。如果所有GPU均不在位,则第一GPU上电使能信号通过第N-1buffer芯片的电压转换输出GPU_PWR_OK信号。在GPU_PWR_OK信号有效后,延时时间T后,使所有GPU的在位检测信号PRSNT_N置于无效,并经过1转多的buffer芯片,发送给每个GPU。其中延时时间T为100ms。
另外,GPU板的边带信号通过GPIO信号由BMC管理。BMC还通过I2C和Expander芯片与GPU板的边带信号通信。
GPU板承载的GPU数量一般有多个,以4个GPU为例。本发明保护的结构不局限于实施例1所列举的结构。
如图1给出了GPU板电源上电控制逻辑框图。GPU需要的电12V/54V、3.3V、1.8V为Core电。在GPU节点接通电源后,节点处于Standby状态,Standby电ready。本发明采用逐级上电的方法,完成板卡Core电上电。
如图2为本发明实施例1提出的GPU板上电时序控制电路拓扑图。按照如图1所示,VR_PWRGD有效后,经过Buff0电压转换功能转换成1.8V电平的GPU0_PWREN电压使能信号,此时若GPU0在位则GPU0上电,GPU0上电完成后发出GPU0_PWRGD信号。此时GPU0的在位检测信号GPU0_PRSNT_N为低电平,对应Buff#使能端,GPU0_PWRGD向后传递,生成GPU1的上电使能信号GPU1_PWREN。
若GPU0不在位,则GPUO的在位检测信号GPU0_PRSNT_N为高电平,对应Buff使能,GPU0_PWREN向后传递,生成GPU1的上电使能信号GPU1_PWREN。重复上面的检测过程,可知,若GPU在位则对应PWREN有效,GPU上电;若GPU不在位则向后传递生成下一个GPU的PWREN信号。最终所有在位GPU都能成功上电。在本发明实施例1中,所有GPU都在位时,GPU错峰上电顺序:GPU0->GPU1->GPU2->GPU3。如果其中GPU1不在位,则GPU错峰上电顺序:GPU0->GPU2->GPU3。中间某个GPU不在线,不会影响后面GPU的上电。
最后一个GPU的PWRGD信号有效后,经过Buff2电压转换功能转成3.3V的GPU_PWR_OK信号;若所有GPU都不在位,则G0_PWREN信号最终经过Buff1电压转换功能再转成3.3V的GPU_PWR_OK信号。
根据PCIe协议规范,延时芯片在GPU_PWR_OK信号有效后,延时100ms,然后拉高GPU_PERST_N信号,并经过1转多Buff,发送到每个GPU,至此GPU板上电完成。本发明在节省CPLD的同时,实现了与带CPLD的GPU板同等的上电控制功能:GPU错峰上电、任意GPU在位板卡正常上电工作。所用逻辑芯片相比CPLD非常廉价,降低了板卡的成本。
如图3为本发明实施例1提出的BMC管理GPU边带信号框图。GPU需要管理的边带信号均为GPIO信号,如过热信号Thermtrip、节能信号PWRBRK,以及GPU在位检测信号PRSNT_N,都可以通过BMC来进行监控和管理。若BMC的GPIO资源不够,可以通过I2C和Expander芯片方便扩展得到。本发明使用BMC管理GPU的边带信号,不再经过CPLD汇总处理,响应速度更快,同时提高了BMC的资源利用率,避免了不必要的浪费;节省了CPLD Firmware开发带来的成本,能够避免CPLD Firmware异常导致的上电失败、监控失效等问题,提高了可靠性。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (6)

1.一种GPU板,其特征在于,包括VR模块、多个GPU、多个buffer芯片,其中多个buffer芯片包括第一类buffer芯片、第二类buffer#芯片和第三类buffer芯片;第一类buffer芯片至少包括第一buffer芯片;第二类buffer#芯片至少包括第一buffer#芯片;第三类buffer芯片至少包括Buff0、Buff1和Buff2;
所述VR模块的输出端通过VR_PWRGD信号连接至Buff0的输入端,所述Buff0的输出端和第一GPU的在位检测信号G0_PRSNT_N输入至所述第一buffer芯片;第一buffer芯片用于第一GPU未在位时向后传递第一GPU上电使能信号GPU0_PWREN,生成第二GPU的上电使能信号GPU1_PWREN;第一GPU的输出端通过GPU0_PWRGD信号和第一GPU的在位检测信号G0_PRSNT_N连接至第一buffer#芯片;所述第一buffer#芯片的输出端通过第二GPU的上电使能信号GPU1_PWREN和第二GPU的在位检测信号G1_PRSNT_N输入至Buff1芯片;所述Buff1芯片用于在所有GPU均不在位时输出GPU_PWR_OK信号;第一buffer#芯片用于在第一GPU在位时向后传递GPU0_PWRGD 信号,生成第二GPU的上电使能信号GPU1_PWREN;第二GPU的输出端通过GPU1_PWRGD信号和第二GPU的在位检测信号G1_PRSNT_N连接至Buff2芯片的输入端;所述Buff2芯片用于第二GPU在位时输出GPU_PWR_OK信号;
如果第一GPU在位,则第一GPU上电,且第二GPU上电使能信号有效;如果第一GPU不在位,则跳过第一GPU,且第二GPU上电使能信号有效;直至所有在位的GPU上电完成;具体为:
第一GPU上电完成后发出GPU0_PWRGD信号,此时第一GPU的在位检测信号G0_PRSNT_N为低电平,对应第一buffer#芯片使能端,GPU0_PWRGD向后传递,生成第二GPU的上电使能信号GPU1_PWREN;若第一GPU不在位,则第一GPU的在位检测信号G0_PRSNT_N为高电平,对应第一buffer芯片使能,第一GPU上电使能信号GPU0_PWREN向后传递,生成第二GPU的上电使能信号GPU1_PWREN;最终使所有在位GPU都成功上电。
2.根据权利要求1所述的一种GPU板,其特征在于,所述GPU板的core内核上电采用逐级上电。
3.根据权利要求1所述的一种GPU板,其特征在于,在所述GPU_PWR_OK信号有效后,延时时间T后,使所有GPU的在位检测信号PRSNT_N置于无效,并经过1转多的buffer芯片,发送给每个GPU。
4.根据权利要求3所述的一种GPU板,其特征在于,所述延时时间T为100ms。
5.根据权利要求1所述的一种GPU板,其特征在于,所述GPU板的边带信号通过GPIO信号由BMC管理。
6.根据权利要求5所述的一种GPU板,其特征在于,所述BMC还通过I2C和Expander芯片与GPU板的边带信号通信。
CN202010606962.7A 2020-06-29 2020-06-29 一种gpu板 Active CN111858453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010606962.7A CN111858453B (zh) 2020-06-29 2020-06-29 一种gpu板

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010606962.7A CN111858453B (zh) 2020-06-29 2020-06-29 一种gpu板

Publications (2)

Publication Number Publication Date
CN111858453A CN111858453A (zh) 2020-10-30
CN111858453B true CN111858453B (zh) 2022-07-29

Family

ID=72988148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010606962.7A Active CN111858453B (zh) 2020-06-29 2020-06-29 一种gpu板

Country Status (1)

Country Link
CN (1) CN111858453B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114578935B (zh) * 2022-01-14 2023-07-18 苏州浪潮智能科技有限公司 一种用于服务器板卡的供电控制系统和方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940587A (zh) * 2017-03-10 2017-07-11 郑州云海信息技术有限公司 一种基于OpenPower平台的内存板上电方法及结构
CN107133119A (zh) * 2017-05-02 2017-09-05 郑州云海信息技术有限公司 一种通过cpld实现硬件看门狗功能的方法
CN111290557A (zh) * 2020-01-19 2020-06-16 苏州浪潮智能科技有限公司 一种基于oam规范的gpu上电时序控制方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106940587A (zh) * 2017-03-10 2017-07-11 郑州云海信息技术有限公司 一种基于OpenPower平台的内存板上电方法及结构
CN107133119A (zh) * 2017-05-02 2017-09-05 郑州云海信息技术有限公司 一种通过cpld实现硬件看门狗功能的方法
CN111290557A (zh) * 2020-01-19 2020-06-16 苏州浪潮智能科技有限公司 一种基于oam规范的gpu上电时序控制方法及系统

Also Published As

Publication number Publication date
CN111858453A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
US11385985B2 (en) Server power consumption management method and device
CN111767244B (zh) 基于国产龙芯平台的双冗余计算机设备
US7433763B2 (en) Power management logic that reconfigures a load when a power supply fails
CN111367392B (zh) 一种动态电源管理系统
CN115686872B (zh) 基于bmc的内存资源处理设备、方法、装置及介质
CN113204510B (zh) 一种服务器管理架构和服务器
CN107908583B (zh) 一种服务器用功耗管理板
US7734953B1 (en) Redundant power solution for computer system expansion cards
CN111858453B (zh) 一种gpu板
CN113177019B (zh) 一种switch板和服务器
US11349965B1 (en) Self-describing cable
CN110855581B (zh) 适用于vpx架构的40g和srio复用的国产交换刀片装置
CN111737183A (zh) 一种服务器及一种i2c总线的通信故障处理方法和系统
CN115237849B (zh) 可动态重构和异构的计算模块及计算装置
CN214278888U (zh) 一种分布式通信总线系统复位电路
CN113849355A (zh) I2c速率自适应调整方法、系统、终端及存储介质
CN103186223B (zh) 计算机装置及外接子板的侦测方法
US11409686B1 (en) Systems and methods for floating paddle card enablement
CN115509333A (zh) 一种服务器协同上下电装置、方法、系统及介质
CN115237684A (zh) 一种多节点服务器的供电系统和数据中心
CN107731260A (zh) 一种ssd的供电方法、系统及ssd
CN113687706A (zh) 一种自动调整ncsi是否开启的装置和方法
CN109976490B (zh) 电源控制方法及电子设备
CN112732627B (zh) 一种ocp装置和服务器
CN219758827U (zh) 计算模块及计算装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant