CN117971029B - 一种服务器系统和服务器 - Google Patents

一种服务器系统和服务器 Download PDF

Info

Publication number
CN117971029B
CN117971029B CN202410345623.6A CN202410345623A CN117971029B CN 117971029 B CN117971029 B CN 117971029B CN 202410345623 A CN202410345623 A CN 202410345623A CN 117971029 B CN117971029 B CN 117971029B
Authority
CN
China
Prior art keywords
cpld
power
expansion board
ocsp
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410345623.6A
Other languages
English (en)
Other versions
CN117971029A (zh
Inventor
邱多
何立权
尹吉达
林韦成
万大炎
俞跃渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Enginetech Tianjin computer Co ltd
Original Assignee
Enginetech Tianjin computer Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enginetech Tianjin computer Co ltd filed Critical Enginetech Tianjin computer Co ltd
Priority to CN202410345623.6A priority Critical patent/CN117971029B/zh
Publication of CN117971029A publication Critical patent/CN117971029A/zh
Application granted granted Critical
Publication of CN117971029B publication Critical patent/CN117971029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Power Sources (AREA)

Abstract

本申请提供一种服务器系统和服务器。本申请提供的服务器系统,包括OCSP主板、用于给OCSP主板供电的第一电源组件、GPU扩展板和用于给GPU扩展板供电的第二电源组件;其中,OCSP主板包括第一CPLD、以及与第一CPLD电连接的多个第一外部接口;GPU扩展板包括第二CPLD、以及与第二CPLD电连接的多个第二外部接口;多个第一外部接口中的指定第一外部接口与多个第二外部接口中的指定第二外部接口连接;第一CPLD在接收到上电信号时,向第二CPLD发送上电使能信号;第二CPLD在接收到上电使能信号时,控制GPU扩展板上电,并在GPU扩展板完成上电时,向第一CPLD返回用于通知完成上电的第一通知信息;第一CPLD在接收到第一通知信息时,控制OCSP主板上电。

Description

一种服务器系统和服务器
技术领域
本申请涉及服务器技术领域,尤其涉及一种服务器系统和服务器。
背景技术
由于在服务器系统中添加扩展板,可有效提升系统性能并增加功能。因此,当前的服务器系统在主板基础上引入了扩展板。而主板和扩展板的供电是独立分开的。扩展板作为服务器系统中的末端节点,PCIe链路状态先于作为根端口的主板,根据PCIe规范,末端节点的链路状态需要早于根端口的链路状态,换言之,未端节点的电源状态需要早于根端口稳定。
目前,通过手动的方法先给扩展板上电,然后再给主板上电,这样,存在上电失败的风险。因此,亟需一种方法,实现主板和扩展板的协同上电。
发明内容
有鉴于此,本申请提供一种服务器系统和服务器,用以实现主板和扩展板的协同上电、并降低上电失败的风险。
具体地,本申请是通过如下技术方案实现的:
本申请第一方面提供一种服务器系统,所述服务器系统包括OCSP主板、用于给所述OCSP主板供电的第一电源组件、GPU扩展板和用于给所述GPU扩展板供电的第二电源组件;其中,
所述OCSP主板包括第一CPLD、以及与所述第一CPLD电连接的多个第一外部接口;
所述GPU扩展板包括第二CPLD、以及与所述第二CPLD电连接的多个第二外部接口;
所述多个第一外部接口中的指定第一外部接口与所述多个第二外部接口中的指定第二外部接口连接;
所述第一CPLD,用于在接收到上电信号时,向所述第二CPLD发送上电使能信号;
所述第二CPLD,用于在接收到所述上电使能信号时,控制所述GPU扩展板上电;
所述第二CPLD,还用于在所述GPU扩展板完成上电时,向所述第一CPLD返回用于通知完成上电的第一通知信息;
所述第一CPLD,还用于在接收到所述第一通知信息时,控制所述OCSP主板上电。
本申请第二方面提供一种服务器系统,所述服务器系统包括OCSP主板、用于给所述OCSP主板供电的第一电源组件、GPU扩展板和用于给所述GPU扩展板供电的第二电源组件;其中,
所述OCSP主板包括第一BMC、与所述第一BMC电连接的第一CPLD、以及与所述第一BMC电连接的多个第一外部接口;
所述GPU扩展板包括第二BMC、与所述第二BMC电连接的第二CPLD、以及与所述第二BMC电连接的多个第二外部接口;
所述多个第一外部接口中的指定第一外部接口与所述多个第二外部接口中的指定第二外部接口连接;
所述第一BMC,用于在接收到上电信号时,将所述上电信号通知给所述第二BMC;
所述第二BMC,用于在接收到所述上电信号时,将所述上电信号通知给所述第二CPLD;
所述第二CPLD,用于在接收到所述上电信号时,控制所述GPU扩展板上电;
所述第二CPLD,还用于在所述GPU扩展板完成上电时,通过所述第二BMC和所述第一BMC向所述第一CPLD发送用于通知完成上电的第一通知信息;
所述第一CPLD,还用于在接收到所述第一通知信息时,控制所述OCSP主板上电。
本申请第三方面提供一种服务器,所述服务器包括本申请第一方面或第二方面提供的任一项所述的服务器系统。
本申请提供的服务器系统和服务器,可以实现OCSP主板和扩展板的协同上下电,避免了手动上下电存在的不确定因素,可降低导致上下电失败的风险。此外,本实施例提供的服务器系统,可以适用于现场运维和远程运维,应用性较广。
附图说明
图1为本申请提供的服务器系统实施例一的结构示意图;
图2为本申请一示例性实施例示出的协同上电的控制时序图;
图3为本申请一示例性实施例示出的协同下电的控制时序图;
图4为本申请一示例性实施例示出的服务器系统的结构示意图;
图5为本申请提供的服务器系统实施例二的结构示意图;
图6为本申请一示例性实施例示出的协同上电的控制时序图;
图7为本申请一示例性实施例示出的协同下电的控制时序图;
图8为本申请提供的服务器系统实施例三的结构示意图;
图9为本申请一示例性实施例示出的GPU扩展板的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
下面给出具体的实施例,用以详细介绍本申请的技术方案。
图1为本申请提供的服务器系统实施例一的结构示意图。请参照图1,本实施例提供的服务器系统,所述服务器系统包括OCSP主板、用于给所述OCSP主板供电的第一电源组件、GPU扩展板和用于给所述GPU扩展板供电的第二电源组件;其中,
所述OCSP主板包括第一CPLD、以及与所述第一CPLD电连接的多个第一外部接口;
所述GPU扩展板包括第二CPLD、以及与所述第二CPLD电连接的多个第二外部接口;
所述多个第一外部接口中的指定第一外部接口与所述多个第二外部接口中的指定第二外部接口连接;
所述第一CPLD,用于在接收到上电信号时,向所述第二CPLD发送上电使能信号;
所述第二CPLD,用于在接收到所述上电使能信号时,控制所述GPU扩展板上电;
所述第二CPLD,还用于在所述GPU扩展板完成上电时,向所述第一CPLD返回用于通知完成上电的第一通知信息;
所述第一CPLD,还用于在接收到所述第一通知信息时,控制所述OCSP主板上电。
需要说明的是,服务器系统作为一个整体对外实现业务,OCSP主板作为对外业务的通信接口,所有远程带外运维和现场运维操作都是直接对OCSP主板进行操作,GPU扩展板协同响应。
具体的,请参照图1,服务器系统包括OCSP(Open Common Server Platform,开放式通用服务器平台,简称OCSP)主板、第一电源组件、GPU(Graphics Processing Unit,图像处理器,简称GPU)扩展板和第二电源组件。其中,第一电源组件与OCSP主板连接,以给OCSP主板提供电源。第二电源组件与GPU扩展板连接,以给GPU扩展板提供电源。
需要说明的是,第一电源组件可以包括电源背板和电源模块。第二电源组件与第一电源组件的结构相同,此处不再赘述。
进一步的,请继续参照图1,OCSP主板包括第一CPLD(Complex ProgrammableLogic Device,复杂可编程逻辑器件,简称CPLD)和多个第一外部接口,其中,所述第一CPLD与所述多个第一外部接口电连接。同样的,GPU扩展板包括第二CPLD和多个第二外部接口,其中,所述第二CPLD与所述多个第二外部接口电连接。
进一步的,指定第一外部接口和指定第二外部接口是根据实际需要设定的,本实施例中,不对此进行限定。例如,请参照图1,在图1所示示例中,多个第一外部接口中的指定第一外部接口为从上往下的第一个外部接口,多个第二外部接口中的指定第二外部接口为从上往下的第三个外部接口。
下面结合图1来介绍OCSP主板与GPU扩展板协同上电的原理:
具体的,图2为本申请一示例性实施例示出的协同上电的控制时序图。请同时参照图1和图2,具体实现时,第一CPLD,用于在接收到上电信号时,向第二CPLD发送上电使能信号。
具体的,上电信号用于指示对OCSP主板与GPU扩展板进行上电,上电使能信号用于通知第二CPLD对GPU扩展板进行上电。
具体实现时,在一种可能的实现方式中,上电信号可以是通过电源按钮触发的上电信号,例如,在现场运维时,可通过按下电源按钮来触发上电信号。需要说明的是,当电源按钮被按下后,主板上的南桥芯片或CPU(图2以南桥芯片为例进行说明)检测到电源按钮的状态变化,并产生相应的上电信号;进一步的,南桥芯片在产生上电信号后,将上电信号发送给第一CPLD,第一CPLD接收到上电信号后,通过指定第一外部接口和指定第二外部接口,向第二CPLD发送上电使能信号,以指示第二CPLD控制GPU扩展板上电。
此外,上电信号可以来自外部设备,该上电信号到达OCSP主板上的BMC(BaseboardManagement Controller,基板管理控制器)后,BMC可以将其发送给第一CPLD。例如,在远程运维时,可以通过外部设备触发上电信号。
进一步的,当第二CPLD接收到第一CPLD发送的上电使能信号后,控制GPU扩展板上电。需要说明的是,GPU扩展板上有多个功能板,每个功能板通过一个电压调节器与第二电源组件连接,每个电压调节器与第二CPLD连接。具体实现时,参照图2,在控制GPU扩展板上电时,第二CPLD可以向电压调节器发送控制信号,以控制电压调节器的导通,使得相应的功能板上电。
进一步的,参照图2,电压调节器可以向第二CPLD返回反馈信号,其通过反馈信号反馈其导通情况,第二CPLD可基于反馈信号确定GPU扩展板是否完成上电。
进一步的,当GPU扩展板完成上电后,第二CPLD会向第一CPLD发送第一通知信息,以向第一CPLD通知GPU扩展板已经完成上电。进一步的,在GPU扩展板完成上电后,OCSP主板就可以上电了。换言之,当OCSP主板上的第一CPLD接收到第二CPLD发送的第一通知信息后,确定GPU扩展板完成上电,此时,其控制OCSP主板上电,这样,即可实现GPU扩展板先上电,OCSP主板后上电,两者协同上电的目的。
可以理解的是,OCSP主板上也有多个功能板,每个功能板通过一个电压调节器与第一电源组件连接,每个电压调节器与第一CPLD连接。具体实现时,参照图2,在控制OCSP主板上电时,第一CPLD可以向电压调节器发送控制信号,以控制电压调节器的导通,使得相应的功能板上电。
进一步的,参照图2,电压调节器可以向第一CPLD返回反馈信号,以通过反馈信号反馈导通情况,第一CPLD可基于反馈信号确定OCSP主板是否完成上电。
本实施例提供的服务器系统,可以实现OCSP主板和扩展板的协同上电,避免了手动上电存在的不确定因素,可降低导致上电失败的风险。此外,本实施例提供的服务器系统,可以适用于现场运维和远程运维,应用性较广。
请继续参照图1,下面结合图1,介绍OCSP主板和GPU扩展板协同下电的原理:
可选的,所述第一CPLD,还用于在接收到下电信号时,控制所述OCSP主板下电,并在所述OCSP主板完成下电后,向所述第二CPLD发送下电使能信号;
所述第二CPLD,还用于在接收到所述下电使能信号时,控制所述GPU扩展板下电;
所述第二CPLD,还用于在所述GPU扩展板完成下电时,向所述第一CPLD返回用于通知完成下电的第二通知信息。
具体的,下电信号用于指示OCSP主板和GPU扩展板下电,下电使能信号用于通知第二CPLD控制GPU扩展板下电。
图3为本申请一示例性实施例示出的协同下电的控制时序图。下面结合图1和图3,介绍协同下电的实现原理。
具体实现时,在一种可能的实现方式中,下电信号可以是基于电源按钮触发的下电信号,即通过按下电源按钮来触发下电信号。需要说明的是,当电源按钮被按下后,OCSP主板上的南桥芯片或CPU(图3中以南桥芯片为例进行说明)检测到电源按钮的状态变化,并产生相应的下电信号,该下电信号会直接发送给第一CPLD,第一CPLD接收到下电信号后,控制OCSP主板下电。
参见前面的介绍,参照图3,具体实现时,第一CPLD可以向电压调压器发送控制信号,以控制其断开,实现下电的目的。进一步的,电压调压器向第一CPLD返回反馈信号,以反馈其导通情况。相应的,第一CPLD基于电压调压器的反馈信号确定OCSP主板完成下电后,通过指定第一外部接口和指定第二外部接口,向第二CPLD发送下电使能信号,以指示第二CPLD控制GPU扩展板下电。
需要说明的是,在另一种可能的实现方式中,下电信号来自外部设备,下电信号到达OCSP主板上的BMC后,BMC将下电信号发送给第一CPLD。
进一步的,请继续参照图3,当第二CPLD接收到第一CPLD发送的下电使能信号后,控制GPU扩展板下电,当GPU扩展板完成下电后,第二CPLD会向第一CPLD发送第二通知信息,以向第一CPLD通知GPU扩展板已经完成下电,这样,即可在需要下电时,先让OCSP主板下电,然后让GPU扩展板下电。
需要说明的是,参见前面的介绍,在控制GPU扩展板下电时,第二CPLD可以向电压调节器发送控制信号,以控制电压调节器断开,使得相应的功能板下电。
进一步的,参照图3,电压调节器可以向第二CPLD返回反馈信号,其通过反馈信号反馈其导通情况,第二CPLD可基于反馈信号确定GPU扩展板是否完成下电。
本申请提供的服务器系统,给出了一种OCSP主板和GPU扩展板协同下电的方法,通过该方法,可实现两者的协同下电,且可以降低失败的风险。
可选的,图4为本申请一示例性实施例示出的服务器系统的结构示意图。请参照图4,所述GPU扩展板包括多个GPU,所述多个GPU中的每个GPU通过一个电压调节器与所述第二电源组件电连接,所述第二CPLD还与每个电压调节器连接;所述控制所述GPU扩展板上电或下电,包括:
依据预先为每个电压调节器设定的控制顺序,依序向所述每个电压调节器发送控制指令,以控制该电压调节器导通或断开;其中,向相邻两个电压调节器发送的控制指令之间的时间间隔等于预设值。
具体的,请参照图4,GPU扩展板包括多个GPU,每个GPU通过一个电压调节器与第二电源组件电连接,其中,每个电压调节器与第二CPLD电连接。
进一步的,预先为每个电压调节器设定的控制顺序是根据实际需要设定的,本实施例中,不对此进行限定。此外,预设值也是根据实际需要设定的,本实施例中,不对此进行限定,具体实现时,可以根据各个GPU的初始化时间,来设定预设值。例如,在一种可能的实现方式中,将预设值设定为各个GPU的初始化时间中的最大值。具体的,例如,一实施例中,预设值为20秒。
例如,请参照图4,在图4所示示例中,为了方便说明,按照电压调节器从上到下的顺序,依次为每个电压调节器编号,记为电压调节器1、电压调节器2、……、电压调节器n,其中,编号越小,控制顺序越靠前。此时,在控制GPU扩展板上电或下电时,可以按照编号从小到大的顺序,依序向每个电压调节器发送控制指令,即先向电压调节器1发送控制指令,过20秒后向电压调节器2发送控制指令,再过20秒后向电压调节器3发送控制指令,直至向电压调节器n发送完控制指令。其中,控制指令用于控制电压调节器的导通或断开。
本实施例提供的服务器系统,在控制GPU扩展板上电或上电时,通过依据预先为每个电压调节器设定的控制顺序,依序向所述每个电压调节器发送控制指令,以控制该电压调节器导通或断开,且令向相邻两个电压调节器发送的控制指令之间的时间间隔等于预设值。这样,可实现错峰上电的目的,通过错峰上电,可减少对电源系统的压力,避免因同时启动多个GPU而引起的突发电压或电流波动,以提高稳定性。
可选的,请继续参照图4,所述第二CPLD,还用于基于所述每个电压调节器反馈的导通情况,确定所述GPU扩展板是否完成上电或完成下电。
具体的,电压调节器反馈的导通情况,用于表征该电压调节器当前是处于导通,还是处于断开,第二CPLD,可基于所有电压调节器反馈的导通情况,确定GPU扩展板是否完成上电或完成下电。
例如,在一种可能的实现方式中,所述基于所述每个电压调节器反馈的导通情况,确定所述GPU扩展板是否完成上电,包括:
根据所述每个电压调节器反馈的导通情况,确定当前导通的电压调节器的第一数量;
计算所述第一数量和所述GPU扩展板包含的所有电压调节器的总数量的比值;
在所述比值大于第一预设阈值时,确定所述GPU扩展板完成上电,否则确定所述GPU扩展板未完成上电。
具体的,导通情况表征电压调节器是否导通,导通情况包括导通和未导通。第一预设阈值是根据实际需要设定的,本实施例中,不对第一预设阈值的具体值进行限定。例如,一实施例中,第一预设阈值为80%,即当前导通的电压调节器的第一数量与GPU扩展板包含的所有电压调节器的总数量的比值大于80%时,确定GPU扩展板完成上电。当前导通的电压调节器的第一数量与CPU扩展板包含的所有电压调节器的总数量的比值小于或者等于80%时,确定GPU扩展板未完成上电。
进一步的,在另一种可能的实现方式中,所述基于所述每个电压调节器反馈的导通情况,确定所述GPU扩展板是否完成上电,包括:
根据所述每个电压调节器反馈的导通情况,确定是否存在未导通的电压调节器;
若是,确定所述GPU扩展板未完成上电。
具体的,若确定电压调节器中存在导通情况为未导通的电压调节器,则直接确定GPU扩展板未完成上电。
需要说明的是,确定GPU扩展板是否完成下电的方式与上面类似,此处不再赘述。
可选的,在本申请一种可能的实现方式中,所述第二CPLD,还用于在确定所述GPU扩展板未完成上下电时,继续控制所述GPU扩展板上下电,直至控制次数达到预设次数;
所述第二CPLD,还用于在控制次数达到预设次数后,在所述GPU扩展板仍未完成上下电时,记录日志信息。
具体的,预设次数是根据实际需要设定的,本实施例中,不对预设次数的具体值进行限定。例如,一实施例中,预设次数为10次。当确定GPU扩展板未完成上电或下电时,第二CPLD继续控制GPU扩展板上电或下电,直至控制了10次后,10次后,若GPU扩展板仍未完成上电或下电,第二CPLD记录下日志信息,以便后续运维人员基于该日志信息对GPU扩展板进行维修。
本申请提供的方法,在GPU扩展板无法完成上下电时,通过记录日志信息的方法,后续运维人员可以基于该日志信息对GPU扩展板进行报修。
图5为本申请提供的服务器系统实施例二的结构示意图。请参照图5,本实施例提供的服务器系统,所述服务器系统包括OCSP主板、用于给所述OCSP主板供电的第一电源组件、GPU扩展板和用于给所述GPU扩展板供电的第二电源组件;其中,
所述OCSP主板包括第一BMC、与所述第一BMC电连接的第一CPLD、以及与所述第一BMC电连接的多个第一外部接口;
所述GPU扩展板包括第二BMC、与所述第二BMC电连接的第二CPLD、以及与所述第二BMC电连接的多个第二外部接口;
所述多个第一外部接口中的指定第一外部接口与所述多个第二外部接口中的指定第二外部接口连接;
所述第一BMC,用于在接收到上电信号时,将所述上电信号通知给所述第二BMC;
所述第二BMC,用于在接收到所述上电信号时,将所述上电信号通知给所述第二CPLD;
所述第二CPLD,用于在接收到所述上电信号时,控制所述GPU扩展板上电;
所述第二CPLD,还用于在所述GPU扩展板完成上电时,通过所述第二BMC和所述第一BMC向所述第一CPLD发送用于通知完成上电的第一通知信息;
所述第一CPLD,还用于在接收到所述第一通知信息时,控制所述OCSP主板上电。
需要说明的是,服务器系统作为一个整体对外实现业务,OCSP主板作为对外业务的通信接口,所有远程带外运维和现场运维操作都是直接对OCSP主板进行操作,GPU扩展板协同响应。
具体的,请参照图5,服务器系统包括OCSP主板、第一电源组件、GPU扩展板和第二电源组件。其中,第一电源组件与OCSP主板连接,以给OCSP主板提供电源。第二电源组件与GPU扩展板连接,以给GPU扩展板提供电源。
需要说明的是,第一电源组件包括电源背板和电源模块。第二电源组件与第一电源组件的结构相同,此处不再赘述。
进一步的,请继续参照图5,OCSP主板包括第一BMC、第一CPLD以及多个第一外部接口。其中,所述第一BMC与所述第一CPLD电连接,所述第一BMC与所述多个第一外部接口电连接。同样的,GPU扩展板包括第二BMC、第二CPLD以及多个第二外部接口。其中,所述第二BMC与所述第二CPLD电连接,所述第二BMC与所述多个第二外部接口电连接。
进一步的,指定第一外部接口和指定第二外部接口是根据实际需要设定的,本实施例中,不对此进行限定。例如,请参照图5,在图5所示示例中,多个第一外部接口中的指定第一外部接口为从上往下的第三个外部接口,多个第二外部接口中的指定第二外部接口为从上往下为第二个外部接口。
下面结合图5来介绍图5所示示例中,OCSP主板与GPU扩展板协同上电的原理:
具体的,图6为本申请一示例性实施例示出的协同上电的控制时序图。请同时参照图5和图6,具体实现时,所述第一BMC,用于在接收到上电信号时,将所述上电信号通知给所述第二BMC。
需要说明的是,上电信号用于指示对OCSP主板与GPU扩展板进行上电。
具体实现时,在一种可能的实现方式中,上电信号可以是通过电源按钮触发的上电信号,例如,在现场运维时,可通过按下电源按钮来触发上电信号。需要说明的是,当电源按钮被按下后,主板上的南桥芯片或CPU(图6以南桥芯片为例进行说明)检测到电源按钮的状态变化,并产生相应的上电信号;进一步的,南桥芯片在产生上电信号后,将上电信号发送给第一BMC,第一BMC接收到上电信号后,通过指定第一外部接口和指定第二外部接口,向第二BMC发送上电信号。
此外,上电信号可以来自外部设备,该上电信号到达OCSP主板上的第一BMC后,第一BMC可以通过指定第一外部接口和指定第二外部接口将其发送给第二BMC。例如,在远程运维时,通过外部设备触发上电信号。
进一步的,当第二BMC接收到第一BMC发送的上电信号后,第二BMC将接收到的上电信号发送给与其连接的第二CPLD,以指示第二CPLD控制GPU扩展板上电。
需要说明的是,参见前面的描述,GPU扩展板上有多个功能板,每个功能板通过一个电压调节器与第二电源组件连接,每个电压调节器与第二CPLD连接。具体实现时,参照图6,在控制GPU扩展板上电时,第二CPLD可以向电压调节器发送控制信号,以控制电压调节器的导通,使得相应的功能板上电。
进一步的,参照图6,电压调节器可以向第二CPLD返回反馈信号,其通过反馈信号反馈其导通情况,第二CPLD可基于反馈信号确定GPU扩展板是否完成上电。
进一步的,当GPU扩展板完成上电后,第二CPLD会先向第二BMC发送第一通知信息,第二BMC进一步向第一BMC发送第一通知信息,第一BMC在接收到第一通知信息时,将第一通知信息发送给第一CPLD,以向第一CPLD通知GPU扩展板已经完成上电。进一步的,在GPU扩展板完成上电后,OCSP主板就可以上电了。换言之,当OCSP主板上的第一CPLD接收到第一通知信息后,确定GPU扩展板完成上电,此时,其控制OCSP主板上电,这样,即可实现GPU扩展板先上电,OCSP主板后上电,两者协同上电的目的。
可以理解的是,OCSP主板上也有多个功能板,每个功能板通过一个电压调节器与第一电源组件连接,每个电压调节器与第一CPLD连接。具体实现时,参照图6,在控制OCSP主板上电时,第一CPLD可以向电压调节器发送控制信号,以控制电压调节器的导通,使得相应的功能板上电。
进一步的,参照图6,电压调节器可以向第一CPLD返回反馈信号,以通过反馈信号反馈导通情况,第一CPLD可基于反馈信号确定OCSP主板是否完成上电。
本实施例提供的服务器系统,在未给CPLD预留外部接口时,OCSP主板和GPU扩展板可基于BMC进行通信,可实现OCSP主板和扩展板的协同上下电,避免了手动上下电存在的不确定因素,可降低导致上下电失败的风险。此外,本实施例提供的服务器系统,可以适用于现场运维和远程运维,应用性较广。
请继续参照图5,下面结合图5,介绍OCSP主板和GPU扩展板协同下电的原理:
可选的,所述第一BMC,还用于在接收到下电信号时,向所述第一CPLD转发所述下电信号;
所述第一CPLD,还用于在接收到所述下电信号时,控制所述OCSP主板下电,并在所述OCSP主板完成下电后,向所述第一BMC发送用于通知完成下电的第二通知信息;
所述第一BMC,还用于在接收到所述第二通知信息时,通过所述第二BMC向所述第二CPLD发送下电命令;
所述第二CPLD,还用于在接收到所述下电命令时,控制所述GPU扩展板下电;
所述第二CPLD,还用于在所述GPU扩展板完成下电时,通过所述第二BMC和所述第一BMC向所述第一CPLD返回用于通知完成下电的第三通知信息。
具体的,下电信号用于指示OCSP主板和GPU扩展板下电,下电命令用于通知第二CPLD控制GPU扩展板下电。
图7为本申请一示例性实施例示出的协同下电的控制时序图。下面结合图5和图7,介绍协同下电的实现原理。
具体实现时,在一种可能的实现方式中,下电信号可以是基于电源按钮触发的下电信号,即通过按下电源按钮来触发下电信号。需要说明的是,当电源按钮被按下后,OCSP主板上的南桥芯片或CPU(图7中以南桥芯片为例进行说明)检测到电源按钮的状态变化,并产生相应的下电信号,该下电信号会直接发送给第一BMC,第一BMC接收到下电信号后,将下电信号转发给与其连接的第一CPLD,以通知第一CPLD控制OCSP主板下电。
参见前面的介绍,参照图7,具体实现时,第一CPLD可以向电压调压器发送控制信号,以控制其断开,实现下电的目的。进一步的,电压调压器向第一CPLD返回反馈信号,以反馈其导通情况。相应的,第一CPLD基于电压调压器的反馈信号确定OCSP主板完成下电后,第一CPLD通过第一BMC、第二BMC向第二CPLD发送第二通知信息,以通知第二CPLD控制GPU扩展板下电(即第一CPLD先将第二通知信息发送给第一BMC,第一BMC再将第二通知消息发送给第二BMC,第二BMC再将第二通知信息发送给第二CPLD)。
需要说明的是,在另一种可能的实现方式中,下电信号来自外部设备,下电信号到达OCSP主板上的第一BMC后,第一BMC将下电信号发送给第一CPLD。
进一步的,请继续参照图7,当第二CPLD接收到第一CPLD发送的第二通知信息后,控制GPU扩展板下电,当GPU扩展板完成下电后,第二CPLD会通过第二BMC、第一BMC向第一CPLD发送第三通知信息,以向第一CPLD通知GPU扩展板已经完成下电(即第二CPLD先将第三通知信息发送给第二BMC,第二BMC将第三通知信息发送给第一BMC,第一BMC将第三通知信息发送给第一CPLD),这样,即可在需要下电时,先让OCSP主板下电,然后让GPU扩展板下电。
需要说明的是,参见前面的介绍,在控制GPU扩展板下电时,第二CPLD可以向电压调节器发送控制信号,以控制电压调节器断开,使得相应的功能板下电。
进一步的,参照图7,电压调节器可以向第二CPLD返回反馈信号,其通过反馈信号反馈其导通情况,第二CPLD可基于反馈信号确定GPU扩展板是否完成下电。
本申请提供的方法,在未给CPLD预留外部接口时,OSCP主板和扩展板基于BMC进行通信,基于上述设置,可实现主板和扩展板的协同下电,且可以降低失败的风险。
图8为本申请提供的服务器系统实施例三的结构示意图。请参照图8,本实施例提供的服务器系统,在上述实施例的基础上,所述第一CPLD还与所述多个第一外部接口中的目标第一外部接口电连接,所述第二CPLD还与所述多个第二外部接口中的目标第二外部接口电连接;所述目标第一外部接口中的任一个外部接口与所述目标第二外部接口中的任一个外部接口连接;
所述OCSP主板,还用于在检测到上电信号时,将所述上电信号发送给所述第一CPLD;
所述第一CPLD,还用于在接收到所述上电信号时,通过所述目标第一外部接口和所述目标第二外部接口,将所述上电信号直接发送给所述第二CPLD,以指示所述第二CPLD控制所述扩展板上电;
所述第二CPLD,还用于在所述GPU扩展板完成上电时,通过所述目标第二外部接口和所述目标第一外部接口,直接向所述第一CPLD发送用于通知完成上电的第一通知信息。
具体的,多个第一外部接口中的目标第一外部接口可以包括至少一个第一外部接口,例如,在一种可能的实现方式中,目标第一外部接口可以是所有的第一外部接口,再例如,目标第一外部接口可以是任一个第一外部接口,或任意n个第一外部接口,其中,n小于或者等于所有第一外部接口的数量。例如,在图8所示示例中,目标第一外部接口为从上往下的第一个外部接口。
类似的,多个第二外部接口中的目标第二外部接口可以包括至少一个第二外部接口,例如,在一种可能的实现方式中,目标第二外部接口可以是所有的第二外部接口,再例如,目标第二外部接口可以是任一个第二外部接口,或任意n个第二外部接口,其中,n小于或者等于所有第二外部接口的数量。例如,在图8所示示例中,目标第二外部接口为从上往下的第一个外部接口。
下面结合图8来介绍OCSP主板与GPU扩展板协同上电的原理。
具体的,在图8所示示例中,第一方面,OCSP主板的第一CPLD和GPU扩展板上的第二CPLD通过外部接口直接相连,可直接通信;第二方面,OCSP主板的第一BMC和GPU扩展板上的第二BMC通过外部接口直接相连,可直接通信。
因此,在上电信号是基于电源按钮触发的上电信号时,南桥芯片可以将上电信号给到第一CPLD,由第一CPLD和第二CPLD进行通信。当上电信号来自外部设备时,上电信号直接到达第一BMC,此时,第一BMC可直接与第二BMC进行通信,来协同上下电。这样,可适应两种场景,且在不同场景中,走不同的传输路径,可提高效率。
本实施例提供的服务器系统,在接收到上电信号,CPLD与外部接口存在直接连接,且BMC与外部接口也存在直接连接时,可以由第一CPLD来与GPU扩展板通信,也可以由第一BMC与GPU扩展板通信, 这样,同时匹配远程运维和现场运维的场景,且在不同场景中,走不同的传输路径,可提高效率。
可选的,请继续参照图8,所述OCSP主板,还用于在检测到下电信号时,将所述下电信号发送给所述第一CPLD,以指示所述第一CPLD控制所述OCSP主板下电;
所述第一CPLD,还用于在所述OCSP主板完成下电后,直接向所述第二CPLD发送下电命令,以指示所述第二CPLD控制所述GPU扩展板下电;
所述第二CPLD,还用于在所述GPU扩展板完成下电时,直接向所述第一CPLD返回用于通知完成下电的第三通知信息。
下面结合图8来介绍OCSP主板与GPU扩展板协同下电的原理。
参见前面的介绍,第一方面,OCSP主板的第一CPLD和GPU扩展板上的第二CPLD通过外部接口直接相连,可直接通信;第二方面,OCSP主板的第一BMC和GPU扩展板上的第二BMC通过外部接口直接相连,可直接通信。
因此,在下电信号是基于电源按钮触发的上电信号时,南桥芯片可以将上电信号给到第一CPLD,由第一CPLD和第二CPLD进行通信。当下上电信号来自外部设备时,下电信号直接到达第一BMC,此时,第一BMC可直接与第二BMC进行通信,来协同上下电。这样,可适应两种场景,且在不同场景中,走不同的传输路径,可提高效率。
可选的,图9为本申请一示例性实施例示出的GPU扩展板的示意图。请参照图9,所述GPU扩展板包括多个GPU,所述多个GPU中的每个GPU通过一个电压调节器与所述第二电源组件电连接,所述第二CPLD还与每个电压调节器连接;所述控制所述GPU扩展板上电或下电,包括:
依据预先为每个电压调节器设定的控制顺序,依序向所述每个电压调节器发送控制指令,以控制该电压调节器导通或断开;其中,向相邻两个电压调节器发送的控制指令之间的时间间隔等于预设值。
有关具体的实现原理,可以参见前面的介绍,此处不再赘述。
可选的,所述第二CPLD,还用于基于所述每个电压调节器反馈的导通情况,确定所述GPU扩展板是否完成上电或完成下电。
可选的,所述第二CPLD,还用于在确定所述GPU扩展板未完成上下电时,继续控制所述GPU扩展板上下电,直至控制次数达到预设次数;
所述第二CPLD,还用于在控制次数达到预设次数后,在所述GPU扩展板仍未完成上下电时,记录日志信息。
本申请还提供一种服务器,所述服务器包括本申请第一方面提供的任一项所述的服务器系统。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (8)

1.一种服务器系统,其特征在于,所述服务器系统包括OCSP主板、用于给所述OCSP主板供电的第一电源组件、GPU扩展板和用于给所述GPU扩展板供电的第二电源组件;其中,
所述OCSP主板包括第一CPLD、以及与所述第一CPLD电连接的多个第一外部接口;
所述GPU扩展板包括第二CPLD、以及与所述第二CPLD电连接的多个第二外部接口;
所述多个第一外部接口中的指定第一外部接口与所述多个第二外部接口中的指定第二外部接口连接;
所述第一CPLD,用于在接收到上电信号时,向所述第二CPLD发送上电使能信号;
所述第二CPLD,用于在接收到所述上电使能信号时,控制所述GPU扩展板上电;
所述第二CPLD,还用于在所述GPU扩展板完成上电时,向所述第一CPLD返回用于通知完成上电的第一通知信息;
所述第一CPLD,还用于在接收到所述第一通知信息时,控制所述OCSP主板上电;
所述第一CPLD,还用于在接收到下电信号时,控制所述OCSP主板下电,并在所述OCSP主板完成下电后,向所述第二CPLD发送下电使能信号;
所述第二CPLD,还用于在接收到所述下电使能信号时,控制所述GPU扩展板下电;
所述第二CPLD,还用于在所述GPU扩展板完成下电时,向所述第一CPLD返回用于通知完成下电的第二通知信息。
2.根据权利要求1所述的服务器系统,所述GPU扩展板包括多个GPU,所述多个GPU中的每个GPU通过一个电压调节器与所述第二电源组件电连接,所述第二CPLD还与每个电压调节器连接;所述控制所述GPU扩展板上电或下电,包括:
依据预先为每个电压调节器设定的控制顺序,依序向所述每个电压调节器发送控制指令,以控制该电压调节器导通或断开;其中,向相邻两个电压调节器发送的控制指令之间的时间间隔等于预设值。
3.根据权利要求2所述的服务器系统,其特征在于,所述第二CPLD,还用于基于所述每个电压调节器反馈的导通情况,确定所述GPU扩展板是否完成上电或完成下电。
4.根据权利要求3所述的服务器系统,其特征在于,所述第二CPLD,还用于在确定所述GPU扩展板未完成上下电时,继续控制所述GPU扩展板上下电,直至控制次数达到预设次数;
所述第二CPLD,还用于在控制次数达到预设次数后,在所述GPU扩展板仍未完成上下电时,记录日志信息。
5.一种服务器系统,其特征在于,所述服务器系统包括OCSP主板、用于给所述OCSP主板供电的第一电源组件、GPU扩展板和用于给所述GPU扩展板供电的第二电源组件;其中,
所述OCSP主板包括第一BMC、与所述第一BMC电连接的第一CPLD、以及与所述第一BMC电连接的多个第一外部接口;
所述GPU扩展板包括第二BMC、与所述第二BMC电连接的第二CPLD、以及与所述第二BMC电连接的多个第二外部接口;
所述多个第一外部接口中的指定第一外部接口与所述多个第二外部接口中的指定第二外部接口连接;
所述第一BMC,用于在接收到上电信号时,将所述上电信号通知给所述第二BMC;
所述第二BMC,用于在接收到所述上电信号时,将所述上电信号通知给所述第二CPLD;
所述第二CPLD,用于在接收到所述上电信号时,控制所述GPU扩展板上电;
所述第二CPLD,还用于在所述GPU扩展板完成上电时,通过所述第二BMC和所述第一BMC向所述第一CPLD发送用于通知完成上电的第一通知信息;
所述第一CPLD,还用于在接收到所述第一通知信息时,控制所述OCSP主板上电;
所述第一BMC,还用于在接收到下电信号时,向所述第一CPLD转发所述下电信号;
所述第一CPLD,还用于在接收到所述下电信号时,控制所述OCSP主板下电,并在所述OCSP主板完成下电后,向所述第一BMC发送用于通知完成下电的第二通知信息;
所述第一BMC,还用于在接收到所述第二通知信息时,通过所述第二BMC向所述第二CPLD发送下电命令;
所述第二CPLD,还用于在接收到所述下电命令时,控制所述GPU扩展板下电;
所述第二CPLD,还用于在所述GPU扩展板完成下电时,通过所述第二BMC和所述第一BMC向所述第一CPLD返回用于通知完成下电的第三通知信息。
6.根据权利要求5所述的服务器系统,其特征在于,所述第一CPLD还与所述多个第一外部接口中的目标第一外部接口电连接,所述第二CPLD还与所述多个第二外部接口中的目标第二外部接口电连接;所述目标第一外部接口中的任一个外部接口与所述目标第二外部接口中的任一个外部接口连接;
所述OCSP主板,还用于在检测到上电信号时,将所述上电信号发送给所述第一CPLD;
所述第一CPLD,还用于在接收到所述上电信号时,通过所述目标第一外部接口和所述目标第二外部接口,将所述上电信号直接发送给所述第二CPLD,以指示所述第二CPLD控制所述扩展板上电;
所述第二CPLD,还用于在所述GPU扩展板完成上电时,通过所述目标第二外部接口和所述目标第一外部接口,直接向所述第一CPLD发送用于通知完成上电的第一通知信息。
7.根据权利要求6所述的服务器系统,其特征在于,所述OCSP主板,还用于在检测到下电信号时,将所述下电信号发送给所述第一CPLD,以指示所述第一CPLD控制所述OCSP主板下电;
所述第一CPLD,还用于在所述OCSP主板完成下电后,通过所述目标第一外部接口和所述目标第二外部接口,直接向所述第二CPLD发送下电命令,以指示所述第二CPLD控制所述GPU扩展板下电;
所述第二CPLD,还用于在所述GPU扩展板完成下电时,通过所述目标第二外部接口和所述目标第一外部接口,直接向所述第一CPLD返回用于通知完成下电的第三通知信息。
8.一种服务器,其特征在于,所述服务器包括权利要求1-7任一项所述的服务器系统。
CN202410345623.6A 2024-03-26 2024-03-26 一种服务器系统和服务器 Active CN117971029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410345623.6A CN117971029B (zh) 2024-03-26 2024-03-26 一种服务器系统和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410345623.6A CN117971029B (zh) 2024-03-26 2024-03-26 一种服务器系统和服务器

Publications (2)

Publication Number Publication Date
CN117971029A CN117971029A (zh) 2024-05-03
CN117971029B true CN117971029B (zh) 2024-06-07

Family

ID=90863276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410345623.6A Active CN117971029B (zh) 2024-03-26 2024-03-26 一种服务器系统和服务器

Country Status (1)

Country Link
CN (1) CN117971029B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106452756A (zh) * 2016-11-08 2017-02-22 王栋 可离线验证安全二维码构造验证方法与装置
CN107409118A (zh) * 2014-12-22 2017-11-28 迈克菲有限责任公司 可信执行环境与外围设备之间的信任建立
CN117076376A (zh) * 2023-10-16 2023-11-17 安擎计算机信息股份有限公司 一种基于ocsp主板实现的gpu服务器架构

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107409118A (zh) * 2014-12-22 2017-11-28 迈克菲有限责任公司 可信执行环境与外围设备之间的信任建立
CN106452756A (zh) * 2016-11-08 2017-02-22 王栋 可离线验证安全二维码构造验证方法与装置
WO2018086515A1 (zh) * 2016-11-08 2018-05-17 王栋 可离线验证安全信息标签构造验证方法与装置
CN117076376A (zh) * 2023-10-16 2023-11-17 安擎计算机信息股份有限公司 一种基于ocsp主板实现的gpu服务器架构

Also Published As

Publication number Publication date
CN117971029A (zh) 2024-05-03

Similar Documents

Publication Publication Date Title
US7574615B2 (en) Method of managing power consumption of a network interface
US6735704B1 (en) Autonomic control of power subsystems in a redundant power system
CN101566870B (zh) 计算机系统及其控制方法
US8769313B2 (en) Server with an embedded management board having a power controlling unit for controlling a plurality of power supplies and motherboards independently
EP2421119A2 (en) Uninterruptible power supply system and power management method thereof suitable for audio visual apparatus
US20110145620A1 (en) Method of using power supply to perform far-end monitoring of electronic system
CN113805687B (zh) 用于控制对多个服务器的电力输送的方法及控制电路
CN117971029B (zh) 一种服务器系统和服务器
US11012248B1 (en) Power over ethernet-based redundant power management method and redundant power supply managed by the same
CN210608666U (zh) 一种冗余电源的控制装置及供电系统
CN218181479U (zh) 服务器主板、服务器及服务器背板的电源管理系统
US9448618B2 (en) Start-up module of redundant power supply having synchronous and sequential booting modes
CN115834446A (zh) 双控设备、控制方法、存储介质及电子装置
CN108256359B (zh) 一种存储硬盘供电保护系统及保护方法
CN114401156B (zh) Pse设备的供电控制方法、装置、pse设备及供电系统
CN112208588B (zh) 一种列车唤醒和休眠系统及方法
CN110850762A (zh) 一种电源上下电的远程控制系统及方法
CN210895060U (zh) 一种电源上下电的远程控制系统
CN215729734U (zh) 核心板和服务器
CN112670946B (zh) 供电系统、供电系统的控制方法及电气设备
CN114244892B (zh) 一种北斗rdss和rnss与4g传输结合方法
EP3916517A1 (en) Power supply combination for delivering power at multiple voltages
EP3916519B1 (en) Method and control circuit for controlling delivery of power to one or more server
CN213694213U (zh) 一种基于poe的接收卡供电及控制系统
CN103457879B (zh) 管理模块主从选举的方法、管理模块和模块化设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant