CN115543037A - Pcie卡及其供电方法、计算设备 - Google Patents
Pcie卡及其供电方法、计算设备 Download PDFInfo
- Publication number
- CN115543037A CN115543037A CN202211296221.9A CN202211296221A CN115543037A CN 115543037 A CN115543037 A CN 115543037A CN 202211296221 A CN202211296221 A CN 202211296221A CN 115543037 A CN115543037 A CN 115543037A
- Authority
- CN
- China
- Prior art keywords
- power supply
- power
- supply interface
- module
- function module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 94
- 238000012545 processing Methods 0.000 claims abstract description 42
- 238000012544 monitoring process Methods 0.000 claims abstract description 31
- 230000002159 abnormal effect Effects 0.000 claims description 43
- 238000001514 detection method Methods 0.000 claims description 41
- 230000008569 process Effects 0.000 claims description 22
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 14
- 239000010931 gold Substances 0.000 claims description 14
- 229910052737 gold Inorganic materials 0.000 claims description 14
- 238000003745 diagnosis Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 471
- 238000007726 management method Methods 0.000 description 188
- 238000006243 chemical reaction Methods 0.000 description 17
- 238000005070 sampling Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 230000001133 acceleration Effects 0.000 description 10
- 238000002955 isolation Methods 0.000 description 10
- 238000009877 rendering Methods 0.000 description 8
- 230000002093 peripheral effect Effects 0.000 description 7
- 230000001276 controlling effect Effects 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000005192 partition Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/18—Packaging or power distribution
- G06F1/183—Internal mounting support structures, e.g. for printed circuit boards, internal connecting means
- G06F1/185—Mounting of expansion boards
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/28—Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/26—Power supply means, e.g. regulation thereof
- G06F1/30—Means for acting in the event of power-supply failure or interruption, e.g. power-supply fluctuations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Computer Hardware Design (AREA)
- Power Engineering (AREA)
- Human Computer Interaction (AREA)
- Power Sources (AREA)
Abstract
本申请实施例提供了一种PCIE卡及其供电方法、计算设备。其中,PCIE卡包括至少两个供电接口、至少两个功能模块;至少两个供电接口包括第一供电接口和第二供电接口;至少两个功能模块包括管理模块和业务模块;管理模块和业务模块均包括一个或多个电子器件;管理模块用于监控业务模块的工作状态,并且与主板的带外管理器件通信;业务模块用于与主板的处理器通过PCIE链路进行通信,并处理PCIE链路上的业务;其中,第一供电接口与管理模块连接,用于为管理模块供电;第二供电接口与业务模块连接,用于为业务模块供电。本申请实施例提高了PCIE卡供电的可靠。
Description
技术领域
本申请涉及计算设备领域,特别涉及一种PCIE卡及其供电方法、计算设备、计算机可读存储介质。
背景技术
PCIE(Peripheral Component Interconnect Express)标卡,作为计算机产品(例如服务器的CPU系统)的PCIE外设,PCIe属于高速串行点对点双通道高带宽传输,所连接的设备分配独享通道带宽,不共享总线带宽,主要支持主动电源管理,错误报告,端对端的可靠性传输,热插拔以及服务质量(QOS)等功能。
目前,PCIE卡的供电是采用集中供电方式。即利用一个电源,或者多个电源合并为一路输出对PCIE卡供电。这种供电方式在一个电源故障,可能就会导致整个PICE卡宕机,因此现有技术中对PCIE卡的供电稳定性较差。
发明内容
本申请的一个目的在于提高PCIE卡的供电稳定性。
根据本申请的第一方面提供一种PCIE卡,包括:
至少两个供电接口,包括第一供电接口和第二供电接口;
至少两个功能模块,包括管理模块和业务模块;所述管理模块和所述业务模块均包括一个或多个电子器件;所述管理模块用于监控所述业务模块的工作状态,并且与主板的带外管理器件通信;所述业务模块用于与所述主板的处理器通过PCIE链路进行通信,并处理所述PCIE链路上的业务;其中,所述第一供电接口与所述管理模块连接,用于为所述管理模块供电;所述第二供电接口与所述业务模块连接,用于为所述业务模块供电。
在第一方面中,主板的带外管理器件可以是基板管理控制器BMC(BaseboardManagement Controller)。管理模块与主板带外管理器件进行带外通信,所述业务模块用于与所述主板的处理器通过PCIE链路进行带内通信。
第一方面基于对PCIE卡上电子器件通过划分为管理模块和业务模块,并且分别通过不同的供电接口对管理模块和业务模块供电,实现了带内功能和带外功能解耦,使带内故障不影响带外。本实施例这种供电方式可以在第二供电接口故障时,仍可以维持管理模块的正常工作,由此可以保持主板与PCIE卡的正常的带外通信,使主板及时获知PCIE的故障信息。并且可以基于PCIE卡的热插拔功能,无需主板系统重启,便可以在第二供电接口恢复正常的情况下,重新对业务模块供电,使PCIE卡恢复正常业务。因此,本申请实施例提高了对PCIE卡供电的可靠性。
在第一方面的一种可能的实现方式中,所述PCIE卡还包括第三供电接口;所述业务模块包括基本功能模块和增强功能模块;所述基本功能模块用于与所述主板的处理器通过PCIE链路进行通信,并处理所述PCIE链路上的基本业务;所述增强功能模块用于处理增强类业务;所述第二供电接口与所述业务模块连接,用于为所述业务模块供电,包括:所述第二供电接口与所述基本功能模块电连接,用于为所述基本功能模块供电;所述第三供电接口与所述增强功能模块电连接,用于为所述增强功能模块供电。
示例性的,管理模块用于管理PCIE卡的工作。其可以包括电源管理单元和采样单元。基本功能模块可以包括一个或多个处理器,如intel处理器或ARM处理器,也可以是专用芯片,如网卡芯片,FPGA芯片,xPU芯片等。增强功能模块包括一个或多个功能单元。例如,功能单元可以包括处理器、FPGA、DSP、SOC、以及辅助光模块等,其中辅助光模块可以用作扩展网口。在此处理器可以是FPGA芯片、网卡芯片、或者XPU芯片。
在该种可能的实现方式中,由于管理模块、基本功能模块和增强功能模块分别由不同供电接口获取供电电能,因此当第二供电接口故障,导致基本功能模块失效,无法进行业务处理时;但是由于管理模块仍可以继续工作,因此管理模块可以通过与主板之间的带外管理通道,向主板上报当前PCIE卡的故障信息。而当第二供电接口恢复正常时,如果计算设备的系统支持热插拔功能,则通过热插拔可以恢复基本功能模块的工作,而无需重新启动系统。
当第三供电接口故障时,将导致增强功能模块被动或主动失效,由于PCIE卡和主板系统的带内通信功能由基本功能模块支撑,因此不受增强功能模块失效的影响;当第三供电接口恢复时,无需系统重新启动,增强功能模块就可以被动或主动恢复工作。
在第一方面的一种可能的实现方式中,所述PCIE卡上包括金手指和辅助电源插座;其中,所述金手指用于与主板的PCIE插槽插接;所述金手指包括多个导电触片,部分所述导电触片分别形成所述第一供电接口和所述第二供电接口;所述第三供电接口包括至少一个所述辅助电源插座。
本申请方案中通过PCIE金手指提供第一供电接口和第二供电接口,从而提高了对主板提供电能的利用率。并且设置第三供电接口向增强功能模块供电。由于第三供电接口的电能来自于外部电源,因此能够较为灵活的设计第三供电接口的输出功率,满足增强功能模块的供电需求。
在第一方面的一种可能的实现方式中,所述基本功能模块包括一个或多个基本功能单元;所述第一供电接口还与至少一个所述基本功能单元电连接;所述第一供电接口为所述管理模块供电后的剩余供电功率用于为所述至少一个基本功能单元供电;和/或
所述增强功能模块包括一个或多个增强功能单元;所述第一供电接口与至少一个所述增强功能单元电连接;所述第一供电接口为所述管理模块供电后的剩余供电功率为所述至少一个增强功能单元供电。
在此基本功能单元的划分方式可以有多种;例如以芯片级进行划分,一个芯片及其外围电路作为一个基本功能单元;也可以以功能单元进行划分,每个功能单元可能包括一个或多个芯片。例如,将处理报文解析业务的相关器件作为一个功能单元;将处理AI加速业务的相关器件作为另一个功能单元。
在此增强功能单元的划分方式可以有多种;例如以芯片级进行划分,一个芯片及其外围电路作为一个增强功能单元;也可以以功能单元进行划分,每个功能单元可能包括一个或多个芯片。例如,将处理报文解析业务的相关器件作为一个功能单元;将处理AI加速业务的相关器件作为另一个功能单元。
在该种可能的实现方式中,能够提高主板提供电能的利用率,当PCIE所能接收到的总功率有限的情况下,本实现方式能够提高对PCIE卡上电子器件供电的全面性以及提高PCIE卡工作的稳定性。
在第一方面的一种可能的实现方式中,所述增强功能模块包括一个或多个增强功能单元;所述第二供电接口与至少一个所述增强功能单元电连接;所述第二供电接口为所述基本功能模块供电后的剩余供电功率为所述至少一个所述增强功能单元供电。
在该种可能的实现方式中,能够提高主板提供电能的利用率,且当PCIE卡从外部电源所能接收到的有限的情况下,本实现方式能够提高对增强功能模块供电的可靠性。
在第一方面的一种可能的实现方式中,所述基本功能模块包括一个或多个处理器;所述基本业务包括:带内的故障诊断,PCIE链路上的数据收发与处理;例如,报文解析,AI加速,图像渲染等;和/或所述增强功能模块包括一个或多个功能单元,所述增强类业务包括:PCIE链路上的数据处理,例如(报文解析,AI加速,图像渲染等。
需要说明的是,功能单元可以包括处理器、FPGA、DSP、SOC等器件。增强功能模块可以用于对PCIE卡的数据处理能力做进一步的增强,此时增强类业务和基本业务可以部分相同,例如均包括报文解析的业务。增强功能模块也可以对PCIE链路上的数据处理方式做进一步的延伸扩展,此时增强类业务可以包括基本业务所不具有的其他业务。
本申请第二方面还提出一种PCIE卡的供电控制方法,所述方法包括:
当第一供电接口输出电压正常时,通过所述第一供电接口为所述管理模块供电;
当第二供电接口输出电压正常时,使所述第二供电接口为所述业务模块供电;其中,所述管理模块用于监控所述业务模块的工作状态,并且与主板的带外管理器件通信;所述业务模块用于与所述主板的处理器通过PCIE链路进行通信,并处理所述PCIE链路上的业务。
第二方面基于对PCIE卡上电子器件通过划分为管理模块和业务模块,并且分别通过不同的供电接口对管理模块和业务模块供电,实现了带内功能和带外功能解耦,使带内故障不影响带外。本实施例这种供电方式可以在第二供电接口故障时,仍可以维持管理模块的正常工作,由此可以保持主板与PCIE卡的正常的带外通信,使主板及时获知PCIE的故障信息。并且可以基于PCIE卡的热插拔功能,无需主板系统重启,便可以在第二供电接口恢复正常的情况下,重新对业务模块供电,使PCIE卡恢复正常业务。因此,本申请实施例提高了对PCIE卡供电的可靠性。
在第二方面的一种可能的实现方式中,所述业务模块包括基本功能模块和增强功能模块;
所述当第二供电接口输出供电电压正常时,使所述第二供电接口为业务模块供电,包括:
当所述第二供电接口输出供电电压正常时,使所述第二供电接口为所述基本功能模块供电;
当所述第三供电接口输出供电电压正常时,使所述第三供电接口为所述增强功能模块供电。
在该种可能的实现方式中,由于管理模块、基本功能模块和增强功能模块分别由不同供电接口获取供电电能,因此当第二供电接口故障,导致基本功能模块失效,无法进行业务处理时;但是由于管理模块仍可以继续工作,因此管理模块可以通过与主板之间的带外管理通道,向主板上报当前PCIE卡的故障信息。而当第二供电接口恢复正常时,如果计算设备的系统支持热插拔功能,则通过热插拔可以恢复基本功能模块的工作,而无需重新启动系统。本实现方式有效的实现了供电接口故障的隔离,提高了PCIE卡的供电稳定性。
在第二方面的一种可能的实现方式中,所述方法还包括:
监控所述第一供电接口的输出电压/输出功率;
当所述第一供电接口输出电压/输出功率异常时,使所述第二供电接口同时为所述基本功能模块和管理模块供电;或使所述第三供电接口同时为所述增强功能模块和管理模块供电。
当第一供电接口异常时,采样单元检测到第一供电接口的电压有较大幅值的波动,因此会使第二供电接口为管理模块供电,从而保证管理模块的正常工作。
在第二方面的一种可能的实现方式中,所述方法还包括:
当所述第一供电接口输出电压异常时,通过所述管理模块向主板的带外管理器件发送所述第一供电接口的异常信息;
监控所述第一供电接口的输出电压/输出功率;
若所述第一供电接口输出电压恢复正常,则使所述第一供电接口为所述基本功能模块供电,且使所述第二供电接口或所述第三供电接口停止为所述基本功能模块供电。
本实现方式中,在第一供电接口故障的场景下,由于管理模块从第二供电接口获取电能,因此仍然能够维持工作,进而能够实现将第一供电接口的故障上报,使主板可以感知到第一供电接口的故障状态。当第一供电接口恢复正常后,PCIE卡通过热插拔功能,便可以在线实现功能恢复,从而快速恢复PCIE卡正常的供电状态。
在第二方面的一种可能的实现方式中,所述方法还包括:
监控所述第二供电接口的输出电压/输出功率;
当所述第二供电接口输出电压/输出功率异常时,使所述第三供电接口同时为所述基本功能模块和增强功能模块供电;
若是所述第二供电接口的输出功率小于所述基本功能模块与增强功能模块的功率需求之和时,获取所述第三供电接口为所述基本功能模块供电后的剩余供电功率;
按照预设的供电优先级,利用所述剩余供电功率,为所述增强功能模块中的一个或多个所述增强功能单元优先供电;其中,所述增强功能模块包括多个增强功能单元,多个增强功能单元具有预设的供电优先级。
本实现方式中,在第二供电接口故障时,通过使第三供电接口为基本功能模块供电,从而保证PCIE卡能够处理基本业务。并且当第三供电接口提供的功率无法满足基本功能模块和增强功能模块时,通过设置基本功能单元具有更高的优先级,从而保证对基本业务的处理。并且通过在增强功能单元之间设置优先级,从而尽量使更多的或者重要的增强功能单元可以进行工作,从而减少对PCIE卡工作性能的影响。
在第二方面的一种可能的实现方式中,所述方法还包括:
当所述第二供电接口输出电压异常时,通过所述管理模块向主板的带外管理器件发送所述第二供电接口的异常信息;
监控所述第二供电接口的输出电压/输出功率;
当所述第二供电接口输出电压/输出功率恢复正常,则使所述第二供电接口为所述基本功能模块供电,且第三供电接口停止为所述基本功能模块供电。
本实现方式中,在第二供电接口故障的场景下,由于管理模块131正常工作,因此能够实现故障上报,使主板可以感知到第二供电接口的故障状态。当第二供电接口恢复正常后,PCIE卡通过热插拔功能,便可以在线实现功能恢复,从而快速恢复PCIE卡高性能的工作状态。
在第二方面的一种可能的实现方式中,所述方法还包括:
监控所述第三供电接口的输出电压/输出功率;
当所述第三供电接口的输出电压/输出功率异常时,使所述第二供电接口同时为所述基本功能模块和所述增强功能模块供电;
若是所述第二供电接口的输出功率小于所述基本功能模块与所述增强功能模块的功率需求之和时,获取所述第二供电接口为所述基本功能模块供电后的剩余供电功率;
按照预设的供电优先级,利用所述剩余供电功率,为所述增强功能模块中的一个或多个所述增强功能单元优先供电;其中,所述增强功能模块包括多个增强功能单元,多个增强功能单元具有预设的供电优先级。
本实现方式中,在第三供电接口故障时,通过使第二供电接口为增强功能模块供电。并且当第二供电接口提供的功率无法满足基本功能模块和增强功能模块时,通过设置基本功能单元具有更高的优先级,从而保证对基本业务的处理。并且通过在增强功能单元之间设置优先级,从而尽量使更多的或者重要的增强功能单元可以进行工作,从而减少对PCIE卡工作性能的影响。
在第二方面的一种可能的实现方式中,所述方法还包括:
获取所述第一供电接口在为所述管理模块供电后的剩余供电功率;
若所述剩余供电功率大于第一功率,则使所述第一供电接口还为所述基本功能模块和/或所述增强功能模块供电;
监控所述第一供电接口的输出电压/输出功率;
当所述第一供电接口的输出电压/输出功率降低至第一预设阈值之下时,则使第一供电接口停止为所述基本功能模块和/或所述增强功能模块供电。
在该可能的实现方式中,可以在监控到第一供电接口的输出电压/输出功率异常时,使第一供电接口停止为上述至少一个基本功能单元和/或至少一个增强功能单元供电,从而使第一供电接口输出的功率优先保障管理模块的供电需求。
在第二方面的一种可能的实现方式中,所述方法还包括:
获取所述第二供电接口在为所述基本功能模块供电后的剩余供电功率;
若所述剩余供电功率大于第二功率,则使所述第二供电接口还为所述增强功能模块供电;
监控所述第二供电接口的输出电压/输出功率;
当所述第二供电接口的输出电压/输出功率降低至第二预设阈值之下时,则使第二供电接口停止为所述增强功能模块供电。
在该可能的实现方式中,可以在监控到第二供电接口的输出电压/输出功率降低至第二预设阈值之下时,使第二供电接口停止为上述至少一个增强功能单元供电,从而优先保证基本功能模块的供电需求。
在第二方面的一种可能的实现方式中,所述方法还包括:
获取所述PCIE卡所允许消耗的功率限制值;
若所述功率限制值小于或等于所述第一供电接口与所述第二供电接口所提供的供电功率之和,则关闭所述增强功能模块的工作,或关闭所述第三供电接口的功率输出。
示意性的,电源管理单元先与主板的CPU进行交互,以获取PCIE卡所允许消耗的功率限制值。
由于第一供电接口与第二供电接口所提供的供电功率可以基于第一供电接口输出的额定功率和第二供电接口输出的额定功率计算出。因此当功率限制值小于或等于第一供电接口与第二供电接口所提供的供电功率之和时,本实施例会优先停止增强功能模块的工作,从而尽量维持管理模块和基本功能模块的继续工作,使PCIE卡维持基本的工作功能,保证PCIE卡的工作稳定性。
在第二方面的一种可能的实现方式中,所述方法还包括:
获取所述PCIE卡所允许消耗的功率限制值;
若所述功率限制值大于所述第一供电接口与所述第二供电接口所提供的供电功率之和,则开启所述第三供电接口的功率输出;
根据所述功率限制值减去所述管理模块的消耗功率以及所述基本功能模块的消耗功率后余下的剩余功率,为所述增强功能模块供电。
该可能的实现方式中,基于所述PCIE卡所允许消耗的功率限制值确定是否需要开启第三供电接口的供电功率输出或者开启增强功能模块的工作。由于增强功能模块失效不影响PCIE卡基本功能模块的工作,因此通过调整对增强功能模块的供电,从而使PCIE卡的总功率满足PCIE卡所允许消耗的功率限制值,最大可能的保证了PCIE卡基本工作业务的正常运行。
在第二方面的一种可能的实现方式中,所述增强功能模块包括多个增强功能单元;
所述根据所述功率限制值减去所述管理模块的消耗功率以及所述基本功能模块的消耗功率后余下的剩余功率,为所述增强功能模块供电,包括:
按照预设的供电优先级,利用所述剩余功率,优先为一个或多个增强功能单元供电;或
根据所述剩余功率,控制一个或多个所述增强功能单元工作于各自的额定功率之下。
在该可能的实现方式中,若是功率限制值减去管理模块的工作功率以及基本功能模块的工作功率后余下的剩余功率不足以使增强功能模块中所有的增强功能单元工作时,通过进一步的精细的控制策略,尽可能的使更多的增强功能单元可以工作,从而降低因功率限制对PCIE卡工作性能造成的影响。
在第二方面的一种可能的实现方式中,所述方法还包括:
分别监控各个模块工作时的供电功率;其中,所述模块包括所述管理模块、所述基本功能模块,以及所述增强功能模块;
若所述模块超过该模块对应的供电功率极限值,则停止对该模块供电。
可以通过采样单元监控各个模块的供电电流,当检测到某一模块的供电电流异常时,则表示相应的供电接口或者该模块内部出现故障,此时通过停止对该模块供电,实现故障隔离,降低对其他模块工作的影响。
在第二方面的一种可能的实现方式中,所述PCIE卡上设有多个温度检测点;所述方法还包括:
获取所述温度检测点的温度;
若所述温度检测点的温度高于温度阈值,则降低或关闭所述温度检测点所在模块的供电电流;其中所述模块为所述管理模块、所述基本功能模块、所述增强功能模块至少其中之一;
或,若所述温度检测点的温度高于温度阈值,则降低与所述温度检测点位置相关联的一个或多个电子器件的供电功率。
在该种可能的实现方式中,当某一温度检测点的温度超过阈值时,可通过该温度检测点所在的位置或该温度点所靠近的电子器件,而定位温度检测点所在的模块。由于一个模块内的各个电子器件的工作具有关联性,因此通过同步使模块内各个电子器件的功率降低,从而可以在降低PCIE卡发热量的同时,保持该模块内各个电子器件工作量的匹配,从而有利于保持PCIE卡工作的稳定性。
在第二方面的一种可能的实现方式中,所述方法还包括:
响应于所述PCIE卡的启动信号,若所述第一供电接口输出电压正常,则所述管理模块正常启动;若所述第一供电接口输出电压不正常,则结束所述PCIE卡的启动流程;
若所述管理模块正常启动,则检测所述第二供电接口的输出电压是否正常;
若所述第二供电接口的输出电压正常,则检测所述第三供电接口的输出电压是否正常;若所述第二供电接口的输出电压不正常,则向所述主板系统发送故障信息;
若所述第三供电接口的输出电压正常,则控制所述基本功能模块、所述增强功能模块有序上电。
在该可能的实现方式中,PCIE卡在启动过程中,依次确保第一供电接口、第二供电接口和第三供电接口的输出电压正常后,才会启动基本功能模块和增强功能模块,从而保证PCIE卡启动后的正常运行。
本申请第三方面还提出一种计算设备,包括主板以及所述PCIE卡,主板上具有PCIE插槽;所述PCIE卡包括金手指,所述金手指插接于所述PCIE插槽内;所述PCIE卡为如第一方面的PCIE卡,和/或,所述PCIE卡执行上述第二方面的所述的PCIE卡的供电控制方法。
本申请第四方面还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当设备的处理器执行该计算机执行指令时,设备执行如上述第二方面所述的PCIE卡供电控制方法的步骤。
本申请第五方面还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,该计算机执行指令存储在计算机可读存储介质中;当设备的处理器执行该计算机执行指令时,设备执行第二实施例中PCIE卡供电控制方法的步骤。
附图说明
图1是根据本申请第一实施例示出的一种PCIE卡的结构示意图。
图2是根据本申请第一实施例示出的另一种PCIE卡的结构示意图。
图3是根据本申请第一实施例示出的又一种PCIE卡的结构示意图。
图4是根据本申请第一实施例示出的再一种PCIE卡的结构示意图。
图5是根据本申请第二实施例示出的一种PCIE卡供电控制方法的流程图。
图6是根据本申请第二实施例示出的一种PCIE卡启动的流程图。
图7是根据本申请第二实施例示出的一种PCIE卡的状态机图。
图8是根据本申请第三实施例示出的主板与实施例一中的一种PCIE卡的连接示意图。
附图标记说明如下:
100、PCIE卡;11、金手指;111、第一供电接口;112、第二供电接口12、第三供电接口;13、业务模块;13a、SOC芯131片;管理模块;1311、电源管理单元;1312、采样单元;132、基本功能模块;1321、基本功能单元;133、增强功能模块;1331、增强功能单元;14、外接业务口;151、第一电压变换单元;152、第二电压变换单元;153、第三电压变换单元;
200、主板;21、处理器;22、带外管理器件。
具体实施方式
体现本申请特征与实施方式将在以下的说明中详细叙述。应理解的是本申请能够在不同的实施方式上具有各种的变化,其皆不脱离本申请的范围,且其中的说明及图示在本质上是当作说明之用,而非用以限制本申请。
为了进一步说明本申请实施例的原理和结构,现结合附图对本申请实施例进行详细说明。
第一实施例
请参阅图1,图1是根据本申请第一实施例示出的一种PCIE卡100的结构示意图。本实施例提出一种PCIE卡100,用于计算设备。其中,计算设备可以是服务器。在服务器中,通常PCIE卡100与主板200通过PCIE插槽插接,从而进行数据以及控制信号的传输。PCIE卡100的类型有多种,例如PCIE显卡、PCIE网卡或者PCIE声卡等。本实施例中,并不限定PCIE卡100的类型。
PCIE卡100可以包括PCB板,以及设置在PCB板上的功能器件、PCIE金手指11、辅助电源插座等。此处PCIE金手指11、辅助电源插座均可以作为供电接口而向PCIE卡100输入供电功率。
根据PCIE的类型以及功能不同,PCIE上电子器件的类型和数量可能会有一些区别。在本实施例中,以PCIE网卡为例进行说明。对于PCIE网卡上的功能器件可以包括光口、FPGA(Field-Programmable Gate Array,现场可编程门阵列)器件、DDR(Double DataRate,双倍速率同步动态随机存储器)内存、外围电路、MCU(Microcontroller Unit,微控制单元)控制器、CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)、温度传感器、风扇和UART(Universal Asynchronous Receiver/Transmitter,通用异步收发传输器)接口等。在一些功能升级的PCIE卡100上,还可以配置有用于对数据进行进一步的处理的GPU(graphics processing unit,图形处理器)、以及用作扩展网口的辅助光模块等。
为了实现本申请实施例的发明目的,在本实施例中,将PCIE上的功能器件主要分为管理模块131和业务模块13,其中,管理模块131和业务模块13均包括一个或多个电子器件;管理模块131用于监控业务模块13的工作状态,并且与主板200的带外管理器件22通信;业务模块13用于与主板200的处理器21通过PCIE链路进行通信,并处理PCIE链路上的业务。
在此,主板200的带外管理器件22可以是基板管理控制器BMC(BaseboardManagement Controller)。管理模块131连接至基板管理控制器。带外管理器件22的接口名称根据厂家的不同,有不同的名称,例如,基板管理控制器的接口名称可以是iBMC、iDRAC、BMC、IMM口、HDM口等。
业务模块13与主板200进行带内通信,通过PCIE插口与主板200建立PCIE链路,并通过PCIE链路与主板200交互数据,从而进行相关的业务。
在本实施例中,业务模块13可以进行报文解析,AI加速,图像渲染等业务。
在一种实现方式中,根据业务模块13所做的业务,业务模块13可以进一步拆分为基本功能模块132和增强功能模块133。其中,基本功能模块132用于与主板200的处理器21通过PCIE链路进行带内通信,并处理PCIE链路上的基本业务;还可以与外接业务口14连接,从而具有对外通信业务的功能。增强功能模块133与基本功能模块132电连接,用于从基本功能模块132接收数据,处理增强类业务。增强功能模块133也可以与主板200处理器21直接连接,用于从主板200处理器接收数据,处理增强类业务。
在此基本业务可以包括带内的故障诊断,数据处理(报文解析,AI加速,图像渲染等);以及对增强类业务的管理。增强类业务可以包括处理PCIE链路上的数据,例如报文解析,AI加速,图像渲染等,以及扩展的对外接口等。
需要说明的是,增强功能模块133可以用于对PCIE卡的数据处理能力做进一步的增强,此时增强类业务和基本业务可以部分相同,例如均包括报文解析的业务。增强功能模块也可以对PCIE链路上的数据处理方式做进一步的延伸扩展,此时增强类业务可以包括基本业务所不具有的其他业务。
关于管理模块131、基本功能模块132和增强功能模块133的物理形态上,本实施例提供了两种实现方式。
请继续参阅图1。第一种实现方式可以是:管理模块131、基本功能模块132和增强功能模块133均包括多个分立电子器件构成;这些电子器件中可以包括芯片。例如,管理模块131、基本功能模块132和增强功能模块133均可以包括一块或多块芯片。
请参阅图2,图2是根据本申请第一实施例示出的另一种PCIE卡100的结构示意图。第二种实现方式可以是:管理模块131包括多个分立电子器件,而基本功能模块132和增强功能模块133集成为一个SOC芯片13a。该SOC芯片13a内的集成电路能够实现基本功能模块132和增强功能模块133的功能。
以下分别对管理模块131、基本功能模块132、增强功能模块133进行说明。
管理模块131用于管理PCIE卡100的工作。其可以包括电源管理单元1311和采样单元1312。其中采样单元1312可以包括温度传感器、电压检测电路、电流检测电路等,用于采样PCIE卡100上器件的状态参数。电源管理单元1311与采样单元1312电连接,用于监控及管理各个功能部件的工作状态;电源管理单元1311与主板200的带外管理器件22进行通信,以向带外管理器件22通过带外管理通道上报监控数据和PCIE卡100的工作状态等。其中,在一实现方式中,电源管理单元1311可以包括MCU;在另一实现方式中,电源管理单元1311可以包括MCU和CPLD。
在本实施例中,对于PCIE卡100的供电可以由上述电源管理单元1311进行控制,也可以在PCIE卡100上单独设置一个控制器对PCIE卡100的供电进行控制。在下述说明中,以电源管理单元1311作为执行主体,控制PCIE卡100的供电。
在一种实现方式中,基本功能模块132可以包括一个或多个处理器,如intel处理器或ARM处理器,也可以是专用芯片,如网卡芯片,FPGA芯片,xPU芯片等。
在另一种实现方式中,基本功能模块132可以包括有信号隔离电路、高速同步串口收发电路、FPGA芯片、PCIE桥片转换电路、DDR内存、双口RAM数据存储电路、IO口等。其中,FPGA处理控制电路、双口RAM数据存储电路、PCIE桥片转换电路、金手指11依次相连。FPGA处理控制电路与信号隔离电路相连,信号隔离电路通过高速同步串口收发电路进行数据传输。
其中,PCIE桥片转换电路的功能用于将PCIE串行总线转换成LOCAL BUS并行总线并完成PCIE枚举与映射;双口RAM数据存储电路用于存储通信数据,其中一片作为发送数据缓存,另一片作为接收数据缓存;PCIE桥片转换电路将需要的发送数据通过LOCALBUS写入发送数据缓存,将接收的数据从接收数据缓存中读取;FPGA处理控制电路通过译码产生LOCAL BUS读取发送数据缓存,写入接口数据缓存,由此实现两侧数据交换。
增强功能模块133处理后的数据可以传输至基本功能模块132,通过基本功能模块132的对外接口发送到外部。当增强功能模块133配置了对外接口时,也可以自行发送到外部。
需要说明的是,根据增强功能的类别不同,增强功能模块133具体包括的部件也不相同。在一种实现方式中,增强功能模块133包括一个或多个处理器,还可以包括辅助光模块,用作扩展网口。在此处理器可以是FPGA芯片、网卡芯片、或者XPU芯片。
在本实施例中,增强功能模块133并不是必须设置的。本实施例中通过对业务模块13的划分,使得即使不设置增强功能模块133或者增强功能模块133失效/不工作的情况下,PCIE卡100也可以通过管理模块131和基本功能模块132能够继续运行,并完成基础的业务,维持PCIE卡的正常工作。
应当理解,上述管理模块131、基本功能模块132、和增强功能模块133所包含的具体电子器件仅仅是示例,并不构成对本申请保护范围的限制。
请继续参阅图1。PCIE金手指11用于与计算设备的主板200的PCIE插槽插接。通常地,金手指11向PCIE卡100提供电源信号、复位信号、同源差分PCIE参考时钟和PCIE总线等。
在一种实现方式中,PCIE金手指11可以至少可以包括第一供电接口111和第二供电接口112;其中第一供电接口111的输出电压为3.3V,第二供电接口112的输出电压为12V。第一供电接口111的输出额定功率大致在10W。第二供电接口112的输出额定功率大致在66W。在外观上,第一供电接口111和第二供电接口112之间可以没有明显的区分。当然,PCIE金手指11还可以包括更多个供电接口,此处不做具体限定。
在PCIE卡的PCB板上还可以设置有辅助电源插座,辅助电源插座通过连接外部电源,从而向PCIE卡100提供电源。辅助电源插座所提供的功率一般大于66W;例如75W,150W等,此处不做具体限定。在本实施例中,以辅助电源插座作为第三供电接口12。
随着业务多样化,应用复杂化,PCIE卡100的所具备的功能越来越多,且性能也在持续提升,由此使得PCIE卡100的功耗也越来越大,在大功率的PCIE卡100设计中,需要用到PCIE卡100上的辅助电源插座从外部电源取电,以满足PCIE卡100的功率消耗。然而在相关技术中,由于辅助电源插座所提供的功率较大,因此通常是直接利用辅助电源插座输出的功率直接对整个PCIE卡100供电,不使用金手指11电源的供电方式;或者是将辅助电源插座输出的电能和金手指11电能输出的电能合并后共同向PCIE卡100供电。这种供电方式一旦外部电源故障,或安装环境中没有外部电源,将导致大功率PCIE卡100无法正常工作。
在本实施例中,为了提高PCIE卡100工作的稳定性,设置PCIE卡100中的上述管理模块131、基本功能模块132、增强功能模块133分别连接至三个不同的供电接口,以便各自独立地接收供电功率,维持自身的运行。
在一实现方式中,管理模块131可以连接至上述第一供电接口111,以从第一供电接口111获取电能;基本功能模块132连接至第二供电接口112,以从第二供电接口112获取电能;增强功能模块133连接至第三供电接口12,以从第三供电接口12获取电能。当PCIE卡100不具有增强功能模块133时,该实现方式中,第三供电接口12可以不参与对PCIE卡100的供电。
在另一实现方式中,也可以是管理模块131连接至第一供电接口111,从第一供电接口111获得供电功率;基本功能模块132连接至第三供电接口12,从第三供电接口12获得供电功率。增强功能模块133连接至第二供电接口112,以从第二供电接口112获得供电功率。当PCIE卡100不具有增强功能模块133时,该实现方式中,第二供电接口112可以不参与对PCIE卡100的供电。
请参阅图1和图2。在一示例中,第一供电接口111的输出电压为3.3V,第二供电接口112和第三供电接口12的输出电压均为12V。当PCIE卡100的金手指11插接至主板200时,第一供电接口111可以输出电能。第一供电接口111的输出电压为3.3V,与管理模块131中的MCU、CPLD以及各种采样器件的供电电压相匹配,因此利用第一供电接口111为管理模块131供电,基本可以无需对电压进行变换便可以满足管理模块131内各个芯片及器件的供电需求,避免了电压在变换过程中的电能损耗,从而提高了电能的利用率。
在该示例中,第二供电接口112和第三供电接口12的输出电压均为12V。由于基本功能模块132和增强功能模块133中会包含大功率的电子器件,例如处理器,因此通过利用12V的供电电压能够满足大功率处理器的供电需求。并且12V的输出电压通过电压变换电路进行降压后,可以转换成多个不同电压等级的电压,从而为基本功能模块132、增强功能模块133中的其他中小功率的电子器件供电。
对于增强功能模块133,由于其需要进行大量的数据处理任务,因此功率可能会高于基本功能模块132。本实施例中设置第三供电接口12向增强功能模块133供电。第三供电接口12的供电电压可以是高于12V,例如24V,当然也可以是其他电压等级。由于第三供电接口12的电能来自于外部电源,因此能够较为灵活的设计第三供电接口12的输出功率,满足增强功能模块133的供电需求。
本实施例中,考虑到管理模块131、基本功能模块132和增强功能模块133各自所包含的电子器件供电需求电压或有不同,因此本实施例中通过针对每个模块设置电压变换电路,从而实现为PCIE卡100上的各个电子器件的匹配性供电。
具体的,本实施例中,可以设置PCIE卡100包括第一电压变换电路151。第一电压变换单元151具体可以包括一个或多个DC-DC电路,每个DC-DC电路的输出电压可以不同,从而适配不同器件的供电需求。每个DC-DC电路可以受控于管理模块131中的MCU,以在MCU的控制下调整变换后的电压。在此,DC-DC电路可以是升压电路、降压电路或滤波电路,具体可以根据需要设置。
类似的,PCIE卡100的供电电路包括第二电压变换单元152。第二电压变换单元152电连接在第二供电接口112和基本功能模块132之间。第二电压变换单元具体可以包括一个或多个DC-DC电路。每个DC-DC电路的输出电压可以不同,从而适配不同器件的供电需求。例如当第二供电接口112输出电压为12V时,DC-DC电路可以将12V电压变换为3.3V、2.4V、1.8V、1.2V、0.85V、0.9V等多个电压等级。具体可以根据需要设置。
类似的,PCIE卡100还包括第三电压变换单元153。第三电压变换单元153电连接在第三供电接口12和增强功能模块133之间。第三电压变换单元包括一个或多个DC-DC电路。DC-DC电路可以将第三供电接口12的输出电压变换为3.3V、2.4V、1.8V、1.2V、0.85V、0.9V等多个电压等级。该DC-DC电路可以是升压电路、降压电路或滤波电路,具体可以根据需要设置。每个DC-DC电路可以受控于管理模块131中的MCU。
在本实施例中,由于管理模块131、基本功能模块132和增强功能模块133分别由不同供电接口获取供电电能,因此当第二供电接口112故障,导致基本功能模块132失效,无法进行业务处理时;但是由于管理模块131仍可以继续工作,因此管理模块131可以通过与主板200之间的带外管理通道,向主板200上报当前PCIE卡100的故障信息,最大化的实现单板故障可感知。而当第二供电接口112恢复正常时,如果计算设备的系统支持热插拔功能,则通过热插拔可以恢复基本功能模块132的工作,而无需重新启动系统。
当第三供电接口12故障时,将导致增强功能模块133被动或主动失效,由于PCIE卡100和主板200系统的带内通信功能由基本功能模块132支撑,因此不受增强功能模块133失效的影响;当第三供电接口12恢复时,无需系统重新启动,增强功能模块133就可以被动或主动恢复工作。
本实施例基于对PCIE卡100上电子器件通过划分,对管理模块131单独供电,实现了带内功能和带外功能解耦,使带内故障不影响带外。本实施例这种供电方式可以在第二供电接口112和第三供电接口12故障时,仍可以维持管理模块131的正常工作,由此可以保持主板200与PCIE卡100的正常的带外通信,使主板200及时获知PCIE的故障信息,最大化实现主板100对PCIE卡100故障的感知。并且,可以基于PCIE卡100的热插拔功能,无需主板200系统重启,便可以在第二供电接口112/第三供电接口12恢复正常的情况下,重新使PCIE卡100恢复正常业务。
另外本实施例中对业务模块13进一步划分为基本功能模块132和增强功能模块133,并使基本功能模块132和增强功能模块133分别采用不同的供电接口供电。当第三供电接口12故障时,不会影响管理模块131和基本功能模块132的正常工作,从而提高了PCIE工作的稳定性,也实现了故障隔离。并且利用第三电源接口(辅助电源插座)为增强功能模块133供电,能够满足增强功能模块133大功率的供电需求。
另外,本实施例通过功能分区以及电源分区,从而能够分区对PCIE卡100的工作功率进行控制,从而能够提高对PCIE卡100工作功率控制的便利性,实现了在有效调控PCIE卡100工作功率的同时,尽可能的保证PCIE卡100的工作稳定性、减少对PCIE卡100工作性能的影响。
请参阅图3,图3是根据本申请第一实施例示出的又一种PCIE卡100的结构示意图。进一步的,为了提高对金手指11所提供电能的利用率,本实施例中可以设置基本功能模块132包括一个或多个基本功能单元1321;第一供电接口111还与至少一个基本功能单元1321电连接,从而第一供电接口111为管理模块131供电后的剩余供电功率可以用于为至少一个基本功能单元1321供电。具体的,第一供电接口111可以连接至第二供电接口112的输出端。第一供电接口111也可以连接至为一个或多个基本功能单元1321提供电压变换的DC-DC电路的前端。
在此基本功能单元1321的划分方式可以有多种;例如以芯片级进行划分,一个芯片及其外围电路作为一个基本功能单元1321;也可以以功能单元进行划分,每个功能单元可能包括一个或多个芯片。例如,将处理报文解析业务的相关器件作为一个基本功能单元1321;将处理AI加速的相关器件作为另一个基本功能单元1321,将处理图像渲染业务的相关器件作为一个基本功能单元1321。
在一种实现方式中,可以在对PCIE卡100供电设计的过程中,估算管理模块131所需要的功率,以及第一供电接口111所能提供的功率,根据两者的差值,确定第一供电接口111为管理模块131供电后的剩余功率,进而确定第一供电接口111还用于为至少一个基本功能单元1321供电;并通过在PCB板上设计走线以形成供电通路。示意性的,由于第一供电接口111输出的电压为3.3V,因此可以用于为基本功能模块132中供电电压要求为3.3V的芯片或其他器件供电。在该实现方式中,在PCIE卡100的工作过程中,第一供电接口111将会保持对上述至少一个基本功能单元1321供电。
在另一种实现方式中,可以在对PCIE卡100供电设计的过程中,预先在第一供电接口111与至少一个基本功能单元1321之间设计供电通路。电源管理单元1311监控管理模块131的工作功率,进而确定出第一供电接口111为管理模块131供电后的剩余供电功率。若是剩余功率高于设定的功率基准值,则可以开启第一供电接口111与基本功能单元1321之间的供电通路。还可以进一步根据剩余功率与上述至少一个基本功能单元1321的工作功率,确定是全部开启或者部分开启第一供电接口111与多个基本功能单元1321之间的供电通路,从而提高对第一供电接口111输出功率的利用率。可以看出,该实现方式中,在PCIE卡100的工作过程中,第一供电接口111会选择性的对上述至少一个基本功能单元1321供电,或不供电。
在具体的实现上,供电通路的通断控制方案具体可以是通过在供电通路上设置开关管,并使该开关管受控于电源管理单元1311。根据控制策略,控制一个或多个供电通路上的开关管导通/关断,实现控制第一供电接口111为一个或多个基本供电单元的供电控制。
请继续参阅图3。在本实施例中,第一供电接口111多余的功率还可以为增强功能模块133供电。具体的,增强功能模块133包括一个或多个增强功能单元1331。增强功能单元1331的划分可以芯片级进行划分,一个芯片及其外围电路作为一个增强功能单元1332;也可以以功能单元进行划分,每个功能单元可能包括一个或多个芯片。例如,可以将处理报文解析业务的相关器件作为一个增强功能单元1331;将处理AI加速的相关器件作为另一个增强功能单元1331,将处理图像渲染业务的相关器件作为一个增强功能单元1331。
第一供电接口111可以与至少一个增强功能单元1331电连接;第一供电接口111为管理模块131供电后的剩余供电功率为至少一个增强功能单元1331供电。
在一种实现方式中,可以在对PCIE卡100供电设计的过程中,估算管理模块131所需要的功率,以及第一供电接口111所能提供的功率;根据两者的差值,确定第一供电接口111为管理模块131供电后的剩余功率,进而确定第一供电接口111还用于为上述至少一个增强功能单元1331供电;并通过在电路板上设计走线以形成供电通路。由于第一供电接口111输出的电压为3.3V,因此可以为增强功能模块133中供电电压要求为3.3V的芯片供电。在该实现方式中,在PCIE卡100的工作过程中,第一供电接口111将会保持对上述至少一个增强功能单元1331供电。
在另一种实现方式中,可以在对PCIE卡100供电设计的过程中,预先在第一供电接口111与至少一个增强功能单元1331之间设计供电通路。在计算设备工作过程中,电源管理单元1311监控管理模块131的工作功率,进而计算出第一供电接口111为管理模块131供电后的剩余供电功率;若是剩余功率高于设定的功率基准值,则可以开启第一供电接口111向增强功能单元1331的供电通路。还可以进一步根据剩余功率与多个增强功能单元1331的工作功率的比较,确定是全部开启或者部分开启第一供电接口111与多个增强功能单元1331之间的供电通路。可以看出,该实现方式中,在PCIE卡100的工作过程中,第一供电接口111会选择性的对上述至少一个增强功能单元1331供电,或者不供电。
请参阅图4,图4是根据本申请第一实施例示出的再一种PCIE卡100的结构示意图。在本实施例中,还可以利用第二供电接口112多余的功率为增强功能模块133供电。
在一种实现方式中,可以在对PCIE卡100供电设计的过程中,估算基本功能模块132所需要的功率,以及第二供电接口112所能提供的功率;根据两者的差值,确定第二供电接口112为基本功能模块132供电后的剩余功率,进而确定第二供电接口112还用于为上述至少一个增强功能单元1331供电;并通过在电路板上设计走线以形成供电通路。由于第二供电接口112输出的电压为12V,因此可以为增强功能模块133中供电电压要求为12V的芯片供电。在该实现方式中,在PCIE卡100的工作过程中,第二供电接口112将会保持对上述至少一个增强功能单元1331供电。
在另一种实现方式中,可以在对PCIE卡100供电设计的过程中,预先在第二供电接口112与至少一个增强功能单元1331之间设计供电通路。在计算设备工作过程中,电源管理单元1311监控基本功能模块132的工作功率,进而计算出第二供电接口112为基本功能模块132供电后的剩余供电功率;若是剩余功率高于设定的功率基准值,则可以开启第二供电接口112向增强功能单元1331的供电通路。还可以进一步根据剩余功率与多个增强功能单元1331的工作功率比较,确定是全部开启或者部分开启第二供电接口112与多个增强功能单元1331之间的供电通路。可以看出,该实现方式中,在PCIE卡100的工作过程中,第二供电接口112会选择性的对上述至少一个增强功能单元1331供电,或不供电。
第二实施例
请参阅图5,图5是根据本申请第二实施例示出的一种PCIE卡100供电控制方法的流程图。可以基于上述PCIE卡100的供电架构,本申请第二实施例还提出一种PCIE卡100的供电方法。具体的,PCIE卡100的供电方法包括:
S31,当第一供电接口111输出供电电压正常时,第一供电接口111向管理模块131输出功率;
S32,当第二供电接口112输出供电电压正常时,使第二供电接口112向基本功能模块132输出功率。
S33,当第三供电接口12输出供电电压正常时,使第三供电接口12为增强功能模块133供电。
应当理解的是,若是PCIE卡100上没有增强功能模块133,或者增强功能模块133所消耗的功率较少时,则可以列入基本功能模块132中,由第二供电接口112进行供电;此时可以省略步骤S3。
上述步骤S1~S3的执行主体可以是PCIE卡100上的电源管理单元1311,也可以是单独设置在PCIE卡100上设置控制器。在本实施例中,以电源管理单元1311作为执行主体,控制PCIE卡100的供电来进行说明。
本实施例基于对PCIE卡100上电子器件通过划分,对管理模块131单独供电,实现了带内功能和带外功能解耦,使带内故障不影响带外。本实施例这种供电方式可以在基本功能模块132或增强功能模块133失效时,仍可以维持管理模块131的正常工作,由此可以保持主板200与PCIE卡100的正常的带外通信,使主板200及时获知PCIE的故障信息,并且可以基于PCIE卡100的热插拔功能,无需主板200系统重启,便可以在第二供电接口112/第三供电接口12恢复正常的情况下,重新使PCIE卡100恢复正常业务。并且本实施例中对带内相关的电子器件划分为基本功能模块132和增强功能模块133,并使基本功能模块132和增强功能模块133分别采用不同的供电接口供电,在当第三供电接口12故障时,不会影响管理模块131和基本功能模块132的正常工作,从而提高了PCIE工作的稳定性,也实现了故障隔离。并且利用第三电源接口(辅助电源插座)为增强功能模块133供电,能够满足增强功能模块133大功率的供电需求。并且,本实施例通过功能分区以及电源分区,从而能够分区对PCIE卡100的工作功率进行控制,从而能够提高对PCIE卡100工作功率控制的便利性,实现了在有效调控PCIE卡100工作功率的同时,尽可能的减小PCIE的工作稳定性以及工作性能。
在PCIE卡100的运行过程中,上述步骤S1~S3并无严格的先后执行次序。然而,在当PCIE卡100的启动过程中,会依次确定第一供电接口111、第二供电接口112、第三供电接口12是否正常。并根据检测结果确定启动的模块。
在一种实现方式中,PCIE供电方法还包括:
响应于PCIE卡100的启动信号;若第一供电接口111输出电压正常,则管理模块131正常启动;若第一供电接口111输出电压不正常,则结束PCIE卡100启动流程;
若第一供电接口111的输出电压正常或若管理模块131正常启动,则检测第二供电接口112的输出电压是否正常;若第一供电接口111的输出电压不正常,则PCIE卡100启动故障;
若第二供电接口112的输出电压正常,则检测第三供电接口12的输出电压是否正常;若第二供电接口112的输出电压不正常,则向主板200系统发送故障信息;
若第三供电接口12的输出电压正常,则控制基本功能模块132和增强功能模块133有序上电。若第三供电接口12的输出电压不正常,则控制基本功能模块132有序上电、增强功能模块133保持关闭状态。
图6给出了该实现方式的流程示意图。在该实现方式中,PCIE在启动过程中,依次确保第一供电接口111、第二供电接口112和第三供电接口12的输出电压正常后,才会启动基本功能模块132和增强功能模块133。
在整个PCIE工作过程中,可以定时循环检测第一供电接口111、第二供电接口112和第三供电接口12的输出电压是否正常。若不正常,且相应关闭PCIE卡100上相应的模块。在此,根据第一供电接口111、第二供电接口112和第三供电接口12的异常情况,PCIE卡100可以在各个工作状态中进行灵活切换。
请参阅图7,图7是根据本申请第二实施例示出的一种PCIE卡100的状态机图。具体的,PCIE卡100的供电可以有以下a、b、c、d四个状态。例如,a、第一供电接口111、第二供电接口112、第三供电接口12电压输出均正常;b、第一供电接口111、第二供电接口112电压输出正常、第三供电接口12电压输出异常;c、第一供电接口111电压输出正常、第二供电接口112、第三供电接口12电压输出均异常;d、第一供电接口111电压、第二供电接口112、第三供电接口12电压输出均异常。对于上述状态a,对应PCIE卡100的管理模块131、基本功能模块132、增强功能模块133均能正常启动。对于上述状态b,对应PCIE卡100的管理模块131、基本功能模块132能正常启动、增强功能模块133关闭。对于上述状态c,对应PCIE卡100的管理模块131能正常启动、基本功能模块132、增强功能模块133关闭。对于上述状态d,对应PCIE卡100的管理模块131、基本功能模块132、增强功能模块133均关闭。
上述a、b、c、d四个状态之间可以进行切换,从而可以灵活的根据三个供电接口的异常与否,控制管理模块131、基本功能模块132、增强功能模块133的上电、用电情况,提高了对PCIE卡100供电的灵活性;并且降低PCIE卡100宕机的概率,提高了PCIE卡100工作的稳定性。
在此,上述供电接口输出电压“正常”“异常”的判定标准可以是供电接口的输出电压与额定电压之间的偏差是否超过预设阈值;若超过,则判定为“异常”,若不超过,则判定为“正常”。
请参阅图3,在上述第一实施例中提到,第一供电接口111为管理模块131供电后的剩余供电功率用于为至少一个基本功能单元1321供电。在第一供电接口111同时为管理模块131和至少一个基本功能单元1321供电的情况下,方法还包括:
监控第一供电接口111的输出电压/输出功率;
当第一供电接口111输出电压/输出功率降低至第一预设阈值之下时,使第一供电接口111停止为上述至少一个基本功能单元1321和/或至少一个增强功能单元1331供电。
具体的,可以通过管理模块131中的采样单元1312监控第一供电接口111的输出电压,采样单元1312将采样结果发送给电源管理单元1311。
在此,第一预设阈值可以是预设的值。第一供电接口111输出的电能用于满足管理模块131的用电需求。当管理模块131的消耗功率较小时,第一供电接口111为管理模块131供电后的剩余供电功率还可以用于为至少一个基本功能单元1321和/或至少一个增强功能单元1331供电。然而,根据计算设备的不同工作场景或工作模式,管理模块131的工作功率会出现波动。当管理模块131的消耗功率增大,或者接收第一供电接口111输出功率的基本功能单元1321/增强功能单元1331的消耗功率增大时,而导致第一供电接口111的输出电压/输出功率低于额定值过多,进而会影响管理模块131的正常工作。基于此,本实施例中,可以在监控到第一供电接口111的输出功率降低幅值超过第一预设阈值时,使第一供电接口111停止为上述至少一个基本功能单元1321和/或至少一个增强功能单元1331供电,从而使第一供电接口111输出的功率优先保障管理模块131的供电需求。
请参阅图4,类似的,本实施例中的方法还可以包括:
获取第二供电接口112在为基本功能模块132供电后的剩余供电功率;
若剩余供电功率大于第二功率,则使第二供电接口还为增强功能模块133供电;
监控第二供电接口112的输出电压/输出功率;
当第二供电接口112的输出电压/输出功率降低至第二预设阈值之下时,则使第二供电接口112停止为增强功能模块133供电。
在此,第二预设阈值可以由工作人员预先设置。第二供电接口112输出的电能用于满足基本功能模块132的用电需求;当基本功能模块132的工作功率较小时,第二供电接口112为基本功能模块132供电后的剩余供电功率可以用于为至少一个增强功能单元1331供电。然而当基本功能模块132的消耗功率增大,或者接收第二供电接口112输出电能的增强功能单元1331的消耗功率增大时,导致第二供电接口112的输出功率低于额定值过多,从而可能会影响基本功能模块132的正常工作。基于此,本实施例中,可以在监控到第二供电接口112的输出功率输出电压/降低至第二预设阈值之下时,使第二供电接口112停止为上述至少一个增强功能单元1331供电,从而优先保证基本功能模块132的供电需求。
基于本实施例的供电电路架构,能够实现模块间的故障隔离。当某一供电接口故障时,本实施例进一步能够通过供电接口之间功率的调用,提高PCIE卡100工作的可靠性。具体的,本实施例的供电方法还可以包括:
监控第一供电接口111的输出电压/输出功率;
当第一供电接口111输出电压/输出功率异常时,使第二供电接口112同时为基本功能模块132和管理模块131供电;或使第三供电接12口同时为增强功能模块133和管理模块131供电。
本实施例中,“/”表示“或”的意思。应当理解的是,第二供电接口112和/或第三供电接口12需要与管理模块131具有供电通路。在第一供电接口111正常的状态下,第二供电接口112或第三供电接口12不对管理模块131进行供电。一旦电源管理单元1311监控到第一供电接口111的输出电压/输出功率异常,难以维持管理模块131的供电需求时;此时,为了避免因管理模块131无法继续工作导致整个PCIE卡100宕机,本实施例通过使第二供电接口112或第三供电接口12向管理模块131供电,进而维持管理模块131的继续工作,避免整个PCIE卡100与主板200系统失联,从而提高了PCIE卡100工作的稳定性。
当第一供电接口111的输出电压恢复正常时,则在电源管理单元1311的协调控制下,使第一供电接口111恢复对管理模块131的供电,且使第二供电接口112或第三供电接口12停止为管理模块131供电。各个模块之间继续保持隔离供电的供电状态。
类似的,在本实施例的供电方法还可以包括:
监控第二供电接口112的输出电压/输出功率;
当第二供电接口112输出电压/输出功率异常时,使第三供电接口12同时为基本功能模块132和增强功能模块133供电;
若是第二供电接口112的输出功率小于基本功能模块132与增强功能模块133的功率需求之和时,获取第三供电接口12为基本功能模块132供电后的剩余供电功率;
按照预设的供电优先级,利用剩余供电功率,为增强功能模块133中的一个或多个增强功能单元1331优先供电;其中,增强功能模块133包括多个增强功能单元1331,多个增强功能单元1331具有预设的供电优先级。
应当理解的是,第三供电接口12需要与基本功能模块132之间具有供电通路。示意性的,当采样单元1312监控到第二供电接口112的输出电压/输出功率异常,电源管理单元1311确定第二供电接口112难以维持基本功能模块132的供电需求时;为了使基本功能模块132能够继续工作,保持PCIE卡100的工作稳定性。本实施例中,可以通过使第三供电接口12向基本功能模块132供电,从而维持基本功能模块132的继续工作。
当第三供电接口12无法同时满足基本功能模块132和增强功能模块133的供电需求时,可以停止向增强功能模块133中的一个或几个增强功能单元停止供电,从而尽量满足基本功能单元132的功率需求,从而使PCIE卡100能维持基本的业务处理。
当第二供电接口112的输出电压恢复正常时,则在电源管理单元1311的协调控制下,使第二供电接口112恢复对基本功能模块132的供电,且使第三供电接口12停止为基本功能模块132供电。各个模块之间继续保持隔离供电的供电状态。
本实现方式中,在第二供电接口112故障时,通过使第三供电接口12为基本功能模块132供电,从而保证PCIE卡100能够处理基本业务。并且当第三供电接口提供的功率无法满足基本功能模块132和增强功能模块133时,通过设置基本功能单元132具有更高的优先级,从而保证对基本业务的处理。并且通过在增强功能单元1331之间设置优先级,从而尽量使更多的或者重要的增强功能单元1331可以进行工作,从而减少对PCIE卡100工作性能的影响。
由于第一供电接口111和管理模块131还在正常工作,因此PCIE卡100与主板之间的带外通信通道正常,可以正常上报故障信息。具体的,本申请实施例的一种实现方式中,方法还包括:
当第二供电接口输出电压/输出功率异常时,通过管理模块向主板的带外管理器件发送第二供电接口的异常信息;
监控第二供电接口的输出电压/输出功率;
当第二供电接口输出电压/输出功率恢复正常,则使第二供电接口为基本功能模块供电,且第三供电接口停止为基本功能模块供电。
具体的,当第二供电接口112恢复正常后,此时导通第二供电接口112与基本功能单元132之间的供电通路,同时断开第三供电接口12与基本功能单元132之间的供电通路。
本实现方式中,在第二供电接口112故障的场景下,能够实现故障上报,当第二供电接口112恢复正常后,PCIE卡100通过热插拔功能,便可以在线实现功能恢复,从而快速恢复PCIE卡高性能的工作状态。
本实施例的供电方法还可以包括:
监控第三供电接口12的输出电压/输出功率;
当第三供电接口12输出电压/输出功率异常时,使第二供电接口112向增强功能模块133供电;
应当理解的是,第二供电接口112需要与增强功能模块133具有电连接关系。示意性的,当采样单元1312监控到第三供电接口12的输出电压/输出功率异常,电源管理单元1311确定第三供电接口12难以维持增强功能模块133的供电需求时,为了使增强功能模块133能够继续工作,保证PCIE卡100的工作稳定性;本实施例中,通过使第二供电接口112向增强功能模块133供电,从而维持增强功能模块133的继续工作。
由于此时第二供电接口112输出的电能需要满足基本功能模块132的工作需要,且由于增强功能模块133的工作功率较大,因此可能会出现第二供电接口112无法同时满足基本功能模块132和增强功能模块133的供电需求。因此在本实施例中,通过对增强功能模块133采用分级供电的方式,实现在满足基本功能模块132供电需求的前提下,尽量提高增强功能模块133的工作性能。
具体的,本实施例中,增强功能模块133可以包括多个增强功能单元1331,在本实施例中,当第三供电接口12输出电压/输出功率异常时,使第二供电接口112向增强功能模块133供电,包括:
若是第二供电接口112的输出功率小于基本功能模块132与增强功能模块133的功率需求之和时,获取第二供电接口112为基本功能模块132供电后的剩余供电功率;
按照预设的供电优先级,利用剩余供电功率,为增强功能模块133中的一个或多个增强功能单元优先供电;其中,增强功能模块133包括多个增强功能单元1331,多个增强功能单元1331具有预设的供电优先级。
具体的,多个增强功能单元1331之间具有预设的供电优先级。在一示例中,供电优先级可以是根据上述多个增强功能单元1331的功能重要性来确定;功能重要性越高,供电优先级越高。例如,处理报文解析业务的增强功能单元具有第一(最高)优先级,处理AI加速的增强功能单元具有第二优先级,处理图像渲染的增强功能单元具有第三优先级。
需要说明的是,增强功能单元1331的供电优先级可以在出厂时设定好,也可以在出厂后通过主板200的带外管理系统进行设置或修改。
本实现方式中,在第三供电接口12故障时,通过使第二供电接口112为增强功能模块133供电。并且当第二供电接口112提供的功率无法满足基本功能模块132和增强功能模块133时,通过设置基本功能单元1321具有更高的优先级,从而保证对基本业务的处理。并且通过在增强功能单元1331之间设置优先级,从而尽量使更多的或者重要的增强功能单元1331可以进行工作,从而减少对PCIE卡100工作性能的影响。
示意性的,第二供电接口112可输出的供电功率为66W,基本功能模块132的消耗功率为40W。因此第二供电接口112在为基本功能模块132供电后的剩余供电功率还有26W。在此,该消耗功率可以是通过基本功能模块132与冗余系数的乘积确定,其中冗余系数大于1,从而为基本功能模块提供一定的功率裕量。因此本实施例中,可以将第二供电接口112剩余的26W功率提供给增强功能模块133。由于增强功能模块133内包括多个增强功能单元1331,因此当26W的功率无法同时满足所有增强功能单元1331的供电需求时,可以按照上述供电优先级,对全部或部分增强功能单元1331优先供电,直至26W功率分配完成或不足以对下一优先级的增强功能模块133供电。
应当理解的是,若是第二供电接口112在为基本功能供电后,并无剩余供电功率时,则不对增强功能单元1331供电。若是该剩余供电功率较小而无法满足位于第一优先级的增强功能单元1331的供电需求时,则可以向后顺延比较该剩余功率是否满足位于第二优先级的增强功能单元1331的供电需求;若是不满足,则进一步向后顺延比较该剩余功率是否满足位于第三优先级的增强功能单元1331的供电需求。直至确定供电需求与该剩余功率匹配的增强功能单元1331,之后电源管理单元1311控制第二供电接口112为该增强功能单元1331供电。
当出现用于为第三供电接口12输入电能的外部电源电能不足或者计算设备内温度过高等异常情况时,主板200系统会向PCIE卡100下发功率限制值,PCIE卡100的工作功率被要求在该功率限制值之下。因此,在本实施例中,当系统下发了功率限制值时,PCIE卡100自主进行功率动态管理,以保证PCIE卡100工作的稳定性。
根据系统所下发的功率限制值的大小,本实施例的管理策略有所不同。在第一种场景中,本实施例的供电方法还包括:
获取PCIE卡100所允许消耗的功率限制值;
若功率限制值小于或等于第一供电接口111与第二供电接口112所提供的供电功率之和,则关闭增强功能模块133的工作和/或关闭第三供电接口12的功率输出。
示意性的,电源管理单元1311先与主板200的处理器21进行交互,以获取PCIE卡100所允许消耗的功率限制值。
由于第一供电接口111与第二供电接口112所提供的供电功率可以基于第一供电接口111输出的额定功率和第二供电接口112输出的额定功率计算出。因此当功率限制值小于或等于第一供电接口111与第二供电接口112所提供的供电功率之和时,本实施例会优先停止增强功能模块133的工作,从而尽量维持管理模块131和基本功能模块132的继续工作,使PCIE卡100维持基本的工作功能,保证PCIE卡100的工作稳定性。
示意性的,例如功率限制值为60W,第一供电接口111输出的额定功率有10W,第二供电接口112输出的额定功率有66W;此时功率限制值小于第一供电接口111与第二供电接口112所提供的供电功率之和。因此本实施例中,会优先关闭增强功能模块133的工作。
在此,可以是电源管理单元1311通过发送断电指令,以指示增强功能模块133停止工作;也可以是电源管理单元1311通过发送相关指令,以封锁第三供电接口12的功率输出。
在第二种场景中,本方法还可以包括以下步骤:
获取PCIE卡100所允许消耗的功率限制值;
若功率限制值大于第一供电接口111与第二供电接口112所提供的供电功率之和,则开启第三供电接口12的功率输出;
根据功率限制值减去管理模块131工作时的消耗功率以及基本功能模块132工作时消耗的功率后余下的剩余功率,为增强功能模块133供电。
示意性的,例如功率限制值为90W,第一供电接口111输出的额定功率有10W,第二供电接口112输出的额定功率有66W,此时功率限制值大于第一供电接口111与第二供电接口112所提供的供电功率之和;因此本实施例中,会开启第三供电接口12的功率输出,使增强功能模块133开始工作。
该可能的实现方式中,基于PCIE卡100所允许消耗的功率限制值确定是否需要开启第三供电接口12的供电功率输出或者开启增强功能模块133的工作。由于增强功能模块133失效不影响PCIE卡100基本功能模块的工作,因此通过调整对增强功能模块133的供电,从而使PCIE卡100的总功率满足PCIE卡100所允许消耗的功率限制值,最大可能的保证了PCIE卡100基本工作业务的正常运行。
若是功率限制值减去管理模块131的工作功率以及基本功能模块132的工作功率后余下的剩余功率足以使增强功能模块133中所有的增强功能单元1331工作,则电源管理单元1311会启动所有增强功能单元1331。
然而,若是功率限制值减去管理模块131的工作功率以及基本功能模块132的工作功率后余下的剩余功率不足以使增强功能模块133中所有的增强功能单元1331工作时;则需要基于该剩余功率,确定被具体启动工作的增强功能单元1331。在本实施例中,至少可以有以下两种方式确定具体启动工作的增强功能单元1331。
在第一种方式中,可以按照预设的供电优先级,利用剩余功率,优先为一个或多个增强功能单元1331供电。在此,预设的供电优先级可以是预先设置的。电源管理单元1311根据该预设的供电优先级确定可以启动工作的一个或多个增强功能单元1331,并导通第三供电接口12与该一个或多个增强功能单元1331之间的供电通路。应当理解的是,这些启动的一个或多个增强功能单元1331的消耗功率之和应小于或等于上述剩余功率。
在第二种方式中,根据剩余功率,控制一个或多个增强功能单元1331工作于各自的额定功率之下。在此,可以利用这些一个或多个增强功能单元1331自身的功率调节功能,下调自身的工作功率。在此可以是等比例下调,也可以是增强功能单元1331根据自身的不同工作模式下调工作功率。应当理解,在一个或多个增强功能单元1331下调功率后,增强功能模块133消耗功率小于或等于剩余功率。
需要说明的是,可能并非每一个增强功能单元1331都具有功率下调的功能,因此,本实施例中,具有功率调节功能的增强功能单元1331可以采用功率下调的方式,而不具有功率调节功能的增强功能单元1331可以采用不进行功率下调或者停止工作的方式。
在该可能的实现方式中,若是功率限制值减去管理模块131的工作功率以及基本功能模块132的工作功率后余下的剩余功率不足以使增强功能模块133中所有的增强功能单元1331工作时,通过进一步的精细的控制策略,尽可能的使更多的增强功能单元1331可以工作,从而降低因功率限制对PCIE卡100的工作性能造成的影响。
在本实施例的另一实现方式中,PCIE卡的供电方法包括:
分别监控各个模块工作时的供电功率;其中,模块包括管理模块、基本功能模块,以及增强功能模块;
若模块超过该模块对应的供电功率极限值,则停止对该模块供电。
可以通过采样单元1312监控各个模块的供电功率,当检测到某一模块的供电功率异常时,则表示相应的供电接口或者该模块内部出现故障,此时通过停止对该模块供电,实现故障隔离,降低对其他模块工作的影响。
在PCIE卡100工作中,会产生较高的热量。若热量持续聚集,则会对PCIE卡100工作安全性造成威胁。为了保证PCIE卡100工作的安全性。本实施例中,可以在PCIE卡100上选择一个或多个温度检测点。温度检测点的温度可以由温度传感器进行检测;有些处理器自带有温度检测功能。温度检测点可以设置在关键器件和/或温度敏感的电子器件上,或其附近。
本实施例中,基于温度检测点的温度可以对管理模块131、基本功能模块132、和增强功能模块133自动进行精细化的功耗管理。具体的,本实施例供电控制方法还可以包括:
获取温度检测点的温度;
若温度检测点的温度高于温度阈值,则降低或关闭温度检测点所在模块的供电功率;其中模块为管理模块131、基本功能模块132、增强功能模块133至少其中之一。
在本实施例中,当某一温度检测点的温度超过阈值时,可通过该温度检测点所在的位置或该温度点所靠近的电子器件,而定位温度检测点所在的模块。由于一个模块内的各个电子器件的工作具有关联性,因此通过同步使模块内各个电子器件的功率降低,从而可以在降低PCIE卡100发热量的同时,保持该模块内各个电子器件工作量的匹配,从而有利于保持PCIE卡100工作的稳定性。
本实施例中,由于管理模块131、基本功能模块132、增强功能模块133分别连接至不同的供电接口,因此可以通过对各个供电接口输出功率的控制,便利地实现对相应模块工作功率的调节,从而保证PCIE卡100上的温度保持在一个安全范围内。
对比现有技术中,若是关键点温度过高,则会统一降低PCIE卡100上所有器件的工作功率,以达到降低温度检测点温度的目的。本申请实施例中基于PCIE卡100供电电路的改进,能够实现基于超温温度检测点的位置,实现降低超温关键温度点所在模块的整体功率,尽可能减少对PCIE卡100的工作性能的影响。本实施例实现了对PCIE卡100上各个器件功率的精细化管理,在实现PCIE卡100工作不超温的同时,保证PCIE卡100的工作性能和工作稳定性。
为了进一步减少因温度检测点超温,对PCIE卡100上某一模块进行功率调节所造成的PCIE卡100性能的下降的影响。在本实施例中,上述步骤:若温度检测点的温度高于温度阈值,则降低或关闭温度检测点所在模块的供电功率;PCIE卡100的供电控制方法,可以包括:
若温度检测点的温度高于温度阈值,则确定该温度检测点所在的功能单元;其中,功能单元属于三个模块中之一;
降低或关闭温度检测点所在的功能单元的供电功率。
在此,功能单元可以为管理模块131中的采样单元1312或者电源管理单元1311、基本功能模块132中的基本功能单元1321、增强功能模块133中的基本功能单元1331。示意性的,假设超温的温度检测点位于基本功能模块132中的第一基本功能单元1321,则降低或关闭该第一基本功能单元1321的供电功率。具体可以是电源管理单元1311控制为第一基本功能单元1321变换电压的DC-DC电路,通过调整该DC-DC电路的输出电压,从而达到调整第一基本功能单元1321供电功率的目的。
类似的,超温的温度检测点也可以是位于增强功能模块133中的第一增强功能单元1331;或位于管理模块131中的第一管理单元。
本实施例通过对三个模块进行进一步的功能划分,在温度检测点超温的情况下,不仅能够有效的进行功率调节,使温度检测点的温度降低,保证PCIE卡100工作的安全性;同时还能够减少被功率调控的电子器件的数量,降低对PCIE卡100工作性能的影响。
本申请实施例的方法还包括:
分别监控各个模块工作时的供电功率;其中,模块包括管理模块、基本功能模块,以及增强功能模块;
若模块超过该模块对应的供电功率极限值,则停止对该模块供电。
通过采样单元1312监控各个模块的供电功率,当检测到某一模块的供电功率异常时,则表示相应的供电接口或者该模块内部出现故障,此时通过停止对该模块供电,实现故障隔离,降低对其他模块工作的影响。
第三实施例
请参阅图8,图8是根据本申请第三实施例示出的主板200与实施例一中的一种PCIE卡100的连接示意图。本申请实施例还提出一种计算设备。计算设备可以是服务器、电脑主机等。在此以服务器为例进行说明。服务器包括主板200以及上述第一实施例中的PCIE卡100,主板200上具有PCIE插槽。PCIE插槽的数量可以有一个或多个,且PCIE插槽的规格可以有不同。PCIE卡100包括PCB板,以及设置于PCB卡边缘的金手指11。金手指11通过与PCIE插槽插接,从而实现与PCIE卡100与主板200的处理器21以及带外管理器件22等器件之间进行通信。
由于本实施例中的计算设备包括上述第一实施例中的PCIE卡100,且第一实施例中的PCIE卡100能够实现第二实施例中的供电控制方法,因此本实施例中的计算设备具备第一实施例、第二实施例中所有的方案及其有益效果,此处不再赘述。
第四实施例
本申请还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当设备的处理器执行该计算机执行指令时,设备执行第二实施例中PCIE卡100供电控制方法的步骤。
第五实施例
本申请还提供一种计算机程序产品,该计算机程序产品包括计算机执行指令,该计算机执行指令存储在计算机可读存储介质中;当设备的处理器执行该计算机执行指令时,设备执行第二实施例中PCIE卡100供电控制方法的步骤。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上,仅为本申请实施例的具体实施方式,但本申请实施例的保护范围并不局限于此。
Claims (22)
1.一种PCIE卡,其特征在于,包括:
至少两个供电接口,包括第一供电接口和第二供电接口;
至少两个功能模块,包括管理模块和业务模块;所述管理模块和所述业务模块均包括一个或多个电子器件;所述管理模块用于监控所述业务模块的工作状态,并且与主板的带外管理器件通信;所述业务模块用于与所述主板的处理器通过PCIE链路进行通信,并处理所述PCIE链路上的业务;
其中,所述第一供电接口与所述管理模块连接,用于为所述管理模块供电;所述第二供电接口与所述业务模块连接,用于为所述业务模块供电。
2.如权利要求1所述的PCIE卡,其特征在于,所述PCIE卡还包括第三供电接口;所述业务模块包括基本功能模块和增强功能模块;
所述基本功能模块用于与所述主板的处理器通过PCIE链路进行通信,并处理所述PCIE链路上的基本业务;所述增强功能模块用于处理增强类业务;
所述第二供电接口与所述业务模块连接,用于为所述业务模块供电,包括:所述第二供电接口与所述基本功能模块电连接,用于为所述基本功能模块供电;
所述第三供电接口与所述增强功能模块电连接,用于为所述增强功能模块供电。
3.如权利要求2所述的PCIE卡,其特征在于,所述PCIE卡上包括金手指和辅助电源插座;其中,所述金手指用于与主板的PCIE插槽插接;
所述金手指包括多个导电触片,部分所述导电触片分别形成所述第一供电接口和所述第二供电接口;
所述第三供电接口包括至少一个所述辅助电源插座。
4.如权利要求2或3所述的PCIE卡,其特征在于,所述基本功能模块包括一个或多个基本功能单元;所述第一供电接口还与至少一个所述基本功能单元电连接;所述第一供电接口为所述管理模块供电后的剩余供电功率用于为所述至少一个基本功能单元供电;和/或
所述增强功能模块包括一个或多个增强功能单元;所述第一供电接口与至少一个所述增强功能单元电连接;所述第一供电接口为所述管理模块供电后的剩余供电功率为所述至少一个增强功能单元供电。
5.如权利要求2或4所述的PCIE卡,其特征在于,所述增强功能模块包括一个或多个增强功能单元;所述第二供电接口与至少一个所述增强功能单元电连接;所述第二供电接口为所述基本功能模块供电后的剩余供电功率为所述至少一个所述增强功能单元供电。
6.如权利要求2至5任意一项所述的PCIE卡,其特征在于,所述基本功能模块包括一个或多个处理器;所述基本业务包括:带内的故障诊断,PCIE链路上的数据收发与处理;和/或
所述增强功能模块包括一个或多个功能单元,所述增强类业务包括:PCIE链路上的数据处理。
7.一种PCIE卡的供电控制方法,其特征在于,所述PCIE卡包括管理模块和业务模块;所述方法包括:
当第一供电接口输出电压正常时,通过所述第一供电接口为所述管理模块供电;
当第二供电接口输出电压正常时,使所述第二供电接口为所述业务模块供电;其中,所述管理模块用于监控所述业务模块的工作状态,并且与主板的带外管理器件通信;所述业务模块用于与所述主板的处理器通过PCIE链路进行通信,并处理所述PCIE链路上的业务。
8.如权利要求7所述的方法,其特征在于,所述业务模块包括基本功能模块和增强功能模块;
所述当第二供电接口输出供电电压正常时,使所述第二供电接口为业务模块供电,包括:
当所述第二供电接口输出供电电压正常时,使所述第二供电接口为所述基本功能模块供电;
当所述第三供电接口输出供电电压正常时,使所述第三供电接口为所述增强功能模块供电。
9.如权利要求8所述的方法,其特征在于,所述方法还包括:
监控所述第一供电接口的输出电压/输出功率;
当所述第一供电接口输出电压/输出功率异常时,使所述第二供电接口同时为所述基本功能模块和管理模块供电;或使所述第三供电接口同时为所述增强功能模块和管理模块供电。
10.如权利要求9所述的方法,其特征在于,所述方法还包括:
当所述第一供电接口输出电压异常时,通过所述管理模块向主板的带外管理器件发送所述第一供电接口的异常信息;
监控所述第一供电接口的输出电压;
若所述第一供电接口输出电压恢复正常,则使所述第一供电接口为所述基本功能模块供电,且使所述第二供电接口或所述第三供电接口停止为所述基本功能模块供电。
11.如权利要求8所述的方法,其特征在于,所述方法还包括:
监控所述第二供电接口的输出电压/输出功率;
当所述第二供电接口输出电压异常/输出功率时,使所述第三供电接口同时为所述基本功能模块和增强功能模块供电;
若是所述第二供电接口的输出功率小于所述基本功能模块与所述增强功能模块的功率需求之和时,获取所述第三供电接口为所述基本功能模块供电后的剩余供电功率;
按照预设的供电优先级,利用所述剩余供电功率,为所述增强功能模块中的一个或多个所述增强功能单元优先供电;其中,所述增强功能模块包括多个增强功能单元,多个增强功能单元具有预设的供电优先级。
12.如权利要求8所述的方法,其特征在于,所述方法还包括:
当所述第二供电接口输出电压异常时,通过所述管理模块向主板的带外管理器件发送所述第二供电接口的异常信息;
监控所述第二供电接口的输出电压/输出功率;
当所述第二供电接口输出电压/输出功率恢复正常,则使所述第二供电接口为所述基本功能模块供电,且第三供电接口停止为所述基本功能模块供电。
13.如权利要求1所述的方法,其特征在于,所述方法还包括:
监控所述第三供电接口的输出电压/输出功率;
当所述第三供电接口的输出电压/输出功率异常时,使所述第二供电接口同时为所述基本功能模块和所述增强功能模块供电;
若是所述第二供电接口的输出功率小于所述基本功能模块与所述增强功能模块的功率需求之和时,获取所述第二供电接口为所述基本功能模块供电后的剩余供电功率;
按照预设的供电优先级,利用所述剩余供电功率,为所述增强功能模块中的一个或多个所述增强功能单元优先供电;其中,所述增强功能模块包括多个增强功能单元,多个增强功能单元具有预设的供电优先级。
14.如权利要求8所述的方法,其特征在于,所述方法还包括:
获取所述第一供电接口在为所述管理模块供电后的剩余供电功率;
若所述剩余供电功率大于第一功率,则使所述第一供电接口还为所述基本功能模块和/或所述增强功能模块供电;
监控所述第一供电接口的输出功率;
当所述第一供电接口的输出功率降低至第一预设阈值之下时,则使第一供电接口停止为所述基本功能模块和/或所述增强功能模块供电。
15.如权利要求8所述的方法,其特征在于,所述方法还包括:
获取所述第二供电接口在为所述基本功能模块供电后的剩余供电功率;
若所述剩余供电功率大于第二功率,则使所述第二供电接口还为所述增强功能模块供电;
监控所述第二供电接口的输出功率;
当所述第二供电接口的输出功率降低至第二预设阈值之下时,则使第二供电接口停止为所述增强功能模块供电。
16.如权利要求8所述的方法,其特征在于,所述方法还包括:
获取所述PCIE卡所允许消耗的功率限制值;
若所述功率限制值小于或等于所述第一供电接口与所述第二供电接口所提供的供电功率之和,则关闭所述增强功能模块的工作,或关闭所述第三供电接口的功率输出。
17.如权利要求8所述的方法,其特征在于,所述方法还包括:
获取所述PCIE卡所允许消耗的功率限制值;
若所述功率限制值大于所述第一供电接口与所述第二供电接口所提供的供电功率之和,则开启所述第三供电接口的功率输出;
根据所述功率限制值减去所述管理模块的消耗功率以及所述基本功能模块的消耗功率后余下的剩余功率,为所述增强功能模块供电。
18.如权利要求17所述的方法,其特征在于,所述增强功能模块包括多个增强功能单元;
所述根据所述功率限制值减去所述管理模块的消耗功率以及所述基本功能模块的消耗功率后余下的剩余功率,为所述增强功能模块供电,包括:
按照预设的供电优先级,利用所述剩余功率,优先为一个或多个增强功能单元供电;或
根据所述剩余功率,控制一个或多个所述增强功能单元工作于各自的额定功率之下。
19.如权利要求8所述的方法,其特征在于,所述方法还包括:
分别监控各个模块工作时的供电功率;其中,所述模块包括所述管理模块、所述基本功能模块,以及所述增强功能模块;
若所述模块超过该模块对应的供电功率极限值,则停止对该模块供电。
20.如权利要求8所述的方法,其特征在于,所述PCIE卡上设有多个温度检测点;所述方法还包括:
获取所述温度检测点的温度;
若所述温度检测点的温度高于温度阈值,则降低或关闭所述温度检测点所在模块的供电电流;其中所述模块为所述管理模块、所述基本功能模块、所述增强功能模块至少其中之一;
或,若所述温度检测点的温度高于温度阈值,则降低与所述温度检测点位置相关联的一个或多个电子器件的供电功率。
21.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于所述PCIE卡的启动信号,若所述第一供电接口输出电压正常,则所述管理模块正常启动;若所述第一供电接口输出电压不正常,则结束所述PCIE卡的启动流程;
若所述管理模块正常启动,则检测所述第二供电接口的输出电压是否正常;
若所述第二供电接口的输出电压正常,则检测所述第三供电接口的输出电压是否正常;若所述第二供电接口的输出电压不正常,则向所述主板系统发送故障信息;
若所述第三供电接口的输出电压正常,则控制所述基本功能模块、所述增强功能模块有序上电。
22.一种计算设备,其特征在于,包括主板以及所述PCIE卡,主板上具有PCIE插槽;所述PCIE卡包括金手指,所述金手指插接于所述PCIE插槽内;
所述PCIE卡为如权利要求1至6任意一项的PCIE卡,和/或,所述PCIE卡执行如权利要求7至21任意一项所述的PCIE卡的供电控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211296221.9A CN115543037A (zh) | 2022-10-21 | 2022-10-21 | Pcie卡及其供电方法、计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211296221.9A CN115543037A (zh) | 2022-10-21 | 2022-10-21 | Pcie卡及其供电方法、计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115543037A true CN115543037A (zh) | 2022-12-30 |
Family
ID=84734925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211296221.9A Pending CN115543037A (zh) | 2022-10-21 | 2022-10-21 | Pcie卡及其供电方法、计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115543037A (zh) |
-
2022
- 2022-10-21 CN CN202211296221.9A patent/CN115543037A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101603615B1 (ko) | Ups용 장치, 시스템, 및 방법 | |
US9703357B2 (en) | Power management method and apparatus, and power supply system | |
US7634667B2 (en) | User-configurable power architecture with hot-pluggable power modules | |
CN104407556B (zh) | 一种热备冗余的模块切换装置 | |
JP5628640B2 (ja) | 周辺機器、スイッチング・デバイスのための省電力回路及び動作方法 | |
CN101930274B (zh) | 信息处理装置及其控制方法 | |
TWI750623B (zh) | 電源管理系統以及電源管理方法 | |
CN103809724A (zh) | 机柜与其电源控制方法 | |
EP2936273A1 (en) | Reduction of idle power in a communication port | |
CN110995478B (zh) | 一种OpenVPX设备内板卡冗余备份的实现方法 | |
CN103746431B (zh) | 一种双pmu供电系统、供电方法及移动终端 | |
CN116700468A (zh) | 一种满足dpu卡独立供电的服务器电源设计方案 | |
US20040243861A1 (en) | Communication device | |
CN104518246A (zh) | 一种动力电池系统采集板及其控制方法 | |
CN210608666U (zh) | 一种冗余电源的控制装置及供电系统 | |
CN113629853A (zh) | 一种服务器电源互联冗余供电系统及方法 | |
CN205071015U (zh) | 以太网供电装置 | |
CN115543037A (zh) | Pcie卡及其供电方法、计算设备 | |
CN202050430U (zh) | 单板的上下电控制电路及通信设备 | |
CN218181479U (zh) | 服务器主板、服务器及服务器背板的电源管理系统 | |
CN215642355U (zh) | 一种基于总线监控的plc冗余控制系统 | |
US6801973B2 (en) | Hot swap circuit module | |
CN114363728A (zh) | 一种电子设备及防止电流倒灌的方法 | |
CN108090009A (zh) | 一种多机倒机方法、装置及系统 | |
CN113741280A (zh) | 一种国产化的vpx架构的智能管理控制装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231119 Address after: 450046, 10th Floor, North Chuangzhi Tiandi Building, Dongshigeng Street, Longzihu Wisdom Island Middle Road East, Zhengdong New District, Zhengzhou City, Henan Province Applicant after: Henan Kunlun Technology Co.,Ltd. Address before: 450000 Floor 9, building 1, Zhengshang Boya Plaza, Longzihu smart Island, Zhengdong New District, Zhengzhou City, Henan Province Applicant before: xFusion Digital Technologies Co., Ltd. |