CN115509330A - 服务器的散热调控电路和服务器 - Google Patents
服务器的散热调控电路和服务器 Download PDFInfo
- Publication number
- CN115509330A CN115509330A CN202211201557.2A CN202211201557A CN115509330A CN 115509330 A CN115509330 A CN 115509330A CN 202211201557 A CN202211201557 A CN 202211201557A CN 115509330 A CN115509330 A CN 115509330A
- Authority
- CN
- China
- Prior art keywords
- fan
- target
- heat dissipation
- server
- chip
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000017525 heat dissipation Effects 0.000 title claims abstract description 83
- 230000033228 biological regulation Effects 0.000 title claims abstract description 68
- 238000001816 cooling Methods 0.000 claims abstract description 16
- 238000012544 monitoring process Methods 0.000 claims abstract description 9
- 238000005192 partition Methods 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 9
- 230000001276 controlling effect Effects 0.000 claims description 7
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 230000001105 regulatory effect Effects 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 230000003287 optical effect Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 102100027284 Fanconi-associated nuclease 1 Human genes 0.000 description 6
- 101000914689 Homo sapiens Fanconi-associated nuclease 1 Proteins 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000012423 maintenance Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000013021 overheating Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000007650 screen-printing Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/20—Cooling means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Cooling Or The Like Of Electrical Apparatus (AREA)
Abstract
本申请提供的服务器的散热调控电路和服务器,属于服务器技术领域。所述电路至少包括:BMC芯片、CPLD芯片、散热风扇模组;所述CPLD芯片,用于在所述服务器处于停机状态,监控部件目标部件是否运行,其中所述目标部件为所述服务器处于停机状态时运行的部件;在所述目标部件运行时,向所述BMC芯片发送散热调控指令;所述BMC芯片,用于响应于所述散热调控指令,获取所述目标部件的核心温度;基于所述核心温度确定目标风扇转速,向所述散热风扇模组发送所述目标风扇转速;所述散热风扇模组,用于按照目标风扇转速控制风扇转动,以对目标部件进行散热。
Description
技术领域
本申请属于服务器技术领域,特别涉及一种服务器的散热调控电路和服务器。
背景技术
由于服务器机房部署时,可能会存在成百上千台服务器一起进行部署的情况,服务器在被部署好后会逐一进行上电操作,但是服务器可能会在统一部署完毕后一起进行开机操作,因此服务器就会有很长一段时间处于S5状态(停机状态)。
但是有一些部件在S5状态下会被上一部分电,功耗增加,存在散热风险,如果风扇不进行运转的话,会出现超温现象影响性能。
发明内容
本申请提供的一种服务器的散热调控电路和服务器。
本申请一些实施例提供一种服务器的散热调控电路,所述电路至少包括:BMC芯片、CPLD芯片、散热风扇模组,其中所述目标部件为所述服务器处于停机状态时运行的部件;
所述CPLD芯片,用于在所述服务器处于停机状态,监控部件目标部件是否运行,其中所述目标部件为所述服务器处于停机状态时运行的部件;在所述目标部件运行时,向所述BMC芯片发送散热调控指令;
所述BMC芯片,用于响应于所述散热调控指令,获取所述目标部件的核心温度;基于所述核心温度确定目标风扇转速,向所述散热风扇模组发送所述目标风扇转速;
所述散热风扇模组,用于按照目标风扇转速控制风扇转动,以对目标部件进行散热。
可选地,所述BMC芯片,还用于在未获取到所述目标部件的核心温度时,基于第一线性调控规则确定目标风扇转速;在获取到目标部件的核心温度时,基于第二线性调控规则、所述目标部件的调控规则、所述核心温度确定目标风扇转速。
可选地,所述BMC芯片,还用于在获取到目标部件的核心温度时,基于所述第二线性调控规则和所述核心温度计算第一风扇转速,并基于所述目标部件的调控规则和所述核心温度计算第二风扇转速;将所述第一风扇转速和所述第二风扇转速中的最大转速作为目标风扇转速。
可选地,所述BMC芯片,还用于通过以下公式计算得到目标风扇转速:
pwm(t)=pwm(t-1)+pwm_vary(t);
pwm_vary(t)=Kp*[T(t)-T(t-1)]+Ki*[T(t)-SP]*dt+Kd*{[T(t)-T(t-1)]-[T(t-1)-T(t-2)]}/dt;
其中,pwm(t)表示目标风扇转速,pwm(t-1)表示上一时间点的历史风扇转速,pwm_vary(t)表示风扇转速变化需求值,T(t)、T(t-1)、T(t-2)分别表示t时刻、t-1时刻、t-2时刻对应的温度值,t为当前时刻,dt表示风扇响应时间,Kp、Ki、Kd分别表示调控系数。
可选地,所述BMC芯片,还用于获取所述目标部件所处的目标散热分区;向所述散热风扇发送用于指示向所述目标散热分区按照所述目标风扇转速进行散热的控制指令。
可选地,所述散热风扇模组,还用于响应于所述控制指令,按照第一目标风扇转速控制所述目标散热分区的对应的风扇转动,并按照第二目标风扇转速控制所述目标散热分区以外的其他散热分区对应的风扇转动,其中所述第一目标风扇转速大于所述第二目标风扇转速,所述第一目标风扇转速小于所述目标风扇转速。
可选地,所述CPLD芯片,还用于在所述BMC芯片未启动或失效时,从本地连接的寄存器中获取的预设值作为目标风扇转速。
可选地,所述散热风扇模组,还用于将实际风扇转速与所述目标风扇转速进行比对,若所述实际风扇转速与所述目标风扇转速不相符,则输出风扇状态异常信号;若所述实际风扇转速与所述目标风扇转速不相符,则输出风扇状态正常信号。
可选地,所述电路还包括:服务器状态检测器;
所述服务器状态检测器,用于在服务器上电后,向所述CPLD芯片和所述BMC芯片发送上电信号;
所述CPLD芯片,还用于响应于所述上电信号开始启动;在未启动完成时,输出启动中信号;在启动完成时,输出启动完成信号;在第一时间段后未启动时,输出启动失败信号;
所述BMC芯片,还用于响应于所述上电信号开始启动;在未启动完成时,输出启动中信号;在启动完成时,输出启动完成信号;在第二时间段后未启动时,输出启动失败信号。
本申请一些实施例提供一种服务器,所述服务器至少包括:处理器和上述服务器的散热调控电路。
本申请提供的一种服务器的散热调控电路和服务器,通过在对设备的SPI接口进行信号测试,自动对SPI接口的电平信号进行采集,并且通过将所采集到的测试信号波形与采样模式相对应的标准信号波形进行比对来进行测试,减少了SPI信号测试过程的人为参与,尽可能减少了因为失误对于测试结果的影响,提高了SPI信号测试的准确性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了本申请一些实施例提供的一种服务器的散热调控电路的结构示意图;
图2示意性地示出了本申请一些实施例提供的一种散热分区的结构示意图;
图3示意性地示出了本申请一些实施例提供的另一种服务器的散热调控电路的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1示意性地示出了本申请提供的一种服务器的散热调控电路的结构示意图,所述电路至少包括:BMC芯片101、CPLD芯片102、散热风扇模组103。
所述CPLD芯片,用于在所述服务器处于停机状态,监控部件目标部件是否运行,其中所述目标部件为所述服务器处于停机状态时运行的部件;在所述目标部件运行时,向所述BMC芯片发送散热调控指令;
所述BMC芯片,用于响应于所述散热调控指令,获取所述目标部件的核心温度;基于所述核心温度确定目标风扇转速,向所述散热风扇模组发送所述目标风扇转速;
所述散热风扇模组,用于按照目标风扇转速控制风扇转动,以对目标部件进行散热。
需要说明的是,BMC芯片(Baseboard Manager Controller,基板管理控制器)是支持对操作系统层的逻辑控制元件,如CPUMEM等的监控、数据库ORACE Informix的监控、中间件Weblogic、mq的监控、以及开发特殊类指标的监控,只要满足执行一条命令并返回一个数值的指标均可满足,如端口连接数、日志关键字数量等。CPLD芯片(Complex ProgrammableLogic Device,复杂可编程逻辑芯片)芯片是从PAL和GAL器件发展出来的器件,相对而言规模大,结构复杂,属于大规模集成电路范围,适合控制密集型数字型数字系统设计,其时延控制方便。散热风扇模组是包含有风扇和风扇供电器的模组,风扇通常设置在服务器机箱中,风扇供电器用于向风扇供电。目标部件可以是服务器在S5状态,即绝大部分部件处于关闭状态,服务器处于统计状态下,服务器中仍然运行的部件,例如支持NCSI功能的网卡,包括OCP网卡以及一些支持NCSI功能的PCIe网卡,NCSI功能要求可以从网卡的网口直接访问BMC芯片,即在服务器安插电源不开机(S5)状态下就能工作,网卡工作就会有热量产生,如果不进行散热处理的话,就会出现超温风险,智能网卡内部存在CPU、内存、硬盘、FPGA等高功耗部件,在S5状态,服务器处于未开机状态,但是智能网卡则依据使用场景需求可能会先进行启动上电,智能网卡上电后,其内部部件就需要进行散热,否则会出现超温风险。当然目标部件还可以是其他在服务器处于S5状态下运行的部件,具体可以根据实际需求设置,此处不做限定。
值得说明的是,服务器可存在以下五种状态:S1--也称为POS(Power onSuspend),这时除了通过CPU时钟控制器将CPU关闭之外,其他的部件仍然正常工作,这时的功耗一般在30W以下;(其实有些CPU降温软件就是利用这种工作原理);S2--这时CPU处于停止运作状态,总线时钟也被关闭,但其余的设备仍然运转;S3--这就是我们熟悉的STR(Suspend to RAM),这时的功耗不超过10W;S4--也称为STD(Suspend to Disk),此时服务器系统主电源关闭,硬盘存储S4前数据信息,所以S4是比S3更省电状态;S5--是连电源在内的所有设备全部关闭,即关机(shutdown),功耗为0。
在本申请实施例中,当服务器刚上电时服务器状态监测器将上电信号传输给CPLD芯片与BMC芯片,告知BMC芯片与CPLD芯片此时服务器处于S5状态;上电后CPLD芯片亮黄灯以表征CPLD芯片处于启动过程中,同时CPLD芯片中的计时器开始工作,在10S、15s、16s等预设时间段后若CPLD芯片仍未启动完成,则CPLD芯片亮红灯,以表征CPLD芯片启动异常;CPLD芯片启动完成后,CPLD芯片的状态灯亮绿色,以表征CPLD芯片处于正常工作状态,CPLD芯片优先进行风扇控制。
由于BMC芯片启动需要一段时间,因此在上电后,BMC芯片的状态灯为黄色,以表征BMC芯片在处于启动过程中,BMC芯片会先处于uboot状态,无法立刻进行复杂的调控逻辑计算,BMC芯片由watchdog信号(定时器电路信号)通知CPLD芯片此时BMC芯片还未启动完成,在watchdog信号常低或者常高超过4s时,CPLD芯片认为BMC芯片启动中。CPLD芯片在接收到BMC芯片未启动完成的信号后,CPLD芯片同步会判断服务器中是否包含需要在S5状态进行散热的目标部件,当服务器中包含需要散热的目标部件时,散热部件发送信号给CPLD芯片与BMC芯片,BCM芯片此时还未完全启动,暂不响应,而CPLD芯片在接收到散热部件的信号后则发送信号给风扇供电器通知其给风扇上电,CPLD芯片将寄存器内线路打开,将寄存器内的转速传输给风扇;直到拔除电源线,CPLD芯片给风扇供电器的风扇上电信号才会解除。
当BMC芯片启动完成后,BMC芯片的状态灯亮绿色,以表征BMC芯片处于正常工作状态,此时BMC芯片通过watchdog信号通知CPLD芯片“BMC芯片已经启动完成”(WATCHDOG信号为一定频率的方形波时,CPLD芯片认为BMC芯片在正常工作状态),则风扇控制权由CPLD芯片交接到BMC芯片中,BMC芯片会检测是否可以获取到需要散热的部件的核心温度,如果还未获取到芯片核心温度,则启用Inlet-1线性调控,此时对应的风扇转速较高,保证需要散热的部件不超温。当BMC芯片可以获取到散热部件核心的温度,BMC芯片按照Inlet-2对应的线性调控以及散热部件的核心温度的PID(控制系统的一种基本调节方式。是具有比例、积分和微分作用的一种线性调节规律)调控进行综合调控,此时的Inlet-2线性调控对应的转速较低,降低风扇功耗,更多依靠部件自身的核心温度调控,BMC芯片将按照LINE线性+PID调控计算出来的pwm值输出给CPLD芯片,CPLD芯片再将pwm值输出给风扇。
在S5状态下服务器中包含需要散热的部件时,BMC进行风扇控制的以往方案只是以环境温度进行控制,设定的转速按照系统处于最高环境温度、最高功耗部件时设定,当系统中散热部件的功耗较小时则显得转速过高,此时控制逻辑简单粗暴,风扇转速较高,噪音较大;而本申请实施例中加入了散热部件核心的温度进行的PID调控,可以适当降低Inlet对应的风扇转速,调控逻辑更为精准,功耗值更低,噪音值也更低。
BMC芯片对目标部件的工作进行监控,由于BMC芯片只有一组信号用于远程管理,而服务器中往往会支持多个目标部件,因此需要通过信号分发模块例如NCSIBuffer进行扩展,在用户需要切换NCSI功能的路径时,BMC芯片通过控制信号切换NCSIBuffer的通道,其他未使用的通道关闭;BMC芯片对NCSI的通道进行实时监控,标记NCSI工作的网卡及在服务器系统中的位置,并通过I2C通信发送给CPLD芯片,每次发生NCSIBuffer切换时,刷新数据。
本申请实施例在停机状态下服务器中包含需要散热的目标部件时,利用CPLD芯片和BMC芯片协同依据目标部件的核心温度确定目标风扇转速,从而依据目标风扇转速控制风扇散热模组对目标部件进行散热,调控逻辑更为精准,避免了由于服务器处于停机状态无法散热导致还在运行的目标部件过热造成的超温风险。
可选地,所述BMC芯片,还用于在未获取到所述目标部件的核心温度时,基于第一线性调控规则确定目标风扇转速;在获取到目标部件的核心温度时,基于第二线性调控规则、所述目标部件的调控规则、所述核心温度确定目标风扇转速。
可选地,所述BMC芯片,还用于在获取到目标部件的核心温度时,基于所述第二线性调控规则和所述核心温度计算第一风扇转速,并基于所述目标部件的调控规则和所述核心温度计算第二风扇转速;将所述第一风扇转速和所述第二风扇转速中的最大转速作为目标风扇转速。
可选地,所述BMC芯片,还用于通过以下公式计算得到目标风扇转速:
pwm(t)=pwm(t-1)+pwm_vary(t);
pwm_vary(t)=Kp*[T(t)-T(t-1)]+Ki*[T(t)-SP]*dt+Kd*{[T(t)-T(t-1)]-[T(t-1)-T(t-2)]}/dt;
其中,pwm(t)表示目标风扇转速,pwm(t-1)表示上一时间点的历史风扇转速,pwm_vary(t)表示风扇转速变化需求值,T(t)、T(t-1)、T(t-2)分别表示t时刻、t-1时刻、t-2时刻对应的温度值,t为当前时刻,dt表示风扇响应时间,Kp、Ki、Kd分别表示调控系数。
在本申请实施例中dt=1,表示风扇响应时间1s;分别计算出t时刻网卡温度与光模块温度所需要的pwm,再与环境温度对应的pwm值作比较,取三者的最大值作为最终风扇转速,即可保证网卡与光模块都不会出现超温。
可选地,所述BMC芯片,还用于获取所述目标部件所处的目标散热分区;向所述散热风扇发送用于指示向所述目标散热分区按照所述目标风扇转速进行散热的控制指令。
可选地,所述散热风扇模组,还用于响应于所述控制指令,按照第一目标风扇转速控制所述目标散热分区的对应的风扇转动,并按照第二目标风扇转速控制所述目标散热分区以外的其他散热分区对应的风扇转动,其中所述第一目标风扇转速大于所述第二目标风扇转速,所述第一目标风扇转速小于所述目标风扇转速。
在本申请实施例中,BMC芯片启动完毕后,可以通过I2C通信进行资产信息读取,获取整系统的部件,精准获取在S5状态需要散热的目标部件,并通过各部件的丝印确定具体部件的位置。根据需要散热部件的位置,可实现风扇的分区调控,进一步降低风扇功耗以及噪音值。如果系统中包含需要散热的目标部件,则风扇供电器已经在为风扇供电,则风扇按照BMC芯片经过计算之后的精准pwm运转,BMC芯片调控稳定性更高,调控更加精准,不仅可以保证散热部件的温度稳定在适当的温度,稳定运行性能,降低风扇转速、整机功耗,又可以降低在S5状态下的噪音值;此时,如果系统中不包含S5状态需要散热的部件,风扇控制器未对风扇供电,则CPLD芯片不会输出pwm信号给风扇,风扇仍然保持不转,即可节约S5状态的功耗,又可降低机房噪音。
示例性的,参照图2,比如需要在系统中需要散热的部件位于散热1区,则根据散热部件需要计算出来的pwm1值赋给FAN0与FAN1;此处FAN表示不同的散热分区。为防止出现回流,FAN2与FAN3不能保持停转,FAN2与FAN3的pwm2值可取pwm1*60%(60%为经验值)。系统中需要散热的部件位于散热2区,则根据散热部件需要计算出来的pwm1值赋给FAN1与FAN2;FAN0与FAN3对应的pwm2值取pwm1*80%。
比如需要在系统中需要散热的部件位于散热1区,则根据散热部件需要计算出来的pwm1值赋给FAN0与FAN1;为防止出现回流,FAN2与FAN3不能保持停转,FAN2与FAN3的pwm2值可取pwm1*60%(60%为经验值)。系统中需要散热的部件位于散热2区,则根据散热部件需要计算出来的pwm1值赋给FAN1与FAN2;FAN0与FAN3对应的pwm2值取pwm1*80%。
可选地,所述CPLD芯片,还用于在所述BMC芯片未启动或失效时,从本地连接的寄存器中获取的预设值作为目标风扇转速。
在本申请实施例中,风扇散热模组上电的同时,接收到CPLD芯片所连接寄存器中的预先设置的风扇pwm(Pulse Width Modulation,脉冲宽度调制)信号,风扇散热模组按照CPLD芯片寄存器中的预设值运转对目标部件散热,以保证目标部件不超温。
当服务器刚安插电源线由CPLD芯片控制风扇转速时,由CPLD芯片输芯片出的寄存器中的转速值,要能保证服务器在其所支持的最高环境温度中长时间处于S5状态时,其各个部件也不会出现超温。
可选地,所述散热风扇模组,还用于将实际风扇转速与所述目标风扇转速进行比对,若所述实际风扇转速与所述目标风扇转速不相符,则输出风扇状态异常信号;若所述实际风扇转速与所述目标风扇转速不相符,则输出风扇状态正常信号。
在本申请实施例中,风扇中存在实时转速输出端,输出转速值给CPLD芯片以及BMC芯片,BMC芯片与CPLD芯片中的风扇转速实时接收端接收到转速后与设定值进行对比,判定转速是否符合原设定,如不符合,则风扇状态灯亮红色,提醒维修人员风扇异常。
当服务器上电开机后,如遇到问题需要维修,会将服务器关机操作,在维修人员拔掉电源线之前,服务器会再次进入S5状态,此时BMC芯片仍然为启动完毕状态(状态灯显示绿色),BMC芯片通过watchdog信号通知CPLD芯片“BMC芯片处于启动完成的active状态”,则风扇控制权仍旧由BMC芯片进行控制。
本申请实施例在S5状态除了对有散热风险的部件进行散热调控,还加入了风扇转速的校验功能,提前识别风扇状态的异常,防止服务器已经运行后才发现风扇性能异常,需要迁移服务器业务进行处理。
可选地,所述电路还包括:服务器状态检测器;
所述服务器状态检测器,用于在服务器上电后,向所述CPLD芯片和所述BMC芯片发送上电信号;
所述CPLD芯片,还用于响应于所述上电信号开始启动;在未启动完成时,输出启动中信号;在启动完成时,输出启动完成信号;在第一时间段后未启动时,输出启动失败信号;
所述BMC芯片,还用于响应于所述上电信号开始启动;在未启动完成时,输出启动中信号;在启动完成时,输出启动完成信号;在第二时间段后未启动时,输出启动失败信号。
本申请实施例增加了服务器处于停机状态时的BMC芯片、CPLD芯片状态灯功能,提前识别芯片是否可以正常工作,避免在服务器开机后才发现芯片异常。
可选地,在本申请一些实施例中,可能出现以下三种异常情况:
(1)BMC芯片初次启动未成功:BMC芯片在上电后初次启动未启动成功,则BMC芯片在watchdog信号会持续处于通知CPLD芯片“此时BMC芯片还未启动完成”的状态,则BMC芯片状态灯亮黄灯,同时BMC芯片中的计时器在BMC芯片上电后开始计时,若6min后BMC芯片仍未启动完成,则判定BMC芯片启动失败,BMC芯片状态等亮红灯,提示维修人员BMC芯片启动失败;
(2)BMC芯片启动完成后发生失效:在S5状态,BMC芯片启动完毕后出现失效,BMC芯片状态灯亮红色,BMC芯片在watchdog信号会持续处于通知CPLD芯片“此时BMC芯片还未启动完成”的状态,CPLD芯片接收到信号后将风扇控制权收回,按照BMC芯片未启动之前的逻辑进行控制;
(3)CPLD芯片失效:CPLD芯片出现失效,则CPLD芯片状态灯亮红色(显示CPLD芯片状态异常),提示维修人员CPLD芯片启动失败。
示例性的,参照图3,提供本申请一些实施例的示例1:
服务器中安装了OCP网卡或者支持NCSI的PCIe网卡,网卡处于散热1区。当服务器安插电源线后,服务器状态检测器检测到服务器启动,传输信号告知CPLD芯片以及BMC芯片开始启动,CPLD芯片接收到上电信号后在3-5S即启动完毕,而BMC芯片预计3-5min启动完毕,因此在上电后至BMC芯片启动完毕之前,BMC芯片发送watchdog信号给CPLD芯片,CPLD芯片进行风扇控制。
同时,BMC芯片与CPLD芯片启动后可以接收到NCSI网卡传输的NCSI信号。
CPLD芯片优先启动并进行风扇控制,CPLD芯片在接收到NCSI信号后,发送供电信号给风扇供电器,同时CPLD芯片将寄存器内的风扇转速40%duty输出给风扇。
风扇供电器在接收到供电信号后,为风扇供电。同时风扇接收到CPLD芯片输出的40%duty转速后按照对应的rpm转速输出,并将对应的rpm转速值输出给BMC芯片与CPLD芯片。
CPLD芯片接收到风扇转速后会与风扇规格设定的转速值进行对比,当实时转速在额定转速±5%范围内,则判定风扇转速正常。
BMC芯片在上电3-4min后启动完毕,不再发送watchdog信号给CPLD芯片,CPLD芯片判定BMC芯片启动完毕,将风扇控制权交接给BMC芯片。
BMC芯片启动完毕后,可以获取到Inlet温度、网卡温度以及光模块温度。
同时,在BMC芯片获取到风扇控制权后,根据获取到的Inlet启动线性调速,环温与转速对应关系为:25C-20%duty、30C-25%duty、35C-30%duty,其中25C-30C以及30C-35C之间的温度按照线性展开。并且,按照读取到的网卡温度以及光模块温度进行PID调控。环温为25C时,inlet所对应风扇转速为20%duty,OCP3.0网卡(100G)经过PID调控稳定在调控点85C时的转速为25%duty,光模块温度经过PID调控稳定在65C时的转速为30%duty,则最终FAN0与FAN1风扇呈现的转速为30%duty,FAN2与FAN3呈现的转速为18%duty,光模块温度与网卡温度处于调控点或者调控点之下。
本例中,此2U服务器S5状态下CPLD芯片寄存器中的转速值为40%duty,在其所支持的最高环境温度35C,其所能支持的最大带宽OCP3.0网卡与PCIe网卡均为100G。那么此2U服务器在35C环境中长时间处于S5状态,其系统中包含的OCP3.0网卡或者支持NCSI功能的PCIe网卡也不会出现超温。
另外,在BMC芯片启动并完毕接管风扇控制权后,其所参与调控的Inlet温度,不同温度值对应的不同转速。在以往的方案中,BMC芯片在S5状态中仅以Inlet作为调控逻辑,在某一环境温度设定的转速要保证能够覆盖带宽最大的网卡,比如在此2U系统中,25C时要保证100GOCP3.0网卡在S5状态下不出现超温需要的转速为30%duty,但是由于BMC芯片可以读取网卡芯片以及光模块温度进行调控,因此在Inlet对应的线性调控中,以10G、25G带宽较小的网卡作为基线,设定25C转速为20%duty,线性调速的好处是可以让部件温度快速稳定。因此采用Inlet温度的线性调控加网卡温度、光模块温度的PID调控,既可以做到降低功耗与噪音、精准调控,又可以让风扇转速与部件温度快速稳定。
提供本申请一些实施例的示例2:
服务器中安装了智能网卡,智能网卡位于散热3区,服务器上电后处于S5状态,CPLD芯片优先启动并进行风扇控制,CPLD芯片在接收到智能网卡在位信号后,发送供电信号给风扇供电器,同时CPLD芯片将寄存器内的风扇转速60%duty输出给风扇。
风扇供电器在接收到供电信号后为风扇供电。同时风扇接收到CPLD芯片输出的60%duty转速后按照对应的rpm转速输出,并将对应的rpm转速值输出给BMC芯片与CPLD芯片。CPLD芯片接收到风扇转速后会与风扇规格设定的转速值进行对比,当实时转速在额定转速±5%范围内,则判定风扇转速正常。
BMC芯片在上电3-4min后启动完毕,CPLD芯片判定BMC芯片启动完毕,将风扇控制权交接给BMC芯片。
BMC芯片启动完毕后,可以获取到Inlet温度,但是此时有可能智能网卡还未启动完毕,BMC芯片有可能获取不到智能网卡内部各部件核心温度。因此,在BMC芯片启动完毕后,BMC芯片同步检测是否可以获取到智能网卡内部各部件的核心温度。当BMC芯片启动完毕后,如还不能获取到智能网卡内各部件温度,则启动Inlet-1:25C-40%duty,30C-50%duty,35C-60%duty,此曲线对应转速较高,保证智能网卡各部件温度不超温。当BMC芯片可以获取到智能网卡内各部件温度时,则智能网卡内各部件温度参与调速,同时BMC芯片切换到Inlet-2:25C-30%duty,30C-35%duty,35C-40%duty,BMC芯片同步启动Inlet于智能网卡内部各部件温度进行调控,FAN2与FAN3按照计算出的转速pwm呈现,FAN0与FAN1按照pwm*60%呈现,既可以做到降低功耗与噪音、精准调控,又可以让风扇转速与部件温度快速稳定。
在本申请实施例中,此2U服务器S5状态下CPLD芯片寄存器中的转速值为60%duty,支持的最高环境温度35C,那么此服务器在35C环境中长时间处于S5状态,可保证其系统中各部件温度不会出现超温。
本申请一些实施例提供一种服务器,所述服务器至少包括:处理器和上述的服务器的散热调控电路。
在本申请实施例中,服务器由于处于停机状态,因此该处理器在本申请一些实施例的散热调控电路运行的过程中处于关闭状态。
本申请实施例在停机状态下服务器中包含需要散热的目标部件时,利用CPLD芯片和BMC芯片协同依据目标部件的核心温度确定目标风扇转速,从而依据目标风扇转速控制风扇散热模组对目标部件进行散热,调控逻辑更为精准,避免了由于服务器处于停机状态无法散热导致还在运行的目标部件过热造成的超温风险。
以上所描述的设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本申请的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种服务器的散热调控电路,其特征在于,所述电路至少包括:BMC芯片、CPLD芯片、散热风扇模组;
所述CPLD芯片,用于在所述服务器处于停机状态,监控部件目标部件是否运行,其中所述目标部件为所述服务器处于停机状态时运行的部件;在所述目标部件运行时,向所述BMC芯片发送散热调控指令;
所述BMC芯片,用于响应于所述散热调控指令,获取所述目标部件的核心温度;基于所述核心温度确定目标风扇转速,向所述散热风扇模组发送所述目标风扇转速;
所述散热风扇模组,用于按照目标风扇转速控制风扇转动,以对目标部件进行散热。
2.根据权利要求1所述的服务器的散热调控电路,其特征在于,所述BMC芯片,还用于在未获取到所述目标部件的核心温度时,基于第一线性调控规则确定目标风扇转速;在获取到目标部件的核心温度时,基于第二线性调控规则、所述目标部件的调控规则、所述核心温度确定目标风扇转速。
3.根据权利要求2所述的服务器的散热调控电路,其特征在于,所述BMC芯片,还用于在获取到目标部件的核心温度时,基于所述第二线性调控规则和所述核心温度计算第一风扇转速,并基于所述目标部件的调控规则和所述核心温度计算第二风扇转速;将所述第一风扇转速和所述第二风扇转速中的最大转速作为目标风扇转速。
4.根据权利要求3所述的服务器的散热调控电路,其特征在于,所述BMC芯片,还用于通过以下公式计算得到目标风扇转速:
pwm(t)=pwm(t-1)+pwm_vary(t);
pwm_vary(t)=Kp*[T(t)-T(t-1)]+Ki*[T(t)-SP]*dt+Kd*{[T(t)-T(t-1)]-[T(t-1)-T(t-2)]}/dt;
其中,pwm(t)表示目标风扇转速,pwm(t-1)表示上一时间点的历史风扇转速,pwm_vary(t)表示风扇转速变化需求值,T(t)、T(t-1)、T(t-2)分别表示t时刻、t-1时刻、t-2时刻对应的温度值,t为当前时刻,dt表示风扇响应时间,Kp、Ki、Kd分别表示调控系数。
5.根据权利要求1所述的服务器的散热调控电路,其特征在于,所述BMC芯片,还用于获取所述目标部件所处的目标散热分区;向所述散热风扇发送用于指示向所述目标散热分区按照所述目标风扇转速进行散热的控制指令。
6.根据权利要求5所述的服务器的散热调控电路,其特征在于,所述散热风扇模组,还用于响应于所述控制指令,按照第一目标风扇转速控制所述目标散热分区的对应的风扇转动,并按照第二目标风扇转速控制所述目标散热分区以外的其他散热分区对应的风扇转动,其中所述第一目标风扇转速大于所述第二目标风扇转速,所述第一目标风扇转速小于所述目标风扇转速。
7.根据权利要求1所述的服务器的散热调控电路,其特征在于,所述CPLD芯片,还用于在所述BMC芯片未启动或失效时,从本地连接的寄存器中获取的预设值作为目标风扇转速。
8.根据权利要求1所述的服务器的散热调控电路,其特征在于,所述散热风扇模组,还用于将实际风扇转速与所述目标风扇转速进行比对,若所述实际风扇转速与所述目标风扇转速不相符,则输出风扇状态异常信号;若所述实际风扇转速与所述目标风扇转速不相符,则输出风扇状态正常信号。
9.根据权利要求1所述的服务器的散热调控电路,其特征在于,所述电路还包括:服务器状态检测器;
所述服务器状态检测器,用于在服务器上电后,向所述CPLD芯片和所述BMC芯片发送上电信号;
所述CPLD芯片,还用于响应于所述上电信号开始启动;在未启动完成时,输出启动中信号;在启动完成时,输出启动完成信号;在第一时间段后未启动时,输出启动失败信号;
所述BMC芯片,还用于响应于所述上电信号开始启动;在未启动完成时,输出启动中信号;在启动完成时,输出启动完成信号;在第二时间段后未启动时,输出启动失败信号。
10.一种服务器,其特征在于,所述服务器至少包括:处理器和所述权利要求1-9中任一所述的服务器的散热调控电路。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211201557.2A CN115509330A (zh) | 2022-09-29 | 2022-09-29 | 服务器的散热调控电路和服务器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211201557.2A CN115509330A (zh) | 2022-09-29 | 2022-09-29 | 服务器的散热调控电路和服务器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115509330A true CN115509330A (zh) | 2022-12-23 |
Family
ID=84507634
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211201557.2A Pending CN115509330A (zh) | 2022-09-29 | 2022-09-29 | 服务器的散热调控电路和服务器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115509330A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115993881A (zh) * | 2023-03-20 | 2023-04-21 | 新华三信息技术有限公司 | 风扇调速策略确定方法、装置、电子设备及存储介质 |
-
2022
- 2022-09-29 CN CN202211201557.2A patent/CN115509330A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115993881A (zh) * | 2023-03-20 | 2023-04-21 | 新华三信息技术有限公司 | 风扇调速策略确定方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8656003B2 (en) | Method for controlling rack system using RMC to determine type of node based on FRU's message when status of chassis is changed | |
US6904534B2 (en) | Progressive CPU sleep state duty cycle to limit peak power of multiple computers on shared power distribution unit | |
TWI582585B (zh) | 機櫃的監控系統 | |
CN104615447A (zh) | 一种整机柜服务器监控管理软件复用方法 | |
US10976793B2 (en) | Mass storage device electrical power consumption monitoring | |
JP6663970B2 (ja) | システム電源管理方法及び計算機システム | |
KR20110004328A (ko) | 컴퓨터 시스템 하드웨어 디바이스들의 고전력 상태들의 선택적 승인에 의한 전력 관리 | |
US10809779B2 (en) | Managing power in a high performance computing system for resiliency and cooling | |
CN102027430B (zh) | 管理计算机的功耗的方法和装置 | |
CN109681456A (zh) | 一种风扇控制装置和方法 | |
CN115509330A (zh) | 服务器的散热调控电路和服务器 | |
CN111158447A (zh) | 服务器散热参数调控方法、装置、设备及可读存储介质 | |
CN106055440A (zh) | 一种通过bmc实现服务器异常断电的测试方法及系统 | |
CN109581911A (zh) | 一种双控存储设备在开机上电期间的风扇稳控方法及装置 | |
US20130126150A1 (en) | Fan control system and method | |
US11733762B2 (en) | Method to allow for higher usable power capacity in a redundant power configuration | |
CN104214121A (zh) | 风扇转数控制系统及方法 | |
US10216212B1 (en) | Operating temperature-based mass storage device management | |
EP3295275B1 (en) | Managing power in a high performance computing system for resiliency and cooling | |
CN109917900B (zh) | 系统电源管理方法及计算机系统 | |
US20020087907A1 (en) | Method and apparatus for recovering from an overheated microprocessor | |
CN110701084B (zh) | 电子系统内的风扇控制方法 | |
CN110099542B (zh) | 确保电子设备中电源装置正常运作的方法 | |
CN112433580A (zh) | 风扇控制方法、装置、计算机设备及存储介质 | |
TW201823989A (zh) | 風扇監控系統 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |