CN110594180A - 一种服务器散热控制器的控制方法及系统 - Google Patents

一种服务器散热控制器的控制方法及系统 Download PDF

Info

Publication number
CN110594180A
CN110594180A CN201910654956.6A CN201910654956A CN110594180A CN 110594180 A CN110594180 A CN 110594180A CN 201910654956 A CN201910654956 A CN 201910654956A CN 110594180 A CN110594180 A CN 110594180A
Authority
CN
China
Prior art keywords
fan
rotating speed
heat dissipation
temperature
temperature sensor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910654956.6A
Other languages
English (en)
Inventor
韩红瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Wave Intelligent Technology Co Ltd
Original Assignee
Suzhou Wave Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Wave Intelligent Technology Co Ltd filed Critical Suzhou Wave Intelligent Technology Co Ltd
Priority to CN201910654956.6A priority Critical patent/CN110594180A/zh
Publication of CN110594180A publication Critical patent/CN110594180A/zh
Pending legal-status Critical Current

Links

Classifications

    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F04POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
    • F04DNON-POSITIVE-DISPLACEMENT PUMPS
    • F04D27/00Control, e.g. regulation, of pumps, pumping installations or pumping systems specially adapted for elastic fluids
    • F04D27/001Testing thereof; Determination or simulation of flow characteristics; Stall or surge detection, e.g. condition monitoring
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F04POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
    • F04DNON-POSITIVE-DISPLACEMENT PUMPS
    • F04D27/00Control, e.g. regulation, of pumps, pumping installations or pumping systems specially adapted for elastic fluids
    • F04D27/004Control, e.g. regulation, of pumps, pumping installations or pumping systems specially adapted for elastic fluids by varying driving speed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • G06F1/206Cooling means comprising thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Cooling Or The Like Of Electrical Apparatus (AREA)

Abstract

本发明提供一种服务器散热控制器的控制方法及系统,所述散热控制器包括控制芯片、温度传感器和风扇控制器,所述温度传感器连接控制芯片输入端,所述风扇控制器与控制芯片通过独立链路建立通信连接,所述控制芯片通过I2C连接BMC,所述方法包括:获取BMC更新的散热策略数据;获取温度传感器采集的服务器测温点温度;根据所述温度和散热策略数据生成风扇目标转速;获取与所述温度传感器对应风扇的当前转速,并根据当前转速和目标转速生成转速调控信号,对所述风扇的转速进行调控。本发明采用将服务器的散热控制从BMC剥离出来,充分有效利用备用散热控制器的资源,实现了散热控制器独立进行对各个风扇的单独控制,精准控制散热。

Description

一种服务器散热控制器的控制方法及系统
技术领域
本发明属于服务器散热技术领域,具体涉及一种服务器散热控制器的控制方法及系统。
背景技术
在服务器运行过程中,有效地控制散热,是保证服务器稳定运行的关键。在当前的服务器设计中,一般采用BMC(Baseboard Management Controller,基板管理控制器)对服务器主板进行管理。BMC可以监控主板的健康信息,实现功耗、温度和风扇转速的检测以及主板风扇的控制。
当前的服务器应用中,人们对于服务器在环保静音、功耗以及稳定性方面的要求越来越高,目前现有的BMC散热控制越来越无法满足新形式下的环保静音、精准控制、提能降耗、环保节能等等新需求。
现有通过BMC控制风扇转速的方法具有以下缺点:
1、当前服务器散热控制都是由BMC直接进行控制,但是BMC系统较为庞大,启动时间较长,BMC启动这段时间,散热风扇处于无人管理的空档期,这样是非常危险的。因此服务器在BMC启动过程中,采用了硬件电路直接控制风扇全速旋转的方案来解决散热的问题。该方案造成的问题是服务器上电时,由于风扇全速运转,风扇噪音超大,多数情况存在不必要的能源浪费。与现在客户要求的静音和节能环保相违背。
2、BMC功能越来越丰富,系统越来越复杂,资源占用越来越多,在执行某些特定任务的时候,资源开支比较大,对散热的及时调控影响越来越大。扫描周期变长,风扇的调节响应有时会迟滞。影响散热调节的及时性。
3、现在服务器业务越来越复杂,尤其高密度服务器和AI服务器能耗大,功率大热量大,空间有限,散热困难,瞬间业务的攀升造成温度瞬间急剧升高,产生严重的问题。
4、现有方案中对服务器的多风扇控制多数都是统一控制,没有分散单独控制。目前AI服务器多GPU,多风道布局,局部温度的过高,都会进行全部风扇的加速运转。不能精准控制,造成一定的资源浪费,不环保节能。
5、当服务器采用单BMC控制时,存在由于BMC固件更新失败、被攻击等等情况时BMC失效,整个服务器的散热将处于瘫痪状态,造成客户业务中断,甚至设备烧毁的故障。当服务器采用技术方案三的设计,增加一个控制器时,控制器多数情况下,处于空闲状态,并且还要反复跟BMC进行通讯,不能充分利用控制器的资源。还会增加BMC的负担。
发明内容
针对现有技术的上述不足,本发明提供一种服务器散热控制器的控制方法及系统。
第一方面,本发明提供一种服务器散热控制器的控制方法,所述散热控制器包括控制芯片、温度传感器和风扇控制器,所述温度传感器连接控制芯片输入端,所述风扇控制器与控制芯片通过独立链路建立通信连接,所述控制芯片通过I2C连接BMC,所述方法包括:
获取BMC更新的散热策略数据;
获取温度传感器采集的服务器测温点温度;
根据所述温度和散热策略数据生成风扇目标转速;
获取与所述温度传感器对应风扇的当前转速,并根据当前转速和目标转速生成转速调控信号,对所述风扇的转速进行调控。
进一步的,所述获取BMC更新的散热策略数据,包括:
对所述散热策略数据进行CRC校验;
将经过校验的散热策略数据保存至非易失存储器;
将内存中的散热策略更新为最新的散热策略数据。
进一步的,所述获取温度传感器采集的服务器测温点温度,包括:
获取温度传感器采集的服务器测温点温度和所述温度传感器的地址;
筛选超过预设温度阈值的测温点温度,并将包括所述温度和相应温度传感器地址的报警日志上传至BMC;
根据BMC的日志管理指令对本地报警日志进行管理;
确认本地日志存储已满,对报警日志采用逐条覆盖策略进行管理。
进一步的,所述获取与所述温度传感器对应风扇的当前转速,并根据当前转速和目标转速生成转速调控信号,对所述风扇的转速进行调控,包括:
采集风扇当前转速和风扇设备码,所述当前转速与所述风扇设备码一一对应;
根据温度传感器和风扇的所处区域,建立风扇设备码与温度传感器地址的映射关系;
根据风扇设备码与温度传感器地址的映射关系,获取与风扇当前转速对应的目标转速,根据当前转速和对应目标转速生成转速调控信号,将所述转速调控信号根据风扇设备码下发至相应风扇控制器;
确认风扇当前转速为0,生成包括风扇设备码的风扇异常报警信息,并将所述风扇异常报警信息上传至BMC。
进一步的,所述方法还包括:
通过开启2秒的看门狗,实现自身快速复位;
通过与BMC定期通信,在通信失败后根据BMC发送的重启信号实现重启。
第二方面,本发明提供一种服务器散热控制器的控制系统,所述散热控制器包括控制芯片、温度传感器和风扇控制器,所述温度传感器连接控制芯片输入端,所述风扇控制器与控制芯片通过独立链路建立通信连接,所述控制芯片通过I2C连接BMC,所述系统包括:
策略获取单元,配置用于获取BMC更新的散热策略数据;
温度获取单元,配置用于获取温度传感器采集的服务器测温点温度;
转速计算单元,配置用于根据所述温度和散热策略数据生成风扇目标转速;
转速调控单元,配置用于获取与所述温度传感器对应风扇的当前转速,并根据当前转速和目标转速生成转速调控信号,对所述风扇的转速进行调控。
进一步的,所述策略获取单元包括:
数据校验模块,配置用于对所述散热策略数据进行CRC校验;
数据缓存模块,配置用于将经过校验的散热策略数据保存至非易失存储器;
数据存储模块,配置用于将内存中的散热策略更新为最新的散热策略数据。
进一步的,所述温度获取单元包括:
温度接收模块,配置用于获取温度传感器采集的服务器测温点温度和所述温度传感器的地址;
温度报警模块,配置用于筛选超过预设温度阈值的测温点温度,并将包括所述温度和相应温度传感器地址的报警日志上传至BMC;
日志管理模块,配置用于根据BMC的日志管理指令对本地报警日志进行管理;
日志覆盖模块,配置用于确认本地日志存储已满,对报警日志采用逐条覆盖策略进行管理。
进一步的,所述转速调控单元包括:
转速采集模块,配置用于采集风扇当前转速和风扇设备码,所述当前转速与所述风扇设备码一一对应;
映射建立模块,配置用于根据温度传感器和风扇的所处区域,建立风扇设备码与温度传感器地址的映射关系;
转速调控模块,配置用于根据风扇设备码与温度传感器地址的映射关系,获取与风扇当前转速对应的目标转速,根据当前转速和对应目标转速生成转速调控信号,将所述转速调控信号根据风扇设备码下发至相应风扇控制器;
风扇报警模块,配置用于确认风扇当前转速为0,生成包括风扇设备码的风扇异常报警信息,并将所述风扇异常报警信息上传至BMC。
进一步的,所述系统还包括:
自身复位模块,配置用于通过开启2秒的看门狗,实现自身快速复位;
外部复位模块,配置用于通过与BMC定期通信,在通信失败后根据BMC 发送的重启信号实现重启。
本发明的有益效果在于,
本发明提供的服务器散热控制器的控制方法及系统,采用将服务器的散热控制从BMC剥离出来,充分有效利用备用散热控制器的资源,散热控制器独立进行多点温度和风扇转速状态信息的采集,并对各个风扇进行单独控制,精准控制散热,形成一种低成本、低复杂度、高可靠性、高扩展性的创新解决方案。本发明在不增加设计成本的情况下,通过调整业务和整合资源,进而解决了开机噪音问题并降低了设备能耗;缓解了BMC日趋紧张的宝贵资源;缩短了传感器扫描周期,提高了散热控制的响应及时性;支持更多的温度传感器和独立控制各个风扇,实现了服务器局部温度的精准采集和调节;实现的服务器散热的精准、精细控制,减少局部温度波动;实现了提能降耗,节能环保。解决了客户的痛点问题,有效地提高服务器的稳定性和可靠性。降低运维成本,提高产品口碑。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的服务器散热控制器的示意性架构图。
图2是本发明一个实施例的方法的示意性流程图。
图3是本发明一个实施例的系统的示意性框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面对本发明中出现的关键术语进行解释。
BMC Baseboard Management Controller基板管理控制器,可以在机器未开机的状态下,对机器进行固件升级、查看机器设备、等一些操作
GPIO General Purpose Input Output(通用输入/输出)简称为GPIO,利用物理引脚的高低电平进行信号通信
I2C(Inter-Integrated Circuit)是内部整合电路的称呼,是一种串行通讯总线,使用多主从架构,是一种简单、双向二线制同步串行总线
控制器:本实施例中用于温度采集、风扇的控制的一个STM32(ARM) 芯片,作用为散热控制器,本实施例中不限于该芯片,文中简称控制器。
请参考图1,本实施例中的服务器散热控制器的物理连接结构如下:
1.BMC和控制器之间的数据链路:本实施例中BMC和控制器之间数量链路采用独立I2C连接(本实施例采用I2C,但本实施例不限于I2C连接,I3C、 UART、SPI等其他连接也是同样效果)。使得BMC和控制器之间可以进行数据传送和通讯。
2.控制器的硬件复位信号:本实施例中温度控制器是整个服务器的核心控制中心,必须保证控制器正常工作,因此设计中增加,外部强制复位信号的控制,当出现问题的时候,BMC可以通过该信号强制将控制器复位重启。
3.传感器信息采集链路:本实施例中制器通过I2C连接各个温度传感器,进行各个测温点的温度采集功能。每个传感器有一个I2C地址,各个传感器直接地址不同,控制器根据传感器地址逐个访问和读取当前传感器的温度或者功率等信息。控制器也可以设置传感器的配置等信息。
4.风扇控制链路:本实施例中控制器与各个风扇直接单独连接,以实现风扇的单独控制。控制器通过产生不同的占空比的PWM信号,来分别控制各个风扇的转速。风扇实际转速信号分别连接到控制上,控制器通过检查各个风扇的反馈信号可以计算出风扇的实际转速和风扇是否损坏。
基于上述服务器散热控制器,本实施例提供一种上述服务器散热控制器的控制方法,如图2所示,包括以下内容:
S1、获取BMC更新的散热策略数据。
控制器与BMC通过I2C进行通信交互,控制器接受BMC发来的各种命令和请求,并按照要求返回指定的数据,如各个温度传感器的温度、风扇的转速、控制器日志、散热策略等等。比如,BMC会定时从控制器中获取温度、风扇转速,日志等数据。
BMC会下发新的散热策略数据,控制器接受到该数据后,进行数据完整性验证,然后通知系统将该数据存储到falsh或eeprom中,并将内存中的散热策略更新为最新的散热策略,执行最新的散热策略。
S2、获取温度传感器采集的服务器测温点温度。
控制器的传感器列表中记录了设备中各个温度传感器的I2C地址,芯片型号,温度寄存器地址等信息。
系统启动一个周期为1s的定时器,时间到了就调用该流程扫描一次各个温度传感器的温度值,并将扫描到的温度值写入温度结构体中(结构体有传感器编号和温度值)。
设置一个温度阈值,超过温度阈值的温度为异常温度,将异常温度和采集异常温度的温度传感器地址生成温度报警日志,将温度报警日志发送至 BMC。
当控制器系统检测到风扇状态异常、通讯异常、传感器信息异常,服务器温度异常等等情况时,生成系统日志或者告警日志,进行记录,并告知BMC 进行处理。日志和告警信息存储在非易失存储器中(本设计为eeprom中),防止控制器重启后日志和告警信息丢失。提供日志和告警信息的查询、写入和删除接口。供BMC调用。控制器本身不删除日志信息,BMC决定日志是否删除。当日志和告警信息存储满时,进逐条覆盖,覆盖最早的日志信息。根据BMC下发的日志管理指令对本地的日志进行读取或删除操作。
S3、根据所述温度和散热策略数据生成风扇目标转速。
散热策略是精准控制的核心,散热策略跟硬件、结构强相关,不同的设计有不同的散热策略,因此不在此做限制。主要说一下核心的思想。服务器中有不同的散热风道,当服务器中某个CPU或GPU或其他器件散热量大的时候,最先影响其所在风道,远离的风道可能影响很小。目前由于是风扇统一控制,当某一个风道温度升高时,所有风扇都转速增加,存在噪音巨大和功耗浪费的情况。本设计由于可以独立控制各个风扇,因此可以当某个风道器件温度升高时,提高该风道的风扇转速,小幅提高周边相邻风道的风扇转速。达到静音和节能的目的。
将步骤S2采集的温度输入步骤S1中获取的散热策略,计算各个测温点对应的目标转速。
S4、获取与所述温度传感器对应风扇的当前转速,并根据当前转速和目标转速生成转速调控信号,对所述风扇的转速进行调控。
采集和统计各个风扇的转速信息,即风扇的当前转速,每个转速信息标记所属风扇的设备码,便于系统区分。根据温度传感器和风扇在服务器中的物理位置,建立温度传感器地址与风扇设备码的对应关系。根据这种对应关系,将步骤S3计算出的目标转速与风扇设备码对应起来,进而根据每个风扇设备码下的当前转速和目标转速计算转速调控量,转速调控量=目标转速- 当前转速。根据转速调控量生成转速调控信号,转速调控信号为相应的PWM 波形。本实施例中使用PWM控制器产生不同的风扇控制信号,控制不同的风扇单独运转。PWM占空比为0%时风扇停转,占空比为100%风扇全速运转。
若采集到的风扇当前速度为0,则判定风扇异常,生成包括风扇设备码的风扇异常报警日志,并将所述风扇异常报警日志上传至BMC。
S5、控制器为一个ARM或者单片机,存在自身软件Bug或者外部电磁干扰的情况,控制器存在死机、程序跑飞等情况。当该情况发生时,如果不能立即将控制器重启恢复工作,将会造成服务器散热系统瘫痪,甚至宕机。
本设计中复位模块主要功能是当控制器系统出现问题无法正常工作的时候,立即重启控制器,避免严重问题。复位模块机制一是看门狗复位;二是外部硬复位。
①控制器开启一个2秒的看门狗,并在程序中进行喂狗操作(扫描和风扇控制时),如果程序出现跑飞或者死机情况(程序无法进行传感器扫描和风扇控制),2秒钟后看门狗将会使控制器进行重启。
②BMC会定期与控制器尝试进行通信,如果通讯失败,则判定控制器失效,BMC直接通过重启信号线将控制器重启。由于控制器重启速度很快,扫描和控制周期很短,BMC及时误重启控制器,也不会对散热造成影响。
如图3示,该系统200包括:
策略获取单元310,配置用于获取BMC更新的散热策略数据;
温度获取单元320,配置用于获取温度传感器采集的服务器测温点温度;
转速计算单元330,配置用于根据所述温度和散热策略数据生成风扇目标转速;
转速调控单元340,配置用于获取与所述温度传感器对应风扇的当前转速,并根据当前转速和目标转速生成转速调控信号,对所述风扇的转速进行调控。
可选地,作为本发明一个实施例,所述策略获取单元包括:
数据校验模块,配置用于对所述散热策略数据进行CRC校验;
数据缓存模块,配置用于将经过校验的散热策略数据保存至非易失存储器;
数据存储模块,配置用于将内存中的散热策略更新为最新的散热策略数据。
可选地,作为本发明一个实施例,所述温度获取单元包括:
温度接收模块,配置用于获取温度传感器采集的服务器测温点温度和所述温度传感器的地址;
温度报警模块,配置用于筛选超过预设温度阈值的测温点温度,并将包括所述温度和相应温度传感器地址的报警日志上传至BMC;
日志管理模块,配置用于根据BMC的日志管理指令对本地报警日志进行管理;
日志覆盖模块,配置用于确认本地日志存储已满,对报警日志采用逐条覆盖策略进行管理。
可选地,作为本发明一个实施例,所述转速调控单元包括:
转速采集模块,配置用于采集风扇当前转速和风扇设备码,所述当前转速与所述风扇设备码一一对应;
映射建立模块,配置用于根据温度传感器和风扇的所处区域,建立风扇设备码与温度传感器地址的映射关系;
转速调控模块,配置用于根据风扇设备码与温度传感器地址的映射关系,获取与风扇当前转速对应的目标转速,根据当前转速和对应目标转速生成转速调控信号,将所述转速调控信号根据风扇设备码下发至相应风扇控制器;
风扇报警模块,配置用于确认风扇当前转速为0,生成包括风扇设备码的风扇异常报警信息,并将所述风扇异常报警信息上传至BMC。
可选的,作为本发明一个实施例,所述系统还包括:
自身复位模块,配置用于通过开启2秒的看门狗,实现自身快速复位;
外部复位模块,配置用于通过与BMC定期通信,在通信失败后根据BMC 发送的重启信号实现重启。
本实施例提供的系统中的各个功能模块由控制器中的System大循环函数进行调度。例如,上电开机时,进行系统的硬件初始化和软件初始化,并从falsh中和eeprom中读取散热策略等数据,准备开始工作。该过程时间很短。然后就是马上进行温度扫描和风扇控制。之后定时完成扫描和控制任务。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,包括若干指令用以使得一台计算机终端(可以是个人计算机,服务器,或者第二终端、网络终端等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种服务器散热控制器的控制方法,其特征在于,所述散热控制器包括控制芯片、温度传感器和风扇控制器,所述温度传感器连接控制芯片输入端,所述风扇控制器与控制芯片通过独立链路建立通信连接,所述控制芯片通过I2C连接BMC,所述方法包括:
获取BMC更新的散热策略数据;
获取温度传感器采集的服务器测温点温度;
根据所述温度和散热策略数据生成风扇目标转速;
获取与所述温度传感器对应风扇的当前转速,并根据当前转速和目标转速生成转速调控信号,对所述风扇的转速进行调控。
2.根据权利要求1所述的方法,其特征在于,所述获取BMC更新的散热策略数据,包括:
对所述散热策略数据进行CRC校验;
将经过校验的散热策略数据保存至非易失存储器;
将内存中的散热策略更新为最新的散热策略数据。
3.根据权利要求1所述的方法,其特征在于,所述获取温度传感器采集的服务器测温点温度,包括:
获取温度传感器采集的服务器测温点温度和所述温度传感器的地址;
筛选超过预设温度阈值的测温点温度,并将包括所述温度和相应温度传感器地址的报警日志上传至BMC;
根据BMC的日志管理指令对本地报警日志进行管理;
确认本地日志存储已满,对报警日志采用逐条覆盖策略进行管理。
4.根据权利要求1所述的方法,其特征在于,所述获取与所述温度传感器对应风扇的当前转速,并根据当前转速和目标转速生成转速调控信号,对所述风扇的转速进行调控,包括:
采集风扇当前转速和风扇设备码,所述当前转速与所述风扇设备码一一对应;
根据温度传感器和风扇的所处区域,建立风扇设备码与温度传感器地址的映射关系;
根据风扇设备码与温度传感器地址的映射关系,获取与风扇当前转速对应的目标转速,根据当前转速和对应目标转速生成转速调控信号,将所述转速调控信号根据风扇设备码下发至相应风扇控制器;
确认风扇当前转速为0,生成包括风扇设备码的风扇异常报警信息,并将所述风扇异常报警信息上传至BMC。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过开启2秒的看门狗,实现自身快速复位;
通过与BMC定期通信,在通信失败后根据BMC发送的重启信号实现重启。
6.一种服务器散热控制器的控制系统,所述散热控制器包括控制芯片、温度传感器和风扇控制器,所述温度传感器连接控制芯片输入端,所述风扇控制器与控制芯片通过独立链路建立通信连接,所述控制芯片通过I2C连接BMC,其特征在于,所述系统包括:
策略获取单元,配置用于获取BMC更新的散热策略数据;
温度获取单元,配置用于获取温度传感器采集的服务器测温点温度;
转速计算单元,配置用于根据所述温度和散热策略数据生成风扇目标转速;
转速调控单元,配置用于获取与所述温度传感器对应风扇的当前转速,并根据当前转速和目标转速生成转速调控信号,对所述风扇的转速进行调控。
7.根据权利要求6所述的系统,其特征在于,所述策略获取单元包括:
数据校验模块,配置用于对所述散热策略数据进行CRC校验;
数据缓存模块,配置用于将经过校验的散热策略数据保存至非易失存储器;
数据存储模块,配置用于将内存中的散热策略更新为最新的散热策略数据。
8.根据权利要求6所述的系统,其特征在于,所述温度获取单元包括:
温度接收模块,配置用于获取温度传感器采集的服务器测温点温度和所述温度传感器的地址;
温度报警模块,配置用于筛选超过预设温度阈值的测温点温度,并将包括所述温度和相应温度传感器地址的报警日志上传至BMC;
日志管理模块,配置用于根据BMC的日志管理指令对本地报警日志进行管理;
日志覆盖模块,配置用于确认本地日志存储已满,对报警日志采用逐条覆盖策略进行管理。
9.根据权利要求6所述的系统,其特征在于,所述转速调控单元包括:
转速采集模块,配置用于采集风扇当前转速和风扇设备码,所述当前转速与所述风扇设备码一一对应;
映射建立模块,配置用于根据温度传感器和风扇的所处区域,建立风扇设备码与温度传感器地址的映射关系;
转速调控模块,配置用于根据风扇设备码与温度传感器地址的映射关系,获取与风扇当前转速对应的目标转速,根据当前转速和对应目标转速生成转速调控信号,将所述转速调控信号根据风扇设备码下发至相应风扇控制器;
风扇报警模块,配置用于确认风扇当前转速为0,生成包括风扇设备码的风扇异常报警信息,并将所述风扇异常报警信息上传至BMC。
10.根据权利要求6所述的系统,其特征在于,所述系统还包括:
自身复位模块,配置用于通过开启2秒的看门狗,实现自身快速复位;
外部复位模块,配置用于通过与BMC定期通信,在通信失败后根据BMC发送的重启信号实现重启。
CN201910654956.6A 2019-07-19 2019-07-19 一种服务器散热控制器的控制方法及系统 Pending CN110594180A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910654956.6A CN110594180A (zh) 2019-07-19 2019-07-19 一种服务器散热控制器的控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910654956.6A CN110594180A (zh) 2019-07-19 2019-07-19 一种服务器散热控制器的控制方法及系统

Publications (1)

Publication Number Publication Date
CN110594180A true CN110594180A (zh) 2019-12-20

Family

ID=68853052

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910654956.6A Pending CN110594180A (zh) 2019-07-19 2019-07-19 一种服务器散热控制器的控制方法及系统

Country Status (1)

Country Link
CN (1) CN110594180A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111338873A (zh) * 2020-02-29 2020-06-26 苏州浪潮智能科技有限公司 一种验证服务器散热策略的方法及系统
CN111706539A (zh) * 2020-06-09 2020-09-25 深圳市汇川技术股份有限公司 电机风扇的转速调控方法、设备及可读存储介质
CN112099597A (zh) * 2020-08-31 2020-12-18 新华三信息技术有限公司 一种板卡适配方法、装置、设备及机器可读存储介质
CN112283141A (zh) * 2020-12-01 2021-01-29 苏州浪潮智能科技有限公司 一种风扇连接器过流预警处理系统及方法
CN112306796A (zh) * 2020-10-22 2021-02-02 苏州浪潮智能科技有限公司 一种存储服务器入风口温度检测装置及方法
CN112485645A (zh) * 2020-11-30 2021-03-12 海光信息技术股份有限公司 芯片测试温度控制方法、控制系统、温控板卡及测试系统
CN112732521A (zh) * 2020-12-31 2021-04-30 联想(北京)有限公司 数据处理方法、设备及存储介质
CN112749054A (zh) * 2020-12-29 2021-05-04 苏州浪潮智能科技有限公司 一种服务器散热测试装置、方法、电子设备及存储介质
CN113204461A (zh) * 2021-04-16 2021-08-03 山东英信计算机技术有限公司 一种服务器硬件监控的方法、装置、设备及可读介质
CN113220614A (zh) * 2021-04-30 2021-08-06 山东英信计算机技术有限公司 一种自适应管理i2c和i3c设备的方法、系统及介质
CN113503266A (zh) * 2021-05-31 2021-10-15 阜南县特立电子有限公司 一种直流风扇控制系统及直流风扇
CN114281173A (zh) * 2021-11-29 2022-04-05 苏州浪潮智能科技有限公司 一种服务器的可靠散热控制方法及装置
CN114356057A (zh) * 2021-12-30 2022-04-15 浙江大华技术股份有限公司 控制PCIe卡散热的方法、装置、设备及存储介质
CN114442766A (zh) * 2021-12-24 2022-05-06 曙光信息产业股份有限公司 散热系统、方法和单片机
CN115047954A (zh) * 2022-04-30 2022-09-13 苏州浪潮智能科技有限公司 一种设备散热控制方法、系统、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202771358U (zh) * 2012-08-29 2013-03-06 浪潮集团有限公司 一种磁盘阵列的风扇管理装置
CN107654407A (zh) * 2017-11-15 2018-02-02 郑州云海信息技术有限公司 一种基于服务器的多风扇控制系统及多风扇的控制方法
CN207036271U (zh) * 2017-05-19 2018-02-23 四川成瑞科技有限公司 无线温度检测装置及系统
CN108170575A (zh) * 2017-12-25 2018-06-15 曙光信息产业(北京)有限公司 一种服务器散热的控制方法及装置
CN109933173A (zh) * 2019-03-21 2019-06-25 浪潮商用机器有限公司 一种服务器系统中的风扇控制装置及设备
CN109958646A (zh) * 2019-03-20 2019-07-02 浪潮商用机器有限公司 风扇控制方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN202771358U (zh) * 2012-08-29 2013-03-06 浪潮集团有限公司 一种磁盘阵列的风扇管理装置
CN207036271U (zh) * 2017-05-19 2018-02-23 四川成瑞科技有限公司 无线温度检测装置及系统
CN107654407A (zh) * 2017-11-15 2018-02-02 郑州云海信息技术有限公司 一种基于服务器的多风扇控制系统及多风扇的控制方法
CN108170575A (zh) * 2017-12-25 2018-06-15 曙光信息产业(北京)有限公司 一种服务器散热的控制方法及装置
CN109958646A (zh) * 2019-03-20 2019-07-02 浪潮商用机器有限公司 风扇控制方法及系统
CN109933173A (zh) * 2019-03-21 2019-06-25 浪潮商用机器有限公司 一种服务器系统中的风扇控制装置及设备

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111338873A (zh) * 2020-02-29 2020-06-26 苏州浪潮智能科技有限公司 一种验证服务器散热策略的方法及系统
CN111706539A (zh) * 2020-06-09 2020-09-25 深圳市汇川技术股份有限公司 电机风扇的转速调控方法、设备及可读存储介质
CN111706539B (zh) * 2020-06-09 2022-03-01 深圳市汇川技术股份有限公司 电机风扇的转速调控方法、设备及可读存储介质
CN112099597A (zh) * 2020-08-31 2020-12-18 新华三信息技术有限公司 一种板卡适配方法、装置、设备及机器可读存储介质
CN112306796A (zh) * 2020-10-22 2021-02-02 苏州浪潮智能科技有限公司 一种存储服务器入风口温度检测装置及方法
CN112306796B (zh) * 2020-10-22 2022-12-27 苏州浪潮智能科技有限公司 一种存储服务器入风口温度检测装置及方法
CN112485645A (zh) * 2020-11-30 2021-03-12 海光信息技术股份有限公司 芯片测试温度控制方法、控制系统、温控板卡及测试系统
CN112283141A (zh) * 2020-12-01 2021-01-29 苏州浪潮智能科技有限公司 一种风扇连接器过流预警处理系统及方法
CN112283141B (zh) * 2020-12-01 2022-06-21 苏州浪潮智能科技有限公司 一种风扇连接器过流预警处理系统及方法
CN112749054A (zh) * 2020-12-29 2021-05-04 苏州浪潮智能科技有限公司 一种服务器散热测试装置、方法、电子设备及存储介质
CN112732521A (zh) * 2020-12-31 2021-04-30 联想(北京)有限公司 数据处理方法、设备及存储介质
CN113204461A (zh) * 2021-04-16 2021-08-03 山东英信计算机技术有限公司 一种服务器硬件监控的方法、装置、设备及可读介质
CN113204461B (zh) * 2021-04-16 2022-05-03 山东英信计算机技术有限公司 一种服务器硬件监控的方法、装置、设备及可读介质
CN113220614A (zh) * 2021-04-30 2021-08-06 山东英信计算机技术有限公司 一种自适应管理i2c和i3c设备的方法、系统及介质
CN113220614B (zh) * 2021-04-30 2022-11-29 山东英信计算机技术有限公司 一种自适应管理i2c和i3c设备的方法、系统及介质
CN113503266A (zh) * 2021-05-31 2021-10-15 阜南县特立电子有限公司 一种直流风扇控制系统及直流风扇
CN114281173A (zh) * 2021-11-29 2022-04-05 苏州浪潮智能科技有限公司 一种服务器的可靠散热控制方法及装置
CN114442766A (zh) * 2021-12-24 2022-05-06 曙光信息产业股份有限公司 散热系统、方法和单片机
CN114356057A (zh) * 2021-12-30 2022-04-15 浙江大华技术股份有限公司 控制PCIe卡散热的方法、装置、设备及存储介质
CN115047954A (zh) * 2022-04-30 2022-09-13 苏州浪潮智能科技有限公司 一种设备散热控制方法、系统、装置、设备及存储介质
CN115047954B (zh) * 2022-04-30 2023-06-20 苏州浪潮智能科技有限公司 一种设备散热控制方法、系统、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110594180A (zh) 一种服务器散热控制器的控制方法及系统
US20160261455A1 (en) Automatic debug information collection
CN107122321A (zh) 硬件修复方法、硬件修复系统以及计算机可读取存储装置
US20070028129A1 (en) Power monitoring for processor module
WO2023115999A1 (zh) 设备状态监控方法、装置、设备及计算机可读存储介质
CN105302248A (zh) 芯片组以及服务器系统
CN102289388B (zh) 服务器管理ipmi接口协议的扩展方法
KR100376939B1 (ko) 통신망을 통한 원격 사후관리 방법 및 이를 이용한전자제품의 사후관리시스템
CN109933182A (zh) 一种服务器掉电诊断方法、装置和系统
CN109254783A (zh) 一种服务器系统安装方法、装置、设备及可读存储介质
CN110658758A (zh) 控制方法和控制系统
CN114116378A (zh) 获取PCIe设备温度的方法、系统、终端及存储介质
CN103778024A (zh) 服务器系统及其讯息处理方法
CN107026759A (zh) 一种基于bmc的远程管理bbu模块的固件及其开发方法
CN111949320A (zh) 提供系统数据的方法、系统及服务器
CN113311754A (zh) 一种基于gd32单片机的电源模块的bmc管理系统
CN102480396A (zh) 一种服务器系统及其连接方法
CN113900718B (zh) 一种bmc与bios资产信息的解耦方法、系统及装置
CN115098342A (zh) 系统日志收集方法、系统、终端及存储介质
CN113325940A (zh) 智能设备的功耗管控方法、系统、终端及存储介质
CN114253573A (zh) PCIe设备固件批量升级方法、系统、终端及存储介质
CN113448417A (zh) 电压调节器设定值动态设定方法、系统、终端及存储介质
CN113010303A (zh) 一种处理器间的数据交互方法、装置以及服务器
CN110647435A (zh) 服务器、硬盘远程控制方法及控制组件
CN111459768A (zh) 一种硬盘管理方法、装置、设备及机器可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191220