CN114443430B - 一种服务器风扇故障预测系统及方法 - Google Patents

一种服务器风扇故障预测系统及方法 Download PDF

Info

Publication number
CN114443430B
CN114443430B CN202210080373.9A CN202210080373A CN114443430B CN 114443430 B CN114443430 B CN 114443430B CN 202210080373 A CN202210080373 A CN 202210080373A CN 114443430 B CN114443430 B CN 114443430B
Authority
CN
China
Prior art keywords
fan
ratio
vibration
rotation speed
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210080373.9A
Other languages
English (en)
Other versions
CN114443430A (zh
Inventor
魏文星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202210080373.9A priority Critical patent/CN114443430B/zh
Publication of CN114443430A publication Critical patent/CN114443430A/zh
Application granted granted Critical
Publication of CN114443430B publication Critical patent/CN114443430B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种服务器风扇故障预测系统及方法,属于风扇故障预测技术领域,所述系统包括BMC;BMC连接有风扇电流监测模块、风扇转速监测模块、风扇振动状态监测模块;风扇电流监测模块连接有风扇连接器;风扇电流监测模块,对服务器各风扇的电流值进行采集;风扇转速监测模块,对服务器各风扇的转速调控时间进行采集;风扇振动状态监测模块,对服务器各风扇的振动量进行采集;BMC对采集的各风扇的电流值、转速调控时间以及振动量进行分析,识别出电流值异常、转速调控时间异常以及振动量异常的风扇进行故障预测。本发明通过风扇电流值、调速时间及振动量的监控,实现风扇故障前的预测,避免风扇故障带来的服务器性能下降甚至宕机问题。

Description

一种服务器风扇故障预测系统及方法
技术领域
本发明属于风扇故障预测技术领域,具体涉及一种服务器风扇故障预测系统及方法。
背景技术
随着云计算、大数据业务、AI技术的发展,服务器的需求激增。作为一种生产力工具在各行各业广泛应用的服务器是计算和存储的核心,其稳定性是至关重要的。
风扇是服务器散热系统的一个重要组成部分,风扇负责给服务器系统进行散热,使服务器工作在一个正常的温度环境中。如果服务器风扇出问题,轻则服务器降频,性能降低,严重的会导致服务器宕机,甚至会对服务器硬件造成损坏。因此需要对风扇健康状态进行监控,以及对风扇故障进行预测,从而对系统散热隐患进行提前排除,有效提高服务器的稳定性和可靠性。
当前的服务器风扇设计中,常采用的风扇故障告警方法是系统读取风扇的转速值,看当前的转速是否与系统输出的控制转速值一致,一致则认为风扇转速正常,不一致则认为风扇发生故障,进行报警。此种方式只会对风扇故障进行告警,而不会对风扇即将出现的故障进行预测。即当风扇出现故障时,一般是风扇坏掉不转了,才通知系统风扇故障,系统此时才控制其他风扇提升转速来对整体的散热进行补偿。也就是传统的风扇设计只能在故障发生时进行被动告警,而无法判断当前风扇状态是否健康,无法主动预测风扇故障,具有一定的滞后性。
此为现有技术的不足,因此,针对现有技术中的上述缺陷,提供一种服务器风扇故障预测系统及方法,是非常有必要的。
发明内容
针对现有技术的上述现有的服务器风扇监控方式都是风扇故障后发出报警,不能在风扇故障前进行预测,具有滞后性的缺陷,本发明提供一种服务器风扇故障预测系统及方法,以解决上述技术问题。
第一方面,本发明提供一种服务器风扇故障预测系统,包括BMC;
BMC连接有风扇电流监测模块、风扇转速监测模块、风扇振动状态监测模块;
风扇电流监测模块连接有风扇连接器;
风扇电流监测模块,用于对服务器各风扇的电流值进行采集;
风扇转速监测模块,用于对服务器各风扇的转速调控时间进行采集;
风扇振动状态监测模块,用于对服务器各风扇的振动量进行采集;
BMC对采集的各风扇的电流值、转速调控时间以及振动量进行分析,识别出电流值异常、转速调控时间异常以及振动量异常的风扇进行故障预测。
进一步地,风扇电流监测模块包括电子保险丝、采样模数转换单元以及采样电阻R1;
BMC设有电源使能端子PWR_EN和采样端子ADC;
风扇连接器设有电源信号线和接地信号线;接地信号线接地;
电源使能端子PWR_EN与电子保险丝连接,电子保险丝还连接有12V电源P12V;
电子保险丝还与采样电阻R1第一端连接,采样电阻R1第二端通过电源信号线与风扇连机器连接;
采样模数转换单元设有正采样端、负采样端和模数输出端;
正采样端与采样电阻R1第一端连接,负采样端与采样电阻R1第二端连接,模数输出端通过第一I2C信号线与BMC的采样端子ADC连接。12V电源P12V通过电子保险丝给风扇供电,电子保险丝通过BMC控制,BMC根据需要控制风扇的供电,采样电阻与采样模数转换单元配合进行风扇电流值的采样;风扇电流值异常会导致风扇的驱动MOS管烧毁,或者风扇的线圈短路烧毁,而风扇电流值的异常不是突然出现的,是一个渐变的过程,因此对风扇电流值监测可对风扇出现电气故障的趋势进行预测。
进一步地,风扇转速监测模块包括CPLD;
风扇连接器还设有PWM控制信号线和转速反馈信号线;
BMC还设有风扇转速控制反馈端子Fan_PWM_TACH;
CPLD与风扇连接器的PWM控制信号线及转速反馈信号线均连接,CPLD通过第二I2C信号线与BMC的风扇转速控制反馈端子Fan_PWM_TACH连接。BMC通过CPLD进行风扇调速指令的下达,以及通过CPLD获取风扇反馈的转速,从而据此计算出风扇调速时间;风扇调速时间异常是由于风扇阻力变大,导致风扇阻力变大的是风扇内部轴承的磨损,风扇使用时间越长,轴承磨损越严重。风扇轴承磨损也是一个渐变的过程,因此对风扇调速时间监测可对风扇出现轴承磨损的机械故障的趋势进行预测。
进一步地,风扇振动状态监测模块包括I2C扩展芯片和若干风扇振动检测模组;
每个风扇振动检测模组用于检测一个风扇四个位置的风扇振动状态;
风扇振动检测模组包括第一振动传感单元、第二振动传感单元、第三振动传感单元以及第四振动传感单元;各振动传感单元均包括正电源端、负电源端和振动数据输出端;
BMC通过第三I2C信号线与I2C扩展芯片连接;
第一振动传感单元包括第一振动传感器,第一振动传感器的正电源端连接有3.3V电源P3.3V,第一振动传感器的负电源端接地,第一振动传感器的振动数据输出端与I2C扩展芯片连接;
第二振动传感单元包括第二振动传感器,第二振动传感器的正电源端与3.3V电源P3.3V连接,第二振动传感器的负电源端接地,第二振动传感器的振动数据输出端与I2C扩展芯片连接;
第三振动传感单元包括第三振动传感器,第三振动传感器的正电源端与3.3V电源P3.3V连接,第三振动传感器的负电源端接地,第三振动传感器的振动数据输出端与I2C扩展芯片连接;
第四振动传感单元包括第四振动传感器,第四振动传感器的正电源端与3.3V电源P3.3V连接,第四振动传感器的负电源端接地,第四振动传感器的振动数据输出端与I2C扩展芯片连接;
服务器机箱内设置有风扇框支架,各服务器风扇设置在风扇框支架内,同一风扇振动检测模组的四个振动传感单元分别设置在风扇框支架与一个服务器风扇连接的四个内壁处。BMC通过振动传感单元对一个风扇一个检测点的振动量进行获取,再通过I2C扩展芯片对各个风扇的振动量进行汇总到BMC。正常风扇转动引起的振动是平滑的,而封装偏心旋转时引起的振动是不平滑的,是带有突变的,风扇的振动量是灰尘灯异物积累以及机械磨损导致的转动异常,因此风扇振动量异常是风扇转动异常的表征,风扇转动异常也是一个渐变的过程,因此对风扇振动量的监测可对风扇出现转动异常的趋势进行预测。
进一步地,每个振动传感单元均包括柔性线路板;
振动传感器及其3.3V电源P3.3V均设置在柔性线路板上。柔性线路板作为承载振动传感器及其外围器件、电路的载体,线路密度高、重量轻、厚度薄以及弯折性好,使得振动传感单元很方便地贴在风扇检测点的位置上。
第二方面,本发明提供一种基于上述第一方面的服务器风扇故障预测方法,包括如下步骤:
S1.BMC通过风扇电流监测模块采集服务器所有风扇的电流值,并对各风扇电流值进行分析,识别出电流值异常的风扇进行故障预测;
S2.BMC通过风扇转速监测模块采集服务器所有风扇的转速调控时间,并对各风扇转速调控时间进行分析,识别出转速调控时间异常的风扇进行故障预测;
S3.BMC通过风扇振动状态监测模块采集服务器所有风扇的振动量,并对各风扇振动量进行分析,识别出风扇振动量异常的风扇进行故障预测。
进一步地,步骤S1具体步骤如下:
S11.设置服务器各风扇转速相同;
S12.BMC通过风扇电流监测模块采集各风扇同一时刻的电流值,并标记电流值为α_1~α_n,其中n的数量等于服务器风扇数量;
S13.计算各风扇电流值的平均值α,并设定α为电流标准值,再计算各风扇电流值α_1~α_n与电流标准值α的差值,记为δ1~δn;
S14.计算各风扇电流值与电流标准值的差值,再计算该差值与电流标准值的比值δ1/α~δn/α,记为第一比值,比较各第一比值与第一比例阈值;
当第一比值小于第一比例阈值,进入步骤S15;
当第一比值大于等于第一比例阈值,小于等于第二比例阈值,进入步骤S16;
当第一比值大于第二比例阈值,进入步骤S17;
S15.从风扇设计手册获取风扇最大电流值αmax,判断各风扇电流值α_1~α_n中是否存在大于αmax,且两者差值与αmax的比值大于第二比例阈值的情形;
若是,该风扇电流值对应风扇电流异常,风扇电气故障,需要更换,进入步骤S2;
若否,判定服务器所有风扇电流值正常,无电气故障,进入步骤S2;
S16.对第一比值对应风扇进行电流关注标记,进入步骤S2;
S17.判定第一比值对应风扇电流异常,风扇电气故障,需要更换,进入步骤S2。各风扇电流值α_n与电流标准值α的差值δn因风扇电流监测模块使用的电子元器件规格不同而不同。
进一步地,步骤S2具体步骤如下:
S21.设置服务器各风扇初始转速以及目标转速相同;
S22.BMC通过风扇转速监测模块向各风扇下达转速调控指令,并接收各风扇反馈的转速调控完成指令,计算出各风扇转速调控时间T1~Tn,其中n的数量等于服务器风扇数量;
S23.计算各风扇转速调控时间的平均值T,并设定T为时间标准值,再计算各风扇转速调控时间T1~Tn与时间标准值T的差值,即为Δ1~Δn;
S24.计算各风扇转速调控时间与时间标准值的差值,再计算该差值与时间标准值的比值Δ1/T~Δn/T,记为第二比值,比较第二比值与第三比例阈值;
当第二比值小于第三比例阈值,进入步骤S25;
当第二比值大于等于第三比例阈值,小于等于第四比例阈值,进入步骤S26;
当第二比值大于第四比例阈值,进入步骤S27;
S25.获取风扇最大转速调整时间Tmax,判断各风扇调整时间T1~Tn中是否存在大于Tmax,且二者的差值与Tmax的比值大于第四比例阈值的情形;
若是,该风扇转速调整时间异常,风扇轴承磨损严重,机械故障,需要更换;
若否,判定第二比值对应风扇的风扇转速调控时间正常,无轴承磨损故障,进入步骤S3;
S26.对第二比值对应风扇进行转速调控标记,进入步骤S3;
S27.判定第二比值对应风扇转速调控时间异常,风扇轴承磨损严重,机械故障,需要更换,进入步骤S3。各风扇转速调控时间Tn与时间标准值T的差值Δn因风扇轴承的不同而不同。
进一步地,步骤S3具体步骤如下:
S31.设置服务器各风扇电流相同,转速相同;
S32.BMC风扇振动状态监测模块的各风扇振动检测模组采集各风扇的四个振动量;
S33.BMC对各风扇同一位置的振动传感单元采集的振动量进行分析,标记各风扇同一位置的振动量为β_1~β_n,其中n的数量等于服务器风扇数量;
S34.计算各风扇同一位置的振动量的平均值β,并设定β为该位置振动量标准值,再计算各风扇该位置振动量β_1~β_n与振动量标准值β的差值,记为λ1~λn;
S35.计算各风扇同一位置振动量与振动量标准值的差值,再计算该差值与振动量标准值的比值λ1/β~λn/β,记为第三比值,比较各第三比值与第五比例阈值;
当第三比值小于第五比例阈值,进入步骤S36;
当第三比值大于等于第五比例阈值,小于等于第六比例阈值,进入步骤S37;
当第三比值小于第六比例阈值,进入步骤S38;
S36.判定第三比值对应风扇的振动量正常,无机械磨损,结束;
S37.对第三比值对应风扇进行振动量标记,结束;
S38.判定第三比值对应风扇转速正常,风扇机械磨损严重,机械故障,需要更换。风扇的四个振动量中,存在一个振动量异常,则该风扇存在机械磨损异常,存在机械故障风险。
进一步地,步骤S12中BMC通过风扇电流监测模块采集各风扇同一时刻的电流值,具体通过如下步骤实现:
BMC通过采用模式转换单元获取采样电阻两端电压V1和V2;
BMC获取采样电阻阻值R1,计算风扇电流值I=(V1-V2)/R1;
步骤S22中BMC通过风扇转速监测模块向各风扇下达转速调控指令,并接收各风扇反馈的转速调控完成指令,具体通过如下步骤实现:
BMC通过第二I2C信号线将目标转速写入CPLD的第一转速寄存器;
CPLD将目标转速转换为PWM信号,通过PWM控制信号线向风扇发送转速调控指令;
CPLD通过转速反馈信号线获取风扇实际转速,并将实际转速存储到第二转速寄存器;
BMC通过I2C信号线获取并比较第一转速寄存器与第二转速寄存器中风扇转速值,当二者相同时,计算出BMC下达转速调控指令到风扇反馈完成目标转速的实际,即为风扇转速调控时间。
本发明的有益效果在于:
本发明提供的服务器风扇故障预测系统及方法,通过风扇电流对风扇电气故障进行预测,通过风扇调速时间对风扇轴承磨损机械故障进行预测,通过风扇振动量对风扇机械磨损故障进行预测,实现风扇故障前的预测,避免风扇故障带来的服务器性能下降甚至宕机问题。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的服务器风扇故障预测系统连接示意图。
图2是本发明的服务器风扇故障预测系统服务器风扇及振动传感单元安装示意图。
图3是本发明的服务器风扇故障预测方法实施例3流程示意图。
图4是本发明的服务器风扇故障预测方法实施例4流程示意图一。
图5是本发明的服务器风扇故障预测方法实施例4流程示意图二。
图6是本发明的服务器风扇故障预测方法实施例4流程示意图三。
图中,1-BMC;2-风扇电流监测模块;2.1-电子保险丝;2.2-采样模数转换单元;3-风扇转速监测模块;4-风扇振动状态监测模块;5-风扇连接器;6-CPLD;7-I2C扩展芯片;8.1-第一振动传感单元;8.2-第二振动传感单元;8.3-第三振动传感单元;8.4-第四振动传感单元;9.1-第一振动传感器;9.2-第二振动传感器;9.3-第三振动传感器;9.4-第四振动传感器;10-风扇框支架;11-服务器风扇;R1-采样电阻;PWR_EN-电源使能端子;ADC-采样端子;Fan_PWM_TACH-风扇转速控制反馈端子;P12V-12V电源;P3.3V-3.3V电源。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
实施例1:
如图1所示,本发明提供一种服务器风扇故障预测系统,包括BMC 1;
BMC 1连接有风扇电流监测模块2、风扇转速监测模块3、风扇振动状态监测模块4;
风扇电流监测模块2连接有风扇连接器5;
风扇电流监测模块2,用于对服务器各风扇的电流值进行采集;
风扇转速监测模块3,用于对服务器各风扇的转速调控时间进行采集;
风扇振动状态监测模块4,用于对服务器各风扇的振动量进行采集;
BMC 1对采集的各风扇的电流值、转速调控时间以及振动量进行分析,识别出电流值异常、转速调控时间异常以及振动量异常的风扇进行故障预测。
实施例2:
如图2所示,本发明提供一种服务器风扇故障预测系统,包括BMC 1;
BMC 1连接有风扇电流监测模块2、风扇转速监测模块3、风扇振动状态监测模块4;
风扇电流监测模块2连接有风扇连接器5;
风扇电流监测模块2,用于对服务器各风扇的电流值进行采集;
风扇转速监测模块3,用于对服务器各风扇的转速调控时间进行采集;
风扇振动状态监测模块4,用于对服务器各风扇的振动量进行采集;
BMC 1对采集的各风扇的电流值、转速调控时间以及振动量进行分析,识别出电流值异常、转速调控时间异常以及振动量异常的风扇进行故障预测;
风扇电流监测模块2包括电子保险丝2.1、采样模数转换单元2.2以及采样电阻R1;
BMC 1设有电源使能端子PWR_EN和采样端子ADC;
风扇连接器5设有电源信号线和接地信号线;接地信号线接地;
电源使能端子PWR_EN与电子保险丝2.1连接,电子保险丝2.1还连接有12V电源P12V;
电子保险丝2.1还与采样电阻R1第一端连接,采样电阻R1第二端通过电源信号线与风扇连机器5连接;
采样模数转换单元2.2设有正采样端、负采样端和模数输出端;
正采样端与采样电阻R1第一端连接,负采样端与采样电阻R1第二端连接,模数输出端通过第一I2C信号线与BMC 1的采样端子ADC连接;
风扇转速监测模块3包括CPLD 6;
风扇连接器5还设有PWM控制信号线和转速反馈信号线;
BMC 1还设有风扇转速控制反馈端子Fan_PWM_TACH;
CPLD 6与风扇连接器5的PWM控制信号线及转速反馈信号线均连接,CPLD6通过第二I2C信号线与BMC 1的风扇转速控制反馈端子Fan_PWM_TACH连接;
风扇振动状态监测模块4包括I2C扩展芯片7和若干风扇振动检测模组;
每个风扇振动检测模组用于检测一个风扇四个位置的风扇振动状态;
风扇振动检测模组包括第一振动传感单元8.1、第二振动传感单元8.2、第三振动传感单元8.3以及第四振动传感单元8.4;各振动传感单元均包括正电源端、负电源端和振动数据输出端;
BMC 1通过第三I2C信号线与I2C扩展芯片7连接;
第一振动传感单元8.1包括第一振动传感器9.1,第一振动传感器9.1的正电源端连接有3.3V电源P3.3V,第一振动传感器9.1的负电源端接地,第一振动传感器9.1的振动数据输出端与I2C扩展芯片7连接;
第二振动传感单元8.2包括第二振动传感器9.2,第二振动传感器9.2的正电源端与3.3V电源P3.3V连接,第二振动传感器9.2的负电源端接地,第二振动传感器9.2的振动数据输出端与I2C扩展芯片7连接;
第三振动传感单元8.3包括第三振动传感器9.3,第三振动传感器9.3的正电源端与3.3V电源P3.3V连接,第三振动传感器9.3的负电源端接地,第三振动传感器9.3的振动数据输出端与I2C扩展芯片7连接;
第四振动传感单元8.4包括第四振动传感器9.4,第四振动传感器9.4的正电源端与3.3V电源P3.3V连接,第四振动传感器9.4的负电源端接地,第四振动传感器9.4的振动数据输出端与I2C扩展芯片7连接;
服务器机箱内设置有风扇框支架10,各服务器风扇11设置在风扇框支架10内,同一风扇振动检测模组的四个振动传感单元分别设置在风扇框支架10与一个服务器风扇11连接的四个内壁处;沿着风扇四周,在风扇的上、下、左、右各个位置放置一个振动传感器单元,用于监测风扇的X轴和Y轴方向的振动情况;各振动传感器采用MEMS三轴加速度传感器作为检测振动量的芯片;
每个振动传感单元均包括柔性线路板;
振动传感器及其3.3V电源P3.3V均设置在柔性线路板上。
实施例3:
如图3所示,本发明提供一种基于上述实施例1或实施例2的服务器风扇故障预测系统的服务器风扇故障预测方法,包括如下步骤:
S1.BMC通过风扇电流监测模块采集服务器所有风扇的电流值,并对各风扇电流值进行分析,识别出电流值异常的风扇进行故障预测;
S2.BMC通过风扇转速监测模块采集服务器所有风扇的转速调控时间,并对各风扇转速调控时间进行分析,识别出转速调控时间异常的风扇进行故障预测;
S3.BMC通过风扇振动状态监测模块采集服务器所有风扇的振动量,并对各风扇振动量进行分析,识别出风扇振动量异常的风扇进行故障预测。
实施例4:
如图3、图4、图5及图6所示,本发明提供一种服务器风扇故障预测系统的服务器风扇故障预测方法,包括如下步骤:
S1.BMC通过风扇电流监测模块采集服务器所有风扇的电流值,并对各风扇电流值进行分析,识别出电流值异常的风扇进行故障预测;具体步骤如下:
S11.设置服务器各风扇转速相同;
S12.BMC通过风扇电流监测模块采集各风扇同一时刻的电流值,并标记电流值为α_1~α_n,其中n的数量等于服务器风扇数量;
BMC通过采用模式转换单元获取采样电阻两端电压V1和V2;
BMC获取采样电阻阻值R1,计算风扇电流值I=(V1-V2)/R1;
S13.计算各风扇电流值的平均值α,并设定α为电流标准值,再计算各风扇电流值α_1~α_n与电流标准值α的差值,记为δ1~δn;
S14.计算各风扇电流值与电流标准值的差值,再计算该差值与电流标准值的比值δ1/α~δn/α,记为第一比值,比较各第一比值与第一比例阈值;
当第一比值小于第一比例阈值,进入步骤S15;
当第一比值大于等于第一比例阈值,小于等于第二比例阈值,进入步骤S16;
当第一比值大于第二比例阈值,进入步骤S17;
S15.从风扇设计手册获取风扇最大电流值αmax,判断各风扇电流值α_1~α_n中是否存在大于αmax,且两者差值与αmax的比值大于第二比例阈值的情形;第一比例阈值取10%,第二比例阈值取30%;
若是,该风扇电流值对应风扇电流异常,风扇电气故障,需要更换,进入步骤S2;
若否,判定服务器所有风扇电流值正常,无电气故障,进入步骤S2;
S16.对第一比值对应风扇进行电流关注标记,进入步骤S2;
S17.判定第一比值对应风扇电流异常,风扇电气故障,需要更换,进入步骤S2;
S2.BMC通过风扇转速监测模块采集服务器所有风扇的转速调控时间,并对各风扇转速调控时间进行分析,识别出转速调控时间异常的风扇进行故障预测;具体步骤如下:
S21.设置服务器各风扇初始转速以及目标转速相同;
S22.BMC通过风扇转速监测模块向各风扇下达转速调控指令,并接收各风扇反馈的转速调控完成指令,计算出各风扇转速调控时间T1~Tn,其中n的数量等于服务器风扇数量;
BMC通过第二I2C信号线将目标转速写入CPLD的第一转速寄存器;
CPLD将目标转速转换为PWM信号,通过PWM控制信号线向风扇发送转速调控指令;
CPLD通过转速反馈信号线获取风扇实际转速,并将实际转速存储到第二转速寄存器;
BMC通过I2C信号线获取并比较第一转速寄存器与第二转速寄存器中风扇转速值,当二者相同时,计算出BMC下达转速调控指令到风扇反馈完成目标转速的实际,即为风扇转速调控时间;
S23.计算各风扇转速调控时间的平均值T,并设定T为时间标准值,再计算各风扇转速调控时间T1~Tn与时间标准值T的差值,即为Δ1~Δn;
S24.计算各风扇转速调控时间与时间标准值的差值,再计算该差值与时间标准值的比值Δ1/T~Δn/T,记为第二比值,比较第二比值与第三比例阈值;
当第二比值小于第三比例阈值,进入步骤S25;
当第二比值大于等于第三比例阈值,小于等于第四比例阈值,进入步骤S26;
当第二比值大于第四比例阈值,进入步骤S27;
S25.获取风扇最大转速调整时间Tmax,判断各风扇调整时间T1~Tn中是否存在大于Tmax,且二者的差值与Tmax的比值大于第四比例阈值的情形;Tmax取从风扇初始转速0到风扇目标转速100%满转时的转速调整时间;
若是,该风扇转速调整时间异常,风扇轴承磨损严重,机械故障,需要更换;
若否,判定第二比值对应风扇的风扇转速调控时间正常,无轴承磨损故障,进入步骤S3;
S26.对第二比值对应风扇进行转速调控标记,进入步骤S3;
S27.判定第二比值对应风扇转速调控时间异常,风扇轴承磨损严重,机械故障,需要更换,进入步骤S3;第三比例阈值取10%,第四比例阈值取30%;
S3.BMC通过风扇振动状态监测模块采集服务器所有风扇的振动量,并对各风扇振动量进行分析,识别出风扇振动量异常的风扇进行故障预测;具体步骤如下:
S31.设置服务器各风扇电流相同,转速相同;
S32.BMC风扇振动状态监测模块的各风扇振动检测模组采集各风扇的四个振动量;
S33.BMC对各风扇同一位置的振动传感单元采集的振动量进行分析,标记各风扇同一位置的振动量为β_1~β_n,其中n的数量等于服务器风扇数量;
S34.计算各风扇同一位置的振动量的平均值β,并设定β为该位置振动量标准值,再计算各风扇该位置振动量β_1~β_n与振动量标准值β的差值,记为λ1~λn;
S35.计算各风扇同一位置振动量与振动量标准值的差值,再计算该差值与振动量标准值的比值λ1/β~λn/β,记为第三比值,比较各第三比值与第五比例阈值;
当第三比值小于第五比例阈值,进入步骤S36;
当第三比值大于等于第五比例阈值,小于等于第六比例阈值,进入步骤S37;
当第三比值小于第六比例阈值,进入步骤S38;
S36.判定第三比值对应风扇的振动量正常,无机械磨损,结束;
S37.对第三比值对应风扇进行振动量标记,结束;
S38.判定第三比值对应风扇转速正常,风扇机械磨损严重,机械故障,需要更换;第五比例阈值取10%,第六比例阈值取30%。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (7)

1.一种服务器风扇故障预测系统,其特征在于,包括BMC(1);
BMC(1)连接有风扇电流监测模块(2)、风扇转速监测模块(3)、风扇振动状态监测模块(4);
风扇电流监测模块(2)连接有风扇连接器(5);
风扇电流监测模块(2),用于对服务器各风扇的电流值进行采集;
风扇转速监测模块(3),用于对服务器各风扇的转速调控时间进行采集;
风扇振动状态监测模块(4),用于对服务器各风扇的振动量进行采集;
BMC(1)对采集的各风扇的电流值、转速调控时间以及振动量进行分析,识别出电流值异常、转速调控时间异常以及振动量异常的风扇进行故障预测;
识别出电流值异常风扇的具体过程如下:
设置服务器各风扇转速相同;
BMC通过风扇电流监测模块采集各风扇同一时刻的电流值,并标记电流值为α_1~α_n,其中n的数量等于服务器风扇数量;
计算各风扇电流值的平均值α,并设定α为电流标准值,再计算各风扇电流值α_1~α_n与电流标准值α的差值,记为δ1~δn;
计算各风扇电流值与电流标准值的差值,再计算该差值与电流标准值的比值δ1/α~δn/α,记为第一比值,比较各第一比值与第一比例阈值;
当第一比值小于第一比例阈值,从风扇设计手册获取风扇最大电流值αmax,判断各风扇电流值α_1~α_n中是否存在大于αmax,且两者差值与αmax的比值大于第二比例阈值的情形;
若是,该风扇电流值对应风扇电流异常,风扇电气故障,需要更换;
若否,判定服务器所有风扇电流值正常,无电气故障;
当第一比值大于等于第一比例阈值,小于等于第二比例阈值,对第一比值对应风扇进行电流关注标记;
当第一比值大于第二比例阈值,判定第一比值对应风扇电流异常,风扇电气故障,需要更换;
识别出转速调控时间异常风扇的具体过程如下:
设置服务器各风扇初始转速以及目标转速相同;
BMC通过风扇转速监测模块向各风扇下达转速调控指令,并接收各风扇反馈的转速调控完成指令,计算出各风扇转速调控时间T1~Tn,其中n的数量等于服务器风扇数量;
计算各风扇转速调控时间的平均值T,并设定T为时间标准值,再计算各风扇转速调控时间T1~Tn与时间标准值T的差值,即为Δ1~Δn;
计算各风扇转速调控时间与时间标准值的差值,再计算该差值与时间标准值的比值Δ1/T~Δn/T,记为第二比值,比较第二比值与第三比例阈值;
当第二比值小于第三比例阈值,获取风扇最大转速调整时间Tmax,判断各风扇调整时间T1~Tn中是否存在大于Tmax,且二者的差值与Tmax的比值大于第四比例阈值的情形;
若是,该风扇转速调整时间异常,风扇轴承磨损严重,机械故障,需要更换;
若否,判定第二比值对应风扇的风扇转速调控时间正常,无轴承磨损故障;
当第二比值大于等于第三比例阈值,小于等于第四比例阈值,对第二比值对应风扇进行转速调控标记;
当第二比值大于第四比例阈值,判定第二比值对应风扇转速调控时间异常,风扇轴承磨损严重,机械故障,需要更换;
识别出振动量异常风扇的具体过程如下:
设置服务器各风扇电流相同,转速相同;
BMC风扇振动状态监测模块的各风扇振动检测模组采集各风扇的四个振动量;
BMC对各风扇同一位置的振动传感单元采集的振动量进行分析,标记各风扇同一位置的振动量为β_1~β_n,其中n的数量等于服务器风扇数量;
计算各风扇同一位置的振动量的平均值β,并设定β为该位置振动量标准值,再计算各风扇该位置振动量β_1~β_n与振动量标准值β的差值,记为λ1~λn;
计算各风扇同一位置振动量与振动量标准值的差值,再计算该差值与振动量标准值的比值λ1/β~λn/β,记为第三比值,比较各第三比值与第五比例阈值;
当第三比值小于第五比例阈值,判定第三比值对应风扇的振动量正常,无机械磨损,结束;
当第三比值大于等于第五比例阈值,小于等于第六比例阈值,对第三比值对应风扇进行振动量标记,结束;
当第三比值小于第六比例阈值,判定第三比值对应风扇转速正常,风扇机械磨损严重,机械故障,需要更换。
2.如权利要求1所述的服务器风扇故障预测系统,其特征在于,风扇电流监测模块(2)包括电子保险丝(2.1)、采样模数转换单元(2.2)以及采样电阻R1;
BMC(1)设有电源使能端子PWR_EN和采样端子ADC;
风扇连接器(5)设有电源信号线和接地信号线;接地信号线接地;
电源使能端子PWR_EN与电子保险丝(2.1)连接,电子保险丝(2.1)还连接有12V电源P12V;
电子保险丝(2.1)还与采样电阻R1第一端连接,采样电阻R1第二端通过电源信号线与风扇连机器(5)连接;
采样模数转换单元(2.2)设有正采样端、负采样端和模数输出端;
正采样端与采样电阻R1第一端连接,负采样端与采样电阻R1第二端连接,模数输出端通过第一I2C信号线与BMC(1)的采样端子ADC连接。
3.如权利要求2所述的服务器风扇故障预测系统,其特征在于,风扇转速监测模块(3)包括CPLD(6);
风扇连接器(5)还设有PWM控制信号线和转速反馈信号线;
BMC(1)还设有风扇转速控制反馈端子Fan_PWM_TACH;
CPLD(6)与风扇连接器(5)的PWM控制信号线及转速反馈信号线均连接,CPLD(6)通过第二I2C信号线与BMC(1)的风扇转速控制反馈端子Fan_PWM_TACH连接。
4.如权利要求3所述的服务器风扇故障预测系统,其特征在于,风扇振动状态监测模块(4)包括I2C扩展芯片(7)和若干风扇振动检测模组;
每个风扇振动检测模组用于检测一个风扇四个位置的风扇振动状态;
风扇振动检测模组包括第一振动传感单元(8.1)、第二振动传感单元(8.2)、第三振动传感单元(8.3)以及第四振动传感单元(8.4);各振动传感单元均包括正电源端、负电源端和振动数据输出端;
BMC(1)通过第三I2C信号线与I2C扩展芯片(7)连接;
第一振动传感单元(8.1)包括第一振动传感器(9.1),第一振动传感器(9.1)的正电源端连接有3.3V电源P3.3V,第一振动传感器(9.1)的负电源端接地,第一振动传感器(9.1)的振动数据输出端与I2C扩展芯片(7)连接;
第二振动传感单元(8.2)包括第二振动传感器(9.2),第二振动传感器(9.2)的正电源端与3.3V电源P3.3V连接,第二振动传感器(9.2)的负电源端接地,第二振动传感器(9.2)的振动数据输出端与I2C扩展芯片(7)连接;
第三振动传感单元(8.3)包括第三振动传感器(9.3),第三振动传感器(9.3)的正电源端与3.3V电源P3.3V连接,第三振动传感器(9.3)的负电源端接地,第三振动传感器(9.3)的振动数据输出端与I2C扩展芯片(7)连接;
第四振动传感单元(8.4)包括第四振动传感器(9.4),第四振动传感器(9.4)的正电源端与3.3V电源P3.3V连接,第四振动传感器(9.4)的负电源端接地,第四振动传感器(9.4)的振动数据输出端与I2C扩展芯片(7)连接;
服务器机箱内设置有风扇框支架(10),各服务器风扇(11)设置在风扇框支架(10)内,同一风扇振动检测模组的四个振动传感单元分别设置在风扇框支架(10)与一个服务器风扇(11)连接的四个内壁处。
5.如权利要求1所述的服务器风扇故障预测系统,其特征在于,每个振动传感单元均包括柔性线路板;
振动传感器及其3.3V电源P3.3V均设置在柔性线路板上。
6.一种基于上述权利要求1-5任一项的服务器风扇故障预测系统的服务器风扇故障预测方法,其特征在于,包括如下步骤:
S1.BMC通过风扇电流监测模块采集服务器所有风扇的电流值,并对各风扇电流值进行分析,识别出电流值异常的风扇进行故障预测;步骤S1具体步骤如下:
S11.设置服务器各风扇转速相同;
S12.BMC通过风扇电流监测模块采集各风扇同一时刻的电流值,并标记电流值为α_1~α_n,其中n的数量等于服务器风扇数量;
S13.计算各风扇电流值的平均值α,并设定α为电流标准值,再计算各风扇电流值α_1~α_n与电流标准值α的差值,记为δ1~δn;
S14.计算各风扇电流值与电流标准值的差值,再计算该差值与电流标准值的比值δ1/α~δn/α,记为第一比值,比较各第一比值与第一比例阈值;
当第一比值小于第一比例阈值,进入步骤S15;
当第一比值大于等于第一比例阈值,小于等于第二比例阈值,进入步骤S16;
当第一比值大于第二比例阈值,进入步骤S17;
S15.从风扇设计手册获取风扇最大电流值αmax,判断各风扇电流值α_1~α_n中是否存在大于αmax,且两者差值与αmax的比值大于第二比例阈值的情形;
若是,该风扇电流值对应风扇电流异常,风扇电气故障,需要更换,进入步骤S2;
若否,判定服务器所有风扇电流值正常,无电气故障,进入步骤S2;
S16.对第一比值对应风扇进行电流关注标记,进入步骤S2;
S17.判定第一比值对应风扇电流异常,风扇电气故障,需要更换,进入步骤S2;
S2.BMC通过风扇转速监测模块采集服务器所有风扇的转速调控时间,并对各风扇转速调控时间进行分析,识别出转速调控时间异常的风扇进行故障预测;步骤S2具体步骤如下:
S21.设置服务器各风扇初始转速以及目标转速相同;
S22.BMC通过风扇转速监测模块向各风扇下达转速调控指令,并接收各风扇反馈的转速调控完成指令,计算出各风扇转速调控时间T1~Tn,其中n的数量等于服务器风扇数量;
S23.计算各风扇转速调控时间的平均值T,并设定T为时间标准值,再计算各风扇转速调控时间T1~Tn与时间标准值T的差值,即为Δ1~Δn;
S24.计算各风扇转速调控时间与时间标准值的差值,再计算该差值与时间标准值的比值Δ1/T~Δn/T,记为第二比值,比较第二比值与第三比例阈值;
当第二比值小于第三比例阈值,进入步骤S25;
当第二比值大于等于第三比例阈值,小于等于第四比例阈值,进入步骤S26;
当第二比值大于第四比例阈值,进入步骤S27;
S25.获取风扇最大转速调整时间Tmax,判断各风扇调整时间T1~Tn中是否存在大于Tmax,且二者的差值与Tmax的比值大于第四比例阈值的情形;
若是,该风扇转速调整时间异常,风扇轴承磨损严重,机械故障,需要更换;
若否,判定第二比值对应风扇的风扇转速调控时间正常,无轴承磨损故障,进入步骤S3;
S26.对第二比值对应风扇进行转速调控标记,进入步骤S3;
S27.判定第二比值对应风扇转速调控时间异常,风扇轴承磨损严重,机械故障,需要更换,进入步骤S3;
S3.BMC通过风扇振动状态监测模块采集服务器所有风扇的振动量,并对各风扇振动量进行分析,识别出风扇振动量异常的风扇进行故障预测;步骤S3具体步骤如下:
S31.设置服务器各风扇电流相同,转速相同;
S32.BMC风扇振动状态监测模块的各风扇振动检测模组采集各风扇的四个振动量;
S33.BMC对各风扇同一位置的振动传感单元采集的振动量进行分析,标记各风扇同一位置的振动量为β_1~β_n,其中n的数量等于服务器风扇数量;
S34.计算各风扇同一位置的振动量的平均值β,并设定β为该位置振动量标准值,再计算各风扇该位置振动量β_1~β_n与振动量标准值β的差值,记为λ1~λn;
S35.计算各风扇同一位置振动量与振动量标准值的差值,再计算该差值与振动量标准值的比值λ1/β~λn/β,记为第三比值,比较各第三比值与第五比例阈值;
当第三比值小于第五比例阈值,进入步骤S36;
当第三比值大于等于第五比例阈值,小于等于第六比例阈值,进入步骤S37;
当第三比值小于第六比例阈值,进入步骤S38;
S36.判定第三比值对应风扇的振动量正常,无机械磨损,结束;
S37.对第三比值对应风扇进行振动量标记,结束;
S38.判定第三比值对应风扇转速正常,风扇机械磨损严重,机械故障,需要更换。
7.如权利要求6所述的服务器风扇故障预测方法,其特征在于,步骤S12中BMC通过风扇电流监测模块采集各风扇同一时刻的电流值,具体通过如下步骤实现:
BMC通过采用模式转换单元获取采样电阻两端电压V1和V2;
BMC获取采样电阻阻值R1,计算风扇电流值I=(V1-V2)/R1;
步骤S22中BMC通过风扇转速监测模块向各风扇下达转速调控指令,并接收各风扇反馈的转速调控完成指令,具体通过如下步骤实现:
BMC通过第二I2C信号线将目标转速写入CPLD的第一转速寄存器;
CPLD将目标转速转换为PWM信号,通过PWM控制信号线向风扇发送转速调控指令;
CPLD通过转速反馈信号线获取风扇实际转速,并将实际转速存储到第二转速寄存器;
BMC通过I2C信号线获取并比较第一转速寄存器与第二转速寄存器中风扇转速值,当二者相同时,计算出BMC下达转速调控指令到风扇反馈完成目标转速的实际,即为风扇转速调控时间。
CN202210080373.9A 2022-01-24 一种服务器风扇故障预测系统及方法 Active CN114443430B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210080373.9A CN114443430B (zh) 2022-01-24 一种服务器风扇故障预测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210080373.9A CN114443430B (zh) 2022-01-24 一种服务器风扇故障预测系统及方法

Publications (2)

Publication Number Publication Date
CN114443430A CN114443430A (zh) 2022-05-06
CN114443430B true CN114443430B (zh) 2024-07-02

Family

ID=

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108457888A (zh) * 2018-03-01 2018-08-28 郑州云海信息技术有限公司 一种服务器风扇故障检测方法、装置及系统
CN112324693A (zh) * 2020-10-29 2021-02-05 山东云海国创云计算装备产业创新中心有限公司 风扇转速的监控方法、监控装置、监控设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108457888A (zh) * 2018-03-01 2018-08-28 郑州云海信息技术有限公司 一种服务器风扇故障检测方法、装置及系统
CN112324693A (zh) * 2020-10-29 2021-02-05 山东云海国创云计算装备产业创新中心有限公司 风扇转速的监控方法、监控装置、监控设备及存储介质

Similar Documents

Publication Publication Date Title
EP0214297B1 (en) System of controlling cooling system for electronic devices
US10254351B2 (en) Voltage monitoring system and voltage monitoring module
JP4381612B2 (ja) 軸電圧および電流のモニタシステム
CN111486121B (zh) 风扇运作状态诊断装置及其方法
US10375854B2 (en) Liquid cooling system and control method thereof
US20060176186A1 (en) Fan monitoring for failure prediction
US7469189B2 (en) Electronic device, failure prediction method, and computer product
CN111124827B (zh) 一种设备风扇的监控装置及监控方法
WO2020220560A1 (zh) 热失控检测电路
CN108181977B (zh) 一种服务器
WO2018080556A1 (en) Unified power device management and analyzer
CN111506147A (zh) 感测和补偿系统和补偿温度效应的方法
CN114443430B (zh) 一种服务器风扇故障预测系统及方法
CN116185748A (zh) 一种主板状态检测系统、方法、电子设备和存储介质
CN114166266A (zh) 一种检测cpu散热器螺丝是否漏拧的方法和装置
CN114443430A (zh) 一种服务器风扇故障预测系统及方法
CN112821558A (zh) 一种基于imu组合惯导的输电线形变监测装置、系统及方法
CN109720814B (zh) 一种带式输送机远程故障监测与诊断系统
CN111366742B (zh) 一种基于服务器的风扇转速侦测装置及方法
CN114526839A (zh) 一种电池包检测电路、电源管理系统及电池包控制方法
CN117849653B (zh) 一种基于电源管理的工作状态监测方法及系统
CN221125235U (zh) 一种检测硬盘扩展模块故障的结构及服务器
CN220340680U (zh) 一种服务器风扇监控系统
JP4423595B2 (ja) 電子装置
RU2073906C1 (ru) Устройство для оперативного контроля тепловых режимов электронной вычислительной машины

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant