CN111722987A - 一种服务器的报警装置及其报警方法和存储介质 - Google Patents

一种服务器的报警装置及其报警方法和存储介质 Download PDF

Info

Publication number
CN111722987A
CN111722987A CN202010476853.8A CN202010476853A CN111722987A CN 111722987 A CN111722987 A CN 111722987A CN 202010476853 A CN202010476853 A CN 202010476853A CN 111722987 A CN111722987 A CN 111722987A
Authority
CN
China
Prior art keywords
fault information
alarm
server
fan
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010476853.8A
Other languages
English (en)
Inventor
滕学军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010476853.8A priority Critical patent/CN111722987A/zh
Publication of CN111722987A publication Critical patent/CN111722987A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Power Sources (AREA)

Abstract

本申请提供一种服务器的报警装置,包括:与所述服务器的BMC和电源相连的PSU掉电侦测模块,用于当电源输入电压低于第一临界值时发送第一故障信息至所述BMC;与所述BMC和风扇相连的PSU风机模块,用于检测风扇运行状态并在风扇运行异常时发送第二故障信息至所述BMC;设于所述BMC的告警检测模块,用于在所述第一故障信息和所述第二故障信息均接收到后发出告警信息。本申请实现了服务器对由于市电闪断造成告警的识别,降低由于市电闪断告警对维修人员的影响,确保服务器的告警信息为真实异常情况。本申请还提供一种服务器的报警方法和一种计算机可读存储介质,具有上述有益效果。

Description

一种服务器的报警装置及其报警方法和存储介质
技术领域
本申请涉及服务器领域,特别涉及一种服务器的报警装置及其报警方法和存储介质。
背景技术
数据中心电源系统的供电通常都是双路供电设计,以A路和B路为例进行说明。该供电结构中A路供电部分使用市电直接供电至服务器端。B路供电部分采用高压直流系统作为保障供电电源。市电正常时,A路市电不经转换直接为服务器设备供电,B路为高压直流供电系统,同时在线给服务器负担负载。当A路市电故障后,会由高压直流系统继续为服务器系统供电,从而保证服务器系统可靠稳定运行。
在A路市电停电测试或者检修时间间隔期间,服务器供电模块因为同时处于B路供电,因此服务器系统会正常工作,不会导致宕机等异常情况。
但是在停电测试或者检修完成后。A路市电会恢复正常供电。在A路市电供电恢复时(不定时恢复或者闪断恢复),这样会对服务器造成如下问题:
1)、会导致服务器、存储系统的前面板电源指示灯一直报警。
2)、会导致服务器、存储系统后面的供电PSU电源模块的指示灯一直报警。
3)、会导致机房管理人员在机房内部定期巡检时,发现A路供电的服务器都有报警灯故障,从会发生误判。因为从服务器前面板外观的电源报警灯和服务器后窗的PSU外观报警灯,都会一直常亮。此时容易误认为服务器发生了故障。从而逐级上报预警。实际上这些都是由于A路市电停电、闪断或者检修引起,但是在服务器的外观上都做了故障预警导致误判。
4)、待查明“故障”原因后,机房管理员还得把服务器外观一直报警“故障”的服务器进行故障隔离并消除。这个过程也会额外带来大量的人工成本。因为服务器的报警策略是记录发生过故障,并点亮系统灯并显示出来,提醒发生过故障。
因此如何实现对于服务器的故障进行有效告警是本领域技术人员亟需解决的技术问题。
发明内容
本申请的目的是提供一种服务器的报警装置、一种服务器报警方法和计算机存储介质,能够对服务器进行有效告警,避免造成服务器误判。
为解决上述技术问题,本申请提供一种服务器的报警装置,具体技术方案如下:
与所述服务器的BMC和电源相连的PSU掉电侦测模块,用于当电源输入电压低于第一临界值时发送第一故障信息至所述BMC;
与所述BMC和风扇相连的PSU风机模块,用于检测风扇运行状态并在风扇运行异常时发送第二故障信息至所述BMC;
设于所述BMC的告警检测模块,用于在所述第一故障信息和所述第二故障信息均接收到后发出告警信息。
可选的,所述PSU掉电侦测模块包括欠压保护电路,所述欠压保护电路用于在所述电源输入电压低于所述第一临界值时断开所述服务器与供电电源连接。
可选的,所述PSU风机模块包括:
风扇转速检测单元,用于检测风扇转速,并在所述风扇转速低于预设转速且持续时间超过预设时间时,发送所述第二故障信息。
可选的,所述告警检测模块还包括:
二次检测单元,用于在接收到所述第一故障信息后,判断所述第一故障信息是否为市电闪断,并在判断结果为是时撤销所述第一故障信息。
本申请还提供一种服务器的报警方法,基于上文所述的报警装置,包括:
判断第一故障信息和第二故障信息是否均接收到;其中,所述第一故障信息为电源对应故障信息,所述第二故障信息为风扇对应故障信息;
若是,发出告警信息;
若否,生成所述第一故障信息和所述第二故障信息各自对应的告警日志。
可选的,若接收到所述第一故障信息,还包括:
判断所述第一故障信息是否为市电闪断;
若是,撤销所述第一故障信息对应的告警信息。
可选的,撤销所述第一故障信息对应的告警信息包括:
消除服务器面板的故障灯。
可选的,判断所述第一故障信息是否为市电闪断包括:
判断所述第一故障信息对应的告警日志是否为市电掉电日志。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的方法的步骤。
本申请提供一种服务器的报警装置,包括:与所述服务器的BMC和电源相连的PSU掉电侦测模块,用于当电源输入电压低于第一临界值时发送第一故障信息至所述BMC;与所述BMC和风扇相连的PSU风机模块,用于检测风扇运行状态并在风扇运行异常时发送第二故障信息至所述BMC;设于所述BMC的告警检测模块,用于在所述第一故障信息和所述第二故障信息均接收到后发出告警信息。
本申请并不在接收到第一故障信息后或者第二故障信息后直接发出告警信息,而是在两个故障信息均接收到后才发出告警信息。由于市电闪断时只会触发第一故障信息,而由于其断开时间短不会触发第二故障信息,借此实现了服务器对由于市电闪断造成告警的识别,降低由于市电闪断告警对维修人员的影响,确保服务器的告警信息为真实异常情况。本申请还提供一种服务器的报警方法和一种计算机可读存储介质,具有上述有益效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例所提供的一种服务器的报警装置的结构示意图;
图2为本申请实施例所提供的一种服务器的报警方法的流程图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图1,图1为本申请实施例所提供的一种服务器的报警装置的结构示意图,虚线表示组件之间的连接关系,该报警装置包括:
与所述服务器的BMC和电源相连的PSU掉电侦测模块,用于当电源输入电压低于第一临界值时发送第一故障信息至所述BMC;
与所述BMC和风扇相连的PSU风机模块,用于检测风扇运行状态并在风扇运行异常时发送第二故障信息至所述BMC;
设于所述BMC的告警检测模块,用于在所述第一故障信息和所述第二故障信息均接收到后发出告警信息。
PSU掉电侦测模块旨在利用内部单片机对市电输入电压进行侦测和保护。因此,当输入电压低于第一临界值时,发送第一故障信息至BMC。
优选的,PSU掉电侦测模块可以包含一个欠压保护电路,用以在电源输入的电压低于第一临界值对服务器系统进行保护。当输入电网的电压低于所述第一临界值时,所述欠压保护电路将会断开服务器设备与所述供电模块电源的连接。当然,在此对于第一临界值不做具体限定,通常由本领域技术人员根据服务器的额定工作电压或者最低工作电压设定。
PSU风机模块用于检测风扇运行状态,一旦风扇运行异常,则发送第二故障信息。
PSU风机模块可以包括,风机启动和停转单元、风机PWM调速单元和风扇转速检测单元等。风扇转速检测单用于检测风扇转速,并在所述风扇转速低于预设转速且持续时间超过预设时间时,发送所述第二故障信息。举例而言,风扇供电正常后,检测到风扇转速小于某个转速(持续时间超过预设时间),比如200转/分钟,持续时间达到10秒,就会自动触发风扇告警;如果时间持续达到15秒,就会触发风扇故障。也就是说跟随市电电压的跌落,会最终触发风扇故障。当然,在此对于预设转速和预设时间均不作具体限定。
而告警检测模块则需要在第一故障信息和第二故障信息同时接收到时,才发出告警信息。需要注意的时,并非要求第一故障信息和第二故障信息在同一时刻接收到,由于市电掉电后对风扇和电源均有所影响,通常BMC接收到第一故障信息和第二故障信息的间隔时间较短。但如果市电闪断,并不满足PSU风机模块发送第二故障信息的条件,此时BMC只会接收到第一故障信息,此时并不直接发出告警。即避免由于市电闪断等非真实故障发出告警信息,使得服务器的维护人员对服务器状态造成误判,可以减少不必要的人工维护时间和维护费用。
优选的,在本实施例的基础上,告警检测模块还可以包括二次检测单元,用于在接收到所述第一故障信息后,判断所述第一故障信息是否为市电闪断,并在判断结果为是时撤销所述第一故障信息。换句话说,告警检测模块可以针对接收到的故障信息进行核实,确认故障信息缘由。若确认是市电闪断等非真实故障,可以撤销相应的故障信息。但需要注意的是,此时应当针对各故障信息生成相关的日志,即故障信息可以被撤销,但每个故障信息对应的故障日志应当保存,以便于本领域技术人员根据故障日志追溯故障原因。
本申请实施例并不在接收到第一故障信息后或者第二故障信息后直接发出告警信息,而是在两个故障信息均接收到后才发出告警信息。由于市电闪断时只会触发第一故障信息,而由于其断开时间短不会触发第二故障信息,借此实现了服务器对由于市电闪断造成告警的识别,降低由于市电闪断告警对维修人员的影响,确保服务器的告警信息为真实异常情况。能够提升优化服务器系统的硬件报警功能,满足数据中心在各种客户应用场景下的安全需求策略,做智能识别,并对故障做判断和处理。增强系统的可靠性设计,提高数据中心服务器、存储等设备运行的稳定性。
下面对本申请实施例提供的一种服务器的报警方法进行介绍,下文描述的报警方法与上文描述的一种服务器的报警装置可相互对应参照。
参见图2,图2为本申请实施例所提供的一种服务器的报警方法的流程图,本申请还提供一种服务器的报警方法,基于上文所述的报警装置,包括:
S101:判断第一故障信息和第二故障信息是否均接收到;若是,进入S102;若否,进入S103;
其中,所述第一故障信息为电源对应故障信息,所述第二故障信息为风扇对应故障信息;
S102:发出告警信息;
S103:生成所述第一故障信息和所述第二故障信息各自对应的告警日志。
步骤S101对应上文所述的报警装置中的告警检测模块,而第一故障信息即电源对应的故障信息,由上文所述的PSU掉电侦测模块发出,第二故障信息为风扇对应的故障信息,由上文所述的PSU风机模块发出,因此,关于本实施例S101和S102的相关描述请参见上一实施例,在此不作赘述。
S103中,若并未同时接收到第一故障信息和第二故障信息,此时可以生成各故障信息对应的告警日志。
此外,若接收到所述第一故障信息,还可以判断所述第一故障信息是否为市电闪断,若确认第一故障信息是由于市电闪断造成,则可以撤销所述第一故障信息对应的告警信息。需要说明的是,此处以市电闪断作为一种容易造成本领域技术人员误判的告警原因,而实际上,本告警方法同样可以规避其他类似短时间市电异常事件,在此不一一举例限定。
在此对于如何判断所述第一故障信息是否为市电闪断不作限定,可以通过判断所述第一故障信息对应的告警日志是否为市电掉电日志得知,或者对于服务器集群,还可以通过是否存在多个服务器同时生成相同内容的第一故障信息判断是否存在市电闪断。
特别的,撤销所述第一故障信息对应的告警信息主要指消除服务器面板的故障灯。若是服务器面板包括多个故障灯,则应根据故障灯的指示作用消除对应的故障灯。
本申请实施例提供的一种服务器的报警方法,能够解决由于市电闪断等非真实故障造成的服务器告警,也因此节省了大量的人工检修成本和维护成本。
需要注意的是,上文所公开的一种服务器的报警方法仅为上一实施例一种服务器的报警装置所对应的一种较优的实施例,在本申请所提供的一种服务器的报警装置的基础上,本领域技术人员可以在不脱离本方法主旨的前提下,得到其它实施例,均应在本申请的保护范围内。
举例而言,在本实施例的基础上,也可以在接收到故障信息后即可执行S103,则若S101判断为否时,S103应仅上传告警日志,无需上传告警信息。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的一种服务器的报警方法的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言,由于其与实施例提供的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (9)

1.一种服务器的报警装置,其特征在于,包括:
与所述服务器的BMC和电源相连的PSU掉电侦测模块,用于当电源输入电压低于第一临界值时发送第一故障信息至所述BMC;
与所述BMC和风扇相连的PSU风机模块,用于检测风扇运行状态并在风扇运行异常时发送第二故障信息至所述BMC;
设于所述BMC的告警检测模块,用于在所述第一故障信息和所述第二故障信息均接收到后发出告警信息。
2.根据权利要求1所述的报警装置,其特征在于,所述PSU掉电侦测模块包括欠压保护电路,所述欠压保护电路用于在所述电源输入电压低于所述第一临界值时断开所述服务器与供电电源连接。
3.根据权利要求1所述的报警装置,其特征在于,所述PSU风机模块包括:
风扇转速检测单元,用于检测风扇转速,并在所述风扇转速低于预设转速且持续时间超过预设时间时,发送所述第二故障信息。
4.根据权利要求1所述的报警装置,其特征在于,所述告警检测模块还包括:
二次检测单元,用于在接收到所述第一故障信息后,判断所述第一故障信息是否为市电闪断,并在判断结果为是时撤销所述第一故障信息。
5.一种服务器的报警方法,基于权利要求1-4任一项所述的报警装置,其特征在于,包括:
判断第一故障信息和第二故障信息是否均接收到;其中,所述第一故障信息为电源对应故障信息,所述第二故障信息为风扇对应故障信息;
若是,发出告警信息;
若否,生成所述第一故障信息和所述第二故障信息各自对应的告警日志。
6.根据权利要求5所述的报警方法,其特征在于,若接收到所述第一故障信息,还包括:
判断所述第一故障信息是否为市电闪断;
若是,撤销所述第一故障信息对应的告警信息。
7.根据权利要求6所述的报警方法,其特征在于,撤销所述第一故障信息对应的告警信息包括:
消除服务器面板的故障灯。
8.根据权利要求6所述的报警方法,其特征在于,判断所述第一故障信息是否为市电闪断包括:
判断所述第一故障信息对应的告警日志是否为市电掉电日志。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求5-8任一项所述的报警方法的步骤。
CN202010476853.8A 2020-05-29 2020-05-29 一种服务器的报警装置及其报警方法和存储介质 Withdrawn CN111722987A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010476853.8A CN111722987A (zh) 2020-05-29 2020-05-29 一种服务器的报警装置及其报警方法和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010476853.8A CN111722987A (zh) 2020-05-29 2020-05-29 一种服务器的报警装置及其报警方法和存储介质

Publications (1)

Publication Number Publication Date
CN111722987A true CN111722987A (zh) 2020-09-29

Family

ID=72565549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010476853.8A Withdrawn CN111722987A (zh) 2020-05-29 2020-05-29 一种服务器的报警装置及其报警方法和存储介质

Country Status (1)

Country Link
CN (1) CN111722987A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463501A (zh) * 2020-12-11 2021-03-09 苏州浪潮智能科技有限公司 一种异常掉电的故障快速定位方法、设备及存储介质
CN113010375A (zh) * 2021-02-26 2021-06-22 腾讯科技(深圳)有限公司 设备告警方法及相关设备
CN114251296A (zh) * 2021-12-08 2022-03-29 凌云光技术股份有限公司 一种对光源内部风扇进行故障监控的设备及方法
CN114326990A (zh) * 2021-11-30 2022-04-12 苏州浪潮智能科技有限公司 风扇异常处理方法、装置、电子设备及存储介质
CN117750738A (zh) * 2024-02-19 2024-03-22 山东博舜电源有限公司 一种电源装置安全报警反馈控制方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112463501A (zh) * 2020-12-11 2021-03-09 苏州浪潮智能科技有限公司 一种异常掉电的故障快速定位方法、设备及存储介质
CN113010375A (zh) * 2021-02-26 2021-06-22 腾讯科技(深圳)有限公司 设备告警方法及相关设备
CN114326990A (zh) * 2021-11-30 2022-04-12 苏州浪潮智能科技有限公司 风扇异常处理方法、装置、电子设备及存储介质
CN114326990B (zh) * 2021-11-30 2023-06-23 苏州浪潮智能科技有限公司 风扇异常处理方法、装置、电子设备及存储介质
CN114251296A (zh) * 2021-12-08 2022-03-29 凌云光技术股份有限公司 一种对光源内部风扇进行故障监控的设备及方法
CN117750738A (zh) * 2024-02-19 2024-03-22 山东博舜电源有限公司 一种电源装置安全报警反馈控制方法
CN117750738B (zh) * 2024-02-19 2024-05-03 山东博舜电源有限公司 一种电源装置安全报警反馈控制方法

Similar Documents

Publication Publication Date Title
CN111722987A (zh) 一种服务器的报警装置及其报警方法和存储介质
CN111124827B (zh) 一种设备风扇的监控装置及监控方法
CN113890168B (zh) 开关电源控制方法、装置、设备及存储介质
CN110445638B (zh) 一种交换机系统故障保护方法及装置
CN111258405B (zh) 一种服务器主板防烧系统及方法
KR20200059388A (ko) 전기정보 관리시스템
JP2016054577A (ja) パワーコンディショナ
CN111475292B (zh) 一种服务器系统及其内处理器的频率控制装置
CN112389352A (zh) 一种整车静态电流管理系统及方法
CN111488050B (zh) 一种电源监控方法、系统及服务器
CN111948575A (zh) 电流互感器二次侧中性线断线检测方法及装置
CN111613000A (zh) 一种火灾自动报警、灾情等级自动监控方法和系统
CN111290886A (zh) 设备自动恢复运行的方法及热水机
CN117074809A (zh) 一种基于知识图谱的计量设备状态追踪与异常监控模型
CN114115503B (zh) 一种cpu电压告警阈值自动调节的系统和方法
CN114328135A (zh) 一种设备故障指示方法、装置及相关设备
CN113162015A (zh) 一种主板电源异常定位保护方法及装置
CN107329875B (zh) 一种存储设备告警处理方法
CN113240220A (zh) 信号告警方法、装置及告警设备
JP3153220B2 (ja) 電源制御方式
JP2003319547A (ja) 過電流検出制御システム
CN113687603B (zh) 基于智慧运维的建筑突发事件预防方法、装置、设备及存储介质
JP3457629B2 (ja) 並列直流電源用の過電圧検出制御システム
CN114356687B (zh) 一种信号检测方法、装置及电子设备
JP2854495B2 (ja) 防災監視装置の過電圧保護装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200929

WW01 Invention patent application withdrawn after publication