CN108959025A - 一种服务器告警方法、装置及服务器 - Google Patents

一种服务器告警方法、装置及服务器 Download PDF

Info

Publication number
CN108959025A
CN108959025A CN201810681092.2A CN201810681092A CN108959025A CN 108959025 A CN108959025 A CN 108959025A CN 201810681092 A CN201810681092 A CN 201810681092A CN 108959025 A CN108959025 A CN 108959025A
Authority
CN
China
Prior art keywords
server
threshold value
server component
duration threshold
duration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810681092.2A
Other languages
English (en)
Inventor
叶笑夕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201810681092.2A priority Critical patent/CN108959025A/zh
Publication of CN108959025A publication Critical patent/CN108959025A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例公开了一种服务器告警方法、装置及服务器,所述方法包括按照预设的时间间隔监测各服务器部件的运行状态;当监测到服务器部件的异常信息时,判断所述服务器部件持续异常的时长是否大于或等于所述服务器部件的时长阈值;若所述服务器部件持续异常的时长大于或等于所述服务器部件的时长阈值时,进行报警。在本申请实施例中,通过在BMC内根据不同的部件设置不同的时长阈值,当持续异常时间大于或等于时长阈值时,BMC才认为该部件异常进行相应告警,以此防止误告警。

Description

一种服务器告警方法、装置及服务器
技术领域
本申请涉及计算机技术领域,特别是涉及一种服务器告警方法、装置及服务器。
背景技术
服务器,也称伺服器,是提供计算服务的设备。随着用户对服务器性能需求的提高,用户对服务器计算节点的需求数量也越来越多。基于此,整机柜服务器应运而生,其颠覆了传统机架服务器的设计架构与产品形态,采用模块化设计,集供电、散热和管理于一个机柜内,统一管理大量节点,使得用户对于计算节点的更新和维护更加方便,与传统服务器相比具有很大的优势,并且在实际应用上也越来越广泛。
基板管理控制器BMC是服务器监控系统,其对服务器的每个部件进行实时监控,在部件异常时,BMC会及时通过WEB进行某部件的告警,并且点亮该部件的错误灯来警示用户,使得用户尽快排查异常,以保障服务器稳定的工作。
但是,BMC是通过硬件电路信号的变化来进行异常判断的,如果服务器电路信号不稳定、短时间内信号的波动会造成误告警,导致用户以为服务器异常,但却检查不出任何问题,而造成不必要的麻烦。
发明内容
本申请实施例中提供了一种服务器告警方法、装置及服务器,以利于解决现有技术中服务器误告警的问题。
第一方面,本申请实施例提供了一种服务器告警方法,包括:
按照预设的时间间隔监测各服务器部件的运行状态;
当监测到服务器部件的异常信息时,判断所述服务器部件持续异常的时长是否大于或等于所述服务器部件的时长阈值;
若所述服务器部件持续异常的时长大于或等于所述服务器部件的时长阈值时,进行报警。
可选地,所述方法还包括:
为不同的服务器部件设置相应的时长阈值。
可选地,所述服务器部件包括CPU、内存、风扇和电源;
所述CPU对应的时长阈值为2-3s,所述内存对应的时长阈值为2-3s,所述风扇对应的时长阈值为5-10s,所述电源对应的时长阈值为20-30s。
可选地,所述预设的时间间隔为0.5-1.5s。
第二方面,本申请实施例提供了一种服务器告警装置,包括:
监测模块,用于按照预设的时间间隔监测各服务器部件的运行状态;
判断模块,用于当监测到服务器部件的异常信息时,判断所述服务器部件持续异常的时长是否大于或等于所述服务器部件的时长阈值;
报警模块,用于若所述服务器部件持续异常的时长大于或等于所述服务器部件的时长阈值时,进行报警。
可选地,所述装置还包括:
设置模块,用于为不同的服务器部件设置相应的时长阈值。
可选地,所述服务器部件包括CPU、内存、风扇和电源;
所述CPU对应的时长阈值为2-3s,所述内存对应的时长阈值为2-3s,所述风扇对应的时长阈值为5-10s,所述电源对应的时长阈值为20-30s。
可选地,所述预设的时间间隔为0.5-1.5s。
第三方面,本申请实施例提供了一种服务器,包括:
基板管理控制器BMC,所述BMC被配置为执行上述第一方面任一项所述的方法。
在本申请实施例中,通过在BMC内根据不同的部件设置不同的时长阈值,当持续异常时间大于或等于时长阈值时,BMC才认为该部件异常进行相应告警,以此防止误告警。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种整机柜服务器的结构示意图;
图2为本申请实施例提供的一种服务器告警方法流程示意图;
图3为本申请实施例提供的一种服务器告警装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
图1为本申请实施例提供的一种整机柜服务器的结构示意图,如图1所示,所述整机柜服务器包括多个半宽计算节点和多个全宽计算节点,本申请实施例提供的服务器告警方法可应用于该整机柜服务器,但是,图1只是示例性说明,并不应当将其作为本申请保护范围的限制。
为了避免误告警的情况发生,本申请实施例提供了一种服务器告警方法,图2为本申请实施例提供的一种服务器告警方法流程示意图,如图2所示,其主要包括以下步骤。
步骤S201:按照预设的时间间隔监测各服务器部件的运行状态。
在本申请实施例中,BMC按照预设的时间间隔轮询各部件的运行状态,具体可以为采集各部件传感器的监控信息。该时间间隔可以为0.5s-1.5s,具体可以为1s。
步骤S202:当监测到服务器部件的异常信息时,判断所述服务器部件持续异常的时长是否大于或等于所述服务器部件的时长阈值。
如果监测到某一服务器部件发生异常,首先判断该发生异常的服务器部件的持续异常时间是否大于或等于相应的时长阈值,以此来避免服务器电路信号不稳定、短时间内信号的波动造成的影响。
步骤S203:若所述服务器部件持续异常的时长大于或等于所述服务器部件的时长阈值时,进行报警。
例如,某一服务器部件的时长阈值设置为10s,当该服务器部件的持续异常事件为11s时,持续异常事件超过了时长阈值,则进行报警;否则,不进行报警。
在本申请实施例中,通过在BMC内根据不同的部件设置不同的时长阈值,当持续异常时间大于或等于时长阈值时,BMC才认为该部件异常进行相应告警,以此防止误告警。
另外,由于服务器部件自身的特点,使得各部件的时长阈值设置不同。例如,对于cpu和内存,如果cpu和内存发生故障,将给整个服务器系统带来较大的风险,因此cpu和内存的时长阈值尽量设置的较短,通常为2-3s;对于风扇,如果风扇发生故障,短时间内不会影响服务器的整体运行,因此其时长阈值可以设置为5-10s;对于电源,通常情况下服务器的电源会有冗余设计,即使电源发生故障,也可以自动启动冗余电源,因此其时长阈值可以设置的稍微长一些,例如,20-30s。
与上述方法实施例相对应,本申请还提供了一种服务器告警装置,图3为本申请实施例提供的一种服务器告警装置的结构示意图,如图3所示,所述装置包括以下模块。
监测模块301,用于按照预设的时间间隔监测各服务器部件的运行状态;
判断模块302,用于当监测到服务器部件的异常信息时,判断所述服务器部件持续异常的时长是否大于或等于所述服务器部件的时长阈值;
报警模块303,用于若所述服务器部件持续异常的时长大于或等于所述服务器部件的时长阈值时,进行报警。
在一种可选实施例中,所述装置还包括:
设置模块,用于为不同的服务器部件设置相应的时长阈值。
在一种可选实施例中,所述服务器部件包括CPU、内存、风扇和电源;
所述CPU对应的时长阈值为2-3s,所述内存对应的时长阈值为2-3s,所述风扇对应的时长阈值为5-10s,所述电源对应的时长阈值为20-30s。
在一种可选实施例中,所述预设的时间间隔为0.5-1.5s。
在本申请实施例中,通过在BMC内根据不同的部件设置不同的时长阈值,当持续异常时间大于或等于时长阈值时,BMC才认为该部件异常进行相应告警,以此防止误告警。
与上述实施例相对应,本申请还提供了一种服务器,包括基板管理控制器BMC,所述BMC被配置为执行图2所示实施例中的方法。
具体实现中,本申请还提供一种计算机存储介质,其中,该计算机存储介质可存储有程序,该程序执行时可包括本申请提供的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:read-only memory,简称:ROM)或随机存储记忆体(英文:random access memory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于终端实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本申请实施方式并不构成对本申请保护范围的限定。

Claims (9)

1.一种服务器告警方法,其特征在于,包括:
按照预设的时间间隔监测各服务器部件的运行状态;
当监测到服务器部件的异常信息时,判断所述服务器部件持续异常的时长是否大于或等于所述服务器部件的时长阈值;
若所述服务器部件持续异常的时长大于或等于所述服务器部件的时长阈值时,进行报警。
2.根据权利要求1所述的方法,其特征在于,还包括:
为不同的服务器部件设置相应的时长阈值。
3.根据权利要求2所述的方法,其特征在于,所述服务器部件包括CPU、内存、风扇和电源;
所述CPU对应的时长阈值为2-3s,所述内存对应的时长阈值为2-3s,所述风扇对应的时长阈值为5-10s,所述电源对应的时长阈值为20-30s。
4.根据权利要求1所述的方法,其特征在于,所述预设的时间间隔为0.5-1.5s。
5.一种服务器告警装置,其特征在于,包括:
监测模块,用于按照预设的时间间隔监测各服务器部件的运行状态;
判断模块,用于当监测到服务器部件的异常信息时,判断所述服务器部件持续异常的时长是否大于或等于所述服务器部件的时长阈值;
报警模块,用于若所述服务器部件持续异常的时长大于或等于所述服务器部件的时长阈值时,进行报警。
6.根据权利要求5所述的装置,其特征在于,还包括:
设置模块,用于为不同的服务器部件设置相应的时长阈值。
7.根据权利要求6所述的装置,其特征在于,所述服务器部件包括CPU、内存、风扇和电源;
所述CPU对应的时长阈值为2-3s,所述内存对应的时长阈值为2-3s,所述风扇对应的时长阈值为5-10s,所述电源对应的时长阈值为20-30s。
8.根据权利要求5所述的装置,其特征在于,所述预设的时间间隔为0.5-1.5s。
9.一种服务器,其特征在于,包括:
基板管理控制器BMC,所述BMC被配置为执行权利要求1-4任一项所述的方法。
CN201810681092.2A 2018-06-27 2018-06-27 一种服务器告警方法、装置及服务器 Pending CN108959025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810681092.2A CN108959025A (zh) 2018-06-27 2018-06-27 一种服务器告警方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810681092.2A CN108959025A (zh) 2018-06-27 2018-06-27 一种服务器告警方法、装置及服务器

Publications (1)

Publication Number Publication Date
CN108959025A true CN108959025A (zh) 2018-12-07

Family

ID=64487365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810681092.2A Pending CN108959025A (zh) 2018-06-27 2018-06-27 一种服务器告警方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN108959025A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782462A (zh) * 2020-06-13 2020-10-16 华青融天(北京)软件股份有限公司 告警方法、装置和电子设备
CN113049871A (zh) * 2019-12-27 2021-06-29 杭州海康微影传感科技有限公司 电压异常监测方法、装置及电子设备
CN113608960A (zh) * 2021-07-09 2021-11-05 五八有限公司 一种服务监控方法、装置、电子设备及存储介质
CN115037596A (zh) * 2022-05-17 2022-09-09 阿里云计算有限公司 异常状态告警方法及装置、电子设备、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609350A (zh) * 2012-02-15 2012-07-25 浪潮电子信息产业股份有限公司 一种服务器内存故障报警方法
CN102662820A (zh) * 2012-03-20 2012-09-12 浪潮(北京)电子信息产业有限公司 数据保护方法和装置
CN103473164A (zh) * 2013-09-25 2013-12-25 浪潮电子信息产业股份有限公司 一种用于linux服务器的监控预警方法
CN104280145A (zh) * 2014-10-17 2015-01-14 安徽立卓智能电网科技有限公司 一种ups电源温度异常报警装置
CN104950754A (zh) * 2015-06-12 2015-09-30 成都德麦科技有限公司 一种用于工业制冷控制系统的智能化手机监控方法
CN106649055A (zh) * 2017-01-10 2017-05-10 山东浪潮云服务信息科技有限公司 一种基于国产cpu和操作系统的软硬件故障告警系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609350A (zh) * 2012-02-15 2012-07-25 浪潮电子信息产业股份有限公司 一种服务器内存故障报警方法
CN102662820A (zh) * 2012-03-20 2012-09-12 浪潮(北京)电子信息产业有限公司 数据保护方法和装置
CN103473164A (zh) * 2013-09-25 2013-12-25 浪潮电子信息产业股份有限公司 一种用于linux服务器的监控预警方法
CN104280145A (zh) * 2014-10-17 2015-01-14 安徽立卓智能电网科技有限公司 一种ups电源温度异常报警装置
CN104950754A (zh) * 2015-06-12 2015-09-30 成都德麦科技有限公司 一种用于工业制冷控制系统的智能化手机监控方法
CN106649055A (zh) * 2017-01-10 2017-05-10 山东浪潮云服务信息科技有限公司 一种基于国产cpu和操作系统的软硬件故障告警系统及方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113049871A (zh) * 2019-12-27 2021-06-29 杭州海康微影传感科技有限公司 电压异常监测方法、装置及电子设备
CN113049871B (zh) * 2019-12-27 2024-09-24 杭州海康微影传感科技有限公司 电压异常监测方法、装置及电子设备
CN111782462A (zh) * 2020-06-13 2020-10-16 华青融天(北京)软件股份有限公司 告警方法、装置和电子设备
CN111782462B (zh) * 2020-06-13 2024-05-24 华青融天(北京)软件股份有限公司 告警方法、装置和电子设备
CN113608960A (zh) * 2021-07-09 2021-11-05 五八有限公司 一种服务监控方法、装置、电子设备及存储介质
CN115037596A (zh) * 2022-05-17 2022-09-09 阿里云计算有限公司 异常状态告警方法及装置、电子设备、存储介质
CN115037596B (zh) * 2022-05-17 2024-08-20 阿里云计算有限公司 异常状态告警方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN108959025A (zh) 一种服务器告警方法、装置及服务器
US10429914B2 (en) Multi-level data center using consolidated power control
US9800087B2 (en) Multi-level data center consolidated power control
CN105808394B (zh) 一种服务器自愈的方法和装置
CN103607297A (zh) 一种计算机集群系统的故障处理方法
US20130297603A1 (en) Monitoring methods and systems for data centers
CN110968061B (zh) 设备故障的预警方法、装置、存储介质和计算机设备
CN112035319B (zh) 一种针对多路径状态的监控告警系统
CN104156297A (zh) 告警方法和装置
CN107612748A (zh) 一种多节点服务器功耗管理系统
CN112764956B (zh) 数据库的异常处理系统、数据库的异常处理方法及装置
CN106021070A (zh) 服务器集群监测方法及装置
CN105335256A (zh) 在整机柜服务器中切换备份磁盘的方法、装置和系统
CN108769170A (zh) 一种集群网络故障自检系统及方法
CN104699589A (zh) 风扇错误侦测系统及方法
CN113487182B (zh) 设备健康状态评估方法、装置、计算机设备和介质
CN108897667A (zh) 一种内存过热报警方法、装置及设备
CN115687026A (zh) 多节点服务器故障预警方法、装置、设备及介质
CN108184323B (zh) 整机柜服务器的散热调控方法、装置、设备及存储介质
CN112019455A (zh) 一种基于可编程逻辑器件的交换机监控装置及方法
CN116737444A (zh) 一种数据库服务器故障处理方法及系统
CN110377450A (zh) 一种硬件异常处理方法、系统及相关组件
CN113808725B (zh) 设备预警系统和方法
CN111147542A (zh) 一种免密访问的设置方法、装置、设备及介质
CN102662820A (zh) 数据保护方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181207

RJ01 Rejection of invention patent application after publication