CN113010375A - 设备告警方法及相关设备 - Google Patents

设备告警方法及相关设备 Download PDF

Info

Publication number
CN113010375A
CN113010375A CN202110222621.4A CN202110222621A CN113010375A CN 113010375 A CN113010375 A CN 113010375A CN 202110222621 A CN202110222621 A CN 202110222621A CN 113010375 A CN113010375 A CN 113010375A
Authority
CN
China
Prior art keywords
fan
early warning
alarm
data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110222621.4A
Other languages
English (en)
Other versions
CN113010375B (zh
Inventor
曾令新
林哲伟
秦思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110222621.4A priority Critical patent/CN113010375B/zh
Publication of CN113010375A publication Critical patent/CN113010375A/zh
Application granted granted Critical
Publication of CN113010375B publication Critical patent/CN113010375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Alarm Systems (AREA)

Abstract

本发明实施例公开了一种设备告警方法及相关设备,该方法包括:获取目标机房中的M个预警设备的设备数据,然后根据每个预警设备配置的各个预警风扇的风扇异常数据,对各个预警风扇进行故障检测,得到检测结果;根据得到的检测结果确定每个预警设备中的告警风扇,并根据每个预警设备中的告警风扇的风扇属性,从M个预警设备中选取满足设备告警策略的目标告警设备集;对目标告警设备集中的各个目标告警设备进行告警处理。通过上述方法能够实现自动化地对目标机房进行设备告警处理,有效提升设备告警的准确性并节省人力成本。

Description

设备告警方法及相关设备
技术领域
本申请涉及互联网技术领域,具体涉及计算机技术领域,尤其涉及一种设备告警方法、一种设备告警装置、一种计算机设备以及一种计算机存储介质。
背景技术
随着计算机技术的不断发展,可在机房中部署并运行大量的设备(如用于提供各种业务服务的服务器、用于供电的供电设备等)来为用户提供相关业务。由于任一设备在运行的过程中均会释放出大量热量,使得任一设备的温度升高,而过高的温度可能会影响设备的正常运行,因此通常需要为任一设备配置一个或多个风扇,以使得在该任一设备的运行过程中,可较好地对该任一设备进行散热处理。目前,在机房中各个设备的运行过程中,通常需要专业的技术人员实时监测该各个设备所配置的各个风扇是否存在异常;当检测到任一风扇存在异常时,则需要由该技术人员对该任一风扇所在的设备进行告警处理;这样的设备告警逻辑较为简单,且需大量的技术人员的参与,容易导致设备告警的准确性较低。
发明内容
本发明实施例提供了一种设备告警方法及相关设备,能够实现自动化地对目标机房进行设备告警处理,有效提升设备告警的准确性并节省人力成本。
一方面,本发明实施例提供了一种设备告警方法,包括:
获取目标机房中的M个预警设备的设备数据,任一预警设备的设备数据包括:所述任一预警设备所配置的各个预警风扇的风扇异常数据,M为正整数;
根据每个预警设备配置的各个预警风扇的风扇异常数据,对所述每个预警设备配置的各个预警风扇进行故障检测,得到检测结果;
根据所述检测结果确定所述每个预警设备中的告警风扇,并根据所述每个预警设备中的告警风扇的风扇属性,从所述M个预警设备中选取满足设备告警策略的目标告警设备集;
对所述目标告警设备集中的各个目标告警设备进行告警处理。
一方面,本发明实施例提供了一种设备告警装置,包括:
获取单元,用于获取目标机房中的M个预警设备的设备数据,任一预警设备的设备数据包括:所述任一预警设备所配置的各个预警风扇的风扇异常数据,M为正整数;
处理单元,用于根据每个预警设备配置的各个预警风扇的风扇异常数据,对所述每个预警设备配置的各个预警风扇进行故障检测,得到检测结果;
所述处理单元,还用于根据所述检测结果确定所述每个预警设备中的告警风扇,并根据所述每个预警设备中的告警风扇的风扇属性,从所述M个预警设备中选取满足设备告警策略的目标告警设备集;
所述处理单元,还用于对所述目标告警设备集中的各个目标告警设备进行告警处理。
一方面,本发明实施例提供了一种计算机设备,包括输入接口和输出接口,其特征在于,还包括:
处理器,适于实现一条或多条指令,以及
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述第一条或多条指令适于由所述处理器加载并执行:
获取目标机房中的M个预警设备的设备数据,任一预警设备的设备数据包括:所述任一预警设备所配置的各个预警风扇的风扇异常数据,M为正整数;
根据每个预警设备配置的各个预警风扇的风扇异常数据,对所述每个预警设备配置的各个预警风扇进行故障检测,得到检测结果;
根据所述检测结果确定所述每个预警设备中的告警风扇,并根据所述每个预警设备中的告警风扇的风扇属性,从所述M个预警设备中选取满足设备告警策略的目标告警设备集;
对所述目标告警设备集中的各个目标告警设备进行告警处理。
一方面,本发明实施例提供了一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行:
获取目标机房中的M个预警设备的设备数据,任一预警设备的设备数据包括:所述任一预警设备所配置的各个预警风扇的风扇异常数据,M为正整数;
根据每个预警设备配置的各个预警风扇的风扇异常数据,对所述每个预警设备配置的各个预警风扇进行故障检测,得到检测结果;
根据所述检测结果确定所述每个预警设备中的告警风扇,并根据所述每个预警设备中的告警风扇的风扇属性,从所述M个预警设备中选取满足设备告警策略的目标告警设备集;
对所述目标告警设备集中的各个目标告警设备进行告警处理。
一方面,本发明实施例提供了一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中;计算机设备的处理器从所述计算机存储介质中读取所述计算机指令,所述处理器执行所述计算机指令执行:
获取目标机房中的M个预警设备的设备数据,任一预警设备的设备数据包括:所述任一预警设备所配置的各个预警风扇的风扇异常数据,M为正整数;
根据每个预警设备配置的各个预警风扇的风扇异常数据,对所述每个预警设备配置的各个预警风扇进行故障检测,得到检测结果;
根据所述检测结果确定所述每个预警设备中的告警风扇,并根据所述每个预警设备中的告警风扇的风扇属性,从所述M个预警设备中选取满足设备告警策略的目标告警设备集;
对所述目标告警设备集中的各个目标告警设备进行告警处理。
本发明实施例在检测到目标机房中存在异常的风扇时,可将这些存在异常的风扇视为预警风扇,并将这些预警风扇所对应的设备视为预警设备,以实现对这些预警风扇所对应的设备进行预警处理。其次,可根据每个预警设备配置的各个预警风扇的风扇异常数据,进一步地对每个预警设备配置的各个预警风扇进行故障检测,以较为准确地检测出每个预警设备中真正存在故障(异常)的告警风扇,有效提升故障风扇的准确性。然后,可根据每个预警设备中的告警风扇的风扇属性,从目标机房的所有预警设备中选取满足设备告警策略的目标告警设备,并对各个目标告警设备进行告警处理。可见,本发明实施例通过提升故障风扇的检测准确性,可有效提升告警设备的检测准确性,从而提升设备告警的准确性;并且,通过先设备预警再设备告警的方式,可避免在检测到风扇异常便直接告警所带来的误告警现象,可进一步提升设备告警的准确性;另外,整个过程无需技术人员的参与,还可有效节省人力成本。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的一种设备告警系统的结构示意图;
图1b是本发明实施例提供的另一种设备告警系统的结构示意图;
图1c是本发明实施例提供的另一种设备告警系统的结构示意图;
图1d是本发明实施例提供的一种设备告警方案的流程示意图;
图2a是本发明实施例提供的一种设备告警方法的流程示意图;
图2b是本发明实施例提供的一种设备数据上链的流程示意图;
图3a是本发明实施例提供的一种故障缓冲池的界面示意图;
图3b是本发明实施例提供的一种风扇故障告警策略配置表的配置界面示意图;
图4a是本发明实施例提供的一种故障工单的界面示意图;
图4b是本发明实施例提供的一种故障工单处理信息流的界面示意图;
图4c是本发明实施例提供的另一种故障工单处理信息流的界面示意图;
图4d是本发明实施例提供的另一种故障工单处理信息流的界面示意图;
图4e是本发明实施例提供的另一种故障工单处理信息流的界面示意图;
图5是本发明实施例提供的一种故障工单处理的流程示意图;
图6是本发明实施例提供的另一种设备告警方法的流程示意图;
图7a是本发明实施例提供的一种风扇解析策略的界面示意图;
图7b是本发明实施例提供的一种参考字段与标准字段的映射示意图;
图7c是本发明实施例提供的一种任一设备的运行数据收敛层级的示意图;
图8a是本发明实施例提供的一种风扇数据的界面示意图;
图8b是本发明实施例提供的一种风扇物理槽位映射策略的界面示意图;
图9是本发明实施例提供的一种故障状态值的映射示意图;
图10是本发明实施例提供的一种风扇数据的界面示意图;
图11是本发明实施例提供的另一种设备告警方法的流程示意图;
图12是本发明实施例提供的另一种设备告警方法的流程示意图;
图13是本发明实施例提供的一种设备告警装置的结构示意图;
图14是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了能够较为准确地实现设备告警处理,本发明实施例提出一种设备告警方案以及对应的设备告警系统;具体的,该设备告警系统至少包括:至少一个机房中的一个或多个设备101,以及用于对各个机房中的各个设备101进行告警监控的计算机设备102。其中,任一设备101可以是供电设备、或者服务器等配置有一个或多个风扇的任一设备;此处所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器,等等。计算机设备102可以是具有数据计算能力的任一设备,如独立的物理服务器、服务器集群或者云服务器等任一服务器,或者智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载以及智能电视等智能终端;计算机设备102可获取任一机房中的各个设备101所配置的各个风扇的风扇数据,并采用本发明实施例所提出的设备告警方案基于获取到的各个风扇的风扇数据对任一机房进行设备告警处理。
在一种实施方式中,计算机设备102可直接与各个机房中的各个设备101建立无线链路或有线链路进行通信连接,并基于该通信连接直接从各个设备101处采集得到各个设备101所配置的各个风扇的风扇数据;在此实施方式下,本发明实施例所提出的设备告警系统的系统架构可参见图1a所示。再一种实施方式中,为便于更好地获取到各个机房中的各个设备101所对应的风扇数据,还可为每个机房配置一个数据采集设备103,每个数据采集设备103均可与计算机设备102建立通信连接;且任一机房对应的数据采集设备103可与该任一机房中的各个设备101建立无线链路或有线链路进行通信连接,并基于该通信连接采集该任一机房中各个设备101的运行数据,使得计算机设备102可统一从该任一机房对应的数据采集设备103处获取该任一机房中的各个设备101的运行数据,从而根据获取到的运行数据解析得到任一机房中的各个设备101所配置的各个风扇的风扇数据;在此实施方式下,本发明实施例所提出的设备告警系统的系统架构可参见图1b所示。其中,此处所提及的数据采集设备103可以是具有数据采集能力的任一设备,如带外管理服务器(TOC Jobsvr);相应的,数据采集设备103采集的运行数据可以是各个设备的带外SDR数据(Sensor DataRecords,实时传感器信息数据)。在带外管理中,各个设备的管理控制信息和数据信息可以通过两个不同的物理通道进行传送,两个通道各自独立、互不影响,例如,在传送管理控制信息的通道出现故障时,传送数据信息的通道基本不会受到影响。以带外管理服务器作为数据采集设备,可以保证在传送管理控制信息的通道出现故障时,依然能实时采集到带外SDR数据,进而,计算机设备依然可以执行本发明实施例提供的设备告警方案。
需要说明的是,图1a和图1b均只是示例性地表征设备告警系统的系统架构,并不对该设备告警系统的具体架构进行限定。例如,图1a中的设备101和计算机设备102均可位于区块链网络外;但在其他实施例中,也可基于区块链网络来部署该设备告警系统,即可将设备101和计算机设备103均部署在区块链网络中等等。当将设备101和计算机设备102均部署在区块链网络内时,计算机设备102和各个设备101均可作为区块链网络中的节点;在此情况下,设备告警系统的具体架构图还可参见图1c所示。可选的,图1c所示的设备告警系统中,可在各个设备101和计算机设备102中确定一个或多个共识节点,用于将达成共识的数据存储在区块链上,从而防止数据被篡改,提高数据存储的安全性。其中,此处所提及的区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。其本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块。
下面以图1b所示的设备告警系统,且该设备告警系统中的各个机房内部署的各个设备101均为服务器,以及各个机房所配置的数据采集设备均为带外管理服务器为例,结合图1d所示的流程图,对本发明实施例所提出的设备告警方案的大致原理进行阐述:
针对任一机房而言,计算机设备102可通过该任一机房所配置的带外管理服务器,按照分钟级的采集频率采集该任一机房内能够处理百万级数据量的各个服务器(即设备101)的带外SDR数据(运行数据)。然后,可通过多级策略将采集到的所有带外SDR数据进行统一规整,以确定出每个服务器所配置的各个风扇的风扇数据;具体的,可通过设置的风扇解析策略从所有的带外SDR数据中解析出风扇数据,然后通过设置的风扇槽位映射策略确定各条风扇数据对应的风扇。在确定出各个风扇的风扇数据后,可通过各个风扇的风扇数据和风扇告警缓冲池(故障缓冲池)对任一机房实现异常数据识别、大规模告警收敛和自动化告警处理。其中,异常数据识别包括:在连续多次(如20次)采集到任一服务器的任一风扇的风扇数据均存在异常时,可确定该风扇数据为风扇异常数据,并确定该任一风扇为预警风扇,以及将该任一服务器视为预警服务器(可称为预警设备)。大规模告警收敛包括:确定预警风扇是否存在故障;在预警风扇存在故障时,确定该预警风扇为告警风扇;然后根据告警风扇的风扇属性,判断存在该告警风扇的预警服务器是否为需要进行自动化告警处理的服务器;将需要进行自动化告警处理的服务器确定为目标告警服务器(可称为目标告警设备)。自动化告警处理包括:对目标告警服务器创建故障工单,以及进行运维替换处理;其中,运维替换处理包括:告警上报、业务授权、备件出库、运维替换、坏件入库等流程。上述设备告警方案实现了全流程的自动化,提高了设备告警的准确性,节省了人力成本。
基于上述设备告警方案的相关描述,本发明实施例提出了一种设备告警方法的流程示意图,该设备告警方法可由上述所提及的任一告警系统中的计算机设备执行;参见图2a所示,该设备告警方法包括如下步骤:
S201、获取目标机房中的M个预警设备的设备数据。
其中,任一预警设备的设备数据包括:任一预警设备所配置的各个预警风扇的风扇异常数据,M为正整数。本发明实施例中,预警设备是指目标机房的所有设备中存在预警风扇的设备,所谓的预警风扇是指风扇数据存在异常的风扇;可见每个预警风扇均存在异常的风扇数据,本发明实施例可将“存在异常的风扇数据”简称为风扇异常数据。任一预警风扇的风扇异常数据包括以下至少一种:风扇转速值、风扇转速比值、风扇状态值,以及风扇冗余状态值;所谓的风扇转速值是指风扇的扇叶在单位时间内旋转的次数;风扇转速比值是指风扇转速值与规定范围内的风扇转速极值的比值;风扇状态值是指用于指示风扇所处状况的值;风扇冗余状态值是指用于指示存在预警风扇的预警设备的冗余状态的值,所谓的冗余状态包括冗余在位状态,或者冗余失效状态。
其中,当预警设备处于冗余在位状态时,可表明预警设备存在的预警风扇的数量小于失效阈值,当预警设备处于冗余失效状态时,可表明预警设备存在的预警风扇的数量大于或等于失效阈值,此处的失效阈值是根据该预警设备的冗余度确定的。预警设备的冗余度可表示成n+k,n指预警设备配置的风扇的数量,k为预警设备配置的风扇中允许存在预警风扇的数量最大值,即预警设备的失效阈值。
例如,预警设备的冗余度为n+1,那么预警设备对应的失效阈值为1。若该预警设备中不存在预警风扇时,该预警设备的冗余状态为冗余在位状态;当该预警设备中存在1个预警风扇时,该预警设备的冗余状态为冗余失效状态。
又例如,预警设备的冗余度为n+2,那么预警设备对应的失效阈值为2。若该预警设备中不存在预警风扇或者存在1个预警风扇时,该预警设备的冗余状态均为冗余在位状态;当该预警设备中存在2个预警风扇时,该预警设备的冗余状态为冗余失效状态。
在具体实现中,可从故障缓冲池中获取每个预警设备所存在的预警风扇的风扇异常数据,作为每个预警设备的设备数据;其中,故障缓冲池中的任一预警风扇的风扇异常数据是在检测到风扇数据存在异常的次数等于异常阈值时确定,并被添加至故障缓冲池的。
在一个实施例中,计算机设备可将获取的任一预警设备的设备数据上传至区块链网络中,以防止任一设备的设备数据被篡改。具体的,在图2b中,区块链网络中任一节点在接收到任一设备的设备数据后,对该设备数据进行校验,并在校验通过之后,将任一设备以及任一设备的设备数据进行存储,生成区块头和区块主体,得到新生成的区块N+1。随后任一节点根据将新生成的区块分别发送给区块链网络中其他节点,并由其他节点对新生成的区块进行共识,并在通过共识后将新生成的区块添加至其存储的区块链中。
S202、根据每个预警设备配置的各个预警风扇的风扇异常数据,对每个预警设备配置的各个预警风扇进行故障检测,得到检测结果。
由前述可知,任一预警风扇的风扇异常数据包括以下至少一种:风扇转速值、风扇转速比值、风扇状态值,以及风扇冗余状态值;任一预警风扇的检测结果用于指示任一预警风扇是否处于故障状态,当任一预警风扇处于故障状态时,任一预警风扇满足如下至少一项条件:任一预警风扇的风扇转速值小于第一风扇转速阈值、任一预警风扇的风扇转速比值小于第一风扇转速比阈值、任一预警风扇的风扇状态值等于故障状态值,以及任一预警风扇的风扇冗余状态值指示的冗余状态为冗余失效状态。应理解的是,由于任一预警风扇的风扇冗余状态值指示的是存在任一预警风扇的预警设备的冗余状态,无法直接指示任一预警风扇的故障之处,因此,以任一预警风扇的风扇冗余状态值指示的冗余状态为冗余失效状态作为判断条件对预警风扇的故障检测起到的是辅助作用,也就是说,在确定任一预警风扇满足风扇冗余状态值指示的冗余状态为冗余失效状态之后,还需再满足其他条件中至少一项条件时可确定任一预警风扇存在故障状态。
为便于理解,针对上述的任一预警风扇处于故障状态时可能满足的各个条件分别举例如下:
例1,预警风扇的风扇异常数据包括风扇转速值为20PRM(每分钟的旋转次数),第一风扇转速阈值为100PRM,那么,针对该预警风扇的检测结果为预警风扇处于故障状态。
例2,预警风扇的风扇异常数据包括风扇转速比值为0.5,第一风扇转速比阈值为1,那么,针对该预警风扇的检测结果为预警风扇处于故障状态。
例3,预警风扇的风扇异常数据包括风扇状态值为出错(Fault),故障状态值为Fault,那么,针对该预警风扇的检测结果为预警风扇处于故障状态。
例4,预警风扇的风扇异常数据包括风扇冗余状态值为0,该风扇冗余状态值指示的冗余状态为冗余失效状态,那么,针对该预警风扇的检测结果为预警风扇处于故障状态。
在一个实施例中,上述的第一风扇转速阈值、第一风扇转速比阈值、故障状态值可以是根据预警风扇的风扇型号设置的;在此情况下,不同风扇型号所对应的第一风扇转速阈值等信息可互不相同。另一个可选的实施例中,上述的第一风扇转速阈值、第一风扇转速比阈值、故障状态值、冗余失效状态也可以是根据经验值或者业务需求设置的;在此情况下,针对各个预警风扇设置的第一风扇转速阈值、第一风扇转速比阈值、故障状态值可以相同或不同,对此不作限制。
S203、根据检测结果确定每个预警设备中的告警风扇,并根据每个预警设备中的告警风扇的风扇属性,从M个预警设备中选取满足设备告警策略的目标告警设备集。
在一个实施例中,任一预警风扇的检测结果为预警风扇处于故障状态时,可以确定该预警风扇为告警风扇。对每个预警设备中的各个预警风扇分别执行步骤S202,可以得到每个预警设备中各个预警风扇对应的检测结果,从而可以确定每个预警设备中的所有告警风扇。例如,预警设备1存在的预警风扇包括:预警风扇1、预警风扇2、预警风扇3,其中,对预警风扇1、预警风扇3进行故障检测得到的检测结果均为处于故障状态,那么可以确定预警设备1中的告警风扇包括:预警风扇1和预警风扇3。
在一个实施例中,一个预警设备对应一个设备告警策略,且任一预警设备对应的设备告警策略是根据任一预警设备的设备型号确定的。任一预警设备中的告警风扇的风扇属性包括以下至少一种:任一预警设备中的告警风扇的数量,及任一预警设备中的各个告警风扇的风扇型号。任一预警设备对应的设备告警策略包括以下至少一种:任一预警设备中的告警风扇的数量小于或等于第一数量阈值,以及任一预警设备所对应的风扇型号中存在目标风扇型号。
可选的,当任一预警设备中的告警风扇的风扇属性包括任一预警设备中的告警风扇的数量时,所述任一预警设备对应预警策略包括:任一预警设备中的告警风扇的数量小于或等于第一数量阈值。
例如,预警设备是外部尺寸为2U(Unit,单位)的服务器(1U服务器的厚度为4.445cm,2U服务器的厚度为1U服务器厚度的两倍,具体为8.89cm),该2U的服务器可以支持冗余度为n+1的风扇,也就是说,该预警设备配置了n个风扇,且允许在n个风扇中存在1个告警风扇。该预警设备在存在1个告警风扇时可以正常上报,例如提供运行数据;当该预警设备中存在2个及以上的告警风扇时会自动关机而不能再上报,计算机设备也无法继续获得该预警设备的运行数据,因此,针对该预警设备,同一时间存在2个及以上的告警风扇是不合理的。那么,针对该预警设备,第一数量阈值可设置为1,相应的,该预警设备对应的设备告警策略包括:预警设备中的告警风扇的数量小于或等于1。
可选的,当任一预警设备中的告警风扇的风扇属性包括所述任一预警设备中的各个告警风扇的风扇型号时,所述任一预警设备对应的设备告警策略包括任一预警设备所对应的风扇型号中存在目标风扇型号。具有目标风扇型号的风扇对预警设备的正常运行起着较大作用,若具有目标风扇型号的风扇为告警风扇可能会对预警设备的正常运行产生较大影响,因此,设备告警策略包括任一预警设备所对应的风扇型号中存在目标风扇型号,有利于及时判断该预警设备是否为目标告警设备,从而有利于对具有目标风扇型号的告警风扇进行及时处理。
在一个实施例中,每个预警设备的设备数据均是从故障缓冲池中获取到的。针对步骤S202中检测结果为非故障状态的预警风扇的风扇异常数据,以及步骤S203中不满足设备告警策略的预警设备的设备数据,计算机设备可将其重写至故障缓冲池中,并通知技术人员进行核查处理。利用故障缓冲池可以实现在任一目标告警设备存在多个告警风扇,或者任一目标机房存在多个目标告警设备的情况下进行快速识别和接入处理。
在一个实施例中,当检测到用户发送的故障缓冲池查看操作指令时,可输出如图3a所示的故障缓冲池的界面示意图给用户浏览。图3a中,该故障缓冲池中包括存储的多个风扇数据中每一条风扇数据对应的数据定义项、提供该风扇数据的预警风扇的最新预警时间、版本号、配置该预警风扇的预警设备的设备类型等信息;另外,用户也可以通过在虚线框选部分输入关键字查找对应的风扇数据,例如用户可输入待查找风扇数据的数据定义项、或者提供带查找风扇数据的预警风扇的最新预警时间等关键词进行查询。
在一个实施例中,用户可以通过图3b所示的风扇故障告警策略配置表的配置界面配置风扇故障告警策略,例如预警风扇处于故障状态的条件,以及设备告警策略。具体的,该风扇故障告警策略配置表包括各个预警设备对应的:设备型号、设备类型、目标机房、运维部门、业务模块、风扇状态是否为Fault、风扇冗余状态是否为冗余失效、风扇转速值是否小于第一风扇转速阈值、是否按整机告警、告警故障类型、是否自动发起告警、单台设备的最少告警风扇个数、单台设备的最大告警风扇个数等信息。以设备型号为W7的设备为例,用户配置得到的风扇故障告警策略包括:风扇冗余状态是冗余失效,风扇转速值小于第一风扇转速阈值、按整机告警、告警故障类型为风扇故障(有冗余)、自动发起告警、单台设备的最少告警风扇个数为1、单台设备的最大告警风扇个数为2。
在一个实施例中,在步骤S203之后,计算机设备还可获取目标告警设备集的告警指示信息;若告警指示信息满足告警收敛策略,则执行步骤S204;若告警指示信息不满足告警收敛策略,则将目标告警设备的设备数据重写至所述故障缓冲池中,并通知技术人员根据目标告警设备的设备数据对目标告警设备进行故障跟进处理。
其中,告警指示信息包括以下至少一种:目标告警设备集中的目标告警设备的设备数量、对目标告警设备集中各个目标告警设备中的告警风扇的数量进行求和所得到的第一风扇数量,以及目标告警设备集中的全部目标告警设备所配置的同一类型下的告警风扇的第二风扇数量;告警收敛策略包括以下至少一种:设备数量小于或等于第二数量阈值、第一风扇数量小于或等于第三数量阈值,以及第二风扇数量小于或等于第四数量阈值。由于在目标机房中,同一时间出现大批量的目标告警设备或告警风扇可能会造成备件库击穿,所谓的备件库击穿是指目标机房对应的库房中存放的风扇备件的数量小于第一风扇数量,或者存放的同一类型下的风扇备件的数量小于第二风扇数量等等。备件库击穿可能会导致部分紧急待修复的目标告警设备的告警风扇没有风扇备件使用,不能得到及时的处理,通过判断目标告警设备集的告警指示信息是否满足告警收敛策略,有利于解决上述备件库击穿的问题。
在一个实施例中,在步骤S202-S203中提及的检测结果、每个预警设备中的告警风扇的风扇属性、或者设备告警策略均可以上传至区块链网络中,区块链网络中任一节点可以在对其进行校验通过后进行存储,生成区块头和区块主体,得到新生成的区块;在新生成的区块在由其他节点达成共识后添加至存储的区块链中,防止检测结果、每个预警设备中的告警风扇的风扇属性、或者设备告警策略被篡改。
S204、对目标告警设备集中的各个目标告警设备进行告警处理。
在一个实施例中,步骤S204的具体实施方式可以包括:向目标告警设备集中的第i个目标告警设备发送停机申请,该停机申请用于指示:在第i个目标告警设备将对应的目标业务迁移至临时设备后,执行停机操作;其中,i为正整数,且i的取值小于或等于目标告警设备集中的目标告警设备的数量。若接收到第i个目标告警设备返回的停机完成通知,则根据第i个目标告警设备中的各个告警风扇对应的风扇备件,出库各个告警风扇对应的风扇备件,并通知维修用户采用风扇备件对第i个目标告警设备中的各个告警风扇进行风扇替换处理。其中,各个告警风扇的风扇型号与对应的风扇备件的风扇型号可相同。对替换风扇后的第i个目标告警设备进行故障验收处理,并在验收通过后,将目标业务从临时设备迁移至第i个目标告警设备。其中,故障验收处理可包括以下至少一种:检查第i个目标告警设备的带内外连通性、判断第i个目标告警设备中各个告警风扇的风扇数据是否恢复正常。通过所谓的停机申请可以有效防止:由于对目标告警设备的告警风扇进行替换而直接对目标告警设备断电处理所导致的数据丢失。
另外,维修用户采用风扇备件对第i个目标告警设备中的各个告警风扇进行风扇替换处理之后,还可将替换的告警风扇进行入库处理。
在一个实施例中,步骤S204的具体实施方式还可以包括:对目标告警设备集中的各个目标告警设备创建故障工单,所述故障工单包括:所述目标告警设备集中的各个目标告警设备的信息,以及所述各个目标告警设备中各个告警风扇的信息。针对目标告警设备集中的每个目标告警设备可分别创建故障工单处理信息流,用于显示目标告警设备的已处理流程。在对目标告警设备的处理流程中的每一步处理执行完成后,更新该目标告警设备对应的故障工单处理信息流。
当检测到用户发送的故障工单查看操作指令时,可输出如图4a所示的故障工单的界面示意图给用户浏览。该故障工单的界面示意图中包括:单号、设备序列号、故障类型、故障来源、设备型号、建单时间、故障描述。其中,在目标告警设备为服务器时,设备序列号可以是服务器序列号(SN),建单时间为对该目标告警设备创建故障工单的时间,故障描述包括该目标告警设备的告警风扇。以图4a中单号1为例,设备序列号为X1,故障类型为风扇故障,故障来源为xx告警,设备型号为Y1,建单时间为故障描述为fan_1风扇故障,也就是说在设备序列号为X1的目标告警设备中风扇fan_1为告警风扇。
当检测到用户针对故障工单中任一目标告警设备发送的故障工单处理信息流查看操作指令时,可输出任一目标告警设备的故障工单处理信息流给用户浏览。以检测到用户针对图4a中单号1对应的目标告警设备发送的故障工单处理信息流查看操作指令为例,可输出图4b所示的故障工单处理信息流的界面示意图给用户浏览,该故障工单处理信息流的界面示意图中包括:任务身份标识号(Identity document,ID)(简称任务ID)、任务描述、任务名称、开始时间、完成时间、超时时间、耗时、处理人、状态、实际处理人、处理说明。在图4b中,以任务ID为01为例,对应的任务描述为资产出库流程,也就是说,计算机设备已完成出库X1的目标告警设备中告警风扇fan_1对应的风扇备件。在检测到维修用户已完成采用风扇备件对告警风扇fan_1进行替换之后,对图4b所示的故障工单处理信息流进行更新,更新后的界面示意图如图4c所示。图4c与图4b的不同之处在于,增加了任务ID为02的对应栏,在任务ID为02对应的任务描述为设备故障修复。同理,当检测到替换的告警风扇入库完成之后,对图4c所示的故障工单处理信息流进行更新如图4d所示;当对替换风扇后的目标告警设备进行故障验收处理完成之后,对图4d所示的故障工单处理信息流进行更新如图4e所示。
基于上述实施例,下面结合图5所示的流程图,以一个目标告警设备为例,对该目标告警设备的告警处理的具体方式作进一步阐述:对目标告警设备创建故障工单,该目标告警设备满足建单策略;向目标告警设备发送停机申请;在接收到目标告警设备返回的停机完成通知时,根据目标告警设备中的各个告警风扇对应的风扇备件,出库各个告警风扇对应的风扇备件;通知维修用户采用风扇备件对标告警设备中的各个告警风扇进行风扇替换处理;在检测到维修用户将替换的各个告警风扇进行入库处理之后,对替换风扇后的目标告警设备进行故障验收处理;在检测到替换风扇后的目标告警设备验收通过时,将目标业务从临时设备迁移至目标告警设备。
综上所述,本发明实施例在检测到目标机房中存在异常的风扇时,可将这些存在异常的风扇视为预警风扇,并将这些预警风扇所对应的设备视为预警设备,以实现对这些预警风扇所对应的设备进行预警处理。其次,可根据每个预警设备配置的各个预警风扇的风扇异常数据,进一步地对每个预警设备配置的各个预警风扇进行故障检测,以较为准确地检测出每个预警设备中真正存在故障(异常)的告警风扇,有效提升故障风扇的准确性。然后,可根据每个预警设备中的告警风扇的风扇属性,从目标机房的所有预警设备中选取满足设备告警策略的目标告警设备,并对各个目标告警设备进行告警处理。可见,本发明实施例通过提升故障风扇的检测准确性,可有效提升告警设备的检测准确性,从而提升设备告警的准确性;并且,通过先设备预警再设备告警的方式,可避免在检测到风扇异常便直接告警所带来的误告警现象,可进一步提升设备告警的准确性;另外,与技术人员主动查看并分析风扇数据而确定告警风扇的方式相比,无需进行运维带外接入、日志获取、查看和分析等流程,并且,本方法实施例的整个过程无需技术人员的参与,还可有效节省人力成本,提高故障发现和处理的效率。
请参见图6,图6是本发明实施例提供的另一种设备告警方法的流程示意图。在图2a所示的设备告警方法的一个实施例中,每个预警设备的设备数据均可以是从故障缓冲池中获取到的,因此,图6所示的设备告警方法中还进一步阐述了如何将每个预警设备的设备数据写入故障缓冲池。该设备告警方法包括如下步骤:
S601、按照数据采集周期采集目标机房中任一设备的各个风扇的风扇数据。
其中,每个风扇配置有一个具有初始值的异常指示信息。
在一个实施例中,任一设备的风扇数据是对任一设备的运行数据进行解析得到的,步骤S601可以包括:按照数据采集周期采集目标机房中任一设备的第n条运行数据,该第n条运行数据包括多个参数字段,其中,n为正整数;获取风扇解析策略,该风扇解析策略包括一个或多个标准字段,以及每个标准字段对应的关联字段;该标准字段包括:风扇转速、风扇转速比、风扇状态,或者风扇冗余状态。
当检测到用户发送的风扇解析策略查看操作指令时,可输出如图7a所示的风扇解析策略的界面示意图给用户浏览。该风扇解析策略中包括多条策略,每条策略中包括任一设备对应的:ID、层级、厂商、采集项、定义、采集项ID、参数、取值、取值类型、有效值长度、有效值起始位置、有效值终止位置、取值位置、单位等信息。其中,针对风扇解析策略中的任一条策略,采集项ID指示该条策略包括的标准字段,参数包括标准字段对应的一个或多个关联字段。以ID为85的策略为例,该策略包括的标准字段为风扇转速对应的字段:fan_speed(风扇转速),该策略的标准字段对应的多个关联字段为:FAN*F Speed、FAN*R Speed、FAN*Speed、FAN_Speed。其中,*表示数字,其数值不做限定,用于进行模糊匹配,例如,FAN1FSpeed、FAN2F Speed、FAN3F Speed均与FAN*F Speed匹配。
另外,采集周期可以根据经验值或实际需求确定。例如采集周期为5至10分钟,那么平均每天可以对目标机房中任一设备的运行数据进行超过140(140+)次的采集。
在一个实施例中,在获取风扇解析策略之后,步骤S601的具体实施方式可以包括:将第n条运行数据的各个参数字段,与风扇解析策略中的各个关联字段匹配;若第n条运行数据中存在一个参考字段与目标关联字段相匹配,则确定第n条运行数据对应的目标风扇;并将第n条运行数据与目标关联字段相匹配的参数字段,映射为目标关联字段对应的标准字段,得到目标风扇的风扇数据。其中,若第n条运行数据中存在一个参考字段与目标关联字段相匹配,则可以确定第n条运行数据为风扇数据。
以风扇告警策略为图7a中ID为85的策略为例,本发明实施例提供了一种以参考字段与标准字段的映射示意图如图7b所示。从图7b可以看出,若第n条数据中存在一个参考字段与FAN*F Speed、FAN*R Speed、FAN*Speed、FAN_Speed中的任一个关联字段相匹配,则将该参考字段映射为fan_speed。
例如,第n条运行数据中存在一个参数字段为FAN1F Speed,根据风扇解析策略中ID为85的策略可以看出,FAN1F Speed与目标关联字段FAN*F Speed相匹配;由于FAN*FSpeed对应的标准字段为fan_speed,因此,将第n条运行数据中的FAN1F Speed映射为fan_speed。
在上述实施例中,通过将目标机房中所有设备的运行数据中每一条运行数据的各个参数字段,与风扇解析策略中的各个关联字段匹配,可以从目标机房中所有设备的运行数据中确定所有风扇数据;通过分别将所有风扇数据中每一条风扇数据中与目标关联字段相匹配的参数字段,映射为目标关联字段对应的标准字段,可以将所有风扇数据进行数据规整,其中,任一风扇数据可以被规整为以下一类:风扇转速、风扇转速比、风扇状态、风扇冗余状态。上述方式有利于极大减少数据处理的复杂度,还有利于解决不同厂商生产的设备的运行数据的参数字段不一致的问题。
例如,提供运行数据1的设备1的厂商为L1,结合图7a中ID为86的策略,运行数据1存在一个参数字段为FAN_1,与参数所指示的关联字段FAN_*相匹配,因此,将运行数据1的参数字段FAN_1映射为FAN_*对应的标准字段fan_speed。提供运行数据2的设备2的厂商为L2,图7a中ID为87的策略,运行数据2存在一个参数字段为FAN2 Speed,与参数所指示的关联字段FAN*Speed相匹配,因此,将运行数据2的参数字段FAN2 Speed映射为FAN*Speed对应的标准字段fan_speed。生产设备1和设备2的厂商不同,运行数据1和运行数据2均各自存在一个参考字段满足风扇解析策略,且两个参考字段不相同,但不同的参考字段所映射标准字段相同。也就是说,运行数据1和运行数据2均被规整为风扇转速一类。
基于上述实施例,结合图7c对规整目标机房的任意设备的运行数据进行阐述:通过将目标机房中任一设备的各条运行数据的各个参数字段,与风扇解析策略中的各个关联字段匹配,可以从所述任一设备的运行数据中确定风扇数据,也就是说,可以从所述任一设备中提供全量运行数据的多台(220+台)传感器中确定,提供风扇数据的多台(20+台)传感器。再通过将所有风扇数据中每一条风扇数据中与目标关联字段相匹配的参数字段,映射为目标关联字段对应的标准字段,可以将风扇数据规整为四类数据,也就是说,可以将提供风扇数据的多台(20+台)传感器规整为四类传感器。有利于极大减少数据处理的复杂度,还有利于解决不同厂商生产的设备的运行数据的参数字段不一致的问题。
在一个实施例中,可以通过风扇物理槽位映射策略确定任一风扇数据对应的目标风扇。若第n条运行数据中存在一个参考字段与目标关联字段相匹配,可以说明所述第n条运行数据为风扇数据,则确定第n条运行数据对应的目标风扇,可以包括:获取风扇物理槽位映射策略;根据风扇物理槽位映射策略确定第n条运行数据对应的目标风扇;其中,风扇物理槽位映射策略包括一条或多条风扇数据中每条风扇数据对应的目标风扇。通过上述方法,有利于避免在属于同一个风扇的多个风扇数据同时存在异常时,对该风扇的异常指示信息的当前值重复进行加一处理。
例如,部分设备上配置的电源是双转子的,包括前转子和后转子,那么该设备配置的风扇为双转子风扇,双转子风扇具有两个指示风扇转速的风扇数据。当检测到用户发送的风扇数据查看操作指令时,可输出如图8a所示的风扇数据的界面示意图给用户浏览,该图中展示了多个双转子风扇中每一个双转子风扇具有的两个风扇数据。其中,虚线框选部分为任一风扇数据的数据定义项,是任一风扇数据中的一个参数字段,用于定义任一风扇数据。
例如,风扇FAN2具有风扇数据1和风扇数据2,其中,风扇数据1为风扇FAN2的后转子的风扇数据,其数据定义项为SYS_FAN2_R,风扇转速为0RPM(Revolutions Per Minute,每分钟旋转的次数);风扇数据2为风扇FAN2的前转子的风扇数据,其数据定义项为SYS_FAN2_F,风扇转速为18620RPM。
可选的,用户可以通过向任一设备下发IPMI(Intelligent Platform ManagementInterface,智能平台管理接口)命令获取任一设备配置的各个风扇的风扇转速。从图8a可以看出,数据定义项为FAN1_R_Speed的风扇数据对应的风扇转速为0RPM,说明提供该风扇数据的风扇可能存在异常。
当检测到用户发送的风扇物理槽位映射策略查看操作指令时,可输出如图8b所示的风扇物理槽位映射策略的界面示意图给用户浏览。该界面示意图包括各个风扇数据的数据定义项、各个风扇数据的数据定义项对应的风扇物理槽位等。结合图8b,可以确定图8a中的各个风扇数据对应的目标风扇。例如数据定义项为SYS_FAN2_R的风扇数据和数据定义项为SYS_FAN2_F的风扇数据分别对应的目标风扇均为fan2。用户还可用通过查询数据定义项的关键字查找风扇数据及对应的风扇物理槽位(目标风扇)。
S602、遍历任一设备中的各个风扇,并对当前遍历的当前风扇的风扇数据进行异常检测。若当前风扇的风扇数据不存在异常,则执行步骤S603;若当前风扇的风扇数据存在异常,则执行步骤S604至步骤S610。
在一个实施例中,当前风扇的风扇数据包括以下至少一种:风扇转速值、风扇转速比值、风扇状态值,以及风扇冗余状态值。在当前风扇的风扇数据存在异常时,当前风扇满足风扇异常策略;其中,风扇异常策略包括以下至少一种:当前风扇的风扇转速值小于第二风扇转速阈值、当前风扇的风扇转速比值小于第二风扇转速比阈值、当前风扇的风扇状态值等于故障状态值,以及当前风扇的风扇冗余状态值指示的冗余状态为冗余失效状态。其相关阐述可参见图2a所示的方法中的相关阐述。
其中,当前风扇的风扇状态值等于故障状态值时,还可将前风扇的风扇状态值映射为故障状态值对应的标准状态值。有利于简单化步骤S608中,对每个预警设备配置的各个预警风扇进行的故障检测中的风扇状态值检测。结合图9,图9是本发明实施例提供的一种故障状态值的映射示意图。可以看出,故障状态值包括以下一种或多种:转为失效(Transition to degraded)、不在位(Device Absent)、出错(Fault)、失效(Degraded),该故障状态值对应的标准状态值为Fault。在当前风扇的风扇状态值与故障状态值中的任一值相等时,可以确定当前风扇的风扇状态值存在异常,并将当前风扇的风扇状态值映射为Fault。
在一个实施例中,上述的第二风扇转速阈值、第二风扇转速比阈值、故障状态值可以是根据预警风扇的风扇型号设置的。另一个可选的实施例中,上述第二风扇转速阈值、第二风扇转速比阈值、故障状态值、冗余失效状态也可以是根据经验值或者业务需求设置的,此时,针对预警设备的各个预警风扇设置的第一风扇转速阈值、第一风扇转速比阈值、故障状态值可以相同也可以不相同。
在一个实施例中,用户可以通过登录BMC(软件公司的名称)的Web(网页)查看任一风扇数据的风扇状态,结合图10所示的风扇数据的界面示意图,可以看出数据定义项为FAN1_R_Speed的风扇数据对应的风扇状态为故障状态,说明提供该风扇数据存在异常,可能需要对提供该风扇数据的风扇进行拔插或替换处理。
基于上述步骤S601-S602的相关描述,下面结合图11所示的流程图,以一个运行数据为例,对检测该运行数据是否存在异常的具体方式作进一步阐述:采集运行数据;判断该运行数据是否满足风扇解析策略,若运行数据不满足风扇解析策略,则将运行数据进行后台记录;若运行数据满足风扇解析策略,则确定该运行数据为风扇数据;再通过风扇物理槽位策略确定运行数据对应的风扇;判断运行数据是否满足风扇异常策略,若不满足,则将该运行数据进行后台记录;若满足,则确定该运行数据存在异常。在对产生该运行数据的设备连续20次采集到风扇数据均存在异常时,可以确定该运行数据对应的风扇为预警风扇。
S603、对当前风扇的异常指示信息的当前值设置为初始值。
S604、对当前风扇的异常指示信息的当前值进行加一处理。
S605、判断加一处理后的值是否等于异常阈值。若加一处理后的值小于异常阈值,则继续执行步骤S605;若加一处理后的值等于异常阈值,则执行步骤S606。
S606、将当前风扇确定为预警风扇,并将当前风扇的风扇数据作为风扇异常数据添加至故障缓冲池中。并且,在故障缓冲池中建立当前风扇的风扇数据与存在当前风扇的设备的对应关系,具体的,包括:将存在当前风扇的设备确定为预警设备,将当前风扇的风扇数据作为风扇异常数据添加至预警设备的设备数据中。
在一个实施例中,针对步骤S601中不满足风扇解析策略的运行数据、步骤S602中不存在异常的风扇数据均可以进行后台记录,用于工作人员进行针对处理。
基于上述步骤S601至步骤S606,进行举例如下:
以风扇1的异常指示信息的初始值为0、异常阈值为20为例。对第一次采集到的风扇1的风扇数据进行异常检测;检测结果为风扇1的风扇数据存在异常,则对风扇1的异常指示信息的当前值0进行加一处理,得到加一处理后的值为1,小于异常阈值;继续对采集到的风扇1的风扇数据进行异常检测,检测到风扇1的风扇数据连续19次存在异常,此时,风扇1的异常指示信息的当前值为19。对第20采集的风扇1的风扇数据进行异常检测,若第20次采集的风扇1的风扇数据存在异常,则将风扇1的异常指示信息的当前值19进行加一处理,得到加一处理后的值为20,等于异常阈值,那么,可以将风扇1确定为预警风扇,并将风扇1的风扇数据作为风扇异常数据添加至故障缓冲池中。若第20次采集的风扇1的风扇数据不存在异常,则对风扇1的异常指示信息的当前值19设置为初始值0。
由于安装风扇的设备具有冗余风扇,对预警风扇的处理失效要求不高,通过上述方法中将风扇数据进行多次异常判断的逻辑可以筛选出瞬时失效的设备,即在一段时间内失效且随后恢复正常的设备,对这类瞬时失效的设备,并不能确定为预警设备,通过上述方法可以实现告警防抖,从而减少误报。
在一个实施例中,在步骤S601-S606中提及的风扇解析策略、风扇物理槽位策略、当前风扇的风扇指示信息的初始值和当前值、任一预警设备的设备数据均可以由计算机设备上传至区块链网络中,有效防止被篡改。其中,当计算机设备将任一设备的运行数据上传至区块链网络,相应的,计算机设备在获取任一预警设备的设备数据时可以从区块链网络中获取。
S607、从故障缓冲池中获取目标机房中的M个预警设备的设备数据。
S608、根据每个预警设备配置的各个预警风扇的风扇异常数据,对每个预警设备配置的各个预警风扇进行故障检测,得到检测结果。
S609、根据检测结果确定所述每个预警设备中的告警风扇,并根据每个预警设备中的告警风扇的风扇属性,从M个预警设备中选取满足设备告警策略的目标告警设备集。
S610、对目标告警设备集中的各个目标告警设备进行告警处理。
其中,步骤S607至步骤S608的相关阐述,可参见上述图2a所示的设备告警方法中的相关内容,此处不再详述。
基于上述步骤S601-S610的相关描述,下面结合图12所示的流程图,以异常阈值为20、告警指示信息包括目标告警设备集中的目标告警设备的设备数量、告警收敛策略包括设备数量小于或等于5台为例,对判断是否创建故障工单的具体方式作进一步阐述:按照数据周期采集目标机房中各个设备的风扇数据;针对目标机房中的任一设备,判断任一设备的风扇数据是否连续20次存在异常;若存在,则将任一设备的风扇数据作为风扇异常数据写入故障缓冲池中,并确定任一设备为预警设备;从故障缓冲池中获取目标机房中各个预警设备的风扇异常数据,判断任一设备是否满足自动告警策略,包括:判断任一预警设备存在的预警风扇是否处于故障状态,以及任一预警设备是否满足设备告警策略;若不满足,则将任一设备的风扇数据重写入故障缓冲池中,若满足,则确定该设备为目标告警设备,从而确定出目标告警设备集;继续判断目标告警设备集中的目标告警设备的数量是否小于或等于5台;若是,则对目标告警设备集中的各个目标告警设备创建故障工单;若不是,则将任一设备的风扇数据重写入故障缓冲池中。
综上所述,该设备告警方法中按照数据采集周期采集目标机房中任一设备的各个风扇的风扇数据,遍历任一设备中的各个风扇,并对当前遍历的当前风扇的风扇数据进行异常检测,根据检测结果对当前风扇的异常指示信息的当前值进行处理,并将当前风扇的异常指示信息的当前值与异常阈值进行比较,若当前风扇的异常指示信息的当前值等于异常阈值,则可将当前风扇确定为预警风扇。通过该方法有利于实现告警防抖,减少误报。并且,按照数据采集周期采集目标机房中任一设备的各个风扇的风扇数据,可以主动且实时监控风扇的异常情况。上述方法中,结合防抖和收敛策略对风扇数据主动进行异常检测,减少了分析的人力投入,有利于提高运维效率。
基于上述的设备告警方法实施例,本发明实施例提供了一种设备告警装置,参见图13,图13是本发明实施例提供的一种设备告警装置的结构示意图。图13所述的设备告警装置可运行如下单元:
获取单元1301,用于获取目标机房中的M个预警设备的设备数据,任一预警设备的设备数据包括:所述任一预警设备所配置的各个预警风扇的风扇异常数据,M为正整数;
处理单元1302,用于根据每个预警设备配置的各个预警风扇的风扇异常数据,对所述每个预警设备配置的各个预警风扇进行故障检测,得到检测结果;
所述处理单元1302,还用于根据所述检测结果确定所述每个预警设备中的告警风扇,并根据所述每个预警设备中的告警风扇的风扇属性,从所述M个预警设备中选取满足设备告警策略的目标告警设备集;
所述处理单元1302,还用于对所述目标告警设备集中的各个目标告警设备进行告警处理。
在一个实施例中,任一预警风扇的风扇异常数据包括以下至少一种:风扇转速值、风扇转速比值、风扇状态值,以及风扇冗余状态值;
所述任一预警风扇的检测结果用于指示所述任一预警风扇是否处于故障状态,当所述任一预警风扇处于所述故障状态时,所述任一预警风扇满足如下至少一项条件:
所述任一预警风扇的风扇转速值小于第一风扇转速阈值、所述任一预警风扇的风扇转速比值小于所述第一风扇转速比阈值、所述任一预警风扇的风扇状态值等于故障状态值,以及所述任一预警风扇的风扇冗余状态值指示的冗余状态为冗余失效状态。
在一个实施例中,一个预警设备对应一个设备告警策略,且所述任一预警设备对应的设备告警策略是根据所述任一预警设备的设备型号确定的;
所述任一预警设备中的告警风扇的风扇属性包括以下至少一种:所述任一预警设备中的告警风扇的数量,及所述任一预警设备中的各个告警风扇的风扇型号;
所述任一预警设备对应的设备告警策略包括以下至少一种:所述任一预警设备中的告警风扇的数量小于或等于第一数量阈值,以及所述任一预警设备所对应的风扇型号中存在目标风扇型号。
在一个实施例中,所述每个预警设备的设备数据均是从故障缓冲池中获取到的;所述获取单元1301,还用于执行如下步骤:
获取所述目标告警设备集的告警指示信息;
若所述告警指示信息满足告警收敛策略,则执行对所述目标告警设备集中的各个目标告警设备进行告警处理;
若所述告警指示信息不满足所述告警收敛策略,则将所述目标告警设备的设备数据重写至所述故障缓冲池中,并通知技术人员根据所述目标告警设备的设备数据对所述目标告警设备进行故障跟进处理。
在一个实施例中,所述告警指示信息包括以下至少一种:所述目标告警设备集中的目标告警设备的设备数量、对所述目标告警设备集中各个目标告警设备中的告警风扇的数量进行求和所得到的第一风扇数量,以及所述目标告警设备集中的全部目标告警设备所配置的同一类型下的告警风扇的第二风扇数量;
所述告警收敛策略包括以下至少一种:所述设备数量小于或等于第二数量阈值、所述第一风扇数量小于或等于第三数量阈值,以及所述第二风扇数量小于或等于第四数量阈值。
在一个实施例中,所述处理单元1302在对所述目标告警设备集中的各个目标告警设备进行告警处理时,执行如下步骤:
向所述目标告警设备集中的第i个目标告警设备发送停机申请,所述停机申请用于指示:在所述第i个目标告警设备将对应的目标业务迁移至临时设备后,执行停机操作;i为正整数,且i的取值小于或等于所述目标告警设备集中的目标告警设备的数量;
若接收到所述第i个目标告警设备返回的停机完成通知,则根据所述第i个目标告警设备中的各个告警风扇对应的风扇备件,出库所述各个告警风扇对应的风扇备件,并通知维修用户采用所述风扇备件对所述第i个目标告警设备中的各个告警风扇进行风扇替换处理;
对替换风扇后的第i个目标告警设备进行故障验收处理,并在验收通过后,将所述目标业务从所述临时设备迁移至所述第i个目标告警设备。
在一个实施例中,所述每个预警设备的设备数据均是从故障缓冲池中获取到的;所述处理单元1302,还用于执行如下步骤:
按照数据采集周期采集所述目标机房中任一设备的各个风扇的风扇数据,每个风扇配置有一个具有初始值的异常指示信息;
遍历所述任一设备中的各个风扇,并对当前遍历的当前风扇的风扇数据进行异常检测;
若所述当前风扇的风扇数据不存在异常,则对所述当前风扇的异常指示信息的当前值设置为所述初始值;
若所述当前风扇的风扇数据存在异常,则对所述当前风扇的异常指示信息的当前值进行加一处理;当加一处理后的值等于异常阈值时,将所述当前风扇确定为预警风扇,并所述当前风扇的风扇数据作为风扇异常数据添加至所述故障缓冲池中。
在一个实施例中,所述任一设备的风扇数据是对所述任一设备的运行数据进行解析得到的,所述处理单元1302在按照数据采集周期采集所述目标机房中任一设备的各个风扇的风扇数据时,执行如下步骤:
按照数据采集周期采集所述目标机房中任一设备的第n条运行数据,所述第n条运行数据包括多个参数字段,n为正整数;
获取风扇解析策略,所述风扇解析策略包括一个或多个标准字段,以及每个标准字段对应的关联字段;所述标准字段包括:风扇转速、风扇转速比、风扇状态,或者风扇冗余状态;
将所述第n条运行数据的各个参数字段,与所述风扇解析策略中的各个关联字段匹配;
若所述第n条运行数据中存在一个参考字段与目标关联字段相匹配,则确定所述第n条运行数据对应的目标风扇;并将所述第n条运行数据与所述目标关联字段相匹配的参数字段,映射为所述目标关联字段对应的标准字段,得到所述目标风扇的风扇数据。
根据本发明的一个实施例,图2a和图6所示的设备告警方法所涉及各个步骤可以是由图13所示的设备告警装置中的各个单元来执行的。例如,图2a所述的步骤S201、图6所述的步骤S607可由图13所示的设备告警装置中的获取单元S1301来执行,图2a所示的步骤S202至S204,以及图6所示的步骤S601至S606、S608至S610可由图13所示的设备告警装置中的处理单元1302来执行
根据本发明的另一个实施例,图13所示的设备告警装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,基于数据处理装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本发明的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2a或图6所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图13中所示的设备告警装置,以及来实现本发明实施例设备告警方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本发明实施例在检测到目标机房中存在异常的风扇时,可将这些存在异常的风扇视为预警风扇,并将这些预警风扇所对应的设备视为预警设备,以实现对这些预警风扇所对应的设备进行预警处理。其次,可根据每个预警设备配置的各个预警风扇的风扇异常数据,进一步地对每个预警设备配置的各个预警风扇进行故障检测,以较为准确地检测出每个预警设备中真正存在故障(异常)的告警风扇,有效提升故障风扇的准确性。然后,可根据每个预警设备中的告警风扇的风扇属性,从目标机房的所有预警设备中选取满足设备告警策略的目标告警设备,并对各个目标告警设备进行告警处理。可见,本发明实施例通过提升故障风扇的检测准确性,可有效提升告警设备的检测准确性,从而提升设备告警的准确性;并且,通过先设备预警再设备告警的方式,可避免在检测到风扇异常便直接告警所带来的误告警现象,可进一步提升设备告警的准确性;另外,整个过程无需技术人员的参与,还可有效节省人力成本。
基于上述的设备告警方法以及设备告警装置的实施例,本发明实施例提供了一种计算机设备。参见图14,图14是本发明实施例提供的一种计算机设备的结构示意图。图14所示的计算机设备至少可包括处理器1401、输入接口1402、输出接口1403以及计算机存储介质1404。其中,处理器1401、输入接口1402、输出接口1403以及计算机存储介质1404可通过总线或其他方式连接。
计算机存储介质1404可以存储在计算机设备的存储器1405中,所述计算机存储介质1401用于存储计算机程序,所述计算机程序包括程序指令,所述处理器1401用于执行所述计算机存储介质1404存储的程序指令。处理器1401(或称CPU(Central ProcessingUnit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行:
获取目标机房中的M个预警设备的设备数据,任一预警设备的设备数据包括:所述任一预警设备所配置的各个预警风扇的风扇异常数据,M为正整数;
根据每个预警设备配置的各个预警风扇的风扇异常数据,对所述每个预警设备配置的各个预警风扇进行故障检测,得到检测结果;
根据所述检测结果确定所述每个预警设备中的告警风扇,并根据所述每个预警设备中的告警风扇的风扇属性,从所述M个预警设备中选取满足设备告警策略的目标告警设备集;
对所述目标告警设备集中的各个目标告警设备进行告警处理。
本发明实施例在检测到目标机房中存在异常的风扇时,可将这些存在异常的风扇视为预警风扇,并将这些预警风扇所对应的设备视为预警设备,以实现对这些预警风扇所对应的设备进行预警处理。其次,可根据每个预警设备配置的各个预警风扇的风扇异常数据,进一步地对每个预警设备配置的各个预警风扇进行故障检测,以较为准确地检测出每个预警设备中真正存在故障(异常)的告警风扇,有效提升故障风扇的准确性。然后,可根据每个预警设备中的告警风扇的风扇属性,从目标机房的所有预警设备中选取满足设备告警策略的目标告警设备,并对各个目标告警设备进行告警处理。可见,本发明实施例通过提升故障风扇的检测准确性,可有效提升告警设备的检测准确性,从而提升设备告警的准确性;并且,通过先设备预警再设备告警的方式,可避免在检测到风扇异常便直接告警所带来的误告警现象,可进一步提升设备告警的准确性;另外,整个过程无需技术人员的参与,还可有效节省人力成本。
本发明实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放了适于被处理器1401加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,所述计算机存储介质可由处理器1401加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2a或图6所示的设备告警方法的相应步骤。具体实现中,计算机存储介质中的一条或多条指令由处理器1401加载并执行如下步骤:
获取目标机房中的M个预警设备的设备数据,任一预警设备的设备数据包括:所述任一预警设备所配置的各个预警风扇的风扇异常数据,M为正整数;
根据每个预警设备配置的各个预警风扇的风扇异常数据,对所述每个预警设备配置的各个预警风扇进行故障检测,得到检测结果;
根据所述检测结果确定所述每个预警设备中的告警风扇,并根据所述每个预警设备中的告警风扇的风扇属性,从所述M个预警设备中选取满足设备告警策略的目标告警设备集;
对所述目标告警设备集中的各个目标告警设备进行告警处理。
在一个实施例中,任一预警风扇的风扇异常数据包括以下至少一种:风扇转速值、风扇转速比值、风扇状态值,以及风扇冗余状态值;
所述任一预警风扇的检测结果用于指示所述任一预警风扇是否处于故障状态,当所述任一预警风扇处于所述故障状态时,所述任一预警风扇满足如下至少一项条件:
所述任一预警风扇的风扇转速值小于第一风扇转速阈值、所述任一预警风扇的风扇转速比值小于所述第一风扇转速比阈值、所述任一预警风扇的风扇状态值等于故障状态值,以及所述任一预警风扇的风扇冗余状态值指示的冗余状态为冗余失效状态。
在一个实施例中,一个预警设备对应一个设备告警策略,且所述任一预警设备对应的设备告警策略是根据所述任一预警设备的设备型号确定的;
所述任一预警设备中的告警风扇的风扇属性包括以下至少一种:所述任一预警设备中的告警风扇的数量,及所述任一预警设备中的各个告警风扇的风扇型号;
所述任一预警设备对应的设备告警策略包括以下至少一种:所述任一预警设备中的告警风扇的数量小于或等于第一数量阈值,以及所述任一预警设备所对应的风扇型号中存在目标风扇型号。
在一个实施例中,所述每个预警设备的设备数据均是从故障缓冲池中获取到的;所述处理器1401还执行如下步骤:
获取所述目标告警设备集的告警指示信息;
若所述告警指示信息满足告警收敛策略,则执行对所述目标告警设备集中的各个目标告警设备进行告警处理;
若所述告警指示信息不满足所述告警收敛策略,则将所述目标告警设备的设备数据重写至所述故障缓冲池中,并通知技术人员根据所述目标告警设备的设备数据对所述目标告警设备进行故障跟进处理。
在一个实施例中,所述告警指示信息包括以下至少一种:所述目标告警设备集中的目标告警设备的设备数量、对所述目标告警设备集中各个目标告警设备中的告警风扇的数量进行求和所得到的第一风扇数量,以及所述目标告警设备集中的全部目标告警设备所配置的同一类型下的告警风扇的第二风扇数量;
所述告警收敛策略包括以下至少一种:所述设备数量小于或等于第二数量阈值、所述第一风扇数量小于或等于第三数量阈值,以及所述第二风扇数量小于或等于第四数量阈值。
在一个实施例中,所述处理器1401在对所述目标告警设备集中的各个目标告警设备进行告警处理,执行如下步骤:
向所述目标告警设备集中的第i个目标告警设备发送停机申请,所述停机申请用于指示:在所述第i个目标告警设备将对应的目标业务迁移至临时设备后,执行停机操作;i为正整数,且i的取值小于或等于所述目标告警设备集中的目标告警设备的数量;
若接收到所述第i个目标告警设备返回的停机完成通知,则根据所述第i个目标告警设备中的各个告警风扇对应的风扇备件,出库所述各个告警风扇对应的风扇备件,并通知维修用户采用所述风扇备件对所述第i个目标告警设备中的各个告警风扇进行风扇替换处理;
对替换风扇后的第i个目标告警设备进行故障验收处理,并在验收通过后,将所述目标业务从所述临时设备迁移至所述第i个目标告警设备。
在一个实施例中,所述每个预警设备的设备数据均是从故障缓冲池中获取到的;所述处理器1401还执行如下步骤:
按照数据采集周期采集所述目标机房中任一设备的各个风扇的风扇数据,每个风扇配置有一个具有初始值的异常指示信息;
遍历所述任一设备中的各个风扇,并对当前遍历的当前风扇的风扇数据进行异常检测;
若所述当前风扇的风扇数据不存在异常,则对所述当前风扇的异常指示信息的当前值设置为所述初始值;
若所述当前风扇的风扇数据存在异常,则对所述当前风扇的异常指示信息的当前值进行加一处理;当加一处理后的值等于异常阈值时,将所述当前风扇确定为预警风扇,并所述当前风扇的风扇数据作为风扇异常数据添加至所述故障缓冲池中。
在一个实施例中,所述任一设备的风扇数据是对所述任一设备的运行数据进行解析得到的,所述处理器1401在按照数据采集周期采集所述目标机房中任一设备的各个风扇的风扇数据时,执行如下步骤:
按照数据采集周期采集所述目标机房中任一设备的第n条运行数据,所述第n条运行数据包括多个参数字段,n为正整数;
获取风扇解析策略,所述风扇解析策略包括一个或多个标准字段,以及每个标准字段对应的关联字段;所述标准字段包括:风扇转速、风扇转速比、风扇状态,或者风扇冗余状态;
将所述第n条运行数据的各个参数字段,与所述风扇解析策略中的各个关联字段匹配;
若所述第n条运行数据中存在一个参考字段与目标关联字段相匹配,则确定所述第n条运行数据对应的目标风扇;并将所述第n条运行数据与所述目标关联字段相匹配的参数字段,映射为所述目标关联字段对应的标准字段,得到所述目标风扇的风扇数据。
本发明实施例在检测到目标机房中存在异常的风扇时,可将这些存在异常的风扇视为预警风扇,并将这些预警风扇所对应的设备视为预警设备,以实现对这些预警风扇所对应的设备进行预警处理。其次,可根据每个预警设备配置的各个预警风扇的风扇异常数据,进一步地对每个预警设备配置的各个预警风扇进行故障检测,以较为准确地检测出每个预警设备中真正存在故障(异常)的告警风扇,有效提升故障风扇的准确性。然后,可根据每个预警设备中的告警风扇的风扇属性,从目标机房的所有预警设备中选取满足设备告警策略的目标告警设备,并对各个目标告警设备进行告警处理。可见,本发明实施例通过提升故障风扇的检测准确性,可有效提升告警设备的检测准确性,从而提升设备告警的准确性;并且,通过先设备预警再设备告警的方式,可避免在检测到风扇异常便直接告警所带来的误告警现象,可进一步提升设备告警的准确性;另外,整个过程无需技术人员的参与,还可有效节省人力成本。
根据本申请的一个方面,本发明实施例还提供了一种计算机产品或计算机程序,该计算机产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。可选的,处理器1401从计算机可读存储介质中读取该计算机指令,处理器1401执行该计算机指令,使得计算机设备执行图2a或图6所示的设备告警方法。
本领域普通技术人员可以意识到,结合本申请中所公开的实施例描述的各示例的单元及步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用,使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机存储介质中,或者通过计算机存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如,同轴电缆、光纤、数字用户线(DSL))或无线(例如,红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种设备告警方法,其特征在于,包括:
获取目标机房中的M个预警设备的设备数据,任一预警设备的设备数据包括:所述任一预警设备所配置的各个预警风扇的风扇异常数据,M为正整数;
根据每个预警设备配置的各个预警风扇的风扇异常数据,对所述每个预警设备配置的各个预警风扇进行故障检测,得到检测结果;
根据所述检测结果确定所述每个预警设备中的告警风扇,并根据所述每个预警设备中的告警风扇的风扇属性,从所述M个预警设备中选取满足设备告警策略的目标告警设备集;
对所述目标告警设备集中的各个目标告警设备进行告警处理。
2.根据权利要求1所述的方法,其特征在于,任一预警风扇的风扇异常数据包括以下至少一种:风扇转速值、风扇转速比值、风扇状态值,以及风扇冗余状态值;
所述任一预警风扇的检测结果用于指示所述任一预警风扇是否处于故障状态,当所述任一预警风扇处于所述故障状态时,所述任一预警风扇满足如下至少一项条件:
所述任一预警风扇的风扇转速值小于第一风扇转速阈值、所述任一预警风扇的风扇转速比值小于所述第一风扇转速比阈值、所述任一预警风扇的风扇状态值等于故障状态值,以及所述任一预警风扇的风扇冗余状态值指示的冗余状态为冗余失效状态。
3.根据权利要求1所述的方法,其特征在于,一个预警设备对应一个设备告警策略,且所述任一预警设备对应的设备告警策略是根据所述任一预警设备的设备型号确定的;
所述任一预警设备中的告警风扇的风扇属性包括以下至少一种:所述任一预警设备中的告警风扇的数量,及所述任一预警设备中的各个告警风扇的风扇型号;
所述任一预警设备对应的设备告警策略包括以下至少一种:所述任一预警设备中的告警风扇的数量小于或等于第一数量阈值,以及所述任一预警设备所对应的风扇型号中存在目标风扇型号。
4.根据权利要求1所述的方法,其特征在于,所述每个预警设备的设备数据均是从故障缓冲池中获取到的;所述方法还包括:
获取所述目标告警设备集的告警指示信息;
若所述告警指示信息满足告警收敛策略,则执行对所述目标告警设备集中的各个目标告警设备进行告警处理;
若所述告警指示信息不满足所述告警收敛策略,则将所述目标告警设备的设备数据重写至所述故障缓冲池中,并通知技术人员根据所述目标告警设备的设备数据对所述目标告警设备进行故障跟进处理。
5.根据权利要求4所述的方法,其特征在于,
所述告警指示信息包括以下至少一种:所述目标告警设备集中的目标告警设备的设备数量、对所述目标告警设备集中各个目标告警设备中的告警风扇的数量进行求和所得到的第一风扇数量,以及所述目标告警设备集中的全部目标告警设备所配置的同一类型下的告警风扇的第二风扇数量;
所述告警收敛策略包括以下至少一种:所述设备数量小于或等于第二数量阈值、所述第一风扇数量小于或等于第三数量阈值,以及所述第二风扇数量小于或等于第四数量阈值。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述对所述目标告警设备集中的各个目标告警设备进行告警处理,包括:
向所述目标告警设备集中的第i个目标告警设备发送停机申请,所述停机申请用于指示:在所述第i个目标告警设备将对应的目标业务迁移至临时设备后,执行停机操作;i为正整数,且i的取值小于或等于所述目标告警设备集中的目标告警设备的数量;
若接收到所述第i个目标告警设备返回的停机完成通知,则根据所述第i个目标告警设备中的各个告警风扇对应的风扇备件,出库所述各个告警风扇对应的风扇备件,并通知维修用户采用所述风扇备件对所述第i个目标告警设备中的各个告警风扇进行风扇替换处理;
对替换风扇后的第i个目标告警设备进行故障验收处理,并在验收通过后,将所述目标业务从所述临时设备迁移至所述第i个目标告警设备。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述每个预警设备的设备数据均是从故障缓冲池中获取到的;所述方法还包括:
按照数据采集周期采集所述目标机房中任一设备的各个风扇的风扇数据,每个风扇配置有一个具有初始值的异常指示信息;
遍历所述任一设备中的各个风扇,并对当前遍历的当前风扇的风扇数据进行异常检测;
若所述当前风扇的风扇数据不存在异常,则对所述当前风扇的异常指示信息的当前值设置为所述初始值;
若所述当前风扇的风扇数据存在异常,则对所述当前风扇的异常指示信息的当前值进行加一处理;当加一处理后的值等于异常阈值时,将所述当前风扇确定为预警风扇,并将所述当前风扇的风扇数据作为风扇异常数据添加至所述故障缓冲池中。
8.根据权利要求7所述的方法,其特征在于,所述任一设备的风扇数据是对所述任一设备的运行数据进行解析得到的,所述按照数据采集周期采集所述目标机房中任一设备的各个风扇的风扇数据,包括:
按照数据采集周期采集所述目标机房中任一设备的第n条运行数据,所述第n条运行数据包括多个参数字段,n为正整数;
获取风扇解析策略,所述风扇解析策略包括一个或多个标准字段,以及每个标准字段对应的关联字段;所述标准字段包括:风扇转速、风扇转速比、风扇状态,或者风扇冗余状态;
将所述第n条运行数据的各个参数字段,与所述风扇解析策略中的各个关联字段匹配;
若所述第n条运行数据中存在一个参考字段与目标关联字段相匹配,则确定所述第n条运行数据对应的目标风扇;并将所述第n条运行数据中与所述目标关联字段相匹配的参数字段,映射为所述目标关联字段对应的标准字段,得到所述目标风扇的风扇数据。
9.一种设备告警装置,其特征在于,包括:
获取单元,用于获取目标机房中的M个预警设备的设备数据,任一预警设备的设备数据包括:所述任一预警设备所配置的各个预警风扇的风扇异常数据,M为正整数;
处理单元,用于根据每个预警设备配置的各个预警风扇的风扇异常数据,对所述每个预警设备配置的各个预警风扇进行故障检测,得到检测结果;
所述处理单元,还用于根据所述检测结果确定所述每个预警设备中的告警风扇,并根据所述每个预警设备中的告警风扇的风扇属性,从所述M个预警设备中选取满足设备告警策略的目标告警设备集;
所述处理单元,还用于对所述目标告警设备集中的各个目标告警设备进行告警处理。
10.一种计算机设备,包括输入接口和输出接口,其特征在于,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-8任一项所述的设备告警方法。
CN202110222621.4A 2021-02-26 2021-02-26 设备告警方法及相关设备 Active CN113010375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110222621.4A CN113010375B (zh) 2021-02-26 2021-02-26 设备告警方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110222621.4A CN113010375B (zh) 2021-02-26 2021-02-26 设备告警方法及相关设备

Publications (2)

Publication Number Publication Date
CN113010375A true CN113010375A (zh) 2021-06-22
CN113010375B CN113010375B (zh) 2023-03-28

Family

ID=76386784

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110222621.4A Active CN113010375B (zh) 2021-02-26 2021-02-26 设备告警方法及相关设备

Country Status (1)

Country Link
CN (1) CN113010375B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114553682A (zh) * 2022-02-25 2022-05-27 中国平安人寿保险股份有限公司 实时告警方法、系统、计算机设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101635659A (zh) * 2009-08-27 2010-01-27 中兴通讯股份有限公司 告警防抖方法和装置
US20130318364A1 (en) * 2012-05-24 2013-11-28 International Business Machines Corporation Processor noise mitigation using differential critical path monitoring
CN105183619A (zh) * 2015-09-29 2015-12-23 北京奇艺世纪科技有限公司 一种系统故障预警方法和系统
CN106844145A (zh) * 2016-12-29 2017-06-13 北京奇虎科技有限公司 一种服务器硬件故障预警方法和装置
US20180107577A1 (en) * 2015-04-27 2018-04-19 Telefonaktiebolaget Lm Ericsson (Publ) Compute infrastructure resource monitoring method and entities
CN108833184A (zh) * 2018-06-29 2018-11-16 腾讯科技(深圳)有限公司 服务故障定位方法、装置、计算机设备及存储介质
CN110515438A (zh) * 2019-08-28 2019-11-29 浪潮商用机器有限公司 Tmc中的风扇数据监测方法、装置、设备及存储介质
CN111049679A (zh) * 2019-12-02 2020-04-21 深圳市智微智能软件开发有限公司 服务器的告警方法及系统
CN111176879A (zh) * 2019-12-31 2020-05-19 中国建设银行股份有限公司 设备的故障修复方法及装置
CN111352808A (zh) * 2020-03-03 2020-06-30 腾讯云计算(北京)有限责任公司 告警数据处理方法、装置、设备及存储介质
CN111722987A (zh) * 2020-05-29 2020-09-29 苏州浪潮智能科技有限公司 一种服务器的报警装置及其报警方法和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101635659A (zh) * 2009-08-27 2010-01-27 中兴通讯股份有限公司 告警防抖方法和装置
US20130318364A1 (en) * 2012-05-24 2013-11-28 International Business Machines Corporation Processor noise mitigation using differential critical path monitoring
US20180107577A1 (en) * 2015-04-27 2018-04-19 Telefonaktiebolaget Lm Ericsson (Publ) Compute infrastructure resource monitoring method and entities
CN105183619A (zh) * 2015-09-29 2015-12-23 北京奇艺世纪科技有限公司 一种系统故障预警方法和系统
CN106844145A (zh) * 2016-12-29 2017-06-13 北京奇虎科技有限公司 一种服务器硬件故障预警方法和装置
CN108833184A (zh) * 2018-06-29 2018-11-16 腾讯科技(深圳)有限公司 服务故障定位方法、装置、计算机设备及存储介质
CN110515438A (zh) * 2019-08-28 2019-11-29 浪潮商用机器有限公司 Tmc中的风扇数据监测方法、装置、设备及存储介质
CN111049679A (zh) * 2019-12-02 2020-04-21 深圳市智微智能软件开发有限公司 服务器的告警方法及系统
CN111176879A (zh) * 2019-12-31 2020-05-19 中国建设银行股份有限公司 设备的故障修复方法及装置
CN111352808A (zh) * 2020-03-03 2020-06-30 腾讯云计算(北京)有限责任公司 告警数据处理方法、装置、设备及存储介质
CN111722987A (zh) * 2020-05-29 2020-09-29 苏州浪潮智能科技有限公司 一种服务器的报警装置及其报警方法和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114553682A (zh) * 2022-02-25 2022-05-27 中国平安人寿保险股份有限公司 实时告警方法、系统、计算机设备及存储介质
CN114553682B (zh) * 2022-02-25 2023-08-15 中国平安人寿保险股份有限公司 实时告警方法、系统、计算机设备及存储介质

Also Published As

Publication number Publication date
CN113010375B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN110321371B (zh) 日志数据异常检测方法、装置、终端及介质
CN104639380B (zh) 服务器监控方法
CN100417081C (zh) 检查和修复网络配置的方法和系统
US9794153B2 (en) Determining a risk level for server health check processing
WO2021068814A1 (zh) 硬件设备异常监控方法、装置、服务器及计算机可读存储介质
US20160026661A1 (en) System and method for the automated generation of events within a server environment
CN111629043B (zh) 一种基于云端模式的跨平台健康管理系统
CN105404581A (zh) 一种数据库的评测方法和装置
CN110971464A (zh) 一种适合灾备中心的运维自动化系统
CN111104238B (zh) 一种基于ce的内存诊断的方法、设备及介质
CN111522703A (zh) 监控访问请求的方法、设备和计算机程序产品
US8601318B2 (en) Method, apparatus and computer program product for rule-based directed problem resolution for servers with scalable proactive monitoring
CN113010375B (zh) 设备告警方法及相关设备
CN112733147A (zh) 设备安全管理方法及系统
CN115794588A (zh) 内存故障预测方法、装置、系统及监测服务器
CN112416896A (zh) 数据异常的报警方法和装置、存储介质、电子装置
CN112988439A (zh) 服务器故障发现方法、装置、电子设备及存储介质
CN113835961B (zh) 告警信息监控方法、装置、服务器及存储介质
CN112817827A (zh) 运维方法、装置、服务器、设备、系统及介质
CN115543665A (zh) 一种内存可靠性评估方法、装置及存储介质
JP4850733B2 (ja) ヘルスチェック装置及びヘルスチェック方法及びプログラム
KR102312523B1 (ko) 대량의 데이터 수집을 위한 인터페이스 미들웨어 시스템
CN114244865A (zh) 机器人云端监控系统、方法、计算机设备、介质、终端
CN113841170A (zh) 管理工业物联网(iiot)环境中资产的资产模型的系统、设备和方法
JP2001216166A (ja) 情報処理装置の保守管理方法および情報処理装置ならびにソフトウェアの作成方法およびソフトウェア

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40047284

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant