CN115202958A - 一种电力异常监控方法、装置、电子设备及存储介质 - Google Patents
一种电力异常监控方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115202958A CN115202958A CN202110410600.5A CN202110410600A CN115202958A CN 115202958 A CN115202958 A CN 115202958A CN 202110410600 A CN202110410600 A CN 202110410600A CN 115202958 A CN115202958 A CN 115202958A
- Authority
- CN
- China
- Prior art keywords
- alarm
- power
- server
- power supply
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3058—Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
Abstract
本发明公开了一种电力异常监控方法、装置、电子设备及存储介质,该方法包括:获取目标服务器集群中服务器的电源故障告警报文;提取电源故障告警报文中的服务器标识信息和电源组件告警信息;在电源组件告警信息与预置电源告警策略相匹配时,确定该服务器标识信息对应的服务器产生了预设告警类型的告警;所述预置电源告警策略表征产生预设告警类型的告警时所对应的预设电源组件告警信息;获取第一预设时间段内的告警服务器的部署位置信息;根据该部署位置信息确定位于同一部署单元的告警服务器的数量;在该数量超过预设数量阈值时,确定该部署单元电力异常。本发明从服务器端快速感知部署单元的电力异常情况,提高了对机房电力异常的监控效率。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种电力异常监控方法、装置、电子设备及存储介质。
背景技术
服务器机房的基础设施包括机房电力设施,相关技术中,对于机房电力的监控只能通过运营商的监控平台来进行,而这种监控方式无法快速感知机房电力异常的发生,从而对在该机房中服务器上执行的业务带来很大的安全隐患。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种电力异常监控方法、装置、电子设备及存储介质。所述技术方案如下:
一方面,提供了一种电力异常监控方法,所述方法包括:
获取目标服务器集群中服务器的电源故障告警报文;
提取所述电源故障告警报文中的服务器标识信息和电源组件告警信息;所述电源组件告警信息表征目标电源组件的告警类型,所述目标电源组件是所述服务器标识信息对应的服务器的电源组件;
在所述电源组件告警信息与预置电源告警策略相匹配时,确定所述服务器标识信息对应的服务器产生了预设告警类型的告警;所述预置电源告警策略表征产生所述预设告警类型的告警时所对应的预设电源组件告警信息;
获取第一预设时间段内的告警服务器的部署位置信息;所述告警服务器为在所述第一预设时间段内产生所述预设告警类型的告警的服务器;
根据所述部署位置信息,确定位于同一部署单元的所述告警服务器的数量;
在所述位于同一部署单元的所述告警服务器的数量超过预设数量阈值时,确定所述部署单元电力异常。
另一方面,提供了一种电力异常监控装置,所述装置包括:
报文获取模块,用于获取目标服务器集群中服务器的电源故障告警报文;
告警信息提取模块,用于提取所述电源故障告警报文中的服务器标识信息和电源组件告警信息;所述电源组件告警信息表征目标电源组件的告警类型,所述目标电源组件是所述服务器标识信息对应的服务器的电源组件;
告警确定模块,用于在所述电源组件告警信息与预置电源告警策略相匹配时,确定所述服务器标识信息对应的服务器产生了预设告警类型的告警;所述预置电源告警策略表征产生所述预设告警类型的告警时所对应的预设电源组件告警信息;
部署位置获取模块,用于获取第一预设时间段内的告警服务器的部署位置信息;所述告警服务器为在所述第一预设时间段内产生所述预设告警类型的告警的服务器;
数量确定模块,用于根据所述部署位置信息,确定位于同一部署单元的所述告警服务器的数量;
电力异常确定模块,用于在所述位于同一部署单元的所述告警服务器的数量超过预设数量阈值时,确定所述部署单元电力异常。
在一个示例性的实施方式中,所述报文获取模块包括:
第一获取模块,用于获取目标服务器集群中服务器的故障告警报文;所述故障告警报文为基于简单网络管理协议陷阱格式的报文;
解析模块,用于解析所述故障告警报文,在所述故障告警报文中存在目标字段时,确定所述故障告警报文为电源故障告警报文;所述目标字段包括指示电源组件告警信息的字段。
在一个示例性的实施方式中,该装置还包括:
工单信息生成模块,用于生成所述部署单元对应的电力异常工单信息,将所述电力异常工单信息发送给运维系统;
第一确定模块,用于确定所述部署单元中各服务器对应的基础信息;所述基础信息包括业务和部署位置信息;
列表生成模块,用于根据所述电力异常工单信息和所述部署单元中各服务器的部署位置信息,生成受影响服务器列表;
第一发送模块,用于根据所述受影响服务器列表,向所述业务发送电力异常通知。
在一个示例性的实施方式中,所述第一发送模块包括:
第二获取模块,用于获取所述业务的安全等级配置信息;
第二确定模块,用于根据所述安全等级配置信息,确定所述业务对应的通知方式;
发送子模块,用于根据所述受影响服务器列表,以所述业务对应的通知方式向所述业务发送电力异常通知。
在一个示例性的实施方式中,所述装置还包括:
电源参数采集模块,用于响应于电力恢复检测指令,采集所述部署单元中各服务器的电源参数信息;
第三确定模块,用于根据所述电源参数信息,确定所述部署单元中电源组件处于正常状态的服务器的数量;
异常解除模块,用于在所述部署单元中电源组件处于正常状态的服务器的数量占所述部署单元中服务器的总数量的比值超过预设比例阈值时,确定所述部署单元电力异常解除;
第二发送模块,用于向所述运维系统以及所述业务发送所述部署单元电力异常解除的通知。
在一个示例性的实施方式中,所述装置还包括:
判断模块,用于在第二预设时间段之后,判断所述部署单元中是否存在电源组件处于异常状态的服务器;
第四确定模块,用于在所述判断模块判断的结果为存在时,确定所述电源组件处于异常状态的服务器对应的电源组件存在本体故障;
第三发送模块,用于向所述运维系统发送所述电源组件处于异常状态的服务器存在电源本体故障的通知。
在一个示例性的实施方式中,所述电源参数采集模块包括:
指令发送模块,用于响应于电力恢复检测指令,向所述部署单元中的各服务器发送传感器数据获取指令;
数据接收模块,用于接收所述部署单元中的各服务器发送的传感器数据;
电源参数信息提取模块,用于提取所述传感器数据中的电源参数信息。
另一方面,提供了一种电子设备,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现上述电力异常监控方法。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的电力异常监控方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述各方面中提供的电力异常监控方法。
本发明实施例通过获取目标服务器集群中服务器的电源故障告警报文,提取电源故障告警报文中的服务器标识信息和电源组件告警信息,在电源组件告警信息与预置电源告警策略相匹配时确定该服务器标识信息对应的服务器产生了预设告警类型的告警,并获取第一预设时间段内的告警服务器的部署位置信息,根据该部署位置信息确定位于同一部署单元的告警服务器的数量,进而在该数量超过预设数量阈值时确定该部署单元电力异常,从而实现了从服务器端快速感知部署单元的电力异常情况,提高了对于机房电力异常的监控效率,避免了机房电力异常对在该机房中服务器上执行的业务带来的安全隐患。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种电力异常监控方法的架构示意图;
图2是本发明实施例提供的预置电源告警策略的一个示例;
图3是本发明实施例提供的一种电力异常监控方法的流程示意图;
图4是本发明实施例提供的另一种电力异常监控方法的流程示意图;
图5是本发明实施例提供的一种电力异常工单信息的示例;
图6是本发明实施例提供的一种受影响服务器列表的示例;
图7是本发明实施例提供的另一种电力异常监控方法的流程示意图;
图8是本发明实施例提供的另一种电力异常监控方法的流程示意图;
图9是本发明实施例提供的一种电力异常监控装置的结构框图;
图10是本发明实施例提供的一种电子设备的硬件结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,其所示为本发明实施例提供的一种电力异常监控方法的架构示意图,包括服务器机房110、电力异常监控系统120、运维系统130和业务系统140,其中:
服务器机房110中部署的服务器可以作为一个服务器集群,如图1中所示,服务器机房110可以包括位于不同楼层(Floor)的机房管理单元(Room),每个机房管理单元可以包括一个或者多个服务器机架(Rack),每个服务器机架可以部署有一台或者多台服务器。
电力异常监控系统120可以包括多个节点,该多个节点相互配合以实现对服务器机房110的电力异常进行监控。其中,节点指的是某个独立的Server进程,可以用IP端口来区分,节点可以部署在一台或者多台服务器上,一般来说一台物理服务器独立部署一个节点,以实现高可用。具体的,如图1所示,电力异常监控系统120可以包括原始数据获取节点121、数据解析节点122、电源告警策略匹配节点123、机房电力告警策略匹配节点124、机房电力异常工单创建节点125和机房电力异常处理流程节点126。
原始数据获取节点121可以获取服务器机房110中服务器集群的电源故障告警报文,并将该电源故障告警报文发送给数据解析节点122,由该数据解析节点122提取电源故障告警报文中的服务器标识信息和电源组件告警信息,该电源组件告警信息表征目标电源组件的告警类型,该目标电源组件是上述服务器标识信息对应的服务器的电源组件。
电源告警策略匹配节点123维护有预置电源告警策略,该预置电源告警策略表征产生预设告警类型的告警时所对应的预设电源组件告警信息,示例性的,该预设告警类型可以是外界输入电源丢失。电源告警策略匹配节点123可以将数据解析节点122提取的电源组件告警信息与预置电源告警策略中的预设电源组件告警信息进行匹配,若存在相匹配的预设电源组件告警信息则可以确定上述服务器标识信息对应的服务器产生了预设告警类型的告警,从而可以生成对应的一条电源告警日志,并将该电源告警日志上报给机房电力告警策略匹配节点124。
在一个具体的应用场景中,原始数据获取节点121可以获取服务器集群中服务器上报的基于简单网络管理协议(Simple Network Management Protocol,SNMP)陷阱格式(TRAP)的故障告警报文,SNMP陷阱格式报文是根据SNMP协议,由管理器(代理)上报的陷阱报文,用于表明设备发生故障或变更的主动通知。需要说明的是,原始数据获取节点121获取的上述故障告警报文是全量故障告警报文,也即包括服务器的所有组件的故障告警报文。原始数据获取节点121将故障告警报文发送给数据解析节点122,数据解析节点122解析该故障告警报文,并判断故障告警报文中是否存在目标字段,若存在则确定该故障告警报文为电源故障告警报文,其中目标字段包括指示电源组件告警信息的字段。以如下SNMPTRAP报文为例:
trap:<UNKNOWN>UDP:[9.114.199.213]:58811->[9.114.0.5]
DISMAN-EVENT-MIB::sysUpTimeInstance=
SNMPv2-MIB::SnmptrapOID.0=SNMPv2-SMI::enterprises.47231.1.1.0.552708
SNMPv2-SMI::enterprises.22238.1.1.1="PSU2_Status"
SNMPv2-SMI::enterprises.22238.1.1.2="Power Supply input lost or out-of-range Asserted"=
SNMPv2-SMI::enterprises.22238.1.1.3="unspecified"
SNMPv2-SMI::enterprises.22238.1.1.4="TEN950P22Z"
SNMP-COMMUNITY-MIB::SnmptrapAddress.0=9.114.199.213
SNMP-COMMUNITY-MIB::SnmptrapCommunity.0="Public"
SNMPv2-MIB::SnmptrapEnterprise.0=SNMPv2-SMI::enterprises.47231.1.1。
其中与电源组件告警相关的字段是1.1.1,1.1.2和1.1.4,这三个字段定义的分别是传感器信息、告警描述信息和服务器序列号,通过这三个字段结合可以确定哪台服务器的哪个电源组件产生了告警。具体的,1.1.1字段为告警传感器信息,其指示出现告警的是哪个电源组件(PSU);1.1.2字段为告警描述信息,其指示该电源组件出现了哪种类型的告警信息;1.1.4字段为服务器序列号,其指示具体的服务器。基于此,当故障告警报文为SNMPTRAP报文时,指示电源组件告警信息的目标字段可以包括上述的1.1.1字段和1.1.2字段,而服务器标识信息可以通过1.1.4字段得到。
电源告警策略匹配节点123中维护的预置电源告警策略可以是一个策略表,该策略表中的每一行代表一个电源告警子策略,每个电源告警子策略包括预设告警类型的告警以及该预设告警类型的告警对应的预设传感器信息(Sensor)和预设告警描述信息(Description),如图2所示为本发明实施例提供的预置电源告警策略的一个示例,在将电源组件告警信息与预置电源告警策略中的预设电源组件告警信息进行匹配时,可以将上述的1.1.1字段与预设传感器信息按照关键字匹配,将上述的1.1.2字段与预设告警描述信息按照关键字匹配,关键字匹配过程中如果遇到“*”则表明此处模糊匹配即可,若1.1.1字段和1.1.2字段同时匹配上某个电源告警子策略中的预设传感器信息和预设告警描述信息,则表明该电源组件告警信息与预置电源告警策略相匹配。
机房电力告警策略匹配节点124根据电源告警策略匹配节点123上报的电源告警日志可以统计出周期时间段内有多少台服务器产生了预设告警类型的告警如外界电源输入丢失告警,并通过关联服务器基础环境数据得到每台告警服务器的部署位置信息,该部署位置信息可以包括机房位置信息、机架位置信息等等。机房电力告警策略匹配节点124可以根据上述告警服务器的部署位置信息可以确定出位于同一部署单元的告警服务器的数量,进而根据该告警服务器的数量与预设数量阈值的比对,可以确定该部署单元是否出现了电力异常。具体的,若告警服务器的数量超过预设数量阈值,则确定该部署单元电力异常。
其中,部署单元可以是机架、机房管理单元、楼层还可以是整个服务器机房,而预设数量阈值与部署单元相对应,不同类型的部署单元对应的预设数量阈值不同,一般部署单元所涵盖的服务器越多,其对应的预设数量阈值相应的也越大,该预设数量阈值的具体数值可以根据实际经验进行设定,例如当部署单元是机架时,该预设数量阈值可以是5,当部署单元是机房管理单元时,该预设数量阈值可以是20。另外,上述监控的周期时间段也可以根据部署单元所涵盖的服务器的数量不同来调整,一般部署单元所涵盖的服务器越多,其对应的周期时间段相应的也越长,例如,当部署单元是机架时,该周期时间段可以是1分钟,当部署单元是机房管理单元时,该周期时间段可以是3分钟。
机房电力告警策略匹配节点124在确定部署单元电力异常后,机房电力异常工单创建节点125可以自动创建该部署单元对应的电力异常工单信息,该电力异常工单信息可以包括故障描述、处理描述等信息。
机房电力异常处理流程节点126可以将上述电力异常工单信息发送给运维系统130,由运维系统130进行现场确认电力异常是否属于正常的电力变更,如柴发测试、市电切换、基础设施维修等;另外,由于部署单元中的所有服务器均为受影响的服务器,机房电力异常处理流程节点126还可以按照部署单元中各服务器涉及的业务,将部署单元电力异常情况知会到业务系统140,从而业务系统140中的相关业务可以根据上层应用的重要级别以及冗余程度确认是否需要进行迁移备份;再者,机房电力异常处理流程节点126还可以对受影响的服务器进行实时电力恢复监控,以及时感知部署单元的电力恢复情况,并将部署单元的电力恢复情况知会到运维系统130和业务系统140。
本发明实施例的电力异常监控方法可以基于云技术实现,云技术(Cloudtechnology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
其中,云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as aService,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、短信群发器等。一般来说,SaaS和PaaS相对于IaaS是上层。
需要说明的是,本发明实施例中的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
在一个可能的实施方式中,本发明实施例中涉及的服务器、节点均可以是区块链系统中的节点设备,能够将获取到以及生成的信息共享给区块链系统中的其他节点设备,实现多个节点设备之间的信息共享。区块链系统中的多个节点设备可以配置有同一条区块链,该区块链由多个区块组成,并且前后相邻的区块具有关联关系,使得任一区块中的数据被篡改时都能通过下一区块检测到,从而能够避免区块链中的数据被篡改,保证区块链中数据的安全性和可靠性。
请参阅图3,其所示为本发明实施例提供的一种电力异常监控方法的流程示意图,该方法可以应用于图1中的电力异常监控系统。需要说明的是,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图3所示,所述方法可以包括:
S301,获取目标服务器集群中服务器的电源故障告警报文。
其中,目标服务器集群是指受监控的服务器机房内的服务器。电源故障告警报文为服务器的电源组件出现故障时由该服务器发出的报文,该电源故障告警报文中包括服务器标识信息和电源组件告警信息。
S303,提取所述电源故障告警报文中的服务器标识信息和电源组件告警信息。
其中,所述电源组件告警信息表征目标电源组件的告警类型,所述目标电源组件是所述服务器标识信息对应的服务器的电源组件。
S305,在所述电源组件告警信息与预置电源告警策略相匹配时,确定所述服务器标识信息对应的服务器产生了预设告警类型的告警。
其中,所述预置电源告警策略表征产生所述预设告警类型的告警时所对应的预设电源组件告警信息。示例性的,预设告警类型可以是外界输入电源丢失告警。
S307,获取第一预设时间段内的告警服务器的部署位置信息。
其中,所述告警服务器为在所述第一预设时间段内产生所述预设告警类型的告警的服务器。具体的,可以通过关联告警服务器的基础环境信息得到每台告警服务器的部署位置信息,该部署位置信息可以包括机房位置信息、机架位置信息等等。
S309,根据所述部署位置信息,确定位于同一部署单元的所述告警服务器的数量。
S311,在所述位于同一部署单元的所述告警服务器的数量超过预设数量阈值时,确定所述部署单元电力异常。
其中,部署单元可以是机架、机房管理单元、楼层还可以是整个服务器机房,而预设数量阈值与部署单元相对应,不同类型的部署单元对应的预设数量阈值不同,一般部署单元所涵盖的服务器越多,其对应的预设数量阈值相应的也越大,该预设数量阈值的具体数值可以根据实际经验进行设定,例如当部署单元是机架时,该预设数量阈值可以是5,当部署单元是机房管理单元时,该预设数量阈值可以是20。
另外,上述第一预设时间段可以是监控的周期时间段,该第一预设时间段也可以根据部署单元所涵盖的服务器的数量不同来调整,一般部署单元所涵盖的服务器越多,其对应的周期时间段相应的也越长,例如,当部署单元是机架时,该周期时间段可以是1分钟,当部署单元是机房管理单元时,该周期时间段可以是3分钟。
实际应用中,为了提高对于部署单元电力异常确定的准确性,在根据部署位置信息确定位于同一部署单元的告警服务器的数量时,还可以获取各告警服务器的运营状态信息,根据该运营状态信息确定处于非运营状态的告警服务器的数量,然后将该处于非运营状态的告警服务器的数量从上述告警服务器的数量中剔除,进而在步骤S311的比对时,将剔除后的数量与预设数量阈值进行比对,若剔除后的数量超过预设数量阈值则确定该部署单元电力异常,避免了现场运维导致的无效告警。
在一个示例性的实施方式中,上述步骤S301在获取目标服务器集群中服务器的电源故障告警报文时可以包括以下步骤:
获取目标服务器集群中服务器的故障告警报文,该故障告警报文为基于简单网络管理协议陷阱格式的报文;
解析所述故障告警报文,在所述故障告警报文中存在目标字段时,确定所述故障告警报文为电源故障告警报文,其中所述目标字段包括指示电源组件告警信息的字段。实际应用中,目标字段可以包括定义传感器信息第一字段和定义告警描述信息的第二字段,也即电源组件告警信息包括传感器信息和告警描述信息,其中,传感器信息指示目标电源组件信息,告警描述信息指示目标电源组件产生的告警类型。
相应的,预置电源告警策略可以是一个策略表,该策略表中的每一行代表一个电源告警子策略,每个电源告警子策略包括预设告警类型的告警以及该预设告警类型的告警对应的预设传感器信息和预设告警描述信息,该预设传感器信息指示电源组件信息,在该电源组件信息中可以将电源组件的标识通过预设字符如“*”进行模糊处理,该预设告警描述信息指示电源组件产生的告警类型,同样在该预设告警描述信息可以将电源组件的标识通过预设字符如“*”进行模糊处理。从而步骤S305在实施时,可以将上述的第一字段与预设传感器信息按照关键字匹配,将上述的第二字段与预设告警描述信息按照关键字匹配,在关键字匹配过程中如果遇到“*”则此处进行模糊匹配即可,若第一字段和第二字段同时匹配上某个电源告警子策略中的预设传感器信息和预设告警描述信息,则表明该电源组件告警信息与预置电源告警策略相匹配。
由本发明实施例的上述技术方案可见,本发明实施例实现了从服务器端快速感知部署单元的电力异常情况,提高了对于机房电力异常的感知速度,避免了机房电力异常对在该机房中服务器上执行的业务带来的安全隐患
在一个示例性的实施方式中,如图4提供的另一种电力异常监控方法的流程示意图,在上述步骤S311确定部署单元电力异常之后,该方法还可以包括:
S401,生成所述部署单元对应的电力异常工单信息。
示例性的,如图5所示,该电力异常工单信息可以包括故障描述,该故障描述用于指示电力异常的部署单元以及该部署单元中的告警服务器的数量。在生成部署单元对应的电力异常工单信息之后,还可以分别执行以下步骤S403以及步骤S405至步骤S409。
S403,将所述电力异常工单信息发送给运维系统。
具体的,通过将电力异常工单信息发送给运维系统可以使得运维系统及时根据该电力异常工单信息进行现场确定电力异常是否属于正常的电力变更,如柴发测试、市电切换、基础设施维修等,并进行及时的修复。
S405,确定所述部署单元中各服务器对应的基础信息。
其中,所述基础信息包括业务和部署位置信息。具体的,在确定部署单元电力异常后,可以确定该部署单元中的所有服务器均为受影响的服务器,此时针对受影响的服务器,确定各服务器的业务和部署位置信息。
S407,根据所述电力异常工单信息和所述部署单元中各服务器的部署位置信息,生成受影响服务器列表。
如图6所示为生成的受影响服务器列表的一个示例,该受影响服务器列表中可以包括电力异常的部署单元中各服务器的型号、运营状态(包括运营中以及非运营中)、部署位置信息、故障描述和处理说明等等。
S409,根据所述受影响服务器列表,向所述业务发送电力异常通知。
示例性的,可以根据部署单元中各服务器的业务,获取各业务的安全等级配置信息,该安全等级配置信息指示该业务需求的机器安全级别;根据各业务的安全等级配置信息确定各业务对应的通知方式;进而根据受影响服务器列表以各业务对应的通知方式向相应业务发送电力异常通知。其中,通知方式可以包括电话、邮件或者微信等即时通讯方式,不同的安全等级配置信息对应不同的通知方式,并且安全等级越高其对应的通知方式的时效性越高,例如按照安全等级由高至低的顺序,通知方式分别为电话、邮件、微信等。
本发明实施例在确定部署单元电力异常之后,根据受影响服务器列表向相关业务发送电力异常通知,不仅大大缩短了机房电力异常告警到业务的时间,而且业务可以及时知悉受影响的服务器范围,从而有利于业务更加合理及时的判定是否需要迁移和备份。
在一个示例性的实施方式中,如图7提供的另一种电力异常监控方法的流程示意图,在生成部署单元对应的电力异常工单信息之后,该方法还可以包括:
S701,响应于电力恢复检测指令,采集所述部署单元中各服务器的电源参数信息。
其中,电力恢复检测指令可以由人工直接触发,也可以设置电力恢复检测周期,从而在确定部署单元电力异常后基于该电力恢复检测周期发出电力恢复检测指令。可以理解的,电力恢复检测周期设置的越小则越能及时对部署单元进行电力恢复检测,示例性的,该电力恢复检测周期可以设置为小于1分钟,例如20秒、30秒等。
部署单元中的所有服务器均为受影响的服务器,本发明实施例采集受影响服务器的电源参数信息,对受影响的服务器进行电力恢复检测。
具体的采集方式可以是主动采集也可以是被动采集。在主动采集的情况下,可以响应于电力恢复检测指令,向部署单元中的各服务器发送传感器数据获取指令;接收所述部署单元中的各服务器发送的传感器数据;提取所述传感器数据中的电源参数信息。其中,传感器数据即为SDR(Sensor Data Record),其记录了服务器Sensor的当前值,从SDR数据中可以提取到相应服务器的电源参数信息。而在被动采集的情况下,响应于电力恢复检测指令获取服务器的传感器按照已有周期发送的SDR数据,如已有周期为1分钟。为了能够及时监控到部署单元的电力恢复情况,本发明实施例优选的采用主动采集的方式来采集部署单元中各服务器的电源参数信息。
S703,根据所述电源参数信息,确定所述部署单元中电源组件处于正常状态的服务器的数量。
S705,判定所述部署单元中电源组件处于正常状态的服务器的数量占所述部署单元中服务器的总数量的比值是否超过预设比例阈值,若超过,则执行步骤S707;反之,若未超过,则执行步骤S709。
S707,确定所述部署单元电力异常解除。
其中,预设比例阈值可以根据实际需要进行设定,例如可以设定为80%,也即当部署单元中超过80%的服务器的电源组件处于正常状态时,可以确定该部署单元电力恢复即电力异常解除。
S709,返回执行步骤S707至步骤S705。
实际应用中,当确定部署单元电力异常解除之后,还可以向运维系统和业务发送电力异常解除的通知,基于此,在步骤S707之后,该方法还可以包括:
S711,向所述运维系统以及所述业务发送所述部署单元电力异常解除的通知。
本发明实施例实现了从服务器端对电力异常的部署单元的电力恢复情况的及时感知,并能够将电力恢复情况及时线上通知到运维系统和业务系统中的相关业务,使得相关业务能够及时根据实际情况进行迁移或者备份,提高了对于机房电力异常的监控效率并有利于促进电力的及时恢复,避免了电力异常对业务造成的损失。
为了排除因为电力切换导致的电源组件本体故障,在一个示例性的实施方式中,如图8提供的另一种电力异常监控方法的流程示意图,在步骤S707确定部署单元电力异常解除之后,该方法还可以包括:
S713,在第二预设时间段之后,判断所述部署单元中是否存在电源组件处于异常状态的服务器。
其中,第二预设时间段可以根据实际需要进行设定,例如可以设定为10分钟。在部署单元电力异常解除第二预设时间段之后,判断该部署单元中是否存在电源组件处于异常状态的服务器,若存在,则可以执行步骤S715;反之,若不存在,则表明该部署单元中的所有服务器即受影响的服务器的电力均已恢复。
S715,确定所述电源组件处于异常状态的服务器对应的电源组件存在本体故障。
S717,向所述运维系统发送所述电源组件处于异常状态的服务器存在电源本体故障的通知。
如此,运维系统可以及时对电源组件本体存在故障的服务器进行修复,避免了双路掉电风险。
本发明实施例通过上述技术方案可以从服务器端及时发现掉电隐患以及因电力切换导致的电源本体故障,从而能够促进及时修复避免了双路掉电风险。
与上述几种实施例提供的电力异常监控方法相对应,本发明实施例还提供一种电力异常监控装置,由于本发明实施例提供的电力异常监控装置与上述几种实施例提供的电力异常监控方法相对应,因此前述电力异常监控方法的实施方式也适用于本实施例提供的电力异常监控装置,在本实施例中不再详细描述。
请参阅图9,其所示为本发明实施例提供的一种电力异常监控装置的结构示意图,该电力异常监控装置900具有实现上述方法实施例中电力异常监控方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。如图9所示,该电力异常监控装置900可以包括:
报文获取模块910,用于获取目标服务器集群中服务器的电源故障告警报文;
告警信息提取模块920,用于提取所述电源故障告警报文中的服务器标识信息和电源组件告警信息;所述电源组件告警信息表征目标电源组件的告警类型,所述目标电源组件是所述服务器标识信息对应的服务器的电源组件;
告警确定模块930,用于在所述电源组件告警信息与预置电源告警策略相匹配时,确定所述服务器标识信息对应的服务器产生了预设告警类型的告警;所述预置电源告警策略表征产生所述预设告警类型的告警时所对应的预设电源组件告警信息;
部署位置获取模块940,用于获取第一预设时间段内的告警服务器的部署位置信息;所述告警服务器为在所述第一预设时间段内产生所述预设告警类型的告警的服务器;
数量确定模块950,用于根据所述部署位置信息,确定位于同一部署单元的所述告警服务器的数量;
电力异常确定模块960,用于在所述位于同一部署单元的所述告警服务器的数量超过预设数量阈值时,确定所述部署单元电力异常。
在一个示例性的实施方式中,所述报文获取模块910可以包括:
第一获取模块,用于获取目标服务器集群中服务器的故障告警报文;所述故障告警报文为基于简单网络管理协议陷阱格式的报文;
解析模块,用于解析所述故障告警报文,在所述故障告警报文中存在目标字段时,确定所述故障告警报文为电源故障告警报文;所述目标字段包括指示电源组件告警信息的字段。
在一个示例性的实施方式中,该装置900还可以包括:
工单信息生成模块,用于生成所述部署单元对应的电力异常工单信息,将所述电力异常工单信息发送给运维系统;
第一确定模块,用于确定所述部署单元中各服务器对应的基础信息;所述基础信息包括业务和部署位置信息;
列表生成模块,用于根据所述电力异常工单信息和所述部署单元中各服务器的部署位置信息,生成受影响服务器列表;
第一发送模块,用于根据所述受影响服务器列表,向所述业务发送电力异常通知。
在一个示例性的实施方式中,所述第一发送模块包括:
第二获取模块,用于获取所述业务的安全等级配置信息;
第二确定模块,用于根据所述安全等级配置信息,确定所述业务对应的通知方式;
发送子模块,用于根据所述受影响服务器列表,以所述业务对应的通知方式向所述业务发送电力异常通知。
在一个示例性的实施方式中,所述装置900还可以包括:
电源参数采集模块,用于响应于电力恢复检测指令,采集所述部署单元中各服务器的电源参数信息;
第三确定模块,用于根据所述电源参数信息,确定所述部署单元中电源组件处于正常状态的服务器的数量;
异常解除模块,用于在所述部署单元中电源组件处于正常状态的服务器的数量占所述部署单元中服务器的总数量的比值超过预设比例阈值时,确定所述部署单元电力异常解除;
第二发送模块,用于向所述运维系统以及所述业务发送所述部署单元电力异常解除的通知。
在一个示例性的实施方式中,所述装置900还可以包括:
判断模块,用于在第二预设时间段之后,判断所述部署单元中是否存在电源组件处于异常状态的服务器;
第四确定模块,用于在所述判断模块判断的结果为存在时,确定所述电源组件处于异常状态的服务器对应的电源组件存在本体故障;
第三发送模块,用于向所述运维系统发送所述电源组件处于异常状态的服务器存在电源本体故障的通知。
在一个示例性的实施方式中,所述电源参数采集模块可以包括:
指令发送模块,用于响应于电力恢复检测指令,向所述部署单元中的各服务器发送传感器数据获取指令;
数据接收模块,用于接收所述部署单元中的各服务器发送的传感器数据;
电源参数信息提取模块,用于提取所述传感器数据中的电源参数信息。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例的电力异常监控装置实现了从服务器端快速感知部署单元的电力异常情况,提高了对于机房电力异常的监控效率,并大大缩短了将机房电力异常告警通知到相关业务和运维系统的时间,避免了机房电力异常对在该机房中服务器上执行的业务带来的安全隐患。另外,还具备受影响服务器确认以及从服务器角度确认每台服务器的电力是否恢复,及时发现因为电力瞬断导致的电源本体故障。
本发明实施例提供了一种电子设备,该电子设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的任意一种电力异常监控方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及电力异常的监控。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图10是本发明实施例提供的运行一种电力异常监控方法的服务器的硬件结构框图,如图10所示,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1010(处理器1010可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1030,一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中,存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1010可以设置为与存储介质1020通信,在服务器1000上执行存储介质1020中的一系列指令操作。服务器1000还可以包括一个或一个以上电源1060,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1040,和/或,一个或一个以上操作系统1021,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1000的通信供应商提供的无线网络。在一个实例中,输入输出接口1040包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1040可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图10所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1000还可包括比图10中所示更多或者更少的组件,或者具有与图10所示不同的配置。
本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质可设置于电子设备之中以保存用于实现一种电力异常监控方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的任意一种电力异常监控方法。
本发明的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该电子设备执行上述各方面中提供的电力异常监控方法。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种电力异常监控方法,其特征在于,所述方法包括:
获取目标服务器集群中服务器的电源故障告警报文;
提取所述电源故障告警报文中的服务器标识信息和电源组件告警信息;所述电源组件告警信息表征目标电源组件的告警类型,所述目标电源组件是所述服务器标识信息对应的服务器的电源组件;
在所述电源组件告警信息与预置电源告警策略相匹配时,确定所述服务器标识信息对应的服务器产生了预设告警类型的告警;所述预置电源告警策略表征产生所述预设告警类型的告警时所对应的预设电源组件告警信息;
获取第一预设时间段内的告警服务器的部署位置信息;所述告警服务器为在所述第一预设时间段内产生所述预设告警类型的告警的服务器;
根据所述部署位置信息,确定位于同一部署单元的所述告警服务器的数量;
在所述位于同一部署单元的所述告警服务器的数量超过预设数量阈值时,确定所述部署单元电力异常。
2.根据权利要求1所述的电力异常监控方法,其特征在于,所述获取目标服务器集群中服务器的电源故障告警报文,包括:
获取目标服务器集群中服务器的故障告警报文;所述故障告警报文为基于简单网络管理协议陷阱格式的报文;
解析所述故障告警报文,在所述故障告警报文中存在目标字段时,确定所述故障告警报文为电源故障告警报文;所述目标字段包括指示电源组件告警信息的字段。
3.根据权利要求1所述的电力异常监控方法,其特征在于,在确定所述部署单元电力异常之后,所述方法还包括:
生成所述部署单元对应的电力异常工单信息,将所述电力异常工单信息发送给运维系统;
确定所述部署单元中各服务器对应的基础信息;所述基础信息包括业务和部署位置信息;
根据所述电力异常工单信息和所述部署单元中各服务器的部署位置信息,生成受影响服务器列表;
根据所述受影响服务器列表,向所述业务发送电力异常通知。
4.根据权利要求3所述的电力异常监控方法,其特征在于,所述根据所述受影响服务器列表,向所述业务发送电力异常通知,包括:
获取所述业务的安全等级配置信息;
根据所述安全等级配置信息,确定所述业务对应的通知方式;
根据所述受影响服务器列表,以所述业务对应的通知方式向所述业务发送电力异常通知。
5.根据权利要求3所述的电力异常监控方法,其特征在于,在生成所述部署单元对应的电力异常工单信息之后,所述方法还包括:
响应于电力恢复检测指令,采集所述部署单元中各服务器的电源参数信息;
根据所述电源参数信息,确定所述部署单元中电源组件处于正常状态的服务器的数量;
在所述部署单元中电源组件处于正常状态的服务器的数量占所述部署单元中服务器的总数量的比值超过预设比例阈值时,确定所述部署单元电力异常解除;
向所述运维系统以及所述业务发送所述部署单元电力异常解除的通知。
6.根据权利要求5所述的电力异常监控方法,其特征在于,在确定所述部署单元电力异常解除之后,所述方法还包括:
在第二预设时间段之后,判断所述部署单元中是否存在电源组件处于异常状态的服务器;
若存在,则确定所述电源组件处于异常状态的服务器对应的电源组件存在本体故障;
向所述运维系统发送所述电源组件处于异常状态的服务器存在电源本体故障的通知。
7.根据权利要求5所述的电力异常监控方法,其特征在于,所述响应于电力恢复检测指令,采集所述部署单元中各服务器的电源参数信息,包括:
响应于电力恢复检测指令,向所述部署单元中的各服务器发送传感器数据获取指令;
接收所述部署单元中的各服务器发送的传感器数据;
提取所述传感器数据中的电源参数信息。
8.一种电力异常监控装置,其特征在于,所述装置包括:
报文获取模块,用于获取目标服务器集群中服务器的电源故障告警报文;
告警信息提取模块,用于提取所述电源故障告警报文中的服务器标识信息和电源组件告警信息;所述电源组件告警信息表征目标电源组件的告警类型,所述目标电源组件是所述服务器标识信息对应的服务器的电源组件;
告警确定模块,用于在所述电源组件告警信息与预置电源告警策略相匹配时,确定所述服务器标识信息对应的服务器产生了预设告警类型的告警;所述预置电源告警策略表征产生所述预设告警类型的告警时所对应的预设电源组件告警信息;
部署位置获取模块,用于获取第一预设时间段内的告警服务器的部署位置信息;所述告警服务器为在所述第一预设时间段内产生所述预设告警类型的告警的服务器;
数量确定模块,用于根据所述部署位置信息,确定位于同一部署单元的所述告警服务器的数量;
电力异常确定模块,用于在所述位于同一部署单元的所述告警服务器的数量超过预设数量阈值时,确定所述部署单元电力异常。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1~7中任一项所述的电力异常监控方法。
10.一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1~7任一项所述的电力异常监控方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110410600.5A CN115202958A (zh) | 2021-04-13 | 2021-04-13 | 一种电力异常监控方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110410600.5A CN115202958A (zh) | 2021-04-13 | 2021-04-13 | 一种电力异常监控方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115202958A true CN115202958A (zh) | 2022-10-18 |
Family
ID=83574307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110410600.5A Pending CN115202958A (zh) | 2021-04-13 | 2021-04-13 | 一种电力异常监控方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115202958A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115866511A (zh) * | 2022-11-18 | 2023-03-28 | 东土科技(宜昌)有限公司 | 定位系统中的硬件设备的监控方法及装置 |
CN116170296A (zh) * | 2023-04-21 | 2023-05-26 | 北京智享嘉网络信息技术有限公司 | 一种网络自动运维管理系统以及方法 |
-
2021
- 2021-04-13 CN CN202110410600.5A patent/CN115202958A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115866511A (zh) * | 2022-11-18 | 2023-03-28 | 东土科技(宜昌)有限公司 | 定位系统中的硬件设备的监控方法及装置 |
CN115866511B (zh) * | 2022-11-18 | 2023-11-24 | 东土科技(宜昌)有限公司 | 定位系统中的硬件设备的监控方法及装置 |
CN116170296A (zh) * | 2023-04-21 | 2023-05-26 | 北京智享嘉网络信息技术有限公司 | 一种网络自动运维管理系统以及方法 |
CN116170296B (zh) * | 2023-04-21 | 2023-08-08 | 北京智享嘉网络信息技术有限公司 | 一种网络自动运维管理系统以及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108964960B (zh) | 一种告警事件的处理方法及装置 | |
CN107995049B (zh) | 电力安全区跨区同步故障监测方法、装置和系统 | |
CN102447570B (zh) | 一种基于健康度分析的监控装置及方法 | |
CN106789306B (zh) | 通信设备软件故障检测收集恢复方法和系统 | |
CN103812699A (zh) | 基于云计算的监控管理系统 | |
CN105099783B (zh) | 一种实现业务系统告警应急处置自动化的方法及系统 | |
CN110851320A (zh) | 一种服务器宕机监管方法、系统、终端及存储介质 | |
CN115202958A (zh) | 一种电力异常监控方法、装置、电子设备及存储介质 | |
CN112073262B (zh) | 一种云平台监控方法、装置、设备及系统 | |
CN103810076B (zh) | 数据复制的监控方法及装置 | |
CN111897671A (zh) | 故障恢复方法、计算机设备及存储介质 | |
CN112506702B (zh) | 数据中心容灾方法、装置、设备及存储介质 | |
CN110611597A (zh) | 一种基于单向网闸环境的跨域运维系统 | |
CN112596975A (zh) | 对网络设备进行监控处理的方法、系统、设备和存储介质 | |
CN114356499A (zh) | Kubernetes集群告警根因分析方法及装置 | |
CN106021070A (zh) | 服务器集群监测方法及装置 | |
CN116016123A (zh) | 故障处理方法、装置、设备及介质 | |
CN105849699B (zh) | 控制数据中心架构设备的方法 | |
CN111062503B (zh) | 一种电网监控告警处理方法、系统、终端及存储介质 | |
CN110224872B (zh) | 一种通信方法、装置及存储介质 | |
CN111258870A (zh) | 分布式存储系统的性能分析方法、装置、设备及存储介质 | |
CN115102838B (zh) | 服务器宕机风险的应急处理方法和装置、电子设备 | |
CN110750425A (zh) | 数据库监控方法、装置、系统和存储介质 | |
CN110609761A (zh) | 确定故障源的方法、装置、存储介质和电子设备 | |
CN112152881B (zh) | 混合云环境下的网络状态监控方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |