CN111176879A - 设备的故障修复方法及装置 - Google Patents

设备的故障修复方法及装置 Download PDF

Info

Publication number
CN111176879A
CN111176879A CN201911418628.2A CN201911418628A CN111176879A CN 111176879 A CN111176879 A CN 111176879A CN 201911418628 A CN201911418628 A CN 201911418628A CN 111176879 A CN111176879 A CN 111176879A
Authority
CN
China
Prior art keywords
alarm
alarm event
rule
equipment node
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911418628.2A
Other languages
English (en)
Inventor
刘士建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN201911418628.2A priority Critical patent/CN111176879A/zh
Publication of CN111176879A publication Critical patent/CN111176879A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种设备的故障修复方法及装置,该方法包括:当接收到机器资源监控数据时,确定机器资源监控数据对应的设备节点;获取设备节点对应的监控指标类型以及监控指标类型对应的指标阈值规则;在所述机器资源监控数据中获取与监控指标类型匹配的目标监控数据;将目标监控数据与阈值规则进行比对,以判断设备节点是否处于异常状态;若设备节点处于异常状态,则生成异常状态对应的告警事件,并判断告警事件是否满足预先设置的告警规则,若满足,则确定与告警事件对应的目标修复脚本;依据目标修复脚本生成作业指令,并将作业指令发送至所述设备节点,以触发设备节点依据所述作业指令执行修复操作。应用本发明的方法,能够快速修复设备的故障。

Description

设备的故障修复方法及装置
技术领域
本发明涉及计算机运维领域,特别涉及一种设备的故障修复方法及装置。
背景技术
随着科学技术的发展,计算机设备的应用已经覆盖了我们生活的方方面面,计算机设备的出现是20世纪最卓越的成就之一,它的应用领域从最初的军事科研应用扩展到社会的各个领域,已形成了规模巨大的计算机产业,带动了全球范围的技术进步,到了今天,在我们生活的方方面面,都离不开了计算机设备以及相关的网络设备。
计算机设备以及其关联的网络设备在运行过程中,总会出现故障,当出现故障时,需要快速排查故障以修复故障,避免故障时间过长而导致各种各样的损失。然而,由于设备系统的复杂性较高,往往难以快速找到故障的解决方案。
发明内容
本发明所要解决的技术问题是提供一种设备的故障修复方法,能够快速的修复设备的故障。
本发明还提供了一种设备的故障修复装置,用以保证上述方法在实际中的实现及应用。
一种设备的故障修复方法,包括:
当接收到机器资源监控数据时,确定所述机器资源监控数据对应的设备节点;
获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则;
在所述机器资源监控数据中获取与所述监控指标类型匹配的目标监控数据;
将所述目标监控数据与所述指标阈值规则进行比对,以判断所述设备节点是否处于异常状态;
若所述设备节点处于异常状态,则生成所述异常状态对应的告警事件,并判断所述告警事件是否满足预先设置的告警规则;
若满足,则确定与所述告警事件对应的目标修复脚本;
依据所述目标修复脚本生成作业指令,并将所述作业指令发送至所述设备节点,以触发所述设备节点依据所述作业指令执行修复操作。
上述的方法,可选的,所述获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则,包括:
依据所述设备节点的设备节点标识遍历预先设置的配置文件,获得与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则。
上述的方法,可选的,判断所述告警事件是否满足预先设置的告警规则包括:
依据预先设置的告警白名单判断所述告警事件当前是否处于抑制状态;
若所述告警事件未处于所述抑制状态,则获取所述设备节点在预设时段内对应的告警记录;
判断所述告警记录中是否存在与所述告警事件相关联的历史告警事件;
若存在,则判断所述告警事件与所述历史告警事件是否满足预先设置的聚合规则,若满足,则确定所述告警事件满足预先设置的告警规则;
若不存在,则确定所述告警事件满足预先设置的告警规则。
上述的方法,可选的,若所述告警事件与所述历史告警事件是否满足预先设置的聚合规则,则所述确定与所述告警事件对应的目标修复脚本,包括:
将所述告警事件以及所述历史告警事件进行聚合操作,得到目标告警事件;
依据所述目标告警事件在预先建立的脚本文件库中确定目标修复脚本。
上述的方法,可选的,确定所述告警事件满足所述告警规则之后,还包括:
判断所述告警事件是否满足预先设置的告警通知规则,若满足,则生成与所述告警事件对应的告警通知消息;
确定与所述设备节点对应的告警接收组,将所述告警通知消息发送至所述告警接收组中的各个对象。
上述的方法,可选的,所述依据所述目标修复脚本生成作业指令,包括:
获取所述设备节点的IP地址信息以及所述设备节点所处的区域信息;
调用预先设置的作业模板,对所述IP地址信息、所述区域信息以及所述目标修复脚本进行编排,得到所述设备节点对应的作业指令。
一种设备的故障修复装置,包括:
接收单元,用于当接收到机器资源监控数据时,确定所述机器资源监控数据对应的设备节点;
第一获取单元,用于获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则;
第二获取单元,用于在所述机器资源监控数据中获取与所述监控指标类型匹配的目标监控数据;
比对单元,用于将所述目标监控数据与所述指标阈值规则进行比对,以判断所述设备节点是否处于异常状态;
生成单元,用于若所述设备节点处于异常状态,则生成所述异常状态对应的告警事件,并判断所述告警事件是否满足预先设置的告警规则;
确定单元,用于当所述告警事件满足所述告警规则时,确定与所述告警事件对应的目标修复脚本;
修复单元,用于依据所述目标修复脚本生成作业指令,并将所述作业指令发送至所述设备节点,以触发所述设备节点依据所述作业指令执行修复操作。
上述的装置,可选的,所述第一获取单元,包括:
查询子单元,用于依据所述设备节点的设备节点标识遍历预先设置的配置文件,获得与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则。
上述的装置,可选的,判断所述告警事件是否满足预先设置的告警规则的所述生成单元,包括:
第一判断子单元,用于依据预先设置的告警白名单判断所述告警事件当前是否处于抑制状态;
第一获取子单元,用于当所述告警事件未处于所述抑制状态时,获取所述设备节点在预设时段内对应的告警记录;
第二判断子单元,用于判断所述告警记录中是否存在与所述告警事件相关联的历史告警事件;
第一执行子单元,用于存在与所述告警事件关联的历史告警事件的情况下,则判断所述告警事件与所述历史告警事件是否满足预先设置的聚合规则,若满足,则确定所述告警事件满足所述告警规则;
第二执行子单元,用于当不存在与所述告警事件相关联的历史告警事件时,确定所述告警事件满足所述告警规则。
上述的装置,可选的,所述依据所述目标修复脚本生成作业指令的所述修复单元,包括:
第二获取子单元,用于获取所述设备节点的IP地址信息以及所述设备节点所处的区域信息;
生成子单元,用于调用预先设置的作业模板,对所述IP地址信息、所述区域信息以及所述目标修复脚本进行编排,得到所述设备节点对应的作业指令。
与现有技术相比,本发明包括以下优点:
本发明提供了一种设备的故障修复方法和装置,当接收到机器资源监控数据时,确定所述机器资源监控数据对应的设备节点;获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则;在所述机器资源监控数据中获取与所述监控指标类型匹配的目标监控数据;将所述目标监控数据与所述指标阈值规则进行比对,以判断所述设备节点是否处于异常状态;若所述设备节点处于异常状态,则生成所述异常状态对应的告警事件,并判断所述告警事件是否满足预先设置的告警规则;若满足,则确定与所述告警事件对应的目标修复脚本;依据所述目标修复脚本生成作业指令,并将所述作业指令发送至所述设备节点,以触发所述设备节点依据所述作业指令执行修复操作。应用本发明提供的设备的故障修复方法,能够确定告警事件对应的目标修复脚本,应用该修复脚本修复设备的故障,能够快速的修复设备的故障。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种设备的故障修复方法的方法流程图;
图2为本发明提供的一种设备的故障修复方法的又一方法流程图;
图3为本发明提供的一种实施场景示例图;
图4为本发明提供的一种设备的故障修复系统的一结构示例图;
图5为本发明提供的一种监控模块的结构示例图;
图6为本发明提供的一种告警模块的结构示例图;
图7为本发明提供的故障自愈模块的结构示例图;
图8为本发明提供的一种设备的故障修复装置的结构示意图;
图9为本发明提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本发明实施例提供了一种设备的故障修复方法,该方法可以应用在多种系统平台,其执行主体可以为计算机终端或各种移动设备的处理器,所述方法的方法流程图如图1所示,具体包括:
S101:当接收到机器资源监控数据时,确定所述机器资源监控数据对应的设备节点。
本发明实施例提供的方法中,该机器资源监控数据为安装在设备节点上的代理agent程序对该设备节点进行数据采集得到的,该agent程序可以实时将其采集到的数据进行上传,也可以周期性的将其采集到的数据进行上传。当接收到任意一个agent程序上传的机器资源监控数据时,依据机器资源监控数据中的节点标识,确定该机器资源监控数据对应的设备节点。
其中,设备节点可以为服务器、网络设备以及消息中间件等。
S102:获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则。
本发明实施例提供的方法中,每个设备节点对应的监控指标类型可以为一个或多个。
若该设备节点为服务器,则该机器资源监控数据可以为该服务器当前的计算资源占用状况,例如:线程状态、会话数以及堆内存等,该资源监控数据还可以包含CPU运行状态参数、内存运行状态参数、磁盘运行状态参数、设备运行温度、电源状态参数、工作电压、工作电流、风扇转速等。
若该设备节点为网络设备,则该资源监控数据可以为该网络设备的总流量状况参数、该网络设备对应的各个计算机设备的流量状况参数等。
若该设备节点为消息中间件,则该资源监控数据可以为消息的传递状况参数等。
具体的,每个监控指标类型均对应一个指标阈值规则,在该设备节点的监控指标类型为多个的情况下,分别获取每个监控指标类型对应的指标阈值规则。
S103:在所述机器资源监控数据中获取与所述监控指标类型匹配的目标监控数据。
本发明实施例提供的方法中,对该机器资源监控数据进行筛选,得到与监控指标类型匹配的监控数据,即目标监控数据。
其中,例如该监控指标类型为CPU运行状态类型,则在该机器资源监控数据中获取到CPU运行状态参数。
在该监控指标类型为多个的情况下,可以在该机器监控资源数据中获取每个监控指标类型各自对应的目标监控数据。
S104:将所述目标监控数据与所述指标阈值规则进行比对,以判断所述设备节点是否处于异常状态。
本发明实施例提供的方法中,每个目标监控数据对应的指标阈值规则可以为一个或多个。
本发明实施例提供的方法中,将目标监控数据与该指标阈值规则进行比对的方式,可以为将目标监控数据与该目标监控数据对应的监控数据阈值进行比对;也可以将该目标监控数据以及过去一段时间或过去的预设的次数内该设备节点相同类型的历史目标监控数据进行聚合处理,得到第一最大值、第一平均值以及第一最小值;将该第一最大值与第一最大值阈值进行比对、第一平均值与第一平均值阈值比对,将第一最小值与最小值阈值比对;若当前的目标监控数据为多个,还可以将多个目标监控数据进行聚合处理,得到第二最大值、第二最小值以及第二平均值,将第二最大值与第二最大值阈值进行比对、第二最小值与第二最小值阈值比对以及将第二平均值与第三平均值阈值进行比对;相应的,当上述任一比对结果表征与该指标阈值规则不匹配时,确定该设备节点处于异常状态。
具体的,每一监控指标类型的指标阈值规则对应的一个异常状态评判规则表,将目标监控数据与该指标阈值规则进行比对,得到比对结果,将该比对结果与该异常异常状态评判规则表进行比较,即可确定该设备节点是否处于异常状态,若为异常状态,还可以获取该异常状态的具体描述信息,例如故障类型、故障严重程度等。
本发明实施例提供的方法中,若目标监控数据的数量为多个,当任一目标监控数据和其对应的指标阈值规则的比对结果表征该监控数据不处于预先设置的合理区间时,确定该设备节点处于异常状态。
S105:若所述设备节点处于异常状态,则生成所述异常状态对应的告警事件,并判断所述告警事件是否满足预先设置的告警规则。
本发明实施例提供的方法中,可以依据获取该机器资源监控数据的时间、该设备节点的节点信息、异常状态的故障类型、以及故障严重程度值等生成该告警事件,该节点信息可以为该节点的IP地址信息、端口号以及该设备节点所处的地域等。
本发明实施例提供的方法中,可以通过该告警事件的类型、故障的严重程度、故障的发生时间、当前的时间、以及该告警事件是否为重复的事件等以上一种或多种因素判断该告警事件是否满足告警规则。
S106:若所述告警事件满足所述告警规则,则确定与所述告警事件对应的目标修复脚本。
本发明实施例提供的方法中,确定与所述告警事件对应的目标修复脚本的一种方式可以为:对该告警事件进行分析,获得该告警事件对应的故障原因,依据该故障原因在预先建立的脚本文件库中确定目标修复脚本。
S107:依据所述目标修复脚本生成作业指令,并将所述作业指令发送至所述设备节点,以触发所述设备节点依据所述作业指令执行修复操作。
本发明实施例提供的方法中,可以依据该设备节点对应的IP地址以及端口号,将该作业指令发送至该设备节点。
本发明提供了一种设备的故障修复方法,包括:当接收到机器资源监控数据时,确定所述机器资源监控数据对应的设备节点;获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则;在所述机器资源监控数据中获取与所述监控指标类型匹配的目标监控数据;将所述目标监控数据与所述指标阈值规则进行比对,以判断所述设备节点是否处于异常状态;若所述设备节点处于异常状态,则生成所述异常状态对应的告警事件,并判断所述告警事件是否满足预先设置的告警规则;若满足,则确定与所述告警事件对应的目标修复脚本;依据所述目标修复脚本生成作业指令,并将所述作业指令发送至所述设备节点,以触发所述设备节点依据所述作业指令执行修复操作。应用本发明提供的设备的故障修复方法,能够确定告警事件对应的目标修复脚本,应用该修复脚本修复设备的故障,能够快速的修复设备的故障。
本发明实施例提供的方法中,基于上述的实施过程,具体的,所述获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则,包括:
依据所述设备节点的设备节点标识遍历预先设置的配置文件,获得与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则。
具体的,该配置文件中记录有各个设备节点标识、各个监控指标类型、以及各个指标阈值规则之间的关联关系,每一设备节点标识对应一个或多个监控指标类型,每一监控指标类型对应一个或多个指标阈值规则,依据该设备节点标识遍历该配置文件,即可得到该设备节点对应的监控指标类型、该监控指标类型对应的指标阈值规则。
本发明实施例提供的方法中,基于上述的实施过程,具体的,判断所述告警事件是否满足预先设置的告警规则的过程,如图2所示,可以包括:
S201:依据预先设置的告警白名单判断所述告警事件当前是否处于抑制状态,若否,则执行S202;若是,则执行S206。
本发明实施例提供的方法中,判断告警事件是否处于抑制状态的一种方法可以为:判断该告警白名单中是否包含该告警事件对应的事件标识,若存在,则判断该告警事件是否满足指定的条件,若满足,则确定该告警事件当前处于抑制状态,该指定的条件可以为指定的时间,例如,确定该告警事件对应的发生时间,若发生时间为02:00,该指定的时间为00:00-06:00,则确定该告警事件处于抑制状态,即暂不处理该告警事件,该指定的条件也可以为故障严重程度值等,具体可以由技术人员依据实际需求进行设定。
S202:获取所述设备节点在预设时段内对应的告警记录。
本发明实施例提供的方法中,可以在预先设置的告警记录存储表中确定该设备节点在预设时间段内的告警记录,该预设时间段可以为当前时刻对应的前一个时间段,例如,可以获取过去的5分钟内、过去的30分钟内、过去的2个小时内的告警记录。
S203:判断所述告警记录中是否存在与所述告警事件相关联的历史告警事件,若否,则执行S204,若是,则执行S205。
本发明实施例提供的方法中,依据预先设置的关联事件配置文件中,确定与该告警事件关联的各个关联告警事件,将该告警记录与该关联事件配置文件进行匹配,以判断该告警记录中是否存在与该告警事件相关联的历史告警事件。
本发明实施例提供的方法中,若存在与该告警事件相关联的历史告警事件,则说明该告警事件为重复无效的告警事件或可聚合的告警事件,若为重复的告警事件,则可以不对该告警事件进行处理,若为可聚合的告警事件,则可以将该告警事件以及与其关联的历史告警事件进行聚合操作,得到目标告警事件;若不存在该告警事件相关联的历史告警事件,则说明该告警事件为新的告警事件。
本发明实施例提供的方法中,通过该关联配置文件确定该告警事件与各个历史告警事件的关联关系,该告警事件与历史告警事件可以为父子关联关系,也可以拓扑聚合关联关系等等。
S204:判断所述告警事件与所述历史告警事件是否满足预先设置的聚合规则,若是,则执行S205,若否,则执行S206。
S205:确定所述告警事件满足所述告警规则。
S206:确定所述告警事件不满足所述告警事件。
本发明实施例提供的方法,通过判断告警事件是否满足告警规则,有效地抵御告警风暴,大大降低无效告警的干扰,从而提升运维协作处理的效率。
本发明实施例提供的方法中,基于上述的实施过程,具体的,若所述告警事件与所述历史告警事件是否满足预先设置的聚合规则,则所述确定与所述告警事件对应的目标修复脚本,包括:
将所述告警事件以及所述历史告警事件进行聚合操作,得到目标告警事件;
依据所述目标告警事件在预先建立的脚本文件库中确定目标修复脚本。
本发明实施例提供的方法中,依据告警事件以及历史告警事件之间的关联关系,确定聚合方式,依据该聚合方式将该目标告警事件以及历史告警事件进行聚合,得到目标告警事件,确定该目标告警事件对应的异常原因,依据该异常原因确定目标修复脚本。
本发明实施例提供的方法中,基于上述的实施过程,具体的,确定所述告警事件满足所述告警规则之后,还包括:
判断所述告警事件是否满足预先设置的告警通知规则,若满足,则生成与所述告警事件对应的告警通知消息;
确定与所述设备节点对应的告警接收组,将所述告警通知消息发送至所述告警接收组中的各个对象。
本发明实施例提供的方法中,可以确定该告警事件对应的故障原因,依据目标监控数据、故障原因、节点设备的节点信息等生成该告警事件对应的告警通知消息。
其中,对于符合压缩规则的各个告警事件,可以合成统一个告警通知消息,例如具有父子关联关系的两个告警事件,可以合并为父告警事件。
具体的,获取告警接收组中各个对象的通讯地址,可以将该告警通知信息通过相应的通讯地址以短消息、邮件、语音等以上一种或多种形式发送至各个对象。
本发明实施例提供的方法中,基于上述的实施过程,具体的,所述依据所述目标修复脚本生成作业指令,包括:
获取所述设备节点的IP地址信息以及所述设备节点所处的区域信息;
调用预先设置的作业模板,对所述IP地址信息、所述区域信息以及所述目标修复脚本进行编排,得到所述设备节点对应的作业指令。
本发明实施例提供的方法中,该区域信息可以为地域信息,例如某个省份、某个市县等。
本发明实施例提供的方法中,可以依据该作业模板确定IP地址信息、地域信息、目标修复脚本等信息的编排位置,依据该编排位置对该IP地址信息、地域信息以及目标修复脚本进行编排,得到作业指令。
应用本发明实施例提供的方法,通过下发自动化脚本进行故障修复,实现告警故障处理一体化,节省人为手动处理故障的成本。
本发明实施例提供的方法中,基于上述的实施过程,具体的,在所述告警事件满足预先告警规则的情况下,可以获取该设备节点的在过去一段时间内的历史告警事件,依据当前的告警事件以及过去一段时间内的历史告警事件进行综合分析,以确定该告警事件对应的最大概率的故障原因;基于该故障原因在预先建立的脚本文件库中确定该告警事件对应的目标修复脚本。
具体的,可以提取当前的告警事件的故障特征以及各个历史告警事件的故障特征;并依据各个故障特征各自对应的权重值对各个故障特征进行计算,以确定该告警事件与各个预先设置的故障原因对应的概率值,将概率值最大的故障原因确定为该告警事件的故障原因。
本发明实施例提供的方法中,该脚本文件库中预先存储有多个修复脚本,不同的故障原因对应不同的故障脚本。
参见图3,为本发明提供的一实施场景示例图,本发明实施例提供的实施场景包括了监控服务器301、各个节点设备302以及告警接收组303。
实施时,图3所示的监控服务器301可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。监控服务器301与各个节点设备302通过网络建立通信连接,监控服务器301与告警接收组303通过网络建立通信连接,该告警接收组303中包含有多个对象,各对象可以是诸如手机、平板电脑、个人计算机等电子设备等。
本发明实施例涉及的网络为提供通信链路的介质,该网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
节点设备上安装有Agent程序,响应于Agent程序中的指令,采集自身的机器资源监控数据,并将该机器资源监控数据传输至监控服务器。
当监控服务器接收到机器资源监控数据时,确定机器资源监控数据对应的设备节点;获取与设备节点对应的监控指标类型以及监控指标类型对应的指标阈值规则;在机器资源监控数据中获取与监控指标类型匹配的目标监控数据;将目标监控数据与指标阈值规则进行比对,以判断设备节点是否处于异常状态;若设备节点处于异常状态,则生成该异常状态对应的告警事件,并判断告警事件是否满足预先设置的告警规则;若满足,则确定与告警事件对应的目标修复脚本;依据目标修复脚本生成作业指令,并将作业指令发送至设备节点,以触述设备节点依据作业指令执行修复操作;还可以生成与告警事件对应的告警通知消息;确定与设备节点对应的告警接收组,将告警通知消息发送至告警接收组中的各个对象。
应该理解,图3中示出的监控服务器、节点设备以及告警接收组以及告警接收组中的对象的数量仅是示意性的,可以由技术人员依据实际需求进行设定。
在具体实现过程中,监控服务器的实现功能可以划分为多个功能模块,如图4所示,为本发明实施例提供的一种设备异常的修复系统的结构示例图,该系统包括有采控模块、监控模块、监控器、告警模块、分析引擎、通知中心以及故障自愈模块;
该采集模块可以用于采集安装有agent程序的数据库、服务器、网络设备以及中间件等设备节点的机器资源监控信息,并应用http协议传输至监控模块;监控模块依据预先设置的指标模块和阈值模板,针对需要监控的设备节点,实例化相关指标和阈值模板进行实时异常监测,对于监测到的异常信息,生成相应的告警事件,将该告警事件发送至告警模块,告警模块接收到告警事件时,通过分析引擎,对该告警事件进行处理。
应用本发明实施例提供的方法,能够实现配置告警的通知、屏蔽、压缩、过滤、去重等功能。
本发明实施例提供的方法,支持设计相应的规则动作脚本,将脚本添加到规则引擎库,关联相应的告警事件,例如添加白名单告警规则,对于在白名单中的告警事件,自动处理关闭,无需进行通知;或者对于指定时间段的告警事件全部关闭处理等。故障自愈模块,可以对该告警事件进行分析,得到该设备节点的IP地址信息以及告警内容,生成相应的作业脚本,将该作业脚本通过采控模块的命令通道发送至设备节点,以触发设备节点进行自动化修复。
参见图5,为本发明实施例提供的一种监控模块的结构示例图,包括监测器和数据分析引擎,agent程序将产生的监控指标数据上报采集结果到kafka集群中,数据分析引擎中的实时数据处理系统storm拉取kafka队列的监控数据进行处理,与监测器中设置的监测套餐进行指标、阈值规则的分析计算,对于符合规则的监控数据,产生的相应的告警事件,发送到告警平台,并将结果存储到mysql中。
参见图6,为本发明实施例提供的一种告警模块的结构示例图,包含Flume、Redis队列、告警处理模块、告警规则引擎、告警通知模块。
告警事件信息源的接入采用Flume。Flume是一个分布式、可靠地、可用的服务,用于收集、聚合、传输日志数据;Flunme具有健壮性、容错机制、故障转移、恢复机制,同时Flume提供对数据的简单处理,并写到各种数据方的能力。
目标监控数据接入后进入到redis队列中,对目标监控数据进行处理需要关联相关的告警引擎库,获取目标监控数据对应的压缩、抑制、屏蔽规则等算子,以对该目标监控数据进行处理,得到告警事件。将目标监控数据和处理后的告警事件存储到数据库中,告警引擎可以设置相应的告警通知规则,将对应的告警事件发送给相应告警接收组,进行短信、邮件进行通知,同时将告警信息发送到故障自愈模块进行故障自愈。
参见图7,为本发明实施例提供的一种故障自愈模块的结构示例图,包括告警事件解析模块、脚本文件库、故障修复模块、作业编排模块、自愈作业库。
告警事件解析模块对告警事件进行清洗解析,该告警事件解析模块中包含有多种数据ETL清洗算子,例如正则表达式、数据转换、求和计算等,利用预先编排的操作算子对该告警事件进行处理,以提取出相应的告警内容、故障IP、告警地域等关键字段信息。
故障修复模块根据解析的内容从自愈脚本库中拉取目标修复脚本,应用作业编排模块对该目标修复脚本进行编排,该自愈作业库依据作业编排模块中的编排模板以及目标修复脚本生成作业指令,将作业指令下发到采控模块的命令通道进行自动化作业的执行,解决故障问题。
若脚本文件库没有对应的目标修复脚本,则可以向运维人员发送提示信息,提示运维人员补充应急预案,添加相关处理脚本,用于以后进行告警处理。
与图1所述的方法相对应,本发明实施例还提供了一种设备的故障修复装置,用于对图1中方法的具体实现,本发明实施例提供的设备的故障修复装置可以应用于计算机终端或各种移动设备中,其结构示意图如图8所示,具体包括:
接收单元401,用于当接收到机器资源监控数据时,确定所述机器资源监控数据对应的设备节点;
第一获取单元402,用于获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则;
第二获取单元403,用于在所述机器资源监控数据中获取与所述监控指标类型匹配的目标监控数据;
比对单元404,用于将所述目标监控数据与所述指标阈值规则进行比对,以判断所述设备节点是否处于异常状态;
生成单元405,用于若所述设备节点处于异常状态,则生成所述异常状态对应的告警事件,并判断所述告警事件是否满足预先设置的告警规则;
确定单元406,用于当所述告警事件满足所述告警规则时,确定与所述告警事件对应的目标修复脚本;
修复单元407,用于依据所述目标修复脚本生成作业指令,并将所述作业指令发送至所述设备节点,以触发所述设备节点依据所述作业指令执行修复操作。
在本发明提供的一个实施例中,基于上述的方案,可选的,所述第一获取单元402,包括:
查询子单元,用于依据所述设备节点的设备节点标识遍历预先设置的配置文件,获得与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则。
在本发明提供的一个实施例中,基于上述的方案,可选的,判断所述告警事件是否满足预先设置的告警规则的所述生成单元405,包括:
第一判断子单元,用于依据预先设置的告警白名单判断所述告警事件当前是否处于抑制状态;
第一获取子单元,用于当所述告警事件未处于所述抑制状态时,获取所述设备节点在预设时段内对应的告警记录;
第二判断子单元,用于判断所述告警记录中是否存在与所述告警事件相关联的历史告警事件;
第一执行子单元,用于在与所述告警事件关联的历史告警事件的情况下,则判断所述告警事件与所述历史告警事件是否满足预先设置的聚合规则,若满足,则确定所述告警事件满足预先设置的告警规则;
第二执行子单元,用于当不存在与所述告警事件相关联的历史告警事件时,确定所述告警事件满足所述告警规则。
在本发明提供的一个实施例中,基于上述的方案,可选的,所述依据所述目标修复脚本生成作业指令的所述修复单元407,包括:
第二获取子单元,用于获取所述设备节点的IP地址信息以及所述设备节点所处的区域信息;
生成子单元,用于调用预先设置的作业模板,对所述IP地址信息、所述区域信息以及所述目标修复脚本进行编排,得到所述设备节点对应的作业指令。
上述本发明实施例公开的设备的故障修复装置中的各个单元和模块具体的原理和执行过程,与上述本发明实施例公开的设备的故障修复方法相同,可参见上述本发明实施例提供的设备的故障修复方法中相应的部分,这里不再进行赘述。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述设备的故障修复方法。
本发明实施例还提供了一种电子设备,其结构示意图如图9所示,具体包括存储器501,以及一个或者一个以上的指令502,其中一个或者一个以上指令502存储于存储器501中,且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作:
当接收到机器资源监控数据时,确定所述机器资源监控数据对应的设备节点;
获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则;
在所述机器资源监控数据中获取与所述监控指标类型匹配的目标监控数据;
将所述目标监控数据与所述指标阈值规则进行比对,以判断所述设备节点是否处于异常状态;
若所述设备节点处于异常状态,则生成所述异常状态对应的告警事件,并判断所述告警事件是否满足预先设置的告警规则;
若满足,则确定与所述告警事件对应的目标修复脚本;
依据所述目标修复脚本生成作业指令,并将所述作业指令发送至所述设备节点,以触发所述设备节点依据所述作业指令执行修复操作。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种设备的故障修复方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种设备的故障修复方法,其特征在于,包括:
当接收到机器资源监控数据时,确定所述机器资源监控数据对应的设备节点;
获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则;
在所述机器资源监控数据中获取与所述监控指标类型匹配的目标监控数据;
将所述目标监控数据与所述指标阈值规则进行比对,以判断所述设备节点是否处于异常状态;
若所述设备节点处于异常状态,则生成所述异常状态对应的告警事件,并判断所述告警事件是否满足预先设置的告警规则;
若满足,则确定与所述告警事件对应的目标修复脚本;
依据所述目标修复脚本生成作业指令,并将所述作业指令发送至所述设备节点,以触发所述设备节点依据所述作业指令执行修复操作。
2.根据权利要求1所述的方法,其特征在于,所述获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则,包括:
依据所述设备节点的设备节点标识遍历预先设置的配置文件,获得与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则。
3.根据权利要求1所述的方法,其特征在于,判断所述告警事件是否满足预先设置的告警规则包括:
依据预先设置的告警白名单判断所述告警事件当前是否处于抑制状态;
若所述告警事件未处于所述抑制状态,则获取所述设备节点在预设时段内对应的告警记录;
判断所述告警记录中是否存在与所述告警事件相关联的历史告警事件;
若存在,则判断所述告警事件与所述历史告警事件是否满足预先设置的聚合规则,若满足,则确定所述告警事件满足所述告警规则;
若不存在,则确定所述告警事件满足所述告警规则。
4.根据权利要求3所述的方法,其特征在于,若所述告警事件与所述历史告警事件是否满足预先设置的聚合规则,则所述确定与所述告警事件对应的目标修复脚本,包括:
将所述告警事件以及所述历史告警事件进行聚合操作,得到目标告警事件;
依据所述目标告警事件在预先建立的脚本文件库中确定目标修复脚本。
5.根据权利要求1所述的方法,其特征在于,确定所述告警事件满足所述告警规则之后,还包括:
判断所述告警事件是否满足预先设置的告警通知规则,若满足,则生成与所述告警事件对应的告警通知消息;
确定与所述设备节点对应的告警接收组,将所述告警通知消息发送至所述告警接收组中的各个对象。
6.根据权利要求1所述的方法,其特征在于,所述依据所述目标修复脚本生成作业指令,包括:
获取所述设备节点的IP地址信息以及所述设备节点所处的区域信息;
调用预先设置的作业模板,对所述IP地址信息、所述区域信息以及所述目标修复脚本进行编排,得到所述设备节点对应的作业指令。
7.一种设备的故障修复装置,其特征在于,包括:
接收单元,用于当接收到机器资源监控数据时,确定所述机器资源监控数据对应的设备节点;
第一获取单元,用于获取与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则;
第二获取单元,用于在所述机器资源监控数据中获取与所述监控指标类型匹配的目标监控数据;
比对单元,用于将所述目标监控数据与所述指标阈值规则进行比对,以判断所述设备节点是否处于异常状态;
生成单元,用于若所述设备节点处于异常状态,则生成所述异常状态对应的告警事件,并判断所述告警事件是否满足预先设置的告警规则;
确定单元,用于当所述告警事件满足所述告警规则时,确定与所述告警事件对应的目标修复脚本;
修复单元,用于依据所述目标修复脚本生成作业指令,并将所述作业指令发送至所述设备节点,以触发所述设备节点依据所述作业指令执行修复操作。
8.根据权利要求7所述的装置,其特征在于,所述第一获取单元,包括:
查询子单元,用于依据所述设备节点的设备节点标识遍历预先设置的配置文件,获得与所述设备节点对应的监控指标类型以及所述监控指标类型对应的指标阈值规则。
9.根据权利要求7所述的装置,其特征在于,判断所述告警事件是否满足预先设置的告警规则的所述生成单元,包括:
第一判断子单元,用于依据预先设置的告警白名单判断所述告警事件当前是否处于抑制状态;
第一获取子单元,用于当所述告警事件未处于所述抑制状态时,获取所述设备节点在预设时段内对应的告警记录;
第二判断子单元,用于判断所述告警记录中是否存在与所述告警事件相关联的历史告警事件;
第一执行子单元,用于存在与所述告警事件关联的历史告警事件的情况下,则判断所述告警事件与所述历史告警事件是否满足预先设置的聚合规则,若满足,则确定所述告警事件满足预先设置的告警规则;
第二执行子单元,用于当不存在与所述告警事件相关联的历史告警事件时,确定所述告警事件满足所述告警规则。
10.根据权利要求7所述的装置,其特征在于,所述依据所述目标修复脚本生成作业指令的所述修复单元,包括:
第二获取子单元,用于获取所述设备节点的IP地址信息以及所述设备节点所处的区域信息;
生成子单元,用于调用预先设置的作业模板,对所述IP地址信息、所述区域信息以及所述目标修复脚本进行编排,得到所述设备节点对应的作业指令。
CN201911418628.2A 2019-12-31 2019-12-31 设备的故障修复方法及装置 Pending CN111176879A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911418628.2A CN111176879A (zh) 2019-12-31 2019-12-31 设备的故障修复方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911418628.2A CN111176879A (zh) 2019-12-31 2019-12-31 设备的故障修复方法及装置

Publications (1)

Publication Number Publication Date
CN111176879A true CN111176879A (zh) 2020-05-19

Family

ID=70654312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911418628.2A Pending CN111176879A (zh) 2019-12-31 2019-12-31 设备的故障修复方法及装置

Country Status (1)

Country Link
CN (1) CN111176879A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111752741A (zh) * 2020-06-30 2020-10-09 深圳前海微众银行股份有限公司 一种系统性能检测的方法及装置
CN111782433A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 异常排查方法、装置、电子设备和存储介质
CN112087441A (zh) * 2020-09-03 2020-12-15 郑州信大先进技术研究院 多协议通信方法、智慧家庭网关及多协议通信系统
CN112214409A (zh) * 2020-10-13 2021-01-12 中国工商银行股份有限公司 一种用于测试环境下的运维方法及装置
CN112328425A (zh) * 2020-12-04 2021-02-05 杭州谐云科技有限公司 一种基于机器学习的异常检测方法和系统
CN112416729A (zh) * 2020-11-24 2021-02-26 平安普惠企业管理有限公司 数据处理方法、装置、电子设备及存储介质
CN112770197A (zh) * 2020-12-31 2021-05-07 深圳前海微众银行股份有限公司 确定otn设备故障原因的方法、装置、设备、存储介质
CN112817827A (zh) * 2021-01-22 2021-05-18 中国银联股份有限公司 运维方法、装置、服务器、设备、系统及介质
CN113010375A (zh) * 2021-02-26 2021-06-22 腾讯科技(深圳)有限公司 设备告警方法及相关设备
CN113055442A (zh) * 2021-02-20 2021-06-29 深圳中正信息科技有限公司 基于动态因子的事件生成方法、电子设备及存储介质
CN113141273A (zh) * 2021-04-22 2021-07-20 康键信息技术(深圳)有限公司 基于预警信息的自修复方法、装置、设备及存储介质
CN113359584A (zh) * 2021-05-07 2021-09-07 烽火通信科技股份有限公司 一种离线模式下智慧杆设备状态诊断方法及装置
CN113535521A (zh) * 2021-07-28 2021-10-22 中国建设银行股份有限公司 一种数据监控方法及装置
CN113553240A (zh) * 2021-07-29 2021-10-26 湖南快乐阳光互动娱乐传媒有限公司 报警数据处理方法及装置
CN113590437A (zh) * 2021-08-03 2021-11-02 上海浦东发展银行股份有限公司 一种告警信息处理方法、装置、设备和介质
CN113608839A (zh) * 2021-08-10 2021-11-05 曙光信息产业(北京)有限公司 集群告警方法、装置、计算机设备及存储介质
CN114070718A (zh) * 2021-10-19 2022-02-18 深圳市有方科技股份有限公司 一种告警方法、装置和存储介质
CN114331046A (zh) * 2021-12-13 2022-04-12 湖南天云软件技术有限公司 一种告警事件处理方法、装置、设备及计算机存储介质
CN116743804A (zh) * 2023-06-09 2023-09-12 杭州市保密科技测评中心(杭州市专用通信与保密技术服务中心) 一种机房可视化监管系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN108632106A (zh) * 2017-03-22 2018-10-09 广达电脑股份有限公司 监控服务设备的系统
CN110430071A (zh) * 2019-07-19 2019-11-08 云南电网有限责任公司信息中心 业务节点故障自愈方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN108632106A (zh) * 2017-03-22 2018-10-09 广达电脑股份有限公司 监控服务设备的系统
CN110430071A (zh) * 2019-07-19 2019-11-08 云南电网有限责任公司信息中心 业务节点故障自愈方法、装置、计算机设备及存储介质

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782433A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 异常排查方法、装置、电子设备和存储介质
CN111752741A (zh) * 2020-06-30 2020-10-09 深圳前海微众银行股份有限公司 一种系统性能检测的方法及装置
CN111782433B (zh) * 2020-06-30 2024-06-25 北京百度网讯科技有限公司 异常排查方法、装置、电子设备和存储介质
CN112087441B (zh) * 2020-09-03 2022-08-16 郑州信大先进技术研究院 多协议通信方法、智慧家庭网关及多协议通信系统
CN112087441A (zh) * 2020-09-03 2020-12-15 郑州信大先进技术研究院 多协议通信方法、智慧家庭网关及多协议通信系统
CN112214409A (zh) * 2020-10-13 2021-01-12 中国工商银行股份有限公司 一种用于测试环境下的运维方法及装置
CN112214409B (zh) * 2020-10-13 2023-11-24 中国工商银行股份有限公司 一种用于测试环境下的运维方法及装置
CN112416729A (zh) * 2020-11-24 2021-02-26 平安普惠企业管理有限公司 数据处理方法、装置、电子设备及存储介质
CN112328425A (zh) * 2020-12-04 2021-02-05 杭州谐云科技有限公司 一种基于机器学习的异常检测方法和系统
CN112770197A (zh) * 2020-12-31 2021-05-07 深圳前海微众银行股份有限公司 确定otn设备故障原因的方法、装置、设备、存储介质
CN112770197B (zh) * 2020-12-31 2024-08-23 深圳前海微众银行股份有限公司 确定otn设备故障原因的方法、装置、设备、存储介质
CN112817827A (zh) * 2021-01-22 2021-05-18 中国银联股份有限公司 运维方法、装置、服务器、设备、系统及介质
CN113055442B (zh) * 2021-02-20 2022-07-15 深圳中正信息科技有限公司 基于动态因子的事件生成方法、电子设备及存储介质
CN113055442A (zh) * 2021-02-20 2021-06-29 深圳中正信息科技有限公司 基于动态因子的事件生成方法、电子设备及存储介质
CN113010375B (zh) * 2021-02-26 2023-03-28 腾讯科技(深圳)有限公司 设备告警方法及相关设备
CN113010375A (zh) * 2021-02-26 2021-06-22 腾讯科技(深圳)有限公司 设备告警方法及相关设备
CN113141273A (zh) * 2021-04-22 2021-07-20 康键信息技术(深圳)有限公司 基于预警信息的自修复方法、装置、设备及存储介质
CN113359584A (zh) * 2021-05-07 2021-09-07 烽火通信科技股份有限公司 一种离线模式下智慧杆设备状态诊断方法及装置
CN113359584B (zh) * 2021-05-07 2022-05-13 烽火通信科技股份有限公司 一种离线模式下智慧杆设备状态诊断方法及装置
CN113535521A (zh) * 2021-07-28 2021-10-22 中国建设银行股份有限公司 一种数据监控方法及装置
CN113553240B (zh) * 2021-07-29 2022-04-19 湖南快乐阳光互动娱乐传媒有限公司 报警数据处理方法及装置
CN113553240A (zh) * 2021-07-29 2021-10-26 湖南快乐阳光互动娱乐传媒有限公司 报警数据处理方法及装置
CN113590437A (zh) * 2021-08-03 2021-11-02 上海浦东发展银行股份有限公司 一种告警信息处理方法、装置、设备和介质
CN113590437B (zh) * 2021-08-03 2024-04-30 上海浦东发展银行股份有限公司 一种告警信息处理方法、装置、设备和介质
CN113608839A (zh) * 2021-08-10 2021-11-05 曙光信息产业(北京)有限公司 集群告警方法、装置、计算机设备及存储介质
CN114070718A (zh) * 2021-10-19 2022-02-18 深圳市有方科技股份有限公司 一种告警方法、装置和存储介质
CN114070718B (zh) * 2021-10-19 2023-11-21 深圳市有方科技股份有限公司 一种告警方法、装置和存储介质
CN114331046A (zh) * 2021-12-13 2022-04-12 湖南天云软件技术有限公司 一种告警事件处理方法、装置、设备及计算机存储介质
CN116743804A (zh) * 2023-06-09 2023-09-12 杭州市保密科技测评中心(杭州市专用通信与保密技术服务中心) 一种机房可视化监管系统

Similar Documents

Publication Publication Date Title
CN111176879A (zh) 设备的故障修复方法及装置
CN107508722B (zh) 一种业务监控方法和装置
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN112115031B (zh) 集群状态监控方法及装置
CN110784352B (zh) 一种基于Oracle Goldengate的数据同步监控告警方法及装置
CN113282635A (zh) 一种微服务系统故障根因定位方法及装置
CN109034580B (zh) 一种基于大数据分析的信息系统整体健康度评估方法
CN107239388A (zh) 一种监测告警方法及系统
CN114500250A (zh) 一种云模式下体系联动的综合运维系统及方法
CN113542039A (zh) 一种通过ai算法定位5g网络虚拟化跨层问题的方法
CN112711493A (zh) 一种场景化根因分析应用
CN113298486A (zh) 一种基于大数据的政务监察督查方法及系统
CN113704018A (zh) 应用运维数据处理方法、装置、计算机设备及存储介质
CN108964957B (zh) 一种数据通信业务质量监控的方法及大数据系统
CN109032904A (zh) 被监控、管理服务器及数据获取、分析方法和管理系统
CN116257021A (zh) 一种工控系统智能网络安全态势监测预警平台
WO2024139937A1 (zh) 一种基于边缘计算的直播拉流监测方法及装置
CN113656252A (zh) 故障定位方法、装置、电子设备以及存储介质
CN114546776A (zh) 一种基于云平台的异常数据监控方法
CN114172921A (zh) 一种调度录音系统的日志审计方法及装置
CN114327967A (zh) 设备修复方法及装置、存储介质、电子装置
CN117729576A (zh) 告警监控方法、装置、设备及存储介质
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN117670033A (zh) 一种安全检查方法、系统、电子设备及存储介质
CN107769993A (zh) 面向电网大数据分布式系统的数据流量监控方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519