CN113986659A - 故障分析方法、装置、设备及计算机存储介质 - Google Patents

故障分析方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN113986659A
CN113986659A CN202111211802.3A CN202111211802A CN113986659A CN 113986659 A CN113986659 A CN 113986659A CN 202111211802 A CN202111211802 A CN 202111211802A CN 113986659 A CN113986659 A CN 113986659A
Authority
CN
China
Prior art keywords
preset
detection
fault
monitoring
monitoring index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111211802.3A
Other languages
English (en)
Inventor
杨平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Tianyun Software Technology Co ltd
Original Assignee
Hunan Tianyun Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Tianyun Software Technology Co ltd filed Critical Hunan Tianyun Software Technology Co ltd
Priority to CN202111211802.3A priority Critical patent/CN113986659A/zh
Publication of CN113986659A publication Critical patent/CN113986659A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供了一种故障分析方法、装置、设备及计算机存储介质,该故障分析方法包括获取检测单元中按照时间顺序产生的监控指标数据;基于监控指标数据,计算每个监控指标数据的检测分数;计算检测分数中大于预设指标分数阈值的第一监控指标数据的检测分数的均值;将检测分数的均值与预设单元异常分数阈值进行比对,确定检测分数的均值大于预设单元异常分数阈值的检测单元为故障单元;基于第一监控指标之间的预设因果关系与预设时间顺序关系,确定故障单元的第一监控指标中的目标异常指标。根据本申请实施例,可以通过监控指标数据的检测分数确定故障单元,基于监控指标之间的因果关系,确定目标异常指标,提高了故障分析的时效性与准确性。

Description

故障分析方法、装置、设备及计算机存储介质
技术领域
本申请属于通信技术领域,尤其涉及一种故障分析方法、装置、设备及计算机存储介质。
背景技术
随着互联网技术的发展,应用类型变得越来越复杂多样,尤其在大型数据中心,各类应用运行过程中会出现各种各样的故障,因此,如何从各类应用大量的节点与数据中分析故障发生的原因,成为亟待解决的问题。
现有技术中,主要通过人工基于应用数据对故障进行定位后,有经验的运维人员对故障发生的原因进行分析推断,然而,以上方式对运维人员有一定的技术门槛和经验要求,且存在时效性与准确性较低,费时费力的问题。
发明内容
本申请实施例提供一种故障分析方法、装置、设备及计算机存储介质,能够解决现有技术中故障分析的时效性与准确性较低,费时费力的问题。
第一方面,本申请实施例提供一种故障分析方法,该方法包括:
获取检测单元中按照时间顺序产生的监控指标数据;
基于所述监控指标数据,计算每个监控指标数据的检测分数;其中,所述检测分数表征每个监控指标对应的异常程度;
计算所述检测分数中大于预设指标分数阈值的第一监控指标数据的检测分数的均值;
将所述检测分数的均值与预设单元异常分数阈值进行比对,确定所述检测分数的均值大于所述预设单元异常分数阈值的所述检测单元为故障单元;
基于所述第一监控指标之间的预设因果关系与预设时间顺序关系,确定所述故障单元的所述第一监控指标中的目标异常指标;其中,所述目标异常指标为所述第一监控指标的时间顺序中时间最早的监控指标。
在一种可选的实施方式中,所述基于所述监控指标数据,计算每个监控指标数据的检测分数,包括:
对所述监控指标数据进行平滑处理;
基于第一预设算法模型,计算每个平滑处理后的所述监控指标数据的所述检测分数。
在一种可选的实施方式中,在所述计算所述检测分数中大于预设指标分数阈值的第一监控指标数据的检测分数的均值之前,所述方法还包括:
基于预设故障标记数据,计算所述预设故障标记数据对应的故障单元中所述目标异常指标的所述检测分数的均值;
确定所述均值中的最小值为所述预设单元异常分数阈值。
在一种可选的实施方式中,在所述基于所述第一监控指标之间的预设因果关系与预设时间顺序关系,确定所述故障单元的所述第一监控指标中的目标异常指标之后,所述方法还包括:
显示故障报警信息,所述故障报警信息包括所述目标异常指标。
在一种可选的实施方式中,所述故障报警信息包括故障报警等级;在所述显示故障报警信息之前,所述方法还包括:
基于第二预设算法模型计算所述第一监控指标的异常概率值;
根据所述异常概率值,确定所述目标异常指标对应的所述故障报警等级。
在一种可选的实施方式中,所述计算所述检测分数中大于预设指标分数阈值的第一监控指标数据的检测分数的均值,包括:
将所述检测分数与所述预设指标分数阈值进行比对,确定按时间顺序计算的所述检测分数持续大于所述预设指标分数阈值的所述第一监控指标数据的时间;
在所述时间大于预设时间段的情况下,计算所述第一监控指标数据的检测分数的均值。
在一种可选的实施方式中,所述方法还包括:
基于预设报警抑制函数,对所述目标异常指标对应的故障报警进行判断;
在所述故障报警是重复报警的情况下,对所述目标异常指标对应的故障报警进行抑制。
第二方面,本申请实施例提供了一种故障分析装置,该故障分析装置包括:
获取模块,用于获取检测单元中按照时间顺序产生的监控指标数据;
计算模块,用于基于所述监控指标数据,计算每个监控指标数据的检测分数;其中,所述检测分数表征每个监控指标对应的异常程度;
所述计算模块,还用于计算所述检测分数中大于预设指标分数阈值的第一监控指标数据的检测分数的均值;
确定模块,用于将所述检测分数的均值与预设单元异常分数阈值进行比对,确定所述检测分数的均值大于所述预设单元异常分数阈值的所述检测单元为故障单元;
所述确定模块,还用于基于所述第一监控指标之间的预设因果关系与预设时间顺序关系,确定所述故障单元的所述第一监控指标中的目标异常指标;其中,所述目标异常指标为所述第一监控指标的时间顺序中时间最早的监控指标。
在一种可选的实施方式中,该故障分析装置还包括处理模块;
所述处理模块,用于对所述监控指标数据进行平滑处理;
所述计算模块,还用于基于第一预设算法模型,计算每个平滑处理后的所述监控指标数据的所述检测分数。
在一种可选的实施方式中,所述计算模块,还用于在所述计算所述检测分数中大于预设指标分数阈值的第一监控指标数据的检测分数的均值之前,基于预设故障标记数据,计算所述预设故障标记数据对应的故障单元中所述目标异常指标的所述检测分数的均值;
所述确定模块,还用于确定所述均值中的最小值为所述预设单元异常分数阈值。
在一种可选的实施方式中,该故障分析装置还包括显示模块;
所述显示模块,用于在所述基于所述第一监控指标之间的预设因果关系与预设时间顺序关系,确定所述故障单元的所述第一监控指标中的目标异常指标之后,显示故障报警信息,所述故障报警信息包括所述目标异常指标。
在一种可选的实施方式中,所述故障报警信息包括故障报警等级;
所述计算模块,还用于在所述显示故障报警信息之前,基于第二预设算法模型计算所述第一监控指标的异常概率值;
所述确定模块,还用于根据所述异常概率值,确定所述目标异常指标对应的所述故障报警等级。
在一种可选的实施方式中,所述确定模块,还用于将所述检测分数与所述预设指标分数阈值进行比对,确定按时间顺序计算的所述检测分数持续大于所述预设指标分数阈值的所述第一监控指标数据的时间;
所述计算模块,还用于在所述时间大于预设时间段的情况下,计算所述第一监控指标数据的检测分数的均值。
在一种可选的实施方式中,该故障分析装置还包括判断模块和抑制模块;
所述判断模块,用于基于预设报警抑制函数,对所述目标异常指标对应的故障报警进行判断;
所述抑制模块,用于在所述故障报警是重复报警的情况下,对所述目标异常指标对应的故障报警进行抑制。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如第一方面的任一项实施例中所述的故障分析方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面的任一项实施例中所述的故障分析方法。
本申请实施例的故障分析方法、装置、设备及计算机存储介质,通过计算检测单元中每个监控指标数据的检测分数,确定检测分数中大于预设指标分数阈值的第一监控指标数据,并确定检测分数的均值大于预设单元异常分数阈值的检测单元为故障单元,进而基于第一监控指标之间的因果关系与时间顺序关系,确定故障单元存在因果关系的监控指标对应的时间顺序中时间最早的目标异常指标。这样,可以通过监控指标数据的检测分数确定故障单元,并基于监控指标之间的因果关系确定目标异常指标,提高了故障分析的时效性与准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的故障分析方法的流程示意图;
图2是本申请一个实施例提供的故障分析装置的结构示意图;
图3是本申请一个实施例提供的电子设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如背景技术所述,现有技术中在故障分析时存在时效性与准确性较低,费时费力的问题。为了解决上述问题,本申请实施例提供了一种故障分析方法、装置、设备及存储介质。该行为检测方法通过计算检测单元中每个监控指标数据的检测分数,确定检测分数中大于预设指标分数阈值的第一监控指标数据,并确定检测分数的均值大于预设单元异常分数阈值的检测单元为故障单元,进而基于第一监控指标之间的因果关系与时间顺序关系,确定故障单元存在因果关系的监控指标对应的时间顺序中时间最早的目标异常指标。这样可以提高故障分析的时效性与准确性,如此避免时效性与准确性较低,费时费力的问题。下面首先对本申请实施例所提供的故障分析方法进行介绍。
图1示出了本申请一个实施例提供的故障分析方法的流程示意图。
如图1所示,该故障分析方法具体可以包括如下步骤:
S110,获取检测单元中按照时间顺序产生的监控指标数据。
其中,检测单元可以是虚拟机、物理机以及应用等硬件单元,监控指标数据可以是应用服务各节点的性能监控数据、应用服务链调用数据、业务黄金指标数据、应用拓扑数据等。
S120,基于监控指标数据,计算每个监控指标数据的检测分数;其中,检测分数表征每个监控指标对应的异常程度。
其中,监控指标数据的检测分数可以是监控指标数据的标准化分数,可以通过z-score标准分数模型计算得到,监控指标数据的检测分数越高,监控指标的异常程度越高。
在一种可选的实施方式中,上述S120具体可以包括:
对监控指标数据进行平滑处理;
基于第一预设算法模型,计算每个平滑处理后的监控指标数据的检测分数。
其中,对监控指标数据进行平滑处理的具体方式可以是对监控指标数据进行增量一阶差分,进而根据第一预设算法模型,计算每个一阶差分后的监控指标数据的检测分数,第一预设算法模型可以是z-score标准分数模型,可以将z-score标准分数模型作为前置模型进行异常检测,实时计算检测分数。
由此,通过对监控指标数据进行平滑处理,进而计算每个平滑处理后的监控指标数据的检测分数,可以使检测分数的计算更加准确。
S130,计算检测分数中大于预设指标分数阈值的第一监控指标数据的检测分数的均值。
其中,预设指标分数阈值可以是用户根据需要及经验任意设置的阈值,将每个监控指标数据的检测分数与预设指标分数阈值进行比对,筛选出监控指标数据中检测分数中大于预设指标分数阈值的第一监控指标数据,计算第一监控指标数据的检测分数的均值。
在一种可选的实施方式中,上述S130:计算检测分数中大于预设指标分数阈值的第一监控指标数据的检测分数的均值,具体可以包括:
将检测分数与预设指标分数阈值进行比对,确定按时间顺序计算的检测分数持续大于预设指标分数阈值的第一监控指标数据的时间;
在时间大于预设时间段的情况下,计算第一监控指标数据的检测分数的均值。
本申请实施例中,第一监控指标数据的检测分数可以是按时间顺序计算得到,判断第一监控指标数据的检测分数持续大于预设指标分数阈值的时间是否大于预设时间段,在时间大于预设时间段的情况下,确认发生故障,进而进行后续的目标异常指标的定位,其中,预设时间段可以是用户根据需要及经验任意设置的时间段。
由此,通过将检测分数持续大于预设指标分数阈值的第一监控指标数据的时间与预设时间段进行比对,在时间大于预设时间段的情况下,计算第一监控指标数据的检测分数的均值,可以排除第一监控指标数据中检测分数持续大于预设指标分数阈值的时间较短的监控指标数据,提高对目标异常指标定位的时效性。
S140,将检测分数的均值与预设单元异常分数阈值进行比对,确定检测分数的均值大于预设单元异常分数阈值的检测单元为故障单元。
其中,预设单元异常分数阈值可以是用户根据实际需要及经验任意设置的阈值,在第一监控指标数据的检测分数的均值大于预设单元异常分数阈值的情况下,确定第一监控指标数据对应的检测单元为故障单元。
S150,基于第一监控指标之间的预设因果关系与预设时间顺序关系,确定故障单元的第一监控指标中的目标异常指标;其中,目标异常指标为第一监控指标的时间顺序中时间最早的监控指标。
本申请实施例中,预设因果关系可以通过因果分析算法对检测单元的监控指标进行分析得到,例如可以是PCMCI算法。通过PCMCI算法确定多个第一监控指标的因果关系,有因果关系的监控指标的时间顺序中时间最早的监控指标为目标异常指标,即导致故障发生的根因指标。
在一个具体的例子中,对检测单元中100个监控指标数据进行异常检测,并利用z-score标准分数模型计算检测分数,筛选出10个检测分数大于预设阈值的监控指标数据为第一监控指标数据,通过PCMCI算法确定10个第一监控指标的因果关系,利用该因果关系与监控指标的时间顺序关系,可以自动定位导致异常的4个目标异常指标,剔除目标异常指标指向的6个监控指标。例如,监控指标A指向监控指标B和C,若监控指标A出现异常,则监控指标B和C可能会相应出现异常,因此,剔除监控指标B和C,筛选出监控指标A作为目标异常指标,即导致故障发生的根因指标。
由此,通过计算检测单元中每个监控指标数据的检测分数,确定检测分数中大于预设指标分数阈值的第一监控指标数据,并确定检测分数的均值大于预设单元异常分数阈值的检测单元为故障单元,进而基于第一监控指标之间的因果关系与时间顺序关系,确定故障单元存在因果关系的监控指标对应的时间顺序中时间最早的目标异常指标。这样,可以通过监控指标数据的检测分数确定故障单元,并基于监控指标之间的因果关系确定目标异常指标,提高了故障分析的时效性与准确性。
在一种可选的实施方式中,在上述S130:计算检测分数中大于预设指标分数阈值的第一监控指标数据的检测分数的均值之前,该故障分析方法还可以包括:
基于预设故障标记数据,计算预设故障标记数据对应的故障单元中目标异常指标的检测分数的均值;
确定均值中的最小值为预设单元异常分数阈值。
其中,预设故障标记数据可以是在人为制造故障后得到的一系列标记数据,确定预设故障标记数据对应的故障单元,计算故障单元的目标异常指标的检测分数的均值,取均值中的最小值作为预设单元异常分数阈值。
由此,通过预设故障标记数据确定预设单元异常分数阈值,可以准确的确定预设单元异常分数阈值,从而使故障单元的定位更加准确。
在一种可选的实施方式中,在上述S150:基于第一监控指标之间的预设因果关系与预设时间顺序关系,确定故障单元的第一监控指标中的目标异常指标之后,该故障分析方法还可以包括:
显示故障报警信息,故障报警信息包括目标异常指标。
其中,故障报警信息可以是应用在发生故障时生成的报警信息。
由此,通过显示故障报警信息,可以使运维人员直接观察到故障报警信息中的目标异常指标,方便快捷。
在一种可选的实施方式中,故障报警信息包括故障报警等级;在显示故障报警信息之前,该故障分析方法具体还可以包括:
基于第二预设算法模型计算第一监控指标的异常概率值;
根据异常概率值,确定目标异常指标对应的故障报警等级。
本申请实施例中,第二预设算法模型可以是训练好的异常检测算法模型,例如可以是基于机器学习算法建立的异常检测二分类模型,可以将第二预设算法模型作为后置模型进行异常检测。利用该算法模型计算第一监控指标的异常概率值,根据该异常概率值,确定目标异常指标对应的故障报警等级,其中,异常概率值可以用于表征目标异常指标对应的故障报警等级,即目标异常指标是故障发生的根因指标的等级。
由此,通过第二预设算法模型计算第一监控指标的异常概率值,进而确定目标异常指标对应的故障报警等级,可以加快检测速度并提高故障分析的效率。
在一种可选的实施方式中,该故障分析方法还可以包括:
基于预设报警抑制函数,对目标异常指标对应的故障报警进行判断;
在故障报警是重复报警的情况下,对目标异常指标对应的故障报警进行抑制。
本申请实施例中,由于每种故障均会持续一段时间,实时在线检测场景中一种故障类型可能会出现重复报警的情况,因此设置预设报警抑制函数,预设报警抑制函数可以如下设置:
if异常分2<=异常分1,then不提交新报警
异常分=目标异常指标数/延时
由此,通过预设报警抑制函数,对目标异常指标对应的故障报警进行判断,从而对实时检测场景中同一故障的重复报警进行报警抑制,有效抑制了大部分重复告警,提高了故障分析的效率。
另外,基于已检测出的故障,建立历史故障知识库,可以有效提升根因分析准确率,提高检测效果。
图2是根据一示例性实施例示出的一种故障分析装置200的结构示意图。
如图2所示,该故障分析装置200可以包括:
获取模块201,用于获取检测单元中按照时间顺序产生的监控指标数据;
计算模块202,用于基于监控指标数据,计算每个监控指标数据的检测分数;其中,检测分数表征每个监控指标对应的异常程度;
计算模块202,还用于计算检测分数中大于预设指标分数阈值的第一监控指标数据的检测分数的均值;
确定模块203,用于将检测分数的均值与预设单元异常分数阈值进行比对,确定检测分数的均值大于预设单元异常分数阈值的检测单元为故障单元;
确定模块203,还用于基于第一监控指标之间的预设因果关系与预设时间顺序关系,确定故障单元的第一监控指标中的目标异常指标;其中,目标异常指标为第一监控指标的时间顺序中时间最早的监控指标。
在一种可选的实施方式中,该故障分析装置200还包括处理模块;
处理模块,用于对监控指标数据进行平滑处理;
计算模块202,还用于基于第一预设算法模型,计算每个平滑处理后的监控指标数据的检测分数。
在一种可选的实施方式中,计算模块202,还用于在计算检测分数中大于预设指标分数阈值的第一监控指标数据的检测分数的均值之前,基于预设故障标记数据,计算预设故障标记数据对应的故障单元中目标异常指标的检测分数的均值;
确定模块203,还用于确定均值中的最小值为预设单元异常分数阈值。
在一种可选的实施方式中,该故障分析装置200还包括显示模块;
显示模块,用于在基于第一监控指标之间的预设因果关系与预设时间顺序关系,确定故障单元的第一监控指标中的目标异常指标之后,显示故障报警信息,故障报警信息包括目标异常指标。
在一种可选的实施方式中,故障报警信息包括故障报警等级;
计算模块202,还用于在显示故障报警信息之前,基于第二预设算法模型计算第一监控指标的异常概率值;
确定模块203,还用于根据异常概率值,确定目标异常指标对应的故障报警等级。
在一种可选的实施方式中,确定模块203,还用于将检测分数与预设指标分数阈值进行比对,确定按时间顺序计算的检测分数持续大于预设指标分数阈值的第一监控指标数据的时间;
计算模块202,还用于在时间大于预设时间段的情况下,计算第一监控指标数据的检测分数的均值。
在一种可选的实施方式中,该故障分析装置200还包括判断模块和抑制模块;
判断模块,用于基于预设报警抑制函数,对目标异常指标对应的故障报警进行判断;
抑制模块,用于在故障报警是重复报警的情况下,对目标异常指标对应的故障报警进行抑制。
由此,通过计算检测单元中每个监控指标数据的检测分数,确定检测分数中大于预设指标分数阈值的第一监控指标数据,并确定检测分数的均值大于预设单元异常分数阈值的检测单元为故障单元,进而基于第一监控指标之间的因果关系与时间顺序关系,确定故障单元存在因果关系的监控指标对应的时间顺序中时间最早的目标异常指标。这样,可以通过监控指标数据的检测分数确定故障单元,并基于监控指标之间的因果关系确定目标异常指标,提高了故障分析的时效性与准确性。
图3示出了本申请实施例提供的电子的硬件结构示意图。
在电子设备可以包括处理器301以及存储有计算机程序指令的存储器302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现上述实施例中的任意一种故障分析方法。
在一个示例中,电子设备还可包括通信接口303和总线310。其中,如图3所示,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
通信接口303,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该电子设备可以基于第一监控指标之间的预设因果关系与预设时间顺序关系,确定目标异常指标执行本申请实施例中的故障分析方法,从而实现图1描述的故障分析方法。
另外,结合上述实施例中的故障分析方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种故障分析方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种故障分析方法,其特征在于,包括:
获取检测单元中按照时间顺序产生的监控指标数据;
基于所述监控指标数据,计算每个监控指标数据的检测分数;其中,所述检测分数表征每个监控指标对应的异常程度;
计算所述检测分数中大于预设指标分数阈值的第一监控指标数据的检测分数的均值;
将所述检测分数的均值与预设单元异常分数阈值进行比对,确定所述检测分数的均值大于所述预设单元异常分数阈值的所述检测单元为故障单元;
基于所述第一监控指标之间的预设因果关系与预设时间顺序关系,确定所述故障单元的所述第一监控指标中的目标异常指标;其中,所述目标异常指标为所述第一监控指标的时间顺序中时间最早的监控指标。
2.根据权利要求1所述的方法,其特征在于,所述基于所述监控指标数据,计算每个监控指标数据的检测分数,包括:
对所述监控指标数据进行平滑处理;
基于第一预设算法模型,计算每个平滑处理后的所述监控指标数据的所述检测分数。
3.根据权利要求1所述的方法,其特征在于,在所述计算所述检测分数中大于预设指标分数阈值的第一监控指标数据的检测分数的均值之前,所述方法还包括:
基于预设故障标记数据,计算所述预设故障标记数据对应的故障单元中所述目标异常指标的所述检测分数的均值;
确定所述均值中的最小值为所述预设单元异常分数阈值。
4.根据权利要求1所述的方法,其特征在于,在所述基于所述第一监控指标之间的预设因果关系与预设时间顺序关系,确定所述故障单元的所述第一监控指标中的目标异常指标之后,所述方法还包括:
显示故障报警信息,所述故障报警信息包括所述目标异常指标。
5.根据权利要求4所述的方法,其特征在于,所述故障报警信息包括故障报警等级;在所述显示故障报警信息之前,所述方法还包括:
基于第二预设算法模型计算所述第一监控指标的异常概率值;
根据所述异常概率值,确定所述目标异常指标对应的所述故障报警等级。
6.根据权利要求1所述的方法,其特征在于,所述计算所述检测分数中大于预设指标分数阈值的第一监控指标数据的检测分数的均值,包括:
将所述检测分数与所述预设指标分数阈值进行比对,确定按时间顺序计算的所述检测分数持续大于所述预设指标分数阈值的所述第一监控指标数据的时间;
在所述时间大于预设时间段的情况下,计算所述第一监控指标数据的检测分数的均值。
7.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于预设报警抑制函数,对所述目标异常指标对应的故障报警进行判断;
在所述故障报警是重复报警的情况下,对所述目标异常指标对应的故障报警进行抑制。
8.一种故障分析装置,其特征在于,所述装置包括:
获取模块,用于获取检测单元中按照时间顺序产生的监控指标数据;
计算模块,用于基于所述监控指标数据,计算每个监控指标数据的检测分数;其中,所述检测分数表征每个监控指标对应的异常程度;
所述计算模块,还用于计算所述检测分数中大于预设指标分数阈值的第一监控指标数据的检测分数的均值;
确定模块,用于将所述检测分数的均值与预设单元异常分数阈值进行比对,确定所述检测分数的均值大于所述预设单元异常分数阈值的所述检测单元为故障单元;
所述确定模块,还用于基于所述第一监控指标之间的预设因果关系与预设时间顺序关系,确定所述故障单元的所述第一监控指标中的目标异常指标;其中,所述目标异常指标为所述第一监控指标的时间顺序中时间最早的监控指标。
9.一种电子设备,其特征在于,所述设备包括:处理器,以及存储有计算机程序指令的存储器;所述处理器读取并执行所述计算机程序指令,以实现如权利要求1-7任意一项所述的故障分析方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-7任意一项所述的故障分析方法。
CN202111211802.3A 2021-10-18 2021-10-18 故障分析方法、装置、设备及计算机存储介质 Pending CN113986659A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111211802.3A CN113986659A (zh) 2021-10-18 2021-10-18 故障分析方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111211802.3A CN113986659A (zh) 2021-10-18 2021-10-18 故障分析方法、装置、设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN113986659A true CN113986659A (zh) 2022-01-28

Family

ID=79739205

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111211802.3A Pending CN113986659A (zh) 2021-10-18 2021-10-18 故障分析方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN113986659A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115118574A (zh) * 2022-06-07 2022-09-27 马上消费金融股份有限公司 一种数据处理方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115118574A (zh) * 2022-06-07 2022-09-27 马上消费金融股份有限公司 一种数据处理方法、装置及存储介质
CN115118574B (zh) * 2022-06-07 2023-07-21 马上消费金融股份有限公司 一种数据处理方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN113918376B (zh) 故障检测方法、装置、设备及计算机可读存储介质
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
US9524223B2 (en) Performance metrics of a computer system
CN109995555B (zh) 监控方法、装置、设备及介质
CN112799898B (zh) 基于分布式故障检测的互联系统故障节点定位方法及系统
CN114331046A (zh) 一种告警事件处理方法、装置、设备及计算机存储介质
CN110990788A (zh) 一种基于三元维纳过程的轴承剩余寿命预测方法
CN114095965A (zh) 指标检测模型获取及故障定位方法、装置、设备及存储介质
CN114844762B (zh) 告警真实性检测方法和装置
CN115878171A (zh) 中间件配置的优化方法、装置、设备及计算机存储介质
CN113986659A (zh) 故障分析方法、装置、设备及计算机存储介质
CN115396289A (zh) 一种故障告警确定方法、装置、电子设备及存储介质
CN115392812B (zh) 一种异常根因定位方法、装置、设备及介质
CN113676343A (zh) 电力通信网故障源定位方法及装置
CN115705413A (zh) 异常日志的确定方法及装置
CN114576102A (zh) 风电机组轴承状态的预测方法、装置、设备及存储介质
CN114881112A (zh) 一种系统异常检测方法、装置、设备及介质
CN114741690A (zh) 网络安全监测方法、装置、设备及计算机存储介质
CN114689321A (zh) 风力发电机组的轴承故障诊断方法、装置、电子设备
CN114322446A (zh) 冷却系统故障预警方法、装置、冷却系统及作业机械
CN114928467A (zh) 一种网络安全运维关联分析方法及系统
CN112398706B (zh) 数据评估标准确定方法、装置及存储介质、电子设备
CN115905907A (zh) 风机主轴承的异常监测方法、装置、电子设备及存储介质
CN111176931A (zh) 一种运营监控方法、装置、服务器及存储介质
CN117149486A (zh) 告警和根因定位方法、模型训练方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 410000 Room 301, R&D Headquarters, Central South University Science Park, Yuelu Street, Yuelu District, Changsha City, Hunan Province

Applicant after: Tianyun Software Technology Co.,Ltd.

Address before: 410000 Room 301, R&D Headquarters, Central South University Science Park, Yuelu Street, Yuelu District, Changsha City, Hunan Province

Applicant before: Hunan Tianyun Software Technology Co.,Ltd.