CN115604080A - 故障原因分析方法、装置、计算机设备和存储介质 - Google Patents

故障原因分析方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN115604080A
CN115604080A CN202211226890.9A CN202211226890A CN115604080A CN 115604080 A CN115604080 A CN 115604080A CN 202211226890 A CN202211226890 A CN 202211226890A CN 115604080 A CN115604080 A CN 115604080A
Authority
CN
China
Prior art keywords
node
fault
alarm
information
data information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211226890.9A
Other languages
English (en)
Inventor
马冲
叶轮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202211226890.9A priority Critical patent/CN115604080A/zh
Publication of CN115604080A publication Critical patent/CN115604080A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0686Additional information in the notification, e.g. enhancement of specific meta-data

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请涉及一种故障原因分析方法、装置、计算机设备和存储介质。涉及智能运维技术领域。本申请可用于金融科技领域或其他相关领域,所述方法包括:响应于各报警节点的报警提示信息,获取各所述报警节点的运行信息;所述运行信息包括基础数据信息、以及运行数据信息;根据各所述报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率;根据各所述报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点;根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因。采用本方法能够提升报警原因的分析效率。

Description

故障原因分析方法、装置、计算机设备和存储介质
技术领域
本申请涉及智能运维技术领域,特别是涉及一种故障原因分析方法、装置、计算机设备和存储介质。
背景技术
大型数据中心包括了大量的服务器,服务器种类不同,承担不同的功能。在数据中心故障检测领域,服务器拓扑关系是重要的影响因素。网络拓扑中一个节点发生故障,往往会导致多个节点产生报警,这样的连锁反应给故障分析造成困难,使得运维人员难以找到真正的故障节点和目标故障原因。目标故障原因为故障节点的故障根本原因,亦可称为根原因,
传统故障原因分析方法,是通过人工排查各个报警节点,并分析各个报警节点的报警原因,从而找到真正的故障节点,并根据该故障节点以及报警信号,人工分析造成报警的目标故障原因。但是通过人工排查耗时耗力,并且分析的精准度也不高,从而导致故障原因的分析效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种故障原因分析方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种故障原因分析方法。所述方法包括:
响应于各报警节点的报警提示信息,获取各所述报警节点的运行信息;所述运行信息包括基础数据信息、以及运行数据信息;
根据各所述报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率;
根据各所述报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点;
根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因。
可选的,所述获取各报警节点的运行信息,包括:
获取各报警节点的初始运行信息;
通过聚类算法对所述初始运行信息进行聚类处理,并根据所述聚类处理的聚类结果确定所述初始运行信息中的无效数据,在所述初始运行信息中的删除无效数据,得到各所述报警节点的运行信息。
可选的,所述根据各所述报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率,包括:
针对每个报警节点,根据所述报警节点的基础数据信息,按照各报警节点在设备中的拓扑关系,确定所述报警节点的前驱节点;
通过故障概率算法,根据各所述报警节点与所述报警节点的各前驱节点的对应关系,确定所述报警节点的故障概率。
可选的,所述根据各所述报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点,包括:
在各所述报警节点中,选择最终前驱节点,并将所述报警节点中的最终前驱节点作为目标故障原因节点;所述最终前驱节点包括按照报警节点在设备中的拓扑关系确定的不存在所述前驱节点的报警节点;
在各所述目标故障原因节点中,选择故障概率最大的目标故障原因节点,作为故障节点。
可选的,所述根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因,包括:
针对所述故障节点的每个运行数据信息,计算所述运行数据信息的故障数据,并根据所述故障数据阈值与所述运行数据信息的对应关系,判断所述运行数据信息的故障数据是否大于故障阈值;
根据各大于故障阈值的故障数据对应的运行数据信息,确定所述故障节点的目标故障原因。
可选的,所述根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因之前,还包括:
根据所述故障节点的各基础数据信息,计算所述故障节点的各故障数据阈值,并建立每个故障数据阈值与每个运行数据信息之间的对应关系。
第二方面,本申请还提供了一种故障原因分析装置。所述装置包括:
获取模块,用于基于报警提示信息,获取各报警节点的运行信息;所述运行信息包括基础数据信息、以及运行数据信息;
计算模块,用于根据各所述报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率;
筛选模块,用于根据各所述报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点;
分析模块,用于根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因。
可选的,所述获取模块,具体用于:
获取各报警节点的初始运行信息;
通过聚类算法对所述初始运行信息进行聚类处理,并根据所述聚类处理的聚类结果确定所述初始运行信息中的无效数据,在所述初始运行信息中的删除无效数据,得到各所述报警节点的运行信息。
可选的,所述计算模块,具体用于:
针对每个报警节点,根据所述报警节点的基础数据信息,按照各报警节点在设备中的拓扑关系,确定所述报警节点的前驱节点;
通过故障概率算法,根据各所述报警节点与所述报警节点的各前驱节点的对应关系,确定所述报警节点的故障概率。
可选的,所述筛选模块,具体用于:
在各所述报警节点中,选择最终前驱节点,并将所述报警节点中的最终前驱节点作为目标故障原因节点;所述最终前驱节点包括按照报警节点在设备中的拓扑关系确定的不存在所述前驱节点的报警节点;
在各所述目标故障原因节点中,选择故障概率最大的目标故障原因节点,作为故障节点。
可选的,所述分析模块,具体用于:
针对所述故障节点的每个运行数据信息,计算所述运行数据信息的故障数据,并根据所述故障数据阈值与所述运行数据信息的对应关系,判断所述运行数据信息的故障数据是否大于故障阈值;
根据各大于故障阈值的故障数据对应的运行数据信息,确定所述故障节点的目标故障原因。
可选的,所述装置还包括:
建立模块,用于根据所述故障节点的各基础数据信息,计算所述故障节点的各故障数据阈值,并建立每个故障数据阈值与每个运行数据信息之间的对应关系。
第三方面,本申请提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面中任一项所述的方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质。其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面中任一项所述的方法的步骤。
第五方面,本申请提供了一种计算机程序产品。所述计算机程序产品包括计算机程序,该计算机程序被处理器执行时实现第一方面中任一项所述的方法的步骤。
上述故障原因分析方法、装置、计算机设备、存储介质和计算机程序产品,通过响应于各报警节点的报警提示信息,获取各所述报警节点的运行信息;所述运行信息包括基础数据信息、以及运行数据信息;根据各所述报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率;根据各所述报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点;根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因。通过自动获取报警节点的运行信息,并根据各报警节点的运行信息,筛选故障节点,并根据故障节点的运行信息确定故障节点的目标故障原因,减少了人工参与的过程,提升了目标故障原因的分析效率。
附图说明
图1为一个实施例中故障原因分析方法的应用环境图;
图2为一个实施例中反向计算贝叶斯方法的示意图;
图3为一个实施例中故障原因分析示例的流程示意图;
图4为一个实施例中故障原因分析装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的故障原因分析方法,可以应用于终端中,也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以包括但不限于是各种个人计算机、笔记本电脑、平板电脑等。该终端通过自动获取报警节点的运行信息,并根据各报警节点的运行信息,筛选故障节点,并根据故障节点的运行信息确定故障节点的目标故障原因,减少了人工参与的过程,提升了目标故障原因的分析效率。
在一个实施例中,如图1所示,提供了一种故障原因分析方法,以该方法应用于终端为例进行说明,包括以下步骤:
步骤S101,响应于各报警节点的报警提示信息,获取各报警节点的运行信息。
其中,运行信息包括基础数据信息、以及运行数据信息。
本实施例中,终端获取系统中的各个节点的节点信息。在系统报警时,终端响应于各报警节点的报警提示信息,在各节点中筛选出报警节点。终端根据该报警节点,获取系统中该报警节点的基础数据信息和运行数据信息,并将上述基础数据信息和运行数据信息作为该报警节点的运行信息。其中,节点的基础数据信息为该节点的时间特征数据,运行数据信息包括资源特征数据和数值特征数据,资源特征数据主要来自于系统监控数据,表现出CPU、内存、存储、网络等资源使用情况。数值特征数据主要来自于系统运行日志,能够表现各个服务器的历史运行状态。时间特征数据主要来自于监控数据和报警信息,表现出不同服务器的报警时间顺序。
具体的,终端在系统的数据中心运维过程中,采集每个数据节点的监控数据和运行日志。在系统出现报警时,终端记录出现报警的数据节点的报警时间和报警详细信息,将每个数据节点的报警详细信息筛选整理为资源特征、数值特征、时间特征三类数据。终端将每个报警的数据节点的上述三类数据,作为报警节点的运行信息。
步骤S102,根据各报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率。
本实施例中,终端针对每个报警节点的基础数据信息,通过故障概率算法,计算该报警节点发生故障的概率,得到每个报警节点的故障概率。具体的计算过程后续将详细说明。
步骤S103,根据各报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点。
本实施例中,终端通过每个节点之间的拓扑关系策略,在各报警节点中,查询每个报警节点的前驱节点,并将该前驱节点作为目标故障原因节点。终端在各目标故障原因节点中,筛选故障概率最大的目标故障原因节点,作为故障节点。具体的筛选过程后续将详细说明。
步骤S104,根据故障节点的运行数据信息,分析故障节点的目标故障原因。
本实施例中,终端根据故障节点的每个运行数据信息,计算该运行数据信息和该运行数据信息对应的数据阈值的大小关系,并判断每个运行数据信息是否大于该运行数据信息对应的数据阈值,从而筛选出大于数据阈值的运行数据信息。终端根据各大于数据阈值的运行数据信息,确定该故障节点的故障目标故障原因。具体的分析过程,后续将详细说明。
基于上述方案,通过自动获取报警节点的运行信息,并根据各报警节点的运行信息,筛选故障节点,并根据故障节点的运行信息确定故障节点的故障目标故障原因,减少了人工参与的过程,提升了目标故障原因的分析效率。
可选的,获取各报警节点的运行信息,包括:获取各报警节点的初始运行信息;通过聚类算法对初始运行信息进行聚类处理,并根据聚类处理的聚类结果确定初始运行信息中的无效数据,在初始运行信息中的删除无效数据,得到各报警节点的运行信息。
本实施例中,终端根据在获取到各报警节点的报警时间和报警详细信息(即初始运行信息)之后,通过聚类算法,将报警详细信息中的各数据信息聚类成资源特征数据、数值特征数据、和时间特征数据三类数据,并将该报警节点的报警详细信息中,除上述三类数据外的其他数据(即无效数据)进行删除,得到每个报警节点的运行信息。其中,聚类算法可以但不限于是DBSCAN(Density-Based Spatial Clustering of Applications withNoise,聚类算法)算法。无效数据为报警详细信息中的噪声数据和非上述三类数据之外的数据。
具体的,终端在每个报警节点的初始运行信息中,通过DBSCAN算法,将该初始运行信息中按照数据的类别(即资源特征数据、数值特征数据、和时间特征数据)进行聚类,在完成聚类之后,将未聚类得数据作为无效数据进行删除处理,在各类数据中,终端通过DBSCAN算法查询各类特征数据中的噪声数据,并将各噪声数据作为无效数据进行删除处理,得到各报警节点的运行信息。
基于上述方案,通过将报警节点的初始运行信息进行聚类,为后续计算报警节点的故障概率提供基础。
可选的,根据各报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率,包括:针对每个报警节点,根据报警节点的基础数据信息,按照各报警节点在设备中的拓扑关系,确定报警节点的前驱节点;通过故障概率算法,根据各报警节点与报警节点的各前驱节点的对应关系,确定报警节点的故障概率。
本实施例中,终端针对每个报警节点,根据该报警节点的基础数据信息,按照各报警节点在设备中的拓扑关系,确定报警节点的前驱节点。终端根据报警节点的前驱节点,按照该前驱节点在设备中的拓扑关系,确定该前驱节点的前驱节点,并迭代上述步骤,直到得到的前驱节点在设备中的拓扑关系中没有前驱节点的情况下,终端将该没有前驱节点的前驱节点,作为最终前驱节点。同样的,终端通过上述步骤,得到各报警节点与前驱节点的对应关系,以及各前驱节点和该前驱节点的前驱节点的对应关系。然后,终端通过故障概率算法,根据各报警节点与前驱节点的对应关系,以及各前驱节点和该前驱节点的前驱节点的对应关系,计算每个报警节点的故障概率,以及每个前驱节点的故障概率。其中,按照各报警节点在设备中的拓扑关系,确定报警节点的前驱节点的步骤,可以但不限于是通过贝叶斯准则,基于报警节点在设备中的拓扑关系,在各数据节点中,推导出该报警节点的前驱节点。故障概率算法可以但不限于是通过设备中的拓扑关系对应的反向计算贝叶斯概率算法,如图2所示,最终前驱节点为在设备中的拓扑关系的起始点,一个最终前驱节点可以对应多个后续节点,而多个节点的前驱节点可以为同一个节点,其中P20为最终前驱节点,p10、p11、以及p12为前驱节点,p00、p01、p02、以及p03为报警节点。每个报警节点可以存在前驱节点,也可以不存在前驱节点。每个报警节点的前驱节点可以是报警节点,也可以不是报警节点。多个报警节点的前驱节点可以但不限于是同一个节点,同一个报警节点可以存在多个前驱节点。所有节点间的对应关系可以通过设备的拓扑关系进行查找确定。
基于上述方案,通过查询前驱节点,从而计算报警节点的故障概率,为后续寻找故障节点,提供数据基础。
可选的,根据各报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点,包括:在各报警节点中,选择最终前驱节点,并将报警节点中的最终前驱节点作为目标故障原因节点;最终前驱节点包括按照报警节点在设备中的拓扑关系确定的不存在前驱节点的报警节点;在各目标故障原因节点中,选择故障概率最大的目标故障原因节点,作为故障节点。
本实施例中,终端在各报警节点中,选择最终前驱节点作为目标故障原因节点,得到多个目标故障原因节点。终端在各目标故障原因节点中,选择故障概率最大的目标故障原因节点,作为故障节点。
具体的,系统中包括多个数据节点,每个数据节点的前驱节点各不相同,在,多个数据节点的前驱节点可以为同一前驱节点。而报警节点的前驱节点可以为非报警节点,也可以为报警节点,终端选择既是报警节点又是最终前驱节点的数据节点,作为目标故障原因节点。
基于上述方案,通过在报警节点中筛选目标故障原因节点,从而确定故障节点,提升了故障点的目标故障原因的分析效率。
可选的,根据故障节点的运行数据信息,分析故障节点的目标故障原因,包括:针对故障节点的每个运行数据信息,计算运行数据信息的故障数据,并根据故障数据阈值与运行数据信息的对应关系,判断运行数据信息的故障数据是否大于故障阈值;根据各大于故障阈值的故障数据对应的运行数据信息,确定故障节点的目标故障原因。
本实施例中,终端预先存储运行数据信息与故障目标故障原因的对应关系,针对故障节点的每个运行数据信息,计算运行数据信息的故障数据,并根据故障数据阈值与运行数据信息的对应关系,分别判断每个运行数据信息的故障数据是否大于故障数据阈值,并筛选出大于故障数据阈值的运行数据信息。终端根据各大于故障阈值的故障数据对应的运行数据信息,查询运行数据信息与故障目标故障原因的对应关系,确定该故障节点的故障目标故障原因。其中,运行数据信息与故障目标故障原因的对应关系可以但不限于是“一对一”或“一对多”的对应关系。
基于上述方案,通过判断故障节点的各故障数据阈值与故障节点的各运行数据信息的大小,从而筛选大于故障阈值的故障数据对应的运行数据信息,并根据该大于故障阈值的故障数据对应的运行数据信息,分析故障节点的故障目标故障原因,提升了分析故障目标故障原因的精准度。
可选的,根据故障节点的运行数据信息,分析故障节点的目标故障原因之前,还包括:根据故障节点的各基础数据信息,计算故障节点的各故障数据阈值,并建立每个故障数据阈值与每个运行数据信息之间的对应关系。
本实施例中,终端根据该故障节点的资源特征数据和数值特征数据(即基础数据信息),建立该故障节点的数学模型,并根据该数学模型,计算该故障节点中每个时间特征数据(即运行数据信息)对应的每个故障数据阈值,并建立每个故障数据阈值与每个运行数据信息之间的对应关系。其中,数学模型包含故障节点的历史运行状态和标准运行情况,其中标准运行情况包括该故障节点在正常运行过程中的数据浮动范围等,历史运行状态为该故障节点的历史运行波动情况信息,终端根据该数学模型可以计算出该故障节点的每个故障情况对应的故障阈值,终端针对每个故障数据阈值,在故障节点的各运行数据信息中,寻找对应的运行数据信息,得到每个故障数据阈值与每个运行数据信息之间的对应关系。
基于上述方案,通过计算故障节点的各故障数据阈值,为分析目标故障原因提供数据比对基础。
本申请还提供了一种故障原因分析示例,如图3所示,具体处理过程包括以下步骤:
步骤S301,响应于各报警节点的报警提示信息,获取各报警节点的初始运行信息。
步骤S302,通过聚类算法对初始运行信息进行聚类处理,并根据聚类处理的聚类结果确定初始运行信息中的无效数据,在初始运行信息中的删除无效数据,得到各报警节点的运行信息。
步骤S303,针对每个报警节点,根据报警节点的基础数据信息,按照各报警节点在设备中的拓扑关系,确定报警节点的前驱节点。
步骤S304,在报警节点存在前驱节点的情况下,按照各节点在设备中的拓扑关系,查询报警节点的最终前驱节点。
步骤S305,通过故障概率算法,根据各报警节点与报警节点的各前驱节点的对应关系,确定报警节点的故障概率。
步骤S306,在各报警节点中,选择最终前驱节点,并将报警节点中的最终前驱节点作为目标故障原因节点。
步骤S307,在各目标故障原因节点中,选择故障概率最大的目标故障原因节点,作为故障节点。
步骤S308,根据故障节点的各基础数据信息,计算故障节点的各故障数据阈值,并建立每个故障数据阈值与每个运行数据信息之间的对应关系。
步骤S309,针对故障节点的每个运行数据信息,计算运行数据信息的故障数据,并根据故障数据阈值与运行数据信息的对应关系,判断运行数据信息的故障数据是否大于故障阈值。
步骤S310,根据各大于故障阈值的故障数据对应的运行数据信息,确定故障节点的目标故障原因。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的故障原因分析方法的故障原因分析装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个故障原因分析装置实施例中的具体限定可以参见上文中对于故障原因分析方法的限定,在此不再赘述。
在一个实施例中,如图4所示,提供了一种故障原因分析装置,包括:获取模块410、计算模块420、筛选模块430和分析模块440,其中:
获取模块410,用于基于报警提示信息,获取各报警节点的运行信息;运行信息包括基础数据信息、以及运行数据信息;
计算模块420,用于根据各报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率;
筛选模块430,用于根据各报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点;
分析模块440,用于根据故障节点的运行数据信息,分析故障节点的目标故障原因。
可选的,获取模块410,具体用于:
获取各报警节点的初始运行信息;
通过聚类算法对初始运行信息进行聚类处理,并根据聚类处理的聚类结果确定初始运行信息中的无效数据,在初始运行信息中的删除无效数据,得到各报警节点的运行信息。
可选的,计算模块420,具体用于:
针对每个报警节点,根据报警节点的基础数据信息,按照各报警节点在设备中的拓扑关系,确定报警节点的前驱节点;
通过故障概率算法,根据各报警节点与报警节点的各前驱节点的对应关系,确定报警节点的故障概率。
可选的,筛选模块430,具体用于:
在各报警节点中,选择最终前驱节点,并将报警节点中的最终前驱节点作为目标故障原因节点;最终前驱节点包括按照报警节点在设备中的拓扑关系确定的不存在前驱节点的报警节点;
在各目标故障原因节点中,选择故障概率最大的目标故障原因节点,作为故障节点。
可选的,分析模块440,具体用于:
针对故障节点的每个运行数据信息,计算运行数据信息的故障数据,并根据故障数据阈值与运行数据信息的对应关系,判断运行数据信息的故障数据是否大于故障阈值;
根据各大于故障阈值的故障数据对应的运行数据信息,确定故障节点的目标故障原因。
可选的,装置还包括:
建立模块,用于根据故障节点的各基础数据信息,计算故障节点的各故障数据阈值,并建立每个故障数据阈值与每个运行数据信息之间的对应关系。
上述故障原因分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种故障原因分析方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
响应于各报警节点的报警提示信息,获取各所述报警节点的运行信息;所述运行信息包括基础数据信息、以及运行数据信息;
根据各所述报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率;
根据各所述报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点;
根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因。
可选的,所述获取各报警节点的运行信息,包括:
获取各报警节点的初始运行信息;
通过聚类算法对所述初始运行信息进行聚类处理,并根据所述聚类处理的聚类结果确定所述初始运行信息中的无效数据,在所述初始运行信息中的删除无效数据,得到各所述报警节点的运行信息。
可选的,所述根据各所述报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率,包括:
针对每个报警节点,根据所述报警节点的基础数据信息,按照各报警节点在设备中的拓扑关系,确定所述报警节点的前驱节点;
通过故障概率算法,根据各所述报警节点与所述报警节点的各前驱节点的对应关系,确定所述报警节点的故障概率。
可选的,所述根据各所述报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点,包括:
在各所述报警节点中,选择最终前驱节点,并将所述报警节点中的最终前驱节点作为目标故障原因节点;所述最终前驱节点包括按照报警节点在设备中的拓扑关系确定的不存在所述前驱节点的报警节点;
在各所述目标故障原因节点中,选择故障概率最大的目标故障原因节点,作为故障节点。
可选的,所述根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因,包括:
针对所述故障节点的每个运行数据信息,计算所述运行数据信息的故障数据,并根据所述故障数据阈值与所述运行数据信息的对应关系,判断所述运行数据信息的故障数据是否大于故障阈值;
根据各大于故障阈值的故障数据对应的运行数据信息,确定所述故障节点的目标故障原因。
可选的,所述根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因之前,还包括:
根据所述故障节点的各基础数据信息,计算所述故障节点的各故障数据阈值,并建立每个故障数据阈值与每个运行数据信息之间的对应关系。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
响应于各报警节点的报警提示信息,获取各所述报警节点的运行信息;所述运行信息包括基础数据信息、以及运行数据信息;
根据各所述报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率;
根据各所述报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点;
根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因。
可选的,所述获取各报警节点的运行信息,包括:
获取各报警节点的初始运行信息;
通过聚类算法对所述初始运行信息进行聚类处理,并根据所述聚类处理的聚类结果确定所述初始运行信息中的无效数据,在所述初始运行信息中的删除无效数据,得到各所述报警节点的运行信息。
可选的,所述根据各所述报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率,包括:
针对每个报警节点,根据所述报警节点的基础数据信息,按照各报警节点在设备中的拓扑关系,确定所述报警节点的前驱节点;
通过故障概率算法,根据各所述报警节点与所述报警节点的各前驱节点的对应关系,确定所述报警节点的故障概率。
可选的,所述根据各所述报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点,包括:
在各所述报警节点中,选择最终前驱节点,并将所述报警节点中的最终前驱节点作为目标故障原因节点;所述最终前驱节点包括按照报警节点在设备中的拓扑关系确定的不存在所述前驱节点的报警节点;
在各所述目标故障原因节点中,选择故障概率最大的目标故障原因节点,作为故障节点。
可选的,所述根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因,包括:
针对所述故障节点的每个运行数据信息,计算所述运行数据信息的故障数据,并根据所述故障数据阈值与所述运行数据信息的对应关系,判断所述运行数据信息的故障数据是否大于故障阈值;
根据各大于故障阈值的故障数据对应的运行数据信息,确定所述故障节点的目标故障原因。
可选的,所述根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因之前,还包括:
根据所述故障节点的各基础数据信息,计算所述故障节点的各故障数据阈值,并建立每个故障数据阈值与每个运行数据信息之间的对应关系。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
响应于各报警节点的报警提示信息,获取各所述报警节点的运行信息;所述运行信息包括基础数据信息、以及运行数据信息;
根据各所述报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率;
根据各所述报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点;
根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因。
可选的,所述获取各报警节点的运行信息,包括:
获取各报警节点的初始运行信息;
通过聚类算法对所述初始运行信息进行聚类处理,并根据所述聚类处理的聚类结果确定所述初始运行信息中的无效数据,在所述初始运行信息中的删除无效数据,得到各所述报警节点的运行信息。
可选的,所述根据各所述报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率,包括:
针对每个报警节点,根据所述报警节点的基础数据信息,按照各报警节点在设备中的拓扑关系,确定所述报警节点的前驱节点;
通过故障概率算法,根据各所述报警节点与所述报警节点的各前驱节点的对应关系,确定所述报警节点的故障概率。
可选的,所述根据各所述报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点,包括:
在各所述报警节点中,选择最终前驱节点,并将所述报警节点中的最终前驱节点作为目标故障原因节点;所述最终前驱节点包括按照报警节点在设备中的拓扑关系确定的不存在所述前驱节点的报警节点;
在各所述目标故障原因节点中,选择故障概率最大的目标故障原因节点,作为故障节点。
可选的,所述根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因,包括:
针对所述故障节点的每个运行数据信息,计算所述运行数据信息的故障数据,并根据所述故障数据阈值与所述运行数据信息的对应关系,判断所述运行数据信息的故障数据是否大于故障阈值;
根据各大于故障阈值的故障数据对应的运行数据信息,确定所述故障节点的目标故障原因。
可选的,所述根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因之前,还包括:
根据所述故障节点的各基础数据信息,计算所述故障节点的各故障数据阈值,并建立每个故障数据阈值与每个运行数据信息之间的对应关系。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种故障原因分析方法,其特征在于,所述方法包括:
响应于各报警节点的报警提示信息,获取各所述报警节点的运行信息;所述运行信息包括基础数据信息、以及运行数据信息;
根据各所述报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率;
根据各所述报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点;
根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因。
2.根据权利要求1所述的方法,其特征在于,所述获取各报警节点的运行信息,包括:
获取各报警节点的初始运行信息;
通过聚类算法对所述初始运行信息进行聚类处理,并根据所述聚类处理的聚类结果确定所述初始运行信息中的无效数据,在所述初始运行信息中的删除无效数据,得到各所述报警节点的运行信息。
3.根据权利要求1所述的方法,其特征在于,所述根据各所述报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率,包括:
针对每个报警节点,根据所述报警节点的基础数据信息,按照各报警节点在设备中的拓扑关系,确定所述报警节点的前驱节点;
通过故障概率算法,根据各所述报警节点与所述报警节点的各前驱节点的对应关系,确定所述报警节点的故障概率。
4.根据权利要求1所述的方法,其特征在于,所述根据各所述报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点,包括:
在各所述报警节点中,选择最终前驱节点,并将所述报警节点中的最终前驱节点作为目标故障原因节点;所述最终前驱节点包括按照报警节点在设备中的拓扑关系确定的不存在所述前驱节点的报警节点;
在各所述目标故障原因节点中,选择故障概率最大的目标故障原因节点,作为故障节点。
5.根据权利要求1所述的方法,其特征在于,所述根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因,包括:
针对所述故障节点的每个运行数据信息,计算所述运行数据信息的故障数据,并根据所述故障数据阈值与所述运行数据信息的对应关系,判断所述运行数据信息的故障数据是否大于故障阈值;
根据各大于故障阈值的故障数据对应的运行数据信息,确定所述故障节点的目标故障原因。
6.根据权利要求5所述的方法,其特征在于,所述根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因之前,还包括:
根据所述故障节点的各基础数据信息,计算所述故障节点的各故障数据阈值,并建立每个故障数据阈值与每个运行数据信息之间的对应关系。
7.一种报警原因分析装置,其特征在于,所述装置包括:
获取模块,用于基于报警提示信息,获取各报警节点的运行信息;所述运行信息包括基础数据信息、以及运行数据信息;
计算模块,用于根据各所述报警节点的基础数据信息,通过故障概率算法,计算每个报警节点的故障概率;
筛选模块,用于根据各所述报警节点的故障概率,在各报警节点中,筛选目标故障原因节点;并将故障概率最大的目标故障原因节点,作为故障节点;
分析模块,用于根据所述故障节点的运行数据信息,分析所述故障节点的目标故障原因。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202211226890.9A 2022-10-09 2022-10-09 故障原因分析方法、装置、计算机设备和存储介质 Pending CN115604080A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211226890.9A CN115604080A (zh) 2022-10-09 2022-10-09 故障原因分析方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211226890.9A CN115604080A (zh) 2022-10-09 2022-10-09 故障原因分析方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN115604080A true CN115604080A (zh) 2023-01-13

Family

ID=84846827

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211226890.9A Pending CN115604080A (zh) 2022-10-09 2022-10-09 故障原因分析方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN115604080A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118194583A (zh) * 2024-04-03 2024-06-14 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 元器件结构分析方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118194583A (zh) * 2024-04-03 2024-06-14 中国电子产品可靠性与环境试验研究所((工业和信息化部电子第五研究所)(中国赛宝实验室)) 元器件结构分析方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
Yang et al. A time efficient approach for detecting errors in big sensor data on cloud
WO2021169064A1 (zh) 一种基于边缘网络的异常处理方法及装置
US20190362010A1 (en) Epsilon-closure for frequent pattern analysis
CN115408186A (zh) 根因定位方法、装置、计算机设备和存储介质
Wang et al. Concept drift-based runtime reliability anomaly detection for edge services adaptation
CN115604080A (zh) 故障原因分析方法、装置、计算机设备和存储介质
CN117151726A (zh) 故障的修复方法、修复装置、电子设备以及存储介质
CN114443437A (zh) 告警根因输出方法、装置、设备、介质和程序产品
CN117194191A (zh) 日志监控告警方法、装置、计算机设备和存储介质
CN115361295B (zh) 基于topsis的资源备份方法、装置、设备及介质
US10970341B2 (en) Predictive modeling in event processing systems for big data processing in cloud
CN115827379A (zh) 异常进程检测方法、装置、设备和介质
CN112764957A (zh) 应用故障定界方法及装置
CN116112200B (zh) 配电网纵向访问检测方法、装置、计算机设备和存储介质
CN115913699B (zh) 配电网横向访问检测方法、装置、计算机设备和存储介质
CN116032619B (zh) 智能安全联网设备的状态巡检方法及装置
Du et al. Fast Butterfly-Core Community Search For Large Labeled Graphs
CN118642915A (zh) 应用于多服务集群的运维数据处理方法、装置和设备
CN118312537A (zh) 一种数据处理方法、装置以及电子设备
CN109101187B (zh) 一种进行数据重构的方法和装置
CN115811544A (zh) 单元化监控方法、系统、装置、计算机设备和存储介质
CN114461659A (zh) 查杀方法、装置、计算机设备和存储介质
CN116302896A (zh) 集群性能监控方法、装置、设备、存储介质和程序产品
CN117390283A (zh) 关联社区的识别方法、装置、计算机设备及存储介质
CN118118327A (zh) 异常根因的定位方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination