CN117061318A - 故障诊断方法、装置、设备、介质及产品 - Google Patents

故障诊断方法、装置、设备、介质及产品 Download PDF

Info

Publication number
CN117061318A
CN117061318A CN202311069879.0A CN202311069879A CN117061318A CN 117061318 A CN117061318 A CN 117061318A CN 202311069879 A CN202311069879 A CN 202311069879A CN 117061318 A CN117061318 A CN 117061318A
Authority
CN
China
Prior art keywords
fault
node
information
determining
analysis result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311069879.0A
Other languages
English (en)
Inventor
蔡方龙
华石榴
张欢
钟彬
裘愉锋
沙伟
隆玺
吴正中
刘金杰
朱万
董龙
程涛
马耿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN202311069879.0A priority Critical patent/CN117061318A/zh
Publication of CN117061318A publication Critical patent/CN117061318A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种故障诊断方法、装置、设备、介质及产品,包括:在获取到待测系统的告警信息的情况下,基于告警信息确定待测系统的所有节点中的M个告警节点;基于待测系统的系统架构信息,对M个告警节点进行聚合,得到至少一条故障路径;获取每条故障路径中末端节点的网络流量信息和节点日志信息;基于informer模型对网络流量信息进行分析,得到第一分析结果;基于GPT模型对节点日志信息进行分析,得到第二分析结果;结合第一分析结果和第二分析结果,确定末端节点的故障判定结果;基于故障判定结果,定位故障路径中的故障源。根据本申请实施例,能够提高故障诊断的准确性和效率,进而有效提升故障诊断效果。

Description

故障诊断方法、装置、设备、介质及产品
技术领域
本申请属于网络监控技术领域,尤其涉及一种故障诊断方法、装置、设备、介质及产品。
背景技术
目前,在管理和维护大型计算机软硬件集群的过程中,主要面临的挑战是如何快速有效地诊断和解决系统故障。
相关技术中,传统的故障诊断方法,依赖于人工对故障报错和日志的分析,这种传统方式在处理复杂、大量的网络流量和日志信息时,无法实现高效率和精确性,特别是在紧急故障情况下,这种延迟可能导致严重的系统影响和运营损失,故障诊断效果不佳。
发明内容
本申请实施例提供一种故障诊断方法、装置、设备、介质及产品,能够提高故障诊断的准确性和效率,进而有效提升故障诊断效果。
第一方面,本申请实施例提供一种故障诊断方法,该方法包括:
在获取到待测系统的告警信息的情况下,基于告警信息确定待测系统的所有节点中的M个告警节点;
基于待测系统的系统架构信息,对M个告警节点进行聚合,得到至少一条故障路径;
获取每条故障路径中末端节点的网络流量信息和节点日志信息;
基于informer模型对网络流量信息进行分析,得到第一分析结果;
基于GPT模型对节点日志信息进行分析,得到第二分析结果;
结合第一分析结果和第二分析结果,确定末端节点的故障判定结果;
基于故障判定结果,定位故障路径中的故障源。
第二方面,本申请实施例提供一种故障诊断装置,该装置包括:
确定模块,用于在获取到待测系统的告警信息的情况下,基于告警信息确定待测系统的所有节点中的M个告警节点;
聚合模块,用于基于待测系统的系统架构信息,对M个告警节点进行聚合,得到至少一条故障路径;
获取模块,用于获取每条故障路径中末端节点的网络流量信息和节点日志信息;
分析模块,用于基于informer模型对网络流量信息进行分析,得到第一分析结果;
分析模块,还用于基于GPT模型对节点日志信息进行分析,得到第二分析结果;
确定模块,还用于结合第一分析结果和第二分析结果,确定末端节点的故障判定结果;
故障定位模块,用于基于故障判定结果,定位故障路径中的故障源。
第三方面,本申请实施例提供一种电子设备,包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现如第一方面所述的故障诊断方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面所示的故障诊断方法的步骤。
第五方面,本申请实施例提供一种计算机程序产品,计算机程序产品被存储在非易失的存储介质中,计算机程序产品被至少一个处理器执行时实现如第一方面所示的故障诊断方法的步骤。
第六方面,本申请实施例提供了一种芯片,该芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面所示的故障诊断方法的步骤。
本申请实施例提供一种故障诊断方法、装置、设备、介质及产品,在对待测系统进行故障诊断的场景下,当获取到待测系统的告警信息时,基于该告警信息确定待测系统的所有节点中的M个告警节点,并基于待测系统的系统架构信息,对M个告警节点进行聚合,得到至少一条故障路径。获取每条故障路径中末端节点的网流量信息和节点日志信息,基于informer模型对网络流量信息进行分析,informer模型可以准确捕获网络流量中更加复杂的模式,及时预警可能存在的异常,因此基于informer模型可以对该末端节点的网络流量进行准确分析,及时感知到网络流量异常的情况,从而得到准确的第一分析结果。基于GPT模型,可以对节点日志信息进行自动化分析,提取出故障相关的关键信息,相比于人工分析,大大提高了日志分析的效率和准确性,更能深入挖掘出隐藏在大量日志信息中的潜在问题,从而得到准确的第二分析结果。因此,利用深度学习模型informer模型和GPT模型,可以实现网络流量和日志数据的自动化分析,相较于人工分析,能够大大加快分析速度,并且,在结合第一分析结果和第二分析结果确定末端节点的故障判定结果时,能够提升故障判定结果的准确性,进而准确的基于故障判定结果,精准定位故障路径中的故障源,从而提高故障诊断的准确性和效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请第一方面提供的故障诊断方法的一实施例的流程图;
图2为本申请第一方面提供的故障诊断方法的另一实施例的流程图;
图3为本申请第一方面提供的故障诊断方法的再一实施例的流程图;
图4为本申请第一方面提供的故障诊断方法的再一实施例的流程图;
图5为本申请第一方面提供的故障诊断方法的再一实施例的流程图;
图6为本申请第一方面提供的故障诊断方法的再一实施例的流程图;
图7为本申请第二方面提供的故障诊断装置的一实施例的结构示意图;
图8为本申请第三方面提供的电子设备的一实施例的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
目前,在管理和维护大型计算机软硬件集群的过程中,主要面临的挑战是如何快速有效地诊断和解决系统故障。
相关技术中,传统的故障诊断方法,依赖于人工对故障报错和日志的分析,这种传统方式在处理复杂、大量的网络流量和日志信息时,无法实现高效率和精确性,特别是在紧急故障情况下,这种延迟可能导致严重的系统影响和运营损失,故障诊断效果不佳。
基于上述出现的问题,本申请实施例提供一种故障诊断方法、装置、设备、介质及产品,利用深度学习模型informer模型和GPT模型,可以实现网络流量和日志数据的自动化分析,相较于人工分析,能够大大加快分析速度,并且,在结合第一分析结果和第二分析结果确定末端节点的故障判定结果时,能够提升故障判定结果的准确性,进而准确的基于故障判定结果,精准定位故障路径中的故障源,从而提高故障诊断的准确性和效率。
本申请实施例中的故障诊断方法可以应用于对业务系统或者计算机软硬件集群进行故障诊断的场景。下面结合附图,通过具体的实施例对本申请实施例提供的故障诊断方法进行详细地说明。
本申请第一方面提供一种故障诊断方法,可应用于电子设备,即该故障诊断方法可由电子设备执行。需要说明的是,上述执行主体并不构成对本申请的限定。
示例性地,该电子设备可以是与业务系统、应用系统或者计算机软硬件集群通信连接的故障诊断设备,该故障诊断设备可以是服务器或者服务器集群。
图1为本申请第一方面提供的故障诊断方法的一实施例的流程图。如图1所示,该故障诊断方法可以包括步骤110-步骤160。
步骤110,在获取到待测系统的告警信息的情况下,基于告警信息确定待测系统的所有节点中的M个告警节点;
步骤120,基于待测系统的系统架构信息,对M个告警节点进行聚合,得到至少一条故障路径;
步骤130,获取每条故障路径中末端节点的网络流量信息和节点日志信息;
步骤140,基于informer模型对网络流量信息进行分析,得到第一分析结果;
步骤150,基于GPT模型对节点日志信息进行分析,得到第二分析结果;
步骤160,结合第一分析结果和第二分析结果,确定末端节点的故障判定结果;
步骤170,基于故障判定结果,定位故障路径中的故障源。
本申请实施例提供的故障诊断方法,在对待测系统进行故障诊断的场景下,当获取到待测系统的告警信息时,基于该告警信息确定待测系统的所有节点中的M个告警节点,并基于待测系统的系统架构信息,对M个告警节点进行聚合,得到至少一条故障路径。获取每条故障路径中末端节点的网流量信息和节点日志信息,基于informer模型对网络流量信息进行分析,informer模型可以准确捕获网络流量中更加复杂的模式,及时预警可能存在的异常,因此基于informer模型可以对该末端节点的网络流量进行准确分析,及时感知到网络流量异常的情况,从而得到准确的第一分析结果。基于GPT模型,可以对节点日志信息进行自动化分析,提取出故障相关的关键信息,相比于人工分析,大大提高了日志分析的效率和准确性,更能深入挖掘出隐藏在大量日志信息中的潜在问题,从而得到准确的第二分析结果。因此,利用深度学习模型informer模型和GPT模型,可以实现网络流量和日志数据的自动化分析,相较于人工分析,能够大大加快分析速度,并且,在结合第一分析结果和第二分析结果确定末端节点的故障判定结果时,能够提升故障判定结果的准确性,进而准确的基于故障判定结果,精准定位故障路径中的故障源,从而提高故障诊断的准确性和效率。
下面结合的实施例,对上述步骤的具体实现方式进行详细说明,具体如下所示。
涉及步骤110,在获取到待测系统的告警信息的情况下,基于告警信息确定待测系统的所有节点中的M个告警节点。
在步骤110中,待测系统可以为与电子设备通信连接的业务系统、应用系统或者计算机软硬件集群,当待测系统出现告警事件时,可以向电子设备发送告警信息,以使电子设备对此次告警事件的故障根源进行定位。告警事件例如可以是中央处理器(CentralProcessing Unit,CPU)使用率、调用流量等性能指标超过预设指标阈值,或者剩余内存空间、调用成功率等性能指标低于预设指标阈值。M为正整数,告警信息中可以携带告警事件标识和M个节点标识,如此,电子设备可以基于M个节点标识,明确所有节点中的M个告警节点。
在一些实施例中,所有节点可以分为服务节点、虚拟机节点、物理机节点和存储节点,其中,服务节点与虚拟机节点连接,虚拟机节点与物理机节点连接,物理机节点与存储节点连接,如此可构成一条完整的服务调用链。
示例性地,存储节点可以为存储设备,该存储设备例如可以是网络存储器(Network Attached Storage,NSA)。
在本申请的一些实施例中,电子设备可以首先判断待测系统是否为单节点故障,若为单节点故障,则不会触发后续故障下探过程。
涉及步骤120,基于待测系统的系统架构信息,对M个告警节点进行聚合,得到至少一条故障路径。
在步骤120中,电子设备可以从待测系统关联的配置管理数据库(ConfigurationManagement Database,CMDB)中获取其系统架构信息,该系统架构信息可以以json形式进行存储传递。
在一些实施例中,该系统架构信息可以包括各个节点的前驱节点信息和后继节点信息,步骤120可以具体包括下述步骤:
基于各个节点的前驱节点信息和后继节点信息,确定每个节点的前驱节点和后继节点,得到与每个节点具有关联关系的关联节点;
将所述M个告警节点中具有关联关系的告警节点进行连接,得到至少一条告警路径。
其中,关联节点可以包括前驱节点和后继节点,前驱节点为该节点在服务调用链上的前一个节点,后继节点为该节点在服务调用链上的后一个节点。
示例性地,服务节点A由虚拟机节点B1、B2、B3提供,也即,服务节点A为虚拟机节点B1、B2、B3的前驱节点。当M个告警节点中包括服务节点A和虚拟机节点B1时,由于服务节点A和虚拟机节点B1具有关联关系,则可以确定一条故障路径A→B1。
涉及步骤130,获取每条故障路径中末端节点的网络流量信息和节点日志信息。
在步骤130中,电子设备可以旁路地从监控平台、日志归集平台获取单个末端节点的网络流量信息与节点日志信息。在基于informer模型对网络流量信息进行分析之前,电子设备可以将网络流量信息转换为时间序列数据;在基于GPT模型对节点日志信息进行分析之前,电子设备对节点日志信息进行自然语言预处理。
涉及步骤140,基于informer模型对网络流量信息进行分析,得到第一分析结果。
在步骤140中,informer模型源自自然语言处理中的Transformer模型,是一种深度学习模型,通过其自注意力机制完成时间序列预测任务,网络流量是较为底层的黑盒判异依据,第一分析结果用于表征末端节点是否存在网络流量异常。
相关技术中,可以通过知识图谱的方式对设备进行故障诊断,提高故障检测的效率和准确性,但是这种方法在处理设备彻底无响应的情况时存在短板。因为知识图谱的方式依赖于设备的实时工作参数,当设备彻底无响应,无法获取相关工作参数时,这种方法就无法进行有效地故障诊断。
基于此,为了在设备无响应时依然有效进行故障诊断,在本申请的一些实施例中,图2为本申请第一方面提供的故障诊断方法的另一实施例的流程图,上述步骤140可以包括图2所示的步骤210-步骤230。
步骤210,向informer模型输入网络流量信息,以使informer模型将网络流量信息拆分为第一流量信息和第二流量信息之后,利用第一流量信息对目标时刻之后的网络流量进行预测,得到预测流量信息;
步骤220,对比第二流量信息和预测流量信息,得到流量偏差信息;
步骤230,在流量偏差信息满足预设流量偏差条件的情况下,确定末端节点的第一分析结果为异常;
其中,第一流量信息为目标时刻之前的网络流量信息,第二流量信息为目标时刻之后的网络流量信息;目标时刻可以为与当前时刻间隔预设时长的时刻,该预设时长可以根据具体需求进行设置,例如设置目标时刻为当前之前3min,也即,第二流量信息为最近3min的网络流量信息,当然也可以设置为其它值,本申请对此不做具体限定。
可选地,流量偏差信息可以为流量偏差值、流量偏差幅度等流量偏差指标,预设流量偏差条件可以为流量偏差值大于预设偏差阈值或者流量偏差幅度大于预设偏差幅度,该预设偏差阈值和预设偏差幅度可以根据具体需求进行设置,例如设置预设偏差幅度为10%,一旦实际流量值偏离预测值幅度超过10%,则认为当前末端节点存在故障可能。
在本申请实施例中,通过informer模型对网络流量的分析,即使在设备无响应时,仍然能够从网络流量中抓取到有价值信息进行故障判断,有效弥补了基于设备参数的诊断方式在设备无响应时的短板。同时,基于informer模型的ProbSparse自注意力机制,能显著减少计算复杂性。另外,informer模型引入了数据缩放(Data Scaling)和标签缩放(LabelScaling)策略,以有效地处理长范围的时间序列预测,增强了长序列的处理能力,实现高效、准确的时间序列预测,与之前用于时间序列预测的长短期记忆网络(Long Short-TermMemory,LSTM)、门控循环单元网络(Gated Recurrent Unit networks,GRU)相比,可以捕获网络流量中更加复杂的模式,及时预警可能存在的异常,进而提升流量偏差信息和第一分析结果的准确度。
涉及步骤150,基于GPT模型对节点日志信息进行分析,得到第二分析结果。
在步骤150中,生成式预训练Transformer模型(Generative PretrainedTransformer,GPT)基于Transformer的解码器构建,并采用自回归方式进行语言建模,是一种自然语言处理(NLP)的预训练模型。GPT模型首先在大规模文本数据上进行无监督学习,学习到丰富的语言表示,然后在特定任务上进行微调。GPT模型的强大之处在于它能理解和生成人类语言,适用于各种NLP任务,如文本生成、文本分类、问答等,本申请实施例中主要利用GPT模型进行文本概括与文本分类任务。通过GPT模型可以自动分析日志的白盒判异,第二分析结果用于表征末端节点是否存在日志异常。
在本申请的一些实施例中,GPT模型包括第一子GPT模型和第二子GPT模型,图3为本申请第一方面提供的故障诊断方法的再一实施例的流程图,上述步骤150可以包括图3所示的步骤310和步骤320。
步骤310,通过第一子GPT模型对节点日志信息进行文本概括,得到日志概括信息;
步骤320,通过第二子GPT模型对日志概括信息进行二分类识别,输出正常或者异常的第二分析结果。
具体地,可以利用两个GPT模型协同合作进行判异,其中,第一子GPT模型是由3层transformer搭建的GPT模型,第一子GPT模型用于进行日志概括,减少冗余信息;第二子GPT模型是由10层transformer搭建的GPT模型,第二子GPT模型用于通过一个逻辑回归层执行“故障/异常”的二分类任务,输出日志是否异常的第二分析结果。
在本申请实施例中,通过两个GPT模型协同合作进行判异,能够对系统日志进行自动化分析,提取出故障相关的关键信息,相比于人工分析,大大提高了日志分析的效率和准确性,更能深入挖掘隐藏在大量日志信息中的潜在问题,有效识别出末端节点所存在的日志异常。本申请提出的新颖的基于Informer模型和GPT模型的系统故障诊断方案,利用先进的深度学习模型,自动化地分析网络流量和日志数据,从而提高故障诊断的准确性和效率,在生产实践验证中可以提高对外服务质量。
涉及步骤160,结合第一分析结果和第二分析结果,确定末端节点的故障判定结果。
在步骤160中,可以包括下述三种情况:
在第一分析结果和第二分析结果均为正常的情况下,确定故障判定结果为正常;
在第一分析结果和第二分析结果均为异常的情况下,确定故障判定结果为异常;
在第一分析结果与第二分析结果不同的情况下,对末端节点进行健康检查,并将健康检查结果作为故障判定结果。
在本申请实施例中,采用“推断+验证”的异常推断方案,首先基于告警信息推断所有告警节点均存在故障,其次采用网络流量和日志这种黑盒白盒相结合的自动化分析方式,具体验证告警节点,准确判定出告警节点的实际故障状态,方便后续基于该告警节点的实际故障状态定位故障根源。在第一分析结果与第二分析结果相矛盾时,采用健康检查进行状态验证,确认故障状态,这种方式比单纯算法分析具有更高的准确率。另外,相比于相关技术中通过主动检查数据库的读写状态和操作系统的存活状态,判断服务器是否出现死锁的全量持续探测,本申请的故障诊断方式无需全量持续探测,也不会带来额外的性能负担,有效避免了对服务器持续探测造成的性能影响,大大减少了故障导致的影响和损失,有利于系统的稳定运行。
相关技术中,在面对复杂的大型计算机软硬件集群,越深层的故障越容易引发一连串连锁反应,使得大量节点出现异常状态,此时不仅要检测出节点的故障,更要在众多异常节点中诊断出“故障根源”。
涉及步骤170,基于故障判定结果,定位故障路径中的故障源。
在步骤170中,可以结合故障判定结果,以及末端节点在其服务调用链上的所处位置,定位故障路径中的故障源。
在本申请的一些实施例中,图4为本申请第一方面提供的故障诊断方法的再一实施例的流程图,上述步骤170可以包括图4所示的步骤410和步骤420。
步骤410,在末端节点的故障判定结果为正常的情况下,确定末端节点的前驱节点为故障源;
步骤420,在末端节点的故障判定结果为异常,且末端节点不存在后继节点的情况下,确定末端节点为故障源。
在本申请的另一些实施例中,图5为本申请第一方面提供的故障诊断方法的再一实施例的流程图,上述步骤170可以包括图5所示的步骤510-步骤530。
步骤510,在故障判定结果为异常,且末端节点存在后继节点的情况下,基于informer网络模型和GPT模型,确定后继节点的故障判定结果;
步骤520,在后继节点的故障判定结果为正常的情况下,确定末端节点为故障源;
步骤530,在后继节点的故障判定结果为异常的情况下,对故障路径进行拓展,将故障路径的末端节点更新为后继节点,并继续确定更新后的末端节点的故障判定结果,直至得到故障源。
示例性地,当服务节点A和虚拟机节点B1为告警来源时,初步确定一条故障路径为A→B1,并初步确定B1为故障路径上的末端节点后对其进行故障状态检测。若B1的故障判定结果为异常,即B1为故障节点,则确认B1是否存在后继节点,若不存在后继节点,确认B1为故障源;若存在物理机节点C1为后继节点,则故障路径更新为A→B1→C1,并对C1进行故障状态检测。若C1的故障判定结果为异常,即C1为故障节点,则基于上述判断逻辑,继续确认C1是否存在后继节点,若不存在后继节点,确认C1为故障源;若存在存储节点D1为后继节点,则故障路径更新为A→B1→C1→D1,并对D1进行故障状态检测,由于存储节点一般不存在后继节点,因此若D1的故障判定结果为异常,直接判定D1为故障源,否则判定C1为故障源。
在本申请实施例中,故障诊断时不局限于单一的设备参数或数据库状态,在深层故障引发大批量节点异常时,会通过系统架构信息进行故障路径下探,在故障路径中的末端节点存在后继节点的情况下,继续拓展故障路径,从而在故障路径中确认故障根源。在生产实际实践中,该方案可以在存储设备宕机等大型故障中快速定位根源,提高故障处理效率,保障对外服务稳定性。
在本申请的一些实施例中,所有节点中包括服务节点、虚拟机节点、物理机节点和存储节点,图6为本申请第一方面提供的故障诊断方法的再一实施例的流程图,上述步骤530可以包括图6所示的步骤610-步骤660。
步骤610,在故障判定结果为异常,且末端节点存在后继节点的情况下,确定后继节点的节点类型;
步骤620,在后继节点为虚拟机节点的情况下,直接基于informer网络模型和GPT模型,确定后继节点的故障判定结果;
步骤630,在后继节点为物理机节点或者存储节点的情况下,获取与后继节点关联的所有前驱节点的数量,得到第一数量,并获取与后继节点关联的所有前驱节点中告警节点的数量,得到第二数量;
步骤640,确定第二数量与第一数量的比值为后继节点对应的故障集中度;
步骤650,在故障集中度大于预设集中度阈值的情况下,基于informer网络模型和GPT模型,确定后继节点的故障判定结果;
步骤660,在故障集中度小于或等于预设集中度阈值的情况下,确定后继节点的故障判定结果为正常。
具体地,虚拟机节点与物理机节点是多对一的关联关系,即多个虚拟机节点可以对应同一物理机节点;物理机节点与存储节点也是多对一的关联关系,即多个存储节点可以对应同一物理机节点。预设集中度阈值可以根据具体需求进行设置,例如设置为0.5、0.6或者其它数值,本申请对此不做具体限定。
示例性地,当服务节点A和虚拟机节点B1为告警来源时,初步确定一条故障路径为A→B1,并初步确定B1为故障路径上的末端节点后对其进行故障状态检测。若B1的故障判定结果为异常,即B1为故障节点,则确认B1是否存在后继节点,若存在后继节点为物理机节点C1,则在对C1进行故障状态检测之前,需确认C1的故障集中度。具体地,与C1具有关联关系的虚拟机节点包括30个,存在20个为告警节点,则故障集中度为16/30=0.53,若预设集中度阈值为0.5,则C1很大可能是故障节点,因此继续对C1进行故障检测;若预设集中度阈值为0.6,则直接确认C1为正常节点,并确认B1为故障源。
在本申请实施例中,基于物理机节点可以连接多个虚拟机节点,存储节点可以连接多个物理机节点,在查找故障源的过程中,若后继节点为物理机节点或者存储节点,则可以将其对应的故障集中度考虑在内,结合单个节点的故障集中度进行故障源定位。若某一物理机节点连接的所有虚拟机节点中,存在大部分告警节点,则可以推断该物理机节点大概率为故障节点,若仅存在小部分告警节点,则可以推断该物理机节点大概率为正常节点;相似地,若某一存储节点连接的所有物理机节点中,存在大部分告警节点,则可以推断该存储节点大概率为故障节点,而基于存储节点一般没有后继节点,因此可以直接确认该存储节点为故障源,若仅存在小部分告警节点,则可以推断该存储节点大概率为正常节点。如此,可以在故障路径中准确定位故障源,提升故障定位的准确性。
作为一个具体的示例,在一次生产故障中,首先判断了139台虚机节点存在异常,继而对与139台虚机节点相关的40台物理机节点进行故障检测,在确认物理机节点异常后,发现所有40台物理机节点均与1个NAS节点相关,因此确认该NAS集群为故障根源,整个推理过程耗时约12秒左右,因此能够帮助一线人员快速定位故障根因,缩短故障处理时间。
基于同样的发明构思,本申请第二方面提供一种故障诊断装置。图7为本申请第二方面提供的故障诊断装置的一实施例的结构示意图。
如图7所示,故障诊断装置700具体可以包括:
确定模块710,用于在获取到待测系统的告警信息的情况下,基于告警信息确定待测系统的所有节点中的M个告警节点;
聚合模块720,用于基于待测系统的系统架构信息,对M个告警节点进行聚合,得到至少一条故障路径;
获取模块730,用于获取每条故障路径中末端节点的网络流量信息和节点日志信息;
分析模块740,用于基于informer模型对网络流量信息进行分析,得到第一分析结果;
分析模块740,用于基于GPT模型对节点日志信息进行分析,得到第二分析结果;
确定模块710,还用于结合第一分析结果和第二分析结果,确定末端节点的故障判定结果;
故障定位模块750,用于基于故障判定结果,定位故障路径中的故障源。
本申请实施例提供的故障诊断装置,在对待测系统进行故障诊断的场景下,当获取到待测系统的告警信息时,基于该告警信息确定待测系统的所有节点中的M个告警节点,并基于待测系统的系统架构信息,对M个告警节点进行聚合,得到至少一条故障路径。获取每条故障路径中末端节点的网流量信息和节点日志信息,基于informer模型对网络流量信息进行分析,informer模型可以准确捕获网络流量中更加复杂的模式,及时预警可能存在的异常,因此基于informer模型可以对该末端节点的网络流量进行准确分析,及时感知到网络流量异常的情况,从而得到准确的第一分析结果。基于GPT模型,可以对节点日志信息进行自动化分析,提取出故障相关的关键信息,相比于人工分析,大大提高了日志分析的效率和准确性,更能深入挖掘出隐藏在大量日志信息中的潜在问题,从而得到准确的第二分析结果。因此,利用深度学习模型informer模型和GPT模型,可以实现网络流量和日志数据的自动化分析,相较于人工分析,能够大大加快分析速度,并且,在结合第一分析结果和第二分析结果确定末端节点的故障判定结果时,能够提升故障判定结果的准确性,进而准确的基于故障判定结果,精准定位故障路径中的故障源,从而提高故障诊断的准确性和效率。
下面对本申请实施例提供的故障诊断装置700进行详细说明。
在本申请的一些实施例中,故障定位模块750具体用于:
在末端节点的故障判定结果为正常的情况下,确定末端节点的前驱节点为故障源;
在末端节点的故障判定结果为异常,且末端节点不存在后继节点的情况下,确定末端节点为故障源。
在本申请的一些实施例中,故障定位模块750包括:
确定子模块,用于在故障判定结果为异常,且末端节点存在后继节点的情况下,基于informer网络模型和GPT模型,确定后继节点的故障判定结果;
确定子模块,还用于在后继节点的故障判定结果为正常的情况下,确定末端节点为故障源;
路径更新子模块,用于在后继节点的故障判定结果为异常的情况下,对故障路径进行拓展,将故障路径的末端节点更新为后继节点,并继续确定更新后的末端节点的故障判定结果,直至得到故障源。
在本申请的一些实施例中,所有节点中包括服务节点、虚拟机节点、物理机节点和存储节点,路径更新子模块包括:
确定单元,用于在故障判定结果为异常,且末端节点存在后继节点的情况下,确定后继节点的节点类型;
确定单元,还用于在后继节点为虚拟机节点的情况下,直接基于informer网络模型和GPT模型,确定后继节点的故障判定结果;
获取单元,用于在后继节点为物理机节点或者存储节点的情况下,获取与后继节点关联的所有前驱节点的数量,得到第一数量,并获取与后继节点关联的所有前驱节点中告警节点的数量,得到第二数量;
确定单元,还用于确定第二数量与第一数量的比值为后继节点对应的故障集中度;
确定单元,还用于在故障集中度大于预设集中度阈值的情况下,基于informer网络模型和GPT模型,确定后继节点的故障判定结果;
确定单元,还用于在故障集中度小于或等于预设集中度阈值的情况下,确定后继节点的故障判定结果为正常。
在本申请的一些实施例中,分析模块740包括:
输入子模块,用于向informer模型输入网络流量信息,以使informer模型将网络流量信息拆分为第一流量信息和第二流量信息之后,利用第一流量信息对目标时刻之后的网络流量进行预测,得到预测流量信息;
对比模块,用于对比第二流量信息和预测流量信息,得到流量偏差信息;
确定模块710,用于在流量偏差信息满足预设流量偏差条件的情况下,确定末端节点的第一分析结果为异常;
其中,第一流量信息为目标时刻之前的网络流量信息,第二流量信息为目标时刻之后的网络流量信息。
在本申请的一些实施例中,GPT模型包括第一子GPT模型和第二子GPT模型,分析模块740包括:
日志概括子模块,用于通过第一子GPT模型对节点日志信息进行文本概括,得到日志概括信息;
识别子模块,用于通过第二子GPT模型对日志概括信息进行二分类识别,输出正常或者异常的第二分析结果。
在本申请的一些实施例中,确定模块710具体用于:
在第一分析结果和第二分析结果均为正常的情况下,确定故障判定结果为正常;
在第一分析结果和第二分析结果均为异常的情况下,确定故障判定结果为异常;
在第一分析结果与第二分析结果不同的情况下,对末端节点进行健康检查,并将健康检查结果作为故障判定结果。
本申请第三方面还提供了一种电子设备。图8为本申请第三方面提供的电子设备的一实施例的结构示意图。如图8所示,电子设备800包括存储器801、处理器802及存储在存储器801上并可在处理器802上运行的计算机程序。
在一个示例中,上述处理器802可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器801可包括只读存储器(Read-Only Memory,ROM),随机存取存储器(RandomAccess Memory,RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请第一方面的实施例中故障诊断方法所描述的操作。
处理器802通过读取存储器801中存储的可执行程序代码来运行与可执行程序代码对应的计算机程序,以用于实现上述第一方面实施例中的故障诊断方法。
在一些示例中,电子设备800还可包括通信接口803和总线810。其中,如图8所示,存储器801、处理器802、通信接口803通过总线810连接并完成相互间的通信。
通信接口803,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。也可通过通信接口803接入输入设备和/或输出设备。
总线810包括硬件、软件或两者,将故障诊断装置800的部件彼此耦接在一起。举例来说而非限制,总线810可包括加速图形端口(Accelerated Graphics Port,AGP)或其他图形总线、增强工业标准架构(Enhanced Industry Standard Architecture,EISA)总线、前端总线(Front Side Bus,FSB)、超传输(Hyper Transport,HT)互连、工业标准架构(Industry Standard Architecture,ISA)总线、无限带宽互连、低引脚数(Low pin count,LPC)总线、存储器总线、微信道架构(Micro Channel Architecture,MCA)总线、外围组件互连(Peripheral Component Interconnect,PCI)总线、PCI-Express(PCI-E)总线、串行高级技术附件(Serial Advanced Technology Attachment,SATA)总线、视频电子标准协会局部(Video Electronics Standards Association Local Bus,VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线810可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
本申请第四方面提供一种计算机可读存储介质,该计算机可读存储介质上存储有程序或指令,该程序或指令被处理器执行时可实现上述第一方面所示的故障诊断方法,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,上述计算机可读存储介质可包括非暂态计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等,在此并不限定。
本申请第五方面提供一种计算机程序产品,该计算机程序产品被存储在非易失的存储介质中,计算机程序产品被至少一个处理器执行时实现如第一方面所示的故障诊断方法的步骤,故障诊断方法的具体内容可参见上述实施例中的相关说明,在此不再赘述。
本申请第六方面提供一种芯片,该芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面所示的故障诊断方法的步骤,故障诊断方法的具体内容可参见上述实施例中的相关说明,在此不再赘述。
本申请还可提供一种故障诊断系统,该故障诊断系统可包括上述实施例中的故障诊断装置。故障诊断装置的具体内容可参见上述实施例中的相关说明,在此不再赘述。
需要明确的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。对于装置实施例、故障诊断装置实施例、设备实施例、系统实施例和计算机可读存储介质实施例而言,相关之处可以参见方法实施例的说明部分。本申请并不局限于上文所描述并在图中示出的特定步骤和结构。本领域的技术人员可以在领会本申请的精神之后,作出各种改变、修改和添加,或者改变步骤之间的顺序。并且,为了简明起见,这里省略对已知方法技术的详细描述。
上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
本领域技术人员应能理解,上述实施例均是示例性而非限制性的。在不同实施例中出现的不同技术特征可以进行组合,以取得有益效果。本领域技术人员在研究附图、说明书及权利要求书的基础上,应能理解并实现所揭示的实施例的其他变化的实施例。在权利要求书中,术语“包括”并不排除其他装置或步骤;数量词“一个”不排除多个;术语“第一”、“第二”用于标示名称而非用于表示任何特定的顺序。权利要求中的任何附图标记均不应被理解为对保护范围的限制。权利要求中出现的多个部分的功能可以由一个单独的硬件或软件模块来实现。某些技术特征出现在不同的从属权利要求中并不意味着不能将这些技术特征进行组合以取得有益效果。

Claims (11)

1.一种故障诊断方法,其特征在于,所述方法包括:
在获取到待测系统的告警信息的情况下,基于所述告警信息确定所述待测系统的所有节点中的M个告警节点;
基于所述待测系统的系统架构信息,对所述M个告警节点进行聚合,得到至少一条故障路径;
获取每条故障路径中末端节点的网络流量信息和节点日志信息;
基于informer模型对所述网络流量信息进行分析,得到第一分析结果;
基于GPT模型对所述节点日志信息进行分析,得到第二分析结果;
结合所述第一分析结果和所述第二分析结果,确定所述末端节点的故障判定结果;
基于所述故障判定结果,定位所述故障路径中的故障源。
2.根据权利要求1所述的方法,其特征在于,所述基于所述故障判定结果,定位所述故障路径中的故障源,包括:
在所述末端节点的故障判定结果为正常的情况下,确定所述末端节点的前驱节点为所述故障源;
在所述末端节点的故障判定结果为异常,且所述末端节点不存在后继节点的情况下,确定所述末端节点为所述故障源。
3.根据权利要求1所述的方法,其特征在于,所述基于所述故障判定结果,定位所述故障路径中的故障源,包括:
在所述故障判定结果为异常,且所述末端节点存在后继节点的情况下,基于所述informer网络模型和所述GPT模型,确定所述后继节点的故障判定结果;
在所述后继节点的故障判定结果为正常的情况下,确定所述末端节点为所述故障源;
在所述后继节点的故障判定结果为异常的情况下,对所述故障路径进行拓展,将所述故障路径的末端节点更新为所述后继节点,并继续确定更新后的末端节点的故障判定结果,直至得到所述故障源。
4.根据权利要求3所述的方法,其特征在于,所述所有节点中包括服务节点、虚拟机节点、物理机节点和存储节点,所述在所述故障判定结果为异常,且所述末端节点存在后继节点的情况下,基于所述informer网络模型和所述GPT模型,确定所述后继节点的故障判定结果,包括:
在所述故障判定结果为异常,且所述末端节点存在后继节点的情况下,确定所述后继节点的节点类型;
在所述后继节点为所述虚拟机节点的情况下,直接基于所述informer网络模型和所述GPT模型,确定所述后继节点的故障判定结果;
在所述后继节点为物理机节点或者存储节点的情况下,获取与所述后继节点关联的所有前驱节点的数量,得到第一数量,并获取与所述后继节点关联的所有前驱节点中告警节点的数量,得到第二数量;
确定所述第二数量与所述第一数量的比值为所述后继节点对应的故障集中度;
在所述故障集中度大于预设集中度阈值的情况下,基于所述informer网络模型和所述GPT模型,确定所述后继节点的故障判定结果;
在所述故障集中度小于或等于所述预设集中度阈值的情况下,确定所述后继节点的故障判定结果为正常。
5.根据权利要求1所述的方法,其特征在于,所述基于informer模型对所述网络流量信息进行分析,得到第一分析结果,包括:
向所述informer模型输入所述网络流量信息,以使所述informer模型将所述网络流量信息拆分为第一流量信息和第二流量信息之后,利用所述第一流量信息对目标时刻之后的网络流量进行预测,得到预测流量信息;
对比所述第二流量信息和所述预测流量信息,得到流量偏差信息;
在所述流量偏差信息满足预设流量偏差条件的情况下,确定所述末端节点的第一分析结果为异常;
其中,所述第一流量信息为所述目标时刻之前的网络流量信息,所述第二流量信息为所述目标时刻之后的网络流量信息。
6.根据权利要求1所述的方法,其特征在于,所述GPT模型包括第一子GPT模型和第二子GPT模型,所述基于GPT模型对所述节点日志信息进行分析,得到第二分析结果,包括:
通过所述第一子GPT模型对所述节点日志信息进行文本概括,得到日志概括信息;
通过所述第二子GPT模型对所述日志概括信息进行二分类识别,输出正常或者异常的第二分析结果。
7.根据权利要求1所述的方法,其特征在于,所述结合所述第一分析结果和所述第二分析结果,确定所述末端节点的故障判定结果,包括:
在所述第一分析结果和所述第二分析结果均为正常的情况下,确定所述故障判定结果为正常;
在所述第一分析结果和所述第二分析结果均为异常的情况下,确定所述故障判定结果为异常;
在所述第一分析结果与所述第二分析结果不同的情况下,对所述末端节点进行健康检查,并将健康检查结果作为所述故障判定结果。
8.一种故障诊断装置,其特征在于,所述装置包括:
确定模块,用于在获取到待测系统的告警信息的情况下,基于所述告警信息确定所述待测系统的所有节点中的M个告警节点;
聚合模块,用于基于所述待测系统的系统架构信息,对所述M个告警节点进行聚合,得到至少一条故障路径;
获取模块,用于获取每条故障路径中末端节点的网络流量信息和节点日志信息;
分析模块,用于基于informer模型对所述网络流量信息进行分析,得到第一分析结果;
所述分析模块,还用于基于GPT模型对所述节点日志信息进行分析,得到第二分析结果;
所述确定模块,还用于结合所述第一分析结果和所述第二分析结果,确定所述末端节点的故障判定结果;
故障定位模块,用于基于所述故障判定结果,定位所述故障路径中的故障源。
9.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1至7中任意一项所述的故障诊断方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至7中任意一项所述的故障诊断方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品被存储在非易失的存储介质中,所述计算机程序产品被至少一个处理器执行时实现如权利要求1至7中任意一项所述的故障诊断方法。
CN202311069879.0A 2023-08-23 2023-08-23 故障诊断方法、装置、设备、介质及产品 Pending CN117061318A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311069879.0A CN117061318A (zh) 2023-08-23 2023-08-23 故障诊断方法、装置、设备、介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311069879.0A CN117061318A (zh) 2023-08-23 2023-08-23 故障诊断方法、装置、设备、介质及产品

Publications (1)

Publication Number Publication Date
CN117061318A true CN117061318A (zh) 2023-11-14

Family

ID=88658703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311069879.0A Pending CN117061318A (zh) 2023-08-23 2023-08-23 故障诊断方法、装置、设备、介质及产品

Country Status (1)

Country Link
CN (1) CN117061318A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117389230A (zh) * 2023-11-16 2024-01-12 广州中健中医药科技有限公司 抗高血压中药提取液生产控制方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117389230A (zh) * 2023-11-16 2024-01-12 广州中健中医药科技有限公司 抗高血压中药提取液生产控制方法及系统
CN117389230B (zh) * 2023-11-16 2024-06-07 广州中健中医药科技有限公司 抗高血压中药提取液生产控制方法及系统

Similar Documents

Publication Publication Date Title
Cai et al. Bayesian networks in fault diagnosis
CN111435366A (zh) 设备故障诊断方法、装置和电子设备
CN111985561A (zh) 一种智能电表的故障诊断方法、系统及电子装置
CN117061318A (zh) 故障诊断方法、装置、设备、介质及产品
CN110221145A (zh) 电力设备故障诊断方法、装置及终端设备
CN110597235A (zh) 一种通用智能故障诊断方法
CN110515781A (zh) 一种复杂系统状态监测及故障诊断方法
CN103617105B (zh) 一种基于数据驱动的自适应多层流模型设备诊断方法
CN116089231B (zh) 一种故障告警方法、装置、电子设备及存储介质
CN110188837A (zh) 一种基于模糊神经的mvb网络故障诊断方法
Li et al. Intelligent fault diagnosis of aeroengine sensors using improved pattern gradient spectrum entropy
CN116956215A (zh) 一种传动系统故障诊断方法及系统
CN116743637B (zh) 一种异常流量的检测方法、装置、电子设备及存储介质
Mo et al. Method on the fault detection and diagnosis for the railway turnout based on the current curve of switch machine
CN116450137A (zh) 一种系统异常的检测方法、装置、存储介质及电子设备
CN116541748A (zh) 基于人工智能技术的电网故障诊断方法和系统
CN111415326A (zh) 一种用于铁路接触网螺栓异常状态的检测方法及系统
CN109799425B (zh) 电网故障诊断方法及装置
CN113177077B (zh) 用于自动驾驶的异常事件确定方法、装置及电子设备
CN112685246B (zh) 一种时序数据的处理方法及装置
US20240061739A1 (en) Incremental causal discovery and root cause localization for online system fault diagnosis
CN117708640A (zh) 一种基于混合预测模型的复杂装备电源组故障预测方法
CN114371678A (zh) 一种装备安全生产的预警方法、系统、设备及存储介质
He et al. Unsupervised Log Anomaly Detection Based on Pre-training
Wang et al. A Design of Turnout Health Monitoring Algorithm and System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40100880

Country of ref document: HK