CN113240139B - 告警因果评估方法、故障根因定位方法及电子设备 - Google Patents

告警因果评估方法、故障根因定位方法及电子设备 Download PDF

Info

Publication number
CN113240139B
CN113240139B CN202110619433.5A CN202110619433A CN113240139B CN 113240139 B CN113240139 B CN 113240139B CN 202110619433 A CN202110619433 A CN 202110619433A CN 113240139 B CN113240139 B CN 113240139B
Authority
CN
China
Prior art keywords
alarm
fault
information
node
cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110619433.5A
Other languages
English (en)
Other versions
CN113240139A (zh
Inventor
弄庆鹏
周祥生
李忠良
高洪
屠要峰
何荣荣
盛杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing ZTE New Software Co Ltd
Original Assignee
Nanjing ZTE New Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing ZTE New Software Co Ltd filed Critical Nanjing ZTE New Software Co Ltd
Priority to CN202110619433.5A priority Critical patent/CN113240139B/zh
Publication of CN113240139A publication Critical patent/CN113240139A/zh
Application granted granted Critical
Publication of CN113240139B publication Critical patent/CN113240139B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Development Economics (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种告警因果评估方法、故障根因定位方法及电子设备,本发明通过告警因果评估方法,根据网络系统的第一告警信息和拓扑数据建立第一故障告警图,基于因果论推理的方法构建故障告警因果假设,通过对系统故障样本对因果假设进行评估获取故障告警的因果评估值,在故障根因定位方法中,基于因果评估值进行故障根因定位,从而快速实现系统故障根因定位,缩短网络系统故障定位和系统恢复时间,提高网络系统运维效率降低运维资源的消耗,提升产品用户体验。

Description

告警因果评估方法、故障根因定位方法及电子设备
技术领域
本发明涉及信息处理技术和人工智能应用技术领域,特别是涉及一种告警因果评估方法、故障根因定位方法及电子设备。
背景技术
在复杂的I T网络系统中,通常存在站点间、系统间、服务器间、应用组件间的服务交互调用,系统动辄成千上万个模块节点,系统运行过程中通常会产生大量的日志。当系统中服务节点发生故障时,故障会沿着系统节点间的调用链路进行传播,从而产生大量的告警日志信息,俗称告警风暴。这使得根因告警信息被淹没在海量的告警信息中,相关技术中,运维人员从大量的告警信息中筛选定位导致故障的告警非常耗时耗力,致使网络系统服务中断后无法快速进行恢复,系统越复杂系统的运维压力越大且运维资源消耗大。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种告警因果评估方法、故障根因定位方法及电子设备,能够快速实现系统故障根因定位,缩短网络系统故障定位和系统恢复时间,提高网络系统运维效率降低运维资源的消耗,提升产品用户体验。
第一方面,本发明实施例提供了一种告警因果评估方法,包括:
获取第一告警信息和拓扑数据,根据所述第一告警信息和所述拓扑数据构建第一故障告警样本图;
根据所述第一故障告警样本图得到告警因果假设;
根据所述告警因果假设进行因果评估得到因果评估值。
第二方面,本发明实施例还提供了一种故障根因定位方法,包括:
获取第二告警信息和拓扑数据,根据所述第二告警信息和所述拓扑数据构建第四故障告警样本图;
获取因果评估值,根据所述因果评估值对所述第四故障告警样本图进行故障根因定位;
其中,所述因果评估值通过以下步骤得到:
获取第一告警信息和所述拓扑数据,根据所述第一告警信息和所述拓扑数据构建第一故障告警样本图;
根据所述第一故障告警样本图得到告警因果假设;
根据所述告警因果假设进行因果评估,得到所述因果评估值。
第三方面,本发明实施例还提供了一种电子设备,其特征在于,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如第一方面实施例述的告警因果评估方法或第二方面实施例所述的故障根因定位方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如如第一方面实施例所述的告警因果评估方法或第二方面实施例所述的故障根因定位方法。
本发明实施例至少包括以下有益效果:本发明实施例通过告警因果评估方法,根据网络系统的第一告警信息和拓扑数据建立第一故障告警图,基于因果论推理的方法构建故障告警因果假设,通过对系统故障样本对因果假设进行评估获取故障告警的因果评估值,在故障根因定位方法中,基于因果评估值进行故障根因定位,从而快速实现系统故障根因定位,缩短网络系统故障定位和系统恢复时间,提高网络系统运维效率降低运维资源的消耗,提升产品用户体验。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明实施例提供的因果假设中变量定义示意图;
图2是本发明实施例提供的故障根因定位系统框图;
图3是本发明实施例提供的告警因果评估方法流程图;
图4是本发明实施例提供的数据采集示意图;
图5是本发明另一实施例提供的告警因果评估方法流程图;
图6是本发明实施例提供的样本图处理示意图;
图7是本发明另一实施例提供的告警因果评估方法流程图;
图8是本发明实施例提供的数据获取示意图;
图9是本发明另一实施例提供的告警因果评估方法流程图;
图10是本发明实施例提供的根据告警子图提取告警图的示意图;
图11是本发明另一实施例提供的根据告警子图提取告警图的示意图;
图12是本发明另一实施例提供的告警因果评估方法流程图;
图13是本发明实施例提供的因果评估示意图;
图14是本发明另一实施例提供的故障根因定位方法流程图;
图15是本发明另一实施例提供的故障根因定位方法流程图;
图16是本发明另一实施例提供的故障根因定位方法流程图;
图17是本发明另一实施例提供的故障根因定位方法流程图;
图18是本发明实施例提供的根因定位示意图;
图19是本发明另一实施例提供的故障根因定位系统框图;
图20是本发明另一实施例提供的故障根因定位系统框图;
图21是本发明实施例提供的电子设备的示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
应了解,在本发明实施例的描述中,多个(或多项)的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到“第一”、“第二”等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
在网络系统中,节点在网络系统中可以定位为PC物理机、软件服务、组件实例等,网络系统拓扑图中的边则可以定义节点间的服务调用或者数据流向中的一种关系,在对拓扑图进行因果假设中,变量的定义和命名参照图1所示,在因果图假设由节点和因果关系边组成,图中节点表示因果变量,边表示因果关系,其中,边的源节点Y为因变量(treatment变量),边的目标节点Z为结果变量(outcome变量),因变量和结果变量的共同因变量X为混淆变量(confound变量)。
本发明实施例结合模块化网络系统节点的拓扑数据、系统故障告警日志信息以及告警时间信息,结合因果论推理方法(而不是传统的统计关联)根据系统的拓扑数据和告警的时序性构建故障告警因果假设,最后对通过系统故障样本对告警因果假设进行评估获取故障告警因果评估值,最后在系统故障发生时利用故障告警的因果评估值进行故障根因定位,使得在无标签样本应用场景中也能实现网络系统运行过程中故障根因的自动化快速精准定位,缩短网络系统故障定位和系统恢复时间,提高网络系统运维效率降低运维资源的消耗,同时提升产品用户体验。
本发明实施例提供了一种告警因果评估方法、故障根因定位方法、电子设备及存储介质,告警因果评估方法和故障根因定位方法均可应用于故障根因定位系统(以下简称系统)中,参照图2所示,其中故障根因定位系统可包括系统故障数据采集模块101、故障告警日志处理模块102、系统故障图样本处理模块103、故障告警因果评估模块104、系统故障根因定位模块105和样本池106,系统故障数据采集模块101用于网络系统107的拓扑数据和告警信息的采集,还可以对训练样本根因节点和根因告警进行标注得到根因节点信息,故障告警日志处理模块102负责节点故障告警日志数据的清洗、收敛、分类和告警时间提取,系统故障图样本处理模块103用于对故障图样本构建、噪声节点清洗、样本图收敛等,故障告警因果评估模块104用于系统故障告警因果假设构建和告警因果值评估,样本池106用于存放样本数据,系统故障根因定位模块105用于实现网络系统故障根因定位,在一实施例中,故障根因定位系统确定故障根因后,输出根因定位结果。
参照图3所示,本发明实施例提供了一种告警因果评估方法,应用于故障根因定位系统中,该告警因果评估方法包括但不限于以下步骤S110至步骤S130。
步骤S110,获取第一告警信息和拓扑数据,根据第一告警信息和拓扑数据构建第一故障告警样本图。
步骤S120,根据第一故障告警样本图得到告警因果假设。
步骤S130,根据告警因果假设进行因果评估得到因果评估值。
在本发明的一些实施例中,系统根据样本进行因果评估值的建立,为系统的因果评估阶段,系统获取得到网络系统故障自动或者人为手动触发后对网络系统的第一告警信息和拓扑数据,其中第一告警信息和拓扑数据为网络系统上各个节点的信息,参照图4所示,结合告警节点的信息以生成告警节点的拓扑图,即第一故障告警样本图,以便对告警节点进行因果假设评估,系统根据构建的第一故障告警样本图,得到告警因果假设,在一实施例中,系统结合因果论推理方法根据系统的拓扑数据和告警节点的时序性构建故障告警的因果假设,有别于传统的统计关联,所得到的告警因果假设可以作为待验证的告警因果假设,最后系统根据因果假设进行因果评估得到因果评估值,利用随机-条件独立假设,对所有告警对的告警因果假设进行评估,获取告警对因果假设的因果评估值,即告警图中邻接告警对节点告警间的因果评估值,对告警对的因果评估值导出并存储,需要说明的是,告警因果评估方法为因果假设的因果评估值获取阶段,为获取系统故障告警提供了因果模型,方便系统根据所建立的因果评估值信息以便后续系统根据因果评估值进行根因定位。
参照图5和图6所示,在一个实施例中,第一告警信息包括第一告警节点信息和第一告警时间信息,上述步骤S110之中,还可以进一步包括以下步骤S210至步骤S230。
步骤S210,根据第一告警信息和拓扑数据构建第二故障告警样本图。
步骤S220,根据第一告警节点信息对第二故障告警样本图进行告警节点清洗,得到第三故障告警样本图。
步骤S230,根据第一告警时间信息对第三故障告警样本图进行无效边清洗,得到第一故障告警样本图。
在本发明的一些实施例中,系统在得到第一故障告警样本图中,需要对故障告警样本图进行噪声节点清洗、根据告警时序信息对节点间的无效边进行清洗、图收敛处理,获取得到第一故障告警样本图,然后再据此构建告警因果假设,其中,系统根据第一告警信息和拓扑数据构建第二故障告警样本图,第二故障告警样本图是根据各个告警节点的信息以生成告警节点的拓扑图,第一告警节点信息为节点是否具有告警的信息,在拓扑图中,有些节点为告警节点,有些节点为无告警节点,系统根据第一告警节点信息对第二故障告警样本图进行告警节点清洗,删除无告警节点,得到第三故障告警样本图,第一告警时间信息为告警节点的时序信息,系统根据第一告警时间信息对第三故障告警样本图进行无效边清洗,结合告警日志发生的时间对第三故障告警样本图中的无效边进行清洗,对源节点告警时间晚于目标节点告警时间的边进行删除,得到最终的第一故障告警样本图,以此实现对拓扑图的处理,缩小了告警因果假设空间,方便系统根据第一故障告警样本图进行因果假设处理。
参照图7和图8所示,在一个实施例中,第一告警信息还包括第一告警日志文本信息,上述步骤S210之中,还可以进一步包括以下步骤S310至步骤S330。
步骤S310,对第一告警日志文本信息进行无用字段清洗收敛,得到第一子告警信息。
步骤S320,对具有相同的第一告警日志文本信息的第一子告警信息进行归类处理,并为每一类第一子告警信息中的第一告警日志文本信息用相同的告警身份识别码代替,得到第二子告警信息。
步骤S330,根据第二子告警信息和拓扑数据构建第二故障告警样本图。
在本发明的一些实施例中,系统需要进行告警日志的处理,第一告警信息包括第一告警时间信息、第一告警节点信息和第一告警日志文本信息,第一告警日志文本信息包含告警节点的日志信息,是告警节点的告警日志,系统对上传的网络系统节点的第一告警信息进行清洗、收敛、分类、告警身份识别码分配生成和告警身份识别码索引表导出存储、告警时间提取等,其中,对第一告警日志文本信息进行无用字段清洗收敛得到第一子告警信息,清洗收敛主要是对日志中的无用信息进行清洗,例如告警日志中的是实体字段、数值字段、无用字符字段等,目的是保留告警日志主干信息,得到第一子告警信息后,系统进行日志内类,对具有相同的第一告警日志文本信息的第一子告警信息进行归类处理,并为每一类第一子告警信息中的第一告警日志文本信息用相同的告警身份识别码代替,得到第二子告警信息,告警身份识别码即告警I D,日志分类是将主干信息的相似的告警日志归为一类,并为每一类告警日志赋予唯一的识别码I D,最后是对样本的告警日志用告警I D代替,用于故障告警样本图的构建,系统根据经过日志处理后的第二子告警信息和拓扑数据构建第二故障告警样本图。
在本发明的一些实施例中,第一告警信息包括第一告警时间信息、第一告警节点信息、第一告警日志文本信息和根因节点信息,根因节点信息为告警节点的根因告警标签信息,标志着告警节点是否具备根因告警标签,具备根因节点信息的节点为根因告警节点,拓扑数据包括节点身份识别码和节点调用信息,节点身份识别码为告警节点的I D,在一实施例中,由服务组件组成的网络系统中,节点之间为服务调用关系,告警节点可包含根因告警标签即为根因节点,由系统获取,且根因节点和根因告警标注为1,非根因节点和非根因告警标注为0,由服务器物理机组成的网络系统中,节点之间为数据流向关系,告警节点不包含根因告警标签,上述步骤S330之中,还可以进一步包括根据第二子告警信息、根因节点信息、节点身份识别码和节点调用信息构建第二故障告警样本图,在本发明实施例中,故障告警样本图为拓扑图,系统根据节点身份识别码,将告警节点作为拓扑图中的节点,根据节点调用信息,得到节点间的服务调用关系或数据流向关系,若告警节点包含根因告警节点,则根据根因节点信息,标记根因故障节点,并根据第二子告警信息体现到拓扑图中的每个节点中,以此构建第二故障告警样本图。
参照图9所示,在一个实施例中,第一告警信息包括根因节点信息,上述步骤S120之中,还可以进一步包括以下步骤S410至步骤S420。
步骤S410,根据根因节点信息对第一故障告警样本图进行告警子图提取,得到故障告警子图。
步骤S410,根据故障告警子图得到告警因果假设。
在本发明的一些实施例中,第一告警信息可以包括根因节点信息,根因节点信息为告警节点的根因告警标签信息,标志着告警节点是否具备根因告警标签,具备根因节点信息的节点为根因告警节点,如果样本提供根因节点,根据根因节点信息对第一故障告警样本图进行告警子图提取得到故障告警子图,具体为提取第一故障告警样本图根因告警节点的N阶告警子图,如果样本没有提供根因节点则直接将第一故障告警样本图作为N阶告警子图,最后根据第一故障告警子图得到告警因果假设,在一实施例中,系统的节点数据采集在有监督场景下可以采集根因告警的标签信息,在无监督场景下可以不提供根因告警的变迁信息,提供根因节点和根因告警标签信息主要是为告警因果假设的构建提供参考,缩小告警因果假设空间。
在本发明的一些实施例中,拓扑数据包括节点调用信息,上述步骤S410之中,还可以进一步包括根据节点调用信息和第一故障告警子图得到告警因果假设,在一实施例中,由服务组件组成的网络系统中,节点之间为服务调用关系,告警节点可包含根因告警标签即为根因节点,由系统获取,且根因节点和根因告警标注为1,非根因节点和非根因告警标注为0,由服务器物理机组成的网络系统中,节点之间为数据流向关系,告警节点不包含根因告警标签,当拓扑数据中的节点调用关系为服务调用关系时,根据N阶告警子图的告警图,以拓扑边表示节点服务调用关系,参照图10所示,其中告警图的源节点值为N阶告警子图中被调用节点(目标节点)的告警,告警图的目标节点值为N阶告警子图中调用节点(源节点)的告警,因为被调用节点发生故障告警会导致调用节点故障告警。参照图11所示,同样的,当拓扑数据中的节点调用关系为数据流向关系时,根据N阶告警子图的告警图,以拓扑边表示节点数据流向关系,其中告警图的源节点值为N阶告警子图中数据源服务器节点(源节点)的告警,告警图的目标节点值为N阶告警子图中数据目的服务器节点(目标节点)的告警,因为数据源服务器节点发生故障会导致数据目的服务器节点无法获取数据而发生故障告警。最后,对告警图中邻接的告警对进行统计,告警对的源节点告警为treatment告警,告警对的目标节点告警为outcome告警,除当前告警对外的其他节点告警为混淆告警(confound告警),treatment告警、outcome告警、混淆告警组成告警因果图作为待验证的告警因果假设,其中,treatment告警和outcome告警之间为双边向。
参照图12所示,在一个实施例中,上述步骤S130之中,还可以进一步包括以下步骤S510至步骤S520。
步骤S510,根据第一故障告警样本图得到告警向量信息。
步骤S520,根据告警因果假设和告警向量信息进行因果评估得到因果评估值。
在本发明的一些实施例中,系统在进行因果评估得到因果评估值之中,还通过第一故障告警样本图来获取告警向量信息,再根据告警因果假设和告警向量信息进行因果评估得到因果评估值。根据上述实施例中可知,当第一故障告警样本图需要进行告警子图提取,得到故障告警子图后,系统根据故障告警子图得到告警向量信息,当第一故障告警样本图作为告警子图时,系统根据第一故障告警样本图得到告警向量信息。告警向量信息根据告警节点的种类和故障告警子图中告警节点的数量决定,例如图6,在一实施例中,假设一个系统中的告警收敛经分类后包含有5种告警,分别为E1、E2、E3、E4、E5,因此得到的告警向量维度为5,每一个维度代表一种告警,例如维度1代表告警1,如果告警E1存在与N阶告警子图中,告警向量维度1的值赋值为1。若故障告警子图中的告警只包含了E1、E2、E3这三种告警,所以该样本的告警向量为[1,1,1,0,0]。告警向量维度的大小与告警I D数量相等,但是向量中取1的数量与告警I D数量无关,只与当前样本中存在告警有关。
参照图13所示,需要说明的是,系统进行因果评估得到因果评估值之中,告警向量信息作为因果假设评估样本存放到系统的样本池中,在进行因果评估时,加载系统故障图样本处理模块构建的告警因果假设,其次,加载样本池中的告警向量信息,然后,利用随机-条件独立假设和告警向量信息对所有告警对的告警因果假设进行评估,一方面,使用后门准则可评估,对后门路径上的混淆告警取值为1,通过因果假设验证样本对treatment告警和outcome告警的因果关系进行评估获取其因果值;另一方面,根据告警图中核对告警对的treatment告警和outcome告警间是否存在前门路径,如果存在前门路径则使用前门准则可评估,则获取treatment告警和outcome告警间的中间告警,先评估treatment告警和中间告警的因果值A,然后将treatment告警取值1在评估中间告警和outcome告警间的因果值B,最后将因果值A和因果值B的乘积作为treatment告警和outcome告警的因果值,并将因果值返回,如果不存在前门路径则返回指定默认因果值。最后,通过后门准则和前门准则的因果评估值进行融合,获取告警对因果假设的因果评估值,即告警图中邻接告警对节点告警间的因果评估值,并将告警对因果评估值列表导出存储。
参照图14所示,本发明实施例提供了一种故障根因定位方法,应用于故障根因定位系统中,该故障根因定位方法包括但不限于以下步骤S610至步骤S620,其中,因果评估值的获取根据上述实施例得到,在此不再赘述。
步骤S610,获取第二告警信息和拓扑数据,根据第二告警信息和拓扑数据构建第四故障告警样本图。
步骤S620,获取因果评估值,根据因果评估值对第四故障告警样本图进行故障根因定位。
在本发明的一些实施例中,系统根据采集的信息和因果评估值进行故障根因定位,为系统的根因定位阶段,在上述实施例中,通过得到因果评估值,作为样本数据,为故障根因定位提供了评估模型,系统获取得到当前网络系统的第二告警信息和拓扑数据,其中第二告警信息和拓扑数据为当前网络系统上各个节点的信息,结合告警节点的信息以生成告警节点的拓扑图,即第四故障告警样本图,以便对告警节点进行故障根因定位,在一实施例中,告警因果评估方法所建立的第一故障告警样本图,与第四故障告警样本图存在关联,在告警因果评估方法中,所采集的是告警节点的第一告警信息和拓扑数据,在故障根因定位方法中,所采集的是当前系统的第二告警信息和拓扑数据,可以理解的是,系统结构的拓扑数据通常是长时间保持不变的,但是每次采集数据的时候都需要附带系统拓扑信息,根因定位阶段的告警类别在因果评估阶段的告警类别范围之内,根据所建立的第四故障告警样本图,将因果评估值为第四故障告警样本图每条边赋予相应的因果权重后,根据对应的因果权重进行进行故障根因定位。
参照图15所示,在一个实施例中,第二告警信息包括第二告警节点信息和第二告警时间信息,上述步骤S610之中,还可以进一步包括以下步骤S710至步骤S730。
步骤S710,根据第二告警信息和拓扑数据构建第五故障告警样本图。
步骤S720,根据第二告警节点信息对第五故障告警样本图进行告警节点清洗,得到第六故障告警样本图。
步骤S730,根据第二告警时间信息对第六故障告警样本图进行无效边清洗,得到第四故障告警样本图。
在本发明的一些实施例中,系统在得到第四故障告警样本图中,需要对故障告警样本图进行噪声节点清洗、根据告警时序信息对节点间的无效边进行清洗、图收敛处理,获取得到第四故障告警样本图,然后再据此进行故障根因定位,其中,系统根据第二告警信息和拓扑数据构建第五故障告警样本图,第五故障告警样本图是根据各个告警节点的信息以生成告警节点的拓扑图,第二告警节点信息为节点是否具有告警的信息,在拓扑图中,有些节点为告警节点,有些节点为无告警节点,系统根据第二告警节点信息对第五故障告警样本图进行告警节点清洗,删除无告警节点,得到第六故障告警样本图,第二告警时间信息为告警节点的时序信息,系统根据第二告警时间信息对第六故障告警样本图进行无效边清洗,结合告警日志发生的时间对第六故障告警样本图中的无效边进行清洗,对源节点告警时间晚于目标节点告警时间的边进行删除,得到最终的第四故障告警样本图,以此实现对拓扑图的处理,缩小了根因定位的时间,方便系统根据第四故障告警样本图进行故障根因定位。
参照图16所示,在一个实施例中,第二告警信息还包括第二告警日志文本信息,上述步骤S710之中,还可以进一步包括以下步骤S810至步骤S830。
步骤S810,对第二告警日志文本信息进行无用字段清洗收敛,得到第三子告警信息。
步骤S820,对具有相同的第二告警日志文本信息的第三子告警信息进行归类处理,并为每一类第三子告警信息中的第二告警日志文本信息用相同的告警身份识别码代替,得到第四子告警信息。
步骤S830,根据第四子告警信息和拓扑数据构建第五故障告警样本图。
在本发明的一些实施例中,系统需要进行告警日志的处理,第二告警信息包括第二告警时间信息、第二告警节点信息和第二告警日志文本信息,第二告警日志文本信息包含告警节点的日志信息,是告警节点的告警日志,系统对上传的网络系统节点的第二告警信息进行清洗、收敛、分类、告警身份识别码分配生成和告警身份识别码索引表导出存储、告警时间提取等,其中,对第二告警日志文本信息进行无用字段清洗收敛得到第三子告警信息,清洗收敛主要是对日志中的无用信息进行清洗,例如告警日志中的是实体字段、数值字段、无用字符字段等,目的是保留告警日志主干信息,得到第三子告警信息后,系统进行日志内类,对具有相同的第二告警日志文本信息的第三子告警信息进行归类处理,并为每一类第三子告警信息中的第二告警日志文本信息用相同的告警身份识别码代替,得到第四子告警信息,告警身份识别码即告警I D,日志分类是将主干信息的相似的告警日志归为一类,并为每一类告警日志赋予唯一的识别码I D,最后是对样本的告警日志用告警I D代替,用于故障告警样本图的构建,系统根据经过日志处理后的第四子告警信息和拓扑数据构建第五故障告警样本图。
在本发明的一些实施例中,第二告警信息包括第二告警时间信息、第二告警节点信息、第二告警日志文本信息,拓扑数据包括节点身份识别码和节点调用信息,节点身份识别码为告警节点的I D,上述步骤S330之中,还可以进一步包括根据第四子告警信息、根因节点信息、节点身份识别码和节点调用信息构建第五故障告警样本图,在本发明实施例中,故障告警样本图为拓扑图,系统根据节点身份识别码,将告警节点作为拓扑图中的节点,根据节点调用信息,得到节点间的服务调用关系或数据流向关系,并根据第四子告警信息体现到拓扑图中的每个节点中,以此构建第五故障告警样本图。
需要说明的是,拓扑数据包括节点调用信息,系统根据将因果评估值为第四故障告警样本图每条边赋予相应的因果权重,根据第四故障告警样本图中告警节点之间的节点调用关系,得到第七故障告警样本图,在一实施例中,由服务组件组成的网络系统中,节点之间为服务调用关系,由服务器物理机组成的网络系统中,节点之间为数据流向关系,当拓扑数据中的节点调用关系为服务调用关系时,第四故障告警样本图的拓扑边关系属性为节点服务间的调用关系,第四故障告警样本图中源节点为调用节点,目标节点为被调用节点,目标节点服务因故障发生告警后会导致调用节点无法正常进行服务调用从而发生告警,所以第七故障告警样本图边为第四故障告警样本图的边方向翻转后的边,然后系统根据第七故障告警样本图进行故障根因定位,若当拓扑数据中的节点调用关系为数据流向关系时,以第四故障告警样本图作为第七故障告警样本图,系统根据第七故障告警样本图进行故障根因定位。
参照图17和18所示,在一个实施例中,上述步骤S720之中,还可以进一步包括以下步骤S910至步骤S930。
步骤S910,选取第四故障告警样本图中的一个节点为当前游走节点,根据第四故障告警样本图的节点数量得到游走轮次。
步骤S920,根据因果评估值和游走轮次从当前游走节点对第四故障告警样本图进行游走处理,得到每个节点的权重信息。
步骤S930,根据节点间的权重信息,确定故障根因节点。
在本发明的一些实施例中,系统对赋上权重信息的第四故障告警样本图进行遍历游走后,得到各个节点的权重信息,根据权重信息确定故障根因节点,根据上述实施例可知,第四故障告警样本图根据告警节点之间的节点调用关系,得到第七故障告警样本图,系统选取第七故障告警样本图中的一个节点为当前游走节点,根据第七故障告警样本图的节点数量得到游走轮次,其中,所选取的当前游走节点为随机选取,游走轮次跟节点数量有关,游走轮次要满足第七故障告警样本图中的节点游走一定数次以上,在一实施例中,要满足第七故障告警样本图中的节点游走两次,在满足本发明实施例要求的前提下,还可以为其它数次,系统再根据因果评估值和游走轮次从当前游走节点对第七故障告警样本图进行游走处理,得到每个节点的权重信息,并确定故障根因节点。
在本发明的一些实施例中,上述步骤S930之中,还可以进一步包括:对比节点间的权重信息的权重大小,确定具有最大权重的节点为故障根因节点。系统根据得到节点之间的权重信息,进行权重大小对比,确定具有最大权重的节点为故障根因节点,在一实施例中,系统随机选取第七故障告警样本图中的一个节点作为当前游走节点,如果当前游走节点的入度为0、或者输入边的因果值都小于指定阈值、或者当前节点的告警存在故障根因告警集合中,则停止游走,并为当前节点的根因节点权重加1,否则为当前节点的根因节点权重加1,并转移到输入边因果值最大的源节点,并将该源节点作为当前游走节点,重复该步骤,直到重复次数达到游走轮次,并导出第七故障告警样本图每个节点的权重信息,并确定具有最大权重的节点为故障根因节点,其中,路径长度阈值是根据系统告警传播特性确定,比如有些系统的告警传播比较远,长度阈值可以大一些,本发明不对其作具体限制。
参照图19所示,需要说明的是,在一具体实施例中,系统框架包括I T网络系统201和网络系统故障根因定位服务器204,其中,I T网络系统201包括:系统故障数据采集模块202和系统故障交界面203;网络系统故障根因定位服务器204负责运行网络系统故障根因定位装置205。系统故障数据采集模块202负责I T网络系统201故障信息、网络拓扑数据(节点为服务组件实例,边为节点间服务调用关系,调用组件为源节点,被调用组件为目标节点)的采集和上传。系统故障交互界面负责系统故障定位触发和对故障定位结果进行解析展示,网络系统故障根因定位装置205负责对上传的系统故障信息进行解析清洗、样本构建、模型训练和故障根因定位预测,并将故障定位结果进行反馈。
系统故障交互界面触发系统故障数据采集模块202对指定时间片段(例如故障发生前后10分钟)内的告警日志和系统拓扑数据进行采集,完成根因节点和根因告警标注。告警日志可以包含告警日志文本信息、告警时间、告警节点信息等,采集的告警日志信息包括但不限于,ERROR、WARNING、FATAL等级别告警日志,将每一个节点的告警日志导出到同一个文本文件中,文件用节点I D_log命名;系统拓扑数据则包括节点I D以及系统节点间的服务调用关系,使用字典数据结构存储,例如节点1调用了节点2和节点3的服务,在拓扑中则体现为存在边由节点1指向节点2和节点3,那么在字典则表示为{节点1:[节点2,节点3]},字典的键节点为调用节点,字典的值节点为被调用节点;故障标注信息包括根因节点和根因告警信息,并存放到指定命名的文本文件中;然后将系统所有节点的告警日志文件、系统拓扑数据文件、故障标注文件打包上传到网络系统故障根因定位装置205。
系统进行故障图样本节点清洗收敛,网络系统故障根因定位装置205对上传的系统故障信息数据包进行解析,分别提取每一个节点的告警日志、系统拓扑数据、故障标注信息。针对节点告警日志,首先,对每一个节点的告警日志进行无用字段清洗,对节点告警日志进行收敛、分类,并且为每一类告警分配I D,生成告警类别I D索引表并导出存储。针对故障标注数据,提取故障根因节点I D,获取根因告警集合。
针对系统拓扑数据,利用系统拓扑数据创建系统基本拓扑图。将故障样本的每一个节点故障告警日志进行清洗、收敛、归类,根据生成的告警类别I D索引表获取其相应告警类别I D,同时告警发生时间赋值到系统基本拓扑图节点中(图节点包含了两方面的信息:告警类别I D以及告警发生的时间),并进行根因节点和根因告警标注,得到第二故障告警样本图,每一个故障样本对应一个第一故障告警样本图。对第二故障告警样本图中无告警节点进行清洗,得到第三故障告警样本图,结合告警日志发生时间对第三故障告警样本图中的无效边进行清洗,对源节点告警时间晚于目标节点告警时间的边进行删除,生成第一故障告警样本图。因为该实施例样本提供根因节点标签,所以提取第一故障告警样本图根因告警节点的3阶告警子图得到其故障告警子图,根据3阶告警子图的告警图,其中告警图的源节点值为3阶告警子图中被调用节点(目标节点)的告警,告警图的目标节点值为3阶告警子图中调用节点(源节点)的告警,因为被调用节点发生故障告警会导致调用节点故障告警,参考上述实施例中的2阶子图的告警图提取示例。
对告警图中邻接的告警对进行统计,告警对的源节点告警为treatment告警,告警对的目标节点告警为outcome告警,除当前告警对外的其他节点告警为混淆告警(confound告警),treatment告警、outcome告警、混淆告警组成告警因果图作为待验证的告警因果假设,根据告警图获取相应的告警向量信息,作为因果假设验证样本。
根据随机-条件独立假设和利用因果假设验证样本对所有告警对的因果假设进行评估,使用后门准则可评估,对后门路径上的混淆告警取值固定,然后利用因果假设验证样本对treatment告警和outcome告警的因果关系进行评估获取其因果值。根据告警图中核对告警对的treatment告警和outcome告警间是否存在前门路径,如果存在前门路径则使用前门准则可评估,则获取treatment告警和outcome告警间的中间告警,先评估treatment告警和中间告警的因果值A;然后将treatment告警取值固定再评估中间告警和outcome告警间的因果值B;最后将因果值A和因果值B的乘积作为treatment告警和outcome告警的因果值,并将因果值返回;如果不存在前门路径则返回指定默认因果值。并将因果值进行融合,获取所有告警因果假设的因果评估值,即告警图中邻接告警对节点告警间的因果评估值,最后将告警对因果评估值列表导出存储。
基于告警因果评估值和图遍历游走方法进行故障根因定位,获取当前系统故障告警信息和系统拓扑数据,对节点告警日志进行清洗、收敛、归类,并根据生成的告警类别索引I D表为每一个节点的告警分配I D,加载导出的告警对因果评估值列表。
根据系统拓扑数据创建系统拓扑图,首先,并将节点告警I D赋值到系统拓扑图中,生成第五故障告警样本图;其次,对第五故障告警样本图中无告警节点进行清洗得到第六故障告警样本图;再次,对第六故障告警样本图中源节点告警时间晚于目标节点告警时间的边进行删除,生成第四故障告警样本图;最后,根据加载的告警对因果评估值列表为第四故障告警样本图每条边赋予相应的因果权重,并将第四故障告警样本图边方进行翻转,生成第七故障告警样本图。
设置游走路径长度阈值为5、游走轮数阈值100,游走轮数计数器清零。随机选取故障告警样本图D中的一个节点作为当前游走节点,游走路径长度清零。在游走过程中,如果当前游走节点的入度为0、或者输入边的因果值都小于指定阈值、或者当前节点的告警存在故障根因告警集合中,则停止游走,并为当前节点的根因节点权重加1。否则为当前节点的根因节点权重加1,并转移到输入边因果值最大的源节点,并将该源节点作为当前游走节点,游走路径长度累计加1,如果游走路径长度小于游走路径阈值则根据入度情况再进行游走,否则游走轮数计数加1,如果游走计数小于游走轮数阈值则重新确定当前游走节点后继续执行,否则导出图节点的根因节点权重列表,并根据根因节点权重列表确定权重最大的节点为故障根因节点并进行结果反馈。
参照图20所示,需要说明的是,在另一具体实施例中,本具体实施例的系统框图如图11所示,系统框架包括I T网络系统301和网络系统故障根因定位服务器304,其中,I T网络系统301包括:系统故障数据采集模块302和系统故障交界面303;网络系统故障根因定位服务器304负责运行网络系统故障根因定位装置305,系统故障数据采集模块302负责I T网络系统301故障告警信息、网络拓扑数据(节点为服务器物理机,边为节点间数据流向关系,数据源服务器为源节点,数据目的服务器为目标节点)的采集和上传,系统故障交互界面负责系统故障定位触发和对故障定位结果进行解析展示,网络系统故障根因定位装置305负责对上传的系统故障信息进行解析清洗、样本构建、模型训练和故障根因定位预测,并将故障定位结果进行反馈。
系统故障交互界面触发系统故障数据采集模块302对指定时间片段(例如故障发生前后10分钟)内的告警日志和系统拓扑数据进行采集,完成根因节点和根因告警标注。告警日志可以包含告警日志文本信息、告警时间、告警节点信息等,采集的告警日志信息包括但不限于,ERROR、WARNING、FATAL等级别告警日志,将每一个节点的告警日志导出到同一个文本文件中,文件用节点I D_log命名;系统拓扑数据则包括节点I D以及系统节点间的服务调用关系,使用字典数据结构存储,例如节点1调用了节点2和节点3的服务,在拓扑中则体现为存在边由节点1指向节点2和节点3,那么在字典则表示为{节点1:[节点2,节点3]},字典的键节点为调用节点,字典的值节点为被调用节点;故障标注信息无,不提供故障根因标签信息,为空文件,并存放到指定命名的文本文件中;然后将系统所有节点的告警日志文件、系统拓扑数据文件、故障标注文件打包上传到网络系统故障根因定位装置305。
系统进行故障图样本节点清洗收敛步骤,网络系统故障根因定位装置305对上传的系统故障信息数据包进行解析,分别提取每一个节点的告警日志、系统拓扑数据,针对节点告警日志,首先,对每一个节点的告警日志进行无用字段清洗,对节点告警日志进行收敛、分类,并且为每一类告警分配I D,生成告警类别I D索引表并导出存储。收集专家经验故障根因告警集合。
针对系统拓扑数据,利用系统拓扑数据创建系统基本拓扑图。将故障样本的每一个节点故障告警日志进行清洗、收敛、归类,根据生成的告警类别I D索引表获取其相应告警类别I D,同时告警发生时间赋值到系统基本拓扑图节点中(图节点包含了两方面的信息:告警类别I D以及告警发生的时间),生成第二故障告警样本图;对第二故障告警样本图中无告警节点进行清洗,得到第三故障告警样本图;结合告警日志发生时间对第三故障告警样本图中的无效边进行清洗,对源节点告警时间晚于目标节点告警时间的边进行删除,生成第一故障告警样本图。
因为该实施例样本没有提供根因节点标签信息,所以直接将第一故障告警样本图作为N阶告警子图。根据N阶告警子图的告警图,其中告警图的源节点值为N阶告警子图中数据源服务器节点(源节点)的告警,告警图的目标节点值为N阶告警子图中数据目的服务器节点(目标节点)的告警,因为数据源服务器节点发生故障会导致数据目的服务器节点无法获取数据而发生故障告警,参考上述实施例中的2阶子图的告警图提取示例。
对告警图中邻接的告警对进行统计,告警对的源节点告警为treatment告警,告警对的目标节点告警为outcome告警,除当前告警对外的其他节点告警为混淆告警(confound告警),treatment告警、outcome告警、混淆告警组成告警因果图作为待验证的告警因果假设,根据告警图获取相应的告警向量信息,作为因果假设验证样本。
根据随机-条件独立假设和利用因果假设验证样本对所有告警对的因果假设进行评估,使用后门准则可评估,对后门路径上的混淆告警取值固定,然后利用因果假设验证样本对treatment告警和outcome告警的因果关系进行评估获取其因果评估值,根据告警图中核对告警对的treatment告警和outcome告警间是否存在前门路径,如果存在前门路径则使用前门准则可评估,则获取treatment告警和outcome告警间的中间告警,先评估treatment告警和中间告警的因果值A;然后将treatment告警取值固定再评估中间告警和outcome告警间的因果值B;最后将因果值A和因果值B的乘积作为treatment告警和outcome告警的因果值,并将因果值返回;如果不存在前门路径则返回指定因果值。并将因果值进行融合,获取所有告警因果假设的因果评估值,即告警图中邻接告警对节点告警间的因果评估值,最后将告警对因果评估值列表导出存储。
基于告警因果评估值和图遍历游走方法进行故障根因定位,获取当前系统故障告警信息和系统拓扑数据,对节点告警日志进行清洗、收敛、归类,并根据生成的告警类别索引I D表为每一个节点的告警分配I D。加载导出的告警对因果评估值列表。
根据系统拓扑数据创建系统拓扑图,首先,并将节点告警I D赋值到系统拓扑图中,生成第五故障告警样本图;其次,对第五故障告警样本图中无告警节点进行清洗得到第六故障告警样本图;再次,对第六故障告警样本图中源节点告警时间晚于目标节点告警时间的边进行删除,生成第四故障告警样本图;最后,根据加载的告警对因果评估值列表为第四故障告警样本图每条边赋予相应的因果权重,第四故障告警样本图边方向不需要翻转,第四故障告警样本图生成第七故障告警样本图。
设置游走路径长度阈值为5、游走轮数阈值100,游走轮数计数器清零。随机选取故障告警样本图D中的一个节点作为当前游走节点,游走路径长度清零。在游走过程中,如果当前游走节点的入度为0、或者输入边的因果值都小于指定阈值、或者当前节点的告警存在故障根因告警集合中,则停止游走,并为当前节点的根因节点权重加1。否则为当前节点的根因节点权重加1,并转移到输入边因果值最大的源节点,并将该源节点作为当前游走节点,游走路径长度累计加1,如果游走路径长度小于游走路径阈值则根据入度情况再进行游走,否则游走轮数计数加1,如果游走计数小于游走轮数阈值则重新确定当前游走节点后继续执行,否则导出图节点的根因节点权重列表,并根据根因节点权重列表确定权重最大的节点为故障根因节点并进行结果反馈。
图21示出了本发明实施例提供的电子设备400。电子设备400包括:存储器402、处理器401及存储在存储器402上并可在处理器401上运行的计算机程序,计算机程序运行时用于执行上述的告警因果评估方法或故障根因定位方法。
处理器401和存储器402可以通过总线或者其他方式连接。
存储器402作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序,如本发明实施例描述的告警因果评估方法或故障根因定位方法。处理器401通过运行存储在存储器402中的非暂态软件程序以及指令,从而实现上述的告警因果评估方法或故障根因定位方法。
存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储执行上述的告警因果评估方法或故障根因定位方法。此外,存储器402可以包括高速随机存取存储器402,还可以包括非暂态存储器402,例如至少一个储存设备存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中,存储器402可选包括相对于处理器401远程设置的存储器402,这些远程存储器402可以通过网络连接至该电子设备400。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述的告警因果评估方法或故障根因定位方法所需的非暂态软件程序以及指令存储在存储器402中,当被一个或者多个处理器401执行时,执行上述的告警因果评估方法或故障根因定位方法,例如,执行图3中的方法步骤S110至步骤S130、图5中的方法步骤S210至步骤S230、图7中的方法步骤S310至步骤S330、图9中的方法步骤S410至步骤S420、图12中的方法步骤S510至步骤S520、图14中的方法步骤S610至步骤S620、图15中的方法步骤S710至步骤S730、图16中的方法步骤S810至步骤S830、图17中的方法步骤S910至步骤S930。
本发明实施例还提供了计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行上述的告警因果评估方法或故障根因定位方法。
在一实施例中,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,例如,执行图3中的方法步骤S110至步骤S130、图5中的方法步骤S210至步骤S230、图7中的方法步骤S310至步骤S330、图9中的方法步骤S410至步骤S420、图12中的方法步骤S510至步骤S520、图14中的方法步骤S610至步骤S620、图15中的方法步骤S710至步骤S730、图16中的方法步骤S810至步骤S830、图17中的方法步骤S910至步骤S930。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、储存设备存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
还应了解,本发明实施例提供的各种实施方式可以任意进行组合,以实现不同的技术效果。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims (13)

1.告警因果评估方法,包括:
获取第一告警信息和拓扑数据,根据所述第一告警信息和所述拓扑数据构建第一故障告警样本图,其中,所述第一故障告警样本图为节点的拓扑图;
根据所述第一故障告警样本图得到告警因果假设;
根据所述告警因果假设进行因果评估得到因果评估值,包括:根据所述第一故障告警样本图得到告警向量信息;根据所述告警因果假设和所述告警向量信息进行因果评估,得到告警图中邻接告警对节点告警间的所述因果评估值;
其中,所述因果评估值用于进行故障根因定位,故障根因定位过程中根据邻接告警对节点告警间的所述因果评估值和游走轮次,从当前游走节点开始对相应的故障告警样本图进行游走处理,得到每个节点的权重信息,并根据节点间的所述权重信息,确定故障根因定位过程中的故障根因节点,其中所述游走节点为相应的故障告警样本图中的一个节点,所述游走轮次根据相应的故障告警样本图的节点数量得到。
2.根据权利要求1所述的告警因果评估方法,其特征在于,所述第一告警信息包括第一告警节点信息和第一告警时间信息,所述根据所述第一告警信息和所述拓扑数据构建第一故障告警样本图,包括:
根据所述第一告警信息和所述拓扑数据构建第二故障告警样本图;
根据所述第一告警节点信息对所述第二故障告警样本图进行告警节点清洗,得到第三故障告警样本图;
根据所述第一告警时间信息对所述第三故障告警样本图进行无效边清洗,得到所述第一故障告警样本图。
3.根据权利要求2所述的告警因果评估方法,其特征在于,所述第一告警信息还包括第一告警日志文本信息,所述根据所述第一告警信息和所述拓扑数据构建第二故障告警样本图,包括:
对所述第一告警日志文本信息进行无用字段清洗收敛,得到第一子告警信息;
对具有相同的所述第一告警日志文本信息的所述第一子告警信息进行归类处理,并为每一类所述第一子告警信息中的所述第一告警日志文本信息用相同的告警身份识别码代替,得到第二子告警信息;
根据所述第二子告警信息和所述拓扑数据构建所述第二故障告警样本图。
4.根据权利要求3所述的告警因果评估方法,其特征在于,所述第一告警信息还包括根因节点信息,所述拓扑数据包括节点身份识别码和节点调用信息,所述根据所述第二子告警信息和所述拓扑数据构建所述第二故障告警样本图,包括:
根据所述第二子告警信息、所述根因节点信息、所述节点身份识别码和所述节点调用信息构建所述第二故障告警样本图。
5.根据权利要求1所述的告警因果评估方法,其特征在于,所述第一告警信息包括根因节点信息,所述根据所述第一故障告警样本图得到告警因果假设,包括:
根据所述根因节点信息对所述第一故障告警样本图进行告警子图提取,得到故障告警子图;
根据所述故障告警子图得到所述告警因果假设。
6.根据权利要求5所述的告警因果评估方法,其特征在于,所述拓扑数据包括节点调用信息,所述根据所述故障告警子图得到所述告警因果假设,包括:
根据所述节点调用信息和所述故障告警子图得到所述告警因果假设。
7.故障根因定位方法,包括:
获取第二告警信息和拓扑数据,根据所述第二告警信息和所述拓扑数据构建第四故障告警样本图,其中,所述第四故障告警样本图为节点的拓扑图;
获取因果评估值,根据所述因果评估值对所述第四故障告警样本图进行故障根因定位;
其中,所述因果评估值通过以下步骤得到:
获取第一告警信息和所述拓扑数据,根据所述第一告警信息和所述拓扑数据构建第一故障告警样本图;
根据所述第一故障告警样本图得到告警因果假设;
根据所述告警因果假设进行因果评估,得到所述因果评估值,包括:根据所述第一故障告警样本图得到告警向量信息;根据所述告警因果假设和所述告警向量信息进行因果评估,得到告警图中邻接告警对节点告警间的所述因果评估值;
其中,所述根据所述因果评估值对所述第四故障告警样本图进行故障根因定位,包括:
选取所述第四故障告警样本图中的一个节点为当前游走节点,根据所述第四故障告警样本图的节点数量得到游走轮次;
根据所述因果评估值和所述游走轮次从所述当前游走节点对所述第四故障告警样本图中进行游走处理,得到每个节点的权重信息;
根据节点间的所述权重信息,确定故障根因节点。
8.根据权利要求7所述的故障根因定位方法,其特征在于,所述第二告警信息包括第二告警节点信息和第二告警时间信息,所述根据所述第二告警信息和所述拓扑数据构建第四故障告警样本图,包括:
根据所述第二告警信息和所述拓扑数据构建第五故障告警样本图;
根据所述第二告警节点信息对所述第五故障告警样本图进行告警节点清洗,得到第六故障告警样本图;
根据所述第二告警时间信息对所述第六故障告警样本图进行无效边清洗,得到所述第四故障告警样本图。
9.根据权利要求8所述的故障根因定位方法,其特征在于,所述第二告警信息还包括第二告警日志文本信息,所述根据所述第二告警信息和所述拓扑数据构建第五故障告警样本图,包括:
对所述第二告警日志文本信息进行无用字段清洗收敛,得到第三子告警信息;
对具有相同的所述第二告警日志文本信息的所述第三子告警信息进行归类处理,并为每一类所述第三子告警信息中的所述第二告警日志文本信息用相同的告警身份识别码代替,得到第四子告警信息;
根据所述第四子告警信息和所述拓扑数据构建所述第五故障告警样本图。
10.根据权利要求9所述的故障根因定位方法,其特征在于,所述拓扑数据包括节点身份识别码和节点调用信息,根据所述第四子告警信息和所述拓扑数据构建所述第五故障告警样本图,包括:
根据所述第四子告警信息、所述节点身份识别码和所述节点调用信息构建所述第五故障告警样本图。
11.根据权利要求7所述的故障根因定位方法,其特征在于,所述根据节点间的所述权重信息,确定故障根因节点,包括:
对比节点间的所述权重信息的权重大小,确定具有最大权重的节点为所述故障根因节点。
12.电子设备,其特征在于,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至6中任意一项所述的告警因果评估方法或权利要求7至11中任意一项所述的故障根因定位方法。
13.计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现权利要求1至6中任意一项所述的告警因果评估方法或权利要求7至11中任意一项所述的故障根因定位方法。
CN202110619433.5A 2021-06-03 2021-06-03 告警因果评估方法、故障根因定位方法及电子设备 Active CN113240139B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110619433.5A CN113240139B (zh) 2021-06-03 2021-06-03 告警因果评估方法、故障根因定位方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110619433.5A CN113240139B (zh) 2021-06-03 2021-06-03 告警因果评估方法、故障根因定位方法及电子设备

Publications (2)

Publication Number Publication Date
CN113240139A CN113240139A (zh) 2021-08-10
CN113240139B true CN113240139B (zh) 2023-09-26

Family

ID=77136630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110619433.5A Active CN113240139B (zh) 2021-06-03 2021-06-03 告警因果评估方法、故障根因定位方法及电子设备

Country Status (1)

Country Link
CN (1) CN113240139B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113901126A (zh) * 2021-09-18 2022-01-07 中兴通讯股份有限公司 告警因果关系挖掘方法、告警因果挖掘装置及存储介质
CN115061982B (zh) * 2022-08-15 2022-10-25 四川科瑞软件有限责任公司 基于案件自定义的关系图构建方法、系统、终端及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052151A (zh) * 2020-10-09 2020-12-08 腾讯科技(深圳)有限公司 故障根因分析方法、装置、设备及存储介质
CN112104495A (zh) * 2020-09-09 2020-12-18 四川信息职业技术学院 一种基于网络拓扑的系统故障根因定位算法
CN112181758A (zh) * 2020-08-19 2021-01-05 南京邮电大学 一种基于网络拓扑及实时告警的故障根因定位方法
CN112395170A (zh) * 2020-12-07 2021-02-23 平安普惠企业管理有限公司 智能故障分析方法、装置、设备及存储介质
CN112822052A (zh) * 2021-01-08 2021-05-18 河海大学 一种基于网络拓扑和告警的网络故障根因定位方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112181758A (zh) * 2020-08-19 2021-01-05 南京邮电大学 一种基于网络拓扑及实时告警的故障根因定位方法
CN112104495A (zh) * 2020-09-09 2020-12-18 四川信息职业技术学院 一种基于网络拓扑的系统故障根因定位算法
CN112052151A (zh) * 2020-10-09 2020-12-08 腾讯科技(深圳)有限公司 故障根因分析方法、装置、设备及存储介质
CN112395170A (zh) * 2020-12-07 2021-02-23 平安普惠企业管理有限公司 智能故障分析方法、装置、设备及存储介质
CN112822052A (zh) * 2021-01-08 2021-05-18 河海大学 一种基于网络拓扑和告警的网络故障根因定位方法

Also Published As

Publication number Publication date
CN113240139A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN110210227B (zh) 风险检测方法、装置、设备和存储介质
CN109684181B (zh) 告警根因分析方法、装置、设备及存储介质
EP3968243A1 (en) Method and apparatus for realizing model training, and computer storage medium
CN113240139B (zh) 告警因果评估方法、故障根因定位方法及电子设备
CN110166462B (zh) 访问控制方法、系统、电子设备及计算机存储介质
CN108737182A (zh) 系统异常的处理方法及系统
CN113254254B (zh) 系统故障的根因定位方法、装置、存储介质及电子装置
CN112615888B (zh) 一种网络攻击行为的威胁评估方法及装置
CN111563560B (zh) 基于时序特征学习的数据流分类方法及装置
CN111405030B (zh) 一种消息推送方法、装置、电子设备和存储介质
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN109743286A (zh) 一种基于图卷积神经网络的ip类型标记方法及设备
CN113378899B (zh) 非正常账号识别方法、装置、设备和存储介质
CN113259176A (zh) 一种告警事件分析方法和装置
CN113515606A (zh) 基于智慧医疗安全的大数据处理方法及智慧医疗ai系统
CN108600094A (zh) 消息推送过程的监听方法、装置、计算机设备及存储介质
CN117221087A (zh) 告警根因定位方法、装置及介质
JPH0535484A (ja) 故障診断方法
CN116467459A (zh) 物联网设备故障报告方法、装置、计算机设备和存储介质
CN113285977B (zh) 基于区块链和大数据的网络维护方法及系统
CN115396287A (zh) 一种故障分析方法和装置
US11388039B1 (en) Identifying problem graphs in an information technology infrastructure network
CN113779423A (zh) 一种模型参数调整方法、装置、电子设备和存储介质
CN112819176A (zh) 一种适用于机器学习的数据管理方法和数据管理装置
CN108595513A (zh) 一种视频搜索作弊处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant