CN117081914A - 基于决策树的故障分析方法及装置 - Google Patents

基于决策树的故障分析方法及装置 Download PDF

Info

Publication number
CN117081914A
CN117081914A CN202310855706.5A CN202310855706A CN117081914A CN 117081914 A CN117081914 A CN 117081914A CN 202310855706 A CN202310855706 A CN 202310855706A CN 117081914 A CN117081914 A CN 117081914A
Authority
CN
China
Prior art keywords
service
abnormal
normal
decision tree
fault analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310855706.5A
Other languages
English (en)
Inventor
黄亚南
索寒生
罗豪
孙跃
於军
张帆
潘亚琴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Petroleum and Chemical Corp
Petro CyberWorks Information Technology Co Ltd
Original Assignee
China Petroleum and Chemical Corp
Petro CyberWorks Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Petroleum and Chemical Corp, Petro CyberWorks Information Technology Co Ltd filed Critical China Petroleum and Chemical Corp
Priority to CN202310855706.5A priority Critical patent/CN117081914A/zh
Publication of CN117081914A publication Critical patent/CN117081914A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0715Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a system implementing multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/0636Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis based on a decision tree analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种基于决策树的故障分析方法及装置,所述方法包括:划分流程,获取决策树目标节点对应的所有故障特征,并计算所述故障特征对应的信息增益,将信息增益最大值对应的故障特征作为所述目标节点的划分特征;基于所述故障特征的不同取值设定所述目标节点的子节点,并跳转执行所述划分流程,当不再产生新的所述划分特征时,输出构建完成的决策树;应用所述决策树对分布式应用架构或微服务应用架构的故障进行定位分析。本发明提供的基于决策树的故障分析方法及装置,针对分布式架构和微服务架构的系统,实现了对故障位置的快速锁定与高效分析。

Description

基于决策树的故障分析方法及装置
技术领域
本发明涉及数据传输技术领域,尤其涉及一种基于决策树的故障分析方法及装置。
背景技术
软件架构发展经历了从单体架构、垂直架构、SOA架构到微服务架构的过程。企业应用系统在不同的业务场景采取与之适配的软件架构,系统部署也基本全部转为云上模式。
当云上应用采用分布式架构或微服务架构时,前者涉及前端服务、后端API服务、中间件和云上数据库等分布式组件,后者还会涉及微服务网关和按业务粗细粒度划分的众多微服务。这两种架构使得云上应用运行时内部组件之间的调用关系高度复杂化,当系统出现异常时,面对复杂的调用关系和多样化的基础设施,如果仅靠人为分析排障需要花费大量的时间,影响系统的可用性。
发明内容
为解决现有技术中的问题,本发明提供了一种基于决策树的故障分析方法及装置。
本发明提供一种基于决策树的故障分析方法,包括:
划分流程,获取决策树目标节点对应的所有故障特征,并计算所述故障特征对应的信息增益,将信息增益最大值对应的故障特征作为所述目标节点的划分特征;
设定流程,基于所述故障特征的不同取值设定所述目标节点的子节点,并跳转执行所述划分流程,当不再产生新的所述划分特征时,输出构建完成的决策树;
分析流程,应用所述决策树对分布式应用架构或微服务应用架构的故障进行定位分析。
根据本发明提供的一种基于决策树的故障分析方法,应用所述决策树对分布式应用架构的故障进行定位分析,具体包括:依次对后端服务器、后端API、前端服务器和负载进行故障分析,且:
执行对所述后端服务器的故障分析,当后端CPU和后端内存均正常时,所述后端服务器正常;
执行对所述后端API的故障分析,当API响应时间小于等于预设时间时,所述后端API正常;
执行对所述前端服务器的故障分析,当后端CPU和后端内存均正常时,所述前端服务器正常;
执行对所述负载的故障分析,当负载值小于等于预设阈值时,所述负载正常;
当所述后端服务器、所述后端API、所述前端服务器和所述负载均正常时,应用所述分布式应用架构的软件系统正常。
根据本发明提供的一种基于决策树的故障分析方法,当所述后端服务器、所述后端API、所述前端服务器和所述负载中至少一项异常时,应用所述分布式应用架构的软件系统异常,具体包括:
所述后端服务器异常:后端CPU和后端内存均异常、后端CPU正常和后端内存异常、后端CPU异常和后端内存正常;
所述后端API异常:API响应时间大于预设时间;
所述前端服务器异常:前端CPU正常和后端内存异常、后端CPU异常和后端内存正常、后端CPU和后端内存均异常;
所述负载异常:负载值大于预设阈值。
根据本发明提供的一种基于决策树的故障分析方法,应用所述决策树对微服务应用架构的故障进行定位分析,具体包括:依次对服务网关、用户服务、库存服务、购物车服务以及订单服务进行故障分析,且:
执行对所述服务网关的故障分析,当服务网关处于连接状态时,所述服务网关正常;
执行对所述用户服务的故障分析,当用户服务进程和用户服务容器均正常时,所述用户服务正常;
执行对所述库存服务的故障分析,当库存服务进程和库存服务容器均正常时,所述库存服务正常;
执行对所述购物车服务的故障分析,当购物车服务进程和购物车服务容器均正常时,所述购物车服务正常;
执行对所述订单服务的故障分析,当订单服务进程和订单服务容器均正常时,所述订单服务正常。
根据本发明提供的一种基于决策树的故障分析方法,当所述服务网关、所述用户服务、所述库存服务、所述购物车服务和所述订单服务中至少一项异常时,应用所述微服务应用架构的软件系统异常,具体包括:
所述服务网关异常:所述服务网关处于断开状态;
所述用户服务异常:用户服务进程和用户服务容器均异常、用户服务进程正常和用户服务容器异常、用户服务进程异常和用户服务容器正常;
所述库存服务异常:库存服务进程和库存服务容器均异常、库存服务进程正常和库存服务容器异常、库存服务进程异常和库存服务容器正常;
所述购物车服务异常:购物车服务进程和购物车服务容器均异常、购物车服务进程正常和购物车服务容器异常、购物车服务进程异常和购物车服务容器正常;
所述订单服务异常:订单服务进程和订单服务容器均异常、订单服务进程正常和订单服务容器异常、订单服务进程异常和订单服务容器正常。
根据本发明提供的一种基于决策树的故障分析方法,基于条件熵公式计算所述信息增益,所述条件熵公式为:
infoGain(D|A)=Entropy(D)-Entropy(D|A)
其中,infoGain(D|A)表示属性A对数据集D的信息增益,Entropy(D)表示数据集D本身的熵,Entropy(D|A)表示给定A的条件下D的条件熵;A=[a1,a2,...,ak],共K个值。
本发明还提供一种基于决策树的故障分析装置,包括:
划分模块,用于获取决策树目标节点对应的所有故障特征,并计算所述故障特征对应的信息增益,将信息增益最大值对应的故障特征作为所述目标节点的划分特征;
设定模块,用于基于所述故障特征的不同取值设定所述目标节点的子节点,并跳转执行所述划分流程,当不再产生新的所述划分特征时,输出构建完成的决策树;
分析模块,用于应用所述决策树对分布式应用架构或微服务应用架构的故障进行定位分析。
根据本发明提供的一种基于决策树的故障分析装置,所述装置还包括:
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于决策树的故障分析方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于决策树的故障分析方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上述任一种所述基于决策树的故障分析方法的步骤。
本发明提供的基于决策树的故障分析方法及装置,通过决策树算法构建故障分析模型,对影响进行画像,从而快速定位故障点,节约运维故障分析时间,提升应用系统可用性,特别是针对分布式架构和微服务架构的系统,实现了对故障位置的快速锁定与高效分析。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于决策树的故障分析方法的流程示意图之一;
图2是本发明提供的基于决策树的故障分析方法的流程示意图之二;
图3是本发明提供的基于决策树的故障分析结论示意图之一;
图4是本发明提供的基于决策树的故障分析方法的流程示意图之三;
图5是本发明提供的基于决策树的故障分析结论示意图之二;
图6是本发明提供的基于决策树的故障分析装置的结构示意图;
图7是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1是本发明提供的基于决策树的故障分析方法的流程示意图之一,如图1所示,所述方法包括:
步骤S110,划分流程,获取决策树目标节点对应的所有故障特征,并计算所述故障特征对应的信息增益,将信息增益最大值对应的故障特征作为所述目标节点的划分特征;
步骤S120,设定流程,基于所述故障特征的不同取值设定所述目标节点的子节点,并跳转执行所述划分流程,当不再产生新的所述划分特征时,输出构建完成的决策树;
步骤S130,分析流程,应用所述决策树对分布式应用架构或微服务应用架构的故障进行定位分析。
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法;而信息增益表示在一个条件下,信息不确定性减少的程度。本发明实施例中利用决策树的分类思想,将其应用于对软件系统运行过程中的故障分析过程,实现对故障类别以及故障位置的准确分类与快速定位。
故障分析决策树的构建流程如下:
Step1,从故障树根节点开始,计算所有可能的故障点特征的信息增益,选择信息增益最大的特征作为节点的划分特征;
Step2,由该特征的不同取值建立子节点;
Step3,再对子节点递归1-2步,构建故障决策树;
Step4,直到没有特征可以选择或类别完全相同为止,得到最终的故障决策树。
本发明提供的基于决策树的故障分析方法,通过决策树算法构建故障分析模型,对影响进行画像,从而快速定位故障点,节约运维故障分析时间,提升应用系统可用性,特别是针对分布式架构和微服务架构的系统,实现了对故障位置的快速锁定与高效分析。
实施例2
根据本发明提供的基于决策树的故障分析方法,在本发明中,应用所述决策树对分布式应用架构的故障进行定位分析,具体包括:依次对后端服务器、后端API、前端服务器和负载进行故障分析,且:
执行对所述后端服务器的故障分析,当后端CPU和后端内存均正常时,所述后端服务器正常;
执行对所述后端API的故障分析,当API响应时间小于等于预设时间时,所述后端API正常;
执行对所述前端服务器的故障分析,当后端CPU和后端内存均正常时,所述前端服务器正常;
执行对所述负载的故障分析,当负载值小于等于预设阈值时,所述负载正常;
当所述后端服务器、所述后端API、所述前端服务器和所述负载均正常时,应用所述分布式应用架构的软件系统正常。
需要说明的是,API,亦叫作应用程序接口(英语:Application ProgrammingInterface),又称为应用编程接口,就是软件系统不同组成部分衔接的约定。
服务器是计算机的一种,它比普通计算机运行更快、负载更高、价格更贵。服务器在网络中为其它客户机(如PC机、智能手机、ATM等终端甚至是火车系统等大型设备)提供计算或者应用服务。
本发明提供的基于决策树的故障分析方法,通过对分布式应用架构中的后端服务器、后端API、前端服务器和负载几个节点依次进行故障分析,并针对每一节点进行分类别故障判断,实现了对该软件系统中所存在故障的精准定位与快速分析,大幅提升了处理效率。
实施例3
根据本发明提供的基于决策树的故障分析方法,在本发明中,当所述后端服务器、所述后端API、所述前端服务器和所述负载中至少一项异常时,应用所述分布式应用架构的软件系统异常,具体包括:
所述后端服务器异常:后端CPU和后端内存均异常、后端CPU正常和后端内存异常、后端CPU异常和后端内存正常;
所述后端API异常:API响应时间大于预设时间;
所述前端服务器异常:前端CPU正常和后端内存异常、后端CPU异常和后端内存正常、后端CPU和后端内存均异常;
所述负载异常:负载值大于预设阈值。
需要说明的是,以后端服务器异常为例,后端服务器异常的情形包括以下三种情形:
1、后端CPU和后端内存均异常;
2、后端CPU正常和后端内存异常;
3、后端CPU异常和后端内存正常;
即只要满足以上任一情形,则后端服务器会处于异常状态。
同理可得,前端服务器异常的三种情形,只要符合其中任一情形,则前端服务器处于异常状态。
本发明提供的基于决策树的故障分析方法,通过对后端服务器、后端API、前端服务器和负载各节点处于异常状态时对应异常情形的穷尽罗列,实现了对该软件系统所有异常原因的完整梳理与对应故障状态的精准匹配,基于此,可以实现对该软件系统所有故障情形的快速匹配与定位分析,有效提升故障分析效率。
实施例4
根据本发明提供的基于决策树的故障分析方法,在本发明中,应用所述决策树对微服务应用架构的故障进行定位分析,具体包括:依次对服务网关、用户服务、库存服务、购物车服务以及订单服务进行故障分析,且:
执行对所述服务网关的故障分析,当服务网关处于连接状态时,所述服务网关正常;
执行对所述用户服务的故障分析,当用户服务进程和用户服务容器均正常时,所述用户服务正常;
执行对所述库存服务的故障分析,当库存服务进程和库存服务容器均正常时,所述库存服务正常;
执行对所述购物车服务的故障分析,当购物车服务进程和购物车服务容器均正常时,所述购物车服务正常;
执行对所述订单服务的故障分析,当订单服务进程和订单服务容器均正常时,所述订单服务正常。
需要说明的是,服务网关模块是单一调解,用于处理对多个服务使用者和提供者的请求;用户服务、库存服务、购物车服务以及订单服务分别对应不同的使用请求。
本发明提供的基于决策树的故障分析方法,通过结合服务进程和服务容器的正常与否实现对各个节点运行状态的判断,实现了对微服务应用架构下的服务网关、用户服务、库存服务、购物车服务以及订单服务依次进行故障分析,明确了该软件系统在正常工作状态下的各节点的运行情况,提高了运行状态分析效率与准确率。
实施例5
根据本发明提供的基于决策树的故障分析方法,在本发明中,当所述服务网关、所述用户服务、所述库存服务、所述购物车服务和所述订单服务中至少一项异常时,应用所述微服务应用架构的软件系统异常,具体包括:
所述服务网关异常:所述服务网关处于断开状态;
所述用户服务异常:用户服务进程和用户服务容器均异常、用户服务进程正常和用户服务容器异常、用户服务进程异常和用户服务容器正常;
所述库存服务异常:库存服务进程和库存服务容器均异常、库存服务进程正常和库存服务容器异常、库存服务进程异常和库存服务容器正常;
所述购物车服务异常:购物车服务进程和购物车服务容器均异常、购物车服务进程正常和购物车服务容器异常、购物车服务进程异常和购物车服务容器正常;
所述订单服务异常:订单服务进程和订单服务容器均异常、订单服务进程正常和订单服务容器异常、订单服务进程异常和订单服务容器正常。
需要说明的是,以用户服务异常为例:用户服务异常的情形包括以下三种情形:
1、用户服务进程和用户服务容器均异常;
2、用户服务进程正常和用户服务容器异常;
3、用户服务进程异常和用户服务容器正常;
即只要满足以上任一情形,则用户服务异常。
同理可得,库存服务异常、购物车服务异常以及订单服务异常各自对应的三种异常情形,只要满足任一情形,则对应节点处于异常状态。
本发明提供的基于决策树的故障分析方法,通过对服务网关、用户服务、库存服务、购物车服务和订单服务各节点处于异常状态时对应异常情形的穷尽罗列,实现了对该软件系统所有异常原因的完整梳理与对应故障状态的精准匹配,基于此,可以实现对该软件系统所有故障情形的快速匹配与定位分析,有效提升故障分析效率。
实施例6
根据本发明提供的基于决策树的故障分析方法,在本发明中,基于条件熵公式计算所述信息增益,所述条件熵公式为:
infoGain(D|A)=Entropy(D)-Entropy(D|A)
其中,infoGain(D|A)表示属性A对数据集D的信息增益,Entropy(D)表示数据集D本身的熵,Entropy(D|A)表示给定A的条件下D的条件熵;A=[a1,a2,...,ak],共K个值。
需要说明的是,熵表示事务不确定性的程度,也就是信息量的大小(一般说信息量大,就是指这个时候背后的不确定因素太多)所以当Entropy最大为1的时候,是分类效果最差的状态,当它最小为0的时候,是完全分类的状态。因为熵等于零是理想状态,一般实际情况下,熵介于0和1之间;熵的不断最小化,实际上就是提高分类正确率的过程。
信息增益:在划分数据集之前之后信息发生的变化,计算每个特征值划分数据集获得的信息增益,获得信息增益最高的特征就是最好的选择。
引入属性A后,原来数据集D的不确定性减少了多少,计算每个属性引入后的信息增益,选择给D带来的信息增益最大的属性,即为最优划分属性。信息增益越大,则意味着使用属性A来进行划分所得到的“纯度提升”越大。
本发明提供的基于决策树的故障分析方法,通过条件熵公式计算信息增益,并基于信息增益值的大小选取目标节点的划分特征,基于此,可以实现对划分特征的快速选择,而基于被选择的特征可以实现对数据集的精准高效分类,实现决策树构建的目的。
实施例7
图2是本发明提供的基于决策树的故障分析方法的流程示意图之二,如图2所示,应用于分布式应用架构,具体参数有:
采用负载均衡承载用户访问;
前端服务负责响应用户请求,并返回用户结果;
采用前后端分离,分为响应前端请求的API服务和承载API服务的后端服务器;
最后则是云上的数据库,提供应用的数据存储。
所述方法包括:依次对后端服务器、后端API、前端服务器和负载进行故障分析,且:
Step1,执行对所述后端服务器的故障分析,当后端CPU和后端内存均正常时,所述后端服务器正常;存在以下任一情形,则后端服务器异常,具体为:①后端CPU和后端内存均异常;②后端CPU正常和后端内存异常;③后端CPU异常和后端内存正常;
Step2,执行对所述后端API的故障分析,当API响应时间小于等于预设时间时,所述后端API正常;具体为:当API响应时间大于预设时间,后端API异常;
Step3,执行对所述前端服务器的故障分析,当后端CPU和后端内存均正常时,所述前端服务器正常;存在以下任一情形,则前端服务器异常,具体为:①前端CPU正常和后端内存异常;②后端CPU异常和后端内存正常;③后端CPU和后端内存均异常;
Step4,执行对所述负载的故障分析,当负载值小于等于预设阈值时,所述负载正常;当负载值大于预设阈值时,负载异常。
Step5,当所述后端服务器、所述后端API、所述前端服务器和所述负载均正常时,应用所述分布式应用架构的软件系统正常。
图3是本发明提供的基于决策树的故障分析结论示意图之一,如图3所示,图中表明了各节点运行状态与最终故障分析结论之间的关系。
实施例8
图4是本发明提供的基于决策树的故障分析方法的流程示意图之三,应用于微服务应用架构,具体参数有:
前端微服务网关负责用户访问请求的路由和服务发现;
后面部署了用户服务、库存服务、购物车服务和订单服务,分别运行于不同的服务容器中。
所述方法包括:依次对服务网关、用户服务、库存服务、购物车服务以及订单服务进行故障分析,且:
Step1,执行对所述服务网关的故障分析,当服务网关处于连接状态时,所述服务网关正常;当服务网关处于断开状态时,服务网关异常;
Step2,执行对所述用户服务的故障分析,当用户服务进程和用户服务容器均正常时,所述用户服务正常;存在以下任一情形,则用户服务异常,具体为:①用户服务进程和用户服务容器均异常;②用户服务进程正常和用户服务容器异常;③用户服务进程异常和用户服务容器正常;
Step3,执行对所述库存服务的故障分析,当库存服务进程和库存服务容器均正常时,所述库存服务正常;存在以下任一情形,则库存服务异常,具体为:①库存服务进程和库存服务容器均异常;②库存服务进程正常和库存服务容器异常;③库存服务进程异常和库存服务容器正常;
Step4,执行对所述购物车服务的故障分析,当购物车服务进程和购物车服务容器均正常时,所述购物车服务正常;存在以下任一情形,则购物车服务异常,具体为:①购物车服务进程和购物车服务容器均异常;②购物车服务进程正常和购物车服务容器异常;③购物车服务进程异常和购物车服务容器正常;
Step5,执行对所述订单服务的故障分析,当订单服务进程和订单服务容器均正常时,所述订单服务正常;存在以下任一情形,则订单服务异常,具体为:①订单服务进程和订单服务容器均异常;②订单服务进程正常和订单服务容器异常;③订单服务进程异常和订单服务容器正常。
图5是本发明提供的基于决策树的故障分析结论示意图之二,如图5所示,表明了各节点运行状态与最终故障分析结论之间的关系。
图6是本发明提供的基于决策树的故障分析装置的结构示意图,如图6所示,所述故障分析装置600包括:
划分模块610,用于获取决策树目标节点对应的所有故障特征,并计算所述故障特征对应的信息增益,将信息增益最大值对应的故障特征作为所述目标节点的划分特征;
设定模块620,用于基于所述故障特征的不同取值设定所述目标节点的子节点,并跳转执行所述划分流程,当不再产生新的所述划分特征时,输出构建完成的决策树;
分析模块630,用于应用所述决策树对分布式应用架构或微服务应用架构的故障进行定位分析。
本发明提供的基于决策树的故障分析装置,通过决策树算法构建故障分析模型,对影响进行画像,从而快速定位故障点,节约运维故障分析时间,提升应用系统可用性,特别是针对分布式架构和微服务架构的系统,实现了对故障位置的快速锁定与高效分析。
图7示例了一种电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)710、通信接口(Communications Interface)720、存储器(memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行基于决策树的故障分析方法,该方法包括:划分流程,获取决策树目标节点对应的所有故障特征,并计算所述故障特征对应的信息增益,将信息增益最大值对应的故障特征作为所述目标节点的划分特征;
设定流程,基于所述故障特征的不同取值设定所述目标节点的子节点,并跳转执行所述划分流程,当不再产生新的所述划分特征时,输出构建完成的决策树;
分析流程,应用所述决策树对分布式应用架构或微服务应用架构的故障进行定位分析。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于决策树的故障分析方法,该方法包括:划分流程,获取决策树目标节点对应的所有故障特征,并计算所述故障特征对应的信息增益,将信息增益最大值对应的故障特征作为所述目标节点的划分特征;
设定流程,基于所述故障特征的不同取值设定所述目标节点的子节点,并跳转执行所述划分流程,当不再产生新的所述划分特征时,输出构建完成的决策树;
分析流程,应用所述决策树对分布式应用架构或微服务应用架构的故障进行定位分析。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于决策树的故障分析方法,该方法包括:划分流程,获取决策树目标节点对应的所有故障特征,并计算所述故障特征对应的信息增益,将信息增益最大值对应的故障特征作为所述目标节点的划分特征;
设定流程,基于所述故障特征的不同取值设定所述目标节点的子节点,并跳转执行所述划分流程,当不再产生新的所述划分特征时,输出构建完成的决策树;
分析流程,应用所述决策树对分布式应用架构或微服务应用架构的故障进行定位分析。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于决策树的故障分析方法,其特征在于,包括:
划分流程,获取决策树目标节点对应的所有故障特征,并计算所述故障特征对应的信息增益,将信息增益最大值对应的故障特征作为所述目标节点的划分特征;
设定流程,基于所述故障特征的不同取值设定所述目标节点的子节点,并跳转执行所述划分流程,当不再产生新的所述划分特征时,输出构建完成的决策树;
分析流程,应用所述决策树对分布式应用架构或微服务应用架构的故障进行定位分析。
2.根据权利要求1所述的基于决策树的故障分析方法,其特征在于,应用所述决策树对分布式应用架构的故障进行定位分析,具体包括:依次对后端服务器、后端API、前端服务器和负载进行故障分析,且:
执行对所述后端服务器的故障分析,当后端CPU和后端内存均正常时,所述后端服务器正常;
执行对所述后端API的故障分析,当API响应时间小于等于预设时间时,所述后端API正常;
执行对所述前端服务器的故障分析,当后端CPU和后端内存均正常时,所述前端服务器正常;
执行对所述负载的故障分析,当负载值小于等于预设阈值时,所述负载正常;
当所述后端服务器、所述后端API、所述前端服务器和所述负载均正常时,应用所述分布式应用架构的软件系统正常。
3.根据权利要求2所述的基于决策树的故障分析方法,其特征在于,当所述后端服务器、所述后端API、所述前端服务器和所述负载中至少一项异常时,应用所述分布式应用架构的软件系统异常,具体包括:
所述后端服务器异常:后端CPU和后端内存均异常、后端CPU正常和后端内存异常、后端CPU异常和后端内存正常;
所述后端API异常:API响应时间大于预设时间;
所述前端服务器异常:前端CPU正常和后端内存异常、后端CPU异常和后端内存正常、后端CPU和后端内存均异常;
所述负载异常:负载值大于预设阈值。
4.根据权利要求1所述的基于决策树的故障分析方法,其特征在于,
应用所述决策树对微服务应用架构的故障进行定位分析,具体包括:依次对服务网关、用户服务、库存服务、购物车服务以及订单服务进行故障分析,且:
执行对所述服务网关的故障分析,当服务网关处于连接状态时,所述服务网关正常;
执行对所述用户服务的故障分析,当用户服务进程和用户服务容器均正常时,所述用户服务正常;
执行对所述库存服务的故障分析,当库存服务进程和库存服务容器均正常时,所述库存服务正常;
执行对所述购物车服务的故障分析,当购物车服务进程和购物车服务容器均正常时,所述购物车服务正常;
执行对所述订单服务的故障分析,当订单服务进程和订单服务容器均正常时,所述订单服务正常。
5.根据权利要求4所述的基于决策树的故障分析方法,其特征在于,当所述服务网关、所述用户服务、所述库存服务、所述购物车服务和所述订单服务中至少一项异常时,应用所述微服务应用架构的软件系统异常,具体包括:
所述服务网关异常:所述服务网关处于断开状态;
所述用户服务异常:用户服务进程和用户服务容器均异常、用户服务进程正常和用户服务容器异常、用户服务进程异常和用户服务容器正常;
所述库存服务异常:库存服务进程和库存服务容器均异常、库存服务进程正常和库存服务容器异常、库存服务进程异常和库存服务容器正常;
所述购物车服务异常:购物车服务进程和购物车服务容器均异常、购物车服务进程正常和购物车服务容器异常、购物车服务进程异常和购物车服务容器正常;
所述订单服务异常:订单服务进程和订单服务容器均异常、订单服务进程正常和订单服务容器异常、订单服务进程异常和订单服务容器正常。
6.根据权利要求1所述的基于决策树的故障分析方法,其特征在于,基于条件熵公式计算所述信息增益,所述条件熵公式为:
infoGain(D|A)=Entropy(D)-Entropy(D|A)
其中,infoGain(D|A)表示属性A对数据集D的信息增益,Entropy(D)表示数据集D本身的熵,Entropy(D|A)表示给定A的条件下D的条件熵;A=[a1,a2,...,ak],共K个值。
7.一种基于决策树的故障分析装置,其特征在于,包括:
划分模块,用于获取决策树目标节点对应的所有故障特征,并计算所述故障特征对应的信息增益,将信息增益最大值对应的故障特征作为所述目标节点的划分特征;
设定模块,用于基于所述故障特征的不同取值设定所述目标节点的子节点,并跳转执行所述划分流程,当不再产生新的所述划分特征时,输出构建完成的决策树;
分析模块,用于应用所述决策树对分布式应用架构或微服务应用架构的故障进行定位分析。
8.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1-6任一项所述基于决策树的故障分析方法的步骤。
9.一种非暂态计算机可读存储介质,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-6任一项所述基于决策树的故障分析方法的步骤。
10.一种计算机程序产品,其特征在于,其上存储有计算机程序,该计算机程序被处理器执行时实现如权利要求1-6任一项所述基于决策树的故障分析方法的步骤。
CN202310855706.5A 2023-07-12 2023-07-12 基于决策树的故障分析方法及装置 Pending CN117081914A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310855706.5A CN117081914A (zh) 2023-07-12 2023-07-12 基于决策树的故障分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310855706.5A CN117081914A (zh) 2023-07-12 2023-07-12 基于决策树的故障分析方法及装置

Publications (1)

Publication Number Publication Date
CN117081914A true CN117081914A (zh) 2023-11-17

Family

ID=88701257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310855706.5A Pending CN117081914A (zh) 2023-07-12 2023-07-12 基于决策树的故障分析方法及装置

Country Status (1)

Country Link
CN (1) CN117081914A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408787A (zh) * 2023-12-15 2024-01-16 江西求是高等研究院 一种基于决策树的根因挖掘分析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117408787A (zh) * 2023-12-15 2024-01-16 江西求是高等研究院 一种基于决策树的根因挖掘分析方法及系统
CN117408787B (zh) * 2023-12-15 2024-03-05 江西求是高等研究院 一种基于决策树的根因挖掘分析方法及系统

Similar Documents

Publication Publication Date Title
CN108595157A (zh) 区块链数据的处理方法、装置、设备和存储介质
CN117081914A (zh) 基于决策树的故障分析方法及装置
CN107292598A (zh) 一种支付路由方法及支付路由中间件
CN107203464B (zh) 业务问题的定位方法以及装置
CN115712843B (zh) 基于人工智能的数据匹配检测处理方法及系统
CN115391219A (zh) 测试用例生成方法、装置、电子设备及存储介质
CN113791792B (zh) 应用调用信息的获取方法、设备以及存储介质
KR20180130295A (ko) 통신망의 장애를 예측하는 장치 및 방법
CN112910708B (zh) 分布式服务调用方法及装置
CN113296991B (zh) 异常检测方法以及装置
CN117729576A (zh) 告警监控方法、装置、设备及存储介质
CN113656252A (zh) 故障定位方法、装置、电子设备以及存储介质
CN113703996A (zh) 基于用户和yang模型分组的访问控制方法、设备及介质
CN112925663B (zh) 业务数据的计算方法和装置
CN116232878A (zh) 算力网络配置方法、装置、设备及存储介质
CN115563160A (zh) 数据处理方法、装置、计算机设备和计算机可读存储介质
CN114449569B (zh) 用户流量使用量处理方法、网络设备及业务处理系统
US8904369B2 (en) Method and system for automated process distribution
CN111639741B (zh) 一种用于多目标QoS优化的服务自动组合代理系统
CN115239068A (zh) 一种目标任务决策方法、装置、电子设备及存储介质
US20180033073A1 (en) Using Learned Application Flow to Assist Users in Network Business Transaction Based Apps
CN114356737A (zh) 模型监测方法、设备、存储介质及计算机程序产品
CN110417574B (zh) 一种拓扑分析方法、装置和存储介质
CN112953844B (zh) 一种网络流量优化方法及装置
CN111506486A (zh) 数据处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination