CN114202206A - 系统异常根因分析方法及装置 - Google Patents

系统异常根因分析方法及装置 Download PDF

Info

Publication number
CN114202206A
CN114202206A CN202111523870.3A CN202111523870A CN114202206A CN 114202206 A CN114202206 A CN 114202206A CN 202111523870 A CN202111523870 A CN 202111523870A CN 114202206 A CN114202206 A CN 114202206A
Authority
CN
China
Prior art keywords
service
abnormal
sequence data
scoring
calling sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111523870.3A
Other languages
English (en)
Other versions
CN114202206B (zh
Inventor
郑建飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202111523870.3A priority Critical patent/CN114202206B/zh
Publication of CN114202206A publication Critical patent/CN114202206A/zh
Application granted granted Critical
Publication of CN114202206B publication Critical patent/CN114202206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种系统异常根因分析方法及装置,可用于金融领域或其他技术领域,该方法包括:获取在预设的时间范围内系统的异常服务信息以及异常服务信息中的每个异常服务各自对应的链路信息;根据每个异常服务各自对应的链路信息以及系统的服务拓扑关系确定每个异常服务各自对应的服务调用顺序数据,其中,服务调用顺序数据包括:至少两个服务节点以及每个服务节点各自对应的序号;根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个服务调用顺序数据各自的打分结果;根据打分结果确定在所述时间范围内所述系统对应的根因链路信息。本发明解决了现有技术难以对系统中的异常进行根因定位的技术问题。

Description

系统异常根因分析方法及装置
技术领域
本发明涉及系统异常根因分析技术领域,具体而言,涉及一种系统异常根因分析方法及装置。
背景技术
随着互联网的普及,以及5G和云计算的大力发展,互联网应用的软件规模越来越庞大,微服务架构也越来越受欢迎。而服务规模的快速发展的同时也给服务故障定位带来了巨大的挑战,有效的快速定位故障的根本原因对于快速恢复系统并减轻故障导致的经济损失是至关重要的。在微服务规模达到一定上限后,单纯依赖人力来排除问题故障已经变得遥不可及,如何进行更自动化得运维以管理大规模的服务设备成为各大厂商非常关心的问题。针对这一问题目前提出了AIOps(Artificial Intelligence for IT Operation)概念,既智能运维。AIOps一般都会涉及大规模数据计算,搜集大量的时序数据如日志,指标等进行聚类分析,语义分析,决策计算,往往导致方案复杂度急剧上升,运维和实施成本变大且正确性依然有待提高。
综上,如何在大规模服务部署架构中落地根因分析是很有挑战性的任务,目前包括学术界和产业界都有大量研究实现和服务实践,但是依然没有完善和统一的手段实现高正确性的故障定位方法,根因分析还是极具有研究一样的系统性技术难题。
发明内容
本发明为了解决现有技术难以对系统中的异常进行根因定位的问题,提出了一种系统异常根因分析方法及装置。
为了实现上述目的,根据本发明的一个方面,提供了一种系统异常根因分析方法,该方法包括:
获取在预设的时间范围内系统的异常服务信息以及所述异常服务信息中的每个异常服务各自对应的链路信息;
根据每个异常服务各自对应的链路信息以及所述系统的服务拓扑关系确定每个异常服务各自对应的服务调用顺序数据,其中,所述服务调用顺序数据包括:至少两个服务节点以及每个服务节点各自对应的序号;
根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果;
根据所述打分结果确定在所述时间范围内所述系统对应的根因链路信息。
可选的,所述根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果,具体包括:
若服务调用顺序数据中仅包含一个异常服务的服务节点,则根据该异常服务的服务节点对应的序号以及该服务调用顺序数据中服务节点的数量,确定该服务调用顺序数据的打分结果。
可选的,所述根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果,具体包括:
若服务调用顺序数据中包含至少两个异常服务的服务节点,则根据该服务调用顺序数据中异常服务节点段包含的服务节点的最大数量,以及该服务调用顺序数据中每个非异常服务节点段包含的服务节点的数量,确定该服务调用顺序数据的打分结果,其中,服务调用顺序数据包括:异常服务节点段和非异常服务节点段,所述异常服务节点段包含一个服务节点或者至少两个序号连续的服务节点,所述非异常服务节点段包含一个服务节点或者至少两个序号连续的服务节点,所述异常服务节点段包含的服务节点均为异常服务的服务节点,所述非异常服务节点段包含的服务节点均为非异常服务的服务节点,所述异常服务节点段和所述非异常服务节点段相邻。
可选的,所述根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果,具体还包括:
若服务调用顺序数据中的所有服务节点均为异常服务的服务节点,则将该服务调用顺序数据的打分结果乘以预设的第一系数,得到该服务调用顺序数据最终的打分结果。
可选的,所述根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果,具体还包括:
若服务调用顺序数据中的前N个服务节点均为非异常服务的服务节点,后M个服务节点均为异常服务的服务节点,则将该服务调用顺序数据的打分结果乘以预设的第二系数,得到该服务调用顺序数据最终的打分结果,其中,该服务调用顺序数据共有P个服务节点,P等于N与M之和。
可选的,所述根据所述打分结果确定在所述时间范围内所述系统对应的根因链路信息,具体包括:
将打分结果最高的服务调用顺序数据对应的链路信息确定为在所述时间范围内所述系统对应的根因链路信息。
为了实现上述目的,根据本发明的另一方面,提供了一种系统异常根因分析装置,该装置包括:
数据获取单元,用于获取在预设的时间范围内系统的异常服务信息以及所述异常服务信息中的每个异常服务各自对应的链路信息;
服务调用顺序数据生成单元,用于根据每个异常服务各自对应的链路信息以及所述系统的服务拓扑关系确定每个异常服务各自对应的服务调用顺序数据,其中,所述服务调用顺序数据包括:至少两个服务节点以及每个服务节点各自对应的序号;
打分单元,用于根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果;
根因链路信息确定单元,用于根据所述打分结果确定在所述时间范围内所述系统对应的根因链路信息。
为了实现上述目的,根据本发明的另一方面,还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述系统异常根因分析方法的步骤。
为了实现上述目的,根据本发明的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时实现上述系统异常根因分析方法的步骤。
为了实现上述目的,根据本发明的另一方面,还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述系统异常根因分析方法的步骤。
本发明的有益效果为:
本发明实施例根据每个异常服务各自对应的链路信息以及预设的系统的服务拓扑关系确定每个异常服务各自对应的服务调用顺序数据,进而根据预设的打分规则对每个所述服务调用顺序数据进行打分,进而根据打分结果确定所述系统对应的根因链路信息,本发明设计了预设的打分规则,进而根据打分结果确定系统对应的根因链路信息,实现了快速定位故障根因的有益效果,同时具有较好的准确率,有助于工程开发人员落地系统链路故障检测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明实施例系统异常根因分析方法的流程图;
图2是本发明第一实施例服务调用顺序数据的示意图;
图3是本发明第二实施例服务调用顺序数据的示意图;
图4是本发明第三实施例服务调用顺序数据的示意图;
图5是本发明第四实施例服务调用顺序数据的示意图;
图6是本发明实施例系统异常根因分析的整体流程图;
图7是本发明实施例系统异常根因分析装置的结构框图;
图8是本发明实施例计算机设备示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
需要说明的是,本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
需要说明的是,本发明的系统异常根因分析方法和装置可以应用于金融领域,也可以应用于其他技术领域。
本发明为了解决系统异常(或故障)根因定位难题,基于链路采集信息和服务拓扑关系研究实现了一种系统异常根因分析的实施方案。需要说明的是链路信息采集以及分布式链路信息采集目前业界有统一的实施方案,所以落地实施简单可靠,在现有的能力基础之上本发明构建了基于异常链路的打分方案,可以有效的识别服务链路故障信息,其中打分采用较为简单的计算模型,无需引入大规模的分布式计算,在常规的服务中即可完成。所以整体方案简单高效,也方便落地实施,后续方案调优升级更加方便。
图1是本发明实施例系统异常根因分析方法的流程图,如图1所示,在本发明一个实施例中,本发明的系统异常根因分析方法包括步骤S101至步骤S104。
步骤S101,获取在预设的时间范围内系统的异常服务信息以及所述异常服务信息中的每个异常服务各自对应的链路信息。
在本发明一个实施例中,本发明系统中设置有链路信息采集单元以及异常信息采集单元,链路信息采集单元用于采集系统中每个服务各自对应的链路信息,异常信息采集单元用于实时采集服务产生的业务异常告警信息,并对业务异常告警信息进行分析确定系统的异常服务信息。
在本发明一个实施例中,本发明方案中的系统可以为分布式系统,分布式系统上设置有多个服务,该多个服务可以分散的设置在分布式系统的各节点上。在本发明一个实施例中,本发明方案中的服务可以为微服务。
步骤S102,根据每个异常服务各自对应的链路信息以及所述系统的服务拓扑关系确定每个异常服务各自对应的服务调用顺序数据,其中,所述服务调用顺序数据包括:至少两个服务节点以及每个服务节点各自对应的序号。
在本发明一个实施例中,以A1、B1、B2、C1简单拓扑调用为例,其中B1,B2无调用关系,A1作为其共同上游服务,C1为其共同下游服务,根据链路信息中的时间信息如A1先调用B1服务后调用C1服务获取返回结果后调用B2,可以将此链路信息转换成A1-B1-C1-B2的服务调用顺序序列(即的服务调用顺序数据)。
在本发明一个实施例中,链路信息采集单元将采集的链路信息推送到消息队列中,该消息队列可以为Kafka消息队列。在本发明一个实施例中,本发明系统中还设置有拓扑关系维护模块,该拓扑关系维护模块订阅消息队列中的链路信息,根据系统各服务的链路信息生成系统的服务拓扑关系,并对系统的服务拓扑关系进行存储及更新。在本发明一个实施例中,系统的服务拓扑关系中记载了系统中各服务的上下游关系。
在本发明一个实施例中,本步骤具体根据异常服务的链路信息以及系统的服务拓扑关系将服务调用关系降维成基于时间序列的一维序列信息,即服务调用顺序数据。
在本发明一个实施例中,服务调用顺序数据可以为一条服务调用顺序链路,服务调用顺序链路中包含至少两个服务节点,服务调用顺序链路中记载了每个服务节点各自对应的序号,服务节点分为异常服务的服务节点和非异常服务的服务节点。在本发明可选实施例中,服务调用顺序数据可以如图2至图5所示,在图2至图5的实施例中,异常服务的服务节点用圆形来表示,非异常服务的服务节点用方块来表示。
在本发明中,异常服务对应的服务调用顺序数据中包含该异常服务的服务节点,例如,服务A为异常服务,服务A对应的服务调用顺序数据中包含该服务A的服务节点。
步骤S103,根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果。
步骤S104,根据所述打分结果确定在所述时间范围内所述系统对应的根因链路信息。
在本发明一个实施例中,本步骤将打分结果最高的服务调用顺序数据对应的链路信息确定为在所述时间范围内所述系统对应的根因链路信息。具体的,本步骤先确定出打分结果最高的服务调用顺序数据,然后确定该打分结果最高的服务调用顺序数据对应的异常服务,最后将该对应的异常服务的链路信息确定为在所述时间范围内所述系统对应的根因链路信息。
由此可见,本发明设计了预设的打分规则,根据打分规则对异常服务对应的服务调用顺序数据进行打分,进而根据打分结果确定系统对应的根因链路信息,实现了快速定位故障根因的有益效果,同时具有较好的准确率,有助于工程开发人员落地系统链路故障检测。
在本发明一个实施例中,上述步骤S103的根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果,具体包括:
若服务调用顺序数据中仅包含一个异常服务的服务节点,则根据该异常服务的服务节点对应的序号以及该服务调用顺序数据中服务节点的数量,确定该服务调用顺序数据的打分结果。
在本发明一个实施例中,若服务调用顺序数据中仅包含一个异常服务的服务节点,如图2和图3所示,本发明可以先用异常服务的服务节点对应的序号除以服务调用顺序数据中服务节点的数量得到第一参数A,进而根据第一参数A确定服务调用顺序数据的打分结果。
在本发明一个实施例中,根据第一参数A确定服务调用顺序数据的打分结果,具体可以采用以下公式:
打分结果=B×(C+A)
其中,B和C为预设的数值参数。
在本发明一个具体实施例中,B和C可以为1,图2所示的服务调用顺序数据的打分结果为:
打分结果=1×(1+2/4)=1.5
在本发明一个具体实施例中,B和C可以为1,图3所示的服务调用顺序数据的打分结果为:
打分结果=1×(1+2/2)=3
在本发明一个实施例中,上述步骤S103的根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果,具体包括:
若服务调用顺序数据中包含至少两个异常服务的服务节点,则根据该服务调用顺序数据中异常服务节点段包含的服务节点的最大数量,以及该服务调用顺序数据中每个非异常服务节点段包含的服务节点的数量,确定该服务调用顺序数据的打分结果,其中,服务调用顺序数据包括:异常服务节点段和非异常服务节点段,所述异常服务节点段包含一个服务节点或者至少两个序号连续的服务节点,所述非异常服务节点段包含一个服务节点或者至少两个序号连续的服务节点,所述异常服务节点段包含的服务节点均为异常服务的服务节点,所述非异常服务节点段包含的服务节点均为非异常服务的服务节点,所述异常服务节点段和所述非异常服务节点段相邻。
如图4所示,服务调用顺序数据中包含3个服务节点,第一个服务节点和第三个服务节点为两个异常服务节点段,第二个服务节点为一个非异常服务节点段。如图5所示,序号1、2和3这三个异常服务的服务节点为一个异常服务节点段,序号4这个非异常服务的服务节点为一个非异常服务节点段,序号5这个异常服务的服务节点为一个异常服务节点段,序号6和7这两个非异常服务的服务节点为一个非异常服务节点段,序号7和8这两个异常服务的服务节点为一个异常服务节点段。
在本发明一个实施例中,若服务调用顺序数据中包含至少两个异常服务的服务节点,打分结果具体可以采用以下公式进行计算:
打分结果=E×(F+G/H1+F+G/H2+F+……+G/Hn+F)
其中,E为服务调用顺序数据中异常服务节点段包含的服务节点的最大数量,F和G为预设的数值参数,H1至Hn为n个非异常服务节点段中每个非异常服务节点段各自包含的服务节点的数量。
在本发明一个具体实施例中,F和G可以为1,图4所示的服务调用顺序数据的打分结果为:
打分结果=1×(1+1/1+1)=3
对于图4的服务调用顺序数据,服务调用顺序数据中异常服务节点段包含的服务节点的最大数量E为1,非异常服务节点段为一个且包含一个服务节点。
在本发明一个具体实施例中,F和G可以为1,图5所示的服务调用顺序数据的打分结果为:
打分结果=3×(1+1/1+1+1/2+1)=13.5
对于图5的服务调用顺序数据,服务调用顺序数据中异常服务节点段包含的服务节点的最大数量E为3,即序号1、2和3这三个异常服务的服务节点组成的异常服务节点段。非异常服务节点段为两个,第一个非异常服务节点段为序号4的服务节点,第一个非异常服务节点段包含一个服务节点,第二个非异常服务节点段为序号6和7这两个服务节点,第二个非异常服务节点段包含两个服务节点。
在本发明一个实施例中,上述步骤S103的根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果,具体还包括:
若服务调用顺序数据中的所有服务节点均为异常服务的服务节点,则将该服务调用顺序数据的打分结果乘以预设的第一系数,得到该服务调用顺序数据最终的打分结果。
在本发明一个实施例中,在上述的服务调用顺序数据中包含至少两个异常服务的服务节点的计算打分结果的流程的基础上,进一步若服务调用顺序数据中的所有服务节点均为异常服务的服务节点,则将该服务调用顺序数据的打分结果乘以预设的第一系数,得到该服务调用顺序数据最终的打分结果
在本发明一个实施例中,上述步骤S103的根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果,具体还包括:
若服务调用顺序数据中的前N个服务节点均为非异常服务的服务节点,后M个服务节点均为异常服务的服务节点,则将该服务调用顺序数据的打分结果乘以预设的第二系数,得到该服务调用顺序数据最终的打分结果,其中,该服务调用顺序数据共有P个服务节点,P等于N与M之和。在本发明中,P、N和M均为正整数。
在本发明一个实施例中,在上述的服务调用顺序数据中包含至少两个异常服务的服务节点的计算打分结果的流程的基础上,进一步若服务调用顺序数据中的前N个服务节点均为非异常服务的服务节点,后M个服务节点均为异常服务的服务节点,则将该服务调用顺序数据的打分结果乘以预设的第二系数,得到该服务调用顺序数据最终的打分结果。
图6是本发明实施例系统异常根因分析的整体流程图,如图6所示,本发明先根据分布式系统中各微服务的链路信息生成分布式系统的服务拓扑关系,并对该服务拓扑关系进行存储和维护。进而本发明根据微服务侧的异常信息进行服务异常检测,得到异常服务信息。然后,根据异常服务的链路信息以及服务拓扑关系生成异常服务对应的服务调用顺序链路,并对各异常服务的服务调用顺序链路进行打分,得到打分结果。最后将打分结果最高的服务调用顺序链路对应的异常服务的链路信息确定为根因链路信息,并触发告警。
由以上实施例可以看出,为解决分布式服务故障诊断能力不足,定位困难的问题,本发明提出了在分布式链路信息采集的基础上通过维护服务的静态拓扑关系,然后实时跟踪链路告警信息,通过链路拓扑,服务状态还原服务故障的上下文信息,然后通过服务实时状态打分异常链路快速定位到根因链路加速故障分析建设能力。本发明的优点如下:
1、根因分析模型简单,工程实施简易有利于工程开发人员落地分布式链路故障检测。
2、基于链路的打分逻辑,定位故障根因高效快速,同时具有较好的准确率。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
基于同一发明构思,本发明实施例还提供了一种系统异常根因分析装置,可以用于实现上述实施例所描述的系统异常根因分析方法,如下面的实施例所述。由于系统异常根因分析装置解决问题的原理与系统异常根因分析方法相似,因此系统异常根因分析装置的实施例可以参见系统异常根因分析方法的实施例,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是本发明实施例系统异常根因分析装置的结构框图,如图7所示,在本发明一个实施例中,本发明的系统异常根因分析装置包括:
数据获取单元1,用于获取在预设的时间范围内系统的异常服务信息以及所述异常服务信息中的每个异常服务各自对应的链路信息;
服务调用顺序数据生成单元2,用于根据每个异常服务各自对应的链路信息以及所述系统的服务拓扑关系确定每个异常服务各自对应的服务调用顺序数据,其中,所述服务调用顺序数据包括:至少两个服务节点以及每个服务节点各自对应的序号
打分单元3,用于根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果;
根因链路信息确定单元4,用于根据所述打分结果确定在所述时间范围内所述系统对应的根因链路信息。
在本发明一个实施例中,所述打分单元3具体包括:第一打分模块,用于若服务调用顺序数据中仅包含一个异常服务的服务节点,则根据该异常服务的服务节点对应的序号以及该服务调用顺序数据中服务节点的数量,确定该服务调用顺序数据的打分结果。
在本发明一个实施例中,所述打分单元3具体包括:第二打分模块,用于若服务调用顺序数据中包含至少两个异常服务的服务节点,则根据该服务调用顺序数据中异常服务节点段包含的服务节点的最大数量,以及该服务调用顺序数据中每个非异常服务节点段包含的服务节点的数量,确定该服务调用顺序数据的打分结果,其中,服务调用顺序数据包括:异常服务节点段和非异常服务节点段,所述异常服务节点段包含一个服务节点或者至少两个序号连续的服务节点,所述非异常服务节点段包含一个服务节点或者至少两个序号连续的服务节点,所述异常服务节点段包含的服务节点均为异常服务的服务节点,所述非异常服务节点段包含的服务节点均为非异常服务的服务节点,所述异常服务节点段和所述非异常服务节点段相邻。
在本发明一个实施例中,所述打分单元3具体还包括:第一加权模块,用于若服务调用顺序数据中的所有服务节点均为异常服务的服务节点,则将该服务调用顺序数据的打分结果乘以预设的第一系数,得到该服务调用顺序数据最终的打分结果。
在本发明一个实施例中,所述打分单元3具体还包括:第二加权模块,用于若服务调用顺序数据中的前N个服务节点均为非异常服务的服务节点,后M个服务节点均为异常服务的服务节点,则将该服务调用顺序数据的打分结果乘以预设的第二系数,得到该服务调用顺序数据最终的打分结果,其中,该服务调用顺序数据共有P个服务节点,P等于N与M之和。
在本发明一个实施例中,所述根因链路信息确定单元4,具体用于将打分结果最高的服务调用顺序数据对应的链路信息确定为在所述时间范围内所述系统对应的根因链路信息。
为了实现上述目的,根据本申请的另一方面,还提供了一种计算机设备。如图8所示,该计算机设备包括存储器、处理器、通信接口以及通信总线,在存储器上存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述实施例方法中的步骤。
处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元,如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及作品数据处理,即实现上述方法实施例中的方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个单元存储在所述存储器中,当被所述处理器执行时,执行上述实施例中的方法。
上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解,此处不再赘述。
为了实现上述目的,根据本申请的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在计算机处理器中执行时实现上述系统异常根因分析方法中的步骤。本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
为了实现上述目的,根据本申请的另一方面,还提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现上述系统异常根因分析方法的步骤。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种系统异常根因分析方法,其特征在于,包括:
获取在预设的时间范围内系统的异常服务信息以及所述异常服务信息中的每个异常服务各自对应的链路信息;
根据每个异常服务各自对应的链路信息以及所述系统的服务拓扑关系确定每个异常服务各自对应的服务调用顺序数据,其中,所述服务调用顺序数据包括:至少两个服务节点以及每个服务节点各自对应的序号;
根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果;
根据所述打分结果确定在所述时间范围内所述系统对应的根因链路信息。
2.根据权利要求1所述的系统异常根因分析方法,其特征在于,所述根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果,具体包括:
若服务调用顺序数据中仅包含一个异常服务的服务节点,则根据该异常服务的服务节点对应的序号以及该服务调用顺序数据中服务节点的数量,确定该服务调用顺序数据的打分结果。
3.根据权利要求1所述的系统异常根因分析方法,其特征在于,所述根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果,具体包括:
若服务调用顺序数据中包含至少两个异常服务的服务节点,则根据该服务调用顺序数据中异常服务节点段包含的服务节点的最大数量,以及该服务调用顺序数据中每个非异常服务节点段包含的服务节点的数量,确定该服务调用顺序数据的打分结果,其中,服务调用顺序数据包括:异常服务节点段和非异常服务节点段,所述异常服务节点段包含一个服务节点或者至少两个序号连续的服务节点,所述非异常服务节点段包含一个服务节点或者至少两个序号连续的服务节点,所述异常服务节点段包含的服务节点均为异常服务的服务节点,所述非异常服务节点段包含的服务节点均为非异常服务的服务节点,所述异常服务节点段和所述非异常服务节点段相邻。
4.根据权利要求3所述的系统异常根因分析方法,其特征在于,所述根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果,具体还包括:
若服务调用顺序数据中的所有服务节点均为异常服务的服务节点,则将该服务调用顺序数据的打分结果乘以预设的第一系数,得到该服务调用顺序数据最终的打分结果。
5.根据权利要求3所述的系统异常根因分析方法,其特征在于,所述根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果,具体还包括:
若服务调用顺序数据中的前N个服务节点均为非异常服务的服务节点,后M个服务节点均为异常服务的服务节点,则将该服务调用顺序数据的打分结果乘以预设的第二系数,得到该服务调用顺序数据最终的打分结果,其中,该服务调用顺序数据共有P个服务节点,P等于N与M之和。
6.根据权利要求1至5任意之一所述的系统异常根因分析方法,其特征在于,所述根据所述打分结果确定在所述时间范围内所述系统对应的根因链路信息,具体包括:
将打分结果最高的服务调用顺序数据对应的链路信息确定为在所述时间范围内所述系统对应的根因链路信息。
7.一种系统异常根因分析装置,其特征在于,包括:
数据获取单元,用于获取在预设的时间范围内系统的异常服务信息以及所述异常服务信息中的每个异常服务各自对应的链路信息;
服务调用顺序数据生成单元,用于根据每个异常服务各自对应的链路信息以及所述系统的服务拓扑关系确定每个异常服务各自对应的服务调用顺序数据,其中,所述服务调用顺序数据包括:至少两个服务节点以及每个服务节点各自对应的序号;
打分单元,用于根据预设的打分规则对每个所述服务调用顺序数据进行打分,得到每个所述服务调用顺序数据各自的打分结果;
根因链路信息确定单元,用于根据所述打分结果确定在所述时间范围内所述系统对应的根因链路信息。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任意一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6任意一项所述方法的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至6任意一项所述方法的步骤。
CN202111523870.3A 2021-12-14 2021-12-14 系统异常根因分析方法及装置 Active CN114202206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111523870.3A CN114202206B (zh) 2021-12-14 2021-12-14 系统异常根因分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111523870.3A CN114202206B (zh) 2021-12-14 2021-12-14 系统异常根因分析方法及装置

Publications (2)

Publication Number Publication Date
CN114202206A true CN114202206A (zh) 2022-03-18
CN114202206B CN114202206B (zh) 2024-08-13

Family

ID=80653426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111523870.3A Active CN114202206B (zh) 2021-12-14 2021-12-14 系统异常根因分析方法及装置

Country Status (1)

Country Link
CN (1) CN114202206B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114844768A (zh) * 2022-04-27 2022-08-02 广州亚信技术有限公司 信息分析方法、装置及电子设备
CN115118574A (zh) * 2022-06-07 2022-09-27 马上消费金融股份有限公司 一种数据处理方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111190756A (zh) * 2019-11-18 2020-05-22 中山大学 一种基于调用链数据的根因定位算法
WO2020182051A1 (zh) * 2019-03-08 2020-09-17 华为技术有限公司 识别疑似根因告警的方法、装置及计算机存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020182051A1 (zh) * 2019-03-08 2020-09-17 华为技术有限公司 识别疑似根因告警的方法、装置及计算机存储介质
CN111190756A (zh) * 2019-11-18 2020-05-22 中山大学 一种基于调用链数据的根因定位算法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114844768A (zh) * 2022-04-27 2022-08-02 广州亚信技术有限公司 信息分析方法、装置及电子设备
CN115118574A (zh) * 2022-06-07 2022-09-27 马上消费金融股份有限公司 一种数据处理方法、装置及存储介质

Also Published As

Publication number Publication date
CN114202206B (zh) 2024-08-13

Similar Documents

Publication Publication Date Title
CN110851338B (zh) 异常检测方法、电子设备及存储介质
CN108683530B (zh) 多维度数据的数据分析方法、装置及存储介质
US11294754B2 (en) System and method for contextual event sequence analysis
US20160055044A1 (en) Fault analysis method, fault analysis system, and storage medium
CN114202206A (zh) 系统异常根因分析方法及装置
KR20180108446A (ko) Ict 인프라 관리 시스템 및 이를 이용한 ict 인프라 관리 방법
CN112181758B (zh) 一种基于网络拓扑及实时告警的故障根因定位方法
CN112559376A (zh) 一种数据库故障的自动定位方法、装置及电子设备
CN111597070A (zh) 一种故障定位方法、装置、电子设备及存储介质
CN105095048A (zh) 一种基于业务规则的监控系统告警关联处理方法
CN106254137B (zh) 监管系统的告警根源分析系统及方法
CN114465874B (zh) 故障预测方法、装置、电子设备与存储介质
CN115309575A (zh) 基于图卷积神经网络的微服务故障诊断方法、装置及设备
CN114152839A (zh) 一种分布式电力并网环境下的配电网故障定位方法及系统
CN111913824A (zh) 确定数据链路故障原因的方法及相关设备
CN115118621A (zh) 一种基于依赖关系图的微服务性能诊断方法及系统
CN109818808A (zh) 故障诊断方法、装置和电子设备
CN117873816A (zh) 一种基于有向无环拓扑网的应用集群健康检测方法及系统
CN109298989A (zh) 业务指标阈值获取方法及装置
CN114116853B (zh) 基于时序关联分析的数据安全分析方法及装置
CN111935279B (zh) 基于区块链和大数据的物联网络维护方法及计算节点
CN114465875A (zh) 故障处理方法及装置
CN115372752A (zh) 故障检测方法、装置、电子设备以及存储介质
CN115277453B (zh) 运维领域异常知识图谱的生成方法、应用方法和装置
CN116049263B (zh) 数据调用链路追踪方法、装置及系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant