CN113282635A - 一种微服务系统故障根因定位方法及装置 - Google Patents

一种微服务系统故障根因定位方法及装置 Download PDF

Info

Publication number
CN113282635A
CN113282635A CN202110389487.7A CN202110389487A CN113282635A CN 113282635 A CN113282635 A CN 113282635A CN 202110389487 A CN202110389487 A CN 202110389487A CN 113282635 A CN113282635 A CN 113282635A
Authority
CN
China
Prior art keywords
fault
time
abnormal
root cause
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110389487.7A
Other languages
English (en)
Other versions
CN113282635B (zh
Inventor
季学纯
徐丽燕
王纪立
陈佳佳
季惠英
沙一川
李�昊
翟明玉
宋爱波
张珂珩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nari Technology Co Ltd
NARI Nanjing Control System Co Ltd
Original Assignee
Nari Technology Co Ltd
NARI Nanjing Control System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nari Technology Co Ltd, NARI Nanjing Control System Co Ltd filed Critical Nari Technology Co Ltd
Priority to CN202110389487.7A priority Critical patent/CN113282635B/zh
Publication of CN113282635A publication Critical patent/CN113282635A/zh
Application granted granted Critical
Publication of CN113282635B publication Critical patent/CN113282635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2477Temporal data queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Abstract

本发明公开了一种微服务系统故障根因定位方法及装置,所述方法包括如下步骤:对业务指标数据进行异常检测,如发现异常,则计算异常时间窗口;对异常时间窗口内的调用链数据进行故障定位分析:若数据库相关调用链数据存在失败记录,则判定故障实例为数据库;否则,对异常时间窗口内耗时最长的调用链进行调用链重建,根据重建调用链以及微服务系统的拓扑结构判断故障实例;对故障实例的各项实例监控指标进行异常检测,将异常实例监控指标加入故障根因集,并根据故障根因集实现故障根因定位。本发明能够实现故障根因自动定位,提高运维效率。

Description

一种微服务系统故障根因定位方法及装置
技术领域
本发明涉及一种微服务系统故障根因定位方法及装置,属于电力系统技术领域。
背景技术
为满足新一代电网调度控制系统“物理分布、逻辑统一”的核心特征,调控支撑平台需满足“服务灵活部署”和“开放接入”的需求,因此引入了先进成熟的微服务技术,实现业务灵活分布和服务功能解耦和重用,降低应用服务的实现复杂度。但是微服务架构下,各服务之间存在复杂的依赖关系,当某一个或几个服务发生故障时,可能会引起级联故障。因此,需采用智能运维(AIOps:Artificial Intelligence for IT Operations)技术,及时发现服务异常并定位故障根因,提高运维效率,保障电网调度控制系统安全稳定运行。
目前在线运行的电网调度控制系统,仍主要采用传统的手工运维方式,一般由运维人员通过手工执行操作保证系统正常运行,当系统出现故障时由运维人员根据经验采取相应的补救措施。近年来,自动化专业针对不同监控对象也建设了独立的监控系统,例如网管系统、网络安全管理平台等。但这些监控系统主要侧重于业务、平台等指标数据的采集与监控,未能深入挖掘运维数据的价值,形成运维数据洞察,实现智能运维。
被动的手工运维方式存在工作效率低、无法快速定位故障等不足。同时,各监控系统所采集的数据长期处于分散堆积的状态,形成了一个个运维数据孤岛,数据价值得不到有效挖掘,未能采用大数据、机器学习等技术,实现异常的自动检测与故障根因的自动定位。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种微服务系统故障根因定位方法及装置,能够实现故障根因自动定位,提高运维效率。
为达到上述目的,本发明是采用下述技术方案实现的:
一方面,本发明提供一种微服务系统故障根因定位方法,包括如下步骤:
对业务指标数据进行异常检测,如发现异常,则计算异常时间窗口;
对异常时间窗口内的调用链数据进行故障定位分析:若数据库相关调用链数据存在失败记录,则判定故障实例为数据库;否则,对异常时间窗口内耗时最长的调用链进行调用链重建,根据重建调用链以及微服务系统的拓扑结构判断故障实例;
对故障实例的各项实例监控指标进行异常检测,将异常实例监控指标加入故障根因集,并根据故障根因集实现故障根因定位。
进一步的,将所述业务指标数据分别采用训练好的K-means聚类模型和TurkeyTest进行异常检测,若两异常检测结果中有一次检测结果为业务指标数据异常,则表明该条业务指标数据异常。
进一步的,所述K-means聚类模型采用历史业务指标数据中服务调用的平均用时和服务调用的成功率作为特征对K-means模型训练获取;
所述服务调用平均用时通过Turkey Test,得到上下界阈值。
进一步的,所述异常时间窗口的计算方法包括:
根据业务指标数据异常起始时间作为异常时间窗口的起始时间Tstart
根据异常时间窗口的起始时间Tstart和设定的异常持续时间Tduration计算异常时间窗口的终止时间Tend;其中,Tend=Tstart+Tduration;所述异常持续时间Tduration按照历史经验设定;
所述异常时间窗口即为[Tstart,Tend]。
进一步的,根据父子节点关系对异常时间窗口内耗时最长的N条调用链进行调用链重建,N=80。
进一步的,判断故障实例的方法包括:
对于耗时最长的调用链进行节点耗时突变统计:
若某容器耗时突变次数最多,则认定该容器故障;
若同一主机下若干容器均发生多次耗时突变,则认定该主机故障;
若所有容器均存在耗时突变,则认定为远程调用故障,通过遍历所有主机结合业务指标数据判定故障主机。
进一步的,若节点耗时大于等于重建后整条调用链耗时的30%认为发生节点耗时突变。
进一步的,对故障实例的各项实例监控指标进行异常检测的方法包括:
对实例监控指标一阶差分后采用DBScan算法和3-sigma算法进行异常检测,仅当两算法检测该实例监控指标异常时,判定该实例监控指标异常。
进一步的,所述各项实例监控指标指位于[Tstart-5min,Tend+5min]时间窗口内的所有实例监控指标;其中:Tstart为异常时间窗口的起始时间;Tend为异常时间窗口的终止时间。
另一方面,本发明提供一种微服务系统故障根因定位装置,包括处理器和存储介质,所述存储介质用于存储指令;
所述处理器用于加载所述指令以执行前述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明能够通过业务指标数据,监控整个微服务系统的运行状态,及时有效地发现业务异常,并通过分析调用链数据和实例监控指标实现故障根因自动定位,提高微服务系统的运维效率,保证系统安全稳定运行。
附图说明
图1是根据本发明实施例提供的一种微服务系统故障根因定位方法的流程图;
图2是根据本发明实施例提供的一种业务指标数据异常检测的方法流程图;
图3是根据本发明实施例提供的一种故障根因集的获取方法流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
如图1所示,是本发明实施例提供的一种微服务系统故障根因定位方法,包括如下步骤:
Step10:对业务指标数据进行异常检测,如发现异常,则计算异常时间窗口;其中业务指标数据包括:
serviceName 服务名称
startTime 服务开始时间
avg_time 服务调用平均用时
num 总调用次数
success_num 成功调用次数
success_rate 服务调用成功率
Step 20:对异常时间窗口内的调用链数据进行故障定位分析:首先分析数据库相关调用链数据,若发现有失败记录,则直接判定为数据库故障,及故障实例为数据库;若非数据库故障,则选择调用时间最长的N条调用链进行调用链重建,对重建后调用链中各节点的运行时间和状态进行统计分析,并结合微服务系统的拓扑结构判断故障实例;其中N为设定值,在本发明实施例中N可取为80;所述调用链数据包括:
callType 调用类型
serviceName 服务名
startTime 调用开始时间
elapsedTime 耗时
success 调用结果
id 本条记录id
traceId 所属调用链id
pid 父节点id
dsName 数据源名称(该字段仅数据库调用记录)
empt_id 设备标识id(OS/docker)
Step 30:对故障实例的各项实例监控指标逐一进行异常检测,将发生异常的实例监控指标加入故障根因集,根据故障根因集进行故障根因定位;其中,实例监控指标包括:
itemid 指标唯一标识
name 指标名称
timestamp 采集时间
value 采集值
eqmt_id 设备标识id(OS/docker)
如图2所示,对于步骤Step10中的业务指标数据异常检测采用两种异常检测的集成算法,包括K-means聚类异常检测方法和Turkey Test异常检测方法,具体包括如下步骤:
S101将业务指标数据输入训练好的K-means聚类模型进行异常检测,判断业务指标数据是否发生异常;
S102将业务指标数据进行Turkey Test异常检测,判断业务指标数据是否异常;
S103前两步得到的结果进行或运算,即K-means和Turkey Test方法,只要其中一个将新数据判断为异常,则认为该条业务指标数据有异常。
对于步骤S101中的K-means聚类模型通过将历史业务指标数据中的avg_time(即平均用时)和success_rate(即成功率)作为特征输入至K-means模型进行训练得到。其中,K-means模型的训练参数K可以设定为5;
对于步骤S102中Turkey Test异常检测通过对历史业务指标数据中的avg_time做Turkey Test,得到上下界阈值。
通过异常时间窗口的起始时间Tstart和按照历史经验设定的异常持续时间Tduration可以计算获取异常时间窗口的终止时间Tend,Tend=Tstart+Tduration,在[Tstart,Tend]时间段内检测到的业务异常都规约到该异常窗口内,即同一时间段内只有一个故障导致业务异常。
步骤Step 20中对重建后调用链中各节点的运行时间和状态进行统计分析的方法包括如下步骤:
S201检测异常时间窗口[Tstart,Tend]内,数据库相关调用链的调用结果,若有调用失败的记录,则返回该记录的数据源名称,判定此数据库为该时段的故障实例;
S202若不是数据库故障,则可能为某个容器或主机的故障,这类故障会导致整体调用时间延长,而在故障时间段内,调用时间短的调用链中,故障容器出现次数较少或者不出现,调用时间长的调用链中故障容器出现次数较多;
S203对异常时间窗口内耗时最长的N条调用链进行调用链重建,即根据父子节点关系(子节点的pid等于父节点的id)构建整条调用链;
S204当
Figure BDA0003016336470000061
即某一节点耗时超过整条重建调用链耗时的30%时,认为该节点发生耗时突变;其中,elapsedTimenode表示节点耗时;elapsedTimeall表示整条重建后调用链总耗时;
S205对每一条链路计算耗时突变的节点,对耗时最长的N条调用链中的相同突变节点的次数进行统计:
(1)若某个容器耗时突变次数最多,则认定该容器故障,即故障实例为容器;
(2)若同一个主机下的若干个容器都发生多次耗时突变,则认定该主机故障,即故障实例为主机;
(3)若所有容器都有耗时突变,则认定为远程调用故障,需要遍历所有的主机,根据指标是否异常判定故障主机。
对于故障实例为数据库、容器和主机操作系统,本发明实施例中所述实例监控指标主要如下:
Figure BDA0003016336470000071
Figure BDA0003016336470000081
Figure BDA0003016336470000091
Figure BDA0003016336470000101
如图3所示,对于步骤Step 30中对故障实例的各项实例监控指标逐一进行异常检测的方法包括如下步骤:
S301对故障实例(数据库db/主机os/容器docker)在异常时间窗口[Tstart-5min,Tend+5min]内的所有实例监控指标逐个进行异常检测;
S302实例监控指标异常检测算法,对实例监控指标做一阶差分后采用DBScan算法和3-sigma算法,当两种算法均认为该指标异常时,将该实例监控指标加入故障根因集,辅助运维人员进行故障排查。
下面结合具体数据对本发明提供的微服务系统故障根因定位方法进行解释说明,如表1为本实施例的业务指标数据,通过K-means和Turkey Test,判定从1587831240000(2020/4/26 0:14:00)到1587831480000(2020/04/2600:18:00),sql_sp_server服务发生异常,则Tstart=2020/4/26 0:14:00。按照历史经验,Tduration=5min,则Tend=2020/4/26 0:19:00。其中Turkey Test计算得到的sql_sp_server服务的avg_time正常值范围为[0.5039,0.8290]。
serviceName startTime avg_time num succeed_num succeed_rate
sql_sp_server 1587831120000 0.6385 438 438 1
sql_sp_server 1587831180000 0.6427 403 403 1
sql_sp_server 1587831240000 3.281 144 137 0.9514
sql_sp_server 1587831300000 4.7051 101 99 0.9802
sql_sp_server 1587831360000 2.3884 169 168 0.9941
sql_sp_server 1587831420000 2.0139 155 151 0.9742
sql_sp_server 1587831480000 1.0033 426 426 1
sql_sp_server 1587831540000 0.7034 498 498 1
sql_sp_server 1587831600000 0.7289 408 408 1
表1业务指标数据
然后,对2020/4/26 0:14:00—0:19:00的调用链数据进行分析,表2给出了调用链耗时突变节点的统计结果,其中docker01和docker02节点均出现耗时突变,因此判断是两者所在的主机OS发生故障。
Figure BDA0003016336470000111
Figure BDA0003016336470000121
表2调用链耗时突变节点统计
以2020/4/26 0:09:00—0:24:00为时间窗口,遍历docker01和docker02所在主机OS的所有实例监控指标,发现Sent_queue和Received_queue两个实例监控指标存在异常。
TimeStamp Disk_wr_ios Disk_wr_kbs Sent_queue Received_queue
1587830940000 3.0 1.25123 NAN NAN
1587831000000 4.0 1.26369 NAN NAN
1587831060000 5.0 1.27342 NAN NAN
1587831120000 3.0 1.26667 2 0
1587831180000 4.0 1.24934 NAN NAN
1587831240000 5.0 1.28263 NAN NAN
1587831300000 4.0 1.26066 NAN NAN
1587831360000 4.0 1.24923 NAN NAN
1587831420000 4.0 1.28221 12804 NAN
1587831480000 4.0 1.26009 NAN 278
1587831540000 3.0 1.27327 NAN NAN
1587831600000 3.0 1.25386 NAN NAN
1587831660000 4.0 1.24747 3 NAN
1587831720000 3.0 1.26692 NAN 0
1587831780000 3.0 1.28369 NAN NAN
1587831840000 4.0 1.27921 NAN NAN
表3主机OS部分实例监控指标
综上,本发明提供的微服务系统故障根因定位方法能够监控整个系统的运行状态,及时有效地发现业务异常,并通过分析调用链数据和实例监控指标实现自动故障根因定位,提高微服务系统的运维效率,保障系统安全稳定运行。
实施例二:
本发明实施例提供一种微服务系统故障根因定位装置,包括处理器和存储介质,所述存储介质用于存储指令;
所述处理器用于加载所述指令以执实施例一所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种微服务系统故障根因定位方法,其特征在于,包括如下步骤:
对业务指标数据进行异常检测,如发现异常,则计算异常时间窗口;
对异常时间窗口内的调用链数据进行故障定位分析:若数据库相关调用链数据存在失败记录,则判定故障实例为数据库;否则,对异常时间窗口内耗时最长的调用链进行调用链重建,根据重建调用链以及微服务系统的拓扑结构判断故障实例;
对故障实例的各项实例监控指标进行异常检测,将异常实例监控指标加入故障根因集,并根据故障根因集实现故障根因定位。
2.根据权利要求1所述的微服务系统故障根因定位方法,其特征在于,所述异常检测的方法包括如下步骤:
将所述业务指标数据分别采用训练好的K-means聚类模型和Turkey Test进行异常检测,若两异常检测结果中有一次检测结果为业务指标数据异常,则表明该条业务指标数据异常。
3.根据权利要求2所述的微服务系统故障根因定位方法,其特征在于,所述K-means聚类模型采用历史业务指标数据中服务调用的平均用时和服务调用的成功率作为特征对K-means模型训练获取;
所述服务调用平均用时通过Turkey Test,得到上下界阈值。
4.根据权利要求1所述的微服务系统故障根因定位方法,其特征在于,所述异常时间窗口的计算方法包括:
根据业务指标数据异常起始时间作为异常时间窗口的起始时间Tstart
根据异常时间窗口的起始时间Tstart和设定的异常持续时间Tduration计算异常时间窗口的终止时间Tend;其中,Tend=Tstart+Tduration;所述异常持续时间Tduration按照历史经验设定;
所述异常时间窗口即为[Tstart,Tend]。
5.根据权利要求1所述的微服务系统故障根因定位方法,其特征在于,根据父子节点关系对异常时间窗口内耗时最长的N条调用链进行调用链重建,N=80。
6.根据权利要求1所述的微服务系统故障根因定位方法,其特征在于,判断故障实例的方法包括:
对于耗时最长的调用链进行节点耗时突变统计:
若某容器耗时突变次数最多,则认定该容器故障;
若同一主机下若干容器均发生多次耗时突变,则认定该主机故障;
若所有容器均存在耗时突变,则认定为远程调用故障,通过遍历所有主机结合业务指标数据判定故障主机。
7.根据权利要求6所述的微服务系统故障根因定位方法,其特征在于,若节点耗时大于等于重建后整条调用链耗时的30%认为发生节点耗时突变。
8.根据权利要求1所述的微服务系统故障根因定位方法,其特征在于,对故障实例的各项实例监控指标进行异常检测的方法包括:
对实例监控指标一阶差分后采用DBScan算法和3-sigma算法进行异常检测,仅当两算法检测该实例监控指标异常时,判定该实例监控指标异常。
9.根据权利要求1所述的微服务系统故障根因定位方法,其特征在于,所述各项实例监控指标指位于[Tstart-5min,Tend+5min]时间窗口内的所有实例监控指标;其中:Tstart为异常时间窗口的起始时间;Tend为异常时间窗口的终止时间。
10.一种微服务系统故障根因定位装置,其特征在于,包括处理器和存储介质,所述存储介质用于存储指令;
所述处理器用于加载所述指令以执行权利要求1至9任一项所述方法的步骤。
CN202110389487.7A 2021-04-12 2021-04-12 一种微服务系统故障根因定位方法及装置 Active CN113282635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110389487.7A CN113282635B (zh) 2021-04-12 2021-04-12 一种微服务系统故障根因定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110389487.7A CN113282635B (zh) 2021-04-12 2021-04-12 一种微服务系统故障根因定位方法及装置

Publications (2)

Publication Number Publication Date
CN113282635A true CN113282635A (zh) 2021-08-20
CN113282635B CN113282635B (zh) 2023-11-24

Family

ID=77276576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110389487.7A Active CN113282635B (zh) 2021-04-12 2021-04-12 一种微服务系统故障根因定位方法及装置

Country Status (1)

Country Link
CN (1) CN113282635B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114116128A (zh) * 2021-11-23 2022-03-01 北京字节跳动网络技术有限公司 容器实例的故障诊断方法、装置、设备和存储介质
CN115118621A (zh) * 2022-06-27 2022-09-27 浙江大学 一种基于依赖关系图的微服务性能诊断方法及系统
CN115733724A (zh) * 2021-08-27 2023-03-03 中移动信息技术有限公司 业务故障根因定位方法、装置、电子设备及存储介质
CN115941545A (zh) * 2022-10-14 2023-04-07 华能信息技术有限公司 一种基于微服务的日志管理方法及平台
CN116170514A (zh) * 2023-04-21 2023-05-26 华能信息技术有限公司 一种用于中台业务的服务策略调用实现方法及系统
CN116827765A (zh) * 2023-08-31 2023-09-29 广州嘉为科技有限公司 一种根因定位方法、装置、设备及存储介质
CN117149500A (zh) * 2023-10-30 2023-12-01 安徽思高智能科技有限公司 基于指标数据和日志数据的异常根因获得方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070162488A1 (en) * 2006-01-09 2007-07-12 Pu Huang Method, apparatus and system for business performance monitoring and analysis using metric network
CN111190756A (zh) * 2019-11-18 2020-05-22 中山大学 一种基于调用链数据的根因定位算法
CN112491622A (zh) * 2020-11-30 2021-03-12 苏宁金融科技(南京)有限公司 定位业务系统故障根因的方法和系统
CN112532455A (zh) * 2020-12-01 2021-03-19 新华三人工智能科技有限公司 一种异常根因定位方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070162488A1 (en) * 2006-01-09 2007-07-12 Pu Huang Method, apparatus and system for business performance monitoring and analysis using metric network
CN111190756A (zh) * 2019-11-18 2020-05-22 中山大学 一种基于调用链数据的根因定位算法
CN112491622A (zh) * 2020-11-30 2021-03-12 苏宁金融科技(南京)有限公司 定位业务系统故障根因的方法和系统
CN112532455A (zh) * 2020-12-01 2021-03-19 新华三人工智能科技有限公司 一种异常根因定位方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115733724A (zh) * 2021-08-27 2023-03-03 中移动信息技术有限公司 业务故障根因定位方法、装置、电子设备及存储介质
CN114116128A (zh) * 2021-11-23 2022-03-01 北京字节跳动网络技术有限公司 容器实例的故障诊断方法、装置、设备和存储介质
CN114116128B (zh) * 2021-11-23 2023-08-08 抖音视界有限公司 容器实例的故障诊断方法、装置、设备和存储介质
CN115118621A (zh) * 2022-06-27 2022-09-27 浙江大学 一种基于依赖关系图的微服务性能诊断方法及系统
CN115941545A (zh) * 2022-10-14 2023-04-07 华能信息技术有限公司 一种基于微服务的日志管理方法及平台
CN115941545B (zh) * 2022-10-14 2023-06-23 华能信息技术有限公司 一种基于微服务的日志管理方法及平台
CN116170514A (zh) * 2023-04-21 2023-05-26 华能信息技术有限公司 一种用于中台业务的服务策略调用实现方法及系统
CN116170514B (zh) * 2023-04-21 2023-07-18 华能信息技术有限公司 一种用于中台业务的服务策略调用实现方法及系统
CN116827765A (zh) * 2023-08-31 2023-09-29 广州嘉为科技有限公司 一种根因定位方法、装置、设备及存储介质
CN116827765B (zh) * 2023-08-31 2023-11-21 广州嘉为科技有限公司 一种根因定位方法、装置、设备及存储介质
CN117149500A (zh) * 2023-10-30 2023-12-01 安徽思高智能科技有限公司 基于指标数据和日志数据的异常根因获得方法及系统
CN117149500B (zh) * 2023-10-30 2024-01-26 安徽思高智能科技有限公司 基于指标数据和日志数据的异常根因获得方法及系统

Also Published As

Publication number Publication date
CN113282635B (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN113282635B (zh) 一种微服务系统故障根因定位方法及装置
WO2019169743A1 (zh) 一种服务器故障的检测方法及系统
CN111176879A (zh) 设备的故障修复方法及装置
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN104639368A (zh) 通信网络设备的故障处理方法及装置
TWI684139B (zh) 基於自動學習的基地台異常之預測的系統與方法
CN113542039A (zh) 一种通过ai算法定位5g网络虚拟化跨层问题的方法
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN109034580B (zh) 一种基于大数据分析的信息系统整体健康度评估方法
CN111913824B (zh) 确定数据链路故障原因的方法及相关设备
CN112381258B (zh) 表计运行生命周期预测方法及装置
CN108769170A (zh) 一种集群网络故障自检系统及方法
CN108809729A (zh) 一种分布式系统中ctdb服务的故障处理方法及装置
CN113395182B (zh) 具有故障预测的智能网络设备管理系统及方法
CN110784352A (zh) 一种基于Oracle Goldengate的数据同步监控告警方法及装置
CN114172921A (zh) 一种调度录音系统的日志审计方法及装置
Li et al. Microservice anomaly detection based on tracing data using semi-supervised learning
CN115794479A (zh) 日志数据处理方法、装置、电子设备及存储介质
TWI292091B (en) Computer performance evaluator and application method thereof
CN105550094B (zh) 一种高可用系统状态自动监控方法
CN113656323A (zh) 一种自动化测试、定位及修复故障的方法及存储介质
Zhu et al. CPU and network traffic anomaly detection method for cloud data center
CN109558258B (zh) 一种分布式系统根源故障定位的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant