CN113282635A - 一种微服务系统故障根因定位方法及装置 - Google Patents
一种微服务系统故障根因定位方法及装置 Download PDFInfo
- Publication number
- CN113282635A CN113282635A CN202110389487.7A CN202110389487A CN113282635A CN 113282635 A CN113282635 A CN 113282635A CN 202110389487 A CN202110389487 A CN 202110389487A CN 113282635 A CN113282635 A CN 113282635A
- Authority
- CN
- China
- Prior art keywords
- fault
- time
- abnormal
- root cause
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000002159 abnormal effect Effects 0.000 claims abstract description 50
- 238000012544 monitoring process Methods 0.000 claims abstract description 36
- 238000001514 detection method Methods 0.000 claims abstract description 27
- 238000004458 analytical method Methods 0.000 claims abstract description 4
- 230000035772 mutation Effects 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 9
- 238000003064 k means clustering Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 3
- 230000005856 abnormality Effects 0.000 claims description 2
- 238000004138 cluster model Methods 0.000 claims 1
- 238000012423 maintenance Methods 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000000246 remedial effect Effects 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/06—Electricity, gas or water supply
Abstract
本发明公开了一种微服务系统故障根因定位方法及装置,所述方法包括如下步骤:对业务指标数据进行异常检测,如发现异常,则计算异常时间窗口;对异常时间窗口内的调用链数据进行故障定位分析:若数据库相关调用链数据存在失败记录,则判定故障实例为数据库;否则,对异常时间窗口内耗时最长的调用链进行调用链重建,根据重建调用链以及微服务系统的拓扑结构判断故障实例;对故障实例的各项实例监控指标进行异常检测,将异常实例监控指标加入故障根因集,并根据故障根因集实现故障根因定位。本发明能够实现故障根因自动定位,提高运维效率。
Description
技术领域
本发明涉及一种微服务系统故障根因定位方法及装置,属于电力系统技术领域。
背景技术
为满足新一代电网调度控制系统“物理分布、逻辑统一”的核心特征,调控支撑平台需满足“服务灵活部署”和“开放接入”的需求,因此引入了先进成熟的微服务技术,实现业务灵活分布和服务功能解耦和重用,降低应用服务的实现复杂度。但是微服务架构下,各服务之间存在复杂的依赖关系,当某一个或几个服务发生故障时,可能会引起级联故障。因此,需采用智能运维(AIOps:Artificial Intelligence for IT Operations)技术,及时发现服务异常并定位故障根因,提高运维效率,保障电网调度控制系统安全稳定运行。
目前在线运行的电网调度控制系统,仍主要采用传统的手工运维方式,一般由运维人员通过手工执行操作保证系统正常运行,当系统出现故障时由运维人员根据经验采取相应的补救措施。近年来,自动化专业针对不同监控对象也建设了独立的监控系统,例如网管系统、网络安全管理平台等。但这些监控系统主要侧重于业务、平台等指标数据的采集与监控,未能深入挖掘运维数据的价值,形成运维数据洞察,实现智能运维。
被动的手工运维方式存在工作效率低、无法快速定位故障等不足。同时,各监控系统所采集的数据长期处于分散堆积的状态,形成了一个个运维数据孤岛,数据价值得不到有效挖掘,未能采用大数据、机器学习等技术,实现异常的自动检测与故障根因的自动定位。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种微服务系统故障根因定位方法及装置,能够实现故障根因自动定位,提高运维效率。
为达到上述目的,本发明是采用下述技术方案实现的:
一方面,本发明提供一种微服务系统故障根因定位方法,包括如下步骤:
对业务指标数据进行异常检测,如发现异常,则计算异常时间窗口;
对异常时间窗口内的调用链数据进行故障定位分析:若数据库相关调用链数据存在失败记录,则判定故障实例为数据库;否则,对异常时间窗口内耗时最长的调用链进行调用链重建,根据重建调用链以及微服务系统的拓扑结构判断故障实例;
对故障实例的各项实例监控指标进行异常检测,将异常实例监控指标加入故障根因集,并根据故障根因集实现故障根因定位。
进一步的,将所述业务指标数据分别采用训练好的K-means聚类模型和TurkeyTest进行异常检测,若两异常检测结果中有一次检测结果为业务指标数据异常,则表明该条业务指标数据异常。
进一步的,所述K-means聚类模型采用历史业务指标数据中服务调用的平均用时和服务调用的成功率作为特征对K-means模型训练获取;
所述服务调用平均用时通过Turkey Test,得到上下界阈值。
进一步的,所述异常时间窗口的计算方法包括:
根据业务指标数据异常起始时间作为异常时间窗口的起始时间Tstart;
根据异常时间窗口的起始时间Tstart和设定的异常持续时间Tduration计算异常时间窗口的终止时间Tend;其中,Tend=Tstart+Tduration;所述异常持续时间Tduration按照历史经验设定;
所述异常时间窗口即为[Tstart,Tend]。
进一步的,根据父子节点关系对异常时间窗口内耗时最长的N条调用链进行调用链重建,N=80。
进一步的,判断故障实例的方法包括:
对于耗时最长的调用链进行节点耗时突变统计:
若某容器耗时突变次数最多,则认定该容器故障;
若同一主机下若干容器均发生多次耗时突变,则认定该主机故障;
若所有容器均存在耗时突变,则认定为远程调用故障,通过遍历所有主机结合业务指标数据判定故障主机。
进一步的,若节点耗时大于等于重建后整条调用链耗时的30%认为发生节点耗时突变。
进一步的,对故障实例的各项实例监控指标进行异常检测的方法包括:
对实例监控指标一阶差分后采用DBScan算法和3-sigma算法进行异常检测,仅当两算法检测该实例监控指标异常时,判定该实例监控指标异常。
进一步的,所述各项实例监控指标指位于[Tstart-5min,Tend+5min]时间窗口内的所有实例监控指标;其中:Tstart为异常时间窗口的起始时间;Tend为异常时间窗口的终止时间。
另一方面,本发明提供一种微服务系统故障根因定位装置,包括处理器和存储介质,所述存储介质用于存储指令;
所述处理器用于加载所述指令以执行前述任一项所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
本发明能够通过业务指标数据,监控整个微服务系统的运行状态,及时有效地发现业务异常,并通过分析调用链数据和实例监控指标实现故障根因自动定位,提高微服务系统的运维效率,保证系统安全稳定运行。
附图说明
图1是根据本发明实施例提供的一种微服务系统故障根因定位方法的流程图;
图2是根据本发明实施例提供的一种业务指标数据异常检测的方法流程图;
图3是根据本发明实施例提供的一种故障根因集的获取方法流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
如图1所示,是本发明实施例提供的一种微服务系统故障根因定位方法,包括如下步骤:
Step10:对业务指标数据进行异常检测,如发现异常,则计算异常时间窗口;其中业务指标数据包括:
serviceName | 服务名称 |
startTime | 服务开始时间 |
avg_time | 服务调用平均用时 |
num | 总调用次数 |
success_num | 成功调用次数 |
success_rate | 服务调用成功率 |
Step 20:对异常时间窗口内的调用链数据进行故障定位分析:首先分析数据库相关调用链数据,若发现有失败记录,则直接判定为数据库故障,及故障实例为数据库;若非数据库故障,则选择调用时间最长的N条调用链进行调用链重建,对重建后调用链中各节点的运行时间和状态进行统计分析,并结合微服务系统的拓扑结构判断故障实例;其中N为设定值,在本发明实施例中N可取为80;所述调用链数据包括:
callType | 调用类型 |
serviceName | 服务名 |
startTime | 调用开始时间 |
elapsedTime | 耗时 |
success | 调用结果 |
id | 本条记录id |
traceId | 所属调用链id |
pid | 父节点id |
dsName | 数据源名称(该字段仅数据库调用记录) |
empt_id | 设备标识id(OS/docker) |
;
Step 30:对故障实例的各项实例监控指标逐一进行异常检测,将发生异常的实例监控指标加入故障根因集,根据故障根因集进行故障根因定位;其中,实例监控指标包括:
itemid | 指标唯一标识 |
name | 指标名称 |
timestamp | 采集时间 |
value | 采集值 |
eqmt_id | 设备标识id(OS/docker) |
。
如图2所示,对于步骤Step10中的业务指标数据异常检测采用两种异常检测的集成算法,包括K-means聚类异常检测方法和Turkey Test异常检测方法,具体包括如下步骤:
S101将业务指标数据输入训练好的K-means聚类模型进行异常检测,判断业务指标数据是否发生异常;
S102将业务指标数据进行Turkey Test异常检测,判断业务指标数据是否异常;
S103前两步得到的结果进行或运算,即K-means和Turkey Test方法,只要其中一个将新数据判断为异常,则认为该条业务指标数据有异常。
对于步骤S101中的K-means聚类模型通过将历史业务指标数据中的avg_time(即平均用时)和success_rate(即成功率)作为特征输入至K-means模型进行训练得到。其中,K-means模型的训练参数K可以设定为5;
对于步骤S102中Turkey Test异常检测通过对历史业务指标数据中的avg_time做Turkey Test,得到上下界阈值。
通过异常时间窗口的起始时间Tstart和按照历史经验设定的异常持续时间Tduration可以计算获取异常时间窗口的终止时间Tend,Tend=Tstart+Tduration,在[Tstart,Tend]时间段内检测到的业务异常都规约到该异常窗口内,即同一时间段内只有一个故障导致业务异常。
步骤Step 20中对重建后调用链中各节点的运行时间和状态进行统计分析的方法包括如下步骤:
S201检测异常时间窗口[Tstart,Tend]内,数据库相关调用链的调用结果,若有调用失败的记录,则返回该记录的数据源名称,判定此数据库为该时段的故障实例;
S202若不是数据库故障,则可能为某个容器或主机的故障,这类故障会导致整体调用时间延长,而在故障时间段内,调用时间短的调用链中,故障容器出现次数较少或者不出现,调用时间长的调用链中故障容器出现次数较多;
S203对异常时间窗口内耗时最长的N条调用链进行调用链重建,即根据父子节点关系(子节点的pid等于父节点的id)构建整条调用链;
S205对每一条链路计算耗时突变的节点,对耗时最长的N条调用链中的相同突变节点的次数进行统计:
(1)若某个容器耗时突变次数最多,则认定该容器故障,即故障实例为容器;
(2)若同一个主机下的若干个容器都发生多次耗时突变,则认定该主机故障,即故障实例为主机;
(3)若所有容器都有耗时突变,则认定为远程调用故障,需要遍历所有的主机,根据指标是否异常判定故障主机。
对于故障实例为数据库、容器和主机操作系统,本发明实施例中所述实例监控指标主要如下:
如图3所示,对于步骤Step 30中对故障实例的各项实例监控指标逐一进行异常检测的方法包括如下步骤:
S301对故障实例(数据库db/主机os/容器docker)在异常时间窗口[Tstart-5min,Tend+5min]内的所有实例监控指标逐个进行异常检测;
S302实例监控指标异常检测算法,对实例监控指标做一阶差分后采用DBScan算法和3-sigma算法,当两种算法均认为该指标异常时,将该实例监控指标加入故障根因集,辅助运维人员进行故障排查。
下面结合具体数据对本发明提供的微服务系统故障根因定位方法进行解释说明,如表1为本实施例的业务指标数据,通过K-means和Turkey Test,判定从1587831240000(2020/4/26 0:14:00)到1587831480000(2020/04/2600:18:00),sql_sp_server服务发生异常,则Tstart=2020/4/26 0:14:00。按照历史经验,Tduration=5min,则Tend=2020/4/26 0:19:00。其中Turkey Test计算得到的sql_sp_server服务的avg_time正常值范围为[0.5039,0.8290]。
serviceName | startTime | avg_time | num | succeed_num | succeed_rate |
… | … | … | … | … | … |
sql_sp_server | 1587831120000 | 0.6385 | 438 | 438 | 1 |
sql_sp_server | 1587831180000 | 0.6427 | 403 | 403 | 1 |
sql_sp_server | 1587831240000 | 3.281 | 144 | 137 | 0.9514 |
sql_sp_server | 1587831300000 | 4.7051 | 101 | 99 | 0.9802 |
sql_sp_server | 1587831360000 | 2.3884 | 169 | 168 | 0.9941 |
sql_sp_server | 1587831420000 | 2.0139 | 155 | 151 | 0.9742 |
sql_sp_server | 1587831480000 | 1.0033 | 426 | 426 | 1 |
sql_sp_server | 1587831540000 | 0.7034 | 498 | 498 | 1 |
sql_sp_server | 1587831600000 | 0.7289 | 408 | 408 | 1 |
… | … | … | … | … | … |
表1业务指标数据
然后,对2020/4/26 0:14:00—0:19:00的调用链数据进行分析,表2给出了调用链耗时突变节点的统计结果,其中docker01和docker02节点均出现耗时突变,因此判断是两者所在的主机OS发生故障。
表2调用链耗时突变节点统计
以2020/4/26 0:09:00—0:24:00为时间窗口,遍历docker01和docker02所在主机OS的所有实例监控指标,发现Sent_queue和Received_queue两个实例监控指标存在异常。
TimeStamp | Disk_wr_ios | Disk_wr_kbs | Sent_queue | Received_queue | … |
1587830940000 | 3.0 | 1.25123 | NAN | NAN | … |
1587831000000 | 4.0 | 1.26369 | NAN | NAN | … |
1587831060000 | 5.0 | 1.27342 | NAN | NAN | … |
1587831120000 | 3.0 | 1.26667 | 2 | 0 | … |
1587831180000 | 4.0 | 1.24934 | NAN | NAN | … |
1587831240000 | 5.0 | 1.28263 | NAN | NAN | … |
1587831300000 | 4.0 | 1.26066 | NAN | NAN | … |
1587831360000 | 4.0 | 1.24923 | NAN | NAN | … |
1587831420000 | 4.0 | 1.28221 | 12804 | NAN | … |
1587831480000 | 4.0 | 1.26009 | NAN | 278 | … |
1587831540000 | 3.0 | 1.27327 | NAN | NAN | … |
1587831600000 | 3.0 | 1.25386 | NAN | NAN | … |
1587831660000 | 4.0 | 1.24747 | 3 | NAN | … |
1587831720000 | 3.0 | 1.26692 | NAN | 0 | … |
1587831780000 | 3.0 | 1.28369 | NAN | NAN | … |
1587831840000 | 4.0 | 1.27921 | NAN | NAN | … |
表3主机OS部分实例监控指标
综上,本发明提供的微服务系统故障根因定位方法能够监控整个系统的运行状态,及时有效地发现业务异常,并通过分析调用链数据和实例监控指标实现自动故障根因定位,提高微服务系统的运维效率,保障系统安全稳定运行。
实施例二:
本发明实施例提供一种微服务系统故障根因定位装置,包括处理器和存储介质,所述存储介质用于存储指令;
所述处理器用于加载所述指令以执实施例一所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种微服务系统故障根因定位方法,其特征在于,包括如下步骤:
对业务指标数据进行异常检测,如发现异常,则计算异常时间窗口;
对异常时间窗口内的调用链数据进行故障定位分析:若数据库相关调用链数据存在失败记录,则判定故障实例为数据库;否则,对异常时间窗口内耗时最长的调用链进行调用链重建,根据重建调用链以及微服务系统的拓扑结构判断故障实例;
对故障实例的各项实例监控指标进行异常检测,将异常实例监控指标加入故障根因集,并根据故障根因集实现故障根因定位。
2.根据权利要求1所述的微服务系统故障根因定位方法,其特征在于,所述异常检测的方法包括如下步骤:
将所述业务指标数据分别采用训练好的K-means聚类模型和Turkey Test进行异常检测,若两异常检测结果中有一次检测结果为业务指标数据异常,则表明该条业务指标数据异常。
3.根据权利要求2所述的微服务系统故障根因定位方法,其特征在于,所述K-means聚类模型采用历史业务指标数据中服务调用的平均用时和服务调用的成功率作为特征对K-means模型训练获取;
所述服务调用平均用时通过Turkey Test,得到上下界阈值。
4.根据权利要求1所述的微服务系统故障根因定位方法,其特征在于,所述异常时间窗口的计算方法包括:
根据业务指标数据异常起始时间作为异常时间窗口的起始时间Tstart;
根据异常时间窗口的起始时间Tstart和设定的异常持续时间Tduration计算异常时间窗口的终止时间Tend;其中,Tend=Tstart+Tduration;所述异常持续时间Tduration按照历史经验设定;
所述异常时间窗口即为[Tstart,Tend]。
5.根据权利要求1所述的微服务系统故障根因定位方法,其特征在于,根据父子节点关系对异常时间窗口内耗时最长的N条调用链进行调用链重建,N=80。
6.根据权利要求1所述的微服务系统故障根因定位方法,其特征在于,判断故障实例的方法包括:
对于耗时最长的调用链进行节点耗时突变统计:
若某容器耗时突变次数最多,则认定该容器故障;
若同一主机下若干容器均发生多次耗时突变,则认定该主机故障;
若所有容器均存在耗时突变,则认定为远程调用故障,通过遍历所有主机结合业务指标数据判定故障主机。
7.根据权利要求6所述的微服务系统故障根因定位方法,其特征在于,若节点耗时大于等于重建后整条调用链耗时的30%认为发生节点耗时突变。
8.根据权利要求1所述的微服务系统故障根因定位方法,其特征在于,对故障实例的各项实例监控指标进行异常检测的方法包括:
对实例监控指标一阶差分后采用DBScan算法和3-sigma算法进行异常检测,仅当两算法检测该实例监控指标异常时,判定该实例监控指标异常。
9.根据权利要求1所述的微服务系统故障根因定位方法,其特征在于,所述各项实例监控指标指位于[Tstart-5min,Tend+5min]时间窗口内的所有实例监控指标;其中:Tstart为异常时间窗口的起始时间;Tend为异常时间窗口的终止时间。
10.一种微服务系统故障根因定位装置,其特征在于,包括处理器和存储介质,所述存储介质用于存储指令;
所述处理器用于加载所述指令以执行权利要求1至9任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110389487.7A CN113282635B (zh) | 2021-04-12 | 2021-04-12 | 一种微服务系统故障根因定位方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110389487.7A CN113282635B (zh) | 2021-04-12 | 2021-04-12 | 一种微服务系统故障根因定位方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113282635A true CN113282635A (zh) | 2021-08-20 |
CN113282635B CN113282635B (zh) | 2023-11-24 |
Family
ID=77276576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110389487.7A Active CN113282635B (zh) | 2021-04-12 | 2021-04-12 | 一种微服务系统故障根因定位方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113282635B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114116128A (zh) * | 2021-11-23 | 2022-03-01 | 北京字节跳动网络技术有限公司 | 容器实例的故障诊断方法、装置、设备和存储介质 |
CN115118621A (zh) * | 2022-06-27 | 2022-09-27 | 浙江大学 | 一种基于依赖关系图的微服务性能诊断方法及系统 |
CN115733724A (zh) * | 2021-08-27 | 2023-03-03 | 中移动信息技术有限公司 | 业务故障根因定位方法、装置、电子设备及存储介质 |
CN115941545A (zh) * | 2022-10-14 | 2023-04-07 | 华能信息技术有限公司 | 一种基于微服务的日志管理方法及平台 |
CN116170514A (zh) * | 2023-04-21 | 2023-05-26 | 华能信息技术有限公司 | 一种用于中台业务的服务策略调用实现方法及系统 |
CN116827765A (zh) * | 2023-08-31 | 2023-09-29 | 广州嘉为科技有限公司 | 一种根因定位方法、装置、设备及存储介质 |
CN117149500A (zh) * | 2023-10-30 | 2023-12-01 | 安徽思高智能科技有限公司 | 基于指标数据和日志数据的异常根因获得方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070162488A1 (en) * | 2006-01-09 | 2007-07-12 | Pu Huang | Method, apparatus and system for business performance monitoring and analysis using metric network |
CN111190756A (zh) * | 2019-11-18 | 2020-05-22 | 中山大学 | 一种基于调用链数据的根因定位算法 |
CN112491622A (zh) * | 2020-11-30 | 2021-03-12 | 苏宁金融科技(南京)有限公司 | 定位业务系统故障根因的方法和系统 |
CN112532455A (zh) * | 2020-12-01 | 2021-03-19 | 新华三人工智能科技有限公司 | 一种异常根因定位方法及装置 |
-
2021
- 2021-04-12 CN CN202110389487.7A patent/CN113282635B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070162488A1 (en) * | 2006-01-09 | 2007-07-12 | Pu Huang | Method, apparatus and system for business performance monitoring and analysis using metric network |
CN111190756A (zh) * | 2019-11-18 | 2020-05-22 | 中山大学 | 一种基于调用链数据的根因定位算法 |
CN112491622A (zh) * | 2020-11-30 | 2021-03-12 | 苏宁金融科技(南京)有限公司 | 定位业务系统故障根因的方法和系统 |
CN112532455A (zh) * | 2020-12-01 | 2021-03-19 | 新华三人工智能科技有限公司 | 一种异常根因定位方法及装置 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115733724A (zh) * | 2021-08-27 | 2023-03-03 | 中移动信息技术有限公司 | 业务故障根因定位方法、装置、电子设备及存储介质 |
CN114116128A (zh) * | 2021-11-23 | 2022-03-01 | 北京字节跳动网络技术有限公司 | 容器实例的故障诊断方法、装置、设备和存储介质 |
CN114116128B (zh) * | 2021-11-23 | 2023-08-08 | 抖音视界有限公司 | 容器实例的故障诊断方法、装置、设备和存储介质 |
CN115118621A (zh) * | 2022-06-27 | 2022-09-27 | 浙江大学 | 一种基于依赖关系图的微服务性能诊断方法及系统 |
CN115941545A (zh) * | 2022-10-14 | 2023-04-07 | 华能信息技术有限公司 | 一种基于微服务的日志管理方法及平台 |
CN115941545B (zh) * | 2022-10-14 | 2023-06-23 | 华能信息技术有限公司 | 一种基于微服务的日志管理方法及平台 |
CN116170514A (zh) * | 2023-04-21 | 2023-05-26 | 华能信息技术有限公司 | 一种用于中台业务的服务策略调用实现方法及系统 |
CN116170514B (zh) * | 2023-04-21 | 2023-07-18 | 华能信息技术有限公司 | 一种用于中台业务的服务策略调用实现方法及系统 |
CN116827765A (zh) * | 2023-08-31 | 2023-09-29 | 广州嘉为科技有限公司 | 一种根因定位方法、装置、设备及存储介质 |
CN116827765B (zh) * | 2023-08-31 | 2023-11-21 | 广州嘉为科技有限公司 | 一种根因定位方法、装置、设备及存储介质 |
CN117149500A (zh) * | 2023-10-30 | 2023-12-01 | 安徽思高智能科技有限公司 | 基于指标数据和日志数据的异常根因获得方法及系统 |
CN117149500B (zh) * | 2023-10-30 | 2024-01-26 | 安徽思高智能科技有限公司 | 基于指标数据和日志数据的异常根因获得方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113282635B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113282635B (zh) | 一种微服务系统故障根因定位方法及装置 | |
WO2019169743A1 (zh) | 一种服务器故障的检测方法及系统 | |
CN111176879A (zh) | 设备的故障修复方法及装置 | |
CN106789306B (zh) | 通信设备软件故障检测收集恢复方法和系统 | |
CN104639368A (zh) | 通信网络设备的故障处理方法及装置 | |
TWI684139B (zh) | 基於自動學習的基地台異常之預測的系統與方法 | |
CN113542039A (zh) | 一种通过ai算法定位5g网络虚拟化跨层问题的方法 | |
CN112769605B (zh) | 一种异构多云的运维管理方法及混合云平台 | |
CN115809183A (zh) | 基于知识图谱的信创终端故障发现及处置的方法 | |
CN104574219A (zh) | 电网业务信息系统运行工况的监测预警方法及系统 | |
CN109034580B (zh) | 一种基于大数据分析的信息系统整体健康度评估方法 | |
CN111913824B (zh) | 确定数据链路故障原因的方法及相关设备 | |
CN112381258B (zh) | 表计运行生命周期预测方法及装置 | |
CN108769170A (zh) | 一种集群网络故障自检系统及方法 | |
CN108809729A (zh) | 一种分布式系统中ctdb服务的故障处理方法及装置 | |
CN113395182B (zh) | 具有故障预测的智能网络设备管理系统及方法 | |
CN110784352A (zh) | 一种基于Oracle Goldengate的数据同步监控告警方法及装置 | |
CN114172921A (zh) | 一种调度录音系统的日志审计方法及装置 | |
Li et al. | Microservice anomaly detection based on tracing data using semi-supervised learning | |
CN115794479A (zh) | 日志数据处理方法、装置、电子设备及存储介质 | |
TWI292091B (en) | Computer performance evaluator and application method thereof | |
CN105550094B (zh) | 一种高可用系统状态自动监控方法 | |
CN113656323A (zh) | 一种自动化测试、定位及修复故障的方法及存储介质 | |
Zhu et al. | CPU and network traffic anomaly detection method for cloud data center | |
CN109558258B (zh) | 一种分布式系统根源故障定位的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |