CN110943858B - 一种故障定位方法及装置 - Google Patents

一种故障定位方法及装置 Download PDF

Info

Publication number
CN110943858B
CN110943858B CN201911149644.6A CN201911149644A CN110943858B CN 110943858 B CN110943858 B CN 110943858B CN 201911149644 A CN201911149644 A CN 201911149644A CN 110943858 B CN110943858 B CN 110943858B
Authority
CN
China
Prior art keywords
array
fault
micro
calling
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911149644.6A
Other languages
English (en)
Other versions
CN110943858A (zh
Inventor
程筱彪
徐雷
杨双仕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201911149644.6A priority Critical patent/CN110943858B/zh
Publication of CN110943858A publication Critical patent/CN110943858A/zh
Application granted granted Critical
Publication of CN110943858B publication Critical patent/CN110943858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种故障定位方法及装置,获取全部微服务模块的系统日志,根据系统日志生成与待处理任务对应的故障状态的第一数组,故障状态的第一数组包括在故障发生前第一时长内按照调用顺序排列的微服务模块,根据正常状态的第一数组和故障状态的第一数组确定发生故障的微服务模块,正常状态的第一数组包括待处理任务正常运行的第二时长内按照调用顺序排列的微服务模块;本发明根据微服务模块的调用顺序进行故障定位,无需遍历全部微服务模块,可以快速有效定位出故障模块,减少故障定位时间,降低资源占用。

Description

一种故障定位方法及装置
技术领域
本发明涉及通信技术领域,具体涉及一种故障定位方法及装置。
背景技术
微服务架构(Microservices)是一项在云中部署应用和服务的技术,它将一个大型复杂的软件应用分解成多个服务,每个服务都作为一个小而独立的系统进行实现和运行,并通过定义良好的网络接口提供对其内部逻辑和数据的访问。
云计算时代,越来越多的企业开始采用微服务架构进行软件开发或者应用改造,然而,微服务系统具有较高的复杂性和动态性,当系统出现故障时,目前没有能够有效支持对故障根源的定位方法。现阶段对微服务架构的故障定位大多照搬传统软件架构的安全防护模式,将整个微服务系统看做一个整体进行监测,如发生故障需对所有容器进行全量遍历,寻找出现故障的容器,需要大量运算且耗时很长。
发明内容
本发明针对现有技术中存在的上述不足,提供一种故障定位方法及装置,用以至少部分解决微服务故障定位速度慢、资源占用大的问题。
本发明为解决上述技术问题,采用如下技术方案:
本发明提一种故障定位方法,包括:
获取全部微服务模块的系统日志;
根据所述系统日志生成与待处理任务对应的故障状态的第一数组,所述故障状态的第一数组包括在故障发生前第一时长内按照调用顺序排列的微服务模块,所述待处理任务为发生故障的任务;
根据正常状态的第一数组和所述故障状态的第一数组确定发生故障的微服务模块;其中,所述正常状态的第一数组包括所述待处理任务正常运行的第二时长内按照调用顺序排列的微服务模块。
在一些实施例中,所述根据正常状态的第一数组和所述故障状态的第一数组确定发生故障的微服务模块,包括:
相对于所述正常状态的第一数组的各微服务模块及所述各微服务模块的排列顺序,在所述故障状态的第一数组中,确定增加的微服务模块、减少的微服务模块和顺序错误的微服务模块。
在一些实施例中,所述故障定位方法,还包括:
若根据正常状态的第一数组和所述故障状态的第一数组无法确定发生故障的微服务模块,则根据所述故障状态的第一数组和所述系统日志,生成故障状态的第二数组;其中,所述故障状态的第二数组包括按照所述故障状态的第一数组的微服务器模块排列顺序排列的各所述微服务模块的调用时长;
根据正常状态的第二数组和所述故障状态的第二数组确定发生故障的微服务模块,其中,所述正常状态的第二数组包括按照所述正常状态的第一数组的微服务器模块排列顺序排列的各所述微服务模块的调用时长。
在一些实施例中,所述根据正常状态的第二数组和所述故障状态的第二数组确定发生故障的微服务模块,包括:
相对于所述正常状态的第二数组的各微服务模块及所述各微服务模块的排列顺序,在所述故障状态的第二数组中,确定增加的微服务模块、减少的微服务模块和顺序错误的微服务模块。
在一些实施例中,所述根据所述故障状态的第一数组和所述系统日志,生成故障状态的第二数组,包括:
根据所述系统日志,确定所述故障状态的第一数组内各微服务模块的开始调用时间和结束调用时间;根据所述开始调用时间和结束调用时间,计算所述故障状态的第一数组内各微服务模块的调用时长;按照所述故障状态的第一数组的微服务器模块排列顺序,排列所述调用时长,以生成故障状态的第二数组;和/或
所述正常状态的第二数组通过以下步骤获取:
根据所述系统日志,确定所述正常状态的第一数组内各微服务模块的开始调用时间和结束调用时间;根据所述开始调用时间和结束调用时间,计算所述正常状态的第一数组内各微服务模块的调用时长;按照所述正常状态的第一数组的微服务器模块排列顺序,排列所述调用时长,以生成正常状态的第二数组。
在一些实施例中,当所述待处理任务为并行任务时,所述正常状态的第一数组和所述故障状态的第一数组分别包括多行微服务模块,其中,每行微服务模块对应所述待处理任务的一个模块调用路径,包括非并行阶段和并行阶段,不同行的非并行阶段的微服务模块和所述微服务模块的顺序相同。
在一些实施例中,所述根据所述系统日志生成与待处理任务对应的故障状态的第一数组,包括:
从所述系统日志中筛选与待处理任务相关的微服务模块;获取筛选出的微服务模块的系统日志,根据其中记录的故障发生前第一时长内的调用时间,确定各所述筛选出的微服务模块的调用顺序;根据所述调用顺序生成与待处理任务对应的故障状态的第一数组;和/或,
所述正常状态的第一数组通过以下步骤获取:
从所述系统日志中筛选与待处理任务相关的微服务模块;获取筛选出的微服务模块的系统日志,根据其中记录的所述待处理任务正常运行的第二时长内的调用时间,确定各所述筛选出的微服务模块的调用顺序;根据所述调用顺序生成与待处理任务对应的正常状态的第一数组。
本发明还提供一种故障定位装置,包括:获取模块、第一生成模块和故障定位模块;
所述获取模块用于,获取全部微服务模块的系统日志;
所述第一生成模块用于,根据所述系统日志生成与待处理任务对应的故障状态的第一数组,所述故障状态的第一数组包括在故障发生前第一时长内按照调用顺序排列的微服务模块,所述待处理任务为发生故障的任务;
所述故障定位模块用于,根据正常状态的第一数组和所述故障状态的第一数组确定发生故障的微服务模块;其中,所述正常状态的第一数组包括所述待处理任务正常运行的第二时长内按照调用顺序排列的微服务模块。
在一些实施例中,所述故障定位装置还包括第二生成模块,所述第二生成模块用于,当所述故障定位模块根据正常状态的第一数组和所述故障状态的第一数组无法确定发生故障的微服务模块时,根据所述故障状态的第一数组和所述系统日志,生成故障状态的第二数组;其中,所述故障状态的第二数组包括按照所述故障状态的第一数组的微服务器模块排列顺序排列的各所述微服务模块的调用时长;
所述故障定位模块还用于,根据正常状态的第二数组和所述故障状态的第二数组确定发生故障的微服务模块,其中,所述正常状态的第二数组包括按照所述正常状态的第一数组的微服务器模块排列顺序排列的各所述微服务模块的调用时长。
在一些实施例中,所述第二生成模块用于,根据所述系统日志,确定所述故障状态的第一数组内各微服务模块的开始调用时间和结束调用时间;根据所述开始调用时间和结束调用时间,计算所述故障状态的第一数组内各微服务模块的调用时长;按照所述故障状态的第一数组的微服务器模块排列顺序,排列所述调用时长,以生成故障状态的第二数组;和/或,根据所述系统日志,确定所述正常状态的第一数组内各微服务模块的开始调用时间和结束调用时间;根据所述开始调用时间和结束调用时间,计算所述正常状态的第一数组内各微服务模块的调用时长;按照所述正常状态的第一数组的微服务器模块排列顺序,排列所述调用时长,以生成正常状态的第二数组。
本发明实施例提供的故障定位方法,获取全部微服务模块的系统日志,根据系统日志生成与待处理任务对应的故障状态的第一数组,故障状态的第一数组包括在故障发生前第一时长内按照调用顺序排列的微服务模块,根据正常状态的第一数组和故障状态的第一数组确定发生故障的微服务模块,正常状态的第一数组包括待处理任务正常运行的第二时长内按照调用顺序排列的微服务模块;本发明根据微服务模块的调用顺序进行故障定位,无需遍历全部微服务模块,可以快速有效定位出故障模块,减少故障定位时间,降低资源占用。
附图说明
图1为本发明实施例提供的故障定位方法的流程示意图之一;
图2为本发明实施例提供的故障定位方法的流程示意图之二;
图3为本发明实施例提供的并行任务的示例;
图4为本发明实施例提供的故障定位装置的结构示意图之一;
图5为本发明实施例提供的故障定位装置的结构示意图之二。
具体实施方式
下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有技术存在的上述问题,本发明实施例提供了一种故障定位方法,如图1所示,所述方法包括以下步骤:
步骤11,获取全部微服务模块的系统日志。
业务服务器以系统日志的方式记录各个微服务模块的调用情况,一个微服务模块对应一个系统日志,当一个任务被执行时,按照业务逻辑顺序调用微服务模块,系统日志可以包括:被调用的任务标识、开始调用时间、结束调用时间等信息。任务标识是在新任务发布时由业务服务器为该任务分配的,不同任务的任务标识不同。
步骤12,根据系统日志生成与待处理任务对应的故障状态的第一数组。
待处理任务为发生故障的任务,故障状态的第一数组包括在故障发生前第一时长内按照调用顺序排列的微服务模块,也就是说,第一数组为一组微服务模块标识,各微服务模块标识的顺序为模块调用顺序。
在一些实施例中,在本步骤中,故障定位装置先从系统日志中筛选与待处理任务相关的微服务模块,即从全部微服务模块的系统日志中筛选出包括待处理任务标识的微服务模块。然后,故障定位模块获取筛选出的微服务模块的系统日志,确定故障发生前第一时长内的调用时间,并根据各微服务模块的调用时间的先后顺序确定各所述筛选出的微服务模块的调用顺序。最后,故障定位装置根据所述调用顺序将各筛选出的微服务模块进行排序,生成与待处理任务对应的故障状态的第一数组。
步骤13,根据正常状态的第一数组和故障状态的第一数组确定发生故障的微服务模块。
正常状态的第一数组包括待处理任务正常运行的第二时长内按照调用顺序排列的微服务模块。
在一些实施例中,正常状态的第一数组通过以下步骤获取:故障定位装置从系统日志中筛选与待处理任务相关的微服务模块;获取筛选出的微服务模块的系统日志,根据其中记录的待处理任务正常运行的第二时长内的调用时间;确定各筛选出的微服务模块的调用顺序;根据调用顺序生成与待处理任务对应的正常状态的第一数组。也就是说,正常状态的第一数组中记录的各微服务模块的排列顺序为该待处理任务正确的模块调用顺序。第二时长可以根据实际需要进行设置、调整。
在本步骤中,相对于正常状态的第一数组的各微服务模块及所述各微服务模块的排列顺序,在故障状态的第一数组中,确定增加的微服务模块、减少的微服务模块和顺序错误的微服务模块。也就是说,故障定位装置以正常状态的第一数组作为判断标准,将故障状态的第一数组和正常状态的第一数组相比较,找出增加的微服务模块、减少的微服务模块和顺序错误的微服务模块,这些微服务模块即为发生故障的模块,从而准确、快速实现故障定位。
通过上述步骤11-13可以看出,本发明实施例提供的故障定位方法,获取全部微服务模块的系统日志,根据系统日志生成与待处理任务对应的故障状态的第一数组,故障状态的第一数组包括在故障发生前第一时长内按照调用顺序排列的微服务模块,根据正常状态的第一数组和故障状态的第一数组确定发生故障的微服务模块,正常状态的第一数组包括待处理任务正常运行的第二时长内按照调用顺序排列的微服务模块;本发明根据微服务模块的调用顺序进行故障定位,无需遍历全部微服务模块,可以快速有效定位出故障模块,减少故障定位时间,降低资源占用。
进一步的,在一些实施例中,如图2所示,若根据正常状态的第一数组和故障状态的第一数组无法确定发生故障的微服务模块,则所述故障定位方法还可以包括以下步骤:
步骤14,根据故障状态的第一数组和系统日志,生成故障状态的第二数组。
故障状态的第二数组包括按照故障状态的第一数组的微服务器模块排列顺序排列的各微服务模块的调用时长。
在一些实施例中,在本步骤中,首先,故障状态定位装置根据系统日志,确定故障状态的第一数组内各微服务模块的开始调用时间和结束调用时间。然后,故障状态定位装置根据开始调用时间和结束调用时间,计算故障状态的第一数组内各微服务模块的调用时长,即调用时长为结束调用时间与开始调用时间之差。最后,故障状态定位装置按照故障状态的第一数组的微服务器模块排列顺序,排列各调用时长,以生成故障状态的第二数组。
步骤15,根据正常状态的第二数组和所述故障状态的第二数组确定发生故障的微服务模块。
正常状态的第二数组包括按照正常状态的第一数组的微服务器模块排列顺序排列的各所述微服务模块的调用时长。
在一些实施例中,正常状态的第二数组通过以下步骤获取:首先,故障状态定位装置根据系统日志,确定正常状态的第一数组内各微服务模块的开始调用时间和结束调用时间。然后,故障状态定位装置根据开始调用时间和结束调用时间,计算正常状态的第一数组内各微服务模块的调用时长,即调用时长为结束调用时间与开始调用时间之差。最后,故障状态定位装置按照正常状态的第一数组的微服务器模块排列顺序,排列各调用时长,以生成正常状态的第二数组。
在一些实施例中,在本步骤中,相对于正常状态的第二数组的各微服务模块及所述各微服务模块的排列顺序,在故障状态的第二数组中,确定增加的微服务模块、减少的微服务模块和顺序错误的微服务模块。也就是说,故障定位装置以正常状态的第二数组作为判断标准,将故障状态的第二数组和正常状态的第二数组相比较,找出增加的微服务模块、减少的微服务模块和顺序错误的微服务模块,这些微服务模块即为发生故障的模块,从而准确、快速实现故障定位。
在一些实施例中,当待处理任务为并行任务时,正常状态的第一数组和故障状态的第一数组分别包括多行微服务模块,其中,每行微服务模块对应待处理任务的一个模块调用路径,包括非并行阶段和并行阶段,不同行的非并行阶段的微服务模块和所述微服务模块的顺序相同。
为了清楚说明本发明的方案,以下结合图3,对并行任务的第一数组进行详细说明。如图3所示,某个任务涉及的微服务模块包括:M1、M2、M4、M5、M6、M7、M8、M9,该任务包括两个非并行阶段和一个并行阶段,第一非并行阶段按照M1—>M2的顺序调用模块,第二非并行阶段按照M8—>M9的顺序调用模块,并行阶段包括两个并行的模块调用路径,在M2模块调用结束后,进入任务的并行阶段,在并行阶段同步调用以下两个调用路径:M3—>M5—>M7和M4—>M6,M7和M6调用结束后,均进入第二非并行阶段。相应的,针对图3所示的任务,其对应的正常状态的第一数组或故障状态的第一数组表示为
Figure BDA0002283179470000091
基于相同的技术构思,本发明实施例还提供一种故障定位装置,如图4所示,该故障定位装置包括:获取模块1、第一生成模块2和故障定位模块3,获取模块1用于,获取全部微服务模块的系统日志。
第一生成模块2用于,根据所述系统日志生成与待处理任务对应的故障状态的第一数组,所述故障状态的第一数组包括在故障发生前第一时长内按照调用顺序排列的微服务模块,所述待处理任务为发生故障的任务。
故障定位模块3用于,根据正常状态的第一数组和所述故障状态的第一数组确定发生故障的微服务模块;其中,所述正常状态的第一数组包括所述待处理任务正常运行的第二时长内按照调用顺序排列的微服务模块。
故障定位模块3用于,相对于所述正常状态的第一数组的各微服务模块及所述各微服务模块的排列顺序,在所述故障状态的第一数组中,确定增加的微服务模块、减少的微服务模块和顺序错误的微服务模块。
进一步的,如图5所示,所述故障定位装置还可以包括第二生成模块4,第二生成模块4用于,当故障定位模块3根据正常状态的第一数组和所述故障状态的第一数组无法确定发生故障的微服务模块时,根据所述故障状态的第一数组和所述系统日志,生成故障状态的第二数组;其中,所述故障状态的第二数组包括按照所述故障状态的第一数组的微服务器模块排列顺序排列的各所述微服务模块的调用时长。
故障定位模块3还用于,根据正常状态的第二数组和所述故障状态的第二数组确定发生故障的微服务模块,其中,所述正常状态的第二数组包括按照所述正常状态的第一数组的微服务器模块排列顺序排列的各所述微服务模块的调用时长。
在一些实施例中,故障定位模块3用于,相对于所述正常状态的第二数组的各微服务模块及所述各微服务模块的排列顺序,在所述故障状态的第二数组中,确定增加的微服务模块、减少的微服务模块和顺序错误的微服务模块。
在一些实施例中,第二生成模块4用于,根据所述系统日志,确定所述故障状态的第一数组内各微服务模块的开始调用时间和结束调用时间;根据所述开始调用时间和结束调用时间,计算所述故障状态的第一数组内各微服务模块的调用时长;按照所述故障状态的第一数组的微服务器模块排列顺序,排列所述调用时长,以生成故障状态的第二数组;和/或,根据所述系统日志,确定所述正常状态的第一数组内各微服务模块的开始调用时间和结束调用时间;根据所述开始调用时间和结束调用时间,计算所述正常状态的第一数组内各微服务模块的调用时长;按照所述正常状态的第一数组的微服务器模块排列顺序,排列所述调用时长,以生成正常状态的第二数组。
在一些实施例中,当所述待处理任务为并行任务时,所述正常状态的第一数组和所述故障状态的第一数组分别包括多行微服务模块,其中,每行微服务模块对应所述待处理任务的一个模块调用路径,包括非并行阶段和并行阶段,不同行的非并行阶段的微服务模块和所述微服务模块的顺序相同。
在一些实施例中,第一生成模块2用于,从所述系统日志中筛选与待处理任务相关的微服务模块;获取筛选出的微服务模块的系统日志,根据其中记录的故障发生前第一时长内的调用时间,确定各所述筛选出的微服务模块的调用顺序;根据所述调用顺序生成与待处理任务对应的故障状态的第一数组;和/或,从所述系统日志中筛选与待处理任务相关的微服务模块;获取筛选出的微服务模块的系统日志,根据其中记录的所述待处理任务正常运行的第二时长内的调用时间,确定各所述筛选出的微服务模块的调用顺序;根据所述调用顺序生成与待处理任务对应的正常状态的第一数组。
可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

Claims (8)

1.一种故障定位方法,其特征在于,包括:
获取全部微服务模块的系统日志;
根据所述系统日志生成与待处理任务对应的故障状态的第一数组,所述故障状态的第一数组包括在故障发生前第一时长内按照调用顺序排列的微服务模块,所述待处理任务为发生故障的任务;
根据正常状态的第一数组和所述故障状态的第一数组确定发生故障的微服务模块;其中,所述正常状态的第一数组包括所述待处理任务正常运行的第二时长内按照调用顺序排列的微服务模块;
若根据正常状态的第一数组和所述故障状态的第一数组无法确定发生故障的微服务模块,则根据所述故障状态的第一数组和所述系统日志,生成故障状态的第二数组;其中,所述故障状态的第二数组包括按照所述故障状态的第一数组的微服务器模块排列顺序排列的各所述微服务模块的调用时长;
根据正常状态的第二数组和所述故障状态的第二数组确定发生故障的微服务模块,其中,所述正常状态的第二数组包括按照所述正常状态的第一数组的微服务器模块排列顺序排列的各所述微服务模块的调用时长。
2.如权利要求1所述的方法,其特征在于,所述根据正常状态的第一数组和所述故障状态的第一数组确定发生故障的微服务模块,包括:
相对于所述正常状态的第一数组的各微服务模块及所述各微服务模块的排列顺序,在所述故障状态的第一数组中,确定增加的微服务模块、减少的微服务模块和顺序错误的微服务模块。
3.如权利要求1所述的方法,其特征在于,所述根据正常状态的第二数组和所述故障状态的第二数组确定发生故障的微服务模块,包括:
相对于所述正常状态的第二数组的各微服务模块及所述各微服务模块的排列顺序,在所述故障状态的第二数组中,确定增加的微服务模块、减少的微服务模块和顺序错误的微服务模块。
4.如权利要求1所述的方法,其特征在于,所述根据所述故障状态的第一数组和所述系统日志,生成故障状态的第二数组,包括:
根据所述系统日志,确定所述故障状态的第一数组内各微服务模块的开始调用时间和结束调用时间;根据所述开始调用时间和结束调用时间,计算所述故障状态的第一数组内各微服务模块的调用时长;按照所述故障状态的第一数组的微服务器模块排列顺序,排列所述调用时长,以生成故障状态的第二数组;和/或
所述正常状态的第二数组通过以下步骤获取:
根据所述系统日志,确定所述正常状态的第一数组内各微服务模块的开始调用时间和结束调用时间;根据所述开始调用时间和结束调用时间,计算所述正常状态的第一数组内各微服务模块的调用时长;按照所述正常状态的第一数组的微服务器模块排列顺序,排列所述调用时长,以生成正常状态的第二数组。
5.如权利要求1-4任一项所述的方法,其特征在于,当所述待处理任务为并行任务时,所述正常状态的第一数组和所述故障状态的第一数组分别包括多行微服务模块,其中,每行微服务模块对应所述待处理任务的一个模块调用路径,包括非并行阶段和并行阶段,不同行的非并行阶段的微服务模块和所述微服务模块的顺序相同。
6.如权利要求1-4任一项所述的方法,其特征在于,所述根据所述系统日志生成与待处理任务对应的故障状态的第一数组,包括:
从所述系统日志中筛选与待处理任务相关的微服务模块;获取筛选出的微服务模块的系统日志,根据其中记录的故障发生前第一时长内的调用时间,确定各所述筛选出的微服务模块的调用顺序;根据所述调用顺序生成与待处理任务对应的故障状态的第一数组;和/或,
所述正常状态的第一数组通过以下步骤获取:
从所述系统日志中筛选与待处理任务相关的微服务模块;获取筛选出的微服务模块的系统日志,根据其中记录的所述待处理任务正常运行的第二时长内的调用时间,确定各所述筛选出的微服务模块的调用顺序;根据所述调用顺序生成与待处理任务对应的正常状态的第一数组。
7.一种故障定位装置,其特征在于,包括:获取模块、第一生成模块和故障定位模块;
所述获取模块用于,获取全部微服务模块的系统日志;
所述第一生成模块用于,根据所述系统日志生成与待处理任务对应的故障状态的第一数组,所述故障状态的第一数组包括在故障发生前第一时长内按照调用顺序排列的微服务模块,所述待处理任务为发生故障的任务;
所述故障定位模块用于,根据正常状态的第一数组和所述故障状态的第一数组确定发生故障的微服务模块;其中,所述正常状态的第一数组包括所述待处理任务正常运行的第二时长内按照调用顺序排列的微服务模块;
所述故障定位装置,还包括第二生成模块,所述第二生成模块用于,当所述故障定位模块根据正常状态的第一数组和所述故障状态的第一数组无法确定发生故障的微服务模块时,根据所述故障状态的第一数组和所述系统日志,生成故障状态的第二数组;其中,所述故障状态的第二数组包括按照所述故障状态的第一数组的微服务器模块排列顺序排列的各所述微服务模块的调用时长;
所述故障定位模块还用于,根据正常状态的第二数组和所述故障状态的第二数组确定发生故障的微服务模块,其中,所述正常状态的第二数组包括按照所述正常状态的第一数组的微服务器模块排列顺序排列的各所述微服务模块的调用时长。
8.如权利要求7所述的故障定位装置,其特征在于,所述第二生成模块用于,根据所述系统日志,确定所述故障状态的第一数组内各微服务模块的开始调用时间和结束调用时间;根据所述开始调用时间和结束调用时间,计算所述故障状态的第一数组内各微服务模块的调用时长;按照所述故障状态的第一数组的微服务器模块排列顺序,排列所述调用时长,以生成故障状态的第二数组;和/或,根据所述系统日志,确定所述正常状态的第一数组内各微服务模块的开始调用时间和结束调用时间;根据所述开始调用时间和结束调用时间,计算所述正常状态的第一数组内各微服务模块的调用时长;按照所述正常状态的第一数组的微服务器模块排列顺序,排列所述调用时长,以生成正常状态的第二数组。
CN201911149644.6A 2019-11-21 2019-11-21 一种故障定位方法及装置 Active CN110943858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911149644.6A CN110943858B (zh) 2019-11-21 2019-11-21 一种故障定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911149644.6A CN110943858B (zh) 2019-11-21 2019-11-21 一种故障定位方法及装置

Publications (2)

Publication Number Publication Date
CN110943858A CN110943858A (zh) 2020-03-31
CN110943858B true CN110943858B (zh) 2022-07-12

Family

ID=69907223

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911149644.6A Active CN110943858B (zh) 2019-11-21 2019-11-21 一种故障定位方法及装置

Country Status (1)

Country Link
CN (1) CN110943858B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109672741A (zh) * 2018-12-25 2019-04-23 鼎信信息科技有限责任公司 微服务监控方法、装置、计算机设备和存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7379999B1 (en) * 2003-10-15 2008-05-27 Microsoft Corporation On-line service/application monitoring and reporting system
JP2016062293A (ja) * 2014-09-18 2016-04-25 株式会社日立製作所 業務フロー可視化装置および業務フロー可視化方法
CN104572329B (zh) * 2014-12-31 2018-12-25 杭州华为企业通信技术有限公司 一种故障确定方法及装置
US10102111B2 (en) * 2016-08-05 2018-10-16 International Business Machines Corporation Prioritizing resiliency tests of microservices
CN106254144B (zh) * 2016-09-06 2020-02-14 华为技术有限公司 故障定位平台、故障定位方法及装置
CN108989136B (zh) * 2017-05-31 2020-10-20 中国移动通信集团公司 业务端到端性能监控方法及装置
US10484410B2 (en) * 2017-07-19 2019-11-19 Cisco Technology, Inc. Anomaly detection for micro-service communications
CN108512689B (zh) * 2017-12-15 2021-08-27 中国平安财产保险股份有限公司 微服务业务监控方法及服务器
CN108322351B (zh) * 2018-03-05 2021-09-10 北京奇艺世纪科技有限公司 生成拓扑图的方法和装置、故障确定方法和装置
US10896084B2 (en) * 2018-05-02 2021-01-19 International Business Machines Corporation Isolating service issues in a microservice architecture
CN109921927A (zh) * 2019-02-20 2019-06-21 苏州人之众信息技术有限公司 基于微服务的实时调用链跟踪方法
CN110262889A (zh) * 2019-06-27 2019-09-20 深圳前海微众银行股份有限公司 一种链路追踪方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109672741A (zh) * 2018-12-25 2019-04-23 鼎信信息科技有限责任公司 微服务监控方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110943858A (zh) 2020-03-31

Similar Documents

Publication Publication Date Title
US10831622B2 (en) Method and apparatus for processing gateway device fault
CN106254144A (zh) 故障定位平台、故障定位方法及装置
CN105205003A (zh) 一种基于集群化系统的自动化测试方法和装置
CN107870948A (zh) 任务调度方法和装置
CN106612204B (zh) 业务校验方法及装置
CN109697078B (zh) 非高可用性组件的修复方法、大数据集群和容器服务平台
CN105740150A (zh) 一种分布式测试方法及系统
CN112463440A (zh) 容灾切换方法、系统、存储介质及计算机设备
CN111367782B (zh) 回归测试数据自动生成的方法及装置
CN111142929A (zh) 一种设备生产过程中的固件配置方法、装置、设备及介质
CN110943858B (zh) 一种故障定位方法及装置
CN113901047A (zh) 一种基于内存数据库的简便集群主从选举方法
CN111522881B (zh) 业务数据处理方法、装置、服务器及存储介质
US8582444B2 (en) Method for detecting hardware faults by determining a ratio of released connections
CN105025179A (zh) 呼叫中心座席的监控方法及系统
US10999128B2 (en) System and method for automatically repairing a faultily connected network element
CN112214551A (zh) 数据同步方法、系统、装置、电子设备、存储介质
CN111625330A (zh) 跨线程的任务处理方法、装置、服务器及存储介质
CN103034545A (zh) 基于ace的通信框架和方法、及功能模块间的通信方法
CN116400987A (zh) 持续集成方法、装置、电子设备及存储介质
CN116319421A (zh) 基于云平台的故障检测方法、装置、故障检测系统及介质
CN115981261A (zh) 产线控制方法、装置、计算机设备及计算机可读存储介质
CN115348200A (zh) 一种can通信功能测试方法及测试系统
CN111581042B (zh) 一种集群部署方法、部署平台及待部署服务器
CN111459556A (zh) 一种基于客户现场的服务器bmc批量配置方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant