CN110635962A - 用于分布式系统的异常分析方法及装置 - Google Patents

用于分布式系统的异常分析方法及装置 Download PDF

Info

Publication number
CN110635962A
CN110635962A CN201810664379.4A CN201810664379A CN110635962A CN 110635962 A CN110635962 A CN 110635962A CN 201810664379 A CN201810664379 A CN 201810664379A CN 110635962 A CN110635962 A CN 110635962A
Authority
CN
China
Prior art keywords
module
data processing
abnormal
determining
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810664379.4A
Other languages
English (en)
Other versions
CN110635962B (zh
Inventor
王勇
王梦杰
朱家稷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810664379.4A priority Critical patent/CN110635962B/zh
Publication of CN110635962A publication Critical patent/CN110635962A/zh
Application granted granted Critical
Publication of CN110635962B publication Critical patent/CN110635962B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供了一种用于分布式系统的异常分析方法及装置,该分布式系统包括多个节点,该节点通过其包含的多个功能模块来处理数据处理请求,其中方法包括:获取分布式系统中数据处理异常的目标数据处理请求,确定分布式系统中处理该目标数据处理请求的节点、以及该节点中处理该目标数据处理请求的多个目标功能模块,在该多个目标功能模块中确定数据处理异常的至少一个异常功能模块,确定各个目标功能模块之间的依赖关系,根据该依赖关系,在上述至少一个异常功能模块中确定导致数据处理异常的异常原因模块。

Description

用于分布式系统的异常分析方法及装置
技术领域
本申请涉及计算机设备领域,尤其涉及一种用于分布式系统的异常分析方法及装置。
背景技术
在分布式系统中,通常设置有多个节点,这些节点可以按照指定的数据处理逻辑根据数据处理请求进行数据处理,从而得到数据处理结果。
由于分布式系统一般架设在可靠性不高的商品化部件的基础上,因此分布式系统在数据处理过程中,经常会出现数据处理异常的情况,比如数据处理耗时过长等问题。基于此,有必要提供一种技术方案,以在分布式系统中自动确定数据处理异常的原因,提高异常原因的确定效率。
发明内容
本申请实施例的目的是提供一种用于分布式系统的异常分析方法及装置,以在分布式系统中自动确定数据处理异常的原因,提高异常原因的确定效率。
为达到上述目的,本申请实施例是这样实现的:
第一方面,本申请实施例提供了一种用于分布式系统的异常分析方法,所述分布式系统包括多个节点,所述方法包括:
获取所述分布式系统中数据处理异常的目标数据处理请求;
确定所述分布式系统中处理所述目标数据处理请求的节点、以及所述节点中处理所述目标数据处理请求的多个目标功能模块;
在所述多个目标功能模块中确定数据处理异常的至少一个异常功能模块;
确定各个目标功能模块之间的依赖关系;
根据所述依赖关系,在所述至少一个异常功能模块中确定导致数据处理异常的异常原因模块。
第二方面,本申请实施例提供了一种用于分布式系统的异常分析方法,所述分布式系统包括多个节点,所述方法包括:
获取所述分布式系统中数据处理异常的目标数据处理请求;
获取预先存储的、所述目标数据处理请求对应的异常模块分析路径;
确定所述异常模块分析路径中包含的至少一个异常功能模块;
根据所述异常模块分析路径中各个功能模块之间的依赖关系,在所述至少一个异常功能模块中确定导致数据处理异常的异常原因模块。
第三方面,本申请实施例提供了一种用于分布式系统的异常分析装置,所述分布式系统包括多个节点,所述装置包括:
第一请求获取模块,用于获取所述分布式系统中数据处理异常的目标数据处理请求;
第一目标确定模块,用于确定所述分布式系统中处理所述目标数据处理请求的节点、以及所述节点中处理所述目标数据处理请求的多个目标功能模块;
第一异常确定模块,用于在所述多个目标功能模块中确定数据处理异常的至少一个异常功能模块;
关系确定模块,用于确定各个目标功能模块之间的依赖关系;
第一原因确定模块,用于根据所述依赖关系,在所述至少一个异常功能模块中确定导致数据处理异常的异常原因模块。
第四方面,本申请实施例提供了一种用于分布式系统的异常分析装置,所述分布式系统包括多个节点,所述装置包括:
第二请求获取模块,用于获取所述分布式系统中数据处理异常的目标数据处理请求;
路径获取模块,用于获取预先存储的、所述目标数据处理请求对应的异常模块分析路径;
第二异常确定模块,用于确定所述异常模块分析路径中包含的至少一个异常功能模块;
第三原因确定模块,用于根据所述异常模块分析路径中各个功能模块之间的依赖关系,在所述至少一个异常功能模块中确定导致数据处理异常的异常原因模块。
第五方面,本申请实施例提供了一种异常分析设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述第一方面所述的异常分析方法。
第六方面,本申请实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现上述第一方面所述的异常分析方法。
第七方面,本申请实施例提供了一种异常分析设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行上述第二方面所述的异常分析方法。
第八方面,本申请实施例提供了一种存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被执行时实现上述第二方面所述的异常分析方法。
可见,通过本实施例,在获取到分布式系统中数据处理异常的目标数据处理请求后,能够确定分布式系统中用于处理该目标数据处理请求的多个目标功能模块,并在该多个目标功能模块中确定数据处理异常的异常功能模块,进而在该异常功能模块中确定导致数据处理异常的异常原因模块,从而高效快速地在分布式系统中自动确定数据处理异常的原因,提高异常原因的确定效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的异常分析方法的应用场景示意图;
图2为本申请一实施例提供的异常分析方法的流程示意图;
图3为本申请一实施例提供的分布式系统中的节点的示意图;
图4为本申请一实施例提供的目标功能模块之间的依赖关系示意图;
图5为本申请又一实施例提供的异常分析方法的流程示意图;
图6为本申请另一实施例提供的异常分析方法的流程示意图;
图7为本申请一实施例提供的异常分析装置的模块组成示意图;
图8为本申请另一实施例提供的异常分析装置的模块组成示意图;
图9为本申请一实施例提供的异常分析设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请实施例提供了一种用于分布式系统的异常分析方法及装置,以在分布式系统中自动确定数据处理异常的原因,提高异常原因的确定效率。下面结合实施例进行详细说明。
图1为本申请一实施例提供的异常分析方法的应用场景示意图,如图1所示,本实施例中的异常分析方法应用在分布式系统中,该分布式系统包括多个节点100,各个节点100具有相同的功能。节点100内运行有多个功能模块,节点100可以通过其包含的多个功能模块来处理数据处理请求。具体地,节点100包含的多个功能模块可以分为多组,每组功能模块用于处理一种数据处理请求。在获取到数据处理请求后,可以首先根据负载均衡算法将数据处理请求发送至某一节点100,该节点100内部用于处理该请求的功能模块组对该请求进行处理。图1中,节点100可以包含一台或多台服务器。由于分布式系统中包含大量的节点,每个节点中又布设有多个功能模块,因此有必要提出一种自动化的异常原因确定方式,以高效快速的在分布式系统中确定数据处理异常的原因,提高异常原因的确定效率。
图2为本申请一实施例提供的异常分析方法的流程示意图,该方法能够由用于进行异常分析的服务器执行,如图2所示,该方法包括以下步骤:
步骤S202,获取分布式系统中数据处理异常的目标数据处理请求;
步骤S204,确定分布式系统中处理目标数据处理请求的节点,以及该节点中处理目标数据处理请求的多个目标功能模块;
步骤S206,在该多个目标功能模块中确定数据处理异常的至少一个异常功能模块;
步骤S208,,确定各个目标功能模块之间的依赖关系;
步骤S210,根据该依赖关系,在上述至少一个异常功能模块中确定导致数据处理异常的异常原因模块。
可见,通过本实施例,在获取到分布式系统中数据处理异常的目标数据处理请求后,能够确定分布式系统中用于处理该目标数据处理请求的多个目标功能模块,并在该多个目标功能模块中确定数据处理异常的至少一个异常功能模块,进而根据各个目标功能模块之间的依赖关系,在该至少一个异常功能模块中确定导致数据处理异常的异常原因模块,从而高效快速地在分布式系统中自动确定数据处理异常的原因,提高异常原因的确定效率。
上述步骤S202中,获取分布式系统中数据处理异常的目标数据处理请求,可以为,侦测分布式系统中每个数据处理请求的处理耗时,将处理耗时超过预设时长的数据处理请求,确定为数据处理异常的目标数据处理请求,以及,侦测分布式系统中每个数据处理请求的处理结果,将处理结果不满足预设结果要求的数据处理请求,确定为数据处理异常的目标数据处理请求。其中,预设结果要求可以是预设格式要求、预设数值大小要求中的至少一个。相应地,数据处理异常的目标数据处理请求包括但不限于,处理耗时过长的数据处理请求、处理结果格式不满足预设格式要求的数据处理请求、处理结果数值大小不满足预设数值大小要求的数据处理请求。
在分布式系统中,不同数据处理请求通过不同的功能模块进行处理。本实施例中的功能模块指的是用于实现软件各个功能的功能模块。比如,数据处理请求A通过功能模块a1、a2、a3进行处理,数据处理请求B通过功能模块b1、b2、b3进行处理。以数据处理请求A为例,其处理过程为:功能模块a1对数据处理请求A进行处理,将处理结果发送至a2,a2对接收到的处理结果做进一步处理,将处理结果发送至a3,a3对接收到的处理结果做进一步处理,得到数据处理请求A的最终处理结果。数据处理请求B的处理过程与之类似,这里不再重复。
上述步骤S204中,可以首先确定处理目标数据处理请求的节点,然后在该节点中确定处理目标数据处理请求的多个目标功能模块,该节点的数量可以为一个或多个。这里可以通过追踪分布式系统的请求处理流程的方式,确定处理目标数据处理请求的节点,通过分析分布式系统的源代码的方式,确定该节点中处理目标数据处理请求的多个目标功能模块。
上述步骤S206中,在多个目标功能模块中确定数据处理异常的至少一个异常功能模块,可以为:
(a1)获取各个目标功能模块基于目标数据处理请求进行数据处理的耗时;
(a2)将耗时不满足对应的预设耗时要求的目标功能模块,确定为数据处理异常的异常功能模块。
比如,目标数据处理请求通过目标功能模块1和目标功能模块2处理,从而,获取目标功能模块1基于目标数据处理请求进行数据处理的耗时,以及,获取目标功能模块2基于目标数据处理请求进行数据处理的耗时,这里基于目标数据处理请求进行数据处理的耗时,可以为处理目标数据处理请求的耗时。
将上述耗时不满足对应的预设耗时要求的功能模块,确定为数据处理异常的异常功能模块。具体地,由于目标数据处理请求可以通过多个目标功能模块处理,因此每个目标功能模块均可以具有对应的预设耗时要求,该预设耗时要求可以表示对应的目标功能模块基于目标数据处理请求进行数据处理的耗时时长范围,或者表示最高耗时时长。续接上例,目标功能模块1对应的预设耗时要求为耗时小于0.5秒,目标功能模块2对应的预设耗时要求为耗时小于0.3秒,本实施例中,获取目标功能模块1基于目标数据处理请求进行数据处理的耗时为0.4秒,获取目标功能模块2基于目标数据处理请求进行数据处理的耗时为1秒,则将目标功能模块2确定为数据处理异常的异常功能模块。
本实施例中,可以通过以下方式确定目标功能模块各自对应的预设耗时要求:
统计分布式系统中目标功能模块基于目标数据处理请求进行数据处理的历史耗时,根据该历史耗时确定目标功能模块各自对应的预设耗时要求。
比如,确定分布式系统中目标功能模块为目标功能模块3和目标功能模块4,目标功能模块3接收到目标数据处理请求后,对目标数据处理请求进行处理,将处理结果发送至功能模块4,目标功能模块4对处理结果进行处理,得到目标数据处理请求的最终处理结果。确定目标功能模块3基于目标数据处理请求进行数据处理的历史耗时和目标功能模块4基于目标数据处理请求进行数据处理的历史耗时,比如,目标功能模块3历史处理过3次目标数据处理请求,各次的历史耗时分别为20ms、25ms和23ms,目标功能模块4历史处理过3次目标数据处理请求,各次的历史耗时分别为10ms、15ms和13ms。继而,根据目标功能模块3对应的历史耗时,确定目标功能模块3对应的预设耗时要求为:目标功能模块3基于目标数据处理请求进行数据处理的耗时小于等于最高历史耗时,即小于等于25ms,根据目标功能模块4对应的历史耗时,确定目标功能模块4对应的预设耗时要求为:目标功能模块4基于目标数据处理请求进行数据处理的耗时小于等于最高历史耗时,即小于等于15ms。
在一个具体的实施例中,在分布式系统的源代码中植入收集trace信息的代码模块,通过该代码模块收集分布式系统运行过程中的trace信息,其中,trace信息包括分布式系统运行过程中处理具体请求的完整过程信息。通过trace信息,能够确定分布式系统中处理各个数据处理请求的具体节点,以及该节点中处理数据处理请求的具体功能模块,通过trace信息,还能够确定各个数据处理请求的各个被处理步骤,以及各个步骤生成的各种中间变量。trace信息可以输出到分布式系统的运行日志中。
本实施例中,根据trace信息,确定分布式系统中处理目标数据处理请求的节点,以及该节点中处理目标数据处理请求的目标功能模块基于目标数据处理请求进行数据处理的历史耗时。然后,统计大量的历史耗时,并根据统计结果确定耗时阈值,比如,按照历史耗时从低到高的顺序进行排序,在该排序中倒数确定数量占比0.01%的历史耗时,将该倒数0.01%的历史耗时作为异常耗时,将其他99.9%的历史耗时作为正常耗时,从而确定区分正常耗时和异常耗时的耗时阈值。若目标功能模块基于目标数据处理请求进行数据处理的耗时乘以设定倍数后或不乘以设定倍数后超过耗时阈值,则确定该目标功能模块为数据处理异常的异常功能模块。
当然,本实施例中,在目标数据处理请求需要由多个节点共同处理的情况下,也可以根据trace信息,确定分布式系统中处理目标数据处理请求的各个节点,以及每个节点中处理目标数据处理请求的目标功能模块,并根据trace信息确定该各个节点处理目标数据处理请求的各自第一耗时,以及,该各个节点中的处理目标数据处理请求的目标功能模块处理目标数据处理请求的各自第二耗时。然后,统计大量的第一耗时,并根据统计结果确定第一耗时阈值,统计大量的第二耗时,并根据统计结果确定第二耗时阈值,确定第一耗时阈值和第二耗时阈值的方式可以参考前面的过程,这里不再重复。若某个节点处理目标数据处理请求的耗时乘以设定倍数后或不乘以设定倍数后超过第一耗时阈值,则确定该节点为数据处理异常的节点,然后,在数据处理异常的节点中确定处理目标数据处理请求的耗时乘以设定倍数后或不乘以设定倍数后超过第二耗时阈值的目标功能模块,作为数据处理异常的异常功能模块。
本实施例中,功能模块通过其包含的数据处理函数来处理数据处理请求,上述步骤S208中,确定各个目标功能模块之间的依赖关系,具体为:
(b1)确定各个目标功能模块包含的数据处理函数以及各个数据处理函数之间的调用关系;
(b2)根据各个目标功能模块包含的数据处理函数以及各个数据处理函数之间的调用关系,确定目标功能模块之间的依赖关系。
具体地,与功能模块相同地,目标功能模块用于处理目标数据处理请求,目标功能模块能够包括至少一个数据处理函数,各个目标功能模块包括的数据处理函数之间具有调用关系。基于各个目标功能模块包含的数据处理函数以及各个数据处理函数之间的调用关系,可以确定各个目标功能模块之间的依赖关系。
图3为本申请一实施例提供的分布式系统中的节点的示意图,如图3所示,该节点包括目标功能模块1、2和3,目标功能模块1包括数据处理函数1:X=Y+1000,目标功能模块2包括数据处理函数2:Y=y1*Z,目标功能模块3包括数据处理函数3:Z=z1*z2,其中,y1、z1、z2的值均能够从目标数据处理请求中得到,因此图3中,数据处理函数之间的调用关系为函数1调用函数2、函数2调用函数3,相应地,目标功能模块之间的依赖关系为目标功能模块1依赖目标功能模块2,目标功能模块2依赖目标功能模块3。
上述步骤S210中,根据依赖关系,在至少一个异常功能模块中确定导致数据处理异常的异常原因模块,具体为:
(c1)根据依赖关系,在多个目标功能模块中确定根模块;
(c2)根据该依赖关系,确定多个目标功能模块组成的至少一条模块路径;
(c3)在各条模块路径中,将距离根模块最远的异常功能模块,确定为该条模块路径对应的异常原因模块。
图4为本申请一实施例提供的目标功能模块之间的依赖关系示意图,如图4所示,目标数据处理请求通过目标功能模块A、B、C、D处理,依赖关系为目标功能模块A依赖目标功能模块B、目标功能模块B依赖目标功能模块C,目标功能模块A依赖目标功能模块D,因此,该依赖关系包括两条模块路径,“A-B-C”和“A-D”。
本实施例中,首先根据依赖关系,在目标功能模块中确定根模块,如图4所示,目标功能模块A即为根模块,然后,根据该依赖关系,确定目标功能模块组成的各条模块路径,比如“A-B-C”和“A-D”,最后,将各条模块路径中距离根模块最远的异常功能模块,确定为该条模块路径对应的异常原因模块。以图4为例,若模块B、C、D均为异常功能模块,则确定异常原因模块为模块C和模块D。
能够理解,目标功能模块的数据处理过程,受到其依赖的目标功能模块的数据处理过程的影响,比如图4中,模块C若数据处理速度过慢,将影响模块A和B的数据处理速度,因此本实施例中,在依赖关系的各条模块路径中,将距离根模块最远的数据处理异常的异常功能模块,确定为该条模块路径对应的异常原因模块。异常原因模块即为导致目标数据处理请求数据处理异常的原因模块,通过分析异常原因模块,可以解决分布式系统存在的问题,使得数据处理恢复正常。
图5为本申请又一实施例提供的异常分析方法的流程示意图,如图5所示,该方法在图2的基础上,还包括:
步骤S212,在异常原因模块对应的至少一个数据处理性能指标中,确定异常原因指标。
具体地,分布式系统中包括多个节点,每个节点包括多个功能模块,每个功能模块包括多个数据处理函数,数据处理函数是进行数据处理的最小过程单元。为表征每个数据处理函数的数据处理性能,以及每个功能模块的数据处理性能,每个数据处理函数均具有对应的数据处理性能指标,相应地,功能模块也具有表征其数据处理性能的至少一个数据处理性能指标,功能模块对应的数据处理性能指标至少包括该功能模块包含的数据处理函数的数据处理性能指标。数据处理性能指标包括磁盘访问时间、数据访问量、磁盘访问速度、磁盘访问次数等有关数据处理的指标。
上述步骤S212中,在异常原因模块对应的至少一个数据处理性能指标中,确定异常原因指标,具体为:
(d1)在异常原因模块对目标数据处理请求处理完成后,获取异常原因模块对应的各个数据处理性能指标的值;
(d2)将数据处理性能指标的值不满足对应的预设数值要求的数据处理性能指标确定为异常原因指标。
具体地,数据处理性能指标包括磁盘访问时间、数据访问量、磁盘访问速度、磁盘访问次数等有关数据处理的指标,当异常原因模块对目标数据处理请求处理完成后,能够获取得到异常原因模块对应的数据处理性能指标的值,比如获取得到异常原因模块处理目标数据处理请求时的磁盘访问速度和磁盘访问次数。
本实施例中,异常原因模块对应的每个数据处理性能指标,均具有对应的预设数值要求,若某个指标的值不满足对应的预设数值要求,则该数据处理性能指标为异常原因指标。比如,异常原因模块处理目标数据处理请求时的磁盘访问速度不满足对应的预设数值要求,则磁盘访问速度为异常原因指标,即,磁盘访问速度出现异常。
本实施例中,可以通过以下方式确定异常原因模块对应的数据处理性能指标各自对应的预设数值要求:
根据异常原因模块的历史请求处理结果,获取异常原因模块对应的各个数据处理性能指标的历史值,根据获取的该历史值的取值范围,确定异常原因模块对应的各个数据处理性能指标各自对应的预设数值要求。
比如,异常原因模块具有数据处理性能指标1和2,本实施例中,根据异常原因模块处理目标数据处理请求的历史请求处理结果,获取异常原因模块对应的各个数据处理性能指标的历史值,比如,指标1为磁盘访问速度(单位略),其历史值分别为10、12、11,指标2为磁盘访问耗时,其历史值分别为10ms、11ms、12ms。然后,根据该历史值的取值范围,确定异常原因模块对应的各个数据处理性能指标各自对应的预设数值要求,比如,确定指标1对应的预设数值要求为大于等于最低历史值,即大于等于10,指标2对应的预设数值要求为小于等于最低历史值,即小于等于12ms。
在一个具体的实施例中,在分布式系统的源代码中植入收集trace信息的代码模块,通过该代码模块收集分布式系统运行过程中的trace信息。根据trace信息,获取异常原因模块对应的各个数据处理性能指标的历史值。然后,统计大量的历史值,并根据统计结果确定各个数据处理性能指标各自对应的预设数值要求。
比如,异常原因模块对应的数据处理性能指标包括指标1和指标2,指标1为磁盘访问速度,指标2为磁盘访问耗时,统计大量指标1的历史值,按照数值由高到低的顺序对历史值进行排序,在该排序中倒数确定数量占比0.01%的历史值,将该倒数0.01%的历史值作为异常值,将其他99.9%的历史值作为正常值,从而确定区分正常值和异常值的指标阈值。若异常原因模块基于目标数据处理请求进行数据处理后得到的指标1的值乘以设定倍数后或不乘以设定倍数后低于该历史值,则确定指标1为异常原因指标。并且,统计大量指标2的历史值,按照数值由低到高的顺序对历史值进行排序,在该排序中倒数确定数量占比0.01%的历史值,将该倒数0.01%的历史值作为异常值,将其他99.9%的历史值作为正常值,从而确定区分正常值和异常值的指标阈值。若异常原因模块基于目标数据处理请求进行数据处理后得到的指标2的值乘以设定倍数后或不乘以设定倍数后高于该历史值,则确定指标2为异常原因指标。
本实施例中,在确定得到异常原因指标后,还可以确定异常原因指标归属的数据处理函数,对该数据处理函数进行排查,从而使得分布式系统的数据处理过程恢复正常。比如,异常原因指标为磁盘访问速度,该指标归属于数据处理函数A,则检查数据处理函数A的数据处理过程,发现是由于磁盘问题导致磁盘访问速度过低,从而修复磁盘即可使得分布式系统的数据处理过程恢复正常。通过检查数据处理函数的数据处理过程,还能够确定代码级别的逻辑问题,如代码编写冗余,从而使得分布式系统的数据处理过程恢复正常。
进一步地,本实施例中,还可以在确定导致数据处理异常的异常原因模块之后,将异常原因模块对应的模块路径确定为目标数据处理请求对应的异常模块分析路径并存储。
具体地,在确定导致数据处理异常的异常原因模块之后,可以根据上述依赖关系,在目标功能模块中确定根模块,然后,基于该依赖关系,确定连接根模块和异常原因模块的模块路径,最后,将确定的模块路径作为异常原因模块对应的模块路径,并将该模块路径确定为目标数据处理请求对应的异常模块分析路径并存储。
以图4为例,图4中的模块A为根模块,模块C为异常原因模块,则确定得到的模块路径,也即异常模块分析路径为路径“A-B-C”。
进一步地,本实施例中,在确定各个目标功能模块之间的依赖关系之前,还可以获取预先存储的、目标数据处理请求对应的异常模块分析路径,将异常模块分析路径中距离根模块最远的异常功能模块,确定为导致数据处理异常的异常原因模块。
这种做法的好处是:分布式系统的异常原因模块通常为固定的模块,或者通常位于固定的模块路径上,设置并保存异常模块分析路径的方式可以提高分布式系统的异常原因确定速度,加快定位异常原因的效率。
一个具体的实施例中,当再次确定目标数据处理请求出现数据处理异常时,可以优先在异常模块分析路径中确定数据处理异常的异常功能模块,将距离根模块最远的异常功能模块作为异常原因模块,若异常模块分析路径中不存在数据处理异常的目标功能模块,则再执行图2中的方法,从而提高分布式系统的异常原因确定速度,加快定位异常原因的效率。
进一步地,本申请实施例还提供了另外一种异常分析方法,图6为本申请另一实施例提供的异常分析方法的流程示意图,该方法能够由用于进行异常分析的服务器执行,如图6所示,该方法包括:
步骤S602,获取分布式系统中数据处理异常的目标数据处理请求;
步骤S604,获取预先存储的、目标数据处理请求对应的异常模块分析路径;
步骤S606,确定异常模块分析路径中包含的至少一个异常功能模块;
步骤S608,根据异常模块分析路径中各个功能模块之间的依赖关系,在该至少一个异常功能模块中确定导致数据处理异常的异常原因模块。
上述步骤S602的过程与图2所示的方法一致,这里不再重复。
上述步骤S604中,获取预先存储的、目标数据处理请求对应的异常模块分析路径。比如,若之前确定过目标数据处理请求对应的历史异常原因模块,则可以基于该历史异常原因模块,确定目标数据处理请求对应的异常模块分析路径,异常模块分析路径可以为目标数据处理请求对应的历史异常原因模块所在的模块路径。
以图4为例,图4中的模块A为根模块,模块C为历史确定的历史异常原因模块,则确定得到的异常模块分析路径为路径“A-B-C”,又如,图4中的模块A为根模块,模块B为历史异常原因模块,则确定得到的异常模块分析路径为路径可以为“A-B”,或者为“A-B-C”。
上述步骤S606,确定异常模块分析路径中包含的至少一个异常功能模块。该确定过程与图2中确定异常功能模块的过程类似,可以为:获取异常模块分析路径中的各个功能模块基于目标数据处理请求进行数据处理的耗时,将耗时不满足对应的预设耗时要求的功能模块,确定为异常模块分析路径中包含的异常功能模块,具体过程这里不再重复。
上述步骤S608中,根据异常模块分析路径中各个功能模块之间的依赖关系,在至少一个异常功能模块中确定导致数据处理异常的异常原因模块,可以为,将异常模块分析路径中距离根模块最远的异常功能模块,确定为导致数据处理异常的异常原因模块。
能够理解,目标功能模块的数据处理过程,受到其依赖的目标功能模块的数据处理过程的影响,比如图4中,模块C若数据处理速度过慢,将影响模块A和B的数据处理速度,因此本实施例中,将异常模块分析路径中距离根模块最远的异常功能模块,确定为异常原因模块,异常原因模块即为导致目标数据处理请求数据处理异常的原因模块,通过分析异常原因模块,可以解决分布式系统存在的问题,使得数据处理恢复正常。
一个实施例中,若异常模块分析路径中不存在异常功能模块,则通过图2中的方法确定异常原因模块和异常原因指标。
可见,通过本实施例,由于分布式系统的异常原因模块通常为固定的模块,或者通常位于固定的模块路径上,因此基于异常模块分析路径确定异常原因模块,可以提高分布式系统的异常原因确定速度,加快定位异常原因的效率。
综上,本申请实施例中的方法具有以下有益效果:
(1)可以自动化确定分布式系统的异常原因模块和异常原因指标,简单方便成本低,无需人工参与;
(2)基于异常原因模块和异常原因指标,可以发现分布式系统的系统异常,也可以发现代码逻辑异常,使得异常原因的确定范围更加全面;
(3)设置异常模块分析路径可以提高分布式系统异常确定的速度,加快后续定位异常原因的效率。
对应上述的异常分析方法,本申请实施例提供了一种异常分析装置,图7为本申请一实施例提供的异常分析装置的模块组成示意图,如图7所示,该装置包括:第一请求获取模块71、第一目标确定模块72、第一异常确定模块73、关系确定模块74和第一原因确定模块75。
图7中,第一请求获取模块71,用于获取分布式系统中数据处理异常的目标数据处理请求,第一目标确定模块72,用于确定分布式系统中处理目标数据处理请求的节点、以及该节点中处理目标数据处理请求的多个目标功能模块,第一异常确定模块73,用于在该多个目标功能模块中确定数据处理异常的至少一个异常功能模块,关系确定模块74,用于确定各个目标功能模块之间的依赖关系,第一原因确定模块75,用于根据该依赖关系,在上述至少一个异常功能模块中确定导致数据处理异常的异常原因模块。
可选地,分布式系统中的功能模块通过其包含的数据处理函数来处理数据处理请求,上述关系确定模块74具体用于:确定各个目标功能模块包含的数据处理函数以及各个数据处理函数之间的调用关系,根据各个目标功能模块包含的数据处理函数以及各个数据处理函数之间的调用关系,确定各个目标功能模块之间的依赖关系。
可选地,第一原因确定模块75具体用于:根据依赖关系,在多个目标功能模块中确定根模块,根据依赖关系,确定多个目标功能模块组成的至少一条模块路径,在各条模块路径中,将距离根模块最远的异常功能模块,确定为该条模块路径对应的异常原因模块。
可选地,第一异常确定模块73用于:获取各个目标功能模块基于目标数据处理请求进行数据处理的耗时,将该耗时不满足对应的预设耗时要求的目标功能模块,确定为数据处理异常的异常功能模块。
可选地,分布式系统中的功能模块具有表征其数据处理性能的至少一个数据处理性能指标,该装置还包括异常指标确定模块,用于:在确定导致数据处理异常的异常原因模块之后,在异常原因模块对应的至少一个数据处理性能指标中,确定异常原因指标。
可选地,异常指标确定模块具体用于:在异常原因模块对目标数据处理请求处理完成后,获取异常原因模块对应的各个数据处理性能指标的值,将数据处理性能指标的值不满足对应的预设数值要求的数据处理性能指标确定为异常原因指标。
可选地,该装置还包括要求确定模块,用于:根据异常原因模块的历史请求处理结果,获取异常原因模块对应的各个数据处理性能指标的历史值,根据获取的历史值的取值范围,确定异常原因模块对应的各个数据处理性能指标各自对应的预设数值要求。
可选地,该装置还包括异常路径确定模块,用于:在确定导致数据处理异常的异常原因模块之后,将异常原因模块对应的模块路径确定为目标数据处理请求对应的异常模块分析路径并存储。
可选地,该装置还包括第二原因确定模块,用于:在确定各个目标功能模块之间的依赖关系之前,获取预先存储的、目标数据处理请求对应的异常模块分析路径,将异常模块分析路径中距离根模块最远的异常功能模块,确定为导致数据处理异常的异常原因模块。
通过本实施例,在获取到分布式系统中数据处理异常的目标数据处理请求后,能够确定分布式系统中用于处理该目标数据处理请求的多个目标功能模块,并在该多个目标功能模块中确定数据处理异常的至少一个异常功能模块,进而根据各个目标功能模块之间的依赖关系,在该至少一个异常功能模块中确定导致数据处理异常的异常原因模块,从而高效快速地在分布式系统中自动确定数据处理异常的原因,提高异常原因的确定效率。
对应上述的异常分析方法,本申请实施例提供了一种异常分析装置,图8为本申请另一实施例提供的异常分析装置的模块组成示意图,如图8所示,该装置包括:第二请求获取模块81、路径获取模块82、第二异常确定模块83和第三原因确定模块84。
其中,第二请求获取模块81,用于获取分布式系统中数据处理异常的目标数据处理请求,路径获取模块82,用于获取预先存储的、目标数据处理请求对应的异常模块分析路径,第二异常确定模块83,用于确定异常模块分析路径中包含的至少一个异常功能模块,第三原因确定模块84,用于根据异常模块分析路径中各个功能模块之间的依赖关系,在至少一个异常功能模块中确定导致数据处理异常的异常原因模块。
可选地,异常模块分析路径为目标数据处理请求对应的历史异常原因模块所在的模块路径,第三原因确定模块84具体用于:将异常模块分析路径中距离根模块最远的异常功能模块,确定为导致数据处理异常的异常原因模块。
通过本实施例,由于分布式系统的异常原因模块通常为固定的模块,或者通常位于固定的模块路径上,因此基于异常模块分析路径确定异常原因模块,可以提高分布式系统的异常原因确定速度,加快定位异常原因的效率。
进一步地,本申请实施例还提供了一种异常分析设备,图9为本申请一实施例提供的异常分析设备的结构示意图,如图9所示,异常分析设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器901和存储器902,存储器902中可以存储有一个或一个以上存储应用程序或数据。其中,存储器902可以是短暂存储或持久存储。存储在存储器902的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对异常分析设备中的一系列计算机可执行指令。更进一步地,处理器901可以设置为与存储器902通信,在异常分析设备上执行存储器902中的一系列计算机可执行指令。异常分析设备还可以包括一个或一个以上电源903,一个或一个以上有线或无线网络接口904,一个或一个以上输入输出接口905,一个或一个以上键盘906等。
在一个具体的实施例中,异常分析设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对异常分析设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取分布式系统中数据处理异常的目标数据处理请求,确定分布式系统中处理目标数据处理请求的节点、以及该节点中处理目标数据处理请求的多个目标功能模块,在该多个目标功能模块中确定数据处理异常的至少一个异常功能模块,确定各个目标功能模块之间的依赖关系,根据该依赖关系,在该至少一个异常功能模块中确定导致数据处理异常的异常原因模块。
可选地,计算机可执行指令在被执行时,分布式系统中的功能模块通过其包含的数据处理函数来处理数据处理请求,上述确定各个目标功能模块之间的依赖关系,包括:确定各个目标功能模块包含的数据处理函数以及各个数据处理函数之间的调用关系,根据各个目标功能模块包含的数据处理函数以及各个数据处理函数之间的调用关系,确定各个目标功能模块之间的依赖关系。
可选地,计算机可执行指令在被执行时,根据依赖关系,在至少一个异常功能模块中确定导致数据处理异常的异常原因模块,包括:根据依赖关系,在多个目标功能模块中确定根模块,根据依赖关系,确定多个目标功能模块组成的至少一条模块路径,在各条模块路径中,将距离根模块最远的异常功能模块,确定为该条模块路径对应的异常原因模块。
可选地,计算机可执行指令在被执行时,在多个目标功能模块中确定数据处理异常的至少一个异常功能模块,包括:获取各个目标功能模块基于目标数据处理请求进行数据处理的耗时,将耗时不满足对应的预设耗时要求的目标功能模块,确定为数据处理异常的异常功能模块。
可选地,计算机可执行指令在被执行时,分布式系统中的功能模块具有表征其数据处理性能的至少一个数据处理性能指标,还包括:在确定导致数据处理异常的异常原因模块之后,在异常原因模块对应的至少一个数据处理性能指标中,确定异常原因指标。
可选地,计算机可执行指令在被执行时,在异常原因模块对应的至少一个数据处理性能指标中,确定异常原因指标,包括:在异常原因模块对目标数据处理请求处理完成后,获取异常原因模块对应的各个数据处理性能指标的值,将数据处理性能指标的值不满足对应的预设数值要求的数据处理性能指标确定为异常原因指标。
可选地,计算机可执行指令在被执行时,还包括:根据异常原因模块的历史请求处理结果,获取异常原因模块对应的各个数据处理性能指标的历史值,根据获取的历史值的取值范围,确定异常原因模块对应的各个数据处理性能指标各自对应的预设数值要求。
可选地,计算机可执行指令在被执行时,还包括:在确定导致数据处理异常的异常原因模块之后,将异常原因模块对应的模块路径确定为目标数据处理请求对应的异常模块分析路径并存储。
可选地,计算机可执行指令在被执行时,还包括:在确定各个目标功能模块之间的依赖关系之前,获取预先存储的、目标数据处理请求对应的异常模块分析路径,将异常模块分析路径中距离根模块最远的异常功能模块,确定为导致数据处理异常的异常原因模块。
通过本实施例,在获取到分布式系统中数据处理异常的目标数据处理请求后,能够确定分布式系统中用于处理该目标数据处理请求的多个目标功能模块,并在该多个目标功能模块中确定数据处理异常的至少一个异常功能模块,进而根据各个目标功能模块之间的依赖关系,在该至少一个异常功能模块中确定导致数据处理异常的异常原因模块,从而高效快速地在分布式系统中自动确定数据处理异常的原因,提高异常原因的确定效率。
在另一个具体的实施例中,异常分析设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对异常分析设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:获取分布式系统中数据处理异常的目标数据处理请求,获取预先存储的、目标数据处理请求对应的异常模块分析路径,确定异常模块分析路径中包含的至少一个异常功能模块,根据异常模块分析路径中各个功能模块之间的依赖关系,在至少一个异常功能模块中确定导致数据处理异常的异常原因模块。
可选地,计算机可执行指令在被执行时,异常模块分析路径为目标数据处理请求对应的历史异常原因模块所在的模块路径,根据异常模块分析路径中各个功能模块之间的依赖关系,在至少一个异常功能模块中确定导致数据处理异常的异常原因模块,包括:将异常模块分析路径中距离根模块最远的异常功能模块,确定为导致数据处理异常的异常原因模块。
通过本实施例,由于分布式系统的异常原因模块通常为固定的模块,或者通常位于固定的模块路径上,因此基于异常模块分析路径确定异常原因模块,可以提高分布式系统的异常原因确定速度,加快定位异常原因的效率。
进一步地,本申请实施例还提供了一种存储介质,用于存储计算机可执行指令,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
获取分布式系统中数据处理异常的目标数据处理请求,确定分布式系统中处理目标数据处理请求的节点、以及该节点中处理目标数据处理请求的多个目标功能模块,在该多个目标功能模块中确定数据处理异常的至少一个异常功能模块,确定各个目标功能模块之间的依赖关系,根据该依赖关系,在该至少一个异常功能模块中确定导致数据处理异常的异常原因模块。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,分布式系统中的功能模块通过其包含的数据处理函数来处理数据处理请求,上述确定各个目标功能模块之间的依赖关系,包括:确定各个目标功能模块包含的数据处理函数以及各个数据处理函数之间的调用关系,根据各个目标功能模块包含的数据处理函数以及各个数据处理函数之间的调用关系,确定各个目标功能模块之间的依赖关系。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,根据依赖关系,在至少一个异常功能模块中确定导致数据处理异常的异常原因模块,包括:根据依赖关系,在多个目标功能模块中确定根模块,根据依赖关系,确定多个目标功能模块组成的至少一条模块路径,在各条模块路径中,将距离根模块最远的异常功能模块,确定为该条模块路径对应的异常原因模块。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,在多个目标功能模块中确定数据处理异常的至少一个异常功能模块,包括:获取各个目标功能模块基于目标数据处理请求进行数据处理的耗时,将耗时不满足对应的预设耗时要求的目标功能模块,确定为数据处理异常的异常功能模块。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,分布式系统中的功能模块具有表征其数据处理性能的至少一个数据处理性能指标,还包括:在确定导致数据处理异常的异常原因模块之后,在异常原因模块对应的至少一个数据处理性能指标中,确定异常原因指标。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,在异常原因模块对应的至少一个数据处理性能指标中,确定异常原因指标,包括:在异常原因模块对目标数据处理请求处理完成后,获取异常原因模块对应的各个数据处理性能指标的值,将数据处理性能指标的值不满足对应的预设数值要求的数据处理性能指标确定为异常原因指标。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,还包括:根据异常原因模块的历史请求处理结果,获取异常原因模块对应的各个数据处理性能指标的历史值,根据获取的历史值的取值范围,确定异常原因模块对应的各个数据处理性能指标各自对应的预设数值要求。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,还包括:在确定导致数据处理异常的异常原因模块之后,将异常原因模块对应的模块路径确定为目标数据处理请求对应的异常模块分析路径并存储。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,还包括:在确定各个目标功能模块之间的依赖关系之前,获取预先存储的、目标数据处理请求对应的异常模块分析路径,将异常模块分析路径中距离根模块最远的异常功能模块,确定为导致数据处理异常的异常原因模块。
通过本实施例,在获取到分布式系统中数据处理异常的目标数据处理请求后,能够确定分布式系统中用于处理该目标数据处理请求的多个目标功能模块,并在该多个目标功能模块中确定数据处理异常的至少一个异常功能模块,进而根据各个目标功能模块之间的依赖关系,在该至少一个异常功能模块中确定导致数据处理异常的异常原因模块,从而高效快速地在分布式系统中自动确定数据处理异常的原因,提高异常原因的确定效率。
进一步地,本申请实施例还提供了一种存储介质,用于存储计算机可执行指令,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令在被处理器执行时,能实现以下流程:
获取分布式系统中数据处理异常的目标数据处理请求,获取预先存储的、目标数据处理请求对应的异常模块分析路径,确定异常模块分析路径中包含的至少一个异常功能模块,根据异常模块分析路径中各个功能模块之间的依赖关系,在至少一个异常功能模块中确定导致数据处理异常的异常原因模块。
可选地,该存储介质存储的计算机可执行指令在被处理器执行时,异常模块分析路径为目标数据处理请求对应的历史异常原因模块所在的模块路径,根据异常模块分析路径中各个功能模块之间的依赖关系,在至少一个异常功能模块中确定导致数据处理异常的异常原因模块,包括:将异常模块分析路径中距离根模块最远的异常功能模块,确定为导致数据处理异常的异常原因模块。
通过本实施例,由于分布式系统的异常原因模块通常为固定的模块,或者通常位于固定的模块路径上,因此基于异常模块分析路径确定异常原因模块,可以提高分布式系统的异常原因确定速度,加快定位异常原因的效率。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (26)

1.一种用于分布式系统的异常分析方法,所述分布式系统包括多个节点,所述方法包括:
获取所述分布式系统中数据处理异常的目标数据处理请求;
确定所述分布式系统中处理所述目标数据处理请求的节点、以及所述节点中处理所述目标数据处理请求的多个目标功能模块;
在所述多个目标功能模块中确定数据处理异常的至少一个异常功能模块;
确定各个目标功能模块之间的依赖关系;
根据所述依赖关系,在所述至少一个异常功能模块中确定导致数据处理异常的异常原因模块。
2.根据权利要求1所述的方法,其中,所述功能模块通过其包含的数据处理函数来处理所述数据处理请求,确定各个目标功能模块之间的依赖关系,包括:
确定各个目标功能模块包含的数据处理函数以及各个所述数据处理函数之间的调用关系;
根据各个目标功能模块包含的数据处理函数以及各个所述数据处理函数之间的调用关系,确定各个目标功能模块之间的依赖关系。
3.根据权利要求1所述的方法,其中,根据所述依赖关系,在所述至少一个异常功能模块中确定导致数据处理异常的异常原因模块,包括:
根据所述依赖关系,在所述多个目标功能模块中确定根模块;
根据所述依赖关系,确定所述多个目标功能模块组成的至少一条模块路径;
在各条所述模块路径中,将距离所述根模块最远的所述异常功能模块,确定为该条模块路径对应的所述异常原因模块。
4.根据权利要求1所述的方法,其中,在所述多个目标功能模块中确定数据处理异常的至少一个异常功能模块,包括:
获取各个所述目标功能模块基于所述目标数据处理请求进行数据处理的耗时;
将所述耗时不满足对应的预设耗时要求的目标功能模块,确定为数据处理异常的所述异常功能模块。
5.根据权利要求1至4任一项所述的方法,其中,所述功能模块具有表征其数据处理性能的至少一个数据处理性能指标,所述方法还包括:
在确定导致数据处理异常的异常原因模块之后,在所述异常原因模块对应的至少一个数据处理性能指标中,确定异常原因指标。
6.根据权利要求5所述的方法,其中,在所述异常原因模块对应的至少一个数据处理性能指标中,确定异常原因指标,包括:
在所述异常原因模块对所述目标数据处理请求处理完成后,获取所述异常原因模块对应的各个数据处理性能指标的值;
将所述数据处理性能指标的值不满足对应的预设数值要求的数据处理性能指标确定为所述异常原因指标。
7.根据权利要求6所述的方法,其中,还包括:
根据所述异常原因模块的历史请求处理结果,获取所述异常原因模块对应的各个所述数据处理性能指标的历史值;
根据获取的所述历史值的取值范围,确定所述异常原因模块对应的各个所述数据处理性能指标各自对应的所述预设数值要求。
8.根据权利要求1至4任一项所述的方法,其中,还包括:
在确定导致数据处理异常的异常原因模块之后,将所述异常原因模块对应的模块路径确定为所述目标数据处理请求对应的异常模块分析路径并存储。
9.根据权利要求8所述的方法,其中,还包括:
在确定各个目标功能模块之间的依赖关系之前,获取预先存储的、所述目标数据处理请求对应的异常模块分析路径;
将所述异常模块分析路径中距离根模块最远的异常功能模块,确定为导致数据处理异常的异常原因模块。
10.一种用于分布式系统的异常分析方法,所述分布式系统包括多个节点,所述方法包括:
获取所述分布式系统中数据处理异常的目标数据处理请求;
获取预先存储的、所述目标数据处理请求对应的异常模块分析路径;
确定所述异常模块分析路径中包含的至少一个异常功能模块;
根据所述异常模块分析路径中各个功能模块之间的依赖关系,在所述至少一个异常功能模块中确定导致数据处理异常的异常原因模块。
11.根据权利要求10所述的方法,其中,所述异常模块分析路径为所述目标数据处理请求对应的历史异常原因模块所在的模块路径,根据所述异常模块分析路径中各个功能模块之间的依赖关系,在所述至少一个异常功能模块中确定导致数据处理异常的异常原因模块,包括:
将所述异常模块分析路径中距离根模块最远的所述异常功能模块,确定为导致数据处理异常的异常原因模块。
12.一种用于分布式系统的异常分析装置,所述分布式系统包括多个节点,所述装置包括:
第一请求获取模块,用于获取所述分布式系统中数据处理异常的目标数据处理请求;
第一目标确定模块,用于确定所述分布式系统中处理所述目标数据处理请求的节点、以及所述节点中处理所述目标数据处理请求的多个目标功能模块;
第一异常确定模块,用于在所述多个目标功能模块中确定数据处理异常的至少一个异常功能模块;
关系确定模块,用于确定各个目标功能模块之间的依赖关系;
第一原因确定模块,用于根据所述依赖关系,在所述至少一个异常功能模块中确定导致数据处理异常的异常原因模块。
13.根据权利要求12所述的装置,其中,所述功能模块通过其包含的数据处理函数来处理所述数据处理请求,所述关系确定模块具体用于:
确定各个目标功能模块包含的数据处理函数以及各个所述数据处理函数之间的调用关系;
根据各个目标功能模块包含的数据处理函数以及各个所述数据处理函数之间的调用关系,确定各个目标功能模块之间的依赖关系。
14.根据权利要求12所述的装置,其中,所述第一原因确定模块具体用于:
根据所述依赖关系,在所述多个目标功能模块中确定根模块;
根据所述依赖关系,确定所述多个目标功能模块组成的至少一条模块路径;
在各条所述模块路径中,将距离所述根模块最远的所述异常功能模块,确定为该条模块路径对应的所述异常原因模块。
15.根据权利要求12所述的装置,其中,所述第一异常确定模块用于:
获取各个所述目标功能模块基于所述目标数据处理请求进行数据处理的耗时;
将所述耗时不满足对应的预设耗时要求的目标功能模块,确定为数据处理异常的所述异常功能模块。
16.根据权利要求12至15任一项所述的装置,其中,所述功能模块具有表征其数据处理性能的至少一个数据处理性能指标,所述装置还包括异常指标确定模块,用于:
在确定导致数据处理异常的异常原因模块之后,在所述异常原因模块对应的至少一个数据处理性能指标中,确定异常原因指标。
17.根据权利要求16所述的装置,其中,所述异常指标确定模块具体用于:
在所述异常原因模块对所述目标数据处理请求处理完成后,获取所述异常原因模块对应的各个数据处理性能指标的值;
将所述数据处理性能指标的值不满足对应的预设数值要求的数据处理性能指标确定为所述异常原因指标。
18.根据权利要求17所述的装置,其中,还包括要求确定模块,用于:
根据所述异常原因模块的历史请求处理结果,获取所述异常原因模块对应的各个所述数据处理性能指标的历史值;
根据获取的所述历史值的取值范围,确定所述异常原因模块对应的各个所述数据处理性能指标各自对应的所述预设数值要求。
19.根据权利要求12至15任一项所述的装置,其中,还包括异常路径确定模块,用于:
在确定导致数据处理异常的异常原因模块之后,将所述异常原因模块对应的模块路径确定为所述目标数据处理请求对应的异常模块分析路径并存储。
20.根据权利要求19所述的装置,还包括第二原因确定模块,用于:
在确定各个目标功能模块之间的依赖关系之前,获取预先存储的、所述目标数据处理请求对应的异常模块分析路径;
将所述异常模块分析路径中距离根模块最远的异常功能模块,确定为导致数据处理异常的异常原因模块。
21.一种用于分布式系统的异常分析装置,所述分布式系统包括多个节点,所述装置包括:
第二请求获取模块,用于获取所述分布式系统中数据处理异常的目标数据处理请求;
路径获取模块,用于获取预先存储的、所述目标数据处理请求对应的异常模块分析路径;
第二异常确定模块,用于确定所述异常模块分析路径中包含的至少一个异常功能模块;
第三原因确定模块,用于根据所述异常模块分析路径中各个功能模块之间的依赖关系,在所述至少一个异常功能模块中确定导致数据处理异常的异常原因模块。
22.根据权利要求21所述的装置,其中,所述异常模块分析路径为所述目标数据处理请求对应的历史异常原因模块所在的模块路径,所述第三原因确定模块具体用于:
将所述异常模块分析路径中距离根模块最远的所述异常功能模块,确定为导致数据处理异常的异常原因模块。
23.一种异常分析设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求1至9中任一项所述的异常分析方法。
24.一种存储介质,用于存储计算机可执行指令,其中,所述计算机可执行指令在被执行时实现根据权利要求1至9中任一项所述的异常分析方法。
25.一种异常分析设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行根据权利要求10至11中任一项所述的异常分析方法。
26.一种存储介质,用于存储计算机可执行指令,其中,所述计算机可执行指令在被执行时实现根据权利要求10至11中任一项所述的异常分析方法。
CN201810664379.4A 2018-06-25 2018-06-25 用于分布式系统的异常分析方法及装置 Active CN110635962B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810664379.4A CN110635962B (zh) 2018-06-25 2018-06-25 用于分布式系统的异常分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810664379.4A CN110635962B (zh) 2018-06-25 2018-06-25 用于分布式系统的异常分析方法及装置

Publications (2)

Publication Number Publication Date
CN110635962A true CN110635962A (zh) 2019-12-31
CN110635962B CN110635962B (zh) 2022-12-16

Family

ID=68968682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810664379.4A Active CN110635962B (zh) 2018-06-25 2018-06-25 用于分布式系统的异常分析方法及装置

Country Status (1)

Country Link
CN (1) CN110635962B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112526905A (zh) * 2020-11-27 2021-03-19 杭州萤石软件有限公司 一种针对指标异常的处理方法及系统
CN112965882A (zh) * 2021-03-30 2021-06-15 北京三快在线科技有限公司 一种数据故障分析的方法及装置
CN113468036A (zh) * 2021-07-15 2021-10-01 上海晶赞融宣科技有限公司 任务执行耗时分析方法及装置、存储介质、终端
CN113572683A (zh) * 2020-04-29 2021-10-29 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN115048315A (zh) * 2022-07-06 2022-09-13 东软睿驰汽车技术(沈阳)有限公司 自动驾驶仿真测试结果的分析方法、装置和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
WO2016090929A1 (zh) * 2014-12-10 2016-06-16 中兴通讯股份有限公司 软件系统故障诊断方法、服务器及系统
CN106502907A (zh) * 2016-10-28 2017-03-15 中国科学院软件研究所 一种基于执行轨迹追踪的分布式软件异常诊断方法
US9602381B1 (en) * 2013-04-24 2017-03-21 Amazon Technologies, Inc. Real time adaptive monitoring
CN106789306A (zh) * 2016-12-30 2017-05-31 深圳市风云实业有限公司 通信设备软件故障检测收集恢复方法和系统
CN107066365A (zh) * 2017-02-20 2017-08-18 阿里巴巴集团控股有限公司 一种系统异常的监测方法及装置
CN107301120A (zh) * 2017-07-12 2017-10-27 北京京东尚科信息技术有限公司 用于处理非结构化日志的方法及装置
CN107391101A (zh) * 2017-04-21 2017-11-24 阿里巴巴集团控股有限公司 一种信息处理方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9602381B1 (en) * 2013-04-24 2017-03-21 Amazon Technologies, Inc. Real time adaptive monitoring
WO2016090929A1 (zh) * 2014-12-10 2016-06-16 中兴通讯股份有限公司 软件系统故障诊断方法、服务器及系统
CN105337765A (zh) * 2015-10-10 2016-02-17 上海新炬网络信息技术有限公司 一种分布式hadoop集群故障自动诊断修复系统
CN106502907A (zh) * 2016-10-28 2017-03-15 中国科学院软件研究所 一种基于执行轨迹追踪的分布式软件异常诊断方法
CN106789306A (zh) * 2016-12-30 2017-05-31 深圳市风云实业有限公司 通信设备软件故障检测收集恢复方法和系统
CN107066365A (zh) * 2017-02-20 2017-08-18 阿里巴巴集团控股有限公司 一种系统异常的监测方法及装置
CN107391101A (zh) * 2017-04-21 2017-11-24 阿里巴巴集团控股有限公司 一种信息处理方法及装置
CN107301120A (zh) * 2017-07-12 2017-10-27 北京京东尚科信息技术有限公司 用于处理非结构化日志的方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113572683A (zh) * 2020-04-29 2021-10-29 腾讯科技(深圳)有限公司 数据处理方法、装置、电子设备及存储介质
CN112526905A (zh) * 2020-11-27 2021-03-19 杭州萤石软件有限公司 一种针对指标异常的处理方法及系统
CN112965882A (zh) * 2021-03-30 2021-06-15 北京三快在线科技有限公司 一种数据故障分析的方法及装置
CN113468036A (zh) * 2021-07-15 2021-10-01 上海晶赞融宣科技有限公司 任务执行耗时分析方法及装置、存储介质、终端
CN113468036B (zh) * 2021-07-15 2023-11-24 上海晶赞融宣科技有限公司 任务执行耗时分析方法及装置、存储介质、终端
CN115048315A (zh) * 2022-07-06 2022-09-13 东软睿驰汽车技术(沈阳)有限公司 自动驾驶仿真测试结果的分析方法、装置和电子设备

Also Published As

Publication number Publication date
CN110635962B (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
CN110635962B (zh) 用于分布式系统的异常分析方法及装置
CN108460523B (zh) 一种风控规则生成方法和装置
CN108845936B (zh) 一种基于海量用户的ab测试方法及系统
CN107526667B (zh) 一种指标异常检测方法、装置以及电子设备
CN107577697B (zh) 一种数据处理方法、装置及设备
CN110262937B (zh) 一种指标异常原因的识别方法及装置
CN109104327B (zh) 一种业务日志生成方法、装置及设备
CN108073687B (zh) 随机游走、基于集群的随机游走方法、装置以及设备
CN110634030A (zh) 应用的业务指标挖掘方法、装置及设备
CN110888756A (zh) 一种诊断日志生成方法及装置
CN107451204B (zh) 一种数据查询方法、装置及设备
CN111639011A (zh) 一种数据监控方法、装置及设备
CN109886804B (zh) 一种任务处理方法及装置
CN114115016A (zh) 一种数据处理方法、装置、设备及介质
CN111753328B (zh) 隐私数据的泄露风险检测方法及系统
CN110083602B (zh) 一种基于hive表的数据存储及数据处理的方法及装置
CN110019975B (zh) 随机游走、基于集群的随机游走方法、装置以及设备
CN107562533B (zh) 一种数据加载处理方法及装置
CN109039695B (zh) 业务故障处理方法、装置及设备
CN108470242B (zh) 风险管控方法、装置、及服务器
CN107368281B (zh) 一种数据处理方法及装置
CN107544753B (zh) 数据处理方法、装置及服务器
CN109658094B (zh) 随机游走、基于集群的随机游走方法、装置以及设备
CN111918315A (zh) 基站退服原因分析方法及装置、设备、存储介质
CN114840427A (zh) 一种代码测试、测试用例生成的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant