CN111488289A - 一种故障定位方法、装置和设备 - Google Patents

一种故障定位方法、装置和设备 Download PDF

Info

Publication number
CN111488289A
CN111488289A CN202010338706.4A CN202010338706A CN111488289A CN 111488289 A CN111488289 A CN 111488289A CN 202010338706 A CN202010338706 A CN 202010338706A CN 111488289 A CN111488289 A CN 111488289A
Authority
CN
China
Prior art keywords
target
application
applications
service
time period
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010338706.4A
Other languages
English (en)
Other versions
CN111488289B (zh
Inventor
吴培
唐波
陈路文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced Nova Technology Singapore Holdings Ltd
Original Assignee
Alipay Labs Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Labs Singapore Pte Ltd filed Critical Alipay Labs Singapore Pte Ltd
Priority to CN202010338706.4A priority Critical patent/CN111488289B/zh
Publication of CN111488289A publication Critical patent/CN111488289A/zh
Application granted granted Critical
Publication of CN111488289B publication Critical patent/CN111488289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/366Software debugging using diagnostics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/547Remote procedure calls [RPC]; Web services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本说明书实施例公开了一种故障定位方法、装置和设备,其中,故障定位方法,可以先确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息,其中,目标服务包括入口服务和出口服务,一个应用提供的入口服务是该应用被其他应用调用而提供的服务,一个应用提供的出口服务是该应用通过调用其他应用而提供的服务,预设参数包括成功率或失败率;然后基于所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息,定位所述目标业务系统中的故障位置。

Description

一种故障定位方法、装置和设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种故障定位方法、装置和设备。
背景技术
在线服务提供方在向用户提供各种服务时,常需要一套复杂的业务系统来支撑,该业务系统中可能包括很多个应用服务(简称应用),通过调用这些应用可以处理用户请求的相关业务,向用户提供相应的服务。例如,第三方支付平台作为支付服务提供方,其背后有一套复杂的支付系统,通过调用支付系统内的不同应用处理各商户的支付请求,且第三方支付平台常常作为一个开放平台,商户可通过集成第三方支付平台的开放API(OpenAPI)开展一些业务,而一个开放API之所以能发挥作用,也是靠支付系统内部繁多的应用作支撑。
在对外提供服务的过程中,服务提供方的业务系统中的应用之间往往存在调用关系。如果将一个应用抽象成一个节点,将应用之间的调用关系抽象成边,那么一笔业务的处理将对应一个复杂的应用调用拓扑图。当业务系统内部的一个应用出现故障时,会在相关联的应用调用链路上产生连锁反应,导致业务处理成功率(或者说服务成功率)下降,需要进行故障定位。
相关技术中常基于应用调用拓扑图进行故障定位,但是一个业务系统的应用调用拓扑图往往很复杂,导致故障定位效率很低。
发明内容
本说明书实施例提供了一种故障定位方法、装置和设备,以提高故障定位效率。
为解决上述技术问题,本说明书实施例是这样实现的:
第一方面,提出了一种故障定位方法,包括:
确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息,其中,所述目标服务包括入口服务和出口服务,一个应用提供的入口服务是该应用被其他应用调用而提供的服务,一个应用提供的出口服务是该应用通过调用其他应用而提供的服务,所述预设参数包括成功率或失败率;
基于所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息,定位所述目标业务系统中的故障位置。
第二方面,提出了一种故障定位装置,包括:
信息确定模块,用于确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息,其中,所述目标服务包括入口服务和出口服务,一个应用提供的入口服务是该应用被其他应用调用而提供的服务,一个应用提供的出口服务是该应用通过调用其他应用而提供的服务,所述预设参数包括成功率或失败率;
第一故障定位模块,用于基于所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息,定位所述目标业务系统中的故障位置。
第三方面,提出了一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息,其中,所述目标服务包括入口服务和出口服务,一个应用提供的入口服务是该应用被其他应用调用而提供的服务,一个应用提供的出口服务是该应用通过调用其他应用而提供的服务,所述预设参数包括成功率或失败率;
基于所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息,定位所述目标业务系统中的故障位置。
第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息,其中,所述目标服务包括入口服务和出口服务,一个应用提供的入口服务是该应用被其他应用调用而提供的服务,一个应用提供的出口服务是该应用通过调用其他应用而提供的服务,所述预设参数包括成功率或失败率;
基于所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息,定位所述目标业务系统中的故障位置。
本说明书实施例提供的技术方案,基于目标业务系统中的多个应用在目标时段内提供入口服务和出口服务的成功率或失败率变化信息,即可定位出目标业务系统中的具体故障位置,不依赖目标业务系统中多个应用间的调用拓扑图,使得故障定位过程变得非常简单,因此可以提升故障定位效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本说明书实施例提供的一种故障定位方法的流程示意图之一。
图2是图1所示的故障定位方法中步骤102的一种详细实现流程示意图。
图3是图1所示的故障定位方法中步骤102的另一种详细实现流程示意图。
图4是本说明书实施例提供的目标业务系统中的多个应用的一种调用拓扑示意图。
图5是本说明书实施例提供的一种故障定位方法的原理示意图。
图6是本说明书实施例提供的一种故障定位方法的流程示意图之二。
图7是本说明书实施例提供的一种电子设备的结构示意图。
图8是本说明书实施例提供的一种故障定位装置的结构示意图之一。
图9是图8所示的故障定位装置中模块801的一种详细结构示意图。
图10是图8所示的故障定位装置中模块801的另一种详细结构示意图。
图11是本说明书实施例提供的一种故障定位装置的结构示意图之二。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了提高在线服务提供方的业务系统的故障定位效率,本说明书实施例提供一种故障定位方法和装置。本说明书实施例提供的方法和装置可由电子设备执行,例如终端设备或服务端设备。换言之,所述方法可以由安装在终端设备或服务端设备的软件或硬件来执行。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述终端设备包括但不限于:智能手机、个人电脑(personal computer,PC)、笔记本电脑、平板电脑、电子阅读器、网络电视、可穿戴设备等智能终端设备中的任一种。
上述在线服务提供方可以是任何通过网络向用户提供服务的平台或应用,这些平台或应用在向用户提供服务时,依靠背后的业务系统的来支撑,该业务系统(即下文的目标业务系统)中包括多个应用服务(简称应用)。例如,向用户提供支付或转账服务的第三方支付平台,以及向用户提供购物服务的电商平台这样的开放平台,等等。
当在线服务提供方为开放平台时,其业务系统可通过一些开放API(Open API)对外开展业务(或者说对外提供服务),且一个开放API具体是通过调用该业务系统中的多个应用对外开展业务。
下面先对本说明书实施例提供的一种故障定位方法进行说明。
图1是本说明书的一个实施例提供的一种故障定位方法的实现流程示意图。如图1所示,该方法可以包括如下步骤:
步骤102、确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息。
上述目标服务包括入口服务和出口服务,其中,一个应用提供的入口服务是该应用被其他应用调用而提供的服务,例如,当应用A调用B对外提供服务时,那么,对于应用B而言,该对外提供的服务即为应用B提供的入口服务,对于应用A而言,该对外提供的服务即为应用A提供的出口服务。
上述预设参数包括但不限于成功率或失败率。一个应用在目标时段内提供目标服务(入口服务或出口服务)的成功率,是指该应用在目标时段内提供目标服务的成功次数n占该应用在目标时段内提供目标服务的总次数m的比例,也即:失败率=n/m。一个应用在目标时段内提供目标服务(入口服务或出口服务)的失败率,是指该应用在目标时段内提供目标服务的失败次数l占该应用在目标时段内提供目标服务的总次数m的比例,也即:失败率=l/m。一般而言,一个应用在目标时段内提供目标服务的成功率,与一个应用在目标时段内提供目标服务的失败率,存在如下关系:n/m+l/m=1。
上述目标时段可以是距当前时刻最近的一个时段(可以包含当前时刻),例如,假设当前时刻为12:00,那上述目标时段可以是11:59-12:00这一时段。上述目标时段可以看做是一个预设的时间窗口,该时间窗口的大小可以根据实际需要设定,如1min、1h、1天等。
一个应用在目标时段内提供目标服务的预设参数的变化信息,可以是该应用在目标时段内提供目标服务的预设参数的变化是否正常的信息。预设参数的变化具体可以是预设参数的下跌或上涨。一般来说,当预设参数为成功率时,预设参数的变化可以是下跌;当预设参数为失败率时,预设参数的变化可以是上涨。
更为具体的,一个应用在目标时段内提供目标服务的预设参数的变化是否正常,是通过比较该应用在目标时段内提供目标服务的预设参数,相对于该应用在预设历史时段内提供目标服务的预设参数的变化幅度来确定的。一般而言,如果变化幅度超过预设幅度(如20%),则认为该应用在目标时段内提供目标服务的预设参数的变化异常(不正常);如果变化幅度未超过预设幅度,则认为该应用在目标时段内提供目标服务的预设参数的变化正常。
其中,当预设参数为成功率时,上述变化幅度可以为下跌幅度;当预设参数为失败率时,上述变化幅度为上涨幅度,可以理解,当一个应用在目标时段内提供目标服务的成功率下跌很多时,说明该应用在目标时段内提供目标服务的成功率的变化不正常,反之正常;同理,当一个应用在目标时段内提供目标服务的失败率上涨很多时,说明该应用在目标时段内提供目标服务的失败率的变化也不正常,反之正常。
上述预设历史时段是较目标时段更早的一个时段。上述预设历史时段的长度与目标时段的长度可以相等也可以不等。当上述比较为同比时,上述预设历史时段可以距目标时段最近、且与目标时段等长的一个历史时段,如,当目标时段为当前1分钟时,预设历史时段可以是上一分钟。当上述比较为环比时,上述预设历史时段可以上一周期内与目标时段相同的一个历史时段,如,当目标时段为今天的11:59-12:00这一时段时,预设历史时段可以是昨天的11:59-12:00这一时段。
可选地,作为比较基准的一个应用在预设历史时段内提供目标服务的预设参数的变化是正常的。在同比对比时,如果该应用在距目标时段最近、且与目标时段等长的一个历史时段内提供目标服务的预设参数的变化也不正常,可以继续往回追溯,将该应用在距目标时段次近、且与目标时段等长的一个历史时段内提供目标服务的预设参数作为比较基准。在环比对比时,如果该应用在上一周期内与目标时段相同的一个历史时段内提供目标服务的预设参数的变化也不正常,可以继续往回追溯,将该应用在更上一周期内与目标时段相同的一个历史时段内提供目标服务的预设参数作为比较基准。
下面分别结合图2和图3对步骤102中确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息的两种可能的方式进行说明。
第一实施方式
如图2所示,上述步骤102具体可以包括如下步骤:
步骤202、获取所述目标业务系统在所述目标时段内的告警事件,其中,所述告警事件是所述多个应用中的至少一个应用在所述目标时段内提供所述目标服务的预设参数的变化异常时生成的。
具体可以从目标业务系统的监控系统中获取目标业务系统在目标时段内的告警事件。目标业务系统的监控系统生成告警事件的过程如下:首先,获取目标业务系统中的多个应用在目标时段内的日志,一个应用的日志中记录了该应用提供目标服务的总次数,以及成功次数或失败次数;然后,基于这多个应用在目标时段内的日志,确定这多个应用在目标时段内提供所述目标服务的预设参数(具体确定方式详见下文对步骤304的说明);再次,基于这多个应用在目标时段内提供目标服务的预设参数,分别相对于这多个应用在预设历史时段内提供目标服务的预设参数的变化幅度,确定这多个应用在目标时段内提供目标服务的预设参数的变化信息(具体确定方式详见下文对步骤306的说明);最后,当这多个应用中的至少一个应用在目标时段内提供所述目标服务的预设参数的变化异常时,生成所述至少一个应用在目标时段内的告警事件。
步骤204、对获取的告警事件按照所述多个应用进行分组,一个应用对应两组告警事件,所述两组告警事件中的一组是入口服务的告警事件,所述两组告警事件中的另一组是出口服务的告警事件。
假如上述多个应用的数量为k,分组后最多可以得到2k组告警事件,一个应用对应2组:入口服务的告警事件组和出口服务的告警事件组。一个应用对应的各告警事件组中的告警事件的数量可以为零,也可以不为零(大于或等于一)。
步骤206、基于所述多个应用对应的两组告警事件,分别确定所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息。
如前文所述,由于一个应用的告警事件,是在该应用在目标时段内提供目标服务的预设参数的变化异常时生成的,因此步骤206具体可以通过如下几种方式,确定上述多个应用的一个应用在所述目标时段内提供目标服务(入口服务和出口服务)的预设参数的变化信息:
(1)当所述多个应用中的一个应用对应的入口服务的告警事件数量为零时,确定该应用在所述目标时段内提供所述入口服务的预设参数的变化正常;
(2)当所述多个应用中的一个应用对应的入口服务的告警事件数量大于或等于一时,确定该应用在所述目标时段内提供所述入口服务的预设参数的变化异常;
(3)当所述多个应用中的一个应用对应的出口服务的告警事件数量为零时,确定该应用在所述目标时段内提供所述出口服务的预设参数的变化正常;
(4)当所述多个应用中的一个应用对应的出口服务的告警事件数量大于或等于一时,确定该应用在所述目标时段内提供所述出口服务的预设参数的变化异常。
上述第一种实施方式,由于只需要对目标业务系统外围的监控系统生成的告警事件进行采集、分组,然后按照简洁的判断规则,即可确定出目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息,算法逻辑相对简易,对算力的要求不高,因此,计算速度更快,从而可以提升故障定位效率。
第二种实施方式
如图3所示,上述步骤102具体可以包括如下步骤:
步骤302、获取所述多个应用在所述目标时段内的日志。
其中,一个应用的日志中记录了该应用提供所述目标服务的总次数和成功次数,或者,一个应用的日志中记录了该应用提供所述目标服务的总次数和失败次数。
在实际应用中,可以按照预设周期轮询目标业务系统中的多个应用的日志并获取,该预设周期的大小可以小于或等于上述目标时段。
步骤304、基于所述多个应用在所述目标时段内的日志,确定所述多个应用在所述目标时段内提供所述目标服务的预设参数。
当预设参数为成功率时,基于所述多个应用在所述目标时段内的日志,确定所述多个应用在所述目标时段内提供所述目标服务的预设参数,可包括:对所述多个应用中的任一应用,基于该应用在所述目标时段内的日志,确定该应用在所述目标时段内提供所述目标服务的成功次数占总次数的比例;将所述比例确定为该应用在所述目标时段内提供所述目标服务的成功率。
当预设参数为失败率时,基于所述多个应用在所述目标时段内的日志,确定所述多个应用在所述目标时段内提供所述目标服务的预设参数,可包括:对所述多个应用中的任一应用,基于该应用在所述目标时段内的日志,确定该应用在所述目标时段内提供所述目标服务的失败次数占总次数的比例;将所述比例确定为该应用在所述目标时段内提供所述目标服务的失败率。
步骤306、基于所述多个应用在所述目标时段内提供所述目标服务的预设参数,分别相对于所述多个应用在预设历史时段内提供所述目标服务的预设参数的变化幅度,确定所述多个应用在所述目标时段内提供所述目标服务的预设参数的变化信息。
具体的,当所述多个应用中的一个应用在所述目标时段内提供所述目标服务的预设参数,相对于该应用在预设历史时段内提供所述目标服务的预设参数的变化幅度超过预设幅度时,确定该应用在所述目标时段内提供所述目标服务的预设参数的变化异常;当所述多个应用中的一个应用在所述目标时段内提供所述目标服务的预设参数,相对于该应用在预设历史时段内提供所述目标服务的预设参数的变化幅度未超过预设幅度时,确定该应用在所述目标时段内提供所述目标服务的预设参数的变化正常。其中,当预设参数为成功率时,所述变化幅度为下跌幅度;当预设参数为失败率时,所述变化幅度为上涨幅度。其中,关于预设历史时段的说明请参照上文,此处不再赘述。
上述第二种实施方式,通过读取目标业务系统中的多个应用在目标时段内提供目标服务的日志,并根据其中记录的各应用提供目标服务的总次数,以及成功或失败次数,即可确定出这多个应用在目标时段的提供目标服务(入口服务和出口服务)的预设参数(成功率或失败率),然后,通过与预设历史时段的预设参数进行比较,即可确定出这多个应用在目标时段内提供目标服务的预设参数的变化信息,相对于相关技术中基于调用拓扑图定位故障点的方式对算力的要求也不高,因此,也可以提升故障定位效率。
步骤104、基于目标业务系统中多个应用在目标时段内提供目标服务的预设参数的变化信息,定位目标业务系统中的故障位置。
如前文所述,目标服务包括入口服务和出口服务;预设参数的变化信息包括预设参数的变化是否正常的信息,预设参数的变化是指预设参数的下跌或上涨,具体的,当预设参数为成功率时,预设参数的变化是指预设参数的下跌,当预设参数为失败率时,预设参数的变化是指预设参数的上涨。
下面结合图4和图5,对本说明书实施例能够基于目标业务系统中多个应用在目标时段内提供目标服务的预设参数的变化信息,定位目标业务系统中的故障位置的原理进行说明。
假设目标业务系统为第三方支付平台这一开放平台的支付系统,且该支付系统通过一些开放API(Open API)调用支付系统的多个应用对外提供服务。具体的,如图4所示,假设支付系统提供了两个开放API:支付服务(Pay)和转账服务(Transfer),外部商户调用这两个开放API的请求经过网关(GW)进来,在支付系统内部,分别对应着两个不同的应用调用链路,且链路间存在交叉。链路中的A、B、C、E、F为软件即服务(Software As A Service,SAAS)应用节点,T为平台即服务(Platform As A Service,PAAS)的存储设施,假设当应用B产生故障时,这个时候在支付服务API调用链路上的GW、A、B、E的服务成功率都会下跌,运维人员会收到来自GW、A、B和E的服务成功率下跌告警,但是相关技术却判断不出具体是哪个节点出现了故障。
而本说明书实施例,如图5所示,以目标业务系统中的各个应用为原子的分析单元,对一个待诊断应用,关注它的入口服务成功率、出口服务成功率,将一个应用的基于入口服务成功率和出口服务成功率结合在一起,可以推断出是待诊断应用的上游、下游还是自身出了问题,具体可以得出如图5所示的四种判定规则:
(1)待诊断应用的入口服务成功率和出口服务成功率都是正常的,那么可以判定待诊断应用自身未出现故障,而是其至少一个上游应用(图5中为了简要,仅示出了待诊断应用的一个上游应用)出现故障。
(2)待诊断应用的入口服务成功率正常,但是出口服务成功率下跌(成功率的变化异常),这种情况下在一些下游服务可降级的情况下才会发生,暂时不做考虑。
(3)待诊断应用的入口服务成功率下跌(成功率的变化异常),但出口服务成功率正常,那么可以判定待诊断应用自身出现了故障。
(4)待诊断应用的入口服务成功率和出口服务成功率都有下跌(成功率的变化都异常),则可以判定待诊断应用的至少一个下游应用和/或下游设施出现了故障,例如,下游的存储数据库和中间件出现了故障。
同理,对一个待诊断应用,关注它的入口服务失败率、出口服务失败率,将一个应用的基于入口服务失败率和出口服务失败率结合在一起,也可以推断出是待诊断应用的上游、下游还是自身出了问题,并得出下述四种判定规则:
(1)待诊断应用的入口服务失败率和出口服务失败率都是正常的,那么可以判定待诊断应用自身未出现故障,而是其至少一个上游应用出现故障。
(2)待诊断应用的入口服务失败率正常,但是出口服务失败率上涨(失败率的变化异常),这种情况下在一些下游服务可降级的情况下才会发生,暂时不做考虑。
(3)待诊断应用的入口服务失败率上涨(失败率的变化异常),但出口服务失败率正常,那么可以判定待诊断应用自身出现了故障。
(4)待诊断应用的入口服务失败率和出口服务失败率都有上涨(失败率的变化都异常),则可以判定待诊断应用的至少一个下游应用和/或下游设施出现了故障。
基于上述原理,步骤104至少可包括:
当目标业务系统中的多个应用中的一个应用提供入口服务和出口服务的预设参数的变化均正常时,确定该应用的至少一个上游应用出现故障;
当目标业务系统中的多个应用中的一个应用提供入口服务的预设参数的变化异常,且该应用提供出口服务的预设参数的变化正常时,确定该应用出现故障;
当目标业务系统中的多个应用中的一个应用提供入口服务的预设参数的变化异常,且该应用提供出口服务的预设参数的变化异常时,确定该应用的至少一个下游应用和/或下游设施出现故障。
本说明书实施例提供的故障定位方法,基于目标业务系统中的多个应用在目标时段内提供入口服务和出口服务的成功率或失败率变化信息,即可定位出目标业务系统中的具体故障位置,不依赖目标业务系统中多个应用间的调用拓扑图,使得故障定位过程变得非常简单,因此可以提升故障定位效率。
此外,本说明书实施例提供的故障定位方法,算法逻辑相对简易,核心的处理逻辑(告警事件分组和故障判定)对算力要求不高,因此可以进一步提升定位效率。再有,本说明书实施例提供的故障定位方法,可以规避单节点(单个应用)故障时在整个链路集群中连锁反应所带来的复杂性,不需要做链路上下游关联分析,仅仅从单一应用节点入手进行分析即可对故障进行诊断。以及,本说明书实施例提供的故障定位方法,可以明确地定位到单个故障位置节点,而不是故障位置节点对。
总之,本说明书实施例提供的故障定位方法,一方面,因算法逻辑简单易行,可以提升故障定位效率;另一方面,可以直接确定出故障位置节点,因此故障定位的准确性更高。
可选地,在图1所示的实施例的基础上,如图6所示,本说明书实施例提供的一种故障定位方法,还可以包括(或者说图1所示的方法还可以包括):
步骤106、当所述多个应用中的目标应用被确定出现故障时,获取所述目标应用在所述目标时段内的报错信息。
报错信息也可以从目标应用的日志中获得,这些报错信息可以是反应目标应用健康状况的信息。
步骤108、基于所述报错信息再次辅助确定所述目标应用是否出现故障。
可以理解,将目标应用的报错信息纳入故障定位中,做进一步的筛选过滤,可以进一步提升故障定位的准确性。比如在通过上述步骤104确定出一个应用出现故障时,同时分析该应用的报错信息来二次辅助判定,如果报错信息也显示该应用自身健康状态出了问题,则可以进一步佐证该应用出现了故障。
以上是对本说明书提供的方法实施例的说明,下面对本说明书提供的电子设备进行介绍。
图7是本说明书的一个实施例提供的电子设备的结构示意图。请参考图7,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成故障定位装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息,其中,所述目标服务包括入口服务和出口服务,一个应用提供的入口服务是该应用被其他应用调用而提供的服务,一个应用提供的出口服务是该应用通过调用其他应用而提供的服务,所述预设参数包括成功率或失败率;
基于所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息,定位所述目标业务系统中的故障位置。
上述如本说明书图1或图6所示实施例揭示的故障定位方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1或图6提供的故障定位方法,本说明书在此不再赘述。
当然,除了软件实现方式之外,本说明书的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本说明书实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1或图6所示实施例的方法,并具体用于执行以下操作:
确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息,其中,所述目标服务包括入口服务和出口服务,一个应用提供的入口服务是该应用被其他应用调用而提供的服务,一个应用提供的出口服务是该应用通过调用其他应用而提供的服务,所述预设参数包括成功率或失败率;
基于所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息,定位所述目标业务系统中的故障位置。
下面对本说明书提供的装置进行说明。
如图8所示,本说明书的一个实施例提供了一种故障定位装置800,在一种软件实施方式中,装置800可包括:信息确定模块801和第一故障定位模块802。
信息确定模块801,用于确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息,其中,所述目标服务包括入口服务和出口服务,一个应用提供的入口服务是该应用被其他应用调用而提供的服务,一个应用提供的出口服务是该应用通过调用其他应用而提供的服务,所述预设参数包括成功率或失败率。
下面分别结合图9和图10对信息确定模块801中确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息的两种可能的方式进行说明。
第一实施方式
如图9所示,信息确定模块801具体可包括:告警事件获取子模块901、告警事件分组子模块902和第一变化确定子模块903。
告警事件获取子模块901,用于获取所述目标业务系统在所述目标时段内的告警事件,其中,所述告警事件是所述多个应用中的至少一个应用在所述目标时段内提供所述目标服务的预设参数的变化异常时生成的。
具体可以从目标业务系统的监控系统900中获取目标业务系统在目标时段内的告警事件。
告警事件分组子模块902,用于对获取的告警事件按照所述多个应用进行分组,一个应用对应两组告警事件,所述两组告警事件中的一组是入口服务的告警事件,所述两组告警事件中的另一组是出口服务的告警事件。
第一变化确定子模块903,用于基于所述多个应用对应的两组告警事件,分别确定所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息。
由于一个应用的告警事件,是在该应用在目标时段内提供目标服务的预设参数的变化异常时生成的,因此第一变化确定子模块903具体可以通过如下几种方式,确定上述多个应用的一个应用在所述目标时段内提供目标服务(入口服务和出口服务)的预设参数的变化信息:
(1)当所述多个应用中的一个应用对应的入口服务的告警事件数量为零时,确定该应用在所述目标时段内提供所述入口服务的预设参数的变化正常;
(2)当所述多个应用中的一个应用对应的入口服务的告警事件数量大于或等于一时,确定该应用在所述目标时段内提供所述入口服务的预设参数的变化异常;
(3)当所述多个应用中的一个应用对应的出口服务的告警事件数量为零时,确定该应用在所述目标时段内提供所述出口服务的预设参数的变化正常;
(4)当所述多个应用中的一个应用对应的出口服务的告警事件数量大于或等于一时,确定该应用在所述目标时段内提供所述出口服务的预设参数的变化异常。
上述第一种实施方式,由于只需要对目标业务系统外围的监控系统生成的告警事件进行采集、分组,然后按照简洁的判断规则,即可确定出目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息,算法逻辑相对简易,对算力的要求不高,因此,计算速度更快,从而可以提升故障定位效率。
第二种实施方式
如图10所示,信息确定模块801具体可包括:日志获取子模块1001、参数确定子模块1002和第二变化确定子模块1003。
日志获取子模块1001,用于获取所述多个应用在所述目标时段内的日志。
其中,一个应用的日志中记录了该应用提供所述目标服务的总次数和成功次数,或者,一个应用的日志中记录了该应用提供所述目标服务的总次数和失败次数。
参数确定子模块1002,用于基于所述多个应用在所述目标时段内的日志,确定所述多个应用在所述目标时段内提供所述目标服务的预设参数。
第二变化确定子模块1003,用于基于所述多个应用在所述目标时段内提供所述目标服务的预设参数,分别相对于所述多个应用在预设历史时段内提供所述目标服务的预设参数的变化幅度,确定所述多个应用在所述目标时段内提供所述目标服务的预设参数的变化信息。
具体的,当所述多个应用中的一个应用在所述目标时段内提供所述目标服务的预设参数,相对于该应用在预设历史时段内提供所述目标服务的预设参数的变化幅度超过预设幅度时,确定该应用在所述目标时段内提供所述目标服务的预设参数的变化异常;当所述多个应用中的一个应用在所述目标时段内提供所述目标服务的预设参数,相对于该应用在预设历史时段内提供所述目标服务的预设参数的变化幅度未超过预设幅度时,确定该应用在所述目标时段内提供所述目标服务的预设参数的变化正常。其中,当预设参数为成功率时,所述变化幅度为下跌幅度;当预设参数为失败率时,所述变化幅度为上涨幅度。其中,关于预设历史时段的说明请参照上文,此处不再赘述。
上述第二种实施方式,通过读取目标业务系统中的多个应用在目标时段内提供目标服务的日志,并根据其中记录的各应用提供目标服务的总次数,以及成功或失败次数,即可确定出这多个应用在目标时段的提供目标服务(入口服务和出口服务)的预设参数(成功率或失败率),然后,通过与预设历史时段的预设参数进行比较,即可确定出这多个应用在目标时段内提供目标服务的预设参数的变化信息,相对于相关技术中基于调用拓扑图定位故障点的方式对算力的要求也不高,因此,也可以提升故障定位效率。
第一故障定位模块802,用于基于所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息,定位所述目标业务系统中的故障位置。
具体的,第一故障定位模块802用于:
当目标业务系统中的多个应用中的一个应用提供入口服务和出口服务的预设参数的变化均正常时,确定该应用的至少一个上游应用出现故障;
当目标业务系统中的多个应用中的一个应用提供入口服务的预设参数的变化异常,且该应用提供出口服务的预设参数的变化正常时,确定该应用出现故障;
当目标业务系统中的多个应用中的一个应用提供入口服务的预设参数的变化异常,且该应用提供出口服务的预设参数的变化异常时,确定该应用的至少一个下游应用和/或下游设施出现故障。
本说明书实施例提供的故障定位方法,基于目标业务系统中的多个应用在目标时段内提供入口服务和出口服务的成功率或失败率变化信息,即可定位出目标业务系统中的具体故障位置,不依赖目标业务系统中多个应用间的调用拓扑图,使得故障定位过程变得非常简单,因此可以提升故障定位效率。
需要说明的是,图8所示的故障定位装置800能够实现图1所示的方法,并能取得相同的技术效果,详细内容可参考图1所示的方法,不再赘述。
可选地,如图11所示,本说明书实施例提供的一种故障定位装置800,除了包括信息确定模块801和第一故障定位模块802,还可以包括报错信息获取模块803和第二故障定位模块804。
报错信息获取模块803,用于当所述多个应用中的目标应用被确定出现故障时,获取所述目标应用在所述目标时段内的报错信息。
报错信息也可以从目标应用的日志中获得,这些报错信息可以是反应目标应用健康状况的信息。
第二故障定位模块804,用于基于所述报错信息再次辅助确定所述目标应用是否出现故障。
可以理解,将目标应用的报错信息纳入故障定位中,做进一步的筛选过滤,可以进一步提升故障定位的准确性。
需要说明的是,图11所示的故障定位装置800能够实现图6所示的方法,并能取得相同的技术效果,详细内容可参考图6所示的方法,不再赘述。
上述对本说明书特定实施例进行了描述,其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
总之,以上所述仅为本说明书的较佳实施例而已,并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制时,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (15)

1.一种故障定位方法,包括:
确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息,其中,所述目标服务包括入口服务和出口服务,一个应用提供的入口服务是该应用被其他应用调用而提供的服务,一个应用提供的出口服务是该应用通过调用其他应用而提供的服务,所述预设参数包括成功率或失败率;
基于所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息,定位所述目标业务系统中的故障位置。
2.根据权利要求1所述的方法,其中,所述确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息,包括:
获取所述目标业务系统在所述目标时段内的告警事件,其中,所述告警事件是所述多个应用中的至少一个应用在所述目标时段内提供所述目标服务的预设参数的变化异常时生成的;
对获取的告警事件按照所述多个应用进行分组,一个应用对应两组告警事件,所述两组告警事件中的一组是入口服务的告警事件,所述两组告警事件中的另一组是出口服务的告警事件;
基于所述多个应用对应的两组告警事件,分别确定所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息。
3.根据权利要求2所述的方法,
其中,所述基于所述多个应用对应的两组告警事件,分别确定所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息,包括:
当所述多个应用中的一个应用对应的入口服务的告警事件数量为零时,确定该应用在所述目标时段内提供所述入口服务的预设参数的变化正常;
当所述多个应用中的一个应用对应的入口服务的告警事件数量大于或等于一时,确定该应用在所述目标时段内提供所述入口服务的预设参数的变化异常;
当所述多个应用中的一个应用对应的出口服务的告警事件数量为零时,确定该应用在所述目标时段内提供所述出口服务的预设参数的变化正常;
当所述多个应用中的一个应用对应的出口服务的告警事件数量大于或等于一时,确定该应用在所述目标时段内提供所述出口服务的预设参数的变化异常。
4.根据权利要求2所述的方法,在所述获取所述目标业务系统在所述目标时段内的告警事件之前,还包括:
获取所述多个应用在所述目标时段内的日志,其中,一个应用的日志中记录了该应用提供所述目标服务的总次数和成功次数,或者,一个应用的日志中记录了该应用提供所述目标服务的总次数和失败次数;
基于所述多个应用在所述目标时段内的日志,确定所述多个应用在所述目标时段内提供所述目标服务的预设参数;
基于所述多个应用在所述目标时段内提供所述目标服务的预设参数,分别相对于所述多个应用在预设历史时段内提供所述目标服务的预设参数的变化幅度,确定所述多个应用在所述目标时段内提供所述目标服务的预设参数的变化信息;
当所述多个应用中的至少一个应用在所述目标时段内提供所述目标服务的预设参数的变化异常时,生成所述至少一个应用在所述目标时段内的告警事件。
5.根据权利要求1所述的方法,
其中,所述确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息,包括:
获取所述多个应用在所述目标时段内的日志,其中,一个应用的日志中记录了该应用提供所述目标服务的总次数和成功次数,或者,一个应用的日志中记录了该应用提供所述目标服务的总次数和失败次数;
基于所述多个应用在所述目标时段内的日志,确定所述多个应用在所述目标时段内提供所述目标服务的预设参数;
基于所述多个应用在所述目标时段内提供所述目标服务的预设参数,分别相对于所述多个应用在预设历史时段内提供所述目标服务的预设参数的变化幅度,确定所述多个应用在所述目标时段内提供所述目标服务的预设参数的变化信息。
6.根据权利要求4或5所述的方法,其中,所述基于所述多个应用在所述目标时段内提供所述目标服务的预设参数,分别相对于所述多个应用在预设历史时段内提供所述目标服务的预设参数的变化幅度,确定所述多个应用在所述目标时段内提供所述目标服务的预设参数的变化信息,包括:
当所述多个应用中的一个应用在所述目标时段内提供所述目标服务的预设参数,相对于该应用在预设历史时段内提供所述目标服务的预设参数的变化幅度超过预设幅度时,确定该应用在所述目标时段内提供所述目标服务的预设参数的变化异常;
当所述多个应用中的一个应用在所述目标时段内提供所述目标服务的预设参数,相对于该应用在预设历史时段内提供所述目标服务的预设参数的变化幅度未超过预设幅度时,确定该应用在所述目标时段内提供所述目标服务的预设参数的变化正常。
7.根据权利要求6所述的方法,
当所述预设参数为成功率时,所述变化幅度为下跌幅度;
当所述预设参数为失败率时,所述变化幅度为上涨幅度。
8.根据权利要求7所述的方法,所述至少一个应用在所述预设历史时段内提供所述目标服务的预设参数的变化正常。
9.根据权利要求4或5所述的方法,所述预设参数为成功率,其中,所述基于所述多个应用在所述目标时段内的日志,确定所述多个应用在所述目标时段内提供所述目标服务的预设参数,包括:
对所述多个应用中的一个应用,基于该应用在所述目标时段内的日志,确定该应用在所述目标时段内提供所述目标服务的成功次数占总次数的比例;
将所述比例确定为该应用在所述目标时段内提供所述目标服务的成功率。
10.根据权利要求4或5所述的方法,所述预设参数为失败率,其中,所述基于所述多个应用在所述目标时段内的日志,确定所述多个应用在所述目标时段内提供所述目标服务的预设参数,包括:
对所述多个应用中的一个应用,基于该应用在所述目标时段内的日志,确定该应用在所述目标时段内提供所述目标服务的失败次数占总次数的比例;
将所述比例确定为该应用在所述目标时段内提供所述目标服务的失败率。
11.根据权利要求3或5所述的方法,其中,基于所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息,定位所述目标业务系统中的故障位置,包括:
当所述多个应用中的一个应用提供入口服务和出口服务的预设参数的变化均正常时,确定该应用的至少一个上游应用出现故障;
当所述多个应用中的一个应用提供入口服务的预设参数的变化异常,且该应用提供出口服务的预设参数的变化正常时,确定该应用出现故障;
当所述多个应用中的一个应用提供入口服务的预设参数的变化异常,且该应用提供出口服务的预设参数的变化异常时,确定该应用的至少一个下游应用和/或下游设施出现故障。
12.根据权利要求11所述的方法,还包括:
当所述多个应用中的目标应用被确定出现故障时,获取所述目标应用在所述目标时段内的报错信息;
基于所述报错信息再次辅助确定所述目标应用是否出现故障。
13.一种故障定位装置,所述装置包括:
信息确定模块,用于确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息,其中,所述目标服务包括入口服务和出口服务,一个应用提供的入口服务是该应用被其他应用调用而提供的服务,一个应用提供的出口服务是该应用通过调用其他应用而提供的服务,所述预设参数包括成功率或失败率;
第一故障定位模块,用于基于所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息,定位所述目标业务系统中的故障位置。
14.一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息,其中,所述目标服务包括入口服务和出口服务,一个应用提供的入口服务是该应用被其他应用调用而提供的服务,一个应用提供的出口服务是该应用通过调用其他应用而提供的服务,所述预设参数包括成功率或失败率;
基于所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息,定位所述目标业务系统中的故障位置。
15.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:
确定目标业务系统中的多个应用在目标时段内提供目标服务的预设参数的变化信息,其中,所述目标服务包括入口服务和出口服务,一个应用提供的入口服务是该应用被其他应用调用而提供的服务,一个应用提供的出口服务是该应用通过调用其他应用而提供的服务,所述预设参数包括成功率或失败率;
基于所述多个应用在所述目标时段内提供目标服务的预设参数的变化信息,定位所述目标业务系统中的故障位置。
CN202010338706.4A 2020-04-26 2020-04-26 一种故障定位方法、装置和设备 Active CN111488289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010338706.4A CN111488289B (zh) 2020-04-26 2020-04-26 一种故障定位方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010338706.4A CN111488289B (zh) 2020-04-26 2020-04-26 一种故障定位方法、装置和设备

Publications (2)

Publication Number Publication Date
CN111488289A true CN111488289A (zh) 2020-08-04
CN111488289B CN111488289B (zh) 2024-01-23

Family

ID=71795247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010338706.4A Active CN111488289B (zh) 2020-04-26 2020-04-26 一种故障定位方法、装置和设备

Country Status (1)

Country Link
CN (1) CN111488289B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112363895A (zh) * 2020-08-14 2021-02-12 北京达佳互联信息技术有限公司 一种系统故障的定位方法、装置及电子设备
CN113392893A (zh) * 2021-06-08 2021-09-14 北京达佳互联信息技术有限公司 业务故障的定位方法、装置、存储介质及计算机程序产品
CN114500249A (zh) * 2022-04-18 2022-05-13 中国工商银行股份有限公司 一种根因定位方法和装置
CN115242621A (zh) * 2022-07-21 2022-10-25 北京天一恩华科技股份有限公司 网络专线监控方法、装置、设备及计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160316028A1 (en) * 2015-04-27 2016-10-27 Oracle International Corporation Automatic upstream service resumption after downstream system failure
US20160314032A1 (en) * 2015-04-27 2016-10-27 Oracle International Corporation Automatic targeted system suspension based upon downstream system failure detection
CN106254144A (zh) * 2016-09-06 2016-12-21 华为技术有限公司 故障定位平台、故障定位方法及装置
CN107992415A (zh) * 2017-11-28 2018-05-04 中国银联股份有限公司 一种交易系统的故障定位和分析方法及相关服务器
CN108512689A (zh) * 2017-12-15 2018-09-07 中国平安财产保险股份有限公司 微服务业务监控方法及服务器
CN108923952A (zh) * 2018-05-31 2018-11-30 北京百度网讯科技有限公司 基于服务监控指标的故障诊断方法、设备及存储介质
CN109391524A (zh) * 2018-10-11 2019-02-26 国家无线电监测中心成都监测站 一种故障定位方法及装置
CN110460460A (zh) * 2019-07-08 2019-11-15 阿里巴巴集团控股有限公司 业务链路故障定位方法、装置及设备
CN110716842A (zh) * 2019-10-09 2020-01-21 北京小米移动软件有限公司 集群故障检测方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160316028A1 (en) * 2015-04-27 2016-10-27 Oracle International Corporation Automatic upstream service resumption after downstream system failure
US20160314032A1 (en) * 2015-04-27 2016-10-27 Oracle International Corporation Automatic targeted system suspension based upon downstream system failure detection
CN106254144A (zh) * 2016-09-06 2016-12-21 华为技术有限公司 故障定位平台、故障定位方法及装置
CN107992415A (zh) * 2017-11-28 2018-05-04 中国银联股份有限公司 一种交易系统的故障定位和分析方法及相关服务器
CN108512689A (zh) * 2017-12-15 2018-09-07 中国平安财产保险股份有限公司 微服务业务监控方法及服务器
CN108923952A (zh) * 2018-05-31 2018-11-30 北京百度网讯科技有限公司 基于服务监控指标的故障诊断方法、设备及存储介质
CN109391524A (zh) * 2018-10-11 2019-02-26 国家无线电监测中心成都监测站 一种故障定位方法及装置
CN110460460A (zh) * 2019-07-08 2019-11-15 阿里巴巴集团控股有限公司 业务链路故障定位方法、装置及设备
CN110716842A (zh) * 2019-10-09 2020-01-21 北京小米移动软件有限公司 集群故障检测方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
顾海林 等: "云计算环境下业务服务模型及故障检测方法", 《电信技术》, no. 10, pages 66 - 69 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112363895A (zh) * 2020-08-14 2021-02-12 北京达佳互联信息技术有限公司 一种系统故障的定位方法、装置及电子设备
CN112363895B (zh) * 2020-08-14 2024-02-23 北京达佳互联信息技术有限公司 一种系统故障的定位方法、装置及电子设备
CN113392893A (zh) * 2021-06-08 2021-09-14 北京达佳互联信息技术有限公司 业务故障的定位方法、装置、存储介质及计算机程序产品
CN114500249A (zh) * 2022-04-18 2022-05-13 中国工商银行股份有限公司 一种根因定位方法和装置
CN114500249B (zh) * 2022-04-18 2022-07-08 中国工商银行股份有限公司 一种根因定位方法和装置
CN115242621A (zh) * 2022-07-21 2022-10-25 北京天一恩华科技股份有限公司 网络专线监控方法、装置、设备及计算机可读存储介质
CN115242621B (zh) * 2022-07-21 2024-01-02 北京天一恩华科技股份有限公司 网络专线监控方法、装置、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN111488289B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN111488289B (zh) 一种故障定位方法、装置和设备
CN111786818B (zh) 一种区块链共识节点状态监控方法和装置
CN109327353B (zh) 业务流量确定方法、装置及电子设备
CN108846749B (zh) 一种基于区块链技术的分片化的交易执行系统及方法
CN110351136B (zh) 一种故障定位方法和装置
CN110008080A (zh) 基于时间序列的业务指标异常检测方法、装置和电子设备
CN109117595B (zh) 一种热负荷预测方法、装置、可读介质及电子设备
CN112311611B (zh) 数据异常的监测方法、装置和电子设备
CN109857984B (zh) 一种锅炉负荷率-效能曲线的回归方法和装置
CN110222936B (zh) 一种业务场景的根因定位方法、系统及电子设备
CN110851207B (zh) 状态转换管理方法、装置、电子设备和存储介质
CN109271453B (zh) 一种数据库容量的确定方法和装置
CN111639011A (zh) 一种数据监控方法、装置及设备
CN114844768A (zh) 信息分析方法、装置及电子设备
CN110648125B (zh) 一种打包交易方法、装置、电子设备及存储介质
CN109901991B (zh) 一种分析异常调用的方法、装置和电子设备
CN111582872A (zh) 异常账号检测模型训练、异常账号检测方法、装置及设备
CN108920326B (zh) 确定系统耗时异常的方法、装置及电子设备
CN113516453A (zh) 建设项目投资资金管控预警方法、装置、设备及介质
CN113497721A (zh) 网络故障定位方法与装置
CN111105268A (zh) 广告投放成本调节方法、装置及存储介质、电子设备
CN110750271B (zh) 服务聚合、聚合服务的执行方法、装置和电子设备
CN110659178B (zh) 系统运行状态调节方法、装置及存储介质、电子设备
CN108712284B (zh) 一种故障业务的定位方法、装置、及业务服务器
CN109145996B (zh) 异常环境下的指标数据生成方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240218

Address after: Guohao Times City # 20-01, 128 Meizhi Road, Singapore

Patentee after: Advanced Nova Technology (Singapore) Holdings Ltd.

Country or region after: Singapore

Address before: 45-01 Anson Building, 8 Shanton Avenue, Singapore

Patentee before: Alipay laboratories (Singapore) Ltd.

Country or region before: Singapore

TR01 Transfer of patent right