CN108833184A - 服务故障定位方法、装置、计算机设备及存储介质 - Google Patents

服务故障定位方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN108833184A
CN108833184A CN201810698356.5A CN201810698356A CN108833184A CN 108833184 A CN108833184 A CN 108833184A CN 201810698356 A CN201810698356 A CN 201810698356A CN 108833184 A CN108833184 A CN 108833184A
Authority
CN
China
Prior art keywords
node
abnormal traffic
service
data
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810698356.5A
Other languages
English (en)
Other versions
CN108833184B (zh
Inventor
林子皓
颜秋宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810698356.5A priority Critical patent/CN108833184B/zh
Publication of CN108833184A publication Critical patent/CN108833184A/zh
Application granted granted Critical
Publication of CN108833184B publication Critical patent/CN108833184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提出一种服务故障定位方法、装置、计算机设备及存储介质,其中,方法包括:获取包括异常业务的标识及故障时间的预警消息;根据异常业务的标识,获取与异常业务关联的各子服务节点;从异常业务所属的服务对应的服务链路中,获取各子服务节点所在的链路集,服务链路中各节点间的边用于表征各节点间的调用数据;根据异常业务的故障时间及链路集中各节点对应的调用数据,确定链路集中各节点分别与异常业务间的各时间关联度;根据各时间关联度,确定链路集中的目标故障节点对。由此,能够实现故障节点的自动定位,提高故障定位速度和准确度,解决现有技术中人工定位故障的方式定位速度慢、准确度差的技术问题。

Description

服务故障定位方法、装置、计算机设备及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种服务故障定位方法、装置、计算机设备及存储介质。
背景技术
网络中运行着各种各样的服务,例如,即时通讯、视频播放网站等。各种服务常常依赖于运行环境为用户提供各种业务。例如,视频播放网站服务,可以为用户提供视频播放业务、视频投放业务等等。为了提高各服务的服务质量,在业务运行过程中,需要对业务以及运行环境进行监控,以及时发现故障并处理。
相关技术中,当监控到业务运行过程中出现故障时,会向运维人员发出告警消息,以提醒运维人员对故障进行处理。然而,对于大型的服务而言,其通常可实现的业务数量较多,且每个业务的实现需要多个子服务节点支撑。在业务运行过程中,任一子服务节点发生故障,都会引起该业务出现故障,从而发生故障。运维人员很难从大量的子服务节点中快速、准确地定位出故障节点,从而导致业务故障处理效率低,影响了业务的正常运行。
发明内容
本申请提出一种服务故障定位方法、装置、计算机设备及存储介质,用于解决现有技术中人工定位故障的方式定位速度慢、准确度差的技术问题。
本申请一方面实施例提出了一种服务故障定位方法,包括:
获取业务异常预警消息,其中所述预警消息中包括异常业务的标识,及所述异常业务的故障时间;
根据所述异常业务的标识,获取与所述异常业务关联的各子服务节点;
从所述异常业务所属的服务对应的服务链路中,获取所述各子服务节点所在的链路集,所述服务链路中的各节点用于表征所述服务中的各子服务,所述服务链路中各节点间的边用于表征所述各节点间的调用数据;
根据所述异常业务的故障时间及所述链路集中各节点对应的调用数据,确定所述链路集中各节点分别与所述异常业务间的各时间关联度;
根据所述各时间关联度,确定所述链路集中的目标故障节点对。
本申请另一方面实施例提出了一种服务故障定位装置,包括:
消息获取模块,用于获取业务异常预警消息,其中所述预警消息中包括异常业务的标识,及所述异常业务的故障时间;
节点获取模块,用于根据所述异常业务的标识,获取与所述异常业务关联的各子服务节点;
链路确定模块,用于从所述异常业务所属的服务对应的服务链路中,获取所述各子服务节点所在的链路集,所述服务链路中的各节点用于表征所述服务中的各子服务,所述服务链路中各节点间的边用于表征所述各节点间的调用数据;
处理模块,用于根据所述异常业务的故障时间及所述链路集中各节点对应的调用数据,确定所述链路集中各节点分别与所述异常业务间的各时间关联度;
定位模块,用于根据所述各时间关联度,确定所述链路集中的目标故障节点对。
本申请另一方面实施例提出了一种计算机设备,包括:处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如本申请实施例所述的服务故障定位方法。
本申请第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的服务故障定位方法。
本申请实施例的服务故障定位方法、装置、计算机设备及存储介质,通过获取包括异常业务的标识和故障时间的预警消息,并根据异常业务的标识获取与异常业务关联的各子服务节点,从异常业务所属的服务对应的服务链路中,获取各子服务节点所在的链路集,再根据异常业务的故障时间及链路集中各节点对应的调用数据,确定链路集中各节点分别与异常业务间的各时间关联度,进而根据各时间关联度,确定链路集中的目标故障节点对。由此,达到了根据服务链路确定导致业务异常的故障节点的目的,通过考虑节点之间的调用关系来定位故障的源头,实现了自动定位故障节点,提高了故障定位效率和准确度,有利于提高故障处理效率。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例所提供的一种服务故障定位方法的流程示意图;
图2为即时通讯服务对应的服务链路示例图;
图3(a)为一服务对应的服务链路示例图;
图3(b)为异常业务关联的各子服务节点所在的链路集的示例图;
图4为本申请实施例所提供的另一种服务故障定位方法的流程示意图;
图5为节点间的调用关系示例图;
图6为本申请实施例所提供的服务故障定位方法的流程示意图;
图7为节点对应的监控数据和操作数据示例图;
图8为本申请实施例所提供的再一种服务故障定位方法的流程示意图;
图9为本申请实施例所提供的一种服务故障定位装置的结构示意图;
图10为本申请实施例所提供的另一种服务故障定位装置的结构示意图;
图11为本申请实施例所提供的又一种服务故障定位装置的结构示意图;
图12为本申请实施例所提供的再一种服务故障定位装置的结构示意图;以及
图13为本申请实施例所提供的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的服务故障定位方法、装置、计算机设备及存储介质。互联网上运行着各种各样的服务,每一个服务可以包含多种业务,例如,对于即时通讯这一服务,可以包括聊天业务、虚拟社区业务、网络商城业务、支付业务、理财业务等。每一种业务可以包括多个子服务,以虚拟社区为例,可以包括上传图片、上传文字、定位所在位置、设置动态可见人员等多个子服务。业务中的任一子服务出现故障,均会导致该业务故障。为保证业务的正常运行,需要对服务中各业务的运行状态进行监控,以在业务出现故障时,提醒运维人员对异常业务进行维护。
图1为本申请实施例所提供的一种服务故障定位方法的流程示意图。
如图1所示,该服务故障定位方法可以包括以下步骤:
步骤101,获取业务异常预警消息,其中预警消息中包括异常业务的标识,及异常业务的故障时间。
为了及时发现业务运行过程中出现的故障,保证业务的正常运行,在互联网技术领域,通常会设置监控业务来监控其他业务的运行过程。监控业务运行的过程中,会获取其他业务运行过程中产生的运行数据,以及当其他业务异常时,获取业务异常的预警消息。
互联网中运行着各种各样的业务,每个业务具有唯一的标识,以使每个业务区别于互联网内的其他业务。从而,本实施例中,监控业务拦截的预警消息中,可以包括异常业务的标识,以根据该标识唯一确定出现异常的业务,以及,预警消息中还可以包括异常业务的故障时间。
步骤102,根据异常业务的标识,获取与异常业务关联的各子服务节点。
如前文所述,互联网中,业务常常依赖于运行环境为用户提供相应的功能,每个业务中可以包括至少一个子服务,例如,虚拟网络社区这一业务中,可以包括上传图片、上传文字、定位所在位置、设置动态可见人员等多个子服务,若将每一个子服务看作一个节点,则一个业务中可以包括多个子服务节点。从而,本实施例中,根据预警消息中所包含的异常业务的标识,可以获取与该异常业务关联的各子服务节点。
作为一种示例,可以针对每一个业务,预先存储业务的标识和与该业务关联的所有子服务节点的对应关系,进而,获取了异常业务的标识后,通过查询对应关系,可以确定异常业务关联的各子服务节点。
步骤103,从异常业务所属的服务对应的服务链路中,获取各子服务节点所在的链路集,服务链路中的各节点用于表征服务中的各子服务,服务链路中各节点间的边用于表征各节点间的调用数据。
其中,调用数据可以包括但不限于调用时间、调用次数、调用失败次数、调用耗时、接口等。
在服务运行的过程中,会产生大量的系统运行数据,系统运行数据中包含有服务所提供的各种业务运行时,每个业务中的各子服务节点之间,以及各业务的各子服务节点之间的依赖关系,以及各子服务节点工作时的工作数据,其中,工作数据中可以包括调用数据以及所依赖的实体设备等。本实施例中,对于任一服务,可以利用该服务对应的系统运行数据,根据系统数据中所包含的各子服务节点之间的依赖关系,预先建立该服务对应的服务链路。其中,服务链路中的各节点用于表征各子服务,服务链路中各节点间的边用于表征各节点间的调用数据和/或调用关系。
作为一种示例,图2为即时通讯服务对应的服务链路示例图。图2中,每一个圆点表示即时通讯服务中的一个子服务节点,箭头表示两个子服务节点之间的调用关系,箭头指向的节点为调用方,即服务消费者,则对应的另一节点为被调用方,即服务提供者,箭头可以携带调用数据(图2中未示出)。
异常业务为某一服务所提供的业务中出现故障的业务,为确定异常业务所属的服务,作为一种示例,可以预先针对互联网中的每一服务,建立服务与该服务所包含的各种业务的标识之间的对应关系。当获取到业务异常预警消息时,根据预警消息中的异常业务的标识,通过查询预先建立的服务与业务的标识之间的对应关系,确定出异常业务所属的服务。
此处需要说明的是,当通过预先建立对应关系的方式,确定异常业务关联的各子服务节点以及异常业务所属的服务时,可以在一个对应关系表中建立异常业务的标识与所属服务和关联的各子服务节点之间的对应关系,也可以单独建立异常业务的标识与关联的各子服务节点之间的、以及异常业务的标识与所属的服务之间的对应关系,本申请对此不作限制。
进而,获取了异常业务关联的各子服务节点之后,可以从所确定服务对应的服务链路中,获取各子服务节点所在的链路集。
举例而言,假设某一服务对应的服务链路如图3(a)所示,该服务中某一业务出现异常,该异常业务关联的子服务节点有节点1、节点2、节点3、和节点4。则获取的与该异常业务关联的各子服务节点所在的链路集如图3(b)所示。
步骤104,根据异常业务的故障时间及链路集中各节点对应的调用数据,确定链路集中各节点分别与异常业务间的各时间关联度。
服务链路中各节点的边可以用于表征各节点间的调用数据,调用数据中可以包括调用时间,从而,本实施例中,可以根据异常业务的故障时间以及各节点对应的调用数据,确定链路集中各节点分别与异常业务间的各时间关联度。
通常情况下,监控业务会定时获取各子服务节点的调用数据,例如每分钟获取一次调用数据。当获取到业务异常预警消息后,可以根据故障时间以及调用数据,定位故障节点。
作为一种示例,可以先针对链路集中各节点,根据每个节点最近一段时间内的调用数据,筛选出可能发生故障的候选节点,再根据候选节点中异常数据出现的时间以及异常业务的故障时间,确定出候选节点与异常业务间的时间关联度。
例如,链路集中包括A、B、C和D四个节点,其中,B调用A、A和D调用C。正常情况下,B每分钟从A调用数据的次数为200次,A每分钟从C调用数据的次数为500次,D每分钟从C调用数据的次数为300次。在9:28分,监控系统拦截到业务异常预警消息,根据业务异常预警消息中携带的异常业务的标识,可以确定出与该异常业务相关的A、B、C和D四个节点,并可以从服务链路中获取这四个节点所在的链路集,以及各节点的调用数据。假设获取的调用数据中,B从A调用数据的次数为800次,调用时间为9:27;D从C调用数据的次数为900次,调用时间为9:03,A从C调用数据的次数为493次,调用时间为9:27。则根据调用数据,可以确定节点B从节点A调用数据异常,以及节点D从节点C调用数据异常。进而根据调用时间,可以确定节点B和节点A与异常业务的时间关联度高于节点D和节点C与异常业务的时间关联度。
步骤105,根据各时间关联度,确定链路集中的目标故障节点对。
本实施例中,确定了链路集中各节点分别与异常业务间的各时间关联度之后,可以根据各时间关联度,确定链路集中的目标故障节点对。
作为一种示例,可以将与异常业务间的时间关联度最高的节点对确定为目标故障节点对。
仍以上述举例为例,可以将节点A和节点B确定为目标故障节点对。
能够理解的是,节点对在异常链路中出现的次数越多,该节点对出现故障的可能性越大。此外,节点在异常链路中的位置也可以作为确定目标故障节点对的参考因素。通常,由于处于异常链路末端的节点,为多个节点最终调用节点,从而当异常链路末端的节点发生故障时,产生的影响最大。从而,在本申请实施例一种可能的实现方式中,获取了各子服务节点所在的链路集之后,还可以根据链路集中各节点对所在异常链路的数量,和/或各节点在异常链路中的位置,确定链路集中的目标故障节点对。由此,能够快速定位到目标故障节点对,节省定位时间,提高定位效率。
本实施例的服务故障定位方法,通过获取包括异常业务的标识和故障时间的预警消息,并根据异常业务的标识获取与异常业务关联的各子服务节点,从异常业务所属的服务对应的服务链路中,获取各子服务节点所在的链路集,再根据异常业务的故障时间及链路集中各节点对应的调用数据,确定链路集中各节点分别与异常业务间的各时间关联度,进而根据各时间关联度,确定链路集中的目标故障节点对。由此,达到了根据服务链路确定导致业务异常的故障节点的目的,通过考虑节点之间的调用关系来定位故障的源头,实现了自动定位故障节点,提高了故障定位效率和准确度,有利于提高故障处理效率。
业务中包含的每个子服务可以看作一个节点,则一个业务可以包括多个子服务节点。在业务实际运行过程中,一个业务的各个子服务节点之间往往存在着依赖关系,一个子服务节点的正常运行可能需要调用另一个或多个子服务节点所提供的数据,该子服务节点也可能为其他子服务节点提供数据,也就是说,一个业务所对应的各个子服务节点之间存在着调用关系。从而,在本申请实施例一种可能的实现方式中,服务链路中各节点间的边还可以用于表征各节点之间的调用关系,基于此,本申请实施例提出了另一种服务故障定位方法,图4为本申请实施例所提供的另一种服务故障定位方法的流程示意图。
如图4所示,在如图1所示实施例的基础上,步骤104中,确定链路集中各节点分别与异常业务间的各时间关联度时,可以包括以下步骤:
步骤201,根据各节点对应的调用数据,确定链路集对应的相关系数矩阵。
本实施例中,针对所确定的链路集中的各节点,可以根据每个节点的调用数据,以及异常业务运行时产生的业务数据,获取每个节点与异常业务的相关系数。进而,根据每个节点的相关系数,可以得到链路集对应的相关系数矩阵。其中,相关系数矩阵为一维矩阵,相关系数矩阵的列数与链路集中包含的节点的个数一致。
作为一种示例,在计算每个节点的相关系数时,针对各节点对应的调用数据中的每一个参数,例如调用次数,可以获取一段时间内各节点的调用次数数据,即获取调用次数的时间序列数据,根据获取的调用次数的时间序列数据,以及异常业务运行时产生的业务数据序列,即可计算得到各节点的调用次数与异常业务间的相关系数。
本申请实施例中,调用数据中可以包括调用时间、调用次数、失败次数、调用耗时等多个参数。从而,在本申请实施例一种可能的实现方式中,计算链路集中各节点的相关系数时,可以针对调用数据中的每一个参数,分别计算各参数对应的各个维度的子相关系数,进而,针对每一个节点,利用各参数分别对应的各个维度的子相关系数,计算各个维度的子相关系数的均值,将所得均值作为该节点对应的相关系数。
步骤202,根据链路集中各节点间的调用关系,确定链路集对应的转移矩阵。
本实施例中,根据链路集中各节点间的调用关系,可以确定链路集对应的转移矩阵,其中,转移矩阵中的元素值表示从一个节点到另一个节点的概率。
举例而言,假设链路集中包括A、B、C、D和E共五个节点,各节点之间的调用关系如图5所示。从图5中可以看出,C节点调用A节点和B节点,F节点调用C节点和E节点。则,根据图5所示的调用关系,可以确定该链路集对应的转移矩阵如下:
步骤203,根据相关系数矩阵及转移矩阵,确定链路集中各节点分别与异常业务间的各时间关联度。
本实施例中,确定了链路集对应的相关系数矩阵以及转移矩阵之后,即可根据相关系数矩阵和转移矩阵,确定链路集中各节点分别与异常业务间的各时间关联度。
作为一种示例,可以计算相关系数矩阵与转移矩阵的积,即利用相关系数矩阵乘以转移矩阵,可以得到一个一维矩阵,其中,矩阵的列数与链路集中所包含的节点的个数一致,所得的一维矩阵中,每个元素值即可表示对应的节点与异常业务间的时间关联度,从而得到了链路集中各节点分别与异常业务间的各时间关联度。
调用数据中可以包括调用次数、失败次数、调用时间等多种数据,结合业务特征,可以为调用数据中的每一种数据,预先设置对应的权重值,从而,在本申请实施例一种可能的实现方式中,在确定链路集中各节点分别与异常业务间的各时间关联度之前,还可以先根据调用数据中各数据对应的权重值,将链路集对应的相关系数矩阵进行更新处理。例如,当调用数据中包括调用次数、失败次数、调用时间等多种数据时,针对每一个节点,可以在计算得到该节点对应的调用数据中,各种数据分别对应的各个维度的子相关系数后,将所得的子相关系数与对应的权重值相乘,再计算所得结果的和值或均值,得到该节点对应的相关系数。由此,实现了在计算各时间关联度时考虑不同数据的影响程度,有利于提供故障节点的定位准确度。
本实施例的服务故障定位方法,通过根据各节点对应的调用数据,确定链路集对应的相关系数矩阵,再根据链路集中各节点间的调用关系,确定链路集对应的转移矩阵,进而根据相关系数矩阵及转移矩阵,确定链路集中各节点分别与异常业务间的各时间关联度,为定位目标故障节点奠定了基础。
为了进一步分析出故障原因,以方便运维人员根据故障原因对故障进行处理,在本申请实施例一种可能的实现方式中,还可以结合故障节点相关的监控数据、操作数据等运行数据,分析得到导致节点故障的具体原因。从而,本申请提出了另一种服务故障定位方法,图6为本申请实施例所提供的服务故障定位方法的流程示意图。
如图6所示,在如图1所示实施例的基础上,步骤105之后,还可以包括以下步骤:
步骤301,获取目标故障节点对的系统运行数据集。
其中,系统运行数据集中包括以下数据中的至少一种:节点所在设备的监控数据、与节点相关的操作数据及节点对间的网络质量数据。监控数据例如可以包括单机属性监控数据(包括CPU、IO、磁盘数据等)、变更监控数据、网络质量监控数据等;操作数据例如可以包括变更部署系统、WeJobs系统、压测系统、现网操作记录等;网络质量数据例如可以包括网络带宽、传输速率、丢包率等。
本实施例中,确定了目标故障节点对之后,可以进一步获取目标故障节点对的系统运行数据集。
在业务运行过程中,不仅与业务相关的节点工作,还需要各类监控系统工作,以监控业务运行过程中各节点的监控数据,以及,还需要记录各类系统的操作数据。例如,参见图7,图7为节点对应的监控数据和操作数据示例图。如图7所示,与节点A相关的数据为WeJobs系统操作记录;与节点B相关的数据为单机属性和网络数据;与节点C相关的数据为容量和压测系统操作记录;与节点E和节点F相关的数据为返回码。从而,本实施例中,可以根据确定的目标故障节点对,获取相关的系统运行数据集。
步骤302,对系统运行数据集中的各运行数据进行解析处理,确定各类运行数据与异常业务间的相关参数。
本实施例中,获取了目标故障节点对的系统运行数据集之后,可以对获取的系统运行数据集中的各运行数据进行解析处理,以确定各类运行数据与异常业务间的相关参数。
在本申请实施例一种可能的实现方式中,确定相关参数时,可以先根据系统运行数据集中的各运行数据的时间信息及异常业务的故障时间,确定各运行数据与异常业务间的第一子相关参数,再根据各运行数据分别与异常业务的异常运行数据的相似度,确定第二子相关参数,进而,根据第一子相关参数及第二子相关参数,确定相关参数。
作为一种示例,在确定第一子相关参数时,可以根据系统运行数据中各运行数据的时间信息与故障时间的时间间隔,确定第一子相关参数。能够理解的是,时间间隔越小,第一子相关参数越大。在确定第二子相关参数时,可以针对系统运行数据集中的每一种运行数据,确定该运行数据与异常业务的异常运行数据之间的相似度,进而得到第二子相关参数。其中,相似度越高,第二子相关参数越大。进而,可以将第一子相关参数与第二子相关参数的和,确定为相关参数。
在本申请实施例一种可能的实现方式中,目标故障节点对的系统运行数据集中,还可以包括操作类数据,在确定各类运行数据与异常业务间的相关参数时,还可以根据操作类数据的操作时间及操作范围,确定操作类数据与异常业务间的相关参数。
作为一种示例,可以从时间和操作范围两个维度,对操作类数据与异常业务间的相关参数进行判定。
例如,可以根据操作类数据的操作时间与异常业务的故障时间之间的差值,确定各操作类数据与异常业务间的相关参数。举例来说,若有两个操作类数据分别对应的操作时间为上午9点58分和上午9点59分,而异常业务的故障时间为上午10点,从而可以确定上午9点59分执行的操作类数据与异常业务的相关参数,大于上午9点58分执行的操作类数据与异常业务的相关参数。
或者,还可以结合操作类数据的操作范围,确定各操作类数据与异常业务间的相关参数。
举例来说,若有两个操作类数据分别为:上午9点58分,对服务对应的100个服务器进行了系统清理;上午10点,对服务对应的1个服务器进行了系统清理,由于100台服务器对应的影响范围远远大于1台服务器的影响范围,那么若异常业务的故障时间为上午10点时,也可能确定上午9点58分执行的操作与异常业务的相关参数,大于上午10点执行的操作类数据与异常业务的相关参数。
步骤303,根据各类运行数据与异常业务间的相关参数,确定运行数据集中的目标类运行数据。
本实施例中,确定了各类运行数据与异常业务间的相关参数之后,即可根据确定的相关参数,进一步确定运行数据集中的目标类运行数据。
作为一种示例,可以将相关参数最大的运行数据,确定为目标类运行数据;或者,可以将相关参数达到预设的参数阈值的运行数据,确定为目标类运行数据。
作为一种示例,可以从各类运行数据中查找出满足最小支持度阈值的频繁项集,将所得的频繁项集确定为目标类运行数据。
例如,任一系统运行数据集,其中包含四类运行数据,对其中的各类运行数据进行预处理后,得到表1所示的数据。其中,表1中各字母表示各类运行数据中所包含的关键词,p1、p2、p3和p4表示各运行数据与异常业务间的相关参数。比如,对于一条运行数据“上海到北京的网络链路断裂”,经预处理后可以提取出关键词“上海”、“北京”和“链路断裂”。此处需要说明的是,往表1中填写关键词时,关键词的顺序与在对应的运行数据中的顺序一致。
表1
序号 关键词 相关参数
1 M、J、P p1
2 N、J、Q p2
3 M、N、J、Q p3
4 N、Q p4
则,从表1所示的运行数据中,查找到的频繁项集为{N,J,Q},则目标类运行数据为{N,J,Q}。
进一步地,在本申请实施例一种可能的实现方式中,前述实施例中所确定的目标类运行数据中,可能包括N个子数据,其中,N为大于1的整数,这种情况下,可以根据每一个子数据可能导致节点故障的概率,从N个子数据中确定出目标子数据,作为导致节点故障的原因。从而,本申请实施例提出了另一种服务故障定位方法,如图5所示,步骤303之后还可以包括以下步骤:
步骤304,确定目标类运行数据中N个子数据分别对应的N个置信度。
步骤305,根据N个置信度,确定N个子数据中的目标子数据。
本实施例中,当目标类运行数据中包含多个子数据时,可以先确定N个子数据分别对应的N个置信度,再根据N个置信度,确定N个子数据中的目标子数据。
作为一种可能的实现方式,可以基于关联规则算法,从N个子数据中确定出目标子数据。
关联规则的目的在于在一个数据集中找出项之间的关系,关联规则的相关程度的度量标准包括置信度(Confidence)和支持度(Support)。其中,置信度表示了规则的可信程度,指包含X的样本中出现Y的概率,置信度的计算公式如公式(1)所示;支持度指总体样本中不同项同时出现的概率,计算公式如公式(2)所示。置信度和支持度均满足预设的置信度阈值和支持度阈值的规则,即为待确定的关联规则。
Confidence(X→Y)=P(Y|X) (1)
Support(X→Y)=P(X∩Y) (2)
仍以上述举例为例,假设目标类运行数据为{N,J,Q}。具体实现时,可以先根据目标类数据中包含的子数据,确定目标类数据包含的非空子集的个数,分别为{N}、{J}、{Q}、{N,J}、{N,Q}、{J,Q}和{N,J,Q}。进而,可以基于上述置信度计算公式,计算各个子集之间的置信度,例如,部分子集的置信度计算结果如下:
P(Q|N)=1.0
P(J,Q|B)=2/3
P(B,E|C)=2/3
假设预设的置信度阈值为1,则根据置信度计算结果,可以确定关联规则为Q与N关联,即目标子数据为Q和N对应的数据。
经实验表明,采用本申请实施例的服务故障定位方法,故障节点的定位准确度达到90%以上,故障原因的定位准确度达到80%以上。
本实施例的服务故障定位方法,通过获取目标故障节点对的系统运行数据集,对系统运行数据集中的各运行数据进行解析处理,确定各类运行数据与异常业务间的相关参数,并根据确定的相关参数,确定运行数据集中的目标类运行数据,由此,实现了根据运行数据定位故障发生的根源,以便于运维人员根据故障原因进行及时维修,提高定位效率和维护效率。进一步地,当确定的目标类运行数据中包括多个子数据时,通过确定目标类运行数据中各子数据分别对应的置信度,进而根据置信度,确定目标子数据,由此,提高了故障原因定位精度,进一步提高了维护效率。
对故障节点进行定位的目的在于方便维护人员对故障节点进行处理,以使故障节点恢复正常,进而使异常业务恢复正常。从而,在本申请实施例一种可能的实现方式中,确定了目标故障节点对之后,可以向运维人员发出预警消息,以向维护人员反馈目标故障节点的相关信息,使维护人员根据相关信息进行故障处理。
图8为本申请实施例所提供的再一种服务故障定位方法的流程示意图。如图8所示,在如图1所示实施例的基础上,步骤105之后,还可以包括以下步骤:
步骤401,将对应的各目标故障节点对相同的业务预警消息进行合并处理,以获取目标预警消息。
步骤402,根据目标预警消息,进行服务预警。
实际应用中,预警消息是在业务出现故障时发出的,一个业务中可以包括多个子服务,任一个子服务故障均会导致业务异常而发出预警。从而,现有技术中,当同一个业务的多个子服务节点出现故障时,会针对该异常业务发出多个预警消息。本实施例中,为了避免针对同一个异常业务进行重复预警,增加运维人员的工作量,可以将对应的各目标故障节点对相同的业务预警消息进行合并处理,以获取目标预警消息,进而,根据目标预警消息进行服务预警,以针对异常业务仅进行一次预警,减少同一故障原因导致的重复预警。
经实验表明,采用本申请实施例的服务故障定位方法,预警收敛效果与同期相比降低了50%,人均每天收到的预警消息下降至4条。
本实施例的服务故障定位方法,通过将对应的各目标故障节点对相同的业务预警消息进行合并处理,以获取目标预警消息,进而根据目标预警消息进行服务预警,避免了同一原因导致故障造成的重复预警,实现了针对同一异常业务仅进行一次预警,降低了预警次数,极大地减轻了运维人员的工作压力。
为了实现上述实施例,本申请还提出一种服务故障定位装置。
图9为本申请实施例所提供的一种服务故障定位装置的结构示意图。
如图9所示,该服务故障定位装置50包括:消息获取模块510、节点获取模块520、链路确定模块530、处理模块540,以及定位模块550。
其中,消息获取模块510,用于获取业务异常预警消息,其中预警消息中包括异常业务的标识,及异常业务的故障时间。
节点获取模块520,用于根据异常业务的标识,获取与异常业务关联的各子服务节点。
链路确定模块530,用于从异常业务所属的服务对应的服务链路中,获取各子服务节点所在的链路集,服务链路中的各节点用于表征服务中的各子服务,服务链路中各节点间的边用于表征各节点间的调用数据。
处理模块540,用于根据异常业务的故障时间及链路集中各节点对应的调用数据,确定链路集中各节点分别与异常业务间的各时间关联度。
定位模块550,用于根据各时间关联度,确定链路集中的目标故障节点对。
在本申请实施例一种可能的实现方式中,定位模块550还用于根据链路集中各节点对所在异常链路的数量,和/或各节点在异常链路中的位置,确定链路集中的目标故障节点对。由此,能够快速定位到目标故障节点对,节省定位时间,提高定位效率。
进一步地,在本申请实施例一种可能的实现方式中,服务链路中各节点间的边还用于表征各节点间的调用关系,从而,如图10所示,在如图9所示实施例的基础上,处理模块540包括:
第一确定单元541,用于根据各节点对应的调用数据,确定链路集对应的相关系数矩阵。
更新单元542,用于根据调用数据中各数据对应的权重值,将链路集对应的相关系数矩阵进行更新处理。
第二确定单元543,用于根据链路集中各节点间的调用关系,确定链路集对应的转移矩阵。
处理单元544,用于根据相关系数矩阵及转移矩阵,确定链路集中各节点分别与异常业务间的各时间关联度。
通过根据各节点对应的调用数据,确定链路集对应的相关系数矩阵,根据调用数据中各数据对应的权重值,将链路集对应的相关系数矩阵进行更新处理,再根据链路集中各节点间的调用关系,确定链路集对应的转移矩阵,进而根据相关系数矩阵及转移矩阵,确定链路集中各节点分别与异常业务间的各时间关联度,由此,为定位目标故障节点奠定了基础,实现了在计算各时间关联度时考虑不同数据的影响程度,有利于提供故障节点的定位准确度。
在本申请实施例一种可能的实现方式中,如图11所示,在如图9所示实施例的基础上,该服务故障定位装置50还可以包括:
数据获取模块560,用于获取目标故障节点对的系统运行数据集。
其中,系统运行数据集中包括以下数据中的至少一种:节点所在设备的监控数据、与节点相关的操作数据及节点对间的网络质量数据。
参数确定模块570,用于对系统运行数据集中的各运行数据进行解析处理,确定各类运行数据与异常业务间的相关参数。
在本申请实施例一种可能的实现方式中,参数确定模块570具体用于根据系统运行数据集中的各运行数据的时间信息及异常业务的故障时间,确定各运行数据与异常业务间的第一子相关参数;根据各运行数据分别与各历史运行数据的相似度,确定第二子相关参数;根据第一子相关参数及第二子相关参数,确定相关参数。
在本申请实施例一种可能的实现方式中,系统运行数据集中还包括操作类数据,此时,参数确定模块570具体用于根据操作类数据的操作时间及操作范围,确定操作类数据与异常业务间的相关参数。
第一确定模块580,用于根据各类运行数据与异常业务间的相关参数,确定运行数据集中的目标类运行数据。
进一步地,当确定的目标类运行数据中包括N各子数据时,其中,N为大于1的整数,如图10所示,该服务故障定位装置50还可以包括:
第二确定模块590,用于确定目标类运行数据中N个子数据分别对应的N个置信度,根据N个置信度,确定N个子数据中的目标子数据。
通过获取目标故障节点对的系统运行数据集,对系统运行数据集中的各运行数据进行解析处理,确定各类运行数据与异常业务间的相关参数,并根据确定的相关参数,确定运行数据集中的目标类运行数据,由此,实现了根据运行数据定位故障发生的根源,以便于运维人员根据故障原因进行及时维修,提高定位效率和维护效率。进一步地,当确定的目标类运行数据中包括多个子数据时,通过确定目标类运行数据中各子数据分别对应的置信度,进而根据置信度,确定目标子数据,由此,提高了故障原因定位精度,进一步提高了维护效率。
在本申请实施例一种可能的实现方式中,如图12所示,在如图9所示实施例的基础上,该服务故障定位装置50还可以包括:
预警模块500,用于将对应的各目标故障节点对相同的业务预警消息进行合并处理,以获取目标预警消息;根据目标预警消息,进行服务预警。
通过将对应的各目标故障节点对相同的业务预警消息进行合并处理,以获取目标预警消息,进而根据目标预警消息进行服务预警,避免了同一原因导致故障造成的重复预警,实现了针对同一异常业务仅进行一次预警,降低了预警次数,极大地减轻了运维人员的工作压力。
需要说明的是,前述对服务故障定位方法实施例的解释说明也适用于该实施例的服务故障定位装置,其实现原理类似,此处不再赘述。
本实施例的服务故障定位装置,通过获取包括异常业务的标识和故障时间的预警消息,并根据异常业务的标识获取与异常业务关联的各子服务节点,从异常业务所属的服务对应的服务链路中,获取各子服务节点所在的链路集,再根据异常业务的故障时间及链路集中各节点对应的调用数据,确定链路集中各节点分别与异常业务间的各时间关联度,进而根据各时间关联度,确定链路集中的目标故障节点对。由此,达到了根据服务链路确定导致业务异常的故障节点的目的,通过考虑节点之间的调用关系来定位故障的源头,实现了自动定位故障节点,提高了故障定位效率和准确度,有利于提高故障处理效率。
为了实现上述实施例,本申请还提出一种计算机设备。
图13为本申请实施例所提供的一种计算机设备的结构示意图。
如图13所示,该计算机设备90包括:处理器910和存储器920。其中,处理器910通过读取存储器920中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于实现如前述实施例所述的服务故障定位方法。
为了实现上述实施例,本申请还提出一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述实施例所述的服务故障定位方法。
为了实现上述实施例,本申请还提出一种计算机程序产品,当该计算机程序产品中的指令由处理器执行时实现如前述实施例所述的服务故障定位方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (13)

1.一种服务故障定位方法,其特征在,包括:
获取业务异常预警消息,其中所述预警消息中包括异常业务的标识,及所述异常业务的故障时间;
根据所述异常业务的标识,获取与所述异常业务关联的各子服务节点;
从所述异常业务所属的服务对应的服务链路中,获取所述各子服务节点所在的链路集,所述服务链路中的各节点用于表征所述服务中的各子服务,所述服务链路中各节点间的边用于表征所述各节点间的调用数据;
根据所述异常业务的故障时间及所述链路集中各节点对应的调用数据,确定所述链路集中各节点分别与所述异常业务间的各时间关联度;
根据所述各时间关联度,确定所述链路集中的目标故障节点对。
2.如权利要求1所述的方法,其特征在于,所述服务链路中各节点间的边还用于表征各节点间的调用关系;
所述确定所述链路集中各节点分别与所述异常业务间的各时间关联度,包括:
根据各节点对应的调用数据,确定所述链路集对应的相关系数矩阵;
根据所述链路集中各节点间的调用关系,确定所述链路集对应的转移矩阵;
根据所述相关系数矩阵及所述转移矩阵,确定所述链路集中各节点分别与所述异常业务间的各时间关联度。
3.如权利要求2所述的方法,其特征在于,所述确定所述链路集中各节点分别与所述异常业务间的各时间关联度之前,还包括:
根据所述调用数据中各数据对应的权重值,将所述链路集对应的相关系数矩阵进行更新处理。
4.如权利要求1所述的方法,其特征在于,所述确定所述链路集中的目标故障节点对之后,还包括:
获取所述目标故障节点对的系统运行数据集;
对所述系统运行数据集中的各运行数据进行解析处理,确定各类运行数据与所述异常业务间的相关参数;
根据所述各类运行数据与所述异常业务间的相关参数,确定所述运行数据集中的目标类运行数据。
5.如权利要求4所述的方法,其特征在于,所述目标类运行数据中包括N个子数据,其中,N为大于1的整数;
所述确定所述运行数据集中的目标类运行数据之后,还包括:
确定所述目标类运行数据中N个子数据分别对应的N个置信度;
根据所述N个置信度,确定所述N个子数据中的目标子数据。
6.如权利要求4所述的方法,其特征在于,所述确定各类运行数据与所述异常业务间的相关参数,包括:
根据所述系统运行数据集中的各运行数据的时间信息及所述异常业务的故障时间,确定所述各运行数据与所述异常业务间的第一子相关参数;
根据所述各运行数据分别与所述异常业务的异常运行数据的相似度,确定第二子相关参数;
根据所述第一子相关参数及所述第二子相关参数,确定所述相关参数。
7.如权利要求4所述的方法,其特征在于,所述系统运行数据集中包括操作类数据;
所述确定各类运行数据与所述异常业务间的相关参数,包括:
根据所述操作类数据的操作时间及操作范围,确定所述操作类数据与所述异常业务间的相关参数。
8.如权利要求4-7任一项所述的方法,其特征在于,所述系统运行数据集中包括以下数据中的至少一种:节点所在设备的监控数据、与节点相关的操作数据及节点对间的网络质量数据。
9.如权利要求1-7任一项所述的方法,其特征在于,所述确定所述链路集中的目标故障节点对之后,还包括:
将对应的各目标故障节点对相同的业务预警消息进行合并处理,以获取目标预警消息;
根据所述目标预警消息,进行服务预警。
10.如权利要求1-7任一项述的方法,其特征在于,所述获取所述各子服务节点所在的链路集之后,还包括:
根据链路集中各节点对所在异常链路的数量,和/或各节点在异常链路中的位置,确定所述链路集中的目标故障节点对。
11.一种服务故障定位装置,其特征在于,包括:
消息获取模块,用于获取业务异常预警消息,其中所述预警消息中包括异常业务的标识,及所述异常业务的故障时间;
节点获取模块,用于根据所述异常业务的标识,获取与所述异常业务关联的各子服务节点;
链路确定模块,用于从所述异常业务所属的服务对应的服务链路中,获取所述各子服务节点所在的链路集,所述服务链路中的各节点用于表征所述服务中的各子服务,所述服务链路中各节点间的边用于表征所述各节点间的调用数据;
处理模块,用于根据所述异常业务的故障时间及所述链路集中各节点对应的调用数据,确定所述链路集中各节点分别与所述异常业务间的各时间关联度;
定位模块,用于根据所述各时间关联度,确定所述链路集中的目标故障节点对。
12.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-10中任一项所述的服务故障定位方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一项所述的服务故障定位方法。
CN201810698356.5A 2018-06-29 2018-06-29 服务故障定位方法、装置、计算机设备及存储介质 Active CN108833184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810698356.5A CN108833184B (zh) 2018-06-29 2018-06-29 服务故障定位方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810698356.5A CN108833184B (zh) 2018-06-29 2018-06-29 服务故障定位方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN108833184A true CN108833184A (zh) 2018-11-16
CN108833184B CN108833184B (zh) 2020-10-27

Family

ID=64133598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810698356.5A Active CN108833184B (zh) 2018-06-29 2018-06-29 服务故障定位方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN108833184B (zh)

Cited By (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559121A (zh) * 2018-12-03 2019-04-02 深圳前海微众银行股份有限公司 交易路径调用异常分析方法、装置、设备及可读存储介质
CN109947614A (zh) * 2018-11-28 2019-06-28 阿里巴巴集团控股有限公司 多机房依赖监控方法、装置、设备及计算机可读存储介质
CN110120893A (zh) * 2019-05-13 2019-08-13 恒安嘉新(北京)科技股份公司 一种定位网络系统安全问题的方法及装置
CN110187992A (zh) * 2019-04-11 2019-08-30 阿里巴巴集团控股有限公司 故障分析方法及装置
CN110321246A (zh) * 2019-07-10 2019-10-11 中国民航信息网络股份有限公司 一种故障处理方法及装置
CN110362475A (zh) * 2019-06-17 2019-10-22 北京奇艺世纪科技有限公司 一种信息获取方法、装置、终端设备及存储介质
CN110647447A (zh) * 2019-08-01 2020-01-03 百度时代网络技术(北京)有限公司 用于分布式系统的异常实例检测方法、装置、设备和介质
CN111193605A (zh) * 2019-08-28 2020-05-22 腾讯科技(深圳)有限公司 一种故障定位方法、装置及存储介质
CN111314121A (zh) * 2020-02-03 2020-06-19 支付宝(杭州)信息技术有限公司 链路异常检测方法以及装置
CN111367775A (zh) * 2018-12-26 2020-07-03 北京嘀嘀无限科技发展有限公司 问题节点定位方法、计算机设备和计算机可读存储介质
CN111722952A (zh) * 2020-05-25 2020-09-29 中国建设银行股份有限公司 业务系统的故障分析方法、系统、设备和存储介质
CN111756582A (zh) * 2020-07-07 2020-10-09 上海新炬网络技术有限公司 基于nfv日志告警的业务链监控方法
CN111752819A (zh) * 2019-03-29 2020-10-09 广州市百果园信息技术有限公司 一种异常监控方法、装置、系统、设备和存储介质
CN111782190A (zh) * 2020-06-29 2020-10-16 京东数字科技控股有限公司 异常定位方法和装置、存储介质和电子装置
CN111831512A (zh) * 2020-07-15 2020-10-27 北京百度网讯科技有限公司 用于排查运维异常的方法、装置、电子设备及存储介质
CN111861747A (zh) * 2020-07-08 2020-10-30 支付宝(杭州)信息技术有限公司 交易链路异常处理方法、装置、电子设备
CN111884824A (zh) * 2020-05-27 2020-11-03 深圳壹账通智能科技有限公司 交易链路监控方法、装置、设备及存储介质
CN112035288A (zh) * 2020-09-01 2020-12-04 中国银行股份有限公司 一种作业故障影响确定方法及相关设备
CN112241443A (zh) * 2019-07-16 2021-01-19 中国移动通信集团浙江有限公司 数据质量监测方法、装置、计算设备及计算机存储介质
CN112363895A (zh) * 2020-08-14 2021-02-12 北京达佳互联信息技术有限公司 一种系统故障的定位方法、装置及电子设备
CN112367191A (zh) * 2020-10-22 2021-02-12 深圳供电局有限公司 一种5g网络切片下服务故障定位方法
CN112532485A (zh) * 2020-11-27 2021-03-19 北京嘀嘀无限科技发展有限公司 业务监控方法、装置、电子设备和可读存储介质
CN112737856A (zh) * 2020-12-31 2021-04-30 青岛海尔科技有限公司 链路追踪方法和装置、存储介质及电子装置
CN112769615A (zh) * 2021-01-05 2021-05-07 中国银联股份有限公司 一种异常分析方法及装置
CN112817948A (zh) * 2019-11-15 2021-05-18 北京三快在线科技有限公司 数据检测的方法、装置、可读存储介质以及电子设备
CN112866010A (zh) * 2021-01-04 2021-05-28 聚好看科技股份有限公司 一种故障定位方法及装置
CN113010375A (zh) * 2021-02-26 2021-06-22 腾讯科技(深圳)有限公司 设备告警方法及相关设备
CN113037550A (zh) * 2021-03-04 2021-06-25 中通天鸿(北京)通信科技股份有限公司 一种服务故障监控方法、系统及计算机可读存储介质
CN113297026A (zh) * 2020-06-28 2021-08-24 阿里巴巴集团控股有限公司 对象检测方法、装置、电子设备及计算机可读存储介质
CN113360342A (zh) * 2021-06-04 2021-09-07 中国农业银行股份有限公司 业务功能运行环境的监控方法及设备
CN113407224A (zh) * 2020-03-17 2021-09-17 北京亿阳信通科技有限公司 一种微服务管理方法和装置
CN113591477A (zh) * 2021-08-10 2021-11-02 平安银行股份有限公司 基于关联数据的故障定位方法、装置、设备及存储介质
CN113590451A (zh) * 2021-09-29 2021-11-02 阿里云计算有限公司 一种根因定位方法、运维服务器及存储介质
CN113793128A (zh) * 2021-09-18 2021-12-14 北京京东振世信息技术有限公司 业务故障原因信息生成方法、装置、设备和计算机可读介质
CN114143165A (zh) * 2020-08-14 2022-03-04 北京达佳互联信息技术有限公司 业务报警方法、装置、服务器、存储介质及程序产品
CN114205222A (zh) * 2020-09-01 2022-03-18 中兴通讯股份有限公司 故障网元定位方法及其系统、计算机可读存储介质
CN114363149A (zh) * 2021-12-23 2022-04-15 上海哔哩哔哩科技有限公司 故障处理方法及装置
CN114844768A (zh) * 2022-04-27 2022-08-02 广州亚信技术有限公司 信息分析方法、装置及电子设备
CN115174353A (zh) * 2022-07-14 2022-10-11 中国工商银行股份有限公司 故障根因确定方法、装置、设备及介质
WO2023116276A1 (zh) * 2021-12-21 2023-06-29 中兴通讯股份有限公司 故障处理方法、装置、电子设备及存储介质
CN117389792A (zh) * 2023-12-13 2024-01-12 之江实验室 一种故障排查方法、装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003124866A (ja) * 2001-10-11 2003-04-25 Nec Commun Syst Ltd 移動端末故障探索システム
CN103491555A (zh) * 2012-06-13 2014-01-01 中国移动通信集团湖南有限公司 一种基于业务信息定位ip链路故障的方法、设备和系统
CN105721187A (zh) * 2014-12-03 2016-06-29 中国移动通信集团江苏有限公司 一种业务故障诊断方法及装置
CN106790718A (zh) * 2017-03-16 2017-05-31 北京搜狐新媒体信息技术有限公司 服务调用链路分析方法及系统
CN106936659A (zh) * 2015-12-30 2017-07-07 华为技术有限公司 一种公有云的拨测方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003124866A (ja) * 2001-10-11 2003-04-25 Nec Commun Syst Ltd 移動端末故障探索システム
CN103491555A (zh) * 2012-06-13 2014-01-01 中国移动通信集团湖南有限公司 一种基于业务信息定位ip链路故障的方法、设备和系统
CN105721187A (zh) * 2014-12-03 2016-06-29 中国移动通信集团江苏有限公司 一种业务故障诊断方法及装置
CN106936659A (zh) * 2015-12-30 2017-07-07 华为技术有限公司 一种公有云的拨测方法和装置
CN106790718A (zh) * 2017-03-16 2017-05-31 北京搜狐新媒体信息技术有限公司 服务调用链路分析方法及系统

Cited By (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947614A (zh) * 2018-11-28 2019-06-28 阿里巴巴集团控股有限公司 多机房依赖监控方法、装置、设备及计算机可读存储介质
CN109559121A (zh) * 2018-12-03 2019-04-02 深圳前海微众银行股份有限公司 交易路径调用异常分析方法、装置、设备及可读存储介质
CN109559121B (zh) * 2018-12-03 2022-04-26 深圳前海微众银行股份有限公司 交易路径调用异常分析方法、装置、设备及可读存储介质
CN111367775A (zh) * 2018-12-26 2020-07-03 北京嘀嘀无限科技发展有限公司 问题节点定位方法、计算机设备和计算机可读存储介质
CN111367775B (zh) * 2018-12-26 2023-11-14 北京嘀嘀无限科技发展有限公司 问题节点定位方法、计算机设备和计算机可读存储介质
CN111752819B (zh) * 2019-03-29 2024-04-05 广州市百果园信息技术有限公司 一种异常监控方法、装置、系统、设备和存储介质
CN111752819A (zh) * 2019-03-29 2020-10-09 广州市百果园信息技术有限公司 一种异常监控方法、装置、系统、设备和存储介质
CN110187992B (zh) * 2019-04-11 2023-01-24 创新先进技术有限公司 故障分析方法及装置
CN110187992A (zh) * 2019-04-11 2019-08-30 阿里巴巴集团控股有限公司 故障分析方法及装置
CN110120893B (zh) * 2019-05-13 2022-12-13 恒安嘉新(北京)科技股份公司 一种定位网络系统安全问题的方法及装置
CN110120893A (zh) * 2019-05-13 2019-08-13 恒安嘉新(北京)科技股份公司 一种定位网络系统安全问题的方法及装置
CN110362475A (zh) * 2019-06-17 2019-10-22 北京奇艺世纪科技有限公司 一种信息获取方法、装置、终端设备及存储介质
CN110321246B (zh) * 2019-07-10 2023-09-12 中国民航信息网络股份有限公司 一种故障处理方法及装置
CN110321246A (zh) * 2019-07-10 2019-10-11 中国民航信息网络股份有限公司 一种故障处理方法及装置
CN112241443B (zh) * 2019-07-16 2023-11-21 中国移动通信集团浙江有限公司 数据质量监测方法、装置、计算设备及计算机存储介质
CN112241443A (zh) * 2019-07-16 2021-01-19 中国移动通信集团浙江有限公司 数据质量监测方法、装置、计算设备及计算机存储介质
CN110647447B (zh) * 2019-08-01 2023-04-14 百度时代网络技术(北京)有限公司 用于分布式系统的异常实例检测方法、装置、设备和介质
CN110647447A (zh) * 2019-08-01 2020-01-03 百度时代网络技术(北京)有限公司 用于分布式系统的异常实例检测方法、装置、设备和介质
CN111193605A (zh) * 2019-08-28 2020-05-22 腾讯科技(深圳)有限公司 一种故障定位方法、装置及存储介质
CN112817948A (zh) * 2019-11-15 2021-05-18 北京三快在线科技有限公司 数据检测的方法、装置、可读存储介质以及电子设备
CN111314121A (zh) * 2020-02-03 2020-06-19 支付宝(杭州)信息技术有限公司 链路异常检测方法以及装置
CN113407224A (zh) * 2020-03-17 2021-09-17 北京亿阳信通科技有限公司 一种微服务管理方法和装置
CN111722952A (zh) * 2020-05-25 2020-09-29 中国建设银行股份有限公司 业务系统的故障分析方法、系统、设备和存储介质
CN111884824A (zh) * 2020-05-27 2020-11-03 深圳壹账通智能科技有限公司 交易链路监控方法、装置、设备及存储介质
CN113297026B (zh) * 2020-06-28 2022-06-07 阿里巴巴集团控股有限公司 对象检测方法、装置、电子设备及计算机可读存储介质
CN113297026A (zh) * 2020-06-28 2021-08-24 阿里巴巴集团控股有限公司 对象检测方法、装置、电子设备及计算机可读存储介质
CN111782190A (zh) * 2020-06-29 2020-10-16 京东数字科技控股有限公司 异常定位方法和装置、存储介质和电子装置
CN111756582A (zh) * 2020-07-07 2020-10-09 上海新炬网络技术有限公司 基于nfv日志告警的业务链监控方法
CN111756582B (zh) * 2020-07-07 2022-12-02 上海新炬网络技术有限公司 基于nfv日志告警的业务链监控方法
CN111861747A (zh) * 2020-07-08 2020-10-30 支付宝(杭州)信息技术有限公司 交易链路异常处理方法、装置、电子设备
US11489717B2 (en) 2020-07-08 2022-11-01 Alipay (Hangzhou) Information Technology Co., Ltd. Method, apparatus, and electronic device for transaction link exception handling
CN111831512A (zh) * 2020-07-15 2020-10-27 北京百度网讯科技有限公司 用于排查运维异常的方法、装置、电子设备及存储介质
CN111831512B (zh) * 2020-07-15 2024-03-15 北京百度网讯科技有限公司 用于排查运维异常的方法、装置、电子设备及存储介质
CN112363895B (zh) * 2020-08-14 2024-02-23 北京达佳互联信息技术有限公司 一种系统故障的定位方法、装置及电子设备
CN114143165A (zh) * 2020-08-14 2022-03-04 北京达佳互联信息技术有限公司 业务报警方法、装置、服务器、存储介质及程序产品
CN112363895A (zh) * 2020-08-14 2021-02-12 北京达佳互联信息技术有限公司 一种系统故障的定位方法、装置及电子设备
CN112035288B (zh) * 2020-09-01 2023-08-15 中国银行股份有限公司 一种作业故障影响确定方法及相关设备
CN114205222A (zh) * 2020-09-01 2022-03-18 中兴通讯股份有限公司 故障网元定位方法及其系统、计算机可读存储介质
CN112035288A (zh) * 2020-09-01 2020-12-04 中国银行股份有限公司 一种作业故障影响确定方法及相关设备
CN112367191A (zh) * 2020-10-22 2021-02-12 深圳供电局有限公司 一种5g网络切片下服务故障定位方法
CN112367191B (zh) * 2020-10-22 2023-04-07 深圳供电局有限公司 一种5g网络切片下服务故障定位方法
CN112532485B (zh) * 2020-11-27 2022-07-01 北京嘀嘀无限科技发展有限公司 业务检测控制方法、装置、电子设备和可读存储介质
CN112532485A (zh) * 2020-11-27 2021-03-19 北京嘀嘀无限科技发展有限公司 业务监控方法、装置、电子设备和可读存储介质
CN112737856B (zh) * 2020-12-31 2023-02-03 青岛海尔科技有限公司 链路追踪方法和装置、存储介质及电子装置
CN112737856A (zh) * 2020-12-31 2021-04-30 青岛海尔科技有限公司 链路追踪方法和装置、存储介质及电子装置
CN112866010A (zh) * 2021-01-04 2021-05-28 聚好看科技股份有限公司 一种故障定位方法及装置
CN112866010B (zh) * 2021-01-04 2023-01-20 聚好看科技股份有限公司 一种故障定位方法及装置
CN112769615A (zh) * 2021-01-05 2021-05-07 中国银联股份有限公司 一种异常分析方法及装置
CN113010375A (zh) * 2021-02-26 2021-06-22 腾讯科技(深圳)有限公司 设备告警方法及相关设备
CN113037550A (zh) * 2021-03-04 2021-06-25 中通天鸿(北京)通信科技股份有限公司 一种服务故障监控方法、系统及计算机可读存储介质
CN113037550B (zh) * 2021-03-04 2022-07-26 中通天鸿(北京)通信科技股份有限公司 一种服务故障监控方法、系统及计算机可读存储介质
CN113360342A (zh) * 2021-06-04 2021-09-07 中国农业银行股份有限公司 业务功能运行环境的监控方法及设备
CN113591477B (zh) * 2021-08-10 2023-09-15 平安银行股份有限公司 基于关联数据的故障定位方法、装置、设备及存储介质
CN113591477A (zh) * 2021-08-10 2021-11-02 平安银行股份有限公司 基于关联数据的故障定位方法、装置、设备及存储介质
CN113793128A (zh) * 2021-09-18 2021-12-14 北京京东振世信息技术有限公司 业务故障原因信息生成方法、装置、设备和计算机可读介质
CN113590451A (zh) * 2021-09-29 2021-11-02 阿里云计算有限公司 一种根因定位方法、运维服务器及存储介质
WO2023116276A1 (zh) * 2021-12-21 2023-06-29 中兴通讯股份有限公司 故障处理方法、装置、电子设备及存储介质
CN114363149B (zh) * 2021-12-23 2023-12-26 上海哔哩哔哩科技有限公司 故障处理方法及装置
CN114363149A (zh) * 2021-12-23 2022-04-15 上海哔哩哔哩科技有限公司 故障处理方法及装置
CN114844768A (zh) * 2022-04-27 2022-08-02 广州亚信技术有限公司 信息分析方法、装置及电子设备
CN115174353A (zh) * 2022-07-14 2022-10-11 中国工商银行股份有限公司 故障根因确定方法、装置、设备及介质
CN115174353B (zh) * 2022-07-14 2024-04-16 中国工商银行股份有限公司 故障根因确定方法、装置、设备及介质
CN117389792A (zh) * 2023-12-13 2024-01-12 之江实验室 一种故障排查方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN108833184B (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN108833184A (zh) 服务故障定位方法、装置、计算机设备及存储介质
US11151014B2 (en) System operational analytics using additional features for health score computation
EP3373516B1 (en) Method and device for processing service calling information
CN102340415B (zh) 一种服务器集群系统的监控方法和一种服务器集群系统
Bivens et al. Network-based intrusion detection using neural networks
US7716011B2 (en) Strategies for identifying anomalies in time-series data
CN107943668A (zh) 计算机服务器集群日志监控方法及监控平台
US20110276836A1 (en) Performance analysis of applications
CN106487574A (zh) 自动化运行维护监测系统
CN107528749A (zh) 基于云防护日志的网站可用性检测方法、装置及系统
CN105608517B (zh) 基于流的业务交易性能管理及可视化方法和装置
US10791036B2 (en) Infrastructure costs and benefits tracking
CN110162445A (zh) 基于主机日志及性能指标的主机健康评价方法及装置
CN109254901B (zh) 一种指标监测方法及系统
CN104731690A (zh) 适应性度量收集、存储、和警告阈值
WO2023071761A1 (zh) 一种异常定位方法及装置
CN108492150B (zh) 实体热度的确定方法及系统
WO2011017955A1 (zh) 一种告警数据分析的方法及其系统
CN107026881A (zh) 业务数据的处理方法、装置及系统
CN109992473A (zh) 应用系统的监控方法、装置、设备及存储介质
CN112633542A (zh) 系统性能指标预测方法、装置、服务器及存储介质
CN115280337A (zh) 基于机器学习的数据监控
Solmaz et al. ALACA: A platform for dynamic alarm collection and alert notification in network management systems
CN106487597A (zh) 一种基于Zookeeper的服务监控系统和方法
CN108833442A (zh) 一种分布式网络安全监控装置及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant