CN117707820A

CN117707820A - 故障追溯方法、装置、计算机设备和存储介质

Info

Publication number: CN117707820A
Application number: CN202311610227.3A
Authority: CN
Inventors: 孙腾; 王世泽
Original assignee: Industrial Consumer Finance Co Ltd
Current assignee: Industrial Consumer Finance Co Ltd
Priority date: 2023-11-29
Filing date: 2023-11-29
Publication date: 2024-03-15

Abstract

本申请涉及一种故障追溯方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：监测故障系统的日志数据，若日志数据指示的故障级别为预设告警级别，则从日志数据中获取故障数据，根据故障数据获取故障系统对应的上游的调用系统，从上游的调用系统对应的日志数据中获取故障数据对应的调用数据；若上游的调用系统为源系统，则输出故障数据和调用数据。采用本方法能够提升故障分析效率。

Description

故障追溯方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种故障追溯方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

日志是指系统所指定对象的某些操作和其操作结果按时间有序的集合。通过日志可以实现系统运行分析，可以实现故障分析。

现有的日志分析方法中，能够实现故障对应日志的输出，并不能实现故障的定位，影响故障分析效率。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高故障分析效率的故障追溯方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种故障追溯方法。方法包括：

监测故障系统的日志数据；

若日志数据指示的故障级别为预设告警级别，则从日志数据中获取故障数据；

根据故障数据获取故障系统对应的上游的调用系统；

从上游的调用系统对应的日志数据中获取故障数据对应的调用数据；

若上游的调用系统为源系统，则输出故障数据和调用数据。

在其中一个实施例中，故障追溯方法还包括：若上游的调用系统为非源系统，则重复执行获取上游的调用系统以及从上游的调用系统对应的日志数据中获取调用数据的步骤，直至上游的调用系统为源系统；其中，重复执行获取上游的调用系统以及从上游的调用系统对应的日志数据中获取调用数据的步骤，包括：将上一次获取的上游的调用系统作为初始系统，将上一次获取的调用数据作为初始数据；根据当前的初始数据获取初始系统对应的上游的调用系统；从初始系统对应的上游的调用系统的日志数据中，获取初始数据对应的调用数据。

在其中一个实施例中，故障数据包括故障系统对应的系统关联信息，根据故障数据获取故障系统对应的上游的调用系统，包括：根据系统关联信息，获取故障系统对应的多个上游的调用系统；输出故障数据和调用数据，包括：根据故障系统对应的系统关联信息、故障系统和多个上游的调用系统，生成多条追踪链路，追踪链路用于追踪故障系统的故障源；输出故障数据以及每一条追踪链路中的上游的调用系统对应的调用数据。

在一个实施例中，输出故障数据以及每一条追踪链路中的上游的调用系统对应的调用数据，包括：获取每一条追踪链路中的上游的调用系统对应的日志数据；根据预设告警关键词和每一条追踪链路中的上游的调用系统对应的日志数据，确定每一条追踪链路中的上游的调用系统的告警级别；根据每一条追踪链路中的上游的调用系统的告警级别，确定每一条追踪链路的告警级别；根据每一条追踪链路的告警级别，输出故障数据以及每一条追踪链路中的上游的调用系统对应的调用数据。

在其中一个实施例中，根据每一条追踪链路的告警级别，输出故障数据以及每一条追踪链路中的上游的调用系统对应的调用数据，包括：根据每一条追踪链路的告警级别，和每一条追踪链路中的上游的调用系统的告警级别，输出各追踪链路包括的故障数据和调用数据。

在一个实施例中，从上游的调用系统对应的日志数据中获取故障数据对应的调用数据，包括：根据系统关联信息，从上游的调用系统对应的日志数据中获取故障数据对应的调用数据。

第二方面，本申请还提供了一种故障追溯装置。装置包括：

监测模块，用于监测故障系统的日志数据；

故障数据获取模块，用于若日志数据指示的故障级别为预设告警级别，则从日志数据中获取故障数据；

调用系统获取模块，用于根据故障数据获取故障系统对应的上游的调用系统；

调用数据获取模块，用于从上游的调用系统对应的日志数据中获取故障数据对应的调用数据；

输出模块，用于若上游的调用系统为源系统时，则输出故障数据和调用数据。

第三方面，本申请还提供了一种计算机设备。计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述故障追溯方法。

第四方面，本申请还提供了一种计算机可读存储介质。计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述故障追溯方法。

第五方面，本申请还提供了一种计算机程序产品。计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述故障追溯方法。

上述故障追溯方法、装置、计算机设备、存储介质和计算机程序产品，首先，可以实现利用故障数据获取到上游的调用系统和上游的调用系统包括的与故障数据对应的调用数据，并可以将故障数据和调用数据对应输出，将故障数据与调用数据对应输出，可以使得用户可以较为清晰的明确故障发生的原因，从而提高故障分析速度。其次，对于存在有多次调用故障数据的情况，可以生成多条追踪链路，从而可以实现将与故障数据相关的所有调用数据均输出，保证数据的完整性，提高故障分析的准确性以及效率。再次，可以针对多条追踪链路确定不同的告警等级，根据不同的告警等级输出故障数据和调用数据，从而可以使得用户根据追踪链路的告警等级由高到低进行分析，有序分析，可以在保证故障分析效率的基础上，保证数据分析的全面性，提高故障分析的准确性。

附图说明

图1为本申请实施例提供的一种故障追溯方法的应用环境图；

图2为本申请实施例提供的一种故障追溯方法的流程示意图；

图3为本申请实施例提供的另一种故障追溯方法的流程示意图；

图4为本申请实施例提供的再一种故障追溯方法的流程示意图

图5为本申请实施例提供的一种故障追溯装置的结构框图；

图6为本申请实施例提供的一种计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的故障追溯方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。服务器104监测故障系统的日志数据，若日志数据指示的故障级别为预设告警级别，则从日志数据中获取故障数据，根据故障数据获取故障系统对应的上游的调用系统，从上游的调用系统对应的日志数据中获取故障数据对应的调用数据，若上游的调用系统为源系统，则输出故障数据和调用数据。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种故障追溯方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，监测故障系统的日志数据。

其中，故障用于表征系统不能执行规定功能的状态，故障系统为发生故障的系统。可选地，系统可以为分布式系统的各节点的系统，也可以为分布式系统的各节点的系统内的各应用系统。日志数据用于表征系统包括的对象的某些操作和其操作结果的集合。

在一个实施例中，故障可以具有不同的等级，用于表征故障的严重程度高低。在一个可选的实施例中，故障的不同等级可以包括但不限于严重错误（FATAL）、错误（ERROR）、警告（WARN）和常规提醒（INFO）等，其中，FATAL用于表征严重错误，系统无法正常运行，系统或者系统的组件迫近奔溃，ERROR用于保证系统逻辑出错、异常，可以继续运行，但需要尽快修复的错误，ERROR不一定会造成系统的奔溃，系统可继续服务接下来的请求，WARN用于表征系统可以正常运行，但需要引起注意的警告信息，预示存在的较小的问题，由系统外部的因素造成的，比如用户输入了不符合条件的参数，INFO用于表征常规处理消息和应用程序状态，系统运行的主要关键时点的操作信息，一般用于记录业务日志，但也有足够的信息以保证可以记录再现缺陷的路径。

在一个示例性的实施例中，系统的日志数据中可以包括但不限于开始时间和结束时间、交易码或服务码、返回码、错误返回信息、异常定位码、故障数据等。其中，开始时间和结束时间用于表征交易开始的时间和交易完成的时间；交易码或服务码用于表征交易、服务或操作的内容；返回码用于表征交易结束状态，以区分交易正常或交易存在异常；错误返回信息用于表征当交易失败时，返回失败的信息描述；异常定位码用于实现异常位置的辅助定位，可通过异常定位码在日志数据中搜索故障数据；故障数据用于表征发生故障的具体数据。

可选地，设置有日志采集组件，通过日志采集组件实现日志的收集。在一个可选地实施例中，日志采集组件设置在分布式系统的各节点上，例如可以为分布式系统的各节点的服务器上，通过各节点服务器上独立的日志采集组件收集各自节点上的日志数据，并将由日志采集组件采集到的日志数据传输给总服务器，由总服务器实现对获取到的日志数据进行处理。

在一个可选的实施例中，可以采用日志条的形式记录数据以形成日志数据。其中，日志条用于记录对象发生的每一项操作。可选地，日志条在记录是具有对应的规则，例如，可以将发生的日期+时刻作为前缀，将发生的事件的系统或模块以及系统或模块发生的事件作为内容，如：2020-11-03 13:59:10 INFO com.dcfs.esb.client.connector.HTTPClientConnector。

在一个实施例中，总服务器可以周期性的执行监控任务，例如周期性的统计日志数据中关键词（例如，ERROR）的出现次数，通过关键词的出现次数确定系统是否发生异常并触发告警。

在一个可选的实施例中，告警可以有不同的等级，告警级别可以包括但不限于致命级、严重级别、警告级别等。可选地，可以通过预设时间内关键词出现的次数确定不同的等级，例如5分钟内出现ERROR级别的告警次数大于10，则可以认为致命级告警，5分钟内出现“下单失败”关键词的次数大于10次为警告级别告警。

步骤204，若日志数据指示的故障级别为预设告警级别，则从日志数据中获取故障数据。

步骤206，根据故障数据获取故障系统对应的上游的调用系统。

步骤208，从上游的调用系统对应的日志数据中获取故障数据对应的调用数据。

其中，预设告警级别用于表征预设的需对故障进行排除的告警，例如，发生严重级别的告警。

在一个可选地实施例中，总服务器在接收到各节点服务器传送的日志数据后，可以周期性的执行监控任务，以确定是否存在预设告警级别的情况发生。

在一个可选的实施例中，当总服务器监测到系统发生故障为预设告警级别或者超过预设告警级别，此时总服务器从故障系统的日志数据中获取故障对应的故障数据，例如，预设告警级别为严重告警级别，监测到的级别为致命告警级别，则此时，从日志数据中获取故障数据，以便通过故障数据实现故障链路追踪，从而确定发生故障的具体内容。可选地，可以利用异常定位码确定故障数据在日志数据中的位置，然后进行故障数据的提取。

可选地，故障数据可以包括但不限于操作用户及发起渠道、本系统流水编号、源发起系统流水编号、上游系统流水编号等。其中，本系统流水编号用于唯一标识一笔交易中发生故障的系统的系统标识，源发起系统流水编号用于唯一标识发起该同一笔交易的源头系统，上游系统流水编号用于唯一标识调用发生故障的系统的上游系统。可选地，操作用户及发起渠道包括但不限于记录操作的机构、用户、渠道名称、IP地址等。

在一个可选的实施例中，故障数据包括故障系统对应的系统关联信息，根据系统关联信息，获取故障系统对应的多个上游的调用系统；根据故障系统对应的系统关联信息、故障系统和多个上游的调用系统，生成多条追踪链路；输出故障数据以及每一条追踪链路中的上游的调用系统对应的调用数据。

其中，关联信息用于获取与故障系统的故障数据相关的系统和数据。可选地，关联信息可以包括关联系统信息和关联数据信息，关联系统信息可以用来获取调用故障系统的上游调用系统，关联数据信息可以用于获取上游调用系统中包括的调用故障数据的调用数据。

其中，追踪链路用于追踪故障系统的故障源。

可选地，总服务器在从故障系统中获取到故障数据后，可以从故障数据中提取出关联信息，利用关联信息获取上游的调用系统和上游的调用系统包括的与故障数据对应的关联数据，例如关联信息包括关联系统和关联数据，然后利用关联系统信息获取故障系统的上游的调用系统，并利用关联数据信息获取上游系统包括的调用该故障数据的调用数据。

可以理解的，完整的交易可能并不仅仅只包括两个系统，可能包括多个系统，从而在获取到上游调用系统以及上游调用系统包括的与故障数据对应的调用数据时，可以先针对上游调用系统进行是否源系统的判断，当判断上游调用系统为源系统时，则可以认为该获取到的上游调用系统和故障系统即可形成一个交易链路，从而将上游调用系统与故障系统组成为一个链路，将上游调用系统包括的与故障数据对应的调用数据以及故障数据一起输出。而若根据上游调用系统确定该上游调用系统并非源系统时，则可以根据上游调用系统中包括的与故障数据对应的调用数据进行获取该上游调用系统的上游调用系统，直至获取到源系统为止。

在一个实施例中，调用故障系统的故障数据的上游调用系统可能并非只有一个，则在获取到故障数据后，从故障数据中提取出关联信息，从关联系统中获取所有调用该故障系统的故障数据的所有关联系统信息和所有的关联数据信息，用获取到的所有关联系统信息获取所有的上游调用系统，以及用关联数据信息获取上游调用系统包括的与故障数据对应的调用数据。

可选地，对于获取到的所有的上游调用系统均判断该上游调用系统是否为源系统，若是源系统，则基于该上游调用系统与故障系统形成一条追踪链路，可以将该上游调用系统包括的与故障数据对应的调用数据以及故障数据对应数据。当该上游调用系统并非源系统时，则可以进一步获取该上游调用系统的上游调用系统，直至获取到源系统，则将获取到的所有的上游调用系统源系统以及故障系统形成一条追踪链路，可以将该条追踪链路上包括的所有的上游调用系统、源系统以及故障系统包括的调用数据和故障数据对应输出。

步骤210，若上游的调用系统为源系统，则输出故障数据和调用数据。

可选地，在总服务器获取到上游的调用系统后，可以先针对上游的调用系统确定该上游的调用系统是否为源系统，例如设置源系统标识，然后将上游的调用系统与源系统标识进行匹配，当两者匹配时，则认为上游的调用系统为源系统。在确定上游的调用系统为源系统后，可以将上游的调用系统包括的与故障数据对应的调用数据与故障数据一起输出，例如形成文档输出，或者直接将调用数据和故障数据显示在显示界面上。

在一个实施例中，若上游的调用系统为非源系统，则重复执行获取上游的调用系统以及从上游的调用系统对应的日志数据中获取调用数据的步骤，其中，获取上游的调用系统以及从上游的调用系统对应的日志数据中获取调用数据的步骤包括：将上一次获取的上游的调用系统作为初始系统，将上一次获取的调用数据作为初始数据；根据当前的初始数据获取初始系统对应的上游的调用系统；从初始系统对应的上游的调用系统的日志数据中，获取初始数据对应的调用数据。在重复执行获取上游的调用系统的步骤直至获取到的上游的调用系统为源系统时，可以将获取到的上游的调用系统包括的调用数据与故障数据一起输出。

可选地，当根据故障数据可以生成多条追踪链路时，可以，获取每一条追踪链路中的上游的调用系统对应的日志数据，根据预设告警关键词和每一条追踪链路中的上游的调用系统对应的日志数据，确定每一条追踪链路中的上游的调用系统的告警级别，根据每一条追踪链路中的上游的调用系统的告警级别，确定每一条追踪链路的告警级别，根据每一条追踪链路的告警级别，输出故障数据以及每一条追踪链路中的上游的调用系统对应的调用数据。

可以理解的，对于多条追踪链路而言，不同的调用系统、调用系统包括的与故障数据对应的调用数据可能会导致追踪链路故障等级不同，从而可以根据追踪链路故障等级不同确定出最有可能发生故障的追踪链路。对于不同的追踪链路而言，其中包括的系统产生的故障发生等级，包括的发生故障的系统，都有可能引起追踪链路的等级的高低不同，因而，可以通过追踪链路中系统的故障情况来确定追踪链路的告警等级。

在一个示例性的实施例中，获取每一条追踪链路中包括的各系统，确定链路中所发生故障的系统的数量，根据发生故障的系统的数量确定追踪链路的告警等级。可选地，可以确定发生故障的系统的告警等级，根据各发生故障的系统的告警等级综合确定追踪链路的告警等级。

可选地，根据每一条追踪链路的告警级别，和每一条追踪链路中的上游的调用系统的告警级别，输出各追踪链路包括的故障数据和调用数据。

在一个实施例中，可以在获取到多条链路的故障等级后，按照等级高低对追踪链路进行排序，将每一条追踪链路包括的系统以及对应的调用数据获取，并将系统、调用数据、故障系统以及故障数据对应数据。可选地，可以根据追踪链路的告警等级不同输出，例如告警等级高的，输出时，排在前面，告警等级低的，输出时，则排在后面；也可以例如，对应不同的告警等级设置不同的显示方式，例如设置不同的显示颜色，告警等级高的设置成红色，低的设置成绿色。

上述故障追溯方法中，首先，可以实现利用故障数据获取到上游的调用系统和上游的调用系统包括的与故障数据对应的调用数据，并可以将故障数据和调用数据对应输出，将故障数据与调用数据对应输出，可以使得用户可以较为清晰的明确故障发生的原因，从而提高故障分析速度。其次，对于存在有多次调用故障数据的情况，可以生成多条追踪链路，从而可以实现将与故障数据相关的所有调用数据均输出，保证数据的完整性，提高故障分析的准确性以及效率。再次，可以针对多条追踪链路确定不同的告警等级，根据不同的告警等级输出故障数据和调用数据，从而可以使得用户根据追踪链路的告警等级由高到低进行分析，有序分析，可以在保证故障分析效率的基础上，保证数据分析的全面性，提高故障分析的准确性。

在一个实施例中，如图3所示，提供了一种故障追溯方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤302，监测故障系统的日志数据。

步骤304，若日志数据指示的故障级别为预设告警级别，则从日志数据中获取故障数据。

其中，故障数据包括故障系统对应的系统关联信息。

步骤306，根据故障数据获取故障系统对应的上游的调用系统。

步骤308，根据系统关联信息，从上游的调用系统对应的日志数据中获取故障数据对应的调用数据。

步骤310，判断上游的调用系统是否为源系统，若是，则执行步骤318，若否，则执行步骤312。

步骤312，将上一次获取的上游的调用系统作为初始系统，将上一次获取的调用数据作为初始数据。

步骤314，根据当前的初始数据获取初始系统对应的上游的调用系统。

步骤316，从初始系统对应的上游的调用系统的日志数据中，获取初始数据对应的调用数据。

步骤318，输出故障数据和调用数据。

本实施例中，本实施例中，通过关联信息不断获取上游的调用系统和上游的调用系统包括的与故障数据对应的调用数据，直至上游的调用系统为源系统，将故障数据和调用数据输出，从而可以保证获取到的用于实现分析的日志数据的全面性，因而保证日志分析的准确性。

在一个实施例中，如图4所示，提供了一种故障追溯方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤402，监测故障系统的日志数据。

步骤404若日志数据指示的故障级别为预设告警级别，则从日志数据中获取故障数据。

其中，故障数据包括故障系统对应的系统关联信息。

步骤406，根据系统关联信息，获取故障系统对应的多个上游的调用系统。

步骤408，从上游的调用系统对应的日志数据中获取故障数据对应的调用数据。

步骤410，若上游的调用系统为源系统，则根据故障系统对应的系统关联信息、故障系统和多个上游的调用系统，生成多条追踪链路，追踪链路用于追踪故障系统的故障源。

步骤412，获取每一条追踪链路中的上游的调用系统对应的日志数据。

步骤414，根据预设告警关键词和每一条追踪链路中的上游的调用系统对应的日志数据，确定每一条追踪链路中的上游的调用系统的告警级别。

步骤416，根据每一条追踪链路中的上游的调用系统的告警级别，确定每一条追踪链路的告警级别。

步骤418，根据每一条追踪链路的告警级别，和每一条追踪链路中的上游的调用系统的告警级别，输出各追踪链路包括的故障数据和调用数据。

本实施例中，获取调用故障数据的多个调用数据，以及多个上游的调用系统，并可生成多条追踪链路，从而可以保证用于实现分析的日志数据的全面性，从而提高日志分析的准确性。且，针对多条追踪链路可以根据追踪链路的告警级别不同，将该追踪链路上的调用数据与故障数据对应输出，从而在保证日志数据全面性的基础上，又保证数据处理的优先级，提高数据处理效率。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的故障追溯方法的故障追溯装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个故障追溯装置实施例中的具体限定可以参见上文中对于故障追溯方法的限定，在此不再赘述。

在一个实施例中，如图5所示，提供了一种故障追溯装置500，包括：监测模块502、故障数据获取模块504、调用系统获取模块506、调用数据获取模块508和输出模块510，其中：

监测模块502，用于监测故障系统的日志数据。

故障数据获取模块504，用于若日志数据指示的故障级别为预设告警级别，则从日志数据中获取故障数据。

调用系统获取模块506，用于根据故障数据获取故障系统对应的上游的调用系统。

调用数据获取模块508，用于从上游的调用系统对应的日志数据中获取故障数据对应的调用数据。

输出模块510，用于若上游的调用系统为源系统时，则输出故障数据和调用数据。

在一个实施例中，故障追溯装置还包括循环模块，用于若上游的调用系统为非源系统，则重复执行获取上游的调用系统以及从上游的调用系统对应的日志数据中获取调用数据的步骤，直至上游的调用系统为源系统；其中，重复执行获取上游的调用系统以及从上游的调用系统对应的日志数据中获取调用数据包括：将上一次获取的上游的调用系统作为初始系统，将上一次获取的调用数据作为初始数据；根据当前的初始数据获取初始系统对应的上游的调用系统；从初始系统对应的上游的调用系统的日志数据中，获取初始数据对应的调用数据。

在一个实施例中，故障数据包括故障系统对应的系统关联信息，调用系统获取模块506，还用于根据系统关联信息，获取故障系统对应的多个上游的调用系统。输出模块510，还用于根据故障系统对应的系统关联信息、故障系统和多个上游的调用系统，生成多条追踪链路，追踪链路用于追踪故障系统的故障源；输出故障数据以及每一条追踪链路中的上游的调用系统对应的调用数据。

在其中一个实施例中，输出模块510，还用于获取每一条追踪链路中的上游的调用系统对应的日志数据；根据预设告警关键词和每一条追踪链路中的上游的调用系统对应的日志数据，确定每一条追踪链路中的上游的调用系统的告警级别；根据每一条追踪链路中的上游的调用系统的告警级别，确定每一条追踪链路的告警级别；根据每一条追踪链路的告警级别，输出故障数据以及每一条追踪链路中的上游的调用系统对应的调用数据。

在一个可选的实施例中，输出模块510，还用于根据每一条追踪链路的告警级别，和每一条追踪链路中的上游的调用系统的告警级别，输出各追踪链路包括的故障数据和调用数据。

在其中一个实施例中，调用数据获取模块508，还用于根据系统关联信息，从上游的调用系统对应的日志数据中获取故障数据对应的调用数据。

上述故障追溯装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种故障追溯方法。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述故障追溯方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述故障追溯方法。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述故障追溯方法。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种故障追溯方法，其特征在于，所述方法包括：

监测故障系统的日志数据；

若所述日志数据指示的故障级别为预设告警级别，则从所述日志数据中获取故障数据；

根据所述故障数据获取所述故障系统对应的上游的调用系统；

从所述上游的调用系统对应的日志数据中获取所述故障数据对应的调用数据；

若所述上游的调用系统为源系统，则输出所述故障数据和所述调用数据。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述上游的调用系统为非源系统，则重复执行获取上游的调用系统以及从所述上游的调用系统对应的日志数据中获取调用数据的步骤，直至所述上游的调用系统为源系统；

其中，所述重复执行获取上游的调用系统以及从所述上游的调用系统对应的日志数据中获取调用数据的步骤，包括：

将上一次获取的上游的调用系统作为初始系统，将所述上一次获取的调用数据作为初始数据；

根据所述当前的初始数据获取所述初始系统对应的上游的调用系统；

从所述初始系统对应的上游的调用系统的日志数据中，获取所述初始数据对应的调用数据。

3.根据权利要求2所述的方法，其特征在于，所述故障数据包括所述故障系统对应的系统关联信息，所述根据所述故障数据获取所述故障系统对应的上游的调用系统，包括：

根据所述系统关联信息，获取所述故障系统对应的多个上游的调用系统；

所述输出所述故障数据和所述调用数据，包括：

根据所述故障系统对应的系统关联信息、所述故障系统和所述多个上游的调用系统，生成多条追踪链路，所述追踪链路用于追踪所述故障系统的故障源；

输出所述故障数据以及每一条追踪链路中的上游的调用系统对应的调用数据。

4.根据权利要求3所述的方法，其特征在于，所述输出所述故障数据以及每一条追踪链路中的上游的调用系统对应的调用数据，包括：

获取每一条追踪链路中的上游的调用系统对应的日志数据；

根据预设告警关键词和所述每一条追踪链路中的上游的调用系统对应的日志数据，确定所述每一条追踪链路中的上游的调用系统的告警级别；

根据所述每一条追踪链路中的上游的调用系统的告警级别，确定每一条追踪链路的告警级别；

根据每一条追踪链路的告警级别，输出所述故障数据以及每一条追踪链路中的上游的调用系统对应的调用数据。

5.根据权利要求4所述的方法，其特征在于，所述根据每一条追踪链路的告警级别，输出所述故障数据以及每一条追踪链路中的上游的调用系统对应的调用数据，包括：

根据所述每一条追踪链路的告警级别，和所述每一条追踪链路中的上游的调用系统的告警级别，输出各所述追踪链路包括的故障数据和调用数据。

6.根据权利要求3-5任一项所述的方法，其特征在于，所述从所述上游的调用系统对应的日志数据中获取所述故障数据对应的调用数据，包括：

根据所述系统关联信息，从所述上游的调用系统对应的日志数据中获取所述故障数据对应的调用数据。

7.一种故障追溯装置，其特征在于，所述装置包括：

监测模块，用于监测故障系统的日志数据；

故障数据获取模块，用于若所述日志数据指示的故障级别为预设告警级别，则从所述日志数据中获取故障数据；

调用系统获取模块，用于根据所述故障数据获取所述故障系统对应的上游的调用系统；

调用数据获取模块，用于从所述上游的调用系统对应的日志数据中获取所述故障数据对应的调用数据；

输出模块，用于若所述上游的调用系统为源系统时，则输出所述故障数据和所述调用数据。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。