CN111611100B

CN111611100B - 交易故障检测方法、装置、计算设备以及介质

Info

Publication number: CN111611100B
Application number: CN202010458511.3A
Authority: CN
Inventors: 包磊; 贺娜; 景佳; 许婧岳
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2024-03-08
Anticipated expiration: 2040-05-26
Also published as: CN111611100A

Abstract

本公开提供了一种交易故障检测方法，包括：获取多个节点中每个节点处理当前交易数据时生成的初始日志数据；基于针对当前交易数据的预设链路规则，处理初始日志数据以得到目标日志数据，其中，预设链路规则表征了多个节点处理当前交易数据的处理顺序；以及基于历史日志数据和历史故障情况来处理目标日志数据，以便确定多个节点处理当前交易数据时发生的当前故障情况，其中，历史日志数据是处理历史交易数据时生成的数据，历史故障情况是处理历史交易数据时发生的故障情况。本公开还提供了一种交易故障检测装置、一种计算设备以及一种计算机可读存储介质。

Description

交易故障检测方法、装置、计算设备以及介质

技术领域

本公开涉及计算机技术领域，特别是涉及一种交易故障检测方法、一种交易故障检测装置、一种计算设备以及一种计算机可读存储介质。

背景技术

随着流平台的准实时处理业务场景推广，越来越多的产品线(个贷、信用卡、对公账户、网银等)、越来越多的业务场景(如风险监控、智能营销等)都陆续部署流式交易处理节点。由于流式交易具有交易复杂、链路长、部署实例多等特点，因此对交易进行故障检测的过程较为繁琐。目前缺乏有效的方法和手段来进行交易故障检测。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题。

通过人工逐个分析节点日志数据进行交易故障检测，具有人力成本高、工作量大、效率低等问题。

测试人员进行交易故障检测时，需要查找每个节点的交易日志数据，当交易涉及多个节点时，并且为了提高并发性每个节点又会启动若干个实例，一旦查找过程中漏掉了某个日志数据，可能会导致无法定位到交易故障问题，造成人力和时间的损失。因此，通过人工查找日志数据的方式，存在可靠性较差、效率较低的问题。

在进行交易故障检测的过程中，测试人员往往不关心也不了解具体的交易链路顺序，这就需要测试人员去数据表中查看，但按照关系型数据库的设计原则，每个节点只记录下游的路由节点，这就需要测试人员要逐条查找节点的链路顺序，加重了测试人员工作量，增加了人力成本，降低了测试效率。

现有的日志分析工具多适用于扁平化或层次化服务器部署的场景，且无法针对流式数据交易的测试问题进行全链路的追踪和定位。

发明内容

有鉴于此，本公开提供了一种优化的交易故障检测方法、交易故障检测装置、计算设备和计算机可读存储介质。

本公开的一个方面提供了一种交易故障检测方法，包括：获取多个节点中每个节点处理当前交易数据时生成的初始日志数据，基于针对所述当前交易数据的预设链路规则，处理所述初始日志数据以得到目标日志数据，其中，所述预设链路规则表征了所述多个节点处理所述当前交易数据的处理顺序，基于历史日志数据和历史故障情况来处理所述目标日志数据，以便确定所述多个节点处理所述当前交易数据时发生的当前故障情况，其中，所述历史日志数据是处理历史交易数据时生成的数据，所述历史故障情况是处理历史交易数据时发生的故障情况。

根据本公开的实施例，上述基于历史日志数据和历史故障情况来处理所述目标日志数据包括：获取待训练模型，基于所述历史日志数据和所述历史故障情况训练所述待训练模型，得到经训练模型；以及

利用所述经训练模型处理所述目标日志数据。

根据本公开的实施例，上述利用所述经训练模型处理所述目标日志数据包括以下至少一项：确定所述多个节点中当前节点是否接收到来自上一级节点的当前交易数据，以便确定所述当前节点与上一级节点之间的连接情况是否正常，根据所述多个节点中当前节点是否已经处理完成所述当前交易数据，确定所述当前节点中用于存储数据的队列是否存在堆积情况，确定所述多个节点中当前节点是否将所述当前交易数据发送至下一级节点，以便确定所述当前节点是否存在处理中断的情况。

根据本公开的实施例，上述基于所述历史日志数据和所述历史故障情况训练所述待训练模型包括：确定所述历史日志数据为训练样本数据，确定所述历史故障情况为所述训练样本数据的标签信息，基于所述训练样本数据和所述标签信息训练所述待训练模型。

根据本公开的实施例，上述基于针对所述当前交易数据的预设链路规则，处理所述初始日志数据以得到目标日志数据包括：基于所述预设链路规则，对所述多个节点中每个节点的初始日志数据进行排序处理，得到所述目标日志数据。

根据本公开的实施例，上述获取多个节点中每个节点处理当前交易数据时生成的初始日志数据包括：确定当前交易的标识，基于所述标识，从数据库中获取处理与所述当前交易对应的当前交易数据时生成的初始日志数据，其中，所述数据库用于存储多个交易的日志数据。

本公开的另一个方面提供了一种交易故障检测装置，包括：获取模块、第一处理模块以及第二处理模块。其中，获取模块，获取多个节点中每个节点处理当前交易数据时生成的初始日志数据。第一处理模块，基于针对所述当前交易数据的预设链路规则，处理所述初始日志数据以得到目标日志数据，其中，所述预设链路规则表征了所述多个节点处理所述当前交易数据的处理顺序。第二处理模块，基于历史日志数据和历史故障情况来处理所述目标日志数据，以便确定所述多个节点处理所述当前交易数据时发生的当前故障情况，其中，所述历史日志数据是处理历史交易数据时生成的数据，所述历史故障情况是处理历史交易数据时发生的故障情况。

利用所述经训练模型处理所述目标日志数据。

本公开的另一方面提供了一种计算设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的方法。

本公开的另一方面提供了一种非易失性可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

根据本公开的实施例，利用如上所述的交易故障检测方法，可以至少部分地解决通过人工逐个分析节点日志来检测交易故障导致人力成本高、工作量大、检测效率低的问题。因此可以实现提高了交易故障检测的效率、降低了人工成本、提高了交易故障检测的可靠性的技术效果。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本公开实施例的交易故障检测方法和交易故障检测装置的系统架构；

图2示意性示出了根据本公开实施例的交易故障检测方法的流程图；

图3示意性示出了根据本公开实施例的训练机器学习模型的流程图；

图4示意性示出了根据本公开实施例的交易跟踪和分析方法的流程图；

图5示意性示出了根据本公开实施例的交易故障检测装置的框图；以及

图6示意性示出了根据本公开实施例的用于实现交易故障检测的计算机系统的方框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程控制装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。

因此，本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中，计算机可读存储介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，计算机可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

本公开的实施例提供了一种交易故障检测方法，包括：获取多个节点中每个节点处理当前交易数据时生成的初始日志数据。然后，基于针对当前交易数据的预设链路规则，处理初始日志数据以得到目标日志数据，其中，预设链路规则表征了多个节点处理当前交易数据的处理顺序。接下来，基于历史日志数据和历史故障情况来处理目标日志数据，以便确定多个节点处理当前交易数据时发生的当前故障情况，其中，历史日志数据是处理历史交易数据时生成的数据，历史故障情况是处理历史交易数据时发生的故障情况。

图1示意性示出了根据本公开实施例的交易故障检测方法和交易故障检测装置的系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100例如可以包括多个节点110、120、130等等，网络140和检测设备150。

根据本公开实施例，网络140例如用于在多个节点110、120、130和检测设备150之间提供通信链路的介质。网络140可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

多个节点110、120、130例如可以是用于处理交易数据的服务器或者电子设备等等。其中，多个节点110、120、130可以是提供各种服务的服务器，服务器例如包括后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给用户。电子设备例如可以包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。在本公开实施例中，多个节点110、120、130在处理当前交易数据时，生成日志数据。

检测设备150例如也可以是服务器或者电子设备等等。检测设备150例如可以用于通过网络140获取多个节点110、120、130的日志数据，并对日志数据进行处理来确定多个节点110、120、130在处理交易数据的过程中是否发生故障。

需要说明的是，本公开实施例所提供的交易故障检测方法一般可以由检测设备150执行。相应地，本公开实施例所提供的交易故障检测装置一般可以设置于检测设备150中。本公开实施例所提供的交易故障检测方法也可以由不同于检测设备150且能够与多个节点110、120、130和/或检测设备150通信的服务器或服务器集群执行。相应地，本公开实施例所提供的交易故障检测装置也可以设置于不同于检测设备150且能够与多个节点110、120、130和/或检测设备150通信的服务器或服务器集群中。

例如，本公开实施例的多个节点110、120、130中每个节点处理当前交易数据时生成的初始日志数据可以存储在多个节点110、120、130中，通过检测设备150从多个节点110、120、130中获取初始日志数据，检测设备150可以基于初始日志数据确定多个节点110、120、130处理当前交易数据时发生的当前故障情况。

可见，本公开实施例通过获取处理当前交易数据时生成的初始日志数据，然后基于预设链路规则对初始日志数据进行处理得到目标日志数据。然后利用机器学习模型对目标日志数据进行进处理，从而得到多个节点处理当前交易数据时发生的当前故障情况。通过本公开实施例的技术方案，提高了交易故障检测的效率、降低了人工成本、提高了交易故障检测的可靠性。

应该理解，图1中的节点、网络和检测设备的数目仅仅是示意性的。根据实现需要，可以具有任意数目的节点、网络和检测设备。

下面结合图1的系统架构，参考图2～图4来描述根据本公开示例性实施方式的交易故障检测方法。需要注意的是，上述系统架构仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。

图2示意性示出了根据本公开实施例的交易故障检测方法的流程图。

如图2所示，本公开实施例的交易故障检测方法例如可以包括以下操作S210～操作S230。

在操作S210，获取多个节点中每个节点处理当前交易数据时生成的初始日志数据。

根据本公开实施例，例如可以在测试环境或者生产环境中获取多个节点中每个节点处理当前交易数据生成的初始日志数据。其中，当前交易数据例如可以是针对流式交易的交易数据。在多个节点处理流式交易的当前交易数据时，例如可以是多个节点依次处理。例如，由当前节点处理当前交易数据得到处理结果之后，由当前节点将处理后的当前交易数据发送给下一级节点继续处理。

在本公开实施例中，每个节点例如均包括自身的初始日志数据。每个节点例如均配置采集线程来采集自身的初始日志数据。针对一个节点来说，如果该节点创建了多个实例来处理当前交易数据，则针对每个实例均可以配置一个采集线程来采集该实例处理当前交易数据生成的初始日志数据。其中，每个实例均可以部署在一个机器上，实例例如可以是一种处理数据的进程。一个节点中的多个实例可以并行处理当前交易数据。

根据本公开实施例，针对一个节点的初始日志数据，该初始日志数据中例如包括所属节点的节点标识、实例号、当前交易的标识、当前路由链路、交易时间戳、该节点接收当前交易数据的状态、该节点处理当前交易数据的状态、该节点发送当前交易数据的状态。其中，当前交易的标识例如可以是当前交易的唯一业务编号。当前路由链路例如表征了该节点的上一级节点和下一级节点，上一级节点将当前交易数据传输给该节点，该节点将当前交易数据传输给下一级节点。

根据本公开实施例，采集线程所采集的初始日志数据例如可以存储于数据库中，数据库例如属于分布式文件系统。数据库中例如存储了多笔交易的日志数据。在获取多个节点中每个节点处理当前交易数据时生成的初始日志数据时，首先可以确定当前交易的标识(当前交易的唯一业务编号)，该当前交易的标识例如可以由用户输入。当接收到用户输入的标识后，可以基于该标识从数据库中获取处理与当前交易对应的当前交易数据时生成的初始日志数据。其中，用户还可以指定一个时间范围，多个节点例如在该时间范围内处理当前交易数据并生成初始日志数据。从数据库中查询该时间范围内的日志数据，即可得到初始日志数据，而不需要查询数据库中所有的日志数据，提高了查询效率。

在操作S220，基于针对当前交易数据的预设链路规则，处理初始日志数据以得到目标日志数据。其中，预设链路规则表征了多个节点处理当前交易数据的处理顺序。

根据本公开实施例，预设链路规则例如可以是预先存储在数据库中的信息。该预设链路规则例如规定了在处理当前交易数据时，需要由哪些节点相互配合，并且规定了相互配合的节点的处理顺序。例如，针对当前交易，预设链路规则例如规定了需要节点1、节点2、节点3、节点4、节点5来处理当前交易数据，并且规定了由节点1、节点2、节点3、节点4、节点5依次来处理当前交易数据。例如，首先由节点1处理当前交易数据后发送给节点2继续处理，节点2处理当前交易数据后发送给节点3继续处理，节点3处理当前交易数据后发送给节点4继续处理，节点4处理当前交易数据后发送给节点5继续处理。

根据本公开实施例，基于针对当前交易数据的预设链路规则，处理初始日志数据以得到目标日志数据包括：基于预设链路规则，对多个节点中每个节点的初始日志数据进行排序处理，得到目标日志数据。

例如，初始日志数据包括数据a、数据b、数据c。数据a例如为节点2处理当前交易数据生成的日志数据，数据b例如为节点1处理当前交易数据生成的日志数据，数据c例如为节点3处理当前交易数据生成的日志数据。此时，处理当前交易数据的多个节点包括节点1、节点2、节点3。由于预设链路规则表征的处理顺序为节点1、节点2、节点3依次处理当前交易数据，因此，基于处理顺序对数据a、数据b、数据c进行排序，得到排序后的目标日志数据例如为数据b、数据a、数据c。其中，由于处理当前交易数据的节点为节点1、节点2、节点3(没有节点4、节点5)，可以表征在节点3处理当前交易数据时发生了中断，导致没有将当前交易数据发送给节点4继续处理。

接下来，在操作S230，基于历史日志数据和历史故障情况来处理目标日志数据，以便确定多个节点处理当前交易数据时发生的当前故障情况。其中，历史日志数据是处理历史交易数据时生成的数据，历史故障情况是处理历史交易数据时发生的故障情况。

根据本公开实施例，例如可以通过历史日志数据和历史故障情况来训练机器学习模型，以便利用机器学习模型来自动识别当前目标日志数据来确认处理当前交易数据时发生的当前故障情况。其中，历史日志数据与当前目标日志数据类似，例如为经过排序处理的日志数据。

例如，通过获取待训练模型，然后基于历史日志数据和历史故障情况训练待训练模型，得到经训练模型。

例如，可以确定历史日志数据为训练样本数据，并确定历史故障情况为训练样本数据的标签信息，然后基于训练样本数据和标签信息训练待训练模型，从而得到经训练模型。经训练模型例如可以是决策树模型。接下来，可以利用经训练模型处理目标日志数据，以便确认处理当前交易数据时发生的当前故障情况。

根据本公开实施例，利用经训练模型处理目标日志数据例如包括：

确定多个节点中当前节点是否接收到来自上一级节点的当前交易数据，以便确定当前节点与上一级节点之间的连接情况是否正常。如果当前节点没有接收到来自上一级节点的当前交易数据，例如可以表征当前节点和上一级节点之间的网络通畅性存在问题、当前节点和上一级节点之间存储数据的队列的配置存在不一致的问题、或者当前节点和上一级节点之间机器时钟存在不同步的问题。

根据多个节点中当前节点是否已经处理完成当前交易数据，确定当前节点中用于存储数据的队列是否存在堆积情况。如果当前节点还没有处理完成当前交易数据，例如可以表征当前节点中用于存储数据的队列存在堆积情况。

确定多个节点中当前节点是否将当前交易数据发送至下一级节点，以便确定当前节点是否存在处理中断的情况。如果当前节点并未将当前交易数据发送至下一级节点，例如可以表征当前节点处理数据的过程中存在处理中断的问题。

在另一实施例中，用于处理当前交易数据的系统例如包括多个节点，系统中的第一个节点例如可以是监听节点，除了第一个节点之外的其他节点例如可以是处理节点。在本公开实施例中，例如可以通过判断当前交易数据是否到达监听节点，如果未到达，可以表征交易未到达系统。可以通过判断监听节点是否处理完成当前交易数据，如果未处理完成，则可以表征监听节点处理异常或者监听节点的下一级节点异常导致无法将当前交易数据发送至下一级节点。

根据本公开实施例，如果机器学习模型识别不出交易故障原因或者识别结果不佳，可以通过人工排查交易故障原因，同时修正机器学习模型。

可以理解，本公开实施例通过获取处理当前交易数据时生成的初始日志数据，然后基于预设链路规则对初始日志数据进行排序得到目标日志数据。然后利用机器学习模型对目标日志数据进行处理，从而得到多个节点处理当前交易数据时发生的当前故障情况。可见，通过本公开实施例的技术方案，提高了交易故障检测的效率、降低了人工成本、提高了交易故障检测的可靠性。

图3示意性示出了根据本公开实施例的训练机器学习模型的流程图。

如图3所示，本公开实施例的训练机器学习模型例如可以包括以下操作S301～操作S314。

如图3所示，在另一实施例中，用于处理当前交易数据的系统例如包括多个节点，系统中的第一个节点例如可以是监听节点，最后一个节点例如可以作为反馈节点，除了第一个节点和最后一个节点之外的其他节点例如可以是处理节点。一笔交易数据例如从进入监听节点开始，然后进入一系列处理节点进行处理，最终通过反馈节点实现交易闭环。每个节点均可以利用i表示节点输入、p表示节点处理、o表示节点输出。例如将历史日志数据输入机器学习模型中进行训练，训练过程例如如下描述。

在操作S301，开始。

在操作S302，判断交易数据是否到达监听节点。

在操作S303，如果交易数据是未到达监听节点，可以表征监听节点异常或者交易未到达系统内部。

在操作S304，判断监听节点是否处理完成交易数据。

在操作S305，如果监听节点未处理完成交易数据，则可以表征监听节点处理异常或者监听节点的下一级节点(P₁)异常导致无法将交易数据发送至下一级节点。即，监听节点与处理节点P₁的上下游redis队列衔接配置不一致或对应的P₁节点实例异常。

在操作S306，依次判断交易数据是否到达处理节点P₁～P_n-1。其过程与操作S307类似。

在操作S307，判断交易数据是否到达处理节点P_n。

在操作S308，如果交易数据未到达处理节点P_n，则可以表征处理节点P_n和处理节点P_n-1之间的网络通畅性存在问题、处理节点P_n和处理节点P_n-1之间存储数据的队列的配置存在不一致的问题、或者处理节点P_n和处理节点P_n-1之间机器时钟存在不同步的问题。

例如，一个调用链(处理节点)正常，即该调用链包括i、p、o，但是无下一个调用链(下一个处理节点)的记录，则可以查看当前处理节点的启动日志，确定该处理节点是否与下游处理节点建立正常心跳包的连接，如果处理节点与下游处理节点未建立正常心跳包的连接，则测试网络是否通畅。如果网络畅通则为下游处理节点没有正常运行，则查看下游处理节点内部处理日志，由于节点间的衔接组件是redis队列，可以通过检测上下游处理节点之间的redis队列配置是否一致，并检测上下游处理节点之间的机器时钟是否同步。

在操作S309，判断处理节点P_n是否已经处理完成交易数据。

在操作S310，如果处理节点P_n还没有处理完成交易数据，则可以表征处理节点P_n中用于存储数据的队列存在堆积情况。例如，一个调用链(处理节点)里只有i，没有p、o，可以查看当前节点队列是否有堆积。

在操作S311，处理节点P_n是否输出交易数据。即，判断处理节点P_n是否将交易数据发送至下一级处理节点。

在操作S312，如果处理节点P_n并未将交易数据发送至下一级处理节点，则可以表征处理节点P_n处理数据的过程中存在处理中断。例如，一个调用链只有i、p，没有o，可以分析当前处理节点内部处理日志，返回报错信息。

在操作S313，继续判断交易数据是否到达处理节点P_n+1。其过程与操作S307类似。

在操作S314，通过反馈节点实现交易闭环。

图4示意性示出了根据本公开实施例的交易跟踪和分析方法的流程图。

如图4所示，测试人员在发起交易时，将各节点的交易日志数据持久化存储到分布式文件系统。当交易出现中断时，测试人员发起交易追踪流程，根据测试人员输入的交易标识从分布式文件系统中获取针对当前交易的日志数据，通过机器学习模型分析日志数据得到交易故障原因。具体处理过程如下操作S401～操作S408描述。

在操作401，测试人员发起交易处理请求。

在操作402，采集节点的日志数据持久化存储到分布式文件系统上。

在操作403，根据测试人员输入的参数发起交易追踪，参数包括交易的业务唯一编号和交易时间范围。

在操作404，根据参数输入，对操作402中的日志数据进行筛选，并对筛选得到的日志数据进行排序，排序后得到日志数据例如表征了全链路交易执行情况。

在操作405，根据操作404输出的排序后得到日志数据，定位交易中断的节点和实例，并反向定位拉取该节点或实例的交易日志，输入机器学习模型，得到交易中断的原因。

在一种实施例中，例如可以基于排序后得到日志数据初步判断交易中断的原因。如果无法判断，可以将排序后得到日志数据输入机器学习模型进行自动判断。

在操作406，判断是否输出交易中断原因。

在操作407，如果没有输出交易中断原因，则报错定位失败，并通过人工排查原因，同时修正机器学习模型。

在操作408，正常返回并展示交易跟踪和中断定位结果。

本公开实施例实现了针对测试环境或生产环境进行交易数据的追踪和检测交易故障，提高了交易故障的检测准确性和检测效率。

本公开实施例通过对交易日志数据进行收集、存储。将对交易日志数据进行挖掘、分析交易中断原因、可视化展示的功能进行封装得到检测工具，封装后的检测工具可以用于实现交易中断原因的一键式分析，节省了检测的时间和人力损耗，提高了交易的大规模故障检测效率。

本公开实施例通过将当前采集的日志数据和数据库中预先存储的预设处理顺序进行对比，以便对日志数据进行排序。另外，所采集的日志数据中包括各个节点的处理输入和输出的时间戳，当交易出现链路中断时可准确返回中断原因，当接口返回超时时也可以准确定位到耗时原因，降低了对检测人员的操作要求，提高了交易故障分析的准确度和可靠性。

本公开实施例通过运用集成决策树构建的机器学习模型进行多种原因导致的交易中断的分析定位，且对服务器性能影响很小，可推广至生产环境进行交易的跟踪和分析，实现了流式交易跟踪和分析流程的统一和标准化。

根据公开实施例通过集成决策树训练了大量的日志数据信息，得到机器学习模型进行数据处理的模式可以适用于其他架构系统的日志分析处理场景。

图5示意性示出了根据本公开实施例的交易故障检测装置的框图。

如图5所示，交易故障检测装置500例如可以包括获取模块510、第一处理模块520以及第二处理模块530。

获取模块510可以用于获取多个节点中每个节点处理当前交易数据时生成的初始日志数据。根据本公开实施例，获取模块510例如可以执行上文参考图2描述的操作S210，在此不再赘述。

第一处理模块520可以用于基于针对当前交易数据的预设链路规则，处理初始日志数据以得到目标日志数据，其中，预设链路规则表征了多个节点处理当前交易数据的处理顺序。根据本公开实施例，第一处理模块520例如可以执行上文参考图2描述的操作S220，在此不再赘述。

第二处理模块530可以用于基于历史日志数据和历史故障情况来处理目标日志数据，以便确定多个节点处理当前交易数据时发生的当前故障情况，其中，历史日志数据是处理历史交易数据时生成的数据，历史故障情况是处理历史交易数据时发生的故障情况。根据本公开实施例，第二处理模块530例如可以执行上文参考图2描述的操作S230，在此不再赘述。

根据本公开实施例，基于历史日志数据和历史故障情况来处理目标日志数据包括：获取待训练模型，基于历史日志数据和历史故障情况训练待训练模型，得到经训练模型，利用经训练模型处理目标日志数据。

根据本公开实施例，利用经训练模型处理目标日志数据包括以下至少一项：确定多个节点中当前节点是否接收到来自上一级节点的当前交易数据，以便确定当前节点与上一级节点之间的连接情况是否正常，根据多个节点中当前节点是否已经处理完成当前交易数据，确定当前节点中用于存储数据的队列是否存在堆积情况，确定多个节点中当前节点是否将当前交易数据发送至下一级节点，以便确定当前节点是否存在处理中断的情况。

根据本公开实施例，基于历史日志数据和历史故障情况训练待训练模型包括：确定历史日志数据为训练样本数据，确定历史故障情况为训练样本数据的标签信息，基于训练样本数据和标签信息训练待训练模型。

根据本公开实施例，获取多个节点中每个节点处理当前交易数据时生成的初始日志数据包括：确定当前交易的标识，基于标识，从数据库中获取处理与当前交易对应的当前交易数据时生成的初始日志数据，其中，数据库用于存储多个交易的日志数据。

本公开实施例通过获取处理当前交易数据时生成的初始日志数据，然后基于预设链路规则对初始日志数据进行排序得到目标日志数据。然后利用机器学习模型对目标日志数据进行处理，从而得到多个节点处理当前交易数据时发生的当前故障情况。通过本公开实施例的技术方案，提高了交易故障检测的效率、降低了人工成本、提高了交易故障检测的可靠性。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，获取模块510、第一处理模块520以及第二处理模块530中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，获取模块510、第一处理模块520以及第二处理模块530中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，获取模块510、第一处理模块520以及第二处理模块530中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

本公开的另一实施例还提供了一种计算设备，该计算设备例如包括一个或多个处理器以及存储器。其中，存储器用于存储一个或多个程序，其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现图2～图4中所示的方法。

本公开的另一实施例还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现图2～图4中所示的方法。

本公开的另一方面提供了一种计算机程序，计算机程序包括计算机可执行指令，该指令在被执行时用于实现图2～图4中所示的方法。

图6示意性示出了根据本公开实施例的用于实现交易故障检测的计算机系统的方框图。图6示出的计算机系统仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括处理器601、计算机可读存储介质602。该系统600可以执行根据本公开实施例的方法。

具体地，处理器601例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质602，例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如，可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；和/或有线/无线通信链路。

计算机可读存储介质602可以包括计算机程序603，该计算机程序603可以包括代码/计算机可执行指令，其在由处理器601执行时使得处理器601执行根据本公开实施例的方法或其任何变形。

计算机程序603可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序603中的代码可以包括一个或多个程序模块，例如包括603A、模块603B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器601执行时，使得处理器601可以执行根据本公开实施例的方法或其任何变形。

根据本公开的实施例，获取模块510、第一处理模块520以及第二处理模块530中的至少一个可以实现为参考图6描述的计算机程序模块，其在被处理器601执行时，可以实现上面描述的相应操作。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现上述方法。

根据本公开的实施例，计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、有线、光缆、射频信号等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。电要注意的是，框图或流程图中的每个方框以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种交易故障检测方法，包括：

获取多个节点中每个节点处理当前交易数据时生成的初始日志数据；

基于针对所述当前交易数据的预设链路规则，处理所述初始日志数据以得到目标日志数据，其中，所述预设链路规则表征了所述多个节点处理所述当前交易数据的处理顺序；以及

基于历史日志数据和历史故障情况来处理所述目标日志数据，以便确定所述多个节点处理所述当前交易数据时发生的当前故障情况；具体包括：获取待训练模型；基于所述历史日志数据和所述历史故障情况训练所述待训练模型，包括：

确定所述历史日志数据为训练样本数据；

确定所述历史故障情况为所述训练样本数据的标签信息；以及

基于所述训练样本数据和所述标签信息训练所述待训练模型；

得到经训练模型；利用所述经训练模型处理所述目标日志数据；其中，所述利用所述经训练模型处理所述目标日志数据包括以下至少一项：

确定所述多个节点中当前节点是否接收到来自上一级节点的当前交易数据，以便确定所述当前节点与上一级节点之间的连接情况是否正常；

根据所述多个节点中当前节点是否已经处理完成所述当前交易数据，确定所述当前节点中用于存储数据的队列是否存在堆积情况；以及

确定所述多个节点中当前节点是否将所述当前交易数据发送至下一级节点，以便确定所述当前节点是否存在处理中断的情况；

所述历史日志数据是处理历史交易数据时生成的数据，所述历史故障情况是处理历史交易数据时发生的故障情况。

2.根据权利要求1所述的方法，其中，所述基于针对所述当前交易数据的预设链路规则，处理所述初始日志数据以得到目标日志数据包括：

基于所述预设链路规则，对所述多个节点中每个节点的初始日志数据进行排序处理，得到所述目标日志数据。

3.根据权利要求1所述的方法，其中，所述获取多个节点中每个节点处理当前交易数据时生成的初始日志数据包括：

确定当前交易的标识；以及

基于所述标识，从数据库中获取处理与所述当前交易对应的当前交易数据时生成的初始日志数据，其中，所述数据库用于存储多个交易的日志数据。

4.一种交易故障检测装置，包括：

获取模块，获取多个节点中每个节点处理当前交易数据时生成的初始日志数据；

第一处理模块，基于针对所述当前交易数据的预设链路规则，处理所述初始日志数据以得到目标日志数据，其中，所述预设链路规则表征了所述多个节点处理所述当前交易数据的处理顺序；以及

第二处理模块，基于历史日志数据和历史故障情况来处理所述目标日志数据，以便确定所述多个节点处理所述当前交易数据时发生的当前故障情况；具体包括：获取待训练模型；基于所述历史日志数据和所述历史故障情况训练所述待训练模型，包括：

确定所述历史日志数据为训练样本数据；

其中，所述历史日志数据是处理历史交易数据时生成的数据，所述历史故障情况是处理历史交易数据时发生的故障情况。

5.根据权利要求4所述的装置，其中，所述基于针对所述当前交易数据的预设链路规则，处理所述初始日志数据以得到目标日志数据包括：

6.根据权利要求4所述的装置，其中，所述获取多个节点中每个节点处理当前交易数据时生成的初始日志数据包括：

确定当前交易的标识；以及

7.一种计算设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1～3中任一项所述的方法。

8.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1～3中任一项所述的方法。