CN117493050A

CN117493050A - 一种基于Pinpoint故障定位方法及系统

Info

Publication number: CN117493050A
Application number: CN202310796809.9A
Authority: CN
Inventors: 陈鹏飞; 孙炎森; 徐晓剑
Original assignee: China Citic Bank Corp Ltd
Current assignee: China Citic Bank Corp Ltd
Priority date: 2023-06-30
Filing date: 2023-06-30
Publication date: 2024-02-02

Abstract

本申请提供了一种基于Pinpoint的故障定位方法及系统，其特征在于，包括：S1、判断所有的调用链路是否出现异常，如果调用链路出现异常，则将异常的调用链路标记为第一异常调用链路；S2、第一异常调用链路主动收集第一信息；S3、设置第一异常规则，所述第一异常调用链路基于所述第一异常规则判断第一信息的异常类型与数量；S4、设置报警阈值和报警类型，基于所述报警阈值和报警类型确定第一信息的第一报警方式；S5、所述第一异常调用链路将第一信息按照第一报警方式发送给客户。本发明主动搜集异常信息，能够提升微服务集群系统中的故障根因定位效率，通过报警方式的选择能够以最快的方式通知对应的人员。

Description

一种基于Pinpoint故障定位方法及系统

技术领域

本发明涉及计算机相关的技术领域，尤其涉及一种基于Pinpoint故障定位方法及系统。

背景技术

目前的微服务技术体系的故障排查的流程一般是由报警系统、业务方或者用户报告异常之后，由运维和开发人员进行排查，排查过程一般借住日志中心和分布式链路追踪系统进行。在微服务架构体系下的系统中，日志中心负责搜集所有应用节点的日志，分布式链路追踪系统负责跟踪分布式调用链路。一般的排查过程会在日志中心、监控系统和调用链路之间反复进行，因为日志中心一般是平铺的日志结构只能根据关键词或者时间区间进行检索，调用链路负责调用链路，排查人员通过调用链路发现链路上的问题，通过监控系统发现CPU、内存等其他资源可能出现的问题。这就导致排查信息和工具分散导致排查过程拉长，在定位故障根本原因时效率较为低下。

本申请针对以上缺陷，通过Pinpoint整合报警系统、日志系统、监控系统等，主动收集调用链路的异常信息，对异常链路可以基于系统拓扑更快的直达问题所在的部分，直达根因，本申请与移动办公系统对接，能够通过飞书等工具向开发人员报警，提升微服务集群系统中的故障根因定位效率。

发明内容

为解决现有状况的不足，本发明针对以上背景技术的缺陷，本发明提出了一种基于Pinpoint故障定位方法及系统。具体包括：

本申请第一方面提出了一种基于Pinpoint故障定位方法，其特征在于，包括：

S1、判断所有的调用链路是否出现异常，如果调用链路出现异常，则将异常的调用链路标记为第一异常调用链路；

S2、所述第一异常调用链路主动收集第一信息，其中第一信息包括日志信息和监控信息；

S3、设置第一异常规则，基于所述第一异常规则判断第一信息的异常类型与数量；

S4、设置报警阈值和报警类型，所述第一异常调用链路基于所述报警阈值和报警类型确定第一信息的第一报警方式；

S5、所述第一异常调用链路将第一信息按照第一报警方式发送给客户。

进一步的，对所述第一信息进行存储用以人工查询和访问。

进一步的，所述S1包括：

S101、接收用户请求，构建所述用户请求对应的调用链路；其中，所述调用链路包括所述用户请求调用的应用程序、各个所述应用程序对应的标识和各个所述应用程序之间的调用关系；

S102、根据各个所述应用程序对应的标识和各个所述应用程序之间的调用关系构建链路图；

S103、在执行所述调用链路的过程中，根据所述链路图监控所述调用链路中的各个所述应用程序。

进一步的，所述S1还包括：

S111、判断所述调用链路的调用时间是否超过预设时间；

S112、如果所述调用链路的调用时间超过预设时间，则将所述调用时间超过预设时间的调用链路作为第一异常调用链路。

进一步的，所述S2包括：

S21、开启针对所述异常应用程序的日志信息收集模式，并开启对所述异常应用程序的异常情况的监测模式；

S22、在监测到所述异常情况在预设时间段内再次出现后，关闭所述异常应用程序的日志信息收集模式，将收集到的日志信息作为所述异常应用程序对应的异常日志信息。

进一步的，所述S3包括对第一信息进行分析，获得第一异常分析结果，其中第一异常分析结果包括调用链路上出现问题的节点问题数量，已经经过根因推测之后的问题类型和数量。

进一步的，所述第一报警方式包括通过微信、飞书、QQ将第一信息发送给客户。

进一步的，所述监控信息包括第一异常调用链路各个节点的CPU、内测情况。

本申请第二方面提出了一种基于Pinpoint故障定位装置，其特征在于，包括：

异常判断模块，用于判断所有的调用链路是否出现异常，如果调用链路出现异常，则将异常的调用链路标记为第一异常调用链路；

主动收集模块，用于第一异常调用链路主动收集第一信息，其中第一信息包括日志信息和监控信息；

异常规则模块，用于设置第一异常规则，基于所述第一异常规则判断第一信息的异常类型与数量；

报警方式确定模块，设置报警阈值和报警类型，所述第一异常调用链路基于所述报警阈值和报警类型确定第一信息的第一报警方式；

报警模块，所述第一异常调用链路用于将第一信息按照第一报警方式发送给客户。

本申请第三方面提出了一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现上述基于Pinpoint故障定位的方法。

本申请第四方面提出了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现上述基于Pinpoint故障定位的方法。

本发明的有益效果为：通过Pinpoint整合报警系统、日志系统、监控系统等，主动收集调用链路的异常信息，对异常链路可以基于系统拓扑更快的直达问题所在的部分，直达根因，本申请与移动办公系统对接，能够通过飞书等工具向开发人员报警，提升微服务集群系统中的故障根因定位效率。

附图说明

图1为本发明的基于Pinpoint故障定位方法的流程示意图。

图2为本发明的基于Pinpoint故障定位装置的结构框图。

图3为本发明的实施例提供的电子设备的结构示意图。

具体实施方式

为了更清楚的理解本发明的内容，将结合附图和实施例详细说明。

但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本发明。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。本发明是已有专利技术的改进，所以对于本申请未描述的部分以现有技术来实现。

分布式链路追踪：微服务风格架构的IT系统中，存在是巨量的系统间的RPC调用，调用链路通常会涵盖数个或者数十个系统，这给系统故障时的问题定位和排查带来了巨大的不方便，分布式链路追踪通过TraceID和ParentID，将调用链路进行串合，可以完成一次完成的调用链路的追踪。

监控报警系统：IT系统中负责监控系统运行状态和发送报警通知的系统，通常具备信息采集、报警信息配置、信息实时处理、报警信息发送等模块。主要工作流程是采集系统中的日志和运营状态数据，根据提前配置好的监控指标的设置和报警阈值，完成不同报警级别的通知和报警处理。

故障根因定位：故障的根因定位指在IT系统发生故障时，定位到根本原因的过程。过程可能基于人工和工具，也可能借助于自动化和智能化的手段来提高定位的准确度和效率。

进一步的，所述S1包括：

用户请求可以是用户点击界面上的任一功能按钮发起，例如，在线上服务的任务领取奖励活动，用户可以访问该活动，在该活动界面，会有多个功能按钮，如获取活动信息、查看奖品、分享、查看中奖记录等，用户可以点击任一功能按钮，即可生成用户请求，其中，用户请求一般是URL(Uniform Resource Locator，统一资源定位系统)请求。

用户的用户请求一般会涉及多个应用程序的调用过程，因此需要构建用户请求对应的调用链路，调用链路包括了用户请求调用的应用程序、各个应用程序之间存在调用和被调用的调用关系，以及预先为每个应用程序设置的标识，可通过该调用链路协助执行完成用户请求。

本实施例根据各个应用程序对应的标识和各个应用程序之间的调用关系构建链路图，该链路图可以直观地展现用户请求需要调用到的应用程序，以及调用的先后次序。需要说明的是，各个应用程序在链路图中可以抽象为节点，通过二叉树形式的数据结构，并基于各个应用程序的调用关系，在各个节点之间形成调用链路，生成链路图。

S103、在执行所述调用链路的过程中，根据所述链路图监控所述调用链路中的各个所述应用程序；

在执行调用链路的过程中，每执行一个节点对应的应用程序后，判断该节点是否属于异常节点，即判断该应用程序是否属于异常应用程序。

进一步的，所述S1还包括：

S111、判断所述调用链路的调用时间是否超过预设时间；

对于调用链路的异常可以以调用时间是否超过预设时间来判断是否出现异常，也可以根据调用链路出现返回错误等多个角度来判断调用链路是否出现异常。如果出现异常，则将调用链路标记为第一异常链路。

对于有异常的调用链路，从调用链路的路径上进行信息收集和采集，包括每个节点当时的CPU、内测情况，以及当条调用链路的日志信息，日志信息可以根据时间窗口或者根据当次调用的前后取一个窗口的日志进行采集。

进一步的，对所述第一信息进行存储用以人工查询和访问。

将异常调用链路的信息收集之后存储，可以通过页面访问和查询。

进一步的，所述S2包括：

在本实施例中，在监测到异常应用程序时，开启针对该异常应用程序的日志信息收集模式，并开启对该异常应用程序的异常情况的监测模式。其中，所述异常应用程序的异常情况可以有多种表现形式。例如，可以是应用程序卡顿、应用程序崩溃等异常情况。启动过程可以是自动完成的，例如，一旦异常应用程序出现异常情况，服务器立即自行启动针对该异常应用程序的日志信息收集模式和对该异常应用程序的异常情况的监测模式。日志信息收集模式定义了需要采集日志信息的异常应用程序以及采集时间限定，异常情况的监测模式定义了需要采集的异常情况的类型以及采集时间限定。

在一实施例中，该启动过程也可以是在用户的操作指令下完成的，例如，在监测到异常应用程序时，用户可以通过操作界面上的功能键实现启动针对该异常应用程序的异常日志信息收集模式和对该异常应用程序的异常情况的监测模式。

需要说明的是，启动针对该异常应用程序的日志信息收集模式和启动对该异常应用程序的异常情况的监测模式可以是同时启动的，也可以是先启动针对异常应用程序的日志信息收集模式，然后再启动针对该异常应用程序的异常情况的监测模式，还可以是先启动针对该异常应用程序的异常情况的监测模式，然后再启动针对异常应用程序的日志信息收集模式。

在监测到异常情况在预设时间段内再次出现后，关闭异常应用程序的日志信息收集模式，将收集到的日志信息作为异常应用程序对应的异常日志信息，以得到在一个周期内的异常应用程序对应的异常日志信息，在确保异常日志信息的完整性的同时，减少后续重复对相同的异常日志信息的分析工作。

在本实施例中，所述异常规则针对异常的类型即严重程度而进行设置。例如，可以是应用程序卡顿、应用程序崩溃等异常情况，通过异常规则，可以得到异常的数量、类型，进而判断异常的严重程度及相关的技术人员。

进一步，对第一信息进行分析，可以针对不同的异常划分为不同的类别，在不同的类别基础上，可以设置不同的异常情形，对异常的整体情况进行统计分析。

本申请可以针对不同的调用链路设置不同的报警阈值和报警类型，如可以将不太严重的异常划分为低级别的异常级别，但如果低级别的异常数量超过上限，则可以将其调整为高级别异常。

而报警方式的选择可以根据级别的高低进行设置，如果异常不严重，则可以在第二天工作时间进行报警，如果异常严重，则可以即时进行报警并通知开发人员，而确定开发人员是根据异常的严重程度以及具体异常的微服务节点。

进一步的，对所述第一信息进行存储用以人工查询和访问。

进一步的，所述异常判断模块还用于：

S111、判断所述调用链路的调用时间是否超过预设时间；

进一步的，所述主动收集模块还用于：

进一步的，所述异常规则模块还用于对第一信息进行分析，获得第一异常分析结果，其中第一异常分析结果包括调用链路上出现问题的节点问题数量，已经经过根因推测之后的问题类型和数量。

图3为本申请实施例提供的电子设备的结构示意图。如图3所示，该电子设备可以包括：收发器121、处理器122、存储器123。

收发器121可以用于第一信息。

处理器122执行存储器存储的计算机执行指令，使得处理器122执行上述实施例中的方案。处理器122可以是通用处理器，包括中央处理器CPU、网络处理器(networkprocessor，NP)等；还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

存储器123通过系统总线与处理器122连接并完成相互间的通信，存储器123用于存储计算机程序指令。

系统总线可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。收发器用于实现数据库访问装置与其他计算机(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(randomaccess memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)。

本申请实施例提供的电子设备，可以是上述实施例的终端设备。

本申请实施例还提供一种运行指令的芯片，该芯片用于执行上述实施例中基于Pinpoint故障定位方法的技术方案。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行上述实施例中基于Pinpoint故障定位方法的技术方案。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，其存储在计算机可读存储介质中，至少一个处理器可以从计算机可读存储介质读取计算机程序，至少一个处理器执行计算机程序时可实现上述实施例中基于Pinpoint故障定位方法的技术方案。

值得说明的是，本申请所涉及数据采集及迁移行为都已经经过用户的同意，并且为申请人进行正常的经营活动所必需。对于采集后的数据申请人进行了匿名化、保密等脱敏处理，并相应设置了数据的访问权限以确保不会泄露用户的隐私，本申请涉及的数据合规措施仅做列举，其他相关的数据合规措施申请人也有设置。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

本领域技术人员可以进一步意识到，结合本文的实施例的算法步骤，能够以电子硬件、计算机软件或二者结合的方式实现，且这些功能究竟以硬件还是软件的方式执行，取决于技术方案的特定应用和设计约束条件，本领域技术人员可以对每个特定的应用使用不同方法实现所描述的功能，但是这种实现不应认为超出本发明的范围。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

以上所述仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换等都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于Pinpoint故障定位方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述S1包括：

3.根据权利要求1所述的方法，其特征在于，所述S1还包括：

S111、判断所述调用链路的调用时间是否超过预设时间；

4.根据权利要求1所述的方法，其特征在于，所述S2包括：

5.根据权利要求1所述的方法，其特征在于，所述S3包括对第一信息进行分析，获得第一异常分析结果，其中第一异常分析结果包括调用链路上出现问题的节点问题数量，已经经过根因推测之后的问题类型和数量。

6.根据权利要求1所述的方法，其特征在于，所述第一报警方式包括通过微信、飞书、QQ将第一信息发送给客户。

7.根据权利要求1-6任一项所述的方法，其特征在于，所述监控信息包括第一异常调用链路各个节点的CPU、内测情况。

8.一种基于Pinpoint故障定位装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器，以及与所述处理器通信连接的存储器；

所述存储器存储计算机执行指令；

所述处理器执行所述存储器存储的计算机执行指令，以实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-7中任一项所述的方法。