CN117909113A

CN117909113A - 应用故障智能分析方法、装置、设备及存储介质

Info

Publication number: CN117909113A
Application number: CN202311848301.5A
Authority: CN
Inventors: 钱忠杰; 姚广; 赵严
Original assignee: Dongpu Software Co Ltd
Current assignee: Dongpu Software Co Ltd
Priority date: 2023-12-28
Filing date: 2023-12-28
Publication date: 2024-04-19

Abstract

本发明涉及应用故障分析领域，公开了一种应用故障智能分析方法、装置、设备及存储介质。该方法包括：获取应用的调用链路信息，将调用链路信息输入至应用接口调用链模型，得到调用链路图；根据调用链路图分析异常调用模式，根据异常调用模式构建故障模式知识库，并结合监控指标构建应用正常运行状态库，基于故障模式知识库与正常运行状态库判断应用的实时状态与风险等级；获取应用监控系统数据，根据应用监控系统数据匹配得到对应的故障模式，根据故障模式得到故障根本原因和解决方案。本发明提供的是一种快运订单的应用故障智能分析方法，实现故障的智能识别和快速诊断，可以快速定位故障根本原因，主动发现潜在隐患，大幅提升故障处理效率。

Description

应用故障智能分析方法、装置、设备及存储介质

技术领域

本发明涉及应用故障分析技术领域，尤其涉及一种应用故障智能分析方法、装置、设备及存储介质。

背景技术

在应用程序发生故障时，用户通常可以通过反馈功能对故障进行反馈，以使管理人员对该故障进行分析，依赖人工经验判断。然而，在这种应用程序修复的方式中，往往需要管理人员花费很多的时间分析故障发生原因(例如依赖工程师人工检查日志来判断故障签名等经验性工作)，尤其是在该应用程序研发以及试用的过程中，故障发生较为频繁。针对故障发生原因逐一进行分析的过程中就会消耗的大量的研发时间，从而降低该应用程序的研发效率，影响该应用程序的上线时间。

也就是说，现有的应用故障分析方法主要依赖人工经验判断与日志关键字检索，效率低下，无法快速精确定位根本原因，同时也无法主动发现隐藏的潜在故障，导致问题解决缓慢，业务中断时间过长。

因此，现有技术还有待于改进和发展。

发明内容

本发明的主要目的在于解决现有技术中应用故障分析方法主要依赖人工经验判断与日志关键字检索，效率低下，无法快速精确定位根本原因，同时也无法主动发现隐藏的潜在故障的问题。

本发明第一方面提供了一种应用故障智能分析方法，包括：在应用的应用代码中植入监测探针，通过所述监测探针获取应用的调用链路信息，将所述调用链路信息输入至已构建的应用接口调用链模型，得到调用链路图；根据所述调用链路图分析异常调用模式，根据所述异常调用模式构建故障模式知识库，并结合监控指标构建应用正常运行状态库，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级；获取应用监控系统数据，根据所述应用监控系统数据匹配得到对应的故障模式，基于所述故障模式知识库与所述正常运行状态库根据所述故障模式得到故障根本原因和解决方案。

可选的，在本发明第一方面的第一种实现方式中，所述在应用的应用代码中植入监测探针，通过所述监测探针获取应用的调用链路信息，将所述调用链路信息输入至已构建的应用接口调用链模型，得到调用链路图的步骤包括：使用应用字节码增强技术在应用的应用代码中植入监测探针，所述监测探针用于在接口调用时记录调用链路信息并上报；将所述调用链路信息输入至所述应用接口调用链模型，所述应用接口调用链模型使用关联规则算法关联所述调用链路信息，构建得到调用链路图；将所述调用链路图输入到图数据库模块，所述图数据库模块根据所述调用链路图构建出接口关系图模型并存储。

可选的，在本发明第一方面的第二种实现方式中，所述根据所述调用链路图分析异常调用模式，根据所述异常调用模式构建故障模式知识库，并结合监控指标构建应用正常运行状态库，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级的步骤包括：根据所述调用链路图分析异常调用模式，使用故障推理算法判断可能出现的异常调用模式，根据所述异常调用模式构建故障模式知识库；获取目标快递系统的应用信息，根据所述应用信息分析和整理历史故障案例与对应解决方案，根据所述历史故障案例与对应解决方案更新所述故障模式知识库，并结合监控指标构建应用正常运行状态库；使用聚类及关联规则算法，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级。

可选的，在本发明第一方面的第三种实现方式中，所述根据所述调用链路图分析异常调用模式，使用故障推理算法判断可能出现的异常调用模式，根据所述异常调用模式构建故障模式知识库的步骤包括：在所述调用链路图中抽取所有调用链路序列；计算每个所述调用链路序列的执行时间分布；将每个所述调用链路序列的执行时间分布与正常时间阈值上限和正常时间阈值下限进行对比，若所述执行时间分布大于所述正常时间阈值上限或者所述执行时间分布小于所述正常时间阈值下限，则表示执行时间异常，使用异常检测算法标记执行时间异常的调用链路序列；对检测出的异常调用链路序列进行聚类分析，识别得到共性异常调用模式，根据所述共性异常调用模式构建故障模式知识库。

可选的，在本发明第一方面的第四种实现方式中，所述获取目标快递系统的应用信息，根据所述应用信息分析和整理历史故障案例与对应解决方案，根据所述历史故障案例与对应解决方案更新所述故障模式知识库的步骤包括：收集所述目标快递系统的应用信息，根据所述应用信息获取历史故障数据；标注每条所述历史故障数据对应的根本原因、触发条件和解决方案；将整理的历史故障案例与对应解决方案输入到所述故障模式知识库，以扩充所述故障模式知识库。

可选的，在本发明第一方面的第五种实现方式中，所述使用聚类及关联规则算法，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级的步骤包括：收集应用服务器的监控数据，所述监控数据包括性能指标和日志关键指标；使用聚类及关联规则算法将所述监控数据与所述故障模式知识库和所述正常运行状态库中的规则进行匹配，生成实时状态与风险评估报告；如果所述监控数据满足故障规则的触发条件，则匹配对应的故障模式，并输出故障原因和解决方案。

可选的，在本发明第一方面的第六种实现方式中，所述获取应用监控系统数据，根据所述应用监控系统数据匹配得到对应的故障模式，基于所述故障模式知识库与所述正常运行状态库根据所述故障模式得到故障根本原因和解决方案的步骤包括：通过开放接口获取应用监控系统数据，提取所述应用监控系统数据中的异常指标和异常日志；将所述异常指标和所述异常日志输入故障分析模块的规则匹配引擎，所述规则匹配引擎根据所述异常指标和所述异常日志匹配得到对应的故障模式，若无法匹配已知模故障式时，标记为新发现故障，并生成异常报告；当匹配到已知故障模式时，基于所述故障模式知识库和所述正常运行状态库推荐可能的故障根本原因和解决方案。

本发明第二方面提供了一种应用故障智能分析装置，包括：调用链路图构建模块，用于在应用的应用代码中植入监测探针，通过所述监测探针获取应用的调用链路信息，将所述调用链路信息输入至已构建的应用接口调用链模型，得到调用链路图；故障知识构建模块，用于根据所述调用链路图分析异常调用模式，根据所述异常调用模式构建故障模式知识库，并结合监控指标构建应用正常运行状态库，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级；实时故障分析诊断模块，用于获取应用监控系统数据，根据所述应用监控系统数据匹配得到对应的故障模式，基于所述故障模式知识库与所述正常运行状态库根据所述故障模式得到故障根本原因和解决方案。

可选的，在本发明第二方面的第一种实现方式中，所述调用链路图构建模块包括：调用链路信息记录单元，用于使用应用字节码增强技术在应用的应用代码中植入监测探针，所述监测探针用于在接口调用时记录调用链路信息并上报；调用链路图构建单元，用于将所述调用链路信息输入至所述应用接口调用链模型，所述应用接口调用链模型使用关联规则算法关联所述调用链路信息，构建得到调用链路图；接口关系图模型构建单元，用于将所述调用链路图输入到图数据库模块，所述图数据库模块根据所述调用链路图构建出接口关系图模型并存储。

可选的，在本发明第二方面的第二种实现方式中，所述故障知识构建模块包括：故障模式知识库构建单元，用于根据所述调用链路图分析异常调用模式，使用故障推理算法判断可能出现的异常调用模式，根据所述异常调用模式构建故障模式知识库；应用正常运行状态库构建单元，用于获取目标快递系统的应用信息，根据所述应用信息分析和整理历史故障案例与对应解决方案，根据所述历史故障案例与对应解决方案更新所述故障模式知识库，并结合监控指标构建应用正常运行状态库；应用状态与风险等级判断单元，用于使用聚类及关联规则算法，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级。

可选的，在本发明第二方面的第三种实现方式中，所述故障模式知识库构建单元包括：调用链路序列抽取子单元，用于在所述调用链路图中抽取所有调用链路序列；执行时间分布计算子单元，用于计算每个所述调用链路序列的执行时间分布；异常调用链路序列标记子单元，用于将每个所述调用链路序列的执行时间分布与正常时间阈值上限和正常时间阈值下限进行对比，若所述执行时间分布大于所述正常时间阈值上限或者所述执行时间分布小于所述正常时间阈值下限，则表示执行时间异常，使用异常检测算法标记执行时间异常的调用链路序列；故障模式分析子单元，用于对检测出的异常调用链路序列进行聚类分析，识别得到共性异常调用模式，根据所述共性异常调用模式构建故障模式知识库。

可选的，在本发明第二方面的第四种实现方式中，所述应用正常运行状态库构建单元包括：历史故障数据收集子单元，用于收集所述目标快递系统的应用信息，根据所述应用信息获取历史故障数据；历史故障数据标注子单元，用于标注每条所述历史故障数据对应的根本原因、触发条件和解决方案；故障模式知识库扩充子单元，用于将整理的历史故障案例与对应解决方案输入到所述故障模式知识库，以扩充所述故障模式知识库。

可选的，在本发明第二方面的第五种实现方式中，所述应用状态与风险等级判断单元包括：监控数据收集子单元，用于收集应用服务器的监控数据，所述监控数据包括性能指标和日志关键指标；监控数据匹配子单元，用于使用聚类及关联规则算法将所述监控数据与所述故障模式知识库和所述正常运行状态库中的规则进行匹配，生成实时状态与风险评估报告；故障匹配子单元，用于如果所述监控数据满足故障规则的触发条件，则匹配对应的故障模式，并输出故障原因和解决方案。

可选的，在本发明第二方面的第六种实现方式中，所述实时故障分析诊断模块包括：异常数据获取单元，用于通过开放接口获取应用监控系统数据，提取所述应用监控系统数据中的异常指标和异常日志；故障模式匹配单元，用于将所述异常指标和所述异常日志输入故障分析模块的规则匹配引擎，所述规则匹配引擎根据所述异常指标和所述异常日志匹配得到对应的故障模式，若无法匹配已知模故障式时，标记为新发现故障，并生成异常报告；故障分析与解决单元，用于当匹配到已知故障模式时，基于所述故障模式知识库和所述正常运行状态库推荐可能的故障根本原因和解决方案。

本发明第三方面提供了一种应用故障智能分析设备，包括：存储器和至少一个处理器，所述存储器中存储有计算机可读指令，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述计算机可读指令，以使得所述应用故障智能分析设备执行如上所述应用故障智能分析方法的各个步骤。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机可读指令，当其在计算机上运行时，使得计算机执行如上所述应用故障智能分析方法的各个步骤。

有益效果：本发明的技术方案中，在应用的应用代码中植入监测探针，通过所述监测探针获取应用的调用链路信息，将所述调用链路信息输入至已构建的应用接口调用链模型，得到调用链路图；根据所述调用链路图分析异常调用模式，根据所述异常调用模式构建故障模式知识库，并结合监控指标构建应用正常运行状态库，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级；获取应用监控系统数据，根据所述应用监控系统数据匹配得到对应的故障模式，基于所述故障模式知识库与所述正常运行状态库根据所述故障模式得到故障根本原因和解决方案。本发明提供的是一种快运订单的应用故障智能分析方法，通过抽取和分析应用接口调用堆栈，构建应用运行状态模型，实现故障的智能识别和快速诊断，可以快速定位故障根本原因，主动发现潜在隐患，大幅提升故障处理效率，大幅降低应用故障处理成本。

附图说明

图1为本发明实施例提供的应用故障智能分析方法的第一种流程图；

图2为本发明实施例提供的应用故障智能分析方法的第二种流程图；

图3为本发明实施例提供的应用故障智能分析方法的第三种流程图；

图4为本发明实施例提供的应用故障智能分析方法的第四种流程图；

图5为本发明实施例提供的应用故障智能分析方法的第五种流程图；

图6为本发明实施例提供的应用故障智能分析方法的第六种流程图；

图7为本发明实施例提供的应用故障智能分析方法的第七种流程图；

图8为本发明实施例提供的应用故障智能分析装置的一种结构示意图；

图9为本发明实施例提供的应用故障智能分析装置的另一种结构示意图；

图10为本发明实施例提供的应用故障智能分析设备的结构示意图。

具体实施方式

本发明实施例提供了一种应用故障智能分析方法、装置、设备及存储介质，在应用的应用代码中植入监测探针，通过所述监测探针获取应用的调用链路信息，将所述调用链路信息输入至已构建的应用接口调用链模型，得到调用链路图；根据所述调用链路图分析异常调用模式，根据所述异常调用模式构建故障模式知识库，并结合监控指标构建应用正常运行状态库，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级；获取应用监控系统数据，根据所述应用监控系统数据匹配得到对应的故障模式，基于所述故障模式知识库与所述正常运行状态库根据所述故障模式得到故障根本原因和解决方案。本发明解决了应用故障分析方法主要依赖人工经验判断与日志关键字检索，效率低下，无法快速精确定位根本原因，同时也无法主动发现隐藏的潜在故障的问题。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中应用故障智能分析方法的第一个实施例包括：

S101、在应用的应用代码中植入监测探针，通过所述监测探针获取应用的调用链路信息，将所述调用链路信息输入至已构建的应用接口调用链模型，得到调用链路图；

在本实施例中，首先使用应用字节码增强技术(就是一类对现有字节码进行修改或者动态生成全新字节码文件的技术，例如ASM、JavaAssist、instrument)在应用的应用代码中植入监测探针，这些监测探针将在接口调用时记录调用链路信息并上报，然后将所述调用链路信息输入至已构建的应用接口调用链模型，从而得到调用链路图(即构建起始于入口接口的整个调用链路图)。

S102、根据所述调用链路图分析异常调用模式，根据所述异常调用模式构建故障模式知识库，并结合监控指标构建应用正常运行状态库，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级；

在本实施例中，基于接口调用链路图，分析异常调用模式，使用故障推理算法(Fault Inference algorithm)判断可能的异常模式，构建故障模式知识库，同时结合监控指标构建应用正常运行状态库，使用聚类及关联规则算法，基于所述故障模式知识库与所述正常运行状态库判断应用实时状态与风险等级。

S103、获取应用监控系统数据，根据所述应用监控系统数据匹配得到对应的故障模式，基于所述故障模式知识库与所述正常运行状态库根据所述故障模式得到故障根本原因和解决方案。

在本实施例中，对接应用监控系统数据，提取所述应用监控系统数中与接口调用相关的异常指标、日志等；根据异常指标、日志等数据匹配预定义的故障模式，当无法匹配已知模式时，生成异常报告，触发(Trigger)人工分析流程；匹配到已知故障模式时，基于规则库推荐可能的故障根本原因、解决方案等信息。

本发明使得应用故障分析实现了自动化、智能化，快速定位故障根本原因的同时，能主动发现隐患，避免事故的扩大，大幅提升系统稳定性。

请参阅图2，本发明实施例中应用故障智能分析方法的第二个实施例包括：

S201、使用应用字节码增强技术在应用的应用代码中植入监测探针，所述监测探针用于在接口调用时记录调用链路信息并上报；

S202、将所述调用链路信息输入至所述应用接口调用链模型，所述应用接口调用链模型使用关联规则算法关联所述调用链路信息，构建得到调用链路图；

S203、将所述调用链路图输入到图数据库模块，所述图数据库模块根据所述调用链路图构建出接口关系图模型并存储。

在本实施例中，使用应用字节码增强技术在应用代码中植入监测探针，这些监测探针将在接口调用时记录调用链路信息并上报，探针上报的数据将进入调用链分析模块，调用链分析模块使用关联规则算法(Associated Rules algorithm)关联调用信息，构建起始于入口接口的整个调用链路图；例如，针对韵达快递订单查询接口submitOrderQuery的调用链路，可以关联出:submitOrderQuery()->executeQuery()->getOrderList()->

retrieveDB()。调用链关联后进入图数据库模块，将调用链路构建成接口关系图模型并存储，这些模型反应了应用真实的架构、调用依赖等情况。

请参阅图3，本发明实施例中应用故障智能分析方法的第三个实施例包括：

S301、根据所述调用链路图分析异常调用模式，使用故障推理算法判断可能出现的异常调用模式，根据所述异常调用模式构建故障模式知识库；

S302、获取目标快递系统的应用信息，根据所述应用信息分析和整理历史故障案例与对应解决方案，根据所述历史故障案例与对应解决方案更新所述故障模式知识库，并结合监控指标构建应用正常运行状态库；

S303、使用聚类及关联规则算法，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级。

在本实施例中，基于接口调用链路图，分析异常调用模式，使用Fault Inferencealgorithm(故障推理算法)判断可能的异常模式，构建故障模式知识库；通过与目标快递系统(例如韵达快递系统运维人员)进行应用信息地交互，整理历史故障案例与对应解决方案，扩充所述故障模式知识库，同时结合监控指标构建应用正常运行状态库；使用聚类及关联规则算法，基于故障知识与运行状态库判断应用实时状态与风险等级。

请参阅图4，本发明实施例中应用故障智能分析方法的第四个实施例包括：

S401、在所述调用链路图中抽取所有调用链路序列；

S402、计算每个所述调用链路序列的执行时间分布；

S403、将每个所述调用链路序列的执行时间分布与正常时间阈值上限和正常时间阈值下限进行对比，若所述执行时间分布大于所述正常时间阈值上限或者所述执行时间分布小于所述正常时间阈值下限，则表示执行时间异常，使用异常检测算法标记执行时间异常的调用链路序列；

S404、对检测出的异常调用链路序列进行聚类分析，识别得到共性异常调用模式，根据所述共性异常调用模式构建故障模式知识库。

在本实施例中，首先从调用链路图中抽取所有调用链路序列，然后计算每个调用链路序列的执行时间分布，再将每个所述调用链路序列的执行时间分布与正常时间阈值上限和正常时间阈值下限进行对比，即对比正常时间阈值，使用异常检测算法标记执行时间异常的链路，例如，异常检测算法如下：假设链路执行时间为T，正常时间阈值上限为μ+3σ，正常时间阈值下限为μ-3σ，则：如果T>μ+3σ或T<μ-3σ，则检测为异常链路，其中，μ为平均执行时间，σ为标准差；最后对检测出的异常链路进行聚类分析，识别出共性异常调用模式。

请参阅图5，本发明实施例中应用故障智能分析方法的第五个实施例包括：

S501、收集所述目标快递系统的应用信息，根据所述应用信息获取历史故障数据；

S502、标注每条所述历史故障数据对应的根本原因、触发条件和解决方案；

S503、将整理的历史故障案例与对应解决方案输入到所述故障模式知识库，以扩充所述故障模式知识库。

在本实施例中，定期收集所述目标快递系统的应用信息，根据所述应用信息获取历史故障数据，例如定期组织故障案例分析会，收集韵达快递系统历史故障数据；然后标注每条故障数据对应的根本原因、触发条件、解决方案等信息；最后将整理的故障案例数据输入到所述故障模式知识库中，作为故障诊断与解决的规则库。

请参阅图6，本发明实施例中应用故障智能分析方法的第六个实施例包括：

S601、收集应用服务器的监控数据，所述监控数据包括性能指标和日志关键指标；

S602、使用聚类及关联规则算法将所述监控数据与所述故障模式知识库和所述正常运行状态库中的规则进行匹配，生成实时状态与风险评估报告；

S603、如果所述监控数据满足故障规则的触发条件，则匹配对应的故障模式，并输出故障原因和解决方案。

在本实施例中，收集应用服务器性能指标、日志关键指标等监控数据，然后将监控数据与故障知识库中规则匹配，即使用聚类及关联规则算法将所述监控数据与所述故障模式知识库和所述正常运行状态库中的规则进行匹配，生成实时状态与风险评估报告；如果监控数据满足故障规则的触发条件，则判定为匹配该故障模式，输出故障原因/解决方案等信息。

请参阅图7，本发明实施例中应用故障智能分析方法的第七个实施例包括：

S701、通过开放接口获取应用监控系统数据，提取所述应用监控系统数据中的异常指标和异常日志；

S702、将所述异常指标和所述异常日志输入故障分析模块的规则匹配引擎，所述规则匹配引擎根据所述异常指标和所述异常日志匹配得到对应的故障模式，若无法匹配已知模故障式时，标记为新发现故障，并生成异常报告；

S703、当匹配到已知故障模式时，基于所述故障模式知识库和所述正常运行状态库推荐可能的故障根本原因和解决方案。

在本实施例中，对接应用监控系统数据，提取应用监控系统数据中与接口调用相关的异常指标、日志等，将应用监控系统数据输入故障分析模块，匹配预定义的故障模式，当无法匹配已知模式时，生成异常报告，Trigger人工分析流程，当匹配到已知故障模式时，基于规则库推荐可能的故障根本原因、解决方案等信息；以提交韵达快递订单查询，返回无结果的故障为例，系统分析提取调用链路，识别DB链接超时导致订单查询失败的根本原因，并推荐检查数据库网络连接等解决方案。通过本发明的方法，应用故障分析实现了自动化、智能化，快速定位故障根本原因的同时，能主动发现隐患，避免事故的扩大，大幅提升系统稳定性。

通过开放接口，接入应用性能监控系统、日志系统中与接口调用相关的数据；构建数据提取任务，过滤出性能指标异常数据、关键错误日志等与故障分析相关内容；将提取的故障相关数据，输入到故障分析模块的规则匹配引擎；规则匹配引擎对输入数据与故障知识库中的规则进行匹配比较，输出匹配结果；例如，如果输入数据中的特征集合A包含故障规则R的触发条件集合B，则判定输入数据匹配该故障规则；对于无法匹配已知故障模式的异常数据，将其标记为新发现故障，输出异常报告，通知工程师进行人工分析；对于匹配到已知故障模式的，直接输出对应模式的故障根本原因分析、解决建议等信息；从接口调用链路中，识别数据库链接超时事件，系统自动匹配预定义“数据库连接故障”模式；对该故障模式，系统直接输出可能原因(网络异常、防火墙规则等)及相关的解决建议信息。

本发明技术方案提出基于接口堆栈抽取的应用故障智能分析方法，该方法的核心创新点是通过植入应用字节码，抽取接口调用链路信息，再结合故障知识库实现对各类故障模式的智能识别与定位。整个技术流程可分为调用链路图构建、故障知识构建、实时故障分析诊断三个关键步骤。调用链路图通过关联分析等算法，还原出应用的端到端接口依赖逻辑，是后续故障定位的基础。故障知识库包含大量历史故障案例、解决方案等结构化知识，是启发式分析的规则来源。最终，实时监控数据通过与故障知识匹配分析，实现对事前未知故障模式的智能识别和快速诊断。相比人工经验判断，该技术方案提供了一套可复用、可扩展的应用故障分析机制。系统可快速匹配已知故障模式，输出根本原因定位及解决建议，避免繁琐的手工检查分析，大幅提升故障处理效率。同时基于数据驱动，可不断从新案例中丰富并优化故障知识库，使问题分析与解决更加智能化。该技术可广泛应用于云原生分布式架构的应用系统监控管理，有效保障系统高可用性。该方法实现了故障分析流程的智能化，根本原因识别从数小时缩短至数分钟，故障处理效率提升90％以上，系统稳定性显著改善，避免了大量业务中断损失。

首先，本发明的方案在应用故障分析领域首次提出了基于接口调用链路的数据驱动分析方法，这是与传统依赖人工经验判断不同的全新技术思路。本发明的方案通过字节码植入监测探针的方式获取应用运行时链路数据，再结合故障知识库实现故障的自动识别与分析，构建了一整套端到端的数据获取、建模、分析预测的流程，具有较高的新颖性。其次，本发明的方案设计了层次清晰、内容丰富的应用故障知识库，包含异常调用模式、历史故障案例等多维度知识。并使用关联规则等智能算法，实现实时状态评估与故障预测，能主动发现潜在风险。这样智能化、预知化的故障处理机制在现有技术中尚属首创。知识库和算法模型的设计也展示了系统的创造性。总体来看，本发明的方案以全新的数据驱动思路实现故障智能自动分析与预测的目标，并设计了支持该技术的知识库及算法模型。

本发明通过在应用的应用代码中植入监测探针，通过所述监测探针获取应用的调用链路信息，将所述调用链路信息输入至已构建的应用接口调用链模型，得到调用链路图；根据所述调用链路图分析异常调用模式，根据所述异常调用模式构建故障模式知识库，并结合监控指标构建应用正常运行状态库，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级；获取应用监控系统数据，根据所述应用监控系统数据匹配得到对应的故障模式，基于所述故障模式知识库与所述正常运行状态库根据所述故障模式得到故障根本原因和解决方案。本发明提供的是一种快运订单的应用故障智能分析方法，通过抽取和分析应用接口调用堆栈，构建应用运行状态模型，实现故障的智能识别和快速诊断，可以快速定位故障根本原因，主动发现潜在隐患，大幅提升故障处理效率，大幅降低应用故障处理成本。

上面对本发明实施例中应用故障智能分析方法进行了描述，下面对本发明实施例中应用故障智能分析装置进行描述，请参阅图8，本发明实施例中应用故障智能分析装置一个实施例包括：

调用链路图构建模块50，用于在应用的应用代码中植入监测探针，通过所述监测探针获取应用的调用链路信息，将所述调用链路信息输入至已构建的应用接口调用链模型，得到调用链路图；

故障知识构建模块60，用于根据所述调用链路图分析异常调用模式，根据所述异常调用模式构建故障模式知识库，并结合监控指标构建应用正常运行状态库，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级；

实时故障分析诊断模块70，用于获取应用监控系统数据，根据所述应用监控系统数据匹配得到对应的故障模式，基于所述故障模式知识库与所述正常运行状态库根据所述故障模式得到故障根本原因和解决方案。

本实施例中，可以快速匹配已知故障模式，输出根本原因定位及解决建议，避免繁琐的手工检查分析，大幅提升故障处理效率，同时基于数据驱动，可以不断从新案例中丰富并优化故障知识库，使问题分析与解决更加智能化，可广泛应用于云原生分布式架构的应用系统监控管理，有效保障系统高可用性。

请参阅图9，本发明实施例中应用故障智能分析装置的另一个实施例包括：

在本实施例中，所述调用链路图构建模块50包括：

调用链路信息记录单元501，用于使用应用字节码增强技术在应用的应用代码中植入监测探针，所述监测探针用于在接口调用时记录调用链路信息并上报；

调用链路图构建单元502，用于将所述调用链路信息输入至所述应用接口调用链模型，所述应用接口调用链模型使用关联规则算法关联所述调用链路信息，构建得到调用链路图；

接口关系图模型构建单元503，用于将所述调用链路图输入到图数据库模块，所述图数据库模块根据所述调用链路图构建出接口关系图模型并存储。

在本实施例中，所述故障知识构建模块60包括：

故障模式知识库构建单元601，用于根据所述调用链路图分析异常调用模式，使用故障推理算法判断可能出现的异常调用模式，根据所述异常调用模式构建故障模式知识库；

应用正常运行状态库构建单元602，用于获取目标快递系统的应用信息，根据所述应用信息分析和整理历史故障案例与对应解决方案，根据所述历史故障案例与对应解决方案更新所述故障模式知识库，并结合监控指标构建应用正常运行状态库；

应用状态与风险等级判断单元603，用于使用聚类及关联规则算法，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级。

在本实施例中，所述故障模式知识库构建单元601包括：

调用链路序列抽取子单元6011，用于在所述调用链路图中抽取所有调用链路序列；

执行时间分布计算子单元6012，用于计算每个所述调用链路序列的执行时间分布；

异常调用链路序列标记子单元6013，用于将每个所述调用链路序列的执行时间分布与正常时间阈值上限和正常时间阈值下限进行对比，若所述执行时间分布大于所述正常时间阈值上限或者所述执行时间分布小于所述正常时间阈值下限，则表示执行时间异常，使用异常检测算法标记执行时间异常的调用链路序列；

故障模式分析子单元6014，用于对检测出的异常调用链路序列进行聚类分析，识别得到共性异常调用模式，根据所述共性异常调用模式构建故障模式知识库。

在本实施例中，所述应用正常运行状态库构建单元602包括：

历史故障数据收集子单元6021，用于收集所述目标快递系统的应用信息，根据所述应用信息获取历史故障数据；

历史故障数据标注子单元6022，用于标注每条所述历史故障数据对应的根本原因、触发条件和解决方案；

故障模式知识库扩充子单元6023，用于将整理的历史故障案例与对应解决方案输入到所述故障模式知识库，以扩充所述故障模式知识库。

在本实施例中，所述应用状态与风险等级判断单元603包括：

监控数据收集子单元6031，用于收集应用服务器的监控数据，所述监控数据包括性能指标和日志关键指标；

监控数据匹配子单元6032，用于使用聚类及关联规则算法将所述监控数据与所述故障模式知识库和所述正常运行状态库中的规则进行匹配，生成实时状态与风险评估报告；

故障匹配子单元6033，用于如果所述监控数据满足故障规则的触发条件，则匹配对应的故障模式，并输出故障原因和解决方案。

在本实施例中，所述实时故障分析诊断模块70包括：

异常数据获取单元701，用于通过开放接口获取应用监控系统数据，提取所述应用监控系统数据中的异常指标和异常日志；

故障模式匹配单元702，用于将所述异常指标和所述异常日志输入故障分析模块的规则匹配引擎，所述规则匹配引擎根据所述异常指标和所述异常日志匹配得到对应的故障模式，若无法匹配已知模故障式时，标记为新发现故障，并生成异常报告；

故障分析与解决单元703，用于当匹配到已知故障模式时，基于所述故障模式知识库和所述正常运行状态库推荐可能的故障根本原因和解决方案。

本发明提供的是一种快运订单的应用故障智能分析方法，通过抽取和分析应用接口调用堆栈，构建应用运行状态模型，实现故障的智能识别和快速诊断，可以快速定位故障根本原因，主动发现潜在隐患，大幅提升故障处理效率，大幅降低应用故障处理成本。

上面图8和图9从模块化功能实体的角度对本发明实施例中的应用故障智能分析装置进行详细描述，下面从硬件处理的角度对本发明实施例中应用故障智能分析设备进行详细描述。

图10是本发明实施例提供的一种应用故障智能分析设备的结构示意图，该应用故障智能分析设备10可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)11(例如，一个或一个以上处理器)和存储器12，一个或一个以上存储应用程序133或数据132的存储介质13(例如一个或一个以上海量存储设备)。其中，存储器12和存储介质13可以是短暂存储或持久存储。存储在存储介质13的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对应用故障智能分析设备10中的一系列指令操作。更进一步地，处理器11可以设置为与存储介质13通信，在应用故障智能分析设备10上执行存储介质13中的一系列指令操作。

应用故障智能分析设备10还可以包括一个或一个以上电源14，一个或一个以上有线或无线网络接口15，一个或一个以上输入输出接口16，和/或，一个或一个以上操作系统131，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图10示出的设备结构并不构成对应用故障智能分析设备10的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行应用故障智能分析方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统或装置、单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种应用故障智能分析方法，其特征在于，所述应用故障智能分析方法包括：

在应用的应用代码中植入监测探针，通过所述监测探针获取应用的调用链路信息，将所述调用链路信息输入至已构建的应用接口调用链模型，得到调用链路图；

根据所述调用链路图分析异常调用模式，根据所述异常调用模式构建故障模式知识库，并结合监控指标构建应用正常运行状态库，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级；

获取应用监控系统数据，根据所述应用监控系统数据匹配得到对应的故障模式，基于所述故障模式知识库与所述正常运行状态库根据所述故障模式得到故障根本原因和解决方案。

2.根据权利要求1所述应用故障智能分析方法，其特征在于，所述在应用的应用代码中植入监测探针，通过所述监测探针获取应用的调用链路信息，将所述调用链路信息输入至已构建的应用接口调用链模型，得到调用链路图的步骤包括：

使用应用字节码增强技术在应用的应用代码中植入监测探针，所述监测探针用于在接口调用时记录调用链路信息并上报；

将所述调用链路信息输入至所述应用接口调用链模型，所述应用接口调用链模型使用关联规则算法关联所述调用链路信息，构建得到调用链路图；

将所述调用链路图输入到图数据库模块，所述图数据库模块根据所述调用链路图构建出接口关系图模型并存储。

3.根据权利要求1或2所述应用故障智能分析方法，其特征在于，所述根据所述调用链路图分析异常调用模式，根据所述异常调用模式构建故障模式知识库，并结合监控指标构建应用正常运行状态库，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级的步骤包括：

根据所述调用链路图分析异常调用模式，使用故障推理算法判断可能出现的异常调用模式，根据所述异常调用模式构建故障模式知识库；

获取目标快递系统的应用信息，根据所述应用信息分析和整理历史故障案例与对应解决方案，根据所述历史故障案例与对应解决方案更新所述故障模式知识库，并结合监控指标构建应用正常运行状态库；

使用聚类及关联规则算法，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级。

4.根据权利要求3所述应用故障智能分析方法，其特征在于，所述根据所述调用链路图分析异常调用模式，使用故障推理算法判断可能出现的异常调用模式，根据所述异常调用模式构建故障模式知识库的步骤包括：

在所述调用链路图中抽取所有调用链路序列；

计算每个所述调用链路序列的执行时间分布；

将每个所述调用链路序列的执行时间分布与正常时间阈值上限和正常时间阈值下限进行对比，若所述执行时间分布大于所述正常时间阈值上限或者所述执行时间分布小于所述正常时间阈值下限，则表示执行时间异常，使用异常检测算法标记执行时间异常的调用链路序列；

对检测出的异常调用链路序列进行聚类分析，识别得到共性异常调用模式，根据所述共性异常调用模式构建故障模式知识库。

5.根据权利要求3所述应用故障智能分析方法，其特征在于，所述获取目标快递系统的应用信息，根据所述应用信息分析和整理历史故障案例与对应解决方案，根据所述历史故障案例与对应解决方案更新所述故障模式知识库的步骤包括：

收集所述目标快递系统的应用信息，根据所述应用信息获取历史故障数据；

标注每条所述历史故障数据对应的根本原因、触发条件和解决方案；

将整理的历史故障案例与对应解决方案输入到所述故障模式知识库，以扩充所述故障模式知识库。

6.根据权利要求3所述应用故障智能分析方法，其特征在于，所述使用聚类及关联规则算法，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级的步骤包括：

收集应用服务器的监控数据，所述监控数据包括性能指标和日志关键指标；

使用聚类及关联规则算法将所述监控数据与所述故障模式知识库和所述正常运行状态库中的规则进行匹配，生成实时状态与风险评估报告；

如果所述监控数据满足故障规则的触发条件，则匹配对应的故障模式，并输出故障原因和解决方案。

7.根据权利要求1所述应用故障智能分析方法，其特征在于，所述获取应用监控系统数据，根据所述应用监控系统数据匹配得到对应的故障模式，基于所述故障模式知识库与所述正常运行状态库根据所述故障模式得到故障根本原因和解决方案的步骤包括：

通过开放接口获取应用监控系统数据，提取所述应用监控系统数据中的异常指标和异常日志；

将所述异常指标和所述异常日志输入故障分析模块的规则匹配引擎，所述规则匹配引擎根据所述异常指标和所述异常日志匹配得到对应的故障模式，若无法匹配已知模故障式时，标记为新发现故障，并生成异常报告；

当匹配到已知故障模式时，基于所述故障模式知识库和所述正常运行状态库推荐可能的故障根本原因和解决方案。

8.一种应用故障智能分析装置，其特征在于，包括：

调用链路图构建模块，用于在应用的应用代码中植入监测探针，通过所述监测探针获取应用的调用链路信息，将所述调用链路信息输入至已构建的应用接口调用链模型，得到调用链路图；

故障知识构建模块，用于根据所述调用链路图分析异常调用模式，根据所述异常调用模式构建故障模式知识库，并结合监控指标构建应用正常运行状态库，基于所述故障模式知识库与所述正常运行状态库判断应用的实时状态与风险等级；

实时故障分析诊断模块，用于获取应用监控系统数据，根据所述应用监控系统数据匹配得到对应的故障模式，基于所述故障模式知识库与所述正常运行状态库根据所述故障模式得到故障根本原因和解决方案。

9.一种应用故障智能分析设备，其特征在于，包括存储器和至少一个处理器，所述存储器中存储有计算机可读指令；

所述至少一个处理器调用所述存储器中的所述计算机可读指令，以执行如权利要求1-7中任一项所述应用故障智能分析方法的各个步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如权利要求1-7中任一项所述应用故障智能分析方法的各个步骤。