CN117891640A - 基于大语言模型的微服务故障诊断方法、装置和电子设备 - Google Patents

基于大语言模型的微服务故障诊断方法、装置和电子设备 Download PDF

Info

Publication number
CN117891640A
CN117891640A CN202410063655.7A CN202410063655A CN117891640A CN 117891640 A CN117891640 A CN 117891640A CN 202410063655 A CN202410063655 A CN 202410063655A CN 117891640 A CN117891640 A CN 117891640A
Authority
CN
China
Prior art keywords
service
fault
target micro
knowledge graph
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410063655.7A
Other languages
English (en)
Inventor
程捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bo Hongyuan Data Polytron Technologies Inc
Original Assignee
Beijing Bo Hongyuan Data Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bo Hongyuan Data Polytron Technologies Inc filed Critical Beijing Bo Hongyuan Data Polytron Technologies Inc
Priority to CN202410063655.7A priority Critical patent/CN117891640A/zh
Publication of CN117891640A publication Critical patent/CN117891640A/zh
Pending legal-status Critical Current

Links

Abstract

本申请公开了一种基于大语言模型的微服务故障诊断方法、装置和电子设备,该方法包括:构建目标微服务的故障知识图谱;通过故障分析智能体采用所述故障知识图谱,确定所述目标微服务中的异常调用链、异常日志以及异常组件之间的因果关系;其中,所述故障分析智能体基于大语言模型构建;通过所述大语言模型基于所述目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及所述目标微服务的故障知识图谱对所述目标微服务进行故障诊断。执行本申请所提供的技术方案,可以提高微服务故障诊断的准确性,提高微服务故障诊断的效率,有利于缩短微服务的故障排除时间。

Description

基于大语言模型的微服务故障诊断方法、装置和电子设备
技术领域
本申请涉及故障诊断领域,尤其涉及一种基于大语言模型的微服务故障诊断方法、装置和电子设备。
背景技术
随着科技的进步,软件系统正逐渐从传统的单片结构转变为微服务架构。这种转变旨在增强软件在开发过程中的灵活性、敏捷性和可扩展性。
然而,由于涉及的技术具有异质性、微服务数量众多,以及软件特性和基础设施频繁更新,故障诊断变得更加困难。在依赖微服务架构搭建的系统或者应用出现问题时,迅速进行故障诊断是至关重要的。这不仅有助于缩短平均解决时间(MTTR,Mean Time ToRepair),还有助于尽快恢复应用或者系统的正常运行,从而减少潜在的损失。
发明内容
本申请提供了一种基于大语言模型的微服务故障诊断方法、装置和电子设备,可以达到提高微服务故障诊断的准确性,提高微服务故障诊断的效率,有利于缩短微服务的故障排除时间的目的。
根据本申请的第一方面,提供了基于大语言模型的微服务故障诊断方法,所述方法包括:
构建目标微服务的故障知识图谱;
通过故障分析智能体采用所述故障知识图谱,确定所述目标微服务中的异常调用链、异常日志以及异常组件之间的因果关系;其中,所述故障分析智能体基于大语言模型构建;
通过所述大语言模型基于所述目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及所述目标微服务的故障知识图谱对所述目标微服务进行故障诊断。
根据本申请的第二方面,提供了基于大语言模型的微服务故障诊断装置,所述装置包括:
故障知识图谱构建模块,用于构建目标微服务的故障知识图谱;
诊断参考数据确定模块,用于通过故障分析智能体采用所述故障知识图谱,确定所述目标微服务中的异常调用链、异常日志以及异常组件之间的因果关系;其中,所述故障分析智能体基于大语言模型构建;
故障诊断模块,用于通过所述大语言模型基于所述目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及所述目标微服务的故障知识图谱对所述目标微服务进行故障诊断。
根据本发明的第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的基于大语言模型的微服务故障诊断方法。
根据本发明的第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的基于大语言模型的微服务故障诊断方法。
本申请实施例技术方案,通过构建目标微服务的故障知识图谱,利用采用大语言模型构建的故障分析智能体对目标微服务的故障知识图谱进行分析,确定目标微服务中的异常调用链、异常日志以及异常组件之间的因果关系。并通过大语言模型基于目标微服务中的异常调用链、异常日志异常组件之间的因果关系以及目标微服务的故障知识图谱对目标微服务进行故障诊断。本申请实施例将大语言模型用于对目标微服务进行故障诊断,充分利用大语言模型的文本理解能力、归纳推理能力以及文本生成能力,综合目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及目标微服务的故障知识图谱多源数据,对目标微服务进行故障诊断,有利于提高微服务故障诊断的准确性,提高微服务故障诊断的效率,有利于缩短微服务的故障排除时间。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据实施例一提供的基于大语言模型的微服务故障诊断方法的流程图;
图2是根据实施例二提供的基于大语言模型的微服务故障诊断方法的流程图;
图3是本申请实施例三提供的基于大语言模型的微服务故障诊断装置的结构示意图;
图4是本申请实施例四提供的一种电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“目标”以及“候选”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1是根据实施例一提供的基于大语言模型的微服务故障诊断方法的流程图,本实施例可适用于对微服务进行故障诊断的情况,该方法可以由基于大语言模型的微服务故障诊断装置来执行,基于大语言模型的微服务故障诊断装置采用硬件和/或软件的形式实现,并可集成于电子设备中。
如图1所示,该方法包括:
S110、构建目标微服务的故障知识图谱。
S120、通过故障分析智能体采用所述故障知识图谱,确定所述目标微服务中的异常调用链、异常日志以及异常组件之间的因果关系;其中,所述故障分析智能体基于大语言模型构建。
S130、通过所述大语言模型基于所述目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及所述目标微服务的故障知识图谱对所述目标微服务进行故障诊断。
基于微服务架构搭建的软件系统一旦出现故障,需要对软件系统所依赖的微服务架构进行故障根因定位。目标微服务是指需要进行故障诊断的软件系统所依赖的微服务架构。
可以知道的是,微服务架构中服务组件众多,但是一般软件系统出现故障只是一部分的服务组件出现问题。目标微服务的故障知识图谱基于目标微服务的基础知识图谱得到。故障知识图谱为从基础知识图谱中抽取到的与软件系统所出现的故障相关的部分。故障知识图谱以服务组件为实体,故障知识图谱中的关系基于服务组件之间的连接关系以及调用逻辑,故障知识图谱中的属性基于服务组件的性能指标、服务日志以及调用信息确定。
其中,智能体(Agent)一般认为是一个可以通过行动能力自主完成设定的目标的代理。
故障分析智能体用于对故障知识图谱进行分析,以确定目标微服务中的异常调用链、异常日志以及异常组件之间的因果关系。
故障分析智能体具备归纳推理能力。故障分析智能体基于大语言模型构建,大语言模型是故障分析智能体的核心驱动力。其中,大语言模型(LLM,Large Language Model)是指使用大量文本数据训练的深度学习模型,可以生成自然语言文本或理解语言文本的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等。大语言模型通过训练,从大量标记和未标记的数据中捕获知识,并将知识存储到大量的参数中,其模型参数可达到百亿级别或者千亿级别。
故障知识图谱中的服务组件、服务组件之间的关系包括连接关系以及调用逻辑,故障知识图谱中的属性包括性能指标、服务日志以及调用信息均以可被大语言模型理解的自然语言表述。
故障分析智能体可从故障知识图谱中查询服务组价的调用信息,并利用大语言模型的归纳推理能力对调用信息进行总结,得到目标微服务的异常调用链。
若故障知识图谱的属性中包括服务组件的服务日志,则故障分析智能体可以从故障知识图谱中查询服务组件的服务日志,并利用大语言模型的归纳推理能力对服务日志进行总结,得到目标微服务的异常调用链。
故障分析智能体可以从故障知识图谱中查询服务组件的性能指标,并利用大语言模型的归纳推理能力确定服务组件中的异常组件,进而确定异常组件之间的因果关系。示例性的,异常组件包括服务组件A和服务组件B,基于异常组件之间的因果关系可以确定是否因为服务组件A出现异常服务组件B才出现异常的。
目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及目标微服务的故障知识图谱为对目标微服务进行故障诊断的重要诊断依据。
大语言模型具有强大的归纳推理能力基于上述重要诊断依据,可以实现对目标微服务的故障诊断。
相关技术中,包括基于日志的故障诊断方法(Log-based)、基于调用链的故障诊断方法(Trace-based)、基于指标的故障诊断方法(metrics-based)。基于日志的故障诊断方法,建立基于日志解析的问题检测和识别模型用于后续故障诊断;基于调用链的方法,通过完全跟踪执行路径来收集信息,然后通过分析路径上的延迟偏差来进行故障诊断;这些方法对于调式分布式系统非常有用。此外,还有许多基于指标的故障诊断方法,基于来自应用程序或其他基础设施级别的度量值来构造一个用于故障诊断的因果关系图。基于指标的故障诊断方法直接利用构造好的因果关系图,通过不同的图中心性算法对故障成分进行定位。基于应用程序级别指标识别根本原因的算法有MonitorRank、Microscope以及CloudRanger等算法。其中,MonitorRank考虑了内部因素和外部因素,提出了一种伪异常聚类算法来对外部因素进行分类,然后用随机游走算法遍历所提供的服务调用图来识别异常服务。Microscope等算法考虑服务之间的通信和非通信依赖关系,并构造一个服务因果图来表示这两种类型的依赖关系;接下来,它从前端服务遍构建的图来找到根本原因候选,并根据候选服务和前端服务之间的度量相似度对它们进行排序。CloudRanger构建因果分析影响图,提出二阶随机游走算法来定位根源。所有这些方法在识别影响前端服务的错误服务方面都取得了良好的性能。
尽管基于日志的故障诊断方法可以发现更多的有用的信息原因,但它们很难实时工作,并且需要挖掘隐藏在日志中的异常信息;基于调用链的故障诊断方法对于调试分布式系统非常有用,然而,由于调用链的数据的不完整性以及调用链的时效性,基于调用链的故障诊断方法存在一定的挑战性。基于指标的故障诊断方法需要严重依赖指标检测的准确性,并且随着指标的增多,存在大量资源开销,而且判断时间序列之间的因果关系并没有成熟的理论基础,导致故障诊断的准确性较低。
本申请实施例技术方案,通过构建目标微服务的故障知识图谱,利用采用大语言模型构建的故障分析智能体对目标微服务的故障知识图谱进行分析,确定目标微服务中的异常调用链、异常日志以及异常组件之间的因果关系。并通过大语言模型基于目标微服务中的异常调用链、异常日志异常组件之间的因果关系以及目标微服务的故障知识图谱对目标微服务进行故障诊断。本申请实施例将大语言模型用于对目标微服务进行故障诊断,充分利用大语言模型的文本理解能力、归纳推理能力以及文本生成能力,综合目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及目标微服务的故障知识图谱多源数据,对目标微服务进行故障诊断,有利于提高微服务故障诊断的准确性,提高微服务故障诊断的效率,有利于缩短微服务的故障排除时间。
在一个可选的实施例中,通过故障分析智能体采用所述故障知识图谱,确定所述目标微服务中的异常调用链、异常日志以及异常组件之间的因果关系,包括:通过所述故障分析智能体中的日志分析智能体从所述故障知识图谱中提取各服务组件的服务日志,并对所述服务日志进行语义分析得到异常日志;通过所述故障分析智能体中的指标分析智能体从所述故障知识图谱中提取各服务组件的性能指标,并基于所述性能指标中的异常指标确定服务组件中的异常组件以及所述异常组件之间的因果关系;通过所述故障分析智能体中的调用分析智能体从所述故障知识图谱中提取各服务组件的调用信息,并对所述调用信息进行语义分析确定所述目标微服务中的异常调用链。
其中,故障分析智能体包括日志分析智能体(Log Agent)、指标分析智能体(Metric Agent)和调用分析智能体(Trace Agent)。
日志分析智能体、指标分析智能体和调用分析智能体基于大语言模型构建。日志分析智能体用于从故障知识图谱中提取各服务组件的服务日志,并对服务日志进行语义分析得到异常日志。其中,异常日志是指记录有服务组件发生异常的服务日志。异常日志可用于对目标微服务进行故障分析。指标分析智能体用于通过从故障知识图谱中提取各服务组件的性能指标,然后对各服组件的性能指标进行问题,从中选出异常指标。若服务组件中的性能指标中出现了异常指标,则可将该服务组件确定为异常组件。进而,通过指标分析智能体采用大语言模型的归纳推理能力确定异常组件之间的因果关系。异常组件之间的因果关系可用于对目标微服务进行故障分析。
调用分析智能体用于从故障知识图谱中提取各服务组件的调用信息,并对调用信息进行语义分析确定目标微服务中的异常调用链。其中,异常调用链是指存在异常的调用链。异常调用链可用于对目标微服务进行故障分析。
上述技术方案,提供了一种切实可行的故障诊断依据收集方案,通过故障分析智能体中的日志分析智能体、指标分析智能体和调用分析智能体,分别收集异常日志、异常组件之间的因果关系以及异常调用链,将得到的异常日志、异常组件之间的因果关系以及异常调用链用于目标微服务的故障诊断,为对目标微服务进行故障诊断提供了多源的诊断依据,有利于提高微服务故障诊断的准确性。
在一个可选的实施例中,通过所述大语言模型基于所述目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及所述目标微服务的故障知识图谱对所述目标微服务进行故障诊断,包括:采用自然语言对所述目标微服务的故障知识图谱进行描述,得到所述故障知识图谱的语义描述文本;基于所述目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及所述故障知识图谱的语义描述文本对所述大语言模型的故障诊断提示中的诊断依据进行实例化;分别对所述故障诊断提示中的模型角色、诊断示例以及模型任务进行实例化;将实例化后的故障诊断提示输入所述大语言模型,通过所述大语言模型确定所述目标微服务的至少两条故障原因以及处理措施。
若要将故障知识图谱提供给大语言模型,供大语言模型对目标微服务进行故障诊断,需要使得故障知识图谱可被大语言模型所理解。可选的,采用自然语言对目标微服务的故障知识图谱进行故障诊断。具体的,采用自然语言对故障知识图谱中的服务组件、服务组件之间的关系以及故障知识图谱中的属性进行描述得到故障知识图谱的语义描述文本。
可选的,将目标微服务中的异常调用链、异常日志、异常组件之间的因果关系进行总结得到语义描述文本。
其中,故障诊断提示包括:诊断依据、模型角色、诊断示例以及模型任务等参数。故障诊断提示用于引导大语言模型对目标微服务进行故障诊断。其中,模型角色用于指定大语言模型在对目标微服务进行故障诊断时所扮演的角色。通过指定模型角色可以让大语言模型更加专注于特定领域或特定类型的任务。这样可以使模型更加高效地完成任务,并且减少错误和混淆的可能性,同时还可以更好地控制模型的输出,使其更加符合用户的需求和期望。示例性的,模型角色可以是故障诊断专家。诊断依据是大语言模型对目标微服务进行故障诊断的数据基础。诊断依据采用总结目标微服务中异常调用链、异常日志以及异常组件之间的因果关系得到的语义描述文本,以及基于故障知识图谱的语义描述文本进行实例化。模型任务是指下发给大语言模型的任务。示例性的,模型任务可以是请大语言模型基于上述诊断依据对目标微服务进行故障诊断,给出至少两条故障原因并给出处理措施。故障诊断提示中的诊断示例用于引导大语言模型如何对目标微服务进行故障诊断。
将实例化后的故障诊断提示输入大语言模型,通过大语言模型输出目标微服务的至少两条故障原因以及处理措施。其中,处理措施与故障原因相对应,用于排出故障原因引起的故障。
上述技术方案,为将大语言模型用于对微服务进行故障诊断提供了技术支持,有利于提高微服务故障诊断的准确性,微服务故障诊断的效率,有利于缩短微服务的故障排除时间。
实施例二
图2是根据实施例二提供的基于大语言模型的微服务故障诊断方法的流程图。本实施例在上述实施例的基础上进行进一步地优化。
如图2所示,该方法包括:
S210、获取所述目标微服务的基础知识图谱,以及所述目标微服务在故障监控期间的告警数据。
其中,目标微服务的基础知识图谱用于构建目标微服务的故障知识图谱。故障监控期间是对目标微服务进行故障监控的时段。示例性的,故障监控期间的时长可以是10分钟。获取目标微服务在故障监控期间的告警数据。其中,告警数据在目标微服务出现故障的情况下产生。可选的,告警数据一般是在目标微服务中服务组件的性能指标出现异常的情况下产生。
在一个可选的实施例中,所述基础知识图谱以所述目标微服务中的服务组件为实体,所述基础知识图谱中的关系根据所述服务组件之间的连接关系以及调用逻辑确定;所述基础知识图谱中的属性基于所述服务组件的性能指标、服务日志以及调用信息确定。
其中,目标微服务中包括至少两个服务组件,服务组件是目标微服务的组成单元。连接关系是指目标微服务中服务组件在物理层面上的连接关系。调用逻辑是指目标微服务中服务组件在数据层面上的通信关系。一般来说,目标微服务中的每个服务组件均存在对应的性能指标、服务日志以及调用信息。上述技术方案提供了一种切实可行的基础知识图谱构建方法可用于构建目标微服务的基础知识图谱,为构建目标微服务的故障知识图谱提供了数据支持。
S220、根据所述告警数据,从所述目标微服务的服务组件中确定异常组件。
可选的,根据告警数据确定异常指标,进一步确定异常指标所属的服务组件,并将异常指标所属的服务组件确定为异常组件。
S230、基于所述目标微服务中的异常组件以及所述基础知识图谱中服务组件之间的关系,从所述目标微服务的基础知识图谱中抽取所述目标微服务的故障知识图谱。
基于目标微服务中的异常组件以及基础知识图谱中服务组件之间的关系,在目标微服务的基础知识图谱中确定异常组件以及与异常组件相关联的关联组件。其中,关联组件可以是与异常组件存在连接关系或者属于同一个调用链的服务组件。
基于异常组件以及关联组件,从目标微服务的基础知识图谱中抽取目标微服务的故障知识图谱。
S240、通过故障分析智能体采用所述故障知识图谱,确定所述目标微服务中的异常调用链、异常日志以及异常组件之间的因果关系;其中,所述故障分析智能体基于大语言模型构建。
S250、通过所述大语言模型基于所述目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及所述目标微服务的故障知识图谱对所述目标微服务进行故障诊断。
本申请实施例技术方案,通过根据目标微服务在故障监控期间的告警数据,从目标微服务的服务组件中确定异常组件,基于目标微服务中的异常组件以及基础知识图谱中服务组件之间的关系,从目标微服务的基础知识图谱中抽取所述目标微服务的故障知识图谱。提供了一种切实可行的故障知识图谱构建方案,为将故障知识图谱用于目标微服务的故障分析提供了技术支持,有利于提高微服务故障诊断的准确性和效率,有利于缩短微服务的故障排除时间。
在一个可选的实施例中,基于所述目标微服务中的异常组件以及所述基础知识图谱中服务组件之间的关系,从所述目标微服务的基础知识图谱中抽取所述目标微服务的故障知识图谱,包括:基于所述基础知识图谱中服务组件之间的关系,确定所述目标微服务中异常组件所属的故障树;基于在所述故障监控期间所确定的故障树,从所述目标微服务的基础知识图谱中抽取所述目标微服务的故障知识图谱。
其中,基础知识图谱中服务组件之间的关系基于服务组件之间的连接关系和调用逻辑确定。在异常组件确定的情况下,基于基础知识图谱中服务组件之间的关系可以确定与异常组件相关联的关联组件。关联组件与异常组件之间存在连接关系或者属于同一条调用链。基于异常组件、关联组件以及异常组件和关联组件之间的关系确定目标微服务中异常组件所属的故障树。异常组件所属的故障树包括至少一条异常组件的调用链。
异常组件和关联组件为故障树中的节点。异常组件基于目标微服务在故障监控期间的告警数据确定,每条告警数据均关联有告警时间,基于此可以确定异常组件的确定时间,进而可以确定异常组件所属的故障树所对应的时间。
在故障监控期间异常组件所属的故障树可能会收敛,则基于收敛后的故障树,从目标微服务的基础知识图谱中抽取目标微服务的故障知识图谱。
若在故障监控期间异常组件所属的故障树持续地增加,则基于故障监控期间产生的故障树,从目标微服务的基础知识图谱中抽取目标微服务的故障知识图谱。
上述技术方案提供了一种切实可行的故障知识图谱构建方案,保证了是故障知识图谱的准确性和可靠性,将采用上述技术方案确定的故障知识图谱用于对目标微服务进行故障诊断,有利于提高微服务故障诊断的准确性。
实施例三
图3是本申请实施例三提供的基于大语言模型的微服务故障诊断装置的结构示意图,可适用于对微服务进行故障诊断的情况,所述装置可由软件和/或硬件实现,并可集成于智能终端等电子设备中。
如图3所示,该装置可以包括:
故障知识图谱构建模块310,用于构建目标微服务的故障知识图谱;
诊断参考数据确定模块320,用于通过故障分析智能体采用所述故障知识图谱,确定所述目标微服务中的异常调用链、异常日志以及异常组件之间的因果关系;其中,所述故障分析智能体基于大语言模型构建;
故障诊断模块330,用于通过所述大语言模型基于所述目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及所述目标微服务的故障知识图谱对所述目标微服务进行故障诊断。
本申请实施例技术方案,通过构建目标微服务的故障知识图谱,利用采用大语言模型构建的故障分析智能体对目标微服务的故障知识图谱进行分析,确定目标微服务中的异常调用链、异常日志以及异常组件之间的因果关系。并通过大语言模型基于目标微服务中的异常调用链、异常日志异常组件之间的因果关系以及目标微服务的故障知识图谱对目标微服务进行故障诊断。本申请实施例将大语言模型用于对目标微服务进行故障诊断,充分利用大语言模型的文本理解能力、归纳推理能力以及文本生成能力,综合目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及目标微服务的故障知识图谱多源数据,对目标微服务进行故障诊断,有利于提高微服务故障诊断的准确性,提高微服务故障诊断的效率,有利于缩短微服务的故障排除时间。
可选的,所述故障知识图谱构建模块310,包括:告警数据获取子模块,用于获取所述目标微服务的基础知识图谱,以及所述目标微服务在故障监控期间的告警数据;异常组件确定子模块,用于根据所述告警数据,从所述目标微服务的服务组件中确定异常组件;故障知识图谱确定子模块,用于基于所述目标微服务中的异常组件以及所述基础知识图谱中服务组件之间的关系,从所述目标微服务的基础知识图谱中抽取所述目标微服务的故障知识图谱。
可选的,所述基础知识图谱以所述目标微服务中的服务组件为实体,所述基础知识图谱中的关系根据所述服务组件之间的连接关系以及调用逻辑确定;所述基础知识图谱中的属性基于所述服务组件的性能指标、服务日志以及调用信息确定。
可选的,故障知识图谱确定子模块,包括:故障树确定单元,用于基于所述基础知识图谱中服务组件之间的关系,确定所述目标微服务中异常组件所属的故障树;故障知识图谱抽取单元,用于基于在所述故障监控期间所确定的故障树,从所述目标微服务的基础知识图谱中抽取所述目标微服务的故障知识图谱。
可选的,诊断参考数据确定模块320,包括:异常日志确定子模块,用于通过所述故障分析智能体中的日志分析智能体从所述故障知识图谱中提取各服务组件的服务日志,并对所述服务日志进行语义分析得到异常日志;因果关系确定子模块,用于通过所述故障分析智能体中的指标分析智能体从所述故障知识图谱中提取各服务组件的性能指标,并基于所述性能指标中的异常指标确定服务组件中的异常组件以及所述异常组件之间的因果关系;异常调用链确定子模块,用于通过所述故障分析智能体中的调用分析智能体从所述故障知识图谱中提取各服务组件的调用信息,并对所述调用信息进行语义分析确定所述目标微服务中的异常调用链。
可选的,故障诊断模块330,包括:语义描述文本确定子模块,用于采用自然语言对所述目标微服务的故障知识图谱进行描述,得到所述故障知识图谱的语义描述文本;第一故障诊断提示实例化子模块,用于基于所述目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及所述故障知识图谱的语义描述文本对所述大语言模型的故障诊断提示中的诊断依据进行实例化;第二故障诊断提示实例化子模块,用于分别对所述故障诊断提示中的模型角色、诊断示例以及模型任务进行实例化;故障诊断子模块,用于将实例化后的故障诊断提示输入所述大语言模型,通过所述大语言模型确定所述目标微服务的至少两条故障原因以及处理措施。
发明实施例所提供的基于大语言模型的微服务故障诊断装置可执行本申请任意实施例所提供的基于大语言模型的微服务故障诊断方法,具备执行基于大语言模型的微服务故障诊断方法相应的性能模块和有益效果。
本公开的技术方案中,所涉及的用户数据的收集、存储、使用、加工、传输、提供和公开等,均符合相关法律法规的规定,且不违背公序良俗。
实施例四
图4示出了可以用来实施的实施例的电子设备410的结构示意图。电子设备410包括至少一个处理器411,以及与至少一个处理器411通信连接的存储器,如只读存储器(ROM)412、随机访问存储器(RAM)413等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器411可以根据存储在只读存储器(ROM)412中的计算机程序或者从存储单元418加载到随机访问存储器(RAM)413中的计算机程序,来执行各种适当的动作和处理。在RAM413中,还可存储电子设备410操作所需的各种程序和数据。处理器411、ROM 412以及RAM413通过总线414彼此相连。输入/输出(I/O)接口415也连接至总线414。
电子设备410中的多个部件连接至I/O接口415,包括:输入单元416,例如键盘、鼠标等;输出单元417,例如各种类型的显示器、扬声器等;存储单元418,例如磁盘、光盘等;以及通信单元419,例如网卡、调制解调器、无线通信收发机等。通信单元419允许电子设备410通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器411可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器411的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器411执行上文所描述的各个方法和处理,例如基于大语言模型的微服务故障诊断方法。
在一些实施例中,基于大语言模型的微服务故障诊断方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元418。在一些实施例中,计算机程序的部分或者全部可以经由ROM 412和/或通信单元419而被载入和/或安装到电子设备410上。当计算机程序加载到RAM 413并由处理器411执行时,可以执行上文描述的基于大语言模型的微服务故障诊断方法的一个或多个步骤。备选地,在其他实施例中,处理器411可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行基于大语言模型的微服务故障诊断方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本申请的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程基于大语言模型的微服务故障诊断装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为基于大语言模型的微服务故障诊断服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (10)

1.一种基于大语言模型的微服务故障诊断方法,其特征在于,所述方法包括:
构建目标微服务的故障知识图谱;
通过故障分析智能体采用所述故障知识图谱,确定所述目标微服务中的异常调用链、异常日志以及异常组件之间的因果关系;其中,所述故障分析智能体基于大语言模型构建;
通过所述大语言模型基于所述目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及所述目标微服务的故障知识图谱对所述目标微服务进行故障诊断。
2.根据权利要求1所述的方法,其特征在于,所述构建目标微服务的故障知识图谱,包括:
获取所述目标微服务的基础知识图谱,以及所述目标微服务在故障监控期间的告警数据;
根据所述告警数据,从所述目标微服务的服务组件中确定异常组件;
基于所述目标微服务中的异常组件以及所述基础知识图谱中服务组件之间的关系,从所述目标微服务的基础知识图谱中抽取所述目标微服务的故障知识图谱。
3.根据权利要求2所述的方法,其特征在于,所述基础知识图谱以所述目标微服务中的服务组件为实体,所述基础知识图谱中的关系根据所述服务组件之间的连接关系以及调用逻辑确定;所述基础知识图谱中的属性基于所述服务组件的性能指标、服务日志以及调用信息确定。
4.根据权利要求2所述的方法,其特征在于,基于所述目标微服务中的异常组件以及所述基础知识图谱中服务组件之间的关系,从所述目标微服务的基础知识图谱中抽取所述目标微服务的故障知识图谱,包括:
基于所述基础知识图谱中服务组件之间的关系,确定所述目标微服务中异常组件所属的故障树;
基于在所述故障监控期间所确定的故障树,从所述目标微服务的基础知识图谱中抽取所述目标微服务的故障知识图谱。
5.根据权利要求1所述的方法,其特征在于,所述通过故障分析智能体采用所述故障知识图谱,确定所述目标微服务中的异常调用链、异常日志以及异常组件之间的因果关系,包括:
通过所述故障分析智能体中的日志分析智能体从所述故障知识图谱中提取各服务组件的服务日志,并对所述服务日志进行语义分析得到异常日志;
通过所述故障分析智能体中的指标分析智能体从所述故障知识图谱中提取各服务组件的性能指标,并基于所述性能指标中的异常指标确定服务组件中的异常组件以及所述异常组件之间的因果关系;
通过所述故障分析智能体中的调用分析智能体从所述故障知识图谱中提取各服务组件的调用信息,并对所述调用信息进行语义分析确定所述目标微服务中的异常调用链。
6.根据权利要求1所述的方法,其特征在于,所述通过所述大语言模型基于所述目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及所述目标微服务的故障知识图谱对所述目标微服务进行故障诊断,包括:
采用自然语言对所述目标微服务的故障知识图谱进行描述,得到所述故障知识图谱的语义描述文本;
基于所述目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及所述故障知识图谱的语义描述文本对所述大语言模型的故障诊断提示中的诊断依据进行实例化;
分别对所述故障诊断提示中的模型角色、诊断示例以及模型任务进行实例化;
将实例化后的故障诊断提示输入所述大语言模型,通过所述大语言模型确定所述目标微服务的至少两条故障原因以及处理措施。
7.一种基于大语言模型的微服务故障诊断装置,其特征在于,所述装置包括:
故障知识图谱构建模块,用于构建目标微服务的故障知识图谱;
诊断参考数据确定模块,用于通过故障分析智能体采用所述故障知识图谱,确定所述目标微服务中的异常调用链、异常日志以及异常组件之间的因果关系;其中,所述故障分析智能体基于大语言模型构建;
故障诊断模块,用于通过所述大语言模型基于所述目标微服务中的异常调用链、异常日志、异常组件之间的因果关系以及所述目标微服务的故障知识图谱对所述目标微服务进行故障诊断。
8.根据权利要求7所述的装置,其特征在于,所述故障知识图谱构建模块,包括:
告警数据获取子模块,用于获取所述目标微服务的基础知识图谱,以及所述目标微服务在故障监控期间的告警数据;
异常组件确定子模块,用于根据所述告警数据,从所述目标微服务的服务组件中确定异常组件;
故障知识图谱确定子模块,用于基于所述目标微服务中的异常组件以及所述基础知识图谱中服务组件之间的关系,从所述目标微服务的基础知识图谱中抽取所述目标微服务的故障知识图谱。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于大语言模型的微服务故障诊断方法。
10.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的基于大语言模型的微服务故障诊断方法。
CN202410063655.7A 2024-01-16 2024-01-16 基于大语言模型的微服务故障诊断方法、装置和电子设备 Pending CN117891640A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410063655.7A CN117891640A (zh) 2024-01-16 2024-01-16 基于大语言模型的微服务故障诊断方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410063655.7A CN117891640A (zh) 2024-01-16 2024-01-16 基于大语言模型的微服务故障诊断方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN117891640A true CN117891640A (zh) 2024-04-16

Family

ID=90639165

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410063655.7A Pending CN117891640A (zh) 2024-01-16 2024-01-16 基于大语言模型的微服务故障诊断方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN117891640A (zh)

Similar Documents

Publication Publication Date Title
US9563849B2 (en) Behavioral rules discovery for intelligent computing environment administration
CN111967256B (zh) 事件关系的生成方法、装置、电子设备和存储介质
CN117076719B (zh) 一种基于大语言模型的数据库联合查询方法、装置和设备
Wang et al. Ietcr: An information entropy based test case reduction strategy for mutation-based fault localization
CN110532157A (zh) 基于用户行为数据的页面监测方法及装置
CN116089231A (zh) 一种故障告警方法、装置、电子设备及存储介质
CN117077791A (zh) 一种基于图数据结构的模型推理方法、装置、设备及介质
CN114416573A (zh) 一种应用程序的缺陷分析方法、装置、设备及介质
CN115687406B (zh) 一种调用链数据的采样方法、装置、设备及存储介质
CN117891640A (zh) 基于大语言模型的微服务故障诊断方法、装置和电子设备
CN116467461A (zh) 应用于配电网的数据处理方法、装置、设备及介质
CN116225752A (zh) 基于故障模式库的微服务系统故障根因分析方法及系统
CN114881112A (zh) 一种系统异常检测方法、装置、设备及介质
Qian et al. A strategy for multi-target paths coverage by improving individual information sharing
CN115080607A (zh) 一种结构化查询语句的优化方法、装置、设备及存储介质
CN114897183A (zh) 问题数据处理方法、深度学习模型的训练方法和装置
CN111949776A (zh) 一种用户标签评估的方法、装置和电子设备
CN117033235A (zh) 一种软件程序关联性测试方法、装置、设备及存储介质
CN112231175B (zh) 一种基于动态仿真的软件状态监控点选择方法及系统
CN115131709B (zh) 视频类别预测方法、视频类别预测模型的训练方法及装置
CN117670500A (zh) 异常用户识别系统、方法、电子设备和存储介质
CN117556920A (zh) 一种大模型幻觉治理方法、装置、设备及存储介质
CN113918430A (zh) 服务器硬件运行状态确定方法、相关装置及程序产品
CN115934528A (zh) 应用性能分析方法、装置、设备、存储介质及程序产品
CN118012657A (zh) 微服务系统的根因定位方法、装置、可读介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination