CN117608912A - 基于nlp大模型的全自动日志分析和故障处理系统和方法 - Google Patents

基于nlp大模型的全自动日志分析和故障处理系统和方法 Download PDF

Info

Publication number
CN117608912A
CN117608912A CN202410099769.7A CN202410099769A CN117608912A CN 117608912 A CN117608912 A CN 117608912A CN 202410099769 A CN202410099769 A CN 202410099769A CN 117608912 A CN117608912 A CN 117608912A
Authority
CN
China
Prior art keywords
log
fault
nlp
large model
key information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410099769.7A
Other languages
English (en)
Other versions
CN117608912B (zh
Inventor
曹阳
杨书天
杨浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202410099769.7A priority Critical patent/CN117608912B/zh
Priority claimed from CN202410099769.7A external-priority patent/CN117608912B/zh
Publication of CN117608912A publication Critical patent/CN117608912A/zh
Application granted granted Critical
Publication of CN117608912B publication Critical patent/CN117608912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种基于NLP大模型的全自动日志分析和故障处理系统和方法,包括:采集服务状态、运行环境和日志文件;从所述日志文件中提取生成日志摘要,对所述日志摘要进行关键信息提取,得到业务流程的状态信息;若反馈有错误,则NLP大模型以服务状态和运行环境为先验知识对错误进行故障分析,并记录错误所涉及的上下游关键信息;基于所述错误所涉及的上下游关键信息找出故障原因并给出故障处理动作;再根据故障处理动作去执行预案。本发明的日志采集不局限于规定格式,且引入以服务状态和运行环境为先验知识的NLP大模型进行故障分析。

Description

基于NLP大模型的全自动日志分析和故障处理系统和方法
技术领域
本发明属于计算机系统运维领域,尤其涉及一种基于NLP大模型的全自动日志分析和故障处理系统和方法。
背景技术
现有计算机系统一般都是复杂的分布式部署逻辑,为了保障整体系统的服务可靠性,系统都配备了日志打印、日志采集、监控告警、数据分析等运维能力,帮助运维人员发现问题、定位故障、恢复系统,达到要求的系统运行稳定性标准。所以如何更好更快的进行日志分析,定位故障原因,恢复系统成为了整个系统运维和保障系统稳定性运行的关键手段。
现有的比较成熟的日志分析和故障定位的方案,通过标准化各个应用的日志打印格式并部署日志采集器对各个应用的日志进行实时的采集。日志通常会被采集到一个独立部署的日志处理中间件服务,中间件服务将采集过来的日志存储在独立的日志数据库中进行二次的数据清洗,完成数据清洗后的日志进入数据分析系统进行日志内容的统计分析(统计分析规则由运维人员提前配置在数据分析系统中),得到的分析后的数据提供给运维工具平台使用,如日志搜索查询的报表工具、监控告警平台和数据大屏等。
故障分析一般是由运维开发人员收到告警或是例行检查过程中发现系统状态异常,通过运维工具平台提供的日志分析能力,再结合本地系统的应用健康状态进行判断,定位故障的具体原因。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于NLP大模型的全自动日志分析和故障处理系统和方法。
本发明的目的是通过以下技术方案来实现的:一种基于NLP大模型的全自动日志分析和故障处理系统,包括:
采集模块,包括若干个应用监控采集器和若干个日志采集器;所述应用监控采集器用于采集服务状态和运行环境并保存在关联信息库中;所述日志采集器用于采集日志文件;
分析模块,用于从所述日志文件中提取生成日志摘要,对所述日志摘要进行关键信息提取,得到业务流程的状态信息;若反馈有错误,则NLP大模型以知识库和关联信息库中的信息为先验知识对错误进行故障分析,并记录错误所涉及的上下游关键信息;
所述知识库包括系统架构、错误码、监控指标、数据结构、业务流程和编码规范;
故障处理模块,用于基于所述错误所涉及的上下游关键信息找出故障原因并给出故障处理动作;再根据故障处理动作去执行预案。
进一步地,所述从所述日志文件中提取生成日志摘要具体为:NLP大模型以知识库中的系统架构、数据结构和编码规范为先验知识从所述日志文件中提取生成日志摘要;
所述对所述日志摘要进行关键信息提取具体为:NLP大模型以知识库中的业务流程、错误码和监控指标为先验知识对所述日志摘要进行关键信息提取,得到业务流程的状态信息。
进一步地,还包括经验库;所述经验库包括排查库经验库和历史故障库;
所述基于所述错误所涉及的上下游关键信息找出故障原因并给出故障处理动作具体为:基于所述错误所涉及的上下游关键信息并根据排查库经验库找出故障原因;再根据故障原因查询历史故障库给出故障处理动作。
进一步地,所述故障处理模块中执行预案有两种触发模式:自动触发和人工确认触发;若故障执行效果大于等于设定的阈值,则自动触发,若执行效果小于阈值,则人工确认触发。
进一步地,所述根据故障处理动作去执行预案,若这个过程人工确认触发或者产生新的执行效果或反馈信息,则更新历史故障库。
进一步地,所述日志采集器采集的日志文件保存在日志数据库中;所述日志文件包括业务处理日志、接口调用日志、数据库操作日志和用户操作日志。
进一步地,所述服务状态包括业务健康状态和应用进程状态;所述运行环境包括依赖服务状态和机器性能指标。
本发明还提供了一种基于NLP大模型的全自动日志分析和故障处理方法,包括:
采集服务状态、运行环境和日志文件;
从所述日志文件中提取生成日志摘要,对所述日志摘要进行关键信息提取,得到业务流程的状态信息;若反馈有错误,则NLP大模型以知识库、服务状态和运行环境为先验知识对错误进行故障分析,并记录错误所涉及的上下游关键信息;
所述知识库包括系统架构、错误码、监控指标、数据结构、业务流程和编码规范;
基于所述错误所涉及的上下游关键信息找出故障原因并给出故障处理动作;再根据故障处理动作去执行预案。
本发明还提供了一种基于NLP大模型的全自动日志分析和故障处理装置,包括一个或多个处理器,用于实现上述的一种基于NLP大模型的全自动日志分析和故障处理方法。
本发明还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,用于实现上述的一种基于NLP大模型的全自动日志分析和故障处理方法。
与现有技术相比,本发明的有益效果是:
1、现有技术方案的日志采集,要求应用日志必须按照规定格式打印,不符合规定格式的日志内容无法被采集,本发明只要是按照正常自然语言打印的格式都可以被采集分析。
2、本发明还构建大数据知识库作为NLP大模型的先验知识储备。还引入了排查经验库和历史故障库,积累每次排查和处理故障的经典案例,总结日志分析经验,作为下次NLP大模型进行日志分析和故障处理的关联知识,实现了大模型日志分析能力的迭代进化,并且不依赖于大模型本身的训练优化。
3、引入NLP大模型的自然语言处理能力进行日志分析,可以分析包括用户操作日志、业务处理日志、接口调用日志和数据库日志等多种类型的日志,增加了日志分析的预备知识和关联信息帮助进行日志分析,对于程序没有捕获的异常日志、非标日志、第三方日志同样可以分析处理。
4、本发明不仅可以给出系统指标、错误告警,还可以更深入的挖掘系统的潜在问题,对系统可能存在的风险进行预警,在系统出现故障后,可以结合故障发生时候的日志分析结果、服务状态、运行环境对故障进行分析,给出故障原因,并结合现有的经验知识故障库进行故障的处理和恢复,同时根据处理的效果对已有的历史故障库进行迭代更新。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于NLP大模型的全自动日志分析和故障处理系统流程图;
图2为本发明实施例提供的一种日志采集流程图;
图3为本发明实施例提供的一种关键信息提取流程图;
图4为本发明实施例提供的一种关键信息详解图;
图5为本发明实施例提供的一种故障处理流程图;
图6为本发明实施例提供的一种硬件结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
下面结合附图,对本发明进行详细说明。在不冲突的情况下,下述的实施例及实施方式中的特征可以相互组合。
本发明的一种基于NLP(自然语言处理,Natural Language Processing)大模型的全自动日志分析和故障处理系统,如图1所示,包括:
采集模块,包括若干个应用监控采集器和日志采集器;所述应用监控采集器用于采集服务状态和运行环境并保存在关联信息库中;所述日志采集器用于采集日志文件;
日志文件包括应用日志、系统日志等日志文件,类型包括用户操作日志、业务处理日志、接口调用日志和数据库日志。
运行环境包括依赖服务状态和机器性能指标,其中依赖服务状态包括数据库连接状态、依赖服务接口调用成功率(中间件、其他业务应用等),机器性能指标包括CPU(中央处理单元,Central Processing Unit)利用率、内存利用率、磁盘使用率、网络流量、机器负载。
服务状态包括业务健康状态和应用进程状态。
在一实施例中,如图2所示,应用监控采集器负责采集业务健康状态、应用进程状态、机器性能指标和依赖服务状态,日志采集器负责采集日志文件,两个采集器均采用实时上报的模式将采集信息上传采集控制中心。
信息采集内容由配置文件确定,配置文件中包含上述5中类型的信息。采集控制中心会读取配置文件的内容然后通知给采集器确定需要采集的内容。配置文件的内容可以由人工配置,也可以由系统运维工具自动生成。
采集过来的信息会分别保存在两个数据库中,运行环境、服务状态信息保存在关联信息库中,日志文件保存在日志数据库中。
分析模块,用于从所述日志文件中提取生成日志摘要,对所述日志摘要进行关键信息提取,得到业务流程的状态信息;若反馈有错误,则NLP大模型以知识库和关联信息库中的信息为先验知识对错误进行故障分析,并记录错误所涉及的上下游关键信息;
在一实施例中,如图3所示,生成日志摘要:使用NLP大模型的摘要生成能力,但是需要引入编码规范、数据结构、系统架构三个预备知识,保证NLP大模型生成的摘要不会丢掉与应用服务相关的关键信息;即NLP大模型以系统架构、数据结构和编码规范为先验知识从所述日志文件中提取生成日志摘要;其中,编码规范用于保证生成摘要的时候可以有效识别出日志中有关变量定义、数据库操作、类声明和调用等应用处理逻辑,数据结构用于保证摘要中正确识别应用数据流信息,系统架构用于保障摘要中可以囊括所有的关键模块日志信息并保存各个模块日志的关联关系。
关键信息提取:NLP大模型结合业务流程和错误码对日志摘要进行二次处理,并结合监控指标将相关的监控日志进行整合,提取出整个核心业务流程的关键状态信息。如果有错误或是异常日志,则记录错误所涉及的上下游关键信息全部整理记录用于后续故障原因分析和处理。
如图4所示,日志摘要的核心,是根据知识库告诉NLP大模型做日志摘要的时候要保留哪些内容,主要包含业务处理日志,接口调用日志、数据库操作日志、用户操作日志,同时处理摘要的同时会根据系统架构将关联业务的日志也一并整合进来。日志分析的核心是利用已经摘要好的日志摘要,再结合监控指标、错误码、业务流程等知识库信息提取其中的关键业务信息,方便后续对日志的关键业务信息进行分析,得出故障原因,进行故障处理。
故障处理模块,基于所述错误所涉及的上下游关键信息找出故障原因并给出故障处理动作;再根据故障处理动作去执行预案。
故障处理包含两个阶段:故障排查、故障处理执行。
具体的,如图5所示,故障排查:基于错误所涉及的上下游关键信息,故障处理模块会根据排查经验库进行故障定位排查找出故障原因,再根据故障原因查询历史故障库给出故障处理动作。
故障处理执行是根据故障排查给出的故障处理动作去执行;
其中,故障处理执行有两种触发执行的模式:自动触发和人工确认触发;系统会判断历史故障处理方案的执行效果,如果该故障执行效果大于等于设定的阈值(本实施例中设置为1),则本次执行自动触发,如果执行效果小于阈值,则本次执行由人工确认。
执行效果计算公式:
一般本次触发后会取5分钟到1小时的服务成功率,服务成功率的定义每个服务需要单独定义,历史服务成功率一般会取3天到一个月的服务成功率平均数。
一般本次触发成功率不低于历史成功率,即执行效果P>=1,那么下次执行就可以自动触发,反之则进入人工确认的阶段,由人工确认是否执行,或是是否采用新的方法执行。
执行完成后根据执行效果更新已有方法的执行效果P的值,如果是新的方法,则更新新的执行方法和新方法的执行效果P。
根据故障处理动作去执行预案,若这个过程人工确认触发或者产生新的执行效果或反馈信息,则更新历史故障库。
本发明还提供了一种基于NLP大模型的全自动日志分析和故障处理方法,包括:
采集服务状态、运行环境和日志文件;
从所述日志文件中提取生成日志摘要,对所述日志摘要进行关键信息提取,得到业务流程的状态信息;若反馈有错误,则NLP大模型以服务状态和运行环境为先验知识对错误进行故障分析,并记录错误所涉及的上下游关键信息;
基于所述错误所涉及的上下游关键信息找出故障原因并给出故障处理动作;再根据故障处理动作去执行预案。
其中,服务状态包括业务健康状态和应用进程状态;运行环境包括依赖服务状态和机器性能指标;日志文件包括应用日志、系统日志等日志文件,类型包括用户操作日志、业务处理日志、接口调用日志和数据库日志。
具体的,NLP大模型以系统架构、数据结构和编码规范为先验知识从所述日志文件中提取生成日志摘要。
具体的,NLP大模型以错误码、监控指标和监控指标为先验知识对所述日志摘要进行关键信息提取。
具体的,故障处理模块中执行预案有两种触发模式:自动触发和人工确认触发;若故障执行效果大于等于设定的阈值,则自动触发,若执行效果小于阈值,则人工确认触发。
根据故障处理动作去执行预案,若这个过程人工确认触发或者产生新的执行效果或反馈信息,则更新历史故障库。
需要说明的是,本实施例中示出的方法实施例与上述系统实施例的内容相匹配,可以参考上述系统实施例的内容,在此不再赘述。
与前述的一种基于NLP大模型的全自动日志分析和故障处理方法的实施例相对应,本发明还提供了一种基于NLP大模型的全自动日志分析和故障处理装置的实施例。
参见图6,本发明实施例提供的一种基于NLP大模型的全自动日志分析和故障处理装置,包括一个或多个处理器,用于实现上述实施例中的一种基于NLP大模型的全自动日志分析和故障处理方法。
所述处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本发明的一种基于NLP大模型的全自动日志分析和故障处理装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本发明的一种基于NLP大模型的全自动日志分析和故障处理装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的一种基于NLP大模型的全自动日志分析和故障处理方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。

Claims (10)

1.一种基于NLP大模型的全自动日志分析和故障处理系统,其特征在于,包括:
采集模块,包括若干个应用监控采集器和若干个日志采集器;所述应用监控采集器用于采集服务状态和运行环境并保存在关联信息库中;所述日志采集器用于采集日志文件;
分析模块,用于从所述日志文件中提取生成日志摘要,对所述日志摘要进行关键信息提取,得到业务流程的状态信息;若反馈有错误,则NLP大模型以知识库和关联信息库中的信息为先验知识对错误进行故障分析,并记录错误所涉及的上下游关键信息;
所述知识库包括系统架构、错误码、监控指标、数据结构、业务流程和编码规范;
故障处理模块,用于基于所述错误所涉及的上下游关键信息找出故障原因并给出故障处理动作;再根据故障处理动作去执行预案。
2.根据权利要求1所述的系统,其特征在于,所述从所述日志文件中提取生成日志摘要具体为:NLP大模型以知识库中的系统架构、数据结构和编码规范为先验知识从所述日志文件中提取生成日志摘要;
所述对所述日志摘要进行关键信息提取具体为:NLP大模型以知识库中的业务流程、错误码和监控指标为先验知识对所述日志摘要进行关键信息提取,得到业务流程的状态信息。
3.根据权利要求1所述的系统,其特征在于,还包括经验库;所述经验库包括排查库经验库和历史故障库;
所述基于所述错误所涉及的上下游关键信息找出故障原因并给出故障处理动作具体为:基于所述错误所涉及的上下游关键信息并根据排查库经验库找出故障原因;再根据故障原因查询历史故障库给出故障处理动作。
4.根据权利要求3所述的系统,其特征在于,所述故障处理模块中,执行预案有两种触发模式:自动触发和人工确认触发;若故障执行效果大于等于设定的阈值,则自动触发,若执行效果小于阈值,则人工确认触发。
5.根据权利要求4所述的系统,其特征在于,所述根据故障处理动作去执行预案,若这个过程人工确认触发或者产生新的执行效果或反馈信息,则更新历史故障库。
6.根据权利要求1所述的系统,其特征在于,所述日志采集器采集的日志文件保存在日志数据库中;所述日志文件的类型分为业务处理日志、接口调用日志、数据库操作日志和用户操作日志。
7.根据权利要求1所述的系统,其特征在于,所述服务状态包括业务健康状态和应用进程状态;所述运行环境包括依赖服务状态和机器性能指标。
8.一种基于NLP大模型的全自动日志分析和故障处理方法,其特征在于,包括:
采集服务状态、运行环境和日志文件;
从所述日志文件中提取生成日志摘要,对所述日志摘要进行关键信息提取,得到业务流程的状态信息;若反馈有错误,则NLP大模型以知识库、服务状态和运行环境为先验知识对错误进行故障分析,并记录错误所涉及的上下游关键信息;
所述知识库包括系统架构、错误码、监控指标、数据结构、业务流程和编码规范;
基于所述错误所涉及的上下游关键信息找出故障原因并给出故障处理动作;再根据故障处理动作去执行预案。
9.一种基于NLP大模型的全自动日志分析和故障处理装置,其特征在于,包括一个或多个处理器,用于实现权利要求8所述的一种基于NLP大模型的全自动日志分析和故障处理方法。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时,用于实现权利要求8所述的一种基于NLP大模型的全自动日志分析和故障处理方法。
CN202410099769.7A 2024-01-24 基于nlp大模型的全自动日志分析和故障处理系统和方法 Active CN117608912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410099769.7A CN117608912B (zh) 2024-01-24 基于nlp大模型的全自动日志分析和故障处理系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410099769.7A CN117608912B (zh) 2024-01-24 基于nlp大模型的全自动日志分析和故障处理系统和方法

Publications (2)

Publication Number Publication Date
CN117608912A true CN117608912A (zh) 2024-02-27
CN117608912B CN117608912B (zh) 2024-06-07

Family

ID=

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101219364B1 (ko) * 2012-09-28 2013-01-21 한국보건복지정보개발원 기관 서버와 업무 서버 간의 연계 서비스에 대한 모니터링 방법 및 모니터링 서버, 그 기록매체
US20150294220A1 (en) * 2014-04-11 2015-10-15 Khalid Ragaei Oreif Structuring data around a topical matter and a.i./n.l.p./ machine learning knowledge system that enhances source content by identifying content topics and keywords and integrating associated/related contents
WO2020227429A1 (en) * 2019-05-06 2020-11-12 Strong Force Iot Portfolio 2016, Llc Platform for facilitating development of intelligence in an industrial internet of things system
CN112703457A (zh) * 2018-05-07 2021-04-23 强力物联网投资组合2016有限公司 用于使用工业物联网进行数据收集、学习和机器信号流传输实现分析和维护的方法和系统
CN113094198A (zh) * 2021-04-13 2021-07-09 中国工商银行股份有限公司 一种基于机器学习和文本分类的服务故障定位方法及装置
CN113672456A (zh) * 2021-08-06 2021-11-19 济南浪潮数据技术有限公司 应用平台的模块化自监听方法、系统、终端及存储介质
CN113836044A (zh) * 2021-11-26 2021-12-24 华中科技大学 一种软件故障采集和分析的方法及系统
CN114616560A (zh) * 2019-09-14 2022-06-10 甲骨文国际公司 用于机器学习(ml)的自适应和上下文感知自动化服务组成的技术
CN115495364A (zh) * 2022-09-22 2022-12-20 中国建设银行股份有限公司 系统故障诊断方法、设备、存储介质及程序产品
US20230018199A1 (en) * 2021-07-19 2023-01-19 Kyndryl, Inc. Predictive batch job failure detection and remediation
CN115795038A (zh) * 2023-01-31 2023-03-14 南方电网数字电网研究院有限公司 基于国产化深度学习框架的意图识别方法和装置
CN116127015A (zh) * 2023-01-04 2023-05-16 北京面壁智能科技有限责任公司 基于人工智能自适应的nlp大模型分析系统
CN116361487A (zh) * 2023-04-19 2023-06-30 中电云数智科技有限公司 一种多源异构政策知识图谱构建和存储方法及系统
CN116450384A (zh) * 2022-01-06 2023-07-18 腾讯科技(深圳)有限公司 一种信息处理方法和相关装置
US20230393832A1 (en) * 2022-06-06 2023-12-07 Incentive Marketing Group, Inc. Automated translation of computer languages to extract and deploy computer systems and software
CN117389792A (zh) * 2023-12-13 2024-01-12 之江实验室 一种故障排查方法、装置、存储介质及电子设备

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101219364B1 (ko) * 2012-09-28 2013-01-21 한국보건복지정보개발원 기관 서버와 업무 서버 간의 연계 서비스에 대한 모니터링 방법 및 모니터링 서버, 그 기록매체
US20150294220A1 (en) * 2014-04-11 2015-10-15 Khalid Ragaei Oreif Structuring data around a topical matter and a.i./n.l.p./ machine learning knowledge system that enhances source content by identifying content topics and keywords and integrating associated/related contents
CN112703457A (zh) * 2018-05-07 2021-04-23 强力物联网投资组合2016有限公司 用于使用工业物联网进行数据收集、学习和机器信号流传输实现分析和维护的方法和系统
WO2020227429A1 (en) * 2019-05-06 2020-11-12 Strong Force Iot Portfolio 2016, Llc Platform for facilitating development of intelligence in an industrial internet of things system
CN114616560A (zh) * 2019-09-14 2022-06-10 甲骨文国际公司 用于机器学习(ml)的自适应和上下文感知自动化服务组成的技术
CN113094198A (zh) * 2021-04-13 2021-07-09 中国工商银行股份有限公司 一种基于机器学习和文本分类的服务故障定位方法及装置
US20230018199A1 (en) * 2021-07-19 2023-01-19 Kyndryl, Inc. Predictive batch job failure detection and remediation
CN113672456A (zh) * 2021-08-06 2021-11-19 济南浪潮数据技术有限公司 应用平台的模块化自监听方法、系统、终端及存储介质
CN113836044A (zh) * 2021-11-26 2021-12-24 华中科技大学 一种软件故障采集和分析的方法及系统
CN116450384A (zh) * 2022-01-06 2023-07-18 腾讯科技(深圳)有限公司 一种信息处理方法和相关装置
US20230393832A1 (en) * 2022-06-06 2023-12-07 Incentive Marketing Group, Inc. Automated translation of computer languages to extract and deploy computer systems and software
CN115495364A (zh) * 2022-09-22 2022-12-20 中国建设银行股份有限公司 系统故障诊断方法、设备、存储介质及程序产品
CN116127015A (zh) * 2023-01-04 2023-05-16 北京面壁智能科技有限责任公司 基于人工智能自适应的nlp大模型分析系统
CN115795038A (zh) * 2023-01-31 2023-03-14 南方电网数字电网研究院有限公司 基于国产化深度学习框架的意图识别方法和装置
CN116361487A (zh) * 2023-04-19 2023-06-30 中电云数智科技有限公司 一种多源异构政策知识图谱构建和存储方法及系统
CN117389792A (zh) * 2023-12-13 2024-01-12 之江实验室 一种故障排查方法、装置、存储介质及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SAHABANDU, D; MERTOGUNO, JS AND POOVENDRAN, R: ""A Natural Language Processing Approach for Instruction Set Architecture Identification"", 《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY》, 31 August 2023 (2023-08-31) *
马松波等: ""选煤厂设备健康状态预测维护系统"", 《煤炭加工与综合利用》, no. 12, 31 December 2023 (2023-12-31), pages 46 - 48 *

Similar Documents

Publication Publication Date Title
CN110661659B (zh) 一种告警方法、装置、系统及电子设备
CN113176978B (zh) 基于日志文件的监控方法、系统、设备及可读存储介质
CN110046073B (zh) 一种日志采集方法及装置、设备、存储介质
CN112422344A (zh) 日志异常的告警方法、装置、存储介质及电子装置
CN112416724B (zh) 告警处理方法、系统、计算机设备和存储介质
CN110955550A (zh) 一种云平台故障定位方法、装置、设备及存储介质
CN111611207B (zh) 状态数据处理方法、装置及计算机设备
CN113672456A (zh) 应用平台的模块化自监听方法、系统、终端及存储介质
CN111756560A (zh) 一种数据处理方法、装置及存储介质
CN109284331B (zh) 基于业务数据资源的制证信息获取方法、终端设备及介质
CN111241144B (zh) 一种数据处理方法和系统
CN114666407A (zh) 一种rpa跨端通信方法及设备
CN117608912B (zh) 基于nlp大模型的全自动日志分析和故障处理系统和方法
CN112087320A (zh) 一种异常定位方法、装置、电子设备和可读存储介质
CN117608912A (zh) 基于nlp大模型的全自动日志分析和故障处理系统和方法
CN109992475B (zh) 一种日志的处理方法、服务器及存储介质
CN112131090B (zh) 业务系统性能监控方法及装置、设备及介质
CN115022402A (zh) 一种基于一栈式集成技术的agent采集方法及系统
CN112448840B (zh) 一种通信数据质量监控方法、装置、服务器及存储介质
CN111835566A (zh) 一种系统故障管理方法、装置及系统
CN113037521A (zh) 识别通讯设备状态的方法、通讯系统及存储介质
CN111061609A (zh) 一种日志监控方法及系统
CN111953544B (zh) 一种服务器的故障检测方法、装置、设备及存储介质
CN116433197B (zh) 一种信息上报方法、装置、上报端及存储介质
CN116089243A (zh) 一种地图生产异常定位及处理方法、系统、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant