CN114398200A - 一种系统报错处理方法、装置、电子设备及存储介质 - Google Patents

一种系统报错处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114398200A
CN114398200A CN202210064233.2A CN202210064233A CN114398200A CN 114398200 A CN114398200 A CN 114398200A CN 202210064233 A CN202210064233 A CN 202210064233A CN 114398200 A CN114398200 A CN 114398200A
Authority
CN
China
Prior art keywords
information
error reporting
analysis
error
submodel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210064233.2A
Other languages
English (en)
Inventor
郑国杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202210064233.2A priority Critical patent/CN114398200A/zh
Publication of CN114398200A publication Critical patent/CN114398200A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种系统报错处理方法、装置、电子设备及存储介质。该方法包括:在检测到系统报错的情况下,获取多系统的监测数据,其中,所述监测数据包括交易标识和调用关系信息;基于所述调用关系信息确定故障系统,在所述故障系统中,获取所述交易标识对应的报错信息;将所述报错信息输入至预先训练完成的信息分析模型,得到报错分析信息,其中,所述信息分析模型包括多个分析子模型和融合子模型,所述分析子模型用于预测所述故障系统的报错原因信息,所述融合子模型用于将所述多个分析子模型的输出的报错原因信息进行融合得到所述报错分析信息。采用上述技术方案,通过信息分析模型,实现了的自动分析报错原因,提升了报错处理效率。

Description

一种系统报错处理方法、装置、电子设备及存储介质
技术领域
本发明涉及故障排查技术领域,尤其涉及一种系统报错处理方法、装置、电子设备及存储介质。
背景技术
在各行业数字化转型急速发展的今天,企业内部系统数量逐渐增多,系统分工逐渐细化,系统间调用关系越来越复杂。
现有技术中,一笔业务的全生命周期流程,涉及到的系统一般多达十几个。这些相互调用的系统形成了一个系统群。系统群内,各系统一般由企业内部不同的部门负责开发,每个系统都有自己的数据格式且系统间相互隔离,形成了一个个数据孤岛。
目前,系统群一旦客户在系统群的系统终端发起业务时报错,就需要各系统相关人员进行手动排查报错原因,效率较低。
发明内容
本发明提供了一种系统报错处理方法、装置、电子设备及存储介质,以解决系统报错处理效率的问题,提升报错处理效率。
根据本发明的一方面,提供了一种系统报错处理方法,包括:
在检测到系统报错的情况下,获取多系统的监测数据,其中,所述监测数据包括交易标识和调用关系信息;
基于所述调用关系信息确定故障系统,在所述故障系统中,获取所述交易标识对应的报错信息;
将所述报错信息输入至预先训练完成的信息分析模型,得到报错分析信息,其中,所述信息分析模型包括多个分析子模型和融合子模型,所述分析子模型用于预测所述故障系统的报错原因信息,所述融合子模型用于将所述多个分析子模型的输出的报错原因信息进行融合得到所述报错分析信息。
根据本发明的另一方面,提供了一种系统报错处理装置,包括:
监测数据获取模块,用于执行在检测到系统报错的情况下,获取多系统的监测数据,其中,所述监测数据包括交易标识和调用关系信息;
报错信息获取模块,用于执行基于所述调用关系信息确定故障系统,在所述故障系统中,获取所述交易标识对应的报错信息;
分析模型处理模块,用于执行将所述报错信息输入至预先训练完成的信息分析模型,得到报错分析信息,其中,所述信息分析模型包括多个分析子模型和融合子模型,所述分析子模型用于预测所述故障系统的报错原因信息,所述融合子模型用于将所述多个分析子模型的输出的报错原因信息进行融合得到所述报错分析信息。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的系统报错处理方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的系统报错处理方法。
本发明实施例的技术方案,通过在检测到系统报错的情况下,获取多系统的监测数据,其中,监测数据包括交易标识和调用关系信息,实现了监测数据的准确获取;基于调用关系信息确定故障系统,在故障系统中,获取交易标识对应的报错信息,实现对报错信息的定位获取;将报错信息输入至预先训练完成的信息分析模型,得到报错分析信息,其中,信息分析模型包括多个分析子模型和融合子模型,分析子模型用于预测所述故障系统的报错原因信息,融合子模型用于将多个分析子模型的输出的报错原因信息进行融合得到报错分析信息,实现了自动化分析报错原因,从而解决了目前报错处理效率低的问题,提升了报错处理效率。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种系统报错处理方法的流程图;
图2是根据本发明实施例二提供的一种系统报错处理方法的流程图;
图3是根据本发明实施例三提供的一种系统报错处理方法的流程图;
图4是根据本发明实施例四提供的一种系统报错处理方法的流程图;
图5是根据本发明实施例四提供的一种报错智能分析模型架构示意图;
图6是根据本发明实施例五提供的一种系统报错处理装置的结构示意图;
图7是实现本发明实施例的系统报错处理方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供了一种系统报错处理方法的流程图,本实施例可适用于系统群自动排错的情况,该方法可以由系统报错处理装置来执行,该系统报错处理装置可以采用硬件和/或软件的形式实现,该系统报错处理装置可配置于监控多系统的终端中。如图1所示,该方法包括:
S110、在检测到系统报错的情况下,获取多系统的监测数据,其中,所述监测数据包括交易标识和调用关系信息。
其中,多系统指的可以是包含多个系统的系统群,各系统之间可以相互调用,各系统和各系统间的调用关系信息共同组成系统群。典型的,多系统可以是企业内部系统。监测数据指的可以是监测多系统过程中获取的数据,监测数据可以包括但不限于交易标识和调用关系信息。交易标识指的是每一笔交易发起时生成的唯一标识,该交易标识可以随着交易数据的流转至其他关联系统,通过设置交易标识,可以有效解决跨系统交易识别和系统间数据孤岛问题。调用关系信息指的是各系统间的调用关系链,可以是一种链式结构,通过跟踪调用关系信息,可以快速定位故障系统。可选的,调用关系信息可以是各系统的网关关系。
示例性地,监控多系统的终端可以对各系统进行实时监控,在检测到各系统中发生报错的情况下,触发终端获取多系统的交易标识和调用关系信息,以通过交易标识和调用关系信息进行排错分析,得到报错原因,以实现自动报错处理。
在上述实施例的基础上,所述获取多系统的监测数据,包括:基于预设时间间隔获取多系统的监测数据;或者,基于预设触发事件获取多系统的监测数据。
具体地,在一些实施例中,可以采用轮询模式获取多系统的监测数据,即每隔一定时间间隔轮询终端系统的异常日志表,查询是否有异常记录。在一些实施例中,采用事件触发模式获取多系统的监测数据,即在终端系统嵌入异常监控模块,若发生异常事件,主动触发获取多系统的监测数据,该监测方法可以有效提升报错的响应速度。
S120、基于所述调用关系信息确定故障系统,在所述故障系统中,获取所述交易标识对应的报错信息。
其中,故障系统指的是多系统中发生报错的系统,可以通过调用关系信息确定故障系统,即通过各系统间的调用关系链确定故障系统。报错信息指的是故障系统记录的包含报错内容的信息,可以通过交易标识在故障系统中进行匹配,获取的报错信息,例如,报错信息可以记录在故障系统日志中。
在上述实施例的基础上,所述基于所述调用关系信息确定故障系统,包括:确定所述调用关系信息中的处于调用链式结构链尾的系统;将所述处于调用链式结构链尾的系统确定为故障系统。
其中,调用关系信息中包括但不限于调用系统编号和被调用系统的系统编号,通过调用系统编号和被调用系统的系统编号可以建立各系统的调用链式结构,通过对调用链式结构进行跟踪,可以确定处于调用链式结构链尾的系统,可以将该系统确定为故障系统。
在上述实施例的基础上,所述故障系统包括错误日志;相应的,所述获取所述交易标识对应的报错信息,包括:获取所述故障系统的错误日志;从所述错误日志中提取所述交易标识对应的报错信息。
具体地,可以从故障系统的错误日志中提取交易标识对应的报错信息,其中,错误日志指的可以是记录系统错误的日志表。报错信息可以包括两种类型信息,一类可以是用户提前识别并主动报出的信息,另一类可以是系统抛出的错误栈信息,该两种类型信息都可以记录在错误日志中,便于用户调取。
S130、将所述报错信息输入至预先训练完成的信息分析模型,得到报错分析信息,其中,所述信息分析模型包括多个分析子模型和融合子模型,所述分析子模型用于预测所述故障系统的报错原因信息,所述融合子模型用于将所述多个分析子模型的输出的报错原因信息进行融合得到所述报错分析信息。
其中,信息分析模型可以是用于预测分析报错原因的机器学习模型。信息分析模型可以包括多个分析子模型和融合子模型,分析子模型的数量可以是两个或两个以上,分析子模型可以用于预测故障系统的报错原因信息,融合子模型用于将多个分析子模型的输出的报错原因信息进行融合得到报错分析信息。报错分析信息是融合后的报错原因,具有唯一性。
可以理解的是,信息分析模型可以生成多个报错原因信息,并通过融合子模型对各报错原因信息进行融合,生成唯一的报错分析信息,可以避免单分析模型因性能差异造成预测报错原因准确率较差的情况发生,有效提升预测报错原因准确率。
本发明实施例提供了一种系统报错处理方法,通过在检测到系统报错的情况下,获取多系统的监测数据,其中,监测数据包括交易标识和调用关系信息,实现了监测数据的准确获取;基于调用关系信息确定故障系统,在故障系统中,获取交易标识对应的报错信息,实现对报错信息的定位获取;将报错信息输入至预先训练完成的信息分析模型,得到报错分析信息,其中,信息分析模型包括多个分析子模型和融合子模型,分析子模型用于预测所述故障系统的报错原因信息,融合子模型用于将多个分析子模型的输出的报错原因信息进行融合得到报错分析信息,实现了自动化分析报错原因,从而解决了目前报错处理效率低的问题,提升了报错处理效率。
实施例二
图2为本发明实施例二提供的一种系统报错处理方法的流程图,本发明实施例与上述实施例中各个可选方案可以结合。在本发明实施例中,可选地,所述将所述报错信息输入至预先训练完成的信息分析模型,得到报错分析信息,包括:将所述报错信息进行分词处理,得到报错分词信息;对所述报错分词信息进行清洗,得到报错清理信息;将所述报错清理信息进行特征提取,并将提取后的特征信息分别输入至各分析子模型,得到所述各分析子模型对应的报错原因信息;通过所述融合子模型将所述各分析子模型输出的报错原因信息进行融合,得到报错分析信息。
如图2所示,该方法包括:
S210、在检测到系统报错的情况下,获取多系统的监测数据,其中,所述监测数据包括交易标识和调用关系信息。
S220、基于所述调用关系信息确定故障系统,在所述故障系统中,获取所述交易标识对应的报错信息。
S230、将所述报错信息进行分词处理,得到报错分词信息。
其中,分词处理指的是对报错信息进行以词为单位进行分割,得到多个报错分词信息。分词处理的具体方法可以包括基于词典的分词算法和基于统计的分词算法,在本发明实施例中,对分词处理的方法不做限定,例如,可以调用j ieba分词库进行分词处理。
S240、对所述报错分词信息进行清洗,得到报错清理信息。
具体地,对报错分词信息进行清洗,可以去掉虚词等无用词汇,只保留与报错相关联的关键词汇,即报错清理信息可以是清洗干净的多个报错关键词汇。清洗方法具体可以是通过建立关键词语列表,将报错分词信息与关键词语列表进行对比,将报错分词信息中与关键词语列表相同的词语进行剔除,使得到的报错清理信息更加可靠。
S250、将所述报错清理信息进行特征提取,并将提取后的特征信息分别输入至各分析子模型,得到所述各分析子模型对应的报错原因信息。
需要说明的是,特征提取方法的数量与分析子模型数量相同,也是多个,各特征提取方法与各分析子模型可以随机配合使用,也可以固定配合使用,本实施例对此不做限定。在本发明实施例中,将提取后的特征信息分别输入至各分析子模型,可以得到各分析子模型对应的报错原因信息,即得到多个报错原因信息,可以避免单分析模型因性能差异造成预测报错原因准确率较差的情况发生,有效提升预测报错原因准确率。
在上述实施例的基础上,所述分析子模型包括至少两种类型的模型;相应的,所述将所述报错清理信息进行特征提取,并将提取后的特征信息分别输入至各分析子模型,得到所述各分析子模型对应的报错原因信息,包括:基于所述报错清理信息中各关键词的频次信息进行权值计算,得到各所述关键词对应的权值信息,根据各所述关键词对应的权值信息构建第一特征向量,并将所述第一特征向量输入至第一分析子模型,得到所述第一分析子模型对应的报错原因信息;基于所述报错清理信息中各关键词的上下文信息进行向量转换,得到第二特征向量,并将所述第二特征向量输入至第二分析子模型,得到所述第二分析子模型对应的报错原因信息;对所述报错清理信息中各关键词进行编码,得到报错编码信息,基于词袋模型对所述报错编码信息进行特征提取,得到第三特征向量,并将所述第三特征向量输入至第三分析子模型,得到所述第三分析子模型对应的报错原因信息。
其中,分析子模型可以包括多种类型的模型,不同类型的模型对应不同的预测策略,从而使信息分析模型可以获取多种报错原因信息进行融合,提高预测结果的可靠性和准确性。
在本发明实施例中,典型的,分析子模型的数量可以包括三个,分别为第一分析子模型、第二分析子模型和第三分析子模型,各分析子模型的类型各不相同。第一分析子模型的输入为第一特征向量,第一特征向量可以先通过计算报错清理信息中各关键词的频次信息的权值,再根据各关键词对应的权值构建得到。第二分析子模型的输入为第二特征向量,第二特征向量可以根据报错清理信息中各关键词的上下文信息进行向量转换得到。第三分析子模型的输入为第三特征向量,第三特征向量可以先对报错清理信息中各关键词进行编码,再根据词袋模型对报错编码信息进行特征提取得到。
S260、通过所述融合子模型将所述各分析子模型输出的报错原因信息进行融合,得到报错分析信息。
示例性地,报错分析信息可以是多个报错原因信息融合的结果,报错原因信息可以包括第一报错原因、第二报错原因和第三报错原因,将三种报错原因输入至融合子模型,对各报错原因进行加权或投票等操作,得到唯一的报错分析信息,可以有效提升报错分析信息的准确性。
本发明实施例提供了一种系统报错处理方法,通过将报错信息进行分词处理,得到报错分词信息,对报错分词信息进行清洗,得到报错清理信息,使得到的报错清理信息更加干净、可靠。进一步地,将报错清理信息进行特征提取,并将提取后的特征信息分别输入至各分析子模型,得到各分析子模型对应的报错原因信息,并通过融合子模型将各分析子模型输出的报错原因信息进行融合,实现了多种报错原因信息的比对分析,得到更加准确的报错分析信息,并且通过各分析子模型和融合子模型实现了自动化分析报错原因,从而解决了目前报错处理效率低的问题,提升了报错处理效率。
实施例三
图3为本发明实施例三提供的一种系统报错处理方法的流程图,本发明实施例与上述实施例中各个可选方案可以结合。在本发明实施例中,可选地,在将所述报错信息输入至预先训练完成的信息分析模型,得到报错分析信息之后,所述方法还包括:将所述报错分析信息发送至目标终端,其中,所述目标终端为所述故障系统对应的负责人员所使用设备。
如图3所示,该方法包括:
S310、在检测到系统报错的情况下,获取多系统的监测数据,其中,所述监测数据包括交易标识和调用关系信息。
S320、基于所述调用关系信息确定故障系统,在所述故障系统中,获取所述交易标识对应的报错信息。
S330、将所述报错信息输入至预先训练完成的信息分析模型,得到报错分析信息。
S340、将所述报错分析信息发送至目标终端,其中,所述目标终端为所述故障系统对应的负责人员所使用设备。
在本发明实施例中,目标终端可以是故障系统对应的负责人员所使用的设备,可以包括但不限于手机、电脑等可进行通讯的设备。
示例性地,可通过微信、短信、或者邮件的方式将报错分析信息发送至目标终端,可以提升系统报错的响应速度,降低系统报错导致的经济损失,提升用户体验。
本发明实施例提供了一种系统报错处理方法,通过将报错信息输入至预先训练完成的信息分析模型,得到报错分析信息,实现自动分析报错原因,并将分析得到的报错分析信息发送至故障系统对应的负责人员所使用设备,可以提升系统报错的响应速度,降低系统报错导致的经济损失,提升用户体验。
实施例四
图4为本发明实施例四提供的一种系统报错处理方法的流程图,本实施例为上述实施例的优选示例。需要说明的是,本实施例中的系统群唯一标识为上述实施例中的交易标识,调用链、信息头和信息体为上述实施例中的调用关系信息,报错系统为上述实施例中的故障系统,报错原因为上述实施例中的报错分析信息,多模型融合的机器学习算法为上述实施例中的信息分析模型。
如图4所示,该方法包括:
第一步:终端系统报错。
其中,终端系统指的是监控系统群的终端系统。终端系统和客户可以直接交互,是一笔交易发起的入口,如果报错,终端系统可以作为错误排查的起点。
第二步:触发自动处理程序。
本实施例中,对终端系统的监控采用实时监控,主动触发模式。主动触发模式包括但不限于有侵入式和非侵入时两种方案。对于非侵入式方案,采用轮询模式,每隔一定时间间隔,轮询异常日志表,查询是否有异常记录。对于侵入式方案,采用事件触发模式,在终端系统嵌入异常监控模块,一旦发生异常,主动触发排错处理。
第四步:获取交易标识。
第五步:定位单笔报错业务日志。
第六步:分析日志头信息。
第七步:判断是否是本系统报错。
在系统群中,系统间的相互调用,形成了复杂的调用网络。终端系统报错可能是由任何的关联系统引起。系统报错分为两类:一类是系统间调用时,由被调用系统引发的报错。另一类是系统内部引发的报错。为了便于报错系统排查,本实施例规定系统间调用时报错信息的格式。报错信息由信息头和信息体两部分组成。信息头中包括调用系统的系统编号,被调用系统的系统编号,系统群唯一标识三部分;消息体中则包含报错信息的内容。根据调用关系,系统间报错形成了链式结构。跟踪调用链,则可以快速定位到报错系统(处于链尾的系统就是报错系统)。
第八步:获取交易标识。
本实施例中,定位到报错系统后,通过交易标识定位报错的单笔交易。
具体地,企业内不同系统由不同部门负责,每个系统之间相互隔离,分别有一套自己的日志记录方式,各个系统的数据形成了一个个数据孤岛。为了打通数据孤岛,本发明提出了系统群唯一标识。每笔交易在终端发起时,生成一个唯一的标识号,并流转至关联系统,作为交易在系统群内的唯一标识,实现跨系统交易的识别。系统群唯一标识,可以在不改变每个系统数据记录模式的前提下,打通系统间的数据孤岛。通过系统群唯一标识,在报错系统内唯一定位报错交易。
第九步:获取日志体内容。
具体地,定位到报错系统和对应的报错交易后,从系统的错误日志表中,提取报错的详细信息。报错信息分为两类,一类是开发人员提前识别并主动报出的信息,一类系统抛出的错误栈信息。
第十步:报错内容智能分析。
具体地,如图5所示,首先将报错信息进行分词处理,去掉虚词等无用词汇,只保留关键词汇。然后分别采用TF-IDF,word2vec,oneHot编码三种方式取特征,分别训练XGboost模型,LightGBM模型和CatBoost模型,最后使用stacking集成算法,将三种模型的结果进行集成。相比于单模型算法,基于多模型融合的算法可以有效提高算法的准确率和泛化性能。
第十一步:获取报错原因。
第十二步:通知系统负责人。
具体地,基于消息发送模块,通过手机、邮件等及时通知相关系统负责人和相关联系人。
本发明实施例提供的一种系统报错处理方法,相比原始的人工排错,本实施例实现了由客户反馈报错到系统主动发现报错,由跨部门系统人工排查到系统链式自动定位,由专业人员分析报错原因到智能化原因分析,增强了系统报错响应能力,做到主动监控,及时响应,自动定位,智能分析,及时通知,提升了用户体验。
实施例五
图6为本发明实施例五提供的一种系统报错处理装置的结构示意图。
如图6所示,该装置包括:
监测数据获取模块510,用于执行在检测到系统报错的情况下,获取多系统的监测数据,其中,所述监测数据包括交易标识和调用关系信息;
报错信息获取模块520,用于执行基于所述调用关系信息确定故障系统,在所述故障系统中,获取所述交易标识对应的报错信息;
分析模型处理模块530,用于执行将所述报错信息输入至预先训练完成的信息分析模型,得到报错分析信息,其中,所述信息分析模型包括多个分析子模型和融合子模型,所述分析子模型用于预测所述故障系统的报错原因信息,所述融合子模型用于将所述多个分析子模型的输出的报错原因信息进行融合得到所述报错分析信息。
本发明实施例提供了一种系统报错处理装置,通过在检测到系统报错的情况下,获取多系统的监测数据,其中,监测数据包括交易标识和调用关系信息,实现了监测数据的准确获取;基于调用关系信息确定故障系统,在故障系统中,获取交易标识对应的报错信息,实现对报错信息的定位获取;将报错信息输入至预先训练完成的信息分析模型,得到报错分析信息,其中,信息分析模型包括多个分析子模型和融合子模型,分析子模型用于预测所述故障系统的报错原因信息,融合子模型用于将多个分析子模型的输出的报错原因信息进行融合得到报错分析信息,实现了自动化分析报错原因,从而解决了目前报错处理效率低的问题,提升了报错处理效率。
在本发明实施例中任一可选技术方案的基础上,可选地,所述监测数据获取模块510,还可以用于:
基于预设时间间隔获取多系统的监测数据;或者,
基于预设触发事件获取多系统的监测数据。
在本发明实施例中任一可选技术方案的基础上,可选地,所述报错信息获取模块520,还可以用于:
确定所述调用关系信息中的处于调用链式结构链尾的系统;将所述处于调用链式结构链尾的系统确定为故障系统。
在本发明实施例中任一可选技术方案的基础上,可选地,所述故障系统包括错误日志;相应的,所述报错信息获取模块520,还可以用于:
获取所述故障系统的错误日志;
从所述错误日志中提取所述交易标识对应的报错信息。
在本发明实施例中任一可选技术方案的基础上,可选地,所述分析模型处理模块530,包括:
分词处理单元,用于执行将所述报错信息进行分词处理,得到报错分词信息;
信息清洗单元,用于执行对所述报错分词信息进行清洗,得到报错清理信息;
报错分析单元,用于执行将所述报错清理信息进行特征提取,并将提取后的特征信息分别输入至各分析子模型,得到所述各分析子模型对应的报错原因信息;
信息融合单元,用于执行通过所述融合子模型将所述各分析子模型输出的报错原因信息进行融合,得到报错分析信息。
在本发明实施例中任一可选技术方案的基础上,可选地,所述报错分析单元还可以用于:
基于所述报错清理信息中各关键词的频次信息进行权值计算,得到各所述关键词对应的权值信息,根据各所述关键词对应的权值信息构建第一特征向量,并将所述第一特征向量输入至第一分析子模型,得到所述第一分析子模型对应的报错原因信息;
基于所述报错清理信息中各关键词的上下文信息进行向量转换,得到第二特征向量,并将所述第二特征向量输入至第二分析子模型,得到所述第二分析子模型对应的报错原因信息;
对所述报错清理信息中各关键词进行编码,得到报错编码信息,基于词袋模型对所述报错编码信息进行特征提取,得到第三特征向量,并将所述第三特征向量输入至第三分析子模型,得到所述第三分析子模型对应的报错原因信息。
在本发明实施例中任一可选技术方案的基础上,可选地,所述装置还包括:
信息发送模块,用于执行将所述报错分析信息发送至目标终端,其中,所述目标终端为所述故障系统对应的负责人员所使用设备。
本发明实施例所提供的系统报错处理装置可执行本发明任意实施例所提供的系统报错处理方法,具备执行方法相应的功能模块和有益效果。
实施例六
图7示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图7所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如系统报错处理方法。
在一些实施例中,系统报错处理方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的方法XXX的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行系统报错处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
实施例七
本发明实施例七还提供一种包含计算机可读存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种系统报错处理方法,该方法包括:
在检测到系统报错的情况下,获取多系统的监测数据,其中,所述监测数据包括交易标识和调用关系信息;
基于所述调用关系信息确定故障系统,在所述故障系统中,获取所述交易标识对应的报错信息;
将所述报错信息输入至预先训练完成的信息分析模型,得到报错分析信息,其中,所述信息分析模型包括多个分析子模型和融合子模型,所述分析子模型用于预测所述故障系统的报错原因信息,所述融合子模型用于将所述多个分析子模型的输出的报错原因信息进行融合得到所述报错分析信息。
本发明实施例的计算机可读存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种系统报错处理方法,其特征在于,包括:
在检测到系统报错的情况下,获取多系统的监测数据,其中,所述监测数据包括交易标识和调用关系信息;
基于所述调用关系信息确定故障系统,在所述故障系统中,获取所述交易标识对应的报错信息;
将所述报错信息输入至预先训练完成的信息分析模型,得到报错分析信息,其中,所述信息分析模型包括多个分析子模型和融合子模型,所述分析子模型用于预测所述故障系统的报错原因信息,所述融合子模型用于将所述多个分析子模型的输出的报错原因信息进行融合得到所述报错分析信息。
2.根据权利要求1所述的方法,其特征在于,所述获取多系统的监测数据,包括:
基于预设时间间隔获取多系统的监测数据;或者,
基于预设触发事件获取多系统的监测数据。
3.根据权利要求1所述的方法,其特征在于,所述基于所述调用关系信息确定故障系统,包括:
确定所述调用关系信息中的处于调用链式结构链尾的系统;
将所述处于调用链式结构链尾的系统确定为故障系统。
4.根据权利要求1所述的方法,其特征在于,所述故障系统包括错误日志;
相应的,所述获取所述交易标识对应的报错信息,包括:
获取所述故障系统的错误日志;
从所述错误日志中提取所述交易标识对应的报错信息。
5.根据权利要求1所述的方法,其特征在于,所述将所述报错信息输入至预先训练完成的信息分析模型,得到报错分析信息,包括:
将所述报错信息进行分词处理,得到报错分词信息;
对所述报错分词信息进行清洗,得到报错清理信息;
将所述报错清理信息进行特征提取,并将提取后的特征信息分别输入至各分析子模型,得到所述各分析子模型对应的报错原因信息;
通过所述融合子模型将所述各分析子模型输出的报错原因信息进行融合,得到报错分析信息。
6.根据权利要求5所述的方法,其特征在于,所述分析子模型包括至少两种类型的模型;
相应的,所述将所述报错清理信息进行特征提取,并将提取后的特征信息分别输入至各分析子模型,得到所述各分析子模型对应的报错原因信息,包括:
基于所述报错清理信息中各关键词的频次信息进行权值计算,得到各所述关键词对应的权值信息,根据各所述关键词对应的权值信息构建第一特征向量,并将所述第一特征向量输入至第一分析子模型,得到所述第一分析子模型对应的报错原因信息;
基于所述报错清理信息中各关键词的上下文信息进行向量转换,得到第二特征向量,并将所述第二特征向量输入至第二分析子模型,得到所述第二分析子模型对应的报错原因信息;
对所述报错清理信息中各关键词进行编码,得到报错编码信息,基于词袋模型对所述报错编码信息进行特征提取,得到第三特征向量,并将所述第三特征向量输入至第三分析子模型,得到所述第三分析子模型对应的报错原因信息。
7.根据权利要求1所述的方法,其特征在于,在将所述报错信息输入至预先训练完成的信息分析模型,得到报错分析信息之后,所述方法还包括:
将所述报错分析信息发送至目标终端,其中,所述目标终端为所述故障系统对应的负责人员所使用设备。
8.一种系统报错处理装置,其特征在于,包括:
监测数据获取模块,用于执行在检测到系统报错的情况下,获取多系统的监测数据,其中,所述监测数据包括交易标识和调用关系信息;
报错信息获取模块,用于执行基于所述调用关系信息确定故障系统,在所述故障系统中,获取所述交易标识对应的报错信息;
分析模型处理模块,用于执行将所述报错信息输入至预先训练完成的信息分析模型,得到报错分析信息,其中,所述信息分析模型包括多个分析子模型和融合子模型,所述分析子模型用于预测所述故障系统的报错原因信息,所述融合子模型用于将所述多个分析子模型的输出的报错原因信息进行融合得到所述报错分析信息。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的系统报错处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的系统报错处理方法。
CN202210064233.2A 2022-01-20 2022-01-20 一种系统报错处理方法、装置、电子设备及存储介质 Pending CN114398200A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210064233.2A CN114398200A (zh) 2022-01-20 2022-01-20 一种系统报错处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210064233.2A CN114398200A (zh) 2022-01-20 2022-01-20 一种系统报错处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114398200A true CN114398200A (zh) 2022-04-26

Family

ID=81232840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210064233.2A Pending CN114398200A (zh) 2022-01-20 2022-01-20 一种系统报错处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114398200A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115102845A (zh) * 2022-06-23 2022-09-23 中国民航信息网络股份有限公司 一种api网关故障定位方法、装置、系统和介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115102845A (zh) * 2022-06-23 2022-09-23 中国民航信息网络股份有限公司 一种api网关故障定位方法、装置、系统和介质

Similar Documents

Publication Publication Date Title
CN104584483B (zh) 用于自动确定服务质量降级的原因的方法和设备
CN116049146B (zh) 一种数据库故障处理方法、装置、设备及存储介质
CN112087334A (zh) 告警根因分析方法、电子设备和存储介质
CN115529595A (zh) 一种日志数据的异常检测方法、装置、设备及介质
CN114398200A (zh) 一种系统报错处理方法、装置、电子设备及存储介质
CN116010220A (zh) 一种告警诊断方法、装置、设备及存储介质
CN112530074A (zh) 排队叫号提醒方法、装置、设备及存储介质
CN116226644A (zh) 设备故障类型的确定方法、装置、电子设备及存储介质
CN110647086B (zh) 一种基于运行大数据分析的智能运维监控系统
CN115687406B (zh) 一种调用链数据的采样方法、装置、设备及存储介质
CN115906135A (zh) 目标数据泄露路径的溯源方法、装置、电子设备和存储介质
CN114881112A (zh) 一种系统异常检测方法、装置、设备及介质
CN115629903A (zh) 任务延迟监控方法、装置、设备及存储介质
CN117289143B (zh) 一种故障预测方法、装置、设备、系统和介质
CN116991620B (zh) 一种解决方案确定方法、装置、设备及介质
CN116991683B (zh) 一种告警信息处理方法、装置、设备及介质
CN117763091A (zh) 一种基于权重修正的设备故障检测方法及相关组件
CN118074625A (zh) 设备故障检测方法、装置、设备及存储介质
CN117389828A (zh) 供电服务器管理方法、装置、系统、设备以及存储介质
CN116567115A (zh) 一种报文检测方法、装置、电子设备及介质
CN117076239A (zh) 一种运维数据异常检测方法、装置、电子设备及存储介质
CN115604149A (zh) 云原生应用的健康探测方法、装置、电子设备及存储介质
CN116401132A (zh) 一种日志排查方法、装置、设备以及存储介质
CN115640202A (zh) 一种服务程序的性能检测方法、装置及存储介质
CN117667587A (zh) 一种异常检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination