CN118210648A - 一种系统运行异常的问题定位方法、装置、电子设备、存储介质 - Google Patents

一种系统运行异常的问题定位方法、装置、电子设备、存储介质 Download PDF

Info

Publication number
CN118210648A
CN118210648A CN202410407337.8A CN202410407337A CN118210648A CN 118210648 A CN118210648 A CN 118210648A CN 202410407337 A CN202410407337 A CN 202410407337A CN 118210648 A CN118210648 A CN 118210648A
Authority
CN
China
Prior art keywords
abnormal
target
information
abnormality
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410407337.8A
Other languages
English (en)
Inventor
秦杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AlipayCom Co ltd
Original Assignee
AlipayCom Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AlipayCom Co ltd filed Critical AlipayCom Co ltd
Priority to CN202410407337.8A priority Critical patent/CN118210648A/zh
Publication of CN118210648A publication Critical patent/CN118210648A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本说明书实施例公开了一种系统运行异常的问题定位方法、装置、电子设备、存储介质。所述方法包括:响应于目标系统运行异常,获取所述目标系统的错误堆栈,并生成相应的目标错误码;其中,所述错误码用于表征所述目标系统发生异常的位置信息和描述信息;获取所述目标系统发生异常的异常运行路径,并根据所述目标错误码和所述异常运行路径生成模型输入信息;将所述模型输入信息输入预先训练得到的异常分析模型,以使所述异常分析模型输出所述目标系统运行异常对应的目标异常问题。

Description

一种系统运行异常的问题定位方法、装置、电子设备、存储 介质
技术领域
本说明书的一个或多个实施例涉及软件异常检测技术领域,具体涉及一种系统运行异常的问题定位方法、装置、电子设备、存储介质。
背景技术
软件系统在运行时可能由于各种原因出现运行异常的情况。由于系统内部逻辑复杂,且在实际情况中系统往往存在多个关联的上游或下游系统,这使得当平台系统出现运行异常的情况时,异常问题的快速定位难度较大。
相关技术中,通过错误堆栈异常检测手段实现异常问题定位。该方式通过提取程序错误堆栈的日志文本,并为日志文本中记录的异常问题的描述信息配置过滤筛选条件,使得在描述信息命中筛选条件的情况下,触发异常告警。然而对于异常量级较大的软件系统,该方式难以针对每类异常问题配置恰当的筛选条件或者告警阈值,且对于首次出现的异常问题容易被淹没。此外,由于软件系统的上游和下游系统众多,反馈至软件系统的异常信息容易受上下游关联系统影响,异常信息形态多样,难以直观定位异常的根本原因。
发明内容
本说明书实施例提供了一种系统运行异常的问题定位方法、装置、电子设备、存储介质,其技术方案如下:
第一方面,本说明书实施例提供了一种系统运行异常的问题定位方法,包括:
响应于目标系统运行异常,获取所述目标系统的错误堆栈,并生成相应的目标错误码;其中,所述错误码用于表征所述目标系统发生异常的位置信息和描述信息;
获取所述目标系统发生异常的异常运行路径,并根据所述目标错误码和所述异常运行路径生成模型输入信息;
将所述模型输入信息输入预先训练得到的异常分析模型,以使所述异常分析模型输出所述目标系统运行异常对应的目标异常问题。
第二方面,本说明书实施例提供了一种异常分析模型的训练方法,包括:
获取预先设置的多个异常问题,并以所述多个异常问题作为待训练的聚类分析模型的初始聚类中心;
将训练样本集输入至所述聚类分析模型进行训练,直至所述聚类分析模型用于对系统运行的异常进行分析;其中,所述训练样本集中的每一训练样本包括根据系统运行异常对应的错误码和异常运行路径而生成的模型输入信息。
第三方面,本说明书实施例提供了一种异常等级分析模型的训练方法,包括:
获取训练样本集,所述训练样本集中的每一训练样本包括异常问题和相应的真实异常等级;
将所述训练样本集输入待训练模型,以使所述待训练模型输出异常问题对应的预测异常等级;
对比所述真实异常等级和所述预测异常等级,并根据对比结果对所述待训练模型进行优化,直至所述待训练模型用于对异常问题的异常等级进行分析。
第四方面,本说明书实施例提供了一种系统运行异常的问题定位装置,包括:
第一获取单元:响应于目标系统运行异常,获取所述目标系统的错误堆栈,并生成相应的目标错误码;其中,所述错误码用于表征所述目标系统发生异常的位置信息和描述信息;
第二获取单元:所述目标系统发生异常的异常运行路径,并根据所述目标错误码和所述异常运行路径生成模型输入信息;
分析单元:将所述模型输入信息输入预先训练得到的异常分析模型,以使所述异常分析模型输出所述目标系统运行异常对应的目标异常问题。
第五方面,本说明书实施例提供了一种异常分析模型的训练装置,包括:
获取单元:获取预先设置的多个异常问题,并以所述多个异常问题作为待训练的聚类分析模型的初始聚类中心;
输入单元:将训练样本集输入至所述聚类分析模型进行训练,直至所述聚类分析模型用于对系统运行的异常进行分析;其中,所述训练样本集中的每一训练样本包括根据系统运行异常对应的错误码和异常运行路径而生成的模型输入信息。
第六方面,本说明书实施例提供了一种异常等级分析模型的训练装置,包括:
获取单元:获取训练样本集,所述训练样本集中的每一训练样本包括异常问题和相应的真实异常等级;
输入单元:将所述训练样本集输入待训练模型,以使所述待训练模型输出异常问题对应的预测异常等级;
优化单元:对比所述真实异常等级和所述预测异常等级,并根据对比结果对所述待训练模型进行优化,直至所述待训练模型用于对异常问题的异常等级进行分析。
第七方面,本说明书实施例提供了一种电子设备,包括处理器以及存储器;所述处理器与所述存储器相连;所述存储器,用于存储可执行程序代码;所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行上述实施例第一方面或第二方面或第三方面所述的系统运行异常的问题定位方法的步骤。
第八方面,本说明书实施例提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述实施例第一方面或第二方面或第三方面所述的系统运行异常的问题定位方法的步骤。
本说明书一些实施例提供的技术方案带来的有益效果至少包括:
一方面,使用错误码的方式来整合异常信息,使得原本离散的形态各异的异常信息标准化、结构化,避免上下游关联系统对异常问题定位的干扰;另一方面,通过预先训练的异常分析模型来确定系统运行异常对应的异常问题,取代设置筛选条件或者告警阈值的方式,不仅可以防止首次出现的异常问题被淹没,还可以提升异常问题定位的准确率和效率。
附图说明
为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书实施例提供的一种上下游系统的示意图。
图2是本说明书实施例提供的一种系统运行异常的问题定位系统的架构图。
图3是本说明书实施例提供的一种系统运行异常的问题定位方法的流程示意图。
图4是本说明书实施例提供的一种异常分析模型的训练方法的流程示意图。
图5是本说明书实施例提供的一种异常等级分析模型的训练方法的流程示意图。
图6是本说明书实施例提供的一种系统运行异常的问题定位装置的框图。
图7是本说明书实施例提供的一种异常分析模型的训练装置的框图。
图8是本说明书实施例提供的一种异常等级分析模型的训练装置的框图。
图9为本说明书实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述。
本说明书中的说明书和权利要求书及上述附图中的术语“第一”、“第二”、等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”以及它的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面结合一个或多个实施例对系统运行异常的问题定位方法进行详细阐述。
软件系统在运行时可能由于各种原因出现运行异常的情况。由于系统内部逻辑复杂,且在实际情况中系统往往存在多个关联的上游或下游系统,这使得当平台系统出现运行异常的情况时,异常问题的快速定位难度较大。
相关技术中,通过错误堆栈异常检测手段实现异常问题定位。该方式通过提取程序错误堆栈的日志文本,并为日志文本中记录的异常问题的描述信息配置过滤筛选条件,使得在描述信息命中筛选条件的情况下,触发异常告警。然而对于异常量级较大的软件系统,该方式难以针对每类异常问题配置恰当的筛选条件或者告警阈值,且对于首次出现的异常问题容易被淹没。
此外,由于软件系统的上游和下游系统众多,反馈至软件系统的异常信息容易受上下游关联系统影响,异常信息形态多样,难以直观定位异常的根本原因。如图1所示,目标系统11存在3个关联的下游系统,分别为下游系统12、下游系统13以及下游系统14。其中,目标系统11可以为支付服务系统,下游系统12和下游系统13可以为不同支付渠道对应的扣费系统,下游系统14可以为发票系统。在正常运行过程中,用户可以根据支付流程进行支付,例如:在目标系统11处选择相应的支付渠道,目标系统11与选中的支付渠道对应的扣费系统对接并实现扣费服务,相应的扣费系统可以将扣费结果返回至目标系统11。接着,目标系统11可以按照用户的指示对接下游系统14实现开发票服务。在上述过程中,由于下游系统13和下游系统14均为扣费系统,所以当系统出现异常时反馈至目标系统11的异常信息也类似,此时目标系统11难以定位异常问题出现在哪个扣费系统。而下游系统14为区别于另外两个下游系统的发票系统,反馈至目标系统11的异常信息与下游系统13的格式可能存在较大差异,此时目标系统11对于异常信息的识别难度较大,需要为不同形态的异常信息设置标准。
为解决相关技术中存在的问题,本说明书提出了一种系统运行异常的问题定位方法、装置、电子设备、存储介质。
下面结合图2对该问题定位方法所涉及的架构进行详细介绍。请参阅图2,图2示出了本说明书实施例提供的一种系统运行异常的问题定位系统的架构图,如图2所示,该系统可以包含信息整合模块21、分析模块22。
该信息整合模块21用于获取关于系统运行异常的各类信息,并整合获取到的信息生成标准化的模型输入信息。分析模块22用于根据信息整合模块21生成的模型输入信息分析运行异常对于的具体异常问题。
信息整合模块21和分析模块22可以部署在服务器上,服务器可以为包含一独立主机的物理服务器,或者该服务器可以为主机集群承载的虚拟服务器。两个模块可以部署于同一服务器,也可以部署于不同服务器。类似的,部署有这两个模块的服务器上可以运行有出现异常的软件系统的部分或者全部应用程序,本说明书并不对此进行限制。
上述系统运行异常的问题定位系统,一方面,使用错误码的方式来整合异常信息,使得原本离散的形态各异的异常信息标准化、结构化,避免上下游关联系统对异常问题定位的干扰;另一方面,通过预先训练的异常分析模型来确定系统运行异常对应的异常问题,取代设置筛选条件或者告警阈值的方式,不仅可以防止首次出现的异常问题被淹没,还可以提升异常问题定位的准确率和效率。
请参阅图3,图3示出了本说明书实施例提供的一种系统运行异常的问题定位方法的流程示意图,如图3所示,该系统运行异常的问题定位方法至少可以包括以下步骤:
步骤302、响应于目标系统运行异常,获取所述目标系统的错误堆栈,并生成相应的目标错误码;其中,所述错误码用于表征所述目标系统发生异常的位置信息和描述信息。
目标系统可以为任一软件系统,例如可以为支付系统、预约系统等等。该软件系统可以存在关联的上游系统和下游系统,以支付流程为例:支付流程中存在用户授权、选择支付渠道、扣费、开发票等步骤,相对应的授权系统、扣费系统为发票系统的上游系统,扣费系统为发票系统的下游系统。
错误堆栈(Error Stack)是编程中用来追踪错误来源的一种数据结构。在程序运行过程中,如果遇到错误或者异常,错误堆栈会记录下发生错误的位置信息,这样可以帮助开发者找到并修复错误。错误堆栈中的每一条记录可以包含错误类型(表明是哪种错误或者异常)、错误消息(描述错误的详细信息)、错误发生的位置(包括模块名称、文件名称、行号、函数名等,表明错误发生的具体位置)。
在该实施例中,错误堆栈可以以错误码的形式存储于目标系统的日志模块中。错误码为软件开发人员针对系统异常而预先设置的标准化标识。错误码可以包含错误枚举,该错误枚举与目标系统内部各个模块相对应,可以用于表征目标系统发生异常的位置信息。例如:支付系统中存在多个支付渠道对应的扣费模块,渠道A扣费模块对应的错误枚举可以为“01”,渠道B扣费模块对应的错误枚举可以为“02”,以此类推。错误码中还可以包含错误的描述信息,例如:余额不足导致扣费失败对应的描述信息可以为“ERROR1”,未得到用户授权导致扣费失败对应的描述信息可以为“ERROR2”。
值得注意的是,错误码中并不存在业务单号、用户ID、日期等不可数字段,因为此类字段的取值类型膨胀、不收敛,所以不将此类字段添加至标准化的错误码中可以降低错误码识别和异常分析的难度。
步骤304、获取所述目标系统发生异常的异常运行路径,并根据所述目标错误码和所述异常运行路径生成模型输入信息。
异常运行路径与软件系统的运行流程相关。如前所述,支付流程中存在用户授权、选择支付渠道、扣费、开发票等步骤,其中,用户可能为初次登录,需要授权操作,也可能不是初次登录,默认授权,由此运行路径产生多条分支,即多条运行路径。异常运行路径可以记录异常所在的运行路径为哪一条,发生异常的步骤为哪一步。
所述根据所述目标错误码和所述运行路径生成模型输入信息,包括:根据所述异常运行路径确定业务特征描述信息和资产特征描述信息;其中,所述业务特征描述信息用于表征所述目标系统运行异常对应的异常业务的描述信息,所述资产特征描述信息用于表征所述目标系统运行异常对应的异常资产工具的描述信息;将所述业务特征描述信息和资产特征描述信息作为所述目标错误码的索引值,并将以此组成的映射作为所述异常分析模型的模型输入信息。
如前所述,异常运行路径可以用于描述异常发生所在的系统运行路径和运行步骤,该异常运行路径也可以用于提取业务信息。例如:在支付流程中,用户选择的支付渠道可以记录于异常运行路径中,而不同运行渠道对应不同的支付工具,比如业务特征描述信息可以为“担保交易业务”,资产特征描述信息可以为“支付工具A”。不同的业务或者不同的资产工具对应的异常问题可能不同,例如支付业务存在扣费失败等问题在预约业务中不会出现,银行卡扣费渠道存在的余额不足问题在贷款支付渠道不会出现。业务特征描述信息和资产特征描述信息可以对异常分析模块分析异常问题提供帮助。
以业务特征描述信息和资产特征描述信息为索引值,和错误码生成的映射可以为异常关联关系数组,例如“担保交易业务-支付工具A-01ERROR1”,其中,“01ERROR1”是指异常发生的位置为支付渠道A对应的扣费模块,且问题为账户余额不足。
步骤306、将所述模型输入信息输入预先训练得到的异常分析模型,以使所述异常分析模型输出所述目标系统运行异常对应的目标异常问题。
异常分析模块可以为基于机器学习技术的分析模型,例如可以为K-means聚类分析模型。该异常分析模型可以基于模型输入信息分析出相匹配的异常问题,并将异常问题输出。模型输出的可以为异常问题本身,也可以为与异常问题相对应的标识或者描述信息,本说明书并不对此进行限制。
在该实施例中,一方面,使用错误码的方式来整合异常信息,使得原本离散的形态各异的异常信息标准化、结构化,避免上下游关联系统对异常问题定位的干扰;另一方面,通过预先训练的异常分析模型来确定系统运行异常对应的异常问题,取代设置筛选条件或者告警阈值的方式,不仅可以防止首次出现的异常问题被淹没,还可以提升异常问题定位的准确率和效率。
在一实施例中,还包括:获取所述目标系统的下游系统返回的异常信息;所述根据所述目标错误码和所述运行路径生成模型输入信息,包括:根据所述目标错误码、所述异常运行路径以及所述异常信息生成模型输入信息。
下游系统返回的异常信息可以用于有助于异常问题的分析,如支付流程中,支付平台系统接收到扣费系统返回的余额不足的反馈信息,可以有助于分析出异常问题为账户余额不足导致扣费失败。由于错误码中不存在异常信息,因此可以将异常信息添加至模型输入信息中。
模型输入信息中也可以包含下游系统返回的异常信息,例如:相对于异常关联关系数组“担保交易业务-支付工具A-01ERROR1”,数组“担保交易业务-支付工具A-01ERROR1-余额不足”更有助于异常问题的分析。当然,在模型输入信息中,异常信息可以不为本身,也可以为异常信息的标识或者描述信息,本说明书并不对此进行限制。
在该实施例中,通过将下游系统返回的异常信息添加至模型输入信息,有助于异常分析模型对异常问题的分析,从而增加异常问题定位的准确度。
在一实施例中,所述获取所述目标系统发生异常的异常运行路径,包括:根据埋点录制技术获取所述目标系统对应的服务器的流量路径信息,并根据所述流量路径信息确定所述目标系统发生异常的异常运行路径。
不难看出,错误码中的描述信息和异常运行路径反映的信息存在一定程度上的重合,错误码是基于错误堆栈生成,错误堆栈为软件系统自带的报错机制。若异常运行路径采用的技术与错误码不同,则可以对比两者反映的信息,使得整合而成的模型输入信息更加准确,进而增加异常问题定位的准确度。
埋点录制技术是一种在软件应用中嵌入监测点(埋点)来记录用户行为数据的技术。这些埋点可以捕获用户的操作,如点击、滑动、输入等,并将这些操作的信息记录下来,通常用于数据分析、用户体验优化、商业智能和广告监测等方面。在软件开发过程中,开发者可以在应用的特定位置放置埋点,比如在用户注册、商品购买、页面浏览等关键操作环节。当用户执行这些操作时,应用会将相关信息,如用户ID、操作时间、操作类型等发送到服务器。
具体的,可以在服务器端进行埋点,如采用walle录制技术或者midas录制技术等,在服务器上记录用户行为数据,这种方式数据传输更加安全,且不易受到客户端设备性能的影响。
在该实施例中,通过与错误堆栈不同的埋点录制技术获取异常运行路径,不仅可以根据异常运行路径生成模型输入信息,增加异常问题定位的准确度,还可以对比异常运行路径与错误码反映的信息,使得整合而成的模型输入信息更加准确,进而增加异常问题定位的准确度。
在一实施例中,还包括:将所述目标异常问题输入预先训练的异常等级分析模型,以使所述异常等级分析模型输出所述目标异常问题对应的目标异常等级;根据所述目标异常等级对所述目标异常问题进行处理。
针对不同的异常等级,可以预先设置不同的处理方式。例如:低危等级对应的处理方式可以为:通过发送邮件或消息通知的方式进行告警;中危等级对应的处理方式可以为:通过发送负责人短信的方式进行告警;高危等级对应的处理方式可以为:通过拨打负责人电话的方式进行告警,配置主要负责人和备份负责人,确保告警信息及时准确投递。告警信息可以直观展示与运行异常相关的业务特征描述信息、资产特征描述信息、出现时间、潜在危害、疑似原因等信息,便于接受告警的负责人快速介入人工排查。
当然,也可以不通过告警的方式,由系统自身对该异常进行处理。例如:在支付流程中,由于用户未授权导致支付失败的异常情况,系统可以自动将授权页面提供至用户,从而展开支付授权服务。本说明书并不对具体的处理方式进行限制。
在该实施例中,通过为不同的异常等级配置不同的处理方式,有助于系统运维。
进一步的,还包括:获取所述目标异常问题处理后得到的反馈信息,并根据所述反馈信息优化所述异常分析模型和所述异常等级分析模型。在告警通知到运维人员后,运维人员可以人工确认异常的真实根因,真实影响面,后续应急处理动作等,并将对应的信息反馈给分析模块进行再次学习,保持异动基线的新鲜度和敏感度。
本说明书还提出了相应的异常分析模型的训练方法以及异常等级分析模型的训练方法。
请参阅图4,图4示出了本说明书实施例提供的一种异常分析模型的训练方法的流程示意图,如图4所示,该异常分析模型的训练方法至少可以包括以下步骤:
步骤402、获取预先设置的多个异常问题,并以所述多个异常问题作为待训练的聚类分析模型的初始聚类中心;
步骤404、将训练样本集输入至所述聚类分析模型进行训练,直至所述聚类分析模型用于对系统运行的异常进行分析;其中,所述训练样本集中的每一训练样本包括根据系统运行异常对应的错误码和异常运行路径而生成的模型输入信息。
K-means聚类分析模型的训练过程主要包括以下几个步骤:初始化、分配、更新、迭代、评估。初始化:首先需要确定聚类的数量K,然后随机选择K个数据点作为初始的聚类中心。分配:对于数据集中的每一个数据点,计算它与每个聚类中心的距离,并将其分配到最近的聚类中心所代表的聚类。更新:当所有数据点都被分配后,重新计算每个聚类的中心点,通常,聚类的中心点是该聚类中所有数据点的均值。迭代:重复分配和更新的步骤,直到满足停止条件。停止条件可以是聚类中心点的变化小于某个阈值、达到预设的迭代次数上限,或者是一个内聚度指标(如轮廓系数)达到某个阈值。评估:在训练过程的最后,通常需要评估聚类结果的质量。可以使用一些评估指标,如轮廓系数、内部距离和外部距离等,来衡量聚类的性能。在异常分析模型中,初始的聚类中心可以为人工预先设置的多个异常问题,内聚度指标可以为模型分析的分析结果与人工分析的分析结果的对比准确度。
在该实施例中,通过聚类分析模型训练生成用于系统运行异常问题分析的异常分析模型,相较于人工分析异常问题,分析效率更高,准确度更高。
请参阅图5,图5示出了本说明书实施例提供的一种异常等级分析模型的训练方法的流程示意图,如图5所示,该异常等级分析模型的训练方法至少可以包括以下步骤:
步骤502、获取训练样本集,所述训练样本集中的每一训练样本包括异常问题和相应的真实异常等级;
步骤504、将所述训练样本集输入待训练模型,以使所述待训练模型输出异常问题对应的预测异常等级;
步骤506、对比所述真实异常等级和所述预测异常等级,并根据对比结果对所述待训练模型进行优化,直至所述待训练模型用于对异常问题的异常等级进行分析。
在该实施例中,通过深度学习模型训练生成异常等级分析模型,相较于人工标注异常等级,效率更高,准确度更高。
请参阅图6,图6为本说明书实施例提供的一种系统运行异常的问题定位装置的框图。所述装置包括:
第一获取单元602,用于响应于目标系统运行异常,获取所述目标系统的错误堆栈,并生成相应的目标错误码;其中,所述错误码用于表征所述目标系统发生异常的位置信息和描述信息;
第二获取单元604,用于所述目标系统发生异常的异常运行路径,并根据所述目标错误码和所述异常运行路径生成模型输入信息;
分析单元606,用于将所述模型输入信息输入预先训练得到的异常分析模型,以使所述异常分析模型输出所述目标系统运行异常对应的目标异常问题。
可选的,所述第二获取单元604具体用于:
根据所述异常运行路径确定业务特征描述信息和资产特征描述信息;其中,所述业务特征描述信息用于表征所述目标系统运行异常对应的异常业务的描述信息,所述资产特征描述信息用于表征所述目标系统运行异常对应的异常资产工具的描述信息;
将所述业务特征描述信息和资产特征描述信息作为所述目标错误码的索引值,并将以此组成的映射作为所述异常分析模型的模型输入信息。
可选的,
还包括:第三获取单元608:获取所述目标系统的下游系统返回的异常信息;
所述第二获取单元604具体用于:根据所述目标错误码、所述异常运行路径以及所述异常信息生成模型输入信息。
可选的,所述第二获取单元604具体用于:
根据埋点录制技术获取所述目标系统对应的服务器的流量路径信息,并根据所述流量路径信息确定所述目标系统发生异常的异常运行路径。
可选的,还包括:
输入单元610,用于将所述目标异常问题输入预先训练的异常等级分析模型,以使所述异常等级分析模型输出所述目标异常问题对应的目标异常等级;
处理单元612,用于根据所述目标异常等级对所述目标异常问题进行处理。
可选的,还包括:
优化单元614,用于获取所述目标异常问题处理后得到的反馈信息,并根据所述反馈信息优化所述异常分析模型和所述异常等级分析模型。
在该实施例中,一方面,使用错误码的方式来整合异常信息,使得原本离散的形态各异的异常信息标准化、结构化,避免上下游关联系统对异常问题定位的干扰;另一方面,通过预先训练的异常分析模型来确定系统运行异常对应的异常问题,取代设置筛选条件或者告警阈值的方式,不仅可以防止首次出现的异常问题被淹没,还可以提升异常问题定位的准确率和效率。
请参阅图7,图7为本说明书实施例提供的一种异常分析模型的训练装置的框图。所述装置包括:
获取单元702,用于获取预先设置的多个异常问题,并以所述多个异常问题作为待训练的聚类分析模型的初始聚类中心;
输入单元704,用于将训练样本集输入至所述聚类分析模型进行训练,直至所述聚类分析模型用于对系统运行的异常进行分析;其中,所述训练样本集中的每一训练样本包括根据系统运行异常对应的错误码和异常运行路径而生成的模型输入信息。
请参阅图8,图8为本说明书实施例提供的一种异常等级分析模型的训练装置的框图。所述装置包括:
获取单元802,用于获取训练样本集,所述训练样本集中的每一训练样本包括异常问题和相应的真实异常等级;
输入单元804,用于将所述训练样本集输入待训练模型,以使所述待训练模型输出异常问题对应的预测异常等级;
优化单元806,用于对比所述真实异常等级和所述预测异常等级,并根据对比结果对所述待训练模型进行优化,直至所述待训练模型用于对异常问题的异常等级进行分析。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分相互参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统运行异常的问题定位装置实施例而言,由于其基本相似于系统运行异常的问题定位方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
请参阅图9示出的本说明书实施例提供的一种电子设备的结构示意图。
如图9所示,该电子设备900可以包括:至少一个处理器901、至少一个网络接口904、用户接口903、存储器905以及至少一个通信总线902。
其中,通信总线902可用于实现上述各个组件的连接通信。
其中,用户接口903可以包括按键,可选用户接口还可以包括标准的有线接口、无线接口。
其中,网络接口904可以但不局限于包括蓝牙模块、NFC模块、Wi-Fi模块等。
其中,处理器901可以包括一个或者多个处理核心。处理器901利用各种接口和线路连接整个电子设备900内的各个部分,通过运行或执行存储在存储器905内的指令、程序、代码集或指令集,以及调用存储在存储器905内的数据,执行电子设备900的各种功能和处理数据。可选的,处理器901可以采用DSP、FPGA、PLA中的至少一种硬件形式来实现。处理器901可集成CPU、GPU和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器901中,单独通过一块芯片进行实现。
其中,存储器905可以包括RAM,也可以包括ROM。可选的,该存储器905包括非瞬时性计算机可读介质。存储器905可用于存储指令、程序、代码、代码集或指令集。存储器905可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器905可选的还可以是至少一个位于远离前述处理器901的存储装置。作为一种计算机存储介质的存储器905中可以包括操作系统、网络通信模块、用户接口模块以及系统运行异常的问题定位应用程序。处理器901可以用于调用存储器905中存储的系统运行异常的问题定位应用程序,并执行前述实施例中提及的系统运行异常的问题定位的步骤。
本说明书实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机或处理器上运行时,使得计算机或处理器执行上述图2~图4所示实施例中的一个或多个的步骤。上述电子设备的各组成模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在所述计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本说明书实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,数字多功能光盘(DigitalVersatile Disc,DVD))、或者半导体介质(例如,固态硬盘(Solid State Disk,SSD))等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可存储程序代码的介质。在不冲突的情况下,本实施例和实施方案中的技术特征可以任意组合。
以上所述的实施例仅仅是本说明书的优选实施例方式进行描述,并非对本说明书的范围进行限定,在不脱离本说明书的设计精神的前提下,本领域普通技术人员对本说明书的技术方案作出的各种变形及改进,均应落入本说明书的权利要求书确定的保护范围内。

Claims (18)

1.一种系统运行异常的问题定位方法,包括:
响应于目标系统运行异常,获取所述目标系统的错误堆栈,并生成相应的目标错误码;其中,所述错误码用于表征所述目标系统发生异常的位置信息和描述信息;
获取所述目标系统发生异常的异常运行路径,并根据所述目标错误码和所述异常运行路径生成模型输入信息;
将所述模型输入信息输入预先训练得到的异常分析模型,以使所述异常分析模型输出所述目标系统运行异常对应的目标异常问题。
2.根据权利要求1所述的一种系统运行异常的问题定位方法,所述根据所述目标错误码和所述运行路径生成模型输入信息,包括:
根据所述异常运行路径确定业务特征描述信息和资产特征描述信息;其中,所述业务特征描述信息用于表征所述目标系统运行异常对应的异常业务的描述信息,所述资产特征描述信息用于表征所述目标系统运行异常对应的异常资产工具的描述信息;
将所述业务特征描述信息和资产特征描述信息作为所述目标错误码的索引值,并将以此组成的映射作为所述异常分析模型的模型输入信息。
3.根据权利要求1所述的一种系统运行异常的问题定位方法,
还包括:获取所述目标系统的下游系统返回的异常信息;
所述根据所述目标错误码和所述运行路径生成模型输入信息,包括:根据所述目标错误码、所述异常运行路径以及所述异常信息生成模型输入信息。
4.根据权利要求1所述的一种系统运行异常的问题定位方法,所述获取所述目标系统发生异常的异常运行路径,包括:
根据埋点录制技术获取所述目标系统对应的服务器的流量路径信息,并根据所述流量路径信息确定所述目标系统发生异常的异常运行路径。
5.根据权利要求1所述的一种系统运行异常的问题定位方法,还包括:
将所述目标异常问题输入预先训练的异常等级分析模型,以使所述异常等级分析模型输出所述目标异常问题对应的目标异常等级;
根据所述目标异常等级对所述目标异常问题进行处理。
6.根据权利要求5所述的一种系统运行异常的问题定位方法,还包括:
获取所述目标异常问题处理后得到的反馈信息,并根据所述反馈信息优化所述异常分析模型和所述异常等级分析模型。
7.一种异常分析模型的训练方法,包括:
获取预先设置的多个异常问题,并以所述多个异常问题作为待训练的聚类分析模型的初始聚类中心;
将训练样本集输入至所述聚类分析模型进行训练,直至所述聚类分析模型用于对系统运行的异常进行分析;其中,所述训练样本集中的每一训练样本包括根据系统运行异常对应的错误码和异常运行路径而生成的模型输入信息。
8.一种异常等级分析模型的训练方法,包括:
获取训练样本集,所述训练样本集中的每一训练样本包括异常问题和相应的真实异常等级;
将所述训练样本集输入待训练模型,以使所述待训练模型输出异常问题对应的预测异常等级;
对比所述真实异常等级和所述预测异常等级,并根据对比结果对所述待训练模型进行优化,直至所述待训练模型用于对异常问题的异常等级进行分析。
9.一种系统运行异常的问题定位装置,包括:
第一获取单元:响应于目标系统运行异常,获取所述目标系统的错误堆栈,并生成相应的目标错误码;其中,所述错误码用于表征所述目标系统发生异常的位置信息和描述信息;
第二获取单元:所述目标系统发生异常的异常运行路径,并根据所述目标错误码和所述异常运行路径生成模型输入信息;
分析单元:将所述模型输入信息输入预先训练得到的异常分析模型,以使所述异常分析模型输出所述目标系统运行异常对应的目标异常问题。
10.根据权利要求9所述的一种系统运行异常的问题定位装置,所述第二获取单元具体用于:
根据所述异常运行路径确定业务特征描述信息和资产特征描述信息;其中,所述业务特征描述信息用于表征所述目标系统运行异常对应的异常业务的描述信息,所述资产特征描述信息用于表征所述目标系统运行异常对应的异常资产工具的描述信息;
将所述业务特征描述信息和资产特征描述信息作为所述目标错误码的索引值,并将以此组成的映射作为所述异常分析模型的模型输入信息。
11.根据权利要求9所述的一种系统运行异常的问题定位装置,
还包括:第三获取单元:获取所述目标系统的下游系统返回的异常信息;
所述第二获取单元具体用于:根据所述目标错误码、所述异常运行路径以及所述异常信息生成模型输入信息。
12.根据权利要求9所述的一种系统运行异常的问题定位装置,所述第二获取单元具体用于:
根据埋点录制技术获取所述目标系统对应的服务器的流量路径信息,并根据所述流量路径信息确定所述目标系统发生异常的异常运行路径。
13.根据权利要求9所述的一种系统运行异常的问题定位装置,还包括:
输入单元:将所述目标异常问题输入预先训练的异常等级分析模型,以使所述异常等级分析模型输出所述目标异常问题对应的目标异常等级;
处理单元:根据所述目标异常等级对所述目标异常问题进行处理。
14.根据权利要求13所述的一种系统运行异常的问题定位装置,还包括:
优化单元:获取所述目标异常问题处理后得到的反馈信息,并根据所述反馈信息优化所述异常分析模型和所述异常等级分析模型。
15.一种异常分析模型的训练装置,包括:
获取单元:获取预先设置的多个异常问题,并以所述多个异常问题作为待训练的聚类分析模型的初始聚类中心;
输入单元:将训练样本集输入至所述聚类分析模型进行训练,直至所述聚类分析模型用于对系统运行的异常进行分析;其中,所述训练样本集中的每一训练样本包括根据系统运行异常对应的错误码和异常运行路径而生成的模型输入信息。
16.一种异常等级分析模型的训练装置,包括:
获取单元:获取训练样本集,所述训练样本集中的每一训练样本包括异常问题和相应的真实异常等级;
输入单元:将所述训练样本集输入待训练模型,以使所述待训练模型输出异常问题对应的预测异常等级;
优化单元:对比所述真实异常等级和所述预测异常等级,并根据对比结果对所述待训练模型进行优化,直至所述待训练模型用于对异常问题的异常等级进行分析。
17.一种电子设备,包括处理器以及存储器;
所述处理器与所述存储器相连;
所述存储器,用于存储可执行程序代码;
所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于执行如权利要求1~8任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~8任一项所述的方法。
CN202410407337.8A 2024-04-03 2024-04-03 一种系统运行异常的问题定位方法、装置、电子设备、存储介质 Pending CN118210648A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410407337.8A CN118210648A (zh) 2024-04-03 2024-04-03 一种系统运行异常的问题定位方法、装置、电子设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410407337.8A CN118210648A (zh) 2024-04-03 2024-04-03 一种系统运行异常的问题定位方法、装置、电子设备、存储介质

Publications (1)

Publication Number Publication Date
CN118210648A true CN118210648A (zh) 2024-06-18

Family

ID=91452358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410407337.8A Pending CN118210648A (zh) 2024-04-03 2024-04-03 一种系统运行异常的问题定位方法、装置、电子设备、存储介质

Country Status (1)

Country Link
CN (1) CN118210648A (zh)

Similar Documents

Publication Publication Date Title
CN110321371B (zh) 日志数据异常检测方法、装置、终端及介质
US10990901B2 (en) Training, validating, and monitoring artificial intelligence and machine learning models
US10606731B2 (en) Code component debugging in an application program
CN110245034B (zh) 根据使用数据的结构化日志模式的服务度量分析
US20170109657A1 (en) Machine Learning-Based Model for Identifying Executions of a Business Process
CN103294592B (zh) 利用用户工具交互来自动分析其服务交付中的缺陷的方法与系统
US20170109676A1 (en) Generation of Candidate Sequences Using Links Between Nonconsecutively Performed Steps of a Business Process
US20170109668A1 (en) Model for Linking Between Nonconsecutively Performed Steps in a Business Process
US7778720B2 (en) Method and system for product line management (PLM)
US20170109667A1 (en) Automaton-Based Identification of Executions of a Business Process
US20170109636A1 (en) Crowd-Based Model for Identifying Executions of a Business Process
US10592870B2 (en) System and method to analyze and detect anomalies in vehicle service procedures
US20180046956A1 (en) Warning About Steps That Lead to an Unsuccessful Execution of a Business Process
US20170109639A1 (en) General Model for Linking Between Nonconsecutively Performed Steps in Business Processes
US10613525B1 (en) Automated health assessment and outage prediction system
CN111209153B (zh) 异常检测处理方法、装置及电子设备
CN113010389A (zh) 一种训练方法、故障预测方法、相关装置及设备
US20170109638A1 (en) Ensemble-Based Identification of Executions of a Business Process
CN107301120A (zh) 用于处理非结构化日志的方法及装置
US20190005590A1 (en) Outcome driven case management
CN103518192B (zh) 大规模服务的实时诊断流水线
US20170109640A1 (en) Generation of Candidate Sequences Using Crowd-Based Seeds of Commonly-Performed Steps of a Business Process
CN110765007A (zh) 一种面向安卓应用的崩溃信息线上分析方法
US20170109637A1 (en) Crowd-Based Model for Identifying Nonconsecutive Executions of a Business Process
Dhanalaxmi et al. A fault prediction approach based on the probabilistic model for improvising software inspection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination