CN113360360A - 业务系统故障检测方法、装置、电子设备及存储介质 - Google Patents

业务系统故障检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113360360A
CN113360360A CN202110742715.4A CN202110742715A CN113360360A CN 113360360 A CN113360360 A CN 113360360A CN 202110742715 A CN202110742715 A CN 202110742715A CN 113360360 A CN113360360 A CN 113360360A
Authority
CN
China
Prior art keywords
service system
keyword
service
prediction model
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110742715.4A
Other languages
English (en)
Inventor
童川
郭建根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202110742715.4A priority Critical patent/CN113360360A/zh
Publication of CN113360360A publication Critical patent/CN113360360A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供一种业务系统故障检测方法、装置、电子设备及存储介质,通过获取第一业务系统的运维日志,第一业务系统的运维日志用于记录第一业务系统的系统报错;解析第一业务系统的运维日志,获取关键字标识,关键字标识用于表征系统报错对应的错误类别;基于预设的预测模型,以及关键字标识,确定第二业务系统,其中,预测模型用于预测不同的错误类别的系统报错对关联业务系统的影响,第二业务系统为受第一业务系统的系统报错影响的关联业务系统。通过第一业务系统的运维日志,可以确定第一业务系统的系统报错的错误类别,再根据预训练的预测模型,针对该错误类别进行预测,实现了对关联业务系统中潜在故障和异常的提前检测。

Description

业务系统故障检测方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种业务系统故障检测方法、装置、电子设备及存储介质。
背景技术
本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中而被认为是现有技术。
当前,银行的业务处理系统非常庞大,各业务系统之间相互关联,当其中一个业务系统出现异常和故障时,很可能导致与其相关的关联业务系统出现异常。
现有技术中,银行的业务系统内通常设置有故障监控系统或模块,当检测到该业务系统出现故障时,会向相关维护人员发出报警提示,以提醒维护人员对当前上报故障的业务系统进行故障处理。
然而,现有的故障监控系统只能在业务系统出现异常后,才能发现系统故障并发出报警提示,而无法检测到那些受到故障业务系统影响,但尚未出现异常的关联业务系统中的潜在故障,只能在关联业务系统出现异常后,才能进行报警,造成了故障检测的实时性差、报警不及时的问题,影响银行业务系统的整体稳定性。
发明内容
本申请提供一种业务系统故障检测方法、装置、电子设备及存储介质,用以解决现有的故障监控系统无法及时发现关联业务系统的潜在故障的问题。
根据本申请实施例的第一方面,本申请提供了一种业务系统故障检测方法,所述方法包括:获取第一业务系统的运维日志,所述第一业务系统的运维日志用于记录所述第一业务系统的系统报错;解析所述第一业务系统的运维日志,获取关键字标识,所述关键字标识用于表征所述系统报错对应的错误类别;基于预设的预测模型,以及所述关键字标识,确定第二业务系统,其中,所述预测模型用于预测不同的错误类别的系统报错对关联业务系统的影响,第二业务系统为受所述第一业务系统的系统报错影响的关联业务系统。
在一种可能的实现方式中,基于预设的预测模型,以及所述关键字标识,确定第二业务系统,包括:获取系统关联信息,所述系统关联信息用于表征不同的关联业务系统与所述第一业务系统之间的关联关系;将所述系统关联信息和所述关键字标识输入所述预测模型,获得所述预测模型输出的系统标识,所述系统标识用于指示所述第二业务系统。
在一种可能的实现方式中,所述预测模型包括预训练的注意机制的双向编码BERT模型和预训练的双向长短期记忆网络BiLSTM模型;将所述系统关联信息和所述关键字标识输入所述预测模型,获得所述预测模型输出的系统标识,包括:根据所述预训练的BERT模型,对所述关键字标识进行处理,生成所述关键字标识的词向量;将所述词向量和系统关联信息,输入预训练的BiLSTM模型,得到所述系统标识。
在一种可能的实现方式中,所述预训练的BiLSTM模型包括注意力Attention层;所述Attention层用于对所述关键字标识的上下文信息进行加权。
在一种可能的实现方式中,所述第二业务系统包括多个关联业务系统,所述方法还包括:获得所述预测模型输出的系统影响权重,所述系统影响权重与所述系统标识一一对应,所述系统影响权重表征所述关联业务系统受所述第一业务系统的系统报错的影响程度;根据预设的权重阈值,向所述系统影响权重大于所述权重阈值的关联业务系统对应的终端设备发送报警信息。
在一种可能的实现方式中,解析所述第一业务系统的运维日志,获取关键字标识,包括:获取预设的分词库;基于所述分词库,对所述运维日志中的异常信息进行分词,生成关键字标识。
在一种可能的实现方式中,所述方法还包括:根据预设的关键字权重信息,确定各所述关键字标识对应的权重值,其中,所述关键字权重信息用于表征不同关键字标识与权重值的映射关系,所述权重值用于表征所述错误类别对应的系统报错对所述关联业务系统的影响程度;基于预设的预测模型,以及所述关键字标识,确定第二业务系统,包括:基于预设的预测模型,以及所述权重值大于预设权重的关键字标识,确定第二业务系统。
在一种可能的实现方式中,获取第一业务系统的运维日志,包括:当检测到第一业务系统出现系统报错时,确定所述系统报错发生的时间信息;根据所述时间信息,获取对应的第一业务系统的运维日志。
在一种可能的实现方式中,在确定所述第二业务系统之后,所述方法还包括:向所述第二业务系统对应的终端设备发送报警信息,所述报警信息包括所述第一业务系统的标识,以及所述第一业务系统的系统报错。
根据本申请实施例的第二方面,本申请提供了一种业务系统故障检测装置,包括:
获取模块,用于获取第一业务系统的运维日志,所述第一业务系统的运维日志用于记录所述第一业务系统的系统报错;
解析模块,用于解析所述第一业务系统的运维日志,获取关键字标识,所述关键字标识用于表征所述系统报错对应的错误类别;
确定模块,用于基于预设的预测模型,以及所述关键字标识,确定第二业务系统,其中,所述预测模型用于预测不同的错误类别的系统报错对关联业务系统的影响,第二业务系统为受所述第一业务系统的系统报错影响的关联业务系统。
在一种可能的实现方式中,所述确定模块,具体用于:获取系统关联信息,所述系统关联信息用于表征不同的关联业务系统与所述第一业务系统之间的关联关系;将所述系统关联信息和所述关键字标识输入所述预测模型,获得所述预测模型输出的系统标识,所述系统标识用于指示所述第二业务系统。
在一种可能的实现方式中,所述预测模型包括预训练的注意机制的双向编码BERT模型和预训练的双向长短期记忆网络BiLSTM模型;所述确定模块在将所述系统关联信息和所述关键字标识输入所述预测模型,获得所述预测模型输出的系统标识时,具体用于:根据所述预训练的BERT模型,对所述关键字标识进行处理,生成所述关键字标识的词向量;将所述词向量和系统关联信息,输入预训练的BiLSTM模型,得到所述系统标识。
在一种可能的实现方式中,所述预训练的BiLSTM模型包括注意力Attention层;所述Attention层用于对所述关键字标识的上下文信息进行加权。
在一种可能的实现方式中,所述第二业务系统包括多个关联业务系统,所述确定模块,还用于:获得所述预测模型输出的系统影响权重,所述系统影响权重与所述系统标识一一对应,所述系统影响权重表征所述关联业务系统受所述第一业务系统的系统报错的影响程度;根据预设的权重阈值,向所述系统影响权重大于所述权重阈值的关联业务系统对应的终端设备发送报警信息。
在一种可能的实现方式中,所述解析模块,具体用于:获取预设的分词库;基于所述分词库,对所述运维日志中的异常信息进行分词,生成关键字标识。
在一种可能的实现方式中,所述获取模块,还用于:根据预设的关键字权重信息,确定各所述关键字标识对应的权重值,其中,所述关键字权重信息用于表征不同关键字标识与权重值的映射关系,所述权重值用于表征所述错误类别对应的系统报错对所述关联业务系统的影响程度;所述确定模块,具体用于:基于预设的预测模型,以及所述权重值大于预设权重的关键字标识,确定第二业务系统。
在一种可能的实现方式中,所述获取模块,具体用于:当检测到第一业务系统出现系统报错时,确定所述系统报错发生的时间信息;根据所述时间信息,获取对应的第一业务系统的运维日志。
在一种可能的实现方式中,在确定所述第二业务系统之后,所述确定模块,还用于:向所述第二业务系统对应的终端设备发送报警信息,所述报警信息包括所述第一业务系统的标识,以及所述第一业务系统的系统报错。
根据本申请实施例的第三方面,本申请提供了一种电子设备,包括:存储器,处理器以及计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行如本申请实施例第一方面任一项所述的业务系统故障检测方法。
根据本申请实施例的第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如本申请实施例第一方面任一项所述的业务系统故障检测方法。
根据本申请实施例的第五方面,本申请提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上第一方面以及第一方面各种可能的业务系统故障检测方法。
本申请提供的业务系统故障检测方法、装置、电子设备及存储介质,通过获取第一业务系统的运维日志,所述第一业务系统的运维日志用于记录所述第一业务系统的系统报错;解析所述第一业务系统的运维日志,获取关键字标识,所述关键字标识用于表征所述系统报错对应的错误类别;基于预设的预测模型,以及所述关键字标识,确定第二业务系统,其中,所述预测模型用于预测不同的错误类别的系统报错对关联业务系统的影响,第二业务系统为受所述第一业务系统的系统报错影响的关联业务系统。由于通过第一业务系统的运维日志,可以确定第一业务系统的系统报错的错误类别,再根据预训练的预测模型,针对该错误类别进行预测,定位受到第一业务系统的系统报错影响的关联业务系统,实现了对关联业务系统中潜在故障和异常的提前检测,提高关联业务系统的检测和报警实时性,提高银行业务系统的整体稳定性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的业务系统故障检测方法的一种应用场景图;
图2为本申请一个实施例提供的业务系统故障检测方法的流程图;
图3为本申请另一个实施例提供的业务系统故障检测方法的流程图;
图4为本申请实施例提供的一种系统关联信息的示意图;
图5为图3所示实施例中步骤S207的流程图;
图6为本申请一个实施例提供的业务系统故障检测装置的结构示意图;
图7为本申请一个实施例提供的电子设备的示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
下面对本申请实施例的应用场景进行解释:
图1为本申请实施例提供的业务系统故障检测方法的一种应用场景图,参考图1,本实施例提供的业务系统故障检测方法可以应用于银行业务系统的系统检测和报警的场景下,具体地,可以应用于业务系统服务器,如图1所示,业务系统服务器A与业务系统服务器B、业务系统服务器C等服务器通过局域网或广域网实现通信,部署在业务系统服务器A上的第一业务系统会影响部署在业务系统服务器B上的第二业务系统、业务系统服务器C上的第三业务系统的业务处理过程,因此,部署在业务系统服务器B上的第二业务系统和部署在业务系统服务器C上的第三业务系统为部署在业务系统服务器A上的第一业务系统的关联业务系统。当然,可以理解的是,在本实施例场景中,第一业务系统、第二业务系统和第三业务系统还可以部署于同一服务器或服务器集群中,此处不对此情况进行一一举例。业务系统服务器A、业务系统服务器B和业务系统服务器C分别与终端设备通信连接,并分别对应向终端设备提供基于第一业务系统、第二业务系统和第三业务系统的业务服务。
现有技术中,当第一业务系统出现系统报错时,通过第一业务系统内置的故障报警单元,能够向与第一业务系统通信的终端设备发送故障报警信息,以提醒运维人员确认故障,并及时进行处理。然而,由于银行的业务处理系统非常庞大、复杂,各业务系统之间相互关联,当其中一个业务系统出现异常和故障时,很可能导致与其相关的关联业务系统出现异常,例如图1所示应用场景中,当第一业务系统报错后,与第一业务系统相关的关联业务系统(第二业务系统、第三业务系统),很可能在使用第一业务系统提供的某项业务服务时,由于第一业务系统中存在的故障,而导致异常。但是现有技术中,仅能在关联业务系统使用第一业务系统提供的存在故障的业务服务,并出现异常后,才能针对对应的关联业务系统发出故障报警,而无法提前预警并告知有关运维人员进行处理(例如切断对第一业务系统中业务服务的调用),这种出现业务故障再去处理的方式,导致了对业务系统的故障检测和处理实时性差的问题,进而对银行业务系统造成较大的安全风险和稳定性问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请一个实施例提供的业务系统故障检测方法的流程图,应用于业务系统服务器,或者与业务系统服务器通信的终端设备,本实施例中,以业务系统服务器作为执行主体进行介绍,如图2所示,本实施例提供的业务系统故障检测方法包括以下几个步骤:
步骤S101,获取第一业务系统的运维日志,第一业务系统的运维日志用于记录第一业务系统的系统报错。
示例性地,在业务系统运行过程中,会生成相关的运行和维护数据,并存储在业务系统服务器内或者与业务系统服务器通信连接的独立的电子设备或存储介质中,此类运行和维护数据即为运维日志。当第一业务系统出现系统报错时,会通过运维日志记录下系统报错发生的时间、异常描述等信息。运维人员通过运维日志,可以实现对第一业务系统的运行情况以及故障情况进行诊断并进行处理。运维日志可以通过业务系统的系统软件中的相关日志功能生成,具体的生成日志的技术方案为现有技术,此处不再对此进行赘述。
其中,进一步地,系统报错是业务系统在调用相关业务服务的过程中,由于输入值错误、网络故障等原因,导致的业务系统或业务系统中的某个业务服务的异常响应。业务系统通过系统软件能够监测到系统或服务所产生的此类异常响应,进而记录在运维日志中。其中,示例性地,系统报错例如包括:空指针异常、文件调用异常、连接异常等。
步骤S102,解析第一业务系统的运维日志,获取关键字标识,关键字标识用于表征系统报错对应的错误类别。
示例性地,业务系统服务器通过读取运维日志,对运维日志进行解析,实现对运维日志的内容识别。具体地,运维日志中包括多个用于描述运维日志的内容的字符串。通过解析运维日志中的字符串,并进行分词处理,可以获得一个或多个关键字标识,关键字标识用于表征系统报错对应的错误类别。例如,通过对运维日志中的字符串进行解析和分词处理后,得到的关键字标识为“Connection timed out”,即表征系统报错的错误类别为连接超时异常;再例如,通过对运维日志中的字符串进行解析和分词处理后,得到的关键字标识为“java.io.FileNotFoundException”,即表征系统报错的错误类别为文件调用异常。从而,实现了对运维日志中与系统报错相关内容的识别和提取。
步骤S103,基于预设的预测模型,以及关键字标识,确定第二业务系统,其中,预测模型用于预测不同的错误类别的系统报错对关联业务系统的影响,第二业务系统为受第一业务系统的系统报错影响的关联业务系统。
示例性地,在获取表征错误类别的关键字标识后,不同的错误类别,根据不同业务系统之间的关联关系,可能导致不同的关联业务系统出现潜在异常,即其他与第一业务系统有关联关系的关联业务系统在调用第一业务系统中该错误类别所对应的业务服务时,会出现异常。示例性地,预测模型是基于神经网络的预训练模型,可以用于预测不同的错误类别的系统报错对关联业务系统的影响。该预测模型已基于历史关键字标识和对应的表征关联业务系统的系统报错的历史运维日志组成的标签数据进行有监督训练,并至收敛,对于预测模型的具体训练过程,此处不进行赘述。根据关键字标识以及预设的预测模型,可以预测可能受到第一业务系统的系统报错影响的关联业务系统,即第二业务系统。进而,实现在第一业务系统发生系统报警后,对关联业务系统的自动故障检测和定位,实现关联业务系统的故障提前预警,降低业务系统故障风险。
本实施例中,通过获取第一业务系统的运维日志,第一业务系统的运维日志用于记录第一业务系统的系统报错;解析第一业务系统的运维日志,获取关键字标识,关键字标识用于表征系统报错对应的错误类别;基于预设的预测模型,以及关键字标识,确定第二业务系统,其中,预测模型用于预测不同的错误类别的系统报错对关联业务系统的影响,第二业务系统为受第一业务系统的系统报错影响的关联业务系统。由于通过第一业务系统的运维日志,可以确定第一业务系统的系统报错的错误类别,再根据预训练的预测模型,针对该错误类别进行预测,定位受到第一业务系统的系统报错影响的关联业务系统,实现了对关联业务系统中潜在故障和异常的提前检测,提高关联业务系统的检测和报警实时性,提高银行业务系统的整体稳定性。
图3为本申请另一个实施例提供的业务系统故障检测方法的流程图,如图3所示,本实施例提供的业务系统故障检测方法在图2所示实施例提供的业务系统故障检测方法的基础上,对步骤S101-S103进一步细化,则本实施例提供的业务系统故障检测方法包括以下几个步骤:
步骤S201,当检测到第一业务系统出现系统报错时,确定系统报错发生的时间信息。
步骤S202,根据时间信息,获取对应的第一业务系统的运维日志。
示例性地,由于银行业务的业务性质具有特殊性,出于安全性方面的考虑,在一些系统报错出现后,首先需要人工进行处理和确认,因此,业务系统服务器对系统报错的处理,可以是非实时的。在业务系统服务器检测到第一业务系统出现系统报错时,确定系统报错发生的时间信息。之后,在业务系统服务器开始对该系统报错进行处理时,业务系统服务器根据之前确认的系统报错发生的时间信息,读取对应的运维日志,从而实现对故障的追溯。
步骤S203,获取预设的分词库,并基于分词库,对运维日志中的异常信息进行分词,生成关键字标识。
示例性地,分词库包括多个预设的分词字符串,用于对运维日志中的异常信息,即描述异常的长字符串进行分词处理。该分词库可以是用户根据具体需求,例如业务系统的系统软件、开发语言等具体设置的,用于对系统报错的具体错误类别进行识别,生成关键字标识。其中,利用分词库进行分词的具体实现方式,例如可以通过调用分词引擎,例如Lucene引擎,参照分词库对运维日志中的内容进行分析并输出分词结果,该过程为本领域技术人员知晓的现有技术,此处不再进行赘述。
步骤S204,根据预设的关键字权重信息,确定各关键字标识对应的权重值,其中,关键字权重信息用于表征不同关键字标识与权重值的映射关系,权重值用于表征错误类别对应的系统报错对关联业务系统的影响程度。
步骤S205,各关键字标识对应的权重值,确定目标关键字标识,目标关键字标识为权重值大于预设权重的关键字标识。
示例性地,对运维日志进行分词处理后生成的关键字标识,表征了不同的错误类别,出于对银行业务系统的业务安全性等方面的特殊需求,不同的错误类别对其他关联业务系统的影响程度有大有小,例如出现网络连接超时,则所有需要进行网络连接的业务服务都会受到影响,因此该关键字标识对应的错误类别对第一业务系统的影响程度较大,进而,该关键字标识对应的错误类别对与第一业务系统具有关联关系的关联业务系统也具有较大影响,该关键字标识的权重值也较大;而反之,例如出现字体错误、字号错误等小问题,则该关键字标识对应的错误类别对第一业务系统的影响程度较小,进而,该关键字标识对应的错误类别对与第一业务系统具有关联关系的关联业务系统也具有较小影响,该关键字标识的权重值也较小。
通过关键字权重信息,根据各关键字标识对应的权重值,对各关键字标识进行筛选,确定较为重要的一个或多个关键字标识为目标关键字标识,并在后续的处理过程中,基于目标关键字标识预测存在潜在故障风险的第二业务系统,能够提高确定第二业务系统的准确性和有效性。
步骤S206,获取系统关联信息,系统关联信息用于表征不同的关联业务系统与第一业务系统之间的关联关系。
步骤S207,将系统关联信息和目标关键字标识输入预测模型,获得预测模型输出的系统标识,系统标识用于指示第二业务系统。
示例性地,系统关联信息是用于表征不同的关系业务系统之间关联关系的相互影响关系的信息,系统关联信息可以通过关联信息表的形式实现,图4为本申请实施例提供的一种系统关联信息的示意图,业务系统A、业务系统B、业务系统C互为三个业务系统,如图4所示,业务系统A出现系统报错后,除影响自身(以1表示,下同)外,还会影响业务系统B,但不会影响业务系统C(以0表示,下同)。业务系统B出现系统报错后,除影响自身外,还会影响业务系统A、业务系统C;业务系统C出现系统报错后,除影响自身外,还会影响业务系统B,但不会影响业务系统C。在其他的实现方式中,可以存在业务系统单向影响的情况,例如业务系统B出现系统报错后,除影响自身外,还会影响业务系统D,但在业务系统D出现系统报错后,仅会影响自身,不会影响业务系统D(此情况图中未示出)。
进一步地,将系统关联信息和目标关键字标识输入预测模型,通过预测模型,以系统关联信息和目标关键字标识作为输入量,对可能受到第一业务系统的系统报错的关联业务系统,即第二业务系统进行预测,并获得预测模型输出的用于指示第二业务系统的系统标识。
可选地,预测模型包括预训练的注意机制的双向编码(Bidirectional EncoderRepresentations from Transformers,BERT)模型和预训练的双向长短期记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)模型,如图5所示,步骤S207包括步骤S2071、S2072两个具体的实现步骤:
步骤S2071,根据预训练的BERT模型,对关键字标识进行处理,生成关键字标识的词向量。
步骤S2072,将词向量和系统关联信息,输入预训练的BiLSTM模型,得到系统标识。
示例性地,BERT模型是一种现有的用于语言处理的预处理模型,BERT可以作为词向量模型,通过预训练的方式把运维日志中的字符串转换为可以通过公式、模型处理的词向量,之后通过分类模式实现对词向量的分类预测。BERT是基于双向Transformer构建的语言模型,模型较大,训练完成后的精度效果较好。其中,BERT模型的具体模型结构、原理及训练方法,均为本领域技术人员知晓的现有技术,此处不再进行赘述。
进一步地,在生成词向量后,基于预训练的BiLSTM模型,以词向量和系统关联信息作为输入,对系统关联信息中涉及的关联业务系统进行分类预测,可以输出第二业务系统,即受第一业务系统的系统报错影响的关联业务系统的系统标识。
其中,在上述步骤中,BiLSTM模型在使用前,通过带标签的数据样本进行了预训练,对BiLSTM模型进行训练的过程为本领域技术人员知晓的现有技术,此处不再赘述。
示例性地,预训练的BiLSTM模型包括注意力Attention层;Attention层用于对关键字标识的上下文信息进行加权。
步骤S208,获得预测模型输出的系统影响权重,系统影响权重与系统标识一一对应,系统影响权重表征关联业务系统受第一业务系统的系统报错的影响程度。
步骤S209,根据预设的权重阈值,向系统影响权重大于权重阈值的关联业务系统对应的终端设备发送报警信息。
示例性地,预测模型的输出量中,还包括与系统标识一一对应的系统影响权重,系统影响权重表征关联业务系统受第一业务系统的系统报错的影响程度,不同的业务系统之间的关联程度存在差异,关联程度大的业务系统之间,当其中一个系统出现系统报错时,对与其存在较大关联程度的业务系统也会同时造成较大的影响。因此,预训练的预测模型输出的第二业务系统包括多个关联业务系统时,在输出表征各关联业务系统对应的系统标识的同时,输出个系统标识对应的系统影响权重,并根据预设的权重阈值,将系统影响权重大于权重阈值的关联业务系统,即第一业务系统的系统报错对其产生较大影响的关联业务系统,发出警报,时该业务系统对应的运维人员能够及时进行处理。避免对该关联业务系统的业务造成影响。提高系统检测的有效性,避免向关联业务系统发送误报警。示例性地,报警信息包括第一业务系统的标识,以及第一业务系统的系统报错。
图6为本申请一个实施例提供的业务系统故障检测装置的结构示意图,应用于业务系统服务器,如图6所示,本实施例提供的业务系统故障检测装置3包括:
获取模块31,用于获取第一业务系统的运维日志,第一业务系统的运维日志用于记录第一业务系统的系统报错;
解析模块32,用于解析第一业务系统的运维日志,获取关键字标识,关键字标识用于表征系统报错对应的错误类别;
确定模块33,用于基于预设的预测模型,以及关键字标识,确定第二业务系统,其中,预测模型用于预测不同的错误类别的系统报错对关联业务系统的影响,第二业务系统为受第一业务系统的系统报错影响的关联业务系统。
其中,获取模块31、解析模块32和确定模块33依次连接。本实施例提供的业务系统故障检测装置3可以执行如图2-5任一所示的方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本申请一个实施例提供的电子设备的示意图,如图7所示,本实施例提供的电子设备4包括:存储器41,处理器42以及计算机程序。
其中,计算机程序存储在存储器41中,并被配置为由处理器42执行以实现本申请图2-图5所对应的实施例中任一实施例提供的业务系统故障检测方法。
其中,存储器41和处理器42通过总线43连接。
相关说明可以对应参见图2-图5所对应的实施例中的步骤所对应的相关描述和效果进行理解,此处不做过多赘述。
本申请一个实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现本申请图2-图5所对应的实施例中任一实施例提供的业务系统故障检测方法。
其中,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本申请一个实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请图2-图5所对应的实施例中任一实施例提供的业务系统故障检测方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (13)

1.一种业务系统故障检测方法,其特征在于,所述方法包括:
获取第一业务系统的运维日志,所述第一业务系统的运维日志用于记录所述第一业务系统的系统报错;
解析所述第一业务系统的运维日志,获取关键字标识,所述关键字标识用于表征所述系统报错对应的错误类别;
基于预设的预测模型,以及所述关键字标识,确定第二业务系统,其中,所述预测模型用于预测不同的错误类别的系统报错对关联业务系统的影响,第二业务系统为受所述第一业务系统的系统报错影响的关联业务系统。
2.根据权利要求1所述的方法,其特征在于,基于预设的预测模型,以及所述关键字标识,确定第二业务系统,包括:
获取系统关联信息,所述系统关联信息用于表征不同的关联业务系统与所述第一业务系统之间的关联关系;
将所述系统关联信息和所述关键字标识输入所述预测模型,获得所述预测模型输出的系统标识,所述系统标识用于指示所述第二业务系统。
3.根据权利要求2所述的方法,其特征在于,所述预测模型包括预训练的注意机制的双向编码BERT模型和预训练的双向长短期记忆网络BiLSTM模型;
将所述系统关联信息和所述关键字标识输入所述预测模型,获得所述预测模型输出的系统标识,包括:
根据所述预训练的BERT模型,对所述关键字标识进行处理,生成所述关键字标识的词向量;
将所述词向量和系统关联信息,输入预训练的BiLSTM模型,得到所述系统标识。
4.根据权利要求3所述的方法,其特征在于,所述预训练的BiLSTM模型包括注意力Attention层;所述Attention层用于对所述关键字标识的上下文信息进行加权。
5.根据权利要求2所述的方法,其特征在于,所述第二业务系统包括多个关联业务系统,所述方法还包括:
获得所述预测模型输出的系统影响权重,所述系统影响权重与所述系统标识一一对应,所述系统影响权重表征所述关联业务系统受所述第一业务系统的系统报错的影响程度;
根据预设的权重阈值,向所述系统影响权重大于所述权重阈值的关联业务系统对应的终端设备发送报警信息。
6.根据权利要求1所述的方法,其特征在于,解析所述第一业务系统的运维日志,获取关键字标识,包括:
获取预设的分词库;
基于所述分词库,对所述运维日志中的异常信息进行分词,生成关键字标识。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
根据预设的关键字权重信息,确定各所述关键字标识对应的权重值,其中,所述关键字权重信息用于表征不同关键字标识与权重值的映射关系,所述权重值用于表征所述错误类别对应的系统报错对所述关联业务系统的影响程度;
基于预设的预测模型,以及所述关键字标识,确定第二业务系统,包括:
基于预设的预测模型,以及所述权重值大于预设权重的关键字标识,确定第二业务系统。
8.根据权利要求1-7任一项所述的方法,其特征在于,获取第一业务系统的运维日志,包括:
当检测到第一业务系统出现系统报错时,确定所述系统报错发生的时间信息;
根据所述时间信息,获取对应的第一业务系统的运维日志。
9.根据权利要求1-7任一项所述的方法,其特征在于,在确定所述第二业务系统之后,所述方法还包括:
向所述第二业务系统对应的终端设备发送报警信息,所述报警信息包括所述第一业务系统的标识,以及所述第一业务系统的系统报错。
10.一种业务系统故障检测装置,其特征在于,包括:
获取模块,用于获取第一业务系统的运维日志,所述第一业务系统的运维日志用于记录所述第一业务系统的系统报错;
解析模块,用于解析所述第一业务系统的运维日志,获取关键字标识,所述关键字标识用于表征所述系统报错对应的错误类别;
确定模块,用于基于预设的预测模型,以及所述关键字标识,确定第二业务系统,其中,所述预测模型用于预测不同的错误类别的系统报错对关联业务系统的影响,第二业务系统为受所述第一业务系统的系统报错影响的关联业务系统。
11.一种电子设备,其特征在于,包括:存储器,处理器以及计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1至9中任一项所述的业务系统故障检测方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至9任一项所述的业务系统故障检测方法。
13.一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至9中任一项所述的业务系统故障检测方法。
CN202110742715.4A 2021-06-30 2021-06-30 业务系统故障检测方法、装置、电子设备及存储介质 Pending CN113360360A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110742715.4A CN113360360A (zh) 2021-06-30 2021-06-30 业务系统故障检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110742715.4A CN113360360A (zh) 2021-06-30 2021-06-30 业务系统故障检测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113360360A true CN113360360A (zh) 2021-09-07

Family

ID=77537672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110742715.4A Pending CN113360360A (zh) 2021-06-30 2021-06-30 业务系统故障检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113360360A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113778800A (zh) * 2021-09-14 2021-12-10 上海绚显科技有限公司 一种报错信息处理方法、装置、系统、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113778800A (zh) * 2021-09-14 2021-12-10 上海绚显科技有限公司 一种报错信息处理方法、装置、系统、设备及存储介质
CN113778800B (zh) * 2021-09-14 2023-08-18 上海绚显科技有限公司 一种报错信息处理方法、装置、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
CN112436968B (zh) 一种网络流量的监测方法、装置、设备及存储介质
CN105095052B (zh) Soa环境下的故障检测方法及装置
CN110674009B (zh) 应用服务器性能监测方法、装置、存储介质及电子设备
CN111204363B (zh) 一种牵引系统故障诊断预警和状态评估方法、装置及系统
CN112308126A (zh) 故障识别模型训练方法、故障识别方法、装置及电子设备
CN115576738B (zh) 一种基于芯片分析实现设备故障确定的方法及系统
CN111708687B (zh) 一种设备异常指标确定方法、装置、设备和存储介质
CN116389235A (zh) 一种应用于工业物联网的故障监测方法及系统
CN114255784A (zh) 一种基于声纹识别的变电站设备故障诊断方法及相关装置
CN112115618A (zh) 一种基于矩阵图及置信度的电力设备故障诊断方法及系统
CN113670434A (zh) 变电站设备声音异常识别方法、装置和计算机设备
CN116361147A (zh) 测试用例根因定位方法及其装置、设备、介质、产品
CN116089218A (zh) 基于Kubernetes的历史数据和趋势分析的动态基线告警方法及系统
CN113360360A (zh) 业务系统故障检测方法、装置、电子设备及存储介质
CN117240527A (zh) 一种网络安全风险防范系统及方法
CN113535458B (zh) 异常误报的处理方法及装置、存储介质、终端
CN114896096A (zh) 基于图像识别算法的数据中心设备故障预测系统及方法
CN114118208A (zh) 基于多元信息的变压器故障判断方法、装置及电子设备
CN112255367A (zh) 一种化学仪表检测系统及方法
CN115145623A (zh) 软件业务系统的白盒监控方法、装置、设备和存储介质
CN116260640B (zh) 基于人工智能进行大数据分析的信息拦截控制方法及系统
CN117632659A (zh) 日志异常处理方法、装置、设备及介质
CN113037550B (zh) 一种服务故障监控方法、系统及计算机可读存储介质
CN117009909B (zh) 自动报障模型的构建方法、自动报障方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination