CN115509797A - 一种故障类别的确定方法、装置、设备及介质 - Google Patents

一种故障类别的确定方法、装置、设备及介质 Download PDF

Info

Publication number
CN115509797A
CN115509797A CN202211462981.2A CN202211462981A CN115509797A CN 115509797 A CN115509797 A CN 115509797A CN 202211462981 A CN202211462981 A CN 202211462981A CN 115509797 A CN115509797 A CN 115509797A
Authority
CN
China
Prior art keywords
fault
target
log
field
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211462981.2A
Other languages
English (en)
Inventor
张大伟
陈秋华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Youtejie Information Technology Co ltd
Original Assignee
Beijing Youtejie Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Youtejie Information Technology Co ltd filed Critical Beijing Youtejie Information Technology Co ltd
Priority to CN202211462981.2A priority Critical patent/CN115509797A/zh
Publication of CN115509797A publication Critical patent/CN115509797A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种故障类别的确定方法、装置、设备及介质。该方法包括:当检测到存在报错信号时,获取当前系统对应的当前日志,并对所述当前日志进行分类处理,得到分类日志组;在各分类日志组中获取与目标日志模板匹配的关键字段,作为待选故障组;依据待选故障组中目标故障字段值及目标故障字段的分布情况确定目标故障的时域分布情况;依据目标故障的时域分布情况,确定目标故障的故障类别;其中,故障类别包括常规故障和非常规故障。通过本发明的技术方案,能够快速且准确地识别出系统日志中的非常规故障或常规故障,提高了故障类别的判断效率及准确率。

Description

一种故障类别的确定方法、装置、设备及介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种故障类别的确定方法、装置、设备及介质。
背景技术
在计算机技术领域,系统日志中存在的一些异常故障将会对系统的稳定运行造成极大的影响,同时,也有一些异常故障并不会对系统的稳定运行造成影响。因此,如何识别出对系统的稳定运行造成影响的异常故障,使得系统得以正常运行十分重要。
现有技术中,通常需要依靠经验丰富的开发人员参与异常故障的判断与诊断。但是,由于各系统的开发差异性,仅依靠开发人员去判断相应异常故障是否会对系统的稳定运行造成影响,会导致分析结果并不全面和准确。因此,如何识别出对系统的稳定运行造成影响的异常故障,提高故障类别的判断效率及准确率,是目前亟待解决的问题。
发明内容
本发明提供了一种故障类别的确定方法、装置、设备及介质,可以快速且准确地对系统的故障类别进行判断。
根据本发明的一方面,提供了一种故障类别的确定方法,包括:
当检测到存在报错信号时,获取当前系统对应的当前日志,并对所述当前日志进行分类处理,得到分类日志组;
在各分类日志组中获取与目标日志模板匹配的关键字段,作为待选故障组;
依据待选故障组中目标故障字段值及目标故障字段的分布情况确定目标故障的时域分布情况;
依据目标故障的时域分布情况,确定目标故障的故障类别;其中,故障类别包括常规故障和非常规故障。
根据本发明的另一方面,提供了一种故障类别的确定装置,包括:
分类日志组获取模块,用于当检测到存在报错信号时,获取当前系统对应的当前日志,并对所述当前日志进行分类处理,得到分类日志组;
待选故障组获取模块,用于在各分类日志组中获取与目标日志模板匹配的关键字段,作为待选故障组;
分布情况确定模块,用于依据待选故障组中目标故障字段值及目标故障字段的分布情况确定目标故障的时域分布情况;
故障类别确定模块,用于依据目标故障的时域分布情况,确定目标故障的故障类别;其中,故障类别包括常规故障和非常规故障。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的故障类别的确定方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的故障类别的确定方法。
本发明实施例的技术方案,通过在检测到存在报错信号时,对当前系统对应的当前日志进行分类处理,得到分类日志组;并在各分类日志组中获取与目标日志模板匹配的关键字段,作为待选故障组;进而,依据待选故障组中目标故障字段值及目标故障字段的分布情况确定目标故障的时域分布情况;最后,依据目标故障的时域分布情况,确定目标故障的故障类别;其中,故障类别包括常规故障和非常规故障,解决了故障类别的分析速率较低的问题,可以快速且准确地识别出异常故障的故障类别。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种故障类别的确定方法的流程图;
图2是根据本发明实施例二提供的一种故障类别的确定方法的流程图;
图3是根据本发明实施例二提供的一种时域分布情况的结果示意图;
图4是根据本发明实施例二提供的一种故障类别的确定方法的流程示意图;
图5是根据本发明实施例三提供的一种故障类别的确定装置的结构示意图;
图6是实现本发明实施例的故障类别的确定方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“目标”、“当前”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供了一种故障类别的确定方法的流程图,本实施例可适用于对系统中常规故障和非常规故障的类别进行识别的情况,该方法可以由故障类别的确定装置来执行,该故障类别的确定装置可以采用硬件和/或软件的形式实现,该故障类别的确定装置可配置于电子设备中。如图1所示,该方法包括:
S110、当检测到存在报错信号时,获取当前系统对应的当前日志,并对所述当前日志进行分类处理,得到分类日志组。
其中,报错信号可以指系统出现异常故障时,发出的警示信号。示例性的,可以根据标识关键字检测是否存在报错信号。具体的,可以根据信号中是否存在“error”字段,判断该信号是否为报错信号。
其中,当前系统可以指需要进行故障类别判断的系统。示例性的,可以为基于java开发的系统。当前日志可以指出现报错信号时,当前系统对应的所有日志。示例性的,可以包含出现报错信号时系统产生的正常日志,也可以包含出现报错信号时系统产生的故障日志。
其中,分类日志组可以指根据当前日志中各日志的形式类别,将各日志分类后形成的分组。示例性的,可以按照各日志的行数,将相同行数的日志划分至同一分类日志组。
S120、在各分类日志组中获取与目标日志模板匹配的关键字段,作为待选故障组。
其中,目标日志模板可以指预先设定的用于对各分类日志组中的异常故障进行识别的模板。关键字段可以指表示包含异常故障对应的故障字段值及故障字段的片段。待选故障组可以指包含至少一个关键字段的集合。
S130、依据待选故障组中目标故障字段值及目标故障字段的分布情况确定目标故障的时域分布情况。
其中,目标故障字段可以指目标故障所对应的属性信息。目标故障字段值可以指目标故障的具体属性值。目标故障可以指需要进行故障类别分析的故障。目标故障的时域分布情况可以指目标故障在时域中的具体分布情况。
S140、依据目标故障的时域分布情况,确定目标故障的故障类别;其中,故障类别包括常规故障和非常规故障。
其中,常规故障可以指在目标故障的时域分布情况中发生频率较大且不影响系统正常运行的故障。示例性的,可以将每天都会产生的故障标记为常规故障。非常规故障可以指在目标故障的时域分布情况中发生频率较小且影响系统正常运行的故障。示例性的,可以将非每天都会产生的故障标记为非常规故障。
具体的,在获取目标故障的时域分布情况之后,可以筛选出发生频率较大且不影响系统正常运行的故障作为常规故障,也可以筛选出发生频率较小且影响系统正常运行的故障作为非常规故障。
本发明实施例的技术方案,通过在检测到存在报错信号时,对当前系统对应的当前日志进行分类处理,得到分类日志组;并在各分类日志组中获取与目标日志模板匹配的关键字段,作为待选故障组;进而,依据待选故障组中目标故障字段值及目标故障字段的分布情况确定目标故障的时域分布情况;最后,依据目标故障的时域分布情况,确定目标故障的故障类别;其中,故障类别包括常规故障和非常规故障,解决了故障类别的分析速率较低的问题,可以快速且准确地识别出异常故障的故障类别。
实施例二
图2为本发明实施例二提供的一种故障类别的确定方法的流程图,本实施例以上述实施例为基础进行细化,在本实施例中具体是对在各分类日志组中获取与目标日志模板匹配的关键字段,作为待选故障组的操作进行细化,具体可以包括:分别获取各分类日志组中包含的所有日志;依据正则解析规则确定各日志中目标字段和目标字段值的分隔符,得到日志片段;
在所述日志片段中获取与目标日志模板匹配的关键字段,将命名一致的关键字段集合,生成待选故障组。如图2所示,该方法包括:
S210、当检测到存在报错信号时,获取当前系统对应的当前日志。
S220、依据所述当前日志中各日志的类别,将所述当前日志进行类别划分,得到待选日志组。
其中,待选日志组可以指包含当前日志中同一类别日志的组合。
S230、依据标准时间格式对所述待选日志组中的时间信息进行标准化处理,得到分类日志组。
其中,时间信息可以指表示各日志产生时间的信息。示例性的,时间信息可以包含各条日志产生的年、月、日及具体时间点信息。标准时间格式可以指预先设定的用于对各条日志中的时间信息进行标准化处理的格式。示例性的,可以将标准时间格式,即时间戳,设定为形如:"timestamp" :"2011-09-12 13:00:42.000"的格式。由此,可以将各条日志中的时间信息进行一致化规范,为后续提取时间信息提供便利。
S240、分别获取各分类日志组中包含的所有日志。
S250、依据正则解析规则确定各日志中目标字段和目标字段值的分隔符,得到日志片段。
其中,正则解析规则可以指一种字符串或字符匹配的规则,可以用于解析字符串中是否含有某种字符。示例性的,可以解析各日志中是否含有目标字段和目标字段值的分隔符等。
其中,目标字段可以指用于识别异常故障的字段名。示例性的,目标字段可以为“exception”。目标字段值可以指用于识别异常故障对应字段值的字段值名称。示例性的,目标字段值可以为“exception_content”。日志片段可以指根据各日志中目标字段和目标字段值的分隔符,在各日志中提取的片段。
S260、在所述日志片段中获取与目标日志模板匹配的关键字段,将命名一致的关键字段集合,生成待选故障组。
在一个可选的实施方式中,在将命名一致的关键字段集合之前,还包括:依据预设命名规范,规范化处理所述关键字段的命名格式。其中,预设命名规范可以指预先设定的用于对关键字段的字段名进行规范化处理的规则。示例性的,可以将同一属性的关键字段的字段名依据属性名称进行规范化处理。具体的,若关键字段1的字段名为cpu1.exception,关键字段2的字段名为cpu2.exception,但关键字段1和关键字段2属于cpu,则可以将关键字段1和关键字段2的字段名规范化处理为cpu.exception。由此,将关键字段的明明就进行统一,可以为后续的统计提供有效的基础。
S270、获取所述待选故障组对应的目标时间信息,并将目标时间信息对应的系统日志中的目标故障字段统计值作为目标故障对应的第一统计值。
其中,目标时间信息可以指待选故障组中各日志的产生日期。目标故障字段统计值可以指目标时间信息对应的系统日志中包含目标故障字段的统计值。第一统计值可以指针对目标时间信息对应的系统日志获取的目标故障字段统计值。
值得注意的是,目标故障字段可以依据待选故障组中各关键字段的字段名获取。
在一个可选的实施方式中,将目标时间信息对应的系统日志中的目标故障字段统计值作为目标故障对应的第一统计值,包括:在目标时间信息对应的系统日志中,获取包含目标故障字段的故障统计值,作为目标故障的第一统计值。示例性的,若待选故障组对应的目标时间信息为2022年5月18日,目标故障字段为a. exception,则可以在2022年5月18日的所有系统日志中筛选出字段为a. exception的异常故障,并将筛选结果作为目标故障的第一统计值。
具体的,以目标时间信息为2022年5月18日,目标故障字段为a. exception为例,在本发明实施例中可以使用如下命名格式获取目标故障的第一统计值cnt_0518:
Figure 608319DEST_PATH_IMAGE001
其中,starttime可以表示开始时间,endtime可以表示结束时间。appname可以表示数据标签字段,用于标识选取哪类数据进行数字化转换。stats可以用于统计返回统计目标故障字段的出现次数。append可以用于将统计结果附加于其余统计结果之后,通常可以根据各时间信息的先后顺序设定统计信息的连接顺序。
由此,获得了“2022年5月18日”针对于目标故障的第一统计值,为后续的进一步统计提供基础。
S280、获取在目标时间信息的预设时间段内的历史系统日志,并将历史系统日志中的目标故障字段统计值作为目标故障对应的第二统计值。
其中,预设时间段可以指预先设定的用于对除目标时间信息外的历史时间信息进行评估的数值。示例性的,可以为七天,也可以为五天等,本发明实施例对此不进行限制。历史系统日志可以指当前系统在目标时间信息之前的预设时间段内生成的日志。第二统计值可以指针对历史系统日志获取的目标故障字段统计值。
在一个可选的实施方式中,将历史系统日志中的目标故障字段统计值作为目标故障对应的第二统计值,包括:在各历史系统日志中获取包含目标故障字段的故障统计值,作为目标故障的第二统计值。具体的,以预设时间段为六天,目标时间信息为2022年5月18日,目标故障字段为a. exception为例,在本发明实施例中可以使用如下命名格式获取目标故障的第二统计值cnt_0512、cnt_0513、cnt_0514、cnt_0515、cnt_0516及cnt_0517:
Figure 791038DEST_PATH_IMAGE002
Figure 774038DEST_PATH_IMAGE003
其中,rename可以用于命名格式的统一,便于后续统计的使用。
由此,获得了在目标时间信息的预设时间段之前的历史系统日志中目标故障字段统计值,为后续的进一步统计提供基础。
S290、依据所述第一统计值及第二统计值中目标故障字段及目标故障字段值的分布情况确定目标故障的时域分布情况。
具体的,在获取第一统计值及第二统计值之后,还可以根据目标故障字段及目标故障字段值的具体分布情况进行统计分组,进而,得到目标故障的时域分布情况。
在一个可选的实施方式中,依据所述第一统计值及第二统计值中目标故障字段及目标故障字段值的分布情况确定目标故障的时域分布情况,包括:依据目标故障字段及目标故障字段值分别对所述第一统计值及第二统计值做求和计算,得到包含目标故障字段及目标故障字段值的目标故障的数量分布情况,作为目标故障的时域分布情况。其中,求和计算可以指将目标故障字段及目标故障字段值进行分组统计。示例性的,可以使用sum进行求和计算,以目标故障字段及目标故障字段值做分组统计。具体的,接上述示例,以第一统计值为cnt_0518,第二统计值为cnt_0512、cnt_0513、cnt_0514、cnt_0515、cnt_0516及cnt_0517,目标故障字段为a. exception,目标故障字段值为a.detail为例,在本发明实施例中可以使用如下命名格式获取目标故障的时域分布情况:
Figure 169247DEST_PATH_IMAGE004
S2100、依据目标故障的时域分布情况,确定目标故障的故障类别;其中,故障类别包括常规故障和非常规故障。
如图3所示为本发明实施例提供的一种时域分布情况的结果示意图;具体的,可以从图3中获知目标故障字段为短信平台故障(sms.exception)的资源池连接故障(redis.clients.jedis.exceptions.JedisConnectionException)以及内部表示转换故障java.sql.SQLException在第一统计值及第二统计值中均存在统计数值,并且统计数值的数量逐渐增长,因此,上述两种目标故障即可判定为发生频率较大且不影响系统正常运行的常规故障;同理,可以获知空指针故障(java.lang.NullPointerException)、连接被拒绝故障(java.net.ConnectException)、响应状态故障(java.lang.IllegalStateException)及无路由故障(java.net.NoRouteToHostException)并不是在在第一统计值及第二统计值中均存在统计数值,因此,上述目标故障即可判定为发生频率较小且影响系统正常运行的非常规故障。进而,可以将非常规故障进行上报,使得开发人员可以及时地获知非常规故障并对当前系统进行维护,以保证当前系统的稳定运行。
本发明实施例的技术方案,通过在检测到存在报错信号时,依据当前日志中各日志的类别,对当前日志进行类别划分,得到待选日志组;并依据标准时间格式对待选日志组中的时间信息进行标准化处理,得到分类日志组;之后,分别获取各分类日志组中包含的所有日志,并依据正则解析规则确定各日志中目标字段和目标字段值的分隔符,得到日志片段,进而,在日志片段中获取与目标日志模板匹配的关键字段,将命名一致的关键字段集合,生成待选故障组;获取待选故障组对应的目标时间信息,并将目标时间信息对应的系统日志中的目标故障字段统计值作为目标故障对应的第一统计值;进一步的,获取在目标时间信息的预设时间段内的历史系统日志,并将历史系统日志中的目标故障字段统计值作为目标故障对应的第二统计值;最后,依据第一统计值及第二统计值中目标故障字段及目标故障字段值的分布情况确定目标故障的时域分布情况,并依据目标故障的时域分布情况,确定目标故障的故障类别,解决了故障类别的分析速率较低的问题,可以快速且准确地识别出异常故障的故障类别。
图4是根据本发明实施例二提供的一种故障类别的确定方法的流程示意图;具体的,当检测到存在报错信号时,获取当前系统对应的当前日志(即原始日志),并依据各日志之间的相似度进行聚合,得到分类日志;进而,依据日志模板(即目标日志模板)在各分类日志中进行字段提取,得到待选故障组;最后,依据待选故障组对目标故障的分布情况进行数据修正及统计,得到统计信息(即目标故障的时域分布情况),并根据统计信息确定目标故障的故障类别。由此,能够快速且准确地识别出系统日志中的非常规故障或常规故障,提高了故障类别的判断效率及准确率。
实施例三
图5为本发明实施例三提供的一种故障类别的确定装置的结构示意图。如图5所示,该装置包括:
其中,分类日志组获取模块310,用于当检测到存在报错信号时,获取当前系统对应的当前日志,并对所述当前日志进行分类处理,得到分类日志组;
待选故障组获取模块320,用于在各分类日志组中获取与目标日志模板匹配的关键字段,作为待选故障组;
分布情况确定模块330,用于依据待选故障组中目标故障字段值及目标故障字段的分布情况确定目标故障的时域分布情况;
故障类别确定模块340,用于依据目标故障的时域分布情况,确定目标故障的故障类别;其中,故障类别包括常规故障和非常规故障。
本发明实施例的技术方案,通过在检测到存在报错信号时,对当前系统对应的当前日志进行分类处理,得到分类日志组;并在各分类日志组中获取与目标日志模板匹配的关键字段,作为待选故障组;进而,依据待选故障组中目标故障字段值及目标故障字段的分布情况确定目标故障的时域分布情况;最后,依据目标故障的时域分布情况,确定目标故障的故障类别;其中,故障类别包括常规故障和非常规故障,解决了故障类别的分析速率较低的问题,可以快速且准确地识别出异常故障的故障类别。
可选的,分类日志组获取模块310,具体可以用于:依据所述当前日志中各日志的类别,将所述当前日志进行类别划分,得到待选日志组;
依据标准时间格式对所述待选日志组中的时间信息进行标准化处理,得到分类日志组。
可选的,待选故障组获取模块320,具体可以包括:数据获取单元、日志片段获取单元及待选故障组生成单元;
其中,数据获取单元,用于分别获取各分类日志组中包含的所有日志;
日志片段获取单元,用于依据正则解析规则确定各日志中目标字段和目标字段值的分隔符,得到日志片段;
待选故障组生成单元,用于在所述日志片段中获取与目标日志模板匹配的关键字段,将命名一致的关键字段集合,生成待选故障组。
可选的,故障类别的确定装置,还可以包括:命名规范模块,用于在将命名一致的关键字段集合之前,依据预设命名规范,规范化处理所述关键字段的命名格式。
可选的,分布情况确定模块330,具体可以包括:第一统计值计算单元、第二统计值计算单元及分布情况确定单元;
其中,第一统计值计算单元,用于获取所述待选故障组对应的目标时间信息,并将目标时间信息对应的系统日志中的目标故障字段统计值作为目标故障对应的第一统计值;
第二统计值计算单元,用于获取在目标时间信息的预设时间段内的历史系统日志,并将历史系统日志中的目标故障字段统计值作为目标故障对应的第二统计值;
分布情况确定单元,用于依据所述第一统计值及第二统计值中目标故障字段及目标故障字段值的分布情况确定目标故障的时域分布情况。
可选的,第一统计值计算单元,具体可以用于:在目标时间信息对应的系统日志中,获取包含目标故障字段的故障统计值,作为目标故障的第一统计值;
第二统计值计算单元,具体可以用于:在各历史系统日志中获取包含目标故障字段的故障统计值,作为目标故障的第二统计值。
可选的,分布情况确定单元,具体可以用于:依据目标故障字段及目标故障字段值分别对所述第一统计值及第二统计值做求和计算,得到包含目标故障字段及目标故障字段值的目标故障的数量分布情况,作为目标故障的时域分布情况。
本发明实施例所提供的故障类别的确定装置可执行本发明任意实施例所提供的故障类别的确定方法,具备执行方法相应的功能模块和有益效果。
实施例四
图6示出了可以用来实施本发明的实施例的电子设备410的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图6所示,电子设备410包括至少一个处理器420,以及与至少一个处理器420通信连接的存储器,如只读存储器(ROM)430、随机访问存储器(RAM)440等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器420可以根据存储在只读存储器(ROM)430中的计算机程序或者从存储单元490加载到随机访问存储器(RAM)440中的计算机程序,来执行各种适当的动作和处理。在RAM 440中,还可存储电子设备410操作所需的各种程序和数据。处理器420、ROM 430以及RAM440通过总线450彼此相连。输入/输出(I/O)接口460也连接至总线450。
电子设备410中的多个部件连接至I/O接口460,包括:输入单元470,例如键盘、鼠标等;输出单元480,例如各种类型的显示器、扬声器等;存储单元490,例如磁盘、光盘等;以及通信单元4100,例如网卡、调制解调器、无线通信收发机等。通信单元4100允许电子设备410通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器420可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器420的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器420执行上文所描述的各个方法和处理,例如故障类别的确定方法。
该方法包括:
当检测到存在报错信号时,获取当前系统对应的当前日志,并对所述当前日志进行分类处理,得到分类日志组;
在各分类日志组中获取与目标日志模板匹配的关键字段,作为待选故障组;
依据待选故障组中目标故障字段值及目标故障字段的分布情况确定目标故障的时域分布情况;
依据目标故障的时域分布情况,确定目标故障的故障类别;其中,故障类别包括常规故障和非常规故障。
在一些实施例中,故障类别的确定方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元490。在一些实施例中,计算机程序的部分或者全部可以经由ROM 430和/或通信单元4100而被载入和/或安装到电子设备410上。当计算机程序加载到RAM 440并由处理器420执行时,可以执行上文描述的故障类别的确定方法的一个或多个步骤。备选地,在其他实施例中,处理器420可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行故障类别的确定方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种故障类别的确定方法,其特征在于,包括:
当检测到存在报错信号时,获取当前系统对应的当前日志,并对所述当前日志进行分类处理,得到分类日志组;
在各分类日志组中获取与目标日志模板匹配的关键字段,作为待选故障组;
依据待选故障组中目标故障字段值及目标故障字段的分布情况确定目标故障的时域分布情况;
依据目标故障的时域分布情况,确定目标故障的故障类别;其中,故障类别包括常规故障和非常规故障。
2.根据权利要求1所述的方法,其特征在于,所述对所述当前日志进行分类处理,得到分类日志组,包括:
依据所述当前日志中各日志的类别,将所述当前日志进行类别划分,得到待选日志组;
依据标准时间格式对所述待选日志组中的时间信息进行标准化处理,得到分类日志组。
3.根据权利要求1所述的方法,其特征在于,所述在各分类日志组中获取与目标日志模板匹配的关键字段,作为待选故障组,包括:
分别获取各分类日志组中包含的所有日志;
依据正则解析规则确定各日志中目标字段和目标字段值的分隔符,得到日志片段;
在所述日志片段中获取与目标日志模板匹配的关键字段,将命名一致的关键字段集合,生成待选故障组。
4.根据权利要求3所述的方法,其特征在于,在将命名一致的关键字段集合之前,还包括:
依据预设命名规范,规范化处理所述关键字段的命名格式。
5.根据权利要求1所述的方法,其特征在于,所述依据待选故障组中目标故障字段值及目标故障字段的分布情况确定目标故障的时域分布情况,包括:
获取所述待选故障组对应的目标时间信息,并将目标时间信息对应的系统日志中的目标故障字段统计值作为目标故障对应的第一统计值;
获取在目标时间信息的预设时间段内的历史系统日志,并将历史系统日志中的目标故障字段统计值作为目标故障对应的第二统计值;
依据所述第一统计值及第二统计值中目标故障字段及目标故障字段值的分布情况确定目标故障的时域分布情况。
6.根据权利要求5所述的方法,其特征在于,所述将目标时间信息对应的系统日志中的目标故障字段统计值作为目标故障对应的第一统计值,包括:
在目标时间信息对应的系统日志中,获取包含目标故障字段的故障统计值,作为目标故障的第一统计值;
将历史系统日志中的目标故障字段统计值作为目标故障对应的第二统计值,包括:
在各历史系统日志中获取包含目标故障字段的故障统计值,作为目标故障的第二统计值。
7.根据权利要求5所述的方法,其特征在于,所述依据所述第一统计值及第二统计值中目标故障字段及目标故障字段值的分布情况确定目标故障的时域分布情况,包括:
依据目标故障字段及目标故障字段值分别对所述第一统计值及第二统计值做求和计算,得到包含目标故障字段及目标故障字段值的目标故障的数量分布情况,作为目标故障的时域分布情况。
8.一种故障类别的确定装置,其特征在于,包括:
分类日志组获取模块,用于当检测到存在报错信号时,获取当前系统对应的当前日志,并对所述当前日志进行分类处理,得到分类日志组;
待选故障组获取模块,用于在各分类日志组中获取与目标日志模板匹配的关键字段,作为待选故障组;
分布情况确定模块,用于依据待选故障组中目标故障字段值及目标故障字段的分布情况确定目标故障的时域分布情况;
故障类别确定模块,用于依据目标故障的时域分布情况,确定目标故障的故障类别;其中,故障类别包括常规故障和非常规故障。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的故障类别的确定方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的故障类别的确定方法。
CN202211462981.2A 2022-11-22 2022-11-22 一种故障类别的确定方法、装置、设备及介质 Pending CN115509797A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211462981.2A CN115509797A (zh) 2022-11-22 2022-11-22 一种故障类别的确定方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211462981.2A CN115509797A (zh) 2022-11-22 2022-11-22 一种故障类别的确定方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN115509797A true CN115509797A (zh) 2022-12-23

Family

ID=84513849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211462981.2A Pending CN115509797A (zh) 2022-11-22 2022-11-22 一种故障类别的确定方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN115509797A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028868A (zh) * 2023-02-15 2023-04-28 深圳市信润富联数字科技有限公司 设备故障分类方法、装置、电子设备及可读存储介质
CN117827620A (zh) * 2024-03-05 2024-04-05 云账户技术(天津)有限公司 异常诊断方法、模型的训练方法、装置、设备及存储介质
CN117827620B (zh) * 2024-03-05 2024-05-10 云账户技术(天津)有限公司 异常诊断方法、模型的训练方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179959A (zh) * 2017-05-19 2017-09-19 郑州云海信息技术有限公司 一种预测计算机运行故障的方法、装置和一种存储介质
CN109193947A (zh) * 2018-10-22 2019-01-11 深圳深宝电器仪表有限公司 配电房监控方法、装置、服务器及计算机可读存储介质
US20210303381A1 (en) * 2020-03-31 2021-09-30 Accenture Global Solutions Limited System and method for automating fault detection in multi-tenant environments
CN113472555A (zh) * 2020-03-30 2021-10-01 华为技术有限公司 故障检测方法、系统、装置、服务器及存储介质
CN115037597A (zh) * 2022-05-20 2022-09-09 青岛海信网络科技股份有限公司 一种故障检测方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107179959A (zh) * 2017-05-19 2017-09-19 郑州云海信息技术有限公司 一种预测计算机运行故障的方法、装置和一种存储介质
CN109193947A (zh) * 2018-10-22 2019-01-11 深圳深宝电器仪表有限公司 配电房监控方法、装置、服务器及计算机可读存储介质
CN113472555A (zh) * 2020-03-30 2021-10-01 华为技术有限公司 故障检测方法、系统、装置、服务器及存储介质
US20210303381A1 (en) * 2020-03-31 2021-09-30 Accenture Global Solutions Limited System and method for automating fault detection in multi-tenant environments
CN115037597A (zh) * 2022-05-20 2022-09-09 青岛海信网络科技股份有限公司 一种故障检测方法及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028868A (zh) * 2023-02-15 2023-04-28 深圳市信润富联数字科技有限公司 设备故障分类方法、装置、电子设备及可读存储介质
CN117827620A (zh) * 2024-03-05 2024-04-05 云账户技术(天津)有限公司 异常诊断方法、模型的训练方法、装置、设备及存储介质
CN117827620B (zh) * 2024-03-05 2024-05-10 云账户技术(天津)有限公司 异常诊断方法、模型的训练方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110928718A (zh) 一种基于关联分析的异常处理方法、系统、终端及介质
CN115033463B (zh) 一种系统异常类型确定方法、装置、设备和存储介质
CN115396289B (zh) 一种故障告警确定方法、装置、电子设备及存储介质
CN115529595A (zh) 一种日志数据的异常检测方法、装置、设备及介质
CN115794578A (zh) 一种电力系统的数据管理方法、装置、设备及介质
CN115509797A (zh) 一种故障类别的确定方法、装置、设备及介质
CN115794744A (zh) 一种日志展示方法、装置、设备和存储介质
CN115048352B (zh) 一种日志字段提取方法、装置、设备和存储介质
CN116414717A (zh) 基于流量回放的自动测试方法、装置、设备、介质及产品
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
CN115687406A (zh) 一种调用链数据的采样方法、装置、设备及存储介质
CN115730284A (zh) 一种报表数据的权限控制方法、装置、设备及存储介质
CN115426287A (zh) 一种系统监控和优化方法、装置、电子设备及介质
CN115422028A (zh) 标签画像体系的可信度评估方法、装置、电子设备及介质
CN114881112A (zh) 一种系统异常检测方法、装置、设备及介质
CN115249043A (zh) 数据分析方法、装置、电子设备及存储介质
CN115204733A (zh) 数据审计方法、装置、电子设备及存储介质
CN116149933B (zh) 一种异常日志数据确定方法、装置、设备及存储介质
CN115858325B (zh) 一种项目日志的调整方法、装置、设备和存储介质
CN116627695B (zh) 一种告警事件根因推荐方法、装置、设备及存储介质
CN115801589B (zh) 一种事件拓扑关系确定方法、装置、设备及存储介质
CN115391374A (zh) 数据匹配方法、装置、电子设备及存储介质
CN117540718A (zh) 一种基于文档对象模型的巡检结果智能统计方法
CN117093558A (zh) 一种日志文件采集信息的生成方法、装置、设备及介质
CN115774648A (zh) 一种异常定位方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20221223