CN114003479B - 一种故障日志推送方法、计算机及存储介质 - Google Patents

一种故障日志推送方法、计算机及存储介质 Download PDF

Info

Publication number
CN114003479B
CN114003479B CN202111278999.2A CN202111278999A CN114003479B CN 114003479 B CN114003479 B CN 114003479B CN 202111278999 A CN202111278999 A CN 202111278999A CN 114003479 B CN114003479 B CN 114003479B
Authority
CN
China
Prior art keywords
fault log
fault
log
model
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111278999.2A
Other languages
English (en)
Other versions
CN114003479A (zh
Inventor
赵永东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111278999.2A priority Critical patent/CN114003479B/zh
Publication of CN114003479A publication Critical patent/CN114003479A/zh
Application granted granted Critical
Publication of CN114003479B publication Critical patent/CN114003479B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提出了一种故障日志推送方法、计算机及存储介质;其中,方法包括:基于历史故障日志训练一个或多个故障日志特征模型;响应于系统生成故障日志,提取故障日志中的特征字段并基于特征字段匹配故障日志特征模型;响应于故障日志的特征字段与对应的故障日志特征模型相匹配,关联故障日志与对应的故障日志特征模型;将故障日志、关联对应的故障日志特征模型的其它故障日志以及关联其它故障日志的附加信息打包推送。本发明提出了一种通过建立故障日志特征模型对服务器日志进行精确分类,并对出现的日志的历史记录结果进行追溯,一方面方便处理和定位分析问题,另外一方面是简化了对于大量日志的筛选工作,有助于提高问题分析的效率。

Description

一种故障日志推送方法、计算机及存储介质
技术领域
本发明涉及日志管理技术领域,尤其涉及一种故障日志推送方法、计算机及存储介质。
背景技术
对服务器日志的分析和监控具有重要的价值。服务器所能产生的日志数量往往是人肉眼难以分析和判断的。定期的进行自动化的分析可以帮助用户了解服务器的运行状况。
然而,现有的日志管理确面临着以下问题:
1.项目众多,日志量很大,需要通过手工命令去待测机器上通过关键字筛选,比较麻烦;
2.对于同类日志出现后,无从知道在过往历史记录中出现过相同或者相似的告警,或者查询起来很困难,而且并没有很多的处理意见保留下来;
3.测试人员需要对大量重复的日志和反复出现的同类日志进行筛选,给分析问题带来很大的困难,也会增加测试分析人员的工作量。
发明内容
为了方面对故障日志的分类管理,在本发明的第一方面,提出了一种故障日志推送方法,所述方法包括:基于历史故障日志训练一个或多个故障日志特征模型;响应于系统生成故障日志,提取所述故障日志中的特征字段并基于所述特征字段匹配所述故障日志特征模型;响应于所述故障日志的特征字段与对应的故障日志特征模型相匹配,关联所述故障日志与所述对应的故障日志特征模型;将所述故障日志、关联所述对应的故障日志特征模型的其它故障日志以及关联所述其它故障日志的附加信息打包推送。
在一个或多个实施例中,所述故障日志特征模型包括固定特征字段以及变量特征字段;相应的,所述响应于所述故障日志的特征字段与对应的故障日志特征模型相匹配,关联所述故障日志与所述对应的故障日志特征模型,包括:响应于所述故障日志的任一特征字段与所述日志特征模型的任一固定特征字段相匹配;以及所述故障日志的特征字段中除与所述故障日志模型的固定特征字段相匹配之外的其它特征字段与所述故障日志特征模型的变量特征字段一一匹配,关联所述故障日志与所述对应的故障日志特征模型。
在一个或多个实施例中,本发明的故障日志推送方法还包括:响应于所述故障日志的任一特征字段与所述日志特征模型的任一固定特征字段相匹配;以及所述故障日志的特征字段中除与所述故障日志模型的固定特征字段相匹配之外的其它特征字段与所述日志特征模型的部分变量特征字段匹配,更新所述故障日志模型的变量特征字段以生成新的故障日志模型。
在一个或多个实施例中,本发明的故障日志推送方法还包括:响应于所述故障日志的各个特征字段均与所述故障日志模型的固定特征字段不匹配;或者所述故障日志的各个特征字段均与所述故障日志模型的变量特征字段不匹配;生成新的故障日志模型,并新增到系统中。
在一个或多个实施例中,本发明的故障日志推送方法还包括:对所述故障日志进行处理,获得处理结果;将所述处理结果保存为附加信息关联到所述故障日志。
在一个或多个实施例中,本发明的故障日志推送方法还包括:所述附加信息包括以下的一种或多种:故障原因、解决方法、处理建议以及BUG单号。
在一个或多个实施例中,本发明的故障日志推送方法还包括:所述基于历史故障日志训练一个或多个故障日志特征模型,包括:获取历史故障日志;通过日志监控系统获取所述历史故障日志的IP地址以定位生成所述历史故障日志的硬件设备;基于不同的所述硬件设备标记所述历史故障日志;对标记后的历史故障日志进行特征提取,并对获得的特征字段基于所述不同的硬件设备进行分类以生成一个或多个故障日志模型;反复训练所述故障日志模型,以区分所述故障日志模型中的固定特征字段以及变量特征字段,其中,所述固定特征字段用于识别导致生成所述历史故障日志的硬件设备。
在本发明的第二方面,提出了一种计算机,包括:至少一个处理器;以及存储器,所述存储器中存储有可运行的计算机程序,所述计算机程序被执行时用于实现如上述任意一实施例中的故障日志推送方法的步骤,步骤包括:基于历史故障日志训练一个或多个故障日志特征模型;响应于系统生成故障日志,提取所述故障日志中的特征字段并基于所述特征字段匹配所述故障日志特征模型;响应于所述故障日志的特征字段与对应的故障日志特征模型相匹配,关联所述故障日志与所述对应的故障日志特征模型;将所述故障日志、关联所述对应的故障日志特征模型的其它故障日志以及关联所述其它故障日志的附加信息打包推送。
在一个或多个实施例中,所述故障日志特征模型包括固定特征字段以及变量特征字段;相应的,所述响应于所述故障日志的特征字段与对应的故障日志特征模型相匹配,关联所述故障日志与所述对应的故障日志特征模型,包括:响应于所述故障日志的任一特征字段与所述日志特征模型的任一固定特征字段相匹配;以及所述故障日志的特征字段中除与所述故障日志模型的固定特征字段相匹配之外的其它特征字段与所述故障日志特征模型的变量特征字段一一匹配,关联所述故障日志与所述对应的故障日志特征模型。
在一个或多个实施例中,本发明的故障日志推送方法还包括:响应于所述故障日志的任一特征字段与所述日志特征模型的任一固定特征字段相匹配;以及所述故障日志的特征字段中除与所述故障日志模型的固定特征字段相匹配之外的其它特征字段与所述日志特征模型的部分变量特征字段匹配,更新所述故障日志模型的变量特征字段以生成新的故障日志模型。
在一个或多个实施例中,本发明的故障日志推送方法还包括:响应于所述故障日志的各个特征字段均与所述故障日志模型的固定特征字段不匹配;或者所述故障日志的各个特征字段均与所述故障日志模型的变量特征字段不匹配;生成新的故障日志模型,并新增到系统中。
在一个或多个实施例中,本发明的故障日志推送方法还包括:对所述故障日志进行处理,获得处理结果;将所述处理结果保存为附加信息关联到所述故障日志。
在一个或多个实施例中,本发明的故障日志推送方法还包括:所述附加信息包括以下的一种或多种:故障原因、解决方法、处理建议以及BUG单号。
在一个或多个实施例中,本发明的故障日志推送方法还包括:所述基于历史故障日志训练一个或多个故障日志特征模型,包括:获取历史故障日志;通过日志监控系统获取所述历史故障日志的IP地址以定位生成所述历史故障日志的硬件设备;基于不同的所述硬件设备标记所述历史故障日志;对标记后的历史故障日志进行特征提取,并对获得的特征字段基于所述不同的硬件设备进行分类以生成一个或多个故障日志模型;反复训练所述故障日志模型,以区分所述故障日志模型中的固定特征字段以及变量特征字段,其中,所述固定特征字段用于识别生成所述历史故障日志的硬件设备。
在本发明的第三方面,提出了一种可读存储介质,所述可读存储介质中存储有可运行的计算机程序,所述计算机程序被执行时用于实现如上述任意一实施例中的故障日志推送方法的步骤,步骤包括:基于历史故障日志训练一个或多个故障日志特征模型;响应于系统生成故障日志,提取所述故障日志中的特征字段并基于所述特征字段匹配所述故障日志特征模型;响应于所述故障日志的特征字段与对应的故障日志特征模型相匹配,关联所述故障日志与所述对应的故障日志特征模型;将所述故障日志、关联所述对应的故障日志特征模型的其它故障日志以及关联所述其它故障日志的附加信息打包推送。
在一个或多个实施例中,所述故障日志特征模型包括固定特征字段以及变量特征字段;相应的,所述响应于所述故障日志的特征字段与对应的故障日志特征模型相匹配,关联所述故障日志与所述对应的故障日志特征模型,包括:响应于所述故障日志的任一特征字段与所述日志特征模型的任一固定特征字段相匹配;以及所述故障日志的特征字段中除与所述故障日志模型的固定特征字段相匹配之外的其它特征字段与所述故障日志特征模型的变量特征字段一一匹配,关联所述故障日志与所述对应的故障日志特征模型。
在一个或多个实施例中,本发明的故障日志推送方法还包括:响应于所述故障日志的任一特征字段与所述日志特征模型的任一固定特征字段相匹配;以及所述故障日志的特征字段中除与所述故障日志模型的固定特征字段相匹配之外的其它特征字段与所述日志特征模型的部分变量特征字段匹配,更新所述故障日志模型的变量特征字段以生成新的故障日志模型。
在一个或多个实施例中,本发明的故障日志推送方法还包括:响应于所述故障日志的各个特征字段均与所述故障日志模型的固定特征字段不匹配;或者所述故障日志的各个特征字段均与所述故障日志模型的变量特征字段不匹配;生成新的故障日志模型,并新增到系统中。
在一个或多个实施例中,本发明的故障日志推送方法还包括:对所述故障日志进行处理,获得处理结果;将所述处理结果保存为附加信息关联到所述故障日志。
在一个或多个实施例中,本发明的故障日志推送方法还包括:所述附加信息包括以下的一种或多种:故障原因、解决方法、处理建议以及BUG单号。
在一个或多个实施例中,本发明的故障日志推送方法还包括:所述基于历史故障日志训练一个或多个故障日志特征模型,包括:获取历史故障日志;通过日志监控系统获取所述历史故障日志的IP地址以定位生成所述历史故障日志的硬件设备;基于不同的所述硬件设备标记所述历史故障日志;对标记后的历史故障日志进行特征提取,并对获得的特征字段基于所述不同的硬件设备进行分类以生成一个或多个故障日志模型;反复训练所述故障日志模型,以区分所述故障日志模型中的固定特征字段以及变量特征字段,其中,所述固定特征字段用于识别生成所述历史故障日志的硬件设备。
本发明的有益效果包括:本发明提出了一种通过建立故障日志特征模型对服务器日志进行精确分类,并对出现的日志的历史记录结果进行追溯和首次日志处理的记录保留,一方面方便测试人员处理和定位分析问题,另外一方面是简化了测试人员对于大量日志的筛选工作,减轻工作量,有助于提高问题分析的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明的一种故障日志推送方法的工作流程图;
图2为本发明的计算机的结构示意图;
图3为本发明的可读存储介质的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。
图1为本发明的一种故障日志推送方法的工作流程图。如图1所示,本发明的故障日志推送方法的工作流程包括:步骤S1、基于历史故障日志训练一个或多个故障日志特征模型;步骤S2、响应于系统生成故障日志,提取故障日志中的特征字段并基于特征字段匹配故障日志特征模型;步骤S3、响应于故障日志的特征字段与对应的故障日志特征模型相匹配,关联故障日志与对应的故障日志特征模型;步骤S4、将故障日志、关联对应的故障日志特征模型的其它故障日志以及关联其它故障日志的附加信息打包推送。
为了更加清楚的阐述本发明的方法,以下将对各步骤结合具体实施例进行详细的说明。
对于步骤S1、基于历史故障日志训练一个或多个故障日志特征模型;本发明训练的故障日志特征模型具体来说是一种特征组合模型,旨在用于后续过程中对新生成的故障日志进行实时匹配,从而确定各日志故障的分类。
在一个实施例中,所述故障日志特征模型包括固定特征字段以及变量特征字段;其中,固定特征字段主要用于确定故障日志所对应的硬件设备,即定位故障的发生位置,而变量特征字段主要用于确定故障原因。可以理解的是,同一个硬件设备可以因多种故障原因而生成多种故障日志,本发明为了能够方便相关人员对故障日志的查询和管理,通过固定特征字段用来定位故障发生位置,并通过变量特征字段来确定故障原因,不同的故障日志特征模型之间,固定特征字段可以完全相同,但是变量特征字段一定不是完全相同的。
下面例举出的是服务器的BMC生成的关于风扇和电源两条故障日志:其中,
风扇的日志:日志中会包含固定特征字段,如:FAN
在一个具体实施例中,训练获得的风扇状态的故障日志特征模型1,如:Fan FANN_Statu+Device Absent,即风扇在位状态故障;
在另一个具体实施例中,训练获得的风扇状态的故障日志特征模型2,如:FanFanN_speed+Lower Critical going low风扇转速异常。
如上述两种故障日志特征模型,其固定特征字段中均包含FAN,但变量特征字段分别为Device Absent和Lower Critical going low。
相应的,在一个实施例中,对于步骤S3中的响应于故障日志的特征字段与对应的故障日志特征模型相匹配,关联故障日志与对应的故障日志特征模型,包括:响应于故障日志的任一特征字段与日志特征模型的任一固定特征字段相匹配;以及故障日志的特征字段中除与故障日志模型的固定特征字段相匹配之外的其它特征字段与日志特征模型的变量特征字段一一匹配,关联故障日志与对应的故障日志特征模型。可以理解的是,在维护过程中由于日志的维护人员不同,其定义故障日志的格式及字段特征也可能不同。因此,在本发明的故障日志特征模型的训练过程中,将通过固定特征字段来识别属于同一硬件设备的故障日志,因此,在进行匹配故障日志特征模型时,当目标故障日志中的任意一个特征与固定特征字段中的任一字段相匹配时,即可确认该目标故障日志所对应的硬件设备,并将由目标故障日志中提取的其他特征与对应故障日志特征模型的变量特征字段相匹配,从而判断目标故障日志是否属于该故障日志特征模型所代表的分类。其中,故障日志的其它特征字段与故障日志特征模型的变量特征字段一一匹配可以理解为故障日志的其它特征字段包含于故障日志特征模型的变量特征字段的组合中。
在一个实施例中,本发明的故障日志特征模型还具备自我学习能力。在使用故障特征模型对故障日志进行分类识别的过程中,故障特征特征模型会根据匹配结果来更新模型中的变量特征部分。具体的,响应于故障日志的任一特征字段与日志特征模型的任一固定特征字段相匹配;以及故障日志的特征字段中除与故障日志模型的固定特征字段相匹配之外的其它特征字段与日志特征模型的部分变量特征字段匹配,更新故障日志模型的变量特征字段以生成新的故障日志模型。可以理解的是,当目标故障特征中部分与对应故障特征模型的变量特征字段相匹配,则很可能标识该故障特征虽然与该故障特征模型所对应的故障原因不同,但是可能存在关联,因而,通过更新该故障特征模型的变量特征字段部分,使得在后续的匹配过程中,将故障原因可能相关联的故障日志也归于同一个故障特征模型进行管理。
在一个实施例中,本发明的故障特征模型还可以在实际应用中生成。具体的,响应于故障日志的各个特征字段均与故障日志模型的固定特征字段不匹配;或者故障日志的各个特征字段均与故障日志模型的变量特征字段不匹配;生成新的故障日志模型,并新增到系统中。
例如,在前述具体实施例中生成的关于风扇的故障特征模型的基础上;当面对以下一个新的故障日志:
Fan FANN_T+Temperature*+*Non-critical going high;时,之前的两个故障特征模型都无法对其进行准确的分类,因此,将根据该故障日志生成新的故障日志特征模型,并添加到系统中用于对新生成的故障日志进行分类,并在应用过程中实时修正该故障特征模型。
在上述各实施例的基础上,本发明的方法还包括:对故障日志进行处理,获得处理结果;将处理结果保存为附加信息关联到该故障日志。其中,附加信息包括以下的一种或多种,包括:故障原因、解决方法、处理建议以及BUG单号。
在一个实施例中,本发明训练故障特征模型的过程包括:获取历史故障日志;通过日志监控系统获取历史故障日志的IP地址以定位生成历史故障日志的硬件设备;基于不同的硬件设备标记历史故障日志;对标记后的历史故障日志进行特征提取,并对获得的特征字段基于不同的硬件设备进行分类以生成一个或多个故障日志模型;反复训练所述故障日志模型,以区分故障日志模型中的固定特征字段以及变量特征字段,其中,固定特征字段用于识别生成历史故障日志的硬件设备。
通过上述各实施例,本发明提出了一种通过建立故障日志特征模型对服务器日志进行精确分类,并对出现的日志的历史记录结果进行追溯和首次日志处理的记录保留,一方面方便测试人员处理和定位分析问题,另外一方面是简化了测试人员对于大量日志的筛选工作,减轻工作量,有助于提高问题分析的效率。
在本发明的第二方面,还提出了一种计算机.图2为本发明的计算机的结构示意图,如图2所示,本发明的计算机包括:至少一个处理器200;以及存储器300,存储器300中存储有可运行的计算机程序301,计算机程序301被执行时用于实现如上述任意一实施例的故障日志推送方法的步骤,步骤包括:步骤S1、基于历史故障日志训练一个或多个故障日志特征模型;步骤S2、响应于系统生成故障日志,提取故障日志中的特征字段并基于特征字段匹配故障日志特征模型;步骤S3、响应于故障日志的特征字段与对应的故障日志特征模型相匹配,关联故障日志与对应的故障日志特征模型;步骤S4、将故障日志、关联对应的故障日志特征模型的其它故障日志以及关联其它故障日志的附加信息打包推送。
为了更加清楚的阐述本发明的方法,以下将对各步骤结合具体实施例进行详细的说明。
对于步骤S1、基于历史故障日志训练一个或多个故障日志特征模型;本发明训练的故障日志特征模型具体来说是一种特征组合模型,旨在用于后续过程中对新生成的故障日志进行实时匹配,从而确定各日志故障的分类。
在一个实施例中,所述故障日志特征模型包括固定特征字段以及变量特征字段;其中,固定特征字段主要用于确定故障日志所对应的硬件设备,即定位故障的发生位置,而变量特征字段主要用于确定故障原因。可以理解的是,同一个硬件设备可以因多种故障原因而生成多种故障日志,本发明为了能够方便相关人员对故障日志的查询和管理,通过固定特征字段用来定位故障发生位置,并通过变量特征字段来确定故障原因,不同的故障日志特征模型之间,固定特征字段可以完全相同,但是变量特征字段一定不是完全相同的。
下面例举出的是服务器的BMC生成的关于风扇和电源两条故障日志:其中,
风扇的日志:日志中会包含固定特征字段,如:FAN
在一个具体实施例中,训练获得的风扇状态的故障日志特征模型1,如:Fan FANN_Statu+Device Absent,即风扇在位状态故障;
在另一个具体实施例中,训练获得的风扇状态的故障日志特征模型2,如:FanFanN_speed+Lower Critical going low风扇转速异常。
如上述两种故障日志特征模型,其固定特征字段中均包含FAN,但变量特征字段分别为Device Absent和Lower Critical going low。
相应的,在一个实施例中,对于步骤S3中的响应于故障日志的特征字段与对应的故障日志特征模型相匹配,关联故障日志与对应的故障日志特征模型,包括:响应于故障日志的任一特征字段与日志特征模型的任一固定特征字段相匹配;以及故障日志的特征字段中除与故障日志模型的固定特征字段相匹配之外的其它特征字段与日志特征模型的变量特征字段一一匹配,关联故障日志与对应的故障日志特征模型。可以理解的是,在维护过程中由于日志的维护人员不同,其定义故障日志的格式及字段特征也可能不同。因此,在本发明的故障日志特征模型的训练过程中,将通过固定特征字段来识别属于同一硬件设备的故障日志,因此,在进行匹配故障日志特征模型时,当目标故障日志中的任意一个特征与固定特征字段中的任一字段相匹配时,即可确认该目标故障日志所对应的硬件设备,并将由目标故障日志中提取的其他特征与对应故障日志特征模型的变量特征字段相匹配,从而判断目标故障日志是否属于该故障日志特征模型所代表的分类。其中,故障日志的其它特征字段与故障日志特征模型的变量特征字段一一匹配可以理解为故障日志的其它特征字段包含于故障日志特征模型的变量特征字段的组合中。
在一个实施例中,本发明的故障日志特征模型还具备自我学习能力。在使用故障特征模型对故障日志进行分类识别的过程中,故障特征模型会根据匹配结果来更新模型中的变量特征部分。具体的,响应于故障日志的任一特征字段与日志特征模型的任一固定特征字段相匹配;以及故障日志的特征字段中除与故障日志模型的固定特征字段相匹配之外的其它特征字段与日志特征模型的部分变量特征字段匹配,更新故障日志模型的变量特征字段以生成新的故障日志模型。可以理解的是,当目标故障特征中部分与对应故障特征模型的变量特征字段相匹配,则很可能标识该故障特征虽然与该故障特征模型所对应的故障原因不同,但是可能存在关联,因而,通过更新该故障特征模型的变量特征字段部分,使得在后续的匹配过程中,将故障原因可能相关联的故障日志也归于同一个故障特征模型进行管理。
在一个实施例中,本发明的故障特征模型还可以在实际应用中生成。具体的,响应于故障日志的各个特征字段均与故障日志模型的固定特征字段不匹配;或者故障日志的各个特征字段均与故障日志模型的变量特征字段不匹配;生成新的故障日志模型,并新增到系统中。
例如,在前述具体实施例中生成的关于风扇的故障特征模型的基础上;当面对以下一个新的故障日志:
Fan FANN_T+Temperature*+*Non-critical going high;时,之前的两个故障特征模型都无法对其进行准确的分类,因此,将根据该故障日志生成新的故障日志特征模型,并添加到系统中用于对新生成的故障日志进行分类,并在应用过程中实时修正该故障特征模型。
在上述各实施例的基础上,本发明的方法还包括:对故障日志进行处理,获得处理结果;将处理结果保存为附加信息关联到该故障日志。其中,附加信息包括以下的一种或多种,包括:故障原因、解决方法、处理建议以及BUG单号。
在一个实施例中,本发明训练故障特征模型的过程包括:获取历史故障日志;通过日志监控系统获取历史故障日志的IP地址以定位生成历史故障日志的硬件设备;基于不同的硬件设备标记历史故障日志;对标记后的历史故障日志进行特征提取,并对获得的特征字段基于不同的硬件设备进行分类以生成一个或多个故障日志模型;反复训练所述故障日志模型,以区分故障日志模型中的固定特征字段以及变量特征字段,其中,固定特征字段用于识别生成历史故障日志的硬件设备。
通过上述各实施例,本发明提出了一种通过建立故障日志特征模型对服务器日志进行精确分类,并对出现的日志的历史记录结果进行追溯和首次日志处理的记录保留,一方面方便测试人员处理和定位分析问题,另外一方面是简化了测试人员对于大量日志的筛选工作,减轻工作量,有助于提高问题分析的效率。
在本发明的第三方面,还公开了一种可读存储介质。图3为本发明的可读存储介质的结构示意图,如图3所示,本发明的可读存储介质400存储有可运行的计算机程序401,计算机程序401被执行时用于实现如上述任意一实施例的故障日志推送方法的步骤,步骤包括:步骤S1、基于历史故障日志训练一个或多个故障日志特征模型;步骤S2、响应于系统生成故障日志,提取故障日志中的特征字段并基于特征字段匹配故障日志特征模型;步骤S3、响应于故障日志的特征字段与对应的故障日志特征模型相匹配,关联故障日志与对应的故障日志特征模型;步骤S4、将故障日志、关联对应的故障日志特征模型的其它故障日志以及关联其它故障日志的附加信息打包推送。
为了更加清楚的阐述本发明的方法,以下将对各步骤结合具体实施例进行详细的说明。
对于步骤S1、基于历史故障日志训练一个或多个故障日志特征模型;本发明训练的故障日志特征模型具体来说是一种特征组合模型,旨在用于后续过程中对新生成的故障日志进行实时匹配,从而确定各日志故障的分类。
在一个实施例中,所述故障日志特征模型包括固定特征字段以及变量特征字段;其中,固定特征字段主要用于确定故障日志所对应的硬件设备,即定位故障的发生位置,而变量特征字段主要用于确定故障原因。可以理解的是,同一个硬件设备可以因多种故障原因而生成多种故障日志,本发明为了能够方便相关人员对故障日志的查询和管理,通过固定特征字段用来定位故障发生位置,并通过变量特征字段来确定故障原因,不同的故障日志特征模型之间,固定特征字段可以完全相同,但是变量特征字段一定不是完全相同的。
下面例举出的是服务器的BMC生成的关于风扇和电源两条故障日志:其中,
风扇的日志:日志中会包含固定特征字段,如:FAN
在一个具体实施例中,训练获得的风扇状态的故障日志特征模型1,如:Fan FANN_Statu+Device Absent,即风扇在位状态故障;
在另一个具体实施例中,训练获得的风扇状态的故障日志特征模型2,如:FanFanN_speed+Lower Critical going low风扇转速异常。
如上述两种故障日志特征模型,其固定特征字段中均包含FAN,但变量特征字段分别为Device Absent和Lower Critical going low。
相应的,在一个实施例中,对于步骤S3中的响应于故障日志的特征字段与对应的故障日志特征模型相匹配,关联故障日志与对应的故障日志特征模型,包括:响应于故障日志的任一特征字段与日志特征模型的任一固定特征字段相匹配;以及故障日志的特征字段中除与故障日志模型的固定特征字段相匹配之外的其它特征字段与日志特征模型的变量特征字段一一匹配,关联故障日志与对应的故障日志特征模型。可以理解的是,在维护过程中由于日志的维护人员不同,其定义故障日志的格式及字段特征也可能不同。因此,在本发明的故障日志特征模型的训练过程中,将通过固定特征字段来识别属于同一硬件设备的故障日志,因此,在进行匹配故障日志特征模型时,当目标故障日志中的任意一个特征与固定特征字段中的任一字段相匹配时,即可确认该目标故障日志所对应的硬件设备,并将由目标故障日志中提取的其他特征与对应故障日志特征模型的变量特征字段相匹配,从而判断目标故障日志是否属于该故障日志特征模型所代表的分类。其中,故障日志的其它特征字段与故障日志特征模型的变量特征字段一一匹配可以理解为故障日志的其它特征字段包含于故障日志特征模型的变量特征字段的组合中。
在一个实施例中,本发明的故障日志特征模型还具备自我学习能力。在使用故障特征模型对故障日志进行分类识别的过程中,故障特征特征模型会根据匹配结果来更新模型中的变量特征部分。具体的,响应于故障日志的任一特征字段与日志特征模型的任一固定特征字段相匹配;以及故障日志的特征字段中除与故障日志模型的固定特征字段相匹配之外的其它特征字段与日志特征模型的部分变量特征字段匹配,更新故障日志模型的变量特征字段以生成新的故障日志模型。可以理解的是,当目标故障特征中部分与对应故障特征模型的变量特征字段相匹配,则很可能标识该故障特征虽然与该故障特征模型所对应的故障原因不同,但是可能存在关联,因而,通过更新该故障特征模型的变量特征字段部分,使得在后续的匹配过程中,将故障原因可能相关联的故障日志也归于同一个故障特征模型进行管理。
在一个实施例中,本发明的故障特征模型还可以在实际应用中生成。具体的,响应于故障日志的各个特征字段均与故障日志模型的固定特征字段不匹配;或者故障日志的各个特征字段均与故障日志模型的变量特征字段不匹配;生成新的故障日志模型,并新增到系统中。
例如,在前述具体实施例中生成的关于风扇的故障特征模型的基础上;当面对以下一个新的故障日志:
Fan FANN_T+Temperature*+*Non-critical going high;时,之前的两个故障特征模型都无法对其进行准确的分类,因此,将根据该故障日志生成新的故障日志特征模型,并添加到系统中用于对新生成的故障日志进行分类,并在应用过程中实时修正该故障特征模型。
在上述各实施例的基础上,本发明的方法还包括:对故障日志进行处理,获得处理结果;将处理结果保存为附加信息关联到该故障日志。其中,附加信息包括以下的一种或多种,包括:故障原因、解决方法、处理建议以及BUG单号。
在一个实施例中,本发明训练故障特征模型的过程包括:获取历史故障日志;通过日志监控系统获取历史故障日志的IP地址以定位生成历史故障日志的硬件设备;基于不同的硬件设备标记历史故障日志;对标记后的历史故障日志进行特征提取,并对获得的特征字段基于不同的硬件设备进行分类以生成一个或多个故障日志模型;反复训练所述故障日志模型,以区分故障日志模型中的固定特征字段以及变量特征字段,其中,固定特征字段用于识别生成历史故障日志的硬件设备。
通过上述各实施例,本发明提出了一种通过建立故障日志特征模型对服务器日志进行精确分类,并对出现的日志的历史记录结果进行追溯和首次日志处理的记录保留,一方面方便测试人员处理和定位分析问题,另外一方面是简化了测试人员对于大量日志的筛选工作,减轻工作量,有助于提高问题分析的效率。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。

Claims (4)

1.一种故障日志推送方法,其特征在于,所述方法包括:
基于历史故障日志训练一个或多个故障日志特征模型;
响应于系统生成故障日志,提取所述故障日志中的特征字段并基于所述特征字段匹配所述故障日志特征模型;
响应于所述故障日志的特征字段与对应的故障日志特征模型相匹配,关联所述故障日志与所述对应的故障日志特征模型;
将所述故障日志、关联所述对应的故障日志特征模型的其它故障日志以及关联所述其它故障日志的附加信息打包推送;
其中,所述基于历史故障日志训练一个或多个故障日志特征模型包括:获取历史故障日志;通过日志监控系统获取所述历史故障日志的IP地址以定位生成所述历史故障日志的硬件设备;基于不同的所述硬件设备标记所述历史故障日志;对标记后的历史故障日志进行特征提取,并对获得的特征字段基于所述不同的硬件设备进行分类以生成一个或多个故障日志模型;反复训练所述故障日志模型,以区分所述故障日志模型中的固定特征字段以及变量特征字段,其中,所述故障日志特征模型包括固定特征字段以及变量特征字段,所述固定特征字段用于识别生成所述历史故障日志的硬件设备;
所述响应于所述故障日志的特征字段与对应的故障日志特征模型相匹配,关联所述故障日志与所述对应的故障日志特征模型,包括:响应于所述故障日志的任一特征字段与所述日志特征模型的任一固定特征字段相匹配;以及所述故障日志的特征字段中除与所述故障日志模型的固定特征字段相匹配之外的其它特征字段与所述故障日志特征模型的变量特征字段一一匹配,关联所述故障日志与所述对应的故障日志特征模型;
所述方法还包括:响应于所述故障日志的任一特征字段与所述日志特征模型的任一固定特征字段相匹配;以及所述故障日志的特征字段中除与所述故障日志模型的固定特征字段相匹配之外的其它特征字段与所述日志特征模型的部分变量特征字段匹配,更新所述故障日志模型的变量特征字段以生成新的故障日志模型;
所述方法还包括:对所述故障日志进行处理,获得处理结果;将所述处理结果保存为附加信息关联到所述故障日志。
2.如权利要求1所述的故障日志推送方法,其特征在于,所述附加信息包括以下的一种或多种:
故障原因、解决方法、处理建议以及BUG单号。
3.一种计算机,其特征在于,包括:
至少一个处理器;以及
存储器,所述存储器中存储有可运行的计算机程序,所述计算机程序被执行时用于实现如权利要求1-2任意一项所述的故障日志推送方法的步骤。
4.一种可读存储介质,其特征在于,所述可读存储介质中存储有可运行的计算机程序,所述计算机程序被执行时用于实现如权利要求1-2任意一项所述的故障日志推送方法的步骤。
CN202111278999.2A 2021-10-31 2021-10-31 一种故障日志推送方法、计算机及存储介质 Active CN114003479B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111278999.2A CN114003479B (zh) 2021-10-31 2021-10-31 一种故障日志推送方法、计算机及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111278999.2A CN114003479B (zh) 2021-10-31 2021-10-31 一种故障日志推送方法、计算机及存储介质

Publications (2)

Publication Number Publication Date
CN114003479A CN114003479A (zh) 2022-02-01
CN114003479B true CN114003479B (zh) 2024-04-19

Family

ID=79925800

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111278999.2A Active CN114003479B (zh) 2021-10-31 2021-10-31 一种故障日志推送方法、计算机及存储介质

Country Status (1)

Country Link
CN (1) CN114003479B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653444A (zh) * 2015-12-23 2016-06-08 北京大学 基于互联网日志数据的软件缺陷故障识别方法和系统
CN108664374A (zh) * 2018-05-17 2018-10-16 腾讯科技(深圳)有限公司 故障告警模型创建方法、装置、故障告警方法及装置
CN109918313A (zh) * 2019-03-29 2019-06-21 武汉大学 一种基于GBDT决策树的SaaS软件性能故障诊断方法
CN111817891A (zh) * 2020-07-07 2020-10-23 中国联合网络通信集团有限公司 网络故障处理方法、装置、存储介质及电子设备
CN112491611A (zh) * 2020-11-25 2021-03-12 网银在线(北京)科技有限公司 故障定位系统、方法、装置、电子设备和计算机可读介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653444A (zh) * 2015-12-23 2016-06-08 北京大学 基于互联网日志数据的软件缺陷故障识别方法和系统
CN108664374A (zh) * 2018-05-17 2018-10-16 腾讯科技(深圳)有限公司 故障告警模型创建方法、装置、故障告警方法及装置
CN109918313A (zh) * 2019-03-29 2019-06-21 武汉大学 一种基于GBDT决策树的SaaS软件性能故障诊断方法
CN111817891A (zh) * 2020-07-07 2020-10-23 中国联合网络通信集团有限公司 网络故障处理方法、装置、存储介质及电子设备
CN112491611A (zh) * 2020-11-25 2021-03-12 网银在线(北京)科技有限公司 故障定位系统、方法、装置、电子设备和计算机可读介质

Also Published As

Publication number Publication date
CN114003479A (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN110928772B (zh) 一种测试方法及装置
CN111209131B (zh) 一种基于机器学习确定异构系统的故障的方法和系统
EP3798846B1 (en) Operation and maintenance system and method
US10496468B2 (en) Root cause analysis for protection storage devices using causal graphs
US20190228296A1 (en) Significant events identifier for outlier root cause investigation
CN111835585B (zh) 物联网设备的巡检方法、装置、计算机设备和存储介质
CN111835582B (zh) 物联网巡检设备的配置方法、装置、计算机设备
Zou et al. Uilog: Improving log-based fault diagnosis by log analysis
EP2487860B1 (en) Method and system for improving security threats detection in communication networks
US20140040916A1 (en) Automatic event correlation in computing environments
CN110716539B (zh) 一种故障诊断分析方法和装置
US11016477B2 (en) Devices, methods, and systems for a distributed rule based automated fault detection
WO2015148328A1 (en) System and method for accelerating problem diagnosis in software/hardware deployments
CN114430365B (zh) 故障根因分析方法、装置、电子设备和存储介质
CN112068981B (zh) Linux操作系统中基于知识库的故障扫描恢复方法及系统
CN112507623A (zh) 一种算法中台构建方法及系统
Meincheim et al. Combining process mining with trace clustering: manufacturing shop floor process-an applied case
CN112182233B (zh) 用于存储设备故障记录的知识库、及利用其辅助定位设备故障的方法及系统
US11816112B1 (en) Systems and methods for automated process discovery
CN114003479B (zh) 一种故障日志推送方法、计算机及存储介质
CN115630167A (zh) 一种数据点的交叉关系展示方法、装置和设备
CN116340536A (zh) 运维知识图谱构建方法、装置、设备、介质及程序产品
CN114268569B (zh) 一种可配置的网络运维验收测试方法及装置
CN113626288B (zh) 故障处理方法、系统、装置、存储介质和电子设备
CN113238901B (zh) 多设备的自动化测试方法及装置、存储介质、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant