CN112308126A - 故障识别模型训练方法、故障识别方法、装置及电子设备 - Google Patents

故障识别模型训练方法、故障识别方法、装置及电子设备 Download PDF

Info

Publication number
CN112308126A
CN112308126A CN202011164795.1A CN202011164795A CN112308126A CN 112308126 A CN112308126 A CN 112308126A CN 202011164795 A CN202011164795 A CN 202011164795A CN 112308126 A CN112308126 A CN 112308126A
Authority
CN
China
Prior art keywords
fault
time
log
time period
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011164795.1A
Other languages
English (en)
Inventor
杜鹤然
胡盼盼
卢道和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202011164795.1A priority Critical patent/CN112308126A/zh
Publication of CN112308126A publication Critical patent/CN112308126A/zh
Priority to PCT/CN2021/123363 priority patent/WO2022089202A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种故障识别模型训练方法、故障识别方法、装置及电子设备。该故障识别模型训练方法包括:基于至少一个第一时段中每个第一时段对应的时序数据,构建设定故障对应的至少一个正样本和至少一个负样本;基于所述设定故障对应的至少一个正样本和至少一个负样本,对设定的二分类模型进行训练,得到所述设定故障对应的故障识别模型;其中,所述时序数据包括第一时序数据和第二时序数据;第一时序数据表征对应的第一时段的每个时刻输出的日志信息量;第二时序数据表征至少一个性能指标中每个性能指标在对应的第一时段的每个时刻的监测数据。

Description

故障识别模型训练方法、故障识别方法、装置及电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种故障识别模型训练方法、故障识别方法、装置及电子设备。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,然而,由于金融行业的安全性、实时性要求,金融科技也对技术提出了更高的要求。金融科技领域下,数据库即服务(DBaaS,Database as a Service)是以传统数据库技术为基础,将数据库资源以标准服务的形式提供给一个或多个租户的服务解决方案。
相关技术中,在用于提供DbaaS的服务器发生故障时,通常基于设定的性能指标的监测数据和DbaaS的相关日志对应的语义分析结果进行故障分析,得到分析结果。这种故障分析方法需要消耗大量时间分析所有日志文本的具体内容,以得到对应的语义分析结果,导致故障分析的效率较低。
发明内容
有鉴于此,本发明实施例期望提供一种故障识别模型训练方法、故障识别方法、装置及电子设备,以解决相关技术中故障分析的效率较低的技术问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明实施例提供一种训练故障识别模型的方法,包括:
基于至少一个第一时段中每个第一时段对应的时序数据,构建设定故障对应的至少一个正样本和至少一个负样本;
基于所述设定故障对应的至少一个正样本和至少一个负样本,对设定的二分类模型进行训练,得到所述设定故障对应的故障识别模型;其中,
所述时序数据包括第一时序数据和第二时序数据;
第一时序数据表征对应的第一时段的每个时刻输出的日志信息量;
第二时序数据表征至少一个性能指标中每个性能指标在对应的第一时段的每个时刻的监测数据。
上述方案中,所述方法还包括:
基于第一时段中每个时刻打印出的每条日志对应的第一信息量和第二信息量,计算出每条日志对应的总信息量;
基于第一时段中每个时刻打印出的每条日志对应的总信息量,得到对应的第一时段对应的第一时序数据;其中,
所述第一信息量表征日志对应的日志级别出现的第一概率;
所述第二信息量表征日志中包括的所有设定词组中每个设定词组在对应的日志级别中出现的第二概率。
上述方案中,所述方法还包括:
基于至少一个第一日志样本中每个日志级别出现的次数,确定出每个日志级别对应的第一概率;
基于所述至少一个第一日志样本中每个设定词组在每个日志级别下出现的次数,确定出每个设定词组在对应的日志级别中对应的第二概率;其中,
所述至少一个第一日志样本通过对历史日志进行采样得到。
上述方案中,至少一个第一日志样本中每个第一日志样本均满足以下条件:
第一日志样本对应的日志级别对应的第一概率满足设定条件;
第一日志样本对应的告警类型为发生所述设定故障时监测到的告警类型;
第三概率与第四概率之间的差值小于或等于设定阈值;其中,所述第三概率表征第一日志样本对应的告警类型在所述至少一个第一日志样本中出现的概率;所述第四概率表征第一日志样本对应的告警类型在发生所述设定故障时被监测到的概率。
上述方案中,所述基于至少一个第一时段对应的时序数据,构建设定故障对应的至少一个正样本和至少一个负样本,包括:
基于第一时段中的第二时段对应的时序数据,确定出与所述设定故障相关的第一指标;其中,所述第二时段表征对应的第一时段中发生所述设定故障的时段;
基于所述第一指标在所述第二时段对应的时序数据,构建所述设定故障对应的至少一个正样本;
基于所述第一指标在所述第一时段中的第三时段对应的时序数据,构建所述设定故障对应的至少一个负样本;其中,
所述第三时段表征对应的第一时段中未发生所述设定故障的时段;
所述第一指标包括以下至少之一:
在发生所述设定故障时告警的所有性能指标中的至少一个性能指标;
日志信息量。
上述方案中,所述基于第一时段中的第二时段对应的时序数据,确定出与所述设定故障相关的第一指标,包括:
基于第二时段对应的时序数据,确定出至少两个集合;其中,所述至少两个集合包括一个第一集合和至少一个性能指标中每个性能指标对应的第二集合;所述第一集合中的元素表征相邻两个时刻输出的日志信息量之间的差值;所述第二集合中的元素表征对应的性能指标在相邻两个时刻的监测数据之间的差值;
计算出所述至少两个集合中每个集合对应的均值和标准差;
基于三西格玛准则以及基于计算出的均值和标准差,确定出所述至少两个集合中每个集合对应的第一区间;
基于所述至少两个集合中每个集合对应的第一区间和对应集合中的最大值,确定出与所述设定故障相关的第一指标;其中,所述第一指标对应的集合中的最大值未处于对应的第一区间。
上述方案中,所述第二时段对应的时序数据未包括在第二时段内首个触发告警的第一性能指标对应的第二时序数据;
所述基于所述至少两个集合中每个集合对应的第一区间和对应集合中的最大值,确定出与所述设定故障相关的第一指标,包括:
基于所述至少两个集合中每个集合对应的第一区间和对应集合中的最大值,确定出第二指标;其中,所述第二指标对应的集合中的最大值未处于对应的第一区间;
将确定出的第二指标和所述第一性能指标确定为与所述设定故障相关的第一指标。
上述方案中,所述基于所述第一指标在所述第二时段对应的时序数据,构建所述设定故障对应的至少一个正样本,包括:
基于所述第一指标的第一数量,确定出正样本的第二数量;
将所有第一指标在第二时段对应的时序数据以第一指标为最小单位进行全排列,得到全排列结果;
从所述全排列结果中选出第二数量的正样本;其中,
所述第一数量和所述第二数量均为正整数,且所述第一数量大于或等于2;
所述第二数量小于或等于所述第一数量对应的全排列运算结果的二分之一。
本发明实施例还提供了一种故障识别方法,包括:
在检测到第一性能指标的数据触发告警的情况下,确定出第一时段对应的时序数据;
基于至少一种设定故障中每种设定故障对应的相关性能指标,确定出至少一种第一设定故障;所述第一设定故障的相关性能指标中包含所述第一性能指标;
将所述第一时段对应的时序数据输入所述至少一种第一设定故障中每种第一设定故障对应的故障识别模型,得到每个故障识别模型输出的识别结果;
将所有识别结果中置信度最高的第一设定故障确定为当前发生的故障;其中,
所述第一时段的结束时刻为所述第一性能指标对应的告警时刻;
所述第一时段对应的时序数据包括实时日志对应的第一时序数据和至少一个性能指标中每个性能指标对应的第二时序数据;
所述故障识别模型基于上述任一种训练故障识别模型的方法训练得到。
上述方案中,所述故障识别方法还包括:
基于至少一台服务器中每台服务器发生的历史故障和每种历史故障对应的发生次数,确定出至少一台服务器中所有服务器的健康评分,以在健康评分大于或等于设定阈值的服务器中部署新的数据库实例。
本发明实施例还提供了一种训练故障识别模型的装置,包括:
构建单元,用于基于至少一个第一时段中每个第一时段对应的时序数据,构建设定故障对应的至少一个正样本和至少一个负样本;
训练单元,用于基于所述设定故障对应的至少一个正样本和至少一个负样本,对设定的二分类模型进行训练,得到所述设定故障对应的故障识别模型;其中,
所述时序数据包括第一时序数据和第二时序数据;
第一时序数据表征对应的第一时段的每个时刻输出的日志信息量;
第二时序数据表征至少一个性能指标中每个性能指标在对应的第一时段的每个时刻的监测数据。
本发明实施例还提供了一种故障识别装置,包括:
第一确定单元,用于在检测到第一性能指标的数据触发告警的情况下,确定出第一时段对应的时序数据;
第二确定单元,用于基于至少一种设定故障中每种设定故障对应的相关性能指标,确定出至少一种第一设定故障;所述第一设定故障的相关性能指标中包含所述第一性能指标;
第一识别单元,用于将所述第一时段对应的时序数据输入所述至少一种第一设定故障中每种第一设定故障对应的故障识别模型,得到每个故障识别模型输出的识别结果;
第二识别单元,用于将所有识别结果中置信度最高的第一设定故障确定为当前发生的故障;其中,
所述第一时段的结束时刻为所述第一性能指标对应的告警时刻;
所述第一时段对应的时序数据包括实时日志对应的第一时序数据和至少一个性能指标中每个性能指标对应的第二时序数据;
所述故障识别模型基于任一种训练故障识别模型的方法训练得到。
本发明实施例还提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行以下至少一项:
上述任一种训练故障识别模型的方法的步骤;
上述任一种故障识别方法的步骤。
本发明实施例还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时以下至少一项:
上述任一种训练故障识别模型的方法的步骤;
上述任一种故障识别方法的步骤。
本发明实施例,基于至少一个第一时段中每个第一时段对应的时序数据,构建设定故障对应的至少一个正样本和至少一个负样本;基于所述设定故障对应的至少一个正样本和至少一个负样本,对设定的二分类模型进行训练,得到所述设定故障对应的故障识别模型。由于训练样本是基于第一时段对应的时序数据构建得到,第一时段对应的时序数据包括的第一时序数据表征第一时段的每个时刻输出的日志信息量,而日志信息量是指日志的信息量,用于度量日志传达的信息多少;在确定日志信息量时不需要分析历史日志的具体内容,也就是说,在构建训练样本时服务器不需要关注历史日志的具体内容,因此可以省去对日志的文本内容进行语义分析消耗的时间,提高获取训练样本的效率,进而提高故障识别模型的训练效率。
在利用故障识别模型进行故障识别时,由于输入故障识别模型的时序数据中包括实时日志对应的第一时序数据,第一时序数据表征每个时刻输出的日志信息量,在确定日志信息量时不需要对实时日志的文本内容进行语义分析,因此,可以节省时间,可以提高故障识别效率。
附图说明
图1为本发明实施例提供的一种训练故障识别模型的方法的实现流程示意图;
图2为本发明实施例提供的一种训练故障识别模型的方法中确定第一时序数据的实现流程示意图;
图3为本发明实施例提供的一种训练故障识别模型的方法中确定正样本和负样本的实现流程示意图;
图4为本发明实施例提供的一种训练故障识别模型的方法中确定正样本的实现流程示意图;
图5为本发明实施例提供的一种训练故障识别模型的方法中确定第一指标的实现流程示意图;
图6为本发明应用实施例提供的一种训练故障识别模型的方法的实现流程示意图;
图7为本发明实施例提供的一种故障识别方法的实现流程示意图;
图8为本发明另一实施例提供的一种故障识别方法的实现流程示意图;
图9为本发明实施例提供的训练故障识别模型的装置的结构示意图;
图10为本发明实施例提供的故障识别装置的结构示意图;
图11为本发明实施例提供的电子设备的硬件组成结构示意图。
具体实施方式
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
针对上述技术问题,本发明实施例提供了一种故障识别方法,基于日志信息量以及性能指标的监测数据进行故障识别。由于在确定日志信息量时不需要分析日志的具体内容,可以节省对日志的文本内容进行语义分析消耗的时间,提高故障识别效率。
以下结合说明书附图及具体实施例对本发明的技术方案做进一步的详细阐述。
图1示出了本发明实施例提供的一种训练故障识别模型的方法的实现流程示意图。在本发明实施例中,训练故障识别模型的方法的执行主体为电子设备,例如,电脑、服务器等。
参照图1,本申请实施例提供的训练故障识别模型的方法包括:
S101:基于至少一个第一时段中每个第一时段对应的时序数据,构建设定故障对应的至少一个正样本和至少一个负样本;其中,所述时序数据包括第一时序数据和第二时序数据;第一时序数据表征对应的第一时段的每个时刻输出的日志信息量;第二时序数据表征至少一个性能指标中每个性能指标在对应的第一时段的每个时刻的监测数据。
这里,第一时段包括发生设定故障的时段和未发生该设定故障的时段。
电子设备基于第一时段中发生设定故障的时段对应的第一时序数据和第二时序数据构建正样本;基于第一时段中未发生设定故障的时段对应的第一时序数据和第二时序数据构建负样本。
需要说明的是,发生设定故障时,至少一个性能指标的数据触发告警。电子设备可以基于在发生该设定故障时首个触发告警的性能指标对应的告警时刻,确定出发生该设定故障的时段以及确定出未发生该设定故障的时段。发生该设定故障的时段包括首个告警时刻;未发生该设定故障的时段为对应的第一时段中除发生该设定故障的时段之外的时段。
例如,设定故障对应的至少一个性能指标中的第一性能指标在第一时段中的第一时刻触发告警,电子设备可以将第一时刻之前的第二时刻确定为发生设定故障的时段的开始时刻,将第一时刻之后的第三时刻确定为发生设定故障的时段的结束时刻。需要说明的是,第二时刻在对应的第一时段的开始时刻之后,第三时刻在对应的第一时段的结束时刻之前。第一时长和第二时长可以相同,也可以不同。第一时长为第一时刻与第二时刻之间的时长,第二时长为第一时刻与第三时刻之间的时长。示例性地,第一时长和第二时长可以为15分钟,当然,也可以根据实际情况进行设置。
需要说明的是,第一时序数据是按时间先后顺序记录的日志信息量。第二时序数据是按时间先后顺序记录的至少一个性能指标中每个性能指标的监测数据。每个性能指标对应一组第二时序数据。其中,第一时序数据基于DBaaS服务器的历史日志得到。第二时序数据基于DBaaS服务器的性能指标的监测数据得到。至少一个性能指标用于监测是否发生设定故障。设定故障可以为连接数饱和、机器磁盘故障、内存故障、慢查询过多等。
日志信息量是指日志的信息量。日志信息量用于量度日志的信息多少。每个时刻输出的日志信息量是该时刻打印出的所有日志中每条日志的信息量的总和。一条日志的信息量基于第一概率和至少一个第二概率确定出。第一概率表征该条日志对应的日志级别出现的概率。第二概率表征该条日志中包括的所有设定词组中每个设定词组在该日志对应的日志级别下出现的概率。
示例性地,日志级别可以包括FATAL、ERROR、WARN、INFO、DEBUG。其中,
FATAL级别的日志表征每个严重的错误事件将会导致应用程序退出。
ERROR级别的日志表征虽然发生错误事件,但仍然不影响系统继续运行。
WARN级别的日志表征系统存在潜在的错误事件。
INFO级别的日志表征应用程序的运行情况。
DEBUG级别的日志主要用于在调试应用程序时更详细的了解系统的运行状态。
S102:基于所述设定故障对应的至少一个正样本和至少一个负样本,对设定的二分类模型进行训练,得到所述设定故障对应的故障识别模型。
电子设备将至少一个正样本中的每个正样本转换成对应的第一向量,将至少一个负样本中的每个负样本转换成对应的第二向量;将至少一个第一向量和至少一个第二向量输入至设定的二分类模型进行训练,得到所述设定故障对应的故障识别模型。
其中,在训练设定的二分类模型的过程中,在二分类模型未达到设定的收敛条件时,更新二分类模型的相关参数,基于至少一个正样本和至少一个负样本继续训练该二分类模型。设定的收敛条件可以是第一模型参数与第二模型参数之间的差值小于或等于设定阈值,当然也可以设置其他收敛条件,例如,训练次数达到设定次数。第一模型参数表征第k次迭代训练对应的模型参数,第二模型参数表征第k-1次迭代训练对应的模型参数,k为大于或等于1的整数。
在二分类模型达到设定的收敛条件时,,停止训练,将最后一次更新得到的模型参数确定为训练完毕的二分类模型所使用的模型参数,并将训练完毕的二分类模型确定为设定故障对应的故障识别模型。
需要说明的是,由于设定故障对应的正样本和负样本的数量通常比较少,为了防止过拟合,设定的二分类模型通常为简单的卷积神经网络,例如,由一层卷积层和隐藏层构成的卷积神经网络。设定的二分类模型也可以为决策树模型。
在本实施例提供的方案中,基于至少一个第一时段中每个第一时段对应的第一时序数据和第二时序数据,构建设定故障对应的至少一个正样本和至少一个负样本;基于所述设定故障对应的至少一个正样本和至少一个负样本,对设定的二分类模型进行训练,得到所述设定故障对应的故障识别模型。由于第一时序数据表征对应的第一时段的每个时刻输出的日志信息量,而日志信息量是指日志的信息量,用于度量日志传达的信息多少;在确定日志信息量时不需要分析历史日志的具体内容,因此可以省去对日志的文本内容进行语义分析消耗的时间,提高获取训练样本的效率,进而提高故障识别模型的训练效率。
在一实施例中,图2示出了本发明实施例提供的一种训练故障识别模型的方法中确定第一时序数据的实现流程示意图。参照图2,确定第一时序数据的方法包括:
S201:基于第一时段中每个时刻打印出的每条日志对应的第一信息量和第二信息量,计算出每条日志对应的总信息量;其中,所述第一信息量表征日志对应的日志级别出现的第一概率;所述第二信息量表征日志中包括的所有设定词组中每个设定词组在对应的日志级别中出现的第二概率。
电子设备计算每条日志对应的第一信息量和第二信息量之和,得到对应日志的总信息量。
这里,可以基于以下公式计算每条日志对应的总信息量:
H(X)=H(xt)+H(xc) (1)
H(xt)=-logP(xl) (2)
Figure BDA0002745410180000091
其中,H(X)表征一条日志的总信息量,H(xt)表征日志的第一信息量,H(xc)表征日志的第二信息量;P(xl)表征日志对应的日志级别xl出现的第一概率;P(xi|xl)表征在日志对应的日志级别xl中第i个设定词组出现的第二概率,n表征对应日志中包含的设定词组的数量。
在一实施例中,按照以下方式确定出第一概率和第二概率:
基于至少一个第一日志样本中每个日志级别出现的次数,确定出每个日志级别对应的第一概率;
基于所述至少一个第一日志样本中每个设定词组在每个日志级别下出现的次数,确定出每个设定词组在对应的日志级别中对应的第二概率;其中,
所述至少一个第一日志样本通过对历史日志进行采样得到。
这里,电子设备对采集到的历史日志进行采样,得到至少一个第一日志样本。采集到的历史日志可以包括至少一个第一时段中每个第一时段输出的历史日志中的部分或全部,采集到的历史日志也可以不包括第一时段输出的历史日志。
在一实施例中,至少一个第一日志样本中每个第一日志样本均满足以下条件:
第一日志样本对应的日志级别对应的第一概率满足设定条件;
第一日志样本对应的告警类型为发生所述设定故障时监测到的告警类型;
第三概率与第四概率之间的差值小于或等于设定阈值;其中,所述第三概率表征第一日志样本对应的告警类型在所述至少一个第一日志样本中出现的概率;所述第四概率表征第一日志样本对应的告警类型在发生所述设定故障时被监测到的概率。
其中,设定条件表征为所述设定故障配置的所有日志级别中每种日志级别对应的概率范围。由于数据库中的设定组件的源码决定了在发生设定故障时输出哪种日志级别的日志,以及决定了每种日志级别出现的概率,因此,电子设备可以分析数据库中的设定组件的源码,确定出在设定故障时输出的日志对应的每种日志级别对应的概率范围,基于确定出的概率范围设置上述设定条件。
第一日志样本对应的所有告警类型由第一日志样本中ERROR级别的日志中的设定词组确定出;一条日志包含至少一个设定词组;一个设定词组对应一个告警类型。
电子设备在得到至少一个第一日志样本的情况下,基于至少一个第一日志样本中的所有第一日志样本确定出第一概率和第二概率,具体如下:
电子设备基于第一日志样本包括的至少一条日志中每条日志对应的日志级别,统计出所有第一日志样本中每种日志级别出现的次数;对所有第一日志样本中每种日志级别出现的次数进行求和运算,得到所有第一日志样本中所有日志级别出现的第一总次数;基于所有第一日志样本中每种日志级别出现的次数,以及基于所有第一日志样本中所有日志级别出现的第一总次数,计算出每种日志级别对应的第一概率。第一概率为对应的日志级别出现的次数与第一总次数的商。
电子设备基于分词技术,对第一日志样本中的每条日志进行分词,得到分词结果,对分词结果进行过滤处理,提取出每条日志对应的设定词组。对分词结果进行过滤处理包括去除连接词、常用词(例如,end、run等)、组件的名称、调用的脚本的名称等。设定词组表征设定故障对应的告警类型(或称告警事件)。例如,设定故障为连接数饱和时,设定词组可以包括:operation timeout、checkWillUpdateKafka error等。
电子设备基于所有第一日志样本中每条日志对应的设定词组,统计出每个设定词组在对应的日志级别中出现的次数;对每个设定词组在对应的日志级别中出现的次数进行求和运算,统计出所有设定词组对应的日志级别中出现的第二总次数;基于每个设定词组在对应的日志级别中出现的次数,以及基于对应的第二总次数,确定出每个设定词组在对应的日志级别中出现的第二概率。其中,一条日志对应一个设定的日志级别,第二概率为每个设定词组在对应的日志级别下出现的次数与对应的第二总次数的商。
在本实施例中,第一日志样本满足上述三个条件,第一日志样本能够准确反映出发生设定故障时服务器的运行情况,利用基于第一日志样本确定出的第一概率和第二概率计算出的日志信息量,能够准确反映出发生设定故障时的日志信息量,进而提高训练得到的故障识别模型的准确度。
S202:基于第一时段中每个时刻打印出的每条日志对应的总信息量,得到对应的第一时段对应的第一时序数据。
电子设备对同一时刻打印出的每条日志对应的总信息量进行求和运算,得到对应时刻打印出的所有日志对应的总信息量;基于第一时段中每个时刻打印出的所有日志对应的总信息量,输出对应的第一时段对应的第一时序数据。其中,同一时刻打印出的所有日志对应的总信息量,即为对应时刻输出的日志信息量。
每个时刻打印出的所有日志对应的总信息量H(xs)为:
Figure BDA0002745410180000121
其中,m表征对应时刻打印出的所有日志的数量,H(Xk)表征对应时刻打印出的第k条日志的总信息量。
这里,将通过上述公式(1)至(3)计算出的每条日志的总信息量,代入公式(4),即可得到对应时刻打印出的所有日志对应的总信息量。
例如,在第一时段中第一时刻打印出了两条“ERROR”级别的日志,第一条日志包括一个设定词组“operation timeout”,第二条日志包括一个设定词组“checkWillUpdateKafka error”,预先基于至少一个第一日志样本确定出“ERROR”级别出现的概率为1%,“operation timeout”在ERROR级别中出现的概率为10%,“checkWillUpdateKafka error”出现的概率为5%,那么基于上述公式(4)可以得到第一时刻输出的信息量的表达式为:
Figure BDA0002745410180000122
基于上述(1)至(3)可以得到:
H(X1)=-log P(0.01)-log P(0.1) (6)
H(X2)=-log P(0.01)-log P(0.05) (7)
将(6)和(7)代入(5),得到第一时刻输出的信息量为:
H(xs)=-log P(0.01)-log P(0.1)-log P(0.01)-log P(0.05)≈6.3
在本实施例提供的方案中,基于第一时段中每个时刻打印出的每条日志对应的第一信息量和第二信息量,计算出每条日志对应的总信息量;基于第一时段中每个时刻打印出的每条日志对应的总信息量,得到对应的第一时段对应的第一时序数据。由于可以准确计算出每条日志对应的总信息量,因此提高第一时序数据的准确度,进而提高训练得到的故障识别模型的准确度。
作为本发明的另一实施例,图3示出了本发明实施例提供的一种训练故障识别模型的方法中确定正样本和负样本的实现流程示意图。参照图3,所述基于至少一个第一时段对应的时序数据,构建设定故障对应的至少一个正样本和至少一个负样本,包括:
S301:基于第一时段中的第二时段对应的时序数据,确定出与所述设定故障相关的第一指标;其中,所述第二时段表征对应的第一时段中发生所述设定故障的时段。
这里,所述第一指标包括以下至少之一:
在发生所述设定故障时告警的所有性能指标中的至少一个性能指标;
日志信息量。
由于在发生设定故障时,存在至少一个性能指标的监测数据触发告警,因此,电子设备可以基于在发生设定故障时触发告警的性能指标对应的告警时刻,确定出对应的第一时段中的第二时段。其中,第二时段的起始时刻小于或等于在发生设定故障时的首个告警时刻;第二时段的结束时刻大于或等于在发生设定故障时的最后一个告警时刻。
例如,将第一个告警时刻以及该告警时刻前后15分钟对应的时段,确定为对应的第一时段中的第二时段。
S302:基于所述第一指标在所述第二时段对应的时序数据,构建所述设定故障对应的至少一个正样本。
这里,可基于第一指标在一个第二时段对应的时序数据,构建一个正样本。
在一实施例中,图4示出了本发明实施例提供的一种训练故障识别模型的方法中确定正样本的实现流程示意图。参照图4,所述基于所述第一指标在所述第二时段对应的时序数据,构建所述设定故障对应的至少一个正样本,包括:
S401:基于所述第一指标的第一数量,确定出正样本的第二数量;其中,所述第一数量为大于或等于2的整数,所述第二数量为正整数;所述第二数量小于或等于所述第一数量对应的全排列运算结果的二分之一。
这里,通过公式
Figure BDA0002745410180000131
确定出第二数量。
其中,M表征正样本的数量,N表征第一指标的数量。M为正整数,N大于或等于2的整数。
S402:将所有第一指标在第二时段对应的时序数据以第一指标为最小单位进行全排列,得到全排列结果。
这里,电子设备将每个第一指标在第二时段对应的时序数据,按照时间先后顺序进行排列,得到对应的序列。将每个第一指标对应的序列以第一指标为最小单位进行全排列,得到全排列结果。
需要说明的是,通过变换所有第一指标的时序数据的排列顺序以扩充正样本,可以节省选取正样本消耗的时间。考虑到在发生设定故障时,对应的性能指标的告警顺序并不是固定不变的,因此,变换所有第一指标的时序数据的排列顺序,还可以使得训练得到的故障识别模型对第一指标对应的时序数据的排列顺序不敏感,提升故障识别模型的泛化能力。
S403:从所述全排列结果中选出第二数量的正样本。
这里,一个正样本对应一种排列方式的序列。需要说明的是,每个正样本也可以为一维矩阵,一个一维矩阵对应一种排列方式的序列。
示例性地,第一指标的数量为3时,第一指标的全排列结果为6,基于3个第一指标最多可得到3个正样本。
S303:基于所述第一指标在所述第一时段中的第三时段对应的时序数据,构建所述设定故障对应的至少一个负样本;其中,所述第三时段表征对应的第一时段中未发生所述设定故障的时段。
第三时段为对应的第一时段中除第二时段之外的任一时段。这里,可以基于第一指标在一个第三时段对应的时序数据,构建一个负样本。
本实施例提供的方案中,通过与设定故障相关的第一指标在第一时段对应的时序数据,构建至少一个正样本以及至少一个负样本,可以提高构建出的正样本与设定故障的相关性,进而提高基于正样本和负样本训练得到的故障识别模型的性能,进而提高训练得到的故障识别模型的准确度。在利用该故障识别模型进行故障识别时,可以提高识别结果的准确度。
作为本发明的另一实施例,图5示出了本发明实施例提供的一种训练故障识别模型的方法中确定第一指标的实现流程示意图。参照图5,所述基于第一时段中的第二时段对应的时序数据,确定出与所述设定故障相关的第一指标,包括:
S501:基于第二时段对应的时序数据,确定出至少两个集合。
其中,所述至少两个集合包括一个第一集合和至少一个性能指标中每个性能指标对应的第二集合;所述第一集合中的元素表征相邻两个时刻输出的日志信息量之间的差值;所述第二集合中的元素表征对应的性能指标在相邻两个时刻的监测数据之间的差值。
这里,基于第二时段对应的第一时序数据,确定出第一集合;基于至少一个性能指标中每个性能指标在第二时段对应的第二时序数据,确定出对应的第二集合。至少两个集合中每个集合中的所有元素按照时间先后顺序排列。
S502:计算出所述至少两个集合中每个集合对应的均值和标准差。
电子设备可以基于均值计算公式,计算出至少两个集合中每个集合对应的均值;基于标准差的计算公式,计算出至少两个集合中每个集合对应标准差。
S503:基于三西格玛准则以及基于计算出的均值和标准差,确定出所述至少两个集合中每个集合对应的第一区间。
三西格玛准则指出,符合正态分布的一组数据中的数据分布在(μ-3σ,μ+3σ)中的概率为99.73%,分布在(μ-3σ,μ+3σ)之外的概率为0.27%。
因此,将(μ-3σ,μ+3σ)确定为对应的第一区间。μ表征对应集合的均值;σ表征对应集合的标准差。
S504:基于所述至少两个集合中每个集合对应的第一区间和对应集合中的最大值,确定出与所述设定故障相关的第一指标;其中,所述第一指标对应的集合中的最大值未处于对应的第一区间。
这里,当第一集合中的最大值未处于第一集合对应的第一区间时,将日志信息量确定为与设定故障相关的第一指标。当第一集合中的最大值处于第一集合对应的第一区间时,表征日志信息量不是与设定故障相关的第一指标。
当第二集合中的最大值未处于对应的第一区间时,将该第二集合对应的性能指标确定为设定故障相关的第一指标。当第二集合中的最大值处于对应的第一区间时,表征该第二集合对应的性能指标不是与设定故障相关的第一指标。
需要说明的是,当第一时段的数量为至少两个时,可以按照上述方式确定出至少两份第一指标,将至少两份第一指标中的交集确定为最终的第一指标,这样可以提高第一指标的准确度。其中,每份第一指标基于一个第一时段中的第二时段对应的时序数据确定出。
本实施例提供的方案中,基于三西格玛准则确定出对应的第一区间,基于确定出的第一区间筛选出与设定故障相关的第一指标,可以提高确定出的第一指标的准确度。
需要说明的是,图5对应的实施例中是基于第二时段对应的所有时序数据以及三西格玛准则确定出与设定故障相关的第一指标。在另一实施例中,所述第二时段对应的时序数据未包括在第二时段内首个触发告警的第一性能指标对应的第二时序数据;所述基于所述至少两个集合中每个集合对应的第一区间和对应集合中的最大值,确定出与所述设定故障相关的第一指标,包括:
基于所述至少两个集合中每个集合对应的第一区间和对应集合中的最大值,确定出第二指标;其中,所述第二指标对应的集合中的最大值未处于对应的第一区间;
将确定出的第二指标和所述第一性能指标确定为与所述设定故障相关的第一指标。
这里,电子设备基于第二时段对应的第二时序数据,确定出在对应的第二时段内首个触发告警的第一性能指标;基于第二时段对应的第一时序数据确定出第一集合;基于第二性能指标在第二时段对应的时序数据,确定出对应的第二性能指标对应的第二集合。其中,第二性能指标表征至少一个性能指标中除第一性能指标之外的任一性能指标。
当第一集合中的最大值未处于第一集合对应的第一区间时,将日志信息量确定为与设定故障相关的第二指标。当第一集合中的最大值处于第一集合对应的第一区间时,表征日志信息量不是与设定故障相关的第二指标。
当第二集合中的最大值未处于对应的第一区间时,将该第二集合对应的性能指标确定为与设定故障相关的第二指标。当第二集合中的最大值处于对应的第一区间时,表征该第二集合对应的性能指标不是与设定故障相关的第二指标。
在确定出所有第二指标的情况下,电子设备将第一性能指标和确定出的所有第二指标,确定为与设定故障相关的第一指标。
本实施例提供的方案中,将在对应的第二时段内首个触发告警的第一性能指标识别为与设定故障相关的第一指标,然后再按照上述方法确定出与设定故障相关的第二指标,将第一性能指标和确定出的第二指标识别为与设定故障相关的第一指标。不需要通过第一性能指标对应的第二时序数据确定第一性能指标是否与设定故障相关,可以节省确定第一指标的时间,提高故障识别模型的训练效率。
作为本发明的应用实施例,图6示出了本发明应用实施例提供的一种训练故障识别模型的方法的实现流程示意图。参照图6,训练故障识别模型的方法包括:
S601:按照设定的时间间隔对历史日志进行采样,得到至少一个第一日志样本。
设定的时间间隔可以为1秒。
其中,第一日志样本中每个第一日志样本均满足以下条件:
第一日志样本对应的日志级别对应的第一概率满足设定条件;
第一日志样本对应的告警类型为发生所述设定故障时监测到的告警类型;
第三概率与第四概率之间的差值小于或等于设定阈值;其中,所述第三概率表征第一日志样本对应的告警类型在所述至少一个第一日志样本中出现的概率;所述第四概率表征第一日志样本对应的告警类型在发生所述设定故障时被监测到的概率。
S602:基于所述至少一个第一日志样本,确定出至少一个第一概率和至少一个第二概率;其中,第一概率为每种日志级别对应的概率;第二概率为每个设定词组在对应的日志级别中对应的第二概率。
S602的实现过程请参照上述实施例中S201中的相关描述,此处不赘述。
S603:基于确定出的第一概率和第二概率,确定出历史日志对应的时序数据。
这里,电子设备基于确定出的第一概率和第二概率,确定出每个时刻打印出的历史日志中每条日志的总信息量;基于历史日志中每条日志的总信息量,确定出每个时刻输出的日志信息量,从而得到历史日志对应的时序数据。确定历史日志对应的时序数据实现方式请参照上述实施例S201~S202中的相关描述,此处不赘述。
S604:基于至少一个第一时段中每个第一时段对应的时序数据,确定出与设定故障相关的第一指标。
这里,每个第一时段对应的时序数据包括第一时序数据和第二时序数据。第一时序数据表征对应的第一时段的每个时刻输出的日志信息量;第二时序数据表征至少一个性能指标中每个性能指标在对应的第一时段的每个时刻的监测数据。第二时序数据基于监测程序监测到的至少一个性能指标中每个性能指标在每个时刻对应的监测数据得到。
S604的实现方式请参照上述S301中的相关描述,此处不赘述。
S605:基于所述第一指标在第一时段中的第二时段对应的时序数据,构建设定故障对应的至少一个正样本。
这里,S605的实现方式请参照上述S302中的相关描述,此处不赘述。
S606:基于所述第一指标在第一时段中的第三时段对应的时序数据,构建设定故障对应的至少一个负样本。
这里,S606的实现方式请参照上述S303中的相关描述,此处不赘述。
S607:基于所述设定故障对应的至少一个正样本和至少一个负样本,对设定的二分类模型进行训练,得到所述设定故障对应的故障识别模型。
这里,S607的实现方式请参照上述S102中的相关描述,此处不赘述。
本实施例提供的方案中,基于所有第一日志样本确定出至少一个第一概率和至少一个第二概率;基于确定出的第一概率和第二概率,确定出至少一个第一时段中每个第一时段对应的第一时序数据;基于第一时段对应的第一时序数据和第二时序数据,确定出设定故障对应的至少一个正样本和至少一个负样本;基于至少一个正样本和至少一个负样本训练得到设定故障对应的故障识别模型。由于第一日志样本能够准确反映出发生设定故障时服务器的运行情况,因此,利用基于第一日志样本确定出的概率计算出的日志信息量,能够准确反映出发生设定故障时的日志信息量,进而提高训练得到的故障识别模型的准确度。由于第一时序数据表征第一时段的每个时刻输出的日志信息量,而日志信息量是指日志的信息量,用于度量日志传达的信息多少;在确定日志信息量时不需要分析历史日志的具体内容,因此可以省去对日志的文本内容进行语义分析消耗的时间,提高获取训练样本的效率,进而提高故障识别模型的训练效率。
上面在介绍了设定故障对应的故障识别模型的训练方法之后,下面介绍通过上面的方式训练的到的故障识别模型进行故障识别的实现过程。需要说明的是,电子设备可以基于上述实施例训练出不同的设定故障对应的故障识别模型。
图7示出了本发明实施例提供的一种故障识别方法的实现流程示意图。在本发明实施例中,故障识别方法的执行主体为电子设备,例如,电脑、服务器等。电子设备可以监测DBaaS服务器的性能指标的相关数据,以及获取DBaaS服务器的实时日志。基于故障识别模型进行故障识别的电子设备与训练故障识别模型的电子设备,可以相同,也可以不同。
参照图7,故障识别方法包括:
S701:在检测到第一性能指标的数据触发告警的情况下,确定出第一时段对应的时序数据。
其中,所述第一时段的结束时刻为所述第一性能指标对应的告警时刻;所述第一时段对应的时序数据包括实时日志对应的第一时序数据和至少一个性能指标中每个性能指标对应的第二时序数据。
电子设备基于DBaaS服务器在每个时刻输出的实时日志,确定出第一时序数据;基于至少一个性能指标中每个性能指标在每个时刻对应的实时监测数据,确定出每个性能指标对应的第二时序数据。
电子设备在检测到第一性能指标的数据触发告警的情况下,基于第一性能指标当前的告警时刻,从确定出的时序数据中,确定出第一时段对应的时序数据。其中,第一性能指标为至少一个性能指标中的任一性能指标。第一时段对应的时序数据包括第一时序数据和至少一个性能指标中每个性能指标对应的第二时序数据。
在实际应用中,第一时段可以为第一性能指标的告警时刻的前15分钟。例如,电子设备在当天上午8点30分检测到第一性能指标的数据触发告警,第一时段为8点15分到8点30分这个时段。
S702:基于至少一种设定故障中每种设定故障对应的相关性能指标,确定出至少一种第一设定故障;所述第一设定故障的相关性能指标中包含所述第一性能指标。
这里,每种设定故障对应的相关性能指标的实现方式,请参照上述确定出与设定故障相关的第一指标的相关描述,此处不赘述。
S703:将所述第一时段对应的时序数据输入所述至少一种第一设定故障中每种第一设定故障对应的故障识别模型,得到每个故障识别模型输出的识别结果。
这里,故障识别模型上述任一实施例对应的训练故障识别模型的方法训练得到。每个故障识别模型输出的识别结果为0-1之间的数值。识别结果表征发生的故障是故障识别模型对应的第一设定故障的概率。
S704:将所有识别结果中置信度最高的第一设定故障确定为当前发生的故障。
置信度(confidence):表示对应的第一设定故障可信的概率,例如某个第一设定故障的置信度为80%,则表示发生的故障为第一设定故障的概率为80%。
本实施例提供的方案中,在检测到第一性能指标的数据触发告警的情况下,确定出第一时段对应的时序数据,将第一时段对应的时序数据输入至少一种第一设定故障中每种第一设定故障对应的故障识别模型,得到每个故障识别模型输出的识别结果,将所有识别结果中置信度最高的第一设定故障确定为当前发生的故障。基于第一时段对应的时序数据进行故障识别时,由于第一时段对应的时序数据包括实时日志对应的第一时序数据,第一时序数据表征基于告警时刻确定的第一时段中的每个时刻输出的日志信息量,在确定日志信息量时不需要分析日志的具体内容,因此可以节省对日志的文本内容进行语义分析消耗的时间,提高故障分析效率。
图8示出了本发明另一实施例提供的一种故障识别方法的实现流程示意图。参照图8,在图7对应的实施例的基础上,图8对应的实施例中,故障识别方法还包括:
S705:基于至少一台服务器中每台服务器发生的历史故障和每种历史故障对应的发生次数,确定出至少一台服务器中所有服务器的健康评分,以在健康评分大于或等于设定阈值的服务器中部署新的数据库实例。
电子设备基于服务器发生的历史故障的标识,以及基于每种历史故障对应的次数,从设定的评分表中查询对应的服务器的健康评分。其中,
电子设备中预先存储了设定的评分表,设定的评分表包括至少一种故障等级中每个故障等级对应的所有设定故障在不同的次数范围内对应的分值。也就是说,设定的评分表中为每个故障等级配置了对应的分值范围,以及为每个故障等级对应的设定故障配置了不同的次数范围对应的分值,该分值处于对应的故障等级对应的分值范围。
需要说明的是,设定的评分表中可以按照故障等级的优先级对所有设定故障进行排序,故障等级的优先级越高,表征该故障等级对应的设定故障对服务器的影响程度越大。故障等级的优先级越高,对应的分值范围越大。同一故障等级对应的设定故障发生的次数越多,对应的分值越低。
例如,当第一故障等级的优先级大于第二故障等级的优先级时,第一故障等级对应的分值范围小于第二故障等级的分值范围。
针对同一故障等级对应的设定故障,在第一次数范围大于第二次数范围时,第一次数范围对应的分值小于第二次数范围的分值。
需要说明的是,电子设备可以在服务器处于空闲状态的情况下,基于服务器发生的历史故障和每种历史故障对应的次数,确定出对应的服务器的健康评分。这样可以避免因对服务器进行健康评分而干扰服务器执行的进程,降低服务器的数据处理效率。
本实施例提供的方案中,基于服务器发生的历史故障和每种历史故障对应的发生次数,确定对应的服务器的健康评分,以在健康评分大于或等于设定阈值的服务器中部署新的数据库实例。在服务器的健康评分大于或等于设定阈值时,表征对应的服务器存在的安全隐患较小,在健康评分大于或等于设定阈值的服务器中部署新的数据库实例,可以降低在部署新的数据库实例的过程中对应的服务器发生故障的概率,还可以减少后续运维的工作量。
为实现本发明实施例的训练故障识别模型的方法,本发明实施例还提供了一种训练故障识别模型的装置,设置在电子设备上,如图9所示,该训练故障识别模型的装置包括:
构建单元91,用于基于至少一个第一时段中每个第一时段对应的时序数据,构建设定故障对应的至少一个正样本和至少一个负样本;
训练单元92,用于基于所述设定故障对应的至少一个正样本和至少一个负样本,对设定的二分类模型进行训练,得到所述设定故障对应的故障识别模型;其中,
所述时序数据包括第一时序数据和第二时序数据;
第一时序数据表征对应的第一时段的每个时刻输出的日志信息量;
第二时序数据表征至少一个性能指标中每个性能指标在对应的第一时段的每个时刻的监测数据。
在一实施例中,训练故障识别模型的装置还包括:
计算单元,用于基于第一时段中每个时刻打印出的每条日志对应的第一信息量和第二信息量,计算出每条日志对应的总信息量;
确定单元,用于基于第一时段中每个时刻打印出的每条日志对应的总信息量,得到对应的第一时段对应的第一时序数据;其中,
所述第一信息量表征日志对应的日志级别出现的第一概率;
所述第二信息量表征日志中包括的所有设定词组中每个设定词组在对应的日志级别中出现的第二概率。
在一实施例中,所述计算单元还用于:
基于至少一个第一日志样本中每个日志级别出现的次数,确定出每个日志级别对应的第一概率;
基于所述至少一个第一日志样本中每个设定词组在每个日志级别下出现的次数,确定出每个设定词组在对应的日志级别中对应的第二概率;其中,
所述至少一个第一日志样本通过对历史日志进行采样得到。
在一实施例中,至少一个第一日志样本中每个第一日志样本均满足以下条件:
第一日志样本对应的日志级别对应的第一概率满足设定条件;
第一日志样本对应的告警类型为发生所述设定故障时监测到的告警类型;
第三概率与第四概率之间的差值小于或等于设定阈值;其中,所述第三概率表征第一日志样本对应的告警类型在所述至少一个第一日志样本中出现的概率;所述第四概率表征第一日志样本对应的告警类型在发生所述设定故障时被监测到的概率。
在一实施例中,构建单元91用于:
基于第一时段中的第二时段对应的时序数据,确定出与所述设定故障相关的第一指标;其中,所述第二时段表征对应的第一时段中发生所述设定故障的时段;
基于所述第一指标在所述第二时段对应的时序数据,构建所述设定故障对应的至少一个正样本;
基于所述第一指标在所述第一时段中的第三时段对应的时序数据,构建所述设定故障对应的至少一个负样本;其中,
所述第三时段表征对应的第一时段中未发生所述设定故障的时段;
所述第一指标包括以下至少之一:
在发生所述设定故障时告警的所有性能指标中的至少一个性能指标;
日志信息量。
在一实施例中,构建单元91用于:
基于第二时段对应的时序数据,确定出至少两个集合;其中,所述至少两个集合包括一个第一集合和至少一个性能指标中每个性能指标对应的第二集合;所述第一集合中的元素表征相邻两个时刻输出的日志信息量之间的差值;所述第二集合中的元素表征对应的性能指标在相邻两个时刻的监测数据之间的差值;
计算出所述至少两个集合中每个集合对应的均值和标准差;
基于三西格玛准则以及基于计算出的均值和标准差,确定出所述至少两个集合中每个集合对应的第一区间;
基于所述至少两个集合中每个集合对应的第一区间和对应集合中的最大值,确定出与所述设定故障相关的第一指标;其中,所述第一指标对应的集合中的最大值未处于对应的第一区间。
在一实施例中,所述第二时段对应的时序数据未包括在第二时段内首个触发告警的第一性能指标对应的第二时序数据;构建单元91用于:
基于所述至少两个集合中每个集合对应的第一区间和对应集合中的最大值,确定出第二指标;其中,所述第二指标对应的集合中的最大值未处于对应的第一区间;将确定出的第二指标和所述第一性能指标确定为与所述设定故障相关的第一指标。
在一实施例中,构建单元91用于:
基于所述第一指标的第一数量,确定出正样本的第二数量;
将所有第一指标在第二时段对应的时序数据以第一指标为最小单位进行全排列,得到全排列结果;
从所述全排列结果中选出第二数量的正样本;其中,
所述第一数量为大于或等于2的整数,所述第二数量为正整数;所述第二数量小于或等于所述第一数量对应的全排列运算结果的二分之一。
实际应用时,训练故障识别模型的装置包括的各单元可由训练故障识别模型的装置中的处理器来实现。当然,处理器需要运行存储器中存储的程序来实现上述各程序模块的功能。
需要说明的是:上述实施例提供的训练故障识别模型的装置在训练故障识别模型时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将训练故障识别模型的装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的训练故障识别模型的装置与训练故障识别模型的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
为实现本发明实施例的故障识别方法,本发明实施例还提供了一种故障识别装置,设置在电子设备上,如图10所示,该故障识别装置包括:
第一确定单元101,用于在检测到第一性能指标的数据触发告警的情况下,确定出第一时段对应的时序数据;
第二确定单元102,用于基于至少一种设定故障中每种设定故障对应的相关性能指标,确定出至少一种第一设定故障;所述第一设定故障的相关性能指标中包含所述第一性能指标;
第一识别单元103,用于将所述第一时段对应的时序数据输入所述至少一种第一设定故障中每种第一设定故障对应的故障识别模型,得到每个故障识别模型输出的识别结果;
第二识别单元104,用于将所有识别结果中置信度最高的第一设定故障确定为当前发生的故障;其中,
所述第一时段的结束时刻为所述第一性能指标对应的告警时刻;
所述第一时段对应的时序数据包括实时日志对应的第一时序数据和至少一个性能指标中每个性能指标对应的第二时序数据;
所述故障识别模型基于上述任一种训练故障识别模型的方法训练得到。
在一实施例中,该故障识别装置还包括:
评分单元,用于基于至少一台服务器中每台服务器发生的历史故障和每种历史故障对应的发生次数,确定出至少一台服务器中所有服务器的健康评分,以在健康评分大于或等于设定阈值的服务器中部署新的数据库实例。
实际应用时,故障识别装置包括的各单元可由故障识别装置中的处理器来实现。当然,处理器需要运行存储器中存储的程序实现上述各程序模块的功能。
需要说明的是:上述实施例提供的故障识别模型的装置在训练故障识别模型时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将故障识别装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的故障识别装置与故障识别方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供了一种电子设备。图11为本发明实施例提供的电子设备的硬件组成结构示意图,如图11所示,电子设备包括:
通信接口1,能够与其它设备比如服务器等进行信息交互;
处理器2,与通信接口1连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的训练故障识别模型的方法;或者执行上述一个或多个技术方案提供的故障识别方法。而所述计算机程序存储在存储器3上。
当然,实际应用时,电子设备中的各个组件通过总线系统4耦合在一起。可理解,总线系统4用于实现这些组件之间的连接通信。总线系统4除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图11中将各种总线都标为总线系统4。
本发明实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何计算机程序。
可以理解,存储器3可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,Sync Link Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器3旨在包括但不限于这些和任意其它适合类型的存储器。
上述本发明实施例揭示的方法可以应用于处理器2中,或者由处理器2实现。处理器2可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器3,处理器2读取存储器3中的程序,结合其硬件完成前述方法的步骤。
处理器2执行所述程序时实现本发明实施例的各个方法中多核处理器对应的流程,为了简洁,在此不再赘述。
在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器3,上述计算机程序可由处理器2执行,以完成前述图1至图6对应的实施例中的所述步骤;或者完成前述图7至图8对应的实施例中的所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、FlashMemory、磁表面存储器、光盘、或CD-ROM等存储器。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理模块中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种训练故障识别模型的方法,其特征在于,包括:
基于至少一个第一时段中每个第一时段对应的时序数据,构建设定故障对应的至少一个正样本和至少一个负样本;
基于所述设定故障对应的至少一个正样本和至少一个负样本,对设定的二分类模型进行训练,得到所述设定故障对应的故障识别模型;其中,
所述时序数据包括第一时序数据和第二时序数据;
第一时序数据表征对应的第一时段的每个时刻输出的日志信息量;
第二时序数据表征至少一个性能指标中每个性能指标在对应的第一时段的每个时刻的监测数据。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于第一时段中每个时刻打印出的每条日志对应的第一信息量和第二信息量,计算出每条日志对应的总信息量;
基于第一时段中每个时刻打印出的每条日志对应的总信息量,得到对应的第一时段对应的第一时序数据;其中,
所述第一信息量表征日志对应的日志级别出现的第一概率;
所述第二信息量表征日志中包括的所有设定词组中每个设定词组在对应的日志级别中出现的第二概率。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于至少一个第一日志样本中每个日志级别出现的次数,确定出每个日志级别对应的第一概率;
基于所述至少一个第一日志样本中每个设定词组在每个日志级别下出现的次数,确定出每个设定词组在对应的日志级别中对应的第二概率;其中,
所述至少一个第一日志样本通过对历史日志进行采样得到。
4.根据权利要求3所述的方法,其特征在于,至少一个第一日志样本中每个第一日志样本均满足以下条件:
第一日志样本对应的日志级别对应的第一概率满足设定条件;
第一日志样本对应的告警类型为发生所述设定故障时监测到的告警类型;
第三概率与第四概率之间的差值小于或等于设定阈值;其中,所述第三概率表征第一日志样本对应的告警类型在所述至少一个第一日志样本中出现的概率;所述第四概率表征第一日志样本对应的告警类型在发生所述设定故障时被监测到的概率。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述基于至少一个第一时段对应的时序数据,构建设定故障对应的至少一个正样本和至少一个负样本,包括:
基于第一时段中的第二时段对应的时序数据,确定出与所述设定故障相关的第一指标;其中,所述第二时段表征对应的第一时段中发生所述设定故障的时段;
基于所述第一指标在所述第二时段对应的时序数据,构建所述设定故障对应的至少一个正样本;
基于所述第一指标在所述第一时段中的第三时段对应的时序数据,构建所述设定故障对应的至少一个负样本;其中,
所述第三时段表征对应的第一时段中未发生所述设定故障的时段;
所述第一指标包括以下至少之一:
在发生所述设定故障时告警的所有性能指标中的至少一个性能指标;
日志信息量。
6.根据权利要求5所述的方法,其特征在于,所述基于第一时段中的第二时段对应的时序数据,确定出与所述设定故障相关的第一指标,包括:
基于第二时段对应的时序数据,确定出至少两个集合;其中,所述至少两个集合包括一个第一集合和至少一个性能指标中每个性能指标对应的第二集合;所述第一集合中的元素表征相邻两个时刻输出的日志信息量之间的差值;所述第二集合中的元素表征对应的性能指标在相邻两个时刻的监测数据之间的差值;
计算出所述至少两个集合中每个集合对应的均值和标准差;
基于三西格玛准则以及基于计算出的均值和标准差,确定出所述至少两个集合中每个集合对应的第一区间;
基于所述至少两个集合中每个集合对应的第一区间和对应集合中的最大值,确定出与所述设定故障相关的第一指标;其中,所述第一指标对应的集合中的最大值未处于对应的第一区间。
7.根据权利要求6所述的方法,其特征在于,所述第二时段对应的时序数据未包括在第二时段内首个触发告警的第一性能指标对应的第二时序数据;
所述基于所述至少两个集合中每个集合对应的第一区间和对应集合中的最大值,确定出与所述设定故障相关的第一指标,包括:
基于所述至少两个集合中每个集合对应的第一区间和对应集合中的最大值,确定出第二指标;其中,所述第二指标对应的集合中的最大值未处于对应的第一区间;
将确定出的第二指标和所述第一性能指标确定为与所述设定故障相关的第一指标。
8.根据权利要求5所述的方法,其特征在于,所述基于所述第一指标在所述第二时段对应的时序数据,构建所述设定故障对应的至少一个正样本,包括:
基于所述第一指标的第一数量,确定出正样本的第二数量;
将所有第一指标在第二时段对应的时序数据以第一指标为最小单位进行全排列,得到全排列结果;
从所述全排列结果中选出第二数量的正样本;其中,
所述第一数量为大于或等于2的整数,所述第二数量为正整数;
所述第二数量小于或等于所述第一数量对应的全排列运算结果的二分之一。
9.一种故障识别方法,其特征在于,包括:
在检测到第一性能指标的数据触发告警的情况下,确定出第一时段对应的时序数据;
基于至少一种设定故障中每种设定故障对应的相关性能指标,确定出至少一种第一设定故障;所述第一设定故障的相关性能指标中包含所述第一性能指标;
将所述第一时段对应的时序数据输入所述至少一种第一设定故障中每种第一设定故障对应的故障识别模型,得到每个故障识别模型输出的识别结果;
将所有识别结果中置信度最高的第一设定故障确定为当前发生的故障;其中,
所述第一时段的结束时刻为所述第一性能指标对应的告警时刻;
所述第一时段对应的时序数据包括实时日志对应的第一时序数据和至少一个性能指标中每个性能指标对应的第二时序数据;
所述故障识别模型基于权利要求1至8任一项所述的方法训练得到。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
基于至少一台服务器中每台服务器发生的历史故障和每种历史故障对应的发生次数,确定出至少一台服务器中所有服务器的健康评分,以在健康评分大于或等于设定阈值的服务器中部署新的数据库实例。
11.一种训练故障识别模型的装置,其特征在于,包括:
构建单元,用于基于至少一个第一时段中每个第一时段对应的时序数据,构建设定故障对应的至少一个正样本和至少一个负样本;
训练单元,用于基于所述设定故障对应的至少一个正样本和至少一个负样本,对设定的二分类模型进行训练,得到所述设定故障对应的故障识别模型;其中,
所述时序数据包括第一时序数据和第二时序数据;
第一时序数据表征对应的第一时段的每个时刻输出的日志信息量;
第二时序数据表征至少一个性能指标中每个性能指标在对应的第一时段的每个时刻的监测数据。
12.一种故障识别装置,其特征在于,包括:
第一确定单元,用于在检测到第一性能指标的数据触发告警的情况下,确定出第一时段对应的时序数据;
第二确定单元,用于基于至少一种设定故障中每种设定故障对应的相关性能指标,确定出至少一种第一设定故障;所述第一设定故障的相关性能指标中包含所述第一性能指标;
第一识别单元,用于将所述第一时段对应的时序数据输入所述至少一种第一设定故障中每种第一设定故障对应的故障识别模型,得到每个故障识别模型输出的识别结果;
第二识别单元,用于将所有识别结果中置信度最高的第一设定故障确定为当前发生的故障;其中,
所述第一时段的结束时刻为所述第一性能指标对应的告警时刻;
所述第一时段对应的时序数据包括实时日志对应的第一时序数据和至少一个性能指标中每个性能指标对应的第二时序数据;
所述故障识别模型基于权利要求1至8任一项所述的方法训练得到。
13.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器用于运行所述计算机程序时,执行以下至少一项:
权利要求1至8任一项所述的方法的步骤;
权利要求9至10任一项所述的方法的步骤。
14.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以下至少一项:
权利要求1至8任一项所述的方法的步骤;
权利要求9至10任一项所述的方法的步骤。
CN202011164795.1A 2020-10-27 2020-10-27 故障识别模型训练方法、故障识别方法、装置及电子设备 Pending CN112308126A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011164795.1A CN112308126A (zh) 2020-10-27 2020-10-27 故障识别模型训练方法、故障识别方法、装置及电子设备
PCT/CN2021/123363 WO2022089202A1 (zh) 2020-10-27 2021-10-12 故障识别模型训练方法、故障识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011164795.1A CN112308126A (zh) 2020-10-27 2020-10-27 故障识别模型训练方法、故障识别方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN112308126A true CN112308126A (zh) 2021-02-02

Family

ID=74331152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011164795.1A Pending CN112308126A (zh) 2020-10-27 2020-10-27 故障识别模型训练方法、故障识别方法、装置及电子设备

Country Status (2)

Country Link
CN (1) CN112308126A (zh)
WO (1) WO2022089202A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022089202A1 (zh) * 2020-10-27 2022-05-05 深圳前海微众银行股份有限公司 故障识别模型训练方法、故障识别方法、装置及电子设备

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115022908B (zh) * 2022-05-11 2023-05-12 中电信数智科技有限公司 一种核心网与基站传输网络异常预测及定位的方法
CN115118464A (zh) * 2022-06-10 2022-09-27 深信服科技股份有限公司 一种失陷主机检测方法、装置、电子设备及存储介质
CN115225470B (zh) * 2022-07-28 2023-10-13 天翼云科技有限公司 一种业务异常监测方法、装置、电子设备及存储介质
CN115422263B (zh) * 2022-11-01 2023-01-13 广东亿能电力股份有限公司 一种电力现场多功能通用型故障分析方法及系统
CN116089231B (zh) * 2023-02-13 2023-09-15 北京优特捷信息技术有限公司 一种故障告警方法、装置、电子设备及存储介质
CN115951002B (zh) * 2023-03-10 2023-05-16 山东省计量科学研究院 一种气质联用仪故障检测装置
CN116781984B (zh) * 2023-08-21 2023-11-07 深圳市华星数字有限公司 一种机顶盒数据优化存储方法
CN117076131B (zh) * 2023-10-12 2024-01-23 中信建投证券股份有限公司 一种任务分配方法、装置、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019020094A1 (zh) * 2017-07-28 2019-01-31 阿里巴巴集团控股有限公司 一种指标异常检测方法、装置以及电子设备
CN109446049A (zh) * 2018-11-01 2019-03-08 郑州云海信息技术有限公司 一种基于监督学习的服务器错误诊断方法和装置
CN109634828A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 故障预测方法、装置、设备及存储介质
WO2019228190A1 (zh) * 2018-05-29 2019-12-05 华为技术有限公司 网络故障分析方法及装置
CN110647456A (zh) * 2019-09-29 2020-01-03 苏州浪潮智能科技有限公司 一种存储设备的故障预测方法、系统及相关装置
CN110647446A (zh) * 2018-06-26 2020-01-03 中兴通讯股份有限公司 一种日志故障关联与预测方法、装置、设备及存储介质
CN110838075A (zh) * 2019-05-20 2020-02-25 全球能源互联网研究院有限公司 电网系统暂态稳定的预测模型的训练及预测方法、装置
CN111045894A (zh) * 2019-12-13 2020-04-21 贵州广思信息网络有限公司广州分公司 数据库异常检测方法、装置、计算机设备和存储介质
CN111338836A (zh) * 2020-02-24 2020-06-26 北京奇艺世纪科技有限公司 处理故障数据的方法、装置、计算机设备和存储介质
CN111611146A (zh) * 2020-06-18 2020-09-01 南方电网科学研究院有限责任公司 一种微服务故障预测方法和装置
CN111752775A (zh) * 2020-05-28 2020-10-09 苏州浪潮智能科技有限公司 一种磁盘故障预测方法和系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201621622D0 (en) * 2016-12-19 2017-02-01 Palantir Technologies Inc Machine fault modelling
CN109639450B (zh) * 2018-10-23 2023-06-23 平安壹钱包电子商务有限公司 基于神经网络的故障告警方法、系统、计算机设备及介质
CN111585799A (zh) * 2020-04-29 2020-08-25 杭州迪普科技股份有限公司 网络故障预测模型建立方法及装置
CN112308126A (zh) * 2020-10-27 2021-02-02 深圳前海微众银行股份有限公司 故障识别模型训练方法、故障识别方法、装置及电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019020094A1 (zh) * 2017-07-28 2019-01-31 阿里巴巴集团控股有限公司 一种指标异常检测方法、装置以及电子设备
WO2019228190A1 (zh) * 2018-05-29 2019-12-05 华为技术有限公司 网络故障分析方法及装置
CN110647446A (zh) * 2018-06-26 2020-01-03 中兴通讯股份有限公司 一种日志故障关联与预测方法、装置、设备及存储介质
CN109446049A (zh) * 2018-11-01 2019-03-08 郑州云海信息技术有限公司 一种基于监督学习的服务器错误诊断方法和装置
CN109634828A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 故障预测方法、装置、设备及存储介质
CN110838075A (zh) * 2019-05-20 2020-02-25 全球能源互联网研究院有限公司 电网系统暂态稳定的预测模型的训练及预测方法、装置
CN110647456A (zh) * 2019-09-29 2020-01-03 苏州浪潮智能科技有限公司 一种存储设备的故障预测方法、系统及相关装置
CN111045894A (zh) * 2019-12-13 2020-04-21 贵州广思信息网络有限公司广州分公司 数据库异常检测方法、装置、计算机设备和存储介质
CN111338836A (zh) * 2020-02-24 2020-06-26 北京奇艺世纪科技有限公司 处理故障数据的方法、装置、计算机设备和存储介质
CN111752775A (zh) * 2020-05-28 2020-10-09 苏州浪潮智能科技有限公司 一种磁盘故障预测方法和系统
CN111611146A (zh) * 2020-06-18 2020-09-01 南方电网科学研究院有限责任公司 一种微服务故障预测方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LIU, ZL (LIU, ZELIANG) ; WU, CT (WU, C. T.) ; KOISHI, M (KOISHI, M.): "Transfer learning of deep material network for seamless structure-property predictions", COMPUTATIONAL MECHANICS, vol. 64, no. 2, 12 April 2019 (2019-04-12), XP036826309, DOI: 10.1007/s00466-019-01704-4 *
WANG, MH (WANG, MEI-HUA) ; YEH, ML (YEH, MEI-LING): "Respiratory training interventions improve health status of heart failure patients: A systematic review and network meta-analysis of randomized controlled trials", WORLD JOURNAL OF CLINICAL CASES, vol. 7, no. 18, 26 September 2019 (2019-09-26) *
李国良,周煊赫,孙佶,余翔,袁海涛,刘佳斌,韩越: "基于机器学习的数据库技术综述", 计算机学报, vol. 43, no. 11, 4 November 2019 (2019-11-04) *
肖晋飞,任少君,司风琪: "基于神经网络的故障预警平台设计与开发", 工业控制计算机, vol. 33, no. 07, 25 July 2020 (2020-07-25) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022089202A1 (zh) * 2020-10-27 2022-05-05 深圳前海微众银行股份有限公司 故障识别模型训练方法、故障识别方法、装置及电子设备

Also Published As

Publication number Publication date
WO2022089202A1 (zh) 2022-05-05

Similar Documents

Publication Publication Date Title
CN112308126A (zh) 故障识别模型训练方法、故障识别方法、装置及电子设备
Das et al. Desh: deep learning for system health prediction of lead times to failure in hpc
US11132248B2 (en) Automated information technology system failure recommendation and mitigation
CN110928718B (zh) 一种基于关联分析的异常处理方法、系统、终端及介质
US9652318B2 (en) System and method for automatically managing fault events of data center
Shang et al. Automated detection of performance regressions using regression models on clustered performance counters
CN108427720B (zh) 系统日志分类方法
WO2017177018A1 (en) A mobile phone with system failure prediction using long short-term memory neural networks
JP2018045403A (ja) 異常検知システム及び異常検知方法
WO2022001125A1 (zh) 一种存储系统的存储故障预测方法、系统及装置
CN113505044B (zh) 数据库告警方法、装置、设备和存储介质
US20220197879A1 (en) Methods and systems for aggregating and querying log messages
CN113298638B (zh) 根因定位方法、电子设备及存储介质
CN114327964A (zh) 业务系统的故障原因处理方法、装置、设备及存储介质
CN112801315A (zh) 电力二次设备的状态诊断方法、装置及终端
CN114691403A (zh) 一种服务器故障诊断方法、装置、电子设备及存储介质
Liu et al. Incident-aware duplicate ticket aggregation for cloud systems
CN106776728A (zh) 基于日志文件分析的代码检查方法、系统及开发平台
CN113392000A (zh) 测试用例执行结果分析方法、装置、设备及存储介质
CN116126574A (zh) 一种系统故障诊断方法、装置、设备及存储介质
CN112131090B (zh) 业务系统性能监控方法及装置、设备及介质
CN111352818B (zh) 应用程序性能分析方法、装置、存储介质及电子设备
CN113806178A (zh) 一种集群节点故障检测方法及装置
CN116134460A (zh) 对信息技术服务管理系统中的警报进行优先化
CN112737834A (zh) 一种云硬盘故障预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination