CN115061838A - 一种故障检测方法及系统 - Google Patents

一种故障检测方法及系统 Download PDF

Info

Publication number
CN115061838A
CN115061838A CN202210316935.5A CN202210316935A CN115061838A CN 115061838 A CN115061838 A CN 115061838A CN 202210316935 A CN202210316935 A CN 202210316935A CN 115061838 A CN115061838 A CN 115061838A
Authority
CN
China
Prior art keywords
alarm
data
fault
alarm data
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210316935.5A
Other languages
English (en)
Inventor
张静
李沐恒
张宪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Information Technology Co Ltd
Original Assignee
Jingdong Technology Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Information Technology Co Ltd filed Critical Jingdong Technology Information Technology Co Ltd
Priority to CN202210316935.5A priority Critical patent/CN115061838A/zh
Publication of CN115061838A publication Critical patent/CN115061838A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Abstract

本公开提供一种故障检测方法及系统,所述方法包括:获取海量的告警数据;计算各告警数据的异常性得分,并筛选异常性得分高于第一阈值的告警数据作为异常告警数据;基于预存的第一模型对异常告警数据进行第一处理,以获取疑似故障告警数据;基于预存的第二模型对疑似故障告警数据进行第二处理,得到告警故障数据,并从告警故障数据中提取故障信息。本公开所述方法能够从海量的告警数据中高效地获取较为准确的故障信息,减少故障的排查时间。

Description

一种故障检测方法及系统
技术领域
本公开涉及计算机应用技术领域,尤其涉及一种故障检测方法及系统。
背景技术
大型IT企业的业务庞杂,监控指标众多,为了保证服务系统安全稳定的运行中,需要实时检测出可能存在的系统故障,开发人员往往会在脚本执行过程中设计大量监控规则,从而对异常指标发出告警。
现有技术通常使用聚类算法对海量告警进行告警聚类摘要后,再交由运维工程师进行分析,当系统规模庞大、应用种类繁多时,通过聚类后得到的告警数据规模依然庞大,并夹杂大量噪声告警,因此增加了运维工程师的排查难度,使得定位故障十分困难。
因此,如何减少故障的排查时间,实现高效的故障检测是业界亟需解决的重要课题。
发明内容
本公开提供的一种故障检测方法及系统,用以解决现有技术在系统规模庞大、应用种类繁多时对告警数据进行故障定位的难度较大、效率较低的缺陷,使其能够减少故障的排查时间,提升故障检测的效率。
本公开提供一种故障检测方法,包括:
获取海量的告警数据;
计算各所述告警数据的第一异常性得分,并筛选所述第一异常性得分高于第一阈值的所述告警数据作为异常告警数据;
基于预存的第一模型对所述异常告警数据进行第一处理,以获取疑似故障告警数据;
基于预存的第二模型对所述疑似故障告警数据进行第二处理,得到告警故障数据,并从所述告警故障数据中提取故障信息。
根据本公开提供的一种故障检测方法,所述计算各所述告警数据的第一异常性得分,包括:基于预存的告警模板对所述告警数据进行分层解析,以获取告警模板数据;对所述告警模板数据进行周期性分析,以获取第一分类数据,其中,所述第一分类数据包括周期性告警数据和非周期性告警数据;对所述告警模板数据进行稀有性分析,以获取第二分类数据;其中,所述第二分类数据包括高频告警数据和低频告警数据;基于所述第一分类数据和所述第二分类数据,计算所述第一异常性得分。
根据本公开提供的一种故障检测方法,对所述告警模板数据进行周期性分析,以获取第一分类数据,包括:提取所述告警模板数据的分钟级聚合特征;基于所述分钟级聚合特征,将所述告警模板数据分为所述周期性告警数据和所述非周期性告警数据。
根据本公开提供的一种故障检测方法,对所述告警模板数据进行稀有性分析,以获取第二分类数据,包括:将所述告警模板数据中重复出现的数据进行聚合处理,以得到高频告警数据,并将所述告警模板数据中除所述高频告警数据外的其他数据作为低频告警数据。
根据本公开提供的一种故障检测方法,所述基于所述第一分类数据和所述第二分类数据,计算所述第一异常性得分,包括:提取所述第一分类数据中周期性告警数据的趋势成分及残差,并根据所述趋势成分及所述残差计算所述周期性告警数据的第二异常性得分;在所述告警数据为所述非周期性告警数据和所述低频告警数据的情况下,将所述第二异常性得分按第一比例增大,得到所述第一异常性得分;在所述告警数据为所述周期性告警数据和所述高频告警数据的情况下,将所述第二异常性得分按第二比例减小,得到所述第一异常性得分。
根据本公开提供的一种故障检测方法,所述基于预存的第一模型对所述异常告警数据进行第一处理,以获取疑似故障告警数据,包括:提取所述异常告警数据中的告警特征;将所述告警特征输入所述第一模型进行故障告警的召回处理,并根据所述召回处理的结果从所述异常告警数据中获取所述疑似故障告警数据。
根据本公开提供的一种故障检测方法,对所述异常告警数据进行独热编码处理,得到编码处理结果,并从所述编码处理结果中提取告警时序特征和告警状态分布特征;将所述告警时序特征和所述告警状态分布特征作为所述告警特征;其中,所述告警时序特征包括分钟级粒度聚合特征、分钟级告警应用数目和分钟级最大应用数目;所述告警状态分布特征包括告警时序数量分布特征和告警时序频率分布特征。
根据本公开提供的一种故障检测方法,所述将所述告警特征输入所述第一模型进行故障告警的召回处理,并根据所述召回处理的结果从所述异常告警数据中获取所述疑似故障告警数据,包括:利用所述第一模型对所述告警特征进行所述召回处理,并从所述召回处理的结果中提取包含疑似故障信息的异常时间点;对各所述异常时间点进行故障评分,以获取各所述异常时间点对应的故障得分;在所述故障得分高于第二阈值的情况下,将所述异常时间点对应的告警数据作为所述疑似故障告警数据。
根据本公开提供的一种故障检测方法,基于预存的第二模型对所述疑似故障告警数据进行第二处理,以获取故障告警信息,包括:将所述疑似故障告警数据输入所述第二模型中进行筛选,以获取故障告警数据,并从所述故障告警数据中获取所述故障告警信息;其中,所述故障告警信息包括故障根因信息以及故障预测信息。
本公开还提供一种故障检测系统,包括:
告警数据获取单元,用于获取海量的告警数据;异常告警数据获取单元,用于计算各所述告警数据的异常性得分,并筛选所述异常性得分高于第一阈值的所述告警数据作为异常告警数据;疑似故障告警数据获取单元,用于基于预存的第一模型对所述异常告警数据进行第一处理,以获取疑似故障告警数据;告警故障信息获取单元,用于基于预存的第二模型对所述疑似故障告警数据进行第二处理,得到告警故障数据,并从所述告警故障数据中提取故障信息。
本公开还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述故障检测方法的步骤。
本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述故障检测方法。
本公开还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述故障检测方法。
本公开提供的一种故障检测方法和系统,通过各告警数据的异常性得分从海量的告警数据中快速筛选出异常告警数据,并利用第一模型对异常告警数据进行无监督学习以获取疑似故障告警数据,保证了该疑似故障告警数据的召回率,又利用第二模型对疑似故障告警数据进行有监督学习,进一步从疑似故障告警数据中筛选出告警故障数据,并从告警故障数据中提取所需故障信息,以便根据故障信息对故障进行定位和预测。本公开所述方法能够从海量的告警数据中高效地提取准确的故障信息,减少故障的排查时间。
附图说明
为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图进行简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例提供的故障检测方法的流程示意图之一;
图2是本公开实施例提供的故障检测方法的流程示意图之二;
图3是本公开实施例提供的故障检测方法的流程示意图之三;
图4是本公开实施例提供的故障检测方法的流程示意图之四;
图5是本公开实施例提供的故障检测方法的交互示意图;
图6是本公开实施例提供的故障检测方法的流程示意图之五;
图7是本公开实施例提供的故障检测系统的结构示意图;
图8是本公开提供的电子设备的结构示意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚,下面将结合本公开中的附图,对本公开中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
下面结合图1描述本公开实施例提供的故障检测方法,包括:
步骤110、获取海量的告警数据。
告警是指在特定事件发生时被监管对象发出的通报构成的一种事件报告,用于传递告警信息。告警数据具有时效性,表明在某个时间段内发生特定事件时动态产生的告警数据,这些告警数据中包含多种类型的信息,有用于表征与发生事件紧密相关的特征信息,也有与发生事件不相关的噪声信息;例如,对于告警作用下的某个家具灯不亮,可能的原因有多种,如灯丝烧坏、电路失压、临时停电、欠费和其他信息等。
在该步骤中,告警数据是由系统的监控中心对服务器出现故障时发出的告警消息,该告警消息可以包括对应服务器名称,也可以是告警消息发出的时间,还可以是告警主题等。
在该实施例中,获取的一种告警数据是“【P3】【警告】【外部数据接口初版监控---字段监控告警】consumer.ge…”,表明监控中心默认的该告警数据的告警严重程度为P3等级,告警内容为对外部数据接口初版监控获取的字段监控告警。
步骤120、计算各告警数据的异常性得分,并筛选异常性得分高于第一阈值的告警数据作为异常告警数据。
在该步骤中,对所有告警数据进行异常告警评分,即计算各告警数据的异常性得分,用于区分各告警数据的异常程度。
对告警数据进行异常告警评分可以是按照告警数据的默认安全等级进行评分,也可以按各告警数据出现的高低频次进行评分,还可以是对各告警数据的周期性特点进行评分;当然,也可以是其他方式的评分,本实施例不做限制。
在该步骤中,第一阈值可以为人为设置的临界值,当告警数据的异常性得分超过该临界值时,可以认为该告警数据的异常程度较大,可能包含所需的故障信息,应将该告警数据提取用于后续步骤的筛选过程,这种根据人工经验设置的阈值对历史出现过的告警数据进行异常性评分具有更好的可靠性;第一阈值也可以是根据不同时间、不同类型的告警数据智能分析得到的动态值,判断告警数据是否为新出现的告警数据而自适应地调整第一阈值,这种根据动态值进行异常性的适用数据类型更广泛。
需要说明的是,该第一阈值取值范围在8.5-9.5之间。
在图2所示实施例中,计算各告警数据异常性得分,并将异常性得分高于9.2分的告警数据作为异常告警数据,否则,剔除该告警数据。
步骤130、基于预存的第一模型对异常告警数据进行第一处理,以获取疑似故障告警数据。
在该步骤中,第一模型为无监督学习模型,用于学习异常告警数据中的疑似故障信息,并提取对应的疑似故障告警数据;第一处理是指将异常告警数据输入到第一模型进行无监督学习,并根据无监督学习结果提取疑似故障告警数据的过程。
在该步骤中,第一模型可以是单个的无监督模型,如局部异常因子检测模型(Local Outlier Factor,LOF)以及孤立森林模型(Isolation Forest,IForest)等,也可以是由多个无监督模型组合得到的综合检测模型。
在图3所示实施例中,将异常告警数据分别输入LOF模型、IForest模型、最邻近结点算法(KNN)及基于角度的异常时间点检测算法(ABOD)中进行召回处理,并经过多层异常检测投票以及多维度加权故障评分后,筛选出所需的疑似故障告警数据。
可选的,所述无监督异常检测模型包括:局部异常因子检测模型、孤立森林模型、最邻近结点模型和基于角度的异常时间点检测模型。
其中,局部异常因子(LOF)检测模型通过计算“局部可达密度”来反映一个样本的异常程度,一个样本点的局部可达密度越大,这个点就越有可能是异常时间点;孤立森林(IForest)先抽取多个样本构建多棵二叉树(iTree),然后综合多棵二叉树生成的数据点,计算每个数据点的异常分值,其基本原理是:较快被划分到叶子结点的数据为异常数据;最邻近结点(KNN)模型是根据不同设置的K近邻距离来筛选异常时间点;基于角度的异常时间点检测(ABOD)模型检测异常时间点的基本思想是:计算每个样本与所有其他样本对所形成的夹角的方差,异常时间点因为远离正常点,因此方差变化小;本实施例同时采用上述四种检测模型,分别是通过密度、划分超平面、距离和夹角等不同的角度来进行异常时间点检测。
可以理解的是,召回模型属于无监督模型的一种,召回模型能够从大量的异常告警数据中快速筛选出有价值的疑似故障信息,用于解决数据量过载的问题;还可以用于将多路召回的数据进行融合,得到一个精简的疑似故障数据集,用于解决单路召回特征单一,信息量小,多样性差的问题。
需要说明的是,该实施例中,可根据异常告警数据对应的异常性得分作为召回模型的初始权重来获取异常告警数据的异常时间点,并利用投票机制对各异常时间点进行故障评分,从而获取已召回的疑似故障告警数据。
步骤140、基于预存的第二模型对疑似故障告警数据进行第二处理,得到告警故障数据,并从告警故障数据中提取故障信息。
在该步骤中,第二模型为有监督学习模型,用于学习疑似故障告警数据的故障信息,并提取对应的故障告警数据;第二处理是指将疑似故障告警数据数据输入到第二模型进行有监督学习,并根据有监督筛选结果提取故障告警数据的过程。
在该步骤中,第一模型可以是单个的有监督模型,如多分类支撑向量机、XGBoost模型以及深度模型,其中深度模型可以是卷积神经网络,也可以是由多个无监督模型组合得到的综合检测模型。
需要说明的是,该有监督模型是根据历史故障告警数据作为训练集并进行有监督训练而得到的模型,用于对新输入的告警数据进行故障分类。
在该步骤中,对于上述已召回的疑似故障告警数据,需要对其中包含的故障时间信息作进一步筛选以及对故障类型分类,以提取包含确定故障信息的故障告警数据,其中,该故障信息可以是用于故障定位的故障根因信息,还可以是用于预测未知故障的故障预测信息。
在图4所示实施例中,将疑似故障告警数据输入训练好的XGBoost模型中进行分类筛选,并从分类结果中筛选出故障告警数据,最后从故障告警数据中提取故障根因信息以及故障预测信息。
本公开提供的一种故障检测方法,通过各告警数据的异常性得分从海量的告警数据中快速筛选出异常告警数据,并利用第一模型对异常告警数据进行无监督学习以获取疑似故障告警数据,保证了该疑似故障告警数据的召回率,又利用第二模型对疑似故障告警数据进行有监督学习,进一步从疑似故障告警数据中筛选出告警故障数据,并从告警故障数据中提取所需故障信息,以便根据故障信息对故障进行定位和预测。本公开所述方法能够从海量的告警数据中高效地提取准确的故障信息,减少故障的排查时间。
可选的,基于预存的告警模板对告警数据进行分层解析,以获取告警模板数据;对告警模板数据进行周期性分析,以获取第一分类数据,其中,第一分类数据包括周期性告警数据和非周期性告警数据;对告警模板数据进行稀有性分析,以获取第二分类数据;其中,第二分类数据包括高频告警数据和低频告警数据;基于第一分类数据和第二分类数据,计算第一异常性得分。
具体的,本实施例基于频率模板树(Frequent Template Tree,FT-tree)模型,先对海量的告警数据中进行分层解析,每一层的划分属性均为告警数据的固有类别属性,然后将经过多层解析后的告警数据按照多个分层获取一个结构化的告警模板,该模板实质上为一个告警数据集,数据集内的样本数为告警数据,分层解析中的分层数为每个告警数据对应的特征数。
在该实施例中,将FT-tree模型的每层树的解析类型分别设置为提取告警时刻、应用名称、告警应用名称和主题,并将告警数据按解析类型输入FT-tree模型中,以构成告警模板。
需要说明的是,由于告警数据中存在大量的噪声告警,这些噪声告警往往以周期性告警的形式出现,且出现时刻密度较高,噪声告警的出现一般并非与故障相关,但是其数量规模较大,干扰性较强,因此,本实施例可以利用对告警数据进行周期性分析来排出这些噪声告警的干扰。
在该实施例中,通过将告警模板数据进行傅里叶级数分析和ACF自相关函数分析,该模板中的告警数据划分为周期性数据和非周期性数据。
另外,由于罕见告警数据中可能会携带重要的故障信息,但罕见告警由于数量较少,非常容易淹没在批量的噪声告警中,因此,本实施例还可以根据告警数据出现的频次高低对这类罕见告警数据进行稀有性分析,以给予该类告警数据更高的关注。
在该实施例中,通过将告警模板数据按照出现频次的高低进行聚合,根据该聚合结果中包含同种告警数据数目的多少将告警数据分为高频告警数据和低频告警数据。
该实施例中,将告警模板数据分别按照周期性分析和稀有性分析分为第一分类数据和第二分类数据,即告警数据可分为周期性高频告警数据、周期性低频告警数据、非周期性高频告警数据以及非周期性低频告警数据这四类,其中,根据经验可知,非周期性低频告警数据有较大可能包含故障信息,而周期性高频告警数据通常为常规告警信息,因此,需要对告警数据中的非周期性低频告警数据赋予更高异常分数,而对于周期性高频告警数据,则降低其异常性分数,以此实现告警降噪并同时保留重要的罕见告警数据,并将降噪后保留下来的告警数据作为异常告警数据。
本实施例通过将告警数据结构化后得到告警模板数据,然后根据模板中各数据的周期性特点和稀有性特点将告警数据分为第一分类数据和第二分类数据,并根据各数据所在类别给予不同的异常性得分,能够提升低频告警数据的关注度并排除噪声告警数据对后续召回处理以及数据精筛的干扰。
在一些实施例中,告警模板数据包括告警数据的告警时刻、应用名称以及告警应用名称。
可以理解的是,在对海量的告警数据进行分层解析时,可根据告警数据的告警时刻、应用名称以及告警应用名称这三种重要属性作为划分层次的依据来构成结构化的告警模板数据。
本实施例提供了一种告警模板数据的具体组成方式,使得由上述三种属性对应的告警数据组成的结构化的模板具有统一类型的格式,为后续数据的筛选过程提供了方便。
可选的,提取告警模板数据的分钟级聚合特征;基于分钟级聚合特征,将告警模板数据分为周期性告警数据和非周期性告警数据。
在图5所示的实施例中,一条告警模板数据为“app_name=‘graph-backend’”,该实施例先以每分钟为间隔对该数据进行分钟级聚合可得到不同时间段的聚合特征,然后采用傅里叶级数分析生成对应告警应用的潜在周期长度,然后根据周期长度进行自相关函数计算,以获取对应周期长度的周期性分数;再根据预设的周期性分数阈值将所有告警数据按照应用类别划分为周期性告警数据和非周期性告警数据。
在图5所示的实施例中,获取上述周期性告警数据后,采用季节性分解的方式提取告警数据中与噪声告警区别明显的信息,并根据这些信息对告警的异常程度进行评分。
本实施例提供了一种对告警模板数据分为周期性告警数据和非周期性告警数据的具体方法,能够排除噪声告警对后续召回处理以及数据精筛的干扰。
可选的,将告警模板数据中重复出现的数据进行聚合处理,以得到高频告警数据,并将告警模板数据中除高频告警数据外的其他数据作为低频告警数据。
可以理解的是,由于罕见告警数据中可能会携带重要的故障信息,但罕见告警由于数量较少,非常容易淹没在批量的噪声告警中,因此,本实施例可以根据告警数据出现的频次高低对这类罕见告警数据进行稀有性分析,以给予该类告警数据更高的关注。
在该实施例中,将告警模板数据按出现的次数进行聚合,可得到多种聚合结果,该聚合结果内包含的均为同种告警模板数据;根据聚合结果内数据的数目设置区分高低频率的阈值范围为3-20,本实施例将该阈值取5,即当聚合结果内存在至少5个同种告警模板数据时,将该类告警模板数据分为高频告警数据,同理,当聚合结果内存在少于5个同种告警模板数据时,该类告警模板数据则为低频告警数据。
本实施例提供了一种对告警模板数据分为高频告警数据和低频告警数据的具体方法,能够提升低频告警数据的关注度,以提升筛选故障信息的概率。
可选的,提取第一分类数据中周期性告警数据的趋势成分及残差,并根据趋势成分及残差计算周期性告警数据的第二异常性得分;在告警数据为非周期性告警数据和低频告警数据的情况下,将第二异常性得分按第一比例增大,得到第一异常性得分;在告警数据为周期性告警数据和高频告警数据的情况下,将第二异常性得分按第一比例减小,得到第一异常性得分。
可以理解的是,噪声告警数据一般呈周期性出现,对于获取的周期性告警数据,需要从中获取与噪声告警数据有明显差别的特征来排除噪声告警的干扰,可根据以时间长度(一个季节的长度)来计算的周期性告警中的趋势成分及残差,并根据趋势成分及残差计算每个告警数据对应的告警异常程度,即第二异常性得分。
需要说明的是,对每个告警数据计算算术异常性得分后,还需要结合各告警数据的稀有性特点对各告警数据进行综合评分,来提升低频词告警特征的重要度。
需要说明的是,第一比例和第二比例的取值范围均在0.5-1.5之间。
在该实施例中,告警数据的差异性得分为算术异常性得分于第一比例之积,例如,一个非周期性告警数据的算术异常性得分为8,且该告警数据同时满足低频告警数据,设置第一比例为1.2,则告警数据的差异性得分为9.6;一个周期性告警数据的算术异常性得分为7,且该告警数据同时满足低频告警数据,设置第二比例为0.7,则告警数据的差异性得分为4.9。
本实施例提供了一种对告警数据进行周期性分析和稀有性分析来确定异常性得分的方法,通过获取该异常性得分能够有效地排除周期性告警中包含的噪声告警数据并提升对低频词告警特征的关注度。
可选的,提取异常告警数据中的告警特征;将告警特征输入第一模型进行故障告警的召回处理,并根据召回处理的结果从异常告警数据中获取疑似故障告警数据。
可以理解的是,异常告警数据中包含的数据类型有多种,需要构造有效的告警特征使得第一模型将包含疑似故障信息的告警数据进行召回。
在该实施例中,告警特征可以是告警数据的时序特征,用于反映实时更新的告警信息,也可以是状态分布特征,用于将分钟级粒度的告警数据聚合成分分钟级告警状态分布。
在该实施例中,将包含上述告警特征的异常告警数据分别输入LOF模型、IForest模型、KNN模型及ABOD模型中进行召回处理,并经过多层异常检测投票以及多维度加权故障评分后,筛选出所需的疑似故障告警数据。
本实施例提供了一种利用召回模型提取包含故障信息的告警数据的方法,能够从异常告警数据中筛选出所有可能出现的故障信息对应的告警数据。
可选的,对异常告警数据进行独热编码处理,得到编码处理结果,并从编码处理结果中提取告警时序特征和告警状态分布特征;将告警时序特征和告警状态分布特征作为告警特征;其中,告警时序特征包括分钟级粒度聚合特征、分钟级告警应用数目和分钟级最大应用数目;告警状态分布特征包括告警时序数量分布特征和告警时序频率分布特征。
需要说明的是,在上述告警模板数据中,有多条字段为模板库字段,因此在特征体系搭建的过程中,首先基于应用名称、告警应用名称等多个非连续字段对结构化告警数据进行0/1独热编码;0/1独热编码就是将非连续的片段转换成对应连续的数据供相关的机器学习算法使用,本实施例提取的告警特征作为无监督检测模型的输入特征,应将模板中包含非连续字段利用0/1独热编码方式转换为连续的数字类型,然后从编码结果中获取进行无监督学习所需的告警特征;由于系统的告警批量更新速度较快,需要尽可能地实时捕捉告警信息对应的状态分布特征,同时为了提升系统对告警时序变化的敏感性,需要提取异常告警数据中时序分布特征,将上述状态分布特征和时序分布特征共同作为后续检测模型的输入特征进行异常告警数据的召回处理。
本实施例提供了一种数据预处理和提取告警特征的方法,为后续检测模型进行召回处理提供了输入特征。
在一些实施例中,告警时序特征包括:告警编码后的分钟级粒度聚合特征、分钟级告警应用数目和分钟级最大应用数目;告警状态分布特征包括:告警时序数量分布特征和告警时序频率分布特征。
可以理解的是,为了实时捕捉告警信息的状态分布,本实施例将告警编码后的分钟级粒度聚合特征、分钟级告警应用数目和分钟级最大应用数目作为异常告警数据的状态分布特征,上述三种状态分布特征都是以分钟为统计间隔的特征量,具有较好的时效性,可适用于告警数据;而为了提升系统对告警时序变化的敏感性,本实施例生成不同长度的滑动窗口下的告警数目统计作为告警时序数量分布特征,又根据分钟内存在告警的总秒数作为时序频率分布特征,以上两部分特征构成告警的时序分布特征;例如,对于时序数量分布特征,滑动窗口的长度可以此为:1min、2min、5min、10min、20min、30min,然后统计不同窗口下的告警数目,生成时序数量分布特征,而时序频率分布特征为分钟内的告警秒数。
本实施例提供了一种告警时序特征和告警状态分布特征的提取方法,使得提取的到的告警特征能够更好的体现告警信息的时效性以及告警时序变化的敏感性。
可选的,利用第一模型对告警特征进行召回处理,并从召回处理的结果中提取包含疑似故障信息的异常时间点;对各异常时间点进行故障评分,以获取各异常时间点对应的故障得分;在故障得分高于第二阈值的情况下,将所述异常时间点对应的告警数据作为所述疑似故障告警数据。
可以理解的是,召回模型为无监督检测模型的一种,而利用召回模型对异常告警数据进行召回处理,可以是根据告警特征筛选出故障疑似故障信息对应的异常时间点,并利用召回模型的投票机制对异常时间点进行故障评分,将故障得分超过第二阈值的异常时间点所对应的疑似故障告警数据进行召回。
在图6所示的实施例中,先对异常告警数据进行预处理(归一化等),然后提取告警特征(告警时序特征和告警状态分布特征),并将包含该告警特征的告警数据输入召回模型,在经过召回模型的异常检测投票后计算各异常时间点的多维度加权故障评分,最后,在故障得分超过第二阈值得情况下,对该异常时间点对应的疑似故障告警数据进行召回,并按照上述故障评分对召回的疑似故障告警数据进行分值从大到小的排序,供后续有监督模型对该疑似故障告警数据进行进一步筛选。
本实施例提供了一种利用告警特征对异常告警数据进行召回处理的方法,能够根据包含疑似故障信息的异常时间点筛选出对应的疑似故障告警数据。
可选的,将所述疑似故障告警数据输入所述第二模型中进行筛选,以获取故障告警数据,并从所述故障告警数据中获取所述故障告警信息;其中,所述故障告警信息包括故障根因信息以及故障预测信息。
需要说明的是,该有监督模型是根据历史故障告警数据作为训练集并进行有监督训练而得到的模型,用于对新输入的告警数据进行故障分类。
在该实施例中,将上述疑似故障告警数据输入到有监督模型中,并疑似故障告警数据中包含的故障类型进行分类,以获取某个故障发生时刻对应的故障信息;另外,基于故障告警数据中每个返回的故障时刻点,对附近时刻的多应用告警数据进行时序相关性分析,结合调用链信息,对故障告警数据进行根因定位分析,以确定该故障告警数据的故障信息,即该故障告警数据的根因信息。
需要说明的是,本实施例还可对故障告警数据进行潜在故障预测分析,即结合上述调用链中的应用调用关系,再结合历史异常告警数据,对关联应用未来可能触发的告警数据及相应故障进行提前预测。
本实施例提供了一种有监督检测方式从疑似故障告警信息中获取故障发生时刻对应的故障类型。
在一些实施例中,第二模型的创建包括:基于疑似故障告警数据获取训练集;利用训练集对XGBoost模型进行有监督训练,以获取故障告警筛选模型。
可以理解的是,本实施例先结合人工手段,对历史故障数据的故障类型做进一步标注,生成训练集,然后采用XGBoost模型对疑似故障告警数据进行有监督分类,得到每个异常时间点对应的故障类型。
本实施例提供了一种具体的有监督分类模型对疑似故障告警数据进行第二次筛选,并将各疑似故障告警数据包含的故障类型进行分类,以确定每个疑似故障告警数据在异常时刻发生的故障类型。
除了上述方法,本公开还提供一种用于实施上述方法的故障检测系统。
结合图7对本公开实施例提供的一种故障检测系统进行描述,下文描述的一种故障检测系统与上文描述的一种故障检测方法可相互对应参照。
本公开还提供一种故障检测系统,包括:
告警数据获取单元710,用于获取海量的告警数据;异常告警数据获取单元720,用于计算各告警数据的异常性得分,并筛选异常性得分高于第一阈值的告警数据作为异常告警数据;疑似故障告警数据获取单元730,用于基于预存的第一模型对异常告警数据进行第一处理,以获取疑似故障告警数据;告警故障信息获取单元740,用于基于预存的第二模型对疑似故障告警数据进行第二处理,得到告警故障数据,并从告警故障数据中提取故障信息。
本公开提供的一种故障检测方法和系统,通过告警数据获取单元710获取海量的告警数据作为待检测数据,然后异常告警数据获取单元720根据各告警数据的异常性得分从海量的告警数据中快速筛选出异常告警数据,再通过疑似故障告警数据获取单元730利用第一模型对异常告警数据进行无监督学习以获取疑似故障告警数据,保证了该疑似故障告警数据的召回率,最后通过告警故障信息获取单元740利用第二模型对疑似故障告警数据进行有监督学习,进一步从疑似故障告警数据中筛选出告警故障数据,并从告警故障数据中提取所需故障信息,以便根据故障信息对故障进行定位和预测。本实施例所述装置能够从海量的告警数据中高效地提取准确的故障信息,减少故障的排查时间。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线880,其中,处理器810,通信接口820,存储器830通过通信总线880完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行一种故障检测方法,该方法包括:获取海量的告警数据;计算各告警数据的异常性得分,并筛选异常性得分高于第一阈值的告警数据作为异常告警数据;基于预存的第一模型对异常告警数据进行第一处理,以获取疑似故障告警数据;基于预存的第二模型对疑似故障告警数据进行第二处理,得到告警故障数据,并从告警故障数据中提取故障信息。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本公开还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的一种故障检测方法,该方法包括:获取海量的告警数据;计算各告警数据的异常性得分,并筛选异常性得分高于第一阈值的告警数据作为异常告警数据;基于预存的第一模型对异常告警数据进行第一处理,以获取疑似故障告警数据;基于预存的第二模型对疑似故障告警数据进行第二处理,得到告警故障数据,并从告警故障数据中提取故障信息。
又一方面,本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的一种故障检测方法,该方法包括:获取海量的告警数据;计算各告警数据的异常性得分,并筛选异常性得分高于第一阈值的告警数据作为异常告警数据;基于预存的第一模型对异常告警数据进行第一处理,以获取疑似故障告警数据;基于预存的第二模型对疑似故障告警数据进行第二处理,得到告警故障数据,并从告警故障数据中提取故障信息。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

Claims (12)

1.一种故障检测方法,其特征在于,包括:
获取海量的告警数据;
计算各所述告警数据的第一异常性得分,并筛选所述第一异常性得分高于第一阈值的所述告警数据作为异常告警数据;
基于预存的第一模型对所述异常告警数据进行第一处理,以获取疑似故障告警数据;
基于预存的第二模型对所述疑似故障告警数据进行第二处理,得到告警故障数据,并从所述告警故障数据中提取故障信息。
2.根据权利要求1所述的故障检测方法,其特征在于,所述计算各所述告警数据的第一异常性得分,包括:
基于预存的告警模板对所述告警数据进行分层解析,以获取告警模板数据;
对所述告警模板数据进行周期性分析,以获取第一分类数据,其中,所述第一分类数据包括周期性告警数据和非周期性告警数据;
对所述告警模板数据进行稀有性分析,以获取第二分类数据;其中,所述第二分类数据包括高频告警数据和低频告警数据;
基于所述第一分类数据和所述第二分类数据,计算所述第一异常性得分。
3.根据权利要求2所述的故障检测方法,其特征在于,对所述告警模板数据进行周期性分析,以获取第一分类数据,包括:
提取所述告警模板数据的分钟级聚合特征;
基于所述分钟级聚合特征,将所述告警模板数据分为所述周期性告警数据和所述非周期性告警数据。
4.根据权利要求2所述的故障检测方法,其特征在于,对所述告警模板数据进行稀有性分析,以获取第二分类数据,包括:
将所述告警模板数据中重复出现的数据进行聚合处理,以得到高频告警数据,并将所述告警模板数据中除所述高频告警数据外的其他数据作为低频告警数据。
5.根据权利要求2所述的故障检测方法,其特征在于,所述基于所述第一分类数据和所述第二分类数据,计算所述第一异常性得分,包括:
提取所述第一分类数据中周期性告警数据的趋势成分及残差,并根据所述趋势成分及所述残差计算所述周期性告警数据的第二异常性得分;
在所述告警数据为所述非周期性告警数据和所述低频告警数据的情况下,将所述第二异常性得分按第一比例增大,得到所述第一异常性得分;
在所述告警数据为所述周期性告警数据和所述高频告警数据的情况下,将所述第二异常性得分按第二比例减小,得到所述第一异常性得分。
6.根据权利要求1所述的故障检测方法,其特征在于,所述基于预存的第一模型对所述异常告警数据进行第一处理,以获取疑似故障告警数据,包括:
提取所述异常告警数据中的告警特征;
将所述告警特征输入所述第一模型进行故障告警的召回处理,并根据所述召回处理的结果从所述异常告警数据中获取所述疑似故障告警数据。
7.根据权利要求6所述的故障检测方法,其特征在于,所述提取所述异常告警数据中的告警特征,包括:
对所述异常告警数据进行独热编码处理,得到编码处理结果,并从所述编码处理结果中提取告警时序特征和告警状态分布特征;
将所述告警时序特征和所述告警状态分布特征作为所述告警特征;
其中,所述告警时序特征包括分钟级粒度聚合特征、分钟级告警应用数目和分钟级最大应用数目;所述告警状态分布特征包括告警时序数量分布特征和告警时序频率分布特征。
8.根据权利要求6或7所述的故障检测方法,其特征在于,所述将所述告警特征输入所述第一模型进行故障告警的召回处理,并根据所述召回处理的结果从所述异常告警数据中获取所述疑似故障告警数据,包括:
利用所述第一模型对所述告警特征进行所述召回处理,并从所述召回处理的结果中提取包含疑似故障信息的异常时间点;
对各所述异常时间点进行故障评分,以获取各所述异常时间点对应的故障得分;
在所述故障得分高于第二阈值的情况下,将所述异常时间点对应的告警数据作为所述疑似故障告警数据。
9.根据权利要求1-7任一项所述的故障检测方法,其特征在于,基于预存的第二模型对所述疑似故障告警数据进行第二处理,以获取故障告警信息,包括:
将所述疑似故障告警数据输入所述第二模型中进行筛选,以获取故障告警数据,并从所述故障告警数据中获取所述故障告警信息;
其中,所述故障告警信息包括故障根因信息以及故障预测信息。
10.一种故障检测系统,其特征在于,所述系统包括:
告警数据获取单元,用于获取海量的告警数据;
异常告警数据获取单元,用于计算各所述告警数据的异常性得分,并筛选所述异常性得分高于第一阈值的所述告警数据作为异常告警数据;
疑似故障告警数据获取单元,用于基于预存的第一模型对所述异常告警数据进行第一处理,以获取疑似故障告警数据;
告警故障信息获取单元,用于基于预存的第二模型对所述疑似故障告警数据进行第二处理,得到告警故障数据,并从所述告警故障数据中提取故障信息。
11.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-9任一项所述故障检测方法的步骤。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-9任一项所述的故障检测方法的步骤。
CN202210316935.5A 2022-03-28 2022-03-28 一种故障检测方法及系统 Pending CN115061838A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210316935.5A CN115061838A (zh) 2022-03-28 2022-03-28 一种故障检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210316935.5A CN115061838A (zh) 2022-03-28 2022-03-28 一种故障检测方法及系统

Publications (1)

Publication Number Publication Date
CN115061838A true CN115061838A (zh) 2022-09-16

Family

ID=83196739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210316935.5A Pending CN115061838A (zh) 2022-03-28 2022-03-28 一种故障检测方法及系统

Country Status (1)

Country Link
CN (1) CN115061838A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115249135A (zh) * 2022-09-26 2022-10-28 浪潮通信信息系统有限公司 物资质量的监管方法、装置、电子设备及存储介质
CN115622787A (zh) * 2022-10-24 2023-01-17 中国电信股份有限公司 异常流量检测方法、装置、电子设备及存储介质
CN116582134A (zh) * 2023-07-11 2023-08-11 江苏盖亚环境科技股份有限公司 一种钻测一体化装备数据处理方法
CN117874653A (zh) * 2024-03-11 2024-04-12 武汉佳华创新电气有限公司 一种基于多源数据的电力系统安全监测方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115249135A (zh) * 2022-09-26 2022-10-28 浪潮通信信息系统有限公司 物资质量的监管方法、装置、电子设备及存储介质
CN115622787A (zh) * 2022-10-24 2023-01-17 中国电信股份有限公司 异常流量检测方法、装置、电子设备及存储介质
CN116582134A (zh) * 2023-07-11 2023-08-11 江苏盖亚环境科技股份有限公司 一种钻测一体化装备数据处理方法
CN116582134B (zh) * 2023-07-11 2023-10-13 江苏盖亚环境科技股份有限公司 一种钻测一体化装备数据处理方法
CN117874653A (zh) * 2024-03-11 2024-04-12 武汉佳华创新电气有限公司 一种基于多源数据的电力系统安全监测方法及系统

Similar Documents

Publication Publication Date Title
CN115061838A (zh) 一种故障检测方法及系统
US8719190B2 (en) Detecting anomalous process behavior
CN111539493B (zh) 一种告警预测方法、装置、电子设备及存储介质
CN115454778B (zh) 大规模云网络环境下的时序指标异常智能监控系统
CN111309565A (zh) 告警处理方法、装置、电子设备以及计算机可读存储介质
CN113887616A (zh) 一种epg连接数的实时异常检测系统及方法
CN112738088B (zh) 一种基于无监督算法的行为序列异常检测方法及系统
CN111597550A (zh) 一种日志信息分析方法及相关装置
CN114090393B (zh) 一种告警级别的确定方法、装置及设备
WO2022085019A1 (en) Cognitive model determining alerts generated in a system
Chen et al. Graph-based incident aggregation for large-scale online service systems
Liu et al. Multi-step attack scenarios mining based on neural network and Bayesian network attack graph
Jin et al. Toward predictive fault tolerance in a core-router system: Anomaly detection using correlation-based time-series analysis
CN114647558A (zh) 一种日志异常检测的方法和装置
CN112039907A (zh) 一种基于物联网终端评测平台的自动测试方法及系统
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
CN117216713A (zh) 故障定界方法、装置、电子设备和存储介质
Chen et al. Machine learning-based anomaly detection of ganglia monitoring data in HEP Data Center
CN113807716A (zh) 一种基于人工智能的网络运维自动化方法
CN111475380B (zh) 一种日志分析方法和装置
CN115080286A (zh) 一种网络设备日志异常的发现方法及装置
Ji et al. Integrated Generative Adversarial Network and XGBoost for Anomaly Processing of Massive Data Flow in Dispatch Automation Systems.
Jin et al. Anomaly detection and health-status analysis in a core router system
El Sibai et al. Efficient anomaly detection on sampled data streams with contaminated phase I data
CN117540372B (zh) 智能学习的数据库入侵检测与响应系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination