CN115514613A - 告警策略获得方法、装置 - Google Patents

告警策略获得方法、装置 Download PDF

Info

Publication number
CN115514613A
CN115514613A CN202211426833.5A CN202211426833A CN115514613A CN 115514613 A CN115514613 A CN 115514613A CN 202211426833 A CN202211426833 A CN 202211426833A CN 115514613 A CN115514613 A CN 115514613A
Authority
CN
China
Prior art keywords
alarm
sample data
tree model
target
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211426833.5A
Other languages
English (en)
Other versions
CN115514613B (zh
Inventor
史洋洋
肖雄
吕彪
芮藤长
杨帅
韩泽鋆
钮骏凯
潘涌
祝顺民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Cloud Computing Ltd
Original Assignee
Alibaba Cloud Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Cloud Computing Ltd filed Critical Alibaba Cloud Computing Ltd
Priority to CN202211426833.5A priority Critical patent/CN115514613B/zh
Publication of CN115514613A publication Critical patent/CN115514613A/zh
Application granted granted Critical
Publication of CN115514613B publication Critical patent/CN115514613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提供一种告警策略获得方法、装置、电子设备以及计算机存储介质,由于在该告警策略获得方法中,采用包括集群样本对象中产生告警的对象对应的特征样本数据的目标样本数据对初始树模型进行训练,确定训练后的树模型,进而基于训练后的树模型的路径信息,可以获得告警策略组合。这样减少了告警策略制定过程中的人工工作量。进一步地,在获得告警策略组合之后,采用贪心算法对告警策略组合进行筛选,获得目标告警策略,该目标告警策略可用于配置到云网络设备中,以检测云网络设备是否发生故障,使得基于目标告警策略确定的告警更加准确,从而降低故障的误报程度。

Description

告警策略获得方法、装置
技术领域
本申请涉及计算机领域,尤其涉及一种告警策略获得方法、告警策略获得方法对应的装置、电子设备以及计算机存储介质。
背景技术
在云网络中,各种各样的设备每天可能会产生不计其数的告警数据,之所以云网络的设备会产生告警数据,是由于这些设备的实际运行状态与检测设备运行状态的告警策略相符合,例如,当告警策略为当设备的下载流量下跌大于15%时,则设备会发生告警;设备A的下载流量突然下跌为35%时,则设备A会产生告警。
由以上示例可以看出:检测设备运行状态是否会产生告警,必然需要预先设置告警策略。传统的告警策略需要人工制定,这种人工制定的告警策略不仅需要付出较大的工作量,并且对制定告警策略的人的专业技能要求较高,而且人工制定的告警策略只能配置简单的告警策略组合且检测项阈值固定,进而导致使用这种告警策略会产生大量的误报告警。因而如何制定一种告警策略以提高告警准确率同时降低传统的告警策略制定过程中人工工作量成为当前亟需解决的技术问题。
发明内容
本申请提供一种告警策略获得方法,以解决如何提高告警准确率同时降低传统的告警策略制定过程中人工工作量的技术问题,本申请还提供一种告警策略获得装置、电子设备以及计算机存储介质。
本申请提供一种告警策略获得方法,用于获得配置于云网络设备中检测云网络设备是否发生故障的目标告警策略,所述方法包括:
获取用于对初始树模型进行训练的目标样本数据,所述目标样本数据包括集群样本对象中产生告警的对象对应的特征样本数据,所述集群为由样本设备构成的集群;
采用所述目标样本数据对所述初始树模型进行训练,确定训练后的树模型;
根据所述训练后的树模型的路径信息,获得告警策略组合;
采用贪心算法对所述告警策略组合进行筛选,获得目标告警策略,
可选的,还包括:
基于所述目标告警策略,重新构建目标树模型;
在所述目标树模型上进行策略匹配,获得目标告警。
可选的,所述采用贪心算法对所述告警策略组合进行筛选,获得目标告警策略,包括:
采用贪心算法计算所述告警策略组合中各个告警策略组合的告警准确率;
将告警准确率达到准确率度条件的告警策略组合作为所述目标告警策略。
可选的,所述获取用于对初始树模型进行训练的目标样本数据,包括:
采用降采样的方式,获取用于对初始树模型进行训练的目标样本数据。
可选的,所述获取用于对初始树模型进行训练的目标样本数据,包括:
在集群样本对象中,确定产生告警的对象对应的告警指标;
对所述告警指标的样本数据进行筛选,获得所述告警指标的有效样本数据,并将所述告警指标的有效样本数据作为所述目标样本数据。
可选的,所述对所述告警指标的样本数据进行筛选,获得所述告警指标的有效样本数据,包括:
判断所述告警指标的样本数据对应的告警是否为有效告警,如果是,则将所述告警指标的样本数据标记为有效;否则,则将所述告警指标的样本数据标记为无效;
基于所述告警指标的样本数据对应的告警中的标记,获得所述告警指标的有效样本数据。
可选的,所述对所述告警指标的样本数据进行筛选,获得所述告警指标的有效样本数据,包括:
基于所述告警指标的时序,获得所述告警指标的维度特征;
根据所述告警指标的维度特征,确定所述维度特征的重要程度;
基于所述维度特征的重要程度,去除所述告警指标的样本数据中的无效样本数据,获得所述告警指标的有效样本数据。
可选的,所述目标样本数据包括预先设置的告警策略样本数据;
所述采用所述目标样本数据对所述初始树模型进行训练,确定训练后的树模型,包括:
将所述特征样本数据作为所述初始树模型的输入数据,将所述告警策略样本数据作为所述初始树模型的输出数据,对所述初始树模型进行训练,确定训练后的树模型。
可选的,在采用所述目标样本数据对所述初始树模型进行训练的步骤中,采用自动机器学习的方式对所述初始树模型的参数进行调优。
可选的,所述告警指标包括以下至少一种信息:设备的上传流量、设备的下载流量、设备的内存使用率、设备的剩余可用磁盘空间量、设备处理任务的请求任务量、设备处理任务的任务失败量、设备处理任务的耗时信息、设备的入带宽信息、设备的出带宽信息、设备的入包数、设备的出包数以及设备的丢包率。
可选的,所述根据所述训练后的树模型的路径信息,获得告警策略组合,包括:
将所述训练后的树模型的路径上的节点作为包含动态阈值的检测项,将所述训练后的树模型的路径作为候选告警策略组合;
基于所述候选告警策略组合与所述包含动态阈值的检测项,获得告警策略组合。
可选的,所述告警策略组合中的告警策略包括:所述云网络设备的待检测指标超出预设指标阈值产生告警的策略;
所述告警策略组合包括以下至少一种告警策略的组合:
针对多个云网络设备的同一待检测指标设置的告警策略的组合;
针对多个云网络设备的多个待检测指标设置的告警策略的组合;
针对一个云网络设备的多个待检测指标设置的告警策略的组合。
本申请提供一种告警策略获得装置,用于获得配置于云网络设备中检测云网络设备是否发生故障的目标告警策略,所述装置包括:
目标样本数据获取单元,用于获取用于对初始树模型进行训练的目标样本数据,所述目标样本数据包括集群样本对象中产生告警的对象对应的特征样本数据,所述集群为由样本设备构成的集群;
训练单元,用于采用所述目标样本数据对所述初始树模型进行训练,确定训练后的树模型;
告警策略组合获得单元,用于根据所述训练后的树模型的路径信息,获得告警策略组合;
筛选单元,用于采用贪心算法对所述告警策略组合进行筛选,获得目标告警策略。
本申请提供一种电子设备,用于获得配置于云网络设备中检测云网络设备是否发生故障的目标告警策略,所述电子设备包括:
处理器;
存储器,用于存储计算机程序,该计算机程序被处理器运行,执行上述告警策略获得方法。
本申请提供一种计算机存储介质,用于获得配置于云网络设备中检测云网络设备是否发生故障的目标告警策略,所述计算机存储介质存储有计算机程序,该计算机程序被处理器运行,执行上述告警策略获得方法。
与现有技术相比,本申请实施例具有以下优点:
本申请提供一种告警策略获得方法,用于获得配置于云网络设备中检测云网络设备是否发生故障的目标告警策略,该方法包括:获取用于对初始树模型进行训练的目标样本数据,目标样本数据包括集群样本对象中产生告警的对象对应的特征样本数据,集群为由样本设备构成的集群;采用目标样本数据对初始树模型进行训练,确定训练后的树模型;根据训练后的树模型的路径信息,获得告警策略组合;采用贪心算法对告警策略组合进行筛选,获得目标告警策略。由于在该告警策略获得方法中,采用包括集群样本对象中产生告警的对象对应的特征样本数据的目标样本数据对初始树模型进行训练,确定训练后的树模型,进而基于训练后的树模型的路径信息,可以获得告警策略组合。这样减少了告警策略制定过程中的人工工作量。进一步地,在获得告警策略组合之后,采用贪心算法对告警策略组合进行筛选,获得目标告警策略,该目标告警策略用于配置到云网络设备中,以检测云网络设备是否发生故障,使得基于目标告警策略确定的告警更加准确,从而降低故障的误报程度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请提供的告警策略获得方法的场景的示意图;
图2为本申请第一实施例提供的告警策略获得方法的流程图;
图3为本申请第二实施例提供的告警策略获得装置的示意图;
图4为本申请第三实施例中提供的一种电子设备的示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此,本申请不受下面公开的具体实施的限制。
本申请提供告警策略获得方法、告警策略获得装置、电子设备以及计算机存储介质。以下通过具体的实施例分别介绍告警策略获得方法、告警策略获得装置、电子设备以及计算机存储介质。
本申请的告警策略获得方法,可以运用在各种故障检测场景中。例如,在运行设备故障检测场景中,通过利用本申请获得的告警策略方法对设备进行故障检测,以确定设备是否处于正常的运行状态,进而能够及时发现运行异常的设备。
本申请的典型应用场景,是基于云端或者云网络的运行设备或者实例,实例如:XGW、NAT、CEN;在此种场合下,云端或者云网络布设有大量的运行设备或者实例,这些设备或者实例在运行过程中承载有下载信息(或者数据)或者上传信息的任务,当然这些设备或者实例还可以承载对信息或者数据处理其他类型的任务,例如存储信息。在下载或者上传信息时,必然涉及下载流量或者上传流量等运行参数。在检测云端或者云网络中的设备或者实例是否在运行过程中发生故障时,一般是基于检测这些运行参数是否发生异常,以检测设备或者实例是否在运行过程中发生异常或者故障。
在现有的检测设备是否运行异常或者设备是否发生故障的方式中,是基于人工经验设置告警策略,通过将设置的告警策略与上述设备的运行参数进行比较,当某个设备的运行参数与预先设置的告警策略匹配时,则该设备会发生告警,进而认为该设备存在故障。然而现有的这种告警策略在制定过程中,需要依据人工经验制定,不仅对制定告警策略的人员有严格的专业要求,同时人工制定的告警策略只能配置简单的告警策略组合且检测项阈值固定,进而导致使用这种告警策略会产生大量的误报告警,总之,现有的告警策略适用性较差。
相较于现有的依靠人工制定的告警策略,本申请获得的告警策略,是基于树模型构建的,不仅能够配置灵活多变的告警策略组合且检测项阈值也可变动,进而能够适用于设备在不同状态下故障的检测。在本申请中,告警策略通过检测设备是否告警,进而检测设备是否发生故障。
本申请的告警策略获得方法对应的过程可以参见图1,其为本申请提供的告警策略获得方法的场景的示意图。在该场景中,以在服务端执行该告警策略获得方法为例,所谓服务端为用于为客户端提供数据处理、存储等服务的计算设备,一般为的服务端可以是指服务器或者服务器集群。客户端一般为便于用户直接操作的电子设备。
在本申请中,通过服务端获得目标告警策略,并将目标告警策略提供给客户端,以供用户基于客户端获得的目标告警策略判断是否需要对目标告警策略进行优化或者调整。当然,也可以是在客户端执行该告警策略获得方法,具体地,在客户端对应的电子设备中预先配置有用于实现本申请提供的告警策略获得方法的程序或者软件,或者在其内部安装的目标应用中预先配置用于实现本申请提供的告警策略获得方法的模块。所谓电子设备一般为智能手机、以及包括平板电脑在内一系列不同类型的电脑。上述目标应用一般为APP(Application,应用程序)或者电脑应用。
具体地,请参见图1,服务端首先获得的是客户端提供的用于对初始树模型进行训练的目标样本数据,在获得用于对初始树模型进行训练的目标样本数据后,采用目标样本数据对初始树模型进行训练,确定训练后的树模型。之后,根据训练后的树模型的路径信息,获得告警策略组合;最终,采用贪心算法对告警策略组合进行筛选,获得目标告警策略。
服务端在获得目标告警策略之后,即可将目标告警策略提供给客户端。上述目标样本数据也是配置告警策略的人员在客户端筛选后的样本数据。
上述介绍的图1即为针对本申请的告警策略获得方法的应用场景的图示,本申请的实施例中不对告警策略获得方法的应用场景做具体的限定,上述告警策略获得方法的应用场景,仅仅是本申请提供的告警策略获得方法的应用场景的一个实施例,提供该应用场景实施例的目的是便于理解本申请提供的告警策略获得方法,而并非用于限定本申请提供的告警策略获得方法。本申请实施例对告警策略获得方法的其它应用场景,不再一一赘述。
第一实施例
本申请第一实施例提供一种告警策略获得方法,以下结合图2进行说明。
请参照图2,其为本申请第一实施例提供的告警策略获得方法的流程图。
本申请实施例的告警策略获得方法,用于获得配置于云网络设备中检测云网络设备是否发生故障的目标告警策略,包括如下步骤。
步骤S201:获取用于对初始树模型进行训练的目标样本数据。
在本实施例中,目标样本数据包括集群样本对象中产生告警的对象对应的特征样本数据,即:在本实施例中,在获取目标样本数据时,是基于由样本设备组成的集群中产生告警的对象对应的特征获取的样本数据。
所谓对象具体在该实施例中可以是指上述样本设备。所谓对象对应的特征具体可以是指对象对应的告警指标。所谓告警指标,是指检测样本设备产生告警的参数,例如,可以是指样本设备在运行或者执行任务时的上传流量或者下载流量。当然,告警指标还可以是设备的内存使用率、设备的剩余可用磁盘空间量、设备处理任务的请求任务量、设备处理任务的任务失败量、设备处理任务的耗时信息、设备的入带宽信息、设备的出带宽信息、设备的入包数、设备的出包数以及设备的丢包率等,在本实施例中,主要以上传流量或者下载流量作为告警指标的示例说明如何获得目标告警策略。
在本实施例中,可以通过对特定的设备,比如XGW(作为样本设备),进行故障注入来模拟历史发生的故障,基于提前配置的检测项,该故障会产生很多告警数据。通过预先在小集群内通过人工设置告警策略,即:告警策略样本数据,人工设置的告警策略不同于现有的人工设置的告警策略,在小集群内人工设置的告警策略是通过不断进行优化调整设置的、与产生告警的对象对应的特征样本数据能够准确匹配的告警策略,即:在小集群内设置的告警策略能够准确地预测集群内样本设备产生的告警,进而能够减少误报告警。在小集群内人工设置的告警策略和与产生告警的对象对应的特征样本数据,主要用于训练初始树模型,以使得能够基于树模型的路径获得适用于检测云网络的大量设备是否产生告警的告警策略,同时产生的告警策略还能够降低设备的故障误报率。提前配置的检测项实际上是指在小集群内通过人工设置的告警策略中的检测项。例如,人工设置的告警策略可以是指:样本设备1下载流量下跌>=12%;样本设备2下载流量下跌>=12%;样本设备3下载流量下跌>=16%;则会发生告警。其中,下载流量即为人工设置的告警策略中的检测项;上述12%与16%即为人工设置的告警策略中的检测项阈值。
在本实施例中,由于是基于训练后的树模型确定告警策略,必然需要涉及对初始树模型进行训练。在对初始树模型进行训练之前,需要获取用于对初始树模型进行训练的目标样本数据。
作为获取用于对初始树模型进行训练的目标样本数据的一种实施方式,可以是指:首先,在由样本设备组成的集群样本对象中,确定产生告警的对象对应的告警指标;之后,对告警指标的样本数据进行筛选,获得告警指标的有效样本数据,并将告警指标的有效样本数据作为目标样本数据。
上述对告警指标的样本数据进行筛选,获得告警指标的有效样本数据,可以是指:首先,判断告警指标的样本数据对应的告警是否为有效告警,如果是,则将告警指标的样本数据标记为有效;否则,则将告警指标的样本数据标记为无效;之后,基于告警指标的样本数据对应的告警中的标记,获得告警指标的有效样本数据。
具体地,上述筛选告警指标的有效样本数据实际上为筛选有效告警对应的样本数据,即:在告警数据中,有些告警是由于样本设备真实产生了故障而告警的,有些告警并不是样本设备产生了故障,而是由于误报产生的假性告警,在筛选样本数据时,尽量将这些假性告警剔除,剔除假性告警之后的告警即为有效告警。
上述获取用于对初始树模型进行训练的目标样本数据的实施方式,实际上可以是指在由样本设备组成的小集群内设计一套故障演练流程,从而进行故障演练,进而还原真实的故障场景。为了保证故障场景的多样性和覆盖率,可以遵循混沌工程实验原理设计故障演练实例,然后将故障相关的告警以及对应告警指标过滤出来,从而进行人工审核和数据标注,得到带标注的样本数据,作为后续初始树模型有监督学习的输入。对告警指标进行人工审核和数据标注也是为了区分有效告警还是无效告警,以获得有效目标样本数据。在对告警指标进行数据标注时,可以标注告警指标对应的是有效告警还是无效告警。
上述提及的覆盖率,涉及告警策略与样本设备故障之间的对应关系,覆盖率是要保障告警策略组合对故障的覆盖情况。即:告警策略尽可能能够给覆盖样本设备产生的各种各样的故障情形。
在获得告警指标的有效样本数据,还可以采用如下方式:首先,基于告警指标的时序,获得告警指标的维度特征;之后,根据告警指标的维度特征,确定维度特征的重要程度;基于维度特征的重要程度,去除告警指标的样本数据中的无效样本数据,获得告警指标的有效样本数据。
例如,可以基于时间顺序获得告警指标的特征,包含告警指标的周同比、日环比、余弦相关、熵等维度特征;然后,基于这些维度特征再计算特征重要性,也就是通过信息增益来剔除无效特征;最终将剔除无效特征后的特征作为树模型的输入。
在本实施例中,作为获取用于对初始树模型进行训练的目标样本数据的一种方式,可以采用降采样的方式,获取用于对初始树模型进行训练的目标样本数据。因为设备整体故障率很低,通过降采样可以保证正负样本比例在同一个数量级。
步骤S202:采用目标样本数据对初始树模型进行训练,确定训练后的树模型。
在获取目标样本数据之后,采用目标样本数据对初始树模型进行训练,确定训练后的树模型。
在本实施例中,目标样本数据除了包括集群样本对象中产生告警的对象对应的特征样本数据之外,还包括预先设置的告警策略样本数据。
在步骤S201中已经提及,实际上是通过预先在小集群内通过人工设置告警策略,即:告警策略样本数据,通过告警策略样本数据和与产生告警的对象对应的特征样本数据,训练初始树模型,以使得能够基于树模型的路径获得适用于检测云网络的大量设备是否产生告警的告警策略,同时产生的告警策略还能够降低设备的故障误报率。
作为利用特征样本数据与告警策略样本数据训练初始树模型的一种方式:首先,将特征样本数据作为初始树模型的输入数据,将告警策略样本数据作为初始树模型的输出数据,对初始树模型进行训练,确定训练后的树模型。
同时,在采用目标样本数据对初始树模型进行训练的步骤中,采用自动机器学习的方式对初始树模型的参数进行调优。
上述结合自动机器学习(AutoML)的方式进行参数调优,实际上是训练树模型进行策略学习,树模型的目标是最大化提高告警准确率,即:最大化减少误报告警数量。
步骤S203:根据训练后的树模型的路径信息,获得告警策略组合。
在确定训练后的树模型之后,根据训练后的树模型的路径信息,获得告警策略组合。
作为根据训练后的树模型的路径信息,获得告警策略组合的一种方式,可以是指:将训练后的树模型的路径上的节点作为包含动态阈值的检测项,将训练后的树模型的路径作为候选告警策略组合;基于候选告警策略组合与包含动态阈值的检测项,获得告警策略组合。
具体地,通过上述训练后的树模型的路径信息,可以得到数万条告警策略组合,此处训练后的树模型的路径是告警策略组合,路径上的每一个节点则是包含动态阈值的检测项。此处的路径指的是树模型的节点以及节点上的判断条件,例如假设规定下载流量<1000,如果实时的下载流量满足判断条件,则走树的左分支,反之走树的右分支;其中1000则是生成的动态阈值,按照判断条件一直走到叶子节点就可以决定是否发出告警。
步骤S204:采用贪心算法对告警策略组合进行筛选,获得目标告警策略。
作为采用贪心算法对告警策略组合进行筛选,获得目标告警策略的一种实施方式,可以是指:首先,采用贪心算法计算告警策略组合中各个告警策略组合的告警准确率;之后,将告警准确率达到准确率度条件的告警策略组合作为目标告警策略。
在获得目标告警策略之后,还可以采用如下方式使用目标告警策略获得目标告警,即:检测设备是否发生故障。首先,基于目标告警策略,重新构建目标树模型;之后,在目标树模型上进行策略匹配,获得目标告警。
需要说明的是,路径和告警策略是一一对应的,例如对于路径A:下载流量<1000,损失率>0.001,可以从根节点到叶子节点,构建出一棵树。最终,在目标树模型上进行策略匹配,获得目标告警。告警策略匹配类似于决策树的决策过程。
上述采用贪心算法对告警策略组合进行筛选,获得筛选后的告警策略,可以是指:采用贪心算法计算告警策略组合中各个告警策略组合的告警准确率;将告警准确率达到准确率度条件的告警策略组合作为筛选后的告警策略。例如,假设准确率度条件为准确率在90%以上,则将告警准确率低于90%的告警策略组合删除。
实际上,在获得告警策略组合之后,还需要进行二次评估或者筛选,但是告警策略数量太多,导致人工评估成本太高,因而可以基于贪心算法Metaheuristic进行策略组合优化,具体地,将优化目标设置为最大化告警准确率,约束条件是保证优化后的告警策略要覆盖的真实告警为10条以上,进行优化后告警策略的数量减少不少于200条,且覆盖率为95%以上。
在本申请中,告警策略组合中的告警策略包括:云网络设备的待检测指标超出预设指标阈值产生告警的策略;待检测指标可以是指设备的上传流量、设备的下载流量、设备的内存使用率、设备的剩余可用磁盘空间量、设备处理任务的请求任务量、设备处理任务的任务失败量、设备处理任务的耗时信息、设备的入带宽信息、设备的出带宽信息、设备的入包数、设备的出包数以及设备的丢包率。
告警策略主要是由设备的名称、设备的待检测指标类型和告警触发条件构成,其中,在告警触发条件中包含了预设指标阈值。
例如,当对设备a的下载流量进行设置告警策略以检测设备a是否发生告警时,告警策略可以是:设备a下载流量下跌>=10%会发生告警,在该告警策略中,设备a为设备的名称,下载流量为设备的待检测指标类型,下载流量下跌>=10%则为告警触发条件,其中的10即为预设的指标阈值的示例。又例如,当对设备m的内存使用率进行设置告警策略以检测设备m是否发生告警时,告警策略可以是:设备m内存使用率<=10%会发生告警,在该告警策略中,设备m为设备的名称,内存使用率为设备的待检测指标类型,内存使用率<=10%则为告警触发条件。
在本申请中,告警策略组合包括以下至少一种告警策略的组合:针对多个云网络设备的同一待检测指标设置的告警策略的组合;针对多个云网络设备的多个待检测指标设置的告警策略的组合;针对一个云网络设备的多个待检测指标设置的告警策略的组合。
针对多个云网络设备的同一待检测指标设置的告警策略的组合,如下述示例:告警策略组合1:设备a下载流量下跌>=10%;设备b下载流量下跌>=10%;设备c下载流量下跌>=15%会发生告警。
针对一个云网络设备的多个待检测指标设置的告警策略的组合,如下述示例:告警策略组合10:设备a下载流量下跌>=10%;设备a内存使用率<=20%会发生告警。
针对多个云网络设备的多个待检测指标设置的告警策略的组合,如下述示例:告警策略组合20:设备b下载流量下跌>=10%;设备a内存使用率<=20%会发生告警。
具体关于如何优化告警策略组合的示例如下:
例如:告警策略组合1:设备a下载流量下跌>=10%;设备b下载流量下跌>=10%;设备c下载流量下跌>=15%会发生告警;告警策略组合2:设备a下载流量下跌>=5%;设备b下载流量下跌>=5%;设备c下载流量下跌<=10%会发生告警;优化后只剩下告警策略组合1,不仅保证了覆盖率,同时减少了告警策略数量。
实际上,获得告警策略组合可以直接配置到云网络设备中,以检测云网络设备是否发生故障,但是维度太多,导致匹配告警策略效率较低,尤其是对延时要求很高的云网络检测的大规模场景。因此,我们基于筛选后的告警策略重新构建目标树模型,在树上进行策略匹配,将耗时进一步降低,提升了告警策略的匹配效率,通过这套高准确率的告警策略自动化生成方法,运维人员不再需要自己去设计检测项,仅需配置基于树模型生成的一些简单的告警策略,便可以实现对云网络设备的故障的有效检测,减少了告警的淹没,极大地提升了人效。即:利用该实施例生成告警策略后,还需要运维人员简单判断一下是否合理,再进行配置。
在本实施例中,实际上是基于树模型进行策略生成,树模型可以是GBDT(GradientBoosting Decision Tree,即:梯度决策生成树)模型或者Random Forest(随机森林)模型,通过限制树模型的深度和剪枝保证策略的覆盖率,并且树模型的算法复杂度随着维度增加可控,另外可以基于优化算法Metaheuristic减少策略组合数量。
上述树模型的深度是根据产出告警策略的最长组合来设置,一般为5;剪枝是依据当前节点命中的历史故障数进行的,对命中故障数小于2的路径进行剪枝(例如可以是删除该树模型中的分支)。通过限制树模型深度和剪枝,可以保证生成告警策略覆盖的告警数量以及提高时效,实现告警策略能够在一小时或者几个小时内更新。
本申请提供一种告警策略获得方法,用于获得配置于云网络设备中检测云网络设备是否发生故障的目标告警策略,包括:获取用于对初始树模型进行训练的目标样本数据,目标样本数据包括集群样本对象中产生告警的对象对应的特征样本数据,集群为由样本设备构成的集群;采用目标样本数据对初始树模型进行训练,确定训练后的树模型;根据训练后的树模型的路径信息,获得告警策略组合;采用贪心算法对告警策略组合进行筛选,获得目标告警策略,目标告警策略用于配置到云网络设备中,以检测云网络设备是否发生故障。由于在该告警策略获得方法中,采用包括集群样本对象中产生告警的对象对应的特征样本数据的目标样本数据对初始树模型进行训练,确定训练后的树模型,进而基于训练后的树模型的路径信息,可以获得告警策略组合。这样减少了告警策略制定过程中的人工工作量。进一步地,在获得告警策略组合之后,采用贪心算法对告警策略组合进行筛选,获得目标告警策略,该目标告警策略用于配置到云网络设备中,以检测云网络设备是否发生故障,使得基于目标告警策略确定的告警更加准确,从而降低故障的误报程度。
第二实施例
与本申请第一实施例提供的告警策略获得方法相对应的,本申请第二实施例还提供一种告警策略获得装置。由于装置实施例基本类似于第一实施例,所以描述得比较简单,相关之处参见第一实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
请参照图3,其为本申请第二实施例提供的告警策略获得装置的示意图。
该告警策略获得装置300,用于获得配置于云网络设备中检测云网络设备是否发生故障的目标告警策略,所述装置包括:
目标样本数据获取单元301,用于获取用于对初始树模型进行训练的目标样本数据,所述目标样本数据包括集群样本对象中产生告警的对象对应的特征样本数据,所述集群为由样本设备构成的集群;
训练单元302,用于采用所述目标样本数据对所述初始树模型进行训练,确定训练后的树模型;
告警策略组合获得单元303,用于根据所述训练后的树模型的路径信息,获得告警策略组合;
筛选单元304,用于采用贪心算法对所述告警策略组合进行筛选,获得目标告警策略。
可选的,还包括:目标告警获得单元,具体用于:
基于所述目标告警策略,重新构建目标树模型;
在所述目标树模型上进行策略匹配,获得目标告警。
可选的,所述筛选单元,具体用于:
采用贪心算法计算所述告警策略组合中各个告警策略组合的告警准确率;
将告警准确率达到准确率度条件的告警策略组合作为所述目标告警策略。
可选的,所述目标样本数据获取单元,具体用于:
采用降采样的方式,获取用于对初始树模型进行训练的目标样本数据。
可选的,所述目标样本数据获取单元,具体用于:
在集群样本对象中,确定产生告警的对象对应的告警指标;
对所述告警指标的样本数据进行筛选,获得所述告警指标的有效样本数据,并将所述告警指标的有效样本数据作为所述目标样本数据。
可选的,所述目标样本数据获取单元,具体用于:
判断所述告警指标的样本数据对应的告警是否为有效告警,如果是,则将所述告警指标的样本数据标记为有效;否则,则将所述告警指标的样本数据标记为无效;
基于所述告警指标的样本数据对应的告警中的标记,获得所述告警指标的有效样本数据。
可选的,所述目标样本数据获取单元,具体用于:
基于所述告警指标的时序,获得所述告警指标的维度特征;
根据所述告警指标的维度特征,确定所述维度特征的重要程度;
基于所述维度特征的重要程度,去除所述告警指标的样本数据中的无效样本数据,获得所述告警指标的有效样本数据。
可选的,所述目标样本数据包括预先设置的告警策略样本数据;
所述训练单元,具体用于:
将所述特征样本数据作为所述初始树模型的输入数据,将所述告警策略样本数据作为所述初始树模型的输出数据,对所述初始树模型进行训练,确定训练后的树模型。
可选的,所述训练单元,具体用于:
在采用所述目标样本数据对所述初始树模型进行训练的步骤中,采用自动机器学习的方式对所述初始树模型的参数进行调优。
可选的,所述告警指标以下至少一种信息:设备的上传流量、设备的下载流量、设备的内存使用率、设备的剩余可用磁盘空间量、设备处理任务的请求任务量、设备处理任务的任务失败量、设备处理任务的耗时信息、设备的入带宽信息、设备的出带宽信息、设备的入包数、设备的出包数以及设备的丢包率。
可选的,所述告警策略组合获得单元,具体用于:
将所述训练后的树模型的路径上的节点作为包含动态阈值的检测项,将所述训练后的树模型的路径作为候选告警策略组合;
基于所述候选告警策略组合与所述包含动态阈值的检测项,获得告警策略组合。
可选的,所述告警策略组合中的告警策略包括:所述云网络设备的待检测指标超出预设指标阈值产生告警的策略;
所述告警策略组合包括以下至少一种告警策略的组合:
针对多个云网络设备的同一待检测指标设置的告警策略的组合;
针对多个云网络设备的多个待检测指标设置的告警策略的组合;
针对一个云网络设备的多个待检测指标设置的告警策略的组合。
第三实施例
与本申请第一实施例的方法相对应的,本申请第三实施例还提供一种电子设备。
如图4所示,图4为本申请第三实施例中提供的一种电子设备的示意图。
在本实施例中,该电子设备400的一种可选硬件结构可如图4所示,用于获得配置于云网络设备中检测云网络设备是否发生故障的目标告警策略,所述电子设备包括:至少一个处理器401,至少一个存储器402和至少一个通信总线405;存储器402中包含有程序403与数据404。
总线405可以是在电子设备400内部的组件之间传输数据的通信设备,诸如内部总线(例如,CPU-存储器总线)、外部总线(例如,通用串行总线端口、外围组件互连快速端口)等。
另外,电子设备中还包括:至少一个网络接口406,至少一个外设接口407。网络接口406以提供与外部网络408(例如,因特网、内联网、局域网、移动通信网络等)相关的有线或无线通信;在一些实施例中,网络接口406可以包括任意数量的网络接口控制器(NIC)、射频(RF)模块、转发器、收发器、调制解调器、路由器、网关、有线网络适配器的任意组合、无线网络适配器、蓝牙适配器、红外适配器、近场通信(“NFC”)适配器、蜂窝网络芯片等。
外设接口407用于与外设连接,外设可以如图中的外设1(图4中的409)、外设2(图4中的410)以及外设3(图4中的411)。外设即外围设备,外围设备可以包括但不限于光标控制设备(例如鼠标、触摸板或触摸屏)、键盘、显示器(例如阴极射线管显示器、液晶显示器)。显示器或发光二极管显示器、视频输入设备(例如,摄像机或通信耦合到视频档案的输入接口)等。
处理器401可能是CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。
存储器402可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
其中,处理器401调用存储器402所存储的程序与数据,以执行本申请实施例提供的告警策略获得方法。
第四实施例
与本申请第一实施例的方法相对应的,本申请第四实施例还提供一种计算机存储介质,用于获得配置于云网络设备中检测云网络设备是否发生故障的目标告警策略,所述计算机存储介质存储有计算机程序,该计算机程序被处理器运行,以执行本申请实施例提供的告警策略获得方法。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、 输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、 程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、 其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读存储媒体(non-transitorycomputer readable storage media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (14)

1.一种告警策略获得方法,用于获得配置于云网络设备中检测云网络设备是否发生故障的目标告警策略,其特征在于,所述方法包括:
获取用于对初始树模型进行训练的目标样本数据,所述目标样本数据包括集群样本对象中产生告警的对象对应的特征样本数据,所述集群为由样本设备构成的集群;
采用所述目标样本数据对所述初始树模型进行训练,确定训练后的树模型;
根据所述训练后的树模型的路径信息,获得告警策略组合;
采用贪心算法对所述告警策略组合进行筛选,获得目标告警策略。
2.根据权利要求1所述的告警策略获得方法,其特征在于,还包括:
基于所述目标告警策略,重新构建目标树模型;
在所述目标树模型上进行策略匹配,获得目标告警。
3.根据权利要求1所述的告警策略获得方法,其特征在于,所述采用贪心算法对所述告警策略组合进行筛选,获得目标告警策略,包括:
采用贪心算法计算所述告警策略组合中各个告警策略组合的告警准确率;
将告警准确率达到准确率度条件的告警策略组合作为所述目标告警策略。
4.根据权利要求1所述的告警策略获得方法,其特征在于,所述获取用于对初始树模型进行训练的目标样本数据,包括:
采用降采样的方式,获取用于对初始树模型进行训练的目标样本数据。
5.根据权利要求1所述的告警策略获得方法,其特征在于,所述获取用于对初始树模型进行训练的目标样本数据,包括:
在集群样本对象中,确定产生告警的对象对应的告警指标;
对所述告警指标的样本数据进行筛选,获得所述告警指标的有效样本数据,并将所述告警指标的有效样本数据作为所述目标样本数据。
6.根据权利要求5所述的告警策略获得方法,其特征在于,所述对所述告警指标的样本数据进行筛选,获得所述告警指标的有效样本数据,包括:
判断所述告警指标的样本数据对应的告警是否为有效告警,如果是,则将所述告警指标的样本数据标记为有效;否则,则将所述告警指标的样本数据标记为无效;
基于所述告警指标的样本数据对应的告警中的标记,获得所述告警指标的有效样本数据。
7.根据权利要求5所述的告警策略获得方法,其特征在于,所述对所述告警指标的样本数据进行筛选,获得所述告警指标的有效样本数据,包括:
基于所述告警指标的时序,获得所述告警指标的维度特征;
根据所述告警指标的维度特征,确定所述维度特征的重要程度;
基于所述维度特征的重要程度,去除所述告警指标的样本数据中的无效样本数据,获得所述告警指标的有效样本数据。
8.根据权利要求1所述的告警策略获得方法,其特征在于,所述目标样本数据包括预先设置的告警策略样本数据;
所述采用所述目标样本数据对所述初始树模型进行训练,确定训练后的树模型,包括:
将所述特征样本数据作为所述初始树模型的输入数据,将所述告警策略样本数据作为所述初始树模型的输出数据,对所述初始树模型进行训练,确定训练后的树模型。
9.根据权利要求1所述的告警策略获得方法,其特征在于,在采用所述目标样本数据对所述初始树模型进行训练的步骤中,采用自动机器学习的方式对所述初始树模型的参数进行调优。
10.根据权利要求5所述的告警策略获得方法,其特征在于,所述告警指标包括以下至少一种信息:设备的上传流量、设备的下载流量、设备的内存使用率、设备的剩余可用磁盘空间量、设备处理任务的请求任务量、设备处理任务的任务失败量、设备处理任务的耗时信息、设备的入带宽信息、设备的出带宽信息、设备的入包数、设备的出包数以及设备的丢包率。
11.根据权利要求1所述的告警策略获得方法,其特征在于,所述根据所述训练后的树模型的路径信息,获得告警策略组合,包括:
将所述训练后的树模型的路径上的节点作为包含动态阈值的检测项,将所述训练后的树模型的路径作为候选告警策略组合;
基于所述候选告警策略组合与所述包含动态阈值的检测项,获得告警策略组合。
12.根据权利要求1所述的告警策略获得方法,其特征在于,所述告警策略组合中的告警策略包括:所述云网络设备的待检测指标超出预设指标阈值产生告警的策略;
所述告警策略组合包括以下至少一种告警策略的组合:
针对多个云网络设备的同一待检测指标设置的告警策略的组合;
针对多个云网络设备的多个待检测指标设置的告警策略的组合;
针对一个云网络设备的多个待检测指标设置的告警策略的组合。
13.一种电子设备,用于获得配置于云网络设备中检测云网络设备是否发生故障的目标告警策略,其特征在于,所述电子设备包括:
处理器;
存储器,用于存储计算机程序,该计算机程序被处理器运行,执行权利要求1-12任意一项所述的方法。
14.一种计算机存储介质,用于获得配置于云网络设备中检测云网络设备是否发生故障的目标告警策略,其特征在于,所述计算机存储介质存储有计算机程序,该计算机程序被处理器运行,执行权利要求1-12任意一项所述的方法。
CN202211426833.5A 2022-11-15 2022-11-15 告警策略获得方法、装置 Active CN115514613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211426833.5A CN115514613B (zh) 2022-11-15 2022-11-15 告警策略获得方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211426833.5A CN115514613B (zh) 2022-11-15 2022-11-15 告警策略获得方法、装置

Publications (2)

Publication Number Publication Date
CN115514613A true CN115514613A (zh) 2022-12-23
CN115514613B CN115514613B (zh) 2023-04-11

Family

ID=84514192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211426833.5A Active CN115514613B (zh) 2022-11-15 2022-11-15 告警策略获得方法、装置

Country Status (1)

Country Link
CN (1) CN115514613B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109450671A (zh) * 2018-10-22 2019-03-08 北京安信天行科技有限公司 一种日志多组合告警归类方法及系统
US20210026698A1 (en) * 2019-07-26 2021-01-28 Microsoft Technology Licensing, Llc Confidence approximation-based dynamic thresholds for anomalous computing resource usage detection
WO2021068831A1 (zh) * 2019-10-10 2021-04-15 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质
CN113628404A (zh) * 2020-05-08 2021-11-09 华为技术有限公司 一种减少无效告警的方法及装置
CN114708717A (zh) * 2022-04-18 2022-07-05 中国银行股份有限公司 一种系统监控的关联告警方法及装置
WO2022148391A1 (zh) * 2021-01-07 2022-07-14 支付宝(杭州)信息技术有限公司 模型训练及数据检测方法、装置、设备及介质
CN114881349A (zh) * 2022-05-26 2022-08-09 平安银行股份有限公司 基于大数据分析的预警方法及存储介质
CN115102836A (zh) * 2022-07-13 2022-09-23 中国联合网络通信集团有限公司 网络设备故障分析方法、装置及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109450671A (zh) * 2018-10-22 2019-03-08 北京安信天行科技有限公司 一种日志多组合告警归类方法及系统
US20210026698A1 (en) * 2019-07-26 2021-01-28 Microsoft Technology Licensing, Llc Confidence approximation-based dynamic thresholds for anomalous computing resource usage detection
WO2021068831A1 (zh) * 2019-10-10 2021-04-15 平安科技(深圳)有限公司 一种业务告警方法、设备及存储介质
CN113628404A (zh) * 2020-05-08 2021-11-09 华为技术有限公司 一种减少无效告警的方法及装置
WO2022148391A1 (zh) * 2021-01-07 2022-07-14 支付宝(杭州)信息技术有限公司 模型训练及数据检测方法、装置、设备及介质
CN114708717A (zh) * 2022-04-18 2022-07-05 中国银行股份有限公司 一种系统监控的关联告警方法及装置
CN114881349A (zh) * 2022-05-26 2022-08-09 平安银行股份有限公司 基于大数据分析的预警方法及存储介质
CN115102836A (zh) * 2022-07-13 2022-09-23 中国联合网络通信集团有限公司 网络设备故障分析方法、装置及存储介质

Also Published As

Publication number Publication date
CN115514613B (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
US10585774B2 (en) Detection of misbehaving components for large scale distributed systems
US11379723B2 (en) Method and apparatus for compressing neural network
US20160306689A1 (en) Nexus determination in a computing device
CN109471783B (zh) 预测任务运行参数的方法和装置
US20230115255A1 (en) Systems and methods for predictive assurance
US10834183B2 (en) Managing idle and active servers in cloud data centers
US11722371B2 (en) Utilizing unstructured data in self-organized networks
CN111600746A (zh) 网络故障定位方法、装置及设备
US11972382B2 (en) Root cause identification and analysis
CN110995687B (zh) 一种猫池设备识别方法、装置、设备及存储介质
CN115514613B (zh) 告警策略获得方法、装置
CN113296992A (zh) 异常原因确定方法、装置、设备和存储介质
CN114116128B (zh) 容器实例的故障诊断方法、装置、设备和存储介质
CN116302795A (zh) 一种基于人工智能的终端运维系统及方法
WO2023111392A1 (en) Method and system for modifying state of device using detected anomalous behavior
CN112800089B (zh) 一种中间数据存储级别调整方法、存储介质及计算机设备
CN112579402A (zh) 一种应用系统故障定位的方法和装置
CN107566187B (zh) 一种sla违例监测方法、装置和系统
CN110719604A (zh) 系统性能参数的发送方法、装置、管理设备和存储介质
CN105516283B (zh) 一种提高云计算环境稳定性的装置
US9311210B1 (en) Methods and apparatus for fault detection
WO2018162034A1 (en) Method and control node for enabling detection of states in a computer system
CN117785625A (zh) 服务器性能预测方法、装置、设备及存储介质
US20230362178A1 (en) Detecting and Performing Root Cause Analysis for Anomalous Events
US20240187970A1 (en) Third-party enabled interference classification platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant