CN117421188A - 告警定级方法、装置、设备及可读存储介质 - Google Patents
告警定级方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN117421188A CN117421188A CN202311425473.1A CN202311425473A CN117421188A CN 117421188 A CN117421188 A CN 117421188A CN 202311425473 A CN202311425473 A CN 202311425473A CN 117421188 A CN117421188 A CN 117421188A
- Authority
- CN
- China
- Prior art keywords
- alarm
- event
- original
- determining
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000003860 storage Methods 0.000 title claims abstract description 10
- 238000012544 monitoring process Methods 0.000 claims description 49
- 238000000605 extraction Methods 0.000 claims description 43
- 238000011084 recovery Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 32
- 230000004044 response Effects 0.000 claims description 31
- 230000010355 oscillation Effects 0.000 claims description 18
- 230000000737 periodic effect Effects 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000007418 data mining Methods 0.000 abstract description 6
- 238000007405 data analysis Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 18
- 238000012216 screening Methods 0.000 description 12
- 230000011218 segmentation Effects 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 230000005484 gravity Effects 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 5
- 238000007621 cluster analysis Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000012163 sequencing technique Methods 0.000 description 4
- 230000001960 triggered effect Effects 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000000593 degrading effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003534 oscillatory effect Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000009514 concussion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/32—Monitoring with visual or acoustical indication of the functioning of the machine
- G06F11/324—Display of status information
- G06F11/327—Alarm or error message display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Alarm Systems (AREA)
Abstract
本申请提供一种告警定级方法、装置、设备及可读存储介质,通过将事件指纹相同的原始事件压缩为一个告警事件,减少了不必要的告警干扰,并利用数据挖掘和分析等方式从时间、空间、告警内容、告警事件属性等多个维度对所述告警事件进行告警特征提取,基于该告警特征以及预设的告警定级策略,确定出告警事件的告警等级,实现了更为准确的告警事件定级处理。
Description
技术领域
本申请涉及计算机网络技术领域,尤其涉及一种告警定级方法、装置、设备及可读存储介质。
背景技术
告警定级是一种针对告警信息确定其严重等级和优先级的分类和评估方法。通过精确地定告警严重等级和定告警优先级,运维人员可以更有效地关注和处理可能对系统构成较大威胁的告警,以便及时响应和解决潜在的问题,减少对系统运行的影响。
目前告警定级的方案通常是基于规则库匹配或基于聚类分析的定级方法。在基于规则匹配的方式中,通常基于告警的类型、频率、影响范围、紧急程度等维度预先设定告警规则库以及对应规则下的告警级别,在告警发生时根据规则库确定级别。而基于聚类分析的定级方法通过对具有告警级别的大量历史告警数据作聚类处理,并依据聚类结果对待定级的告警数据进行定级。
然而,基于规则库匹配的方法的定级准确性不高,对于不满足规则库的告警无法进行定级,影响了系统的效率和稳定性;基于聚类分析的定级方法依赖于有监督的聚类算法,需要大量的人工干预和计算资源,并且告警定级参考维度主要基于告警内容本身的信息,定级准确性不高。
发明内容
有鉴于此,为解决上述技术问题,本申请提供一种告警定级方法、装置、设备及可读存储介质。
具体地,本申请是通过如下技术方案实现的:
根据本申请实施例的第一方面,提供一种告警定级方法,所述方法包括:
根据接收的监测系统所生成的原始事件,生成至少一个告警事件;所述原始事件对应用于标识该原始事件的第一事件指纹;第一事件指纹相同的原始事件对应于同一个告警事件;
针对每个告警事件,按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征;
根据所述告警事件所包括的告警特征对应的特征标识,确定与所述特征标识相匹配的预设告警定级策略;
根据所述告警定级策略确定该告警事件的目标告警级别,以根据所述目标告警级别确定该告警事件的处理优先级并响应所述告警事件。
根据本申请实施例的第二方面,提供一种告警定级装置,所述装置包括:
告警事件生成模块,用于根据接收的监测系统所生成的原始事件,生成至少一个告警事件;所述原始事件对应用于标识该原始事件的第一事件指纹;第一事件指纹相同的原始事件对应于同一个告警事件;
告警特征提取模块,用于针对每个告警事件,按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征;
告警定级策略匹配模块,用于根据所述告警事件所包括的告警特征对应的特征标识,确定与所述特征标识相匹配的预设告警定级策略;
告警级别确定模块,用于根据所述告警定级策略确定该告警事件的目标告警级别,以根据所述目标告警级别确定该告警事件的处理优先级并响应所述告警事件。
根据本申请实施例的第三方面,提供一种可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现任一项所述的告警定级方法。
根据本申请实施例的第四方面,提供一种告警定级系统,包括:处理器、存储器;所述存储器,用于存储计算机程序;所述处理器,调用所述计算机程序实现任一项所述的告警定级方法。
本申请实施例提供的技术方案可以包括以下有益效果:
在本公开实施例中,通过将事件指纹相同的原始事件缩为一个告警事件,减少噪声事件的干扰和不必要的告警干扰,并利用数据挖掘和分析等方式从时间、空间、告警内容、告警事件属性等维度对所述告警事件进行告警特征提取,基于该告警特征以及预设的告警定级策略,确定出告警事件的告警等级,实现了更为准确的告警事件定级处理。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的和解释性的,并不能限制本申请。此外,本申请中的任一实施例并不需要达到上述的全部效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是相关技术中的一种基于聚类分析的告警定级方法流程示意图;
图2是本申请一示例性实施例示出的一种告警定级方法流程示意图;
图3是本申请一示例性实施例示出的一种告警事件生成流程图;
图4是本申请一示例性实施例示出的一种获取告警事件的第一类时序特征中的告警事件偶发特征/频发特征的方法流程示意图;
图5是本申请一示例性实施例示出的一种获取告警事件的第一类时序特征中的原始事件数量激增特征的方法流程示意图;
图6是本申请一示例性实施例示出的一种获取告警事件的第二类时序特征中的告警事件周期性发生特征的方法流程示意图;
图7是本申请一示例性实施例示出的一种获取告警事件的第二类时序特征中的事件振荡发生特征的方法流程示意图;
图8是本申请一示例性实施例示出的一种获取告警事件的告警事件内容新奇特征的方法流程示意图;
图9是本申请一示例性实施例示出的一种获取告警节点拓扑特征的方法流程示意图;
图10是本申请一示例性实施例示出的另一种告警定级方法流程示意图;
图11是本申请一示例性实施例示出的过去X天中告警种类与告警频次分布示意图;
图12是本申请一示例性实施例示出的一种告警事件对应的事件序列;
图13是本申请一示例性实施例示出的另一种获取告警事件的新奇特征的流程示意图;
图14-1是本申请一示例性实施例示出的一种告警定级升级策略示例图;
图14-2是本申请一示例性实施例示出的一种告警定级降级策略示例图;
图14-3是本申请一示例性实施例示出的一种告警直接定级策略示例图;
图15是本申请一示例性实施例示出的一种告警定级装置的结构示意图;
图16是本申请一示例性实施例示出的一种电子设备的硬件示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一分类阈值也可以被称为第二分类阈值,类似地,第二分类阈值也可以被称为第一分类阈值。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
随着信息技术的快速发展,各种各样的设备、系统和应用程序不断地生成大量的告警。这些告警涵盖了各种可能的故障、安全威胁和异常情况,如网络攻击、硬件故障、软件错误等。对于运维团队和安全人员来说,正确地识别和响应关键告警是确保系统正常运行和网络安全的关键。
基于预设告警规则库进行告警定级是一种常见定级方法,根据告警事件类型、频率、影响范围等维度结合特定需求和场景制定一系列预定义的规则和条件,以评估告警的重要性和紧急程度,并将其划分为不同的告警级别。然而,该定级方法通常是基于静态的规则和条件来进行告警定级,可能无法适应不同环境和场景的变化,容易出现新出现的告警事件无法匹配现有规则、漏报、误报等问题,从而影响告警定级的准确性和有效性。
如图1所示为另一种告警定级的方法流程,该方法基于有监督的聚类算法实现。首先获取多个已定级的告警历史数据,告警级别包括需关注级别和无需关注级别;然后,对所述已定级的告警历史数据进行聚类处理,得到聚类结果;基于所述聚类结果,对获取的多个待定级告警数据确定其级别为所述需关注级别或所述无需关注级别。然而,作为有监督的聚类算法,需要设定大量的定级规则和人工标记告警作为训练集,并且聚类过程关注的是告警内容,从而缺乏从时间、空间等维度信息,使得告警准确性受到影响。
有鉴于此,为解决上述问题,本申请提出了一种告警定级方法,通过机器学习、数学挖掘等技术自动学习和识别告警事件的告警特征,并根据所述告警特征联合构建的告警定级策略自动进行告警定级。该方法具有广泛的应用前景,可应用于各种告警场景、设备或装置,包括但不限于计算机网络、控制系统、通信网络、医疗设备、工业自动化、服务器和数据中心、能源设备和基础设施等需要实时监测和响应潜在风险或异常情况的场景或设备。
参见图2所示,本申请所提供的告警定级方法可以包括以下步骤:
S201,根据接收的监测系统所生成的原始事件,生成至少一个告警事件;所述原始事件对应用于标识该原始事件的第一事件指纹;第一事件指纹相同的原始事件对应于同一个告警事件;
所述监测系统包括但不限于网络设备、传感器或其他监测点等通过实时监测生成原始事件以供后续处理和响应的各类设备,本申请对此不做限定。
所述原始事件是指该监测系统中记录的、未经处理的事件数据,提供了关于系统运行状况和各种异常情况的实时信息;原始事件可以包括监测到的不同类型的信息,如系统指标(如CPU使用率、内存占用等)、日志记录(如错误日志、访问日志等)、故障报警、服务可用性状态、安全事件等。
所述第一事件指纹是一种用于标记和识别不同类型的原始事件的字符串或标识符。它可以是一类原始事件的标识,用于表示相同原始事件所属的监控项,也即对于同一监控对象的同一监控指标生成的多个原始事件,具有相同的事件指纹。例如,对于针对服务器的CPU利用率生成的多个原始事件,其对应的事件指纹相同。
该第一事件指纹可以由监控对象和监控指标组成,或者可以利用该监控项和监控指标或者其他事件属性信息,利用哈希算法生成事件指纹,本申请对事件指纹的确定方式不做具体限定。其中,监控对象如服务器、网络设备、主机等,监控指标是指需要被监控的具体指标或数据如CPU利用率、内存使用率、响应时间等。
例如,当服务器host01的CPU利用率超过预设阈值,生成一个原始事件,该原始事件对应的第一事件指纹可以被定义为"host01+CPU",其中"host01"表示服务器的标识,"CPU"表示监控指标或规则,即CPU利用率。
来自监测系统的各个原始事件中可能会存在大量相似或重复的事件,这些事件可能源于同一问题或故障。若每个事件都触发作为独立告警事件并触发告警,可能会导致过多的告警噪声,增加运维人员负担并难以分辨和处理真正重要的问题。因此,基于各个原始事件对应的第一事件指纹,将相同事件指纹的原始事件标记为一个告警事件进行告警提醒,也即任一告警事件对应一个原始事件组,同一事件组中的各原始事件所对应的第一事件指纹相同,该告警事件用于描述其对应的原始事件组中的各原始事件。
该告警事件对应于第二事件指纹,该第二事件指纹用于唯一标识所述告警事件,生成的待响应解决的各个告警事件对应的第二事件指纹各不相同,该第二事件指纹与该告警事件所包括的原始事件的第一事件指纹相同。在生成告警事件时,可以根据告警事件所包括的原始事件,完善所述告警事件的告警属性字段信息,如告警事件所包括的原始事件数量、告警事件所属监控项、告警事件生成时间等,具体可以根据预设的属性字段进行字段填补。
S202,针对每个告警事件,按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征;
告警特征用于从时间、空间、告警内容、告警事件属性等各个维度对告警事件进行描述,以提供关于告警事件的更为全面和准确的信息。每个告警事件实际所包括的告警特征的类型无法直接确定,可以预先设定的多种类型特征的提取方式,对于该告警事件按照该设定的各种特征提取方式对该告警特征进行特征提取,若存在根据某种类型特征的提取方式对告警事件作特征提取失败则确定告警事件不包括该类型特征,反之则包括该类型特征,从而获取到该告警事件实际所包括的全部类型特征,将其确定为所述告警特征。
所述不同类型特征可以包括但不限于第一类时序特征和第二类时序特征,告警事件内容新奇特征、告警节点拓扑特征、告警事件属性特征。
第一类时序特征从告警事件的发生频率的角度描述告警事件,根据设定历史周期内各个告警事件的发生频次分布,该第一时序特征可以划分为告警事件偶发特征、告警事件频发特征;根据告警事件中所包括的原始事件的数量变化情况,该第一时序特征可以分为原始事件数量激增特征。其中,告警事件偶发特征指示一段时间内该告警事件的发生频次较低,即告警事件的发生频次低于偶发告警阈值;告警事件频发特征指示一段时间内该告警事件的发生频次较高,即告警事件的发生频次高于频发告警阈值;原始事件激增告警特征指示当前的告警事件所包括的原始事件的数量显著增加,高于历史周期内告警事件所包括的原始事件数量的平均水平,即当前的告警事件所包括的原始事件的数量高于目标激增告警阈值。第一类时序特征中涉及的告警阈值是根据设定历史周期内的各个告警事件以及预先设定的固定阈值动态确定的。
第二类时序特征从告警事件的发生时间的变化规律的角度描述告警事件,根据设定历史周期内的事件指纹相同的各个告警事件的发生时间变化规律,该第二类时序特征可以分为告警事件周期性发生特征;根据当前的告警事件所包括的原始事件、以及与原始事件匹配的至少一个恢复事件所对应的“原始事件触发-恢复”模式的发生情况,该第二类时序特征可以分为告警事件振荡发生特征。其中,告警事件周期性发生特征指示告警事件是按照一定的时间周期规律发生的,一段时间内该告警事件的发生时间满足周期性变化规律,即从当前告警事件向前的历史周期内对应的该告警事件的发生时间序列的自相关系数大于设定系数阈值;告警事件振荡发生特征指示告警事件所包括的原始事件、以及与该原始事件匹配的恢复事件以连续的原始事件、恢复事件交替出现,表现为较短时间内多次触发生成该原始事件,并在触发后会短暂恢复正常运行,随后再次触发。
告警事件内容新奇特征用于描述告警事件所包括的各个原始事件的告警内容是之前未发生或少见的异常情况,即告警内容对应的文本熵高于设定新奇度阈值。告警节点拓扑特征用于在被监测的网络系统存在拓扑结构的情况下,通过介数中心性描述告警事件关联的拓扑节点在拓扑结构中的重要程度,以表现告警事件对被监测的网络系统的影响范围,介数中心性大于设定介数阈值,则标识该告警事件关联的拓扑节点为关键节点。告警事件属性特征是指告警事件的属性字段所包括的信息,在生成告警事件时会完善告警事件的属性字段信息,该属性字段信息中的部分字段内容可以作为该事件属性特征,如告警事件的告警分类、告警内容关键字等。
其中,对于上述第一类时序特征的提取,通过对设定周期内的历史告警事件作数据统计和分析,确定第一阈值参数;根据第一阈值参数和预设的固定阈值,可以将第一阈值参数和目标阈值参数通过求平均、选择更大值或更小值等方式确定出目标阈值参数;根据目标阈值参数来确定告警事件是否具备第一类时序特征。
不同类型特征的提取方式取决于所提取的特征类型。所述第二类时序特征用于从时间维度描述事件发生的规律性和变化趋势,可以通过历史告警事件的时间数据结合数据挖掘获取相关特征;所述告警事件内容新奇特征用于描述告警事件对应的告警内容是否具备新颖性,以捕捉潜在的问题和风险,可以基于告警内容分词处理以及逆文档频率的方式确定;所述告警节点拓扑特征用于描述告警事件发生在系统拓扑结构中的位置,利于分析告警的事件传播和影响范围,可以基于所述系统拓扑结构以及介数中心性进行获取;所述事件属性特征描述了告警事件本身的属性和特征,可以包括告警事件的告警类型、告警事件的来源、所包括的原始事件数量、告警内容文本数据等信息,可以通过所述告警事件的告警属性字段信息获取。
S203,根据所述告警事件所包括的告警特征对应的特征标识,确定与所述特征标识相匹配的预设告警定级策略;
所述特征标识用于唯一标识不同类型的特征,与不同类型的特征一一对应,该特征标识可以为数字、字母、文字、字符串等形式进行表示。如特征标识采用简略的文字表示,预先设置“告警事件偶发特征”对应于特征标识“偶发”、“告警事件频发特征”对应于特征标识“频发”、“原始事件数量激增特征”对应于特征标识“激增”。
可以为所述预设的不同类型特征分别设置其对应的特征标识,建立不同类型特征与特征标识的映射关系,从而在获取到告警事件的告警特征后,根据预先建立的所述映射关系,确定出告警特征内各种类型特征对应的特征标识。
所述预设告警定级策略用于根据告警事件的告警特征确定该告警事件所属的告警级别,可以包括不同告警级别所对应的定级规则,每个定级规则可以对应于至少一种特征标识筛选条件,该特征标识筛选条件所包括的特征标识用于与告警事件的告警特征对应的特征标识进行匹配,以确定出用于确定该告警事件的告警级别的告警定级策略。
在确定所述告警事件的告警特征所对应的特征标识后,可以将该特征标识分别与告警定级策略中的各个特征标识筛选条件进行匹配,确定出相匹配的各个特征标识筛选条件所对应的的定级规则,将该定级规则作为与所述特征标识相匹配的预设告警定级策略。
举例来讲,假设预设的告警定级策略对应的一条定级规则R为:特征标识筛选条件为告警事件的警特征对应的特征标识满足下述至少一种条件:包括“新奇”和“偶发”;或包括“激增”;设置对应的告警定级为:告警严重程度级别为“严重”,处理优先级为“高”。在得到告警事件A的告警特征后,若A的告警特征所对应的特征标识包括激增、或者包括新奇、偶发,则确定的与该告警事件对应的特征标识相匹配的预设告警定级策略包括上述定级规则R。
在将该特征标识分别与告警定级策略中的各个特征标识筛选条件进行匹配过程中,可以按照设定的告警级别从高到低的方式,将告警事件对应的特征标识先与最高的告警级别对应的定级规则所包括的特征标识筛选条件进行匹配,若匹配成功则将该告警级别对应的定级规则确定为与所述特征标识相匹配的预设告警定级策略,反之若匹配失败则继续与第二高的告警级别对应的定级规则所包括的特征标识筛选条件进行匹配。
S204,根据所述告警定级策略确定该告警事件的目标告警级别,以根据所述目标告警级别确定该告警事件的处理优先级并响应所述告警事件。
所述目标告警级别用于指示该告警事件的严重程度、和/或处理该告警事件的优先级,其中,优先级可以与告警事件的严重程度相对应。例如,告警级别按照严重程度从低到高可以划分为通知、警告、次要、主要、严重,对应的处理优先级依次升高。
根据所述告警定级策略确定该告警事件的目标告警级别可以包括:根据所述告警定级策略确定出该策略对应的告警级别;根据所述策略对应的告警级别和所述告警事件的初始告警级别,确定出所述目标告警级别;其中,所述初始告警级别是指在提取告警事件的告警特征之前该告警事件的告警级别,默认设置为空或最低告警级别。在根据所述告警定级策略确定出该策略对应的告警级别的过程中,若所述告警定级策略包括多个定级规则,则将各个定级规则对应的最高的告警级别确定为所述策略对应的告警级别。
在获取到告警事件的目标告警等级后,可以按照事件严重程度和处理优先级确定对该告警事件的处理措施,便于运维人员优先对严重程度高或处理优先级高的告警事件进行处理,以保证系统主体正常运行。在设定周期内未按照该目标告警等级对告警事件进行响应解决或者告警事件所包括的原始事件数量发生变化的情况下,可以重新返回执行上述步骤S202至步骤S205以重新对该告警事件的目标告警等级进行确定和调整。
在本公开实施例中,通过将事件指纹相同的原始事件压缩为一个告警事件,避免告警的重复性并可以提供更全面的上下文信息和历史记录,并通过对历史告警事件的数据统计和分析方式确定特征提取阈值参数,以实现对所述告警事件的告警特征提取,增强了所提取的告警特征的准确性,基于该包含不同维度事件信息的告警特征所对应的的特征标识和预设的告警定级策略,确定出告警事件的告警等级,提高了告警定级效率和确定告警事件的告警级别的准确性,降低潜在风险,并改进系统的稳定性和可靠性,帮助运维人员更好地处理系统中的问题和故障。
在一些实施例中,对于前述步骤S201所述的根据接收的监测系统所生成的原始事件,生成至少一个告警事件,如图3所示,可以包括如下实现步骤:
S301,根据已创建的告警事件的第二事件指纹,确定是否存在包括所述原始事件的目标告警事件;
S302,响应于存在所述目标告警事件,根据所述原始事件更新所述目标告警事件,将所述原始事件合并至所述目标告警事件;
S303,响应于不存在所述目标告警事件,根据所述原始事件创建新的告警事件。
也即,设定告警事件对应于第二事件指纹,该第二事件指纹与所述告警事件所包括的原始事件的第一事件指纹相同,在接收到来自监测系统的原始事件时,检测已经创建的、待响应解决的告警事件中是否存在第二事件指纹与该原始事件的第一事件指纹相同的目标告警事件,如果已经存在该目标告警事件则无需创建一个新的告警事件,直接将该原始事件并入该目标告警事件,减少相同原始事件的重复告警,降低负载和资源开销。
对于不存在所述目标告警事件的情况,也即该原始事件当前不存在告警,则针对该原始事件重新创建一个告警事件,并且在该新创建的告警事件被解决或从告警事件名单移除之前的时段内,所有与该原始事件的第一指纹相同的原始时间都将并入该新创建的告警事件。
在本公开实施例中,通过将接收的第一事件指纹相同的原始事件合并入同一个告警事件,减少了相同原始事件的重复告警,降低了待响应解决的告警事件数量,从而达到降低资源消耗、提高告警响应处理效率的目的。
在一些实施例中,基于图3所示的告警事件生成方式,在确定告警事件的目标告警级别后,所述告警定级方法还可以包括步骤:响应于设定周期内未对所述告警事件进行相应解决或所述告警事件的原始事件更新满足设定要求,则返回执行步骤S202-步骤S205,以重新确定该告警事件的目标告警级别。
在一些实施例中,如图4所示,对于第一类时序特征包括告警事件偶发特征和告警事件频发特征的情况,根据前述第一类时序特征的提取方式,所述第一阈值参数包括第一偶发阈值和第一频发阈值;则步骤S202所述的按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征,可以包括如下方式:
S401,根据不同告警指纹对应的各个历史告警的告警频次,确定第一偶发阈值和第一频发阈值;第二事件指纹相同的第一历史告警事件属于同一历史告警;所述历史告警的告警指纹与其包括的第一历史告警事件的第二事件指纹相同;所述告警频次是指该历史告警包括的第一历史告警事件数量;
也即,将第一设定历史周期内的第二事件指纹相同的各个历史告警事件确定为属于同一个历史告警,并将该各个历史告警事件的总数量确定为该历史告警的告警频次。
按照第二事件指纹分类,获取各个历史告警的告警频次,并基于该告警频次,确定出第一偶发阈值和第一频发阈值;第一偶发阈值用于判定告警事件是否为偶发性告警,在与告警事件的第二事件指纹相匹配的历史告警的告警频次低于该第一偶发阈值时,可以确定为偶发性告警;第一频发阈值用于判定告警事件是否为频发性告警,在与告警事件的第二事件指纹相匹配的历史告警的告警频次高于该第一频发阈值时,可以确定为频发性告警。
在一些实施例中,所述根据不同告警指纹对应的各个历史告警的告警频次,确定第一偶发阈值和第一频发阈值,可以通过下述方式实现:
对第一设定周期内的各个历史告警,按照告警频次进行排序;
按照告警频次从小到大的顺序,将排序位于第一设定分位处的告警频次确定为第一偶发阈值;将排序位于第二设定分位处的告警频次确定为第一频发阈值;第一偶发阈值小于第一频发阈值;
其中,所述第一设定分位和第二设定分位可以根据实际情况动态调整,如根据实际的告警频次分布情况选取合适的分位点。
举例来讲,设置分位点5%作为第一设定分位,设置分位点95%作为第二设定分位,则表示从小到大排列的告警频次序列中,排在5%位置处的告警频次为第一偶发阈值,排在95%位置处的告警频次为第一频发阈值。例如,若告警频次排序包括100个数据,则从小到大第5个数据为第一偶发阈值,第95个数据为第一频发阈值。
S402,根据所述第一偶发阈值和第一频发阈值以及预设的固定阈值,确定偶发告警阈值和频发告警阈值;所述固定阈值包括固定偶发阈值和固定频发阈值;
该预设的固定阈值是指根据本领域技术人员的经验或有限次实验所确定的一组用于判断告警事件的偶发性/频发性的固定阈值。
在获取第一偶发阈值和第一频发阈值后,可以将该第一偶发阈值确定为偶发告警阈值,或者可以将第一偶发阈值与固定偶发阈值中的较大值确定为偶发告警阈值。同理,可以直接将该第一频发阈值确定为频发告警阈值,或者可以将第一频发阈值与固定频发阈值中的较小值确定为频发告警阈值。
例如,提供固定偶发阈值occ_fix、固定频发阈值freq_fix;根据过去X天的不同第二事件指纹的历史告警事件的数量,确定第一偶发阈值occ_stat、第一频发阈值freq_stat,则可以确定偶发告警阈值occ_th为max(occ_stat,occ_fix),即取固定阈值和动态阈值的最大值;频发告警阈值freq_th min(freq_stat,freq_fix),即取固定阈值和动态阈值的最小值。
S403,对所述各个历史告警,将所述告警频次小于所述偶发告警阈值的历史告警确定为偶发告警,将告警频次大于所述频发告警阈值的历史告警确定为频发告警;
也即,根据所述历史告警的告警频次,将告警频次小于偶发告警阈值的历史告警确定为所述偶发告警,将告警频次大于频发告警阈值的历史告警确定为所述频发告警。
而对于告警频次位于偶发告警阈值、频发告警阈值之间的历史告警,则定义该类历史告警既不属于偶发告警也不属于频发告警,也即与该类历史告警的告警指纹相匹配的第二事件指纹对应的待定级告警事件不包括告警事件偶发特征、告警事件频发特征中的任一种。
S404,依据所述告警事件的第二事件指纹与任一所述偶发告警的告警指纹相匹配,确定所述告警特征包括告警事件偶发特征;依据所述告警事件的第二事件指纹与任一所述频发告警的告警指纹匹配,确定所述告警特征包括告警事件频发特征。
也即,将待提取特征的告警事件的第二事件指纹与所确定的历史告警中的偶发告警、频发告警的告警指纹进行匹配,并根据指纹匹配结果判断告警事件是否满足告警事件偶发特征、告警事件频发特征中的任一种。在所述告警事件与偶发告警、频发告警中的全部告警指纹均不匹配时,则确定该告警事件的告警特征不包括告警事件频发特征和告警事件偶发特征。
可以理解的是,上述步骤S303和S304所示的执行顺序并非特定执行顺序,也可以以其他的方式执行而达到同样的效果。例如,在另一些实施例中,在确定偶发告警阈值和频发告警阈值后,可以先确定告警指纹与当前待提取特征的告警事件的第二事件指纹相同的历史告警,然后再判断该历史告警是否为偶发/频发告警,从而基于该判断结果对所述待提取特征的告警事件进行偶发/频发特征提取。
在本公开实施例中,确定当前待提取特征的告警事件为偶发/频发性告警的整体构思是:根据与告警事件的第二事件指纹相同的历史告警是否为偶发或频发告警,来确定该告警事件是否具备偶发性或频发性。通过对过去X天的不同种类的历史告警的告警频次数据进行数据挖掘,确定用于判断事件的偶发性及频发性的判定阈值,提高了偶发性及频发性的判断参数的实时性和有效性;并在根据判定阈值确定所述告警特征是否包括第一类时序特征即事件偶发或频发特征时,以事件指纹相同的历史告警是否具有偶发性/频发性作为当前待提取特征的告警事件的评定依据,基于历史告警的统计数据和模式为判断当前告警事件提供参考,减少了对短期或临时性问题的过度关注和误报,提高了特征识别的准确性。
在一些实施例中,如图5所示,对于第一类时序特征包括原始事件数量激增特征的情况,根据前述第一类时序特征的提取方式,所述第一阈值参数包括第一激增告警阈值,则步骤S202所述的按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征,可以包括第一激增告警阈值获取步骤和根据该第一激增告警阈值确定是否包括原始事件数量激增的步骤,可以包括如下方式:
S501,根据各个第二历史告警事件包括的原始事件数量,确定第一激增告警阈值;其中,所述第二历史告警事件是指与所述告警事件的第二事件指纹相匹配的历史告警事件;
也即,获取设定过去X1天内与待提取特征的告警事件的第二事件指纹相同的各个第二历史告警事件,该过去X1天与前述过去X天可以取相同的历史周期,或者可以取不同的历史周期,即X1与X可相等可不等,具体取值可以根据实际需求动态确定。
在基于每个历史告警事件中包括的原始事件数量确定第一激增告警阈值的过程中,可以使用求均值、中位数等统计方法确定正常水平下该类历史告警事件包括的原始事件的理论数量,从而可以基于该理论数量以及每个历史告警事件中包括的原始事件的数量的分布形态和变化情况,确定合适的阈值作为第一激增告警阈值。
S502,根据所述第一激增告警阈值与预设的固定激增告警阈值,确定目标激增告警阈值;
与前述预设的固定判定阈值类似,该固定激增告警阈值是指根据本领域技术人员的经验或有限次实验所确定的一个用于判断告警事件所包括的原始事件的数量是否短时间发生显著增加的固定阈值,是一种人为设定的、用于表示告警事件所包括的原始事件的数量的正常水平的参数。
在确定目标激增告警阈值的过程中,可以将所述第一激增告警阈值确定为目标激增告警阈值,或者可以确定所述第一激增告警阈值和所述固定激增告警阈值中的较大值作为目标激增告警阈值。
例如,针对所述告警事件对应的告警类型,设定固定激增告警阈值sudden_fix,对过去X1天中与所述告警事件的第二事件指纹相同的历史告警事件进行汇总统计分析,确定激增告警阈值sudden_stat,则可以确定目标激增告警阈值sudden_th=max(sudden_stat,sudden_fix),即取固定阈值与动态阈值的较大值。
S503,依据所述告警事件包括的原始事件数量大于所述目标激增告警阈值,确定所述告警特征包括原始事件数量激增特征。
所述原始事件数量激增特征用于表示告警事件包含的原始事件的数量大于目标激增告警阈值,即告警事件为激增性告警。也即,若待提取特征的告警事件包括的原始事件数量大于目标激增告警阈值,则认为该告警事件为激增性告警,该告警事件的告警特征包括原始事件数量激增特征。反之,若包括的原始事件数量小于或等于目标激增告警阈值,则认为该告警事件并非激增性告警,该告警特征不包括原始事件数量激增特征。
在本公开实施例中,通过对设定历史周期内的相同事件指纹的历史告警事件进行数据分析确定激增告警阈值,并基于该激增告警阈值确定所述告警事件是否为激增告警,过滤了偶发性或正常波动导致的误报,确定更为合理的告警阈值而减少了频繁触发无关紧要的告警,提高了告警定级的准确性。
在一些实施例中,对于如图5所示的激增特征获取流程图中,步骤S501所述的根据各个第二历史告警事件包括的原始事件数量,确定第一激增告警阈值,可以通过下述方式实现:
根据各个第二历史告警事件包括的原始事件数量、以及第二历史告警事件的事件数量,确定第二历史告警事件包括的原始事件数量的平均值以及标准差;
根据所述平均值、标准差以及三西格玛原则,确定所述第一激增告警阈值。
对于与待提取特征的告警事件的第二事件指纹相同的各个第二历史告警事件,计算各个第二历史告警事件所压缩的原始事件数量的平均值avg、以及标准差std,通过3σ原则确定第一激增告警阈值sudden_stat=avg+3σ,其中σ取值为标准差std。
在本公开实施例中,通过对历史告警事件包含的原始事件数量进行分析,并基于三西格玛原则确定第一激增告警阈值,使用标准差和均值等指标衡量阈值的稳定性和可靠性,提高了激增告警的识别准确性。
在一些实施例中,对于前述第二类时序特征可以为告警事件周期性发生特征,也即设定的不同类型特征包括告警事件周期性发生特征的情况,参见图6所示,步骤S202所述的按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征,可以对应于如下实现方式:
S601,根据各个第三历史告警事件的发生时间,获取事件发生时间序列;其中,所述第三历史告警事件是指与所述告警事件的第二事件指纹相匹配的历史告警事件;
告警事件周期性发生特征可以通过自相关系数进行计算和识别,自相关系数用于度量时间序列的相关程度。当事件指纹相同的历史告警事件的时间序列存在周期性时,通过遍历不同相位差可以找到至少一个满足设定系数阈值的自相关系数,该自相关系数对应的相位差为告警事件的发生周期。
将第三设定周期内的各个历史告警事件的发生时间按照顺次排序即事件发生从早到晚的顺序排序,得到该事件发生时间序列。
S602,根据周期的自相关系数计算方法,获取不同相位差下所述事件发生时间序列的自相关系数;
周期的自相关系数用于研究时间序列数据是否存在周期性,并可以帮助确定数据的周期。通过计算时间序列数据在不同滞后期数(相位差)下的自相关系数,可以确定数据点与其在之前时间点的相关性。如果时间序列存在周期性,则可以在特定的滞后期数上确定出较高的自相关系数。
自相关系数可以通过如下公式(1)计算得到:
其中,xi为时间序列中的第i个元素值,h为相位差,u为时间序列的均值。
例如,对得到的时间序列,分别计算不同相位差如1h、4h、12h、24h下该时间序列的自相关系数。
S603,依据至少存在一个相位差对应的所述自相关系数大于设定系数阈值,确定所述告警特征包括告警事件周期性发生特征。
对所述事件发生时间序列,若存在至少一个自相关系数大于设定系数阈值,则表征该事件发生时间序列存在周期性,则该类告警事件的发生是按照一定时间周期规律性发生的告警,则提取的告警特征所包括的第二类时序特征中包括标识告警事件周期性发生特征的信息。
在本公开实施例中,通过对历史周期内与待提取特征的告警事件的第二事件指纹相同的各个历史告警事件,提取该种告警事件的发生时间,组成时间序列,计算多个相位差下序列的自相关系数,从而基于该自相关系数确定出所述告警事件是否为周期性告警,利用历史告警事件的周期性作为参考依据,从而提高了判别准确性。
在一些实施例中,对于前述第二类时序特征可以为原始事件振荡发生特征,也即设定的不同类型特征包括原始事件振荡发生特征的情况,参见图7所示,步骤S202所述的按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征,可以包括下述步骤:
S701,获取所述告警事件所包括的各个原始事件、以及与所述原始事件相匹配的恢复事件;
恢复事件是指在系统运行过程中,当发生故障或异常事件导致告警触发时,系统经过一段时间后恢复正常运行,相关的恢复事件即为原始事件的恢复。具体来说,当监测系统或设备检测到异常情况时,会生成相应原始事件用于后续告警。例如,网络设备发生故障,导致网络中断,监测系统会产生一个网络中断的原始事件。在故障排除和修复期间,工程师会采取相应的措施来解决问题,修复故障。当网络重新恢复,并且确认问题已经解决后,可以生成一个恢复事件,表示网络已经恢复正常运行。
监测系统处于监测状态时,当发生故障或异常事件导致告警触发时,监测系统会相应地记录原始事件,并在系统恢复正常运行后,记录相应的恢复事件。一个原始事件对应于至少一个恢复事件,监测系统可以在监测记录阶段,根据告警事件和恢复事件的时间戳或其他标识,可以将它们进行关联,以确保正确匹配和记录。
因此,在确定所述告警事件所包括的原始事件后,可以基于各个原始事件的发生时间以及所属监控指标,从所述监测系统的事件记录或日志中查找对应的恢复事件。或者,可以基于原始事件与恢复事件的关联关系,利用告警事件所包括的原始事件获取到其所关联的恢复事件。
S702,按照事件发生顺序,获取由所述原始事件、以及所述恢复事件组成的事件序列;
也即,按照原始事件和恢复事件的发生时间从早到晚的顺序,将所获取的原始事件和恢复事件依次排列,得到事件序列。
S703,确定所述事件序列中所包括的目标事件组,所述目标事件组包括一个原始事件和与该原始事件相邻的各个恢复事件、且原始事件发生早于相邻的各个恢复事件;
遍历所述事件序列,在判断相邻的两个事件分别为原始事件和恢复事件的情况下,若进一步满足原始事件的发生时间早于恢复事件,即在事件序列中原始事件排序位于恢复事件之前,则将该相邻的两个事件以及与其中的恢复事件连续相邻的其他恢复事件确定为一个目标事件组,例如一个原始事件对应于三个恢复事件,该相邻的原始事件和三个恢复事件作为一个目标事件组。
例如,若以数字0表示原始事件,数字1表示恢复事件,则对于由数字0和1构成的事件序列中,满足“0 1”、“0 1 1”或“0 1 1 1 1”等这种类型的数字对即为所述目标事件组。
S704,确定属于各个所述目标事件组的原始事件与恢复事件的事件占比,依据所述事件占比大于设定比例阈值,确定所述告警特征包括原始事件振荡发生特征。
在确定出所述事件序列中包括的全部目标事件组后,若属于目标事件组的事件数量大于设定数量阈值,或者该事件数量占事件序列的总事件数量的比重大于设定比例阈值,则确定该告警事件属于振荡性告警,满足事件振荡发生特征,因此该告警事件的告警特征包括的第二类时序特征中包括标识事件振荡发生特征的信息。
例如,告警事件B对应的事件序列中共包括12个事件,其中包括目标事件组为5个,且每个目标事件组包括1个告警事件和1个恢复事件,则若设定比例阈值为0.7,则目标事件组的事件数量占该事件序列的总事件数量的比重为0.83,大于设定比例阈值0.7,则确定告警事件B为振荡性告警,所获取的告警事件B的告警特征所包括的第二类特征中存在一种标识字符,该标识字符用于标识告警事件振荡发生。
在本公开实施例中,在获取告警事件的告警特征过程中从告警事件的发生时间变化规律上考虑事件振荡,基于事件振荡发生可能与系统性能和稳定性有关,提取事件振荡发生特征丰富了告警的特征维度,增加告警定级的准确性,避免基于单一特征进行定级而忽略了重要的振荡现象。
在一些实施例中,前述告警事件内容新奇特征用于表征告警是否新奇,如果某个告警的告警内容从未出现或较少出现,则该告警应当引起足够的重视,如果告警内容频繁出现,则告警属于常见告警,可以放低优先级。响应于设定的不同类型特征包括告警事件内容新奇特征,如图8所示,步骤S202所述的按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征,可以通过下述方式实现:
S801,将所述告警事件所包括的各原始事件的告警文本内容进行数据预处理,得到至少一个目标分词;
对各个原始事件的告警内容进行数据预处理主要包括过滤符号、文本分割、去除停用词处理步骤,可以使用分词工具或者库来实现,例如Python中常见的开源工具或库可以用于中文分词,如jieba、SnowNLP、PKUSEG等,可以根据实际需求选择合适的工具。
比如说,某个交换机的告警内容如下:“接口GigabitEthernet2/5/3的状态DOWN。接口别名:CTC-QK200M”,则经过数据预处理后得到的一种分词结果为:“接口”、“GigabitEthernet/2/5/3”、“状态”、“DOWN”、“别名”、“CTC-QK200M”,包括了6个目标分词。
S802,根据所述告警事件所包括的各原始事件的事件总数N、以及包含所述目标分词的原始事件的数量M,获取所述目标分词的逆文档频率;
逆文档频率(Inverse Document Frequency,简称IDF)是一种用于衡量词语在语料库中重要性的统计量,通过计算文档总数与包含某个词语的文档数的商的对数值评估该词语的稀有程度。IDF值越大,表示词语在语料库中越稀有、越重要,该词区分度越大。
IDF可以通过下述公式(2)获取:
其中N是告警事件包括的原始事件的数量,Nw是包含词语w的原始事件的数量。
S803,根据各个目标分词的逆文档频率、以及所述各原始事件的告警文本内容中目标分词的总数量,获取所述告警事件对应的告警内容的文本熵;
文本熵是一种用于衡量文本信息度量的概念,通过计算文本中字符或词汇的分布情况来描述文本的随机性和复杂程度的度量。文本熵越高,表示文本中的信息越丰富和复杂;文本熵越低,表示文本中的信息越单一或重复。
文本熵可以通过如下公式(3)计算文本熵,也可以通过其他文本熵计算方式去确定,本申请对此不做限定。示例性地,一种文本熵计算公式为:
其中,#w是该原始事件中所包括的目标分词w的数量,IDF(w)是前述步骤计算的目标分词w的逆文档频率,∑wIDF(w)表示对告警事件中的所有目标分词w的逆文档频率求和。
S804,依据所述文本熵大于设定新奇度阈值,确定所述告警事件的告警特征包括告警事件内容新奇特征。
若存在目标分词对应的文本熵大于设定新奇度阈值,则确定告警事件满足告警事件内容新奇特征,其告警内容为较少出现的或从未出现的内容,从而获取的该告警事件的告警特征中包括告警事件内容新奇特征;反之,若各个目标分词对应的文本熵均小于或等于设定新奇度阈值,则确定告警事件不满足告警事件内容新奇特征,其告警内容为频繁出现的内容,从而获取的告警事件的告警特征中不包括告警事件内容新奇特征。
在本公开实施例中,基于文本熵的计算可以衡量告警内容的新颖程度、不确定性和信息量,通过对告警内容进行分词、文本熵计算来判定告警事件是否为新奇告警,并将其作为告警特征的组成部分,从而在定级处理时可以考虑更多维度的特征信息而提高定级准确性,减少安全事件的影响范围和损失。
在一些实施例中,前述告警节点拓扑特征用于表示所述告警事件涉及的拓扑节点为关键拓扑节点,通过介数中心性和阈值判定该节点是否为关键拓扑节点;如图9所示,在所述告警事件所属的网络系统即监测系统的监测对象存在拓扑结构的情况下,响应于设定的不同类型特征包括告警节点拓扑特征,前述步骤S202所述的按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征,可以包括下述特征提取步骤:
S901,获取所述监测系统监测的网络系统对应的拓扑结构;
拓扑结构是指网络中节点之间连接的方式和模式,描述了网络中节点和边的排列方式,基于拓扑结构可以确定一个网络里通过每个节点的最短路径条数。
S902,基于所述拓扑结构,获取所述告警事件所关联的拓扑节点的介数中心性;
介数中心性是一个网络分析中的指标,用于描述一个节点在一个网络中作为很多节点之间的必经路径,对网络的整体连通性具有重要的影响。介数中心性,取值范围为0到1之间的实数。介数中心性越高的节点,表示在网络中的信息流量越大,表示该节点越重要。某个节点u的介数中心性可以通过如下公式(4)计算:
其中:pu表示节点s和节点t之间经过节点u的最短路径个数,p表示节点s和节点t之间最短路径个数。
所述告警事件对应的目标节点可以是指告警事件所属的监控对象,例如服务器、网关、主机等,其作为拓扑网络的拓扑节点。
S903,依据所述介数中心性大于设定的介数中心性阈值,确定所述告警事件的告警特征包括告警节点拓扑特征。
介数中心性是一种用于衡量节点在网络中的重要性和影响力的指标。节点的介数中心性越高,表示该节点在网络传递信息和连接其他节点的路径上起到了更重要的作用。基于此,对于介数中心性超过介数中心性阈值,则表征告警事件涉及的节点对网路传输起关键意义,在告警定级过程中可以提高其优先级以快速响应和处理,从而提高网络的安全性和稳定性。
在本公开实施例中,对于复杂的应用和网络系统,通常具备拓扑结构,而告警通常发生在拓扑上的某个节点,通过分析拓扑结构,计算每个节点的介数中心性,并通过设定介数中心性阈值来判断告警事件是否具备告警节点拓扑特征,以标识该告警事件是否发生于关键节点,其中是否为关键拓扑节点可以根据介数中心性进行判定,从而为基于告警特征分析的告警定级提供更为丰富的维度特征,提高告警定级的准确性,以实现快速响应和处理。
在一些实施例中,在根据第一事件指纹相同的原始事件生成告警事件时,还可以包括如下步骤:确定所述告警事件的初始告警级别;所述初始告警级别为生成所述告警事件时确定的告警级别;
则前述步骤S204所述的根据所述告警定级策略确定该告警事件的目标告警级别,可以包括步骤:
获取所述告警事件的初始告警级别、以及所述告警定级策略对应的第二告警级别;
响应于所述初始告警级别低于所述第二告警级别,则确定所述目标告警级别为所述第二告警级别;
响应于所述初始告警级别高于所述第二告警级别,则确定所述目标告警级别为所述初始告警级别。
也即,若监测系统在生成原始事件时,按照监测系统内的告警等级标定了该原始事件的告警等级,则在将指纹相同的各个原始事件压缩为一个告警事件时,可以按照预设的监测系统的告警等级与本申请中设定告警等级的映射关系,将其映射至本申请中设定的告警等级,并添加至所述告警事件的属性特征信息字段,标记为告警事件的初始告警级别。
对于包含初始告警级别的告警事件,在根据该告警事件的告警特征确定出目标告警级别时,将目标告警级别与初始告警级别比较,若新确定的目标告警级别高于所述初始告警级别,则对该告警事件进行升级处理并升级为所述目标告警级别,反之则维持原初始告警级别不作处理。
其中,对于前述步骤确定所述告警事件的初始告警级别,可以通过如下方式实现:
响应于所述告警事件不存在第一告警级别,在所述原始事件包括监测系统设定的告警等级的情况下,根据所述告警等级确定所述告警事件的初始告警级别;在所述原始事件不包括所述告警等级的情况下,确定所述告警事件的初始告警级别为空;
响应于所述告警事件存在第一告警级别,则确定所述告警事件的初始告警级别为所述第一告警级别。
也即,若所生成的告警事件是指根据所述原始事件重新创建一个新的告警事件,则所述告警事件不存在第一告警级别。对于检测系统预先为该原始事件设置告警等级的情况,则可以根据监测系统的告警级别与本申请告警等级的映射关系,确定该新的告警事件的初始告警级别,反之则可以确定该告警事件的初始告警级别为空或默认设置为最低告警级别。
若所生成的告警事件是指在已创建的待响应解决的告警事件中并入新的原始事件,则该告警事件存在已经确定过的目标告警等级,将该目标告警等级直接确定为初始告警级别。
在本公开实施例中,通过设置告警事件的初始告警等级,并在定级处理过程中将最新确定的第二告警级别与初始告警级别进行比较,并根据情况升级或保持不变,更准确地反映当前告警事件的紧急程度和重要性,并且新确定的第二告警级别高于初始告警级别时,升级处理可以确保对重要告警事件的关注程度不会降低,可以加快问题的定位和解决速度,减少对系统正常运行的影响。
可以理解的是,对于前述各个实施例中所述的确定告警特征包括某种类型特征,如确定告警特征包括告警事件偶发特征/周期性发生特征,可以为所提取的告警特征内容包括用于指示该告警事件具有该类型特征的指示信息,本申请对于具体地形式不做限定。
为使本领域技术人员更好的理解本申请所提供的告警定级方法,接下来结合另一种详细具体的示例性实施例对该方法进行描述。
本申请实施例提出告警定级方法基于特征分析,通过机器学习、数据挖掘等技术自动学习和识别告警特征,并根据这些特征设定告警定级筛选条件及定级策略自动进行告警定级。如图10所示,该方法主要包括数据预处理、特征提取、定级策略匹配,具体可以包括如下实现方式:
S1010,数据预处理:获取来自上游监控系统的原始事件,并对原始事件进行事件丰富和事件压缩的预处理。其中,对原始事件进行事件丰富用于将原始事件转换为设定事件数据格式的标准原始事件,便于后续的原始事件管理以及告警压缩处理,事件丰富可以包括但不限于原始事件所缺失的属性字段补充完整、用于对原始事件进行管理的管理配置数据填充、事件指纹设置。然后,对经过事件丰富处理后的各个标准原始事件,将事件指纹相同的各个原始事件压缩为一个告警事件,减少了告警处理过程中的复杂性和荣誉操作。
在将事件指纹相同的原始事件合并成一个告警事件进行告警定级的过程中,会不断接收来自监控系统的原始事件,对于接收的每个原始事件,若已经存在包括该原始事件的告警事件且该告警事件待响应解决,则将接收的原始事件合并至该告警事件;反之,若不存在包括该原始事件的告警事件,则重新创建一个告警事件用于对该类原始事件进行告警。基于上述告警事件生成方式,本申请所包括的待响应解决的告警事件的类型是不重复的,并利用该方式减少了告警事件数量以提高告警事件处理效率。
S1020,告警特征提取:对每个告警事件,提取该告警事件的告警特征,可以从时序特征、告警事件内容新奇特征、告警节点拓扑特征以及告警事件属性特征中的至少一个特征维度进行特征获取。获取的特征维度越丰富,最终确定的告警事件的告警定级越准确。
本申请实施例提取的时序特征可以包括告警事件偶发特征与告警事件频发特征、事件数量激增特征、事件振荡发生特征、告警事件周期性发生特征中的至少一种,通过对过去X天(如过去7天、过去30天等)内历史告警事件的事件数据的挖掘分析,提取告警的时序特征,具体可以通过下述方式获取各类时序特征:
(1)告警事件偶发特征和告警事件频发特征提取
对于一段时间内的各种告警事件,其对应的告警频次通常呈现成为分布。如图11所示是某生产环境中一个月内出现的告警频次和该告警频次下的告警种类数的统计图,其中,告警种类数可以基于告警事件的事件指纹进行区分,不同事件指纹表示不同种类的告警,存在多种历史告警的告警频次相同。
本申请实施例通过设定动态告警阈值的方式进行偶发和频发告警的判别,其中动态告警阈值是通过固定阈值和对过去X天的历史告警的告警频次作数据挖掘所确定的第一阈值所确定的,可以通过如下方式实现:
获取已设置的偶发告警固定阈值occ_fix、频发告警的固定阈值freq_fix;并根据过去X天的不同告警指纹的各个历史告警,确定该历史告警的告警频次,其中告警频次是相同事件指纹的历史告警事件的总数之和,历史告警的告警指纹与所包括的历史告警事件的事件指纹一一对应,基于告警指纹,对不同种历史告警的告警频次进行排序,确定第一偶发阈值occ_stat、第一频发阈值freq_stat。
基于上述固定阈值和第一阈值,可以将第一偶发阈值occ_stat、偶发告警固定阈值occ_fix中的最大值,作为偶发告警阈值:将第一频发阈值freq_stat、频发告警固定阈值freq_fix中的最小值作为频发告警阈值。
基于此,对过去X天的不同种类的历史告警进行偶发和频发告警的标记,对当前待提取特征的告警事件,若该告警事件与任一标记为偶发告警或频发告警的历史告警相匹配时,则自动识别该告警事件包含告警事件偶发特征或告警事件频发特征,具体所包括的与相匹配的历史告警事件一致。其中,告警事件与历史告警事件的匹配可以基于事件指纹进行。
例如,过去X天共发生了100类告警,对这100类告警按告警次数从低到高排序,若第5种告警出现的告警频次occ_stat=1,第95种告警出现的告警频次为freq_stat=156,同时人为设定的偶发和频发告警频次阈值为occ_fix=5,freq_fix=200,则最终偶发和频发的告警频次阈值分别为5和200。
进一步地,基于该告警阈值5和200,将所述100类告警中的告警频次低于5的告警确定为偶发告警,告警频次高于200的告警确定为频发告警。在获取告警事件的告警特征时,若告警事件与所述偶发告警中的任一告警的事件指纹匹配,则告警事件为偶发告警,若与所述频发告警中的任一告警的事件指纹匹配,则告警事件为频发告警。
(2)事件数量激增特征提取
激增告警是指某个告警事件压缩的原始事件数量激增,超过了特定阈值的告警事件为激增告警事件。不同种类的告警具有不同的特性,有些告警1min产生一次,有些告警每隔几秒触发一次,因此需要根据告警事件的事件指纹分别确定各自的阈值。
激增告警的阈值通过固定阈值和统计挖掘分析得到,在根据过去X1天的历史告警数据所压缩的原始事件数量,确定出第一激增告警阈值后,将该第一激增告警阈值与人为设定的固定激增告警阈值中的最大值确定为激增告警阈值sudden_th,从而在待提取特征的告警事件所包含的事件数量大于sudden_th时,确定该告警事件为激增告警,其告警特征中包括指示事件为激增告警的激增特征。
(3)告警事件周期性发生特征提取
告警的周期性发生特征通过自相关系数进行计算和识别,通过对过去X2天中与待提取特征的告警事件的事件指纹相同的历史告警事件,提取该种告警所包括的原始事件的发生时间,组成时间序列,计算多个相位差下序列的自相关系数,若存在自相关系数超过特定阈值如0.8,则认为该待提取特征的告警事件为周期告警。
(4)事件震荡发生特征提取
获取当前待提取特征的告警事件所关联的原始事件以及恢复事件,并按照事件发生顺序排序,可以使用数字0表示原始事件,数字1表示恢复事件,从而得到对应的0和1组成的序列;然后,识别序列中(0,1)相邻的对数,如图12所述的告警事件对应的序列中共计12个事件,5个(0,1)对;接下来,可以计算(0,1)对应的事件数量占总事件数量的比重,当比重超过一定阈值(如0.7)时认为时振荡告警。如图12中的告警A中(0,1)比重为5*2/12=0.83>0.7,确定告警事件A为振荡告警,告警B告警中(0,1)比重为3*2/13=0.46,确定告警事件B为非振荡告警。
本申请实施例在提取告警事件内容新奇特征时,如图13所示,通过对告警事件对应的告警内容进行分词处理,并分别计算每个分词的IDF值从而获取该告警事件的文本熵,并在告警事件的文本熵大于设定新奇度阈值时,确定该告警事件满足告警事件内容新奇特征。
在告警事件所属的网络系统存在拓扑网络结构的情况下,还可以获取该告警事件的告警节点拓扑特征,告警特征中包括拓扑特征则表示该告警事件涉及到关键拓扑节点,对网络连通具有重要作用,以便于在告警定级时更为准确确定其处理优先级和告警严重程度。具体地,可以通过介数中心性和设定介数中心性阈值评估节点是否为关键拓扑节点,并在节点的介数中心性大于设定介数中心性阈值时确定告警事件具有拓扑特征。
S1030,告警定级策略匹配:基于时序特征、告警事件内容新奇特征、告警节点拓扑特征以及告警事件属性特征等特征信息,预先制定告警定级策略。每个告警定级策略具备告警筛选条件,告警筛选条件中可以基于设置告警特征、属性等信息的过滤条件,如多条特征之间的“和”、“或”关系,从而进行范围的限制和约束,告警特征满足告警筛选条件的告警事件才会执行该告警定级策略。告警定级策略可以根据场景需求和监控对象的不同进行灵活配置和调整,从而适应不同该系统和业务场景的需求。
本申请实施例支持多种告警定级策略的配置,例如针对告警等级的升级策略、降级策略、告警等级的直接设定等。比如说,对于监控系统输出的原始事件包括监控系统设定的告警等级的情况,设置对应的告警等级的升级策略、降级策略,其中升级策略基于告警事件的初始告警等级进行升级处理,降级策略则基于告警事件的初始告警等级进行降级处理。
例如,比如说,对于初始告警等级不为空的情况,若初始告警等级为最低等级,则与升级策略进行匹配,并在匹配成功后进行告警等级的升级;若为最高等级,则可以通过人为干预是否需要与降级策略进行匹配,并在匹配成功后进行告警等级的降级;若为上述两种情况外的初始告警等级,则可以同时与升级策略、降级策略进行匹配,并在匹配成功后确定最高告警等级作为该告警事件的告警等级,并执行对应的升级或降级或维持处理。
示例性地,如图14-1示例性的示出一种基于特征的告警升级策略:当告警特征对应于包含标识告警事件内容新奇特征、告警事件偶发特征、事件数量激增特征的特征标识,如“新奇”、“偶发”、“激增”时,对告警等级进行升级,并设置告警优先级为高;图14-2示例性的示出一种基于特征的告警降级:当告警特征包含标识告警事件频发特征、告警事件周期性发生特征、事件振荡发生特征的信息,如“频发”、“周期”、“振荡”时,对告警等级进行降级,并设置告警优先级为低;图14-3示例性的示出一种基于告警事件属性特征的直接定级:当告警的属性字段“设备标识”包含内容“关键设备”时,直接对告警严重等级设置为“严重”,并设置告警优先级为高。
在本公开实施例中,通过采用先进的数据挖掘和机器学习算法,不断更新用于进行特征提取的特征参数,提升了特征提取的准确性,并且通过提取告警事件的时序特征、新奇特征、拓扑特征等多维度特征信息,与预设的告警定级策略进行匹配,实现了更为准确的告警定级。此外,告警定级策略可以根据特征和需求灵活配置,提升了告警定级方法的应用灵活性和可拓展性。
与前述告警定级方法的实施例相对应,参见图15所示,本申请还提供了告警定级装置的实施例,所述装置包括:
告警事件生成模块1510,用于根据接收的监测系统所生成的原始事件,生成至少一个告警事件;所述原始事件对应用于标识该原始事件的第一事件指纹;第一事件指纹相同的原始事件对应于同一个告警事件;
告警特征提取模块1520,用于针对每个告警事件,按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征;
告警定级策略匹配模块1530,用于根据所述告警事件所包括的告警特征对应的特征标识,确定与所述特征标识相匹配的预设告警定级策略;
告警级别确定模块1540,用于根据所述告警定级策略确定该告警事件的目标告警级别,以根据所述目标告警级别确定该告警事件的处理优先级并响应所述告警事件。
在一些实施例中,告警事件对应于第二事件指纹与所述告警事件所包括的原始事件的第一事件指纹相同;所述告警事件生成模块具体用于:
根据已创建的告警事件的第二事件指纹,确定是否存在包括所述原始事件的目标告警事件;响应于存在所述目标告警事件,根据所述原始事件更新所述目标告警事件,将所述原始事件合并至所述目标告警事件;响应于不存在所述目标告警事件,根据所述原始事件创建新的告警事件。
在一些实施例中,响应于所述设定的不同类型特征包括告警事件偶发特征和告警事件频发特征,所述告警特征提取模块具体用于:
根据不同告警指纹对应的各个历史告警的告警频次,确定第一偶发阈值和第一频发阈值;第二事件指纹相同的第一历史告警事件属于同一历史告警;所述历史告警的告警指纹与其包括的第一历史告警事件的第二事件指纹相同;所述告警频次是指该历史告警包括的第一历史告警事件数量;
根据所述第一偶发阈值和第一频发阈值以及预设的固定阈值,确定偶发告警阈值和频发告警阈值;所述固定阈值包括固定偶发阈值和固定频发阈值;
对所述各个历史告警,将所述告警频次小于所述偶发告警阈值的历史告警确定为偶发告警,将告警频次大于所述频发告警阈值的历史告警确定为频发告警;
依据所述告警事件的第二事件指纹与任一所述偶发告警的告警指纹相匹配,确定所述告警特征包括告警事件偶发特征;依据所述告警事件的第二事件指纹与任一所述频发告警的告警指纹匹配,确定所述告警特征包括告警事件频发特征。
在一些实施例中,响应于所述设定的不同类型特征包括原始事件数量激增特征,所述告警特征提取模块具体用于:
根据各个第二历史告警事件包括的原始事件数量,确定第一激增告警阈值;其中,所述第二历史告警事件是指与所述告警事件的第二事件指纹相匹配的历史告警事件;根据所述第一激增告警阈值与预设的固定激增告警阈值,确定目标激增告警阈值;依据所述告警事件包括的原始事件数量大于所述目标激增告警阈值,确定所述告警特征包括原始事件数量激增特征。
在一些实施例中,所述告警特征提取模块在用于根据第二设定周期内的各个历史告警事件所包括的原始事件的数量,确定第一激增告警阈值时包括:
根据各个第二历史告警事件包括的原始事件数量、以及第二历史告警事件的事件数量,确定第二历史告警事件包括的原始事件数量的平均值以及标准差;
根据所述平均值、标准差以及三西格玛原则,确定所述第一激增告警阈值。
在一些实施例中,响应于所述设定的不同类型特征包括告警事件周期性发生特征,所述告警特征提取模块具体用于:
根据各个第三历史告警事件的发生时间,获取事件发生时间序列;其中,所述第三历史告警事件是指与所述告警事件的第二事件指纹相匹配的历史告警事件;根据周期的自相关系数计算方法,获取不同相位差下所述事件发生时间序列的自相关系数;依据至少存在一个相位差对应的所述自相关系数大于设定系数阈值,确定所述告警特征包括告警事件周期性发生特征。
在一些实施例中,响应于所述设定的不同类型特征包括原始事件振荡发生特征,所述告警特征提取模块具体用于:
获取所述告警事件所包括的各个原始事件、以及与所述原始事件相匹配的恢复事件;按照事件发生顺序,获取由所述原始事件、以及所述恢复事件组成的事件序列;确定所述事件序列中所包括的目标事件组,所述目标事件组包括一个原始事件和与该原始事件相邻的各个恢复事件、且原始事件发生早于相邻的各个恢复事件;确定属于各个所述目标事件组的原始事件与恢复事件的事件占比,依据所述事件占比大于设定比例阈值,确定所述告警特征包括原始事件振荡发生特征。
在一些实施例中,响应于所述设定的不同类型特征包括告警事件内容新奇特征,所述告警特征提取模块具体用于:
将所述告警事件所包括的各原始事件的告警文本内容进行数据预处理,得到至少一个目标分词;根据所述告警事件所包括的各原始事件的事件总数N、以及包含所述目标分词的原始事件的数量M,获取所述目标分词的逆文档频率;根据各个目标分词的逆文档频率、以及所述各原始事件的告警文本内容中目标分词的总数量,获取所述告警事件对应的告警内容的文本熵;依据所述文本熵大于设定新奇度阈值,确定所述告警特征包括告警事件内容新奇特征。
在一些实施例中,响应于所述设定的不同类型特征包括告警节点拓扑特征,所述告警特征提取模块具体用于:获取所述监测系统监测的网络系统对应的拓扑结构;基于所述拓扑结构,获取所述告警事件所关联的拓扑节点的介数中心性;依据所述介数中心性大于设定的介数中心性阈值,确定所述告警特征包括告警节点拓扑特征。
在一些实施例中,在生成至少一个告警事件后,所述装置还包括:
响应于所述告警事件不存在第一告警级别,在所述原始事件包括监测系统设定的告警等级的情况下,根据所述告警等级确定所述告警事件的初始告警级别;在所述原始事件不包括所述告警等级的情况下,确定所述告警事件的初始告警级别为空;
响应于所述告警事件存在第一告警级别,则确定所述告警事件的初始告警级别为所述第一告警级别;其中,所述第一告警级别是指已存在的、待响应处理的告警事件被确定的历史目标告警级别;
所述告警级别确定模块具体用于:获取所述告警事件的初始告警级别、以及所述告警定级策略对应的第二告警级别;响应于所述初始告警级别低于所述第二告警级别,则确定所述目标告警级别为所述第二告警级别;响应于所述初始告警级别高于所述第二告警级别,则确定所述目标告警级别为所述初始告警级别。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请实施例还提供了一种告警定级系统,该告警定级系统包括至少一个处理器和存储器。存储器被配置用于存储有至少一个计算机可执行指令,处理器被配置用于执行该至少一个计算机可执行指令,从而执行如本申请中任意一个实施例或任意一种可选实施方式提供的任意一种告警定级方法的步骤。
本申请实施例还提供了一种电子设备,该电子设备的结构示意图如图16所示,该电子设备1600包括至少一个处理器1601、存储器1602和总线1603,至少一个处理器1601均与存储器1602电连接;存储器1602被配置用于存储有至少一个计算机可执行指令,处理器1601被配置用于执行该至少一个计算机可执行指令,从而执行如本申请中任意一个实施例或任意一种可选实施方式提供的任意一种告警定级方法的步骤。
进一步,处理器1601可以是FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其它具有逻辑处理能力的器件,如MCU(Microcontroller Unit,微控制单元)、CPU(Central Process Unit,中央处理器)。
本申请实施例还提供了另一种可读存储介质,存储有计算机程序,该计算机程序用于被处理器执行时实现本申请中任意一个实施例或任意一种可选实施方式提供的任意一种告警定级方法的步骤。
本申请实施例提供的可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AccessMemory,随即存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读存储介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (13)
1.一种告警定级方法,其特征在于,所述方法包括:
根据接收的监测系统所生成的原始事件,生成至少一个告警事件;所述原始事件对应用于标识该原始事件的第一事件指纹;第一事件指纹相同的原始事件对应于同一个告警事件;
针对每个告警事件,按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征;
根据所述告警事件所包括的告警特征对应的特征标识,确定与所述特征标识相匹配的预设告警定级策略;
根据所述告警定级策略确定该告警事件的目标告警级别,以根据所述目标告警级别确定该告警事件的处理优先级并响应所述告警事件。
2.根据权利要求1所述的方法,其特征在于,告警事件对应于第二事件指纹与所述告警事件所包括的原始事件的第一事件指纹相同;所述根据接收的监测系统所生成的原始事件,生成至少一个告警事件,包括:
根据已创建的告警事件的第二事件指纹,确定是否存在包括所述原始事件的目标告警事件;
响应于存在所述目标告警事件,根据所述原始事件更新所述目标告警事件,将所述原始事件合并至所述目标告警事件;
响应于不存在所述目标告警事件,根据所述原始事件创建新的告警事件。
3.根据权利要求2所述的方法,其特征在于,响应于所述设定的不同类型特征包括告警事件偶发特征和告警事件频发特征,所述按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征,包括:
根据不同告警指纹对应的各个历史告警的告警频次,确定第一偶发阈值和第一频发阈值;第二事件指纹相同的第一历史告警事件属于同一历史告警;所述历史告警的告警指纹与其包括的第一历史告警事件的第二事件指纹相同;所述告警频次是指该历史告警包括的第一历史告警事件数量;
根据所述第一偶发阈值和第一频发阈值以及预设的固定阈值,确定偶发告警阈值和频发告警阈值;所述固定阈值包括固定偶发阈值和固定频发阈值;
对所述各个历史告警,将所述告警频次小于所述偶发告警阈值的历史告警确定为偶发告警,将告警频次大于所述频发告警阈值的历史告警确定为频发告警;
依据所述告警事件的第二事件指纹与任一所述偶发告警的告警指纹相匹配,确定所述告警特征包括告警事件偶发特征;依据所述告警事件的第二事件指纹与任一所述频发告警的告警指纹匹配,确定所述告警特征包括告警事件频发特征。
4.根据权利要求2所述的方法,其特征在于,响应于所述设定的不同类型特征包括原始事件数量激增特征,所述按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征,包括:
根据各个第二历史告警事件包括的原始事件数量,确定第一激增告警阈值;其中,所述第二历史告警事件是指与所述告警事件的第二事件指纹相匹配的历史告警事件;
根据所述第一激增告警阈值与预设的固定激增告警阈值,确定目标激增告警阈值;
依据所述告警事件包括的原始事件数量大于所述目标激增告警阈值,确定所述告警特征包括原始事件数量激增特征。
5.根据权利要求4所述的方法,其特征在于,所述根据第二设定周期内的各个历史告警事件所包括的原始事件的数量,确定第一激增告警阈值,包括:
根据各个第二历史告警事件包括的原始事件数量、以及第二历史告警事件的事件数量,确定第二历史告警事件包括的原始事件数量的平均值以及标准差;
根据所述平均值、标准差以及三西格玛原则,确定所述第一激增告警阈值。
6.根据权利要求2所述的方法,其特征在于,响应于所述设定的不同类型特征包括告警事件周期性发生特征,所述按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征,包括:
根据各个第三历史告警事件的发生时间,获取事件发生时间序列;其中,所述第三历史告警事件是指与所述告警事件的第二事件指纹相匹配的历史告警事件;
根据周期的自相关系数计算方法,获取不同相位差下所述事件发生时间序列的自相关系数;
依据至少存在一个相位差对应的所述自相关系数大于设定系数阈值,确定所述告警特征包括告警事件周期性发生特征。
7.根据权利要求1所述的方法,其特征在于,响应于所述设定的不同类型特征包括原始事件振荡发生特征,所述按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征,包括:
获取所述告警事件所包括的各个原始事件、以及与所述原始事件相匹配的恢复事件;
按照事件发生顺序,获取由所述原始事件、以及所述恢复事件组成的事件序列;
确定所述事件序列中所包括的目标事件组,所述目标事件组包括一个原始事件和与该原始事件相邻的各个恢复事件、且原始事件发生早于相邻的各个恢复事件;
确定属于各个所述目标事件组的原始事件与恢复事件的事件占比,依据所述事件占比大于设定比例阈值,确定所述告警特征包括原始事件振荡发生特征。
8.根据权利要求1所述的方法,其特征在于,响应于所述设定的不同类型特征包括告警事件内容新奇特征,所述按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征,包括:
将所述告警事件所包括的各原始事件的告警文本内容进行数据预处理,得到至少一个目标分词;
根据所述告警事件所包括的各原始事件的事件总数N、以及包含所述目标分词的原始事件的数量M,获取所述目标分词的逆文档频率;
根据各个目标分词的逆文档频率、以及所述各原始事件的告警文本内容中目标分词的总数量,获取所述告警事件对应的告警内容的文本熵;
依据所述文本熵大于设定新奇度阈值,确定所述告警特征包括告警事件内容新奇特征。
9.根据权利要求1所述的方法,其特征在于,响应于所述设定的不同类型特征包括告警节点拓扑特征,所述按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征,包括:
获取所述监测系统监测的网络系统对应的拓扑结构;
基于所述拓扑结构,获取所述告警事件所关联的拓扑节点的介数中心性;
依据所述介数中心性大于设定的介数中心性阈值,确定所述告警特征包括告警节点拓扑特征。
10.根据权利要求1所述的方法,其特征在于,在生成至少一个告警事件后,所述方法还包括:
响应于所述告警事件不存在第一告警级别,在所述原始事件包括监测系统设定的告警等级的情况下,根据所述告警等级确定所述告警事件的初始告警级别;在所述原始事件不包括所述告警等级的情况下,确定所述告警事件的初始告警级别为空;
响应于所述告警事件存在第一告警级别,则确定所述告警事件的初始告警级别为所述第一告警级别;其中,所述第一告警级别是指已存在的、待响应处理的告警事件被确定的历史目标告警级别;
所述根据所述告警定级策略确定该告警事件的目标告警级别,包括:
获取所述告警事件的初始告警级别、以及所述告警定级策略对应的第二告警级别;
响应于所述初始告警级别低于所述第二告警级别,则确定所述目标告警级别为所述第二告警级别;
响应于所述初始告警级别高于所述第二告警级别,则确定所述目标告警级别为所述初始告警级别。
11.一种告警定级装置,其特征在于,所述装置包括:
告警事件生成模块,用于根据接收的监测系统所生成的原始事件,生成至少一个告警事件;所述原始事件对应用于标识该原始事件的第一事件指纹;第一事件指纹相同的原始事件对应于同一个告警事件;
告警特征提取模块,用于针对每个告警事件,按照设定的不同类型特征的提取方式,获取所述告警事件所包括的告警特征;
告警定级策略匹配模块,用于根据所述告警事件所包括的告警特征对应的特征标识,确定与所述特征标识相匹配的预设告警定级策略;
告警级别确定模块,用于根据所述告警定级策略确定该告警事件的目标告警级别,以根据所述目标告警级别确定该告警事件的处理优先级并响应所述告警事件。
12.一种可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-10中任一项所述的告警定级方法。
13.一种告警定级系统,其特征在于,包括:处理器、存储器;
所述存储器,用于存储计算机程序;
所述处理器,用于调用所述计算机程序以实现如权利要求1-10中任一项所述的告警定级方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311425473.1A CN117421188A (zh) | 2023-10-30 | 2023-10-30 | 告警定级方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311425473.1A CN117421188A (zh) | 2023-10-30 | 2023-10-30 | 告警定级方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117421188A true CN117421188A (zh) | 2024-01-19 |
Family
ID=89529875
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311425473.1A Pending CN117421188A (zh) | 2023-10-30 | 2023-10-30 | 告警定级方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117421188A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726193A (zh) * | 2024-02-01 | 2024-03-19 | 创意信息技术股份有限公司 | 城市管理事件干预控制方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017184627A2 (en) * | 2016-04-18 | 2017-10-26 | Nyansa, Inc. | A system and method for network incident identification, congestion detection, analysis, and management |
CN113886182A (zh) * | 2021-09-29 | 2022-01-04 | 深圳市金蝶天燕云计算股份有限公司 | 一种告警收敛方法、装置及电子设备和存储介质 |
CN115766068A (zh) * | 2022-09-27 | 2023-03-07 | 杭州安恒信息技术股份有限公司 | 一种网络安全事件等级分类方法、装置、设备、介质 |
CN116737765A (zh) * | 2023-03-28 | 2023-09-12 | 抖音视界有限公司 | 业务告警信息处理方法、装置、电子设备及存储介质 |
-
2023
- 2023-10-30 CN CN202311425473.1A patent/CN117421188A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017184627A2 (en) * | 2016-04-18 | 2017-10-26 | Nyansa, Inc. | A system and method for network incident identification, congestion detection, analysis, and management |
CN113886182A (zh) * | 2021-09-29 | 2022-01-04 | 深圳市金蝶天燕云计算股份有限公司 | 一种告警收敛方法、装置及电子设备和存储介质 |
CN115766068A (zh) * | 2022-09-27 | 2023-03-07 | 杭州安恒信息技术股份有限公司 | 一种网络安全事件等级分类方法、装置、设备、介质 |
CN116737765A (zh) * | 2023-03-28 | 2023-09-12 | 抖音视界有限公司 | 业务告警信息处理方法、装置、电子设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726193A (zh) * | 2024-02-01 | 2024-03-19 | 创意信息技术股份有限公司 | 城市管理事件干预控制方法、装置、设备及存储介质 |
CN117726193B (zh) * | 2024-02-01 | 2024-05-14 | 创意信息技术股份有限公司 | 城市管理事件干预控制方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Aggarwal et al. | Event detection in social streams | |
CN109189736B (zh) | 一种告警关联规则的生成方法和装置 | |
CN108809745A (zh) | 一种用户异常行为检测方法、装置及系统 | |
CN107517216B (zh) | 一种网络安全事件关联方法 | |
CN111309565B (zh) | 告警处理方法、装置、电子设备以及计算机可读存储介质 | |
CN111010291B (zh) | 业务流程异常告警方法、装置、电子设备及存储介质 | |
US11966319B2 (en) | Identifying anomalies in a data center using composite metrics and/or machine learning | |
US20140215612A1 (en) | Method and system for detecting anomaly of user behavior in a network | |
CN117421188A (zh) | 告警定级方法、装置、设备及可读存储介质 | |
CN112769605B (zh) | 一种异构多云的运维管理方法及混合云平台 | |
CN104487989A (zh) | 自主网络哨兵 | |
He et al. | Large-scale IP network behavior anomaly detection and identification using substructure-based approach and multivariate time series mining | |
KR20210115991A (ko) | 시계열 데이터 분석을 이용한 네트워크 이상징후 탐지 방법 및 장치 | |
CN112328425A (zh) | 一种基于机器学习的异常检测方法和系统 | |
CN113723452A (zh) | 一种基于kpi聚类的大规模异常检测系统 | |
CN115561546A (zh) | 电力系统异常检测报警系统 | |
CN113297042B (zh) | 一种告警消息的处理方法、装置及设备 | |
CN107590008B (zh) | 一种通过加权熵判断分布式集群可靠度的方法和系统 | |
Sen et al. | Towards an approach to contextual detection of multi-stage cyber attacks in smart grids | |
Liu et al. | Big Data architecture for IT incident management | |
Dagdeviren et al. | Distributed detection of critical nodes in wireless sensor networks using connected dominating set | |
CN109634808B (zh) | 一种基于关联分析的链式监控事件根因分析方法 | |
CN114866396B (zh) | 基于文本相似度的实现资源不准下网络故障定位的方法 | |
Li et al. | Microservice anomaly detection based on tracing data using semi-supervised learning | |
CN114548769B (zh) | 一种智能电网it资产大数据监测系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |