CN114461792A - 告警事件关联方法、装置、电子设备、介质及程序产品 - Google Patents

告警事件关联方法、装置、电子设备、介质及程序产品 Download PDF

Info

Publication number
CN114461792A
CN114461792A CN202111602046.7A CN202111602046A CN114461792A CN 114461792 A CN114461792 A CN 114461792A CN 202111602046 A CN202111602046 A CN 202111602046A CN 114461792 A CN114461792 A CN 114461792A
Authority
CN
China
Prior art keywords
similarity
alarm event
cluster
alarm
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111602046.7A
Other languages
English (en)
Inventor
董善东
徐彤
张江宇
吴宗泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202111602046.7A priority Critical patent/CN114461792A/zh
Publication of CN114461792A publication Critical patent/CN114461792A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例涉及一种告警事件关联方法、装置、电子设备、介质及程序产品,其中,该告警事件关联方法包括:获取待关联告警事件;基于待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对待关联告警事件进行流式聚类,以将待关联告警事件关联到目标聚簇;其中,每个聚簇中的代表元为相应聚簇中的一个告警事件,目标相似度包括:文本内容相似度,和/或,指标数据相似度。本公开实施例基于文本内容相似度和/或指标数据相似度,对待关联告警事件与每个聚簇中的代表元之间的相似性进行度量,并对待关联告警事件进行实时聚类,可以有效提升关联效果和聚类效果。

Description

告警事件关联方法、装置、电子设备、介质及程序产品
技术领域
本公开涉及运维技术领域,尤其涉及一种告警事件关联方法、装置、电子设备、介质及程序产品。
背景技术
随着网络规模逐渐扩大、网络架构日益复杂,网络在运行时每天都会产生海量的告警事件。通常来说,告警事件不会单独发生,告警事件之间存在着一定的先后顺序和因果关系。那么当出现了告警事件之后,如何把相关的告警事件关联到一起,以方便从繁杂的多个告警事件中快速的分析问题,定位问题。
目前,现有技术基于告警事件字段的相同或者相似进行关联的方案,可以简单快速的确定出哪些事件是关联的。但是在规模大,复杂化的系统中,存在部分内容相似但不相关的告警事件,因此通过单一字段的相似来衡量告警事件之间的相关性的效果较差。
如此,如何准确关联规模大,复杂化的系统中种类繁多且重复的告警事件,仍是亟需解决的问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种告警事件关联方法、装置、电子设备、介质及程序产品。
第一方面,本公开实施例提供了一种告警事件关联方法,包括:
获取待关联告警事件;
基于所述待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对所述待关联告警事件进行流式聚类,以将所述待关联告警事件关联到目标聚簇;
其中,所述每个聚簇中的代表元为相应聚簇中的一个告警事件,所述目标相似度包括:文本内容相似度,和/或,指标数据相似度。
第二方面,本公开实施例还提供了一种告警事件关联装置,该装置包括:获取模块和聚类模块;
所述获取模块,用于获取待关联告警事件;
所述聚类模块,用于基于所述待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对所述待关联告警事件进行流式聚类,以将所述待关联告警事件关联到目标聚簇;
其中,所述每个聚簇中的代表元为相应聚簇中的一个告警事件,所述目标相似度包括:文本内容相似度,和/或,指标数据相似度。
第三方面,本公开实施例还提供了一种电子设备,所述电子设备包括:存储器和处理器;存储器,用于存储所述处理器可执行指令;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现本公开实施例提供的任一所述的告警事件关联方法。
第四方面,本公开实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本公开实施例提供的任一所述的告警事件关联方法。
第五方面,本公开实施例还提供了一种计算机程序产品,所述计算机程序产品用于执行本公开实施例提供的任一所述的告警事件关联方法。
本公开实施例提供的技术方案与现有技术相比至少具有如下优点:在本公开实施例中,通过基于待关联告警事件与至少一个聚簇中的每个聚簇中的代表元(相应聚簇中的一个告警事件)的文本内容相似度和/或指标数据相似度,对待关联告警事件进行流式聚类(实时聚类算法),以将待关联告警事件关联到目标聚簇。一方面,可以从待关联告警事件的文本内容和/或产生事件的源(指标数据)角度,对待关联告警事件与每个聚簇中的代表元之间的相似性进行度量,可以更全面、更大程度的挖掘出关联的事件,有效提升关联效果;一方面,采用了实时性较高的实时相似聚类算法(流式聚类)对待关联告警事件进行聚类,可以提高对待关联告警事件的聚类效果。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。
图1为本公开实施例提供的一种告警事件关联方法的流程示意图;
图2为本公开实施例提供的一种文本预处理示意图;
图3为本公开实施例提供的另一种告警事件关联方法的流程示意图;
图4为本公开实施例提供的另一种告警事件关联方法的流程示意图;
图5为本公开实施例提供的一种告警事件关联装置的结构示意图;
图6为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
下面首先对本公开的权利要求书和说明书中涉及的一些名词或者术语进行解释说明。
事件:事件包含0-1事件和指标事件。其中,0-1事件往往有系统/任务的硬逻辑产生,如机器重启,数据库down机等。其中,指标事件则是通过指标设定的告警规则产生,例如CPU使用率大于80%。
故障定位:是指当发现了故障或者异常之后,可以定位到具体哪个维度(比如哪个地区、哪个用户)中的元素出现了异常,从而可以帮助运维人员快速定位到异常元素,进行恢复、重启等决策类操作。
标记化(Tokenization):是计算机科学中将字符序列转换为标记(token)序列的过程。从输入字符流中生成标记的过程叫做标记化(tokenization),在这个过程中,词法分析器还会对标记进行分类。
词形还原(Lemmatization):是文本预处理中的重要部分,与词干提取(stemming)很相似。简单说来,词形还原就是去掉单词的词缀,提取单词的主干部分,通常提取后的单词会是字典中的单词,不同于词干提取(stemming),提取后的单词不一定会出现在单词中。
时间序列:指的是一组按照时间发生先后顺序进行排列的数据点序列。通常一组时间序列的时间间隔为一个恒定值(如1秒钟,1分钟,5分钟等)。本公开实施例所提到的时间序列主要指监督类的时间序列,即时间序列中的每个数据点为监督数据点。
在各大互联网公司里面,通常都会对成千上万的任务指标,服务器指标,或者流量指标进行监督,从而保证整个系统的稳定性。但是在对这些指标时间序列进行监督的同时,每天就会产生很多告警事件,这种可以归类为是指标表现异常,触发检测规则/智能检测发出的告警事件。除了针对指标异常的告警事件外,ecs/k8s等底层资源还有一些预设的规则发出的告警事件,这种一般被称为是0-1事件,比如机器重启,ping不可达等事件。通常来说,告警事件不会单独发生,而是有着一定的先后顺序和因果关系。那么当出现了告警之后,如何把相关的告警关联到一起,实现关联挖掘和合并展示的效果,则是帮助用户/运维开发同学减少告警叨扰,快速关联和定位问题的关键所在。
目前,一种现有方案是按照字段进行相同或者正则匹配相似的规则方案,具体位置按照事件的某一属性字段内容,进行相同或者相似(正则匹配)的规则设定。如果相同或者相似,则表示可以关联在一起。一般而言,实现了时间/字段的合并去重,可以避免了大量的重复事件,事件数量可以快速的降低。但是在复杂的系统中,出现大量不重复的事件,和部分字段类似但不完全一样的事件,则没办法通过时间/字段合并去重来解决。但是,该基于字段的相同或者相似关联的方案一般情况下可以简单快速的关联出哪些事件是类似的。但是在规模大,复杂化的系统中,如云上服务的典型画像一般会表现为百千的vpc/容器pod,数百的中间件应用等组成的微服务应用的背景下,事件的所有内容是相似但不相同,且通过单一字段来衡量相似性效果往往达不到预期,事件整体的相似性提取往往存在很大的困难。
另一种现有的方案是从历史告警事件中,通过关联挖掘算法如Apriori,FP-Growth Tree等算法方案,挖掘经常在一起出现的事件。经常一起出现,则表示这些事件可能是相关的。具体地,该方案基于分支筛选优化策略和Apriori算法:依次读取数据库里的每个事务项,并生成与每个事务项相对应的支持度计算支撑数组;在Apriori算法的基础上,执行分支筛选优化策略,生成频繁项集;在频繁项集和支持度计算支撑数组的基础上,执行关联规则的置信度计算,在最小置信度约束下,得到有效的关联规则。本发明通过构建支持度计算支撑数组,简化了支持度的计算,大大减少了读取数据库的次数,提高了算法效率;通过构建邻接字典链表,可以动态发现满足支持度要求的二项频繁集,提供了分支筛选优化策略的执行基础;动态删除无效分支,快速生成二项频繁集,提高了算法效率。然而由于该方案是通过对历史的关联性进行挖掘分析,通过频繁项挖掘的关联算法挖掘出经常在一起出现的告警事件,会存在以下实际使用中的问题:IT系统每天都在发生一定程度的变化,因此有很多偶尔出现或者偶然出现的告警事件,这些事件更值得去进行关联分析,但是通过历史挖掘的方案有比较大的延后性,导致没法去匹配这些偶然出现的异常事件。这是由于对于历史上一起出现次数较少的关联告警事件,该方案无法正确关联。
为了解决上述技术问题,本公开实施例提供了一种告警事件关联方法。在本公开实施例中,通过基于待关联告警事件与至少一个聚簇中的每个聚簇中的代表元(相应聚簇中的一个告警事件)的文本内容相似度和/或指标数据相似度,对待关联告警事件进行流式聚类(实时聚类算法),以将待关联告警事件关联到目标聚簇。一方面,可以从待关联告警事件的文本内容和/或产生事件的源(指标数据)角度,对待关联告警事件与每个聚簇中的代表元之间的相似性进行度量,可以更全面、更大程度的挖掘出关联的事件,有效提升关联效果;一方面,采用了实时性较高的实时相似聚类算法(流式聚类)对待关联告警事件进行聚类,可以提高对待关联告警事件的聚类效果。
可选地,本申请实施例提供的告警事件关联方法可以应用于任意应用性能管理类监督产品中,借助该应用性能管理类监督产品可以基于前端、应用、任务自定义等维度,迅速便捷地为企业构建秒级响应的应用监督能力。本申请实施例提供的告警事件关联方法还可以应用于针对变更、配置、事件的管理流程和软件服务的互联网技术服务管理中,向用户提供设计、交付、管理和改善等所有IT服务的过程,致力于使IT流程和服务与任务目标保持一致,从而帮助组织更好地发展。
图1为本公开实施例提供的一种告警事件关联方法的流程示意图,可以适用于对待关联告警事件进行实时关联的情况。该告警事件关联方法可以由告警事件关联装置执行,该装置可以采用软件和/或硬件实现,并可集成在任意具有计算能力的电子设备上。
如图1所示,本公开实施例提供的告警事件关联方法可以包括:
S101、获取待关联告警事件。
可以理解,告警事件关联装置实时接收该待关联告警事件,或者,告警关联装置实时接收告警事件后,并对告警事件进行预设处理得到待关联告警事件,具体可以根据实际情况确定,本公开实施例不做限定。
S102、基于该待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对该待关联告警事件进行流式聚类,以将该待关联告警事件关联到目标聚簇。
其中,该每个聚簇中的代表元为相应聚簇中的一个告警事件,该目标相似度包括:文本内容相似度,和/或,指标数据相似度。
可选地,该每个聚簇中的代表元可以为相应聚簇中的任意一个告警事件,该每个聚簇中的代表元可以为相应聚簇中的第一个告警事件,该每个聚簇中的代表元可以为相应聚簇中的最后一个告警事件,该每个聚簇中的代表元为相应聚簇中具备最共性的告警事件(即每一个告警事件与其他每个告警事件的第一相似度之和中最大的告警事件,对第一相似度的描述可以参见下述S403a的相关描述,此处不再赘述),该每个聚簇中的代表元还可以为其他可行性的相应聚簇中的一个告警事件,具体可以根据实际情况确定,本公开实施例不做限定。本公开下面实施例中,以每个聚簇中的代表元为相应聚簇中的第一个告警事件为例进行示例性说明。
可以理解,告警事件关联装置基于该待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的文本内容相似度和/或指标数据相似度,对该待关联告警事件进行流式聚类,以将该待关联告警事件关联到目标聚簇。对于待关联的告警事件,将其与现有的告警事件(每个聚簇中的代表元)进行相似度的比较,基于目标相似度实现对待关联告警事件的关联。
可选地,告警事件关联装置基于该待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的文本内容相似度和指标数据相似度,对该待关联告警事件进行流式聚类,以将该待关联告警事件关联到目标聚簇,包括,在待关联告警事件与一个聚簇中的代表元的文本内容相似度和指标数据相似度满足目标条件时,将待关联告警事件关联到该一个聚簇。
其中,目标条件为以下至少一项:文本内容相似度大于或等于文本相似阈值,指标数据相似度大于或等于指标相似阈值,文本内容相似度和指标数据相似度的归一化值大于或等于归一化阈值。目标条件还可以为其他可行性条件,具体可以根据实际情况确定,本公开实施例不做限定。
本公开实施例中,从待关联告警事件的文本内容和/或产生事件的源(指标数据)角度,对待关联告警事件与每个聚簇中的代表元之间的相似性进行度量,可以更全面的得到告警事件与告警事件之间的相似性,可以更全面、更大程度的挖掘出关联的事件,有效提升关联效果;采用了实时性较高的实时相似聚类算法(流式聚类)对待关联告警事件进行聚类,可以提高对待关联告警事件的聚类效果,通过相似算法的赋能,可以实现实时的告警事件关联分析,时效性好。因此本方案通过算法挖掘出了关联的事件,无需用户/运维人员再自己去手工关联,便于从繁杂的多个告警事件中快速的分析问题,定位问题。
可选地,告警事件关联装置基于该待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的文本内容相似度和指标数据相似度,对该待关联告警事件进行流式聚类,以将该待关联告警事件关联到目标聚簇,具体包括以下四种可能的情况。
第一种可能的情况,在该待关联告警事件与第一聚簇中的代表元的文本内容相似度大于或等于文本相似度阈值(即文本相似),且该待关联告警事件与第一聚簇中的代表元的指标数据相似度小于指标相似度阈值(即指标不相似)的情况下,该目标聚簇为第一聚簇。
可以理解,待关联告警事件与第一聚簇中的代表元文本相似,指标不相似,可以将待关联告警事件关联到第一聚簇。
第二种可能的情况,在该待关联告警事件与第二聚簇中的代表元的指标数据相似度大于或等于指标相似度阈值(即指标相似),且该待关联告警事件与第二聚簇中的代表元的文本内容相似度小于文本相似度阈值(即文本不相似)的情况下,该目标聚簇为第二聚簇。
可以理解,待关联告警事件与第二聚簇中的代表元指标相似,文本不相似,可以将待关联告警事件关联到第二聚簇。
第三种可能的情况,在该待关联告警事件与第三聚簇中的代表元的文本内容相似度大于或等于文本相似度阈值(即文本相似),且该待关联告警事件与第三聚簇中的代表元的指标数据相似度大于或等于指标相似度阈值(即指标相似)的情况下,该目标聚簇为第三聚簇。
可以理解,待关联告警事件与第三聚簇中的代表元指标相似,文本也相似,可以将待关联告警事件关联到第三聚簇。
第四种可能的情况,在该待关联告警事件与该每个聚簇中的代表元的文本内容相似度均小于文本相似度阈值(即文本不相似),且该待关联告警事件与该每个聚簇中的代表元的指标数据相似度均小于指标相似度阈值(即指标不相似)的情况下,该目标聚簇为该至少一个聚簇之外的聚簇,且该待关联告警事件为该目标聚簇的代表元。
可以理解,待关联告警事件与第三聚簇中的代表元指标不相似,文本也不相似,即待关联告警事件与该至少一个聚簇均不存在关联关系,将待关联告警事件关联到一个新的聚簇中,该一个新的聚簇为该至少一个聚簇之外的聚簇,待关联告警事件为该一个新的聚簇中的第一个告警事件,因此待关联告警事件为该一个新的聚簇中的代表元。
其中,文本相似度阈值、指标相似度阈值可以是预设的(默认的),也可以是用户手动设定的,具体可以根据实际情况确定,本公开实施例不做限定。
可选地,针对不同的聚簇,文本相似度阈值、指标相似度阈值可以相同,也可以不相同,具体可以根据实际情况确定,本公开实施例不做限定。
本公开实施例中,根据文本内容相似度和指标数据相似度中的至少一个,将待关联告警事件关联到目标聚簇。若目标聚簇为该至少一个聚簇中的一个,则待关联告警事件与目标聚簇中的代表元文本相似且指标不相似,或者待关联告警事件与目标聚簇中的代表元指标相似且文本不相似,或者待关联告警事件与目标聚簇中的代表元文本相似且指标相似;若目标聚簇为除该至少一个聚簇之外的聚簇,则待关联告警事件与该至少一个聚簇中每个聚簇的代表元均文本不相似且指标不相似。本公开实施例中,结合待关联告警事件与已有告警事件(每个聚簇中的代表元)的文本数据相似度和指标数据相似度,从不同角度对待关联告警事件进行聚类分析,并根据聚类结果将待关联告警事件关联到目标聚类,提高了关联效果和聚类效果。
在上述技术方案的基础上,可选地,上述S102具体可以通过下述S102a实现。
S102a、基于待关联告警事件与每个聚簇中的代表元的目标相似度,通过目标聚类算法对待关联告警事件进行流式聚类,以将待关联告警事件关联到目标聚簇。
其中,目标聚类算法为以下任一项:一趟聚类算法,K-Means聚类算法,层次聚类。该目标聚类算法还可以为其他的实时聚类算法,具体可以根据实际情况确定,本公开实施例不做限定。
可选地,在上述S102之前,本公开实施例提供的告警事件关联方法可以获取待关联告警事件与每个聚簇中的代表元的文本内容相似度,和/或,获取待关联告警事件与每个聚簇中的代表元的指标数据相似度,具体可以根据实际情况确定,本公开实施例不做限定。本公开下面实施例中,在上述S102之前,获取待关联告警事件与每个聚簇中的代表元的文本内容相似度,和,获取待关联告警事件与每个聚簇中的代表元的指标数据相似度为例进行示例性说明。
示例性地,在上述S102之前,本公开实施例提供的告警事件关联方法还可以包括下述S103和S104。
S103、获取待关联告警事件与每个聚簇中的代表元的文本内容相似度。
S104、获取待关联告警事件与每个聚簇中的代表元的指标数据相似度。
在上述技术方案的基础上,可选地,上述S103具体可以通过下述S103a至S103b实现。
S103a、对该待关联告警事件进行文本预处理,得到用于指示该待关联告警事件对应的最小粒度的词向量的目标集合。
可以理解,文本预处理用于获取待关联告警事件的最小粒度的词向量的目标集合。
其中,文本预处理的具体方法与流程可以参考现有相关技术,本申请实施例不做限定。
示例性地,如图2所示,文本预处理的流程可以包括清洗、中文切词、标记化、停顿词(stop words)过滤、词形还原。其中,清洗可以包括将英文字符的大小写统一(例如将英文字符的大小写统一为小写),以及特殊符号的处理等。中文切词采用了jieba算法库实现中文的切词步骤,例如:原文“监督告警发送”,经过切词后,变为“监督”、“告警”、“发送”三个词。标记化具体为针对切词后的词语,可以做为哈希的token,以便于后续统计每个词的词频信息。stop words过滤具体为针对词语中存在的一些停顿词(即无意义词)进行过滤操作,比如过滤英文中的“to”,“a”、中文中的“到了”等停顿词。词型还原主要是针对英文中存在比较多的单复数、不同词结构做还原,例如:containers,还原为container。
S103b、基于文本相似度量算法,确定该目标集合与用于指示每个聚簇中的代表元对应的最小粒度的词向量的集合的相似度,以得到该待关联告警事件与每个聚簇中的代表元的文本相似度。
可选地,文本相似度量算法可以为杰卡德(Jacard)相似度算法、shingle算法、I-match算法等,具体可以根据实际情况确定,本公开实施例不做限定。
示例性地,以文本相似度量算法为Jacard相似度算法为例,Jacard相似度一般被用来度量两个集合之间的差异大小。假设我们有两个集合,分别为集合A和集合B,那么二者的Jacard相似度算法为:
Figure BDA0003433318920000091
该相似性度量算法的思想比较简单,即两个集合共有的元素越多,二者越相似。本公开实施例中,通过将待关联告警事件进行文本预处理,将待关联告警事件的文本内容切分成最小粒度的词向量,得到待关联告警事件的词向量的目标集合(记为集合A),同样对每个聚簇的代表元也进行文本预处理,将每个聚簇的代表元的文本内容切分成最小粒度的词向量,得到每个聚簇的代表元的词向量的集合(记为集合B),通过Jacard相似度算法,分别计算待关联告警事件的词向量的目标集合与每个聚簇的代表元的词向量的集合的文本内容相似度。
需要说明的是,可以实时将每个聚簇的代表元的文本内容切分成最小粒度的词向量,即在计算待关联告警事件的词向量的目标集合与每个聚簇的代表元的词向量的集合的文本内容相似度之前,将每个聚簇的代表元的文本内容切分成最小粒度的词向量;也可以保存第一次对每个聚簇的代表元的文本内容切分成最小粒度的词向量,后续使用时获取之前保存的每个聚簇的代表元的文本内容切分成最小粒度的词向量;具体可以根据实际情况确定,本申请实施例不做限定。
本公开实施例中,通过对待关联告警事件进行文本预处理、基于文本相似度量算法,计算文本预处理后的待关联告警事件与每个聚簇的代表元的文本内容相似度,可以快速准确地确定待关联告警事件与每个聚簇的代表元的文本内容相似度,可以提高文本内容相似度的计算效率。
在上述技术方案的基础上,可选地,上述S104具体可以通过下述S104a至S104b实现。
S104a、对该待关联告警事件进行时间序列预处理,得到该待关联告警事件对应的目标时间序列集合。
其中,时间序列预处理主要包括:对指标数据中的None值、非数值进行处理;以及做最小最大值归一化,使得整个时间序列处于0-1的有效范围内。
S104b、基于时间序列相似性算法,确定该目标时间序列集合与每个聚簇中的代表元对应的时间序列集合的相似度,以得到该待关联告警事件与每个聚簇中的代表元的指标数据相似度。
可选地,时间序列相似性算法可以为Pearson系数算法、欧式距离算法,DTW距离算法,LB_Keogh距离算法等算法,具体可以根据实际情况确定,本公开实施例不做限定。
示例性地,以时间序列相似性算法为Pearson系数算法为例,假设对待关联告警事件进行时间序列预处理之后,得到目标时间序列集合,记为X=(x1,x2,…,xn),对每个聚簇的代表元进行时间序列预处理之后,得到相应时间序列集合,记为Y=(y1,y2,...,yn),则对于两条时间序列集合X=(x1,x2,…,xn)和Y=(y1,y2,...,yn)而言,可以根据以下公式来计算X与Y之间的Pearson相似度,公式为
Figure BDA0003433318920000101
其中rxy越接近1,表示X与Y是正相关的,表示它们之间越相似;rxy越接近-1,表示X与Y的反相关的。
可选地,该待关联告警事件的发生时间与该目标聚簇中的代表元的发生时间的时间间隔小于或等于间隔阈值。
其中,间隔阈值可以是预设的,也可以是用户手动设置的,具体可以根据实际情况确定,本公开实施例不做限定。
可以理解,每个聚簇中的任意一个告警事件的发生时间与相应的聚簇中的代表元的发生时间的时间间隔均间隔阈值,也就是说,每个聚簇中的所有告警事件发生在关联时间范围内。关联时间范围是与以该聚簇中第一个告警事件的发生时间为起点,间隔阈值为时长的时间段,因此,关联时间范围可以是预设的,也可以是用户手动设置的,具体可以根据实际情况确定,本公开实施例不做限定。间隔阈值和关联时间范围确定一个即可确定另一个。
可选地,针对不同的聚簇,间隔阈值(或关联时间范围)可以相同,也可以不相同,具体可以根据实际情况确定,本公开实施例不做限定。
需要说明的是,可以实时对每个聚簇的代表元进行时间序列预处理得到相应事件序列集合,即在计算待关联告警事件的目标时间序列集合与每个聚簇的代表元的时间序列集合的指标数据相似度之前,对每个聚簇的代表元进行时间序列预处理得到相应时间序列集合;也可以保存第一次对每个聚簇的代表元进行时间序列预处理得到相应时间序列集合,后续使用时获取之前保存的每个聚簇的代表元的时间序列集合;具体可以根据实际情况确定,本申请实施例不做限定。
本公开实施例中,通过对待关联告警事件进行时间序列预处理、基于时间序列相似性算法,计算时间序列预处理后的待关联告警事件与每个聚簇的代表元的指标数据相似度,可以快速准确地确定待关联告警事件与每个聚簇的代表元的指标数据相似度,可以提高指标数据相似度的计算效率。
在上述技术方案的基础上,可选地,上述S101具体可以包括下述S101a至S101b。
S101a、接收告警事件。
S101b、从文本内容和指标数据两个方面,对该告警事件进行富化处理,得到该待关联告警事件。
可以理解,告警事件关联装置接收到新的告警事件后,首先对告警事件进行富化处理,具体的可以从文本内容(告警事件内容的关联扩展)方面和指标数据(指标数据的关联扩展)方面对该告警事件进行富化处理,得到待关联告警事件。
其中,从文本内容对该告警事件进行富化处理可以包括:根据事件内容中的一些账号(编码)(identity document,id)、地区等信息,结合配置管理数据库(ConfigurationManagement Database,CMDB),可以关联其更多的多维度信息,例如,告警事件为cpu指标异常事件,进行富化处理后可以关联出当前产生cpu异常的机器信息(网际互连协议(Internet Protocol,ip)地址,地区,机房,机架,运维组,运维负责人)等。
其中,从指标数据方面对该告警事件进行富化处理可以包括:对于由指标数据异常产生的事件,可以从事件内容中关联出产生当前事件的指标名称,拉取其对应的指标数据,用于后续的指标相似计算。对于ecs/k8s设定产生的0-1事件(如机器重启,ping不可达等),则可以拉取产生事件ecs/k8s的基础指标(如cpu,内存,io等)为后续关联的指标。
可以理解,通过对告警事件内容的富化(在事件内容中,提取出调用链(Trace)数据),拉取当前事件的trace id信息,从而获取在前后一段时间范围内,都包含挖掘出的trace id信息的事件。如果他们具备相同的trace id,说明这一系列事件是由应用调用的上下游产生,这些事件天然存在着一些相关性。再结合事件内容的关联挖掘,从而得到哪些事件是真实关联的。
分布式系统中通过埋点等方式可以把其中的调用关系记录下来。当某个系统的指标/事件规则出现异常告警事件的时候,对应着这个系统应该是调用/被调用的行为,那告警事件对应时刻的调用链路,可以帮助进行问题的定位。
本公开实施例中,通过对接收到的告警事件进行富化处理,从文本内容和指标数据两个方面对告警事件进行扩展,得到待关联告警事件,有利于对待关联告警事件进行后续的目标相似度计算和流式聚类处理,可以提高关联效果和关联效率。
图3为本公开实施例提供的另一种告警事件关联方法的流程示意图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。如图3所示,本公开实施例提供的告警事件关联方法可以包括:
S301、获取待关联告警事件。
S302、基于该待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对该待关联告警事件进行流式聚类,以将该待关联告警事件关联到目标聚簇。
其中,对上述S301和S302的具体描述可以参考对上述S101和S102的相关描述,此处不再赘述。
S303、保存该待关联告警事件与该目标聚簇中的代表元的相似原因。
其中,在该目标聚簇为第一聚簇的情况下,该相似原因为文本相似,在该目标聚簇为第二聚簇的情况下,该相似原因为指标相似,在该目标聚簇为第三聚簇的情况下,该相似原因为文本相似和指标相似。
可选地,在该目标聚簇为该至少一个聚簇之外的聚簇的情况下,相似原因为无,或相似原因为文本相似和指标相似(因为待关联告警事件与其本身是文本相似和指标相似的),或相似原因为文本相似(此种情况下待关联告警事件不存在指标数据)。
本公开实施例中,在将待关联告警事件关联到目标聚簇的情况下,记录待关联告警事件与该目标聚簇中的代表元的相似原因,可以在后续为用户展示时,展示相似原因,从而便于用户清晰的了解到当前展示的多个告警事件关联的原因是什么,可以提高整体可解释性,便于用户进行告警分析、异常分析等。
图4为本公开实施例提供的另一种告警事件关联方法的流程示意图,基于上述技术方案进一步优化与扩展,并可以与上述各个可选实施方式进行结合。如图4所示,本公开实施例提供的告警事件关联方法可以包括:
S401、获取待关联告警事件。
S402、基于该待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对该待关联告警事件进行流式聚类,以将该待关联告警事件关联到目标聚簇。
其中,对上述S401和S402的具体描述可以参考对上述S101和S102的相关描述,此处不再赘述。
S403、在该目标聚簇包括多个告警事件的情况下,对该多个告警事件进行排序。
S404、显示排序后的该多个告警事件。
可选地,可以基于告警事件的时间信息对每个聚簇中的多个告警事件进行排序,也可以基于每一个告警事件与其他每个告警事件的预设相似度之和,对每个聚簇中的多个告警事件进行排序,还可以基于其他可行性规则对每个聚簇中的多个告警事件进行排序,具体可以根据实际情况确定,本公开实施例不做限定。
需要说明的是,告警事件关联装置对待关联告警事件进行关联之后,可以自动对该多个告警事件进行排序并显示,也可以响应用户输入对该多个告警事件进行排序并显示,也可以自动对该多个告警事件进行排序并保存,响应于用户输入显示排序后的该多个告警事件,具体可以根据实际情况确定,此处不做限定。
本公开实施例中,通过对多个告警事件进行排序并显示,可以便于用户对目标聚簇中的多个告警事件进行分析对比。
在上述技术方案的基础上,可选地,上述S403具体可以包括下述S403a实现。
S403a、基于每一个告警事件与其他每个告警事件的第一相似度之和,对该多个告警事件进行排序。
其中,第一相似度为以下任一项:文本内容相似度,指标数据相似度,归一化后的文本内容相似度和归一化后的指标数据相似度之和。
其中,其他每个告警事件为所述多个告警事件中除所述每一个告警事件之外的每个告警事件。
可以理解,本公开实施例中,可以基于每一个告警事件与其他每个告警事件的文本内容相似度之和,对该多个告警事件进行排序;也可以基于每一个告警事件与其他每个告警事件的指标数据相似度之和,对该多个告警事件进行排序;也可以基于每一个告警事件与其他每个告警事件之间归一化后的文本内容相似度和归一化后的指标数据相似度之和的和,对该多个告警事件进行排序。
本公开实施例中,基于每一个告警事件与其他每个告警事件的预设相似度之和,对该多个告警事件进行排序,即基于预设相似度确定的目标聚簇中的每个告警事件的重要性进行排序,把最重要的告警事件展示在前面(顶部),然后其他告警事件依次排序展示,便于用户对目标聚簇中的该多个告警事件的分析处理。
在上述技术方案的基础上,可选地,上述S403a具体可以包括下述S403a1至S403a2实现。
S403a1、将每一个告警事件与其他每个告警事件的第一相似度之和中最大的作为排序后的第一个告警事件。
S403a2、将其他告警事件按照与该排序后的第一个告警事件的第二相似度从大到小排序。
其中,第二相似度为以下任一项:文本内容相似度,指标数据相似度,归一化后的文本内容相似度和归一化后的指标数据相似度之和。
其中,第二相似度与第一相似度可以相同,也可以不相同,本申请实施例不做限定。
可以理解,本公开实施例中,可以基于其他每一个告警事件与排序后的第一个告警事件的文本内容相似度,对其他告警事件进行排序;也可以基于其他每一个告警事件与排序后的第一个告警事件的指标数据相似度,对其他告警事件进行排序;也可以基于其他每一个告警事件与排序后的第一个告警事件之间归一化后的文本内容相似度和归一化后的指标数据相似度之和,对其他告警事件进行排序。
可以理解,将每一个告警事件与其他每个告警事件的第一相似度之和中最大的作为排序后的第一个告警事件,即将目标聚簇中的多个告警事件中具备最共性的告警事件排在最前面(顶部),即将重要性最高的排在最前面,将其他告警事件按照与该排序后的第一个告警事件的第二相似度从大到小排序,可以确定其他告警事件中每个告警事件与第一个告警事件的相似程度,相似程度越大,重要性越高。如此,可以按照重要性对目标聚簇中的多个告警事件进行排序。
需要说明的是,本公开实施例中,可以按照目标聚簇中多个告警事件的排序规则,对每一个聚簇中的多个告警事件进行排序,也可以按照不同的规则(具体规则可以是预设的,也可以是用户指定的),对每一个聚簇中的多个告警事件进行排序,此处不做限定。
示例性地,每一个聚簇中可能只存在一个告警事件,也有可能存在多个告警事件。因此除了把相关的告警事件关联(聚类)到一起后,还要对每一个聚簇中的所有告警事件进行排序。假设一个聚类ID有n个告警事件,分别为alert1,……,alert n,那么可以计算出每一个告警事件(alert i)到其余告警事件的第一相似度之和(即sumi=simi(alert i—alert 1)+simi(alert i-alert 2)+……+simi(alert i-alert(i-1)+simi(alert i-alert(i+1)))+……+simi(alert i-alert n),其中,sumi表示alert i到其余告警事件的相似度之和,simi(alert i—alert1)表示alert i到alert1的相似度,simi(alert i-alert2)表示alert i到alert2的相似度,simi(alert i-alert(i-1))表示alert i到alert(i-1)的相似度,simi(alert i-alert(i+1))表示alert i到alert(i+1)的相似度,simi(alert i-alert n)表示alert i到alert n的相似度)。然后在n个告警中,选择第一相似度之和最大的那个告警alert i0作为Top1。再把其余的告警与alert i0的第二相似度计算出来,按第二相似度进行从大到小的排序,得到Top2到Top n的排序。于上述方法就可以获得每一个聚类ID中所有告警的排序结果了。
本公开实施例中,通过文本内容相似性和指标数据相似性来衡量告警事件之间的相似性,再根据实时的聚类算法来进行告警事件之间的关联,最后根据一批告警中的重要程度来进行告警事件的排序。从而实现告警事件关联与合并,告警事件重要性排序的功能。
可选地,在上述S404之后,还可以显示每个告警事件与目标聚簇中代表元的相似原因,也可以显示每个告警事件与第一个告警事件的第二相似度,具体可以根据实际情况确定,本公开实施例不做限定。
示例性地,流式聚类算法为一趟聚类(one pass clustering)算法,对于每一个新获取的待关联告警事件,可以计算待关联告警事件与当前所有聚簇中每个聚簇的代表元的文本内容相似度和指标数据相似度,基于计算得到的待关联告警事件与当前所有聚簇中每个聚簇的代表元的文本内容相似度和指标数据相似度,确定是否存在与待关联告警事件相似的聚簇,如果存在与待关联告警事件相似的聚簇,则将待关联告警事件关联到该相似的聚簇,如果不存在与待关联告警事件相似的聚簇,则将待关联告警事件到一个新的聚簇,并作为该新的聚簇的代表元。其中,将待关联告警事件与一个聚簇满足文本相似(文本内容相似度大于或等于文本相似阈值)和指标相似(指标数据相似度大于或等于指标相似阈值)中的至少一个,则可以认为待关联告警事件与该一个聚簇相似,与该聚簇中的告警事件属于同一类,而且可以记录待关联告警事件与该一个聚簇的相似原因(文本相似、指标形似、文本和指标都相似中的一种)。如表1所示,对获取的5条待关联告警事件通过一趟聚类后,就可以分成两个聚簇,其中,告警事件b的指标数据为无,表示告警事件b只有文本内容,没有对应的指标数据。
表1
告警事件ID 指标数据ID 聚簇ID 相似原因
a a XX
b YY
c c XX 文本相似和指标相似
d d XX 指标相似
e e YY 文本相似
本公开实施例提供的告警事件关联方法可以应用在告警平台产品。可以基于本公开实施例提供的告警事件关联方法设置人工智能(AI)关联模型。用户可以基于AI关联模型选择开启“智能关联”功能并(根据任务需求)设定合适的关联阈值(如文本相似阈值、指标相似阈值),合适的关联时间范围(例如30分钟以内),如果不设置则采用系统默认阈值。开启该功能后,对于每一条待关联告警事件,AI关联模型会进行文本内容相似度计算和指标数据相似度计算,并基于文本内容相似度和指标数据相似度,对待关联告警事件进行实时关联分析。待关联告警事件通过AI关联模型后,会给出与待关联告警事件相关联的其他告警事件(可能是指标相似、文本相关或指标相似和文本相似的事件),更近一步,AI关联模型可以帮助关联挖掘出上下文信息(上下文信息指和这次告警相关的其他信息,例如告警产生源(是0-1事件,还是有指标数据)、对应的日志、对应的调用链路数据、拓扑图、是否有相关变更事件信息等。),这些信息可以帮助用户/on-call团队更好、更快、更全面的了解当前告警的信息,便于去定位问题,解决问题。
通过本申请实施例提供的告警事件关联方法,还可以有效地把多条告警事件合并成一条告警事件进行发送,从而可以大大减少告警事件的发送量。告警事件合并发送的方式可以包括但不限于以下2种。
第一种:缓存预设时长内的相似告警事件,将该缓存的预设时长内的相似告警事件合并成一条发送给用户。发送方式可以包括但不限于:邮件、短信或者即时通信应用程序。可以根据告警系统的通知策略进行发送方式的配置。
第二种:第一个告警事件立刻发送,后续预设时长内的相似告警事件,合并到第一条告警事件中,这种是在告警实时性和告警压缩中取得一个平衡。
图5为本公开实施例提供的一种告警事件关联装置的结构示意图,该装置可以采用软件和/或硬件实现,并可集成在任意具有计算能力的电子设备上。
如图5所示,本公开实施例提供的告警事件关联装置500可以包括获取模块501和聚类模块502,其中:
该获取模块501,用于获取待关联告警事件;
该聚类模块502,用于基于该待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对该待关联告警事件进行流式聚类,以将该待关联告警事件关联到目标聚簇;
其中,该每个聚簇中的代表元为相应聚簇中的一个告警事件,该目标相似度包括:文本内容相似度,和/或,指标数据相似度。
可选地,在该待关联告警事件与第一聚簇中的代表元的文本内容相似度大于或等于文本相似度阈值,且该待关联告警事件与第一聚簇中的代表元的指标数据相似度小于指标相似度阈值的情况下,该目标聚簇为第一聚簇;
在该待关联告警事件与第二聚簇中的代表元的指标数据相似度大于或等于指标相似度阈值,且该待关联告警事件与第二聚簇中的代表元的文本内容相似度小于文本相似度阈值的情况下,该目标聚簇为第二聚簇;
在该待关联告警事件与第三聚簇中的代表元的文本内容相似度大于或等于文本相似度阈值,且该待关联告警事件与第三聚簇中的代表元的指标数据相似度大于或等于指标相似度阈值的情况下,该目标聚簇为第三聚簇;
在该待关联告警事件与该每个聚簇中的代表元的文本内容相似度均小于文本相似度阈值,且该待关联告警事件与该每个聚簇中的代表元的指标数据相似度均小于指标相似度阈值的情况下,该目标聚簇为该至少一个聚簇之外的聚簇,且该待关联告警事件为该目标聚簇的代表元。
可选地,该告警事件关联装置500还包括:保存模块,该保存模块,用于:在基于该待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对该待关联告警事件进行流式聚类,以将该待关联告警事件关联到目标聚簇之后,保存该待关联告警事件与该目标聚簇中的代表元的相似原因;
其中,在该目标聚簇为第一聚簇的情况下,该相似原因为文本相似,在该目标聚簇为第二聚簇的情况下,该相似原因为指标相似,在该目标聚簇为第三聚簇的情况下,该相似原因为文本相似和指标相似。
可选地,该告警事件关联装置500还包括:文本预处理模块和确定模块;该文本预处理模块,用于:在基于该待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对该待关联告警事件进行流式聚类,以将该待关联告警事件关联到目标聚簇之前,对该待关联告警事件进行文本预处理,得到用于指示该待关联告警事件对应的最小粒度的词向量的目标集合;
该确定模块,用于基于文本相似度量算法,确定该目标集合与用于指示每个聚簇中的代表元对应的最小粒度的词向量的集合的相似度,以得到该待关联告警事件与每个聚簇中的代表元的文本相似度。
可选地,该告警事件关联装置500还包括:时间序列预处理模块和确定模块;该时间序列预处理模块,用于基于该待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对该待关联告警事件进行流式聚类,以将该待关联告警事件关联到目标聚簇之前,对该待关联告警事件进行时间序列预处理,得到该待关联告警事件对应的目标时间序列集合;
该确定模块,用于基于时间序列相似性算法,确定该目标时间序列集合与每个聚簇中的代表元对应的时间序列集合的相似度,以得到该待关联告警事件与每个聚簇中的代表元的指标数据相似度。
可选地,该待关联告警事件的发生时间与该目标聚簇中的代表元的发生时间的时间间隔小于或等于间隔阈值。
可选地,该告警事件关联装置500还包括:排序模块和显示模块;该排序模块,用于在基于该待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对该待关联告警事件进行流式聚类,以将该待关联告警事件关联到目标聚簇之后,在该目标聚簇包括多个告警事件的情况下,基于每一个告警事件与其他每个告警事件的第一相似度之和,对该多个告警事件进行排序;
该显示模块,用于显示排序后的该多个告警事件;
其中,第一相似度为以下任一项:
文本内容相似度,指标数据相似度,归一化后的文本内容相似度和归一化后的指标数据相似度之和。
可选地,该排序模块,具体用于:
将每一个告警事件与其他每个告警事件的第一相似度之和中最大的作为排序后的第一个告警事件;
将其他告警事件按照与该排序后的第一个告警事件的第二相似度从大到小排序;
第二相似度为以下任一项:
文本内容相似度,指标数据相似度,归一化后的文本内容相似度和归一化后的指标数据相似度之和。
可选地,该获取模块,具体用于:
接收告警事件;
从文本内容和指标数据两个方面,对该告警事件进行富化处理,得到该待关联告警事件。
本公开实施例所提供的告警事件关联装置可执行本公开实施例所提供的任意告警事件关联方法,具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。
图6为本公开实施例提供的一种电子设备的结构示意图,用于对实现本公开实施例中任意告警事件关联方法的电子设备进行示例性说明,不应理解为对本公开实施例的具体限定。
如图6所示,电子设备600可以包括处理器(例如CPU、图形处理器等)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。处理器601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
通常,以下装置可以连接至I/O接口605:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607;包括例如磁带、硬盘等的存储装置608;以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然示出了具有各种装置的电子设备600,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置609从网络上被下载和安装,或者从存储装置608被安装,或者从ROM 602被安装。在该计算机程序被处理器601执行时,可以执行本公开实施例提供的任意告警事件关联方法中限定的功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务端可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取待关联告警事件;基于该待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对该待关联告警事件进行流式聚类,以将该待关联告警事件关联到目标聚簇;其中,该每个聚簇中的代表元为相应聚簇中的一个告警事件,该目标相似度包括:文本内容相似度,和/或,指标数据相似度。
在本公开实施例中,可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在计算机上执行、部分地在计算机上执行、作为一个独立的软件包执行、部分在计算机上部分在远程计算机上执行、或者完全在远程计算机或服务端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,计算机可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。计算机可读介质可以是计算机可读信号介质或计算机可读储存介质。计算机可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。计算机可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (13)

1.一种告警事件关联方法,包括:
获取待关联告警事件;
基于所述待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对所述待关联告警事件进行流式聚类,以将所述待关联告警事件关联到目标聚簇;
其中,所述每个聚簇中的代表元为相应聚簇中的一个告警事件,所述目标相似度包括:文本内容相似度,和/或,指标数据相似度。
2.根据权利要求1所述的方法,其中,在所述待关联告警事件与第一聚簇中的代表元的文本内容相似度大于或等于文本相似度阈值,且所述待关联告警事件与所述第一聚簇中的代表元的指标数据相似度小于指标相似度阈值的情况下,所述目标聚簇为所述第一聚簇;
在所述待关联告警事件与第二聚簇中的代表元的指标数据相似度大于或等于指标相似度阈值,且所述待关联告警事件与所述第二聚簇中的代表元的文本内容相似度小于文本相似度阈值的情况下,所述目标聚簇为所述第二聚簇;
在所述待关联告警事件与第三聚簇中的代表元的文本内容相似度大于或等于文本相似度阈值,且所述待关联告警事件与所述第三聚簇中的代表元的指标数据相似度大于或等于指标相似度阈值的情况下,所述目标聚簇为所述第三聚簇;
在所述待关联告警事件与所述每个聚簇中的代表元的文本内容相似度均小于文本相似度阈值,且所述待关联告警事件与所述每个聚簇中的代表元的指标数据相似度均小于指标相似度阈值的情况下,所述目标聚簇为所述至少一个聚簇之外的聚簇,且所述待关联告警事件为所述目标聚簇的代表元。
3.根据权利要求2所述的方法,其中,所述基于所述待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对所述待关联告警事件进行流式聚类,以将所述待关联告警事件关联到目标聚簇之后,所述方法还包括:
保存所述待关联告警事件与所述目标聚簇中的代表元的相似原因;
其中,在所述目标聚簇为所述第一聚簇的情况下,所述相似原因为文本相似,在所述目标聚簇为所述第二聚簇的情况下,所述相似原因为指标相似,在所述目标聚簇为所述第三聚簇的情况下,所述相似原因为文本相似和指标相似。
4.根据权利要求1所述的方法,其中,所述基于所述待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对所述待关联告警事件进行流式聚类,以将所述待关联告警事件关联到目标聚簇之前,所述方法还包括:
对所述待关联告警事件进行文本预处理,得到用于指示所述待关联告警事件对应的最小粒度的词向量的目标集合;
基于文本相似度量算法,确定所述目标集合与用于指示每个聚簇中的代表元对应的最小粒度的词向量的集合的相似度,以得到所述待关联告警事件与每个聚簇中的代表元的文本相似度。
5.根据权利要求1所述的方法,其中,所述基于所述待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对所述待关联告警事件进行流式聚类,以将所述待关联告警事件关联到目标聚簇之前,所述方法还包括:
对所述待关联告警事件进行时间序列预处理,得到所述待关联告警事件对应的目标时间序列集合;
基于时间序列相似性算法,确定所述目标时间序列集合与每个聚簇中的代表元对应的时间序列集合的相似度,以得到所述待关联告警事件与每个聚簇中的代表元的指标数据相似度。
6.根据权利要求1所述的方法,其中,所述待关联告警事件的发生时间与所述目标聚簇中的代表元的发生时间的时间间隔小于或等于间隔阈值。
7.根据权利要求1至6中任一项所述的方法,其中,所述基于所述待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对所述待关联告警事件进行流式聚类,以将所述待关联告警事件关联到目标聚簇之后,所述方法还包括:
在所述目标聚簇包括多个告警事件的情况下,基于每一个告警事件与其他每个告警事件的第一相似度之和,对所述多个告警事件进行排序;
显示排序后的所述多个告警事件;
其中,所述第一相似度为以下任一项:
文本内容相似度,指标数据相似度,归一化后的文本内容相似度和归一化后的指标数据相似度之和。
8.根据权利要求7所述的方法,其中,所述基于每一个告警事件与其他每个告警事件的第一相似度之和,对所述多个告警事件进行排序,包括:
将每一个告警事件与其他每个告警事件的第一相似度之和中最大的作为排序后的第一个告警事件;
将其他告警事件按照与所述排序后的第一个告警事件的第二相似度从大到小排序;
所述第二相似度为以下任一项:
文本内容相似度,指标数据相似度,归一化后的文本内容相似度和归一化后的指标数据相似度之和。
9.根据权利要求1至6中任一项所述的方法,其中,所述获取待关联告警事件,包括:
接收告警事件;
从文本内容和指标数据两个方面,对所述告警事件进行富化处理,得到所述待关联告警事件。
10.一种告警事件关联装置,包括:获取模块和聚类模块;
所述获取模块,用于获取待关联告警事件;
所述聚类模块,用于基于所述待关联告警事件与至少一个聚簇中的每个聚簇中的代表元的目标相似度,对所述待关联告警事件进行流式聚类,以将所述待关联告警事件关联到目标聚簇;
其中,所述每个聚簇中的代表元为相应聚簇中的第一个告警事件,所述目标相似度包括文本内容相似度和指标数据相似度。
11.一种电子设备,包括存储器和处理器,所述存储器用于存储所述处理器可执行指令;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述可执行指令以实现如权利要求1至9中任一项所述的告警事件关联法。
12.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的告警事件关联方法。
13.一种计算机程序产品,所述计算机程序产品用于执行如权利要求1至9中任一项所述的告警事件关联方法。
CN202111602046.7A 2021-12-24 2021-12-24 告警事件关联方法、装置、电子设备、介质及程序产品 Pending CN114461792A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111602046.7A CN114461792A (zh) 2021-12-24 2021-12-24 告警事件关联方法、装置、电子设备、介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111602046.7A CN114461792A (zh) 2021-12-24 2021-12-24 告警事件关联方法、装置、电子设备、介质及程序产品

Publications (1)

Publication Number Publication Date
CN114461792A true CN114461792A (zh) 2022-05-10

Family

ID=81407401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111602046.7A Pending CN114461792A (zh) 2021-12-24 2021-12-24 告警事件关联方法、装置、电子设备、介质及程序产品

Country Status (1)

Country Link
CN (1) CN114461792A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116886448A (zh) * 2023-09-07 2023-10-13 卓望数码技术(深圳)有限公司 一种基于半监督学习的DDoS攻击告警研判方法以及装置
CN117560389A (zh) * 2023-10-13 2024-02-13 陕西小保当矿业有限公司 一种矿山工业互联网平台告警融合方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116886448A (zh) * 2023-09-07 2023-10-13 卓望数码技术(深圳)有限公司 一种基于半监督学习的DDoS攻击告警研判方法以及装置
CN116886448B (zh) * 2023-09-07 2023-12-01 卓望数码技术(深圳)有限公司 一种基于半监督学习的DDoS攻击告警研判方法以及装置
CN117560389A (zh) * 2023-10-13 2024-02-13 陕西小保当矿业有限公司 一种矿山工业互联网平台告警融合方法及系统

Similar Documents

Publication Publication Date Title
US11934417B2 (en) Dynamically monitoring an information technology networked entity
US11106442B1 (en) Information technology networked entity monitoring with metric selection prior to deployment
US11379475B2 (en) Analyzing tags associated with high-latency and error spans for instrumented software
US11748358B2 (en) Feedback on inferred sourcetypes
US10205643B2 (en) Systems and methods for monitoring and analyzing performance in a computer system with severity-state sorting
US20190095478A1 (en) Information technology networked entity monitoring with automatic reliability scoring
US20210011932A1 (en) Generating events in excess of licensed event count
US11755938B2 (en) Graphical user interface indicating anomalous events
US8972992B2 (en) Proactive monitoring tree with state distribution ring
WO2021068547A1 (zh) 日志模板提取方法及装置
US10282455B2 (en) Display of data ingestion information based on counting generated events
CN111984499A (zh) 一种大数据集群的故障检测方法和装置
CN111930547A (zh) 一种故障定位方法、装置及存储介质
CN114461792A (zh) 告警事件关联方法、装置、电子设备、介质及程序产品
US9633088B1 (en) Event log versioning, synchronization, and consolidation
WO2022111659A1 (zh) 告警方法、装置、设备及存储介质
US8909768B1 (en) Monitoring of metrics to identify abnormalities in a large scale distributed computing environment
CN114091704B (zh) 一种告警压制方法和装置
CN115640300A (zh) 一种大数据管理方法、系统、电子设备和存储介质
CN116668264A (zh) 一种告警聚类的根因分析方法、装置、设备及存储介质
CN116225848A (zh) 日志监测方法、装置、设备和介质
CN115408236A (zh) 一种日志数据审计系统、方法、设备及介质
CN114756301A (zh) 日志处理方法、装置和系统
CN115514618A (zh) 告警事件的处理方法、装置、电子设备和介质
US11899553B2 (en) Relevance ranking system for events identified by performance management systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination