CN113791952A - 一种告警场景挖掘方法 - Google Patents

一种告警场景挖掘方法 Download PDF

Info

Publication number
CN113791952A
CN113791952A CN202111085845.1A CN202111085845A CN113791952A CN 113791952 A CN113791952 A CN 113791952A CN 202111085845 A CN202111085845 A CN 202111085845A CN 113791952 A CN113791952 A CN 113791952A
Authority
CN
China
Prior art keywords
alarm
template
alarm data
correlation
mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111085845.1A
Other languages
English (en)
Inventor
杨康
葛晓波
王鹏
汪洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eoi Information Technology Co ltd
Original Assignee
Shanghai Eoi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eoi Information Technology Co ltd filed Critical Shanghai Eoi Information Technology Co ltd
Priority to CN202111085845.1A priority Critical patent/CN113791952A/zh
Publication of CN113791952A publication Critical patent/CN113791952A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种告警场景挖掘方法,包括如下步骤:获取存储有告警数据的历史记录;对历史记录进行聚类处理及告警模板匹配,得到包含有模板id的告警数据记录;按时间窗口切分告警数据记录,得到若干告警数据记录分段;统计每一个模板id在哪些告警数据记录分段中出现过,形成告警数据记录分段集合,采用哈希表记录模板id及告警数据记录分段集合;计算两两模板id之间的相关性,并构建相关性矩阵。本发明,采用机器学习技术,对海量的告警数据进行告警分析,识别其中包含的告警场景,并记录为告警模板,实现告警分析的自动化、智能化及标准化,能够有效的帮助运维人员进行故障诊断以及问题定位,提高效率和解决问题的能力。

Description

一种告警场景挖掘方法
技术领域
本发明涉及IT运维和管理(ITOM)技术领域,具体说是一种告警场景挖掘方法。
背景技术
告警分析在运维和管理领域普遍应用且非常重要,通过告警分析可辅助企业的运维人员实时的了解服务器的安全状况,以避免因故障导致的、难以估计的损失。通过告警分析不仅可以了解到软硬件设备的运行状况,还可以在故障发生时快速找到根因,从而及时的进行补救,更好的提高软硬件设备的高可用性。
通常,一种故障重复发生时,总会对应的产生若干个告警,所述若干个告警的出现存在一定规律性,所述若干个告警类型相同或不同均有可能,例如:故障A发生时,可能会出现三个告警,即对应的产生告警1-3,则:只要发现出现了告警1-3,则可推定发生了故障A。通过这一规律,可以将经常一起出现的若干个告警分析并整合为告警模板(挖掘告警模板),告警模板中包括的经常一起出现的若干个告警构成了一种告警场景,每种告警场景通常对应于一种故障。
随着服务器规模的发展扩大,告警数据与日俱增,逐渐形成了海量的告警数据,基于海量的告警数据进行告警分析,已经不能依靠人力处理,企业需要自动化的告警分析解决方案。
公开于该背景技术部分的信息仅仅旨在加深对本发明的总体背景技术的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域技术人员所公知的现有技术。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种告警场景挖掘方法,采用机器学习技术,对海量的告警数据进行告警分析,识别其中包含的告警场景,并记录为告警模板,实现告警分析的自动化、智能化及标准化,能够有效的帮助运维人员进行故障诊断以及问题定位,提高效率和解决问题的能力。
为达到以上目的,本发明采取的技术方案是:
一种告警场景挖掘方法,其特征在于,包括如下步骤:
获取存储有告警数据的历史记录;
对历史记录先进行聚类处理,再进行告警模板匹配,对同类型的告警数据分配相同的模板id,得到包含有模板id的告警数据记录;
设定一时间窗口;
按时间窗口切分包含有模板id的告警数据记录,得到若干告警数据记录分段;
逐个处理每一个告警数据记录分段,统计每一个模板id在哪些告警数据记录分段中出现过,形成告警数据记录分段集合,采用哈希表记录模板id及告警数据记录分段集合;
计算两两模板id之间的相关性,并构建相关性矩阵。
在上述技术方案的基础上,所述计算两两模板id之间的相关性,并构建相关性矩阵,具体步骤如下:
以两两模板id形成若干模板对,
获取两个模板id对应的哈希表,
从哈希表中获取告警数据记录分段集合,
计算两个告警数据记录分段集合的jaccard相似度,计算公式为
Figure BDA0003265514450000031
即两个告警数据记录分段集合的jaccard相似度等于两个集合的交集的大小除以并集的大小。
在上述技术方案的基础上,进一步包括如下步骤:基于相关性矩阵构建无环图。
在上述技术方案的基础上,所述基于相关性矩阵构建无环图具体步骤为:
将每一个模板id作为图中的一个顶点,
根据用户配置的相关性阈值,对相关性达到阈值的模板对,认为是有关系的,取模板对中两个模板id对应的顶点,在两个顶点之间添加边,边的权重为1;
基于社区检测算法处理无环图,划分社区。
在上述技术方案的基础上,所述基于社区检测算法处理无环图,划分社区,具体步骤为:
确定所用社区检测算法;
设定社区检测算法中用于确定模块度的目标函数,所述模块度亦称Q值,用来衡量社区划分的好坏;
采用社区检测算法对无环图进行社区划分,使Q值朝着增大的方向进行;
对社区划分结果进行过滤,去掉孤立社区,其余的每个社区均作为一个告警场景。
在上述技术方案的基础上,确定louvain算法为所用社区检测算法。
在上述技术方案的基础上,为了增加可读性,将模板id替换为模板内容,并存储为告警场景记录。
本发明所述的一种告警场景挖掘方法,具有以下有益效果:
采用机器学习技术,对海量的告警数据进行告警分析,识别其中包含的告警场景,并记录为告警模板,实现告警分析的自动化、智能化及标准化,能够有效的帮助运维人员进行故障诊断以及问题定位,提高效率和解决问题的能力。
所述机器学习技术,本发明中选用了社区检测算法,挖掘到的场景数量较少,但准确度较高,场景中的模板之间相关性较强,场景之间不存在交集。
附图说明
本发明有如下附图:
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1本发明所述一种告警场景挖掘方法的实施例一的流程图。
图2本发明所述一种告警场景挖掘方法的实施例二的流程图。
图3基于相关性矩阵构建无环图示例。
图4本发明所述一种告警场景挖掘方法的实施例三的流程图。
具体实施方式
以下结合附图对本发明作进一步详细说明。所述详细说明,为结合本发明的示范性实施例做出的说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
如图1所示,本发明给出了一种告警场景挖掘方法,包括如下步骤:
获取存储有告警数据的历史记录;
例如:历史记录的格式及内容如下表1所示,
表1
告警id 发生时间 告警内容
1 2021-01-01 00:00 主机db01无法ping通
2 2021-01-01 00:01 连接db01上的mysql数据库失败
3 2021-01-01 00:03 主机host1的CPU使用率超过80%
... ... ...
1001 2021-01-03 08:00 主机db02无法ping通
1002 2021-01-03 08:00 连接db02上的mysql数据库失败
1003 2021-01-03 08:01 交易失败率达到10%
1004 2021-01-01 08:02 网上转账服务调用失败
... ... ...
2001 2021-01-04 18:00 交易失败率达到12%
2002 2021-01-04 18:01 网上转账服务调用失败
2003 2021-01-04 18:02 主机host2内存使用率高
... ... ...
历史记录中至少包括告警id、发生时间、告警内容;
对历史记录先进行聚类处理,再进行告警模板匹配处理,对同类型的告警数据分配相同的模板id,得到包含有模板id的告警数据记录;
所述聚类处理可采用现有的任意聚类算法,本发明不涉及对聚类算法的改进,不再详述;
所述模板id用于区分不同类型的告警数据;
进行聚类处理和进行告警模板匹配处理的目的是,将告警内容结构化,方便特征提取,作为可选择的实施方案之一,所述聚类可采用202010216937.8公开的一种基于LCS的Chameleon实时日志聚类方法;
例如:对表1所示示例进行聚类处理、告警模板匹配处理,得到包含有模板id的告警数据记录的格式及内容如下表2所示,
表2
Figure BDA0003265514450000071
Figure BDA0003265514450000081
设定一时间窗口;
作为可选择的实施方案之一,所述时间窗口默认为5分钟;
按时间窗口切分包含有模板id的告警数据记录,得到若干告警数据记录分段;切分后,每一段告警数据记录分段中,第一条记录的发生时间,和最后一条记录的发生时间,发生时间的差值小于等于时间窗口的取值;
例如:对表2所示示例按时间窗口切分,得到若干告警数据记录分段如下表3所示,
表3
Figure BDA0003265514450000082
Figure BDA0003265514450000091
逐个处理每一个告警数据记录分段,统计每一个模板id在哪些告警数据记录分段中出现过,形成告警数据记录分段集合,采用哈希表记录模板id及告警数据记录分段集合;
例如:对表3所示示例统计,形成告警数据记录分段集合,统计结果如下表4所示,
表4
Figure BDA0003265514450000092
Figure BDA0003265514450000101
计算两两模板id之间的相关性,并构建相关性矩阵,具体步骤为:
以两两模板id形成若干模板对,
获取两个模板id对应的哈希表,
从哈希表中获取告警数据记录分段集合,
计算两个告警数据记录分段集合的jaccard相似度,计算公式为
Figure BDA0003265514450000102
即两个告警数据记录分段集合的jaccard相似度等于两个集合的交集的大小除以并集的大小;
例如:对表4所示示例计算两两模板id之间的相关性,并构建相关性矩阵如下表5所示,
表5
Figure BDA0003265514450000103
Figure BDA0003265514450000111
jaccard相似度(Jaccard系数)越高,说明该两两模板id伴随出现的概率越高,即要么该两两模板id都出现,要么该两两模板id都不出现。
在上述技术方案的基础上,如图2所示,进一步包括如下步骤:基于相关性矩阵构建无环图;
所述基于相关性矩阵构建无环图具体步骤为:
将每一个模板id作为图中的一个顶点,
根据用户配置的相关性阈值,对相关性达到阈值的模板对,认为是有关系的,取模板对中两个模板id对应的顶点,在两个顶点之间添加边,边的权重为1;
例如:设用户配置的相关性阈值为0.9,则基于表5所示相关性矩阵构建无环图,如图3所示;
基于社区检测算法处理无环图,划分社区,具体步骤为:
确定所用社区检测算法;例如,确定louvain算法为所用社区检测算法;louvain算法为公知算法,本发明不再详述;
设定社区检测算法中用于确定模块度的目标函数,所述模块度亦称Q值,用来衡量社区划分的好坏;
采用社区检测算法对无环图进行社区划分,使Q值朝着增大的方向进行;
例如:对表5所示示例构建无环图、划分社区,社区划分结果如下表6所示,
表6
社区id 模板id集合
1 1,2
2 3
3 4,5
4 6
如图4所示,对社区划分结果进行过滤,去掉孤立社区,其余的每个社区均作为一个告警场景;
例如:对表6所示示例进行过滤,去掉孤立社区,告警场景结果如下表7所示,
表7
社区id 模板id集合
1 1,2
3 4,5
在上述技术方案的基础上,如图4所示,为了增加可读性,将模板id替换为模板内容,并存储为告警场景记录。
例如:对表7所示示例处理后,告警场景记录如下表8所示,
表8
Figure BDA0003265514450000131
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
以上所述仅为本发明的较佳实施方式,本发明的保护范围并不以上述实施方式为限,但凡本领域技术人员根据本发明所揭示内容所作的等效修饰或变化,皆应纳入权利要求书中记载的保护范围内。

Claims (7)

1.一种告警场景挖掘方法,其特征在于,包括如下步骤:
获取存储有告警数据的历史记录;
对历史记录先进行聚类处理,再进行告警模板匹配,对同类型的告警数据分配相同的模板id,得到包含有模板id的告警数据记录;
设定一时间窗口;
按时间窗口切分包含有模板id的告警数据记录,得到若干告警数据记录分段;
逐个处理每一个告警数据记录分段,统计每一个模板id在哪些告警数据记录分段中出现过,形成告警数据记录分段集合,采用哈希表记录模板id及告警数据记录分段集合;
计算两两模板id之间的相关性,并构建相关性矩阵。
2.如权利要求1所述的一种告警场景挖掘方法,其特征在于,所述计算两两模板id之间的相关性,并构建相关性矩阵,具体步骤如下:
以两两模板id形成若干模板对,
获取两个模板id对应的哈希表,
从哈希表中获取告警数据记录分段集合,
计算两个告警数据记录分段集合的jaccard相似度,计算公式为
Figure FDA0003265514440000011
即两个告警数据记录分段集合的jaccard相似度等于两个集合的交集的大小除以并集的大小。
3.如权利要求2所述的一种告警场景挖掘方法,其特征在于,进一步包括如下步骤:基于相关性矩阵构建无环图。
4.如权利要求3所述的一种告警场景挖掘方法,其特征在于,所述基于相关性矩阵构建无环图具体步骤为:
将每一个模板id作为图中的一个顶点,
根据用户配置的相关性阈值,对相关性达到阈值的模板对,认为是有关系的,取模板对中两个模板id对应的顶点,在两个顶点之间添加边,边的权重为1;
基于社区检测算法处理无环图,划分社区。
5.如权利要求4所述的一种告警场景挖掘方法,其特征在于,所述基于社区检测算法处理无环图,划分社区,具体步骤为:
确定所用社区检测算法;
设定社区检测算法中用于确定模块度的目标函数,所述模块度亦称Q值,用来衡量社区划分的好坏;
采用社区检测算法对无环图进行社区划分,使Q值朝着增大的方向进行;
对社区划分结果进行过滤,去掉孤立社区,其余的每个社区均作为一个告警场景。
6.如权利要求5所述的一种告警场景挖掘方法,其特征在于,确定louvain算法为所用社区检测算法。
7.如权利要求5所述的一种告警场景挖掘方法,其特征在于,为了增加可读性,将模板id替换为模板内容,并存储为告警场景记录。
CN202111085845.1A 2021-09-16 2021-09-16 一种告警场景挖掘方法 Pending CN113791952A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111085845.1A CN113791952A (zh) 2021-09-16 2021-09-16 一种告警场景挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111085845.1A CN113791952A (zh) 2021-09-16 2021-09-16 一种告警场景挖掘方法

Publications (1)

Publication Number Publication Date
CN113791952A true CN113791952A (zh) 2021-12-14

Family

ID=79183569

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111085845.1A Pending CN113791952A (zh) 2021-09-16 2021-09-16 一种告警场景挖掘方法

Country Status (1)

Country Link
CN (1) CN113791952A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020035669A1 (en) * 2018-08-13 2020-02-20 Longas Technologies Pty Ltd Sequencing algorithm
CN111327466A (zh) * 2020-02-16 2020-06-23 苏州浪潮智能科技有限公司 一种告警分析方法、系统、设备以及介质
CN111414744A (zh) * 2020-03-25 2020-07-14 上海擎创信息技术有限公司 一种基于社区检测的运维告警场景生成方法
CN112202738A (zh) * 2020-09-21 2021-01-08 北方工业大学 一种基于机器学习的工控态势感知系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020035669A1 (en) * 2018-08-13 2020-02-20 Longas Technologies Pty Ltd Sequencing algorithm
CN111327466A (zh) * 2020-02-16 2020-06-23 苏州浪潮智能科技有限公司 一种告警分析方法、系统、设备以及介质
CN111414744A (zh) * 2020-03-25 2020-07-14 上海擎创信息技术有限公司 一种基于社区检测的运维告警场景生成方法
CN112202738A (zh) * 2020-09-21 2021-01-08 北方工业大学 一种基于机器学习的工控态势感知系统及方法

Similar Documents

Publication Publication Date Title
JP7100155B2 (ja) アラームログ圧縮方法、装置、およびシステム、並びに記憶媒体
CN108833184B (zh) 服务故障定位方法、装置、计算机设备及存储介质
US9298538B2 (en) Methods and systems for abnormality analysis of streamed log data
US9804909B1 (en) Scalable predictive early warning system for data backup event log
CA2931624A1 (en) Systems and methods for event detection and diagnosis
CN110149223B (zh) 故障定位方法和设备
CN108809734B (zh) 网络告警根源分析方法、系统、存储介质及计算机设备
CN109509082B (zh) 银行应用系统的监控方法及装置
CN111949480B (zh) 一种基于组件感知的日志异常检测方法
JP2015028700A (ja) 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体
US20180357261A1 (en) Alignment and deduplication of time-series datasets
Folmer et al. Detection of temporal dependencies in alarm time series of industrial plants
CN116708038B (zh) 基于资产测绘的工业互联网企业网络安全威胁识别方法
CN113010505A (zh) 一种水环境大数据清洗方法
CN111191720B (zh) 一种业务场景的识别方法、装置及电子设备
US11182267B2 (en) Methods and systems to determine baseline event-type distributions of event sources and detect changes in behavior of event sources
WO2019019429A1 (zh) 一种虚拟机异常检测方法、装置、设备及存储介质
CN113670611A (zh) 一种轴承早期退化评估方法、系统、介质及电子设备
CN113791952A (zh) 一种告警场景挖掘方法
CN115514627A (zh) 一种故障根因定位方法、装置、电子设备及可读存储介质
CN112465073A (zh) 一种基于距离的数值分布异常检测方法及检测系统
CN113723452A (zh) 一种基于kpi聚类的大规模异常检测系统
CN113792161A (zh) 一种挖掘告警中频发故障的方法
CN113723452B (zh) 一种基于kpi聚类的大规模异常检测系统
CN117076184B (zh) 一种交易系统检测方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211214