CN117170997A - 用于告警信息的关联方法、系统、存储介质及设备 - Google Patents

用于告警信息的关联方法、系统、存储介质及设备 Download PDF

Info

Publication number
CN117170997A
CN117170997A CN202311452061.7A CN202311452061A CN117170997A CN 117170997 A CN117170997 A CN 117170997A CN 202311452061 A CN202311452061 A CN 202311452061A CN 117170997 A CN117170997 A CN 117170997A
Authority
CN
China
Prior art keywords
alarm
data
information
association
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311452061.7A
Other languages
English (en)
Inventor
高琳杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Auto Service Technology Service Co ltd
Original Assignee
China Auto Service Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Auto Service Technology Service Co ltd filed Critical China Auto Service Technology Service Co ltd
Priority to CN202311452061.7A priority Critical patent/CN117170997A/zh
Publication of CN117170997A publication Critical patent/CN117170997A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了用于告警信息的关联方法、系统、存储介质及设备,所述方法包括下列步骤:先根据原始告警数据训练告警信息关联模型,在告警信息关联模型训练完成后,利用其输出当前运行数据的告警关联信息,将所述当前运行数据的告警关联信息作为样本集数据,最后根据该样本集数据对告警信息关联模型进行调整并输出下一次当前运行数据的告警关联信息;本发明能够根据告警信息关联模型输出与当前运行数据对应的可靠的参考数据关联信息,确保每次输出的告警关联信息的准确性。

Description

用于告警信息的关联方法、系统、存储介质及设备
技术领域
本发明涉及网络信息交叉技术领域,尤其涉及用于告警信息的关联方法、系统、存储介质及设备。
背景技术
随着计算机技术和信息技术的蓬勃发展,信息网络基础设施给人类社会带来了便利,但同时在应用架构复杂,监控指标数量巨大的场景下,面对数量庞大、信息冗余的告警数据,如果不能有效筛选出有价值的信息,告警关联作用将达不到预期效果。
传统告警关联只给出了指标异常的信息,无法明确指出是什么引起了告警,网络告警信息分析不仅需要有足够的理论支撑,更需要能实时分析处理,这种分析能够快速给出运维建议,提高故障排查的效率,而机器学习正好具备这些优点,因此,基于机器学习的方法在该领域内使用最为广泛。
综上所述,本发明使用了基于机器学习的方法,可用于准确高效的生成告警信息的相关关联内容。
发明内容
基于此,有必要针对上述问题,提出了用于告警信息的关联方法。
一种用于告警信息的关联方法,所述方法包括下列步骤:
根据原始告警数据训练告警信息关联模型;
在所述告警信息关联模型训练完成后,利用其输出当前运行数据的告警关联信息;
将所述当前运行数据的告警关联信息作为样本集数据;
根据所述样本集数据对告警信息关联模型进行调整并输出下一次当前运行数据的告警关联信息。
上述方案中,所述根据原始告警数据训练告警信息关联模型,具体包括:
采集所述原始告警数据;
对所述原始告警数据进行预处理,确定第一告警数据;
对所述第一告警数据进行特征提取,确定若干个特征;
将所述若干个特征输入告警信息关联模型中,获取关联结果;
当所述关联结果的准确率达到准确率阈值时,则告警信息关联模型训练完成。
上述方案中,所述第一告警数据,具体包括:业务监控指标和业务日志数据;其中,业务监控指标包括cpu利用率、内存占用率、磁盘使用率、url的每秒请求数、响应时间以及网络带宽;业务日志数据包括:时间戳、进程上下文信息、函数名、方法名、相关性参数、错误编码、报错信息。
上述方案中,所述对所述第一告警数据进行特征提取,确定若干个特征,具体包括:从所述第一告警数据中提取其时间序列、事件类型、异常值、单调效应信息和置信程度。
上述方案中,所述将所述若干个特征输入告警信息关联模型中,获取关联结果,具体包括:
根据所述若干个特征构建决策树模型;
根据所述决策树模型判断当前输入的第一告警数据中业务监控指标和业务日志数据之间的相关性;
根据所述相关性确定第一告警数据是否与数据库中运行数据或诊断结果有关;
若有,输出数据库中运行数据对应的诊断结果或数据库中诊断结果。
上述方案中,所述将所述当前运行数据的告警关联信息作为样本集数据之后,还包括:
获取当前运行数据的连续时间序列数据和时间事件数据;
对所述连续时间序列数据和时间事件数据进行相关性分析;
获取所述连续时间序列数据和时间事件数据的时间依赖顺序和单调效应信息;
根据所述时间依赖顺序和单调效应信息对告警信息关联模型进行调整。
上述方案中,所述根据所述样本集数据对告警信息关联模型进行调整并输出下一次当前运行数据的告警关联信息之后,还包括:
将所述告警关联信息存入数据库进行归档并作为模型优化的训练集;
根据所述告警关联信息在现有数据库中确定对应的告警建议;
将所述告警关联信息和与其对应的告警建议推送至运维人员。
本申请还提出了一种用于告警信息的关联系统,其特征在于,所述系统包括:告警信息关联模型获取单元、告警关联信息获取单元、样本集数据获取单元;
所述告警信息关联模型获取单元,用于根据原始告警数据训练告警信息关联模型;
所述告警关联信息获取单元,用于在所述告警信息关联模型训练完成后,利用其输出当前运行数据的告警关联信息、根据所述样本集数据对告警信息关联模型进行调整并输出下一次当前运行数据的告警关联信息;
所述样本集数据获取单元,用于将所述当前运行数据的告警关联信息作为样本集数据。
本申请还提出了一种可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如下步骤:
根据原始告警数据训练告警信息关联模型;
在所述告警信息关联模型训练完成后,利用其输出当前运行数据的告警关联信息;
将所述当前运行数据的告警关联信息作为样本集数据;
根据所述样本集数据对告警信息关联模型进行调整并输出下一次当前运行数据的告警关联信息。
本申请还提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行如下步骤;
根据原始告警数据训练告警信息关联模型;
在所述告警信息关联模型训练完成后,利用其输出当前运行数据的告警关联信息;
将所述当前运行数据的告警关联信息作为样本集数据;
根据所述样本集数据对告警信息关联模型进行调整并输出下一次当前运行数据的告警关联信息。
采用本发明实施例,具有如下有益效果:先根据原始告警数据训练告警信息关联模型,在告警信息关联模型训练完成后,利用其输出当前运行数据的告警关联信息,将所述当前运行数据的告警关联信息作为样本集数据,最后根据该样本集数据对告警信息关联模型进行调整并输出下一次当前运行数据的告警关联信息;这种方法能够根据告警信息关联模型输出与当前运行数据对应的可靠的参考数据关联信息,确保每次输出的告警关联信息的准确性,能够利用更新的告警关联信息对据告警信息关联模型进行调整,从而更精准智能的确认和识别当前运行数据的关联结果,有利于告警关联分析效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例一种用于告警信息的关联方法流程图;
图2为基于图1根据原始告警数据训练告警信息关联模型的流程图;
图3为基于图1对告警信息关联模型进行优化调整的流程图;
图4为一个实施例中用于告警信息的关联系统的拓扑结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解;然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施;在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述,应当理解的是,本发明能够以不同形式实施,而不应当解释为局限于这里提出的实施例;相反地,提供这些实施例将使公开彻底和完全,并且将本发明的范围完全地传递给本领域技术人员。
在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时,单数形式的“一”、“一个”和“所述/该”也意图包括复数形式,除非上下文清楚指出另外的方式,还应明白术语“组成”和/或“包括”,当在该说明书中使用时,确定所述特征、整数、步骤、操作、元件和/或部件的存在,但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时,术语“和/或”包括相关所列项目的任何及所有组合。
为了便于理解,下面先对本申请涉及的相关术语进行介绍。
(1)关联规则: 关联规则是指在数据集中发现的频繁项集,即出现在一起的项;
(2)特征提取:特征提取是指从数据集中提取出有用的特征,以便后续处理;
(3)决策树模型: 决策树模型是一种基于树结构进行决策的算法模型,可以用于分类和回归问题;
(4)模型评估:模型评估是指对机器学习模型进行评估,以确定其准确性和可靠性;
(5)告警指标: 告警指标是指用于判断告警是否发生的依据,例如CPU利用率、内存利用率等;
(6)告警通知: 告警通知是指运维人员接收到告警后,通过邮件、短信等方式通知相关人员;
(7)告警处理建议: 告警处理建议是指在告警发生后,运维人员根据系统的运行状况和历史记录,提出的解决方案和建议。
随着互联网的快速发展,大规模分布式系统的普及和复杂性的增加,告警关联分析系统在保证系统稳定运行和及时发现潜在故障方面起着重要作用,传统告警只给出了指标异常的信息,无法明确指出是什么引起了告警;因此,本申请提出了一种结合机器学习的告警信息关联模型,能够快速给出运维建议,并提高故障排查的效率,在降低建模难度的同时,提高了警告关联结果的可解释性。
为了彻底理解本发明,将在下列的描述中提出详细的结构,以便阐释本发明提出的技术方案;本发明的可选实施例详细描述如下,然而除了这些详细描述外,本发明还可以具有其他实施方式。
如图1所示,在一个实施例中,提供了一种用于告警信息的关联方法,该用于告警信息的关联方法包括步骤S101至步骤S104,详述如下:
S101、根据原始告警数据训练告警信息关联模型;
如图2所示,在一些实施例中,根据原始告警数据训练告警信息关联模型,具体包括:
S110、采集原始告警数据;
具体的,原始告警数据包括:预处理前的业务监控指标和业务日志数据;其中,业务监控指标包括cpu利用率、内存占用率、磁盘使用率、url的每秒请求数、响应时间以及网络带宽;业务日志数据包括:时间戳、进程上下文信息、函数名、方法名、相关性参数、错误编码、报错信息。
S111、对原始告警数据进行预处理,确定第一告警数据;
优选的,预处理步骤包括:对上述原始告警数据进行清洗、去重以及格式化等操作。
其中,第一告警数据包括:预处理后的业务监控指标和业务日志数据;其中,业务监控指标包括cpu利用率、内存占用率、磁盘使用率、url的每秒请求数、响应时间以及网络带宽;业务日志数据包括:时间戳、进程上下文信息、函数名、方法名、相关性参数、错误编码、报错信息。
S112、对第一告警数据进行特征提取,确定若干个特征;
在一些实施例中,对第一告警数据进行特征提取,确定若干个特征,具体包括:从第一告警数据中提取其时间序列、事件类型、异常值、单调效应信息和置信程度。
S113、将若干个特征输入告警信息关联模型中,获取关联结果;
在一些实施例中,将若干个特征输入告警信息关联模型中,获取关联结果,具体包括:
(1)根据若干个特征构建决策树模型;
(2)根据决策树模型判断当前输入的第一告警数据中业务监控指标和业务日志数据之间的相关性;
(3)根据相关性确定第一告警数据是否与数据库中运行数据或诊断结果有关;
(4)若有,输出数据库中运行数据对应的诊断结果或数据库中诊断结果;
进一步的,若当前第一告警数据与数据库中运行数据或诊断结果无关,则将当前第一告警数据保存进数据库中以及将保存结果推送至运维人员,人工进行判断。
S114、当关联结果的准确率达到准确率阈值时,则告警信息关联模型训练完成。
其中,准确率阈值为0.95;即关联结果的准确率≥0.95时,确定告警信息关联模型训练完成。
S102、在告警信息关联模型训练完成后,利用其输出当前运行数据的告警关联信息;
在一些实施例中,输出当前运行数据中监控数据对应的日志数据,作为告警关联信息。
S103、将当前运行数据的告警关联信息作为样本集数据;
如图3所示,在一些实施例中,将当前运行数据的告警关联信息作为样本集数据之后,还包括:
S301、获取当前运行数据的连续时间序列数据和时间事件数据;
其中,连续时间序列数据就是监控采集的指标,即上文提到的cpu、内存、磁盘等数据;时间事件数据就是上文提到的日志系统数据。
S302、对连续时间序列数据和时间事件数据进行相关性分析;
其中,相关性分析包括置信程度a、单调效应b等。
S303、获取连续时间序列数据和时间事件数据的时间依赖顺序和单调效应信息;
具体的,是否在某连续时间序列数据出现的触发下,会出现时间事件数据以及在某连续时间序列数据出现固定时间的触发下会出现时间事件数据。
S304、根据时间依赖顺序和单调效应信息对告警信息关联模型进行调整。
S104、根据样本集数据对告警信息关联模型进行调整并输出下一次当前运行数据的告警关联信息。
在一些实施例中,根据样本集数据对告警信息关联模型进行调整并输出下一次当前运行数据的告警关联信息之后,还包括:
(1)将告警关联信息存入数据库进行归档并作为模型优化的训练集;
(2)根据告警关联信息在现有数据库中确定对应的告警建议;
(3)将告警关联信息和与其对应的告警建议推送至运维人员。
优选的,在生成告警建议阶段,还可以将分析结果和处理建议存入数据库,以便后续运维人员查询引用和参考,并提供模型调整和优化的依据。
综上,本申请提出的用于告警信息的关联方法能够根据告警信息关联模型输出与当前运行数据对应的可靠的参考数据关联信息,确保每次输出的告警关联信息的准确性,提高了关联结果的可解释性并结合机器学习,能够利用更新的告警关联信息对据告警信息关联模型进行调整,从而更精准智能的确认和识别当前运行数据的关联结果,有利于告警关联分析效率。
本申请还提出了一种用于告警信息的关联系统,系统包括:告警信息关联模型获取单元、告警关联信息获取单元、样本集数据获取单元;
告警信息关联模型获取单元,用于根据原始告警数据训练告警信息关联模型;
告警关联信息获取单元,用于在告警信息关联模型训练完成后,利用其输出当前运行数据的告警关联信息、根据样本集数据对告警信息关联模型进行调整并输出下一次当前运行数据的告警关联信息;
样本集数据获取单元,用于将当前运行数据的告警关联信息作为样本集数据。
在一些实施例中,告警信息关联模型获取单元包括模型训练模块、样本集数据获取单元包括运行数据收集模块和运行数据预处理模块、告警关联信息获取单元包括关联分析模块、异步生成告警处理建议模块、模型调整优化模块。
模型训练模块和模型调整优化模块包含以下步骤:训练集数据预处理、特征提取、模型训练、模型评估、模型调整和优化。
在训练集数据预处理阶段,系统会对原始告警数据进行清洗、去重、格式化等操作,以便后续处理;
在特征提取阶段,系统会从原始告警数据中提取出有用的特征,如时间序列、事件类型、异常值等;
在模型训练阶段,系统会根据提取出的特征训练出一个决策树模型,该模型可以用于预测新告警是否与已有运行数据或已有诊断结果有关;
在模型评估阶段,系统会对训练好的模型进行评估,以确定其准确性和鲁棒性;
在模型调整优化阶段,在固定时间段(告警事件产生的时间段)后,根据模型评估的结果,调整模型算法,训练出可以取得更好评估结果的模型。
优选的,上述系统的核心组件的流程为:运行数据收集、运行数据预处理、关联分析以及生成告警处理建议。
具体的,在运行数据收集阶段,系统会收集监控系统、日志系统中连续时间序列数据和时间事件数据,以便后续分析;
进一步的的,
在运行数据预处理阶段,系统会对运行数据进行清洗、去重、格式化等操作,以便后续处理;
在关联分析阶段,系统会根据原始告警数据,在历史时间事件数据或历史诊断结果中找出可靠的参考数据,并生成分析结果和处理建议;
在生成告警处理建议阶段,系统会把分析结果和处理建议存入数据库,以便后续运维人员查询引用和参考,并提供模型调整和优化的依据。
在一些实施例中,本系统将输入数据(运维人员需要维护的业务系统运行过程中产生的运行信息记录)分为两类:连续时间序列数据和时间事件数据,其中时间序列是实值数据点的序列,通常在均匀时间间隔间隔的连续时间点上测量,例如服务器的cpu利用率;事件序列用于记录特定软件消息的出现情况,表明系统中发生了某些事情,例如,内存不足的事件序列包含内存不足的事件,当系统中没有足够的内存时发生。
进一步的,通过关联分析在获取这两类数据的基础上,进行相关性分析(时间序列数据与时间事件是否相关)、得到数据的时间依赖顺序(从而导出数据产生的因果关系)、分析数据之间的依赖性单调效应(即正相关或负相关)进而提供事件诊断的参考建议,从而通过关联分析为运维工作中的告警事件诊断提供参考。
如图4所示为本系统的拓扑结构图,其展示了根据监控系统和日志系统获取时间序列数据和时间事件数据,再根据告警关联系统获取告警关联分析结果和告警处理建议并发送至运维人员;除告警分析功能以外,该系统还可以根据用户需要实现其他类型业务。
在一些实施例中,该系统的告警通知通常要求实时通知到运维人员,为了不影响告警通知的响应速度,本系统设计了两种异步方案。
方案一:分析结果存入数据库,当运维人员收到告警通知后,可以通过关联的告警事件查询到相应的关联分析结果和告警处理建议。
方案二:分析结果存入数据库进行归档或作为模型优化的训练集,同时,通过消息服务(此处指和告警通知相同的技术实现)把关联分析结果和告警处理建议推送给运维人员。
这两种方法均是为了实现关联分析结果和告警处理建议更合理、快速的被处理。
在一些实施例中,假设用户业务系统A,该系统的功能是为用户提交的视频文件进行转码(例如mp4转avi)业务系统A使用了分布式架构设计,包含一个控制节点和两个工作节点。
其中,业务系统A具有监控系统,实时监控服务器的性能指标(cpu利用率,内存占用率,磁盘使用率,网络带宽等),分别记为[S1,S2,S3,S4,…];
业务系统A还具有日志系统,实时记录服务运行日志(假设日志格式:日志等级,时间戳,调用函数或方法,具体信息文本),一条日志记为一个事件E,多个服务在指定时刻有事件集,分别记为[E1,E2,E3,E4,…];
当告警关联分析系统运行时,包含一个已经训练完成的决策树模型,具体的:
(1)当告警关联分析系统接入用户业务系统,就开始定时同步业务系统的监控数据和日志数据。
所以在指定时刻,例如13:00,有根据服务器分组的数据集:
时间序列S1 = [s1,s2,s3,s4,…],[s5,s6,s7,s8,…],[s9,s10,s11,s12,…]
和事件序列E1 = [e1,e2,e3,e4,…],[e5,e6,e7,e8,…],[e9,e10,e11,e12,…]
如果事件序列 E1 与时间序列 S1 存在相关关系, 则事件 E1 每发生一次,时间序列 S1 就会发生相应的变化,每个变化都表示为 S1 的一个子序列;
(2)当用户业务系统产生告警事件,随后该告警事件会即时通知到运维人员,随后由该告警自动生成一条关联分析任务,记为任务a;
(3)系统根据告警产生的时间,抽取该时刻前后一定范围内的数据作为关联分析的数据源,进行关联性分析;
(4)分析结束后得到关于时间序列S1和事件序列E1的相关性(包括置信程度a,单调效应b);此时不仅可以得出S1和E1的相关程度,还有因果关系,这里可以输出告警分析结果outputA;例如:由S1(cpu = 100,…) ->E1 (出现error级别的日志信息,包含方法名或函数名),可以推出结论:这个error错误在置信程度a内可以认为是cpu=100导致的;
(5)然后将S1,E1,和a,b作为样本的特征向量作为参数,通过训练好的模型,推理出可以采取的告警处理建议outputB;
(6)新建一条数据库记录,把任务a作为记录的主键,outputA、outputB作为该记录的其他属性,插入数据库,用于后续运维人员调用api主动查询,或通过系统发送短信/邮件通知给运维人员。
本申请还提出了一种可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行如下步骤:
根据原始告警数据训练告警信息关联模型;
在告警信息关联模型训练完成后,利用其输出当前运行数据的告警关联信息;
将当前运行数据的告警关联信息作为样本集数据;
根据样本集数据对告警信息关联模型进行调整并输出下一次当前运行数据的告警关联信息。
本申请还提出了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行如下步骤;
根据原始告警数据训练告警信息关联模型;
在告警信息关联模型训练完成后,利用其输出当前运行数据的告警关联信息;
将当前运行数据的告警关联信息作为样本集数据;
根据样本集数据对告警信息关联模型进行调整并输出下一次当前运行数据的告警关联信息。
本领域普通技术人员能够理解实现上述实施例方法中的全部或部分流程,是能够通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM (SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM (ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征能够进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还能够做出若干变形和改进,这些都属于本申请的保护范围,以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种用于告警信息的关联方法,其特征在于,所述方法包括下列步骤:
根据原始告警数据训练告警信息关联模型;
在所述告警信息关联模型训练完成后,利用其输出当前运行数据的告警关联信息;
将所述当前运行数据的告警关联信息作为样本集数据;
根据所述样本集数据对告警信息关联模型进行调整并输出下一次当前运行数据的告警关联信息。
2.根据权利要求1所述的用于告警信息的关联方法,其特征在于,所述根据原始告警数据训练告警信息关联模型,具体包括:
采集所述原始告警数据;
对所述原始告警数据进行预处理,确定第一告警数据;
对所述第一告警数据进行特征提取,确定若干个特征;
将所述若干个特征输入告警信息关联模型中,获取关联结果;
当所述关联结果的准确率达到准确率阈值时,则告警信息关联模型训练完成。
3.根据权利要求2所述的用于告警信息的关联方法,其特征在于,所述第一告警数据,具体包括:业务监控指标和业务日志数据;其中,业务监控指标包括但不限于cpu利用率、内存占用率、磁盘使用率、url的每秒请求数、响应时间以及网络带宽;业务日志数据包括:时间戳、进程上下文信息、函数名、方法名、相关性参数、错误编码、报错信息。
4.根据权利要求2所述的用于告警信息的关联方法,其特征在于,所述对所述第一告警数据进行特征提取,确定若干个特征,具体包括:从所述第一告警数据中提取其时间序列、事件类型、异常值、单调效应信息和置信程度。
5.根据权利要求2所述的用于告警信息的关联方法,其特征在于,所述将所述若干个特征输入告警信息关联模型中,获取关联结果,具体包括:
根据所述若干个特征构建决策树模型;
根据所述决策树模型判断当前输入的第一告警数据中业务监控指标和业务日志数据之间的相关性;
根据所述相关性确定第一告警数据是否与数据库中运行数据或诊断结果有关;
若有,输出数据库中运行数据对应的诊断结果或数据库中诊断结果。
6.根据权利要求1所述的用于告警信息的关联方法,其特征在于,所述将所述当前运行数据的告警关联信息作为样本集数据之后,还包括:
获取当前运行数据的连续时间序列数据和时间事件数据;
对所述连续时间序列数据和时间事件数据进行相关性分析;
获取所述连续时间序列数据和时间事件数据的时间依赖顺序和单调效应信息;
根据所述时间依赖顺序和单调效应信息对告警信息关联模型进行调整。
7.根据权利要求6所述的用于告警信息的关联方法,其特征在于,所述根据所述样本集数据对告警信息关联模型进行调整并输出下一次当前运行数据的告警关联信息之后,还包括:
将所述告警关联信息存入数据库进行归档并作为模型优化的训练集;
根据所述告警关联信息在现有数据库中确定对应的告警建议;
将所述告警关联信息和与其对应的告警建议推送至运维人员。
8.一种用于告警信息的关联系统,其特征在于,所述系统包括:告警信息关联模型获取单元、告警关联信息获取单元、样本集数据获取单元;
所述告警信息关联模型获取单元,用于根据原始告警数据训练告警信息关联模型;
所述告警关联信息获取单元,用于在所述告警信息关联模型训练完成后,利用其输出当前运行数据的告警关联信息、根据所述样本集数据对告警信息关联模型进行调整并输出下一次当前运行数据的告警关联信息;
所述样本集数据获取单元,用于将所述当前运行数据的告警关联信息作为样本集数据。
9.一种可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求 1至7中任一一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一一项中所述方法的步骤。
CN202311452061.7A 2023-11-03 2023-11-03 用于告警信息的关联方法、系统、存储介质及设备 Pending CN117170997A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311452061.7A CN117170997A (zh) 2023-11-03 2023-11-03 用于告警信息的关联方法、系统、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311452061.7A CN117170997A (zh) 2023-11-03 2023-11-03 用于告警信息的关联方法、系统、存储介质及设备

Publications (1)

Publication Number Publication Date
CN117170997A true CN117170997A (zh) 2023-12-05

Family

ID=88945413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311452061.7A Pending CN117170997A (zh) 2023-11-03 2023-11-03 用于告警信息的关联方法、系统、存储介质及设备

Country Status (1)

Country Link
CN (1) CN117170997A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110247792A (zh) * 2019-05-28 2019-09-17 广东南方通信建设有限公司 一种基于网络告警关联的故障处理方法及装置
US20200348659A1 (en) * 2019-05-03 2020-11-05 Chevron U.S.A. Inc. Automated model building and updating environment
CN113497725A (zh) * 2020-04-01 2021-10-12 中国移动通信集团山东有限公司 告警监控方法、系统、计算机可读存储介质及电子设备
CN113791926A (zh) * 2021-09-18 2021-12-14 平安普惠企业管理有限公司 智能告警分析方法、装置、设备及存储介质
WO2023040381A1 (zh) * 2021-09-18 2023-03-23 中兴通讯股份有限公司 告警因果关系挖掘方法、告警因果挖掘装置及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200348659A1 (en) * 2019-05-03 2020-11-05 Chevron U.S.A. Inc. Automated model building and updating environment
CN110247792A (zh) * 2019-05-28 2019-09-17 广东南方通信建设有限公司 一种基于网络告警关联的故障处理方法及装置
CN113497725A (zh) * 2020-04-01 2021-10-12 中国移动通信集团山东有限公司 告警监控方法、系统、计算机可读存储介质及电子设备
CN113791926A (zh) * 2021-09-18 2021-12-14 平安普惠企业管理有限公司 智能告警分析方法、装置、设备及存储介质
WO2023040381A1 (zh) * 2021-09-18 2023-03-23 中兴通讯股份有限公司 告警因果关系挖掘方法、告警因果挖掘装置及存储介质

Similar Documents

Publication Publication Date Title
CN108537544B (zh) 一种交易系统实时监控方法及其监控系统
CN106951984B (zh) 一种系统健康度动态分析预测方法及装置
CN109117941A (zh) 告警预测方法、系统、存储介质及计算机设备
CN113282461B (zh) 传输网的告警识别方法和装置
CN112231181B (zh) 数据异常更新检测方法、装置、计算机设备及存储介质
CN112579728B (zh) 基于海量数据全文检索的行为异常识别方法及装置
CN111078513B (zh) 日志处理方法、装置、设备、存储介质及日志告警系统
CN111475370A (zh) 基于数据中心的运维监控方法、装置、设备及存储介质
CN110489314A (zh) 模型异常检测方法、装置、计算机设备和存储介质
CN113568774B (zh) 使用无监督深度神经网络的多维时序数据实时异常检测方法
CN115514619B (zh) 告警收敛方法及系统
CN108306997B (zh) 域名解析监控方法及装置
CN113760670A (zh) 电缆接头异常预警方法、装置、电子设备和存储介质
CN115204536A (zh) 楼宇设备故障预测方法、装置、设备及存储介质
CN112699048B (zh) 基于人工智能的程序故障处理方法、装置、设备及存储介质
CN108613820A (zh) 一种用于gis本体机械缺陷诊断和定位的在线异声监测算法
CN117170997A (zh) 用于告警信息的关联方法、系统、存储介质及设备
CN117170915A (zh) 数据中心设备故障预测方法、装置和计算机设备
CN114676021A (zh) 作业日志监控方法、装置、计算机设备和存储介质
CN112860527A (zh) 应用服务器的故障监测方法及装置
CN113836203A (zh) 一种网络数据化诊断检测分析系统
CN112582080A (zh) 一种物联网设备状态监测方法及系统
CN116755910B (zh) 基于冷启动的宿主机高可用预测方法、装置和电子设备
CN115982622B (zh) 核反应堆冷却剂系统运行瞬态快速识别方法、装置及系统
CN117556187B (zh) 基于深度学习的云数据修复方法、系统及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination