CN115391151B

CN115391151B - 一种基于对象关系进行智能发现告警标签的方法

Info

Publication number: CN115391151B
Application number: CN202211316914.XA
Authority: CN
Inventors: 杨骏; 郭学威
Original assignee: Tengyun Yuezhi Technology Changsha Co ltd
Current assignee: Tengyun Yuezhi Technology Changsha Co ltd
Priority date: 2022-10-26
Filing date: 2022-10-26
Publication date: 2023-04-07
Anticipated expiration: 2042-10-26
Also published as: CN115391151A

Abstract

本发明公开一种基于对象关系进行智能发现告警标签的方法，通过设置对象之间的关系亲密度值，并给告警对象配置告警规则，当告警规则被触发时，生成对应告警对象的告警事件，分析告警事件提取出对应的告警对象，然后进行智能算法分析生成告警聚类标签，由运维人员对告警聚类结果和/或标签进行标记，再进行人为分析，从而调整运维策略，降低系统连续性风险。本发明基于配置管理数据库里面的对象关系及告警信息文本进行综合分析，对告警信息进行自动聚类，由工程师确认并对相应的聚类结果进行标签命名，帮助运维工程师发现告警信息隐藏的分布规律，更好地进行运维策略调整，持续提高业务系统连续性。

Description

一种基于对象关系进行智能发现告警标签的方法

技术领域

本发明涉及网络运维技术领域，尤其涉及一种基于对象关系进行智能发现告警标签的方法。

背景技术

了解运维告警信息的分布规律，可以更好地指导运维工程师进行运维策略的调整，持续提高业务系统的连续性。目前运维工程师一般是通过人工规则匹配的方式进行告警信息的分类或标注，主要会遇到以下问题：

1.基于人工规则进行告警信息的分类或标注依赖于运维工程师的经验，分类或标注的质量参差不齐，效率低下，不能很好地指导运维人员进行运维策略的调整及风险的识别；

2.现有运维告警管理系统对于告警信息的分类或标注都是一维的，不能多维地进行分类或标注。

因此，现有技术存在缺陷，需要改进。

发明内容

本发明的目的是克服现有技术的不足，提供一种基于对象关系进行智能发现告警标签的方法。

本发明的技术方案如下：提供一种基于对象关系进行智能发现告警标签的方法，包括如下步骤：

步骤1：设置对象关系的亲密度值，所设置的对象关系亲密度包括依赖、关联、聚合以及组合，对所述对象关系亲密度分别进行赋值为：依赖=1、关联=2、聚合=3、组合=4；

步骤2：配置管理数据库中记录各告警对象，以及各告警对象之间的关系的亲密度值；

步骤3：给告警对象配置告警规则；

步骤4：当告警规则被触发时，生成对应告警对象的告警事件；

步骤5：分析告警事件的文本，提取出告警事件对应的告警对象；

步骤6：基于不同的告警事件的对象关系及告警的内容进行智能算法分析，生成告警聚类标签；

步骤7：运维人员给生成的告警聚类结果和/或标签标记名称；

步骤8：基于告警聚类结果和/或标签运维人员通过人为分析去调整运维策略，降低系统连续性风险。

进一步地，所述步骤3中的告警规则为用户根据监控指标划分层次选择相应的参数进行设置，所述监控指标划分层次包括：

用户体验监控：包括页面响应时间、拨测登录、页面渲染时间、以及接口响应时间四个配置参数；

业务监控：包括访问量、页面浏览量、日活跃量、交易量、交易时长、以及交易成功率六个配置参数；

应用监控：包括请求量、响应时间、响应成功率、建边成功率、以及调用链路五个配置参数；

中间件监控：包括中间件、数据库、以及容器监控三个配置参数；

系统监控：包括操作系统以及虚拟机两个配置参数，其中，操作系统包括进程、端口、输入输出端口、网络、中央处理器、内存、以及磁盘七个子项参数，虚拟机包括中央处理器、内存、以及磁盘三个子项参数；

基础设施监控：机房温度、湿度、风扇转速、电压、设备存活状态、以及动环系统六个配置参数。

进一步地，所述步骤6中进行智能算法分析采用的模型包括告警源接收模块、数据查询模块、数据处理模块、模型训练模块以及模型验证模块，其中：

告警源接收模块，用于获取系统或业务的告警信息，并对告警信息做部分预处理；

数据查询模块，用于查询配置管理数据库相关数据，并获取相关数据，以便后续的数据加工；

数据处理模块，用于处理告警数据，对所述告警数据进行特征提取，得到特征数据；

模型训练模块，用于通过训练数据对告警识别模型进行训练，当训练误差值满足预设值时结束训练；

模型验证模块，用于将验证数据输入至训练后的告警识别模型，验证告警标签识别效果。

进一步地，所述数据查询模块所获取的数据为对象间的关系的亲密度值的特征数据。

进一步地，所述数据处理模块对告警数据的处理以及特征提取的流程步骤为：

步骤a1：将告警数据进行整合；

步骤a2：将整合的告警数据进行清洗，对不合理值、空值利用对应时间点左右的数据进行线性拟合替代；

步骤a3：通过设定的业务知识和随机组合进行特征构建；

步骤a4：通过训练模型的分数和业务知识确定最终的特征。

进一步地，所述模型训练模块的模型训练流程步骤为：

步骤b1：将整合的告警数据；

步骤b2：将整合的告警数据注入到LightGBM和双向RNN模型中，RNN模型在数据注入前将特征向量化为300维；

步骤b3：针对每个维度输出多分类的结果，采取其中最优的分类结果；

步骤b4：对采取的最优分类结果进行校验，对多分类micro分数大于80%的进行置信，采取该分类结果。

采用上述方案，本发明基于配置管理数据库里面的对象关系及告警信息文本进行综合分析，对告警信息进行自动聚类，由工程师确认并对相应的聚类结果进行标签命名，帮助运维工程师发现告警信息隐藏的分布规律，更好地进行运维策略调整，持续提高业务系统连续性。

附图说明

图1为本发明的流程架构图。

图2为告警标签的算法模块的框架图。

具体实施方式

以下结合附图和具体实施例，对本发明进行详细说明。

请参阅图1，本发明提供一种基于对象关系进行智能发现告警标签的方法，包括如下步骤：

步骤1：设置对象关系的亲密度值。

所设置的对象关系亲密度包括依赖、关联、聚合以及组合，分别进行赋值为：依赖=1、关联=2、聚合=3、组合=4。其中：

依赖：代表对象之间的关系是偶然的，临时性的，比较脆弱，比如应用程序和对象存储资源（应用程序可能会临时性的用到对象存储资源）；

关联：代表对象之间有比较强的关系，与依赖相比，这种关系不是临时性的，它是长期的，比如主机和应用服务（应用服务长期运行在主机上对外提供服务）；

聚合：聚合是关联的一种特例，语义上表示整体和个体概念，但是这个整体和个体是可以分离的，整体和个体生命周期是独立的，比如集群和主机（集群由主机构成，主机可以属于不同的集群，也可以从集群脱离）；

组合：组合也是主体和部分的概念，整体和部分是不可以分离的，他们的生命周期是关联在一起的，主体灭亡，部分也会随着灭亡，比如主机和中央处理器CPU。

步骤2：配置管理数据库（CMBD）中记录各告警对象，以及各告警对象之间的关系的亲密度值。

配置管理数据库（配置管理数据库）是一个逻辑数据库，包含了配置项全生命周期的信息以及配置项之间的关系（包括物理关系、实时通信关系、非实时通信关系和依赖关系）。配置管理数据库存储于管理企业IT架构中设备的各种配置信息，与所有服务支持和服务交付流程都紧密相连，支持这些流程的运转，发挥配置信息的价值，同时依赖于相关流程保证数据的准确性。

步骤3：给告警对象配置告警规则。告警规则为用户根据监控指标划分层次选择相应的参数进行设置，所述监控指标划分层次包括：

业务监控：包括访问量UV、页面浏览量PV、日活跃量DAU、交易量、交易时长、以及交易成功率六个配置参数；

系统监控：包括操作系统以及虚拟机两个配置参数，其中，操作系统包括进程、端口、输入输出端口IO、网络、中央处理器CPU、内存、以及磁盘七个子项参数，虚拟机包括中央处理器CPU、内存、以及磁盘三个子项参数；

例如，设定中央处理器CPU使用率大于90%，页面响应时间大于100ms时触发告警，则会将不满足设定条件的信息进行过滤，便于生成对应告警对象的告警事件。

步骤4：当告警规则被触发时，生成对应告警对象的告警事件。

步骤5：分析告警事件的文本，提取出告警事件对应的告警对象。

步骤6：基于不同的告警事件的对象关系及告警的内容进行智能算法分析，生成告警聚类标签。请参阅图2，进行智能算法分析采用的模型包括告警源接收模块、数据查询模块、数据处理模块、模型训练模块以及模型验证模块，其中：

告警源接收模块，用于获取系统或业务的告警信息，并对告警信息做部分预处理。

数据查询模块，用于查询配置管理数据库相关数据，并获取相关数据，如对象间的关系的亲密度值的特征数据，以便后续的数据加工。

数据处理模块，用于处理告警数据，对所述告警数据进行特征提取，得到特征数据。告警数据包括：

告警信息维度：告警基本信息、告警文本信息、预设的各种告警阈值、实际发生的各种值、以及时间情况；

配置管理数据库维度：告警对象的图关系、告警对象的环境信息等。

所述数据处理模块对告警数据的处理以及特征提取的流程步骤为：

步骤a1：将告警数据进行整合。

步骤a2：将整合的告警数据进行清洗，对不合理值、空值利用对应时间点左右的数据进行线性拟合替代。

步骤a3：通过设定的业务知识和随机组合进行特征构建。业务知识如3sigma、极值等，随机组合是通过如极值和均值的运算进行随机生成。

步骤a4：通过训练模型的分数和业务知识确定最终的特征。

模型训练模块，用于通过训练数据对告警识别模型进行训练，当训练误差值满足预设值时结束训练。例如该技术中使用融合模型（树模型及神经网络模型）方法进行告警分类，分为多层类别，每个告警都有每个层面的标签。

所述模型训练模块的模型训练流程步骤为：

步骤b1：将整合的告警数据；

步骤7：运维人员给生成的告警聚类结果和/或标签标记名称。

现有技术的主要缺点是无法自动发现告警分类的类型，无法发现告警信息隐藏的分布规律，本发明基于配置管理数据库里面的对象关系及告警信息文本进行综合分析，对告警信息进行自动聚类，由工程师确认并对相应的聚类结果进行标签命名，帮助运维工程师发现告警信息隐藏的分布规律，更好地进行运维策略调整，持续提高业务系统连续性。

以上仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对象关系进行智能发现告警标签的方法，其特征在于，包括如下步骤：

步骤3：给告警对象配置告警规则；

2.根据权利要求1所述的基于对象关系进行智能发现告警标签的方法，其特征在于，所述步骤3中的告警规则为用户根据监控指标划分层次选择相应的参数进行设置，所述监控指标划分层次包括：

3.根据权利要求1所述的基于对象关系进行智能发现告警标签的方法，其特征在于，所述步骤6中进行智能算法分析采用的模型包括告警源接收模块、数据查询模块、数据处理模块、模型训练模块以及模型验证模块，其中：

4.根据权利要求3所述的基于对象关系进行智能发现告警标签的方法，其特征在于，所述数据查询模块所获取的数据为对象间的关系的亲密度值的特征数据。

5.根据权利要求3所述的基于对象关系进行智能发现告警标签的方法，其特征在于，所述数据处理模块对告警数据的处理以及特征提取的流程步骤为：

步骤a1：将告警数据进行整合；

步骤a3：通过设定的业务知识和随机组合进行特征构建；

步骤a4：通过训练模型的分数和业务知识确定最终的特征。

6.根据权利要求3所述的基于对象关系进行智能发现告警标签的方法，其特征在于，所述模型训练模块的模型训练流程步骤为：

步骤b1：将整合的告警数据；