CN115391151B - 一种基于对象关系进行智能发现告警标签的方法 - Google Patents

一种基于对象关系进行智能发现告警标签的方法 Download PDF

Info

Publication number
CN115391151B
CN115391151B CN202211316914.XA CN202211316914A CN115391151B CN 115391151 B CN115391151 B CN 115391151B CN 202211316914 A CN202211316914 A CN 202211316914A CN 115391151 B CN115391151 B CN 115391151B
Authority
CN
China
Prior art keywords
alarm
data
model
module
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211316914.XA
Other languages
English (en)
Other versions
CN115391151A (zh
Inventor
杨骏
郭学威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tengyun Yuezhi Technology Changsha Co ltd
Original Assignee
Tengyun Yuezhi Technology Changsha Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tengyun Yuezhi Technology Changsha Co ltd filed Critical Tengyun Yuezhi Technology Changsha Co ltd
Priority to CN202211316914.XA priority Critical patent/CN115391151B/zh
Publication of CN115391151A publication Critical patent/CN115391151A/zh
Application granted granted Critical
Publication of CN115391151B publication Critical patent/CN115391151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开一种基于对象关系进行智能发现告警标签的方法,通过设置对象之间的关系亲密度值,并给告警对象配置告警规则,当告警规则被触发时,生成对应告警对象的告警事件,分析告警事件提取出对应的告警对象,然后进行智能算法分析生成告警聚类标签,由运维人员对告警聚类结果和/或标签进行标记,再进行人为分析,从而调整运维策略,降低系统连续性风险。本发明基于配置管理数据库里面的对象关系及告警信息文本进行综合分析,对告警信息进行自动聚类,由工程师确认并对相应的聚类结果进行标签命名,帮助运维工程师发现告警信息隐藏的分布规律,更好地进行运维策略调整,持续提高业务系统连续性。

Description

一种基于对象关系进行智能发现告警标签的方法
技术领域
本发明涉及网络运维技术领域,尤其涉及一种基于对象关系进行智能发现告警标签的方法。
背景技术
了解运维告警信息的分布规律,可以更好地指导运维工程师进行运维策略的调整,持续提高业务系统的连续性。目前运维工程师一般是通过人工规则匹配的方式进行告警信息的分类或标注,主要会遇到以下问题:
1.基于人工规则进行告警信息的分类或标注依赖于运维工程师的经验,分类或标注的质量参差不齐,效率低下,不能很好地指导运维人员进行运维策略的调整及风险的识别;
2.现有运维告警管理系统对于告警信息的分类或标注都是一维的,不能多维地进行分类或标注。
因此,现有技术存在缺陷,需要改进。
发明内容
本发明的目的是克服现有技术的不足,提供一种基于对象关系进行智能发现告警标签的方法。
本发明的技术方案如下:提供一种基于对象关系进行智能发现告警标签的方法,包括如下步骤:
步骤1:设置对象关系的亲密度值,所设置的对象关系亲密度包括依赖、关联、聚合以及组合,对所述对象关系亲密度分别进行赋值为:依赖=1、关联=2、聚合=3、组合=4;
步骤2:配置管理数据库中记录各告警对象,以及各告警对象之间的关系的亲密度值;
步骤3:给告警对象配置告警规则;
步骤4:当告警规则被触发时,生成对应告警对象的告警事件;
步骤5:分析告警事件的文本,提取出告警事件对应的告警对象;
步骤6:基于不同的告警事件的对象关系及告警的内容进行智能算法分析,生成告警聚类标签;
步骤7:运维人员给生成的告警聚类结果和/或标签标记名称;
步骤8:基于告警聚类结果和/或标签运维人员通过人为分析去调整运维策略,降低系统连续性风险。
进一步地,所述步骤3中的告警规则为用户根据监控指标划分层次选择相应的参数进行设置,所述监控指标划分层次包括:
用户体验监控:包括页面响应时间、拨测登录、页面渲染时间、以及接口响应时间四个配置参数;
业务监控:包括访问量、页面浏览量、日活跃量、交易量、交易时长、以及交易成功率六个配置参数;
应用监控:包括请求量、响应时间、响应成功率、建边成功率、以及调用链路五个配置参数;
中间件监控:包括中间件、数据库、以及容器监控三个配置参数;
系统监控:包括操作系统以及虚拟机两个配置参数,其中,操作系统包括进程、端口、输入输出端口、网络、中央处理器、内存、以及磁盘七个子项参数,虚拟机包括中央处理器、内存、以及磁盘三个子项参数;
基础设施监控:机房温度、湿度、风扇转速、电压、设备存活状态、以及动环系统六个配置参数。
进一步地,所述步骤6中进行智能算法分析采用的模型包括告警源接收模块、数据查询模块、数据处理模块、模型训练模块以及模型验证模块,其中:
告警源接收模块,用于获取系统或业务的告警信息,并对告警信息做部分预处理;
数据查询模块,用于查询配置管理数据库相关数据,并获取相关数据,以便后续的数据加工;
数据处理模块,用于处理告警数据,对所述告警数据进行特征提取,得到特征数据;
模型训练模块,用于通过训练数据对告警识别模型进行训练,当训练误差值满足预设值时结束训练;
模型验证模块,用于将验证数据输入至训练后的告警识别模型,验证告警标签识别效果。
进一步地,所述数据查询模块所获取的数据为对象间的关系的亲密度值的特征数据。
进一步地,所述数据处理模块对告警数据的处理以及特征提取的流程步骤为:
步骤a1:将告警数据进行整合;
步骤a2:将整合的告警数据进行清洗,对不合理值、空值利用对应时间点左右的数据进行线性拟合替代;
步骤a3:通过设定的业务知识和随机组合进行特征构建;
步骤a4:通过训练模型的分数和业务知识确定最终的特征。
进一步地,所述模型训练模块的模型训练流程步骤为:
步骤b1:将整合的告警数据;
步骤b2:将整合的告警数据注入到LightGBM和双向RNN模型中,RNN模型在数据注入前将特征向量化为300维;
步骤b3:针对每个维度输出多分类的结果,采取其中最优的分类结果;
步骤b4:对采取的最优分类结果进行校验,对多分类micro分数大于80%的进行置信,采取该分类结果。
采用上述方案,本发明基于配置管理数据库里面的对象关系及告警信息文本进行综合分析,对告警信息进行自动聚类,由工程师确认并对相应的聚类结果进行标签命名,帮助运维工程师发现告警信息隐藏的分布规律,更好地进行运维策略调整,持续提高业务系统连续性。
附图说明
图1为本发明的流程架构图。
图2为告警标签的算法模块的框架图。
具体实施方式
以下结合附图和具体实施例,对本发明进行详细说明。
请参阅图1,本发明提供一种基于对象关系进行智能发现告警标签的方法,包括如下步骤:
步骤1:设置对象关系的亲密度值 。
所设置的对象关系亲密度包括依赖、关联、聚合以及组合,分别进行赋值为:依赖=1、关联=2、聚合=3、组合=4。其中:
依赖:代表对象之间的关系是偶然的,临时性的,比较脆弱,比如应用程序和对象存储资源(应用程序可能会临时性的用到对象存储资源);
关联:代表对象之间有比较强的关系,与依赖相比,这种关系不是临时性的,它是长期的,比如主机和应用服务(应用服务长期运行在主机上对外提供服务);
聚合:聚合是关联的一种特例,语义上表示整体和个体概念,但是这个整体和个体是可以分离的,整体和个体生命周期是独立的,比如集群和主机(集群由主机构成,主机可以属于不同的集群,也可以从集群脱离);
组合:组合也是主体和部分的概念,整体和部分是不可以分离的,他们的生命周期是关联在一起的,主体灭亡,部分也会随着灭亡,比如主机和中央处理器CPU。
步骤2:配置管理数据库(CMBD)中记录各告警对象,以及各告警对象之间的关系的亲密度值。
配置管理数据库(配置管理数据库)是一个逻辑数据库,包含了配置项全生命周期的信息以及配置项之间的关系(包括物理关系、实时通信关系、非实时通信关系和依赖关系)。配置管理数据库存储于管理企业IT架构中设备的各种配置信息,与所有服务支持和服务交付流程都紧密相连,支持这些流程的运转,发挥配置信息的价值,同时依赖于相关流程保证数据的准确性。
步骤3:给告警对象配置告警规则。告警规则为用户根据监控指标划分层次选择相应的参数进行设置,所述监控指标划分层次包括:
用户体验监控:包括页面响应时间、拨测登录、页面渲染时间、以及接口响应时间四个配置参数;
业务监控:包括访问量UV、页面浏览量PV、日活跃量DAU、交易量、交易时长、以及交易成功率六个配置参数;
应用监控:包括请求量、响应时间、响应成功率、建边成功率、以及调用链路五个配置参数;
中间件监控:包括中间件、数据库、以及容器监控三个配置参数;
系统监控:包括操作系统以及虚拟机两个配置参数,其中,操作系统包括进程、端口、输入输出端口IO、网络、中央处理器CPU、内存、以及磁盘七个子项参数,虚拟机包括中央处理器CPU、内存、以及磁盘三个子项参数;
基础设施监控:机房温度、湿度、风扇转速、电压、设备存活状态、以及动环系统六个配置参数。
例如,设定中央处理器CPU使用率大于90%,页面响应时间大于100ms时触发告警,则会将不满足设定条件的信息进行过滤,便于生成对应告警对象的告警事件。
步骤4:当告警规则被触发时,生成对应告警对象的告警事件。
步骤5:分析告警事件的文本,提取出告警事件对应的告警对象。
步骤6:基于不同的告警事件的对象关系及告警的内容进行智能算法分析,生成告警聚类标签。请参阅图2,进行智能算法分析采用的模型包括告警源接收模块、数据查询模块、数据处理模块、模型训练模块以及模型验证模块,其中:
告警源接收模块,用于获取系统或业务的告警信息,并对告警信息做部分预处理。
数据查询模块,用于查询配置管理数据库相关数据,并获取相关数据,如对象间的关系的亲密度值的特征数据,以便后续的数据加工。
数据处理模块,用于处理告警数据,对所述告警数据进行特征提取,得到特征数据。告警数据包括:
告警信息维度:告警基本信息、告警文本信息、预设的各种告警阈值、实际发生的各种值、以及时间情况;
配置管理数据库维度:告警对象的图关系、告警对象的环境信息等。
所述数据处理模块对告警数据的处理以及特征提取的流程步骤为:
步骤a1:将告警数据进行整合。
步骤a2:将整合的告警数据进行清洗,对不合理值、空值利用对应时间点左右的数据进行线性拟合替代。
步骤a3:通过设定的业务知识和随机组合进行特征构建。业务知识如3sigma、极值等,随机组合是通过如极值和均值的运算进行随机生成。
步骤a4:通过训练模型的分数和业务知识确定最终的特征。
模型训练模块,用于通过训练数据对告警识别模型进行训练,当训练误差值满足预设值时结束训练。例如该技术中使用融合模型(树模型及神经网络模型)方法进行告警分类,分为多层类别,每个告警都有每个层面的标签。
所述模型训练模块的模型训练流程步骤为:
步骤b1:将整合的告警数据;
步骤b2:将整合的告警数据注入到LightGBM和双向RNN模型中,RNN模型在数据注入前将特征向量化为300维;
步骤b3:针对每个维度输出多分类的结果,采取其中最优的分类结果;
步骤b4:对采取的最优分类结果进行校验,对多分类micro分数大于80%的进行置信,采取该分类结果。
模型验证模块,用于将验证数据输入至训练后的告警识别模型,验证告警标签识别效果。
步骤7:运维人员给生成的告警聚类结果和/或标签标记名称。
步骤8:基于告警聚类结果和/或标签运维人员通过人为分析去调整运维策略,降低系统连续性风险。
现有技术的主要缺点是无法自动发现告警分类的类型,无法发现告警信息隐藏的分布规律,本发明基于配置管理数据库里面的对象关系及告警信息文本进行综合分析,对告警信息进行自动聚类,由工程师确认并对相应的聚类结果进行标签命名,帮助运维工程师发现告警信息隐藏的分布规律,更好地进行运维策略调整,持续提高业务系统连续性。
以上仅为本发明的较佳实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于对象关系进行智能发现告警标签的方法,其特征在于,包括如下步骤:
步骤1:设置对象关系的亲密度值,所设置的对象关系亲密度包括依赖、关联、聚合以及组合,对所述对象关系亲密度分别进行赋值为:依赖=1、关联=2、聚合=3、组合=4;
步骤2:配置管理数据库中记录各告警对象,以及各告警对象之间的关系的亲密度值;
步骤3:给告警对象配置告警规则;
步骤4:当告警规则被触发时,生成对应告警对象的告警事件;
步骤5:分析告警事件的文本,提取出告警事件对应的告警对象;
步骤6:基于不同的告警事件的对象关系及告警的内容进行智能算法分析,生成告警聚类标签;
步骤7:运维人员给生成的告警聚类结果和/或标签标记名称;
步骤8:基于告警聚类结果和/或标签运维人员通过人为分析去调整运维策略,降低系统连续性风险。
2.根据权利要求1所述的基于对象关系进行智能发现告警标签的方法,其特征在于,所述步骤3中的告警规则为用户根据监控指标划分层次选择相应的参数进行设置,所述监控指标划分层次包括:
用户体验监控:包括页面响应时间、拨测登录、页面渲染时间、以及接口响应时间四个配置参数;
业务监控:包括访问量、页面浏览量、日活跃量、交易量、交易时长、以及交易成功率六个配置参数;
应用监控:包括请求量、响应时间、响应成功率、建边成功率、以及调用链路五个配置参数;
中间件监控:包括中间件、数据库、以及容器监控三个配置参数;
系统监控:包括操作系统以及虚拟机两个配置参数,其中,操作系统包括进程、端口、输入输出端口、网络、中央处理器、内存、以及磁盘七个子项参数,虚拟机包括中央处理器、内存、以及磁盘三个子项参数;
基础设施监控:机房温度、湿度、风扇转速、电压、设备存活状态、以及动环系统六个配置参数。
3.根据权利要求1所述的基于对象关系进行智能发现告警标签的方法,其特征在于,所述步骤6中进行智能算法分析采用的模型包括告警源接收模块、数据查询模块、数据处理模块、模型训练模块以及模型验证模块,其中:
告警源接收模块,用于获取系统或业务的告警信息,并对告警信息做部分预处理;
数据查询模块,用于查询配置管理数据库相关数据,并获取相关数据,以便后续的数据加工;
数据处理模块,用于处理告警数据,对所述告警数据进行特征提取,得到特征数据;
模型训练模块,用于通过训练数据对告警识别模型进行训练,当训练误差值满足预设值时结束训练;
模型验证模块,用于将验证数据输入至训练后的告警识别模型,验证告警标签识别效果。
4.根据权利要求3所述的基于对象关系进行智能发现告警标签的方法,其特征在于,所述数据查询模块所获取的数据为对象间的关系的亲密度值的特征数据。
5.根据权利要求3所述的基于对象关系进行智能发现告警标签的方法,其特征在于,所述数据处理模块对告警数据的处理以及特征提取的流程步骤为:
步骤a1:将告警数据进行整合;
步骤a2:将整合的告警数据进行清洗,对不合理值、空值利用对应时间点左右的数据进行线性拟合替代;
步骤a3:通过设定的业务知识和随机组合进行特征构建;
步骤a4:通过训练模型的分数和业务知识确定最终的特征。
6.根据权利要求3所述的基于对象关系进行智能发现告警标签的方法,其特征在于,所述模型训练模块的模型训练流程步骤为:
步骤b1:将整合的告警数据;
步骤b2:将整合的告警数据注入到LightGBM和双向RNN模型中,RNN模型在数据注入前将特征向量化为300维;
步骤b3:针对每个维度输出多分类的结果,采取其中最优的分类结果;
步骤b4:对采取的最优分类结果进行校验,对多分类micro分数大于80%的进行置信,采取该分类结果。
CN202211316914.XA 2022-10-26 2022-10-26 一种基于对象关系进行智能发现告警标签的方法 Active CN115391151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211316914.XA CN115391151B (zh) 2022-10-26 2022-10-26 一种基于对象关系进行智能发现告警标签的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211316914.XA CN115391151B (zh) 2022-10-26 2022-10-26 一种基于对象关系进行智能发现告警标签的方法

Publications (2)

Publication Number Publication Date
CN115391151A CN115391151A (zh) 2022-11-25
CN115391151B true CN115391151B (zh) 2023-04-07

Family

ID=84127788

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211316914.XA Active CN115391151B (zh) 2022-10-26 2022-10-26 一种基于对象关系进行智能发现告警标签的方法

Country Status (1)

Country Link
CN (1) CN115391151B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115664938B (zh) * 2022-12-26 2023-04-21 北京天维信通科技有限公司 基于irc平台的非线性统计告警方法、装置和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101022366A (zh) * 2007-03-21 2007-08-22 Ut斯达康通讯有限公司 一种故障关联分析系统以及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11907833B2 (en) * 2018-11-27 2024-02-20 The Boeing Company System and method for generating an aircraft fault prediction classifier
CN110321268B (zh) * 2019-06-12 2022-11-08 平安科技(深圳)有限公司 一种告警信息处理方法及装置
CN113839802A (zh) * 2020-06-24 2021-12-24 中兴通讯股份有限公司 树模型构建方法、装置、设备和存储介质
CN113778792B (zh) * 2021-08-19 2023-12-26 济南浪潮数据技术有限公司 一种it设备的告警归类方法及系统
CN113946464B (zh) * 2021-10-19 2022-08-12 腾云悦智科技(深圳)有限责任公司 一种结合模型及经验的预训练和并行推演的告警降噪方法
CN115034315A (zh) * 2022-06-16 2022-09-09 中国平安人寿保险股份有限公司 基于人工智能的业务处理方法、装置、计算机设备及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101022366A (zh) * 2007-03-21 2007-08-22 Ut斯达康通讯有限公司 一种故障关联分析系统以及方法

Also Published As

Publication number Publication date
CN115391151A (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
CN109918452A (zh) 一种数据处理的方法、装置、计算机存储介质及终端
CN110110335A (zh) 一种基于层叠模型的命名实体识别方法
CN108427669A (zh) 异常行为监控方法和系统
US20220179884A1 (en) Label Determining Method, Apparatus, and System
CN104636751A (zh) 基于时间递归神经网络的人群异常检测和定位系统及方法
CN110008343A (zh) 文本分类方法、装置、设备及计算机可读存储介质
CN113626607B (zh) 异常工单识别方法、装置、电子设备及可读存储介质
WO2021159834A1 (zh) 异常信息处理节点分析方法、装置、介质及电子设备
CN104252627A (zh) Svm分类器训练样本获取方法、训练方法及其系统
CN115391151B (zh) 一种基于对象关系进行智能发现告警标签的方法
CN111953757B (zh) 基于云计算和智能设备交互的信息处理方法及云端服务器
CN109886334A (zh) 一种隐私保护的共享近邻密度峰聚类方法
CN108304432A (zh) 信息推送处理方法、信息推送处理装置及存储介质
CN108268886A (zh) 用于识别外挂操作的方法及系统
CN110309234A (zh) 一种基于知识图谱的客户持仓预警方法、装置及存储介质
CN113486983A (zh) 一种用于反欺诈处理的大数据办公信息分析方法及系统
CN114329455A (zh) 基于异构图嵌入的用户异常行为检测方法及装置
CN112215655B (zh) 一种客户画像的标签管理方法及系统
CN102902614A (zh) 一种动态监测及智能引导方法
CN115062676B (zh) 数据处理方法、装置及计算机可读存储介质
CN112099766A (zh) 一种灵活定制企业应用系统的需求管理工具集
CN113673889A (zh) 一种智能化数据资产识别的方法
CN109583712B (zh) 一种数据指标分析方法及装置、存储介质
CN109615075B (zh) 一种基于多层聚类模型的居民日常行为识别方法
CN110163684A (zh) 一种对电信合作伙伴欺诈行为的标记方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant