CN114090319A - 基于时间序列的多维度的智能告警压缩方法 - Google Patents

基于时间序列的多维度的智能告警压缩方法 Download PDF

Info

Publication number
CN114090319A
CN114090319A CN202111388842.5A CN202111388842A CN114090319A CN 114090319 A CN114090319 A CN 114090319A CN 202111388842 A CN202111388842 A CN 202111388842A CN 114090319 A CN114090319 A CN 114090319A
Authority
CN
China
Prior art keywords
alarm
root cause
alarms
generated
resource type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111388842.5A
Other languages
English (en)
Inventor
程永新
宋辉
方淑娴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai New Torch Network Information Technology Ltd By Share Ltd
Original Assignee
Shanghai New Torch Network Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai New Torch Network Information Technology Ltd By Share Ltd filed Critical Shanghai New Torch Network Information Technology Ltd By Share Ltd
Priority to CN202111388842.5A priority Critical patent/CN114090319A/zh
Publication of CN114090319A publication Critical patent/CN114090319A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Alarm Systems (AREA)

Abstract

本发明公开了一种基于时间序列的多维度的智能告警压缩方法,包括如下步骤:在新告警产生时,读取设定时间段内的所有告警数据;通过根因分析得到告警之间的关联关系,定位出有关联关系的告警引发根因;根据根因分析结果,将告警合并压缩或者生成新事件;对通过根因分析结果无法进行压缩的告警,按照资源类型进行压缩;对于缺少资源类型或者不满足资源类型压缩的告警,按照专业组进行压缩;重复上述步骤将后续产生的告警压缩合并至相关事件或者生成新事件。本发明通过根因算法标识告警的根因结果,展示告警之间的关联关系,便于运维人员快速甄别故障根因;通过多种维度压缩告警,减少告警量,降低了告警处理的时间成本,提高了告警恢复的效率。

Description

基于时间序列的多维度的智能告警压缩方法
技术领域
本发明涉及一种告警压缩方法,尤其涉及一种基于时间序列的多维度的智能告警压缩方法。
背景技术
随着云计算与大数据技术的日益普及,分布式技术快速发展,业务系统之间的调用层次越来越深,调用关系日益复杂。当业务系统出现故障时,无法从海量告警中快速准确定位引起故障的根因点。
目前市面的解决方法大多根据设备关联关系、告警时间、持续时间等技术参数对告警进行智能压缩。目前的技术方案存在如下问题:1、不能找到多个告警之间的根因关系,无法快速定位故障原因,无法达到智能压缩、智能降噪的目的;2、不能通过告警调度流程有效地保障业务流程顺畅进行,增加人员分析告警、恢复告警的时间成本损耗。因此,需要一种能够定位故障根因、保障业务处理流程的告警压缩方法。
发明内容
本发明要解决的技术问题是提供一种基于时间序列的多维度的智能告警压缩方法,通过根因分析、资源类型或专业组对告警进行多维度的智能压缩,减少告警量的同时便于运维人员快速甄别故障根因。
本发明为解决上述技术问题而采用的技术方案是提供一种基于时间序列的多维度的智能告警压缩方法,包括如下步骤:S1:在告警产生时,读取设定时间段内的所有告警数据;S2:通过根因分析得到各个告警之间的关联关系,定位出有关联关系的告警引发根因;并将告警根因分析结果标记到每一条告警上;S3:根据根因分析结果,将告警合并压缩或者生成新事件;S4:对通过根因分析结果无法进行压缩的告警,按照资源类型进行压缩;S5:对于缺少资源类型或者不满足资源类型压缩的告警,按照专业组进行压缩;S6:重复步骤S1-S5将后续产生的告警压缩合并至相关事件或者生成新事件。
进一步地,所述步骤S2包括:S21:通过故障知识图谱根因分析和曲线波形相似度根因分析,得到告警之间的根因链路;S22:根据根因链路定义告警角色,包括嫌疑人告警、受害者告警、独立告警和群众告警;嫌疑人告警为告警或故障的根源告警;受害者告警为受根源告警影响所产生的告警;独立告警为通过根因分析无法确定是嫌疑人告警或受害者告警的告警;群众告警为应用系统发生故障导致长久存在的独立告警。
进一步地,所述步骤S3中根据根因分析结果进行告警压缩包括:S31:嫌疑人告警产生时立即创建嫌疑人事件;S32:受害者告警产生后合并至相关联的嫌疑人事件;S33:受害者告警已经并入嫌疑人事件后,若有其他相关联的嫌疑人事件产生,则同时将受害者告警自动关联到其他嫌疑人事件;S34:独立告警产生时,生成新事件或者等待后续压缩处理。
进一步地,所述步骤S4中对通过根因分析结果无法进行压缩的独立告警,在第一条独立告警产生时生成事件,后续有独立告警产生时同时满足以下条件时将告警并入相同资源的独立告警事件,否则生成新事件或者等待后续压缩处理:S41:相同资源类型的独立告警距离上一条告警的发生时间在延时时间T1内;S42:相同资源类型的独立告警距离第一条告警的发生时间在时间范围T2内。
进一步地,所述相同资源类型的识别在配置了等同资源类型规则时,可将自身实际资源类型不同的告警等同为相同资源类型,并识别为同一个资源类型;若未配置等同资源类型规则,则按照自身实际资源类型进行识别。
进一步地,所述步骤S5中将缺少资源类型或者不满足资源类型压缩条件的告警定义为难压缩告警,在第一条难压缩告警产生时生成新事件,后续有难压缩告警产生时同时满足以下条件时将难压缩告警并入相同专业组的事件,否则生成新事件:S51:相同专业组的难压缩告警距离上一条告警发生时间在延时时间T3内;S52:相同专业组的难压缩告警距离第一条告警的发生时间在时间范围T4内。
进一步地,所述故障知识图谱根因分析包括:根据CMDB配置模型创建影响模型,通过与、或关系定义CMDB配置模型中各配置项的影响因素,设置影响因素的触发条件,触发条件包括不触发、所有不可用和至少一个不可用;通过告警之间的影响因素来推导计算根因关系。
进一步地,所述曲线波形相似度根因分析通过分析两个告警指标性能数据的波形相似度来标识根因角色,包括取两两告警指标在一个时间段内的性能数据,计算两条性能曲线的波形相似度,相似度达到或超过预设的相似度标准时则认为这两个指标存在潜在的影响关系,进而根据告警发生优先原则,认定较早发生的告警为嫌疑人告警,较晚发生的告警为受害者告警。
本发明对比现有技术有如下的有益效果:本发明提供的基于时间序列的多维度的智能告警压缩方法,通过根因算法标识告警的根因结果,展示告警之间的关联关系,便于运维人员快速甄别故障根因;通过多种维度压缩告警,减少告警量,降低了告警处理的时间成本,提高了告警恢复的效率。
附图说明
图1为本发明实施例中基于时间序列的多维度的智能告警压缩方法流程图;
图2为本发明实施例中故障知识图谱根因分析的资源角色分析示意图;
图3为本发明实施例中曲线波形相似度根因分析的告警指标性能数据的波形示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的描述。
图1为本发明实施例中基于时间序列的多维度的智能告警压缩方法流程。
请参见图1,本发明实施例的基于时间序列的多维度的智能告警压缩方法,包括如下步骤:
S1:在告警产生时,读取设定时间段内的所有告警数据;设置时间初始设置为10分钟,可以根据需要更改设置。
S2:通过根因分析得到各个告警之间的关联关系,定位出有关联关系的告警引发根因;并将告警根因分析结果标记到每一条告警上;
S21:通过故障知识图谱根因分析和曲线波形相似度根因分析,得到告警之间的根因链路;
故障知识图谱根因分析包括:根据CMDB(Configuration Management Database,配置管理数据库)配置模型创建影响模型,通过与、或关系定义CMDB配置模型中各配置项的影响因素,设置影响因素的触发条件,触发条件包括不触发、所有不可用和至少一个不可用;通过告警之间的影响因素来推导计算根因关系。
根据配置模型,创建资源的影响模型,使用影响模型将某一资源作为影响源,遍历该资源关联的资源对象判断该资源对其关联的资源对象是否有影响,在该资源不可用时,其关联的资源对象为所有不可用或者至少一个不可用时,则说明有影响;根据判断结果对其关联的资源对象进行分类,无影响的归入群众数据集合Q1;有影响且为造成影响的原因的归入嫌疑人数据集合P1;有影响且为被影响的归入被害者数据集合S1;如图2所示。
通过上述资源影响关系的分析,为资源分配角色,得到嫌疑人、受害者、群众数据。在一次故障根因分析结果中,单个资源仅会有一种角色;然后根据告警与资源的关联;将资源之间的影响关系,转换为告警之间的影响关系;定义告警角色。
曲线波形相似度根因分析通过分析两个告警指标性能数据的波形相似度来标识根因角色,包括取两两告警指标在一个时间段内的性能数据,计算两条性能曲线的波形相似度,相似度达到或超过预设的相似度标准时则认为这两个指标存在潜在的影响关系,进而根据告警发生优先原则,认定较早发生的告警为嫌疑人告警,较晚发生的告警为受害者告警。如图3所示,曲线1代表CPU使用率,曲线2代表的内存使用率,则CPU告警为嫌疑人告警,内存告警为受害者告警。
S22:根据根因链路定义告警角色,包括嫌疑人告警、受害者告警、独立告警和群众告警;嫌疑人告警为告警或故障的根源告警;受害者告警为受根源告警影响所产生的告警;独立告警为通过根因分析无法确定是嫌疑人告警或受害者告警的告警;群众告警为应用系统发生故障导致长久存在的独立告警。
S3:根据根因分析结果,将告警合并压缩或者生成新事件;
根据根因分析结果进行告警压缩包括:
S31:嫌疑人告警产生时立即创建嫌疑人事件;
S32:受害者告警产生后合并至相关联的嫌疑人事件;
S33:受害者告警已经并入嫌疑人事件后,若有其他相关联的嫌疑人事件产生,则同时将受害者告警自动关联到其他嫌疑人事件;
S34:独立告警产生时,生成新事件或者等待后续压缩处理。
事件状态处于待处理、待升级、已处理、已挂起时,支持上述并入和关联规则。
S4:对通过根因分析结果无法进行压缩的告警,按照资源类型进行压缩;对通过根因分析结果无法进行压缩的独立告警,在第一条独立告警产生时生成事件,后续有独立告警产生时同时满足以下条件时将告警并入相同资源的独立告警事件,否则生成新事件或者等待后续压缩处理:
S41:相同资源类型的独立告警距离上一条告警的发生时间在延时时间T1内;
S42:相同资源类型的独立告警距离第一条告警的发生时间在时间范围T2内。
上述相同资源类型的识别在配置了等同资源类型规则时,可将自身实际资源类型不同的告警等同为相同资源类型,并识别为同一个资源类型;若未配置等同资源类型规则,则按照自身实际资源类型进行识别。
延时时间T1与时间范围T2可以根据需求设置,事件状态处于待处理、待升级、已处理、已挂起时,支持上述并入规则。
S5:对于缺少资源类型或者不满足资源类型压缩的告警,按照专业组进行压缩;告警数据与专业组具有归属关系,根据该归属关系,每个告警都有一个归属的专业组;将缺少资源类型或者不满足资源类型压缩条件的告警定义为难压缩告警,在第一条难压缩告警产生时生成新事件,后续有难压缩告警产生时同时满足以下条件时将难压缩告警并入相同专业组的事件,否则生成新事件:
S51:相同专业组的难压缩告警距离上一条告警发生时间在延时时间T3内;
S52:相同专业组的难压缩告警距离第一条告警的发生时间在时间范围T4内。
延时时间T3与时间范围T4可以根据需求设置,事件状态处于待处理、待升级、已处理、已挂起时,支持上述并入规则。
S6:重复步骤S1-S5将后续产生的告警压缩合并至相关事件或者生成新事件。
综上所述,本发明实施例的基于时间序列的多维度的智能告警压缩方法,通过根因算法标识告警的根因结果,展示告警之间的关联关系,便于运维人员快速甄别故障根因;通过多种维度压缩告警,减少告警量,降低了告警处理的时间成本,提高了告警恢复的效率。
虽然本发明已以较佳实施例揭示如上,然其并非用以限定本发明,任何本领域技术人员,在不脱离本发明的精神和范围内,当可作些许的修改和完善,因此本发明的保护范围当以权利要求书所界定的为准。

Claims (8)

1.一种基于时间序列的多维度的智能告警压缩方法,其特征在于,包括如下步骤:
S1:在新告警产生时,读取设定时间段内的所有告警数据;
S2:通过根因分析得到各个告警之间的关联关系,定位出有关联关系的告警引发根因;并将告警根因分析结果标记到每一条告警上;
S3:根据根因分析结果,将告警合并压缩或者生成新事件;
S4:对通过根因分析结果无法进行压缩的告警,按照资源类型进行压缩;
S5:对于缺少资源类型或者不满足资源类型压缩的告警,按照专业组进行压缩;
S6:重复步骤S1-S5将后续产生的告警压缩合并至相关事件或者生成新事件。
2.如权利要求1所述的基于时间序列的多维度的智能告警压缩方法,其特征在于,所述步骤S2包括:
S21:通过故障知识图谱根因分析和曲线波形相似度根因分析,得到告警之间的根因链路;
S22:根据根因链路定义告警角色,包括嫌疑人告警、受害者告警、独立告警和群众告警;嫌疑人告警为告警或故障的根源告警;受害者告警为受根源告警影响所产生的告警;独立告警为通过根因分析无法确定是嫌疑人告警或受害者告警的告警;群众告警为应用系统发生故障导致长久存在的独立告警。
3.如权利要求2所述的基于时间序列的多维度的智能告警压缩方法,其特征在于,所述步骤S3中根据根因分析结果进行告警压缩包括:
S31:嫌疑人告警产生时立即创建嫌疑人事件;
S32:受害者告警产生后合并至相关联的嫌疑人事件;
S33:受害者告警已经并入嫌疑人事件后,若有其他相关联的嫌疑人事件产生,则同时将受害者告警自动关联到其他嫌疑人事件;
S34:独立告警产生时,生成新事件或者等待后续压缩处理。
4.如权利要求3所述的基于时间序列的多维度的智能告警压缩方法,其特征在于,所述步骤S4中对通过根因分析结果无法进行压缩的独立告警,在第一条独立告警产生时生成事件,后续有独立告警产生时同时满足以下条件时将告警并入相同资源的独立告警事件,否则生成新事件或者等待后续压缩处理:
S41:相同资源类型的独立告警距离上一条告警的发生时间在延时时间T1内;
S42:相同资源类型的独立告警距离第一条告警的发生时间在时间范围T2内。
5.如权利要求4所述的基于时间序列的多维度的智能告警压缩方法,其特征在于,所述相同资源类型的识别在配置了等同资源类型规则时,可将自身实际资源类型不同的告警等同为相同资源类型,并识别为同一个资源类型;若未配置等同资源类型规则,则按照自身实际资源类型进行识别。
6.如权利要求4所述的基于时间序列的多维度的智能告警压缩方法,其特征在于,所述步骤S5中将缺少资源类型或者不满足资源类型压缩条件的告警定义为难压缩告警,在第一条难压缩告警产生时生成新事件,后续有难压缩告警产生时同时满足以下条件时将难压缩告警并入相同专业组的事件,否则生成新事件:
S51:相同专业组的难压缩告警距离上一条告警发生时间在延时时间T3内;
S52:相同专业组的难压缩告警距离第一条告警的发生时间在时间范围T4内。
7.如权利要求2所述的基于时间序列的多维度的智能告警压缩方法,其特征在于,所述故障知识图谱根因分析包括:根据CMDB配置模型创建影响模型,通过与、或关系定义CMDB配置模型中各配置项的影响因素,设置影响因素的触发条件,触发条件包括不触发、所有不可用和至少一个不可用;通过告警之间的影响因素来推导计算根因关系。
8.如权利要求2所述的基于时间序列的多维度的智能告警压缩方法,其特征在于,所述曲线波形相似度根因分析通过分析两个告警指标性能数据的波形相似度来标识根因角色,包括取两两告警指标在一个时间段内的性能数据,计算两条性能曲线的波形相似度,相似度达到或超过预设的相似度标准时则认为这两个指标存在潜在的影响关系,进而根据告警发生优先原则,认定较早发生的告警为嫌疑人告警,较晚发生的告警为受害者告警。
CN202111388842.5A 2021-11-22 2021-11-22 基于时间序列的多维度的智能告警压缩方法 Pending CN114090319A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111388842.5A CN114090319A (zh) 2021-11-22 2021-11-22 基于时间序列的多维度的智能告警压缩方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111388842.5A CN114090319A (zh) 2021-11-22 2021-11-22 基于时间序列的多维度的智能告警压缩方法

Publications (1)

Publication Number Publication Date
CN114090319A true CN114090319A (zh) 2022-02-25

Family

ID=80302875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111388842.5A Pending CN114090319A (zh) 2021-11-22 2021-11-22 基于时间序列的多维度的智能告警压缩方法

Country Status (1)

Country Link
CN (1) CN114090319A (zh)

Similar Documents

Publication Publication Date Title
CN108415789B (zh) 面向大规模混合异构存储系统的节点故障预测系统及方法
WO2021114977A1 (zh) 一种异常事件根因定位方法及装置
CN112114995B (zh) 基于进程的终端异常分析方法、装置、设备及存储介质
CN116955092B (zh) 基于数据分析的多媒体系统监控方法及系统
EP2503733A1 (en) Data collecting method, data collecting apparatus and network management device
CN105071983A (zh) 一种面向云计算在线业务的异常负载检测方法
US11080126B2 (en) Apparatus and method for monitoring computer system
CN109034580B (zh) 一种基于大数据分析的信息系统整体健康度评估方法
CN111045894A (zh) 数据库异常检测方法、装置、计算机设备和存储介质
CN110647447B (zh) 用于分布式系统的异常实例检测方法、装置、设备和介质
CN113448812A (zh) 微服务场景下的监控告警方法及装置
CN112636967A (zh) 一种根因分析方法、装置、设备及存储介质
CN112463553A (zh) 一种基于普通告警关联分析智能告警的系统与方法
CN112988509A (zh) 一种告警消息过滤方法、装置、电子设备及存储介质
CN113949652B (zh) 基于人工智能的用户异常行为检测方法、装置及相关设备
CN116594857A (zh) 一种基于人工智能的办公软件智能交互管理平台
CN114465874A (zh) 故障预测方法、装置、电子设备与存储介质
CN113051308A (zh) 告警信息处理方法、设备、存储介质及装置
CN111339052A (zh) 一种非结构化日志数据处理方法及装置
CN113409555A (zh) 一种基于物联网的实时报警联动方法及系统
CN115102836A (zh) 网络设备故障分析方法、装置及存储介质
CN109634808B (zh) 一种基于关联分析的链式监控事件根因分析方法
CN113094154A (zh) 一种基于阿里云的大数据处理方法及系统
CN106649034B (zh) 一种可视化智能运维方法及平台
CN115529219B (zh) 告警分析方法、装置、计算机可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination