CN115412422B - 一种动态窗口调整系统 - Google Patents

一种动态窗口调整系统 Download PDF

Info

Publication number
CN115412422B
CN115412422B CN202210943207.7A CN202210943207A CN115412422B CN 115412422 B CN115412422 B CN 115412422B CN 202210943207 A CN202210943207 A CN 202210943207A CN 115412422 B CN115412422 B CN 115412422B
Authority
CN
China
Prior art keywords
alarm
merging
window
unit
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210943207.7A
Other languages
English (en)
Other versions
CN115412422A (zh
Inventor
孙光涛
陈尧
张永皋
华震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202210943207.7A priority Critical patent/CN115412422B/zh
Publication of CN115412422A publication Critical patent/CN115412422A/zh
Application granted granted Critical
Publication of CN115412422B publication Critical patent/CN115412422B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Alarm Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种动态窗口调整系统,属于运维技术领域,包含告警源、告警合并配置单元、告警合并单元、合并窗口判决单元、告警处置单元、合并窗口学习单元、合并窗口检查单元、告警库。告警合并单元从告警源接收到新的告警后,首先查询告警库中是否存在和当前告警实体相同且处于合并状态的告警。然后根据合并窗口判决单元计算告警严重分值。合并窗口检查单元会定时检查告警合并窗口截止的告警,首先从合并窗口学习单元获取推荐告警合并窗口大小,然后筛选告警库中告警创建时间距离当前时间时间间隔大于推荐告警合并窗口的告警,并将相应的合并状态设置为停止告警合并。本发明提高了告警比较稀疏时的告警通知及时性。

Description

一种动态窗口调整系统
技术领域
本发明涉及运维告警收敛领域,尤其涉及一种动态窗口调整系统。
背景技术
随着云计算的飞速发展,企业IT应用规模和应用复杂度快速膨胀,运维复杂度显著提高。为了保障业务SLA,监控告警是稳定运行的基石。目前运维人员每天会接收到大量的告警,告警的泛滥使运维人员被无效告警淹没,分身乏力。为了提高告警的效率,通常采用告警合并的方式对告警进行收敛。传统的告警收敛均采用固定合并窗口大小的方式。按窗口合并告警会导致一定的告警通知延迟。
发明内容
为了解决以上技术问题,本发明提供了一种动态窗口调整系统。采用自适应告警合并窗口的方式,解决固定合并窗口带来的问题。
本发明的技术方案是:
一种动态窗口调整系统,包括告警源、告警合并配置单元、告警合并单元、合并窗口判决单元、告警处置单元、合并窗口学习单元、合并窗口检查单元、告警库。
告警合并单元从告警源接收到新的告警后,首先查询告警库中是否存在和当前告警实体相同且处于合并状态的告警,若有则将接收到的告警事件和当前告警进行合并,若无则创建一个新的告警。然后根据合并窗口判决单元计算告警严重分值,若告警严重分值超过设置阈值,则停止告警合并,并将告警推送到告警处置单元。合并窗口检查单元会定时检查告警合并窗口截止的告警,首先从合并窗口学习单元获取推荐告警合并窗口大小,然后筛选告警库中告警创建时间距离当前时间时间间隔大于推荐告警合并窗口的告警,并将相应的合并状态设置为停止告警合并。
告警合并配置单元包含的配置参数有告警规律模式、告警窗口学习训练历史告警事件时间范围、告警窗口学习自动调整窗口步长、合并窗口告警严重分值关闭门限等。
进一步的,
所述告警规律模式包括周期规律模式、高频规律模式、突发规律模式。
周期规律模式参数包括告警事件统计天数、周期规律模式分值;突发规律模式参数包括告警事件统计天数、突发规律模式分值;高频规律模式参数包括告警事件统计天数、告警事件占比、高频规律模式分值。
所述告警合并单元,从告警源接收到新的告警后,首先查询告警库中是否存在和当前告警实体相同且处于合并状态的告警,若有则将接收到的告警事件和当前告警进行合并,若无则创建一个新的告警。然后根据合并窗口判决单元计算告警严重级别分值,若告警严重分值超过合并窗口告警严重分值关闭门限,则停止告警合并,并将告警推送到告警处置单元。
所述合并窗口判决单元,将当前告警合并窗口内的告警事件原始告警严重分值的最大值作为告警严重分值的初始值,然后根据合并窗口内的告警事件名称判断是否匹配告警合并配置单元中的告警规律模式,如果匹配某个规律模式则按照告警规律模式分值调整告警严重分值。若告警严重分值超过了告警合并配置单元中设置的合并窗口告警严重分值关闭门限则将当前告警状态设置为停止合并,并将告警推送到告警处置单元。
所述合并窗口学习单元,从告警库中获取一段时间内的历史告警事件,然后计算相邻两个历史告警事件之间的时间间隔平均值,若告警事件时间间隔变大则根据告警合并配置单元中设置的告警窗口学习自动调整窗口步长减小推荐告警合并窗口;若告警事件时间间隔变小则根据告警合并配置单元中设置的告警窗口学习自动调整窗口步长增大推荐告警合并窗口。
所述合并窗口检查单元会通过定时任务检查是否需要关闭告警合并窗口。所述告警合并窗口检查任务首先从合并窗口学习单元获取推荐告警合并窗口大小,然后筛选告警库中告警创建时间距离当前时间间隔大于推荐告警合并窗口大小的告警,并将相应告警的告警合并状态设置为停止告警事件合并。
所述告警处置单元包括发送邮件、调用Webhook接口等。
本发明的有益效果是
本发明通过训练学习一段时间内的历史告警事件,根据告警事件之间的平均时间间隔动态调整告警合并窗口。若告警事件之间的平均时间间隔变小,则动态增加告警合并窗口大小;若告警事件之间的平均时间间隔变大,则动态减小告警合并窗口大小。通过动态调整告警合并窗口提高了在告警比较密集时的收敛效果,并提高了告警比较稀疏时的告警通知及时性。
通过训练学习一段时间内的告警事件,会推荐一个告警合并窗口大小,在告警合并过程中,首先根据告警窗口合并大小进行合并。从告警源接收到新的告警后,会根据告警规律模式确定当前合并窗口内告警事件的严重等级,然后根据严重等级确定是否提前结束当前合并窗口。通过根据告警级别动态调整告警合并窗口的方式解决了在发生严重告警时的通知及时性问题。
附图说明
图1是本发明的系统架构图;
图2是密集告警示意图;
图3是稀疏告警示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明对应系统的一种常用系统架构图。包含告警源、告警合并配置单元、告警合并单元、合并窗口判决单元、告警处置单元、合并窗口学习单元、合并窗口检查单元、告警库。
图2所示ei表示告警事件,Wi表示推荐告警合并窗口,窗口大小为5分钟,横轴为时间轴。假设周期规律模式告警严重分值为-20;高频规律模式告警严重分值为-20;突发规律模式告警严重分值为20分;告警严重分值0~40对应告警级别为一般;告警严重分值40~60为次要;告警严重分值60~80为主要;告警严重分值80以上为紧急。合并窗口告警严重分值关闭门限为80,即告警级别为紧急时停止告警合并。图2所示事件基本信息如表1、事件对应告警信息如表2所示。
事件编号 事件实体 事件名称 事件严重分值
e1 Host1 HostHighDiskReadLatency 30
e2 Host1 HostRaidArrayGotInactive 70
e3 Host1 HostHighCpuLoad 35
e4 Host2 HostHighMemoryUsage 20
e5 Host1 HostHighMemoryUsage 50
e6 Host1 HostOomKillDetected 45
e7 Host3 HostEdacUncorrectableErrorsDetected 90
e8 Host4 HostEdacCorrectableErrorsDetected 55
e9 Host4 HostUnusualNetworkThroughputIn 50
表格1密集事件
表格2密集事件告警
从表2中可以看出虽然推荐告警合并窗口大小为5分钟,但是实际告警的合并窗口大小是变化的。表2中所有告警均满足突发告警规律模式,其中告警a1包含的事件e2的事件严重分值为70,同时满足突发规律模式,计算到的告警严重分值为90,满足合并窗口告警严重分值关闭门限条件,所以告警合并窗口提前结束。告警a2和a3包含的事件的实体不同所以没有进行合并。告警a4由于包含的事件严重分值为90,满足合并窗口告警严重分值关闭门限条件,所以未合并其他事件。
如图3所示,相对于图2,告警变稀疏,若当前告警合并窗口大小为5分钟,告警窗口学习自动调整窗口步长为2分钟,则告警窗口学习单元会将推荐告警合并窗口设置为3分钟。
告警事件编号 告警实体 告警名称 告警分值
e1 Host1 HostHighDiskReadLatency 10
e2 Host2 HostHighCpuLoad 20
e3 Host2 HostHighCpuLoad 20
e4 Host1 HostHighMemoryUsage 20
e5 Host1 HostHighMemoryUsage 20
表格3稀疏事件
告警名称 告警开始时刻 告警结束时刻 窗口大小 告警等级 告警事件 告警规律模式
a1 T2 T5 3 30 e1 突发
a2 T9 T12 3 40 e2,e3 突发
a3 T15 T18 3 40 e4,e5 突发
表格4稀疏事件告警
以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (7)

1.一种动态窗口调整系统,其特征在于,
包括告警源、告警合并配置单元、告警合并单元、合并窗口判决单元、告警处置单元、合并窗口学习单元、合并窗口检查单元、告警库;
告警合并配置单元包含的配置参数有告警规律模式、告警窗口学习训练历史告警事件时间范围、告警窗口学习自动调整窗口步长、合并窗口告警严重分值关闭门限;
告警合并单元从告警源接收到新的告警后,查询告警库中是否存在和当前告警实体相同且处于合并状态的告警,若有则将接收到的告警事件和当前告警进行合并,若无则创建一个新的告警;然后根据合并窗口判决单元计算告警严重分值,若告警严重分值超过设置阈值,则停止告警合并,并将告警推送到告警处置单元;合并窗口检查单元会通过定时任务检查是否需要关闭告警合并窗口;
合并窗口判决单元,将当前告警合并窗口内的告警事件原始告警严重分值的最大值作为告警严重分值的初始值,然后根据合并窗口内的告警事件名称判断是否匹配告警合并配置单元中的告警规律模式,如果匹配规律模式则按照告警规律模式分值调整告警严重分值。
2.根据权利要求1所述的系统,其特征在于,
所述告警规律模式包括周期规律模式、高频规律模式、突发规律模式;
其中,
周期规律模式参数包括告警事件统计天数、周期规律模式分值;
突发规律模式参数包括告警事件统计天数、突发规律模式分值;
高频规律模式参数包括告警事件统计天数、告警事件占比、高频规律模式分值。
3.根据权利要求1所述的系统,其特征在于,
若告警严重分值超过了告警合并配置单元中设置的合并窗口告警严重分值关闭门限则将当前告警状态设置为停止合并,并将告警推送到告警处置单元。
4.根据权利要求1所述的系统,其特征在于,
告警处置单元包括发送邮件、调用Webhook接口。
5.根据权利要求1所述的系统,其特征在于,
所述合并窗口学习单元,从告警库中获取历史告警事件,然后计算相邻两个历史告警事件之间的时间间隔平均值,若告警事件时间间隔变大则根据告警合并配置单元中设置的告警窗口学习自动调整窗口步长减小推荐告警合并窗口;若告警事件时间间隔变小则根据告警合并配置单元中设置的告警窗口学习自动调整窗口步长增大推荐告警合并窗口。
6.根据权利要求1所述的系统,其特征在于,
合并窗口检查单元会定时检查告警合并窗口截止的告警,首先从合并窗口学习单元获取推荐告警合并窗口大小,然后筛选告警库中告警创建时间距离当前时间时间间隔大于推荐告警合并窗口的告警,并将相应的合并状态设置为停止告警合并。
7.根据权利要求6所述的系统,其特征在于,
所述告警合并窗口检查任务首先从合并窗口学习单元获取推荐告警合并窗口大小,然后筛选告警库中告警创建时间距离当前时间间隔大于推荐告警合并窗口大小的告警,并将相应告警的告警合并状态设置为停止告警事件合并。
CN202210943207.7A 2022-08-08 2022-08-08 一种动态窗口调整系统 Active CN115412422B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210943207.7A CN115412422B (zh) 2022-08-08 2022-08-08 一种动态窗口调整系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210943207.7A CN115412422B (zh) 2022-08-08 2022-08-08 一种动态窗口调整系统

Publications (2)

Publication Number Publication Date
CN115412422A CN115412422A (zh) 2022-11-29
CN115412422B true CN115412422B (zh) 2024-02-20

Family

ID=84158618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210943207.7A Active CN115412422B (zh) 2022-08-08 2022-08-08 一种动态窗口调整系统

Country Status (1)

Country Link
CN (1) CN115412422B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116662828B (zh) * 2023-06-14 2023-12-29 浙江大学 云网络多阶段异常检测方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105786673A (zh) * 2016-03-24 2016-07-20 北京百度网讯科技有限公司 告警信息处理方法和装置
WO2017084445A1 (zh) * 2015-11-18 2017-05-26 上海斐讯数据通信技术有限公司 一种网管系统中WebSocket推送告警信息的方法及系统
EP3407200A1 (en) * 2016-01-21 2018-11-28 Hangzhou Hikvision Digital Technology Co., Ltd. Method and device for updating online self-learning event detection model
CN108932143A (zh) * 2018-06-01 2018-12-04 国电南瑞科技股份有限公司 一种基于调度控制系统的告警信息动态展示方法
CN111294218A (zh) * 2018-12-06 2020-06-16 云智慧(北京)科技有限公司 信息处理方法、装置、系统及存储介质
CN111767195A (zh) * 2020-09-02 2020-10-13 江苏达科云数据科技有限公司 一种告警信息智能降噪的处理方法
CN113515433A (zh) * 2021-07-28 2021-10-19 中移(杭州)信息技术有限公司 告警日志处理方法、装置、设备及存储介质
CN113708949A (zh) * 2020-05-22 2021-11-26 亚信科技(中国)有限公司 一种告警根因定位方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101741991A (zh) * 2008-11-18 2010-06-16 华为技术有限公司 告警处理方法、装置及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017084445A1 (zh) * 2015-11-18 2017-05-26 上海斐讯数据通信技术有限公司 一种网管系统中WebSocket推送告警信息的方法及系统
EP3407200A1 (en) * 2016-01-21 2018-11-28 Hangzhou Hikvision Digital Technology Co., Ltd. Method and device for updating online self-learning event detection model
CN105786673A (zh) * 2016-03-24 2016-07-20 北京百度网讯科技有限公司 告警信息处理方法和装置
CN108932143A (zh) * 2018-06-01 2018-12-04 国电南瑞科技股份有限公司 一种基于调度控制系统的告警信息动态展示方法
CN111294218A (zh) * 2018-12-06 2020-06-16 云智慧(北京)科技有限公司 信息处理方法、装置、系统及存储介质
CN113708949A (zh) * 2020-05-22 2021-11-26 亚信科技(中国)有限公司 一种告警根因定位方法及装置
CN111767195A (zh) * 2020-09-02 2020-10-13 江苏达科云数据科技有限公司 一种告警信息智能降噪的处理方法
CN113515433A (zh) * 2021-07-28 2021-10-19 中移(杭州)信息技术有限公司 告警日志处理方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于双约束滑动时间窗口的告警预处理方法研究;李彤岩;李兴明;;计算机应用研究(02);全文 *

Also Published As

Publication number Publication date
CN115412422A (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
US11436196B2 (en) Alarm log compression method, apparatus, and system, and storage medium
CN115412422B (zh) 一种动态窗口调整系统
CN112511456B (zh) 流量控制方法、装置、设备、存储介质和计算机程序产品
CN107483268A (zh) 一种告警处理方法及系统
US20200159636A1 (en) Memory Anomaly Detection Method and Device
CN108513268B (zh) 短信异常的处理方法和短信平台
CN110083515A (zh) 分布式存储系统中慢盘的快速判断方法、装置及存储介质
CN106844083B (zh) 一种面向流计算系统异常感知的容错方法及系统
CN107911387A (zh) 用电信息采集系统账号异常登陆和异常操作的监控方法
WO2021237898A1 (zh) 一种基于信任评估的边缘节点计算结果可信判别方法
CN104935456A (zh) 通信网络告警系统的告警消息传输和处理方法
CN109987473B (zh) 一种控制电梯报错的方法、装置、设备和存储介质
CN106200615B (zh) 一种基于关联关系的轨道交通智能预警实现方法
WO2021051345A1 (zh) 一种基于邮件-语音形式分级下发地震警报的方法
CN103378981A (zh) 网管系统中振荡告警的处理方法及装置
CN103546319A (zh) 网络设备的流量告警方法和系统
CN101102217B (zh) 电信网管系统中告警重复和闪断上报及监视的处理方法
US20060064527A1 (en) Adaptive message delivery system
CN107124290B (zh) 一种告警阈值生成方法及装置
CN110730087A (zh) 一种告警风暴的处理方法及装置
CN105786673A (zh) 告警信息处理方法和装置
CN114005256A (zh) 基于报警持续时间概率函数的报警延迟器设计方法及系统
CN106452912A (zh) 一种流量报警方法及装置
CN113158716A (zh) 一种基于信号频域分析的智能告警方法和系统
CN112711510A (zh) 一种业务连续性运行监测自动适配方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant