CN106407082B - 一种信息系统告警方法和装置 - Google Patents

一种信息系统告警方法和装置 Download PDF

Info

Publication number
CN106407082B
CN106407082B CN201610877368.5A CN201610877368A CN106407082B CN 106407082 B CN106407082 B CN 106407082B CN 201610877368 A CN201610877368 A CN 201610877368A CN 106407082 B CN106407082 B CN 106407082B
Authority
CN
China
Prior art keywords
information system
alarm threshold
data
alarm
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610877368.5A
Other languages
English (en)
Other versions
CN106407082A (zh
Inventor
肖克江
李键
付暾
罗伟
邓鹏程
王向阳
眭建新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Hunan Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Hunan Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Hunan Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201610877368.5A priority Critical patent/CN106407082B/zh
Publication of CN106407082A publication Critical patent/CN106407082A/zh
Application granted granted Critical
Publication of CN106407082B publication Critical patent/CN106407082B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/323Visualisation of programs or trace data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Alarm Systems (AREA)

Abstract

本发明提供一种信息系统告警方法和装置,其中所述方法包含以下步骤,基于信息系统历史数据,利用概率密度函数的告警阈值优化模型求解信息系统的最优告警阈值;基于信息系统历史数据,建立信息系统监控数据基准趋势模型;基于信息系统实时数据,确认进行告警。本发明具有有效避免信息系统漏告警和误告警,根据信息系统运行状态变化实时调整告警标准的有益效果。

Description

一种信息系统告警方法和装置
技术领域
本发明涉及模式识别领域,更具体地,涉及信息系统告警技术领域。
背景技术
目前,信息系统监控过程中,信息报警系统主要用于监视信息系统设备重要过程的参数值,告警阈值是反映信息系统设备运行状态的重要指标,是告警系统的核心参数,它的大小直接决定报警数目的多少。
告警阈值设置的合理与否将直接影响系统的运行状态,如果阈值设得过高,系统设备可能在发生异常或故障的情况下不能及时报警,对工作人员和设备的安全将构成极大的威胁;如果告警阈值设得过低,系统的告警会过于频繁,增加了操作员的工作压力,其中部分告警可能会误导操作员,延误对重要告警的处理。因此,合理的告警阈值将会提高操作员的操作效率,确保系统处于安全的运行状态。
目前,现有技术通常采用单一告警阈值作为信息系统告警判断标准。现有技术中采用的告警阈值是通过最优告警阈值数学模型或固有经验进行确定的单一固定值。一方面,现有技术中的信息系统告警技术不能适应信息系统运行环境的变化而进行告警阈值的实时动态更新;另一方面,单一阈值的设定容易产生漏告警和误告警;最终不能真实反映信息系统的运行状况。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的方法和装置。
根据本发明的一个方面,提供了一种信息系统告警方法,包括以下步骤:S1.基于信息系统历史数据,利用概率密度函数的告警阈值优化模型求解信息系统的最优告警阈值;基于信息系统历史数据,建立信息系统监控数据基准趋势模型;S2.基于信息系统实时数据,确认进行告警。
进一步,本发明还提供一种信息系统告警装置,包括:
接收模块,用于采集信息系统历史数据、采集信息系统实时数据;
处理模块,用于基于所述历史数据,利用概率密度函数的告警阈值优化模型求解信息系统的最优告警阈值;基于所述历史数据进行数学建模,用以建立信息系统监控数据基准趋势模型;
告警模块,用于基于信息系统实时数据,确认进行告警。
本申请提出一种信息系统告警方法和装置,基于信息系统历史数据,利用概率密度函数的告警阈值优化模型求解信息系统的最优告警阈值,然后进行数学建模,用以建立信息系统监控数据基准趋势模型,最后基于信息系统实时数据,确认进行告警。本发明具有避免信息系统漏告警和误告警,根据信息系统运行状态变化实时调整告警标准的有益效果。
附图说明
图1为根据本发明实施例的信息系统告警方法的总体流程示意图。
图2为根据本发明实施例的信息系统告警方法的告警阈值优化实例示意图。
图3为根据本发明实施例的信息系统告警方法的数据状态的报警阈值优化示意图;
图4为根据本发明实施例的信息系统告警装置的总体结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
在一个具体实施例中,以某信息系统服务器CPU利用率的告警为例,结合附图对本发明进行进一步的说明。
图1给出了根据本发明实施例的一种信息系统告警方法的总体流程示意图。总的来说,该方法包括:S1.基于信息系统历史CPU利用率数据,利用概率密度函数的告警阈值优化模型求解信息系统的最优告警阈值;基于信息系统历史CPU利用率数据,建立信息系统监控数据基准趋势模型;S2.信息系统实时CPU利用率数据,确认进行告警。
在本发明一个具体实施例中,步骤S1中,“告警阈值优化模型求解信息系统的最优告警阈值”包括如下。
首先,估计参数概率密度:选择高斯型的核函数,估计监控指标的概率密度,得到监控指标概率密度函数曲线,如图3所示,其中,右侧实线(蓝色)为正常数据的分布,左侧实线(红色)为异常数据的分布。若将图中黑线设置为监控指标的报警阈值,由于一部分正常数据大于报警阈值,就产生了误报警,概率就是正常分布曲线下超出报警阈值部分的区域面积;而一部分异常数据小于报警阈值,属于漏报,漏报警的概率为异常数据分布曲线下低于报警阈值部分的区域面积。根据最小错误率贝叶斯决策理论,误报警和漏报警发生的概率可以通过以下表达式计算:
其中,P1(e)为正常状态的概率密度函数表达式,P2(e)为异常状态的概率密度函数表达式,th为报警阈值。可以看出,如果报警阈值设置过大,误报警的概率则变小,而漏报警的概率则变大;反之,当报警阈值设置太小时,误报警发生的概率增大,而漏报警的概率会减小。
然后,确定监控指标的报警阈值属于一类模式最优分类问题,合理的报警阈值可以将正常状态和异常状态区分开来,并且使正常状态误报和异常状态漏报概率达到最小。
将报警阈值的设置看作一个优化问题,描述如下:
minF(x)=P1(e)+P2(e)
在本发明另一个具体实施例中,IT环境在一定时段内具有相对的稳定性,KPI波动会出现规律性变化,基于这种认识,建立以动态基线为基础的阈值统计结果对比会产生比较好的效果,对于提高告警准确度有很大提高,其基本思路如下:根据一段历史时间内的KPI历史记录进行数学建模,比如正态分布、上升趋势、下降趋势模型的建立,当前时间KPI变化在模型变化范围之内,如果不在该范围,即认为越界,累计越界次数过多到一定的次数,则认为是预警,提醒用户可能存在问题。这对提高告警的准确性具有很大帮助。
在本发明另一个具体实施例中,在步骤S1前还包括信息系统CPU利用率数据采集与处理的过程,具体包括:采集信息系统历史CPU利用率数据;对所述历史CPU利用率数据进行归一化处理。
在本发明另一个具体实施例中,步骤S2还包括以下步骤:采集信息系统实时CPU利用率数据;判断所述实时CPU利用率数据是否高于所述最优告警阈值,如果高于则进行告警;如果不高于,进一步判断所述实时CPU利用率数据是否超出监控数据基准趋势模型范围,如果超出则进行报警。如图2中的A曲线,如果超越该优化值,则出现异常;另一方面,根据这一个月时间内的CPU利用率进行数学建模(比如正态分布、上升趋势、下降趋势模型),如图2中的B、C、D三条曲线,分别是建立的趋势基线模型及其上下边界。如果后续监控到的CPU利用率超出上下边界,则认为出现异常情况。图2中展示了某天信息系统服务器CPU利用率出现了两次告警,一次是超越了告警优化阈值,另一次是越过了趋势基线的上边界,这样提高了告警的准确率。
在本发明另一个具体实施例中,随着后续信息系统历史数据的更新,不断更新告警阈值优化模型、相应的优化阈值和监控数据基准趋势模型。
在本发明另一个具体实施例中,通过以下步骤对所述历史CPU利用率数据进行归一化处理:
其中,为归一化后的数据,xmin和xmax分别为原始数据的最小值和最大值。
在本发明另一个具体实施例中,通过以下方式实现“求解所需信息系统的最优告警阈值”,利用优化算法求解上述优化问题,具体求解步骤如下,
(1)选取区间[a,b],构造两点x1=a+M(b—a),x2=a4-N(b—a);
(2)如果F(x1)<F(x2),则搜索区间缩小为[a,x2],b=x2,判断|x2-x1|<ε是否成立,如果成立转到第(4)步,否则返回第(1)步;
(3)如果F(x1)≥F(x2),则搜索区间缩小为[x1,b],a=x1,判断|x2-x1|<ε是否成立,如果成立转到第(4)步,否则返回第(1)步;
(4)最优解为t=x=0.5(x1+x2),目标函数最小值为F(x)。
在本发明另一个具体实施例中,基准趋势模型的建模是基于所述历史数据利用以下几种模型建立:正态分布模型、上升趋势模型或者下降趋势模型。
在本发明另一个具体实施例中,还包括一种信息系统告警装置,包括:接收模块,用于采集信息系统历史数据、采集信息系统实时数据;处理模块,用于基于所述历史CPU利用率数据,利用概率密度函数的告警阈值优化模型求解信息系统的最优告警阈值;基于所述历史数据进行数学建模,用以建立信息系统监控数据基准趋势模型;告警模块,用于基于信息系统实时数据,确认进行告警。
最后,本申请的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种信息系统告警方法,其特征在于包括以下步骤:
S1.基于信息系统历史数据,利用概率密度函数的告警阈值优化模型求解信息系统的最优告警阈值;基于信息系统历史数据,建立信息系统监控数据基准趋势模型;所述基准趋势模型的建模是基于所述历史数据利用以下几种模型建立:正态分布模型、上升趋势模型或者下降趋势模型;
S2.基于信息系统实时数据,确认进行告警;
步骤S1中,所述“告警阈值优化模型求解信息系统的最优告警阈值”包括:
根据最小错误率贝叶斯决策理论,误报警和漏报警发生的概率通过以下表达式计算,
其中,P1(e)为正常状态的概率密度函数表达式,P2(e)为异常状态的概率密度函数表达式,th为最优告警阈值;
随后通过下式优化最优告警阈值的设置,
minF(x)=P1(e)+P2(e);
2.如权利要求1所述的方法,其特征在于,步骤S1中,所述基准趋势模型是以动态基线为基础的阈值统计结果。
3.如权利要求1所述的方法,其特征在于,所述方法还包括以下步骤:
对所采集的信息系统历史数据进行归一化处理。
4.如权利要求1所述的方法,其特征在于,所述步骤S2还包括:
采集信息系统实时数据;
判断所述实时数据是否高于所述最优告警阈值,如果高于则进行告警;如果不高于,进一步判断所述实时数据是否超出监控数据基准趋势模型范围,如果超出则进行报警。
5.如权利要求1所述的方法,其特征在于,所述步骤S1中,基于更新的信息系统历史数据,调整所述告警阈值和监控数据基准趋势模型。
6.如权利要求3所述的方法,其特征在于,所述步骤“所述归一化处理”还包括:
其中,为归一化后的数据,xmin和xmax分别为原始数据的最小值和最大值。
7.如权利要求1所述的方法,其特征在于,所述步骤“求解信息系统的最优告警阈值”还包括以下步骤:(1)选取区间[a,b],构造两点x1=a+M(b—a),x2=a4-N(b—a);
(2)如果F(x1)<F(x2),则搜索区间缩小为[a,x2],b=x2,判断|x2-x1|<ε是否成立,如果成立转到第(4)步,否则返回第(1)步;
(3)如果F(x1)≥F(x2),则搜索区间缩小为[x1,b],a=x1,判断|x2-x1|<ε是否成立,如果成立转到第(4)步,否则返回第(1)步;
(4)最优解为t=x=0.5(x1+x2),目标函数最小值为F(x)。
CN201610877368.5A 2016-09-30 2016-09-30 一种信息系统告警方法和装置 Active CN106407082B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610877368.5A CN106407082B (zh) 2016-09-30 2016-09-30 一种信息系统告警方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610877368.5A CN106407082B (zh) 2016-09-30 2016-09-30 一种信息系统告警方法和装置

Publications (2)

Publication Number Publication Date
CN106407082A CN106407082A (zh) 2017-02-15
CN106407082B true CN106407082B (zh) 2019-06-14

Family

ID=59228535

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610877368.5A Active CN106407082B (zh) 2016-09-30 2016-09-30 一种信息系统告警方法和装置

Country Status (1)

Country Link
CN (1) CN106407082B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107402871B (zh) * 2017-03-28 2020-09-08 阿里巴巴集团控股有限公司 终端性能监控方法及装置、监控文件处理方法及装置
CN107395392A (zh) * 2017-06-07 2017-11-24 成都视达科信息技术有限公司 一种告警分析方法和系统
CN107526666A (zh) * 2017-07-17 2017-12-29 阿里巴巴集团控股有限公司 基于深度学习的报警方法、系统、装置以及电子设备
CN109425351B (zh) * 2017-08-24 2022-02-15 北京嘀嘀无限科技发展有限公司 出行处理方法及装置
CN107608862B (zh) * 2017-10-13 2020-10-27 众安信息技术服务有限公司 监控告警方法、监控告警装置及计算机可读存储介质
CN108599977B (zh) * 2018-02-13 2021-09-28 南京途牛科技有限公司 基于统计方法监控系统可用性的系统及方法
CN108615340B (zh) * 2018-05-07 2019-04-02 山东科技大学 一种动态报警阈值设计和报警消除的方法与系统
CN109213654B (zh) * 2018-07-05 2023-01-03 北京奇艺世纪科技有限公司 一种异常检测方法及装置
CN109697155B (zh) * 2018-08-20 2023-10-31 新疆北斗同创信息科技有限公司 It系统性能评估方法、装置、设备及可读存储介质
DE102018121349A1 (de) * 2018-08-31 2020-03-05 B. Braun Avitum Ag Selbstlernender Eingabefilter für Medizingeräte
CN111339074B (zh) * 2020-02-24 2023-05-05 深圳市名通科技股份有限公司 阈值生成方法、装置、设备和存储介质
CN111782486B (zh) * 2020-07-03 2024-04-16 上海浦东发展银行股份有限公司 一种基于动态配置的告警实现方法及其系统
CN112433919B (zh) * 2020-11-25 2023-01-24 深圳前海微众银行股份有限公司 一种信息告警方法、设备及存储介质
CN112508388B (zh) * 2020-12-02 2022-08-19 唐旸 产品质量检测数据的录入方法及系统、服务端、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572391A (zh) * 2013-10-16 2015-04-29 深圳市腾讯计算机系统有限公司 监控告警策略配置方法及装置、监控告警方法及装置
US9104877B1 (en) * 2013-08-14 2015-08-11 Amazon Technologies, Inc. Detecting penetration attempts using log-sensitive fuzzing
CN105718754A (zh) * 2016-03-09 2016-06-29 中国石油大学(北京) 一种炼化过程参数动态报警阈值的生成方法及装置
CN105975748A (zh) * 2016-04-27 2016-09-28 大连理工大学 一种基于历史数据的工业报警系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9104877B1 (en) * 2013-08-14 2015-08-11 Amazon Technologies, Inc. Detecting penetration attempts using log-sensitive fuzzing
CN104572391A (zh) * 2013-10-16 2015-04-29 深圳市腾讯计算机系统有限公司 监控告警策略配置方法及装置、监控告警方法及装置
CN105718754A (zh) * 2016-03-09 2016-06-29 中国石油大学(北京) 一种炼化过程参数动态报警阈值的生成方法及装置
CN105975748A (zh) * 2016-04-27 2016-09-28 大连理工大学 一种基于历史数据的工业报警系统

Also Published As

Publication number Publication date
CN106407082A (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN106407082B (zh) 一种信息系统告警方法和装置
CN106209432B (zh) 基于动态阈值的网络设备亚健康预警方法及装置
CN104407964B (zh) 一种基于数据中心的集中监控系统及方法
CN104807644B (zh) 一种风电机组变桨系统的故障预警方法及系统
CN108206747A (zh) 告警生成方法和系统
CN105184386A (zh) 一种结合专家经验和历史数据建立异常事件预警系统的方法
CN111401582A (zh) 一种生活污水处理设施异常识别方法及监控平台
CN108880845A (zh) 一种信息提示的方法以及相关装置
CN110866616A (zh) 一种变电站二次设备故障预警方法及装置
CN100373575C (zh) 一种半导体设备中的工艺过程的异常监测方法
CN105515820A (zh) 一种用于运维管理的健康分析方法
CN116955091B (zh) 基于机器学习的数据中心故障检测系统
CN105871611A (zh) 一种网管系统监管平台及监管方法
CN103763127A (zh) 一种设备状态告警监控方法及系统
CN106533556A (zh) 一种管理光模块报警方法
CN110209144A (zh) 基于动静协同差异分析的两层实时监测与报警溯源方法
CN109800130A (zh) 一种设备监控方法、装置、设备及介质
CN115561546A (zh) 电力系统异常检测报警系统
CN105743220A (zh) 一种调度自动化监控信息分析处理系统及方法
CN109211564B (zh) 一种用于滚珠丝杠副健康评估的自适应阈值检测方法
CN103778059B (zh) 一种异常报警的方法和系统
CN116242449A (zh) 一种水资源遥测终端系统
CN112351247A (zh) 一种基于图像处理的水电厂内电光闪光检测方法
CN110647086A (zh) 一种基于运行大数据分析的智能运维监控系统
CN111121864A (zh) 一种输电线路结构安全监测方法、装置及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant