CN110493065A - 一种云中心运维的告警关联度分析方法及系统 - Google Patents

一种云中心运维的告警关联度分析方法及系统 Download PDF

Info

Publication number
CN110493065A
CN110493065A CN201910828715.9A CN201910828715A CN110493065A CN 110493065 A CN110493065 A CN 110493065A CN 201910828715 A CN201910828715 A CN 201910828715A CN 110493065 A CN110493065 A CN 110493065A
Authority
CN
China
Prior art keywords
alarm
kpi
index
degree
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910828715.9A
Other languages
English (en)
Other versions
CN110493065B (zh
Inventor
孙继赟
于昊
田雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN201910828715.9A priority Critical patent/CN110493065B/zh
Publication of CN110493065A publication Critical patent/CN110493065A/zh
Application granted granted Critical
Publication of CN110493065B publication Critical patent/CN110493065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0609Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time based on severity or priority
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开一种云中心运维的告警关联度分析方法及系统,涉及运维告警技术领域。针对出现海量告警时让运维人员一头雾水、无法快速定位告警根源的问题,采用技术方案:采集历史告警数据,获取告警指标;按照时间维度、组件维度、告警等级维度,对获取的告警指标进行分类;用户通过待分析告警指标配置模块设置关联分析信息,并配置要进行关联度分析的分析任务,指定进行关联度分析的关联项;启动告警关联度分析模块,读取要进行关联度分析的关联项和历史告警数据,进行关联度分析计算;设置关联度查询接口模块,将告警关联度分析模块输出的计算结果发送至告警平台。本发明旨在提高告警的可用性,分析出告警的根源,减少运维人员的工作量。

Description

一种云中心运维的告警关联度分析方法及系统
技术领域
本发明涉及运维告警技术领域,具体的说是一种云中心运维的告警关联度分析方法及系统,该方法及系统不单独指网络或者设备告警等单一类型告警,主要应用于云中心运维,旨在提高云中心运维的告警准确率,提高运维效率。
背景技术
在云计算时代,运维对于云中心的重要性不言而喻。在当前互联网发展的时代,客户满意度直接决定了云服务厂商营收,面对海量客户需求,对服务提供及消费提出了更高的要求,提升客户满意度,增加客户粘性。这是服务提供方急需解决的诉求。
在实际的运维中,告警的出现没有规律性,并不呈现规则分布,往往在某一时段忽然间出现大量告警,但是告警的呈现具有维度单一性、重复性,例如只发送CPU负荷过高的告警、应用无法访问的告警、带宽利用率告警。海量告警的出现让运维人员一头雾水,无法快速定位。最常见的做法是收到了告警,然后登陆CRT,开始敲各种命令查找原因,这种操作存在运维效率低、用户满意度低的问题,同时,告警平台也会出现负载高,业务吞吐慢的问题。
针对这种问题,提出一种云中心运维的告警关联度分析方法及系统,一方面通过让告警呈现收敛趋势并且准确,提高告警的可用性,另一方面通过计算告警关联性,分析出告警的根源,减少运维人员的工作量,提高运维效率,最终提高客户满意度。
发明内容
本发明针对出现海量告警时让运维人员一头雾水、无法快速定位告警根源的问题,提出一种云中心运维的告警关联度分析方法及系统,主要应用于云中心运维,旨在提高告警的可用性,分析出告警的根源,减少运维人员的工作量。
首先,本发明公开一种云中心运维的告警关联度分析方法,解决上述技术问题采用的技术方案如下:
一种云中心运维的告警关联度分析方法,包括如下步骤:
S10、采集历史告警数据,获取告警指标;
S20、按照时间维度、组件维度、告警等级维度,对获取的告警指标进行分类;
S30、用户通过待分析告警指标配置模块设置关联分析信息,并配置要进行关联度分析的分析任务,指定进行关联度分析的关联项,所述关联项指的是具有关联性的告警指标;
S40、启动告警关联度分析模块,读取要进行关联度分析的关联项和历史告警数据,进行关联度分析计算;
S50、设置关联度查询接口模块,在告警关联度分析模块输出有关联性的计算结果时,关联度查询接口模块向告警平台发送告警信息。
在步骤S10中,所述告警数据包含指标名称、指标ID、指标值、指标阈值,产生时间、产生组件、告警标题、告警级别、故障号、告警状态、告警类型、设备类型、设备数据接口。
在步骤S20中,所述告警指标的时间维度由告警指标的采集时间粒度决定,所述告警信息的时间维度包括5分钟、15分钟、30分钟和60分钟四种;
告警信息的组件维度就是监控指标所属的设备,监控指标所属的设备包括且不限于CPU、内存、网络、带宽;
告警信息的告警等级维度根据影响范围不同设定为一般告警、重要告警、紧急告警、严重告警四类。
在步骤S20中,按照时间维度、组件维度、告警等级维度,对获取的告警指标进行分类,具体操作包括:
S21、按照时间维度对告警指标进行描述,描述后表示为:告警指标-时间维度;
S22、按照组件维度对告警指标进行描述,描述后表示为:告警指标-时间维度-组件维度;
S23、按照告警等级维度对告警指标进行描述,描述后表示为:告警指标-时间维度-组件维度-告警等级维度;
S24、将时间维度-组件维度-告警等级维度相同的告警指标划分为同类告警信息;
S25、建立存储告警信息的数据库,告警关联度分析模块可以从数据库提取告警信息。
在步骤S30中,所述关联项包括基础资源型告警、网络性能告警、应用性能告警;
所述基础资源型指标告警关联项包括CPU占比、内存占比;
所述网络性能指标告警关联项包括带宽利用率、网络延时及连接建立时间;
所述应用性能指标告警关联项包括网络协议告警、应用响应时间及服务端重置率;
运维人员根据告警指标所属层级和维度指定进行关联度分析的关联项,所述关联项指的是具有关联性的告警指标。
在步骤S40中,进行关联度分析计算的具体操作包括:
S41、将同一类告警信息包含的告警指标依次记作KPI1、KPI2、KPI3、……、KPIn
S42、读取同一类告警信息的告警总数;
S43、分别读取同一类告警信息中任两个告警指标KPIi、KPIj的告警次数;
S44、读取告警指标KPIi时,同时获取告警指标KPIi的告警发生时间ALARM_TIME;
S45、根据告警指标KPIi的告警发生时间ALARM_TIME进行计算时间点,向前10分钟,向后10分钟,并查询告警指标KPIj在此时间段内是否发生告警,如果存在告警指标KPIi、KPIj同时发生告警的情况,则对告警指标KPIi、KPIj的告警次数同时加一;
S46、将告警指标KPIi、KPIj同时发生告警的次数与告警总数相比,得到告警指标KPIi和KPIj的支持度P(KPIi U KPIj),
将告警指标KPIi、KPIj同时发生告警的次数与告警指标KPIi的告警次数相比,得到告警指标KPIi和KPIj的置信度P(KPIi|KPIj),
将告警指标KPIi、KPIj同时发生告警的次数与告警指标KPIj的告警次数相比,得到告警指标KPIj和KPIi的置信度P(KPIj|KPIi),
计算告警指标KPIi和KPIj的置信度P(KPIi|KPIj)、告警指标KPIj和KPIi的置信度P(KPIj|KPIi)两者的比值,得到告警指标KPIi对KPIj的提升度;
S47、在告警指标KPIi对KPIj的提升度等于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj没有关联性,
在告警指标KPIi对KPIj的提升度小于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj相互排斥,
在告警指标KPIi对KPIj的提升度大于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj有关联性。
在步骤S50中,在告警关联度分析模块输出有关联性的计算结果时,关联度查询接口模块向告警平台发送立体告警信息,所述立体告警信息包含告警位置、告警具体原因、以及与告警位置具有关联性但是未发生告警的组件信息。
其次,本发明还公开一种云中心运维的告警关联度分析系统,解决上述技术问题采用的技术方案如下:
一种云中心运维的告警关联度分析系统,其包括:
采集模块,用于采集历史告警数据,获取告警指标;
分类模块,用于按照时间维度、组件维度、告警等级维度对获取的告警指标进行分类;
待分析告警指标配置模块,用于设置关联分析信息,并配置要进行关联度分析的分析任务,指定进行关联度分析的关联项,所述关联项指的是具有关联性的告警指标;
告警关联度分析模块,用于读取要进行关联度分析的关联项和历史告警数据,进行关联度分析计算;
关联度查询接口模块,用于通信连接告警关联度分析模块和告警平台,在告警关联度分析模块输出有关联性的计算结果时,关联度查询接口模块向告警平台发送告警信息。
可选的,所涉及告警关联度分析模块进行关联度分析计算的具体内容包括:
1)将同一类告警信息包含的告警指标依次记作KPI1、KPI2、KPI3、……、KPIn
2)读取同一类告警信息的告警总数;
3)分别读取同一类告警信息中任两个告警指标KPIi、KPIj的告警次数;
4)读取告警指标KPIi时,同时获取告警指标KPIi的告警发生时间ALARM_TIME;
5)根据告警指标KPIi的告警发生时间ALARM_TIME进行计算时间点,向前10分钟,向后10分钟,并查询告警指标KPIj在此时间段内是否发生告警,如果存在告警指标KPIi、KPIj同时发生告警的情况,则对告警指标KPIi、KPIj的告警次数同时加一;
6)将告警指标KPIi、KPIj同时发生告警的次数与告警总数相比,得到告警指标KPIi和KPIj的支持度P(KPIi U KPIj),
将告警指标KPIi、KPIj同时发生告警的次数与告警指标KPIi的告警次数相比,得到告警指标KPIi和KPIj的置信度P(KPIi|KPIj),
将告警指标KPIi、KPIj同时发生告警的次数与告警指标KPIj的告警次数相比,得到告警指标KPIj和KPIi的置信度P(KPIj|KPIi),
计算告警指标KPIi和KPIj的置信度P(KPIi|KPIj)、告警指标KPIj和KPIi的置信度P(KPIj|KPIi)两者的比值,得到告警指标KPIi对KPIj的提升度;
7)在告警指标KPIi对KPIj的提升度等于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj没有关联性,
在告警指标KPIi对KPIj的提升度小于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj相互排斥,
在告警指标KPIi对KPIj的提升度大于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj有关联性。
本发明的一种云中心运维的告警关联度分析方法及系统,与现有技术相比具有的有益效果是:
1)本发明通过对告警指标进行分类和关联度分析,一方面让告警呈现收敛趋势并且准确,提高告警的可用性,另一方面通过进一步计算告警指标的关联度,分析出告警根源,减少运维人员的工作量,提高运维效率,提高客户满意度;
2)本发明不单独指网络或者设备告警等单一类型告警,主要应用于云中心运维,解决出现海量告警时运维人员一头雾水、无法快速定位告警根源的问题,提高告警的可用性,分析出告警的根源,减少运维人员的工作量。
附图说明
附图1是本发明实施例一的方法流程图;
附图2是本发明实施例二的连接框图。
附图中各标号信息表示:
1、采集模块,2、分类模块,3、待分析告警指标配置模块,
4、告警关联度分析模块,5、关联度查询接口模块。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。
实施例一:
本实施例提出一种云中心运维的告警关联度分析方法,包括如下步骤:
S10、采集历史告警数据,获取告警指标。
在步骤S10中,所涉及告警数据包含指标名称、指标ID、指标值、指标阈值,产生时间、产生组件、告警标题、告警级别、故障号、告警状态、告警类型、设备类型、设备数据接口。
S20、按照时间维度、组件维度、告警等级维度,对获取的告警指标进行分类,具体操作包括:
S21、按照时间维度对告警指标进行描述,描述后表示为:告警指标-时间维度;
S22、按照组件维度对告警指标进行描述,描述后表示为:告警指标-时间维度-组件维度;
S23、按照告警等级维度对告警指标进行描述,描述后表示为:告警指标-时间维度-组件维度-告警等级维度;
S24、将时间维度-组件维度-告警等级维度相同的告警指标划分为同类告警信息;
S25、建立存储告警信息的数据库,告警关联度分析模块4可以从数据库提取告警信息。
在步骤S20中,所涉及告警指标的时间维度由告警指标的采集时间粒度决定,所涉及告警信息的时间维度包括5分钟、15分钟、30分钟和60分钟四种;
所涉及告警信息的组件维度就是监控指标所属的设备,监控指标所属的设备包括且不限于CPU、内存、网络、带宽;
所涉及告警信息的告警等级维度根据影响范围不同设定为一般告警、重要告警、紧急告警、严重告警四类。
例如,告警指标-5分钟-cpu-一般告警、5分钟-cpu-重要告警、5分钟-内存利用率-一般告警。
S30、用户通过待分析告警指标配置模块3设置关联分析信息,并配置要进行关联度分析的分析任务,指定进行关联度分析的关联项,所述关联项指的是具有关联性的告警指标。
在步骤S30中,所涉及关联项包括基础资源型告警、网络性能告警、应用性能告警;
所涉及基础资源型指标告警关联项包括CPU占比、内存占比;
所涉及网络性能指标告警关联项包括带宽利用率、网络延时及连接建立时间;
所涉及应用性能指标告警关联项包括网络协议告警、应用响应时间及服务端重置率;
运维人员根据告警指标所属层级和维度指定进行关联度分析的关联项,所述关联项指的是具有关联性的告警指标。
在本实施例中,告警指标所属层级可以是应用层、服务层、硬件层。
在本实施例中,告警指标的维度指定体现为:指标是同一时间维度,同一组件维度;例如,五分钟内的平均应用请求数,和5分钟平均带宽利用率可以进行关联分析,不能和15分钟的指标进行关联分析,同一维度组件体现为服务器相关的指标不能和交换机的相关指标进行关联分析。
S40、启动告警关联度分析模块4,读取要进行关联度分析的关联项和历史告警数据,进行关联度分析计算,具体操作包括:
S41、将同一类告警信息包含的告警指标依次记作KPI1、KPI2、KPI3、……、KPIn
S42、读取同一类告警信息的告警总数;
S43、分别读取同一类告警信息中任两个告警指标KPIi、KPIj的告警次数,
基于步骤S42、S43,可以将读取数据记录表1,
表1:
告警总数 KPI<sub>i</sub>发生数 KPI<sub>j</sub>发生数 同时发生数
20000 900 850 592
S44、读取告警指标KPIi时,同时获取告警指标KPIi的告警发生时间ALARM_TIME;
S45、根据告警指标KPIi的告警发生时间ALARM_TIME进行计算时间点,向前10分钟,向后10分钟,并查询告警指标KPIj在此时间段内是否发生告警,如果存在告警指标KPIi、KPIj同时发生告警的情况,则对告警指标KPIi、KPIj的告警次数同时加一;
S46、将告警指标KPIi、KPIj同时发生告警的次数与告警总数相比,得到告警指标KPIi和KPIj的支持度P(KPIi U KPIj)=592/20000=0.33,
将告警指标KPIi、KPIj同时发生告警的次数与告警指标KPIi的告警次数相比,得到告警指标KPIi和KPIj的置信度P(KPIi|KPIj)=592/900=0.66,
将告警指标KPIi、KPIj同时发生告警的次数与告警指标KPIj的告警次数相比,得到告警指标KPIj和KPIi的置信度P(KPIj|KPIi)=592/850=0.69,
计算告警指标KPIi和KPIj的置信度P(KPIi|KPIj)、告警指标KPIj和KPIi的置信度P(KPIj|KPIi)两者的比值,得到告警指标KPIi对KPIj的提升度(P(KPIi|KPIj))/(P(KPIj|KPIi))=0.66/0.69=0.96;
S47、在告警指标KPIi对KPIj的提升度等于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj没有关联性,
在告警指标KPIi对KPIj的提升度小于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj相互排斥,
在告警指标KPIi对KPIj的提升度大于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj有关联性。
在执行上述计算步骤时,需要注意的是,从告警指标KPIi的告警去关联告警指标KPIj的时候,时间范围取值应该设置较小的范围之内,因为告警发生的时间点如果相差太大,计算的准确性较差,关联性越强的指标,其发生告警的时间越相近,分析样本中的告警数据的时间分析结果越准确。
S50、设置关联度查询接口模块5,在告警关联度分析模块4输出有关联性的计算结果时,关联度查询接口模块5向告警平台发送立体告警信息,立体告警信息包含告警位置、告警具体原因、以及与告警位置具有关联性但是未发生告警的组件信息,例如:“某单位应用系统访问不可用,应用系统所在服务器cpu利用率告警利用率超过百分之80,带宽利用率正常”。
实施例二:
结合附图2,本实施例提出一种云中心运维的告警关联度分析系统,其包括:
采集模块1,用于采集历史告警数据,获取告警指标;
分类模块2,用于按照时间维度、组件维度、告警等级维度对获取的告警指标进行分类;
待分析告警指标配置模块3,用于设置关联分析信息,并配置要进行关联度分析的分析任务,指定进行关联度分析的关联项,所述关联项指的是具有关联性的告警指标;
告警关联度分析模块4,用于读取要进行关联度分析的关联项和历史告警数据,进行关联度分析计算;
关联度查询接口模块5,用于通信连接告警关联度分析模块4和告警平台,在告警关联度分析模块4输出有关联性的计算结果时,关联度查询接口模块5向告警平台发送告警信息。
在本实施例中,所涉及告警关联度分析模块4进行关联度分析计算的具体内容包括:
1)将同一类告警信息包含的告警指标依次记作KPI1、KPI2、KPI3、……、KPIn
2)读取同一类告警信息的告警总数;
3)分别读取同一类告警信息中任两个告警指标KPIi、KPIj的告警次数,
基于步骤S42、S43,可以将读取数据记录表1,
表1:
告警总数 KPI<sub>i</sub>发生数 KPI<sub>j</sub>发生数 同时发生数
20000 900 850 592
4)读取告警指标KPIi时,同时获取告警指标KPIi的告警发生时间ALARM_TIME;
5)根据告警指标KPIi的告警发生时间ALARM_TIME进行计算时间点,向前10分钟,向后10分钟,并查询告警指标KPIj在此时间段内是否发生告警,如果存在告警指标KPIi、KPIj同时发生告警的情况,则对告警指标KPIi、KPIj的告警次数同时加一;
6)将告警指标KPIi、KPIj同时发生告警的次数与告警总数相比,得到告警指标KPIi和KPIj的支持度P(KPIi U KPIj)=592/20000=0.33,
将告警指标KPIi、KPIj同时发生告警的次数与告警指标KPIi的告警次数相比,得到告警指标KPIi和KPIj的置信度P(KPIi|KPIj)=592/900=0.66,
将告警指标KPIi、KPIj同时发生告警的次数与告警指标KPIj的告警次数相比,得到告警指标KPIj和KPIi的置信度P(KPIj|KPIi)=592/850=0.69,
计算告警指标KPIi和KPIj的置信度P(KPIi|KPIj)、告警指标KPIj和KPIi的置信度P(KPIj|KPIi)两者的比值,得到告警指标KPIi对KPIj的提升度(P(KPIi|KPIj))/(P(KPIj|KPIi))=0.66/0.69=0.96;
7)在告警指标KPIi对KPIj的提升度等于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj没有关联性,
在告警指标KPIi对KPIj的提升度小于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj相互排斥,
在告警指标KPIi对KPIj的提升度大于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj有关联性。
在执行上述计算步骤时,需要注意的是,从告警指标KPIi的告警去关联告警指标KPIj的时候,时间范围取值应该设置较小的范围之内,因为告警发生的时间点如果相差太大,计算的准确性较差,关联性越强的指标,其发生告警的时间越相近,分析样本中的告警数据的时间分析结果越准确。
综上可知,采用本发明的一种云中心运维的告警关联度分析方法及系统,通过对告警指标进行分类和关联度分析,一方面让告警呈现收敛趋势并且准确,提高告警的可用性,另一方面通过进一步计算告警指标的关联度,分析出告警根源,减少运维人员的工作量,提高运维效率,提高客户满意度,解决了出现海量告警时运维人员一头雾水、无法快速定位告警根源的问题。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容,并不用于限制本发明的保护范围。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。

Claims (9)

1.一种云中心运维的告警关联度分析方法,其特征在于,包括如下步骤:
S10、采集历史告警数据,获取告警指标;
S20、按照时间维度、组件维度、告警等级维度,对获取的告警指标进行分类;
S30、用户通过待分析告警指标配置模块设置关联分析信息,并配置要进行关联度分析的分析任务,指定进行关联度分析的关联项,所述关联项指的是具有关联性的告警指标;
S40、启动告警关联度分析模块,读取要进行关联度分析的关联项和历史告警数据,进行关联度分析计算;
S50、设置关联度查询接口模块,在告警关联度分析模块输出有关联性的计算结果时,关联度查询接口模块向告警平台发送告警信息。
2.根据权利要求1所述的一种云中心运维的告警关联度分析方法,其特征在于,在步骤S10中,所述告警数据包含指标名称、指标ID、指标值、指标阈值,产生时间、产生组件、告警标题、告警级别、故障号、告警状态、告警类型、设备类型、设备数据接口。
3.根据权利要求1所述的一种云中心运维的告警关联度分析方法,其特征在于,在步骤S20中,所述告警指标的时间维度由告警指标的采集时间粒度决定,所述告警信息的时间维度包括5分钟、15分钟、30分钟和60分钟四种;
所述告警信息的组件维度就是监控指标所属的设备,监控指标所属的设备包括且不限于CPU、内存、网络、带宽;
所述告警信息的告警等级维度根据影响范围不同设定为一般告警、重要告警、紧急告警、严重告警四类。
4.根据权利要求3所述的一种云中心运维的告警关联度分析方法,其特征在于,在步骤S20中,按照时间维度、组件维度、告警等级维度,对获取的告警指标进行分类,具体操作包括:
S21、按照时间维度对告警指标进行描述,描述后表示为:告警指标-时间维度;
S22、按照组件维度对告警指标进行描述,描述后表示为:告警指标-时间维度-组件维度;
S23、按照告警等级维度对告警指标进行描述,描述后表示为:告警指标-时间维度-组件维度-告警等级维度;
S24、将时间维度-组件维度-告警等级维度相同的告警指标划分为同类告警信息;
S25、建立存储告警信息的数据库,告警关联度分析模块可以从数据库提取告警信息。
5.根据权利要求4所述的一种云中心运维的告警关联度分析方法,其特征在于,在步骤S30中,所述关联项包括基础资源型告警、网络性能告警、应用性能告警;
所述基础资源型指标告警关联项包括CPU占比、内存占比;
所述网络性能指标告警关联项包括带宽利用率、网络延时及连接建立时间;
所述应用性能指标告警关联项包括网络协议告警、应用响应时间及服务端重置率;
运维人员根据告警指标所属层级和维度指定进行关联度分析的关联项,所述关联项指的是具有关联性的告警指标。
6.根据权利要求4所述的一种云中心运维的告警关联度分析方法,其特征在于,在步骤S40中,进行关联度分析计算的具体操作包括:
S41、将同一类告警信息包含的告警指标依次记作KPI1、KPI2、KPI3、……、KPIn
S42、读取同一类告警信息的告警总数;
S43、分别读取同一类告警信息中任两个告警指标KPIi、KPIj的告警次数;
S44、读取告警指标KPIi时,同时获取告警指标KPIi的告警发生时间ALARM_TIME;
S45、根据告警指标KPIi的告警发生时间ALARM_TIME进行计算时间点,向前10分钟,向后10分钟,并查询告警指标KPIj在此时间段内是否发生告警,如果存在告警指标KPIi、KPIj同时发生告警的情况,则对告警指标KPIi、KPIj的告警次数同时加一;
S46、将告警指标KPIi、KPIj同时发生告警的次数与告警总数相比,得到告警指标KPIi和KPIj的支持度P(KPIi U KPIj),
将告警指标KPIi、KPIj同时发生告警的次数与告警指标KPIi的告警次数相比,得到告警指标KPIi和KPIj的置信度P(KPIi|KPIj),
将告警指标KPIi、KPIj同时发生告警的次数与告警指标KPIj的告警次数相比,得到告警指标KPIj和KPIi的置信度P(KPIj|KPIi),
计算告警指标KPIi和KPIj的置信度P(KPIi|KPIj)、告警指标KPIj和KPIi的置信度P(KPIj|KPIi)两者的比值,得到告警指标KPIi对KPIj的提升度;
S47、在告警指标KPIi对KPIj的提升度等于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj没有关联性,
在告警指标KPIi对KPIj的提升度小于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj相互排斥,
在告警指标KPIi对KPIj的提升度大于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj有关联性。
7.根据权利要求1所述的一种云中心运维的告警关联度分析方法,其特征在于,在步骤S50中,在告警关联度分析模块输出有关联性的计算结果时,关联度查询接口模块向告警平台发送立体告警信息,所述立体告警信息包含告警位置、告警具体原因、以及与告警位置具有关联性但是未发生告警的组件信息。
8.一种云中心运维的告警关联度分析系统,其特征在于,其包括:
采集模块,用于采集历史告警数据,获取告警指标;
分类模块,用于按照时间维度、组件维度、告警等级维度对获取的告警指标进行分类;
待分析告警指标配置模块,用于设置关联分析信息,并配置要进行关联度分析的分析任务,指定进行关联度分析的关联项,所述关联项指的是具有关联性的告警指标;
告警关联度分析模块,用于读取要进行关联度分析的关联项和历史告警数据,进行关联度分析计算;
关联度查询接口模块,用于通信连接告警关联度分析模块和告警平台,在告警关联度分析模块输出有关联性的计算结果时,关联度查询接口模块向告警平台发送告警信息。
9.根据权利要求8所述的一种云中心运维的告警关联度分析系统,其特征在于,所述告警关联度分析模块进行关联度分析计算的具体内容包括:
1)将同一类告警信息包含的告警指标依次记作KPI1、KPI2、KPI3、……、KPIn
2)读取同一类告警信息的告警总数;
3)分别读取同一类告警信息中任两个告警指标KPIi、KPIj的告警次数;
4)读取告警指标KPIi时,同时获取告警指标KPIi的告警发生时间ALARM_TIME;
5)根据告警指标KPIi的告警发生时间ALARM_TIME进行计算时间点,向前10分钟,向后10分钟,并查询告警指标KPIj在此时间段内是否发生告警,如果存在告警指标KPIi、KPIj同时发生告警的情况,则对告警指标KPIi、KPIj的告警次数同时加一;
6)将告警指标KPIi、KPIj同时发生告警的次数与告警总数相比,得到告警指标KPIi和KPIj的支持度P(KPIi U KPIj),
将告警指标KPIi、KPIj同时发生告警的次数与告警指标KPIi的告警次数相比,得到告警指标KPIi和KPIj的置信度P(KPIi|KPIj),
将告警指标KPIi、KPIj同时发生告警的次数与告警指标KPIj的告警次数相比,得到告警指标KPIj和KPIi的置信度P(KPIj|KPIi),
计算告警指标KPIi和KPIj的置信度P(KPIi|KPIj)、告警指标KPIj和KPIi的置信度P(KPIj|KPIi)两者的比值,得到告警指标KPIi对KPIj的提升度;
7)在告警指标KPIi对KPIj的提升度等于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj没有关联性,
在告警指标KPIi对KPIj的提升度小于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj相互排斥,
在告警指标KPIi对KPIj的提升度大于1时,表明同一类告警信息中的两个告警指标KPIi、KPIj有关联性。
CN201910828715.9A 2019-09-03 2019-09-03 一种云中心运维的告警关联度分析方法及系统 Active CN110493065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910828715.9A CN110493065B (zh) 2019-09-03 2019-09-03 一种云中心运维的告警关联度分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910828715.9A CN110493065B (zh) 2019-09-03 2019-09-03 一种云中心运维的告警关联度分析方法及系统

Publications (2)

Publication Number Publication Date
CN110493065A true CN110493065A (zh) 2019-11-22
CN110493065B CN110493065B (zh) 2023-04-14

Family

ID=68556282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910828715.9A Active CN110493065B (zh) 2019-09-03 2019-09-03 一种云中心运维的告警关联度分析方法及系统

Country Status (1)

Country Link
CN (1) CN110493065B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111611137A (zh) * 2020-06-30 2020-09-01 平安银行股份有限公司 告警监控方法、装置、计算机设备及存储介质
CN111722976A (zh) * 2020-05-19 2020-09-29 珠海高凌信息科技股份有限公司 基于智能运维的故障流程分析方法、装置及介质
CN112583643A (zh) * 2020-12-14 2021-03-30 浪潮云信息技术股份公司 一种跨设备告警关联方法
CN112751711A (zh) * 2020-12-30 2021-05-04 北京奇艺世纪科技有限公司 告警信息处理方法和装置、存储介质和电子设备
CN113114628A (zh) * 2021-03-19 2021-07-13 中国南方电网有限责任公司 一种基于事件关联模型和分层次的实时安全告警关联算法
CN113839806A (zh) * 2021-08-12 2021-12-24 中国地质大学(武汉) 基于时滞关联检测的根源报警分析方法和存储介质
CN114090393A (zh) * 2022-01-14 2022-02-25 云智慧(北京)科技有限公司 一种告警级别的确定方法、装置及设备
CN114721912A (zh) * 2021-01-04 2022-07-08 腾讯科技(深圳)有限公司 一种数据分析方法、装置、设备及介质
CN115001753A (zh) * 2022-05-11 2022-09-02 绿盟科技集团股份有限公司 一种关联告警的分析方法、装置、电子设备及存储介质
CN116401131A (zh) * 2023-03-21 2023-07-07 无锡览山信息科技有限公司 一种基于大数据的运维管理平台监测告警系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100289638A1 (en) * 2009-05-18 2010-11-18 Abb Technology Ag Method and device for identification of correlations between alarm messages or between alarm messages and operator actions
CN103544243A (zh) * 2011-05-04 2014-01-29 成都勤智数码科技股份有限公司 It运维指标的相关性关联方法
CN104038375A (zh) * 2014-06-30 2014-09-10 成都广达电子股份有限公司 一种广电接入网络告警处理分析系统及其分析方法
CN106681882A (zh) * 2015-11-06 2017-05-17 上海瑞致软件有限公司 基于Apriori算法的IT服务集中监控管理系统
CN108829794A (zh) * 2018-06-04 2018-11-16 北京交通大学 基于区间图的告警分析方法
CN108847994A (zh) * 2018-07-25 2018-11-20 山东中创软件商用中间件股份有限公司 基于数据分析的告警定位方法、装置、设备以及存储介质
CN109358602A (zh) * 2018-10-23 2019-02-19 山东中创软件商用中间件股份有限公司 一种故障分析方法、装置及相关设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100289638A1 (en) * 2009-05-18 2010-11-18 Abb Technology Ag Method and device for identification of correlations between alarm messages or between alarm messages and operator actions
CN103544243A (zh) * 2011-05-04 2014-01-29 成都勤智数码科技股份有限公司 It运维指标的相关性关联方法
CN104038375A (zh) * 2014-06-30 2014-09-10 成都广达电子股份有限公司 一种广电接入网络告警处理分析系统及其分析方法
CN106681882A (zh) * 2015-11-06 2017-05-17 上海瑞致软件有限公司 基于Apriori算法的IT服务集中监控管理系统
CN108829794A (zh) * 2018-06-04 2018-11-16 北京交通大学 基于区间图的告警分析方法
CN108847994A (zh) * 2018-07-25 2018-11-20 山东中创软件商用中间件股份有限公司 基于数据分析的告警定位方法、装置、设备以及存储介质
CN109358602A (zh) * 2018-10-23 2019-02-19 山东中创软件商用中间件股份有限公司 一种故障分析方法、装置及相关设备

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111722976A (zh) * 2020-05-19 2020-09-29 珠海高凌信息科技股份有限公司 基于智能运维的故障流程分析方法、装置及介质
CN111611137A (zh) * 2020-06-30 2020-09-01 平安银行股份有限公司 告警监控方法、装置、计算机设备及存储介质
CN111611137B (zh) * 2020-06-30 2024-05-10 平安银行股份有限公司 告警监控方法、装置、计算机设备及存储介质
CN112583643A (zh) * 2020-12-14 2021-03-30 浪潮云信息技术股份公司 一种跨设备告警关联方法
CN112751711B (zh) * 2020-12-30 2023-04-07 北京奇艺世纪科技有限公司 告警信息处理方法和装置、存储介质和电子设备
CN112751711A (zh) * 2020-12-30 2021-05-04 北京奇艺世纪科技有限公司 告警信息处理方法和装置、存储介质和电子设备
CN114721912A (zh) * 2021-01-04 2022-07-08 腾讯科技(深圳)有限公司 一种数据分析方法、装置、设备及介质
CN113114628A (zh) * 2021-03-19 2021-07-13 中国南方电网有限责任公司 一种基于事件关联模型和分层次的实时安全告警关联算法
CN113839806A (zh) * 2021-08-12 2021-12-24 中国地质大学(武汉) 基于时滞关联检测的根源报警分析方法和存储介质
CN113839806B (zh) * 2021-08-12 2023-06-09 中国地质大学(武汉) 基于时滞关联检测的根源报警分析方法和存储介质
CN114090393A (zh) * 2022-01-14 2022-02-25 云智慧(北京)科技有限公司 一种告警级别的确定方法、装置及设备
CN115001753A (zh) * 2022-05-11 2022-09-02 绿盟科技集团股份有限公司 一种关联告警的分析方法、装置、电子设备及存储介质
CN115001753B (zh) * 2022-05-11 2023-06-09 绿盟科技集团股份有限公司 一种关联告警的分析方法、装置、电子设备及存储介质
CN116401131A (zh) * 2023-03-21 2023-07-07 无锡览山信息科技有限公司 一种基于大数据的运维管理平台监测告警系统及方法
CN116401131B (zh) * 2023-03-21 2024-01-02 无锡览山信息科技有限公司 一种基于大数据的运维管理平台监测告警系统及方法

Also Published As

Publication number Publication date
CN110493065B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN110493065A (zh) 一种云中心运维的告警关联度分析方法及系统
Chaczko et al. Availability and load balancing in cloud computing
US8156172B2 (en) Monitoring and reporting enterprise data using a message-based data exchange
CN101707632A (zh) 一种动态监控服务器集群性能并实时报警的方法
CN104536965B (zh) 一种大数据条件下的数据查询展示系统及方法
JP2010117757A (ja) 性能監視システムおよび性能監視方法
CN113468226B (zh) 一种业务处理方法、装置、电子设备和存储介质
CN109669835A (zh) MySQL数据库监控方法、装置、设备及可读存储介质
CN111966289A (zh) 基于Kafka集群的分区优化方法和系统
CN106789270A (zh) 一种信息系统集中运维管理的实现方法及系统
CN112764920A (zh) 一种边缘应用部署方法、装置、设备和存储介质
CN112051771B (zh) 多云数据采集方法、装置、计算机设备和存储介质
CN108319539A (zh) 一种生成gpu卡槽位信息的方法及系统
US20060150105A1 (en) Application status board mitigation system and method
US20050226163A1 (en) Method of analyzing the capacity of a computer system
CN117370053A (zh) 一种面向信息系统业务运行全景监测方法及系统
CN104992060A (zh) 用户年龄估计方法及装置
CN106293975B (zh) 信息处理方法、信息处理装置和信息处理系统
CN115278563B (zh) 一种基于影响因子的短信通道智能选择方法和系统
CN112000657A (zh) 数据管理方法、装置、服务器及存储介质
CN109947615A (zh) 分布式系统的监控方法和装置
CN111158894B (zh) 一种云分析系统中的任务监测方法以及装置
CN113742400A (zh) 一种基于自适应约束条件的网络数据获取系统及方法
CN107067137A (zh) 一种电力营销计量班日常业务管理控制方法和系统
CN112929191A (zh) 服务监控方法、系统以及相关设备、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Applicant after: Inspur cloud Information Technology Co.,Ltd.

Address before: 250100 No. 1036 Tidal Road, Jinan High-tech Zone, Shandong Province, S01 Building, Tidal Science Park

Applicant before: Tidal Cloud Information Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant