CN115442212A - 一种基于云计算的智能监控分析方法及系统 - Google Patents
一种基于云计算的智能监控分析方法及系统 Download PDFInfo
- Publication number
- CN115442212A CN115442212A CN202211018109.9A CN202211018109A CN115442212A CN 115442212 A CN115442212 A CN 115442212A CN 202211018109 A CN202211018109 A CN 202211018109A CN 115442212 A CN115442212 A CN 115442212A
- Authority
- CN
- China
- Prior art keywords
- alarm
- kpi
- scene
- module
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 35
- 238000012544 monitoring process Methods 0.000 title claims abstract description 35
- 208000018910 keratinopathic ichthyosis Diseases 0.000 claims abstract description 76
- 238000012423 maintenance Methods 0.000 claims abstract description 59
- 230000002159 abnormal effect Effects 0.000 claims abstract description 37
- 238000012545 processing Methods 0.000 claims description 69
- 238000007726 management method Methods 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 29
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 239000000284 extract Substances 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 238000003672 processing method Methods 0.000 claims description 6
- 238000013468 resource allocation Methods 0.000 claims description 6
- 238000007405 data analysis Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002071 nanotube Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0823—Errors, e.g. transmission errors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及云环境下智能运维技术领域,具体为一种基于云计算的智能监控分析方法,包括以下步骤:基于运维场景中大量的指标(KPI)聚类,基于资源的关键性指标(KPI)分析,检测异常KPI;基于异常KPI进行分析定位,定位异常发生原因;有益效果为:本发明提出的基于云计算的智能监控分析方法及系统实现快速定位云服务异常信息,提升客户的满意度,依托云计算建立智能监控服务,合并现有的监控孤岛,通过AI等手段加强数据分析以及监控功能,保证客户云上业务平稳运行的同时,降低告警风暴发生的影响,帮助运维人员快速响应告警,定位告警发生根本原因并智能推荐解决方法。
Description
技术领域
本发明涉及云环境下智能运维技术领域,具体为一种基于云计算的智能监控分析方法及系统。
背景技术
近年来,全球云计算支出以及云服务的需求出现了爆发式增长,云服务已经深入到社会的各个领域,运维人员每天需要面对TB乃至PB数量级的性能指标数据,传统运维面临挑战。
现有技术中,在面对海量KPI数据的同时,运维人员需要及时的发现、处理告警,然而数据爆炸的云时代传统运维人工巡检的方式不再合适,告警的信息价值在于实时性、准确性。
但是,随着业务场景的不断复杂,客户对应用上云的需求也越来越严苛,运维人员处理告警的效率也必须提高,因此运维人员需要一种云环境中的智能监控方法,不仅可以帮助运维人员快速响应,还能根据告警、资源等信息分析出告警发生的根本原因。
发明内容
本发明的目的在于提供一种基于云计算的智能监控分析方法及系统,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于云计算的智能监控分析方法,所述基于云计算的智能监控分析方法包括以下步骤:
基于运维场景中大量的指标(KPI)聚类,基于资源的关键性指标(KPI)分析,检测异常KPI;
基于异常KPI进行分析定位,定位异常发生原因;
基于KPI对负载核心指标预测,为用户提供容量预警通知以及资源增减配操作的相关建议;
通过告警规则管理对实时处理过程进行控制。
优选的,检测异常KPI时,通过算法的数据预处理模块,对原始的KPI数据进行标准化,消除振幅差异;
将预处理之后的数据输入到基线提取模块,该模块会去除KPI曲线上的噪声和可能的异常点,提取出基线来表示曲线的形状。
优选的,定位异常发生原因时,采用基于形状聚类的SBD距离作为相似性度量,消除KPI曲线之间的相位偏差;
为用户提供容量预警通知时,KPI数据按照时序进入算法模块,特征抽取整合原始特征(可能会产生新的特征),然后被输入到集成了传统线性预测方法的训练模块,训练结果为未来资源工作负载核心指标的使用情况,与预先设定的阈值进行比较,超出阈值,自动发出资源增配通知。
优选的,过告警规则管理对实时处理过程进行控制包括,告警纳管、业务规则管理与告警实时处理、告警场景分析以及告警经验库四部分;
告警纳管:运维人员可以通过界面配置平台告警与标准告警之间的映射关系,配置规则生效后,系统自动对平台告警按照规则配置转换为标准告警格式,完成告警的汇聚纳管;
业务规则管理与告警实时处理:运维人员通过规则管理的界面配置通知、拟合、压缩、告警重定义等一系列的规则,告警实时处理依托实时处理框架(Flink),监听消息队列,将规则配置动态加载至内部集成的规则引擎,规则引擎将告警与规则执行匹配操作,然后完成预设的告警处理流程;
告警场景分析:告警聚类为场景,需要使用大量历史告警对聚类模型进行训练;
告警经验库:运维人员完成告警的处理操作后,明确告警发生的真实原因,将告警原因以及处理方法反馈至经验库,算法自动提取特征,关联告警场景,为运维人员提供告警经验信息。
优选的,告警场景分析时,初次输出告警场景聚类模型后,周期性对聚类场景进行修正;运维人员通过前端界面可以查看告警分派的场景以及算法自动推荐的告警根因,告警根因可能不止一条,多条推荐根因的情况下,会根据历史告警处理之后,运维人员的反馈的告警根因确认经验设置推荐指数。
一种基于云计算的智能监控分析系统,所述该系统由数据预处理模块、定位模块、推送模块以及告警处理分析模块构成;
数据预处理模块,用于基于运维场景中大量的指标(KPI)聚类,基于资源的关键性指标(KPI)分析,检测异常KPI;
定位模块,用于基于异常KPI进行分析定位,定位异常发生原因;
推送模块,用于基于KPI对负载核心指标预测,为用户提供容量预警通知以及资源增减配操作的相关建议;
告警处理分析模块,用于通过告警规则管理对实时处理过程进行控制。
优选的,所述数据预处理模块中,检测异常KPI时,通过算法的数据预处理模块,对原始的KPI数据进行标准化,消除振幅差异;
将预处理之后的数据输入到基线提取模块,该模块会去除KPI曲线上的噪声和可能的异常点,提取出基线来表示曲线的形状。
优选的,所述定位模块中,定位异常发生原因时,采用基于形状聚类的SBD距离作为相似性度量,消除KPI曲线之间的相位偏差;
推送模块中,KPI数据按照时序进入算法模块,特征抽取整合原始特征(可能会产生新的特征),然后被输入到集成了传统线性预测方法的训练模块,训练结果为未来资源工作负载核心指标的使用情况,与预先设定的阈值进行比较,超出阈值,自动发出资源增配通知。
优选的,所述告警处理分析模块包括,告警纳管、业务规则管理与告警实时处理、告警场景分析以及告警经验库四部分;
告警纳管:运维人员可以通过界面配置平台告警与标准告警之间的映射关系,配置规则生效后,系统自动对平台告警按照规则配置转换为标准告警格式,完成告警的汇聚纳管;
业务规则管理与告警实时处理:运维人员通过规则管理的界面配置通知、拟合、压缩、告警重定义等一系列的规则,告警实时处理依托实时处理框架(Flink),监听消息队列,将规则配置动态加载至内部集成的规则引擎,规则引擎将告警与规则执行匹配操作,然后完成预设的告警处理流程;
告警场景分析:告警聚类为场景,需要使用大量历史告警对聚类模型进行训练;
告警经验库:运维人员完成告警的处理操作后,明确告警发生的真实原因,将告警原因以及处理方法反馈至经验库,算法自动提取特征,关联告警场景,为运维人员提供告警经验信息。
优选的,所述告警处理分析模块中告警场景分析时,初次输出告警场景聚类模型后,周期性对聚类场景进行修正;运维人员通过前端界面可以查看告警分派的场景以及算法自动推荐的告警根因,告警根因可能不止一条,多条推荐根因的情况下,会根据历史告警处理之后,运维人员的反馈的告警根因确认经验设置推荐指数。
与现有技术相比,本发明的有益效果是:
本发明提出的基于云计算的智能监控分析方法及系统实现快速定位云服务异常信息,提升客户的满意度,依托云计算建立智能监控服务,合并现有的监控孤岛,通过AI等手段加强数据分析以及监控功能,保证客户云上业务平稳运行的同时,降低告警风暴发生的影响,帮助运维人员快速响应告警,定位告警发生根本原因并智能推荐解决方法;
通过对指标和告警的处理,加强运维数据分析和监控能力,构建标准化、智能化、流程化、专业化的指标与告警的监控分析体系,提升运维效率与专业性。
附图说明
图1为本发明KPI分析流程图;
图2为本发明告警处理分析流程图;
图3为本发明智能监控数据架构图。
具体实施方式
为了使本发明的目的、技术方案进行清楚、完整地描述,及优点更加清楚明白,以下结合附图对本发明实施例进行进一步详细说明。应当理解,此处所描述的具体实施例是本发明一部分实施例,而不是全部的实施例,仅仅用以解释本发明实施例,并不用于限定本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“中”、“上”、“下”、“左”、“右”、“内”、“外”、“顶”、“底”、“侧”、“竖直”、“水平”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“一”、“第一”、“第二”、“第三”、“第四”、“第五”、“第六”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
出于简明和说明的目的,实施例的原理主要通过参考例子来描述。在以下描述中,很多具体细节被提出用以提供对实施例的彻底理解。然而明显的是,对于本领域普通技术人员,这些实施例在实践中可以不限于这些具体细节。在一些实例中,没有详细地描述公知方法和结构,以避免无必要地使这些实施例变得难以理解。另外,所有实施例可以互相结合使用。
实施例一
请参阅图1至图3,本发明提供一种技术方案:一种基于云计算的智能监控分析方法,所述基于云计算的智能监控分析方法包括以下步骤:
基于运维场景中大量的指标(KPI)聚类,基于资源的关键性指标(KPI)分析,检测异常KPI;通过算法的数据预处理模块,对原始的KPI数据进行标准化,消除振幅差异;将预处理之后的数据输入到基线提取模块,该模块会去除KPI曲线上的噪声和可能的异常点,提取出基线来表示曲线的形状;
基于异常KPI进行分析定位,定位异常发生原因;采用基于形状聚类的SBD距离作为相似性度量,消除KPI曲线之间的相位偏差;
基于KPI对负载核心指标预测,为用户提供容量预警通知以及资源增减配操作的相关建议;KPI数据按照时序进入算法模块,特征抽取整合原始特征(可能会产生新的特征),然后被输入到集成了传统线性预测方法的训练模块,训练结果为未来资源工作负载核心指标的使用情况,与预先设定的阈值进行比较,超出阈值,自动发出资源增配通知;
通过告警规则管理对实时处理过程进行控制;包括,告警纳管、业务规则管理与告警实时处理、告警场景分析以及告警经验库四部分;
告警纳管:运维人员可以通过界面配置平台告警与标准告警之间的映射关系,配置规则生效后,系统自动对平台告警按照规则配置转换为标准告警格式,完成告警的汇聚纳管;
业务规则管理与告警实时处理:运维人员通过规则管理的界面配置通知、拟合、压缩、告警重定义等一系列的规则,告警实时处理依托实时处理框架(Flink),监听消息队列,将规则配置动态加载至内部集成的规则引擎,规则引擎将告警与规则执行匹配操作,然后完成预设的告警处理流程;
告警场景分析:告警聚类为场景,需要使用大量历史告警对聚类模型进行训练;初次输出告警场景聚类模型后,周期性对聚类场景进行修正;运维人员通过前端界面可以查看告警分派的场景以及算法自动推荐的告警根因,告警根因可能不止一条,多条推荐根因的情况下,会根据历史告警处理之后,运维人员的反馈的告警根因确认经验设置推荐指数;
告警经验库:运维人员完成告警的处理操作后,明确告警发生的真实原因,将告警原因以及处理方法反馈至经验库,算法自动提取特征,关联告警场景,为运维人员提供告警经验信息。
实施例二
一种如上述权利要求1-5任意一项所述的基于云计算的智能监控分析系统,所述该系统由数据预处理模块、定位模块、推送模块以及告警处理分析模块构成;
数据预处理模块,用于基于运维场景中大量的指标(KPI)聚类,基于资源的关键性指标(KPI)分析,检测异常KPI;检测异常KPI时,通过算法的数据预处理模块,对原始的KPI数据进行标准化,消除振幅差异;将预处理之后的数据输入到基线提取模块,该模块会去除KPI曲线上的噪声和可能的异常点,提取出基线来表示曲线的形状;
定位模块,用于基于异常KPI进行分析定位,定位异常发生原因;采用基于形状聚类的SBD距离作为相似性度量,消除KPI曲线之间的相位偏差;
推送模块,用于基于KPI对负载核心指标预测,为用户提供容量预警通知以及资源增减配操作的相关建议;KPI数据按照时序进入算法模块,特征抽取整合原始特征(可能会产生新的特征),然后被输入到集成了传统线性预测方法的训练模块,训练结果为未来资源工作负载核心指标的使用情况,与预先设定的阈值进行比较,超出阈值,自动发出资源增配通知;
告警处理分析模块,用于通过告警规则管理对实时处理过程进行控制,包括,告警纳管、业务规则管理与告警实时处理、告警场景分析以及告警经验库四部分;
告警纳管:运维人员可以通过界面配置平台告警与标准告警之间的映射关系,配置规则生效后,系统自动对平台告警按照规则配置转换为标准告警格式,完成告警的汇聚纳管;
业务规则管理与告警实时处理:运维人员通过规则管理的界面配置通知、拟合、压缩、告警重定义等一系列的规则,告警实时处理依托实时处理框架(Flink),监听消息队列,将规则配置动态加载至内部集成的规则引擎,规则引擎将告警与规则执行匹配操作,然后完成预设的告警处理流程;
告警场景分析:告警聚类为场景,需要使用大量历史告警对聚类模型进行训练;初次输出告警场景聚类模型后,周期性对聚类场景进行修正;运维人员通过前端界面可以查看告警分派的场景以及算法自动推荐的告警根因,告警根因可能不止一条,多条推荐根因的情况下,会根据历史告警处理之后,运维人员的反馈的告警根因确认经验设置推荐指数;
告警经验库:运维人员完成告警的处理操作后,明确告警发生的真实原因,将告警原因以及处理方法反馈至经验库,算法自动提取特征,关联告警场景,为运维人员提供告警经验信息。
实施例三
参照附图1所示,采集控制、业务监控平台向Kafka推送指标数据,在数据源管理进行相关的配置,KPI首先根据模型数据进行聚合计算,根据需求聚合分类的KPI将流入容量预测模块以及异常检测模块;容量预测模块包含KPI输入以及模型输入,输出结果为资源是否需要扩容的通知;异常检测模块对KPI曲线的异常点进行检测,输出异常数据产生的告警以及模型数据,运维AI工程师对模型数据进行反馈;
参照附图2所示,告警纳管作为告警处理分析的入口,用户可以通过服务的配置界面配置告警数据的转换接入,告警数据源包括指标分析服务以及各种业务监控平台;告警实时处理依托实时计算框架,集成Drools规则引擎,通过告警规则管理对实时处理过程进行控制,该过程完成告警通知、拟合、派单以及降噪处理;告警数据在实时处理引擎中完成处理,告警数据以及模型数据作为告警场景分析的源数据,输出为该告警的根因推荐、根因指数以及解决经验的推荐;告警在运维人员处理后,运维人员需要在告警经验库填写告警处理经验以及告警根因的修正,供告警分析模块学习训练。
参照附图3所示,数据架构分为数据应用、数据服务、数据接入、数据计算以及数据存储5部分组成;其中数据接入、数据计算以及数据存储三项属于数据架构基础功能,在此基础上建立数据服务层(开发、分析、AI建模),开发人员使用数据服务层完成日志服务、告警监控、指标辨析等应用层服务。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (10)
1.一种基于云计算的智能监控分析方法,其特征在于:所述基于云计算的智能监控分析方法包括以下步骤:
基于运维场景中大量的指标(KPI)聚类,基于资源的关键性指标(KPI)分析,检测异常KPI;
基于异常KPI进行分析定位,定位异常发生原因;
基于KPI对负载核心指标预测,为用户提供容量预警通知以及资源增减配操作的相关建议;
通过告警规则管理对实时处理过程进行控制。
2.根据权利要求1所述的一种基于云计算的智能监控分析方法,其特征在于:检测异常KPI时,通过算法的数据预处理模块,对原始的KPI数据进行标准化,消除振幅差异;
将预处理之后的数据输入到基线提取模块,该模块会去除KPI曲线上的噪声和可能的异常点,提取出基线来表示曲线的形状。
3.根据权利要求2所述的一种基于云计算的智能监控分析方法,其特征在于:定位异常发生原因时,采用基于形状聚类的SBD距离作为相似性度量,消除KPI曲线之间的相位偏差;
为用户提供容量预警通知时,KPI数据按照时序进入算法模块,特征抽取整合原始特征(可能会产生新的特征),然后被输入到集成了传统线性预测方法的训练模块,训练结果为未来资源工作负载核心指标的使用情况,与预先设定的阈值进行比较,超出阈值,自动发出资源增配通知。
4.根据权利要求3所述的一种基于云计算的智能监控分析方法,其特征在于:通过告警规则管理对实时处理过程进行控制包括,告警纳管、业务规则管理与告警实时处理、告警场景分析以及告警经验库四部分;
告警纳管:运维人员可以通过界面配置平台告警与标准告警之间的映射关系,配置规则生效后,系统自动对平台告警按照规则配置转换为标准告警格式,完成告警的汇聚纳管;
业务规则管理与告警实时处理:运维人员通过规则管理的界面配置通知、拟合、压缩、告警重定义等一系列的规则,告警实时处理依托实时处理框架(Flink),监听消息队列,将规则配置动态加载至内部集成的规则引擎,规则引擎将告警与规则执行匹配操作,然后完成预设的告警处理流程;
告警场景分析:告警聚类为场景,需要使用大量历史告警对聚类模型进行训练;
告警经验库:运维人员完成告警的处理操作后,明确告警发生的真实原因,将告警原因以及处理方法反馈至经验库,算法自动提取特征,关联告警场景,为运维人员提供告警经验信息。
5.根据权利要求4所述的一种基于云计算的智能监控分析方法,其特征在于:告警场景分析时,初次输出告警场景聚类模型后,周期性对聚类场景进行修正;运维人员通过前端界面可以查看告警分派的场景以及算法自动推荐的告警根因,告警根因可能不止一条,多条推荐根因的情况下,会根据历史告警处理之后,运维人员的反馈的告警根因确认经验设置推荐指数。
6.一种如上述权利要求1-5任意一项所述的基于云计算的智能监控分析系统,其特征在于:所述该系统由数据预处理模块、定位模块、推送模块以及告警处理分析模块构成;
数据预处理模块,用于基于运维场景中大量的指标(KPI)聚类,基于资源的关键性指标(KPI)分析,检测异常KPI;
定位模块,用于基于异常KPI进行分析定位,定位异常发生原因;
推送模块,用于基于KPI对负载核心指标预测,为用户提供容量预警通知以及资源增减配操作的相关建议;
告警处理分析模块,用于通过告警规则管理对实时处理过程进行控制。
7.根据权利要求6所述的一种基于云计算的智能监控分析系统,其特征在于:所述数据预处理模块中,检测异常KPI时,通过算法的数据预处理模块,对原始的KPI数据进行标准化,消除振幅差异;
将预处理之后的数据输入到基线提取模块,该模块会去除KPI曲线上的噪声和可能的异常点,提取出基线来表示曲线的形状。
8.根据权利要求7所述的一种基于云计算的智能监控分析系统,其特征在于:所述定位模块中,定位异常发生原因时,采用基于形状聚类的SBD距离作为相似性度量,消除KPI曲线之间的相位偏差;
推送模块中,KPI数据按照时序进入算法模块,特征抽取整合原始特征(可能会产生新的特征),然后被输入到集成了传统线性预测方法的训练模块,训练结果为未来资源工作负载核心指标的使用情况,与预先设定的阈值进行比较,超出阈值,自动发出资源增配通知。
9.根据权利要求8所述的一种基于云计算的智能监控分析系统,其特征在于:所述告警处理分析模块包括,告警纳管、业务规则管理与告警实时处理、告警场景分析以及告警经验库四部分;
告警纳管:运维人员可以通过界面配置平台告警与标准告警之间的映射关系,配置规则生效后,系统自动对平台告警按照规则配置转换为标准告警格式,完成告警的汇聚纳管;
业务规则管理与告警实时处理:运维人员通过规则管理的界面配置通知、拟合、压缩、告警重定义等一系列的规则,告警实时处理依托实时处理框架(Flink),监听消息队列,将规则配置动态加载至内部集成的规则引擎,规则引擎将告警与规则执行匹配操作,然后完成预设的告警处理流程;
告警场景分析:告警聚类为场景,需要使用大量历史告警对聚类模型进行训练;
告警经验库:运维人员完成告警的处理操作后,明确告警发生的真实原因,将告警原因以及处理方法反馈至经验库,算法自动提取特征,关联告警场景,为运维人员提供告警经验信息。
10.根据权利要求9所述的一种基于云计算的智能监控分析系统,其特征在于:所述告警处理分析模块中告警场景分析时,初次输出告警场景聚类模型后,周期性对聚类场景进行修正;运维人员通过前端界面可以查看告警分派的场景以及算法自动推荐的告警根因,告警根因可能不止一条,多条推荐根因的情况下,会根据历史告警处理之后,运维人员的反馈的告警根因确认经验设置推荐指数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211018109.9A CN115442212A (zh) | 2022-08-24 | 2022-08-24 | 一种基于云计算的智能监控分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211018109.9A CN115442212A (zh) | 2022-08-24 | 2022-08-24 | 一种基于云计算的智能监控分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115442212A true CN115442212A (zh) | 2022-12-06 |
Family
ID=84244985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211018109.9A Pending CN115442212A (zh) | 2022-08-24 | 2022-08-24 | 一种基于云计算的智能监控分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115442212A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115801545A (zh) * | 2023-02-06 | 2023-03-14 | 天翼云科技有限公司 | 一种混合云管的异常实时上报方法、系统、设备和介质 |
CN115865649A (zh) * | 2023-02-28 | 2023-03-28 | 网思科技股份有限公司 | 一种智能运维管理控制方法、系统和存储介质 |
CN115955388A (zh) * | 2022-12-20 | 2023-04-11 | 浪潮云信息技术股份公司 | 一种分布式云综合告警系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177505A (zh) * | 2019-12-31 | 2020-05-19 | 中国移动通信集团江苏有限公司 | 指标异常检测模型的训练方法、推荐的方法及装置 |
CN111444291A (zh) * | 2020-03-27 | 2020-07-24 | 上海爱数信息技术股份有限公司 | 一种基于流处理引擎和规则引擎的实时数据告警方法 |
CN112532456A (zh) * | 2020-12-04 | 2021-03-19 | 浪潮云信息技术股份公司 | 一种云环境下的告警监控方法 |
CN113377630A (zh) * | 2021-03-24 | 2021-09-10 | 北京信息科技大学 | 一种通用的kpi异常检测框架实现方法 |
CN114518988A (zh) * | 2022-02-10 | 2022-05-20 | 中国光大银行股份有限公司 | 资源容量系统及其控制方法和计算机可读存储介质 |
-
2022
- 2022-08-24 CN CN202211018109.9A patent/CN115442212A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111177505A (zh) * | 2019-12-31 | 2020-05-19 | 中国移动通信集团江苏有限公司 | 指标异常检测模型的训练方法、推荐的方法及装置 |
CN111444291A (zh) * | 2020-03-27 | 2020-07-24 | 上海爱数信息技术股份有限公司 | 一种基于流处理引擎和规则引擎的实时数据告警方法 |
CN112532456A (zh) * | 2020-12-04 | 2021-03-19 | 浪潮云信息技术股份公司 | 一种云环境下的告警监控方法 |
CN113377630A (zh) * | 2021-03-24 | 2021-09-10 | 北京信息科技大学 | 一种通用的kpi异常检测框架实现方法 |
CN114518988A (zh) * | 2022-02-10 | 2022-05-20 | 中国光大银行股份有限公司 | 资源容量系统及其控制方法和计算机可读存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115955388A (zh) * | 2022-12-20 | 2023-04-11 | 浪潮云信息技术股份公司 | 一种分布式云综合告警系统 |
CN115801545A (zh) * | 2023-02-06 | 2023-03-14 | 天翼云科技有限公司 | 一种混合云管的异常实时上报方法、系统、设备和介质 |
CN115801545B (zh) * | 2023-02-06 | 2023-06-23 | 天翼云科技有限公司 | 一种混合云管的异常实时上报方法、系统、设备和介质 |
CN115865649A (zh) * | 2023-02-28 | 2023-03-28 | 网思科技股份有限公司 | 一种智能运维管理控制方法、系统和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115442212A (zh) | 一种基于云计算的智能监控分析方法及系统 | |
US8868985B2 (en) | Supervised fault learning using rule-generated samples for machine condition monitoring | |
CN112817280A (zh) | 一种用于火电厂智慧监盘报警系统实现方法 | |
CN111444169A (zh) | 一种变电站电气设备状态监测与诊断系统及方法 | |
CN115640915B (zh) | 一种智慧燃气管网压缩机安全管理方法和物联网系统 | |
CN111124852A (zh) | 一种基于bmc健康管理模块的故障预测方法及系统 | |
CN109670584A (zh) | 一种基于大数据的故障诊断方法及系统 | |
CN115146230A (zh) | 一种古建筑健康监测系统、方法及设备 | |
CN115022187A (zh) | 计及时序相关性的数据驱动电-气综合能源系统态势感知方法与模型 | |
CN117560300B (zh) | 一种智能物联网流量预测与优化系统 | |
CN113269435B (zh) | 一种新能源场站运行状态耦合监测评估系统 | |
CN110956281A (zh) | 一种基于Log分析的电力设备异常检测报警系统 | |
CN117171548B (zh) | 一种基于电网大数据的网络安全态势智能预测方法 | |
CN213894861U (zh) | 一种基于数据中台的自动扶梯全生命周期数据管理系统 | |
CN117454232A (zh) | 生产网建设故障诊断、预测与健康管理系统及方法 | |
CN113659712A (zh) | 一种电力设备大数据标签运行平台及方法 | |
CN108258802B (zh) | 一种配电网中配电设备的运行状况的监测方法和装置 | |
CN115623004A (zh) | 一种基于区块链的轨道交通设备管理系统及方法 | |
CN114417741A (zh) | 一机一档设备数据管理及处理系统 | |
CN117892212B (zh) | 一种分布式异构能源站点态势感知监测方法 | |
CN118504847B (zh) | 基于数字孪生技术的智慧梁场管理方法及系统 | |
CN109257206A (zh) | 一种数据录入及评价诊断信息反馈的方法 | |
CN118467989B (zh) | 基于业务分析的多源异构数据处理构建与验证方法 | |
CN118535746A (zh) | 一种面向能源站运维管理的多层次知识图谱构建方法及系统 | |
CN118820973A (zh) | 一种基于Bagging技术的公交车辆故障预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |