CN107358300A - 一种基于多平台自主预测的智能运维告警过滤方法及系统 - Google Patents

一种基于多平台自主预测的智能运维告警过滤方法及系统 Download PDF

Info

Publication number
CN107358300A
CN107358300A CN201710464866.1A CN201710464866A CN107358300A CN 107358300 A CN107358300 A CN 107358300A CN 201710464866 A CN201710464866 A CN 201710464866A CN 107358300 A CN107358300 A CN 107358300A
Authority
CN
China
Prior art keywords
data
module
model
alarm
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710464866.1A
Other languages
English (en)
Inventor
翟昶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Letter To Princeton Technology Co Ltd
Original Assignee
Beijing Letter To Princeton Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Letter To Princeton Technology Co Ltd filed Critical Beijing Letter To Princeton Technology Co Ltd
Priority to CN201710464866.1A priority Critical patent/CN107358300A/zh
Publication of CN107358300A publication Critical patent/CN107358300A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/12Protecting executable software
    • G06F21/14Protecting executable software against software analysis or reverse engineering, e.g. by obfuscation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Multimedia (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及运维设备的维护领域,尤其涉及一种基于多平台自主预测的智能运维告警过滤方法及系统。所述方法包括以下步骤:(1)数据获取整合;(2)数据质量检查;(3)数据清洗;(4)特征工程;(5)样本采集;(6)模型训练及参数优化;(7)模型发布(8)模型使用;(9)模型反馈及优化。所述系统包括数据获取整合模块、数据质量检查模块、数据清洗模块、特征工程模块、样本采样模块、模型训练及参数优化模块、模型发布模块、模型告警过滤使用模块和模型反馈及优化模块。本发明保障了低级别告警事件的实时可处理性,避免了因为专家主观判断的错误以及不能24小时工作而无法避免潜在的突发严重告警事件发生的可能。

Description

一种基于多平台自主预测的智能运维告警过滤方法及系统
技术领域
本发明涉及运维设备的维护领域,尤其涉及一种基于多平台自主预测的智能运维告警过滤方法及系统。
背景技术
当前的主流运维设备的告警处理主要还停留在主观判断的方向,即当处理较低级别的告警故障的时候,选择是否处理是盲目的(有些较低级别的告警发生后即时不立即处理,也不会对系统正常运行造成影响,并且后期可能较低级别的告警事件可能会转为正常)。因此,当有初级告警系统产生的时候,往往需要加以人工判别辅助决策是否处理低级别的告警事件。规定行业业务背景:某个行业领域规定,某个设备可能发生的告警等级分为3级告警和5级告警。5级告警必须要立刻处理(已经对系统正常运行造成影响),但是有些3级告警时间并不会影响正常系统业务的进展,并且存在后期不再具备告警条件的可能。目前流行的低级别告警处理方法主要有2种。方法1:行业专家结合现有其他平台的监控数据,根据业务标准判断是否去处理某些低级别的告警事件。行业专家根据经验去筛选很有可能在后期转化为5级告警的3级告警进行处理,将发生5级告警的风险降至最低。方法2:运维人员对所有的3级告警事件进行处理,从而将风险降至最低。或者对于所有的3级告警事件均不进行处理,只处理发生的5级告警事件。
在上述的两种方法中,存在一些不容忽视的缺陷。方法1需要具有深厚行业经验的专家,不是每一个企业所具备的;专家也有判断错误的情况,并且专家无法保证全天24小时都能够进行预测判断。另外专家单位时间能够判断的低级别告警事件的数量也是不确定的,有无法处理完所有的低级别告警事件的可能。方法2需要运维人员处理所有的低级别告警事件,需要消耗大量不必要的人力物力。另外,如果等到所有3级告警转为5级告警以后再去处理,虽然是使用了最少的人力去处理,但是已经对系统造成了无法挽回的损失。
发明内容
针对背景技术中的问题,本发明的目的在于提供一种基于多平台自主预测的智能运维告警过滤方法及系统,预测哪些低级别告警会在特定的时间范围内转化为高级别告警。
为了实现上述目的,本发明的技术方案如下:
一种基于多平台自主预测的智能运维告警过滤方法,所述方法包括如下步骤:
(1)数据获取整合:从不同的运维平台中获取设备相关数据;
(2)数据质量检查:对不同运维平台中获取的设备相关数据进行数据质量检查;
(3)数据清洗:对经过步骤(2)处理后的数据质量检查没有达到业务及建模标准的数据进行相应的数据清洗处理;
(4)特征工程:从不同的运维平台提取的数据中选择与告警预测相关性较高的属性;
(5)样本采集:对经过步骤(4)构建出的具备新的特征集的数据集进行样本采样;
(6)模型训练及参数优化:在经过步骤(5)构建出的正负样本比例较为均衡的数据集上,使用机器学习分类算法进行建模,对这些模型在交叉验证的基础上进行模型选择,在选择好的模型上对特定模型的参数进行最优值查找,选择在验证集上表现最优的参数,作为最优的模型参数;
(7)模型发布:对构建好的最优模型进行对外发布;
(8)模型使用:模型发布后,嵌入到生产系统中,根据业务需要的时间频度,对低级别的告警数据进行特征提取及预测,将预测结果为会在指定时间范围之内转化为高级别告警的进行数据标注,支持前端显示以及方便运维人员进行设备维护;
(9)模型反馈及优化:对所有预测正确和错误的告警信息进行收集整理,并且阶段性地反馈给模型训练及参数优化模块进行模型重构,形成闭环,从而保证告警预测过滤模型性能的不断优化。
进一步地,在步骤(1)中,所述相关数据包括历史告警数据、虚拟化平台存储性能数据和系统CPU性能监控数据。
进一步地,在步骤(1)中,不同平台上获取的数据保持时间上的一致性。
进一步地,在步骤(2)中,所述数据质量检查包括:缺失值分析、异常值分析、数据分布分析、属性与目标字段相关性分析。
进一步地,在步骤(3)中,所述数据清洗处理包括:缺失值处理、异常值处理、离散化处理、归一化/标准化处理、二值化处理。
进一步地,在步骤(4)中,所述与告警预测相关性较高的属性包括:直接与告警相关的数据、不同时间窗口的统计特征和告警发生的自身特征。
进一步地,在步骤(5)中,所述样本采样方法包括按照一定正负样本比例进行欠采样、过采样或者SMOTE构造新样本采样。
进一步地,在步骤(6)中,建模方法包括:RF、GBDT、XGBoost、LightGBM、Adaboost、LR、Gcforest、SVM和Libffm。
进一步地,在步骤(7)中,使用代码模糊化工具,将工程中的源代码文件进行模糊化加密,使得其他人难以看懂代码的内部实现机制原理,防止知识产权的泄露;
最终将经过编译生成的二进制代码交付客户即可。
一种实现上述的基于多平台自主预测的智能运维告警过滤方法所使用的系统,所述系统包括数据获取整合模块、数据质量检查模块、数据清洗模块、特征工程模块、样本采样模块、模型训练及参数优化模块、模型发布模块、模型告警过滤使用模块和模型反馈及优化模块;
所述数据获取整合模块用于对多种运维平台数据的提取汇总集成;
所述数据质量检查模块用于对数据获取整合模块汇总集成后的数据的检查,分析各属性的不同指标,指出哪些属性需要进行进一步优化处理;
所述数据清洗模块用于对数据质量检查模块中筛选出的需要处理的属性的清洗工作,产生高质量的数据;
所述特征工程模块用于对数据清洗模块处理后产生的高质量数据的特征构建与选择,产生适合后期建模的数据集;
所述样本采样模块用于对特征工程模块处理后产生的具有适合模型构建的特征的数据集的抽样,产生正负样本比例适合后期建模的数据集;
所述模型训练及参数优化模块用于样本采样模块生成的具有较合适的正负样本比例的数据集进行模型构建以及参数调优,从而选择出最优模型用于后期低级别告警向高级别告警转换可能性的预测;
所述模型发布模块用于对构建好的最优模型进行对外发布,将源代码进行模糊加密,并且编译生成二进制可运行程序部署至生产系统;
所述模型告警过滤使用模块用于实时对低级别告警记录进行预测过滤,筛选出转为高级别告警可能性较高的记录,方便运维人员维护使用;
所述模型反馈及优化模块用于将告警判断正确与错误的结果返回至模型训练及参数优化模块,供不定期的模型优化使用。
本发明相对于现有技术的有益效果在于:
1.对不同平台中的设备相关数据进行数据质量把控,采用多种数据分析方法进行分析,通过数据清洗的方法产生高质量的数据,避免了因为数据质量过低而导致的后期建模过程中模型质量不高的问题。
2.使用特征工程的方法,根据业务规则构造并选择最优特征用于后续建模,使得后期构建的告警预测模型能够更贴近实际业务地自主地学习告警相关规律,保证了模型预测结果更为精确。
3.采用样本采样的方法对正负样本比例不平衡的数据进行处理,使得后期构建的告警预测模型具备更强的对不平衡数据的预测能力。
4.优选地,在多种优秀的机器学习算法中,自主地使用不同的模型及参数在训练数据集上训练模型,并进行不同模型之间的性能比较,选择最优的模型及参数,使得模型的预测准确率、精度、召回率、F1值等达到最优。
5.使用代码模糊化工具对工程中的源代码文件进行模糊化加密,并编译成二进制文件进行实际部署,防止知识产权的泄露并且提升了运行性能。
6.告警预测过滤模型的使用过程中,不再依赖于行业专家进行人工判别,提升了预测低级别告警向高级别告警转化的实时性及准确度;不需要运维人员做没有必要的维护工作或是在造成不可挽回的损失后再进行故障排查,极大的节省了人力物力,提前对潜在的故障进行处理,将系统出现故障的风险降至最低。具备告警预测结果反馈机制,可以及时进行模型优化及重构,保证模型性能的不断优化。
总体来说,本发明整合不同运维平台的数据,使用机器学习方法挖掘多种运维平台的数据与低级别告警向高级别告警转化的内在联系。从而可以不依赖于专家判断的方式对低级别告警事件进行过滤,保障了低级别告警事件的实时可处理性,避免了因为专家主观判断的错误以及不能24小时工作而无法避免潜在的突发严重告警事件发生的可能;同样地,本发明的使用可以避免运维人员处理全部低级别告警时间带来的人力物力大量浪费现象以及只处理高级别告警所造成的损失,进而建议运维工程师对低级别告警转为高级别告警可能性高的设备提前进行维护,从而将异常状况对系统的影响降至最低,保证运维系统平稳正常地运行。
附图说明
图1是本发明的一种基于多平台自主预测的智能运维告警过滤系统的示意图以及该系统的运行流程。
图2告警过滤使用模块接口图。
具体实施方式
下面结合附图和具体实施方式,对本发明的具体实施方案作详细的阐述。这些具体实施方式仅供叙述而并非用来限定本发明的范围或实施原则,本发明的保护范围仍以权利要求为准,包括在此基础上所作出的显而易见的变化或变动等。
本发明描述了一种基于多平台自主预测的智能运维告警过滤方法,如图1所示,所述方法包括如下步骤:
1.数据获取整合
从不同的运维平台中获取设备相关数据,包括历史告警数据、虚拟化平台存储性能数据、系统CPU性能监控数据等。要求不同平台上获取的数据保持时间上的一致性。
2.数据质量检查
优选地,对不同运维平台中获取的设备相关数据进行数据质量检查,包括:缺失值分析、异常值分析、数据分布分析、属性与目标字段相关性分析等。
3.数据清洗
优选地,对经过步骤2处理后的数据质量检查没有达到业务及建模标准的数据进行相应的数据清洗处理,包括:缺失值处理、异常值处理、离散化处理、归一化/标准化处理、二值化处理等。
4.特征工程
优选地,从不同的运维平台提取的数据中选择与告警预测相关性较高的属性,包括:直接与告警相关的数据(例如:低级别告警发生时,当前磁盘剩余量、当前CPU占用率、当前系统负载状态、告警发生时段在白天还是晚上以及工作日还是节假日等),不同时间窗口的统计特征(例如:1个小时前的磁盘剩余量、4个小时前的CPU占用率、6个小时前的系统状态、2个小时前的连接数、1周内的低级别告警发生次数、2天之内发生的低级别告警转为高级别告警次数等)。告警发生的自身特征,比如告警发生在白天还是晚上,工作日还是节假日。目标值列为该低级别告警在指定时间范围内是否会转变为高级别告警。
5.样本采样
优选地,对经过步骤4构建出的具备新的特征集的数据集进行样本采样。方法包括:按照一定正负样本比例进行欠采样或者过采样、SMOTE构造新样本采样等。
6.模型训练及参数优化
优选地,在经过步骤5构建出的正负样本比例较为均衡的数据集上,使用业界性能优良的机器学习分类算法进行建模,包括:RF、GBDT、XGBoost、LightGBM、Adaboost、LR、Gcforest、SVM、Libffm。对这些模型在交叉验证的基础上进行模型选择,在选择好的模型上对特定模型的参数进行最优值查找,选择在验证集上表现最优的参数,作为最优的模型参数,方便后期重构模型。
7.模型发布
使用代码模糊化工具,将工程中的源代码文件进行模糊化加密,使得其他人难以看懂代码的内部实现机制原理,防止知识产权的泄露。最终将经过编译生成的二进制代码交付客户即可,客户可以使用编译好的二进制文件进行告警预测过滤。
8.模型使用
模型发布后,嵌入到生产系统中。根据业务需要的时间频度(每隔多少时间进行一次告警预测过滤),对低级别的告警数据进行特征提取及预测,将预测结果为会在指定时间范围之内转化为高级别告警的进行数据标注,支持前端显示以及方便运维人员进行设备维护。
9.模型反馈及优化
在预测过滤模型使用的过程中,会对所有预测正确和错误的告警信息进行收集整理,并且阶段性地反馈给模型训练及参数优化模块进行模型重构,形成闭环,从而保证告警预测过滤模型性能的不断优化。
本发明提供了一种基于多平台自主预测的智能运维告警过滤系统,如图1所示,所述系统包括如下模块:
1.数据获取整合模块
完成对多种运维平台数据的提取汇总集成。
2.数据质量检查模块
完成对数据获取整合模块汇总集成后的数据的检查,分析各属性的不同指标,指出哪些属性需要进行进一步优化处理。
3.数据清洗模块
完成对数据质量检查模块中筛选出的需要处理的属性的清洗工作,产生高质量的数据。
4.特征工程模块
完成对数据清洗模块处理后产生的高质量数据的特征构建与选择,产生适合后期建模的数据集。
5.样本采样模块
完成对特征工程模块处理后产生的具有适合模型构建的特征的数据集的抽样,产生正负样本比例适合后期建模的数据集。
6.模型训练及参数优化模块
对样本采样模块生成的具有较合适的正负样本比例的数据集进行模型构建以及参数调优,从而选择出最优模型用于后期低级别告警向高级别告警转换可能性的预测。
7.模型发布模块
对构建好的最优模型进行对外发布,将源代码进行模糊加密,并且编译生成二进制可运行程序部署至生产系统。
8.模型告警过滤使用模块
模型部署至生产系统后,就可以近实时对低级别告警记录进行预测过滤,筛选出转为高级别告警可能性较高的记录,方便运维人员维护使用。
9.模型反馈及优化模块
模型的使用过程中,不断将告警判断正确与错误的结果返回至模型训练及参数优化模块,供不定期的模型优化使用。
实施例1:
实例的业务背景是:虚拟化平台的磁盘在使用的过程中有时会发生磁盘占满等现象,则监控系统会发出告警。该场景下告警等级分为3级告警和5级告警两种。通常情况下,当发生5级告警的时候该问题已经对业务正常开展造成了明显影响,需要相关模块的运维人员进行维护。而根据历史情况来看,往往发生5级告警之前会有多次3级告警发生。因此,为了减少5级告警的发生,在发生3级告警的时候就需要预测出在未来1天之内是否会发生由3及到5级的告警以及若1天之内不发生转变,则转变的时间间隔是多少。进而建议运维工程师对发生可能性高的设备提前进行维护,从而将异常状况对系统的影响降至最低。
1.步骤1
数据获取及整合模块。在建模过程中使用的数据主要有历史告警数据以及虚拟化平台存储性能数据,为了使得两份数据在时间上能够互相匹配,使用从2016年3月28日开始到2017年4月1日的数据。
2.步骤2及步骤3
数据质量检查模块及数据清洗模块。
2.1缺失值处理
1)告警数据
从建模环节所提取的告警数据表中可以看出,只有少数字段(比如N_ALERT_TOPOID,N_ALERT_CLASS)有缺失。后续建模分析时,如果数据量足够可以直接删除有缺失的记录,如果数据量不够需要采用均值填充、k近邻填充等技术将缺失的数据补充起来。其他不重要的字段,若对建模意义不大同时缺失严重的,应该考虑直接删除该字段。
2)虚拟化平台存储性能数据
用相似的方式对虚拟化平台存储性能数据进行缺失值处理,发现:从建模环节所提取的虚拟化平台存储性能数据表中可以看出,该数据的完整性较高,没有字段存在缺失值。
2.2异常值处理
1)告警数据
对于告警数据表列出的字段,并没有类型不匹配的情况。而大小不匹配、分布异常需要结合具体的业务意义来判断,业务意义需要逐字段与客户深入交流。
2)虚拟化平台存储性能数据
用相似的方式对虚拟化平台存储性能数据进行异常值处理,发现:从建模环节所提取的虚拟化平台存储性能数据表中可以看出,该数据的整体质量较高,没有字段存在极端异常值。
2.3告警历史数据分析
1)告警数据中虚拟中心的数量分布情况
观察期内发生告警最多的虚拟中心是szvcenter:SZVCENTER01:VM,存储告警次数为1586次;最少的是Vcenter:SZVCENTER03:VM,存储告警次数为12次。
2)3级告警在一天内的时间分布
观察期内虚拟化平台存储容量总共出现3级告警1475次;从时间跨度上来说,一天内只有凌晨时段新增告警较少,其余时段均较多。
3)5级告警在一天内的时间分布
在观察期内虚拟化平台存储容量总共出现5级告警403次;从时间跨度上来说,其走势与3级告警相速度很高。
2.4数据标准化处理
对样本特征向量进行z_score标准化。
3.步骤4
特征工程模块。
3.1基本事实类特征
历史VM_STORAGE性能信息,包括:当前剩余量、当前占用率、当前系统状态、一个小时前的剩余量、一个小时前的占用率、一个小时前的系统状态、一个小时前的连接数、四个小时前、一天前、两天前等。告警发生的自身特征,比如告警发生在白天还是晚上,工作日还是节假日。
部分关键特征如下:
·VM_Storage中的Overall_Status[整体状态]
·VM_Storage中的Accessible[是否可接通]
·VM_Storage中的Free_Space[剩余空间大小]
·VM_Storage中的Percent_Used,在当前告警时间的记录[已使用空间百分比(当前)]
·VM_Storage中的Percent_Used,在当前告警时间前1小时的记录[已使用空间百分比(1小时前)]
·VM_Storage中的Percent_Used,在当前告警时间前6小时的记录[已使用空间百分比(6小时前)]
·VM_Storage中的Percent_Used,在当前告警时间前12小时的记录[已使用空间百分比(12小时前)]
·VM_Storage中的Percent_Used,在当前告警时间前24小时的记录[已使用空间百分比(24小时前)]
3.2统计描述类特征
历史告警信息,包括前一个小时是否发生过告警、前四个小时是否发生过告警、前十二个小时是否发生过告警、前一天是否发生过告警、前三天是否发生过告警、前十二天是否发生过告警等。
部分关键特征如下:
·告警记录中的当前告警时间前1天之内发生3级告警的次数[3级告警次数(1天内)]
·告警记录中的当前告警时间前5天之内发生3级告警的次数[3级告警次数(5天内)]
·告警记录中的当前告警时间前7天之内发生3级告警的次数[3级告警次数(7天内)]
·告警记录中的当前告警时间前1天之内发生5级告警的次数[5级告警次数(1天内)]
·告警记录中的当前告警时间前5天之内发生5级告警的次数[5级告警次数(5天内)]
·告警记录中的当前告警时间前7天之内发生5级告警的次数[5级告警次数(7天内)]
·告警记录中的当前告警时间前7天之内发生3级转3级告警的次数[3转3次数(7天内)]
·告警记录中的当前告警时间前7天之内发生3级转5级告警的次数[3转5次数(7天内)]
4.步骤5
样本采样模块。由于本模型将预测一天之内由当前状态3级告警转为5级告警的概率,则首先要从告警数据中提取正(3转5)负(3转3)样本。对于每个5级告警,其之前一天之内的所有3级告警均可构成一条正样本;而在每个5级告警之前5天(5天是为了消除短时间内VM_Storage性能的相似性)以上的3级告警之间均可构成一条负样本。根据统计,正样本为329个,负样本为520个。
由于数据集的正样本为329个,负样本为520个,因此数据中属于不同类别的样本的分布是不平衡的。因此,需要对不平衡数据进行处理。这里选用SMOTE过采样的方法使数据变得平衡。过采样后正负样本数均为520。
5.步骤6
模型训练集参数优化模块。
5.1数据模型的建立及调优
1)从多种模型中选择随机森林算法建模,将数据集的80%作为训练集,20%作为测试集。使用随机森林的带外错误率(Out-of-Bag Error)作为标准,选择最合适的随机森林中树的规模。为了使模型尽量不产生过拟合现象,根据OOB结果,随机森林采用92棵决策树。
2)训练出的模型的特征重要程度可以由随机森林模型的特性直接得出,最重要的特征有:整体状态(黄),整体状态(红),已使用空间百分比(1小时前),已使用空间百分比(3小时前),整体状态(灰),已使用空间百分比(0.5小时前),剩余空间大小等。
6.步骤7
模型发布模块。将源文件进行模糊加密并编译为可执行的二进制部署至生产系统。
7.步骤8
模型告警过滤使用模块。每当最新更新的15分钟每次的告警数据生成以后,同步生成历史3天VM性能监控数据以及历史30天告警数据。这些数据准备好之后,将上述3个文件作为输入,之后调用3级告警转5级告警程序接口,生成15分钟每次的3级告警转5级告警预测结果(CSV形式文件,UTF8编码)。该模块具体使用流程如图2所示。
对实际的3级告警数据使用告警过滤模块进行预测,预测结果中的FLAG字段标记为1的记录为需要运维人员提前进行排查的磁盘,而标记为0的则暂时不需要进行处理。
8.步骤9
模型反馈模块。在告警过滤模块使用了一段时间以后,运维系统积累了大量的3级告警是否转为5级告警的真实记录。可以将这些记录与预测结果进行比较,总结预测正确和预测错误的样本,对预测模型进行重构,从而使得模型能够不断进行优化。

Claims (10)

1.一种基于多平台自主预测的智能运维告警过滤方法,其特征在于,所述方法包括如下步骤:
(1)数据获取整合:从不同的运维平台中获取设备相关数据;
(2)数据质量检查:对不同运维平台中获取的设备相关数据进行数据质量检查;
(3)数据清洗:对经过步骤(2)处理后的数据质量检查没有达到业务及建模标准的数据进行相应的数据清洗处理;
(4)特征工程:从不同的运维平台提取的数据中选择与告警预测相关性较高的属性;
(5)样本采集:对经过步骤(4)构建出的具备新的特征集的数据集进行样本采样;
(6)模型训练及参数优化:在经过步骤(5)构建出的正负样本比例较为均衡的数据集上,使用机器学习分类算法进行建模,对这些模型在交叉验证的基础上进行模型选择,在选择好的模型上对特定模型的参数进行最优值查找,选择在验证集上表现最优的参数,作为最优的模型参数;
(7)模型发布:对构建好的最优模型进行对外发布;
(8)模型使用:模型发布后,嵌入到生产系统中,根据业务需要的时间频度,对低级别的告警数据进行特征提取及预测,将预测结果为会在指定时间范围之内转化为高级别告警的进行数据标注,支持前端显示以及方便运维人员进行设备维护;
(9)模型反馈及优化:对所有预测正确和错误的告警信息进行收集整理,并且阶段性地反馈给模型训练及参数优化模块进行模型重构,形成闭环,从而保证告警预测过滤模型性能的不断优化。
2.根据权利要求1所述的一种基于多平台自主预测的智能运维告警过滤方法,其特征在于:
在步骤(1)中,所述相关数据包括历史告警数据、虚拟化平台存储性能数据和系统CPU性能监控数据。
3.根据权利要求1所述的一种基于多平台自主预测的智能运维告警过滤方法,其特征在于:
在步骤(1)中,不同平台上获取的数据保持时间上的一致性。
4.根据权利要求1所述的一种基于多平台自主预测的智能运维告警过滤方法,其特征在于:
在步骤(2)中,所述数据质量检查包括:缺失值分析、异常值分析、数据分布分析、属性与目标字段相关性分析。
5.根据权利要求1所述的一种基于多平台自主预测的智能运维告警过滤方法,其特征在于:
在步骤(3)中,所述数据清洗处理包括:缺失值处理、异常值处理、离散化处理、归一化/标准化处理、二值化处理。
6.根据权利要求1所述的一种基于多平台自主预测的智能运维告警过滤方法,其特征在于:
在步骤(4)中,所述与告警预测相关性较高的属性包括:直接与告警相关的数据、不同时间窗口的统计特征和告警发生的自身特征。
7.根据权利要求1所述的一种基于多平台自主预测的智能运维告警过滤方法,其特征在于:
在步骤(5)中,所述样本采样方法包括按照一定正负样本比例进行欠采样、过采样或者SMOTE构造新样本采样。
8.根据权利要求1所述的一种基于多平台自主预测的智能运维告警过滤方法,其特征在于:
在步骤(6)中,建模方法包括:RF、GBDT、XGBoost、LightGBM、Adaboost、LR、Gcforest、SVM和Libffm。
9.根据权利要求1所述的一种基于多平台自主预测的智能运维告警过滤方法,其特征在于:
在步骤(7)中,使用代码模糊化工具,将工程中的源代码文件进行模糊化加密,使得其他人难以看懂代码的内部实现机制原理,防止知识产权的泄露;
最终将经过编译生成的二进制代码交付客户即可。
10.一种实现如权利要求1所述的基于多平台自主预测的智能运维告警过滤方法的系统,所述系统包括数据获取整合模块、数据质量检查模块、数据清洗模块、特征工程模块、样本采样模块、模型训练及参数优化模块、模型发布模块、模型告警过滤使用模块和模型反馈及优化模块;其特征在于:
所述数据获取整合模块用于对多种运维平台数据的提取汇总集成;
所述数据质量检查模块用于对数据获取整合模块汇总集成后的数据的检查,分析各属性的不同指标,指出哪些属性需要进行进一步优化处理;
所述数据清洗模块用于对数据质量检查模块中筛选出的需要处理的属性的清洗工作,产生高质量的数据;
所述特征工程模块用于对数据清洗模块处理后产生的高质量数据的特征构建与选择,产生适合后期建模的数据集;
所述样本采样模块用于对特征工程模块处理后产生的具有适合模型构建的特征的数据集的抽样,产生正负样本比例适合后期建模的数据集;
所述模型训练及参数优化模块用于样本采样模块生成的具有较合适的正负样本比例的数据集进行模型构建以及参数调优,从而选择出最优模型用于后期低级别告警向高级别告警转换可能性的预测;
所述模型发布模块用于对构建好的最优模型进行对外发布,将源代码进行模糊加密,并且编译生成二进制可运行程序部署至生产系统;
所述模型告警过滤使用模块用于实时对低级别告警记录进行预测过滤,筛选出转为高级别告警可能性较高的记录,方便运维人员维护使用;
所述模型反馈及优化模块用于将告警判断正确与错误的结果返回至模型训练及参数优化模块,供不定期的模型优化使用。
CN201710464866.1A 2017-06-19 2017-06-19 一种基于多平台自主预测的智能运维告警过滤方法及系统 Pending CN107358300A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710464866.1A CN107358300A (zh) 2017-06-19 2017-06-19 一种基于多平台自主预测的智能运维告警过滤方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710464866.1A CN107358300A (zh) 2017-06-19 2017-06-19 一种基于多平台自主预测的智能运维告警过滤方法及系统

Publications (1)

Publication Number Publication Date
CN107358300A true CN107358300A (zh) 2017-11-17

Family

ID=60272766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710464866.1A Pending CN107358300A (zh) 2017-06-19 2017-06-19 一种基于多平台自主预测的智能运维告警过滤方法及系统

Country Status (1)

Country Link
CN (1) CN107358300A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918772A (zh) * 2017-12-10 2018-04-17 北京工业大学 基于压缩感知理论和gcForest的目标跟踪方法
CN107944913A (zh) * 2017-11-21 2018-04-20 重庆邮电大学 基于大数据用户行为分析的高潜在用户购买意向预测方法
CN108880915A (zh) * 2018-08-20 2018-11-23 全球能源互联网研究院有限公司 一种电力信息网络安全告警信息误报判定方法和系统
CN109272534A (zh) * 2018-05-16 2019-01-25 西安电子科技大学 基于多粒度级联森林模型的sar图像变化检测方法
CN109285589A (zh) * 2018-10-31 2019-01-29 重庆邮电大学 一种基于Spark大数据平台的铝电解过热度预测方法
CN109299785A (zh) * 2018-09-17 2019-02-01 浪潮软件集团有限公司 一种机器学习模型的实现方法及装置
CN109597901A (zh) * 2018-11-15 2019-04-09 韶关学院 一种基于生物数据的数据分析方法
CN109598289A (zh) * 2018-11-16 2019-04-09 京东城市(南京)科技有限公司 跨平台的数据处理方法、装置、设备及可读存储介质
CN109919624A (zh) * 2019-02-28 2019-06-21 杭州师范大学 一种基于时空集中性的网贷欺诈团伙识别与预警方法
CN111475804A (zh) * 2020-03-05 2020-07-31 浙江省北大信息技术高等研究院 一种告警预测方法及系统
CN111522705A (zh) * 2020-03-23 2020-08-11 广东工业大学 一种工业大数据智能运维解决方法
CN111553807A (zh) * 2019-10-28 2020-08-18 国网辽宁省电力有限公司抚顺供电公司 重点机房停电信息核查方法
CN111708682A (zh) * 2020-06-17 2020-09-25 腾讯科技(深圳)有限公司 数据预测方法、装置、设备及存储介质
CN112231650A (zh) * 2020-09-29 2021-01-15 北京瑞莱智慧科技有限公司 一种数据隐私保护协议的分析方法、装置及电子设备
CN114065199A (zh) * 2021-11-18 2022-02-18 山东省计算中心(国家超级计算济南中心) 一种跨平台恶意代码检测方法及系统
CN114095338A (zh) * 2021-10-27 2022-02-25 北京思特奇信息技术股份有限公司 一种云计算平台智能预测告警的方法及系统
CN114202354A (zh) * 2021-11-17 2022-03-18 苏州浪潮智能科技有限公司 一种虚拟化产品告警屏蔽方法、装置、设备和介质
CN115378738A (zh) * 2022-10-24 2022-11-22 中孚安全技术有限公司 一种基于分类算法的告警过滤方法、系统及设备
CN117539665A (zh) * 2024-01-09 2024-02-09 珠海金智维信息科技有限公司 针对告警事件的高效处理方法以及计算机可读存储介质
US11947438B2 (en) 2018-06-28 2024-04-02 Xi'an Zhongxing New Software Co., Ltd. Operation and maintenance system and method

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107944913A (zh) * 2017-11-21 2018-04-20 重庆邮电大学 基于大数据用户行为分析的高潜在用户购买意向预测方法
CN107918772B (zh) * 2017-12-10 2021-04-30 北京工业大学 基于压缩感知理论和gcForest的目标跟踪方法
CN107918772A (zh) * 2017-12-10 2018-04-17 北京工业大学 基于压缩感知理论和gcForest的目标跟踪方法
CN109272534A (zh) * 2018-05-16 2019-01-25 西安电子科技大学 基于多粒度级联森林模型的sar图像变化检测方法
CN109272534B (zh) * 2018-05-16 2022-03-04 西安电子科技大学 基于多粒度级联森林模型的sar图像变化检测方法
US11947438B2 (en) 2018-06-28 2024-04-02 Xi'an Zhongxing New Software Co., Ltd. Operation and maintenance system and method
CN108880915A (zh) * 2018-08-20 2018-11-23 全球能源互联网研究院有限公司 一种电力信息网络安全告警信息误报判定方法和系统
CN108880915B (zh) * 2018-08-20 2023-03-24 全球能源互联网研究院有限公司 一种电力信息网络安全告警信息误报判定方法和系统
CN109299785A (zh) * 2018-09-17 2019-02-01 浪潮软件集团有限公司 一种机器学习模型的实现方法及装置
CN109299785B (zh) * 2018-09-17 2022-04-26 浪潮软件股份有限公司 一种机器学习模型的实现方法及装置
CN109285589A (zh) * 2018-10-31 2019-01-29 重庆邮电大学 一种基于Spark大数据平台的铝电解过热度预测方法
CN109597901A (zh) * 2018-11-15 2019-04-09 韶关学院 一种基于生物数据的数据分析方法
CN109598289A (zh) * 2018-11-16 2019-04-09 京东城市(南京)科技有限公司 跨平台的数据处理方法、装置、设备及可读存储介质
CN109598289B (zh) * 2018-11-16 2020-02-07 京东城市(南京)科技有限公司 跨平台的数据处理方法、装置、设备及可读存储介质
CN109919624A (zh) * 2019-02-28 2019-06-21 杭州师范大学 一种基于时空集中性的网贷欺诈团伙识别与预警方法
CN109919624B (zh) * 2019-02-28 2020-09-22 杭州师范大学 一种基于时空集中性的网贷欺诈团伙识别与预警方法
CN111553807A (zh) * 2019-10-28 2020-08-18 国网辽宁省电力有限公司抚顺供电公司 重点机房停电信息核查方法
CN111475804B (zh) * 2020-03-05 2023-10-24 杭州未名信科科技有限公司 一种告警预测方法及系统
CN111475804A (zh) * 2020-03-05 2020-07-31 浙江省北大信息技术高等研究院 一种告警预测方法及系统
CN111522705A (zh) * 2020-03-23 2020-08-11 广东工业大学 一种工业大数据智能运维解决方法
CN111708682A (zh) * 2020-06-17 2020-09-25 腾讯科技(深圳)有限公司 数据预测方法、装置、设备及存储介质
CN112231650A (zh) * 2020-09-29 2021-01-15 北京瑞莱智慧科技有限公司 一种数据隐私保护协议的分析方法、装置及电子设备
CN114095338A (zh) * 2021-10-27 2022-02-25 北京思特奇信息技术股份有限公司 一种云计算平台智能预测告警的方法及系统
CN114202354A (zh) * 2021-11-17 2022-03-18 苏州浪潮智能科技有限公司 一种虚拟化产品告警屏蔽方法、装置、设备和介质
WO2023087956A1 (zh) * 2021-11-17 2023-05-25 苏州浪潮智能科技有限公司 一种虚拟化产品告警屏蔽方法、装置、设备和介质
CN114065199A (zh) * 2021-11-18 2022-02-18 山东省计算中心(国家超级计算济南中心) 一种跨平台恶意代码检测方法及系统
CN115378738A (zh) * 2022-10-24 2022-11-22 中孚安全技术有限公司 一种基于分类算法的告警过滤方法、系统及设备
CN117539665A (zh) * 2024-01-09 2024-02-09 珠海金智维信息科技有限公司 针对告警事件的高效处理方法以及计算机可读存储介质
CN117539665B (zh) * 2024-01-09 2024-04-12 珠海金智维信息科技有限公司 针对告警事件的高效处理方法以及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN107358300A (zh) 一种基于多平台自主预测的智能运维告警过滤方法及系统
EP3588222B1 (en) Time-series data processing device, time-series data processing system, and time-series data processing method
CN111507376B (zh) 一种基于多种无监督方法融合的单指标异常检测方法
CN109887242B (zh) 向用户终端发送告警信息方法、装置、系统
CN112181758B (zh) 一种基于网络拓扑及实时告警的故障根因定位方法
CN104820716A (zh) 基于数据挖掘的装备可靠性评估方法
CN111950585A (zh) 一种基于XGBoost的地下综合管廊安全状况评估方法
CN110388315A (zh) 基于多源信息融合的输油泵故障识别方法、装置及系统
CN110378427A (zh) 风电叶片的叶根螺栓的故障检测方法、系统、设备及介质
CN115981984A (zh) 一种设备故障检测方法、装置、设备及存储介质
CN111079937A (zh) 一种快速建模的方法
CN110580492A (zh) 一种基于小幅波动检测的轨道电路故障前兆发现方法
CN105743595A (zh) 中短波发射机故障预警方法及装置
CN115204583A (zh) 化工园区区域风险分级管控评估分析方法、系统及装置
US20170236071A1 (en) Alarm management system
CN109978396A (zh) 一种风险事件的早期筛查系统及方法
CN116739317A (zh) 一种矿用绞车自动化管理及调度平台、方法、设备及介质
CN117591679A (zh) 基于知识图谱的积木式产品碳足迹智能分析系统及方法
CN116485020B (zh) 一种基于大数据的供应链风险识别预警方法、系统及介质
CN109885978B (zh) 一种遥感地面站故障诊断系统及方法
CN112000708A (zh) 一种基于调控配用数据融合的异常数据处理方法及系统
CN115471135A (zh) 一种环保业务分析系统
CN116485214A (zh) 一种面向连续生产的过程评价方法及系统
CN113807462A (zh) 一种基于ai的网络设备故障原因定位方法及其系统
CN115879680A (zh) 钢铁表面缺陷判定规则管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20171117

WD01 Invention patent application deemed withdrawn after publication