CN107358300A

CN107358300A - 一种基于多平台自主预测的智能运维告警过滤方法及系统

Info

Publication number: CN107358300A
Application number: CN201710464866.1A
Authority: CN
Inventors: 翟昶
Original assignee: Beijing Letter To Princeton Technology Co Ltd
Current assignee: Beijing Letter To Princeton Technology Co Ltd
Priority date: 2017-06-19
Filing date: 2017-06-19
Publication date: 2017-11-17

Abstract

本发明涉及运维设备的维护领域，尤其涉及一种基于多平台自主预测的智能运维告警过滤方法及系统。所述方法包括以下步骤：(1)数据获取整合；(2)数据质量检查；(3)数据清洗；(4)特征工程；(5)样本采集；(6)模型训练及参数优化；(7)模型发布(8)模型使用；(9)模型反馈及优化。所述系统包括数据获取整合模块、数据质量检查模块、数据清洗模块、特征工程模块、样本采样模块、模型训练及参数优化模块、模型发布模块、模型告警过滤使用模块和模型反馈及优化模块。本发明保障了低级别告警事件的实时可处理性，避免了因为专家主观判断的错误以及不能24小时工作而无法避免潜在的突发严重告警事件发生的可能。

Description

一种基于多平台自主预测的智能运维告警过滤方法及系统

技术领域

本发明涉及运维设备的维护领域，尤其涉及一种基于多平台自主预测的智能运维告警过滤方法及系统。

背景技术

当前的主流运维设备的告警处理主要还停留在主观判断的方向，即当处理较低级别的告警故障的时候，选择是否处理是盲目的(有些较低级别的告警发生后即时不立即处理，也不会对系统正常运行造成影响，并且后期可能较低级别的告警事件可能会转为正常)。因此，当有初级告警系统产生的时候，往往需要加以人工判别辅助决策是否处理低级别的告警事件。规定行业业务背景：某个行业领域规定，某个设备可能发生的告警等级分为3级告警和5级告警。5级告警必须要立刻处理(已经对系统正常运行造成影响)，但是有些3级告警时间并不会影响正常系统业务的进展，并且存在后期不再具备告警条件的可能。目前流行的低级别告警处理方法主要有2种。方法1：行业专家结合现有其他平台的监控数据，根据业务标准判断是否去处理某些低级别的告警事件。行业专家根据经验去筛选很有可能在后期转化为5级告警的3级告警进行处理，将发生5级告警的风险降至最低。方法2：运维人员对所有的3级告警事件进行处理，从而将风险降至最低。或者对于所有的3级告警事件均不进行处理，只处理发生的5级告警事件。

在上述的两种方法中，存在一些不容忽视的缺陷。方法1需要具有深厚行业经验的专家，不是每一个企业所具备的；专家也有判断错误的情况，并且专家无法保证全天24小时都能够进行预测判断。另外专家单位时间能够判断的低级别告警事件的数量也是不确定的，有无法处理完所有的低级别告警事件的可能。方法2需要运维人员处理所有的低级别告警事件，需要消耗大量不必要的人力物力。另外，如果等到所有3级告警转为5级告警以后再去处理，虽然是使用了最少的人力去处理，但是已经对系统造成了无法挽回的损失。

发明内容

针对背景技术中的问题，本发明的目的在于提供一种基于多平台自主预测的智能运维告警过滤方法及系统，预测哪些低级别告警会在特定的时间范围内转化为高级别告警。

为了实现上述目的，本发明的技术方案如下：

一种基于多平台自主预测的智能运维告警过滤方法，所述方法包括如下步骤：

(1)数据获取整合：从不同的运维平台中获取设备相关数据；

(2)数据质量检查：对不同运维平台中获取的设备相关数据进行数据质量检查；

(3)数据清洗：对经过步骤(2)处理后的数据质量检查没有达到业务及建模标准的数据进行相应的数据清洗处理；

(4)特征工程：从不同的运维平台提取的数据中选择与告警预测相关性较高的属性；

(5)样本采集：对经过步骤(4)构建出的具备新的特征集的数据集进行样本采样；

(6)模型训练及参数优化：在经过步骤(5)构建出的正负样本比例较为均衡的数据集上，使用机器学习分类算法进行建模，对这些模型在交叉验证的基础上进行模型选择，在选择好的模型上对特定模型的参数进行最优值查找，选择在验证集上表现最优的参数，作为最优的模型参数；

(7)模型发布：对构建好的最优模型进行对外发布；

(8)模型使用：模型发布后，嵌入到生产系统中，根据业务需要的时间频度，对低级别的告警数据进行特征提取及预测，将预测结果为会在指定时间范围之内转化为高级别告警的进行数据标注，支持前端显示以及方便运维人员进行设备维护；

(9)模型反馈及优化：对所有预测正确和错误的告警信息进行收集整理，并且阶段性地反馈给模型训练及参数优化模块进行模型重构，形成闭环，从而保证告警预测过滤模型性能的不断优化。

进一步地，在步骤(1)中，所述相关数据包括历史告警数据、虚拟化平台存储性能数据和系统CPU性能监控数据。

进一步地，在步骤(1)中，不同平台上获取的数据保持时间上的一致性。

进一步地，在步骤(2)中，所述数据质量检查包括：缺失值分析、异常值分析、数据分布分析、属性与目标字段相关性分析。

进一步地，在步骤(3)中，所述数据清洗处理包括：缺失值处理、异常值处理、离散化处理、归一化/标准化处理、二值化处理。

进一步地，在步骤(4)中，所述与告警预测相关性较高的属性包括：直接与告警相关的数据、不同时间窗口的统计特征和告警发生的自身特征。

进一步地，在步骤(5)中，所述样本采样方法包括按照一定正负样本比例进行欠采样、过采样或者SMOTE构造新样本采样。

进一步地，在步骤(6)中，建模方法包括：RF、GBDT、XGBoost、LightGBM、Adaboost、LR、Gcforest、SVM和Libffm。

进一步地，在步骤(7)中，使用代码模糊化工具，将工程中的源代码文件进行模糊化加密，使得其他人难以看懂代码的内部实现机制原理，防止知识产权的泄露；

最终将经过编译生成的二进制代码交付客户即可。

一种实现上述的基于多平台自主预测的智能运维告警过滤方法所使用的系统，所述系统包括数据获取整合模块、数据质量检查模块、数据清洗模块、特征工程模块、样本采样模块、模型训练及参数优化模块、模型发布模块、模型告警过滤使用模块和模型反馈及优化模块；

所述数据获取整合模块用于对多种运维平台数据的提取汇总集成；

所述数据质量检查模块用于对数据获取整合模块汇总集成后的数据的检查，分析各属性的不同指标，指出哪些属性需要进行进一步优化处理；

所述数据清洗模块用于对数据质量检查模块中筛选出的需要处理的属性的清洗工作，产生高质量的数据；

所述特征工程模块用于对数据清洗模块处理后产生的高质量数据的特征构建与选择，产生适合后期建模的数据集；

所述样本采样模块用于对特征工程模块处理后产生的具有适合模型构建的特征的数据集的抽样，产生正负样本比例适合后期建模的数据集；

所述模型训练及参数优化模块用于样本采样模块生成的具有较合适的正负样本比例的数据集进行模型构建以及参数调优，从而选择出最优模型用于后期低级别告警向高级别告警转换可能性的预测；

所述模型发布模块用于对构建好的最优模型进行对外发布，将源代码进行模糊加密，并且编译生成二进制可运行程序部署至生产系统；

所述模型告警过滤使用模块用于实时对低级别告警记录进行预测过滤，筛选出转为高级别告警可能性较高的记录，方便运维人员维护使用；

所述模型反馈及优化模块用于将告警判断正确与错误的结果返回至模型训练及参数优化模块，供不定期的模型优化使用。

本发明相对于现有技术的有益效果在于：

1.对不同平台中的设备相关数据进行数据质量把控，采用多种数据分析方法进行分析，通过数据清洗的方法产生高质量的数据，避免了因为数据质量过低而导致的后期建模过程中模型质量不高的问题。

2.使用特征工程的方法，根据业务规则构造并选择最优特征用于后续建模，使得后期构建的告警预测模型能够更贴近实际业务地自主地学习告警相关规律，保证了模型预测结果更为精确。

3.采用样本采样的方法对正负样本比例不平衡的数据进行处理，使得后期构建的告警预测模型具备更强的对不平衡数据的预测能力。

4.优选地，在多种优秀的机器学习算法中，自主地使用不同的模型及参数在训练数据集上训练模型，并进行不同模型之间的性能比较，选择最优的模型及参数，使得模型的预测准确率、精度、召回率、F1值等达到最优。

5.使用代码模糊化工具对工程中的源代码文件进行模糊化加密，并编译成二进制文件进行实际部署，防止知识产权的泄露并且提升了运行性能。

6.告警预测过滤模型的使用过程中，不再依赖于行业专家进行人工判别，提升了预测低级别告警向高级别告警转化的实时性及准确度；不需要运维人员做没有必要的维护工作或是在造成不可挽回的损失后再进行故障排查，极大的节省了人力物力，提前对潜在的故障进行处理，将系统出现故障的风险降至最低。具备告警预测结果反馈机制，可以及时进行模型优化及重构，保证模型性能的不断优化。

总体来说，本发明整合不同运维平台的数据，使用机器学习方法挖掘多种运维平台的数据与低级别告警向高级别告警转化的内在联系。从而可以不依赖于专家判断的方式对低级别告警事件进行过滤，保障了低级别告警事件的实时可处理性，避免了因为专家主观判断的错误以及不能24小时工作而无法避免潜在的突发严重告警事件发生的可能；同样地，本发明的使用可以避免运维人员处理全部低级别告警时间带来的人力物力大量浪费现象以及只处理高级别告警所造成的损失，进而建议运维工程师对低级别告警转为高级别告警可能性高的设备提前进行维护，从而将异常状况对系统的影响降至最低，保证运维系统平稳正常地运行。

附图说明

图1是本发明的一种基于多平台自主预测的智能运维告警过滤系统的示意图以及该系统的运行流程。

图2告警过滤使用模块接口图。

具体实施方式

下面结合附图和具体实施方式，对本发明的具体实施方案作详细的阐述。这些具体实施方式仅供叙述而并非用来限定本发明的范围或实施原则，本发明的保护范围仍以权利要求为准，包括在此基础上所作出的显而易见的变化或变动等。

本发明描述了一种基于多平台自主预测的智能运维告警过滤方法，如图1所示，所述方法包括如下步骤：

1.数据获取整合

从不同的运维平台中获取设备相关数据，包括历史告警数据、虚拟化平台存储性能数据、系统CPU性能监控数据等。要求不同平台上获取的数据保持时间上的一致性。

2.数据质量检查

优选地，对不同运维平台中获取的设备相关数据进行数据质量检查，包括：缺失值分析、异常值分析、数据分布分析、属性与目标字段相关性分析等。

3.数据清洗

优选地，对经过步骤2处理后的数据质量检查没有达到业务及建模标准的数据进行相应的数据清洗处理，包括：缺失值处理、异常值处理、离散化处理、归一化/标准化处理、二值化处理等。

4.特征工程

优选地，从不同的运维平台提取的数据中选择与告警预测相关性较高的属性，包括：直接与告警相关的数据(例如：低级别告警发生时，当前磁盘剩余量、当前CPU占用率、当前系统负载状态、告警发生时段在白天还是晚上以及工作日还是节假日等)，不同时间窗口的统计特征(例如：1个小时前的磁盘剩余量、4个小时前的CPU占用率、6个小时前的系统状态、2个小时前的连接数、1周内的低级别告警发生次数、2天之内发生的低级别告警转为高级别告警次数等)。告警发生的自身特征，比如告警发生在白天还是晚上，工作日还是节假日。目标值列为该低级别告警在指定时间范围内是否会转变为高级别告警。

5.样本采样

优选地，对经过步骤4构建出的具备新的特征集的数据集进行样本采样。方法包括：按照一定正负样本比例进行欠采样或者过采样、SMOTE构造新样本采样等。

6.模型训练及参数优化

优选地，在经过步骤5构建出的正负样本比例较为均衡的数据集上，使用业界性能优良的机器学习分类算法进行建模，包括：RF、GBDT、XGBoost、LightGBM、Adaboost、LR、Gcforest、SVM、Libffm。对这些模型在交叉验证的基础上进行模型选择，在选择好的模型上对特定模型的参数进行最优值查找，选择在验证集上表现最优的参数，作为最优的模型参数，方便后期重构模型。

7.模型发布

使用代码模糊化工具，将工程中的源代码文件进行模糊化加密，使得其他人难以看懂代码的内部实现机制原理，防止知识产权的泄露。最终将经过编译生成的二进制代码交付客户即可，客户可以使用编译好的二进制文件进行告警预测过滤。

8.模型使用

模型发布后，嵌入到生产系统中。根据业务需要的时间频度(每隔多少时间进行一次告警预测过滤)，对低级别的告警数据进行特征提取及预测，将预测结果为会在指定时间范围之内转化为高级别告警的进行数据标注，支持前端显示以及方便运维人员进行设备维护。

9.模型反馈及优化

在预测过滤模型使用的过程中，会对所有预测正确和错误的告警信息进行收集整理，并且阶段性地反馈给模型训练及参数优化模块进行模型重构，形成闭环，从而保证告警预测过滤模型性能的不断优化。

本发明提供了一种基于多平台自主预测的智能运维告警过滤系统，如图1所示，所述系统包括如下模块：

1.数据获取整合模块

完成对多种运维平台数据的提取汇总集成。

2.数据质量检查模块

完成对数据获取整合模块汇总集成后的数据的检查，分析各属性的不同指标，指出哪些属性需要进行进一步优化处理。

3.数据清洗模块

完成对数据质量检查模块中筛选出的需要处理的属性的清洗工作，产生高质量的数据。

4.特征工程模块

完成对数据清洗模块处理后产生的高质量数据的特征构建与选择，产生适合后期建模的数据集。

5.样本采样模块

完成对特征工程模块处理后产生的具有适合模型构建的特征的数据集的抽样，产生正负样本比例适合后期建模的数据集。

6.模型训练及参数优化模块

对样本采样模块生成的具有较合适的正负样本比例的数据集进行模型构建以及参数调优，从而选择出最优模型用于后期低级别告警向高级别告警转换可能性的预测。

7.模型发布模块

对构建好的最优模型进行对外发布，将源代码进行模糊加密，并且编译生成二进制可运行程序部署至生产系统。

8.模型告警过滤使用模块

模型部署至生产系统后，就可以近实时对低级别告警记录进行预测过滤，筛选出转为高级别告警可能性较高的记录，方便运维人员维护使用。

9.模型反馈及优化模块

模型的使用过程中，不断将告警判断正确与错误的结果返回至模型训练及参数优化模块，供不定期的模型优化使用。

实施例1：

实例的业务背景是：虚拟化平台的磁盘在使用的过程中有时会发生磁盘占满等现象，则监控系统会发出告警。该场景下告警等级分为3级告警和5级告警两种。通常情况下，当发生5级告警的时候该问题已经对业务正常开展造成了明显影响，需要相关模块的运维人员进行维护。而根据历史情况来看，往往发生5级告警之前会有多次3级告警发生。因此，为了减少5级告警的发生，在发生3级告警的时候就需要预测出在未来1天之内是否会发生由3及到5级的告警以及若1天之内不发生转变，则转变的时间间隔是多少。进而建议运维工程师对发生可能性高的设备提前进行维护，从而将异常状况对系统的影响降至最低。

1.步骤1

数据获取及整合模块。在建模过程中使用的数据主要有历史告警数据以及虚拟化平台存储性能数据，为了使得两份数据在时间上能够互相匹配，使用从2016年3月28日开始到2017年4月1日的数据。

2.步骤2及步骤3

数据质量检查模块及数据清洗模块。

2.1缺失值处理

1)告警数据

从建模环节所提取的告警数据表中可以看出，只有少数字段(比如N_ALERT_TOPOID，N_ALERT_CLASS)有缺失。后续建模分析时，如果数据量足够可以直接删除有缺失的记录，如果数据量不够需要采用均值填充、k近邻填充等技术将缺失的数据补充起来。其他不重要的字段，若对建模意义不大同时缺失严重的，应该考虑直接删除该字段。

2)虚拟化平台存储性能数据

用相似的方式对虚拟化平台存储性能数据进行缺失值处理，发现：从建模环节所提取的虚拟化平台存储性能数据表中可以看出，该数据的完整性较高，没有字段存在缺失值。

2.2异常值处理

1)告警数据

对于告警数据表列出的字段，并没有类型不匹配的情况。而大小不匹配、分布异常需要结合具体的业务意义来判断，业务意义需要逐字段与客户深入交流。

2)虚拟化平台存储性能数据

用相似的方式对虚拟化平台存储性能数据进行异常值处理，发现：从建模环节所提取的虚拟化平台存储性能数据表中可以看出，该数据的整体质量较高，没有字段存在极端异常值。

2.3告警历史数据分析

1)告警数据中虚拟中心的数量分布情况

观察期内发生告警最多的虚拟中心是szvcenter:SZVCENTER01:VM，存储告警次数为1586次；最少的是Vcenter:SZVCENTER03:VM，存储告警次数为12次。

2)3级告警在一天内的时间分布

观察期内虚拟化平台存储容量总共出现3级告警1475次；从时间跨度上来说，一天内只有凌晨时段新增告警较少，其余时段均较多。

3)5级告警在一天内的时间分布

在观察期内虚拟化平台存储容量总共出现5级告警403次；从时间跨度上来说，其走势与3级告警相速度很高。

2.4数据标准化处理

对样本特征向量进行z_score标准化。

3.步骤4

特征工程模块。

3.1基本事实类特征

历史VM_STORAGE性能信息，包括：当前剩余量、当前占用率、当前系统状态、一个小时前的剩余量、一个小时前的占用率、一个小时前的系统状态、一个小时前的连接数、四个小时前、一天前、两天前等。告警发生的自身特征，比如告警发生在白天还是晚上，工作日还是节假日。

部分关键特征如下：

·VM_Storage中的Overall_Status[整体状态]

·VM_Storage中的Accessible[是否可接通]

·VM_Storage中的Free_Space[剩余空间大小]

·VM_Storage中的Percent_Used，在当前告警时间的记录[已使用空间百分比(当前)]

·VM_Storage中的Percent_Used，在当前告警时间前1小时的记录[已使用空间百分比(1小时前)]

·VM_Storage中的Percent_Used，在当前告警时间前6小时的记录[已使用空间百分比(6小时前)]

·VM_Storage中的Percent_Used，在当前告警时间前12小时的记录[已使用空间百分比(12小时前)]

·VM_Storage中的Percent_Used，在当前告警时间前24小时的记录[已使用空间百分比(24小时前)]

3.2统计描述类特征

历史告警信息，包括前一个小时是否发生过告警、前四个小时是否发生过告警、前十二个小时是否发生过告警、前一天是否发生过告警、前三天是否发生过告警、前十二天是否发生过告警等。

部分关键特征如下：

·告警记录中的当前告警时间前1天之内发生3级告警的次数[3级告警次数(1天内)]

·告警记录中的当前告警时间前5天之内发生3级告警的次数[3级告警次数(5天内)]

·告警记录中的当前告警时间前7天之内发生3级告警的次数[3级告警次数(7天内)]

·告警记录中的当前告警时间前1天之内发生5级告警的次数[5级告警次数(1天内)]

·告警记录中的当前告警时间前5天之内发生5级告警的次数[5级告警次数(5天内)]

·告警记录中的当前告警时间前7天之内发生5级告警的次数[5级告警次数(7天内)]

·告警记录中的当前告警时间前7天之内发生3级转3级告警的次数[3转3次数(7天内)]

·告警记录中的当前告警时间前7天之内发生3级转5级告警的次数[3转5次数(7天内)]

4.步骤5

样本采样模块。由于本模型将预测一天之内由当前状态3级告警转为5级告警的概率，则首先要从告警数据中提取正(3转5)负(3转3)样本。对于每个5级告警，其之前一天之内的所有3级告警均可构成一条正样本；而在每个5级告警之前5天(5天是为了消除短时间内VM_Storage性能的相似性)以上的3级告警之间均可构成一条负样本。根据统计，正样本为329个，负样本为520个。

由于数据集的正样本为329个，负样本为520个，因此数据中属于不同类别的样本的分布是不平衡的。因此，需要对不平衡数据进行处理。这里选用SMOTE过采样的方法使数据变得平衡。过采样后正负样本数均为520。

5.步骤6

模型训练集参数优化模块。

5.1数据模型的建立及调优

1)从多种模型中选择随机森林算法建模，将数据集的80％作为训练集，20％作为测试集。使用随机森林的带外错误率(Out-of-Bag Error)作为标准，选择最合适的随机森林中树的规模。为了使模型尽量不产生过拟合现象，根据OOB结果,随机森林采用92棵决策树。

2)训练出的模型的特征重要程度可以由随机森林模型的特性直接得出，最重要的特征有：整体状态(黄)，整体状态(红)，已使用空间百分比(1小时前)，已使用空间百分比(3小时前)，整体状态(灰)，已使用空间百分比(0.5小时前)，剩余空间大小等。

6.步骤7

模型发布模块。将源文件进行模糊加密并编译为可执行的二进制部署至生产系统。

7.步骤8

模型告警过滤使用模块。每当最新更新的15分钟每次的告警数据生成以后,同步生成历史3天VM性能监控数据以及历史30天告警数据。这些数据准备好之后,将上述3个文件作为输入,之后调用3级告警转5级告警程序接口,生成15分钟每次的3级告警转5级告警预测结果(CSV形式文件,UTF8编码)。该模块具体使用流程如图2所示。

对实际的3级告警数据使用告警过滤模块进行预测，预测结果中的FLAG字段标记为1的记录为需要运维人员提前进行排查的磁盘，而标记为0的则暂时不需要进行处理。

8.步骤9

模型反馈模块。在告警过滤模块使用了一段时间以后，运维系统积累了大量的3级告警是否转为5级告警的真实记录。可以将这些记录与预测结果进行比较，总结预测正确和预测错误的样本，对预测模型进行重构，从而使得模型能够不断进行优化。

Claims

1.一种基于多平台自主预测的智能运维告警过滤方法，其特征在于，所述方法包括如下步骤：

(1)数据获取整合：从不同的运维平台中获取设备相关数据；

(7)模型发布：对构建好的最优模型进行对外发布；

2.根据权利要求1所述的一种基于多平台自主预测的智能运维告警过滤方法，其特征在于：

在步骤(1)中，所述相关数据包括历史告警数据、虚拟化平台存储性能数据和系统CPU性能监控数据。

3.根据权利要求1所述的一种基于多平台自主预测的智能运维告警过滤方法，其特征在于：

在步骤(1)中，不同平台上获取的数据保持时间上的一致性。

4.根据权利要求1所述的一种基于多平台自主预测的智能运维告警过滤方法，其特征在于：

在步骤(2)中，所述数据质量检查包括：缺失值分析、异常值分析、数据分布分析、属性与目标字段相关性分析。

5.根据权利要求1所述的一种基于多平台自主预测的智能运维告警过滤方法，其特征在于：

在步骤(3)中，所述数据清洗处理包括：缺失值处理、异常值处理、离散化处理、归一化/标准化处理、二值化处理。

6.根据权利要求1所述的一种基于多平台自主预测的智能运维告警过滤方法，其特征在于：

在步骤(4)中，所述与告警预测相关性较高的属性包括：直接与告警相关的数据、不同时间窗口的统计特征和告警发生的自身特征。

7.根据权利要求1所述的一种基于多平台自主预测的智能运维告警过滤方法，其特征在于：

在步骤(5)中，所述样本采样方法包括按照一定正负样本比例进行欠采样、过采样或者SMOTE构造新样本采样。

8.根据权利要求1所述的一种基于多平台自主预测的智能运维告警过滤方法，其特征在于：

在步骤(6)中，建模方法包括：RF、GBDT、XGBoost、LightGBM、Adaboost、LR、Gcforest、SVM和Libffm。

9.根据权利要求1所述的一种基于多平台自主预测的智能运维告警过滤方法，其特征在于：

在步骤(7)中，使用代码模糊化工具，将工程中的源代码文件进行模糊化加密，使得其他人难以看懂代码的内部实现机制原理，防止知识产权的泄露；

最终将经过编译生成的二进制代码交付客户即可。

10.一种实现如权利要求1所述的基于多平台自主预测的智能运维告警过滤方法的系统，所述系统包括数据获取整合模块、数据质量检查模块、数据清洗模块、特征工程模块、样本采样模块、模型训练及参数优化模块、模型发布模块、模型告警过滤使用模块和模型反馈及优化模块；其特征在于：