CN109753499A - 一种运维监控数据治理方法 - Google Patents

一种运维监控数据治理方法 Download PDF

Info

Publication number
CN109753499A
CN109753499A CN201811545298.9A CN201811545298A CN109753499A CN 109753499 A CN109753499 A CN 109753499A CN 201811545298 A CN201811545298 A CN 201811545298A CN 109753499 A CN109753499 A CN 109753499A
Authority
CN
China
Prior art keywords
data
maintenance
acquisition
database
monitoring data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811545298.9A
Other languages
English (en)
Inventor
吕垚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Center of Yunnan Power Grid Co Ltd
Original Assignee
Information Center of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Center of Yunnan Power Grid Co Ltd filed Critical Information Center of Yunnan Power Grid Co Ltd
Priority to CN201811545298.9A priority Critical patent/CN109753499A/zh
Publication of CN109753499A publication Critical patent/CN109753499A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Testing And Monitoring For Control Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种运维监控数据治理方法,包括1)采集维护对象监控指标下的不同类型的运维数据;2)对运维数据进行规整排列,存储于数据库;3)依据规整排列后的运维数据构建治理模型;4)依据治理模型任意选取数据库中某一节点作为起始节点,根据起始节点的阈值,判断进入哪个节点,直到遍历同数据类型的所有节点,并输出预测值;5)重复执行步骤4)直到遍历整个数据库,并且全部输出了预测值;6)依据预测值对维护对象的运营状况做出分析和判断。通过统计算法拉依达准则加权移动平均值的控制图和基于有监督学习算法和无监督学习算法相结合的运维监控数据治理,从数据采集、治理、存储和分析服务四个步骤实现IT运维监控数据质量的提高。

Description

一种运维监控数据治理方法
技术领域
本发明涉及电力IT运维监控数据分析方法,特别是指统计算法和机器学习算法相结合的运维监控数据治理方法。
背景技术
IT运维监控系统相对独立,并且数据种类繁多和数据格式不统一,存在网络数据、应用性能数据、机房数据、服务器数据、平台性能数据、数据库性能数据和终端数据等,数据特点是数据分散、数据量大和数据标准和规范不统一等,造成数据共享困难,导致运维监控数据的开发利用满足不了运维监控业务的需要。
发明的目的及亮点
为了实现IT运维监控数据质量的提高,应用统计算法3-sigma(拉依达准则)和EWMA(加权移动平均值的控制图),并结合无监督学习算法One Class SVM和有监督学习算法Random Forest(随机森林),实现了性能指标数据和日志数据质量的提高。
具体的方案如下:
一种运维监控数据治理方法,包括如下步骤:
1)采集维护对象监控指标下的不同类型的运维数据;
2)对运维数据进行规整排列,存储于数据库;
3)依据规整排列后的运维数据构建治理模型;
4)依据治理模型任意选取数据库中某一节点作为起始节点,根据起始节点的阈值,判断进入哪个节点,直到遍历同数据类型的所有节点,并输出预测值;
5)重复执行步骤4)直到遍历整个数据库,并且全部输出了预测值;
6)依据预测值对维护对象的运营状况做出分析和判断。
优选的,所述运维数据包括指标数据和日志数据;
所述指标数据是时序数据,其包括指标采集时间和对应指标的值;
所述日志文本数据是半结构化文本格式,包括程数据库日志和中间件日志。
优选的,根据指标数据和日志数据数据源的格式,采用相应的分析方法,建立相应的数据模型,制定出合适的数据采集策略。
优选的,所述指标数据采集方法如下:
依据不同的维护对象,建立同一接收通道,
对维护对象的指标数据进行实时采集,
对采集的数据进行统计、翻译、计算以及自定义,
按照自定义的分类结果分别进行存储。
优选的,所述日志数据采集方法如下:
依据不同的维护对象,建立接收者采集通道,
每一采集通道对维护对象的运维数据进行实时采集,
每一采集通道对实时采集的数据进行处理,按照采集源、汇特征进行分类,按照分类结果分别进行存储。
优选的,使用统计算法和无监督算法过滤掉大量正样本,对样本库进行人工标注,包括先人工标注正负样本,然后通过特征工程提取特征值,通过设置有监督算法随机森林的参数进行训练,从而实现IT运维监控数据质量的提高。
通过统计算法3-sigma(拉依达准则)和EWMA(加权移动平均值的控制图)和基于有监督学习算法和无监督学习算法相结合的运维监控数据治理技术研究,从数据采集、治理、存储和分析服务四个步骤实现IT运维监控数据质量的提高。
说明书附图
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明数据分析方法图;
图2为本发明指标数据采集流程图;
图3为本发明日志采集流程图;
图4为本发明数据治理流程图。
具体实施方式
本发明一种运维监控数据治理方法,该方法结合了统计算法和机器学习算法,对各类监控工具采集的运维监控数据进行采集、治理、存储和服务,实现IT运维监控数据的标准化和规范化。
具体方案如下:
参照图1至图4,一种运维监控数据治理方法,包括如下步骤:
1)采集维护对象监控指标下的不同类型的运维数据;
2)对运维数据进行规整排列,存储于数据库;
3)依据规整排列后的运维数据构建治理模型;
4)依据治理模型任意选取数据库中某一节点作为起始节点,根据起始节点的阈值,判断进入哪个节点,直到遍历同数据类型的所有节点,并输出预测值;
5)重复执行步骤4)直到遍历整个数据库,并且全部输出了预测值;
6)依据预测值对维护对象的运营状况做出分析和判断。
所述运维数据包括指标数据和日志数据;
所述指标数据是时序数据,其包括指标采集时间和对应指标的值;
所述日志文本数据是半结构化文本格式,包括程数据库日志和中间件日志。
优选的,根据指标数据和日志数据数据源的格式,采用相应的分析方法,建立相应的数据模型,制定出合适的数据采集策略。
数据来源于开源监控工具zabbix和其它厂家的监控数据以及各类日志数据,鉴于数据源和数据格式的多样性,制定了数据采集的方法和步骤。根据数据采集对象不同,进而选用不同的数据采集工具。对于非结构化数据、结构化数据及半结构化数据,通过选择不同的采集模型,建立合适的数据采集策略。下面介绍了两种数据采集方法,一种是对各监控指标数据进行采集,如图2,另外一种对日志数据进行采集如图3。
参照图2,所述指标数据采集方法如下:
依据不同的维护对象,建立同一接收通道,
对维护对象的指标数据进行实时采集,
对采集的数据进行统计、翻译、计算以及自定义,
按照自定义的分类结果分别进行存储。
参照图3,所述日志数据采集方法如下:
依据不同的维护对象,建立接收者采集通道,
每一采集通道对维护对象的运维数据进行实时采集,
每一采集通道对实时采集的数据进行处理,按照采集源、汇特征进行分类,按照分类结果分别进行存储。
优选的,使用统计算法和无监督算法过滤掉大量正样本,对样本库进行人工标注,包括先人工标注正负样本,然后通过特征工程提取特征值,通过设置有监督算法随机森林的参数进行训练,从而实现IT运维监控数据质量的提高。
通过统计算法3-sigma(拉依达准则)和EWMA(加权移动平均值的控制图)和基于有监督学习算法和无监督学习算法相结合的运维监控数据治理技术研究,从数据采集、治理、存储和分析服务四个步骤实现IT运维监控数据质量的提高。
运维监控数据异常通常分为数据源异常、单指标异常、多指标异常和日志数据异常。数据源有时会出现难以预测的结果,产生异常数据,导致数据质量不高。
通常的运维监控系统会时常出现以下两种情况:
单指标异常:如果时间阈值设置过高,会导致遗漏告警增多,如果时间阈值设置太低,告警太多引发告警风暴。
多指标异常:在运维过程中,单独分析某个指标是正常,但是综合多个指标来分析,往往就是异常的数据。有时单独分析某个指标异常的,但是综合多个指标来分析往往是正常的。
文本日志通常是在特定条件下触发生成的(比如中间件停止服务、重新启动服务和启动服务),并符合一定的格式(半结构化文本)。传统的日志检测有两种方式:根据日志级别(如一般、警告、重要)进行报警,往往告警级别设置不合适,导致数据准确性差;也可以通过设置规则引擎,匹配日志中预先已经规定好的字符串进行匹配并报警,但该方法的局限性依赖人工经验,只可以发现既定模式的异常,无法发现未知的异常。
参照图4,本发明提供了一种实施例,首先针对数据源的特点进行分类,先用统计算法3-sigma和EWMA(指数加权移动平均)模型实现数据的分类。3σ准则又称为拉依达准则,如果一组检测数据仅仅含有随机误差,计算处理并得出标准偏差,按既定概率统计,并指定一个区间在正态分布(公式如下所示)中σ代表标准差,μ代表均值。x=μ是坐标图像的对称轴。如果3σ分布在(μ-σ,,μ+σ)中,概率为0.6827;如果3σ在(μ-2σ,μ+2σ)中,概率为0.9545;如果3σ分布在(μ-3σ,μ+3σ)中,概率为0.9973,结论:Y轴取值范围几乎全部集中在(μ-3σ,μ+3σ)区间内。
EWMA是指数加权移动平均值的控制图。每个EWMA点都结合来自3-sigma分组。定制EWMA控制图进而检测过程中大小的偏移,每个EWMA点都根据自定义的加权因子结合了来自之前所有信息数据。通过更改使用的权重以及限制的s数量,构建生成该控制图,该图可以检测过程中所有数据大小的偏移。鉴于此,使用EWMA来监控正态3-sigma过程中的数据,得出偏离目标的较小偏移。算法表示:设计权重系数λ,0<λ<1,如果λ越大,则Y(t)越大,t-1时刻相应就越小。
EWMA(t)=λY(t)+(1-λ)EWMA(t-1)for t=1,2,...,n.
以上两种统计算法结合机器学习方法实现对数据的处理,两种机器学习算法如下:
One Class SVM属于无监督算法使用了超平面的思想适用于连续数据的异常检测和对样本进行一定比例的筛选,可以寻找高维平面区分正常点与异常点。本文利用OneClass SVM异常值检测、解决极度不平衡数据,公式如下:
subject to(w*Φ(xi))≥ρ-εi i=1,2,...,lεi≥0
随机森林由多棵CART(Classification And Regression Tree)构成的。对于CART每一棵树,存在训练集中的样本频繁多次出现在一棵树的训练集中,当然也存在从未出现在一棵树的训练集中。当训练某一棵树的节点时,选用特征值是从所有特征中根据预先设定比例,随机地无放回的抽取的,设总的特征数量为M,占比分别是sqrt(M),1/2sqrt(M),2sqrt(M)利用随机森林(Random Forest)的预测步骤如下:
(1)从当前树的根节点(第1-t棵树,i=1-t;)开始,根据当前节点的阈值th,判断进入那个节点,直到遍历某个叶子节点,并输出预测值。
(2)重复执行(1)直到所有t棵树,并且全部输出了预测值。假如是分类问题,输出当前全部树中预测概率总和最大的那一个类,即对每个c(j)的p进行累计;如果是回归问题,则输出为所有树的输出的平均值。
采用One Class SVM算法和Random Forest算是和统计算法相结合的方法处理数据,具体流程如图4所示,使用统计算法和无监督算法过滤掉大量正样本,为了使结果更加准确,对样本库进行人工标注,先人工标注正负样本,然后通过特征工程提取特征值,通过设置有监督算法Random Forest的参数进行训练,从而实现数据质量的提高。
数据存储分为指标数据和日志数据,对于时间序列数据(性能指标),主要以时间维度进行查询分析数据,选用主流的rrdtool时序数据库;对于日志文件,数据需要进行实时全文检索和分词搜索,选用主流的ElasticSearch引擎。通过开发丰富、灵活的API接口实现数据服务,前端web展示调用API即可。
本文通过无监督学习算法One Class SVM和有监督学习算法Random Forest,结合统计算法3-sigma和EWMA实现了指标数据和日志数据质量的提高,为实现IT端到端的监控能力打下坚实基础。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (6)

1.一种运维监控数据治理方法,其特征在于:包括如下步骤:
1)采集维护对象监控指标下的不同类型的运维数据;
2)对运维数据进行规整排列,存储于数据库;
3)依据规整排列后的运维数据构建治理模型;
4)依据治理模型任意选取数据库中某一节点作为起始节点,根据起始节点的阈值,判断进入哪个节点,直到遍历同数据类型的所有节点,并输出预测值;
5)重复执行步骤4)直到遍历整个数据库,并且全部输出了预测值;
6)依据预测值对维护对象的运营状况做出分析和判断。
2.根据权利要求1所述的运维监控数据治理方法,其特征在于:所述运维数据包括指标数据和日志数据;
所述指标数据是时序数据,其包括指标采集时间和对应指标的值;
所述日志文本数据是半结构化文本格式,包括程数据库日志和中间件日志。
3.根据权利要求2所述的运维监控数据治理方法,其特征在于:根据指标数据和日志数据数据源的格式,采用相应的分析方法,建立相应的数据模型,制定出合适的数据采集策略。
4.根据权利要求2或3所述的运维监控数据治理方法,其特征在于:所述指标数据采集方法如下:
依据不同的维护对象,建立同一接收通道,
对维护对象的指标数据进行实时采集,
对采集的数据进行统计、翻译、计算以及自定义,
按照自定义的分类结果分别进行存储。
5.根据权利要求2或3所述的运维监控数据治理方法,其特征在于:所述日志数据采集方法如下:
依据不同的维护对象,建立接收者采集通道,
每一采集通道对维护对象的运维数据进行实时采集,
每一采集通道对实时采集的数据进行处理,按照采集源、汇特征进行分类,按照分类结果分别进行存储。
6.根据权利要求1所述的运维监控数据治理方法,其特征在于:使用统计算法和无监督算法过滤掉大量正样本,对样本库进行人工标注,包括先人工标注正负样本,然后通过特征工程提取特征值,通过设置有监督算法随机森林的参数进行训练,从而实现IT运维监控数据质量的提高。
CN201811545298.9A 2018-12-17 2018-12-17 一种运维监控数据治理方法 Pending CN109753499A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811545298.9A CN109753499A (zh) 2018-12-17 2018-12-17 一种运维监控数据治理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811545298.9A CN109753499A (zh) 2018-12-17 2018-12-17 一种运维监控数据治理方法

Publications (1)

Publication Number Publication Date
CN109753499A true CN109753499A (zh) 2019-05-14

Family

ID=66403864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811545298.9A Pending CN109753499A (zh) 2018-12-17 2018-12-17 一种运维监控数据治理方法

Country Status (1)

Country Link
CN (1) CN109753499A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276621A (zh) * 2019-05-21 2019-09-24 平安银行股份有限公司 数据卡反欺诈识别方法、电子装置及可读存储介质
CN110569172A (zh) * 2019-09-11 2019-12-13 贵州电网有限责任公司 一种业务层级的性能监控系统
CN110928718A (zh) * 2019-11-18 2020-03-27 上海维谛信息科技有限公司 一种基于关联分析的异常处理方法、系统、终端及介质
CN111352929A (zh) * 2020-04-13 2020-06-30 猫岐智能科技(上海)有限公司 一种数据处理方法
CN112270417A (zh) * 2020-10-28 2021-01-26 首都信息发展股份有限公司 国产化设备运维数据的智能采集方法及系统
CN112330116A (zh) * 2020-10-27 2021-02-05 中国建设银行股份有限公司 一种业务系统性能分析方法、装置及存储介质
CN112559645A (zh) * 2020-12-25 2021-03-26 中国农业银行股份有限公司 一种海量运维数据的处理方法及装置
WO2021063068A1 (zh) * 2019-09-30 2021-04-08 全球能源互联网研究院有限公司 运维管控、运维分析方法、装置、系统及存储介质
CN113342796A (zh) * 2021-06-30 2021-09-03 平安付科技服务有限公司 一种数据治理的方法、装置、设备及存储介质
CN114553726A (zh) * 2022-02-23 2022-05-27 深圳市众功软件有限公司 一种基于功能、资源层面的网络安全运维方法及系统
CN115544541A (zh) * 2022-09-28 2022-12-30 深圳市海葵信息技术有限公司 目标对象行为数据的处理方法、设备及存储介质
CN117995429A (zh) * 2024-04-07 2024-05-07 北京惠每云科技有限公司 医疗规则计算方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101741633A (zh) * 2008-11-06 2010-06-16 北京启明星辰信息技术股份有限公司 一种海量日志关联分析方法及系统
CN106371975A (zh) * 2016-08-31 2017-02-01 国信优易数据有限公司 一种运维自动化预警方法和系统
CN107346472A (zh) * 2017-06-29 2017-11-14 人民法院信息技术服务中心 一种通过在线建模处理运维数据的方法及装置
US20170357768A1 (en) * 2014-10-21 2017-12-14 uBiome, Inc. Method and system for microbiome-derived diagnostics and therapeutics for locomotor system conditions
CN108322347A (zh) * 2018-02-09 2018-07-24 腾讯科技(深圳)有限公司 数据检测方法、装置、检测服务器及存储介质
CN108399748A (zh) * 2018-03-08 2018-08-14 重庆邮电大学 一种基于随机森林与聚类算法的道路旅行时间预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101741633A (zh) * 2008-11-06 2010-06-16 北京启明星辰信息技术股份有限公司 一种海量日志关联分析方法及系统
US20170357768A1 (en) * 2014-10-21 2017-12-14 uBiome, Inc. Method and system for microbiome-derived diagnostics and therapeutics for locomotor system conditions
CN106371975A (zh) * 2016-08-31 2017-02-01 国信优易数据有限公司 一种运维自动化预警方法和系统
CN107346472A (zh) * 2017-06-29 2017-11-14 人民法院信息技术服务中心 一种通过在线建模处理运维数据的方法及装置
CN108322347A (zh) * 2018-02-09 2018-07-24 腾讯科技(深圳)有限公司 数据检测方法、装置、检测服务器及存储介质
CN108399748A (zh) * 2018-03-08 2018-08-14 重庆邮电大学 一种基于随机森林与聚类算法的道路旅行时间预测方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110276621A (zh) * 2019-05-21 2019-09-24 平安银行股份有限公司 数据卡反欺诈识别方法、电子装置及可读存储介质
CN110569172B (zh) * 2019-09-11 2023-04-07 贵州电网有限责任公司 一种业务层级的性能监控系统
CN110569172A (zh) * 2019-09-11 2019-12-13 贵州电网有限责任公司 一种业务层级的性能监控系统
WO2021063068A1 (zh) * 2019-09-30 2021-04-08 全球能源互联网研究院有限公司 运维管控、运维分析方法、装置、系统及存储介质
CN110928718A (zh) * 2019-11-18 2020-03-27 上海维谛信息科技有限公司 一种基于关联分析的异常处理方法、系统、终端及介质
CN110928718B (zh) * 2019-11-18 2024-01-30 上海维谛信息科技有限公司 一种基于关联分析的异常处理方法、系统、终端及介质
CN111352929A (zh) * 2020-04-13 2020-06-30 猫岐智能科技(上海)有限公司 一种数据处理方法
CN112330116A (zh) * 2020-10-27 2021-02-05 中国建设银行股份有限公司 一种业务系统性能分析方法、装置及存储介质
CN112270417A (zh) * 2020-10-28 2021-01-26 首都信息发展股份有限公司 国产化设备运维数据的智能采集方法及系统
CN112559645A (zh) * 2020-12-25 2021-03-26 中国农业银行股份有限公司 一种海量运维数据的处理方法及装置
CN113342796A (zh) * 2021-06-30 2021-09-03 平安付科技服务有限公司 一种数据治理的方法、装置、设备及存储介质
CN114553726A (zh) * 2022-02-23 2022-05-27 深圳市众功软件有限公司 一种基于功能、资源层面的网络安全运维方法及系统
CN115544541A (zh) * 2022-09-28 2022-12-30 深圳市海葵信息技术有限公司 目标对象行为数据的处理方法、设备及存储介质
CN115544541B (zh) * 2022-09-28 2023-08-15 深圳市海葵信息技术有限公司 目标对象行为数据的处理方法、设备及存储介质
CN117995429A (zh) * 2024-04-07 2024-05-07 北京惠每云科技有限公司 医疗规则计算方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109753499A (zh) 一种运维监控数据治理方法
CN104102875B (zh) 基于加权朴素贝叶斯分类器的软件服务质量监控方法及系统
CN110457404B (zh) 基于复杂异质网络的社交媒体账户分类方法
CN109189901A (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
CN113572625B (zh) 故障预警方法、预警装置、设备及计算机介质
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN105261152B (zh) 基于聚类分析的空中交通管制员疲劳检测方法、装置和系统
CN105871634A (zh) 检测集群异常的方法及应用、管理集群的系统
CN109491339B (zh) 一种基于大数据的变电站设备运行状态预警系统
CN106202489A (zh) 一种基于大数据的农业病虫害智能诊断系统
CN110690701A (zh) 一种异常线损影响因素的分析方法
CN104156403A (zh) 一种基于聚类的大数据常态模式提取方法及系统
CN110580492A (zh) 一种基于小幅波动检测的轨道电路故障前兆发现方法
CN109547251B (zh) 一种基于监控数据的业务系统故障与性能预测方法
CN109711664B (zh) 一种基于大数据的输变电设备健康评估系统
CN109558298A (zh) 基于深度学习模型的告警执行频率优化方法及相关设备
CN115689320A (zh) 基站运行的健康管理方法、装置及计算机可读存储介质
CN114090393B (zh) 一种告警级别的确定方法、装置及设备
CN112199805A (zh) 一种输电线路隐患识别模型评估方法及装置
CN108446202B (zh) 一种机房设备的安全状况的判断方法
CN104978837B (zh) 一种面向用户端变电所的报警系统及其实现方法
CN111027841A (zh) 一种基于梯度提升决策树的低压台区线损计算方法
Kim et al. Anomaly pattern detection in streaming data based on the transformation to multiple binary-valued data streams
CN105183612B (zh) 服务器可用内存异常增长及运行状况的评估方法
CN116796894A (zh) 一种高效深度学习气象预测模型的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190514

RJ01 Rejection of invention patent application after publication