CN103546338A - 利用相关性的it运维指标预测方法 - Google Patents
利用相关性的it运维指标预测方法 Download PDFInfo
- Publication number
- CN103546338A CN103546338A CN201310462076.1A CN201310462076A CN103546338A CN 103546338 A CN103546338 A CN 103546338A CN 201310462076 A CN201310462076 A CN 201310462076A CN 103546338 A CN103546338 A CN 103546338A
- Authority
- CN
- China
- Prior art keywords
- data
- index
- conv
- covariance
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了利用相关性的IT运维指标预测方法,通过对历史数据做必要的预处理,计算协方差矩阵确定指标间的相关性关系,同时,通过特征值分解处理确定指标间的协方差波动范围;通过相关性关系和测试协方差得到线性方程组,解之进行指标预测,具有较高的预测精度。
Description
技术领域
本发明涉及IT运维管理领域,尤其是IT运维的指标间的监测和管理领域,具体为一种利用相关性的IT运维指标预测方法。
背景技术
IT运维管理,即IT企业或部门采用相关的方法、手段、技术、制度、流程和文档等,对IT运行环境(包括物理环境、软硬件环境等)、IT业务系统和IT运维人员进行的综合管理。随着IT建设的不断深入和完善,计算机硬软件系统的运行维护已经得到了重视,由于这是一个随着计算机信息技术的深入应用而产生的新课题,因此研究如何进行有效的IT运维管理,将具有广阔的发展前景和巨大的现实意义。
概括地讲,IT运维的管理内容都可以经抽取成指标来进行管理和维护。指标,也即描述某一对象特征的数据。IT运维的管理行为,本质上都可以抽象成数据的变更。因此,研究IT运维指标的管理很有意义。在本发明中,提出的是一种利用相关性的IT运维指标智能预报方法、预测方法、预测装置、预报装置。
智能化预报与预测,即通过非人工检测的方式对某指标值进行告警或估测的过程。智能化的例子很多,如将模式识别的聚类算法应用于手机或终端手写输入法的功能,可以提高输入效率;再如有些音乐软件提供自动推荐歌曲的功能,通过记录听众历史记录来进行预测,这种启发式的方式可以进一步满足听众的心愿;再如360安全卫士对操作系统的程序更新和维护提供自动预报的功能,可以优化系统,提高系统使用寿命。
智能化的理论体系已经发展得比较成熟,目前应用的智能化理论方法和手段主要包括:(1)自适应理论体系,该理论本质上是一种反馈理论,包括人工神经网络体系,通过学习训练样本,预测未来数据;(2)模式识别领域,通过构造不同模式体系达到识别的目的;(3)最优化理论体系,该理论包括支持向量机模型、蚁群算法、遗传算法,线性以及非线性约束模型,通过建模达到优化目标数据的目的;(4)现代信号处理领域理论与方法,信号处理方法如滑动平均自适应回归模型,以及滤波方法如维纳滤波、卡尔曼滤波模型,通过建模对未来时间量进行预测、平滑或估计。
在本发明中,将不直接使用以上所述的智能方法,而是利用相关性。
IT运维某些指标间必然存在相关性。以WLAN指标检测为例,WLAN信号的场强信噪比强度直接影响网络数据带宽,甚至如网络的连通性如ping包成功率,网络的拥塞程度则可能会影响WEB认证指标,因为当网络负载过重时,WEB认证接入时延时间可能会增长。在实际的应用场景中,因成本问题,有些WLAN指标是不宜时刻监测的,如场强信噪比,而有些数据可以通过软件监控的方式时刻获得,而这两种指标间或更多指标间却存在着联系,在这种情形下,利用指标间的相关性便可以克服其它智能化方案无法预测或预测准确率下降的问题,因为不论数据知道与否,指标间的相关性是时刻存在的,只需要如采用本发明中的方法就可以达到预测的效果。除此之外,相关性还可以在某些指标未知数据动态范围时,预报其是否超标。
相关性的数学依据如下:
对于两个向量xi=[xi(1),...,xi(N)],xj=[xj(1),...,xj(N)]那么两者之间的协方差可以表示为
由M个指标之间的互协方差构成M行M列的矩阵,
定义相关系数 根据相关系数的性质,自相关系数等于0,两个向量不相关,自相关系数绝对值等于1,当且仅当两个向量线性相关。由此,我们推断,协方差绝对值越接近于0,两个指标越不相关,反之则越相关。
发明内容
本发明提供了一种利用相关性的IT运维指标预测方法,该方法每个步骤的特征是:
(1)更新数据来源,提供训练数据样本和测试数据样本数据,其中每个指标的训练数据是多维的,测试样本是一维的,随着时间推移,将测试样本并入历史数据库后使得训练样本逐渐庞大。
(2)训练,包含数据预处理和数据计算两个步骤,训练样本源经过数据预处理后能消除极大极小等毛刺数据,达到平滑效果,从而为下一步提供准确合理的数据来源;经预处理后的数据经过数据计算步骤时,按照公式(1)、(2)得到一个协方差矩阵,再计算协方差波动范围。
优选地,首先,对矩阵(2)做特征值分解得到
conv=V*D*V-1 (3)
V,D分别是特征向量和特征值对角矩阵,然后,保留绝对值较大的特征值,剔除小的令等于零,从而得到D′,那么,
conv′=V*D′*V-1 (4)
conv′必然也是一个对称矩阵,并且异于conv,考虑其上三角部分的元素,则定义波动范围为:波动范围的一个界conv′(xi,xj),那么另一个界为
conv″(xi,xj)=2*conv(xi,xj)-conv′(xi,xj) (5)
(3)测试,包括数据预报并且数据预测两个步骤。
在数据预报步骤中,
则可判断conv(yi,yj)是否落在conv′(xi,xj)~conv″(xi,xj)的波动范围内,从而进行预报。
优选地,若已知某一指标,但无法预报其是否超标,则预报思想是:找到训练模块中得出的与该指标最相关的几个指标,按先后顺序若其中一个指标能够进行预报,则终止预报。
在无法检测指标数据的前提下,可以对指标进行预测。
优选地,依据式子(6),准确预测的算法是:先找到与待测指标i最相关的一个指标j,然后找到与j最相关的指标k,则可以认为convij-convik=CONVij-CONVik,等式左边是未知的测试协方差,右边是已知训练协方差。从而联立三个线性方程组,解之即得预测结果也即解。也即解方程组得X
本发明同时还提供了一种利用相关性的智能预报与预测装置,包括,
数据源模块,将已有历史数据作为训练模块的初始化数据,选择尽量大。同时,对于不断更新的测试数据,每测试完一组数据后将其并入训练数据库,保证数据库的及时更新。
优选地,当数据量达到一定规模时,实行数据分组训练,以提高测试准确性。参见说明图1。
训练模块,包括数据预处理单元和数据计算单元,
数据预处理单元,
优选地,为了达到消除毛刺目的,对每一个指标,初始情况下,先除去明显极端的几个样本值而保留其余的样本,计算如几个极端大的算术平均值M和几个极端小的值算术平均值m,当每次更新数据时,若发现一个数据落在M或m之外,则将其视为毛刺剔除,同时剔除的数据组组成新数集,更新M和m。按照这样的方式进行下去,使数据尽量达到平滑的效果。参见说明图5所示。
数据计算单元,
优选地,由于数据预处理部分对每个指标消除毛刺处理,可能会使两个指标数据向量之间维数不一样,解决的方式是,对于一个指标每消除一个毛刺,当数据缺失时,用前面所有数据集合的算术平均值来代替,以减少计算协方差矩阵时的误差;
优选地,剔除较小特征值的规则是,将所有特征值取绝对值相加,然后计算每个特征值的比率,若该特征值比率小于如0.05,称特征值贡献值过小,将其可以考虑剔除也即令其等于零。剔除越多,计算的波动范围越大。该实施方式可以参见说明图6所示。
测试模块,包括数据预报单元和数据预测单元,
数据预报单元,包括判别模块和预报模块,
判别模块,实际中有些指标一旦测出就有参照范围,因此无需预报,而对于另外一些指标测出却没有参照范围,因此首先区分指标是否需要进行预报;
优选地,预报模块的算法原理是,先看与待测指标x最相关的那个指标是否为已知且在已知的动态范围内的指标,若不是继续搜索,直到搜到前m个满足要求,m最大可达到所有已知动态范围指标个数。第一个设为i,对指标i和x计算协方差conv(x,i),若小于波动范围,则预报指标x未超标;否则若大于波动范围则再计算与指标x次相关的指标j,若conv(j,i)小于波动范围,则预报x超标,否则,称i预测失效,以j代替i,重复i的流程。如此反复,直到所有前m个指标都预测失效,则预报x未超标。
该单元具体可参见说明图7所示。
数据预测单元,用于预测一些无法直接检测的数据,分为判别模块和预测模块,优选地,按照方法中提到解方程思想进行。参见说明图8。
整个装置的流程图如说明图4所示。
本发明提供的一种利用相关性的IT运维指标智能预报方法、预测方法、预测装置、预报装置,其智能性体现在:当已知数据来源而无法判断其是否超标时,使用数据测试单元,在实际的IT运维系统中告警;当由于意外故障或其他方法无法直接对指标进行检测时,利用与之相关的其余指标值和数据预测单元,能对该指标进行较准确的预测。
本发明提供的一种利用相关性的IT运维指标智能预报方法、预测方法、预测装置、预报装置,其优势和特点在于:与传统的智能化预报或预测方法比较,都需要训练和测试两步,但计算量要小很多,并且可达到较高的准确性。
附图说明
本发明将通过例子并参照附图的方式说明,其中
图1是分组训练每组个数与预测某指标成功率关系图;
图2是某一测试指标报警概率与该指标的大小关系图;
图3是某一测试指标的预测值偏差率随指标大小的变化关系图;
图4是装置的流程图;
图5是训练模块的数据预处理单元的流程图;
图6是训练模块中数据计算单元的流程图;
图7是测试模块中数据预报单元的流程图;
图8是测试模块中数据预测单元的流程图;
图9是整个方法和装置系统原理示意图。
具体实施方式
为使本发明方法和装置能够达到期望的结果和功能,同时为了更清晰直观的表达本发明的方法思路,将采用MATLAB的仿真结果图形进行说明和展示。
在具体实施例1中,参照说明图1,
假设真实场景下,共接收20个指标数据来源,统计历史数据,假设每个指标初始采样数据固定为1000个,设待测指标训练数据源是均值为10,方差为0.1的正太分布数据。考虑对其进行分组进入训练模块的处理,理论上,为了保证波动范围计算的准确,每组个数不宜过少,同时为了平滑处理,组数不宜太少,因此,有个折中。本例的目的是验证当数据源固定时,怎么分配这些数据能够达到良好的性能。为实施例2做依据。
由说明图1所示,在待测数据已知情形下,设定两种情况:
待测指标测试数据等于10,在范围内,结果说明,当1000个数据分为每组100~500的范围下,预测误差低于0.1;测试数据等于14在范围外,结果说明,当1000个数据分为每组100~500时,相对能够达到更好的预测效果,预测误差最低在0.4左右。
由实施例1,得到1000个数分组个数和组数的分配比例,可以选为每组100个,共10组,作为下一实施例的依据。
同时,该例还说明了当值超出了范围以后,其预测值是很不准确的,这说明与该指标相关的几个指标都超出了范围,因为未满足预测的条件,所以这种情形不符合本发明的应用范畴。
具体实施例2中,请参见说明图2。
假设真实场景下,指标数10个,训练数据总数为10000个,将其分为100组,每组100个数据,训练数据源是0~1之间的随机数,预置待测指标值从0每递增0.5直到逼近20,置1为报警(超标),0不报警。理论上,当数据越远离这个0~1的范围时,报警应当为1,否则为0。由于方法给出的算法鲁棒性存在,所以,经过平滑处理后,由报警概率来反映预报性能。
由说明图2所示,当预置数据(待预报测试数据)逐渐远离1时,报警概率逐渐上升,直到逼近于1。实际中,解决的方式是,设立一个阀值,当某测试数据所获报警概率高于阀值则报警,否则不报警。
该实施例验证了发明方法数据预报的有效性,并提供了一种解决方案。
具体实施例3中,请参见说明图3。
假设真实场景下,指标数目为20个,每组指标训练数据源有1000个数据,待测指标数据源是以10为均值,0.1为方差的随机数,预置待测指标测试数据从5以0.5递增到15,计算预测偏差率。
由说明图3所示,当预置范围在10范围时,预测误差最小可低于0.1,否则,预测误差越来越大。该说明图,同实施例1一样,说明了本发明给出的预测方法具有较高的精度。
Claims (4)
1.利用相关性的IT运维指标预测方法,其特征在于,所述方法包含三个主要步骤:更新数据来源、训练和预测;
更新数据来源,具体包含用初始化的历史数据作为训练数据,同时不断并入测试数据,更新历史数据库;
训练,具体包含数据预处理和数据计算步骤,数据预处理,输入训练数据,消除毛刺数据进行平滑处理;所述数据计算步骤,计算协方差矩阵,确定指标间的相关性关系,对其进行特征值分解处理确定波动范围;
协方差矩阵利用协方差公式可得到,协方差的计算公式是:若xi=[x1,...,xN],xj=[x'1,...,x'N]表示第i和第j个指标数据,那么两者的协方差可以表示为 该值越接近于零,两个指标越不相关,反之则越相关,从而确定指标相关性关系;当计算好协方差矩阵后,对其进行特征值分解,将所有特征值中绝对值较大保留,剔除接近于零的部分,再重新恢复成新的协方差矩阵,设经过去特征值处理后恢复出的新的协方差矩阵中第i和第j个指标的协方差大小为conv'(xi,xj),设其为波动范围一个界,那么另一个界为conv''(xi,xj)=2*conv(xi,xj)-conv'(xi,xj),从而得到任意两指标协方差波动范围为conv'(xi,xj)~conv''(xi,xj)。
所述数据预测,通过相关性关系及相关指标值联立方程组解得预测结果。
2.根据权利要求1所述利用相关性的IT运维指标预测方法,其特征在于,所述的数据预处理步骤的消除毛刺的算法是:对于某一个指标,初始化,从其历史数据库中挑选极大极小的三个数据,组成毛刺集,以其他数据的均值来填充其位置;当更新历史数据后,比较新加入的数据,看其是否大于毛刺集的均值,若大于,则加入毛刺集,否则,作为正常数据,进入数据计算步骤。
3.根据权利要求1所述利用相关性的IT运维指标预测方法,其特征还在于,所述数据预测的条件是:该数据由于故障或其他原因无法通过直接的方式检测得到,且与之相关的其余指标可测得且都未超出动态范围。
4.根据权利要求3所述利用相关性的IT运维指标预测方法,其特征还在于,所述预测的方法是:先找到与待测指标i最相关的一个指标j,然后找到与j最相关的指标k,则可以认为convij-convik=CONVij-CONVik,等式左边是未知的测试协方差,右边是已知训练协方差,也即令测试协方差与训练协方差相等,作为方程1;然后利用协方差得到i和j,以及i和k的协方差计算方程 与 从而得到含三个参数的三个方程,解之即得预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310462076.1A CN103546338A (zh) | 2011-05-04 | 2011-05-04 | 利用相关性的it运维指标预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310462076.1A CN103546338A (zh) | 2011-05-04 | 2011-05-04 | 利用相关性的it运维指标预测方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011101141501A Division CN102195814B (zh) | 2011-05-04 | 2011-05-04 | 一种利用相关性的it运维指标预报与预测方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103546338A true CN103546338A (zh) | 2014-01-29 |
Family
ID=49969413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310462076.1A Pending CN103546338A (zh) | 2011-05-04 | 2011-05-04 | 利用相关性的it运维指标预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103546338A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108700873A (zh) * | 2016-03-09 | 2018-10-23 | 西门子股份公司 | 用于自动化系统的现场设备的智能嵌入式控制系统 |
CN114002949A (zh) * | 2020-07-28 | 2022-02-01 | 华为技术有限公司 | 基于人工智能的控制方法与控制装置 |
CN114002949B (zh) * | 2020-07-28 | 2024-06-11 | 华为技术有限公司 | 基于人工智能的控制方法与控制装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020169562A1 (en) * | 2001-01-29 | 2002-11-14 | Gregory Stephanopoulos | Defining biological states and related genes, proteins and patterns |
CN1992636A (zh) * | 2005-12-29 | 2007-07-04 | 华为技术有限公司 | 一种处理告警信息的系统及方法 |
CN101436274A (zh) * | 2008-11-14 | 2009-05-20 | 山东浪潮齐鲁软件产业股份有限公司 | 跨平台监控企业应用系统性能的方法 |
CN101989931A (zh) * | 2010-12-15 | 2011-03-23 | 成都勤智数码科技有限公司 | 一种运维告警处理方法和装置 |
-
2011
- 2011-05-04 CN CN201310462076.1A patent/CN103546338A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020169562A1 (en) * | 2001-01-29 | 2002-11-14 | Gregory Stephanopoulos | Defining biological states and related genes, proteins and patterns |
CN1992636A (zh) * | 2005-12-29 | 2007-07-04 | 华为技术有限公司 | 一种处理告警信息的系统及方法 |
CN101436274A (zh) * | 2008-11-14 | 2009-05-20 | 山东浪潮齐鲁软件产业股份有限公司 | 跨平台监控企业应用系统性能的方法 |
CN101989931A (zh) * | 2010-12-15 | 2011-03-23 | 成都勤智数码科技有限公司 | 一种运维告警处理方法和装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108700873A (zh) * | 2016-03-09 | 2018-10-23 | 西门子股份公司 | 用于自动化系统的现场设备的智能嵌入式控制系统 |
CN108700873B (zh) * | 2016-03-09 | 2022-02-11 | 西门子股份公司 | 用于自动化系统的现场设备的智能嵌入式控制系统 |
US11347212B2 (en) | 2016-03-09 | 2022-05-31 | Siemens Aktiengesellschaft | Smart embedded control system for a field device of an automation system |
CN114002949A (zh) * | 2020-07-28 | 2022-02-01 | 华为技术有限公司 | 基于人工智能的控制方法与控制装置 |
CN114002949B (zh) * | 2020-07-28 | 2024-06-11 | 华为技术有限公司 | 基于人工智能的控制方法与控制装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105071983B (zh) | 一种面向云计算在线业务的异常负载检测方法 | |
Ganguly et al. | A machine learning-based prediction and analysis of flood affected households: A case study of floods in Bangladesh | |
CN109376913A (zh) | 降水量的预测方法及装置 | |
CN112633412B (zh) | 异常用电检测方法、设备及存储介质 | |
CN105678457A (zh) | 基于地点挖掘的用户行为评估方法 | |
CN110083507B (zh) | 关键性能指标分类方法及装置 | |
CN112735097A (zh) | 一种区域滑坡预警方法及系统 | |
CN103310235B (zh) | 一种基于参数识别与估计的隐写分析方法 | |
CN106792883A (zh) | 传感器网络异常数据检测方法与系统 | |
CN102195814B (zh) | 一种利用相关性的it运维指标预报与预测方法和装置 | |
CN109995611B (zh) | 流量分类模型建立及流量分类方法、装置、设备和服务器 | |
Zagouras et al. | Clustering the solar resource for grid management in island mode | |
CN102083087A (zh) | 一种主客观模型结合的话务量异常检测方法 | |
CN103560925A (zh) | 利用相关性的it运维指标预报方法 | |
CN114720764A (zh) | 一种基于电表实时监测数据的谐波分析方法及系统 | |
CN103560900A (zh) | 利用相关性的it运维指标预报与预测方法 | |
CN103544243A (zh) | It运维指标的相关性关联方法 | |
CN104143128A (zh) | 信息系统安全评估指标的拓充方法及装置 | |
CN106487570B (zh) | 一种评估网络性能指标变化趋势的方法及设备 | |
CN107169532A (zh) | 一种基于小波分析和半监督学习的车联网油耗数据质量评估方法 | |
CN111339986A (zh) | 基于时域/频域分析的装备用频规律挖掘方法和系统 | |
CN103546338A (zh) | 利用相关性的it运维指标预测方法 | |
CN103546339A (zh) | 一种利用相关性的it运维指标预报与预测方法 | |
CN103546314A (zh) | 利用相关性的it运维指标预报装置 | |
CN110472188A (zh) | 一种面向传感数据的异常模式检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140129 |
|
WD01 | Invention patent application deemed withdrawn after publication |