CN113379168B - 一种时间序列的预测处理方法、装置及设备 - Google Patents

一种时间序列的预测处理方法、装置及设备 Download PDF

Info

Publication number
CN113379168B
CN113379168B CN202110915961.5A CN202110915961A CN113379168B CN 113379168 B CN113379168 B CN 113379168B CN 202110915961 A CN202110915961 A CN 202110915961A CN 113379168 B CN113379168 B CN 113379168B
Authority
CN
China
Prior art keywords
data
prediction
prediction result
learner
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110915961.5A
Other languages
English (en)
Other versions
CN113379168A (zh
Inventor
智敏
严川
张博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudwise Beijing Technology Co Ltd
Original Assignee
Cloudwise Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudwise Beijing Technology Co Ltd filed Critical Cloudwise Beijing Technology Co Ltd
Priority to CN202110915961.5A priority Critical patent/CN113379168B/zh
Publication of CN113379168A publication Critical patent/CN113379168A/zh
Application granted granted Critical
Publication of CN113379168B publication Critical patent/CN113379168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Abstract

本发明公开了一种时间序列的预测处理方法、装置及设备,方法包括:获得运维系统的监控数据的原始时间序列数据;根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果;根据所述中间预测结果和所述基学习器对应的预测边界,获得目标预测结果;根据所述目标预测结果对所述运维系统的运行指标进行预警分析,得到预警分析结果。通过上述方式,本发明可以根据该目标预测结果进行运维系统的预警分析,提前预警给予运维人员充足的时间排查并解决问题,从而避免机器或者服务故障。

Description

一种时间序列的预测处理方法、装置及设备
技术领域
本发明涉及运维系统数据处理技术领域,特别是指一种时间序列的预测处理方法、装置及设备。
背景技术
随着企业数字化转型的发展,运维行业作为数字化时代的护航者越来越受到各行各业的重视。在智能运维领域的海量运维数据中,KPI、指标数据占据着不容忽视的地位,这类数据通常由一列时间戳和一列对应数值组成,我们称其为时间序列数据。时间序列数据的预测在运维领域应用广泛,常见的应用场景包括磁盘,CPU的容量预测,业务量预测,产能规划等。时间序列数据一般来讲拥有趋势性、季节性、周期性和随机性等特征,所以在进行时间序列预测时需要充分考虑数据特征。现有的时序预测方法大致分为三类,传统的统计类方法例如ARIMA,现代的深度学习类方法如LSTM,以及时间序列分解类方法如主流的Prophet。统计类方法要求时序数据不含缺失值,并且是稳定的,或者通过差分化之后是稳定的,而且该类算法只能捕捉线性规律,所以对短期预测有较好的效果,而在长期预测上表现不佳。深度学习类方法虽然能够捕捉复杂的非线性规律,但是模型的可解释性差、模型参数多,算法调参十分困难。时间序列分解类算法通过将数据分解为趋势性分量,周期性分量,噪声分量等三个正交的部分,具有较高的可解释性,但是在获取近期趋势上容易形成过拟合。由于时间序列预测在真实场景中遇到的需求不同,数据类型多样,同一种模型无法适用于所有数据,预测结果的鲁棒性高度依赖于数据和预测模型,所以针对不同的场景可能需要使用不同的预测模型,这为时间序列预测的应用带来了极大的挑战。
发明内容
本发明要解决的技术问题是如何提供一种时间序列的预测处理方法、装置及设备。解决现有技术中运维系统的监控数据的预测结果鲁棒性差不能很好地对运维系统进行预警的问题。
为解决上述技术问题,本发明的技术方案如下:
一种时间序列的预测处理方法,包括:
获得运维系统的监控数据的原始时间序列数据;
根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果;
根据所述中间预测结果和所述基学习器对应的预测边界,获得目标预测结果;
根据所述目标预测结果对所述运维系统的运行指标进行预警分析,得到预警分析结果。
可选的,所述基学习器包括以下至少一种:
差分自回归滑动平均基学习器;
时间序列分解基学习器;
三次指数平滑基学习器。
可选的,根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果,包括:
对所述原始时间序列数据进行第一预处理,得到所述原始时间序列数据的趋势数据和残差部分数据;
对所述趋势数据和所述残差部分数据使用差分自回归滑动平均基学习器进行预测,得到第一中间预测结果。
可选的,根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果,包括:
对所述原始时间序列数据进行第二预处理,得到异常值剔除之后的数据;所述异常值是将超过设定倍数标准差的数据,所述标准差是固定窗口中数据的统计学标准差;
对所述异常值剔除之后的数据,使用所述时间序列分解基学习器进行预测,得到第二中间预测结果。
可选的,根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果,包括:
对所述原始时间序列数据进行第三预处理,得到第三预处理之后的时间序列数据;
对所述第三预处理之后的时间序列数据,使用所述三次指数平滑基学习器进行预测,第三中间预测结果。
可选的,根据所述中间预测结果和所述基学习器对应的预测边界,获得目标预测结果,包括:
根据所述中间预测结果以及所述基学习器对应的预测上界和预测下界,对所述中间预测结果进行等权平均,获得目标预测结果。
可选的,根据所述中间预测结果以及所述基学习器对应的预测上界和预测下界,对所述中间预测结果进行等权平均,获得目标预测结果,包括:
通过以下公式:
Y(avy)taY(a)tpY(p)thY(h)t
U(avy)taU(a)tpU(p)thU(h)t
L(avy)taL(a)tpL(p)thL(h)t
ωaph=1/3,
获得目标预测结果;
其中,Y(a)为差分自回归滑动平均基学习器输出的第一中间预测结果,Y(p)为时间序列分解基学习器输出的第二中间预测结果,Y(h)为三次指数平滑基学习器输出的第三中间预测结果;
U(a)为差分自回归滑动平均基学习器的预测上界,U(p)为时间序列分解基学习器的预测上界,U(h)为三次指数平滑基学习器的预测上界;
L(a)为差分自回归滑动平均基学习器的预测下界,L(p)为时间序列分解基学习器的预测下界,L(h)为三次指数平滑基学习器的预测下界;
Y(avy)t是差分自回归滑动平均基学习器、时间序列分解基学习器以及三次指数平滑基学习器集成后的集成学习器输出的目标预测结果;
U(avy)t是集成学习器的预测上界;
L(avy)t是集成学习器的预测下界;
ωa是差分自回归滑动平均基学习器的权重;
ωp是时间序列分解基学习器的权重;
ωh是三次指数平滑基学习器的权重。
本发明的实施例还提供一种时间序列的预测处理装置,包括:
获取模块,用于获得运维系统的监控数据的原始时间序列数据;
处理模块,用于根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果;根据所述中间预测结果和所述基学习器对应的预测边界,获得目标预测结果;根据所述目标预测结果对所述运维系统的运行指标进行预警分析,得到预警分析结果。
本发明的实施例还提供一种电子设备,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如上所述的时间序列的预测处理方法。
本发明的实施例还提供一种计算机可读存储介质,存储指令,当所述指令在计算机上运行时,使得计算机执行如上所述的时间序列的预测处理方法。
本发明的上述方案至少包括以下有益效果:
通过获得运维系统的监控数据的原始时间序列数据;根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果;根据所述中间预测结果和所述基学习器对应的预测边界,获得目标预测结果;根据所述目标预测结果对所述运维系统的运行指标进行预警分析,得到预警分析结果。该目标预测结果具有较好的鲁棒性,可以进一步根据该目标预测结果进行运维系统的预警分析,提前预警给予运维人员充足的时间排查并解决问题,从而避免机器或者服务故障,也可以使得运维人员根据该目标预测结果得以合理规划运维系统的资源分配(针对不同需求进行扩/缩容),能进一步提高资源使用率和降低成本。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的时间序列的预测处理方法流程图;
图2示出了本发明实施例提供的时间序列的预测处理方法的另外一流程图;
图3示出了本发明实施例提供的时间序列的预测处理方法在周期型数据上的预测结果图;
图4示出了本发明实施例提供的时间序列的预测处理方法在楼梯型数据上的预测结果图;
图5示出了本发明实施例提供的时间序列的预测处理方法在直线型数据上的预测结果图;
图6示出了本发明实施例提供的时间序列的预测处理方法在低信噪比数据上的预测结果图;
图7示出了本发明实施例提供的时间序列的预测处理方法在概念漂移型数据上的预测结果图;
图8示出了本发明实施例提供的时间序列的预测处理装置的结构示意图;
图9示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明的实施例提供一种时间序列的预测处理方法,包括:
步骤11,获得运维系统的监控数据的原始时间序列数据;这里的监控数据可以是运维系统在基础资源(CPU使用率,磁盘容量等)的监控数据,这些监控数据具有时间戳和相应的数值,因此,这些数据为时间序列数据,运维系统包含大量的时间序列数据;
步骤12,根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果;
步骤13,根据所述中间预测结果和所述基学习器对应的预测边界,获得目标预测结果;
步骤14,根据所述目标预测结果对所述运维系统的运行指标进行预警分析,得到预警分析结果。
该实施例所述的时间序列的预测处理方法,通过获得运维系统的监控数据的原始时间序列数据;根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果;根据所述中间预测结果和所述基学习器对应的预测边界,获得目标预测结果;根据所述目标预测结果对所述运维系统的运行指标进行预警分析,得到预警分析结果。该目标预测结果具有较好的鲁棒性,可以进一步根据该目标预测结果进行运维系统的预警分析,提前预警给予运维人员充足的时间排查并解决问题,从而避免机器或者服务故障,也可以使得运维人员根据该目标预测结果得以合理规划运维系统的资源分配(针对不同需求进行扩/缩容),能进一步提高资源使用率和降低成本。
如图2所示,在本发明的一可选的实施例中,步骤12中所述基学习器包括以下至少一种:
差分自回归滑动平均基学习器;
时间序列分解基学习器;
三次指数平滑基学习器。
该实施例中,差分自回归滑动平均基学习器采用ARIMA算法,时间序列分解基学习器采用fbprohet方法,三次指数平滑基学习器采用Holt-Winter算法。
在本发明的一可选的实施例中,步骤12可以包括:
步骤121,对所述原始时间序列数据进行第一预处理,得到所述原始时间序列数据的趋势数据和残差部分数据,所述第一预处理包括:重采样,差值,异常点剔除;
具体的,用差分自回归滑动平均基学习器预测平稳的或通过整数阶差分过变成平稳的时间序列数据,但是如果数据中包含周期性则无法直接使用差分自回归滑动平均基学习器进行预测,需要对数据进行第一预处理,将所述原始时间序列数据分解为趋势数据、周期性部分数据和残差部分数据。
其中趋势数据分量为:
Figure DEST_PATH_IMAGE002AA
trt是t时刻趋势数据分量,xi是从t-p时刻到t时刻的原始数据。
周期数据分量为:
Figure 204525DEST_PATH_IMAGE004
st是周期数据分量,xip+k是原始数据,trip+k是趋势数据分量。
去周期后数据:yt=xt-st
yt是去周期后数据,xt是原始时间序列数据,st是周期数据分量。
步骤122,对所述趋势数据和所述残差部分数据使用差分自回归滑动平均基学习器进行预测,得到第一中间预测结果。
具体的,所述第一中间预测结果为:
yt=c+ϕ1yt-1+⋅⋅⋅+ϕpyt-p1εt-1+⋅⋅⋅+θqεt-qtt~NID(0,σ2);
yt是第一中间预测结果,C是常数,φ是自回归项系数,θ是滑动平均项系数,ε是噪声,εt~NID(0,σ2)是ε服从正态独立分布(均值为0,方差为σ2)。
第一中间预测上界为:
Figure 43037DEST_PATH_IMAGE006
yT+h是第一中间预测上界,
Figure 557195DEST_PATH_IMAGE008
是向前预测h步的预测值,c是置信度的标准分数,σh是h步预测标准差。
第一中间预测下界为:
Figure 499874DEST_PATH_IMAGE010
yT+h是第一中间预测下界,
Figure 48667DEST_PATH_IMAGE012
是向前预测h步的预测值,c是置信度的标准分数,σh是h步预测标准差。
在本发明的一可选的实施例中,步骤12还可以包括:
步骤123,对所述原始时间序列数据进行第二预处理,得到异常值剔除之后的数据,所述异常值是将超过设定倍数标准差的数据,所述标准差是固定窗口中数据的统计学标准差;
其中,剔除异常点后的数据为:
Figure 543234DEST_PATH_IMAGE014
Yt是原始时间序列数据,nan是空值,k是剔除异常点的松紧程度,σ(Y)是原始数据的标准差。
具体的,计算出固定窗口中数据的统计学标准差,将超过设定倍数标准差的数据认定为异常值,并进行异常值剔除。
步骤124,对所述异常值剔除之后的数据,使用所述时间序列分解基学习器进行预测,得到第二中间预测结果。
具体的,所述第二中间预测结果为:y(t)=g(t)+s(t)+h(t)+εt
其中,y(t)是第二中间预测结果,g(t)是趋势数据分量,s(t)是周期数据分量,h(t)是假期分量,εt是噪声。
该实施例中,原始时间序列数据中的异常值会影响时间序列分解基学习器的预测效果,在使用时间序列分解基学习器前需要对原始时间序列数据进行异常值剔除操作,时间序列分解基学习器对于包含缺失值的数据有极高的容忍度,不会将因差值不准确对预测建模产生的影响带入到预测结果中。
在本发明的一可选的实施例中,步骤12还可以包括:
步骤125,对所述原始时间序列数据进行第三预处理,得到第三预处理之后的时间序列数据,所述第三预处理包括:重采样,差值,异常点剔除;
步骤126,对所述第三预处理之后的时间序列数据,使用所述三次指数平滑基学习器进行预测,第三中间预测结果。
具体的,所述第三中间预测结果为:
Figure 295420DEST_PATH_IMAGE016
其中,
Figure 166424DEST_PATH_IMAGE018
是第三中间预测结果,lt是水平分量,h是向前预测的步数,bt是趋势数据分量,st+h-p(m+1)是周期数据分量,m为(h-1)/p向下取整的结果,h是向前预测的步数,p是周期长度。
该实施例中,三次指数平滑基学习器包含了偏移指数平滑(一次指数平滑),趋势指数平滑(二次指数平滑),季节指数平滑(三次指数平滑)三部分,分别学习历史数据的规律对未来进行预测,通过各平滑指数控制对历史数据的记忆强度。
其中,一次指数平滑分量:lt=α(yt-st-p)+(1-α)(lt+bt-1);
lt是一次指数平滑分量,α是水平分量的平滑系数,yt是原始时间序列数据, st-p是周期分量,bt-1是趋势分量。
二次指数平滑分量:bt=β(lt-lt-1)+(1-β)bt-1
bt是二次指数平滑分量,β是趋势分量的平滑系数,lt是一次指数平滑分量,lt-1是周期分量,bt-1是t-1时刻趋势分量。
三次指数平滑分量:st=γ(yt-lt)+(1-γ)st-p
st是二次指数平滑分量,γ是周期分量的平滑系数,yt是原始时间序列数据,st-p是周期数据分量。
在本发明的一可选的实施例中,步骤13包括:
根据所述中间预测结果以及所述基学习器对应的预测上界和预测下界,对所述中间预测结果进行等权平均,获得目标预测结果。
具体的,通过以下公式:
Y(avy)taY(a)tpY(p)thY(h)t
U(avy)taU(a)tpU(p)thU(h)t
L(avy)taL(a)tpL(p)thL(h)t
ωaph=1/3,
获得目标预测结果;
其中,Y(a)为差分自回归滑动平均基学习器输出的第一中间预测结果,Y(p)为时间序列分解基学习器输出的第二中间预测结果,Y(h)为三次指数平滑基学习器输出的第三中间预测结果;
U(a)为差分自回归滑动平均基学习器的预测上界,U(p)为时间序列分解基学习器的预测上界,U(h)为三次指数平滑基学习器的预测上界;
L(a)为差分自回归滑动平均基学习器的预测下界,L(p)为时间序列分解基学习器的预测下界,L(h)为三次指数平滑基学习器的预测下界;
Y(avy)t是差分自回归滑动平均基学习器、时间序列分解基学习器以及三次指数平滑基学习器集成后的集成学习器输出的目标预测结果;
U(avy)t是集成学习器的预测上界;
L(avy)t是集成学习器的预测下界;
ωa是差分自回归滑动平均基学习器的权重;
ωp是时间序列分解基学习器的权重;
ωh是三次指数平滑基学习器的权重。
该实施例中,分别使用差分自回归滑动平均基学习器,时间序列分解基学习器,三次指数平滑基学习器建立预测模型,获得的预测值分别为Y(a),Y(p),Y(h),预测上界为U(a),U(p),U(h),预测下界为L(a),L(p),L(h)。对于三个基学习器获得的预测值和预测上下界,在赋予这些预测模型相等权重的前提下,对预测结果进行等权平均以得到最终的预测值Y(avy)、预测上界U(avy)和预测下界L(avy)。
本发明的一可选的实施例中,上述步骤14可以包括:
将目标预测结果与设定的机器上限阈值进行比较,如果所述目标预测结果超过所述设定的机器上限阈值,产生预警信息进行提醒;例如可以通过发送邮件等形式提前告知运维人员,运维人员及时解决问题以避免事故发生;
这样通过该方法能够提前得知这类资源的未来消耗程度是否已经达到机器上限,提前预警给予运维人员充足的时间排查并解决问题,从而避免机器或者服务故障;进一步地,还可以结合现有资源数据和所述目标预测结果进行分析,得到资源是否存在问题的分析结果,并反馈给运维人员,使运维人员得以合理规划未来的资源分配(针对不同需求进行扩/缩容),能进一步提高资源使用率和降低成本。
如图3至图7所示,在本发明所述的时间序列的预测处理的实施例中,根据不同监控数据各自的统计特征将它们分为:
周期型,数据包含周期性重复出现的模式,表现为日周期,周周期等;
楼梯型,数据的期望随着时间单调递增或递减;
直线型,不存在突升突降,没有周期性模式;
低信噪比型,数据拥有较大的方差,噪声在总信号能量中占比相较一般数据更高,真实信号容易被噪声信号掩盖;
概念漂移型,数据的统计特征或者模式会随着时间改变。
对于以上分布广泛的各类型时间序列数据,单一算法无法在不调参的情况下在所有类型的数据上均获得鲁棒的预测结果。而预测算法的集成学习因为汲取了自回归滑动平均算法对近期趋势变化的高灵敏度,短时预测的高准确性;指数平滑法的长期记忆能力;以及时序分解方法的高可解释性,长时预测的高准确性和对缺失值的高容忍度,不仅可以在不同特征的数据上得到较为鲁棒的预测结果,还能满足运维领域里对预测时长的不同需求。
在这些时间序列数据上,通过实验使用集成学习预测方法来表明其鲁棒性和通用性,展示其可以达到的功能和效果。实验所用的训练数据为14天,预测长度为1天,实验在预测值和数据的真实值上计算各预测模型的预测误差,以验证集成学习算法的鲁棒性。需要注意的是在实验的所有数据上,不针对特定数据进行精细调参,用以进一步验证集成算法的鲁棒性。
如图3所示的本发明实施例提供的时间序列的预测处理方法在周期型数据上的预测结果图,集成学习预测算法的误差结果为284050,集成学习算法使偏移对预测结果的影响削弱了,集成学习的结果鲁棒。
如图4所示的本发明实施例提供的时间序列的预测处理方法在楼梯型数据上的预测结果图,集成学习预测算法的误差结果为10132,集成学习使预测模型对短期变化的捕获能力得到了强化。
如图5所示的本发明实施例提供的时间序列的预测处理方法在直线型数据上的预测结果图,集成学习预测算法的误差结果为2.7e10。
如图6所示的本发明实施例提供的时间序列的预测处理方法在低信噪比数据上的预测结果图集成学习预测算法的误差结果为133。
如图7所示的本发明实施例提供的时间序列的预测处理方法在概念漂移型数据上的预测结果图,集成学习预测算法的误差结果为2.6e8,因为概念漂移型数据的规律随着时间推移会发生改变,集成学习能取长补短,预测结果有较高的鲁棒性。
从图3至图7可以看出,在不同类型的数据上集成学习算法的预测算法表现非常好,集成学习预测算法有很高的鲁棒性和通用性。
本发明的上述方法中,使用基于自回归滑动平均,指数平滑法和时间序列分解方法的集成学习思想,集成学习预测算法得到的预测结果能够得益于三种基学习器各自的优势,通过获得运维系统的监控数据的原始时间序列数据;根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果;根据所述中间预测结果和所述基学习器对应的预测边界,获得目标预测结果;根据所述目标预测结果对所述运维系统的运行指标进行预警分析,得到预警分析结果。该目标预测结果具有较好的鲁棒性,可以进一步根据该目标预测结果进行运维系统的预警分析,提前预警给予运维人员充足的时间排查并解决问题,从而避免机器或者服务故障,也可以使得运维人员根据该目标预测结果得以合理规划运维系统的资源分配(针对不同需求进行扩/缩容),能进一步提高资源使用率和降低成本
图8示出了本发明实施例提供的时间序列的预测处理装置80的构示意图。如图8所示,该装置包括:
获取模块81,用于获得运维系统的监控数据的原始时间序列数据;
处理模块82,用于根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果;根据所述中间预测结果和所述基学习器对应的预测边界,获得目标预测结果;根据所述目标预测结果对所述运维系统的运行指标进行预警分析,得到预警分析结果。
可选的,所述基学习器包括以下至少一种:
差分自回归滑动平均基学习器;
时间序列分解基学习器;
三次指数平滑基学习器。
可选的,所述处理模块82还用于对所述原始时间序列数据进行第一预处理,得到所述原始时间序列数据的趋势数据和残差部分数据;
对所述趋势数据和所述残差部分数据使用差分自回归滑动平均基学习器进行预测,得到第一中间预测结果。
可选的,所述处理模块82还用于对所述原始时间序列数据进行第二预处理,得到异常值剔除之后的数据;所述异常值是将超过设定倍数标准差的数据,所述标准差是固定窗口中数据的统计学标准差;
对所述异常值剔除之后的数据,使用所述时间序列分解基学习器进行预测,得到第二中间预测结果。
可选的,所述处理模块82还用于对所述原始时间序列数据进行第三预处理,得到第三预处理之后的时间序列数据;
对所述第三预处理之后的时间序列数据,使用所述三次指数平滑基学习器进行预测,第三中间预测结果。
可选的,所述处理模块82还用于根据所述中间预测结果以及所述基学习器对应的预测上界和预测下界,对所述中间预测结果进行等权平均,获得目标预测结果。
可选的,所述处理模块82还用于对所述中间预测结果进行等权平均,获得目标预测结果,包括:
通过以下公式:
Y(avy)taY(a)tpY(p)thY(h)t
U(avy)taU(a)tpU(p)thU(h)t
L(avy)taL(a)tpL(p)thL(h)t
ωaph=1/3,
获得目标预测结果;
其中,Y(a)为差分自回归滑动平均基学习器输出的第一中间预测结果,Y(p)为时间序列分解基学习器输出的第二中间预测结果,Y(h)为三次指数平滑基学习器输出的第三中间预测结果;
U(a)为差分自回归滑动平均基学习器的预测上界,U(p)为时间序列分解基学习器的预测上界,U(h)为三次指数平滑基学习器的预测上界;
L(a)为差分自回归滑动平均基学习器的预测下界,L(p)为时间序列分解基学习器的预测下界,L(h)为三次指数平滑基学习器的预测下界;
Y(avy)t是差分自回归滑动平均基学习器、时间序列分解基学习器以及三次指数平滑基学习器集成后的集成学习器输出的目标预测结果;
U(avy)t是集成学习器的预测上界;
L(avy)t是集成学习器的预测下界;
ωa是差分自回归滑动平均基学习器的权重;
ωp是时间序列分解基学习器的权重;
ωh是三次指数平滑基学习器的权重。
需要说明的是,该实施例是与上述方法实施例对应的装置实施例,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的时间序列的预测处理方法。
图9示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图9所示,该计算设备可以包括:处理器(processor)、通信接口(CommunicationsInterface)、存储器(memory)、以及通信总线。
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它设备比如客户端或其它服务器等的网元通信。处理器,用于执行程序,具体可以执行上述用于计算设备的时间序列的预测处理方法实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecificIntegratedCircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行上述任意方法实施例中的时间序列的预测处理方法。程序中各步骤的具体实现可以参见上述时间序列的预测处理方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的摘要和附图等)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的摘要和附图等)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者系统程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

Claims (10)

1.一种时间序列的预测处理方法,其特征在于,包括:
获得运维系统的监控数据的原始时间序列数据;
根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果,其中,所述基学习器包括差分自回归滑动平均基学习器、时间序列分解基学习器和三次指数平滑基学习器;
根据所述中间预测结果和所述基学习器对应的预测边界,获得目标预测结果;
根据所述目标预测结果对所述运维系统的运行指标进行预警分析,得到预警分析结果;
其中,根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果,包括:
对所述原始时间序列数据进行第一预处理,将所述原始时间序列数据分解为趋势数据、周期性部分数据和残差部分数据,得到所述原始时间序列数据的趋势数据和残差部分数据;其中趋势数据分量为:
Figure DEST_PATH_IMAGE002
,trt是t时刻趋势数据分量,xi是从t-p时刻到t时刻的原始数据,周期数据分量为:
Figure DEST_PATH_IMAGE004
,st是周期数据分量,xip+z是原始数据,trip+z是趋势数据分量,去周期后数据为:yt=xt-st,yt是去周期后数据,xt是原始时间序列数据;
对所述趋势数据和所述残差部分数据使用差分自回归滑动平均基学习器进行预测,得到第一中间预测结果;
其中,根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果,包括:
对所述原始时间序列数据进行第二预处理,得到异常值剔除之后的数据;所述异常值是将超过设定倍数标准差的数据,所述标准差是固定窗口中数据的统计学标准差;
对所述异常值剔除之后的数据,使用所述时间序列分解基学习器进行预测,得到第二中间预测结果;
其中,根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果,包括:
对所述原始时间序列数据进行第三预处理,得到第三预处理之后的时间序列数据;
对所述第三预处理之后的时间序列数据,使用所述三次指数平滑基学习器进行预测,得到第三中间预测结果;
其中,根据所述中间预测结果和所述基学习器对应的预测边界,获得目标预测结果,包括:
根据所述中间预测结果中的第一中间预测结果、第二中间预测结果、第三中间预测结果以及所述基学习器对应的预测上界和预测下界,对所述中间预测结果进行等权平均,获得目标预测结果。
2.根据权利要求1所述的时间序列的预测处理方法,其特征在于,差分自回归滑动平均基学习器采用ARIMA算法,时间序列分解基学习器采用fbprohet方法,三次指数平滑基学习器采用Holt-Winter算法。
3.根据权利要求1所述的时间序列的预测处理方法,其特征在于,所述第一预处理包括:重采样、差值、异常点剔除,所述第一中间预测结果为:
yt=C+ϕ1yt-1+⋅⋅⋅+ϕpyt-p1εt-1+⋅⋅⋅+θqεt-qtt~NID(0,σ2),yt是第一中间预测结果,C是常数,φ是自回归项系数,θ是滑动平均项系数,ε是噪声,εt~NID(0,σ2)是ε服从正态独立分布,均值为0,方差为σ2
第一中间预测上界为:
Figure DEST_PATH_IMAGE005
,yT+h是第一中间预测上界,
Figure DEST_PATH_IMAGE006
是向前预测h步的预测值,c是置信度的标准分数,σh是h步预测标准差;
第一中间预测下界为:
Figure DEST_PATH_IMAGE007
,yT+h是第一中间预测下界,
Figure 662197DEST_PATH_IMAGE006
是向前预测h步的预测值,c是置信度的标准分数,σh是h步预测标准差。
4.根据权利要求1所述的时间序列的预测处理方法,其特征在于,剔除异常点后的数据为:
Figure DEST_PATH_IMAGE008
Yt是原始时间序列数据,nan是空值,k是剔除异常点的松紧程度,σ(Y)是原始数据的标准差;
所述第二中间预测结果为:y(t)=g(t)+s(t)+h(t)+εt
其中,y(t)是第二中间预测结果,g(t)是趋势数据分量,s(t)是周期数据分量,h(t)是假期分量,εt是噪声。
5.根据权利要求1所述的时间序列的预测处理方法,其特征在于,所述第三中间预测结果为:
Figure DEST_PATH_IMAGE009
其中,
Figure DEST_PATH_IMAGE010
是第三中间预测结果,lt是水平分量,h是向前预测的步数,bt是趋势数据分量,st+h-p(m+1)是周期数据分量,m为(h-1)/p向下取整的结果。
6.根据权利要求1所述的时间序列的预测处理方法,其特征在于,三次指数平滑基学习器包含了一次指数平滑的偏移指数平滑、二次指数平滑的趋势指数平滑、三次指数平滑的季节指数平滑三部分,分别学习历史数据的规律对未来进行预测,通过各平滑指数控制对历史数据的记忆强度:
其中,一次指数平滑分量:lt=α(yt-st-p)+(1-α)(lt+bt-1),lt是一次指数平滑分量,α是水平分量的平滑系数,yt是原始时间序列数据,st-p是周期分量,bt-1是趋势分量;
二次指数平滑分量:bt=β(lt-lt-1)+(1-β)bt-1,bt是二次指数平滑分量,β是趋势分量的平滑系数,lt是一次指数平滑分量,lt-1是周期分量,bt-1是t-1时刻趋势分量;
三次指数平滑分量:st=γ(yt-lt)+(1-γ)st-p,st是二次指数平滑分量,γ是周期分量的平滑系数,yt是原始时间序列数据,st-p是周期数据分量。
7.根据权利要求1所述的时间序列的预测处理方法,其特征在于,根据所述中间预测结果以及所述基学习器对应的预测上界和预测下界,对所述中间预测结果进行等权平均,获得目标预测结果,包括:
通过以下公式:
Y(avy)taY(a)tpY(p)thY(h)t
U(avy)taU(a)tpU(p)thU(h)t
L(avy)taL(a)tpL(p)thL(h)t
ωaph=1/3,
获得目标预测结果;
其中,Y(a)为差分自回归滑动平均基学习器输出的第一中间预测结果,Y(p)为时间序列分解基学习器输出的第二中间预测结果,Y(h)为三次指数平滑基学习器输出的第三中间预测结果;
U(a)为差分自回归滑动平均基学习器的预测上界,U(p)为时间序列分解基学习器的预测上界,U(h)为三次指数平滑基学习器的预测上界;
L(a)为差分自回归滑动平均基学习器的预测下界,L(p)为时间序列分解基学习器的预测下界,L(h)为三次指数平滑基学习器的预测下界;
Y(avy)t是差分自回归滑动平均基学习器、时间序列分解基学习器以及三次指数平滑基学习器集成后的集成学习器输出的目标预测结果;
U(avy)t是集成学习器的预测上界;
L(avy)t是集成学习器的预测下界;
ωa是差分自回归滑动平均基学习器的权重;
ωp是时间序列分解基学习器的权重;
ωh是三次指数平滑基学习器的权重。
8.一种时间序列的预测处理装置,其特征在于,包括:
获取模块,用于获得运维系统的监控数据的原始时间序列数据;
处理模块,用于根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果,其中,所述基学习器包括差分自回归滑动平均基学习器、时间序列分解基学习器和三次指数平滑基学习器;根据所述中间预测结果和所述基学习器对应的预测边界,获得目标预测结果;根据所述目标预测结果对所述运维系统的运行指标进行预警分析,得到预警分析结果;
其中,根据所述原始时间序列数据和用于时间序列预测的基学习器,得到中间预测结果,包括:
对所述原始时间序列数据进行第一预处理,将所述原始时间序列数据分解为趋势数据、周期性部分数据和残差部分数据,得到所述原始时间序列数据的趋势数据和残差部分数据;其中趋势数据分量为:
Figure DEST_PATH_IMAGE011
,trt是t时刻趋势数据分量,xi是从t-p时刻到t时刻的原始数据,周期数据分量为:
Figure 392387DEST_PATH_IMAGE004
,st是周期数据分量,xip+z是原始数据,trip+z是趋势数据分量,去周期后数据为:yt=xt-st,yt是去周期后数据,xt是原始时间序列数据;
对所述趋势数据和所述残差部分数据使用差分自回归滑动平均基学习器进行预测,得到第一中间预测结果;
对所述原始时间序列数据进行第二预处理,得到异常值剔除之后的数据;所述异常值是将超过设定倍数标准差的数据,所述标准差是固定窗口中数据的统计学标准差;
对所述异常值剔除之后的数据,使用所述时间序列分解基学习器进行预测,得到第二中间预测结果;
对所述原始时间序列数据进行第三预处理,得到第三预处理之后的时间序列数据;
对所述第三预处理之后的时间序列数据,使用所述三次指数平滑基学习器进行预测,得到第三中间预测结果;
其中,根据所述中间预测结果和所述基学习器对应的预测边界,获得目标预测结果,包括:
根据所述中间预测结果中的第一中间预测结果、第二中间预测结果、第三中间预测结果以及所述基学习器对应的预测上界和预测下界,对所述中间预测结果进行等权平均,获得目标预测结果。
9.一种电子设备,其特征在于,包括:处理器、存储有计算机程序的存储器,所述计算机程序被处理器运行时,执行如权利要求1至7任一项所述的时间序列的预测处理方法。
10.一种计算机可读存储介质,其特征在于,存储指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至7任一项所述的时间序列的预测处理方法。
CN202110915961.5A 2021-08-11 2021-08-11 一种时间序列的预测处理方法、装置及设备 Active CN113379168B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110915961.5A CN113379168B (zh) 2021-08-11 2021-08-11 一种时间序列的预测处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110915961.5A CN113379168B (zh) 2021-08-11 2021-08-11 一种时间序列的预测处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN113379168A CN113379168A (zh) 2021-09-10
CN113379168B true CN113379168B (zh) 2021-12-17

Family

ID=77576669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110915961.5A Active CN113379168B (zh) 2021-08-11 2021-08-11 一种时间序列的预测处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113379168B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792931A (zh) * 2021-09-18 2021-12-14 北京京东振世信息技术有限公司 数据预测方法、装置、物流货量预测方法、介质和设备
CN114925116A (zh) * 2022-06-01 2022-08-19 中国西安卫星测控中心 一种航天器遥测数据预测方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095614A (zh) * 2014-04-18 2015-11-25 国际商业机器公司 更新预测模型的方法和装置
CN108052528B (zh) * 2017-11-09 2019-11-26 华中科技大学 一种存储设备时序分类预警方法
CN108073497B (zh) * 2018-01-29 2021-02-12 上海洞识信息科技有限公司 一种基于数据中心数据采集平台的多指标异动分析方法
CN108537343A (zh) * 2018-03-07 2018-09-14 中国科学院计算技术研究所 一种基于集成学习的差错控制方法和系统
CN109784471A (zh) * 2018-10-24 2019-05-21 浙江华云信息科技有限公司 一种基于多预测模型的95598话务工单预测与异动预警方法
CN112131212A (zh) * 2020-09-29 2020-12-25 合肥城市云数据中心股份有限公司 基于集成学习技术面向混合云场景的时序数据异常预测方法
CN113032239A (zh) * 2021-05-28 2021-06-25 北京宝兰德软件股份有限公司 风险提示方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113379168A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
US11888316B2 (en) Method and system of predicting electric system load based on wavelet noise reduction and EMD-ARIMA
CN109587713B (zh) 一种基于arima模型的网络指标预测方法、装置及存储介质
CN113379168B (zh) 一种时间序列的预测处理方法、装置及设备
CN108038040A (zh) 计算机集群性能指标检测方法、电子设备及存储介质
CN102469103B (zh) 基于bp神经网络的木马事件预测方法
CN112288193A (zh) 基于注意力机制的gru深度学习的海洋站表层盐度预测方法
CN112633998B (zh) 税务大数据决策分析方法及系统
CN110110339B (zh) 一种日前水文预报误差校正方法及系统
CN116307291B (zh) 一种基于小波分解的分布式光伏发电预测方法及预测终端
US20210099894A1 (en) Forcasting time series data
CN112398670A (zh) 流量预测方法、装置、计算设备及计算机存储介质
Lum et al. Industrial electrical energy consumption forecasting by using temporal convolutional neural networks
CN111738507A (zh) 银行清算头寸资金备付量预测方法和装置、设备及介质
CN111679970A (zh) 机器人软件系统运行环境状态预测方法
CN112700050B (zh) 一种光伏电站超短期第1点功率预测方法及系统
CN115630979A (zh) 日前电价的预测方法、装置、存储介质及计算机设备
CN114172708A (zh) 网络流量异常的识别方法
CN111754050A (zh) 配送对象配送画像的预测方法及装置
CN115858606A (zh) 时序数据的异常检测方法、装置、设备及存储介质
CN114070438A (zh) 一种5g基站电磁信号的检测方法及系统
CN111784071A (zh) 一种基于Stacking集成的许可占用与预测方法及系统
CN110659442A (zh) 系统及其数据短期预测方法和装置、存储介质
CN112464970A (zh) 区域价值评估模型处理方法、装置及计算设备
CN117075684B (zh) 一种Chiplet芯片的自适应时钟网格化校准方法
CN111796995B (zh) 基于集成学习的循环序列号使用量预警方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant