CN115757561A - 一种数据中心设备运行数据时间序列组合预测方法 - Google Patents

一种数据中心设备运行数据时间序列组合预测方法 Download PDF

Info

Publication number
CN115757561A
CN115757561A CN202211580415.1A CN202211580415A CN115757561A CN 115757561 A CN115757561 A CN 115757561A CN 202211580415 A CN202211580415 A CN 202211580415A CN 115757561 A CN115757561 A CN 115757561A
Authority
CN
China
Prior art keywords
data
time sequence
time
model
sequence data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211580415.1A
Other languages
English (en)
Inventor
黄超
郭岳
李想
胡耀东
柯旺松
李德识
梁源
庄严
董亮
朱兆宇
徐宁
郭兆丰
张勇
廖荣涛
贺亮
冯伟东
王婕
刘芬
王逸兮
罗弦
李磊
王晟玮
王博涛
童永飞
张岱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Original Assignee
Wuhan University WHU
Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU, Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd filed Critical Wuhan University WHU
Priority to CN202211580415.1A priority Critical patent/CN115757561A/zh
Publication of CN115757561A publication Critical patent/CN115757561A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种数据中心设备运行数据时间序列组合预测方法,用于根据历史时序数据估测接续时序数据;所述方法包括如下步骤:采集数据中心设备运行原始时序数据并进行标准化处理;利用标准化后的时序数据分别进行ARIMA建模和XGBoost建模;根据上步骤中所得的两种数据模型分别预测一定时长的设备时序数据,并根据动态加权得到组合优化后的预测时序数据。本发明的方法基于数据中心设备运行时序数据中隐含的线性特征和非线性特征,以及不同数据模型对不同时间序列规律的拟合能力,对设备运行状态进行估测,为设备运行趋势分析提供数据参考。

Description

一种数据中心设备运行数据时间序列组合预测方法
技术领域
本申请涉及数据挖掘领域,涉及一种时间序列的预测方法,尤其涉及一种数据中心设备运行数据时间序列组合预测方法。
背景技术
数据中心是数据和信息的集中的地方,每时每刻都有许多数据产生、汇聚或分发。关注数据中心设备运行状态与趋势,对保障数据中心的整体运维情况以及与设备相关的数据分析与决策具有重要意义。
ARIMA代表Autoregressive Integrated Moving Average,即差分自回归移动平均,ARIMA模型是一种广泛使用的时间序列预测统计方法,其模型原理简单易实现,仅依赖统计的数据本身而不需要其他外生变量,常用于处理平稳的、或差分后平稳的时序数据,适合跟踪平稳时间序列中的线性趋势,而难以捕捉非线性关系。XGBoost模型代表ExtremeGradient Boosting,又称为极度梯度提升树,是对分类和回归问题的梯度提升集成算法的实现,亦可以被用于时间序列预测,其模型鲁棒性强,在处理大规模数据集时速度快效果好,具备良好的非线性映射能力。
对于复杂的时序数据而言,如数据中心设备的状态数据,由于受到设备本身参数、业务处理、传感器精度等多种因素影响,导致观测的时序数据可能隐含多种变化趋势,而单一的预测模型往往侧重于拟合时间序列的部分线性或非线性特征。
发明内容
本申请实施例的目的在于提供一种数据中心设备运行数据时间序列组合预测方法,基于数据中心设备运行时序数据中隐含的线性特征和非线性特征,以及不同数据模型对不同时间序列规律的拟合能力,对设备运行状态进行估测,为设备运行趋势分析提供数据参考。
为实现上述目的,本申请提供如下技术方案:
本申请实施例提供一种数据中心设备运行数据时间序列组合预测方法,包括如下步骤:
步骤1:预处理原始数据样本,将设备运行原始时序数据样本集标准化处理为标准时序数据,并切割出预留时窗数据;
步骤2:利用剩余时序数据集分别拟合ARIMA模型和XGBoost模型;
步骤3:根据训练后的ARIMA模型和XGBoost模型分别预测预留时窗对应时序的数据值,并根据预测时窗数据与预留时序数据集的均方误差,得到模型组合权重;
步骤4:根据训练后的ARIMA模型和XGBoost模型预测后续时序数据并根据权重得到组合预测时序数据,当有新采样的设备运行时序数据时,根据步骤1至3,更新模型和权重,对设备运行时序数据进行动态组合预测。
所述步骤1中原始时序数据样本集
Figure BDA0003990529780000023
其中上标i表示在总共N个样本对中第i对样本数据,{t(i)}、{s(i)}分别为原始数据时序及该时序对应运行数据值,标准时序数据集X={(t(i),x(i))|i=1,2,…,N},其中
Figure BDA0003990529780000021
预留时窗数据为Xw={(t(i),x(i))|i=N-L+1,…,N-1,N},时窗大小
Figure BDA0003990529780000022
且L<<N,则剩余时序数据为Xr={(t(i),x(i))|i=1,2,…,N-L},即X=Xw∪Xr
所述步骤2中拟合ARIMA模型包括:
对剩余时序数据集Xr做平稳性处理,确定模型的差分阶数d,对差分后的时序数据做自相关函数ACF和偏自相关函数PACF,并根据BIC原则确定的MA阶数p和RA阶数q。
所述步骤2中XGBoost模型包括:
根据原始数据时序{t(i)}构造时间特征,利用剩余时序数据集Xr训练XGBoost模型,调整并确定重要模型参数max_depth、learning_rate、n_estimator。
所述步骤3中设ARIMA模型预测时窗数据
Figure BDA0003990529780000031
Figure BDA0003990529780000032
XGBoost模型预测时窗数据
Figure BDA0003990529780000033
Figure BDA0003990529780000034
分别与预留时窗数据比较得到均方误差
Figure BDA0003990529780000035
则可确定ARIMA模型权重w1与XGBoost模型权重w2关系为
Figure BDA0003990529780000036
所述步骤4中设ARIMA后续预测时序数据
Figure BDA0003990529780000037
Figure BDA0003990529780000038
XGBoost后续预测时序数据
Figure BDA0003990529780000039
Figure BDA00039905297800000310
后续预测时序长
Figure BDA00039905297800000311
则t(N)时刻后的预测时序数据为
Figure BDA00039905297800000312
Figure BDA00039905297800000313
当下一时段设备运行原始时序数据到来后,保持标准数据集大小N不变,用当前最新时序数据替换较旧时刻的时序数据,根据步骤1至步骤3更新模型与权重。
与现有技术相比,本发明的有益效果是:
考虑到数据中心设备运行时序数据中隐含的线性特征和非线性特征,利用不同数据模型对不同时间序列规律的拟合能力,组合预测设备运行时序数据以对设备运行状态进行估测,为设备运行趋势分析提供更有效的数据参考。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例方法流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
下面结合图1,介绍本发明的具体实施方式为一种数据中心设备运行数据时间序列组合预测方法,包括以下具体步骤:
步骤1:取某时刻前300时间点的数据中心服务器运行的CPU利用率作为设备运行原始时序数据
Figure BDA0003990529780000041
上标i表示在总共N个样本对中第i对样本数据,{t(i)}、{s(i)}分别为原始数据时序及该时序对应运行数据值,标准化处理原始数据样本,令
Figure BDA0003990529780000042
得到标准时序数据集X={(t(i),x(i))|i=1,2,…,N},切割出预留时窗数据Xw={(t(i),x(i))|i=N-L+1,…,N-1,N},取L=0.05N;
步骤2:利用剩余时序数据集分别拟合ARIMA模型和XGBoost模型,确定ARIMA模型差分阶数d=1、A阶数p=1和RA阶数q=1,同时根据原始数据时序{t(i)}构造时间特征“day”“hour”“minite”,确定XGBoost模型重要参数max_depth=5、learning_rate=0.1、n_estimator=10;
步骤3:根据训练后的ARIMA模型和XGBoost模型预测预留时窗对应时序的数据值,得到预测时窗数据分别为
Figure BDA0003990529780000043
Figure BDA0003990529780000044
比较与预留时序数据集的均方误差
Figure BDA0003990529780000045
则ARIMA模型权重w1与XGBoost模型权重w2有:
Figure BDA0003990529780000046
步骤4:根据训练后的ARIMA模型和XGBoost模型预测后续时序数据得到,并根据权重得到
Figure BDA0003990529780000051
Figure BDA0003990529780000052
则可输出当前时刻后的组合预测时序数据
Figure BDA0003990529780000053
若在该时刻后继续采样超过预留时窗大小L的时序数据,则可更新t(N)与对应运行数据,根据步骤1至步骤3保持动态地组合预测时序数据。
相较于现有技术,本发明提出一种数据中心设备运行数据时间序列组合预测方法。基于数据中心设备运行时序数据中隐含的线性规律和非线性规律,以及ARIMA模型和XGBoost模型对不同时间序列规律的拟合能力,通过对不断更新的时序数据分割比较当前时窗数据确定权重,以达到动态组合预测后续时序数据的目的,为设备运行状态和后续运行趋势分析提供数据参考。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (6)

1.一种数据中心设备运行数据时间序列组合预测方法,其特征在于,包括如下步骤:
步骤1:预处理原始数据样本,将设备运行原始时序数据样本集标准化处理为标准时序数据,并切割出预留时窗数据;
步骤2:利用剩余时序数据集分别拟合ARIMA模型和XGBoost模型;
步骤3:根据训练后的ARIMA模型和XGBoost模型分别预测预留时窗对应时序的数据值,并根据预测时窗数据与预留时序数据集的均方误差,得到模型组合权重;
步骤4:根据训练后的ARIMA模型和XGBoost模型预测后续时序数据并根据权重得到组合预测时序数据,当有新采样的设备运行时序数据时,根据步骤1至3,更新模型和权重,对设备运行时序数据进行动态组合预测。
2.根据权利要求1所述的一种数据中心设备运行数据时间序列组合预测方法,其特征在于,所述步骤1中原始时序数据样本集
Figure FDA0003990529770000011
Figure FDA0003990529770000012
其中上标i表示在总共N个样本对中第i对样本数据,
Figure FDA0003990529770000013
{s(i)}分别为原始数据时序及该时序对应运行数据值,标准时序数据集X={(t(i),x(i))|i=1,2,…,N},其中
Figure FDA0003990529770000014
预留时窗数据为Xw={(t(i),x(i))|i=N-L+1,…,N-1,N},时窗大小
Figure FDA0003990529770000015
且L<<N,则剩余时序数据为Xr={(t(i),x(i))|i=1,2,…,N-L},即X=Xw∪Xr
3.根据权利要求1所述的一种数据中心设备运行数据时间序列组合预测方法,其特征在于,所述步骤2中拟合ARIMA模型包括:
对剩余时序数据集Xr做平稳性处理,确定模型的差分阶数d,对差分后的时序数据做自相关函数ACF和偏自相关函数PACF,并根据BIC原则确定的MA阶数p和RA阶数q。
4.根据权利要求1所述的一种数据中心设备运行数据时间序列组合预测方法,其特征在于,所述步骤2中XGBoost模型包括:
根据原始数据时序{t(i)}构造时间特征,利用剩余时序数据集Xr训练XGBoost模型,调整并确定重要模型参数max_depth、learning_rate、n_estimator。
5.根据权利要求1所述的一种数据中心设备运行数据时间序列组合预测方法,其特征在于,所述步骤3中设ARIMA模型预测时窗数据
Figure FDA0003990529770000021
Figure FDA0003990529770000022
XGBoost模型预测时窗数据
Figure FDA0003990529770000023
分别与预留时窗数据比较得到均方误差
Figure FDA0003990529770000024
k=1,2,则可确定ARIMA模型权重w1与XGBoost模型权重w2关系为w1:
Figure FDA0003990529770000025
6.根据权利要求1所述的一种数据中心设备运行数据时间序列组合预测方法,其特征在于,所述步骤4中设ARIMA后续预测时序数据
Figure FDA0003990529770000026
Figure FDA0003990529770000027
XGBoost后续预测时序数据
Figure FDA0003990529770000028
Figure FDA0003990529770000029
后续预测时序长
Figure FDA00039905297700000210
则t(N)时刻后的预测时序数据为
Figure FDA00039905297700000211
当下一时段设备运行原始时序数据到来后,保持标准数据集大小N不变,用当前最新时序数据替换较旧时刻的时序数据,根据步骤1至步骤3更新模型与权重。
CN202211580415.1A 2022-12-09 2022-12-09 一种数据中心设备运行数据时间序列组合预测方法 Pending CN115757561A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211580415.1A CN115757561A (zh) 2022-12-09 2022-12-09 一种数据中心设备运行数据时间序列组合预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211580415.1A CN115757561A (zh) 2022-12-09 2022-12-09 一种数据中心设备运行数据时间序列组合预测方法

Publications (1)

Publication Number Publication Date
CN115757561A true CN115757561A (zh) 2023-03-07

Family

ID=85346700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211580415.1A Pending CN115757561A (zh) 2022-12-09 2022-12-09 一种数据中心设备运行数据时间序列组合预测方法

Country Status (1)

Country Link
CN (1) CN115757561A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245801A (zh) * 2019-06-19 2019-09-17 中国电力科学研究院有限公司 一种基于组合挖掘模型的电力负荷预测方法及系统
CN112001740A (zh) * 2020-06-19 2020-11-27 南京理工大学 一种基于自适应神经网络的组合预测方法
CN113065703A (zh) * 2021-03-31 2021-07-02 天津大学 一种结合多种模型的时间序列预测方法
US20210209467A1 (en) * 2018-09-25 2021-07-08 Ennew Digital Technology Co., Ltd. Method and device for predicting thermal load of electrical system
CN114862035A (zh) * 2022-05-20 2022-08-05 厦门大学 一种基于迁移学习的组合式海湾水温预测方法
US20220341996A1 (en) * 2021-01-11 2022-10-27 Dalian University Of Technology Method for predicting faults in power pack of complex equipment based on a hybrid prediction model

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210209467A1 (en) * 2018-09-25 2021-07-08 Ennew Digital Technology Co., Ltd. Method and device for predicting thermal load of electrical system
CN110245801A (zh) * 2019-06-19 2019-09-17 中国电力科学研究院有限公司 一种基于组合挖掘模型的电力负荷预测方法及系统
CN112001740A (zh) * 2020-06-19 2020-11-27 南京理工大学 一种基于自适应神经网络的组合预测方法
US20220341996A1 (en) * 2021-01-11 2022-10-27 Dalian University Of Technology Method for predicting faults in power pack of complex equipment based on a hybrid prediction model
CN113065703A (zh) * 2021-03-31 2021-07-02 天津大学 一种结合多种模型的时间序列预测方法
CN114862035A (zh) * 2022-05-20 2022-08-05 厦门大学 一种基于迁移学习的组合式海湾水温预测方法

Similar Documents

Publication Publication Date Title
CN111967688B (zh) 一种基于卡尔曼滤波器与卷积神经网络的电力负荷预测方法
CN111310981B (zh) 一种基于时间序列的水库水位趋势预测方法
CN111428201B (zh) 基于经验模态分解和前馈神经网络对时序数据的预测方法
CN108415884B (zh) 一种结构模态参数实时追踪方法
CN109508788A (zh) 一种基于arma模型的sdn流量预测方法
CN112232604B (zh) 基于Prophet模型提取网络流量的预测方法
CN115800245A (zh) 基于sarima-随机森林组合模型的短期负荷预测方法
CN116383645A (zh) 一种基于异常检测的系统健康度智能监测评估方法
CN111371626A (zh) 一种基于神经网络的带宽预测方法
CN112561119A (zh) 一种使用arima-rnn组合模型的云服务器资源性能预测方法
CN117909384A (zh) 基于小波去噪和多尺度特征提取的多变量时间序列预测方法和系统
CN116911419A (zh) 一种基于趋势相关性特征学习的长时序预测方法
CN118051601A (zh) 工业物联网数据融合与分析方法
Chun et al. State heterogeneity analysis of financial volatility using high‐frequency financial data
CN114372324B (zh) 旋转机械装备关键零部件服役退化轨迹预测方法及设备
CN114564345A (zh) 一种服务器异常检测方法、装置、设备及存储介质
CN113988173A (zh) 基于定性趋势分析和五状态贝叶斯网络的故障诊断方法、系统、设备及存储介质
CN118551887A (zh) 一种电力时序数据异常检测方法、系统、介质及处理器
CN115757561A (zh) 一种数据中心设备运行数据时间序列组合预测方法
Wang et al. A novel multiscale deep health indicator with bidirectional LSTM network for bearing performance degradation trend prognosis
CN112487361A (zh) 一种基于arima和小波变换的扇区短时交通流量预测方法
CN114925476B (zh) 一种滚动轴承退化轨迹增广四元数预测方法及存储介质
Abdelwali et al. Enhancing time series forecasting with the advanced cumulative weighted moving average technique
CN113095608A (zh) 指标分析方法、装置、设备及存储介质
CN117521907A (zh) 考虑光伏出力与气象要素的光伏发电功率区间预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination