CN115757561A - 一种数据中心设备运行数据时间序列组合预测方法 - Google Patents
一种数据中心设备运行数据时间序列组合预测方法 Download PDFInfo
- Publication number
- CN115757561A CN115757561A CN202211580415.1A CN202211580415A CN115757561A CN 115757561 A CN115757561 A CN 115757561A CN 202211580415 A CN202211580415 A CN 202211580415A CN 115757561 A CN115757561 A CN 115757561A
- Authority
- CN
- China
- Prior art keywords
- data
- time sequence
- time
- model
- sequence data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000005311 autocorrelation function Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000002123 temporal effect Effects 0.000 claims description 2
- 238000013499 data model Methods 0.000 abstract description 4
- 238000005457 optimization Methods 0.000 abstract 1
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种数据中心设备运行数据时间序列组合预测方法,用于根据历史时序数据估测接续时序数据;所述方法包括如下步骤:采集数据中心设备运行原始时序数据并进行标准化处理;利用标准化后的时序数据分别进行ARIMA建模和XGBoost建模;根据上步骤中所得的两种数据模型分别预测一定时长的设备时序数据,并根据动态加权得到组合优化后的预测时序数据。本发明的方法基于数据中心设备运行时序数据中隐含的线性特征和非线性特征,以及不同数据模型对不同时间序列规律的拟合能力,对设备运行状态进行估测,为设备运行趋势分析提供数据参考。
Description
技术领域
本申请涉及数据挖掘领域,涉及一种时间序列的预测方法,尤其涉及一种数据中心设备运行数据时间序列组合预测方法。
背景技术
数据中心是数据和信息的集中的地方,每时每刻都有许多数据产生、汇聚或分发。关注数据中心设备运行状态与趋势,对保障数据中心的整体运维情况以及与设备相关的数据分析与决策具有重要意义。
ARIMA代表Autoregressive Integrated Moving Average,即差分自回归移动平均,ARIMA模型是一种广泛使用的时间序列预测统计方法,其模型原理简单易实现,仅依赖统计的数据本身而不需要其他外生变量,常用于处理平稳的、或差分后平稳的时序数据,适合跟踪平稳时间序列中的线性趋势,而难以捕捉非线性关系。XGBoost模型代表ExtremeGradient Boosting,又称为极度梯度提升树,是对分类和回归问题的梯度提升集成算法的实现,亦可以被用于时间序列预测,其模型鲁棒性强,在处理大规模数据集时速度快效果好,具备良好的非线性映射能力。
对于复杂的时序数据而言,如数据中心设备的状态数据,由于受到设备本身参数、业务处理、传感器精度等多种因素影响,导致观测的时序数据可能隐含多种变化趋势,而单一的预测模型往往侧重于拟合时间序列的部分线性或非线性特征。
发明内容
本申请实施例的目的在于提供一种数据中心设备运行数据时间序列组合预测方法,基于数据中心设备运行时序数据中隐含的线性特征和非线性特征,以及不同数据模型对不同时间序列规律的拟合能力,对设备运行状态进行估测,为设备运行趋势分析提供数据参考。
为实现上述目的,本申请提供如下技术方案:
本申请实施例提供一种数据中心设备运行数据时间序列组合预测方法,包括如下步骤:
步骤1:预处理原始数据样本,将设备运行原始时序数据样本集标准化处理为标准时序数据,并切割出预留时窗数据;
步骤2:利用剩余时序数据集分别拟合ARIMA模型和XGBoost模型;
步骤3:根据训练后的ARIMA模型和XGBoost模型分别预测预留时窗对应时序的数据值,并根据预测时窗数据与预留时序数据集的均方误差,得到模型组合权重;
步骤4:根据训练后的ARIMA模型和XGBoost模型预测后续时序数据并根据权重得到组合预测时序数据,当有新采样的设备运行时序数据时,根据步骤1至3,更新模型和权重,对设备运行时序数据进行动态组合预测。
所述步骤1中原始时序数据样本集其中上标i表示在总共N个样本对中第i对样本数据,{t(i)}、{s(i)}分别为原始数据时序及该时序对应运行数据值,标准时序数据集X={(t(i),x(i))|i=1,2,…,N},其中预留时窗数据为Xw={(t(i),x(i))|i=N-L+1,…,N-1,N},时窗大小且L<<N,则剩余时序数据为Xr={(t(i),x(i))|i=1,2,…,N-L},即X=Xw∪Xr。
所述步骤2中拟合ARIMA模型包括:
对剩余时序数据集Xr做平稳性处理,确定模型的差分阶数d,对差分后的时序数据做自相关函数ACF和偏自相关函数PACF,并根据BIC原则确定的MA阶数p和RA阶数q。
所述步骤2中XGBoost模型包括:
根据原始数据时序{t(i)}构造时间特征,利用剩余时序数据集Xr训练XGBoost模型,调整并确定重要模型参数max_depth、learning_rate、n_estimator。
所述步骤4中设ARIMA后续预测时序数据 XGBoost后续预测时序数据 后续预测时序长则t(N)时刻后的预测时序数据为 当下一时段设备运行原始时序数据到来后,保持标准数据集大小N不变,用当前最新时序数据替换较旧时刻的时序数据,根据步骤1至步骤3更新模型与权重。
与现有技术相比,本发明的有益效果是:
考虑到数据中心设备运行时序数据中隐含的线性特征和非线性特征,利用不同数据模型对不同时间序列规律的拟合能力,组合预测设备运行时序数据以对设备运行状态进行估测,为设备运行趋势分析提供更有效的数据参考。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例方法流程示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
下面结合图1,介绍本发明的具体实施方式为一种数据中心设备运行数据时间序列组合预测方法,包括以下具体步骤:
步骤1:取某时刻前300时间点的数据中心服务器运行的CPU利用率作为设备运行原始时序数据上标i表示在总共N个样本对中第i对样本数据,{t(i)}、{s(i)}分别为原始数据时序及该时序对应运行数据值,标准化处理原始数据样本,令得到标准时序数据集X={(t(i),x(i))|i=1,2,…,N},切割出预留时窗数据Xw={(t(i),x(i))|i=N-L+1,…,N-1,N},取L=0.05N;
步骤2:利用剩余时序数据集分别拟合ARIMA模型和XGBoost模型,确定ARIMA模型差分阶数d=1、A阶数p=1和RA阶数q=1,同时根据原始数据时序{t(i)}构造时间特征“day”“hour”“minite”,确定XGBoost模型重要参数max_depth=5、learning_rate=0.1、n_estimator=10;
则ARIMA模型权重w1与XGBoost模型权重w2有:
步骤4:根据训练后的ARIMA模型和XGBoost模型预测后续时序数据得到,并根据权重得到 则可输出当前时刻后的组合预测时序数据若在该时刻后继续采样超过预留时窗大小L的时序数据,则可更新t(N)与对应运行数据,根据步骤1至步骤3保持动态地组合预测时序数据。
相较于现有技术,本发明提出一种数据中心设备运行数据时间序列组合预测方法。基于数据中心设备运行时序数据中隐含的线性规律和非线性规律,以及ARIMA模型和XGBoost模型对不同时间序列规律的拟合能力,通过对不断更新的时序数据分割比较当前时窗数据确定权重,以达到动态组合预测后续时序数据的目的,为设备运行状态和后续运行趋势分析提供数据参考。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (6)
1.一种数据中心设备运行数据时间序列组合预测方法,其特征在于,包括如下步骤:
步骤1:预处理原始数据样本,将设备运行原始时序数据样本集标准化处理为标准时序数据,并切割出预留时窗数据;
步骤2:利用剩余时序数据集分别拟合ARIMA模型和XGBoost模型;
步骤3:根据训练后的ARIMA模型和XGBoost模型分别预测预留时窗对应时序的数据值,并根据预测时窗数据与预留时序数据集的均方误差,得到模型组合权重;
步骤4:根据训练后的ARIMA模型和XGBoost模型预测后续时序数据并根据权重得到组合预测时序数据,当有新采样的设备运行时序数据时,根据步骤1至3,更新模型和权重,对设备运行时序数据进行动态组合预测。
3.根据权利要求1所述的一种数据中心设备运行数据时间序列组合预测方法,其特征在于,所述步骤2中拟合ARIMA模型包括:
对剩余时序数据集Xr做平稳性处理,确定模型的差分阶数d,对差分后的时序数据做自相关函数ACF和偏自相关函数PACF,并根据BIC原则确定的MA阶数p和RA阶数q。
4.根据权利要求1所述的一种数据中心设备运行数据时间序列组合预测方法,其特征在于,所述步骤2中XGBoost模型包括:
根据原始数据时序{t(i)}构造时间特征,利用剩余时序数据集Xr训练XGBoost模型,调整并确定重要模型参数max_depth、learning_rate、n_estimator。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211580415.1A CN115757561A (zh) | 2022-12-09 | 2022-12-09 | 一种数据中心设备运行数据时间序列组合预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211580415.1A CN115757561A (zh) | 2022-12-09 | 2022-12-09 | 一种数据中心设备运行数据时间序列组合预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115757561A true CN115757561A (zh) | 2023-03-07 |
Family
ID=85346700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211580415.1A Pending CN115757561A (zh) | 2022-12-09 | 2022-12-09 | 一种数据中心设备运行数据时间序列组合预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115757561A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110245801A (zh) * | 2019-06-19 | 2019-09-17 | 中国电力科学研究院有限公司 | 一种基于组合挖掘模型的电力负荷预测方法及系统 |
CN112001740A (zh) * | 2020-06-19 | 2020-11-27 | 南京理工大学 | 一种基于自适应神经网络的组合预测方法 |
CN113065703A (zh) * | 2021-03-31 | 2021-07-02 | 天津大学 | 一种结合多种模型的时间序列预测方法 |
US20210209467A1 (en) * | 2018-09-25 | 2021-07-08 | Ennew Digital Technology Co., Ltd. | Method and device for predicting thermal load of electrical system |
CN114862035A (zh) * | 2022-05-20 | 2022-08-05 | 厦门大学 | 一种基于迁移学习的组合式海湾水温预测方法 |
US20220341996A1 (en) * | 2021-01-11 | 2022-10-27 | Dalian University Of Technology | Method for predicting faults in power pack of complex equipment based on a hybrid prediction model |
-
2022
- 2022-12-09 CN CN202211580415.1A patent/CN115757561A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210209467A1 (en) * | 2018-09-25 | 2021-07-08 | Ennew Digital Technology Co., Ltd. | Method and device for predicting thermal load of electrical system |
CN110245801A (zh) * | 2019-06-19 | 2019-09-17 | 中国电力科学研究院有限公司 | 一种基于组合挖掘模型的电力负荷预测方法及系统 |
CN112001740A (zh) * | 2020-06-19 | 2020-11-27 | 南京理工大学 | 一种基于自适应神经网络的组合预测方法 |
US20220341996A1 (en) * | 2021-01-11 | 2022-10-27 | Dalian University Of Technology | Method for predicting faults in power pack of complex equipment based on a hybrid prediction model |
CN113065703A (zh) * | 2021-03-31 | 2021-07-02 | 天津大学 | 一种结合多种模型的时间序列预测方法 |
CN114862035A (zh) * | 2022-05-20 | 2022-08-05 | 厦门大学 | 一种基于迁移学习的组合式海湾水温预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967688B (zh) | 一种基于卡尔曼滤波器与卷积神经网络的电力负荷预测方法 | |
CN111310981B (zh) | 一种基于时间序列的水库水位趋势预测方法 | |
CN111428201B (zh) | 基于经验模态分解和前馈神经网络对时序数据的预测方法 | |
CN108415884B (zh) | 一种结构模态参数实时追踪方法 | |
CN109508788A (zh) | 一种基于arma模型的sdn流量预测方法 | |
CN112232604B (zh) | 基于Prophet模型提取网络流量的预测方法 | |
CN115800245A (zh) | 基于sarima-随机森林组合模型的短期负荷预测方法 | |
CN116383645A (zh) | 一种基于异常检测的系统健康度智能监测评估方法 | |
CN111371626A (zh) | 一种基于神经网络的带宽预测方法 | |
CN112561119A (zh) | 一种使用arima-rnn组合模型的云服务器资源性能预测方法 | |
CN117909384A (zh) | 基于小波去噪和多尺度特征提取的多变量时间序列预测方法和系统 | |
CN116911419A (zh) | 一种基于趋势相关性特征学习的长时序预测方法 | |
CN118051601A (zh) | 工业物联网数据融合与分析方法 | |
Chun et al. | State heterogeneity analysis of financial volatility using high‐frequency financial data | |
CN114372324B (zh) | 旋转机械装备关键零部件服役退化轨迹预测方法及设备 | |
CN114564345A (zh) | 一种服务器异常检测方法、装置、设备及存储介质 | |
CN113988173A (zh) | 基于定性趋势分析和五状态贝叶斯网络的故障诊断方法、系统、设备及存储介质 | |
CN118551887A (zh) | 一种电力时序数据异常检测方法、系统、介质及处理器 | |
CN115757561A (zh) | 一种数据中心设备运行数据时间序列组合预测方法 | |
Wang et al. | A novel multiscale deep health indicator with bidirectional LSTM network for bearing performance degradation trend prognosis | |
CN112487361A (zh) | 一种基于arima和小波变换的扇区短时交通流量预测方法 | |
CN114925476B (zh) | 一种滚动轴承退化轨迹增广四元数预测方法及存储介质 | |
Abdelwali et al. | Enhancing time series forecasting with the advanced cumulative weighted moving average technique | |
CN113095608A (zh) | 指标分析方法、装置、设备及存储介质 | |
CN117521907A (zh) | 考虑光伏出力与气象要素的光伏发电功率区间预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |