CN116048910A

CN116048910A - 一种数据中心设备运行数据双尺度预测方法

Info

Publication number: CN116048910A
Application number: CN202211574534.6A
Authority: CN
Inventors: 庄严; 董亮; 郭岳; 朱兆宇; 李德识; 胡耀东; 柯旺松; 李想; 梁源; 黄超; 周正; 廖荣涛; 袁慧; 贺亮; 冯伟东; 王婕; 王逸兮; 罗弦; 姚渭菁; 胡欢君
Original assignee: State Grid Hubei Transmission And Transformation Engineering Co ltd; Wuhan University WHU; Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Current assignee: State Grid Hubei Transmission And Transformation Engineering Co ltd; Wuhan University WHU; Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-05-02

Abstract

本申请涉及一种数据中心设备运行数据双尺度预测方法，包括如下步骤：设读入数据中心设备运行所产生的时间序列数据；得到大尺度波动序列和小尺度波动序列；在大尺度波动序列中，为了降低计算复杂度，预测设备状态长期变化趋势，将大尺度波动序列中的各个时刻数据进行合并形成各个时段即大尺度设备运行状态序列，预测大尺度设备运行状态序列以时段为尺度；使用滑动窗口k近邻预测方法和预匹配方式进行大尺度预测；使用AR预测模型进行小尺度预测；基于大尺度预测值和小尺度预测值得到下一个时刻的设备运行数据。本申请降低计算复杂度，预测设备状态长期变化趋势，实现在保持预测性能的同时降低预测算法的开销。

Description

一种数据中心设备运行数据双尺度预测方法

技术领域

本申请涉及数据预测领域，涉及一种数据中心设备运行数据双尺度预测方法。

背景技术

由于计算机技术、物联网技术和人工智能的迅猛发展，每天都会产生大量的信息数据，这些数据都需要由数据中心中的设备进行处理。对设备的运行数据进行精准预测有助于分析设备的未来工作状态，从而保障数据中心业务的稳定运行。

为保障数据中心各设备的稳定运行，需要对设备的运行数据进行预测，然而实现这一目标面临如下挑战：第一，基于设备运行数据的突变性，单一时刻的数据突变并不能作为有效参考，因此需要预测较长时间的数据变化，但如何从设备运行数据中提取出长期变化是一个问题。第二，预测长期的数据变化会增加预测误差，而小尺度波动序列反映了数据高频的复杂波动，能够提高短期数据预测的准确度，因此在大尺度预测之后，将预测小尺度波动序列，并将两者结合形成对设备运行数据的预测结果。

发明内容

本申请实施例的目的在于提供一种数据中心设备运行数据双尺度预测方法，降低计算复杂度，预测设备状态长期变化趋势，实现在保持预测性能的同时降低预测算法的开销。

为实现上述目的，本申请提供如下技术方案：

本申请实施例提供一种数据中心设备运行数据双尺度预测方法，包括如下步骤：

步骤1：设备的运行数据在一段时间T内为一个时间序列，读入数据中心设备运行所产生的时间序列数据，记为h(t)；

步骤2：依据经验模态分解，设计一种不完全分解策略，得到最优的分解次数，进而得到大尺度波动序列和小尺度波动序列；

步骤3：在大尺度波动序列中，为了降低计算复杂度，预测设备状态长期变化趋势，将大尺度波动序列中的各个时刻数据进行合并形成各个时段即大尺度设备运行状态序列，预测大尺度设备运行状态序列以时段为尺度；

步骤4：使用滑动窗口k近邻预测方法和预匹配方式进行大尺度预测；

步骤5：使用AR预测模型进行小尺度预测；

步骤6：基于大尺度预测值和小尺度预测值得到下一个时刻的设备运行数据。

所述步骤2中为了获得设备运行数据的大尺度波动序列和小尺度波动序列，设计了一种不完全分解策略：

对于设备运行数据h(t),进行经验模态分解为：

其中，N_e是分解次数，y_i(t)是第i次分解得到的固有模态函数，r(t)是残余序列，

每个子序列仅反映特定时间尺度变化，并且对所有子序列预测会导致计算复杂度过大，为了获得大尺度和小尺度的设备运行数据变化，将子序列合并成两部分，

第a次分解后剩余的低频序列为：

z_a(t)既需要反应大尺度变化、有一定的平滑性，又与原序列相似，因此构建目标函数：

argmaxα_a

α_a＝S_a(f_m)*R(z_a(t)，h(t))

其中，R(z_a(t)，h(t))是z_a(t)与原序列h(t)的皮尔逊相关系数，反映z_a(t)与原序列的相似性，S_a(f_m)表示将z_a(t)的频谱等分后，低频部分能量所占的比例，反应序列z_a(t)的平滑性。找到使α_a最大的分解次数a_m作为不完全分解次数，

皮尔逊相关系数R(z_a(t)，h(t))：

其中，

是z_a(t)的平均值，

是h(t)的平均值。

S_a(f_m)计算如下：

选取第a_m次分解后剩余的低频序列作为大尺度波动序列：

小尺度波动序列：

所述步骤3中为了降低计算复杂度，预测设备运行数据长期变化趋势，将大尺度波动序列中的各个时刻数据进行合并的方法：

大尺度波动序列经过时隙τ的平均运行数据变化为：

其中，S_s是取样数目。

计算平均运行数据变化小于阈值D_t所需的时隙数目为N_large,将其作为大尺度时段的长度。N_large满足：

大尺度设备运行状态序列

所述步骤4中基于滑动窗口k近邻和预匹配机制的大尺度预测方法为：

存储的大尺度设备运行状态历史序列为：

其中u代表当前时间为第u个大尺度时间段，

表示第i时段中大尺度设备运行状态。

训练向量及其标签为：

其中，n表示滑动窗口的长度，通过此滑动窗口对H^L进行截取获得训练向量。经过截取后，得到训练集Y＝[S_n,S_n+1,…,S_u-v]

测试向量为:

先进行预匹配筛除与测试向量差距较大的训练向量：

求得训练向量和测试向量第n个元素的差距，若差距大于阈值D_h，则过滤掉此训练向量。

计算预匹配后剩余的训练向量S_i和S_u间的距离：

从其中选择k个最近邻训练向量[c₁,c₂,…,c_k],其标签

对所选择的训练向量c_j，权重计算为：

其中，

为训练向量和测试向量的距离，表示为：

最后，大尺度预测值为：

所述步骤5中基于AR预测模型的小尺度预测方法为：

小尺度波动序列的预测采用AR模型：

其中，

表示t+1时刻的预测结果，h^re(t)表示t时刻小尺度波动序列的值，L_AR表示预测模型的阶数，a_i表示AR预测模型的第i个系数，b_t+1表示噪声项。

与现有技术相比，本发明的有益效果是：

经验模态分解能够将序列分解成反映不同时间尺度波动特征的固有模态函数和剩余项，然而每个子序列仅反映特定时间尺度的变化，并且对所有子序列预测会导致较大计算复杂度。为了获得大尺度和小尺度的波动序列，设计了一种不完全分解策略。

在大尺度预测时，依据大尺度波动序列构建大尺度设备运行状态序列，以此降低计算复杂度，预测设备状态长期变化趋势。采用滑动窗口k近邻算法进行预测时，利用预匹配的方法来降低计算复杂度，以此实现在保持预测性能的同时降低预测算法的开销。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本申请实施例方法的架构图；

图2是本申请实施例方法的具体流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

图1为本发明方法的架构图，图2是本发明方法的具体流程图；

下面结合图1和图，介绍本发明的具体实施方式为一种基于双尺度设备运行状态预测的方法，包括以下具体步骤：

步骤1：设备的运行数据在一段时间T内为一个时间序列，读入数据中心设备运行所产生的时间序列数据，记为h(t)，在此处导入的是设备的CPU利用率；

步骤2：对时间序列h(t)进行N_e次的经验模态分解：

其中，N_e是分解次数，y_i(t)是第i次分解得到的固有模态函数，r(t)是残余序列；

步骤3：为了获得大尺度和小尺度的设备运行数据变化，求取最佳的分解次数，进而得到大尺度波动序列和小尺度波动序列。

第a次分解后剩余的低频序列为：

目标函数：

argmaxα_a

α_a＝S_a(f_m)*R(z_a(t)，h(t))

其中，R(z_a(t)，h(t))是z_a(t)与原序列h(t)的皮尔逊相关系数，反映z_a(t)与原序列的相似性，S_a(f_m)表示将z_a(t)的频谱等分后，低频部分能量所占的比例，反应序列z_a(t)的平滑性。

皮尔逊相关系数R(z_a(t)，h(t))：

其中，

是za(t)的平均值，

是h(t)的平均值。

S_a(f_m)计算如下：

初始化分解次数a_m＝1，以步长为1进行增加，直到a_m小于分解次数阈值A，依次计算α_a，找到使其最大的分解次数a_m作为最佳分解次数；

选取第a_m次分解后剩余的低频序列作为大尺度波动序列：

小尺度波动序列：

步骤4：将大尺度波动序列中的各个时隙数据进行合并形成各个时段即大尺度设备运行状态序列。

大尺度波动序列经过时隙τ的平均运行数据变化为：

其中，S_s是取样数目。

初始化时段所包含的时隙数目N_large＝1，以1为步长，依次带入δ(N_large)，找到满足δ(N_large)≥D_t,δ(N_large-1)<D_t的N_large作为一个时段的长度；

D_t代表平均运行数据变化的阈值

大尺度设备运行状态序列

步骤5：依据大尺度设备运行状态序列构建大尺度预测的训练集和测试集

存储的大尺度设备运行状态历史序列为：

其中u代表当前时间为第u个大尺度时间段，

表示第i时段中大尺度设备运行状态。

训练向量及其标签为：

测试向量为:

步骤6：预匹配筛除与测试向量差距较大的训练向量

步骤7：使用滑动窗口k近邻预测方法进行大尺度预测

计算训练向量S_i和S_u间的距离：

从其中选择k个最近邻训练向量[c₁,c₂,…,c_k],其标签

对所选择的训练向量c_j，权重计算为：

其中，

为训练向量和测试向量的距离，表示为：

最后，大尺度预测值为：

步骤8：使用AR预测模型进行小尺度预测

小尺度波动序列的预测采用AR模型：

其中，

通过最小二乘法计算AR模型的系数

步骤9：基于大尺度预测值和小尺度预测值计算下一个时刻的设备运行数据。

相较于现有技术，本发明提出一种数据中心设备运行数据双尺度预测方法。本发明通过基于经验模态分解，设计一种不完全分解策略，获得时间序列的大尺度波动序列和小尺度波动序列；在大尺度波动序列中，为了降低计算复杂度，预测设备运行数据长期变化趋势，构建大尺度设备运行状态序列，以时段为尺度对大尺度状态序列进行预测；通过使用滑动窗口k近邻预测方法和预匹配的方式进行大尺度预测；通过使用AR预测模型进行小尺度预测；最后基于大尺度预测值和小尺度预测值得到下一个时刻的设备运行数据。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。