CN113961613A

CN113961613A - 基于周期性过滤的线性预测方法

Info

Publication number: CN113961613A
Application number: CN202110982762.6A
Authority: CN
Inventors: 汤蕾; 顾力; 张华�; 聂鹏晨; 万轶伦; 黄鑫; 马建楷; 朱涛; 邱名义; 吴舒鋆; 弥潇; 陈淼; 朱瑾; 白朋
Original assignee: Shanghai Youyi Information Technology Co ltd; State Grid Shanghai Electric Power Co Ltd
Current assignee: Shanghai Youyi Information Technology Co ltd; State Grid Shanghai Electric Power Co Ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2022-01-21

Abstract

本发明提供了一种基于周期性过滤的线性预测方法，包括：根据业务场景从已构建的数据库中取出相应特征的历史时间序列数据；采用数据预处理算法对所述历史时间序列数据进行数据处理，得到处理后的数据；将所述处理后的数据进行分解，分解后采用时间序列STL分解算法去周期S_v，得到余项，即非周期数据R_v；将所述非周期数据R_v带入ARIMA模型进行训练预测；显示预测结果。该方法可以使得数据适应性强且不易丢失，并且预测效率高。

Description

基于周期性过滤的线性预测方法

技术领域

本发明涉及电力设备状态趋势预测领域，具体为一种基于周期性过滤的线性预测方法。

背景技术

在电力设备状态趋势预测领域，趋势预测就是基于设备相关指标的历史数据，通过对数据进行分析，带入预测模型进行训练，预测未来一段时间内的设备状态的发展趋势，根据预测结果，辅助用户提前对设备进行规划以及做出相应的决策。主要提供如下价值：提前知晓设备状态变化趋势，提高运维的效率，减少人力成本的支出，实现最优的投资回报比；从以前的故障后运维到现在的主动预判和提前预警，减少故障发生率以及因设备故障导致的损失；精细化、可视化效果展示，更加的准确直观。

现有技术的预测方法一般为：

1、统计类方法，例如，ARIMA就是一个在预测领域广泛应用的基于统计学思想的预测算法，快速高效，但是这个算法对数据的预处理有较高的要求，不能处理包含缺失值的和包含周期性的数据，极大的限制了该算法的应用。

2、时序分解，使用加法模型或乘法模型将原始序列拆分为4部分，分解出时间序列的趋势、周期和残差项；利用机器学习、深度学习方法，从特征工程入手，如LSTM、XG Boost、prophet等模型，这类方法对时间序列适应性强，但普遍存在可解释性差、运算时间长等弊端。

现有技术大多存在下列问题：

1、对于电力设备状态趋势预测场景，由于数据特性，导致数据模式差异较大，普遍存在周期等特性，而且由于一些不可抗力因素会存在较多的数据缺失，从而导致类似AIRIMA这些传统的统计学习类的方法不能得到很好的预测效果。

2、同时由于系统预测效率的要求，一些对数据适应性强的深度学习预测算法，在预测时间效率上又得不到满足。

因此，有必要提供一种电力设备的预测方法，使得数据适应性强不易丢失，并且预测效率高。

发明内容

本发明提供了一种基于周期性过滤的线性预测方法，使得数据适应性强且不易丢失，并且预测效率高。

为实现上述目的和其他相关目的，本发明提供了一种基于周期性过滤的线性预测方法，包括：

根据业务场景从已构建的数据库中取出相应特征的历史时间序列数据；

采用数据预处理算法对所述历史时间序列数据进行数据处理，得到处理后的数据；

将所述处理后的数据进行分解，分解后采用时间序列STL分解算法去周期S_v，得到余项，即非周期数据R_v；

将所述非周期数据R_v带入ARIMA模型进行训练预测；

显示预测结果。

优选地，所述数据库包括需要预测的所有测点的历史时间序列数据。

优选地，所述采用数据预处理算法对所述历史时间序列数据进行数据处理，所述数据处理至少包括数据重采样、数据插值和异常值剔除。

优选地，所述重采样具体包括：

对所述历史时间序列数据通过指定频率的重采样技术，将其转化成数据频率稳定的目标序列，其中，若在一个数据采样周期内，有多个原始样本点，则取其均值作为采样最终的值，若没有原始样本点，则采用NAN值填充。

优选地，对所述历史时间序列数据进行重采样后，若数据中存在缺失值，则对缺失值进行所述数据插值，具体为：截取一段包含缺失数据的时间序列片段，用二次曲线进行拟合后，将数据缺失时间点v'带入所述二次曲线中, 得到插值点Y′_v'。

优选地，所述异常值剔除包括采用Hampel滤波器进行异常值的剔除。

优选地，所述时间序列STL分解算法包括内循环和外循环，所述内循环包括如下步骤：

步骤1、去趋势；

步骤2、周期子序列平滑；

步骤3、周期子序列的低通量过滤；

步骤4、去除平滑周期子序列的低通量，得到季节项；

步骤5、去周期；

步骤6、趋势平滑；

所述外循环包括：计算更新各样本点v的鲁棒权重值ρv，当所述内循环的步骤2与步骤6中进行LOESS回归时，将邻域权重乘以所述鲁棒权重值ρv。

优选地，所述ARIMA模型包括AR模型和MA模型，所述AR模型的 AR阶数通过偏自相关系数的函数截断点p来确定，所述MA模型的所述MA 阶数通过自相关系数的函数截断点q来确定。

综上所述，本发明通过对原始目标数据采用重采样、插值、异常值剔除等数据处理单元后，将处理后的数据带入STL时间序列分解算法，得到周期数据S_v和非周期余项数据R_v，并将R_v带入到ARIMA预测模型中去进行训练得到预测结果，辅助用户进行决策，能够降低运维成本和因故障带来的直接损失，同时也保留ARIMA模型的计算高效性优点，完美的解决了现有问题。

附图说明

图1为本发明一实施例提供的基于周期性过滤的线性预测技术的流程示意图；

图2本发明的一实施例提供的原始数据图和经过数据处理单后的数据示意图；

图3为本发明一实施例提供的STL分解算法后得倒的周期数据和非周期数据示意图；

图4为本发明一实施例提供的ARIMA预测效果对比示意图；

图5为本发明一实施例提供的ARIMA预测模型对于残差的预测示意图。

图6为本发明一实施例提供的ARIMA预测模型中ARIMA算法示意图。

具体实施方式

以下结合附图1-4和具体实施方式对本发明提出的基于周期性过滤的线性预测技术作进一步详细说明。根据下面说明，本发明的优点和特征将更清楚。需要说明的是，附图采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施方式的目的。为了使本发明的目的、特征和优点能够更加明显易懂，请参阅附图。须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

参阅图1，本发明一实施例提供了一种基于周期性过滤的线性预测方法，包括如下步骤：

S100、根据业务场景从已构建的数据库中取出相应特征的历史时间序列数据；

所述业务场景如变电站主变负荷电流、油温以及油色谱数据发展趋势的预测，变电站开关柜局放状态预测等。以主变油温趋势预测为例，从数据库中取出相主变油温数据，并对其发展趋势进行预测从而监控主变的运行状态。

所述数据库包含非关系型数据库influxdb存储的历史数据，数据库包含需要预测的所有测点的历史时间序列数据，并将目标数据按照要求整理成时间序列数据并存储在数据库中。

S200、采用数据预处理算法对所述历史时间序列数据进行数据处理，所述数据处理至少包括重采样、缺失值填补和异常值剔除，得到处理后的数据；

在本实施例中，所述采用数据预处理算法对所述历史时间序列数据进行数据处理，具体包括数据重采样、数据插值和异常值剔除。所述重采样具体包括：

设定所述历史时间序列数据为Y_v，则：

Y_v＝xc(vT)

通过指定频率的重采样技术，将所述原始样本序列为Y_v转化成数据频率稳定的目标序列Y′_v，

Y′_v＝xc(vT′)

其中，T'表示所述指定频率，若在一个数据采样周期内，有多个原始样本点，则取其均值作为采样最终的值，若没有原始样本点，则采用NAN值填充。所述NAN值表示计算机科学中数值数据类型的一类值，表示未定义或不可表示的值。

此外，对所述历史时间序列数据进行重采样后，若数据中存在缺失值，则对缺失值进行所述数据差值，具体为：

截取一段包含缺失数据的时间序列片段，用二次曲线

Y′_v＝a₁+a₂v+a₃v²

进行拟合后，将数据缺失时间点v'带入所述二次曲线中,得到插值点Y′_v'。

最后，采用Hampel滤波器进行异常值的剔除。

以下对Hampel滤波器进行解释说明：

Hampel滤波器是一种可以应用于时间序列的滤波器，用来识别离群值，并用更有代表性的值来替换它们。过滤器基本上是一个可配置宽度的滑动窗口，可以在时间序列中滑动。对于每个窗口，过滤器计算中值，并使用中值绝对偏差MAD来估计窗口的标准偏差σ，其中，

σ＝1.4286*MAD

并且，对于窗口中的任何点，如果它距离窗口的中值超过3σ，那么Hampel滤波器将该点标识为异常值，并用窗口的中值替换它，替换公式为：

其中，mid(Y_interval)表示滑动窗口中的点的值得中值。

S300、将所述处理后的数据进行分解，分解后采用时间序列STL分解算法去周期S_v，得到余项，即非周期数据R_v；

在本实施例中，所述STL算法如下：

所述STL算法分为内循环(inner loop)与外循环(outer loop)，其中内循环主要做了趋势拟合与周期分量的计算。假定

为内循环中第 k-1次结束时的趋势分量和周期分量。

初始时

并有如下参数：

内层循环数n(i)；

外层循环数n(o)；

周期的样本数n(p)

下述步骤2中LOESS平滑参数n(s)，

下述步骤3中LOESS平滑参数n(l)，

下述步骤6中LOESS平滑参数n(t)。

每个周期相同位置的样本点组成一个子序列(sub-series)，容易知道这样的子序列共有n(p)个，称之为cycle-sub-series。

内循环主要分为以下6个步骤：

步骤1、去趋势(Detrending)，减去上一轮结果的趋势分量，即

步骤2、周期子序列平滑(Cycle-sub-series smoothing)，用 LOESS(q＝n_n(s),d＝1)对每个子序列做回归，并向前向后各延展一个周期；平滑结果组成temporary seasonalseries，记为

步骤3、周期子序列的低通量过滤(Low-Pass Filtering)，对上一个步骤的结果序列

依次做长度为n(p)、3的滑动平均，然后做 LOESS(q＝n_n(l),d＝1)回归，得到结果序列

相当于提取周期子序列的低通量；

步骤4、去除平滑周期子序列趋势(Detrending of Smoothed Cycle-sub-series)，计算公式为：

步骤5、去周期(Deseasonalizing)，减去周期分量

步骤6、趋势平滑(Trend Smoothing)，对于去除周期之后的序列做 LOESS(q＝n_n(t),d＝1)回归，得到趋势项

外层循环主要用于调节robustness weight，如果数据序列中有outlier，则余项会较大，定义：

h＝6*median(R_v)

对于位置为v的数据点，其robustness weight为

ρ_v＝B(R_v/h)

其中B函数为bi-square函数：

S400、将所述非周期数据R_v带入ARIMA模型进行训练预测；

在本实施例中，所述ARIMA模型包括AR模型和MA模型，所述AR模型的 AR阶数以及所述MA模型的MA阶数通过如下步骤进行确定：

所述AR阶数通过自相关系数函数来确定，所述自相关系数函数表示同一个变量Y_t自身与其不同时滞的变化关系，具体为：

其中，k代表滞后项数，r_k表明Y_t与Y_t-k的相关性；

所述MA阶数通过偏自相关系数函数来确定，所述偏自相关系数函数表示在计算变量Y_t与Y_t-k的相关性时会剔除y_t-1，y_t-2，…，y_t-k+1对Y_t与Y_t-k的影响，即只计算与中间值无关的部分，具体为：

corr(Y_t-f(t-1)，(Y_t-k-f(t-1))

f(t-1)＝f(y_t-1，...，y_t-k+1)

分别通过所述自相关系数函数和所述偏自相关系数函数的函数截断点来确定所述AR阶数和所述MA阶数。

对于上述步骤，进一步说明如下：

首先，正如相关性系数表明两个变量之间的变化关系(正相关，负相关，不相关)，自相关系数表明同一个变量自身与其不同时滞的变化关系，自相关系数截断点q用来确定MA阶数。

其次，为了那单纯测度Y_t对Y_t-k的影响，在计算变量Y_t与Y_t-k之间相关性时会剔除y_t-1，y_t-2，…，y_t-k+1对Y_t与Y_t-k的影响，即只计算与中间值无关的部分，所以偏自相关函数截断点p用来确定AR阶数。

最后，ARIMA由AR模型和MA模型组成，可以将AR部分理解为对历史数据的记忆，MA部分理解为对历史残差的记忆。

y_t＝c+φ₁y_t-1+…+φ_py_t-p+θ₁ε_t-1+…+θ_qε_t-q+ε_t

使用向后传递系数By_t＝y_t-1表示上述公式，一方面简化原模型，另一方面能更清楚的表示差分阶数，如图6所示。

同时，算法还提供预测的置信区间估计，一般情况下，对残差的预测通常有两种方法：

i)：假设预测残差为∈_t＝NID(0，σ²)，

置信区间为

向前1步预测为

多步预测为

那么c计算取决于置信区间：置信区间为95％：c＝1.96；以ARIMA (0，0，q)举例，如下所示：

ii):使用boost-rap方法认为未来的残差与历史接近，即从历史残差数据集中随机采样，多步预测的置信区间为

S500、显示预测结果

该预测结果用于辅助用户决策。

以下对上述计算算法的原理进行介绍。

对于趋势预测相关算法，趋势预测根据场景的不同，采用的算法也不相同，对于一些比较平稳的指标数据，采用ARIMA算法可以完成预测，但对于类似低压套管温度等指标，其具有很强的周期性和趋势性，这样ARIMA 模型不能很好的去预测测点未来的趋势变化，这种情况下，一般采用 Holt-Winters、LSTM等算法进行预测，但在一些系统里，需要进行实时的计算和预测，那么类似Holt-Winters、LSTM这类算法在效率上得不到满足。本发明基于周期性过滤的线性预测技术，结合时间序列分解STL和ARIMA线性预测算法的一种高效的时间序列预测预测方法，对时间序列进行分解，去掉数据的周期性质，然后再用ARIMA算法进行训练和预测，最终加上去掉的周期性质，得到最终预测结果。

主要包括以下优势：

1、数据处理部分减去大部分噪音数据。

2、通过时间序列分解，加强了ARIMA线性预测算法对数据的适应性。

2、加强了时间序列预测效率和精度。

处理的优势效果如图2-5所示，参照图2，数据重采样、插值、异常值剔除前后对比，前小图为处理前数据可视化结果，后小图为经过数据预处理算子后的效果，明显看出，异常值已经被剔除，并且数据整体效果更加具有规律。参照图3，STL时间序列分解，很明显，数据的趋势T_v，周期S_v被提取出来，余项R_v更具平稳性。参照图4和图5，图5为原始电力数据时间序列，图4中虚线右边部分为经周期性过滤后的数据带入ARIMA模型后的预测结果，通过图5和图4虚线右边对比可见本发明的预测效果好。

本发明的优点在于通过对原始目标数据采用重采样、插值、异常值剔除等数据处理单元后，将处理后的数据带入STL时间序列分解算法，得到周期数据S_v和非周期余项数据R_v，并将R_v带入到ARIMA预测模型中去进行训练得到预测结果，辅助用户进行决策，能够降低运维成本和因故障带来的直接损失，同时也保留ARIMA模型的计算高效性优点，完美的解决了现有问题。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于周期性过滤的线性预测方法，其特征在于，包括：

将所述非周期数据R_v带入ARIMA模型进行训练预测；

显示预测结果。

2.如权利要求1所述的周期性过滤的线性预测方法，其特征在于，所述数据库包括需要预测的所有测点的历史时间序列数据。

3.如权利要求1所述的周期性过滤的线性预测方法，其特征在于，所述采用数据预处理算法对所述历史时间序列数据进行数据处理，所述数据处理至少包括数据重采样、数据插值和异常值剔除。

4.如权利要求3所述的周期性过滤的线性预测方法，其特征在于，所述重采样具体包括：

5.如权利要求4所述的周期性过滤的线性预测方法，其特征在于，对所述历史时间序列数据进行重采样后，若数据中存在缺失值，则对缺失值进行所述数据插值，具体为：

截取一段包含缺失数据的时间序列片段，用二次曲线进行拟合后，将数据缺失时间点v'带入所述二次曲线中,得到插值点Y′_v'。

6.如权利要求5所述的周期性过滤的线性预测方法，其特征在于，所述异常值剔除包括采用Hampel滤波器进行异常值的剔除。

7.如权利要求1所述的周期性过滤的线性预测方法，其特征在于，所述时间序列STL分解算法包括内循环和外循环，所述内循环包括如下步骤：