CN108228978B

CN108228978B - 结合互补集合经验模态分解的Xgboost时间序列预测方法

Info

Publication number: CN108228978B
Application number: CN201711353240.XA
Authority: CN
Inventors: 胥博
Original assignee: Sichuan Jinwangtong Electronic Technology Co Ltd
Current assignee: Sichuan Jinwangtong Electronic Technology Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2021-09-21
Anticipated expiration: 2037-12-15
Also published as: CN108228978A

Abstract

本发明公开了结合互补集合经验模态分解的Xgboost时间序列预测方法，具体步骤如下：步骤一：数据预处理；步骤二：利用互补集合的经验模态分解方法对销售数据时间序列处理互补集合的经验模态分解；步骤三：利用Xgboost建立正交性因素建立回归模型；步骤四利用Xgboost拟合非正交特征因素影响以外的部分。本发明利用本征模态函数的正交性，保证了Xgboost寻找最优模型的收敛路径首先是先从外空间然后到内空间，然后再从内空间中寻找一个路径逐步收敛到对应的本征模态函数，这两个收敛过程中分别减小了外空间误差和内空间误差，同时也保证了正交性，最终提高了模型的泛化性。

Description

结合互补集合经验模态分解的Xgboost时间序列预测方法

技术领域

本发明涉及一种时间序列预测方法，具体涉及一种结合互补集合经验模态分解的Xgboost时间序列预测方法。

背景技术

时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列，在日常的生产生活中，收集的时间序列变化常常被各种各样的因素影响，如天气情况、交通状况、地域等等，这些因素导致了收集的时间序列时非稳态的。常用的时间序列预测分析模型是如自回归滑动平均模型等，是基于时间序列满足平稳条件假设的前提下建立的，因此这些模型更适合分析平稳态的数据。为了能够更好的分析复杂的非平稳态数据，可以利用信号分析的手段对时间序列数据做适当的处理。

经验模态分解过程是一种信号分析手段，该方法可以将一个非平稳态信号转化为一系列的平稳态信号的过程，其中每个平稳态信号被称为本征模态函数，代表了一种模态。该方法于1998年首次由Huang提出。为了保证分解具有严密性以及不存在能量泄漏，则分解的本征模态函数应具有正交性，即本征模态函数两两之间内积为零。Huang也说明了他提出经验模态分解方法产生本征模态函数在实际分解中并不能保证严格的正交性，本质是本征模态函数中存在着“模态混叠”现象，即可能存在一些本征模态函数包含有多个模态成分。禹丹江采样快速傅立叶变换结合经验模态分解方法，将信号进行频谱分析，根据频谱分析结果对经验模态分解过程设置分解中的每一次分解的特征时间尺度上限，但是该方法的局限是FFT本身不适用于分析非平稳信号。Wu提出了集合经验模态分解方法，该方法是高斯白噪声迭代求取各阶模态函数，但是很容易干扰信号模态的正确分解。

2014年Chen提出了Xgboost算法。Xgboost是一个设计高效、灵活并且可移植的最优分布式决策梯度提升库，利用bagging并行集成学习方法，通过一组弱分类器的迭代计算实现准确的分类效果。它是一种梯度提升框架下的机器学习算法。XGbooost可以利用CPU的多线程并行计算，在算法的实现上又增加了正则项，极大地提高了模型运算效率，也使模型的泛化能力得到提升，在分布式应用上也有明显优势。相比较于常用的支持向量机，神经网络等方法，XGboost的收敛更快速，准确率更高。

张弦提出了基于支持向量经验模态分解的故障率时间序列预测方法。其中，支持向量是指支持向量机算法。该方法针对故障率时间序列的非平稳特性，利用一般的经验模态(EMD)分解方法将时间序列分解成多个本征模态函数和一个余项，然后利用支持向量机方法预测每个分量的数据，求和得到预测数据。

颜宏文提出了一种基于完备总体经验模态分解和极限学习机的风速预测方法，其中完备总体经验模态分解是一种改进的经验模态分解方法，极限学习机是一种机器学习算法。该方法利用完备总体经验模态分解方法多次添加高斯白噪声然后平均消除了“模态混叠”现象，提高了模型拟合精度。

为了保证分解具有严密性以及不存在能量泄漏，则分解的固有模态函数应具有正交性和完备性，即固有模态函数两两之间相互正交和分解得到本征模态函数能够重构原来信号。以上两种方法，得到的每个本征模态函数回归模型只是检验它的完备性但是未检验它们之间的正交性，因此得到的预测模型和真实数据之间必然存在较大的差距。另一方面，完备经验模态分解虽然基本消除了“模态混叠”现象，但是添加的高斯白噪声成分产生的影响保留在分量中。

实际社会生产中产生的数据很多都是非稳态的，如销售数据，风速数据，用电量数据等。为了能够更好预测未来数据的变化，需要将机器学习、统计知识、信号分析等方法组合在一起构建销售数据模型。经验模态分解是一种信号分析方法，它可以将一个非稳态信号分解成一系列单一模态，也即是满足平稳态的信号，但是目前一些基于经验模态分解的预测方法中，只是简单地对数据分解后，对每个分量建模预测，得到的下一时刻的预测数据就是分量预测值之和，未考虑到经验模态分解方法产生的本征模态函数中存在着“模态混叠”现象模型，以及本征模态函数的正交性，导致了预测数据偏差极大，甚至毫无参考价值。

本发明是为了解决在利用经验模态分解预测销售数据时间序列的过程中，从经验模态分解方法的数学物理本质中出发，考虑到了“模态混叠”现象引起的本征模态函数正交性不明显进而导致的残差过大的问题。

本发明针对现有技术的不足，提供了一种结合互补集合的经验模态分解的Xgboost时间序列预测方法。该方法从本征模态函数的正交性特征角度出发，利用互补集合的经验模态分解方法消除“模态混叠”现象。然后利用本征模态函数正交特征，分析误差来源，进而构建不同Xgboost模型本征模态函数回归模型的正交性和完备性都得到提高，进而可以减小了数据预测的偏差。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种结合互补集合经验模态分解的Xgboost时间序列预测方法。

为了方便对于本发明内容的理解，本发明首先论述互补集合经验模态分解和Xgboost的基本原理，然后详细阐述技术方案步骤。

首先阐述互补集合经验模态分解过程。互补集合经验模态分解过程是在一般经验模态分解的基础上产生的。对销售数据时间序列y的一般经验模态分解分为以下步骤：

1.找到时间序列的极大值和极小值。通过三次样条拟合，得到上，下包络线U_y，L_y，计算上下包络线的均值：

2.令h₁(t)＝y(t)-m(t)，判断是否满足h₁(t)的极大值点和过零点数是否相等或只差一个，同时也要判断h₁(t)上局部极大值，极小值确定的上下包络线是否为0。

3.如果满足条件，此时将第一个本征模态函数定义定义为f₁(t)＝h₁(t)

4.如果不满足以上两个条件将h₁(t)作为原始信号重复1，2步骤，直到满足条件时，按照步骤3的定义第一个本征模态函数。

5.原始时间序列减去以上求得的所有本征模态函数作为一个新的分解序列重复步骤1、2、3、4得到下一个本征模态函数。

6.当是反复计算多次得到的余项ε(t)是一个常数函数或者单调函数时，停止迭代。

最终通过经验模态分解后，原来的时间序列可以定义为：

Xgboost算法原理,在机器学习中，为了得到一个最优回归模型可以定义为：

Obj(θ)＝L(θ)+Ω(θ) (3)

上式中：Obj(θ)是目标函数；L(θ)是误差函数；Ω(θ)是正则化函数。当目标函数值最小时，模型的拟合效果达到最佳。Xgboost模型中的基回归器是cart树，cart树是一个二叉树Xgboost的拟合结果模型就是多个cart树形成的一个集成树。如附图1就是一个cart树例子。从图1中看出cart树原理是根据一个样本的属性分布，找到一个阈值，根据样本属性与阈值的大小关系，进入对应结点的左右子树中。然后以此类推继续分裂左子结点，直到不满足分裂条件时，将该左子结点定义为叶节点。对于cart树上生成的右子结点全部定义为叶节点。利用cart树做回归分析，就是求出每个叶子结点的权重系数。

决定Xgboost泛化性能的一个重要因素是使用了bagging并行集成学习方法。Bagging方法具体流程如附图2。

Xgboost是一个不断迭代求最优解的过程，每次迭代中都是根据bagging方法生成多棵cart树，再从这些cart树中找到的泛化性能最好的cart树作为这次迭代的结果。下面开始推导Xgboost算法原理

当计算前，此时回归模型

迭代一次后：

上式中：

是迭代一次后的模型；f₁(x(t))是第一次迭代后的模型的增量。迭代K次后：

根据上式定义目标函数中的误差项：

利用Taylor公式可以推出：

上式中g_t,h_t分别是误差函数关于

的一阶，二阶偏导数。

正则化项定义为：

上式中：T是cart树的高度，根据cart树结构知道，T也等于叶子数。λ,γ分别是两个参数。

上式(9)，(10)是求每个叶子结点中的样本的一阶偏导数，二阶偏导数之和。式(11)中：λ，γ两个是需要设定参数，一般可以默认γ等于0，λ的值与整个数据分布范围有关；T时cart树的最大高度。可以看出目标函数是关于w的“一元”二次方程，必然存在最小值。同时可以求出对应权重：

判断结点是否分裂的Gain函数：

在每次迭代过程中，根据bagging方法得了多个cart树，将每个cart树的目标函数最小值最为判断标准，则目标函数的最小值最小的cart树作为这次迭代输出。再根据数次迭代已经生成的cart集成树回归模型带入下次迭代中。需要在模型训练过程中选择20％的数据作为测试集。每次迭代后的生成的新的模型在测试集中验证它的泛化性能，当泛化性能变低时，停止迭代并输出上一次的迭代模型作为最终回归模型。

下面对本发明的技术方案进行具体说明。

结合互补集合经验模态分解的Xgboost时间序列预测方法，具体步骤如下：

步骤一：数据预处理

在对销售数据时间序列建立预测模型之前，必须处理数据中的缺失值、异常值。

当销售数据中时间序列中存在缺失值时，需要对缺失位置添加一个估计值。一般估计值是通过一个窗口均值滤波得到：

式(14)中，假设了x_t是一个缺失值，通过处理后就等于x_t为中心的一个时窗内的均值。对于销售数据的时间序列的异常值的检查中主要分以下几个流程：

1.看每个时间序列的数据的单位是否一致。

2.相邻数据间的时间间隔大小是否都相等。

3.检查每个时间序列中是否存在非数字的数据，如一个每天销售数据中，存在某天销售数据的统计值是一个地名，这种情况很可能是在录入数据时，发生了错误。这种情况下，如果不能找到真实的统计数据，仍然通过式1得到一个估计值代替这样的异常值。

4.箱型图检查一些异常大或者异常小的值。由于销售数据的变化是非稳态的，也即是存在一些异常值是正常的，不需要修改。但是对于一些由于数据输入错误导致的异常值需要通过式(1)的公式做替换。

步骤二：利用互补集合的经验模态分解方法对销售数据时间序列处理互补集合的经验模态分解方法是在一般的经验模态方法上改进的。互补集合的经验模态分解方法解决了一般经验模态分解中“模态混叠”现象。主要步骤是：

1.将原始销售数据时间序列中分别加入模值相等正负两组高斯白噪声。

定义μσ_i(t)是独立的高斯白噪声，μ为噪声的幅值，定义为：

上式中:δ是标准差函数，说明μ等于时间序列和高斯白噪声之比。

2.通过一般经验模态函数对分别混有正负高斯白噪声的y_m(t)进行处理，得到两组IMF序列和余项。

3.在目标信号中假如不同高斯白噪声信号，并重复(1)，(2)P次，之后进行总体平均：

则最终的本征模态函数f的通式可以表示为：

假设分解得到m个本征模态函数那么：

上式中：等号右边第二项就是分解的余项。

对任意时间序列g的互补集合经验模态分解用公式表示为：

上式中：f_i是通过经验模态分解得到的m个相互正交的本征模态函数，r是余项，包含了时间序列的趋势性。把等号右边第一项定义本征模态的和可以写成：

根据上式可以看出本征模态函数的和是关于本征模态函数的线性组合。

步骤三：利用Xgboost建立正交性因素建立回归模型

由于本征模态函数相互正交，那么可以将本征模态函数定义为一组正交基，根据这组正交基就可以张成一个线性空间α＝span{f₁,...,f_m}。任意本征模态函数的回归模型

是一个含N项的数列，i＝1,2,...,N，可以写成一个向量形式：

那么

是R^N维线性空间V中的一个向量。同理每个本征模态函数也是N维线性空间中的一个向量，因此α是V的一个子空间。由线性空间理论可知线性空间中的一个极大线性无关组就是该线性空间的一组基，同时V中秩就是N也等于N维线性空间中的极大线性无关组的个数，因此必然存在一个极大线性无关组{f₁,...,f_m,r₁,....,r_N-m}，r_i,...,r_N-m是在V中，但不在α空间的向量，与f₁,f₂,...f_m构成了一组基。另一方面，该N维线性空间中的标准基e为：

根据内积空间的定义,由上式的标准基知道V是一个内积空间，所以{f₁,...,f_m,r₁,....,r_N-m}是一组正交基。

由上面的结论可以将任意本征模态函数对应回归模型

表示成

上式中

是本征模态函数回归模型与f₁,...,f_m,r₁,....,r_N-m的内积，通过内积空间性质可以求出：

因此通过训练得到的回归模型函数与对应本征模态函数之间的误差等于：

上式中：e_i是对应下标的本征模态函数与它的回归模型函数之间的误差；定义等号右边左起第三项为外空间误差；定义等号右边左起第二项为内空间误差。根据第二步骤中的本征模态之和的定义，可以知道本征模态函数之和是α空间中的一个向量，所以根据上式求得任意e_i中的外空间误差余项越小说明满足本征模态函数正交性的特征的能力越高，得到的模型携带的噪声信息也越低。根据以上结论及定义建立Xgboost模型

在应用Xgboost建立模型之前，需对每个本征模态函数的分析相关性，再根据相关性寻找与时间序列变化相关的属性，具体的方法：

1.自相关系数公式可以表示：

上式中：R(n)是时间序列中关于其滞后n项后的相关系数；E是期望。根据相关系数公式，得到某个本征模态函数不同滞后项的相关系数后。定一个置信区间对于那些相关系数大于置信区间上界的滞后项作为时间序列的特征属性。所有相关系数都小于如果置信区间的上界，可以直接选取以滞后项数为1开始的连续滞后项，作为时间序列的特征属性x(t)。

利用Xgboost寻找一个最优模型时，通过修改它的损失函数将正交性因素也考虑进去根据以上分析定义每个本征模态函数的Xgboost模型中的损失函数：

上式中：

指k次迭代计算后的任意本征函数的训练模型。根据这个损失函数，在迭代计算时会保证训练模型收敛到一个到α空间中。

因此可以得到：

上式中：

等于

初始条件时默认

为0，

也为0，每次迭代后的模型与各个本征模态函数的内积又可以得到新的

为了保证其寻优路径在空间中是一条直线，防止最优路径上出现多个极值，

在第一次迭代完成更新后，就不再变化，此时就成为两个常数。

则上式对应关于

一阶，二阶偏导数分别为：

根据上式按照Xgboost的原理就可以够构造出一个Xgboost模型，当该算法停止迭代的结果中内空间误差仍然全部保留，因此需要利用该结果在另一个Xgboost模型上继续迭代。

步骤四利用Xgboost拟合非正交特征因素影响以外的部分

根据步骤三得到一个拟合模型

由于α空间是一个内积空间，每个维度都定于在实数域上，因此α是一个欧式空间。因此可以找到一个函数序列

其中，

满足函数序列按范数收敛：

上式中：定义范数定义为

因此定义一个新的XGboost的损失函数：

上式中：k时迭代次数。同样按照第三步骤展开求导的方法就可以建立对应的Xgboost模型。该模型的输出就是最终的回归模型。

本发明中，在互补集合的经验模态分解中，需要多次对时间序列添加高斯白噪声，形成多个含高斯白噪声序列的时间序列组合，其中每次添加的高斯白噪声序列的期望，标准差都相等。另一方面选择生成含高斯白噪声序列的时间序列组合的个数尽量大，一般是在50以上，这是因为数量越大，得到的每个分量中任意时间上的值含噪声能量就越趋于0。

另外，Xboost从外空间到内空间的寻优阶段，为了使外空间误差尽量小，需要满足每次迭代中同时生成的较多cart树作比较。

Xgboost的cart树高度选择在5～10之间，这是因为树的高度太小容易产生欠拟合，而树的高度太大又会容易产生过拟合。同样时为了避免过拟合，一般在迭代过程中得到的增量前要一般乘以一个0.1～0.3之间的系数。

本发明利用本征模态分量的正交性特征，分析了回归模型的误差由外空间误差和内空间误差组成。根据不同误差的成因，构造两个不同Xgboost模型函数并将它们串联在一起。

本发明首先是利用互补集合的经验模态分解方法在消除“模态混叠”的基础上，通过构建正负相等高斯噪声序列弱化了高斯噪声的干扰。同时分析了本征模态函数的正交性，利用正交性特征，将模型误差分为两部分，即外空间误差和内空间误差。利用本征模态函数的正交性，保证了Xgboost寻找最优模型的收敛路径首先是先从外空间然后到内空间，然后再从内空间中寻找一个路径逐步收敛到对应的本征模态函数，这两个收敛过程中分别减小了外空间误差和内空间误差，同时也保证了正交性，最终提高了模型的泛化性。

附图说明

图1cart回归树示例图；

图2bagging流程；

图3结合互补集合的经验模态分解的Xgboost时间序列预测方法的流程图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

如附图3所示，本发明提供的结合互补集合的经验模态分解的Xgboost时间序列预测方法，主要包括如下步骤：

步骤一：数据预处理

1.看每个时间序列的数据的单位是否一致。

2.相邻数据间的时间间隔大小是否都相等。

4.通过一般经验模态函数对分别混有正负高斯白噪声的y_m(t)进行处理，得到两组IMF序列和余项。

5.在目标信号中假如不同高斯白噪声信号，并重复(1)，(2)P次，之后进行总体平均：

则最终的本征模态函数f的通式可以表示为：

假设分解得到m个本征模态函数那么：

上式中：等号右边第二项就是分解的余项。

对任意时间序列g的互补集合经验模态分解用公式表示为：

步骤三：利用Xgboost建立正交性因素建立回归模型

是一个含N项的数列，i＝1,2,...,N，可以写成一个向量形式：

那么

由上面的结论可以将任意本征模态函数对应回归模型

表示成

上式中

1.自相关系数公式可以表示：

上式中：

因此可以得到：

上式中：

等于

初始条件时默认

为0，

则上式对应关于

一阶，二阶偏导数分别为：

步骤四利用Xgboost拟合非正交特征因素影响以外的部分

根据步骤三得到一个拟合模型

其中，

满足函数序列按范数收敛：

上式中：定义范数定义为

因此定义一个新的XGboost的损失函数：

Claims

1.一种结合互补集合经验模态分解的Xgboost时间序列预测方法，其特征在于包括如下步骤：

步骤一：数据预处理

在对销售数据时间序列建立预测模型之前，必须处理数据中的缺失值、异常值；

当销售数据中时间序列中存在缺失值时，需要对缺失位置添加一个估计值；估计值是通过一个窗口均值滤波得到：

式(14)中，假设了x_t是一个缺失值，通过处理后就等于x_t为中心的一个时窗内的均值；

对于销售数据的时间序列的异常值的检查中主要分以下几个流程：(1)看每个时间序列的数据的单位是否一致；(2)相邻数据间的时间间隔大小是否都相等；(3)检查每个时间序列中是否存在非数字的数据；(4)箱型图检查一些异常大或者异常小的值；

步骤二：利用互补集合的经验模态分解方法对销售数据时间序列处理互补集合的经验模态分解方法是在一般的经验模态方法上改进的；互补集合的经验模态分解方法解决了一般经验模态分解中“模态混叠”现象；主要步骤是：

1)将原始销售数据时间序列中分别加入模值相等正负两组高斯白噪声；

上式中:δ是标准差函数，说明μ等于时间序列和高斯白噪声之比；

2)通过一般经验模态函数对分别混有正负高斯白噪声的y_m(t)进行处理，得到两组IMF序列和余项；

3)在目标信号中假如不同高斯白噪声信号，并重复(1)，(2)P次，之后进行总体平均：

则最终的本征模态函数f的通式可以表示为：

假设分解得到m个本征模态函数那么：

上式中：等号右边第二项就是分解的余项；

对任意时间序列g的互补集合经验模态分解用公式表示为：

上式中：f_i是通过经验模态分解得到的m个相互正交的本征模态函数，r是余项，包含了时间序列的趋势性；把等号右边第一项定义本征模态的和可以写成：

根据上式可以看出本征模态函数的和是关于本征模态函数的线性组合；

步骤三：利用Xgboost建立正交性因素建立回归模型

由于本征模态函数相互正交，那么可以将本征模态函数定义为一组正交基，根据这组正交基就可以张成一个线性空间α＝span{f₁,...,f_m}；任意本征模态函数的回归模型

是一个含N项的数列，i＝1,2,...,N，可以写成一个向量形式：

那么

是R^N维线性空间V中的一个向量；同理每个本征模态函数也是N维线性空间中的一个向量，因此α是V的一个子空间；由线性空间理论可知线性空间中的一个极大线性无关组就是该线性空间的一组基，同时V中秩就是N也等于N维线性空间中的极大线性无关组的个数，因此必然存在一个极大线性无关组{f₁,...,f_m,r₁,....,r_N-m}，r_i,...,r_N-m是在V中，但不在α空间的向量，与f₁,f₂,...f_m构成了一组基；另一方面，该N维线性空间中的标准基e为：

根据内积空间的定义,由上式的标准基知道V是一个内积空间，所以{f₁,...,f_m,r₁,....,r_N-m}是一组正交基；

由上面的结论可以将任意本征模态函数对应回归模型

表示成

上式中

上式中：e_i是对应下标的本征模态函数与它的回归模型函数之间的误差；定义等号右边左起第三项为外空间误差；定义等号右边左起第二项为内空间误差；根据第二步骤中的本征模态之和的定义，可以知道本征模态函数之和是α空间中的一个向量，所以根据上式求得任意e_i中的外空间误差余项越小说明满足本征模态函数正交性的特征的能力越高，得到的模型携带的噪声信息也越低；根据以上结论及定义建立Xgboost模型；

步骤四利用Xgboost拟合非正交特征因素影响以外的部分

根据步骤三得到一个拟合模型

由于α空间是一个内积空间，每个维度都定于在实数域上，因此α是一个欧式空间；因此可以找到一个函数序列

其中，

满足函数序列按范数收敛：

上式中：定义范数定义为

因此定义一个新的XGboost的损失函数：

上式中：k时迭代次数；同样按照第三步骤展开求导的方法就可以建立对应的Xgboost模型；模型的输出就是最终的回归模型。