CN108228978B - 结合互补集合经验模态分解的Xgboost时间序列预测方法 - Google Patents

结合互补集合经验模态分解的Xgboost时间序列预测方法 Download PDF

Info

Publication number
CN108228978B
CN108228978B CN201711353240.XA CN201711353240A CN108228978B CN 108228978 B CN108228978 B CN 108228978B CN 201711353240 A CN201711353240 A CN 201711353240A CN 108228978 B CN108228978 B CN 108228978B
Authority
CN
China
Prior art keywords
space
xgboost
function
model
empirical mode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711353240.XA
Other languages
English (en)
Other versions
CN108228978A (zh
Inventor
胥博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Jinwangtong Electronic Technology Co Ltd
Original Assignee
Sichuan Jinwangtong Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Jinwangtong Electronic Technology Co Ltd filed Critical Sichuan Jinwangtong Electronic Technology Co Ltd
Priority to CN201711353240.XA priority Critical patent/CN108228978B/zh
Publication of CN108228978A publication Critical patent/CN108228978A/zh
Application granted granted Critical
Publication of CN108228978B publication Critical patent/CN108228978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/12Timing analysis or timing optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Geometry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了结合互补集合经验模态分解的Xgboost时间序列预测方法,具体步骤如下:步骤一:数据预处理;步骤二:利用互补集合的经验模态分解方法对销售数据时间序列处理互补集合的经验模态分解;步骤三:利用Xgboost建立正交性因素建立回归模型;步骤四利用Xgboost拟合非正交特征因素影响以外的部分。本发明利用本征模态函数的正交性,保证了Xgboost寻找最优模型的收敛路径首先是先从外空间然后到内空间,然后再从内空间中寻找一个路径逐步收敛到对应的本征模态函数,这两个收敛过程中分别减小了外空间误差和内空间误差,同时也保证了正交性,最终提高了模型的泛化性。

Description

结合互补集合经验模态分解的Xgboost时间序列预测方法
技术领域
本发明涉及一种时间序列预测方法,具体涉及一种结合互补集合经验模态分解的Xgboost时间序列预测方法。
背景技术
时间序列是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列,在日常的生产生活中,收集的时间序列变化常常被各种各样的因素影响,如天气情况、交通状况、地域等等,这些因素导致了收集的时间序列时非稳态的。常用的时间序列预测分析模型是如自回归滑动平均模型等,是基于时间序列满足平稳条件假设的前提下建立的,因此这些模型更适合分析平稳态的数据。为了能够更好的分析复杂的非平稳态数据,可以利用信号分析的手段对时间序列数据做适当的处理。
经验模态分解过程是一种信号分析手段,该方法可以将一个非平稳态信号转化为一系列的平稳态信号的过程,其中每个平稳态信号被称为本征模态函数,代表了一种模态。该方法于1998年首次由Huang提出。为了保证分解具有严密性以及不存在能量泄漏,则分解的本征模态函数应具有正交性,即本征模态函数两两之间内积为零。Huang也说明了他提出经验模态分解方法产生本征模态函数在实际分解中并不能保证严格的正交性,本质是本征模态函数中存在着“模态混叠”现象,即可能存在一些本征模态函数包含有多个模态成分。禹丹江采样快速傅立叶变换结合经验模态分解方法,将信号进行频谱分析,根据频谱分析结果对经验模态分解过程设置分解中的每一次分解的特征时间尺度上限,但是该方法的局限是FFT本身不适用于分析非平稳信号。Wu提出了集合经验模态分解方法,该方法是高斯白噪声迭代求取各阶模态函数,但是很容易干扰信号模态的正确分解。
2014年Chen提出了Xgboost算法。Xgboost是一个设计高效、灵活并且可移植的最优分布式决策梯度提升库,利用bagging并行集成学习方法,通过一组弱分类器的迭代计算实现准确的分类效果。它是一种梯度提升框架下的机器学习算法。XGbooost可以利用CPU的多线程并行计算,在算法的实现上又增加了正则项,极大地提高了模型运算效率,也使模型的泛化能力得到提升,在分布式应用上也有明显优势。相比较于常用的支持向量机,神经网络等方法,XGboost的收敛更快速,准确率更高。
张弦提出了基于支持向量经验模态分解的故障率时间序列预测方法。其中,支持向量是指支持向量机算法。该方法针对故障率时间序列的非平稳特性,利用一般的经验模态(EMD)分解方法将时间序列分解成多个本征模态函数和一个余项,然后利用支持向量机方法预测每个分量的数据,求和得到预测数据。
颜宏文提出了一种基于完备总体经验模态分解和极限学习机的风速预测方法,其中完备总体经验模态分解是一种改进的经验模态分解方法,极限学习机是一种机器学习算法。该方法利用完备总体经验模态分解方法多次添加高斯白噪声然后平均消除了“模态混叠”现象,提高了模型拟合精度。
为了保证分解具有严密性以及不存在能量泄漏,则分解的固有模态函数应具有正交性和完备性,即固有模态函数两两之间相互正交和分解得到本征模态函数能够重构原来信号。以上两种方法,得到的每个本征模态函数回归模型只是检验它的完备性但是未检验它们之间的正交性,因此得到的预测模型和真实数据之间必然存在较大的差距。另一方面,完备经验模态分解虽然基本消除了“模态混叠”现象,但是添加的高斯白噪声成分产生的影响保留在分量中。
实际社会生产中产生的数据很多都是非稳态的,如销售数据,风速数据,用电量数据等。为了能够更好预测未来数据的变化,需要将机器学习、统计知识、信号分析等方法组合在一起构建销售数据模型。经验模态分解是一种信号分析方法,它可以将一个非稳态信号分解成一系列单一模态,也即是满足平稳态的信号,但是目前一些基于经验模态分解的预测方法中,只是简单地对数据分解后,对每个分量建模预测,得到的下一时刻的预测数据就是分量预测值之和,未考虑到经验模态分解方法产生的本征模态函数中存在着“模态混叠”现象模型,以及本征模态函数的正交性,导致了预测数据偏差极大,甚至毫无参考价值。
本发明是为了解决在利用经验模态分解预测销售数据时间序列的过程中,从经验模态分解方法的数学物理本质中出发,考虑到了“模态混叠”现象引起的本征模态函数正交性不明显进而导致的残差过大的问题。
本发明针对现有技术的不足,提供了一种结合互补集合的经验模态分解的Xgboost时间序列预测方法。该方法从本征模态函数的正交性特征角度出发,利用互补集合的经验模态分解方法消除“模态混叠”现象。然后利用本征模态函数正交特征,分析误差来源,进而构建不同Xgboost模型本征模态函数回归模型的正交性和完备性都得到提高,进而可以减小了数据预测的偏差。
发明内容
本发明的目的在于克服现有技术的缺陷,提供一种结合互补集合经验模态分解的Xgboost时间序列预测方法。
为了方便对于本发明内容的理解,本发明首先论述互补集合经验模态分解和Xgboost的基本原理,然后详细阐述技术方案步骤。
首先阐述互补集合经验模态分解过程。互补集合经验模态分解过程是在一般经验模态分解的基础上产生的。对销售数据时间序列y的一般经验模态分解分为以下步骤:
1.找到时间序列的极大值和极小值。通过三次样条拟合,得到上,下包络线Uy,Ly,计算上下包络线的均值:
Figure BDA0001510656270000031
2.令h1(t)=y(t)-m(t),判断是否满足h1(t)的极大值点和过零点数是否相等或只差一个,同时也要判断h1(t)上局部极大值,极小值确定的上下包络线是否为0。
3.如果满足条件,此时将第一个本征模态函数定义定义为f1(t)=h1(t)
4.如果不满足以上两个条件将h1(t)作为原始信号重复1,2步骤,直到满足条件时,按照步骤3的定义第一个本征模态函数。
5.原始时间序列减去以上求得的所有本征模态函数作为一个新的分解序列重复步骤1、2、3、4得到下一个本征模态函数。
6.当是反复计算多次得到的余项ε(t)是一个常数函数或者单调函数时,停止迭代。
最终通过经验模态分解后,原来的时间序列可以定义为:
Figure BDA0001510656270000032
Xgboost算法原理,在机器学习中,为了得到一个最优回归模型可以定义为:
Obj(θ)=L(θ)+Ω(θ) (3)
上式中:Obj(θ)是目标函数;L(θ)是误差函数;Ω(θ)是正则化函数。当目标函数值最小时,模型的拟合效果达到最佳。Xgboost模型中的基回归器是cart树,cart树是一个二叉树Xgboost的拟合结果模型就是多个cart树形成的一个集成树。如附图1就是一个cart树例子。从图1中看出cart树原理是根据一个样本的属性分布,找到一个阈值,根据样本属性与阈值的大小关系,进入对应结点的左右子树中。然后以此类推继续分裂左子结点,直到不满足分裂条件时,将该左子结点定义为叶节点。对于cart树上生成的右子结点全部定义为叶节点。利用cart树做回归分析,就是求出每个叶子结点的权重系数。
决定Xgboost泛化性能的一个重要因素是使用了bagging并行集成学习方法。Bagging方法具体流程如附图2。
Xgboost是一个不断迭代求最优解的过程,每次迭代中都是根据bagging方法生成多棵cart树,再从这些cart树中找到的泛化性能最好的cart树作为这次迭代的结果。下面开始推导Xgboost算法原理
当计算前,此时回归模型
Figure BDA0001510656270000041
迭代一次后:
Figure BDA0001510656270000042
上式中:
Figure BDA0001510656270000043
是迭代一次后的模型;f1(x(t))是第一次迭代后的模型的增量。迭代K次后:
Figure BDA0001510656270000044
根据上式定义目标函数中的误差项:
Figure BDA0001510656270000045
利用Taylor公式可以推出:
Figure BDA0001510656270000046
上式中gt,ht分别是误差函数关于
Figure BDA0001510656270000047
的一阶,二阶偏导数。
正则化项定义为:
Figure BDA0001510656270000048
上式中:T是cart树的高度,根据cart树结构知道,T也等于叶子数。λ,γ分别是两个参数。
Figure BDA0001510656270000049
Figure BDA00015106562700000410
Figure BDA00015106562700000411
上式(9),(10)是求每个叶子结点中的样本的一阶偏导数,二阶偏导数之和。式(11)中:λ,γ两个是需要设定参数,一般可以默认γ等于0,λ的值与整个数据分布范围有关;T时cart树的最大高度。可以看出目标函数是关于w的“一元”二次方程,必然存在最小值。同时可以求出对应权重:
Figure BDA0001510656270000051
判断结点是否分裂的Gain函数:
Figure BDA0001510656270000052
在每次迭代过程中,根据bagging方法得了多个cart树,将每个cart树的目标函数最小值最为判断标准,则目标函数的最小值最小的cart树作为这次迭代输出。再根据数次迭代已经生成的cart集成树回归模型带入下次迭代中。需要在模型训练过程中选择20%的数据作为测试集。每次迭代后的生成的新的模型在测试集中验证它的泛化性能,当泛化性能变低时,停止迭代并输出上一次的迭代模型作为最终回归模型。
下面对本发明的技术方案进行具体说明。
结合互补集合经验模态分解的Xgboost时间序列预测方法,具体步骤如下:
步骤一:数据预处理
在对销售数据时间序列建立预测模型之前,必须处理数据中的缺失值、异常值。
当销售数据中时间序列中存在缺失值时,需要对缺失位置添加一个估计值。一般估计值是通过一个窗口均值滤波得到:
Figure BDA0001510656270000053
式(14)中,假设了xt是一个缺失值,通过处理后就等于xt为中心的一个时窗内的均值。对于销售数据的时间序列的异常值的检查中主要分以下几个流程:
1.看每个时间序列的数据的单位是否一致。
2.相邻数据间的时间间隔大小是否都相等。
3.检查每个时间序列中是否存在非数字的数据,如一个每天销售数据中,存在某天销售数据的统计值是一个地名,这种情况很可能是在录入数据时,发生了错误。这种情况下,如果不能找到真实的统计数据,仍然通过式1得到一个估计值代替这样的异常值。
4.箱型图检查一些异常大或者异常小的值。由于销售数据的变化是非稳态的,也即是存在一些异常值是正常的,不需要修改。但是对于一些由于数据输入错误导致的异常值需要通过式(1)的公式做替换。
步骤二:利用互补集合的经验模态分解方法对销售数据时间序列处理互补集合的经验模态分解方法是在一般的经验模态方法上改进的。互补集合的经验模态分解方法解决了一般经验模态分解中“模态混叠”现象。主要步骤是:
1.将原始销售数据时间序列中分别加入模值相等正负两组高斯白噪声。
Figure BDA0001510656270000061
Figure BDA0001510656270000062
定义μσi(t)是独立的高斯白噪声,μ为噪声的幅值,定义为:
Figure BDA0001510656270000063
上式中:δ是标准差函数,说明μ等于时间序列和高斯白噪声之比。
2.通过一般经验模态函数对分别混有正负高斯白噪声的ym(t)进行处理,得到两组IMF序列和余项。
3.在目标信号中假如不同高斯白噪声信号,并重复(1),(2)P次,之后进行总体平均:
Figure BDA0001510656270000064
Figure BDA0001510656270000065
则最终的本征模态函数f的通式可以表示为:
Figure BDA0001510656270000066
假设分解得到m个本征模态函数那么:
Figure BDA0001510656270000067
上式中:等号右边第二项就是分解的余项。
对任意时间序列g的互补集合经验模态分解用公式表示为:
Figure BDA0001510656270000068
上式中:fi是通过经验模态分解得到的m个相互正交的本征模态函数,r是余项,包含了时间序列的趋势性。把等号右边第一项定义本征模态的和可以写成:
Figure BDA0001510656270000071
根据上式可以看出本征模态函数的和是关于本征模态函数的线性组合。
步骤三:利用Xgboost建立正交性因素建立回归模型
由于本征模态函数相互正交,那么可以将本征模态函数定义为一组正交基,根据这组正交基就可以张成一个线性空间α=span{f1,...,fm}。任意本征模态函数的回归模型
Figure BDA0001510656270000077
是一个含N项的数列,i=1,2,...,N,可以写成一个向量形式:
Figure BDA0001510656270000078
那么
Figure BDA0001510656270000079
是RN维线性空间V中的一个向量。同理每个本征模态函数也是N维线性空间中的一个向量,因此α是V的一个子空间。由线性空间理论可知线性空间中的一个极大线性无关组就是该线性空间的一组基,同时V中秩就是N也等于N维线性空间中的极大线性无关组的个数,因此必然存在一个极大线性无关组{f1,...,fm,r1,....,rN-m},ri,...,rN-m是在V中,但不在α空间的向量,与f1,f2,...fm构成了一组基。另一方面,该N维线性空间中的标准基e为:
Figure BDA0001510656270000072
根据内积空间的定义,由上式的标准基知道V是一个内积空间,所以{f1,...,fm,r1,....,rN-m}是一组正交基。
由上面的结论可以将任意本征模态函数对应回归模型
Figure BDA0001510656270000073
表示成
Figure BDA0001510656270000074
上式中
Figure BDA0001510656270000075
是本征模态函数回归模型与f1,...,fm,r1,....,rN-m的内积,通过内积空间性质可以求出:
Figure BDA0001510656270000076
因此通过训练得到的回归模型函数与对应本征模态函数之间的误差等于:
Figure BDA0001510656270000081
上式中:ei是对应下标的本征模态函数与它的回归模型函数之间的误差;定义等号右边左起第三项为外空间误差;定义等号右边左起第二项为内空间误差。根据第二步骤中的本征模态之和的定义,可以知道本征模态函数之和是α空间中的一个向量,所以根据上式求得任意ei中的外空间误差余项越小说明满足本征模态函数正交性的特征的能力越高,得到的模型携带的噪声信息也越低。根据以上结论及定义建立Xgboost模型
在应用Xgboost建立模型之前,需对每个本征模态函数的分析相关性,再根据相关性寻找与时间序列变化相关的属性,具体的方法:
1.自相关系数公式可以表示:
Figure BDA0001510656270000082
上式中:R(n)是时间序列中关于其滞后n项后的相关系数;E是期望。根据相关系数公式,得到某个本征模态函数不同滞后项的相关系数后。定一个置信区间对于那些相关系数大于置信区间上界的滞后项作为时间序列的特征属性。所有相关系数都小于如果置信区间的上界,可以直接选取以滞后项数为1开始的连续滞后项,作为时间序列的特征属性x(t)。
利用Xgboost寻找一个最优模型时,通过修改它的损失函数将正交性因素也考虑进去根据以上分析定义每个本征模态函数的Xgboost模型中的损失函数:
Figure BDA0001510656270000083
上式中:
Figure BDA0001510656270000084
指k次迭代计算后的任意本征函数的训练模型。根据这个损失函数,在迭代计算时会保证训练模型收敛到一个到α空间中。
因此可以得到:
Figure BDA0001510656270000085
上式中:
Figure BDA0001510656270000086
等于
Figure BDA0001510656270000087
初始条件时默认
Figure BDA0001510656270000088
为0,
Figure BDA0001510656270000089
也为0,每次迭代后的模型与各个本征模态函数的内积又可以得到新的
Figure BDA0001510656270000091
为了保证其寻优路径在空间中是一条直线,防止最优路径上出现多个极值,
Figure BDA0001510656270000092
在第一次迭代完成更新后,就不再变化,此时就成为两个常数。
则上式对应关于
Figure BDA0001510656270000093
一阶,二阶偏导数分别为:
Figure BDA0001510656270000094
Figure BDA0001510656270000095
根据上式按照Xgboost的原理就可以够构造出一个Xgboost模型,当该算法停止迭代的结果中内空间误差仍然全部保留,因此需要利用该结果在另一个Xgboost模型上继续迭代。
步骤四利用Xgboost拟合非正交特征因素影响以外的部分
根据步骤三得到一个拟合模型
Figure BDA0001510656270000096
由于α空间是一个内积空间,每个维度都定于在实数域上,因此α是一个欧式空间。因此可以找到一个函数序列
Figure BDA0001510656270000097
其中,
Figure BDA0001510656270000098
满足函数序列按范数收敛:
Figure BDA0001510656270000099
上式中:定义范数定义为
Figure BDA00015106562700000910
因此定义一个新的XGboost的损失函数:
Figure BDA00015106562700000911
上式中:k时迭代次数。同样按照第三步骤展开求导的方法就可以建立对应的Xgboost模型。该模型的输出就是最终的回归模型。
本发明中,在互补集合的经验模态分解中,需要多次对时间序列添加高斯白噪声,形成多个含高斯白噪声序列的时间序列组合,其中每次添加的高斯白噪声序列的期望,标准差都相等。另一方面选择生成含高斯白噪声序列的时间序列组合的个数尽量大,一般是在50以上,这是因为数量越大,得到的每个分量中任意时间上的值含噪声能量就越趋于0。
另外,Xboost从外空间到内空间的寻优阶段,为了使外空间误差尽量小,需要满足每次迭代中同时生成的较多cart树作比较。
Xgboost的cart树高度选择在5~10之间,这是因为树的高度太小容易产生欠拟合,而树的高度太大又会容易产生过拟合。同样时为了避免过拟合,一般在迭代过程中得到的增量前要一般乘以一个0.1~0.3之间的系数。
本发明利用本征模态分量的正交性特征,分析了回归模型的误差由外空间误差和内空间误差组成。根据不同误差的成因,构造两个不同Xgboost模型函数并将它们串联在一起。
本发明首先是利用互补集合的经验模态分解方法在消除“模态混叠”的基础上,通过构建正负相等高斯噪声序列弱化了高斯噪声的干扰。同时分析了本征模态函数的正交性,利用正交性特征,将模型误差分为两部分,即外空间误差和内空间误差。利用本征模态函数的正交性,保证了Xgboost寻找最优模型的收敛路径首先是先从外空间然后到内空间,然后再从内空间中寻找一个路径逐步收敛到对应的本征模态函数,这两个收敛过程中分别减小了外空间误差和内空间误差,同时也保证了正交性,最终提高了模型的泛化性。
附图说明
图1cart回归树示例图;
图2bagging流程;
图3结合互补集合的经验模态分解的Xgboost时间序列预测方法的流程图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步的说明。
如附图3所示,本发明提供的结合互补集合的经验模态分解的Xgboost时间序列预测方法,主要包括如下步骤:
步骤一:数据预处理
在对销售数据时间序列建立预测模型之前,必须处理数据中的缺失值、异常值。
当销售数据中时间序列中存在缺失值时,需要对缺失位置添加一个估计值。一般估计值是通过一个窗口均值滤波得到:
Figure BDA0001510656270000101
式(14)中,假设了xt是一个缺失值,通过处理后就等于xt为中心的一个时窗内的均值。对于销售数据的时间序列的异常值的检查中主要分以下几个流程:
1.看每个时间序列的数据的单位是否一致。
2.相邻数据间的时间间隔大小是否都相等。
3.检查每个时间序列中是否存在非数字的数据,如一个每天销售数据中,存在某天销售数据的统计值是一个地名,这种情况很可能是在录入数据时,发生了错误。这种情况下,如果不能找到真实的统计数据,仍然通过式1得到一个估计值代替这样的异常值。
4.箱型图检查一些异常大或者异常小的值。由于销售数据的变化是非稳态的,也即是存在一些异常值是正常的,不需要修改。但是对于一些由于数据输入错误导致的异常值需要通过式(1)的公式做替换。
步骤二:利用互补集合的经验模态分解方法对销售数据时间序列处理互补集合的经验模态分解方法是在一般的经验模态方法上改进的。互补集合的经验模态分解方法解决了一般经验模态分解中“模态混叠”现象。主要步骤是:
1.将原始销售数据时间序列中分别加入模值相等正负两组高斯白噪声。
Figure BDA0001510656270000111
Figure BDA0001510656270000112
定义μσi(t)是独立的高斯白噪声,μ为噪声的幅值,定义为:
Figure BDA0001510656270000113
上式中:δ是标准差函数,说明μ等于时间序列和高斯白噪声之比。
4.通过一般经验模态函数对分别混有正负高斯白噪声的ym(t)进行处理,得到两组IMF序列和余项。
5.在目标信号中假如不同高斯白噪声信号,并重复(1),(2)P次,之后进行总体平均:
Figure BDA0001510656270000114
Figure BDA0001510656270000115
则最终的本征模态函数f的通式可以表示为:
Figure BDA0001510656270000116
假设分解得到m个本征模态函数那么:
Figure BDA0001510656270000121
上式中:等号右边第二项就是分解的余项。
对任意时间序列g的互补集合经验模态分解用公式表示为:
Figure BDA0001510656270000122
上式中:fi是通过经验模态分解得到的m个相互正交的本征模态函数,r是余项,包含了时间序列的趋势性。把等号右边第一项定义本征模态的和可以写成:
Figure BDA0001510656270000123
根据上式可以看出本征模态函数的和是关于本征模态函数的线性组合。
步骤三:利用Xgboost建立正交性因素建立回归模型
由于本征模态函数相互正交,那么可以将本征模态函数定义为一组正交基,根据这组正交基就可以张成一个线性空间α=span{f1,...,fm}。任意本征模态函数的回归模型
Figure BDA0001510656270000124
是一个含N项的数列,i=1,2,...,N,可以写成一个向量形式:
Figure BDA0001510656270000125
那么
Figure BDA0001510656270000126
是RN维线性空间V中的一个向量。同理每个本征模态函数也是N维线性空间中的一个向量,因此α是V的一个子空间。由线性空间理论可知线性空间中的一个极大线性无关组就是该线性空间的一组基,同时V中秩就是N也等于N维线性空间中的极大线性无关组的个数,因此必然存在一个极大线性无关组{f1,...,fm,r1,....,rN-m},ri,...,rN-m是在V中,但不在α空间的向量,与f1,f2,...fm构成了一组基。另一方面,该N维线性空间中的标准基e为:
Figure BDA0001510656270000127
根据内积空间的定义,由上式的标准基知道V是一个内积空间,所以{f1,...,fm,r1,....,rN-m}是一组正交基。
由上面的结论可以将任意本征模态函数对应回归模型
Figure BDA0001510656270000131
表示成
Figure BDA0001510656270000132
上式中
Figure BDA0001510656270000133
是本征模态函数回归模型与f1,...,fm,r1,....,rN-m的内积,通过内积空间性质可以求出:
Figure BDA0001510656270000134
因此通过训练得到的回归模型函数与对应本征模态函数之间的误差等于:
Figure BDA0001510656270000135
上式中:ei是对应下标的本征模态函数与它的回归模型函数之间的误差;定义等号右边左起第三项为外空间误差;定义等号右边左起第二项为内空间误差。根据第二步骤中的本征模态之和的定义,可以知道本征模态函数之和是α空间中的一个向量,所以根据上式求得任意ei中的外空间误差余项越小说明满足本征模态函数正交性的特征的能力越高,得到的模型携带的噪声信息也越低。根据以上结论及定义建立Xgboost模型
在应用Xgboost建立模型之前,需对每个本征模态函数的分析相关性,再根据相关性寻找与时间序列变化相关的属性,具体的方法:
1.自相关系数公式可以表示:
Figure BDA0001510656270000136
上式中:R(n)是时间序列中关于其滞后n项后的相关系数;E是期望。根据相关系数公式,得到某个本征模态函数不同滞后项的相关系数后。定一个置信区间对于那些相关系数大于置信区间上界的滞后项作为时间序列的特征属性。所有相关系数都小于如果置信区间的上界,可以直接选取以滞后项数为1开始的连续滞后项,作为时间序列的特征属性x(t)。
利用Xgboost寻找一个最优模型时,通过修改它的损失函数将正交性因素也考虑进去根据以上分析定义每个本征模态函数的Xgboost模型中的损失函数:
Figure BDA0001510656270000137
上式中:
Figure BDA0001510656270000138
指k次迭代计算后的任意本征函数的训练模型。根据这个损失函数,在迭代计算时会保证训练模型收敛到一个到α空间中。
因此可以得到:
Figure BDA0001510656270000141
上式中:
Figure BDA0001510656270000142
等于
Figure BDA0001510656270000143
初始条件时默认
Figure BDA0001510656270000144
为0,
Figure BDA0001510656270000145
也为0,每次迭代后的模型与各个本征模态函数的内积又可以得到新的
Figure BDA0001510656270000146
为了保证其寻优路径在空间中是一条直线,防止最优路径上出现多个极值,
Figure BDA0001510656270000147
在第一次迭代完成更新后,就不再变化,此时就成为两个常数。
则上式对应关于
Figure BDA0001510656270000148
一阶,二阶偏导数分别为:
Figure BDA0001510656270000149
Figure BDA00015106562700001410
根据上式按照Xgboost的原理就可以够构造出一个Xgboost模型,当该算法停止迭代的结果中内空间误差仍然全部保留,因此需要利用该结果在另一个Xgboost模型上继续迭代。
步骤四利用Xgboost拟合非正交特征因素影响以外的部分
根据步骤三得到一个拟合模型
Figure BDA00015106562700001411
由于α空间是一个内积空间,每个维度都定于在实数域上,因此α是一个欧式空间。因此可以找到一个函数序列
Figure BDA00015106562700001412
其中,
Figure BDA00015106562700001413
满足函数序列按范数收敛:
Figure BDA00015106562700001414
上式中:定义范数定义为
Figure BDA00015106562700001415
因此定义一个新的XGboost的损失函数:
Figure BDA00015106562700001416
上式中:k时迭代次数。同样按照第三步骤展开求导的方法就可以建立对应的Xgboost模型。该模型的输出就是最终的回归模型。

Claims (1)

1.一种结合互补集合经验模态分解的Xgboost时间序列预测方法,其特征在于包括如下步骤:
步骤一:数据预处理
在对销售数据时间序列建立预测模型之前,必须处理数据中的缺失值、异常值;
当销售数据中时间序列中存在缺失值时,需要对缺失位置添加一个估计值;估计值是通过一个窗口均值滤波得到:
Figure FDA0003152500340000011
式(14)中,假设了xt是一个缺失值,通过处理后就等于xt为中心的一个时窗内的均值;
对于销售数据的时间序列的异常值的检查中主要分以下几个流程:(1)看每个时间序列的数据的单位是否一致;(2)相邻数据间的时间间隔大小是否都相等;(3)检查每个时间序列中是否存在非数字的数据;(4)箱型图检查一些异常大或者异常小的值;
步骤二:利用互补集合的经验模态分解方法对销售数据时间序列处理互补集合的经验模态分解方法是在一般的经验模态方法上改进的;互补集合的经验模态分解方法解决了一般经验模态分解中“模态混叠”现象;主要步骤是:
1)将原始销售数据时间序列中分别加入模值相等正负两组高斯白噪声;
Figure FDA0003152500340000012
Figure FDA0003152500340000013
定义μσi(t)是独立的高斯白噪声,μ为噪声的幅值,定义为:
Figure FDA0003152500340000014
上式中:δ是标准差函数,说明μ等于时间序列和高斯白噪声之比;
2)通过一般经验模态函数对分别混有正负高斯白噪声的ym(t)进行处理,得到两组IMF序列和余项;
3)在目标信号中假如不同高斯白噪声信号,并重复(1),(2)P次,之后进行总体平均:
Figure FDA0003152500340000021
Figure FDA0003152500340000022
则最终的本征模态函数f的通式可以表示为:
Figure FDA0003152500340000023
假设分解得到m个本征模态函数那么:
Figure FDA0003152500340000024
上式中:等号右边第二项就是分解的余项;
对任意时间序列g的互补集合经验模态分解用公式表示为:
Figure FDA0003152500340000025
上式中:fi是通过经验模态分解得到的m个相互正交的本征模态函数,r是余项,包含了时间序列的趋势性;把等号右边第一项定义本征模态的和可以写成:
Figure FDA0003152500340000026
根据上式可以看出本征模态函数的和是关于本征模态函数的线性组合;
步骤三:利用Xgboost建立正交性因素建立回归模型
由于本征模态函数相互正交,那么可以将本征模态函数定义为一组正交基,根据这组正交基就可以张成一个线性空间α=span{f1,...,fm};任意本征模态函数的回归模型
Figure FDA0003152500340000031
是一个含N项的数列,i=1,2,...,N,可以写成一个向量形式:
Figure FDA0003152500340000032
那么
Figure FDA0003152500340000033
是RN维线性空间V中的一个向量;同理每个本征模态函数也是N维线性空间中的一个向量,因此α是V的一个子空间;由线性空间理论可知线性空间中的一个极大线性无关组就是该线性空间的一组基,同时V中秩就是N也等于N维线性空间中的极大线性无关组的个数,因此必然存在一个极大线性无关组{f1,...,fm,r1,....,rN-m},ri,...,rN-m是在V中,但不在α空间的向量,与f1,f2,...fm构成了一组基;另一方面,该N维线性空间中的标准基e为:
Figure FDA0003152500340000034
根据内积空间的定义,由上式的标准基知道V是一个内积空间,所以{f1,...,fm,r1,....,rN-m}是一组正交基;
由上面的结论可以将任意本征模态函数对应回归模型
Figure FDA0003152500340000035
表示成
Figure FDA0003152500340000036
上式中
Figure FDA0003152500340000037
是本征模态函数回归模型与f1,...,fm,r1,....,rN-m的内积,通过内积空间性质可以求出:
Figure FDA0003152500340000038
因此通过训练得到的回归模型函数与对应本征模态函数之间的误差等于:
Figure FDA0003152500340000039
上式中:ei是对应下标的本征模态函数与它的回归模型函数之间的误差;定义等号右边左起第三项为外空间误差;定义等号右边左起第二项为内空间误差;根据第二步骤中的本征模态之和的定义,可以知道本征模态函数之和是α空间中的一个向量,所以根据上式求得任意ei中的外空间误差余项越小说明满足本征模态函数正交性的特征的能力越高,得到的模型携带的噪声信息也越低;根据以上结论及定义建立Xgboost模型;
步骤四 利用Xgboost拟合非正交特征因素影响以外的部分
根据步骤三得到一个拟合模型
Figure FDA0003152500340000041
由于α空间是一个内积空间,每个维度都定于在实数域上,因此α是一个欧式空间;因此可以找到一个函数序列
Figure FDA0003152500340000042
其中,
Figure FDA0003152500340000043
满足函数序列按范数收敛:
Figure FDA0003152500340000044
上式中:定义范数定义为
Figure FDA0003152500340000045
因此定义一个新的XGboost的损失函数:
Figure FDA0003152500340000046
上式中:k时迭代次数;同样按照第三步骤展开求导的方法就可以建立对应的Xgboost模型;模型的输出就是最终的回归模型。
CN201711353240.XA 2017-12-15 2017-12-15 结合互补集合经验模态分解的Xgboost时间序列预测方法 Active CN108228978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711353240.XA CN108228978B (zh) 2017-12-15 2017-12-15 结合互补集合经验模态分解的Xgboost时间序列预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711353240.XA CN108228978B (zh) 2017-12-15 2017-12-15 结合互补集合经验模态分解的Xgboost时间序列预测方法

Publications (2)

Publication Number Publication Date
CN108228978A CN108228978A (zh) 2018-06-29
CN108228978B true CN108228978B (zh) 2021-09-21

Family

ID=62649615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711353240.XA Active CN108228978B (zh) 2017-12-15 2017-12-15 结合互补集合经验模态分解的Xgboost时间序列预测方法

Country Status (1)

Country Link
CN (1) CN108228978B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558543A (zh) * 2018-12-11 2019-04-02 拉扎斯网络科技(上海)有限公司 一种样本采样方法、样本采样装置、服务器和存储介质
CN111382897A (zh) * 2019-10-25 2020-07-07 广州供电局有限公司 台区低压跳闸预测方法、装置、计算机设备及存储介质
CN112613636A (zh) * 2020-11-25 2021-04-06 国网江苏省电力有限公司江阴市供电分公司 一种基于特征工程的XGboost风速短期预测方法
CN114034375A (zh) * 2021-10-26 2022-02-11 三峡大学 一种特高压输电线路噪声测量系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092744A (zh) * 2017-04-16 2017-08-25 北京工业大学 基于emd‑svr的地表沉降量预测方法
CN107292453A (zh) * 2017-07-24 2017-10-24 国网江苏省电力公司电力科学研究院 一种基于集成经验模态分解与深度信念网络的短期风功率预测方法
CN107423339A (zh) * 2017-04-29 2017-12-01 天津大学 基于极端梯度推进和随机森林的热门微博预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9603049B2 (en) * 2013-07-22 2017-03-21 Seven Networks, Llc Extending delay tolerance of mobile applications for optimizing mobile traffic management

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107092744A (zh) * 2017-04-16 2017-08-25 北京工业大学 基于emd‑svr的地表沉降量预测方法
CN107423339A (zh) * 2017-04-29 2017-12-01 天津大学 基于极端梯度推进和随机森林的热门微博预测方法
CN107292453A (zh) * 2017-07-24 2017-10-24 国网江苏省电力公司电力科学研究院 一种基于集成经验模态分解与深度信念网络的短期风功率预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Predicting the status of water pumps using data mining approach;Darmatasia 等;《2016 International Workshop on Big Data and Information Security》;20170309;第57-63页 *
基于Xgboost方法的实体零售业销售额预测研究;叶倩怡;《万方数据库》;20170428;全文 *

Also Published As

Publication number Publication date
CN108228978A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
CN108228978B (zh) 结合互补集合经验模态分解的Xgboost时间序列预测方法
JP6969637B2 (ja) 因果関係分析方法および電子デバイス
CN110309603B (zh) 一种基于风速特性的短期风速预测方法及系统
Ernst Hinging hyperplane trees for approximation and identification
Song et al. Air quality prediction based on LSTM-Kalman model
Wang et al. Convergence of the recursive identification algorithms for multivariate pseudo‐linear regressive systems
KR20160021209A (ko) 동적 모델 식별을 모니터링 및 가변 구조 또는 가변 동작 조건을 가진 동적 기기의 제어 방법 및 시스템
CN109886464B (zh) 基于优化奇异值分解生成特征集的低信息损失短期风速预测方法
CN114399032B (zh) 一种电能表计量误差预测方法及系统
McLeod et al. Practical bayesian optimization for variable cost objectives
CN113834656A (zh) 一种轴承故障诊断方法、系统、设备及终端
CN112232244A (zh) 一种滚动轴承故障诊断方法
CN111382906A (zh) 一种电力负荷预测方法、系统、设备和计算机可读存储介质
CN112270229A (zh) 一种基于奇异谱分析的滑坡体位移预测方法
CN115225516B (zh) 基于改进abc-vmd的lssvm网络流量预测方法
CN114065510A (zh) 冷却塔风机的故障预警方法、装置及电子设备
Xingrong Research on time series data mining algorithm based on Bayesian node incremental decision tree
Golabi et al. A Bayesian approach for estimation of linear-regression LPV models
CN111598313A (zh) 一种风功率预测方法
CN117592593A (zh) 基于改进二次模态分解和WOA优化BILSTM-attention的短期电力负荷预测方法
Samadi et al. Fourier methods for sufficient dimension reduction in time series
Sudjianto et al. Single-index model tree
Marepally et al. Data Puncturing and Training Strategies for Cost-Efficient Surrogate Modeling of Airfoil Aerodynamics
McWilliams et al. A PRESS statistic for two-block partial least squares regression
Jiang et al. Classic Types of Surrogate Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant