CN110490366A

CN110490366A - 基于变分模态分解和迭代决策树的径流量预测方法

Info

Publication number: CN110490366A
Application number: CN201910636886.1A
Authority: CN
Inventors: 李涛; 黄子奇; 胡晖; 张建丰
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-11-22

Abstract

本发明公开了基于变分模态分解和迭代决策树的径流量预测方法，具体为：首先将径流过程划分为不同的子模态，然后采用迭代决策树对每个子模态进行训练，得到径流流量的预测模型。本发明采用VMD对径流流量时间序列进行分解，VMD能自适应地分解频率域中与中心频率相对应的有效分量，具有良好的频域自适应分解效果；GBRT是一种常见而有效的集成学习方法，主要被应用到预测问题上，具有不容易陷入过拟合、运算速度快、预测精度高的优点，基于VMD与GBRT的组合模型能够全面提髙径流流量预测的可靠性，获得较为准确的预测结果。

Description

基于变分模态分解和迭代决策树的径流量预测方法

技术领域

本发明属于径流流量预测技术领域，涉及基于变分模态分解和迭代决策树的径流量预测方法。

背景技术

传统的径流预测方法可分为物理模型和数据驱动模型。物理模型以水文学概念为基础，对径流的产流过程与河道演进过程进行模拟，从而进行径流预报的数学模型。未来径流主要与流域初始状态和未来降雨有关，因此，物理模型主要通过利用未来降雨等气象信息的预报值来实现径流预报。而且径流形成的过程不是简单的物理过程，也包括化学或者生物过程以及人类活动等，物理模型难以完全考虑这些因素，往往无法得到很好的预测效果。

数据驱动模型是基本不考虑水文过程的物理机制，而建立输入输出数据之间的最优数学关系为目标的黑箱子方法。实际径流过程是一个高度复杂的非线性过程，因此，具有较强非线性映射能力的方法，人工神经网络(ANN)被用来进行径流流量预测。水文系统的复杂性及水文要素变化的不确定性，使得ANN只能利用部分有效数据，无法全面提髙径流流量预测的可靠性。因此，本发明从认识水文过程的组成出发，提出了组合模型。该类模型首先将径流过程划分为不同的子过程，然后针对不同的子过程分别构建相应的模型，最后通过对各子过程结果的处理得到所需的预报结果。

变分模态分解(VMD)是一种新的信号分解方法，主要用于自适应地将输入信号分解成若干子信号(模态分量函数)，假设每个模态具有不同中心频率的有限带宽，该分解方法使每个模态的估计带宽的总和最小，具有良好的频域自适应分解效果。迭代决策树(GBRT)是一种集成机器学习算法，通过集成多个弱决策树模型形成最终预测模型。该模型的主要优点是计算速度快，预测精度高，对于噪声数据具有很好的鲁棒性。特别是，VMD分解得到的子模态已经足够光滑，用GBRT模型预测子模态可以得到较为准确的结果。

发明内容

本发明的目的是提供基于变分模态分解和迭代决策树的，解决了现有径流预测方法预测效果可靠性不足的技术问题。

本发明所采用的技术方案是，基于变分模态分解和迭代决策树的径流量预测方法，首先将径流过程划分为不同的子模态，然后采用迭代决策树对每个子模态进行训练，得到径流流量的预测模型。

本发明的特点还在于，

具体按以下步骤实施：

步骤1，获取径流流量历史实测径流流量数据，根据历史实测径流流量数据建立径流流量时间序列Q(t)＝{Q(1),Q(2),…,Q(T)}；

步骤2，对径流流量时间序列Q(t)进行变分模态分解，得到一组按照频率从高到低顺序排列的子模态IMF₁(t)、IMF₂(t)、……、IMF_k(t)；

步骤3，采用迭代决策树GBRT对每个子模态进行训练，得到径流流量的预测模型。

步骤2具体为：

对径流流量时间序列Q(t)采用VMD分解为K个变分模态分量，约束条件为使各个模态的估计带宽之和最小，且各模态之和等于径流流量时间序列Q(t)，约束变分模型描述为式(1)和式(2)：

式中，Q(t)为径流流量时间序列；{IMF_k(t)}＝{IMF₁(t),IMF₂(t),…,IMF_K(t)}为分解得到的K个有限带宽的子模态；{ω_k}＝{ω₁,ω₂,…,ω_K}为各子模态的频率中心；δ(t)为狄拉克函数；j²＝-1；π为圆周率；表示对函数求时间t的偏导数；*表示卷积；

求取解式(1)和式(2)的最优解，即完成变分模态分解。

求取解式(1)和式(2)的最优解过程中，使用二次惩罚项和拉格朗日乘子将约束变分问题变为非约束变分问题，引入增广Lagrangian表达式为式(3)：

式中，α为二次惩罚因子；λ为拉格朗日乘法算子。

求解过程具体为：

步骤2.1，定义变分模态分量个数K的值与二次惩罚因子α的值；

步骤2.2，初始化迭代次数n＝0。

在以下计算中，表示第k个子模态经n次迭代后得到的更新值，表示第k个子模态对应的中心频率经过n次迭代后得到的更新值，表示经过n次迭代后得到的拉格朗日乘子的更新值；也就是说，n＝0时，表示第k个子模态的初始值，表示第k个子模态对应的中心频率的初始值，表示拉格朗日乘子的初始值；

步骤2.3，令n＝n+1开始循环；

步骤2.4，执行内层第一个循环：

根据式(4)更新IMF_k，令k＝k+1，重复下式直到k＝K结束内层第一个循环；

式中，分别代表各变量的傅立叶变换；

对进行傅立叶逆变换，取实部即得到

步骤2.5，执行内层第二个循环：根据式(5)更新ω_k，令k＝k+1，重复式(5)直到k＝K结束内层第二个循环；

步骤2.6，执行外层循环：根据式(6)更新λ；

式中，τ为拉格朗日乘法算子λ(t)的更新步长参数，τ为0。

步骤2.7，重复步骤2.3至步骤2.6，直到满足式(7)所示的判别条件停止循环：

式中，ε为预先设定的计算精度。

还包括步骤3，具体为：对步骤2变态模态分解得到的每个子模态IMF进行标准化：

对分解后的数据按式(8)进行标准化处理，处理后的序列数据将分布在[-1,1]，

式中，Q_{i_normal}为处理得到的标准化数据；Q_{i_innormal}是未处理的数据；Q_max，Q_min分别是序列的最大值和最小值。

GBRT预测模型得到的具体步骤如下：

给定一个流量-时间序列，分析未来一天与过去滞后若干天的相关关系，选择相关性较高的几天作为输入，并基于此规则生成样本集D＝{(x₁,y₁),(x₂,y₂),...,(x_N,y_N)}，其中x、y分别为输入变量、输出变量，即x为用来训练预测的历史径流流量数据，y为预测径流流量的真实值；

该模型的损失函数为：L(y,f(x))，其中f(x)为径流流量的预测模型；

每棵回归树的叶节点数为P，将其输入空间分割成P个不相交区域R_mp，p＝1，2，...，P，并为每一个区域估计一个常量值b_mp，回归树h_m(x)表示为式(9)：

式中，I为指示函数，即

步骤4.1，初始化f(x)记为f₀(x)：

上式中，y_i为第i个径流流量的真实值，c为首颗树得到的预测值；

步骤4.2，算法开始迭代：

第一层循环：m＝1，2，…，M，迭代生成M棵回归树：

第二层循环：i＝1，2，…，N，按照式(11)计算损失函数在当前模型的负梯度，并将它作为残差的估计值r_mi：

式中，x_i为训练集中第i个径流流量的特征向量；f(x_i)为第i个径流流量的预测模型；

针对残差的估计值r_mi生成一棵回归h_m(x),将第m棵树的输入空间分割成P个不相交区域R_m1，R_m2，…，R_mP，并计算梯度下降的步长c_m：

式中，f_m-1(x_i)为前m-1棵树得到的径流流量的预测模型；

步骤4.3，根据式(13)更新预测模型f(x)：

f_m(x)＝f_m-1(x)+c_mh_m(x) (13)

步骤4.4，最终得到GBRT预测模型，如式(14)所示：

步骤1中径流流量时间序列分为训练集与测试集，首先对训练集数据依次经步骤2-4处理后得到径流流量的预测模型；然后对测试集中的数据依次进行步骤2和步骤3的处理，并利用训练集得到的预测模型对测试集分解得到的子模态进行预测，将各个子模态的预测结果相加得到最终的预测结果；将预测结果与真实数据进行比对，比对结果在误差范围内，则表示预测模型构建完成；若超出误差范围，则重复步骤2-4进行训练。

本发明的有益效果是，本发明基于变分模态分解和迭代决策树的径流量预测方法，采用变分模态分解(VMD)对径流流量时间序列进行分解，VMD能自适应地分解频率域中与中心频率相对应的有效分量，具有良好的频域自适应分解效果，迭代决策树(GBRT)是一种常见而有效的集成学习方法，主要被应用到预测问题上，具有不容易陷入过拟合、运算速度快、预测精度高的优点，基于VMD与GBRT的组合模型能够全面提髙径流流量预测的可靠性，获得较为准确的预测结果。

附图说明

图1是实施例中对径流流量时间序列进行变分模态分解的结果和相应的频谱图，其中图a为分解结果，图b为相应的频谱；

图2是实施例中各分解序列的PACF图；

图3是实施例预测结果与实测结果的比对图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供了基于变分模态分解和迭代决策树的径流量预测方法，首先将径流过程划分为不同的子模态，然后采用迭代决策树对每个子模态进行训练，得到径流流量的预测模型；最后将各子模态的运用预测模型获得预测结果集成，得到所需的预测结果。具体按照以下步骤实施：

步骤1：获取径流流量历史实测径流流量数据，根据历史实测径流流量数据建立径流流量时间序列Q(t)＝{Q(1),Q(2),…,Q(T)}，并将此序列分为训练集与测试集；

步骤2：对训练集中的径流流量时间序列Q(t)进行变分模态分解(VMD)，得到一组按照频率从高到低顺序排列的子模态IMF₁(t)、IMF₂(t)、……、IMF_k(t)：

式中，Q(t)为径流流量时间序列；{IMF_k(t)}＝{IMF₁(t),IMF₂(t),…,IMF_K(t)}为分解得到的K个有限带宽的子模态；{ω_k}＝{ω₁,ω₂,…,ω_K}为各子模态的频率中心；δ(t)为狄拉克函数；j²＝-1；π为圆周率；表示对函数求时间t的偏导数；*表示卷积。

为求解式(1)和式(2)的最优解，同时使用二次惩罚项和拉格朗日乘子将约束变分问题变为非约束变分问题，引入增广Lagrangian表达式为式(3)：

式中，α为二次惩罚因子；λ为拉格朗日乘法算子。

求解该变分问题的具体步骤如下：

步骤2.1：定义变分模态分量个数K的值与二次惩罚因子α的值；

步骤2.2：初始化迭代次数n＝0。

在以下计算中，表示第k个子模态经n次迭代后得到的更新值，表示第k个子模态对应的中心频率经过n次迭代后得到的更新值，表示经过n次迭代后得到的拉格朗日乘子的更新值。也就是说，n＝0时，表示第k个子模态的初始值，表示第k个子模态对应的中心频率的初始值，表示拉格朗日乘子的初始值；

步骤2.3：令n＝n+1开始循环；

步骤2.4：执行内层第一个循环：根据式(4)更新IMF_k，令k＝k+1，重复下式直到k＝K结束内层第一个循环；

式中，分别代表各变量的傅立叶变换，例如径流流量时间序列Q(t)的傅立叶变换

对进行傅立叶逆变换，取实部即得到

步骤2.5：执行内层第二个循环：根据式(5)更新ω_k，令k＝k+1，重复式(5)直到k＝K结束内层第二个循环；

步骤2.6：执行外层循环：根据式(6)更新λ；

式中，τ为拉格朗日乘法算子λ(t)的更新步长参数，如果不以精确重构信号为目标，特别是信号中存在强噪声的情况下，可以舍弃λ的更新，故τ常取为0。

步骤2.7：重复步骤2.3至步骤2.6，直到满足式(7)所示的判别条件停止循环。

式中，ε为预先设定的计算精度。

步骤3：将每个子模态IMF标准化。

对分解后的数据按式(8)进行标准化处理，处理后的序列数据将分布在[-1,1]。

步骤4：采用迭代决策树(GBRT)对每个子模态进行训练，得到径流流量的预测模型，具体步骤如下：

给定一个流量-时间序列，分析未来一天与过去滞后若干天的相关关系，选择相关性较高的几天作为输入，并基于此规则生成样本集D＝{(x₁,y₁),(x₂,y₂),...,(x_N,y_N)}，其中x、y分别为输入变量、输出变量，即x为用来训练预测的历史径流流量数据，y为预测径流流量的真实值。

该模型的损失函数为：L(y,f(x))，其中f(x)为径流流量的预测模型。

式中，I为指示函数，即

步骤4.1：初始化f(x)记为f₀(x)：

步骤4.2：算法开始迭代：

第一层循环：m＝1，2，…，M，迭代生成M棵回归树：

式中，f_m-1(x_i)为前m-1棵树得到的径流流量的预测模型；

步骤4.3：根据式(13)更新预测模型f(x)：

f_m(x)＝f_m-1(x)+c_mh_m(x) (13)

步骤4.4：最终得到GBRT模型，如式(14)所示：

步骤5：对测试集中的数据依次进行步骤2和步骤3的处理，然后利用步骤4得到的GBRT模型对测试集分解得到的子模态进行预测，将各个子模态的预测结果相加得到最终的预测结果；将预测结果与真实数据进行比对，比对结果误差在要求范围内，则表示预测模型构建完成。若超出误差范围，则重复步骤2-4进行训练。

实施例

采用本发明VMD-GBRT模型方法预测日径流流量，具体如下：

步骤1：收集某水文站的2003年1月1日至2017年11月1日的日径流记录(共5419个样点)并建立时间序列，将2003年1月1日～2016年5月9日的数据抽样作为训练集，将2016年5月10日～2017年11月1日的数据作为测试集。

步骤2：利用VMD将日初始流量数据分解为10个按照频率从高到低顺序排列的子模态IMF₁、IMF₂、…、IMF₁₀。具体步骤如下：

对径流流量时间序列Q(t)采用VMD分解为10个变分模态分量，约束条件为使各个模态的估计带宽之和最小，且各模态之和等于径流流量时间序列Q(t)，约束变分模型描述为式(1)和式(2)：

式中，Q(t)为径流流量时间序列；{IMF_k(t)}＝{IMF₁(t),IMF₂(t),…,IMF₁₀(t)}为分解得到的10个有限带宽的子模态；{ω_k}＝{ω₁,ω₂,…,ω₁₀}为各子模态的频率中心；δ(t)为狄拉克函数；j²＝-1；π为圆周率；表示对函数求时间t的偏导数；*表示卷积。

式中，α为二次惩罚因子；λ为拉格朗日乘法算子。

求解该变分问题的具体步骤如下：

步骤2.1：定义变分模态分量个数K的值与二次惩罚因子α的值，本实施例取K＝10，α＝2000；

步骤2.2：初始化迭代次数n＝0。

步骤2.3：令n＝n+1开始循环；

步骤2.4：执行内层第一个循环：根据式(4)更新IMF_k，令k＝k+1，重复下式直到k＝10结束内层第一个循环；

式中，分别代表各变量的傅立叶变换。

对进行傅立叶逆变换，取实部即得到

步骤2.5：执行内层第二个循环：根据式(5)更新ω_k，令k＝k+1，重复式(5)直到k＝10结束内层第二个循环；

步骤2.6：执行外层循环：根据式(6)更新λ；

式中，τ为拉格朗日乘法算子的更新步长参数，本实施例取τ＝0。

式中，ε为预先设定的计算精度，本实施例取ε＝1×10^-9。

分解结果和相应的频谱如附图1所示。

步骤3：将每个子模态IMF标准化。

步骤4：本案例采用偏自相关函数(PACF)确定输入变量的数量，并基于此规则生成样本集D＝{(x₁,y₁),(x₂,y₂),...,(x_N,y_N)}，其中x、y分别为输入变量、输出变量，即x为用来训练预测的历史径流流量数据，y为预测径流流量的真实值。图2是各分解序列的PACF图，确定的输入结果见表1。

表1各序列的输入和输出特征

GBRT模型构建的具体步骤如下：

式中，I为指示函数，即

步骤4.1：初始化f(x)记为f₀(x)：

步骤4.2：算法开始迭代：

第一层循环：m＝1，2，…，50，迭代生成50棵回归树：

上式中，x_i为训练集中第i个径流流量的特征向量；f(x_i)为第i个径流流量的预测模型；

式中，f_m-1(x_i)为前m-1棵树得到的径流流量的预测模型；

步骤4.3：根据式(13)更新预测模型f(x)：

f_m(x)＝f_m-1(x)+c_mh_m(x) (13)

步骤4.4：最终得到GBRT模型，如式(14)所示：

步骤5：对测试集中的数据依次进行步骤2和步骤3的处理，然后利用步骤4得到的GBRT模型对测试集分解得到的子模态进行预测，将各个子模态的预测结果相加得到最终的预测结果；将预测结果与实测数据进行比对，预测结果与实测数据的相关系数(R²)、均方根误差(RMSE)见表2。

表2 GBRT模型的预测评价

最终通过VMD-GBRT预测的径流量与实测的径流量对比结果如图3，从图中可以看出实测值与预测值基本一致，说明本发明方法预测结果可靠、准确。

Claims

1.基于变分模态分解和迭代决策树的径流量预测方法，其特征在于，首先将径流过程划分为不同的子模态，然后采用迭代决策树对每个子模态进行训练，得到径流流量的预测模型。

2.根据权利要求1所述的基于变分模态分解和迭代决策树的径流量预测方法，其特征在于，具体按以下步骤实施：

3.根据权利要求2所述的基于变分模态分解和迭代决策树的径流量预测方法，其特征在于，所述步骤2具体为：

求取解式(1)和式(2)的最优解，即完成变分模态分解。

4.根据权利要求3所述的基于变分模态分解和迭代决策树的径流量预测方法，其特征在于，所述求取解式(1)和式(2)的最优解过程中，使用二次惩罚项和拉格朗日乘子将约束变分问题变为非约束变分问题，引入增广Lagrangian表达式为式(3)：

式中，α为二次惩罚因子；λ为拉格朗日乘法算子。

5.根据权利要求4所述的基于变分模态分解和迭代决策树的径流量预测方法，其特征在于，所述求解过程具体为：

步骤2.2，初始化迭代次数n＝0。

步骤2.3，令n＝n+1开始循环；

步骤2.4，执行内层第一个循环：

式中，分别代表各变量的傅立叶变换；

对进行傅立叶逆变换，取实部即得到

步骤2.6，执行外层循环：根据式(6)更新λ；

式中，τ为拉格朗日乘法算子λ(t)的更新步长参数，τ为0。

式中，ε为预先设定的计算精度。

6.根据权利要求2所述的基于变分模态分解和迭代决策树的径流量预测方法，其特征在于，还包括步骤3，具体为：对所述步骤2变态模态分解得到的每个子模态IMF进行标准化：

7.根据权利要求2或6所述的基于变分模态分解和迭代决策树的径流量预测方法，其特征在于，所述GBRT预测模型得到的具体步骤如下：

式中，I为指示函数，即

步骤4.1，初始化f(x)记为f₀(x)：

步骤4.2，算法开始迭代：

第一层循环：m＝1，2，…，M，迭代生成M棵回归树：

式中，f_m-1(x_i)为前m-1棵树得到的径流流量的预测模型；

步骤4.3，根据式(13)更新预测模型f(x)：

f_m(x)＝f_m-1(x)+c_mh_m(x) (13)

步骤4.4，最终得到GBRT预测模型，如式(14)所示：

8.根据权利要求2所述的基于变分模态分解和迭代决策树的径流量预测方法，其特征在于，所述步骤1中径流流量时间序列分为训练集与测试集，首先对训练集数据依次经步骤2-4处理后得到径流流量的预测模型；然后对测试集中的数据依次进行步骤2和步骤3的处理，并利用训练集得到的预测模型对测试集分解得到的子模态进行预测，将各个子模态的预测结果相加得到最终的预测结果；将预测结果与真实数据进行比对，比对结果在误差范围内，则表示预测模型构建完成；若超出误差范围，则重复步骤2-4进行训练。