CN110110921A

CN110110921A - 一种考虑时滞效应的河流水位预测方法

Info

Publication number: CN110110921A
Application number: CN201910363381.2A
Authority: CN
Inventors: 黄解军; 赵力学; 王欢; 周晗; 詹云军
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-08-09

Abstract

本发明公开了一种考虑时滞效应的河流水位预测方法，包括如下步骤，1：基于分布滞后模型确定上下游水位的滞后值；2：基于VMD模型分解水位数据；3：重构VMD分解分量得到分量组合；4：基于BP神经网络进行重构分量组合的训练及预测。分布滞后模型是基于时间序列的回归模型，可反映变量之间的滞后效应，为确定上下游水位的滞后值提供了一种有效的方法。变分模态分解方法是一种处理非线性、非平稳信号的分析方法，可依据信号的特点进行线性化和平稳化的处理。BP神经网络是一种对非线性函数进行权值训练的多层映射网络，具有较好的非线性拟合。该方法将三个模型结合起来，充分发挥各自的特点和优势，实现基于上游水位对下游水位的预测和预报，并取得较好的预测精度。

Description

一种考虑时滞效应的河流水位预测方法

技术领域

本发明涉及水资源管理技术领域，具体涉及一种集成分布滞后模型、变分模态分解和BP神经网络的河流水位预测方法。

背景技术

水位是反映流域水情最直观的因素，也是水文预报和水资源评价的重要指标。水位信息有助于了解河流水位的动态变化，对于防洪抗旱和水资源调度具有重要参考价值。河流水位预测有利于掌握水位信息及洪涝情况，提前做好预警工作，最大限度降低洪涝灾害造成的损失。同时，水位监测设备昂贵，水文监测站建设和管理需要耗费大量的资金和精力。结合上游水位数据预测下游水位信息，有利于指导水文站网的合理规划和优化配置，将大大减少水文监测站的建设和维护费用。

河流水位信息受到气候气象、地形地貌、植被覆盖和人类活动等多种因素的影响，具有复杂多变的特点，因而往往难以确定。对于同一河流，下游水位直接受到上游水位的影响。分布滞后模型(DLM)是基于时间序列的回归模型，可反映变量之间的滞后效应，广泛应用于经济、环境、地学等领域，为确定上下游水位的滞后值提供了一种有效的方法。

河流水位预测主要包含数据获取和方法建模两个环节。目前，水位预测对于数据源的选择主要从两个方面入手：(1)从水位的时间序列出发，通常是日水位、月水位时间序列，通过挖掘时间序列的多层次特征，建立水位预测数值模型。(2)从影响水位变化的因素中，寻求有效因素，如河流流量、降雨量、蒸发量等，建立与水位信息相关的经验、物理模型。然而，影响水位变化的因素众多，难以完全覆盖，且加入这些复杂的因素易导致模型的构建难度增大。

水位预测的方法通常有数理统计和智能方法两种。相比于数理统计，人工智能具有适用面广、预测精度较高的优点，成为目前研究的热点。为了提高水位预测精度，通常需要集成多种方法模型。Seo和Kim结合小波分解和数据驱动模型预测河流水位，结果表明小波分解提高了人工神经网络和ANFIS模型预测河流水位的精度。但小波分解的缺点之一是不同的母小波具有不同的分解性能。变分模态分解(VMD)在一定程度上克服了小波分解存在的问题，逐渐应用于分析非线性随机信号，其最大的特点是可以将信号分解为固定数量、包含原信号特征信息的有限宽带的本征模态函数(BLIMF)，降低信号的波动性。

发明内容

本发明通过分析河流上下游水位之间的关联性和滞后性，提出了一种集成分布滞后模型、变分模态分解和BP神经网络的水位预测方法。该方法通过分布滞后模型分析上、下游水位的关联性和滞后性以确定模型的输入数据，并利用变分模态分解方法对数据序列进行平稳化处理，降低数据波动性，再利用BP神经网络进行训练及预测，实现基于上游水位对下游水位的预测和预报。

本发明中，分布滞后模型是基于时间序列的回归模型，可反映变量之间的滞后效应，可作为确定上下游水位的滞后值的有效方法。BP神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络，具有易于构建、自适应和实时学习的特点，适合处理复杂、非线性的水位数据。VMD模型是一种新的信号分析方法，将复杂的、非线性、不对称的序列数据分解为多个相对平稳的、频率逐级变化的本征模态函数(BLIMF)，适用于处理水位数据的波动性。

为解决上述技术问题，本发明公开的一种考虑时滞效应的河流水位预测方法，其特征在于，它包括如下步骤：

步骤1：基于分布滞后模型确定上下游水位的滞后值；

对上下游水文站的水位时间序列数据构建分布滞后模型，通过设置不同的滞后值，得到下游水位对应的分布滞后模型，并计算模型的赤池信息量准则、施瓦茨准则、汉南-奎因信息准则指标值(AIC(赤池信息量准则)、SC(施瓦茨准则)、HQ(汉南-奎因信息准则))，综合考虑三个指标值最小时的滞后值即为分布滞后模型的最佳滞后值n，该方法的目的是预测下游水文站的水位，因此输入数据是上游水位序列{x₀(t),x₁(t)...x_n(t)}，输出数据是下游水文站的水位y(t)，其中x_n(t)表示上游水文站前n+1天的第t个水位数据；y(t)表示对应下游水文站当天的第t个水位数据；

步骤2：基于VMD模型分解水位数据；

利用VMD模型对输入数据{x₀(t),x₁(t)...x_n(t)}和输出数据y(t)分别进行平稳化处理，分解为表示输入数据和输出数据特征的多个分量{x_0k(t),x_1k(t)...x_nk(t)},k＝{1,2,…,K}和y_k(t),k＝{1,2,…,K}，K代表最大分解个数，x_nk(t)表示上游水文站前n+1天的第t个水位数据的第k个分量；y_k(t)表示下游水文站第t个水位数据的第k个分量；

步骤3：重构VMD分解分量得到分量组合；

将输入数据和输出数据经过VMD分解得到的分解分量{x_0k(t),x_1k(t)...x_nk(t)},k＝{1,2,…,K}和y_k(t),k＝{1,2,…,K}按其对应的分解量进行重构，即输入数据和输出数据VMD分解的分量分别按第一分量、第二分量一直到第k分量的形式进行组合，形成如下公式所示的数据组合，F_k表示第k个分量组合，x_nk表示第n+1个输入变量的第k个分量，y_k表示输出变量的第k个分量；

步骤4：基于BP神经网络进行重构分量组合的训练及预测；

将重构分量组合{F₁,F₂,...F_k,k＝{1,2,…,K}分别进行BP神经网络训练，得到训练好的神经网络，之后将需要预测的下游水位数据对应的上游水位的输入数据输入到训练好的神经网络进行预测，得到每个分量组合的预测值D_k，之后将每个分量组合的预测值叠加得到最终的下游水位的预测值D，D_k表示第k个分量组合的预测值，D表示最终预测值；

D＝D₁+D₂+…+D_k。

上述技术方案的步骤1中分布滞后模型确定滞后值的方法为：

步骤101：阿尔蒙变换；

对于分布滞后模型Y_t为自变量；X_t-i为因变量X的第i期滞后；i表示滞后期；β_i(i＝1,2,…,s)为动态乘数或回归系数，表示X_t-i的变动对Y_t影响的大小，s表示最大滞后期；α为截距项；μ_t是随机误差值，假定回归系数β_i用一个关于滞后期i的适当阶数的多项式来表示，即

β_i＝α₀+α₁(i+1)+α₂(i+1)²+…+α_m(i+1)^m i＝1,2,…,s

其中α₀,α₁,α₂,…,α_m表示多项式表达式待估计的参数，m是多项式的次数且满足m＜s-1；

对上述公式进行阿尔蒙变换，得到

之后定义新变量将上述公式模型转换为：

Y_t＝α+α₀W_0t+α₁W_1t+α₂W_2t+…+α_mW_mt+μ_t

其中W_0t,W_1t,W_2t,…,W_mt表示定义的新变量；

步骤102：模型的最小二乘估计；

对转换后得到的公式Y_t＝α+α₀W_0t+α₁W_1t+α₂W_2t+…+α_mW_mt+μ_t进行最小二乘估计，得到新定义变量的参数估计值并将取代β_i＝α₀+α₁(i+1)+α₂(i+1)²+…+α_m(i+1)^m中的α₀，α₁，α₂，...α_m，并求出对应的滞后分布模型参数的回归系数估计值得到最终的分布滞后模型；

步骤103：滞后值n的确定

设置不同的滞后值，依次从1-10之间进行设置，得到其对应的分布滞后模型，再根据滞后值的选取准则得到最佳滞后值n，根据滞后值个数确定方法的输入数据{x_0k(t),x_1k(t)…x_nk(t)}，即x_nk(t)为滞后期为n的上游水位数据，

滞后值通常根据赤池信息量准则、施瓦茨准则、汉南-奎因信息准则指标值确定，三个指标值保持最小即为最佳滞后值。

上述技术方案的步骤2中VMD分解分量方法为：

步骤201：变分模态分解的构建；

初始化输入数据分解模态集合{x_nk ¹}、其对应的中心频率{ω_nk ¹}和循环算子n，构建变量x_nk的约束变分公式：

式中，{x_nk}:＝{x_n1,...,x_nk}是第n+1个变量分解的k个分量的集合，{ω_nk}:＝{ω_n1,…,ω_nk}是第n+1个变量分解的分量对应的中心频率的集合，表示所有分量的和，x_n是原始输入数据，即滞后期为n的上游水位数据，x_nk(t)表示上游水文站前n+1天的第t个水位数据的第k个分量，表示对t求偏导数，t表示分析信号的个数，δ(t)表示脉冲函数，j表示叙述单位，*表示卷积，表示希尔伯特变换得到的分析信号的指数谐调项，x_nk(t)表示上游水文站前n+1天的第t个水位数据的第k个分量；

步骤202：引入拉格朗日算子λ_n(t)和二次惩罚项α计算得到增广拉格朗日公式并初始化；采用交替方向乘子法迭代更新各分解模态及其中心频率并计算E，其中表示x_nk的第n次迭代结果，表示x_nk对应的中心频率ω_nk的第n次迭代结果；

步骤203：重复步骤202直到满足收敛条件E＜ε，ε表示给定的判别精度(10^-7)，表示x_nk的第m次迭代结果；

步骤204：输出集成方法输入数据的VMD分解组合{x_n1,x_n2,...,x_nk}，x_nk表示第n+1个输入变量的第k个分量；

步骤205：输出集成方法输出数据的VMD分解组合{y₁,y₂,...,y_k}，y_k表示输出变量的第k个分量。

上述技术方案的步骤4中BP神经网络的训练及预测的方法为：

步骤401：数据归一化；

对重构的分量组合进行归一化处理，消除单位差异和异常数据的影响，同时归一化处理可加快网络的收敛，减少运行时间，因为进行VMD分解后得到的有限宽带的本征模态函数中既有正数也有负数，因此将分解后得到的有限宽带的本征模态函数归一化映射到[-1,1]；

步骤402：信号正向传播；

输入数据x_nk进入BP神经网络的输入层，累加x_nk与输入层和隐藏层之间的权值w_nh和偏置值θ_n的乘积传入隐藏层，经过传递函数f_S(x)的计算后得到隐藏层输出，之后与隐藏层与输出层的权值w_h和偏置值θ_h的乘积后传入输出层，得到输出信号y_k，上述传递函数f_S(x)为双极S型函数，其中net为输入隐藏层的数据，sig(n)表示sig三角计算函数，e为自然对数；

步骤403：信号反向传播；

根据神经网络在训练的过程中产生的预测输出信号y_k和对应的期望输出d_k计算得到误差E，判断误差是否小于给定值ε，如果大于则将该误差反向传播给隐藏层求其误差梯度，更新权值和偏置值；并返回正向传播中进行计算，直到误差小于期望误差或者达到最大迭代次数，得到最终训练的网络；

步骤404：迭代；

重复上述步骤401～403分别得到每个分量组合训练后的网络；

步骤405：叠加得到预测值；

将需要预测的下游水位数据对应的上游水位的输入数据输入到对应的训练后的网络，得到每个组合的预测值D_k；将上述得到的预测值叠加得到最终的预测值；

D＝D₁+D₂+…+D_k。

本发明的有益效果为：

1、分布滞后模型是基于时间序列的回归模型，可反映变量之间的滞后效应，为确定上下游水位的滞后值提供了一种有效的方法。

2、结合VMD在处理具有波动数据上的优势以及BP神经网络较好的非线性拟合能力，实现基于上游水位对下游水位的预测和预报，达到了提高预测精度的目的。

附图说明

图1为本发明的流程图；

图2为VMD模型流程；

图3为BP神经网络结构图；

图4为模型预测误差分布的箱线图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细说明：

本发明的一种考虑时滞效应的河流水位预测方法，如图1所示，它包括如下步骤：

步骤1：基于分布滞后模型确定上下游水位的滞后值

对上下游水文站的水位时间序列数据构建分布滞后模型。通过设置不同的滞后值，得到其对应的分布滞后模型，并计算模型的AIC(赤池信息量准则)、SC(施瓦茨准则)、HQ(汉南-奎因信息准则)指标值。综合考虑三个指标值最小时的滞后值即为模型的最佳滞后值n。该方法的目的是预测下游水文站的水位，因此输入数据是上游水位序列{x₀(t),x₁(t)...x_n(t)}，输出数据是下游水文站的水位y(t)。其中x_n(t)表示上游水文站前n+1天的第t个水位数据；y(t)表示对应下游水文站当天的第t个水位数据。

步骤2：基于VMD模型分解水位数据

利用VMD模型对输入数据{x₀(t),x₁(t)…x_n(t)}和输出数据y(t)分别进行平稳化处理，分解为表示输入数据和输出数据特征的多个分量{x_0k(t),x_1k(t)…x_nk(t)},k＝{1,2,…,K}和y_k(t),k＝{1,2,…,K}。x_nk(t)表示上游水文站前n+1天的第t个水位数据的第k个分量；y_k(t)表示下游水文站第t个水位数据的第k个分量。

步骤3：重构VMD分解分量得到分量组合{F₁,F₂,…F_k,k＝{1,2,…,K}

将输入数据和输出数据经过VMD分解得到的分解分量{x_0k(t),x_1k(t)…x_nk(t)},k＝{1,2,…,K}和y_k(t),k＝{1,2,…,K}按其对应的分解量进行重构，即输入数据和输出数据VMD分解的分量分别按第一分量、第二分量一直到第k分量的形式进行组合，形成如下公式所示的数据组合，F_k表示第k个分量组合，x_nk表示第n+1个输入变量的第k个分量，y_k表示输出变量的第k个分量。

步骤4：基于BP神经网络进行重构分量组合的训练及预测

将重构分量组合{F₁,F₂,...F_k,k＝{1,2,…,K}分别进行BP神经网络训练，得到训练好的神经网络。之后将需要预测的下游水位数据对应的上游水位的输入数据输入到训练好的神经网络进行预测，得到每个分量组合的预测值D_k，之后将每个分量组合的预测值叠加得到最终的下游水位的预测值D。D_k表示第k个分量组合的预测值，D表示最终预测值。

D＝D₁+D₂+…+D_k

上述技术方案中步骤1的具体方法为：

步骤101：阿尔蒙变换

对于分布滞后模型假定其回归系数β_i可用一个关于滞后期i的适当阶数的多项式来表示，即

对上述公式进行阿尔蒙变换，得到

之后定义新变量将上述公式模型转换为：

Y_t＝α+α₀W_0t+α₁W_1t+α₂W_2t+…+α_mW_mt+μ_t

步骤102：模型的OLS估计

对转换后得到的公式进行OLS估计。将得到的参数估计值代入上述公式，求出滞后分布模型参数的估计值得到最终的分布滞后模型。

步骤103：滞后值n的确定

设置不同的滞后值，得到其对应的分布滞后模型，再根据滞后值的选取准则得到最佳滞后值n，确定集成方法的输入数据{x_0k(t),x_1k(t)...x_nk(t)}。

上述技术方案中步骤2的具体方法为：

步骤201：变分模态分解的构建

式中，{x_nk}:＝{x_n1,...,x_nk}是第n+1个变量分解的k个分量的集合，{ω_nk}:＝{ω_n1,...,ω_nk}是第n+1个变量分解的分量对应的中心频率的集合，表示所有分量的和，x_n是原始输入数据，表示对t求偏导数，t表示分析信号的个数，δ(t)表示脉冲函数，j表示叙述单位，*表示卷积，表示希尔伯特变换得到的分析信号的指数谐调项；

步骤203：重复步骤202直到满足收敛条件E＜ε，ε表示给定的判别精度，表示x_nk的第次迭代结果；

步骤204：输出集成方法的输入数据的VMD分解组合{x_n1,x_n2,...,x_nk}，x_nk表示第n+1个输入变量的第k个分量；

步骤205：输出集成方法的输出数据的VMD分解组合{y₁,y₂,…,y_k}，y_k表示输出变量的第k个分量。

上述技术方案中步骤4的具体方法为：

步骤401：数据归一化

步骤402：信号正向传播

输入数据x_nk进入BP神经网络的输入层，累加x_nk与输入层和隐藏层之间的权值w_nh和偏置值θ_n的乘积传入隐藏层，经过传递函数f_S(x)的计算后得到隐藏层输出，之后与隐藏层与输出层的权值w_h和偏置值θ_h的乘积后传入输出层，得到输出信号y_k。上述传递函数f_S(x)为双极S型函数，其中net为输入隐藏层的数据，e为自然对数；

步骤403：信号反向传播

根据神经网络在训练的过程中产生的预测输出信号y_k和对应的期望输出d_k计算得到误差E，判断误差是否小于给定值ε，如果大于则将该误差反向传播给隐藏层求其误差梯度，更新权值和偏置值；并返回正向传播中进行计算，直到误差小于期望误差或者达到最大迭代次数，得到最终训练的网络。

步骤404：迭代

重复上述步骤401～403分别得到每个分量组合训练后的网络；

步骤405：叠加得到预测值

将需要预测的下游水位数据对应的上游水位的输入数据输入到对应的训练后的网络，得到每个组合的预测值D_k；将上述得到的预测值叠加得到最终的预测值。

D＝D₁+D₂+…+D_k

本实施例以长江干流螺山和汉口水文监测站2010-2013年共1350组日水位数据作为研究数据，随机选取135个(10％)数据作为测试数据，剩余的数据作为训练数据。

步骤1：基于分布滞后模型确定上下游水位的滞后值

分布滞后模型可以反映解释变量对被解释变量的影响，利用分布滞后模型分析上游螺山水文站和下游汉口水文站之间的水位关系，确定两站之间的滞后期，得到模型的输入数据。

计算分布滞后模型在不同滞后期下AIC、SC、HQ指标的值，其结果如表1所示。结合选取准则(AIC、SC、HQ值最小)，最终确定模型最佳滞后值为3，即输入数据为螺山水文站当天水位、前一天水位、前两天水位、前三天水位。模型的目的是预测汉口水文站的水位，因此输出数据是汉口水文站当天水位。

表1分布滞后模型结果

步骤2：基于VMD模型分解水位数据

将步骤1得到的输入数据及输出数据分别进行VMD分解。为避免过多分解带来的误差以及减少后期BP神经网络的构建量，将输入数据和输出数据分解为三个分量，分别为反映原始数据基本趋势的趋势量、频率波动较低的低频量以及频率波动较大的高频量。VMD模型参数设计如表2所示。

表2 VMD主要参数

步骤3：重构VMD分解分量得到分量组合

将步骤2输入数据和输出数据分解的三个分量进行组合，形成表示趋势量、低频量、高频量的三组分量组合。

步骤4：基于BP神经网络进行重构分量组合的训练及预测

将训练数据的三组分量组合分别进行BP神经网络训练，BP神经网络的参数设计如表3所示。之后利用训练好的网络对测试数据进行预测，得到预测值，并与实测值进行比较，计算得到模型的RE(相对误差)、RMSE(均方根误差)、MAE(平均绝对误差)。

表3 BP神经网络主要参数

为检验集成方法的合理性和准确性，将结果与回归模型、单输入BP神经网络、多输入BP神经网络的预测结果进行比较，具体误差如表2所示。集成方法模型误差最小，其次是多输入BP神经网络模型，再之后是回归模型，单输入BP神经网络模型的效果最差。

表2模型误差比较

各方法对于13-18米、18-23米、23-28米不同水位段预测误差分布的箱线图如图4所示。可以看出，在不同水位段，集成方法的预测误差分布都最接近于0轴，表明集成方法预测精度最高。水位在13-18米，各个模型在低估误差分布比较接近，而集成方法在高估误差上分布更接近于0轴。水位在18-23米，各个模型在高估误差分布比较相似，集成方法在的低估预测上小于其他模型。水位在23-28米，模型在低估和高估误差上都比较接近。结果表明，集成方法相比于其他模型在中低水位预测上有较大的优势。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种考虑时滞效应的河流水位预测方法，其特征在于，它包括如下步骤：

步骤1：基于分布滞后模型确定上下游水位的滞后值；

对上下游水文站的水位时间序列数据构建分布滞后模型，通过设置不同的滞后值，得到下游水位对应的分布滞后模型，并计算模型的赤池信息量准则、施瓦茨准则、汉南-奎因信息准则指标值，综合考虑三个指标值最小时的滞后值即为分布滞后模型的最佳滞后值n，该方法的目的是预测下游水文站的水位，因此输入数据是上游水位序列{x₀(t),x₁(t)...x_n(t)}，输出数据是下游水文站的水位y(t)，其中x_n(t)表示上游水文站前n+1天的第t个水位数据；y(t)表示对应下游水文站当天的第t个水位数据；

步骤2：基于VMD模型分解水位数据；

步骤3：重构VMD分解分量得到分量组合；

步骤4：基于BP神经网络进行重构分量组合的训练及预测；

D＝D₁+D₂+…+D_k。

2.根据权利要求1所述的考虑时滞效应的河流水位预测方法，其特征在于：步骤1中分布滞后模型确定滞后值的方法为：

步骤101：阿尔蒙变换；

β_i＝α₀+α₁(i+1)+α₂(i+1)²+…+α_m(i+1)^m i＝1,2,…,s

对上述公式进行阿尔蒙变换，得到

之后定义新变量将上述公式模型转换为：

Y_t＝α+α₀W_0t+α₁W_1t+α₂W_2t+…+α_mW_mt+μ_t

其中W_0t,W_1t,W_2t,…,W_mt表示定义的新变量；

步骤102：模型的最小二乘估计；

步骤103：滞后值n的确定

设置不同的滞后值，依次从1-10之间进行设置，得到其对应的分布滞后模型，再根据滞后值的选取准则得到最佳滞后值n，根据滞后值个数确定方法的输入数据{x_0k(t),x_1k(t)...x_nk(t)}，即x_nk(t)为滞后期为n的上游水位数据，

3.根据权利要求1所述的考虑时滞效应的河流水位预测方法，其特征在于：步骤2中VMD分解分量方法为：

步骤201：变分模态分解的构建；

式中，{x_nk}:＝{x_n1,...,x_nk}是第n+1个变量分解的k个分量的集合，{ω_nk}:＝{ω_n1,...,ω_nk}是第n+1个变量分解的分量对应的中心频率的集合，表示所有分量的和，x_n是原始输入数据，即滞后期为n的上游水位数据，x_nk(t)表示上游水文站前n+1天的第t个水位数据的第k个分量，表示对t求偏导数，t表示分析信号的个数，δ(t)表示脉冲函数，j表示叙述单位，*表示卷积，表示希尔伯特变换得到的分析信号的指数谐调项，x_nk(t)表示上游水文站前n+1天的第t个水位数据的第k个分量；

步骤203：重复步骤202直到满足收敛条件E＜ε，ε表示给定的判别精度，表示x_nk的第m次迭代结果；

4.根据权利要求1所述的考虑时滞效应的河流水位预测方法，其特征在于：步骤4中BP神经网络的训练及预测的方法为：

步骤401：数据归一化；

步骤402：信号正向传播；

步骤403：信号反向传播；

步骤404：迭代；

重复上述步骤401～403分别得到每个分量组合训练后的网络；

步骤405：叠加得到预测值；

D＝D₁+D₂+…+D_k。