CN111695290B

CN111695290B - 一种适用于变化环境下的短期径流智能预报混合模型方法

Info

Publication number: CN111695290B
Application number: CN202010408229.4A
Authority: CN
Inventors: 王秀杰; 王艳鹏; 袁佩贤; 苑希民
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2024-04-09
Anticipated expiration: 2040-05-14
Also published as: CN111695290A

Abstract

本发明公开一种适用于变化环境下的短期径流智能预报混合模型方法，包括步骤：使用改进的VMD算法将原始的径流序列分解成k个IMFs，使得原序列变成多个更加稳定的子序列；用偏自相关函数PACF确定LSTM模型的输入步长，并使用PSO算法对LSTM网络的多个参数进行优化；使用优化得出的参数建立网络，并使用相应的子序列数据进行网络的训练；使用训练好的网络，对子序列进行预测；对各IMFs分量的预测结果求和，得到最终结果。本发明的模型预测结果可为防洪规划、水库调度和水资源配置等水资源规划管理活动提供可靠依据。

Description

一种适用于变化环境下的短期径流智能预报混合模型方法

技术领域

本发明涉及变化环境下水文时间序列预测模型方法，特别是涉及一种适用于变化环境下的短期径流智能预报混合模型方法。

背景技术

近年来，受到全球气候变化和人类活动的双重影响，流域产汇流条件发生巨大改变，水文系统更加复杂，许多水文气象因素的非平稳特征愈发显著，表现为一个复杂的非平稳、非线性过程，如何提高变化环境下水文预测精度对于防洪规划、水电站运行和水资源配置等水资源规划管理活动具有重要意义。

受气候、流域下垫面条件以及人类活动等综合因素的影响，日径流表现出更强的非平稳、非线性、变异性等特性，使得日径流的预测难度加大。因此，需寻求一种能够有效从非平稳序列中提取具有实际物理意义的特征信号的方法，才能准确地进行日径流预测。

目前针对日径流预测的方法主要分为基于物理机制的过程驱动模型和基于数据分析的数据驱动模型两大类。过程驱动模型基于大气环流、长期天气过程的演变规律和流域下垫面物理状况模拟径流形成的物理过程，如基于物理的分布式或半分布式水文模型以及基于概念的模型，包括Horton模型、Philip模型、新安江模型等，但这些模型方法存在着诸多问题：①回归形式单一，公式表达式单一，难以完全适应所有的水文过程模拟；②参数化问题，如参数的异质性导致预测精度较差等；③过程的复杂性，很多控制径流的过程不是简单的物理过程，而是化学或者生物过程以及人类活动等；而数据驱动模型则通过获取数据关系来快速预测径流的变化过程，忽略复杂的下垫面情况、水文过程，对复杂的非线性系统尤为有效。常见的预测模型有人工神经网络模型(ANN)、支持向量机(SVM)、自适应神经模糊推理系统(ANFIS)等。模型的机理是通过大量样本不断训练以实现误差最小化，普遍存在着易陷入局部最优或收敛不佳、过拟合现象突出、对参数依赖性强等弊端，这些在一定程度上制约了预测模型的实用性和可解释性。

尽管以上数据驱动方法较传统过程驱动方法有一定的优势，但受限于径流过程本身的复杂性和非平稳性，仅依靠预测模型很难对径流序列特征进行精确分辨和识别。越来越多的研究表明，对于复杂的非平稳时间序列，有效的序列分解方法有助于提高模型的预测精度。常见的序列分解方法有经验模态分解方法(EMD)、集成经验模态分解方法(EEMD)、互补集成经验模态分解方法(CEEMD)、小波分解方法(WT)、变分模态分解方法(VMD)等。相较于单一预测模型，EMD分解后的预测模型稳定性有所提高，然而，由于固有的信号间歇性，EMD方法存在模式混频缺陷，限制了其在实际中的广泛应用；EEMD方法通过加入随机白噪声来减弱随机误差对原序列的影响，但也增加了EEMD分解后的重构误差；相比EEMD分解，CEEMD在一定程度上抑制了模态混淆问题，但出现了较多的伪分量；而WT分解需要预先确定分解层数和选择合适的小波基，不合适的小波基和分解层数将会导致高频分量分解效果较差。相比WT分解和CEEMD分解两种方法，VMD分解具有有效减少伪分量、避免模态混叠现象等优势，具有更好的噪声鲁棒性。

因此，将VMD分解和参数优化纳入短期径流智能混合预测模型，能有效地提高非平稳、非线性的复杂时间序列数据的预测精度，径流预测结果可为水资源优化管理和水库优化调度提供技术支持，具有广泛的应用前景和实用意义。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷，而提供一种适用于变化环境下的短期径流智能预报混合模型方法，是一种基于变分模态分解－长短期记忆网络混合模型(VMD-LSTM)的日径流预测方法。

为实现本发明的目的所采用的技术方案是：

适用于变化环境下的短期径流智能预报混合模型方法，包括：

第一阶段，使用改进的VMD算法将原始的径流序列分解成k个IMFs，使得原序列变成多个更加稳定的子序列；

第二阶段，采用偏自相关函数PACF确定LSTM模型的输入步长，并使用PSO算法对LSTM网络的多个参数进行优化(包含LSTM隐层节点数、学习率)；

第三阶段，使用优化得出的参数建立网络，并使用相应的子序列数据进行网络的训练；

第四阶段，使用训练好的网络，对子序列进行预测；

第五阶段，对各IMFs分量的预测结果求和，即可得到最终结果。

上述五个阶段的步骤具体实施如下：

步骤一：分解

VMD用于将原始日径流序列分解为离散的固有模态函数(IMFs)，以产生具有相似特征的信号作为模型输入。

VMD是根据输入信号的频域特性自适应分解为k个离散的固有模态函数(IMFs)，u_k。IMFs是调幅调频(AM-FM)信号，表示如下：

u_k(t)＝A_k(t)cos(φ_k(t))

式中:A_k(t)和φ_k(t)分别为瞬时幅值和瞬时相位。相位φ_k(t)为非减函数，瞬时角频率ω_k(t)＝φ′_k(t)。

为了获得每个模态函数u_k的带宽，构建如下约束变分模型：

式中δ(t)为冲击函数，ω_k为第k个IMF分量的中心频率，为u_k(t)的希尔伯特变换。

其中，约束变分模型的最优解通过交替方向乘子算法(alternate directionmethod of multipliers，ADMM)进行求解，最终得到IMFs分量。

VMD分解虽具有较好的分解效果，但存在确定分解层数k的不确定性问题，因此，本发明采用排列熵优化算法(permutation entroy optimization，PEO)实现分解层数k的自适应确定。该算法可以根据待分解信号的特点自适应的确定分解层数k；该算法的原理是对原始信号分解得到的每层固有模态函数进行排列熵的计算，由于异常分量具有随机性，所以其排列熵值远大于正常分量，因此设定排列熵的阈值H_p后，通过判断分解结果中每层IMF的排列熵是否大于阈值H_p，从而判断分解结果中是否有异常分量。其中，排列熵阈值H_p取0.6。

该算法的具体步骤如下:

(1)设定k的初始值为2，排列熵的阈值取经验值0.6；

(2)采用VMD算法对原始信号进行分解，得到k个固有模态函数IMF_i(t)(i＝1～k)；

(3)计算分解结果中每个IMF的排列熵pe_i(i＝1～k)；

(4)判断pe_i是否大于阈值0.6，若是，说明分解结果出现了过分解，导致出现异常分量，停止循环，进入步骤(5)；若不是，则说明未出现过分解，原始信号还需要加大分解层数，即令k＝k+1，返回步骤(2)，根据更新后的k值，继续对原始信号进行VMD分解。

(5)令k＝k-1，输出最优k，采用VMD算法对序列进行最终的分解，得到k个IMFs。

步骤二：参数优化

众所周知，输入步长、隐层节点数和学习率等关键参数对LSTM模型的预测性能有很大影响。为了找出时间滞后对当前t时段径流的影响，采用偏自相关函数(PACF)确定LSTM模型的输入步长；而隐层节点数(HN)和权值系数的学习率(α)则直接影响着LSTM网络的输出，因此，利用PSO优化HN和α。

(1)输入步长的确定

偏自相关函数(PACF)确定LSTM模型的输入步长是通过分析偏自相关图确定输入变量，即对应于滞后长度的PACF图来确定。具体而言，假设输出变量为x_i，在滞后k的PACF超出95％置信区间的情况下，前k个变量即为输入变量。

对于径流序列，滞后k处的协方差γ_k值为：

式中为径流序列的平均值，M＝n/4为最大滞后系数，k为自相关函数的滞后长度，ρ_k可以表示为：

基于协方差公式，滞后k(k＝1,2,…,M)处的PACFf_kk可表示为：

根据各IMF序列的PACF值，分析各IMF中数据之间的相关性，并通过相关性选择各预测模型的最优输入步长。

(2)隐层节点数(HN)和学习率(α)的确定

利用PSO算法优化参数的过程如下：

1.初始化粒子群

由给定的种群规模、速度区间和搜索空间，初始化种群所有粒子的位置[X₁,X₂,X₃,···,X_N]和速度[V₁,V₂,V₃,···，V_N]，其中N为种群规模。初始的位置和速度都是一定范围内的随机值。每个粒子的位置X_i是由隐层节点数和学习率组成的二维向量(HN_i，α_i)，i为第i个粒子。

2.计算每个粒子当前位置的适应度(fitness)，并找到全局和局部最优位置

分别用每个粒子位置X_i＝(HN_i，α_i)中包含的参数，构建LSTM网络模型。将训练集输入LSTM网络进行计算，使用RSME作为适应度函数，计算公式如下：

其中N是训练集的数据个数，Y_i(n)是LSTM网络第n个训练观测值的训练输出，Y_o(n)是第n个观测值的实际观测值。这里适应度越小就意味着该粒子的位置越好。

计算每一个粒子对应的适应度，并记录粒子i历史上适应度最小时的位置即个体极值，记为pbest_i。以及所有粒子历史上适应度最小时的位置即全局极值，记为gbest。

3.更新每个个体的位置和速度

使用以下公式进行粒子位置和速度的更新：

V_i＝ω×V_i+c₁×rand×(pbest_i-X_i)+c₂×rand×(gbest-X_i)

X_i＝X_i+V_i

在上述公式中，rand：介于0到1的随机数；c₁，c₂是学习因子，一般取c₁＝c₂＝2；ω为惯性因子，一般取ω＝0.6。特别的，V_i的最大值为V_max(速度边界)，若V_i大于V_max，则V_i＝V_max。

4.重复2，3两步，直到精度达到要求或达到最大迭代次数。

5.此时的全局最优位置gbest＝(HN_best，α_best)，即为PSO输出的最优参数。

步骤三：网络训练

使用步骤二得到的最优参数(HN_best，α_best)和输入步长建立LSTM网络。将分解后的IMF分量数据按下式进行归一化处理(由于径流序列具有高度非线性和非平稳性，因此必须对输入数据进行归一化，以避免训练过程中数据出现大的波动)，变为[0,1]区间的数。之后，根据构建网络的相关参数，对数据进行格式化。最后将格式化后的数据输入网络进行训练。

式中：x_maxandx_min分别为IMF数据中的最大值和最小值。

步骤四：预测

将步骤三训练的LSTM模型作为预测工具，每个分解的IMF对应一个LSTM预测模型。通过对模型IMFs的预测结果进行求和，得到最终的预测结果。

步骤五：模型精度评估

利用Nash Sutcliffe效率系数(NSE)、均方根误差(RMSE)和相关系数(R)对预测模型精度进行评价。NSE是一个归一化的统计量，计算剩余方差与实测值方差的相对大小。NSE取值为负无穷至1，NSE接近1，表示模型质量好，可信度高。

NSE、R和RMSE统计量的表达如下：

式中：O_i是实测值，P_i是模拟值，是实测平均值，/>为模拟值均值，n为实测值的个数。NSE>0.5，R_e<±25％，则模型精度满足要求。NSE、R的值越接近于1时，其模拟结果越精确。

本发明本发明针对变异条件下的径流序列的非线性、非平稳特性，提出一种变化环境下的短期径流智能预报混合模型方法，即变分模态分解－长短期记忆网络混合模型(VMD-LSTM-PSO)。改进的VMD分解具有自适应性和强降噪性能，在利用VMD分解方法进行数据预处理时，可以生成更清晰的信号作为模型输入，能精确地分辨和识别径流过程的周期性、趋势性和随机性等特征；LSTM-PSO算法不仅继承了LSTM算法的优点，而且利用PSO算法优化了模型网络参数，能有效提高预测模型的参数迭代速度，避免陷入局部最优；总而言之，VMD-LSTM-PSO混合模型克服了传统RNN学习长期依赖关系的缺点，具有较强的非线性预测能力，能够捕获时间序列的长期相关性，收敛速度快，是一种精度较高且行之有效的日径流预测方法，且模型预测结果可为防洪规划、水库调度和水资源配置等水资源规划管理活动提供可靠依据。

附图说明

图1为变化环境下水文时间序列VLP预测模型方法流程图；

图2为PSO算法流程图；

图3为基于PACF法的利津站输入步长识别图；

图4为以利津站为例的VMD分解各分量预测结果图

图5为以利津站为例的VMD-LSTM-PSO最终预测结果图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1-3所示，本发明的适用于变化环境下的短期径流智能预报混合模型方法，其处理步骤，包括以下几个阶段：

第一阶段，使用改进的VMD算法将原始的径流序列分解成k个IMFs，使得原序列变成多个更加稳定的子序列；第二阶段，采用偏自相关函数(PACF)确定LSTM模型的输入步长，并使用PSO算法对LSTM网络的多个参数进行优化(主要有LSTM隐层节点数、学习率)。第三阶段，使用优化得出的参数建立网络，并使用相应的子序列数据进行网络的训练。第四阶段，使用训练好的网络，对子序列进行预测。最后，对各IMFs分量的预测结果求和，即可得到最终结果。

下面以头道拐站、龙门站、花园口站及利津站为例详述本发明。主要步骤如下：

步骤一：分解

VMD方法根据输入信号的频域特性自适应分解为k个离散的固有模态函数(IMFs)，u_k。IMFs是调幅调频(AM-FM)信号，表示如下：

u_k(t)＝A_k(t)cos(φ_k(t))

为了获得每个模态函数u_k的带宽，构建如下约束变分模型：

为了能够自适应地确定分解层数k，本发明使用排列熵优化算法(permutationentroy optimization，PEO)，该算法可以根据待分解信号的特点自适应的确定分解层数k；该算法的原理是对原始信号分解得到的每层固有模态函数进行排列熵的计算，由于异常分量具有随机性，所以其排列熵值远大于正常分量，因此设定排列熵的阈值H_p后，通过判断分解结果中每层IMF的排列熵是否大于阈值H_p，从而判断分解结果中是否有异常分量。其中，排列熵阈值H_p取0.6。

该算法的具体步骤如下:

(1)设定k的初始值为2，排列熵的阈值取经验值0.6；

(3)计算分解结果中每个IMF的排列熵pe_i(i＝1～k)；

以头道拐1954-2006、龙门1956-2005、花园口1957-2012及利津站1950-2014年日径流序列为研究对象，采用所述改进的VMD方法和排列熵优化算法分别对头道拐年、龙门、花园口及利津站的日径流序列进行分解，可自适应得到k个分量。头道拐、龙门、花园口及利津站VMD分解所得IMFs数如表1所示(黄河干流四个测站日径流VMD分解结果统计)，其中，以利津站为例其分解结果如图4所示。

表1

步骤二：参数优化

(1)输入步长的确定

对于径流序列，滞后k处的协方差γ_k值为：

基于协方差公式，滞后k(k＝1,2,…,M)处的PACFf_kk可表示为：

利津站的PACF图如图3所示，各测站输入、输出变量汇总于表2(各测站输入步长优化)。

表2

(2)隐层节点数(HN)和学习率(α)的确定

利用PSO算法优化参数的过程如下：

1.初始化粒子群

3.更新每个个体的位置和速度

使用以下公式进行粒子位置和速度的更新：

V_i＝ω×V_i+c₁×rand×(pbest_i-X_i)+c₂×rand×(gbest-X_i)

X_i＝X_i+V_i

4.重复2，3两步，直到精度达到要求或达到最大迭代次数。

基于步骤二分解结果，建立每个分量的LSTM-PSO预测模型。最终确定模型输入层节点数等于输入变量数，隐藏层数为2，输出层节点数为1。

步骤三：网络训练

式中：x_maxandx_min分别为IMF数据中的最大值和最小值。

步骤四：预测

基于上述VMD-LSTM-PSO模型对头道拐、龙门、花园口、利津站的日径流进行预见期为1天的预测。即基于VMD分解结果，将t时刻数据作为输出，t时刻之前数据(取决于输入步长)作为输入构建每个IMFs的LSTM-PSO预测模型。最后，对各IMFs分量的预测结果求和，即可得到最终结果。并选用NashSutcliffe效率系数(NSE)、均方根误差(RMSE)和相关系数(R)对预测模型精度进行评价。

预测模型中，将日径流数据分为训练集和验证集两部分，本发明选用后三年的数据进行验证，其余用于训练。利津站各分量预测结果及最终预测结果如图4和图5所示。各测站预测结果汇总于表3。

表3

步骤五：预测结果分析

分析图4、图5和表3可知，各测站预测精度均较高，且序列分解后的预测效果远优于未分解序列的预测效果，说明通过信号分解技术产生更清晰的信号输入有助于提高模型精度。

头道拐站未分解序列预测精度为：NSE＝0.9383、RMSE＝76.9076、R＝0.9715；分解后预测精度为：NSE＝0.9857、RMSE＝37.022、R＝0.9931。

龙门站未分解序列预测精度为：NSE＝0.7445、RMSE＝161.1504、R＝0.8718；分解后预测精度为：NSE＝0.8743、RMSE＝113.0444、R＝0.9449。

花园口站未分解序列预测精度为：NSE＝0.9204、RMSE＝210.4759、R＝0.9598；分解后预测精度为：NSE＝0.976、RMSE＝115.5117、R＝0.99。

利津站未分解序列预测精度为：NSE＝0.9676、RMSE＝132.9087、R＝0.985；分解后预测精度为：NSE＝0.9942、RMSE＝56.3752、R＝0.9972。

其中，龙门站的预测结果较差应归因于黄河中游复杂的下垫面条件。龙门站位于黄土高原，水土流失严重，日径流变化规律更为复杂。

本发明针对气候变化和人类活动双重影响下的水文系统(变异条件下的径流序列的非线性、非平稳特性)，提出一种变化环境下水文时间序列VLP预测模型方法，即变分模态分解－长短期记忆网络混合模型(VMD-LSTM-PSO)。改进的VMD分解具有自适应性和强降噪性能，在利用VMD分解方法进行数据预处理时，可以生成更清晰的信号作为模型输入，较为精确地分辨和识别径流过程的周期性、趋势性和随机性等特征；LSTM-PSO算法不仅继承了LSTM算法的优点，而且利用PSO算法优化了模型网络参数，能有效提高预测模型的参数迭代速度，避免陷入局部最优。

总而言之，VMD-LSTM-PSO混合模型克服了传统RNN学习长期依赖关系的缺点，具有较强的非线性预测能力，能够捕获时间序列的长期相关性，收敛速度快，是一种精度较高且行之有效的日径流预测方法，且模型预测结果可为防洪规划、水库调度和水资源配置等水资源规划管理活动提供可靠依据。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.适用于变化环境下的短期径流智能预报混合模型方法，其特征在于，包括步骤：

第一阶段.使用改进的VMD算法将原始的径流序列分解成k个固有模态函数IMFs，使得原序列变成多个更加稳定的子序列；

第二阶段.采用偏自相关函数PACF确定LSTM模型的输入步长，并使用PSO算法对LSTM网络的隐层节点数HN和学习率α进行优化；

第三阶段.使用优化得出的参数建立LSTM网络，并使用相应的子序列数据进行网络的训练；

第四阶段.使用训练好的网络作为预测工具，对子序列进行预测，每个分解的固有模态函数IMF对应一个LSTM预测模型；

第五阶段.对各IMFs分量的预测结果求和，即可得到最终结果；

所述第一阶段的步骤如下：

(1)设定k的初始值为2，排列熵的阈值取经验值0.6；

(2)采用VMD算法对原始信号进行分解，得到k个固有模态函数IMF_i(t)，i＝1～k；

(3)计算分解结果中每个IMF的排列熵pe_i，i＝1～k；

(4)判断pe_i是否大于阈值0.6，若是，停止循环，进入步骤(5)；若不是，则令k＝k+1，返回步骤(2)，根据更新后的k值，继续对原始信号进行VMD分解；

(5)令k＝k-1，输出最优k，采用VMD算法对序列进行最终的分解，得到k个IMFs；偏自相关函数PACF确定LSTM模型的输入步长是通过分析偏自相关图确定输入变量，即对应于滞后长度的PACF图来确定；假设输出变量为x_i，在滞后k的PACF超出95％置信区间的情况下，前k个变量即为输入变量；

对于径流序列，滞后k处的协方差γ_k值为：

式中,为径流序列的平均值，M＝n/4为最大滞后系数，k为自相关函数的滞后长度,ρ_k表示为：

基于协方差公式，滞后k(k＝1,2,…,M)处的PACF f_kk表示为：

根据各IMF序列的PACF值，分析各IMF中数据之间的相关性，并通过相关性选择各预测模型的最优输入步长；

隐层节点数HN和学习率α的确定步骤如下：

(1).初始化粒子群

由给定的种群规模、速度区间和搜索空间，初始化种群所有粒子的位置[X₁,X₂,X₃,···,X_N]和速度[V₁,V₂,V₃,···，V_N]，其中N为种群规模,初始的位置和速度都是一定范围内的随机值,每个粒子的位置X_i是由隐层节点数和学习率组成的二维向量(HN_i，α_i)，i为第i个粒子；

(2).计算每个粒子当前位置的适应度fitness，并找到全局和局部最优位置；

分别用每个粒子位置x_i＝(HN_i，α_i)中包含的参数，构建LSTM网络模型；将训练集输入LSTM网络进行计算，使用RSME作为适应度函数，计算公式如下：

其中N是训练集的数据个数，Y_i(n)是LSTM网络第n个训练观测值的训练输出，Y_o(n)是第n个观测值的实际观测值；

计算每一个粒子对应的适应度，并记录粒子i历史上适应度最小时的位置即个体极值，记为pbest_i，以及所有粒子历史上适应度最小时的位置即全局极值，记为gbest；

(3).更新每个个体的位置和速度

使用以下公式进行粒子位置和速度的更新：

V_i＝ω×V_i+c₁×rand×(pbest_i-X_i)+c₂×rand×(gbest-X_i)，

X_i＝X_i+V_i，

上述公式中，rand：介于0到1的随机数；c₁,c₂是学习因子，c₁＝c₂＝2；ω为惯性因子，ω＝0.6,V_i的最大值为V_max，若V_i大于V_max，则V_i＝V_max,

(4).重复(2)，(3)两步，直到精度达到要求或达到最大迭代次数；

(5).此时的全局最优位置gbest＝(HN_best，α_best)，即为PSO输出的最优参数。

2.根据权利要求1所述适用于变化环境下的短期径流智能预报混合模型方法，其特征在于，LSTM网络训练的步骤如下：

使用得到的最优参数(HN_best，α_best)和输入步长建立LSTM网络，将分解后的IMF分量数据按下式进行归一化处理，变为[0,1]区间的数；之后根据构建网络的相关参数对数据进行格式化；最后将格式化后的数据输入网络进行训练；

式中：x_maxand x_min分别为IMF数据中的最大值和最小值。

3.根据权利要求2所述适用于变化环境下的短期径流智能预报混合模型方法，其特征在于，LSTM预测模型训练好后，进一步包括如下的模型评价步骤：

利用Nash Sutcliffe效率系数NSE、均方根误差RMSE和相关系数R对预测模型精度进行评价；NSE、R和RMSE统计量的表达如下：

式中，O_i是实测值，P_i是模拟值，是实测平均值，/>为模拟值均值，n为实测值的个数，NSE>0.5，R_e<±25％，则模型精度满足要求，NSE、R的值越接近于1时，其模拟结果越精确。