CN115186857A

CN115186857A - 一种基于集成学习的神经网络水库水位预测方法

Info

Publication number: CN115186857A
Application number: CN202210302734.XA
Authority: CN
Inventors: 方骏; 殷召生; 徐培辉; 高阳; 李晓轩; 秦民; 曹新
Original assignee: National Energy Group Tibet Niyang River Basin Hydropower Development Co ltd
Current assignee: National Energy Group Tibet Niyang River Basin Hydropower Development Co ltd
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-10-14

Abstract

本发明公开一种基于集成学习的神经网络水库水位预测方法，该方法包括：选取水库空间上相邻的各个水位站长期流入的水位历史数据，形成数据集；对数据集进行数值变换，即数据归一化，得到标准数据集，并对标准数据集划分为训练集、验证集和测试集；构建基于集成学习的神经网络模型，定义损失函数；选择标准数据集的数据对神经网络模型进行训练，并对训练后网络模型进行验证调参；采用Epoch‑Wise Bagging集成学习策略，选择验证后的M个最优网络模型进行测试，最终根据各个水位站的实时来水量组合预测水库未来1天以内的实时水位空间分布。该方法不仅考虑了水库水位流入水量数据时间关联性，还考虑了各个水位站间的空间相关性，更好地挖掘水库水位变化规律。

Description

一种基于集成学习的神经网络水库水位预测方法

技术领域

本发明属于水库水位实时预测技术领域，具体涉及一种基于集成学习的神经网络水库水位预测方法。

背景技术

水库水位是维持其生态系统结构、功能和完整性的基础。正常蓄积的水位决定水库的规模，效益和调节方式，同时又决定水工建筑物的尺寸，型式和水库的淹没损失，是水库调度最重要的一项特征任务。与此同时，水位作为水库水情变化最直接和最重要的指示，在现代湖泊研究中具有重大现实意义，寻求有效的水库水位模拟方法已成为当前研究所面临的一个重要而又紧迫的任务。

一种常用的水库水位预测方法是借助水库水位监测系统中的水位变化历史数据做输入，通过提取其统计学特征(例如均值、方差、最大值和最小值等)进而预测未来某个时间段内的水位变化趋势。从目前已有的预测效果来看，由于水库空间上相邻水位站的流入影响，基于统计学方法的水位预测精度低，预测稳定度不好。近年来，随着大数据技术、机器学习算法的普及，应用人工智能方法实时预测水库水位成为研究热点。

水库水位历史数据属于时间序列数据，空间上相邻水位站的水量流入后经过水库的调蓄作用，导致水位和流量并不总是同步变化，存在明显的相位滞后效应。应用人工智能方法，比如机器学习技术和深度学习技术，能够有效挖掘水库相邻各个水位站水流和水库水位的潜在时间关系，进而实现高精度实时预测未来某一时刻的水库水位情况。

发明内容

发明目的：根据上述提出的技术问题，而提供的一种基于集成学习的神经网络水库水位预测方法。本发明基于水库空间上相邻各个水位站采集到的水位历史数据，构建基于卷积神经网络和长短期时间记忆网络的神经网络水库水位预测模型，并使用Epoch-WiseBagging集成学习策略优化模型精度。一方面，使用二维卷积神经网络捕捉空间上不同位置水位站之间水位值的某种关联，从而提高模型的信息提取能力；另一方面，使用长短期时间记忆网络学习水库水位的时间依赖关系和变化趋势，从而提高模型水位预测的精度。

技术方案：为了解决上述技术问题，本发明提出了一种基于集成学习的神经网络水库水位预测方法，该方法包括以下步骤：

步骤1：收集水库空间上相邻的各个水位站预设时间段内流入的水位历史数据以形成水库水位样本数据；

步骤2：对步骤1中的水库水位样本数据进行数值变换，即数据归一化，以此得到标准数据集，并对标准数据集划分为训练集、验证集和测试集；

步骤3:构建基于卷积神经网络和长短期时间记忆网络混合模型，定义模型损失函数；

步骤4:使用步骤2中的训练集训练步骤3中构建的神经网络模型，并使用梯度下降策略对步骤3的损失函数进行优化；

步骤5:使用步骤2中的验证集对神经网络模型进行调参，通过多次验证从而确定模型的网络权重参数，并保存验证过程中预测精度最高的M个最优模型；

步骤6:根据Epoch-Wise Bagging集成学习策略，选择步骤5中经过验证集验证后的M个最优网络模型，使用步骤2中的测试集对这M个最优网络模型进行测试；

步骤7:将各个水位站的实时来水量组合输入到M个最优网络模型中，将这M个最优网络模型对应的M个输出结果以加权求平均的方法计算得到最终的模型输出以预测水库未来1天以内的实时水位空间分布。

进一步的，步骤1中，所述对水位历史数据进行收集并形成用于预测水库水位的输入样本数据集，其形状表示为[N,t,k]，其中，N代表水库水位的输入数据总样本量，k代表水库空间上的相邻水位站的个数，以每天为最小为单位，t表示每个水位站在连续t天的水位值。

进一步的，步骤2中的数据归一化为：

其中，X_cur分别是t和k当前需要被归一化的数值；X_min分别是t和k的最小值；X_max分别是t和k的最大值；

将经过归一化后的输入数据样本按照8:1:1的比例划分为训练集、验证集和测试集。

进一步的，步骤3中，所述卷积神经网络和长短期时间记忆混合模型具体包括以下几层，依次为：输入层、3个二维卷积层、第一层LSTM层、第二层LSTM层、输出层；

输入层的数据为[N,t,k]，其中，N代表水库水位数据样本量，k代表水库空间上的相邻水位站的个数，以每天为最小为单位，t表示每个水位站在连续t天内的水位值；二维卷积层共三层，分别表示为C1、C2、C3，其中卷积层表示为：C＝f(wx+b)，其中，f为激活函数，三层均为ReLU激活函数，为了匹配二维卷积操作，将输入层扩展一个维度，扩展后的输入形状为[N,t,k,1]，通过设置卷积核的尺寸及padding操作，进一步得到经过三层二维卷积层后的输出，其输出维度为[N,m,k,256]，其中，m表示经过三层卷积后的数值，其包括t天内的水位时间变化规律；输出通道数为256，其综合了k个水位站之间的水位变化数据；

将上述经过三层卷积后的输出维度进行合并，得到输出形状为[N,m*k*256]以匹配第一个LSTM层的输入，经过第一层LSTM的输出形状为[N,256]，其中，中间隐藏层的神经元数量为256，最后将输出送入第二层LSTM并得到形状为[N,512]的输出，其中输出神经元的数量为512；

输出层为全连接层，接收来自第二层LSTM的输出作为其输入，并得到形状为[N,5]的输出，其中，5表示为未来一天内5个下游水位站的日平均水位数据；

所述损失函数为：

其中，Y^obs为实际水库水位值，Y^pre为上述神经网络模型的预测值，N表示总样本数。

进一步的，步骤4和步骤5中，网络训练过程中采用基于梯度下降策略的Adam优化器对权重参数进行优化，批处理参数batch_size设置为200，训练轮数设置为100，学习率设置为0.0001，使用Dropout正则化方法以降低网络过拟合；基于训练集搭建好网络模型后，进在验证集上调节网络的超参数，通过多次验证从而确定模型的网络权重参数，并保存验证过程中预测精度最高的M个最优模型。

进一步的，步骤6中，所述Epoch-Wise Bagging集成学习策略包括：基于训练集搭建卷积神经网络和长短期时间记忆混合模型，通过验证集调节网络的权重参数并保存M个最优精度模型作为基学习器，然后选择这M个最优基学习器进行集成学习测试进而输出M个最优基学习器的预测结果。

本发明人提出一种基于集成学习的神经网络水库水位预测系统，该系统包括以下步骤：

数据收集模块：收集水库空间上相邻的各个水位站预设时间段内流入的水位历史数据以形成水库水位样本数据；

数据处理模块：对水库水位样本数据进行数值变换，即数据归一化，以此得到标准数据集，并对标准数据集划分为训练集、验证集和测试集；

神经网络构建模块：构建基于卷积神经网络和长短期时间记忆网络混合模型，定义模型损失函数；

神经网络训练模块：使用训练集训练构建的神经网络模型，并使用梯度下降策略对损失函数进行优化；

神经网络优化模块：使用验证集对神经网络模型进行调参，通过多次验证从而确定模型的网络权重参数，并保存验证过程中预测精度最高的M个最优模型；

最优网络模型选择模块:根据Epoch-Wise Bagging集成学习策略，选择经过验证集验证后的M个最优网络模型，使用测试集对这M个最优网络模型进行测试；

水位分布预测模块:将各个水位站的实时来水量组合输入到M个最优网络模型中，将这M个最优网络模型对应的M个输出结果以加权求平均的方法计算得到最终的模型输出以预测水库未来1天以内的实时水位空间分布。

优选的，数据收集模块中，所述对水位历史数据进行收集并形成用于预测水库水位的输入样本数据集，其形状表示为[N,t,k]，其中，N代表水库水位的输入数据总样本量，k代表水库空间上的相邻水位站的个数，以每天为最小为单位，t表示每个水位站在连续t天的水位值。

优选的，数据处理模块中，数据归一化为：

优选的，神经网络构建模块中，所述卷积神经网络和长短期时间记忆混合模型具体包括以下几层，依次为：输入层、3个二维卷积层、第一层LSTM层、第二层LSTM层、输出层；

所述损失函数为：

有益效果：与现有技术相比，本发明的技术方案具有以下有益效果：

本发明的模型的计算精度既能够随着水库运行数据的积累不断提高，又对边界条件准确性的依赖低，能有效克服传统水动力学和机器学习方法计算精度不高、网络收敛慢等问题；在水库汛期调度中，可精准地预测水未来时刻实时水位，为大型水库或梯级水库的防洪、兴利调度决策提供强有力的技术支撑。

附图说明

图1为本发明的方法流程示意图；

图2为本发明的水库水位预测模型结构示意图；

图3为本发明实施例提供的水位站的空间关系示意图；

图4为本发明实施例的水库水位预测模型的训练过程示意图；

图5为本发明实施例的水库水位预测模型与其他模型的预测结果对比示意图。

具体实施方式

以下将结合附图和具体实施，对本发明的技术方案及效果进行详细说明。

本发明提出一种基于集成学习的神经网络水库水位预测方法，该方法包括以下步骤：

步骤1中，所述对水位历史数据进行收集并形成用于预测水库水位的输入样本数据集，其形状表示为[N,t,k]，其中，N代表水库水位的输入数据总样本量，k代表水库空间上的相邻水位站的个数，以每天为最小为单位，t表示每个水位站在连续t天的水位值。

步骤2中的数据归一化为：

步骤3中，所述卷积神经网络和长短期时间记忆混合模型具体包括以下几层，依次为：输入层、3个二维卷积层、第一层LSTM层、第二层LSTM层、输出层；

所述损失函数为：

步骤4和步骤5中，网络训练过程中采用基于梯度下降策略的Adam优化器对权重参数进行优化，批处理参数batch_size设置为200，训练轮数设置为100，学习率设置为0.0001，使用Dropout正则化方法以降低网络过拟合；基于训练集搭建好网络模型后，进在验证集上调节网络的超参数，通过多次验证从而确定模型的网络权重参数，并保存验证过程中预测精度最高的M个最优模型。

步骤6中，所述Epoch-Wise Bagging集成学习策略包括：基于训练集搭建卷积神经网络和长短期时间记忆混合模型，通过验证集调节网络的权重参数并保存M个最优精度模型作为基学习器，然后选择这M个最优基学习器进行集成学习测试进而输出M个最优基学习器的预测结果。

实施例

如图3所示，以东江水库的水位站为例进一步说明本发明的技术方案，具体地：

第一步，获取与东江水库空间上相邻的7个水位站1956-2000年的水文时间序列数据作为水位数据样本。经过数据归一化处理后得到相应的训练集、验证集和测试集。其中1956-1990年的数据样本为训练集，1990-1995年的数据样本为验证集，1995-2000年的数据样本为测试集。

第二步，构建基于卷积神经网络和长短期时间记忆网络混合模型。水库水位预测模型具体包括：网络输入层、3个二维卷积层、第一层LSTM层、第二层LSTM层、输出层。使用赣江外洲站、抚河李家渡站、信江梅港站、饶河渡峰坑站、虎山站、修水万家埠站和汉口站7个站的水位数据参与联动预测，将其作为输入送入该水位预测模型，并预测未来一天内湖口站、星子站、都昌站、吴城站和康山站5个代表站的水位。为了提高该水库水位模型的预测精度，以每天为最小单位，t在实际测试场景中设置为7，即每个水位站连续7天内的水位值。其中，输入输出前后的形状分别为[N,7,7,1]和[N,5]。

第三步，图4为训练过程示意图。其中使用MSE(均方根误差函数)损失函数训练网络，采用Adam优化器对权重参数进行优化，批处理参数batch_size设置为200，epoch设置为100，学习率设置为0.0001，为防止网络过拟合，使用Dropout正则化手段。

第四步，在实际预测时，基于Epoch-Wise Bagging集成学习策略，根据这7个水位站的实时来水量，使用经过加权组合后的网络模型实时预测东江水库未来一天以内这5个代表站的水位空间分布情况。进一步地，该网络模型和其他水位预测模型进行了比较，图5为该实施例的水位预测模型与其他模型的预测结果对比示意图。

综上所述，本发明利用卷积神经网络和长短期时间记忆网络混合模型，基于Epoch-Wise Bagging集成学习策略能够很好地捕捉各个水位站的水位变化趋势。一方面，使用二维卷积神经网络捕捉空间上不同位置水位站之间水位值的某种关联，从而提高模型的信息提取能力；另一方面，使用长短期时间记忆网络学习水库水位的时间依赖关系和变化趋势，从而提高模型水位预测的精度。

最后应说明的是，以上实施例仅用来说明本发明的技术方案，而非对其限制。凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围内。

Claims

1.一种基于集成学习的神经网络水库水位预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于集成学习的神经网络水库水位预测方法，其特征在于，步骤1中，所述对水位历史数据进行收集并形成用于预测水库水位的输入样本数据集，其形状表示为[N,t,k]，其中，N代表水库水位的输入数据总样本量，k代表水库空间上的相邻水位站的个数，以每天为最小为单位，t表示每个水位站在连续t天的水位值。

3.根据权利要求1所述的一种基于集成学习的神经网络水库水位预测方法，其特征在于，步骤2中的数据归一化为：

4.根据权利要求1所述的一种基于集成学习的神经网络水库水位预测方法，其特征在于，步骤3中，所述卷积神经网络和长短期时间记忆混合模型具体包括以下几层，依次为：输入层、3个二维卷积层、第一层LSTM层、第二层LSTM层、输出层；

所述损失函数为：

5.根据权利要求4所述的一种基于集成学习的神经网络水库水位预测方法，其特征在于，步骤4和步骤5中，网络训练过程中采用基于梯度下降策略的Adam优化器对权重参数进行优化，批处理参数batch_size设置为200，训练轮数设置为100，学习率设置为0.0001，使用Dropout正则化方法以降低网络过拟合；基于训练集搭建好网络模型后，进在验证集上调节网络的超参数，通过多次验证从而确定模型的网络权重参数，并保存验证过程中预测精度最高的M个最优模型。

6.根据权利要求5所述的一种基于集成学习的神经网络水库水位预测方法，其特征在于，步骤6中，所述Epoch-Wise Bagging集成学习策略包括：基于训练集搭建卷积神经网络和长短期时间记忆混合模型，通过验证集调节网络的权重参数并保存M个最优精度模型作为基学习器，然后选择这M个最优基学习器进行集成学习测试进而输出M个最优基学习器的预测结果。

7.一种基于集成学习的神经网络水库水位预测系统，其特征在于，该系统包括以下步骤：

8.根据权利要求7所述的一种基于集成学习的神经网络水库水位预测系统，其特征在于，数据收集模块中，所述对水位历史数据进行收集并形成用于预测水库水位的输入样本数据集，其形状表示为[N,t,k]，其中，N代表水库水位的输入数据总样本量，k代表水库空间上的相邻水位站的个数，以每天为最小为单位，t表示每个水位站在连续t天的水位值。

9.根据权利要求7所述的一种基于集成学习的神经网络水库水位预测系统，其特征在于，数据处理模块中，数据归一化为：

10.根据权利要求9所述的一种基于集成学习的神经网络水库水位预测系统，其特征在于，神经网络构建模块中，所述卷积神经网络和长短期时间记忆混合模型具体包括以下几层，依次为：输入层、3个二维卷积层、第一层LSTM层、第二层LSTM层、输出层；

所述损失函数为：