CN108921279A

CN108921279A - 水库日入水量预测方法

Info

Publication number: CN108921279A
Application number: CN201810252547.9A
Authority: CN
Inventors: 戚玉涛; 杨玲玲; 苗启广; 权义宁; 宋建锋
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2018-03-26
Filing date: 2018-03-26
Publication date: 2018-11-30

Abstract

本发明公开了水库日入水量预测方法，主要解决目前水库日入库量预测模型结构复杂，预测准确度不高的问题。本发明首先通过对数变换降低原始数据的波动性，然后经过LSTM神经网络学习处理后的水库入库量数据变化特征，最后实现水库日入库量的预测。采用LSTM神经网络的方法只需要历史数据的信息就可以充分模拟水文系统的输入输出关系，不需要深入了解系统的基本物理过程。该方法利用了LSTM时间序列分析的优势，LSTM中的输入门，输出门和忘记门使得它可以学习短期和长期时间跨度的时间序列，在水库日入库量序列预测中可以得到更准确的预测结果。

Description

水库日入水量预测方法

技术领域

本发明涉及水文预报技术，具体是一种基于对数变换和LSTM神经网络的水库日入水量预测方法，方法主要用于对水库的每日流入量进行预测以指导水库的管理操作，减少不必要的水资源的释放，可用于水库的干旱管理、洪水的控制、灌溉用水、水利发电、工业生活用水等方面。

背景技术

水库是水资源管理的重要组成部分，有效的水库操作可以减少水的释放。水库的流入量预测对水库的管理操作是至关重要的，流量预测可用于水库的防汛、抗旱、发电、生活用水及改善生态环境等方面，确定合适的模型对未来水库流入量进行预测对于水资源规划是十分重要的。

为了实现水库入库量精确的预测各种预测模型被提出，提出的模型主要分为两大类一种是基于物理的模型，一种是基于数据驱动的模型。

基于物理的模型采用模拟水文过程的数学函数，并且通常涉及在尺度上具有高空间变异性的复杂非线性过程，基于物理模型的数据源可能非常复杂且有限，需要手工校准大量数据实时困难。数据驱动的模型有能力充分模拟水文系统的输入输出关系，而不需要深入了解系统的基本物理过程，数据驱动的方法可直接映射输入变量和输出变量之间的关系来预测流入，因此很多水文研究者就把注意力放在了数据驱动模型方面。

近几年尝试是采用复杂的神经网络方法实现流域模型。这种方法的优势是一个具有足够隐藏层的神经网络能够近似任何连续函数达到任意程度的准确性。例如“基于多尺度特征提取的混合模型预测方法”，该方法采用集合经验模态分解对原始水库数据进行分解，然后合并成三项趋势，周期和随机项，再用基于深度置信网络和神经网络的深度神经网络模型分别对每一项进行预测，虽然该方法在水库日入库量预测方面存在一定的优势但是模型结构较复杂，需要设计三个深度神经网络模型，而且没有考虑利用未来预测和前期入库量的关系和水库日入库量在雨季的波动性，导致模型在洪峰处的预测误差较大。

发明内容

针对现有技术的缺陷或不足，本发明的目的在于提供一种水库日入量预测模型的构建方法。

本发明首先提供了一种水库日入水量预测模型的构建方法。本发明所提供的水库日入水量预测模型构建方法包括：

步骤1，构建训练集，所构建的训练集包含Q个样本，

其中样本x_q＝{x_q1,x_q2,…,x_qu,…，x_qU，x_q(U+1)}表示训练集中的第q个样本，

q＝1,2,3,…,Q，Q为大于等于1的正整数，u＝1,2,3,……,U，U为大于等于1 的正整数，x_qu＝lnx(t),x(t)∈X，X是待预测水库历史日入库量数据序列，x(t) 是待预测水库t日的入水量，U为待预测水库历史日入库量数据序列X的嵌入维数；

步骤2，构建初始LSTM网络模型，所构建的初始LSTM网络模型的输入节点数为U，输出节点数为1；

步骤3：用归一化后的训练集对初始LSTM网络模型进行训练，得到水库日入量预测模型，样本x_q中前U个数据是LSTM网络模型的输入数据，最后一个数据是输入数据对应的目标输出。

本发明提供的一种水库日入量预测方法包括：

步骤(1)、构建样本集，所构建的样本集包含I个样本，其中任意样本 x_i＝{x_i1,x_i2,…,x_id,…,xi_D，x_i(D+1)}表示样本集中的第i个样本，i＝1,2,3,…,I， I为大于等于1的正整数，d＝1,2,3,…,D，D为大于等于1的正整数，x_id＝lnx(t)， x(t)∈X，X是待预测水库历史日入库量数据序列，x(t)是待预测水库t日的入水量，D为待预测水库历史日入库量数据序列X的嵌入维数；

选取样本集中接近预测当年的日入库量数据序列对应的子样本集为测试集，其余的子样本集为训练集；

步骤(2)，构建初始LSTM网络模型，所构建的初始LSTM网络模型的输入节点数均为D，输出节点数均为1；

步骤(3)，用归一化后的训练集对初始LSTM网络模型进行训练，得到水库日入量预测初始模型，样本x_i中前D个数据是模型的输入数据，最后一个数据是输入数据对应的目标输出；

步骤(4)，将归一化后的测试集作为水库日入量预测模型的输入，经模型计算后得到对数预测集，对对数测试集中的各样本进行对数还原得到测试结果集。

优选的，本发明所构建的初始LSTM网络模型的隐藏层数为1、2或3，隐层节点数为5、10、15、20或25。

可选的，本发明待预测水库历史日入库量数据序列X的嵌入维数为采取虚假最近邻点法求取的待预测水库历史日入库量数据序列X的嵌入维数。

进一步，本发明提供的另一种水库日入量预测模型的构建方法包括：

步骤一、构建样本集，所构建的样本集包含I个样本，其中任意样本x_i＝{x_i1,x_i2,…,x_id,…,x_iD，x_i(D+1)}表示样本集中的第i个样本，i＝1,2,3,…,I， I为大于等于1的正整数，d＝1,2,3,…,D，D为大于等于1的正整数，x_id＝lnx(t)， x(t)∈X，X是待预测水库历史日入库量数据序列，x(t)是待预测水库t日的入水量，D为待预测水库历史日入库量数据序列X的嵌入维数；

步骤二，构建多个初始LSTM网络模型，所构建的多个初始LSTM网络模型的输入节点数均为D，输出节点数均为1；所述多个初始LSTM网络模型的隐藏层数不同，分别为1、2或3，所述多个初始LSTM网络模型的隐层节点数不同，为5、10、15、20或25，所述多个隐藏层数取值与多个隐层节点取值之间任意组合；

步骤三，用归一化后的训练集对多个初始LSTM网络模型分别进行训练，得到多个水库日入量预测初始模型；用归一化后的测试集对多个水库日入量预测初始模型分别进行测试，测试结果误差最小的水库日入量预测初始模型为水库日入量预测模型；样本x_i中前D个数据是模型的输入数据，最后一个数据是输入数据对应的目标输出。

进一步，本发明提供的另一种水库日入量预测方法是利用上述所述的归一化后的测试集作为上述方法构建的水库日入量预测模型的输入，经模型计算后得到对数预测集，对对数测试集中的各样本进行对数还原得到测试结果集。

优选的，本发明中待预测水库的历史日入库量数据序列中R-1年前的日入库量数据序列对应的子样本集为训练集，R-1年的日入库量数据序列对应的子样本集为测试集，R是预测当年。

本发明的有益效果是：

第一，由于原始的水库入库量波动性比较大，本发明在原始水库日入库流量序列预处理中采用了对数变换，对数变换可以减缓原始数据的波动性，使得LSTM神经网络更易与学习到数据变化特征，尤其是雨季的入库量变化特征，可以提高模型的预测准确率。

第二，本发明使用了改进的虚假最近邻点法确定输入数据的个数，可以得出预测数据与前几天的数据相关，还确定了神经网络模型的输入节点数。

第三，本发明使用了适用用于时间序列处理的LSTM神经网络模型，由于其内部的输入门，输出门和遗忘门可以使其学习到长期或短期的历史入库数据信息，根据学得到历史入库数据信息对未来水库进行预测，克服了原始模型不能利用的历史前期信息的不足，可以实现水库日流入量的准确预测。

附图说明

图1为本发明与不用对数变换预处理方法直接用本发明构造的LSTM模型在安康水库1/1/1943-12/31/1971年水库入库量上，其中1/1/1943-12/31/1970的入库量为训练集，1/1/1971-12/31/1971的入库量为测试集的预测结果对比图；

图2为本发明与MDFL一种混合预测模型在安康水库1/1/1943-12/31/1971 年水库入库量上，其中1/1/1943-12/31/1970的入库量为训练集， 1/1/1971-12/31/1971的入库量为测试集的预测结果对比图；

图3为本发明与ARIMA模型在安康水库1/1/1943-12/31/1971年水库入库量上，其中1/1/1943-12/31/1970的入库量为训练集，1/1/1971-12/31/1971的入库量为测试集的预测结果对比图；

图4为本发明与D-NN模型在安康水库1/1/1943-12/31/1971年水库入库量上，其中1/1/1943-12/31/1970的入库量为训练集，1/1/1971-12/31/1971的入库量为测试集的预测结果对比图；

图5为本发明与LT-MDFL模型在安康水库1/1/1943-12/31/1971年水库入库量上，其中1/1/1943-12/31/1970的入库量为训练集，1/1/1971-12/31/1971的入库量为测试集的预测结果对比图；

图6为本发明与LT-ARIMA模型在安康水库1/1/1943-12/31/1971年水库入库量上，其中1/1/1943-12/31/1970的入库量为训练集，1/1/1971-12/31/1971的入库量为测试集的预测结果对比图；

图7为本发明与LT-D-NN模型在安康水库1/1/1943-12/31/1971年水库入库量上，其中1/1/1943-12/31/1970的入库量为训练集，1/1/1971-12/31/1971的入库量为测试集的预测结果对比图；

具体实施方式

本发明在对输入水库日流入量数据进行对数变换后，采用改进的虚假最近邻点法确定嵌入维数即LSTM神经网络的输入节点数，然后构造不同隐藏层和节点数的LSTM神经网络模型结构，通过对不同结构的模型进行训练和测试确定网络模型隐藏层数和隐藏层节点数，从而确定网络的最终模型，然后用最终确定的模型对水库日入库量进行预测。下面结合附图对本发明进一步详细描述。

实施例1：

该实施例的水库日入量预测模型的构建方法包括：

步骤1，构建训练集，所构建的训练集包含Q个样本，其中样本

x_q＝{x_q1,x_q2,…,x_qu,…，x_qU，x_q(U+1)}表示训练集中的第q个样本，

实施例2：

该实施例的水库日入量预测方法包括：

步骤(1)、构建样本集，所构建的样本集包含I个样本，其中任意样本 x_i＝{x_i1,x_i2,…,x_id,…,x_iD，x_i(D+1)}表示样本集中的第i个样本，i＝1,2,3,…,I， I为大于等于1的正整数，d＝1,2,3,…,D，D为大于等于1的正整数，x_id＝lnx(t)， x(t)∈X，X是待预测水库历史日入库量数据序列，x(t)是待预测水库t日的入水量，D为待预测水库历史日入库量数据序列X的嵌入维数；

在具体的方案中，初始LSTM网络模型的隐藏层数为1、2或3，隐层节点数为5、10、15、20或25。优选的方案中，待预测水库的历史日入库量数据序列中R-1年前的日入库量数据序列对应的子样本集为训练集，R-1年的日入库量数据序列对应的子样本集为测试集，R是预测当年。

本发明的嵌入维数可采用虚假最近邻点法求取嵌入维数。还可采用：设置任意大于1的整数比如，1到10间隔为1作为LSTM网络的输入节点数进行测试，选取模型测试误差最小是对应的输入节点数为嵌入维数。

实施例3：

本实施例的仿真是在主频3.6GHZ的CPU、内存8GB的硬件环境和 Python3.5.2，tensorflow 1.3.0版本和MATLAB R2016a的软件环境下进行的。

该实施例对入库预测包括以下步骤：

步骤1、构建样本集，所构建的样本集包含I个样本，其中任意样本 x_i＝{x_i1,x_i2,…,x_id,…,x_iD，x_i(D+1)}表示样本集中的第i个样本，i＝1,2,3,…,I， I为大于等于1的正整数，d＝1,2,3,…,D，D为大于等于1的正整数，x_id＝lnx(t)， x(t)∈X，X是待预测水库历史日入库量数据序列，x(t)是待预测水库t日的入水量，D为待预测水库历史日入库量数据序列X的嵌入维数；

步骤2，构建多个初始LSTM网络模型，所构建的多个初始LSTM网络模型的输入节点数均为D，输出节点数均为1；所述多个初始LSTM网络模型的隐藏层数不同，分别为1、2或3，所述多个初始LSTM网络模型的隐层节点数不同，为5、10、15、20或25，所述多个隐藏层数取值与多个隐层节点取值之间任意组合；

步骤3，用归一化后的训练集对多个初始LSTM网络模型分别进行训练，得到多个水库日入量预测初始模型；用归一化后的测试集对多个水库日入量预测初始模型分别进行测试，测试结果误差最小的水库日入量预测初始模型为水库日入量预测模型；样本x_i中前D个数据是模型的输入数据，最后一个数据是输入数据对应的目标输出。

步骤4，用训练集对多个初始LSTM网络模型进行训练，对训练好的多个模型用测试集进行测试，选取测试结果误差(例如测试结果的平均绝对百分比误差)最小的模型作为最终预测模型。

实施例4：

该实施例在上述实施例基础上，输出测试集通过误差最小的水库日入库量模型预测的结果，进行对数还原得到预测值。

实施例5：

采用实施例3和4的方案，该实施例的待预测水库为安康水库，采用该待预测水库的历史日入库量数据序列：1/1/1943-12/31/1971的每日入库数据进行预测。用1/1/1943-12/31/1970的时间序列数据作为训练集， 1/1/1971-12/311971年数据最为测试集，该实施例实验仿真环境为：主频3.6GHz 的CPU、内存8GB的硬件环境和Python3.5.2，tensorflow1.3.0版本和MATLAB R2016a的软件环境。

该实施例用本发明提出的方法与下述七种模型预测方法进行比较：

(1)不经过对数变换预处理直接用实施例3中构造的LSTM模型预测的方法进行对比；

(2)ARIMA模型；

(3)D-NN模型；

(4)MDFL模型；

(5)LT-ARIMA模型：用本发明中提出的对数变换先对原始水库日入库数据进行预处理再用现有的ARIMA方法预测；

(6)LT-D-NN模型：用本发明中提出的对数变换先对原始水库日入库数据进行预处理再用现有的D-NN方法预测；

(7)LT-MDFL模型：用本发明中提出的对数变换先对原始水库日入库数据进行预处理再用现有的MDFL方法预测；

上述模型中，ARIMA(p，d，q)的模型参数设置为p＝4，d＝0，q＝3，MDFL 模型以及D-NN模型，本发明的模型参数设置如表1所示:

表1

图1(a)，2(a)，3(a)，4(a)，5(a)，6(a)，7(a)为用本发明方法对安康水库1971 年日入库量预测结果与日入库观测值的对比图；1(b)，2(b)，3(b)，4(b)，5(b)， 6(b)，7(b)为本发明方法对安康水库1971年日入库量预测值和观测值的散点图； 1(c)，2(c)，3(c)，4(c)，5(c)，6(c)，7(c)分别为用LSTM模型，MDFL模型，ARIMA 模型，D-NN模型，LT-MDFL模型，LT-ARIMA模型，LT-D-NN模型对安康水库1971年日入库量预测结果与日入库观测值的对比图；1(d)，2(d)，3(d)，4(d)， 5(d)，6(d)，7(d)分别为用LSTM模型，MDFL模型，ARIMA模型，D-NN模型， LT-MDFL模型，LT-ARIMA模型，LT-D-NN对安康水库1971年日入库量预测值和观测值的散点图；用不同的预测模型预测结果见表2：

表2

表2给出了八种方法的MAPE值，加粗标注的表示四个算法中最好的值，实验结果的分析，图2、3、4和5分别描述模型LSTM、MDFL模型、ARIMA模型，D-NN模型和本发明方法分别用于安康水库1971年水库日入库量预测的结果，表2给出了不同模型对安康水库1971年预测结果的MAPE评价指标的结果， MAPE的取值越小越好。

图4，5，6和7可以得出，经过对数处理后的四个模型都对1971年安康水库入库量预测取得了较好的结果，所以可以得出本文的用对数变换后，能较好的获取数据的信息，大大减少了数据波动，简化了模型结构，结合表2可以看出取对数后模型在1971年的水库入库预测上MAPE都降到了20％以下。

Claims

1.一种水库日入量预测模型的构建方法，其特征在于，方法包括：

步骤1，构建训练集，所构建的训练集包含Q个样本，其中样本x_q＝{x_q1,x_q2,…,x_qu,…，x_qU，x_q(U+1)}表示训练集中的第q个样本，q＝1,2,3,…,Q，Q为大于等于1的正整数，u＝1,2,3,……,U，U为大于等于1的正整数，x_qu＝lnx(t),x(t)∈X，X是待预测水库历史日入库量数据序列，x(t)是待预测水库t日的入水量，U为待预测水库历史日入库量数据序列X的嵌入维数；

2.如权利要求1所述的水库日入量预测模型的构建方法，其特征在于，所构建的初始LSTM网络模型的隐藏层数为1、2或3，隐层节点数为5、10、15、20或25。

3.如权利要求1所述的水库日入量预测模型的构建方法，其特征在于，所述待预测水库历史日入库量数据序列X的嵌入维数为采取虚假最近邻点法求取的待预测水库历史日入库量数据序列X的嵌入维数。

4.一种水库日入量预测方法，其特征在于，方法包括：

步骤(1)、构建样本集，所构建的样本集包含I个样本，其中任意样本x_i＝{x_i1,x_i2,…,x_id,…,x_iD，x_i(D+1)}表示样本集中的第i个样本，i＝1,2,3,…,I，I为大于等于1的正整数，d＝1,2,3,…,D，D为大于等于1的正整数，x_id＝lnx(t)，x(t)∈X，X是待预测水库历史日入库量数据序列，x(t)是待预测水库t日的入水量，D为待预测水库历史日入库量数据序列X的嵌入维数；

5.如权利要求4所述的水库日入量预测方法，其特征在于，所构建的初始LSTM网络模型的隐藏层数为1、2或3，隐层节点数为5、10、15、20或25。

6.如权利要求4所述的水库日入量预测模型的构建方法，其特征在于，所述待预测水库历史日入库量数据序列X的嵌入维数为采取虚假最近邻点法求取的待预测水库历史日入库量数据序列X的嵌入维数。

7.如权利要求4所述的水库日入量预测模型的构建方法，其特征在于，待预测水库的历史日入库量数据序列中R-1年前的日入库量数据序列对应的子样本集为训练集，R-1年的日入库量数据序列对应的子样本集为测试集，R是预测当年。

8.一种水库日入量预测模型的构建方法，其特征在于，方法包括：

步骤一、构建样本集，所构建的样本集包含I个样本，其中任意样本x_i＝{x_i1,x_i2,…,x_id,…,x_iD，x_i(D+1)}表示样本集中的第i个样本，i＝1,2,3,…,I，I为大于等于1的正整数，d＝1,2,3,…,D，D为大于等于1的正整数，x_id＝lnx(t)，x(t)∈X，X是待预测水库历史日入库量数据序列，x(t)是待预测水库t日的入水量，D为待预测水库历史日入库量数据序列X的嵌入维数；

9.权利要求8所述的水库日入量预测模型的构建方法，其特征在于，待预测水库的历史日入库量数据序列中R-1年前的日入库量数据序列对应的子样本集为训练集，R-1年的日入库量数据序列对应的子样本集为测试集，R是预测当年。

10.一种水库日入量预测方法，其特征在于，方法包括：利用权利要求8所述的归一化后的测试集作为权利要求8所述方法构建的水库日入量预测模型的输入，经模型计算后得到对数预测集，对对数测试集中的各样本进行对数还原得到测试结果集。