CN115907062A

CN115907062A - 一种基于均匀设计与人工神经网络的水文预报方法

Info

Publication number: CN115907062A
Application number: CN202210418075.6A
Authority: CN
Inventors: 童海滨; 郭同泽; 刘徐然; 梅心悦; 马嘉玉; 张琦玉; 沈诗艺; 施星宇; 全澍
Original assignee: Henan University
Current assignee: Henan University
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2023-04-04

Abstract

本发明涉及一种基于均匀设计与人工神经网络的水文预报方法，主要通过计算机程序，将均匀设计方法应用于人工神经网络模型的变量选取与参数调节，进而对水文预报结果进行优化，从而进行流量预测。该方法包括：对气象水文数据进行特征提取并进行预处理，并将提取出的气象水文数据集划分为训练集与测试集两部分；通过均匀设计调节网络参数与输入变量；根据训练数据集训练人工神经网络模型；采用测试集对优化后的人工神经网络模型进行径流量预测；通过确定性系数、相对偏差来衡量测试集上的预报精度；比较各方案的预报精度，选取最优组合方案，得出最优预报结果。

Description

一种基于均匀设计与人工神经网络的水文预报方法

技术领域

本发明设计水文预报领域，特别涉及一种基于均匀设计与人工神经网络的水文预报方法。

背景技术

传统水文模型多运用参数化方法描述流域降雨径流过程的时空分布、物理过程与边界条件。随着水文预报领域研究的不断深入，其时空特征愈发精细，时间精度可达到分钟级别，空间精度可以达到米级别；物理机制愈发复杂，地表到地下、坡面到河道均有着不同的物理机制；边界条件愈发多样。复杂的时空特征、物理机制与边界条件导致水文模型越发复杂，数据获取越发苦难，同时也降低了水文模型的效率，大大增加了预报结果的不确定性。同时，流域产流汇流理论缺乏重大突破，使得在水文预报领域需要一种新方法来进行短功耗、高精度的预测工作。

近年来，随着计算机技术的高速发展，长时段多流域的水文气象资料观测取得了巨大进步，这为水文预报提供了大量的数据支持，同时，人工神经网络也在这一时期取得了快速发展，已被广泛应用于解决非线性拟合问题。在这种背景下，使用人工神经网络进行水文预报成为了可能。递归神经网络是人工神经网络的一种，其结构适用于时间序列数据的关系模拟，并且已被应用在流域降雨汇流模拟的研究中。但是，递归神经网络在处理长时间序列的数据时存在梯度消失与梯度爆炸等问题。为此，研究学者提出了许多解决方案，其中应用最为广泛的方法即为长短时记忆神经网络。长短时记忆神经网络是递归神经网络的一种，它通过增加输入门限、遗忘门限与输出门限，巧妙的解决了梯度消失与梯度爆炸等问题。

然而在实际应用时，由于神经网络参数众多，这使得神经网络的参数调节成为了十分耗费时间的工作，如何通过试验设计，求取最优结果，成为了神经网络模型训练时的难题。均匀设计又称为均匀设计试验法，是一种只考虑试验点在试验范围内均匀散布的一种试验设计方法。其设计试验次数少、均匀性好，并且对非线性模型有较好的估计，使用均匀设计进行人工神经网络参数条件，可以提高预测精度，并且可以节省大量时间。

发明内容

本发明基于均匀设计法，通过调节人工神经网络参数，旨在提出一种新的人工网络模型降雨径流预测方法，以用于水文预报。这种方法试验次数少，并且预测精度较高，可以有效提高人工神经网络的预测能力，从而进行较为精确的水文预报。

发明的具体步骤如下：

步骤I：对气象水文数据进行特征提取及预处理，得到气象水文数据集，并将气象水文数据集划分为训练集与测试集，

采用计算机程序读取和存储某一水文监测站一定时期内的气象数据与水文数据，其中气象数据包括日降雨量、最高温度、最低温度、日照时长、压强、辐射强度，水文数据包括日径流量。随后按照日期，提取出当前日期前15天的降雨量、辐射强度与日径流量，并作为变量添加进气象水文数据集中，构建出最终气象水文数据集。最后按照7∶3的比例将气象水文数据集划分为训练集与测试集。

步骤II：对已经构建的气象水文数据集进行预处理

本发明的数据集预处理工作分为两部分，分别为：缺失值填补与数据标准化。对于缺失值选取该日期前3天与后3天的平均值代替缺失值，以短期趋势来对缺失值进行替代更加合理。数据标准化采用最大值-最小值标准化进行处理。对数据标准化处理可加快网络训练收敛速度，提高模型训练的精度，消除范围较大的特征值给梯度更新所带来的影响。

步骤III：利用均匀设计表设计输入变量以及神经网络中隐藏层的神经元个数，

采用均匀设计，构建出2因素5水平的均匀设计使用表，其中因素包括：第一个因素为前N天的降雨量、辐射强度和日径流量，其4个水平分别为：前1天，前3天，前10天，前15天，前20天；第二个因素为LSTM神经网络模型中的隐藏层神经元个数，其4个水平为：32个隐藏层神经元、64个隐藏层神经元、96个隐藏层神经元、128个隐藏层神经元、160个神经元。按照使用表中的组合，依次选取不同的变量与隐藏层个数进行模型训练。

步骤IV：根据提取预处理后的气象水文数据集，按照均匀设计使用表，将变量加入人工神经网络模型，并进行模型训练。

本发明中，人工神经网络模型由LSTM模型与1层全连接层组合而成，其中LSTM模型隐藏层的层数设置为1层；人工神经网络模型输入变量为前N天的降雨量、辐射强度和日径流量，前一天的最高温度、最低温度、日照时长、压强；输出为4×1的矩阵，其内容分别为：当天、预见期为1天、预见期为2天、预见期为3天的日径流量。其中，人工神经网络模型采用Adam算法进行优化，这种算法优化效率高，所需内存小，适合对人工神经网络模型进行优化。其学习率设置为0.001，损失函数采用均方误差(MSE)，并以此进行权重调节。其中，均方误差计算方法为：首先，求取每个实际径流值与理论径流值之差的平方，并对其求和，最后除以实际样本个数，得到最终结果。

步骤V：将测试集基于训练好的人工神经网络模型进行径流预测，并通过确定性系数与相对误差来衡量径流预报精度，

本发明采用两种误差计算方式来计算理论径流量与实际径流量之间的偏差：第一种指标为确定性系数(NSE)，用来表示理论径流量与实际径流量之间的拟合程度，其计算方法为：首先，求出每个理论径流量与实际径流量差值的平方，并对其求和，记作nse_up；而后，求出每个实际径流量与实际平均径流量差值的平方，记作nse_dowm；最后用1减去nse_up/nse_down，求出最终结果。其值域范围为[-∞～1]，值越接近1，说明拟合效果越好。第二种指标为相对误差(BIAS)，用来衡量理论径流量与实际径流量之间的偏离程度，其计算方法为：首先，计算每个理论径流量与实际径流量之差，并对其求和，记作bias_up，然后，对每个实际径流量的值进行求和，记作bias_down，最后，使用bias_up/bias_down得出最终结果。其值域范围为[-100％～100％]，值越接近0，说明拟合效果越好。

步骤VI：依次按照均匀设计使用表中的试验方案，进行模型训练与径流量预测，

本发明中采用2因素5水平的均匀设计使用表，每次按照不同的组合方案进行模型训练与预测，并记录每次实验的确定性系数与相对误差。

步骤VII：比较每次试验方案的平均确定性系数与平均相对误差，从而选择出最优的组合方案。通过比较四次试验的平均确定性系数与相对误差，来选取最优的组合方案。

步骤VIII：将最优组合方案用于理论径流量预测，得出最优预报结果。

附图说明

图1为本发明提供的一种基于均匀设计与人工神经网络的水文预报方法流程示意图。

图2为每种试验组合中不同预见期的确定性系数。

图3为每种试验组合中不同预见期的相对误差。

图4为每种试验组合中平均确定性系数与相对误差。

图5为最优试验组合的径流预测图。

具体实施方式

下面结合附图详细描述本发明的具体实施方式。

参照图(1)，本发明的具体实施步骤如下所示：

S1、对气象水文数据进行特征提取及预处理，得到气象水文数据集，并将气象水文数据集划分为训练集与测试集，

采用计算机程序读取和存储某一水文监测站一定时期内的气象数据与水文数据，其中气象数据包括日降雨量、最高温度、最低温度、日照时长、压强、辐射强度，水文数据包括日径流量。随后按照日期，提取出当前日期前15天的降雨量、辐射强度与日径流量，并作为变量添加进气象水文数据集中，构建出最终气象水文数据集。通过Python(版本3.1.1；编译器：Pycharm 2021.1.3，需要预先下载pytorch、numpy、pandas、matplotlib库)定义1个pandas数组，用于存储构建好的气象水文数据集；最后按照7∶3的比例将气象水文数据集划分为训练集与测试集，具体为：

trainx，trainy＝X[：int(0.7*total_len)]，Y[：int(0.7*total_len)]

testx，testy＝X[int(0.7*total_len)：]，Y[int(0.7*total_len)：]

S2、对已经构建的气象水文数据集进行预处理

本发明的数据集预处理工作分为两部分，分别为：缺失值填补与数据标准化。对于缺失值选取该日期前3天与后3天的平均值代替缺失值，以短期趋势来对缺失值进行替代更加合理。数据标准化采用最大值-最小值标准化进行处理。最大值-最小值标准化计算公式为：

式中，y_ij为标准化处理后的值，x_ij表示原数据，x_j为某一相同类型的数据集集合，min表示为求取数据集合的最小值，max表示为求取数据集合的最大值。具体表现为：

lambda x：(x-min(x))/(max(x)-min(x))

对数据标准化处理可加快网络训练收敛速度，提高模型训练的精度，消除范围较大的特征值给梯度更新所带来的影响。

S3、利用均匀设计表设计输入变量以及神经网络中隐藏层的神经元个数，

采用均匀设计，构建出2因素5水平的均匀设计使用表，其中因素包括：第一个因素为前N天的降雨量、辐射强度和日径流量，其4个水平分别为：前1天，前3天，前10天，前15天，前20天；第二个因素为LSTM神经网络模型中的隐藏层神经元个数，其4个水平为：32个隐藏层神经元、64个隐藏层神经元、96个隐藏层神经元、128个隐藏层神经元、160个神经元。按照使用表中的组合，依次选取不同的变量与隐藏层个数进行模型训练。均匀设计使用表进行优化后的组合为：

试验组合	选取前N天天数	隐藏层神经元个数
			1	1	64
2	3	128
			3	10	32
4	15	96
			5	20	160

S4、根据提取预处理后的气象水文数据集，按照均匀设计使用表，将变量加入人工神经网络模型，并进行模型训练。

本发明中，人工神经网络模型由LSTM模型与1层全连接层组合而成，其中LSTM模型隐藏层的层数设置为1层；人工神经网络模型输入变量为前N天的降雨量、辐射强度和日径流量，前一天的最高温度、最低温度、日照时长、压强；输出为4×1的矩阵，其内容分别为：当天、预见期为1天、预见期为2天、预见期为3天的日径流量。其中，人工神经网络模型采用Adam算法进行优化，这种算法优化效率高，所需内存小，适合对人工神经网络模型进行优化。其学习率设置为0.001，其具体表现为：

optimizer＝optim.Adam(model.parameters()，lr＝0.001)

损失函数采用均方误差(MSE)，并以此进行权重调节。其中，均方误差计算方法为：首先，求取每个实际径流量与理论径流量之差的平方，并对其求和，最后除以实际样本个数，得到最终结果。其公式为：

式中，i表示为第i个时刻；y为实际径流量；

为理论径流量；N表示为总时间步长。其具体表现为：

criterion＝nn.MSELoss()

S5、将测试集基于训练好的人工神经网络模型进行径流预测，并通过确定性系数与相对误差来衡量径流预报精度，

本发明采用两种误差计算方式来计算理论径流量与实际径流量之间的偏差：第一种指标为确定性系数(NSE)，用来表示理论径流量与实际径流量之间的拟合程度，其计算公式为：

式中，i表示为第i个时刻，y表示为实际径流量，

表示为理论径流量，N表示为总时间步长。

其计算方法为：首先，求出每个理论径流量与实际径流量差值的平方，并对其求和，记作nse_up；而后，求出每个实际径流量与实际平均径流量差值的平方，记作nse_dowm；最后用1减去nse_up/nse_down，求出最终结果。其值域范围为[-∞～1]，值越接近1，说明拟合效果越好。其具体表现为：

nse_up＝[]

nse_down＝[]

nse_up1＝(labels[i，j]-preds[i，j])*(labels[i，j]-preds[i，j])

nse_down1＝(labels[i，j]-np.mean(labels))*(labels[i，j]-np.mean(labels))

nse_up.append(nse_up1)

nse_down.append(nse_down1)

nse＝1-np.sum(nse_up)/np.sum(nse_down)

#preds[i，j]为第i个时刻预报期j天的理论径流量

#labels[i，j]为第i个时刻预报期j天的实际径流量

第二种指标为相对误差(BIAS)，用来衡量理论径流量与实际径流量之间的偏离程度，其计算公式为：

式中，i表示为第i个时刻，y表示为实际径流量，

表示为理论径流量，N表示为总时间步长。

其计算方法为：首先，计算每个理论径流量与实际径流量之差，并对其求和，记作bias_up，然后，对每个实际径流量的值进行求和，记作bias_down，最后，使用bias_up/bias_down得出最终结果。其值域范围为[-100％～100％]，值越接近0，说明拟合效果越好。具体表现为：

bias＝[]

bias0＝preds[i，j]-labels[i，j]

bias.append(bias0)

BIAS＝np.sum(bias)/np.sum(labels)

#preds[i，j]为第i个时刻预报期j天的理论径流量

#labels[i，j]为第i个时刻预报期j天的实际径流量

S6、依次按照均匀设计使用表中的试验方案，进行模型训练与径流量预测，

本发明中采用2因素4水平的均匀设计使用表，每次按照不同的组合方案进行模型训练与预测，并记录每次实验的确定性系数与相对误差。

S7、比较每次试验方案的确定性系数与相对误差，从而选择出最优的组合方案。

通过比较四次试验的平均确定性系数与相对误差，来选取最优的组合方案。

S8、将最优组合方案用于理论径流量预测，得出最优预报结果。

Claims

1.一种基于均匀设计与人工神经网络的水文预报方法，其特征在于：主要通过计算机程序，将均匀设计方法应用于人工神经网络模型的变量选取与参数调节，进而对水文预报结果进行优化，从而进行流量预测，具体步骤如下：

步骤I：对气象水文数据进行特征提取，得到气象水文数据集，并将气象水文数据集划分为训练集与测试集，

采用计算机程序读取和存储某一水文监测站一定时期内的气象数据与水文数据，其中气象数据包括日降雨量、最高温度、最低温度、日照时长、压强、辐射强度，水文数据包括日径流量；随后按照日期，提取出当前日期前15天的降雨量、辐射强度与日径流量，并作为变量添加进气象水文数据集中，构建出最终气象水文数据集；最后按照7∶3的比例将气象水文数据集划分为训练集与测试集；

步骤II：对已经构建的气象水文数据集进行预处理

本发明的数据集预处理工作分为两部分，分别为：缺失值填补与数据标准化；对于缺失值选取该日期前3天与后3天的平均值代替缺失值，以短期趋势来对缺失值进行替代更加合理；数据标准化采用最大值-最小值标准化进行处理；对数据标准化处理可加快网络训练收敛速度，提高模型训练的精度，消除范围较大的特征值给梯度更新所带来的影响；

采用均匀设计，构建出2因素4水平的均匀设计使用表，其中因素包括：第一个因素为前N天的降雨量、辐射强度和日径流量，其4个水平分别为：前1天，前3天，前10天，前15天；第二个因素为LSTM神经网络模型中的隐藏层神经元个数，其4个水平为：32个隐藏层神经元、64个隐藏层神经元、96个隐藏层神经元、128个隐藏层神经元；按照使用表中的组合，依次选取不同的变量与隐藏层个数进行模型训练；

步骤IV：根据提取预处理后的气象水文数据集，按照均匀设计使用表，将变量加入人工神经网络模型，并进行模型训练；

本发明中，人工神经网络模型由LSTM模型与1层全连接层组合而成，其中LSTM模型隐藏层的层数设置为1层；人工神经网络模型输入变量为前N天的降雨量、辐射强度和日径流量，前一天的最高温度、最低温度、日照时长、压强；输出为4×1的矩阵，其内容分别为：当天、预见期为1天、预见期为2天、预见期为3天的日径流量；其中，人工神经网络模型采用Adam算法进行优化，这种算法优化效率高，所需内存小，适合对人工神经网络模型进行优化；其学习率设置为0.001，损失函数采用均方误差(MSE)，并以此进行权重调节；其中，均方误差计算方法为：首先，求取每个实际径流值与理论径流值之差的平方，并对其求和，最后除以实际样本个数，得到最终结果；

本发明采用两种误差计算方式来计算理论径流量与实际径流量之间的偏差：第一种指标为确定性系数(NSE)，用来表示理论径流量与实际径流量之间的拟合程度，其计算方法为：首先，求出每个理论径流量与实际径流量差值的平方，并对其求和，记作nse_up；而后，求出每个实际径流量与实际平均径流量差值的平方，记作nse_dowm；最后用1减去nse_up/nse_down，求出最终结果；其值域范围为[-∞～1]，值越接近1，说明拟合效果越好；第二种指标为相对误差(BIAS)，用来衡量理论径流量与实际径流量之间的偏离程度，其计算方法为：首先，计算每个理论径流量与实际径流量之差，并对其求和，记作bias_up，然后，对每个实际径流量的值进行求和，记作bias_down，最后，使用bias_up/bias_down得出最终结果；其值域范围为[-100％～100％]，值越接近0，说明拟合效果越好；

本发明中采用2因素5水平的均匀设计使用表，每次按照不同的组合方案进行模型训练与预测，并记录每次实验的确定性系数与相对误差；

步骤VII：比较每次试验方案的平均确定性系数与平均相对误差，从而选择出最优的组合方案；

通过比较五次试验的平均确定性系数与平均相对误差，来选取最优的组合方案；