CN116502775B

CN116502775B - 一种水文序列增强及预测方法

Info

Publication number: CN116502775B
Application number: CN202310762546.XA
Authority: CN
Inventors: 李港; 刘章君; 张静文; 刘鑫; 吴佳琪; 吴向东
Original assignee: Jiangxi Academy Of Water Resources Jiangxi Dam Safety Management Center Jiangxi Water Resources Management Center
Current assignee: Jiangxi Academy Of Water Resources Jiangxi Dam Safety Management Center Jiangxi Water Resources Management Center
Priority date: 2023-06-27
Filing date: 2023-06-27
Publication date: 2023-09-19
Anticipated expiration: 2043-06-27
Also published as: CN116502775A

Abstract

本发明涉及一种水文序列增强及预测方法，其步骤为：收集研究区域入口流量、出口水位及地形数据，拟合入口流量‑出口水位关系，进行洪水频率分析，构建水动力模型并进行率定验证；采用时间序列生成对抗网络获得入口流量边界合成数据集，选取80%频率以上入口合成流量及对应出口水位作为边界条件驱动水动力模型并获得待预测站点的模拟流量水位数据；利用时间序列生成对抗网络获得与待预测站点的合成流量水位数据；整合模拟数据、合成数据以及监测数据获得待预测站点的增强数据集；基于增强数据集进行水位预测及精度评价。本发明的有益效果是：待预测站点的增强数据能够提升深度学习模型对于流量水位关系的学习能力，提升水位的预测精度。

Description

一种水文序列增强及预测方法

技术领域

本发明属于水文预测领域，具体涉及一种水文序列增强及预测方法。

背景技术

水文预报旨在通过对水文监测数据进行分析与建模，进而实现对河流水文情势以及水文要素的定量预测。准确的水文预报对于水资源调度与利用、防洪安全、通航安全以及水生态环境保护等方面具有重要的意义。

目前进行水文预报主要包括机理模型和数据驱动模型两类，然而，在两类模型的实际应用过程中，需要大量的水文监测数据作为模型边界条件或者用于模型训练，因此，水文监测数据的质量会直接影响到水文预报的精度。尽管目前已经通过各种手段可以获得较长序列和较高频率的水文监测数据，但是由于在实际的自然过程中，洪水事件出现的频率相对较低，进而导致监测数据中的高值流量水位数据量较少，使得模型在利用监测数据训练时，难以学习到高值流量水位之间的对应关系，因此在进行未来的水文预报时，对于出现频率较高的水文事件，通常可以取得较为理想的预报效果，而对于出现频率较低的水文事件，比如较高的流量水位，模型的预测精度通常较低，而此类低频水文事件一旦出现，往往会造成相对严重的灾害。目前，通过监测手段不能在低频水文事件发生前获得相关的水文数据，因而无法为模型提供相应的训练数据，难以提升模型对低频水文事件的预报精度。

发明内容

本发明的目的在于提供一种水文序列增强及预测方法，旨在通过采用机理模型和深度学习模型扩充水文时间序列中的低频水文事件数据集，为预报方法预测提供充足的高值水文要素（比如流量水位）训练数据样本，提升对未来低频水文事件的预报精度。

本发明解决上述技术问题的技术方案如下：一种水文序列增强及预测方法，其包括如下步骤：

步骤S1.收集待预测站点所处区域上游入口流量数据、下游出口水位数据的流量水位实测数据以及水下地形数据，拟合上游入口流量数据和下游出口水位数据，确定入口流量—出口水位关系，同时进行上游入口洪水频率分析，确定80%频率对应的流量值，构建水动力模型并进行水动力模型的参数率定与验证；

步骤S2.采用时间序列生成对抗网络（TimeGAN）模型生成与上游入口流量数据分布相似的边界合成数据，选取边界合成数据中大于80%频率对应的流量值的系列数据，并根据入口流量—出口水位关系确定与大于80%频率对应的流量值的系列数据对应的下游水位值，基于该系列数据的流量值和对应的下游水位值作为边界合成数据条件下驱动水动力模型进行研究区域内的水动力模拟，获得待预测站点在该边界合成数据条件下水动力模型模拟的流量水位模拟数据；

步骤S3.利用时间序列生成对抗网络（TimeGAN）模型生成与待预测站点流量水位实测数据分布相似的流量水位合成数据，并进行待预测站点流量水位合成数据的精度评价；

步骤S4.整合步骤S2中流量水位模拟数据、步骤S3中流量水位合成数据和步骤S1中流量水位实测数据共同构成待预测站点的增强数据集；利用深度学习模型门控循环单元（GRU）训练流量水位之间的对应关系，然后进行水位的预测及精度评价。

作为优选的，步骤S1中确定入口流量—出口水位关系，具体为：

采用一元线性回归模型，其计算公式为：

（1）；

式中，y _wl为出口水位，单位为m，x _flow为入口流量，单位为m³/s,a、b分别为斜率和截距。

作为优选的，步骤S1中进行上游入口洪水频率分析，具体为：

收集多年长时间序列流量数据，采用型频率曲线线型，初步估算统计参数，再根据经验频率点据和选定的频率曲线线型，通过调整统计参数使频率曲线线型与经验频率点据拟合最优，最终确定频率曲线线型的统计参数。

作为优选的，步骤S1中构建水动力模型，具体为：

二维非恒定浅水方程组为：

（2）；

（3）；

（4）；

式中，h为总水深，；t为时间，/>为沿总水深平均的x, y方向上的流速，/>，x, y为笛卡尔坐标系坐标，S为源项，u, v分别为x, y方向上的速度分量，/>为水位，d为静止水深；

f是哥氏力系数，，g为重力加速度，ρ为水的密度，/>为参考水密度，/>为大气压强，/>分别为沿x方向上表面风应力，沿x方向上底部风应力，沿y方向上表面风应力，沿y方向上底部风应力，/>表示作用在垂直于x轴平面的x方向的剩余动量流，称作辐射应力在x方向上的主分量；/>表示作用在垂直于x轴平面的y方向的动量流，称作辐射应力在垂直于x轴平面上的切向分量；/>表示作用在垂直于y轴平面的x方向的动量流，称作辐射应力在垂直于y轴平面上的切向分量；/>表示作用在垂直于y轴平面的y方向的剩余动量流，称作辐射应力在y方向上的主分量；分别为水平粘滞应力项中的粘性力、紊流应力和水平对流；为源项S在x, y方向上的水流流速，/>为地球自转角速度，/>为地理纬度。

作为优选的，步骤S1中进行水动力模型的参数率定与验证，具体为：

采用流量水位实测数据对水动力模型模拟结果进行率定；当水动力模型模拟的流量水位模拟数据与流量水位实测数据的相对误差大于5%时，调整糙率参数继续运行水动力模型，获得调整糙率参数后的水动力模型流量水位模拟结果，对比流量水位模拟结果与流量水位实测数据的差异，通过不断调整糙率参数，直至水动力模型的流量水位模拟结果与流量水位实测数据达到合适进度，确定此时的糙率参数为水动力模型的最优糙率参数取值。

作为优选的，步骤S2中采用时间序列生成对抗网络模型生成与上游入口流量数据分布相似的边界合成数据，具体为：

时间序列生成对抗网络由生成器和判别器以及嵌入式函数和恢复函数四个部分构成；

嵌入式函数将降低时序序列数据维度，本质为递归网络，能将多个动态特征、静态特征映射到更低维度，在动态特征映射时，定义下一时刻的动态特征与上一时刻的动态特征有关；将嵌入式函数表示为：

（5）；

式中，表示高维静态特征向量，h _s表示/>映射后的低维静态特征向量，h _t表示第t时刻的低维动态特征向量，h _t-1表示第t-1时刻的低维动态特征向量，/>表示t时刻由h _t映射后的高维动态特征向量，e表示通过递归网络实现的嵌入式函数；

恢复函数将嵌入式函数映射后的低维动态特征、静态特征重构至原始高维特征，其表达式为：

（6）；

式中，为h _s恢复后的高维静态特征向量；/>为h _t恢复后t时刻高维动态特征向量；r表示通过带前馈输出层的双向递归网络实现的嵌入式函数；

为了让嵌入式函数和恢复函数能够准确的构建水文序列数据的低维特征空间并且重建高维特征空间；嵌入式函数和恢复函数的输出结果联合损失函数表示为：

（7）；

式中，为评估函数，‖ ‖₂为2范数，即向量中各个元素平方和的 1/2 次方；

时间序列生成对抗网络生成器的输出结果与嵌入式函数的输出结果需要经过联合编码产生合成输出，并将合成输出作为判别器的输入；和/>分别为静态和动态向量空间的随机抽样；生成器表示为：

（8）；

式中，表示由/>生成的静态特征向量；/>表示t时刻由/>生成的动态特征向量；/>表示t-1时刻由/>生成的动态特征向量；z _t表示t时刻动态向量空间的随机抽样，g表示通过递归网络实现的生成器函数；

生成器和嵌入式函数的联合输出结果作为判别器的输入，判别器的输入与实测数据进行比较，判别联合输出结果是否为流量水位实测数据；判别器表示为：

（9）;

式中，表示静态特征生成分类结果；/>表示动态特征生成分类结果；/>为联合编码输出结果，d表示通过带前馈输出层的双向递归网络实现的判别器函数；

为提高判别器的分类结果准确性；生成器和判别器联合损失函数L_gd 表示为：

（10）；

式中，L_gd为生成器和判别器联合损失函数，表示静态特征生成分类结果；/>表示动态特征生成分类结果；/>为联合编码输出结果，/>和y _t为判别器对流量水位实测数据静态和动态特征输入的分类结果。

作为优选的，步骤S3中利用时间序列生成对抗网络模型生成与待预测站点分布相近的流量水位合成数据，并进行待预测站点流量水位合成数据的精度评价；具体为：

根据待预测站点的流量水位实测数据，利用时间序列生成对抗网络模型生成与待预测站点相近的流量水位合成数据，采用主成分分析（PCA）和T分布随机近邻嵌入（T-SNE）进行待预测站点流量水位合成数据和流量水位实测数据可视化对比，分析待预测站点流量水位合成数据与流量水位实测数据的近似程度。

作为优选的，步骤S4中在待预测站点的增强数据集上利用深度学习模型GRU训练流量水位之间的对应关系，然后在测试集上进行水位的预测，并进行水位的预测精度评价；具体为：

深度学习模型预测精度评价指标选取均方根误差和相关系数，计算公式（11）和公式（12）所示：

（11）；

（12）；

式中，为水位的预测结果与水位实测数据的均方根误差，R²为水位的预测结果与水位实测数据相关系数，/>为测试期第i天水位观测值，/>为测试期第i天水位模型预报值，/>为测试期观测值的平均值，/>为测试期模型预报值的平均值。

作为优选的，步骤S2中获得待预测站点在该边界合成数据条件下水动力模型模拟的流量水位模拟数据；具体为：

筛选时间序列生成对抗网络（TimeGAN）模型边界合成数据中大于80%频率值的系列流量值，根据入口流量—出口水位关系计算出该系列流量值对应的出口水位值，并组合成系列水动力模型合成边界数据条件，然后以此边界条件驱动率定验证好的水动力模型，获取待预测站点基于水动力模型模拟的系列流量水位模拟数据。

作为优选的，步骤S4中获得待预测站点增强数据集以及进行时序预测模型训练时，具体为：

将待预测站点基于水动力模型获得的流量水位模拟数据、基于时间序列生成对抗网络获得的流量水位合成数据加入到待预测站点的流量水位实测数据中，获得待预测站点的流量水位增强数据集，在待预测站点的流量水位增强数据集上利用深度学习模型GRU进行流量水位对应关系的学习和训练，确定深度学习模型的相关参数。

与现有技术相比，本发明的有益效果是：利用时间序列生成对抗网络模型扩充增强的边界流量数据，根据洪水频率分析结果和入口流量—出口水位关系，获取了低频水文事件发生时对应的系列人工合成边界条件，采用水动力模型获得了待预测站点在低频水文事件下的流量水位模拟数据，有效扩充增强了待预测站点基于水文水动力过程的高值流量水位数据集；同时，直接利用时间序列生成对抗网络模型人工生成与待预测站点实测数据分布相近的合成数据；通过将水动力模型模拟数据、人工合成数据以及监测数据进行整合，有效扩充增强了待预测站点的水文数据集，其中尤其增加了数据集中高值数据，能够为预测模型提供充足的训练数据集，有效提升未来低频事件即高值水文要素的预报精度。

附图说明

图1是本发明的一个实施例的流程示意图。

图2是待预测站点基于水动力模型获得的流量水位模拟数据。

具体实施方式

以下结合附图及具体实施例对本发明作进一步的详细描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，本发明实施例公开的一种水文序列增强及预报方法，包括以下步骤：

（1）选取长江中游宜都站为待预测站点，收集宜都站以及上游入口边界宜昌站以及下游出口边界枝城站1990年~2020年多年长时间序列逐日流量水位数据，拟合宜昌站流量和枝城站水位关系，并对宜昌站流量进行洪水频率分析。

（2）根据宜昌站流量水位数据采用时间序列生成对抗网络模型进行宜昌站流量数据扩充，选取80%频率以上宜昌站的系列入口合成流量，根据入口流量-出口水位关系确定对应枝城站水位，然后以该系列流量水位作为边界条件，基于此边界条件驱动水动力模型获得宜都站的系列流量水位模拟结果，其中，水动力模型的控制方程具体包括：

（2）；

（3）；

（4）；

f是哥氏力系数，，g为重力加速度，ρ为水的密度，/>为参考水密度，/>为大气压强，/>分别为沿x方向上表面风应力，沿x方向上底部风应力，沿y方向上表面风应力，沿y方向上底部风应力，/>表示作用在垂直于x轴平面的x方向的剩余动量流，称作辐射应力在x方向上的主分量；/>表示作用在垂直于x轴平面的y方向的动量流，称作辐射应力在垂直于x轴平面上的切向分量；/>表示作用在垂直于y轴平面的x方向的动量流，称作辐射应力在垂直于y轴平面上的切向分量；/>表示作用在垂直于y轴平面的y方向的剩余动量流，称作辐射应力在y方向上的主分量；分别为水平粘滞应力项中的粘性力、紊流应力和水平对流；/>为源项S在x, y方向上的水流流速，/>为地球自转角速度，/>为地理纬度。

对上述方程进行数值求解时，具体包括空间离散和时间积分两步：

a.空间离散：航道计算区域的空间离散方法采用有限体积法，将连续的计算区域采用三角形网格划分为不重叠的单元，将浅水方程组采取通用形式表示：

（13）；

式中，U为守恒型物理量；t为时间，为散度，F为通量向量，S为源项；对浅水方程组的第i个单元进行积分：

（14）；

式中，划分的网格单元；/>为第i个网格单元面积；/>为第i个单元的边界；/>沿边界的单位向外法向量；ds为沿着边界的积分变量；对浅水方程组采用单点求积法计算面积积分，中点求积法计算边界积分：

（15）；

式中，和/>分别为第i个单元的守恒型物理量U和源项S的平均值，并位于单元中心；NS是单元的边界数；/>为第j个单元的长度。

b. 时间积分：对于浅水方程组的一般形式，G为守恒型物理量U的函数，其求解方式主要包括低阶显式欧拉方法和二阶龙格库塔方法，其计算公式分别为：

（16）;

（17）;

（18）;

式中，U为守恒型物理量；为节点顺序，/>为第/>+1个节点处的守恒型物理量，/>为第/>个节点和第/>+1个节点中间的守恒型物理量；/>为时间步长，最终宜都站基于水动力模型获得的模拟流量水位数据如图2所示。

（3）根据宜都站流量水位实测数据采用时间序列生成对抗网络进行宜都站流量水位数据生成和扩充，获得宜都站基于时间序列生成对抗网络的流量水位合成数据。

（4）将宜都站基于水动力模型的模拟流量水位数据、基于时间序列生成对抗网络的流量水位合成数据以及流量水位实测数据进行整合生成训练数据集。利用时序预测深度学习模型GRU在宜都站的合成数据集上建立流量水位的对应关系时，先对数据进行归一化处理，将数据归一化至区间[0, 1], 具体形式为：

（19）；

其中，为归一化前后的水位序列数值，/>分别为水位序列的最大值和最小值。

然后利用宜都站的合成数据集进行模型的训练，预测2020年的宜都站水位，在训练过程中不断调整模型主要参数以获得最优的预报效果。深度学习模型门控循环单元（GRU）的主要参数设置情况如表1所示。

表1深度学习模型门控循环单元（GRU）参数取值

（5）对深度学习模型门控循环单元（GRU）预报的输出结果进行反归一化，从而获得水位的真实预测值：

（20）；

深度学习模型门控循环单元（GRU）水位预报值的精度评价指标选取均方根误差和决定系数，其计算方式为：

（11）；

（12）；

表2是采用宜都实测数据集和合成数据集进行2020年水位预测的精度评价结果，包括全年和汛期的精度对比情况，从表中可以看出无论是全年还是在汛期，本发明方法采用合成数据集的水位预报精度均优于原始实测数据集，能够有效提升水文时间序列预报精度。

表2 本发明方法增强数据集上预测精度与原始数据集预测精度对比

综上，本发明通过扩充增强待预测站点上下游边界数据，采用水动力模型增加待预测站点水文数据，同时再根据带预测站点自身数据分布情况，扩充生成与待预测站点水文数据分布相似的合成数据集，最后将待预测站点的水动力模拟数据、合成数据以及实测数据作为时序预测模型的训练数据集，使得时序预测模型能够较为全面的学习流量水位之间的关系，实现未来更加精确的水文预报效果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种水文序列增强及预测方法，其特征在于：包括如下步骤：

步骤S2.采用时间序列生成对抗网络模型生成与上游入口流量数据分布相似的边界合成数据，选取边界合成数据中大于80%频率对应的流量值的系列数据，并根据入口流量—出口水位关系确定与大于80%频率对应的流量值的系列数据对应的下游水位值，基于该系列数据的流量值和对应的下游水位值作为边界合成数据条件下驱动水动力模型进行研究区域内的水动力模拟，获得待预测站点在该边界合成数据条件下水动力模型模拟的流量水位模拟数据；

步骤S3.利用时间序列生成对抗网络模型生成与待预测站点流量水位实测数据分布相似的流量水位合成数据，并进行待预测站点流量水位合成数据的精度评价；

步骤S4.整合步骤S2中流量水位模拟数据、步骤S3中流量水位合成数据和步骤S1中流量水位实测数据共同构成待预测站点的增强数据集；利用深度学习模型门控循环单元训练流量水位之间的对应关系，然后进行水位的预测及精度评价；

步骤S1中确定入口流量—出口水位关系，具体为：

采用一元线性回归模型，其计算公式为：

（1）；

式中，y _wl为出口水位，单位为m，x _flow为入口流量，单位为m³/s,a、b分别为斜率和截距；

步骤S1中进行上游入口洪水频率分析，具体为：

收集多年长时间序列流量数据，采用P-Ⅲ型频率曲线线型，初步估算统计参数，再根据经验频率点据和选定的频率曲线线型，通过调整统计参数使频率曲线线型与经验频率点据拟合最优，最终确定频率曲线线型的统计参数；

步骤S1中构建水动力模型，具体为：

二维非恒定浅水方程组为：

（2）；

（3）；

（4）；

式中，h为总水深，；t为时间， />、/>为沿总水深平均的x, y方向上的流速，，/>，x, y为笛卡尔坐标系坐标，S为源项，u, v分别为x, y方向上的速度分量，/>为水位，d为静止水深；

f是哥氏力系数，，g为重力加速度，ρ为水的密度，/>为参考水密度，/>为大气压强，/>、/>、/>分别为沿x方向上表面风应力，沿x方向上底部风应力，沿y方向上表面风应力，沿y方向上底部风应力，/>表示作用在垂直于x轴平面的x方向的剩余动量流，称作辐射应力在x方向上的主分量；/>表示作用在垂直于x轴平面的y方向的动量流，称作辐射应力在垂直于x轴平面上的切向分量；/>表示作用在垂直于y轴平面的x方向的动量流，称作辐射应力在垂直于y轴平面上的切向分量；/>表示作用在垂直于y轴平面的y方向的剩余动量流，称作辐射应力在y方向上的主分量；/>、/>、/>分别为水平粘滞应力项中的粘性力、紊流应力和水平对流；/>为源项S在x, y方向上的水流流速，/>为地球自转角速度，/>为地理纬度；

步骤S1中进行水动力模型的参数率定与验证，具体为：

2.根据权利要求1所述的一种水文序列增强及预测方法，其特征在于：步骤S2中采用时间序列生成对抗网络模型生成与上游入口流量数据分布相似的边界合成数据，具体为：

（5）；

式中，表示高维静态特征向量，h _s 表示/>映射后的低维静态特征向量，h _t 表示第t时刻的低维动态特征向量，h _t-1 表示第t-1时刻的低维动态特征向量，/>表示t时刻由h _t映射后的高维动态特征向量，e表示通过递归网络实现的嵌入式函数；

（6）；

嵌入式函数和恢复函数的输出结果联合损失函数表示为：

（7）；

式中，为评估函数，/>为2范数，即向量中各个元素平方和的 1/2 次方；

（8）；

式中，表示由/>生成的静态特征向量；/>表示t时刻由/>生成的动态特征向量；表示t-1时刻由/>生成的动态特征向量；z _t表示t时刻动态向量空间的随机抽样，g表示通过递归网络实现的生成器函数；

（9）；

式中，表示静态特征生成分类结果；/> 表示动态特征生成分类结果；/> 为联合编码输出结果，d表示通过带前馈输出层的双向递归网络实现的判别器函数；

（10）；

式中，L_gd为生成器和判别器联合损失函数，表示静态特征生成分类结果；/>表示动态特征生成分类结果；/> 为联合编码输出结果，/>和y _t为判别器对流量水位实测数据静态和动态特征输入的分类结果。

3.根据权利要求2所述的一种水文序列增强及预测方法，其特征在于：步骤S3中利用时间序列生成对抗网络模型生成与待预测站点流量水位实测数据分布相似的流量水位合成数据，并进行待预测站点流量水位合成数据的精度评价；具体为：

根据待预测站点的流量水位实测数据，利用时间序列生成对抗网络模型生成与待预测站点相近的流量水位合成数据，采用主成分分析和T分布随机近邻嵌入进行待预测站点流量水位合成数据和流量水位实测数据可视化对比，分析待预测站点流量水位合成数据与流量水位实测数据的近似程度；

步骤S4中在待预测站点的增强数据集上利用深度学习模型GRU训练流量水位之间的对应关系，然后在测试集上进行水位的预测，并进行水位的预测及精度评价；具体为：

（11）；

（12）；