CN114091345A

CN114091345A - 一种河口潮位预测方法、装置及存储介质

Info

Publication number: CN114091345A
Application number: CN202111438390.7A
Authority: CN
Inventors: 甘敏; 陈永平; 程晨; 朱弦; 徐晓武; 陶证瑾; 陈雨航; 周子骏; 林祥峰
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-02-25

Abstract

本发明公开了一种河口潮位预测方法、装置及存储介质，所述方法包括：分别对河口地区同步观测的径流站实测径流数据、分析站实测潮位数据和参考站实测潮位数据进行处理，以获取对应径流站径流数据序列、分析站潮位数据序列及参考站潮差数据序列；对分析站潮位数据序列进行调和分析，提取分潮信噪比大于2的分潮，计算分潮展开的余弦部分时间序列和正弦部分时间序列；将径流站径流数据序列、参考站潮差数据序列、分潮余弦部分时间序列和正弦部分时间序列输入至训练好的LightGBM算法模型中，从而获取所述分析站河口潮位预测结果。本发明可实现更高的河口潮位预报精度。

Description

一种河口潮位预测方法、装置及存储介质

技术领域

本发明涉及一种河口潮位预测方法、装置及存储介质，属于河口海岸数据处理技术领域。

背景技术

对于沿海地区的潮位预报问题，采用调和分析方法就可以取得较高的预报精度。但是，当潮波往近岸传播时，潮波会发生浅水变形，尤其是当潮波传播到了河道中，径流与潮汐的非线性相互作用使得河口潮汐相对于海洋潮汐更为复杂。径流与潮汐的非线性相互作用形成的河口潮汐具有非平稳的特征，这加大了河口潮汐的预报难度。在分析河口地区潮汐时，如何考虑径流对潮汐的影响是当今的研究热点和难点。非稳态调和分析程序包(NS_TIDE)由于考虑了河口潮汐参数(如平均水位、分潮振幅和相位角)的时变特征，在分析和预报河口潮汐时精度要显著高于传统调和分析模型，已成为当前应用广泛的河口潮汐预报模型。但仍有诸多研究表明，NS_TIDE模型在预测河口亚潮部分存在较大误差，其模型精度仍有待进一步提高。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种河口潮位预测方法、装置及存储介质，实现河口潮位高精度预测。

为达到上述目的，本发明是采用下述技术方案实现的：

第一方面，本发明提供了一种河口潮位预测方法，包括如下步骤：

分别对河口地区同步观测的径流站实测径流数据、分析站实测潮位数据和参考站实测潮位数据进行处理，以对应获取径流站径流数据序列、分析站潮位数据序列及参考站潮差数据序列；

对分析站潮位数据序列进行调和分析，提取分潮信噪比大于2的分潮，计算分潮展开的余弦部分时间序列和正弦部分时间序列；

将径流站径流数据序列、参考站潮差数据序列、分潮余弦部分时间序列和正弦部分时间序列输入至训练好的LightGBM算法模型中，从而获取所述河口潮位预测结果。

结合第一方面，进一步地，对径流站实测径流数据的处理方法包括对对径流站实测径流数据进行低通滤波处理。

结合第一方面，进一步的，采用下述表达式对所述分析站潮位数据序列进行调和分析：

式中，η(t)为分析站实测潮位数据；η₀为平均海平面；t为时间；k为分潮序号；n为调和分析采用的分潮数；σ_k、

f_k、u_k、υ_0，k、H_k和g_k分别为第k个分潮的频率、相位角、交点因子、交点订正角、天文初相角、振幅和迟角；H_k和g_k为未知的调和常数。

结合第一方面，进一步地，H_k和g_k采用最小二乘法求解获取。

结合第一方面，进一步地，所述LightGBM算法模型的表达式为：

式中，η_I为LightGBM算法模型预测的分析站潮位；i为LightGBM算法模型中决策树的序号；I为LightGBM算法模型中决策树的数目；X为LightGBM算法的输入层参数，包含径流站径流数据序列、参考站潮差数据序列、分潮余弦部分时间序列和正弦部分时间序列；θ_i为LightGBM算法模型第i棵决策树学习到的拓扑结构；T_i(X，θ_i)为第i棵决策树在输入层数据为X时的输出值。

结合第一方面，进一步地，所述LightGBM算法模型的训练方法包括：

将历史时刻的径流站径流数据序列、参考站潮差数据序列、分潮余弦部分时间序列和正弦部分时间序列作为LightGBM算法模型的输入层数据集；将对应历史时刻的分析站实测潮位数据作为LightGBM算法模型的输出层数据集；

将输入层数据集和输出层数据集划分为训练集和测试集；

将训练集输入至LightGBM算法模型中，对LightGBM算法模型进行参数寻优和训练，采用测试集测试LightGBM算法模型的预测精度，从而获得参数优化后的LightGBM算法模型。

结合第一方面，进一步地，对LightGBM算法模型进行参数寻优和训练的方法包括：

以初始决策树的损失函数最小为目标函数，对初始决策树的拓扑结构进行训练学习，获取初始决策树的误差分布；其中，所述损失函数为初始决策树预测的河口潮位值η₀相对于分析站实测潮位数据η(t)的方差；

根据初始决策树的误差分布，训练学习第i棵决策树的拓扑结构，使得LightGBM算法模型的误差逐渐减小；其中，LightGBM算法模型的第i棵决策树的目标函数为：

Obj_i＝L(η_i)+Ω(T_i)；

式中，Obj_i表示第i棵决策树的目标函数；L(η_i)是损失函数，反映LightGBM算法模型的精度；Ω(T_i)是正则化函数，反映LightGBM算法模型的稳定性；其中，正则化函数Ω(T_i)表达式如下：

式中，α和β分别是L1和L2正则化对应的超参数值；j为第i棵决策树的叶子节点序号；J为第i棵决策树的叶子节点数；ω_j是第i棵决策树上第j个叶子节点的输出。

结合第一方面，进一步地，训练学习第i棵决策树的拓扑结构，使得LightGBM算法模型的误差逐渐减小的方法包括：

将LightGBM算法模型的第i棵决策树的目标函数进行二阶泰勒函数展开，获取目标函数Obj_i的二阶近似表达式：

式中，g和h分别表示第i-1棵决策树的损失函数L(η_i-1)对η_i-1的一阶导数和二阶导数；

剔除目标函数Obj_i的二阶近似表达式中的常数L(η_i-1)后，将目标函数Obj_i的二阶近似表达式表示为第j个叶子节点输出ω_j的表达式：

式中，G_j和H_j分别表示所有样本中属于第j个叶子节点上样本对应的g和h值之和；

当满足

时，第j个叶子节点输出值ω_j表示为：

式中，G_α，j＝max{0，(|G_j|-α)}；

在确定ω_j之后，将

表示为：

假设模型从叶子节点j做进一步分裂，生成两个新的叶子节点，则分裂前后目标函数减少量ΔObj_i表示为：

式中，G_L，α，j(G_R，α，j)和H_L，j(H_R，j)分别表示从叶子节点j新分裂而生成的左/右叶子节点上G和H的值；每次分裂生成新的叶子节点，LightGBM算法模型都会以ΔObj_i为判别标准，遍历输入层所有参数和已生成的叶子节点，选择能导致ΔObj_i取值最大的输入层参数和叶子节点做进一步分裂。

第二方面，本发明提供了一种河口潮位预测装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行第一方面任一项所述方法的步骤。

第三方面，计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现第一方面任一项所述方法的步骤。

与现有技术相比，本发明所达到的有益效果：

采用LightGBM算法模型进行河口潮位预测，不需要明确河口地区径流与潮汐的非线性相互作用，只需输入相关影响参数，可实现较传统基于物理规律方法更高的河口潮位预报精度。

附图说明

图1是本发明实施例中机器学习LightGBM输入层和输出层参数示意图；

图2是本发明实施例中哥伦比亚河口站点分布图；

图3是本发明实施例中哥伦比亚河口各站点实测数据图；

图4是对LightGBM算法模型进行参数寻优时的流程图；

图5是LightGBM算法模型在各站点预测的潮位值与实测值对比及其绝对误差的频率分布。

具体实施方式

需要说明的是，在本发明实施例中，径流站定义为河口区域上游观测径流的水文站，分析站定义为河口区域需要预报潮位的验潮站，参考站定义为河口口门处靠近外海的验潮站。LightGBM算法属于决策树算法，它采用多棵决策树输出值的和来实现预测，而决策树算法的每一棵模型树则对应着一层输入层和输出层之间的拓扑结构。

实施例一：

本发明实施例提供一种河口潮位预测方法，包括如下步骤：

S1，收集河口地区同步观测的径流站实测径流数据、分析站实测潮位数据及参考站实测潮位数据。

将收集的径流站实测径流数据进行低通滤波以平滑数据，低通滤波后的径流序列用Q(t)表示；根据收集的参考站潮位数据计算其对应潮差序列用R(t)表示；收集的分析站潮位数据序列用η(t)表示。

S2，对η(t)进行调和分析，提取分潮信噪比大于2的分潮，计算分潮展开的三角函数时间序列值，记所有分潮展开的余弦和正弦部分时间序列分别为cos(σt)和sin(σt)；

S3，将Q(t)、R(t)、cos(σt)和sin(σt)输入至训练好的LightGBM算法模型中，从而获取所述河口潮位预测结果。

其中，LightGBM算法模型的训练方法可以包括如下步骤：

将历史时刻的径流站径流数据序列、参考站潮差数据序列、分潮余弦部分时间序列和正弦部分时间序列作为LightGBM算法模型的输入层数据集；将对应历史时刻的分析站实测潮位数据作为LightGBM算法模型的输出层数据集；如图1是本发明实施例中机器学习LightGBM输入层和输出层参数示意图；

将输入层数据集和输出层数据集划分为训练集和测试集；

在本发明实施例中，调和分析的表达式为：

f_k、u_k、υ_0，k、H_k和g_k分别为第k个分潮的频率、相位角、交点因子、交点订正角、天文初相角、振幅和迟角。其中，仅H_k和g_k属于未知，它们称为调和常数，其余参数只与时间有关，H_k和g_k的求解是采用最小二乘法。

在进行河口潮位预测时，所述LightGBM算法模型的表达式为：

式中，η_I为LightGBM算法模型预测的分析站潮位；i为LightGBM算法模型中决策树的序号；I为LightGBM算法模型中决策树的数目；X为LightGBM算法模型的输入层参数，它包含Q(t)、R(t)、cos(σt)和sin(σt)；θ_i为LightGBM算法模型第i棵决策树学习到的拓扑结构；T_i(X，θ_i)为第i棵决策树在输入层数据为X时的输出值。

机器学习LightGBM算法模型在学习的过程中需要给一个目标函数让它去训练学习，学习的目标是使得目标函数值最小。在学习过程中，LightGBM算法模型会先建立一棵初始决策树(第0棵数)的拓扑结构来获得模型的初始误差，初始决策树的目标函数是使得它的损失函数(损失函数表示评估模型误差的函数)最小：

T₀＝argmin{L(η₀)} (4)

式中，T₀为LightGBM算法模型第0棵数的输出值；L表示损失函数，在本发明中采用方差作为损失函数，L(η₀)表示第0决策树预测的河口潮位值η₀相对于河口实测潮位值η(t)的方差；argmin表示函数取最小值。

在获得第0棵决策树的误差分布后，就可以训练学习第i(i≥1)棵决策树的拓扑结构，使得模型误差逐渐减小。其中，LightGBM算法模型第i(i≥1)棵决策树的目标函数为：

Obj_i＝L(η_i)+Ω(T_i) (5)

式中，Obj_i表示第i棵决策树的目标函数。Obj_i包括两部分，第一部分是损失函数L(η_i)，它反映了模型的精度；第二部分是正则化函数Ω(T_i)，它反映了模型的稳定性。其中，正则化函数Ω(T_i)具有如下表达式：

式中，α和β分别是L1和L2正则化对应的超参数值(超参数是由用户指定的用于调整学习过程的参数)；j为第i棵决策树的叶子节点序号(决策树算法中根据输入参数的不同，每一类输出点都称为一个叶子节点)；J为第i棵决策树的叶子节点数；ω_j是第i棵决策树上第j个叶子节点的输出。

将式(3)中目标函数进行二阶泰勒函数展开后，目标函数的二阶近似可表示为：

式中，g和h分别表示第i-1(即上一棵)棵决策树的损失函数L(η_i-1)对η_i-1的一阶导数和二阶导数，它们具有如下表达式：

公式(7)中除了T_i(X，θ_i)未知，其余变量的值均可通过第i-1棵决策树的结果获得。在对第i棵决策树进行回归时，需要求解的是叶子节点输出值ω_j。由于公式(7)中L(η_i-1)已经属于常数，剔除它不会影响Obj_i达到最小的情况，在剔除L(η_i-1)后可进一步将式(7)表示为叶子节点输出值ω_j的表达式：

式中，G_j和H_j分别表示所有样本中属于第j个叶子节点上样本对应的g和h值之和。

机器学习LightGBM算法模型训练学习的过程是使得公式(10)最小，而公式(10)中仅ω_j未知，要使得Obj_i最小，则Obj_i对每一个叶子节点ω_j值的偏导数为0：

当公式(13)满足时，每一个叶子节点的ω_j值计算公式为：

G_α，j＝max{0，(|G_j|-α)} (15)

式中，sgn为符号函数，当输入值大于0时，sgn输出为1；当输入值等于0时，sgn输出值为0；当输入值小于0时，sgn输出值为-1。

在确定ω_j之后，公式(10)又可以重新表示为：

公式(16)右边求和符号中的每一项定量地比较了由于叶子节点j而导致的模型目标函数减少量。因此，一旦ω_j确定，它又可以反过来帮LightGBM算法模型进一步分裂生成新的叶子节点，一个叶子节点分裂后可以生成两个新的叶子节点，称为左叶子节点和右叶子节点。假设模型从叶子节点j做进一步分裂，生成两个新的叶子节点，则分裂前后目标函数减少量ΔObj_i可以表示为：

式中，G_L，α，j(G_R，α，j)和H_L，j(H_R，j)分别表示从叶子节点j新分裂而生成的左(右)叶子节点上G和H的值。每次分裂生成新的叶子节点，LightGBM算法模型都会以公式(17)为判别标准，遍历输入层所有参数和已生成的叶子节点，选择能导致ΔObj_i取值最大时对应的的输入层参数和叶子节点做进一步分裂。

本发明采用LightGBM算法模型进行河口潮位预测，不需要明确河口地区径流与潮汐的非线性相互作用，只需要选用上游径流、河口口门附近潮差和分潮时间序列值作为LightGBM算法模型的输入层参数，可实现较传统基于物理规律方法更高的河口潮位预报精度。

实施例二：

本实施例以在哥伦比亚河口下游的潮位预报实例进行详细说明：

如图2所示，为本实施例中所设站点分布图，实施河口区域为美国哥伦比亚河口下游。根据哥伦比亚河口特性，选择其上游Bonneville Dam站和支流Willamette River(威拉米特河)的Portland站作为径流站，Astoria站作为参考站，对Wauna，Longview，St.Helens和Vancouver站的潮位进行预报测试。

各站点的实测数据如图3所示，它们都源自网上开源数据。对哥伦比亚河口上游Bonneville Dam站和其支流Willamette River的Portland站的径流进行低通滤波，获得Q(t)；计算Astoria站潮差R(t)；对Wauna，Longview，St.Helens和Vancouver站实测潮位进行调和分析，提取分潮信噪比大于2的分潮，计算分潮对应的三角函数时间序列cos(σt)和sin(σt)。

将Bonneville Dam站和Portland站的Q(t)、Astoria的R(t)分别和Wauna，Longview，St.Helens和Vancouver站的分潮三角函数时间序列组合，分别作为Wauna，Longview，St.Helens和Vancouver站的输入层数据集；Wauna，Longview，St.Helens和Vancouver站的实测潮位η(t)则分别作为各站的输出层数据集；

将输入层和输出层数据集的前80％的数据作为训练集，后20％的数据作为测试集；

将训练集输入LightGBM算法模型，基于训练集数据对LightGBM算法模型进行参数优化。

本实施例进行优化的参数及其在LightGBM算法模型中的意义如表1所示：

表1：LightGBM算法模型参数解释

参数设定区间及其优化流程如图4所示。在本实施例中，采用Python编译环境下sklearn库中的GridSearchCV函数对LightGBM算法模型进行参数优化。选定GridSearchCV函数中评分标准为neg_mean_squared_error(负方差)，指定5重交叉验证。如图4所示，5重交叉验证表示训练集数据会均匀地被分为5份，其中4份将在参数优化中作为训练集数据，1份作为测试集数据，依次进行5次交叉验证。在采用GridSearchCV函数对LightGBM算法模型参数进行参数优化时，初始学习率learning_rate设定为0.05，进而是对LightGBM算法模型的n_estimators参数进行参数优化。参数n_estimators决定了后续参数优化时的模型拟合次数，一个合理的n_estimators值能够大幅度减少模型参数优化时的计算时间。根据图4的参数优化流程，最终的参数优化结果如表2所示。基于表2中参数优化后的值，再次训练获得的模型即为各站参数优化后的LightGBM算法模型。

表2：LightGBM超参数优化结果

采用测试集数据对所构建的LightGBM算法模型进行潮位预报测试。LightGBM算法模型在各站点的预报潮位与实测潮位对比和LightGBM算法模型绝对误差的概率分布如图5所示。本发明构建的LightGBM算法模型取得了较高的预报精度，其绝对误差小于0.10m，0.20m和0.30m的累积频率分布分别超过了50％，80％和95％。

为了做进一步对比分析，将本实施例构建的LightGBM算法模型与目前国际主流分析河口潮汐的非稳态调和分析程序(NS_TIDE)模型进行了对比，两个模型的最大绝对误差(MAE)和均方误差(RMSE)对比如表3所示。可见，本实施例构建的LightGBM算法模型无论是最大绝对误差和还是均方误差都小于NS_TIDE模型。

表3：LightGBM和NS TIDE模型精度对比

结果显示：采用本发明预测的潮位值与实测值吻合良好，沿江站点均方误差为0.14m，最大绝对误差在0.72～0.87m之间，取得了较高的预报精度，其预报精度也高于传统基于物理规律的NS_TIDE模型。

实施例三：

本发明实施例还提供了一种河口潮位预测装置，包括处理器及存储介质；

所述存储介质用于存储指令；

所述处理器用于根据所述指令进行操作以执行实施例一或二所述方法的步骤：

实施例四：

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现实施例一或二所述方法的步骤：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。