CN116245018A

CN116245018A - 一种基于双变量长短时记忆算法的海浪缺测数据预报方法

Info

Publication number: CN116245018A
Application number: CN202310038861.8A
Authority: CN
Inventors: 王锦; 谢文鸿; 董昌明; 李春辉; 季巾淋
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2023-01-12
Filing date: 2023-01-12
Publication date: 2023-06-09

Abstract

本发明公开了一种基于双变量长短时记忆算法的海浪缺测数据预报方法，其具体步骤为：首先获取浮标数据A，利用机器学习的方法插补连续丢失的浮标数据，利用回归模型的方法插补单个丢失的浮标数据，形成新的浮标数据集B；利用海浪变量关联数据库，在浮标数据集B中找出与预报变量

相匹配的变量并构造双变量集V，同时确定各个双变量的训练集和验证集；将各个双变量的训练集数据输入长短时记忆算法中进行训练，得到相应的双变量LSTM模型，最后利用验证集数据对模型结果进行检验，并确定最优预测模型。该方法可以对浮标短期缺测数据进行插补和修正，还可以对长期缺失变量进行预测，有效地提高浮标数据的准确度。

Description

一种基于双变量长短时记忆算法的海浪缺测数据预报方法

技术领域

本发明涉及海浪缺测数据预报技术领域，具体为一种基于双变量长短时记忆算法的海浪缺测数据预报方法。

背景技术

海浪是常见的海洋现象之一，海浪的能量来源主要是风。风向海面传输能量，导致海水高低起伏的运动，形成了海面的波浪。除风之外，海浪的形成也受到其他海洋和大气因素的影响，海浪的传播过程非常复杂，而海浪要素之间也满足一定的制约关系。海浪有巨大的破坏力，海浪对于人类生活有着密切的关系，所以认识其分布特点与变化规律非常重要。通过浮标、雷达等观测方法可以获得真实可信的海面数据，进而还原海浪的时空分布和变化过程。

除了观测海浪，更重要的是预报海浪。最先发展的海浪数值预报建立在观测数据和理论研究的基础之上，结合区域内现时的海浪状态对区域未来的海浪状态进行计算和预报。海浪数值预报已经成为海浪预报研究中广泛采用的方法。基于海浪生消及传播规律，海浪数值模型能够对研究区域内的海浪进行模拟及预报。数值模式中使用偏微分方程进行计算。描述海洋过程的偏微分方程是复杂的。如果想要提高模式预报的精确度，需要在模式中添加更多的影响因子，这会使得模式变得更加复杂，计算时间也会增加。虽然国内外研究人员普遍采用数值模式研究海洋过程，但是物理建模不利于提高预报的高效性。

随着科技的发展，计算机性能得到了大幅度提高，为机器学习算法创造了有利的发展环境。一方面，人工智能计算比数值方法简单，不需要清楚了解物理过程的变化机制，在一定程度上弥补数值模式的不足，并且能够和数值模式相辅相成，对于提高海浪预报的时效性和准确性有很大帮助；另一方面，人工智能方法提供了一种新的海浪预报手段，扩展了海洋研究的思路，对海洋观测、海洋灾害预警具有长远的意义。目前，国内外已有很多研究学者将这种研究手段应用到海浪预报工作，并取得了很多方面的发现，例如高丽斌在《基于深度学习的台湾海峡及周边海域波浪预报研究》中在LSTM模型中使用波高、风速、风向和所要预报时刻的风速作为四种输入因子来训练浮标数据，结果表明输入的变量越多，输入期数(历史时间序列)越多，预测结果最好，但如果浮标数据缺失较多，预报结果就会大大降低。

同时大量的研究表明海浪的生成跟风速等有密切关系，其中生成后的波浪和周期满足海浪弥散关系，例如“文氏风浪谱”考虑了风浪成长的关系，通过增加外部条件来克服海浪模式的耗散问题，表明海浪和风有强相互关系，研究波浪的变化不能忽视风的影响等。

因此，如何对浮标数据缺失进行处理进而提高预报结果的准确性，如何根据海浪生成特点、利用影响海浪的生成的因素和海浪之间的相关性，通过机器学习算法挖掘并自主分析数据的变化规律，通过训练学习获得一系列复杂、非线性的海洋特征，从而实现海浪缺测数据的预报的可靠性就变得尤为重要。

发明内容

本发明的目的在于提供一种基于双变量长短时记忆算法的海浪缺测数据预报方法通过对浮标数据进行插补和修正，并根据海浪生成特点和浮标数据之间的关系构建双变量LSTM模型以实现海浪缺测数据的可靠预报。

为了解决上述技术问题，本发明提供如下技术方案：一种基于机器学习的海浪缺测数据预报方法，包括：

S1、获取浮标数据集A；

S2、利用回归模型的方法插补单个丢失的浮标数据，利用机器学习的方法插补连续丢失的浮标数据，进而形成新的浮标数据集B；

S3、利用海浪变量关联数据库，在浮标数据集B中找出与预报变量

相匹配的变量并构造双变量集V，同时确定双变量集V中各个双变量的训练集和验证集；

S4、将各个双变量的训练集代入长短时记忆算法进行训练，得到对应的双变量的LSTM模型；

S5、将各个变量的验证集输入到相应的双变量LSTM模型进行缺失变量预测，并将各个预测结果与相应的验证集数据进行对比分析，评估各个双变量LSTM模型的预测性能得到预测结果，根据预设条件和预测结果确定最优预测模型。

其中，利用机器学习的方法插补连续丢失的浮标数据和利用回归模型的方法插补单个丢失的浮标数据之间具有先后顺序，首先对浮标数据集A中缺少的数据利用回归模型插补单个丢失的浮标数据，在此基础上再使用机器学习的方法插补连续丢失的浮标数据，形成新的浮标数据集B；浮标数据集A中包含着风速、波周期等变量数据，首先对获取的浮标数据集A进行缺失数据的插补，一定程度上避免了因浮标数据缺失对接下来的模型建立造成的影响。

根据上述技术方案，所述回归模型为：

ρ_t＝f(b_t-1,b_t+1)+ε；

其中，ρ_t为t时刻单个插补的浮标数据，f(b_t-1,b_t+1)表示为ρ_t与b_t-1,b_t+1之间的隐函数，t表示时间；b_t-1表示为t-1时刻的浮标数据，b_t+1表示为t+1时刻的浮标数据，ε为误差项。

根据上述技术方案，所述连续丢失的浮标数据的插补过程为：

以a_m作为输入，以连续缺失的浮标数据a_o＝M_o⊙B为目标标签，在人工掩模M_m区域内计算损失，并使用混合损失函数LOSS_FFL+L1监督网络训练；在此过程中网络将学习从含两部分连续缺失块的浮标数据a_m到观测缺失浮标数据a_o的映射关系，目标是在人工掩模M_m区域内插值缺失的浮标道；

训练完成后，将a_o带入

中，此过程的目标是用训练好的网络来插值原始掩码M_o区域的原始缺失浮标道，从而实现对连续缺失的浮标数据进行插补。

其中，a_m表示含两部分连续缺失块的浮标数据，M_m表示为人工掩模，FFL为焦点频率损失，L1表示为L1范数损失，M_o为掩码算子，

为连续缺失浮标数据的插补结果，/>

为训练网络，a_o为连续缺失的浮标数据，θ^*为优化参数，B为完整的浮标数据集。

所述连续数据的插补使用的方法为自监督学习法，其中M_o＝M_m，焦点频率损失FFL，允许网络自适应的关注频率域成分，以提高插值性能；L1范数损失在这里使用的原因是不确定浮标数据集中是否含有异常值，而L1范数损失不受异常值的影响，其中焦点频率损失FFL和L1范数损失属于现有技术，在此不作详细说明。

根据上述技术方案，所述各个双变量的训练集的确定过程为：

在海浪变量关联数据库中查询到与预报变量

相关联的变量集Ε；

将浮标数据集B中的变量与变量集Ε中的变量进行匹配，构建集合K＝{K₁，K₂，…，K_I}中，将预报变量

与集合K中的每个元素相结合，构成双变量集

中，其中集合K表示浮标数据集B与变量集Ε中相匹配的变量合集，K_I表示为在浮标数据集B中第I个与预报变量/>

相关联的变量，/>

表示为第I个双变量；

将双变量对应的浮标数据集的前ξ％作为的双变量训练集；

所述各个双变量的验证集的确定过程为：

在海浪变量关联数据库中查询到与预报变量

相关联的变量集Ε；

与集合K中的每个元素相结合，构成双变量集

相关联的变量，/>

表示为第I个双变量；

将双变量中对应的浮标数据集的后(100-ξ)％作为双变量验证集；并将双变量验证集中

和K_I对应的浮标数据分别放入/>

验证集和K_I验证集；其中，I表示浮标数据集B找与预报变量/>

相关性高的变量数量。

所述海浪变量关联数据库是由诸多变量关联集构成的，变量关联集是根据海浪生成特点构建的，具体为海浪变量d会有多个变量与之相关联，进而所有与变量d相关联的变量构成一个变量关联集；

其中，I表示浮标数据集B找与预报变量

相关性高的变量有I个，海浪生成的特点主要是指海浪的生成跟风速有密切关系，生成后的波浪和周期满足海浪弥散关系，从而考虑各个变量之间的关系(风速-波高、周期-波高等)，也可以通过数据之间的相关性给出，这个关系在本领域内是显而易见的，因此没有进行详细展开。

根据上述技术方案，所述双变量LSTM模型建立的步骤为：

将两个变量的训练集为一个n行2列的矩阵输入长短时记忆算法中进行训练，构建双变量LSTM模型；

其中，第一列表示为K_I的浮标数据，第二列表示为预报变量

的浮标数据，LSTM模型有两个传输状态，一个C_t，和一个h_t；C_t在网络传播的过程中改变很慢，代表的是一种长期的较为稳定的信息；而h_t在网络传播过程中变化会很快，代表的是短期局部的信息；每一层LSTM网络需要根据当前时刻的输入x_t和上一时刻的短期记忆h_t来更新代表长期记忆的细胞状态C_t，更新通过3个门结构来实现，3个门结构包括遗忘门、记忆门和输出门。

根据上述技术方案，将各个K_I验证集中的数据输入到对应的双变量LSTM模型中，得到对应预报变量

的预报结果；

将各个双变量模型得到的预报结果分别进行相关系数、均方根误差和平均绝对百分比误差计算，将相关系数计算结果放入新构建的集合Ψ中，将均方根误差计算结果放入新构建的集合Φ中，将平均绝对百分比误差计算结果放入新构建的集合

中；

利用if函数分别判断出集合Ψ中的最大值、集合Φ和集合

中的最小值，进而确定集合Ψ中的最大值、集合Φ和集合/>

中的最小值所对应的双变量LSTM模型，并将所对应的双变量LSTM模型放入新构建的集合Ω中；

确定集合Ω中出现次数最高的双变量LSTM模型，并利用if函数判断集合Ω中出现次数最高的双变量LSTM模型是否唯一；

若集合Ω中出现次数最高的双变量LSTM模型是唯一的，则证明双变量LSTM模型为最优预测模型；

若集合Ω中出现次数最高的双变量LSTM模型不是唯一的，则将集合Ψ中最大值对应的双变量LSTM模型认定为最优预测模型；

其中，集合Ψ中的最大值、集合Φ和集合

中的最小值不是唯一的。

在此过程中，验证集数据中选取m个点进行K小时预测，即先取验证集中的前m个数据，预报第m+k-1时刻的波高值，依次类推，直至预报完全时刻，在此过程中，不需要输入波高的验证集数据，就可完成预测。而类似的单变量过程则需要波高的验证集数据，所以单变量LSTM模型实际上实现的是后报；

其中，相关系数能够反映变量与变量之间的相关程度，均方根误差刻画模拟结果和实测值的偏差，对于极端值较为敏感平均绝对百分比误差，用百分比表示预测值偏离实测值的程度；相关系数、均方根误差和平均绝对百分比误差的方法属于现有技术在此不做详细说明。

一种基于双变量长短时记忆算法的海浪缺测数据预报系统，其特征在于：包括

数据获取模块，用于获取浮标数据集A，

数据插补模块，用于利用回归模型的方法插补单个丢失的浮标数据，利用机器学习的方法插补连续丢失的浮标数据，进而形成新的浮标数据集B；

关联变量确定模块，用于利用海浪变量关联数据库，在浮标数据集B中找出与预报变量

双变量模型构建模块，用于将各个双变量的训练集代入长短时记忆算法进行训练，得到对应的双变量的LSTM模型；

最优预测模型确定模块，将各个变量的验证集输入到相应的双变量LSTM模型进行缺失变量预测，并将各个预测结果与相应的验证集数据进行对比分析，评估各个双变量LSTM模型的预测性能得到预测结果，根据预设条件和预测结果确定最优预测模型。

一种基于双变量长短时记忆算法的海浪缺测数据预报装置，其特征在于：包括处理器和存储器，所述存储器存储有计算机程序，所述处理器执行计算机程序时实现如权利要求1所述的一种基于双变量长短时记忆算法的海浪缺测数据预报方法的步骤。

此方案还可应用于浮标数据集中单个变量长时间连续缺测的情况，但前提是要有一年的连续观测数据，即可和相关变量组成双变量，进行模型训练，然后通过相关变量可进行长期预测。

与现有技术相比，本发明所达到的有益效果是：对于连续浮标数据的缺失采用机器学习自监督的方式进行浮标数据插补，同时该自监督网络是以缺失的浮标数据作为目标标签，更加适用于实际情况，使其得到的插补值更接近真值；对于单个缺失的浮标数据采用回归模型进行浮标数据插补，考虑缺失点和邻近两点的关联性，使得插补的浮标数据更加精准；对于连续长时间单个变量缺测的浮标数据，采用双变量短时记忆模型，寻找与缺失变量高度相关的变量组成双变量进行机器学习，最后通过输入相关变量预报时刻前n个时刻的值来预测缺失变量的时间变化序列，从而达到快速精确预报缺测浮标数据的目的，同时该模型与其它预报模型相比无需添加更多的影响因子，减少了模型的复杂程度和计算量。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种基于双变量长短时记忆算法的海浪缺测数据预报方法流程示意图；

图2是LSTM模型结构图；

图3为46083号浮标6小时预报结果对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图3，本发明提供技术方案：一种基于机器学习的海浪缺测数据预报方法包括：

S1、获取浮标数据集A；

其中，回归模型为：

ρ_t＝f(b_t-1,b_t+1)+ε；

连续丢失的浮标数据的插补过程为：

以a_m作为输入，以连续缺失的浮标数据a_o＝M_o⊙B为目标标签，在人工掩模M_m区域内计算损失，并使用混合损失函数LOSS_FFL+L1监督网络训练，训练完成后，将a_o带入

中，实现连续丢失的浮标数据的插补；

为连续缺失浮标数据的插补结果，/>

连续数据的插补使用的方法为自监督学习法，其中M_o＝M_m，焦点频率损失FFL，允许网络自适应的关注频率域成分，以提高插值性能；L1范数损失在这里使用的原因是不确定浮标数据集中是否含有异常值，而L1范数损失数不受异常值的影响，其中焦点频率损失FFL和L1范数损失数属于现有技术，在此不作详细说明。

其中，各个双变量的训练集的确定过程为：

在海浪变量关联数据库中查询到与预报变量

相关联的变量集Ε；

与集合K中的每个元素相结合，构成双变量集

相关联的变量，/>

表示为第I个双变量；

将双变量对应的浮标数据集的前ξ％作为的双变量训练集；

所述各个双变量的验证集的确定过程为：

在海浪变量关联数据库中查询到与预报变量

相关联的变量集Ε；

与集合K中的每个元素相结合，构成双变量集

相关联的变量，/>

表示为第I个双变量；

和K_I对应的浮标数据分别放入/>

验证集和K_I验证集；其中，I表示浮标数据集B找与预报变量/>

相关性高的变量数量，例如在海浪变量关联数据库中查询到与预报变量/>

波高相关联的变量集Ε；并在浮标数据集B中的变量与变量集Ε中的变量进行匹配，匹配成功的变量为风速、周期。

S4、将各个双变量的训练集代入长短时记忆算法进行训练，得到对应的双变量的LSTM模型，其中，双变量LSTM模型建立的步骤为：

将两个变量的训练集输入长短时记忆算法中进行训练，构建双变量LSTM模型；

其中，双变量的训练集是一个n行2列的矩阵，LSTM模型有两个传输状态，一个C_t，和一个h_t；C_t在网络传播的过程中改变很慢，代表的是一种长期的较为稳定的信息；而h_t在网络传播过程中变化会很快，代表的是短期局部的信息；每一层LSTM网络需要根据当前时刻的输入x_t和上一时刻的短期记忆h_t来更新代表长期记忆的细胞状态C_t，更新通过3个门结构来实现。

S5、将各个变量的验证集输入到相应的双变量LSTM模型进行缺失变量预测，并将各个预测结果与相应的验证集数据进行对比分析，评估各个双变量LSTM模型的预测性能得到预测结果，根据预设条件和预测结果确定最优预测模型，具体为：

将各个K_I验证集中的数据输入到对应的双变量LSTM模型中，得到对应预报变量

的预报结果；

中；

利用if函数分别判断出集合Ψ中的最大值、集合Φ和集合

中的最小值，进而确定集合Ψ中的最大值、集合Φ和集合/>

其中，集合Ψ中的最大值、集合Φ和集合

中的最小值不是唯一的。

在此过程中，验证集数据中选取m个点进行K小时预测，即先取验证集中的前m个数据，预报第m+k-1时刻的波高值，依次类推，直至预报完全时刻，在此过程中，不需要输入波高的验证集数据，就可完成预测。而类似的单变量过程则需要波高的验证集数据，所以单变量LSTM模型实际上实现的是后报；例如m＝6，k＝1，预报6个时刻的波高值。

实施例：

本发明选择位于北太平洋的46083号2019-2020年波高数据，时间间隔为1小时，时间选择为2019年1月1日0时到2020年12月31日23时，其中浮标数据集中含有风速数据、周期数据等；

利用机器学习的方法插补浮标数据集A中连续丢失的浮标数据，利用回归模型的方法插补浮标数据集A中单个丢失的浮标数据，进而形成新的浮标数据集B；

其中预报变量

为波高，在海浪变量关联数据库中查询到与预报变量/>

相关联的变量集Ε；并在浮标数据集B中的变量与变量集Ε中的变量进行匹配，匹配成功的变量为风速、周期，则建立风速_波高、周期_波高双变量模型，风速-波高双变量模型以2019年观测的风速和波高时间序列为训练集，2020年观测的风速和波高时间序列为验证集；周期-波高双变量模型以2019年观测的周期和波高时间序列为训练集，2020年观测的周期和波高时间序列为验证集；

将周期_波高训练集数据(n×2阶矩阵)代入双变量LSTM模型进行训练；将风速的验证集数据输入训练好的风速-波高模型，将波高验证集数据输入训练好的周期-波高模型，最后得到波高的预测结果，在此过程中，验证集数据中选取m个点进行K小时预测，即先取验证集中的前m个数据，预报第m+k-1时刻的波高值，依次类推，直至预报完全时刻，在此过程中，不需要输入波高的验证集数据，就可完成预测。而类似的单变量过程则需要波高的验证集数据，所以单变量LSTM模型实际上实现的是后报，在本例中m＝6，k＝1，3，6，12；

将双变量LSTM模型中得到的预测结果与单变量预报结果进行对比，得到如图3所示的46083号浮标6小时预报结果对比图，并采用相关系数、均方根误差和平均绝对百分比误差的方法，如表1所示得到46083号浮标三种预报模式计算结果对比，从而进一步检验该方法在处理缺测数据方面的可行性和优越性，进而得到最优的预测模型——周期_波高双变量LSTM模型。

表1

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。